基于主动学习的微博流行度预测方法

    公开(公告)号:CN109492776B

    公开(公告)日:2022-05-17

    申请号:CN201811393919.6

    申请日:2018-11-21

    Abstract: 本发明提供一种基于主动学习的微博流行度预测方法,包括如下步骤:利用新浪微博API爬取相关微博数据集;利用K‑Means算法将未标记数据集初始化训练集L;对训练数据进行特征提取得到特征向量;根据提取的特征向量训练基于支持向量机的主动学习的改进的模型,根据训练的多分类模型从未标记的样本集中选择出既有不确定性又具有多样性和代表性的样本;将筛选出的样本称为信息向量,交给专家标记;将标记的训练数据加入到初始训练集L中,循环此过程直到模型的性能达到稳定状态为止得到微博流行度预测模型。本发明减少了冗余性问题并降低了异常值问题,减少了训练样本的标记数量,同时也使得在训练数据少的情况下也得到很好的预测效果。

    基于主动学习的微博流行度预测方法

    公开(公告)号:CN109492776A

    公开(公告)日:2019-03-19

    申请号:CN201811393919.6

    申请日:2018-11-21

    Abstract: 本发明提供一种基于主动学习的微博流行度预测方法,包括如下步骤:利用新浪微博API爬取相关微博数据集;利用K-Means算法将未标记数据集初始化训练集L;对训练数据进行特征提取得到特征向量;根据提取的特征向量训练基于支持向量机的主动学习的改进的模型,根据训练的多分类模型从未标记的样本集中选择出既有不确定性又具有多样性和代表性的样本;将筛选出的样本称为信息向量,交给专家标记;将标记的训练数据加入到初始训练集L中,循环此过程直到模型的性能达到稳定状态为止得到微博流行度预测模型。本发明减少了冗余性问题并降低了异常值问题,减少了训练样本的标记数量,同时也使得在训练数据少的情况下也得到很好的预测效果。

Patent Agency Ranking