基于主动学习的微博流行度预测方法

    公开(公告)号:CN109492776B

    公开(公告)日:2022-05-17

    申请号:CN201811393919.6

    申请日:2018-11-21

    Abstract: 本发明提供一种基于主动学习的微博流行度预测方法,包括如下步骤:利用新浪微博API爬取相关微博数据集;利用K‑Means算法将未标记数据集初始化训练集L;对训练数据进行特征提取得到特征向量;根据提取的特征向量训练基于支持向量机的主动学习的改进的模型,根据训练的多分类模型从未标记的样本集中选择出既有不确定性又具有多样性和代表性的样本;将筛选出的样本称为信息向量,交给专家标记;将标记的训练数据加入到初始训练集L中,循环此过程直到模型的性能达到稳定状态为止得到微博流行度预测模型。本发明减少了冗余性问题并降低了异常值问题,减少了训练样本的标记数量,同时也使得在训练数据少的情况下也得到很好的预测效果。

    一种基于纳什均衡理论的多纹理特征图像分割方法

    公开(公告)号:CN108510503B

    公开(公告)日:2021-05-14

    申请号:CN201810222986.5

    申请日:2018-03-19

    Abstract: 本发明提供的事一种基于纳什均衡理论的多纹理特征图像分割方法。主要包括:对图像的14种纹理特征值进行归一化处理;采用纳什均衡理论,不断的求取14个纹理特征值各自区域收益的最大值max(∑p∈Pσp),并且根据区域收益值进行相似区域的判断与合并;将结果输出至改进的基于纳什均衡的多纹理C‑V模型中,获得光滑的图像分割轮廓线。由于模型是充分利用全图像14种纹理信息进行计算的,所以得到的结果更加全面和准确。

    一种基于船舶数值虚拟试验的报告自动生成方法

    公开(公告)号:CN110991156A

    公开(公告)日:2020-04-10

    申请号:CN201911142359.1

    申请日:2019-11-20

    Abstract: 本发明是一种基于船舶数值虚拟试验的报告自动生成方法。本发明本发明主要包括:框架设计、数据处理、后处理、数据替换和框架集成。本发明提出的基于船舶数值虚拟试验的报告自动生成方法,可以将在网页进行虚拟试验时所生成的json文件或相关的数据文件通过智能抽取,自动将其转换成对应的图像、表格、文本,并生成试验报告。这种试验报告自动生成的方法不但可以准确的表达数据之间的关系,还可以展现出各种试验结果。使试验结果具有更好的通用性和一致性,并且提高了生成试验报告的效率。

    一种弱标注环境下的分段式语义标注方法

    公开(公告)号:CN110888991A

    公开(公告)日:2020-03-17

    申请号:CN201911190029.X

    申请日:2019-11-28

    Abstract: 本发明提供的是一种弱标注环境下的分段式语义标注方法。(1)输入待标注文本,使用数据挖掘算法自动化构建文本主题相关的“类别-实体-关系-扩展”四层领域本体;(2)使用已构建的四层领域本体对弱标记文本进行语义标注;(3)采用加入注意力机制的卷积神经网络对已标注的段落文本进行段落句群划分;(4)综合使用词袋模型验证句群划分准确性并对新生成的句群的标注信息进行筛选。本发明对历史、文学、娱乐、计算机等不同领域的文本均具有较好的标注和句群划分效果,解决了多学科弱标记资源文本无法准确处理和分析的问题,可以帮助用户缩小检索范围,快速找到搜索结果,提高搜索准确性。

    一种结合用户结构相似度进行微博情感分析的方法

    公开(公告)号:CN109508380A

    公开(公告)日:2019-03-22

    申请号:CN201910041751.0

    申请日:2019-01-16

    Abstract: 本发明涉及一种结合用户结构相似度进行微博情感分析的方法。方法包括以下步骤:(1)根据微博用户之间的关注关系,计算用户之间的结构相似度,建立用户相似度矩阵,即情绪感染性矩阵,同时建立情绪感染性模型;(2)根据社会学中的情感一致性理论,建立微博之间的情感一致性关系矩阵,同时建立情绪一致性模型;(3)使用前两步生成的模型,建立根据微博间关系矩阵形成的微博情感分析模型;(4)在前三步的基础上,加入使用微博文本内容的情感分析模型;(5)对第四步建立的模型进行优化,求解出微博情感分析器。本发明的优势在于针对微博数据的特点,提出了结合微博数据间关系的方法进行情感分析,有效的提高了微博情感分析的准确率。

    一种基于微博用户自身和行为价值二阶的影响力评估方法

    公开(公告)号:CN109492924A

    公开(公告)日:2019-03-19

    申请号:CN201811393912.4

    申请日:2018-11-21

    Abstract: 一种基于微博用户自身和行为价值二阶的影响力评估方法,属于计算机数据挖掘技术领域。包括:(1)利用爬虫技术和微博官方API接口采集微博数据;(2)对采集后的数据处理,得出所需用户的特征向量;(3)通过用户所有粉丝的自身价值来计算该用户的自身价值;(4)通过用户所有推送转发者的行为价值来计算用户的行为价值;(5)综合用户的自身与行为价值计算用户最终的影响力。本发明通过对用户粉丝数量、质量的计算和用户推送微博的转发者行为质量的计算,即避免了僵尸粉、推销商造成的虚假影响力又突出了推送较少但质量极高的用户的隐藏影响力;对于发现微博平台中信息的传播规律、广告投放、病毒式营销和舆情管控等工作具有重要意义。

    一种基于角点检测的医学图像处理方法

    公开(公告)号:CN108830842A

    公开(公告)日:2018-11-16

    申请号:CN201810561043.5

    申请日:2018-06-04

    Abstract: 本发明提供的是一种基于角点检测的医学图像处理方法。一:对医学图像进行预处理;二:提取Harris角点;三:计算尺度归一化算子,检测每个点在某一个尺度响应值是否达到最大,获得提取的角点矩阵;四:获得了图像的角点矩阵之后将获得的点在图像中绘制出来,之后将角点矩阵传给聚类算法,进行聚类处理;五:给出一个K值,按照Kmeans算法进行聚类处理,用相似度矩阵作为判别函数,相似度低于阈值的类,不再进行合并。本发明无论是效果还是处理效率,亦或是在实际中的应用方面,均表现出了优越性与极大的适用价值。

    一种长文本到短文本的迁移学习方法

    公开(公告)号:CN103324708B

    公开(公告)日:2016-06-29

    申请号:CN201310241428.0

    申请日:2013-06-18

    Abstract: 本发明涉及一种长文本到短文本的迁移学习方法,其特征在于:步骤1:根据目标领域短文本中提取的标签,通过搜索引擎获得源领域数据,提取源领域的种子特征集;步骤2:根据目标领域短文本的标签集和源领域的种子特征集,构建社交媒体无向图,从无向图中提取包含所有目标领域标签集和种子特征集节点的子图;步骤3:基于拉普拉斯特征映射算法,获得源领域数据新的特征表示;步骤:4:根据源领域数据新的特征表示,对源领域数据进行分类。

    一种通用的自主数据采集方法

    公开(公告)号:CN101221564A

    公开(公告)日:2008-07-16

    申请号:CN200710072606.6

    申请日:2007-08-03

    Abstract: 本发明提供的是一种通用的自主数据采集方法。包括(1)创建核心数据库表采集库配置信息与采集库详细信息;(2)管理部门设置采集库结构;(3)为采集库生成采集模板;(4)为采集库创建Web模板;(5)为采集库创建Word模板。采用了本发明所述的方法后,管理部门只需要通过应用程序接口自主设置各类采集数据的结构,各类采集需要的Excel模板、Word模板与Web模板,就可自行采集数据,而不需要重新开发一套新的采集软件来实现预期的功能。

Patent Agency Ranking