一种人物属性抽取训练数据集构建方法

    公开(公告)号:CN109033166A

    公开(公告)日:2018-12-18

    申请号:CN201810636331.2

    申请日:2018-06-20

    Abstract: 本发明公开了一种人物属性抽取训练数据集构建方法。首先,下载HTML页面中的文本数据内容,提取描述人物正文内容和属性信息的信息框数据,并进行编码存储和语句切分;然后,对切分后的语句,选取既包含人物名称、人物属性值内容的语句构建人物属性抽取语料数据集;最后,提取人物属性抽取语料数据集中的所有动词,基于信息熵的方法对所有动词进行排序,提取排名靠前的动词作为属性触发词,把人物属性抽取语料数据集中不包含属性触发词的语句删除掉,剩下的语句就组成了人物属性抽取训练数据集。本发明综合利用的网页数据采集、词性分析、词语信息熵计算等技术自动构建人物属性抽取训练数据集,对提高训练数据集构建的效率具有重要意义。

    一种新闻事件中人物观点抽取方法

    公开(公告)号:CN108984521A

    公开(公告)日:2018-12-11

    申请号:CN201810635449.3

    申请日:2018-06-20

    Abstract: 本发明公开了一种新闻事件中人物观点抽取方法,包括观点抽取、人物观点数据库、观点检索3个部分;观点抽取部分负责对原始的新闻文本进行清理,并提取其中的观点要素包括观点持有者、观点评价对象、观点情感强度等;人物观点数据库负责存储人物、观点以及情感,以便检索和查询;观点检索部分负责响应用户的检索请求,对检索结果进行去重和合并,并返回排序的检索结果;本发明方法能够有效识别新闻中的人物观点并构建可供检索的人物观点数据库,提供了一种准确高效的人物观点抽取方法。

    一种面向特定领域的中文事件抽取方法

    公开(公告)号:CN108920447A

    公开(公告)日:2018-11-30

    申请号:CN201810426812.0

    申请日:2018-05-07

    Abstract: 本发明一种面向特定领域的中文事件抽取方法,包括:预处理:对原始数据信息去除冗余标签、分句、分词;字典构建:人工对大规模新闻语料分析,对特定领域常见角色总结,构建角色字典;对报道特定领域事件的常见句型进行总结,构建基于触发词的句型字典;句法分析:对给定的中文新闻报道语句,进行句法解析得到句法解析树;句型匹配:根据句型字典在句法树上进行句型匹配;事件要素抽取:根据角色字典在句法树上进行角色抽取,根据时间和地点要素的句法特征在句法树上进行时间和地点抽取。本发明解决了大数据环境下快速获取中文新闻资讯信息的难题,通过自动化处理,用户根据自己输入关键词即可得到关键词相关的新闻事件,为信息获取提供极大便利。

    一种概率图模型的近似推理算法

    公开(公告)号:CN107220709A

    公开(公告)日:2017-09-29

    申请号:CN201710175349.2

    申请日:2017-03-22

    CPC classification number: G06N7/005

    Abstract: 本发明公开了一种概率图模型的近似推理算法,首先利用分离算法选择有效的k‑叉环不等式约束;然后将这些k‑叉环不等式约束对应的环组合到一个平面子图上,并逐次添加到对偶子问题中;最后通过优化对偶问题来求解原推理问题,本发明研究概率图模型近似推理算法,提出了一个基于等价性定理的平面子图选择准则,利用该准则设计了一个对偶分解框架下的快速收敛推理算法,该算法首先利用分离算法选择有效的k‑叉环不等式约束,然后将这些k‑叉环不等式约束对应的环组合到一个平面子图上,并逐次添加到对偶子问题中,最后通过优化对偶问题来求解原推理问题。实验表明,该算法与其它主流近似推理算法相比,收敛速度更快。

    一种基于互补语料的短文本观点挖掘方法

    公开(公告)号:CN106227768A

    公开(公告)日:2016-12-14

    申请号:CN201610559782.1

    申请日:2016-07-15

    Abstract: 本发明公开了一种基于互补语料的短文本观点挖掘方法,是基于属性的观点挖掘;具体为:首先,从某段微博语料中选取训练语料,进行分词处理,词性标注和筛选;根据观点词将训练语料进行属性词的标注;并使用词性标注做为特征训练最大熵模型;然后,针对某个事件的微博语料和新闻语料,构建跨语料的话题模型,并结合最大熵模型,分析该事件所属的话题并提取相应的属性词分布和观点词分布;最后,针对某个具体共享话题的所有观点词或者某个具体独享话题中的所有观点词,利用情感分类器进行极性分析。本发明适用于对舆情事件的属性分析及观点挖掘,具有高效性、鲁棒性和易用性的特点,在观点挖掘、舆情监控等领域具有重要的应用价值。

    一种互联网恶意代码处置方法

    公开(公告)号:CN103942491A

    公开(公告)日:2014-07-23

    申请号:CN201310729190.6

    申请日:2013-12-25

    CPC classification number: G06F21/552 G06F21/56

    Abstract: 本发明公开了一种互联网恶意代码处置方法,包括:步骤S101,匹配可疑样本,计算可疑样本文件的哈希值,与已分析样本进行对比,判断是否已经分析过,如果是,则直接返回该可疑样本的已有分析结果;如果否,则转步骤S102;步骤S102,对于未分析过的可疑样本,调用杀毒引擎进行病毒扫描,判断该可疑样本是否属于已知恶意代码,如果是,则获得该恶意代码的信息;如果否,则转步骤S103;步骤S103,当可疑样本属于未知恶意代码时,进行全面的动态分析,得到恶意代码分析报告。本发明能自动快速分析各种恶意代码,生成恶意代码分析报告,为研究恶意代码防御和清除方法提供依据。

    一种面向移动短视频应用的用户影响力评价系统

    公开(公告)号:CN111932109B

    公开(公告)日:2023-04-07

    申请号:CN202010784889.2

    申请日:2020-08-06

    Abstract: 本发明涉及一种面向移动短视频应用的用户影响力评价系统,属于数据挖掘技术领域。本方法充分考虑了移动短视频应用域内数据和多元化的域外新媒体平台数据,分别采集移动短视频应用域内的用户基本信息、短视频信息以及域外平台关联账号的粉丝数信息等,设计评估算法分别计算基于短视频质量的域内影响力值和基于传播潜力的域外影响力值,通过一定的权重合成最终的用户影响力值。所述方法对已有的单一平台数据来源的评价方法作出改进,考虑用户的跨平台传播潜力,以适应新媒体平台“矩阵式”传播的新形势,提高对移动短视频用户影响力评价的全面性和有效性,实现评价系统的自动化运行和实时更新。

Patent Agency Ranking