-
公开(公告)号:CN104375982A
公开(公告)日:2015-02-25
申请号:CN201410564469.8
申请日:2014-10-21
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明涉及一种确定文本视觉相似度的方法,实现步骤如下:(1)计算两个字符串直接的视觉距离;(2)计算两个字符串直接相似度;(3)将以前发邮件记录中的邮件记录最大值与当前电子邮件的最大值作为分类器的特征,来检测特定字符串即电子邮件地址的相似度;(4)将利用随机森林分类器对误发送邮件进行分类训练和检测,以用于检测误发邮件。本发明达到了比传统的检测技术更高的准确率和召回率。
-
-
公开(公告)号:CN105608070B
公开(公告)日:2019-01-25
申请号:CN201510965136.0
申请日:2015-12-21
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明涉及一种面向新闻标题的人物关系抽取方法,其步骤包括:1)寻找出新闻标题中的关系指示词,用以区分不同类别的人物关系;2)根据人物与关系指示词在新闻标题中的位置特征,建立描述句子的句式模板;利用训练数据统计每个模板的正/负例个数,根据正负模板的比例判定新闻标题中人物间关系的正确性;3)从新闻标题与人物属性知识库中提取特征,通过特征分类的方法并结合步骤2)得到的句式模板的正/负例个数,判定给定的人物关系是否正确。本发明在保证准确率的同时,降低了特征维度,提高了判定效率,可用于挖掘新闻标题中的人物关系,进而发现社会中的焦点人物、热点事件等,便于及时掌握社会动态,监控舆情。
-
公开(公告)号:CN106897264A
公开(公告)日:2017-06-27
申请号:CN201710018100.0
申请日:2017-01-10
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
CPC classification number: G06F17/278
Abstract: 本发明涉及一种基于社团划分的无监督复合短语识别方法。该方法包括:1)采用词性标注工具对输入的语料进行词性标注和分词;2)生成科技复合短语的上下文模板,并通过所述上下文模板对分词后的语料进行科技复合短语的预提取;3)将预提取后的文本中的分词序列映射到有序的社团图结构,按照分词之间的权重将前后具有紧密联系的词语划分到一个社团分段中;4)计算各个社团分段的模块度,并求解不同社团分段的组合的模块度,将整个输入文本的模块度之和最大化;5)验证各社团分段是否包含科技复合短语的特征词,以实现科技复合短语的最终识别。本发明只需少量标注语料,便可以自动识别科技类复合短语,是一种高效的科技类复合短语识别方法。
-
-
公开(公告)号:CN104111983B
公开(公告)日:2017-12-19
申请号:CN201410306336.0
申请日:2014-06-30
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种开放式的多源数据采集系统及方法,包括用于根据需要创建采集任务,配置采集任务信息,生成相应的数据采集接口规则的任务管理模块;用于加载数据采集接口规则,执行处于激活状态的采集任务,相应的采集任务进行数据源监听并采集数据,将接采集的数据按照统一格式进行封装,并发送给数据存储模块的任务执行模块;用于存储数据输出模块输出的数据的数据存储模块;本发明覆盖了比较全面的数据源采集类型,支持目前通用的数据采集方式,支持数据采集接口的动态扩展和多个数据源的并行采集,当有新的数据源接入时,只需要配置数据采集任务信息,不需要部署采集代理和数据模式转换工具即可轻松实现对新数据源的数据采集。
-
公开(公告)号:CN105608070A
公开(公告)日:2016-05-25
申请号:CN201510965136.0
申请日:2015-12-21
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
CPC classification number: G06F17/2745 , G06F17/2775
Abstract: 本发明涉及一种面向新闻标题的人物关系抽取方法,其步骤包括:1)寻找出新闻标题中的关系指示词,用以区分不同类别的人物关系;2)根据人物与关系指示词在新闻标题中的位置特征,建立描述句子的句式模板;利用训练数据统计每个模板的正/负例个数,根据正负模板的比例判定新闻标题中人物间关系的正确性;3)从新闻标题与人物属性知识库中提取特征,通过特征分类的方法并结合步骤2)得到的句式模板的正/负例个数,判定给定的人物关系是否正确。本发明在保证准确率的同时,降低了特征维度,提高了判定效率,可用于挖掘新闻标题中的人物关系,进而发现社会中的焦点人物、热点事件等,便于及时掌握社会动态,监控舆情。
-
公开(公告)号:CN106569997B
公开(公告)日:2019-12-10
申请号:CN201610912585.3
申请日:2016-10-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。
-
公开(公告)号:CN106649265A
公开(公告)日:2017-05-10
申请号:CN201611053116.7
申请日:2016-11-25
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
CPC classification number: G06F17/277 , G06F17/2705
Abstract: 本发明涉及一种基于图的最大紧密度划分的复合短语无监督识别方法。该方法包括以下步骤:1)采用词性标注工具对输入语料进行词性标注和分词;2)将分词后的输入序列映射到有序的图结构中,将语义紧密度高的词语划分到一个分段内,并使得整个图的紧密度之和最大;3)通过验证各分段是否包含特征词,实现候选复合短语的最终识别。本发明能够自动识别科技类复合短语,省时省力,相比于传统的有监督方法,不需要大量标注语料,便于在线部署应用,是一种高效的科技类复合短语识别方法。
-
公开(公告)号:CN106569997A
公开(公告)日:2017-04-19
申请号:CN201610912585.3
申请日:2016-10-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。
-
-
-
-
-
-
-
-
-