发明公开
- 专利标题: 基于句义结构模型的开放式实体关系抽取方法
- 专利标题(英): Open entity relationship extracting method based on sentence meaning structure model
-
申请号: CN201810234056.1申请日: 2018-03-21
-
公开(公告)号: CN108363816A公开(公告)日: 2018-08-03
- 发明人: 罗森林 , 尹继泽 , 潘丽敏 , 郭佳 , 吴舟婷
- 申请人: 北京理工大学
- 申请人地址: 北京市海淀区中关村南大街5号
- 专利权人: 北京理工大学
- 当前专利权人: 北京理工大学
- 当前专利权人地址: 北京市海淀区中关村南大街5号
- 主分类号: G06F17/30
- IPC分类号: G06F17/30 ; G06F17/27
摘要:
本发明涉及基于句义结构模型的开放式实体关系抽取方法,属于计算机与信息科学技术领域。本发明首先提取微博数据的正文,进行分句、分词、去停用词和词性标注,再利用依存分析工具,得到依存句法解析树;其次通过基本名词识别规则确定候选论元,结合关系词抽取规则和论元抽取规则得到实体关系三元组,利用置信度计算规则筛选实体关系三元组,得到候选实体关系对;然后基于CSM计算句子相似度得到Sim1,基于PV计算句子相似度得到Sim2,并进行相似度加权融合得到句子相似度,从而得到句子相似度矩阵;最后通过生成的句子相似度矩阵,根据相似度阈值,划分相似句子组,并结合组内句子包含的实体关系对与其对应的置信度,合并组内实体关系对。本发明在NLP&&CC微博评测语料上进行实验,结果表明通过计算实体关系对置信度和划分相似句子组,合并组内实体关系对,提高了准确率和召回率,达到了去冗余的效果。