• 专利标题: 基于句义结构模型的开放式实体关系抽取方法
  • 专利标题(英): Open entity relationship extracting method based on sentence meaning structure model
  • 申请号: CN201810234056.1
    申请日: 2018-03-21
  • 公开(公告)号: CN108363816A
    公开(公告)日: 2018-08-03
  • 发明人: 罗森林尹继泽潘丽敏郭佳吴舟婷
  • 申请人: 北京理工大学
  • 申请人地址: 北京市海淀区中关村南大街5号
  • 专利权人: 北京理工大学
  • 当前专利权人: 北京理工大学
  • 当前专利权人地址: 北京市海淀区中关村南大街5号
  • 主分类号: G06F17/30
  • IPC分类号: G06F17/30 G06F17/27
基于句义结构模型的开放式实体关系抽取方法
摘要:
本发明涉及基于句义结构模型的开放式实体关系抽取方法,属于计算机与信息科学技术领域。本发明首先提取微博数据的正文,进行分句、分词、去停用词和词性标注,再利用依存分析工具,得到依存句法解析树;其次通过基本名词识别规则确定候选论元,结合关系词抽取规则和论元抽取规则得到实体关系三元组,利用置信度计算规则筛选实体关系三元组,得到候选实体关系对;然后基于CSM计算句子相似度得到Sim1,基于PV计算句子相似度得到Sim2,并进行相似度加权融合得到句子相似度,从而得到句子相似度矩阵;最后通过生成的句子相似度矩阵,根据相似度阈值,划分相似句子组,并结合组内句子包含的实体关系对与其对应的置信度,合并组内实体关系对。本发明在NLP&&CC微博评测语料上进行实验,结果表明通过计算实体关系对置信度和划分相似句子组,合并组内实体关系对,提高了准确率和召回率,达到了去冗余的效果。
0/0