发明授权
- 专利标题: 术语抽取方法和装置
-
申请号: CN201710566573.4申请日: 2017-07-12
-
公开(公告)号: CN107544958B公开(公告)日: 2020-02-18
- 发明人: 李涓子 , 潘亮铭 , 王笑尘 , 唐杰 , 张鹏
- 申请人: 清华大学
- 申请人地址: 北京市海淀区清华园北京100084-82信箱
- 专利权人: 清华大学
- 当前专利权人: 清华大学
- 当前专利权人地址: 北京市海淀区清华园北京100084-82信箱
- 代理机构: 北京路浩知识产权代理有限公司
- 代理商 王庆龙; 曹杰
- 主分类号: G06F40/30
- IPC分类号: G06F40/30 ; G06F40/284
摘要:
本发明提供术语抽取方法和装置,用于解决基于统计信息抽取获得术语的方法对于目标语料规模有着较大的需求;而较小的语料规模往往会造成低频词的统计不可靠性的问题。方法包括:抽取第一语料中的名词和名词短语,作为候选术语集合T;根据百科语料和候选术语集合T,获得候选术语的嵌入表示;根据候选术语的嵌入表示,计算候选术语间的语义相关度;以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络G=(E,V)。其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;根据术语传播网络使用置信度传播算法对候选术语进行排序;根据排序筛选术语。本发明极大地提高了术语抽取的性能。
公开/授权文献
- CN107544958A 术语抽取方法和装置 公开/授权日:2018-01-05