-
公开(公告)号:CN105677640A
公开(公告)日:2016-06-15
申请号:CN201610011936.3
申请日:2016-01-08
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/2765 , G06N5/022
Abstract: 本发明提供一种面向开放文本的领域概念抽取方法,包括:1)遍历开放文本集合,从每一篇开放文本中提取候选领域概念;对于每一候选领域概念,利用该候选领域概念的短语拆分结果、上下文信息和百科分类信息得到该候选领域概念所关联的词向量,将该词向量中的所有的词分别作为该候选领域概念所关联的领域标签;3)用步骤1)得出的所有候选领域概念构建候选领域概念集合A,用步骤2)得出的所有领域标签构建领域标签集合B;利用HITS算法进行迭代计算,得出各个候选领域概念的领域相关度;4)利用各个候选领域概念的所述领域相关度进行领域概念的判断。本发明能够提高准确率和召回率,能够更好地识别出那些重要的低频概念。