-
公开(公告)号:CN106569997A
公开(公告)日:2017-04-19
申请号:CN201610912585.3
申请日:2016-10-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。