- 专利标题: 一种中文文本语序调整和量词补全方法及系统
-
申请号: CN202010974604.1申请日: 2020-09-16
-
公开(公告)号: CN112417823B公开(公告)日: 2023-08-29
- 发明人: 陈益强 , 龙广玉 , 邢云冰
- 申请人: 中国科学院计算技术研究所
- 申请人地址: 北京市海淀区中关村科学院南路6号
- 专利权人: 中国科学院计算技术研究所
- 当前专利权人: 中国科学院计算技术研究所
- 当前专利权人地址: 北京市海淀区中关村科学院南路6号
- 代理机构: 北京律诚同业知识产权代理有限公司
- 代理商 祁建国
- 主分类号: G06F40/166
- IPC分类号: G06F40/166 ; G06F40/284 ; G06F40/211 ; G06F40/237 ; G06F40/253
摘要:
本发明提出一种中文文本语序调整和量词补全方法、系统,包括:将中文语料库中的词序列输入至N元语言模型,得到中文语料库的N元词表,对中文语料库中语料进行量词标注形成量词表,删除中文语料库中被标注的量词后与该中文语料库形成平行语料库,以平行语料库作为训练数据,训练双向长短期记忆模型得到量词补全模型;对待调整的中文文本进行词性标注,按照语序调整规则对中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候选集,利用N元词表在文本调序候选集进行集束搜索,依据概率选择词语,生成基于中文语料库的概率最大的语句作为文本调序结果,通过量词补全模型对文本调序结果中量词缺失的位置进行定位和填补。
公开/授权文献
- CN112417823A 一种中文文本语序调整和量词补全方法及系统 公开/授权日:2021-02-26