发明公开
- 专利标题: 一种基于信息熵的领域单文本分词方法与系统
-
申请号: CN202310404223.3申请日: 2023-04-17
-
公开(公告)号: CN116522922A公开(公告)日: 2023-08-01
- 发明人: 邓吉秋 , 唐宇 , 郭志勇 , 邱蓝 , 吴军 , 王飞龙
- 申请人: 中南大学
- 申请人地址: 湖南省长沙市岳麓区麓山南路932号
- 专利权人: 中南大学
- 当前专利权人: 中南大学
- 当前专利权人地址: 湖南省长沙市岳麓区麓山南路932号
- 代理机构: 长沙启昊知识产权代理事务所
- 代理商 谢珍贵
- 主分类号: G06F40/289
- IPC分类号: G06F40/289
摘要:
本发明涉及自然语言处理技术领域,具体公开了一种基于信息熵的领域单文本分词方法,包括:获取待分词文本;遍历文本,计算单字符信息熵,并选取停用字;遍历文本,枚举所有可能的字符串连接组合形成候选词项,并计算各个候选词项的左右信息熵,以生成并记录候选词集;通过候选词集进行分词:遍历候选词集,记录不包含停用字且与已记录的分词结果无冲突的候选词项为分词结果,当候选词项与已记录的分词结果冲突时,记录并更新更满足边界冲突消减算法的候选词项为分词结果;对分词结果进行二次遍历,若存在停用字与前后某一单字组合信息熵更高且不为零,合并停用字与该单字,得到最终分词结果。本发明针对领域单文本的分词效果优秀,准确率更高。