一种基于信息熵的领域单文本分词方法与系统

发明公开

CN116522922A 一种基于信息熵的领域单文本分词方法与系统审中-实审

请登陆查看更多内容

专利标题： 一种基于信息熵的领域单文本分词方法与系统
申请号： CN202310404223.3

申请日： 2023-04-17
公开(公告)号： CN116522922A

公开(公告)日： 2023-08-01
发明人: 邓吉秋 , 唐宇 , 郭志勇 , 邱蓝 , 吴军 , 王飞龙
申请人： 中南大学
申请人地址： 湖南省长沙市岳麓区麓山南路932号
专利权人： 中南大学
当前专利权人： 中南大学
当前专利权人地址： 湖南省长沙市岳麓区麓山南路932号
代理机构： 长沙启昊知识产权代理事务所
代理商 谢珍贵
主分类号： G06F40/289
IPC分类号： G06F40/289

摘要：

本发明涉及自然语言处理技术领域，具体公开了一种基于信息熵的领域单文本分词方法，包括：获取待分词文本；遍历文本，计算单字符信息熵，并选取停用字；遍历文本，枚举所有可能的字符串连接组合形成候选词项，并计算各个候选词项的左右信息熵，以生成并记录候选词集；通过候选词集进行分词：遍历候选词集，记录不包含停用字且与已记录的分词结果无冲突的候选词项为分词结果，当候选词项与已记录的分词结果冲突时，记录并更新更满足边界冲突消减算法的候选词项为分词结果；对分词结果进行二次遍历，若存在停用字与前后某一单字组合信息熵更高且不为零，合并停用字与该单字，得到最终分词结果。本发明针对领域单文本的分词效果优秀，准确率更高。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/20	.自然语言分析（自然语言的语义分析入G06F40/30）
G06F40/279	..文字实体的识别
G06F40/289	...短语分析，例如有限状态技术或分块