一种基于信息熵的领域单文本分词方法与系统
摘要:
本发明涉及自然语言处理技术领域,具体公开了一种基于信息熵的领域单文本分词方法,包括:获取待分词文本;遍历文本,计算单字符信息熵,并选取停用字;遍历文本,枚举所有可能的字符串连接组合形成候选词项,并计算各个候选词项的左右信息熵,以生成并记录候选词集;通过候选词集进行分词:遍历候选词集,记录不包含停用字且与已记录的分词结果无冲突的候选词项为分词结果,当候选词项与已记录的分词结果冲突时,记录并更新更满足边界冲突消减算法的候选词项为分词结果;对分词结果进行二次遍历,若存在停用字与前后某一单字组合信息熵更高且不为零,合并停用字与该单字,得到最终分词结果。本发明针对领域单文本的分词效果优秀,准确率更高。
0/0