一种中文分词系统
    1.
    发明公开

    公开(公告)号:CN111832299A

    公开(公告)日:2020-10-27

    申请号:CN202010689156.0

    申请日:2020-07-17

    Abstract: 本发明公开了一种中文分词系统,涉及自然语言处理技术领域,所述系统包括:文本获取模块,用于获得文本文件数据;文本预处理模块:用于对文本文件数据进行预处理,获得待分词文本数据;分词模块:用于基于词典对待分词文本数据进行分词处理,获得文本数据分词结果;新词发现模块:用于对文本数据分词结果进行互信息计算,基于互信息计算结果识别新词,并将识别的新词存入分词模块的分词词典中。本发明优化了分词的召回率和准确率,其有了较大的提高;解决了专业领域中专业词库的新词来源;优化了搜索到要匹配的词语的速度,也大大提高了整体分词速度。

Patent Agency Ranking