-
公开(公告)号:CN110196968B
公开(公告)日:2023-04-07
申请号:CN201910488932.8
申请日:2019-06-06
Applicant: 北京林业大学
IPC: G06F40/126 , G06F40/279 , G06F40/216 , G06F16/903
Abstract: 本发明涉及一种基于特定字符串查找的简体中文编码方式自动识别系统及方法,包括:字符串集合设置模块及中文文本编码识别模块,其中:字符串集合设置模块:用于设置GB 18030和UTF8的排他字符串集合,及GB 18030编码和UTF8编码的高概率字符串集合;中文文本编码识别模块:根据GB 18030编码和UTF8编码的排他字符串集合的逻辑属性和高概率字符串集合的概率属性识别目标文本的简体中文编码方式。能够通过对几个常用汉字特定编码字符串的查找,快速确定简体中文文本的编码方式;既适用于浏览器、网页爬虫等软件快速识别简体中文网页的编码方式,也可用于对未知中文文本编码方式的自动识别。本发明对于网页自动显示、文本信息提取、中文文本语义分析等方面具有重要的应用价值。
-
公开(公告)号:CN110196968A
公开(公告)日:2019-09-03
申请号:CN201910488932.8
申请日:2019-06-06
Applicant: 北京林业大学
IPC: G06F17/22 , G06F17/27 , G06F16/903
Abstract: 本发明涉及一种基于特定字符串查找的简体中文编码方式自动识别系统及方法,包括:字符串集合设置模块及中文文本编码识别模块,其中:字符串集合设置模块:用于设置GB 18030和UTF8的排他字符串集合,及GB 18030编码和UTF8编码的高概率字符串集合;中文文本编码识别模块:根据GB 18030编码和UTF8编码的排他字符串集合的逻辑属性和高概率字符串集合的概率属性识别目标文本的简体中文编码方式。能够通过对几个常用汉字特定编码字符串的查找,快速确定简体中文文本的编码方式;既适用于浏览器、网页爬虫等软件快速识别简体中文网页的编码方式,也可用于对未知中文文本编码方式的自动识别。本发明对于网页自动显示、文本信息提取、中文文本语义分析等方面具有重要的应用价值。
-