-
公开(公告)号:CN109934251A
公开(公告)日:2019-06-25
申请号:CN201811615581.4
申请日:2018-12-27
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 北京天融信网络安全技术有限公司
IPC: G06K9/62
Abstract: 本发明涉及一种用于小语种文本识别的方法,包括以下步骤:S1.构建来源于不同语种的训练文本集;S2.对训练文本集中的文本进行基于字节的N-gramrank特征的提取;S3.对训练文本集中的文本进行基于互信息的度量特征的提取,即计算文本中的所有信息字节在单个语种中的信息度量;S4.对训练文本集中的文本进行基于转移概率的概率特征的提取,即计算文本中所有相邻字节能在单个语种中表达完整信息的概率;S5.利用步骤S2~S4提取的特征训练分类器;S6.对待识别的文本按照步骤S2~S4进行特征的提取,然后将提取的特征输入分类器中进行识别,分类器输出语种识别结果。
-
公开(公告)号:CN109934251B
公开(公告)日:2021-08-06
申请号:CN201811615581.4
申请日:2018-12-27
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 北京天融信网络安全技术有限公司
IPC: G06K9/62
Abstract: 本发明涉及一种用于小语种文本识别的方法,包括以下步骤:S1.构建来源于不同语种的训练文本集;S2.对训练文本集中的文本进行基于字节的N‑gramrank特征的提取;S3.对训练文本集中的文本进行基于互信息的度量特征的提取,即计算文本中的所有信息字节在单个语种中的信息度量;S4.对训练文本集中的文本进行基于转移概率的概率特征的提取,即计算文本中所有相邻字节能在单个语种中表达完整信息的概率;S5.利用步骤S2~S4提取的特征训练分类器;S6.对待识别的文本按照步骤S2~S4进行特征的提取,然后将提取的特征输入分类器中进行识别,分类器输出语种识别结果。
-