Patent search ap:("国家计算机网络与信息安全管理中心广东分中心" OR "北京天融信网络安全技术有限公司") AND inv:"林建树" Page 1

1.

发明公开
一种用于小语种文本识别的方法、识别系统及存储介质有权

公开(公告)号：CN109934251A

公开(公告)日：2019-06-25

申请号：CN201811615581.4

申请日：2018-12-27

Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 北京天融信网络安全技术有限公司

Inventor： 李高翔 , 周小敏 , 石易 , 鲍青波 , 黄彦龙 , 宋宜昌 , 周晓阳 , 林建树 , 林佳涛 , 周神保

IPC: G06K9/62

Abstract: 本发明涉及一种用于小语种文本识别的方法，包括以下步骤：S1.构建来源于不同语种的训练文本集；S2.对训练文本集中的文本进行基于字节的N-gramrank特征的提取；S3.对训练文本集中的文本进行基于互信息的度量特征的提取，即计算文本中的所有信息字节在单个语种中的信息度量；S4.对训练文本集中的文本进行基于转移概率的概率特征的提取，即计算文本中所有相邻字节能在单个语种中表达完整信息的概率；S5.利用步骤S2～S4提取的特征训练分类器；S6.对待识别的文本按照步骤S2～S4进行特征的提取，然后将提取的特征输入分类器中进行识别，分类器输出语种识别结果。

2.

发明授权
一种用于小语种文本识别的方法、识别系统及存储介质有权

公开(公告)号：CN109934251B

公开(公告)日：2021-08-06

申请号：CN201811615581.4

申请日：2018-12-27

Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 北京天融信网络安全技术有限公司

Inventor： 李高翔 , 周小敏 , 石易 , 鲍青波 , 黄彦龙 , 宋宜昌 , 周晓阳 , 林建树 , 林佳涛 , 周神保

IPC: G06K9/62

Abstract: 本发明涉及一种用于小语种文本识别的方法，包括以下步骤：S1.构建来源于不同语种的训练文本集；S2.对训练文本集中的文本进行基于字节的N‑gramrank特征的提取；S3.对训练文本集中的文本进行基于互信息的度量特征的提取，即计算文本中的所有信息字节在单个语种中的信息度量；S4.对训练文本集中的文本进行基于转移概率的概率特征的提取，即计算文本中所有相邻字节能在单个语种中表达完整信息的概率；S5.利用步骤S2～S4提取的特征训练分类器；S6.对待识别的文本按照步骤S2～S4进行特征的提取，然后将提取的特征输入分类器中进行识别，分类器输出语种识别结果。

Patent Agency Ranking