Patent search ap:("国家计算机网络与信息安全管理中心" OR "中国科学院计算技术研究所") AND inv:"卢杰" Page 1

1.

发明公开
一种基于模式拓展的通用特殊词识别方法及系统有权

公开(公告)号：CN111159990A

公开(公告)日：2020-05-15

申请号：CN201911244936.8

申请日：2019-12-06

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所

Inventor： 段东圣 , 任博雅 , 孙旷怡 , 井雅琪 , 时磊 , 佟玲玲 , 李扬曦 , 宋永浩 , 卢杰

IPC: G06F40/186 , G06F40/126 , G06F40/284 , G06F16/33 , G06F16/31

Abstract: 本发明提出一种基于模式拓展的通用特殊词识别方法及系统，提出了一种基于基础词的音形编码，常用汉字音节，常用汉字结构以及特殊字符映射节点来构建前缀树，通过比较字符编码相似度进行模糊匹配，完成新词提取的方法及系统。本发明可以应用于大量文本中特定词的发现提取，某些任务的数据集的提取生成，给定文本数据集的预处理等场景中，比如短信、微博等数据集的筛选以及纠正等文本预处理过程。本发明为下一步的文本分类任务提供了数据来源和基本标注，也对文本数据中新词的发现和纠正提供了帮助。

2.

发明授权
一种基于模式拓展的通用特殊词识别方法及系统有权

公开(公告)号：CN111159990B

公开(公告)日：2022-09-30

申请号：CN201911244936.8

申请日：2019-12-06

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所

Inventor： 段东圣 , 任博雅 , 孙旷怡 , 井雅琪 , 时磊 , 佟玲玲 , 李扬曦 , 宋永浩 , 卢杰

IPC: G06F40/186 , G06F40/126 , G06F40/284 , G06F16/33 , G06F16/31

Abstract: 本发明提出一种基于模式拓展的通用特殊词识别方法及系统，提出了一种基于基础词的音形编码，常用汉字音节，常用汉字结构以及特殊字符映射节点来构建前缀树，通过比较字符编码相似度进行模糊匹配，完成新词提取的方法及系统。本发明可以应用于大量文本中特定词的发现提取，某些任务的数据集的提取生成，给定文本数据集的预处理等场景中，比如短信、微博等数据集的筛选以及纠正等文本预处理过程。本发明为下一步的文本分类任务提供了数据来源和基本标注，也对文本数据中新词的发现和纠正提供了帮助。

Patent Agency Ranking