Patent search ap:("国家计算机网络与信息安全管理中心" OR "中国科学院计算技术研究所") AND inv:"任博雅" Page 1

1.

发明公开
一种基于模式拓展的通用特殊词识别方法及系统有权

公开(公告)号：CN111159990A

公开(公告)日：2020-05-15

申请号：CN201911244936.8

申请日：2019-12-06

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所

Inventor： 段东圣 , 任博雅 , 孙旷怡 , 井雅琪 , 时磊 , 佟玲玲 , 李扬曦 , 宋永浩 , 卢杰

IPC: G06F40/186 , G06F40/126 , G06F40/284 , G06F16/33 , G06F16/31

Abstract: 本发明提出一种基于模式拓展的通用特殊词识别方法及系统，提出了一种基于基础词的音形编码，常用汉字音节，常用汉字结构以及特殊字符映射节点来构建前缀树，通过比较字符编码相似度进行模糊匹配，完成新词提取的方法及系统。本发明可以应用于大量文本中特定词的发现提取，某些任务的数据集的提取生成，给定文本数据集的预处理等场景中，比如短信、微博等数据集的筛选以及纠正等文本预处理过程。本发明为下一步的文本分类任务提供了数据来源和基本标注，也对文本数据中新词的发现和纠正提供了帮助。

2.

发明公开
一种基于多模型集成的短文本分类方法和系统无效

公开(公告)号：CN111078876A

公开(公告)日：2020-04-28

申请号：CN201911229492.0

申请日：2019-12-04

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所

Inventor： 段东圣 , 井雅琪 , 任博雅 , 时磊 , 孙旷怡 , 李扬曦 , 佟玲玲 , 习健 , 宋永浩

IPC: G06F16/35

Abstract: 本发明提出了一种基于多模型集成的短文本分类方法，包括：选取多个对短文本进行分类的分类模型；对训练样本进行采样，生成与该分类模型一一对应的训练集；通过对应的训练集对该分类模型进行训练，以获得对应的最终模型；通过所有该最终模型对目标文本进行分类，获取多个分类结果向量；集成所有该分类结果向量以得到最终结果向量，以该最终结果向量中具有最大值的元素所代表的类别，作为该目标文本的类别。

3.

发明授权
一种实时文本数据流的特定信息识别方法及系统有权

公开(公告)号：CN111143553B

公开(公告)日：2023-04-07

申请号：CN201911244895.2

申请日：2019-12-06

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所

Inventor： 李扬曦 , 任博雅 , 井雅琪 , 时磊 , 段东圣 , 余翠玲 , 胡燕林 , 佟玲玲 , 宋永浩 , 梁冬

IPC: G06F16/35 , G06F18/2415 , G06N3/045 , G06N3/09 , G06N3/047

Abstract: 本发明提出一种实时文本数据流的特定信息识别方法及系统。本发明主要解决的问题是针对海量实时文本数据流实现领域关注的特定信息识别。本发明提出一种针对海量实时文本数据流的特定信息识别框架及系统，侧重于具有海量性、实时性、多样化和复杂性特点的社交文本特定信息识别，并且实现能够适用于生产环境的社交大数据在线实时分析系统。本发明的目的在于根据互联网环境及手机短信网络环境下海量文本数据流，识别出文本中隐含的特定信息。

4.

发明授权
基于置信度的群体发现方法及装置有权

公开(公告)号：CN110674390B

公开(公告)日：2022-05-20

申请号：CN201910747703.3

申请日：2019-08-14

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所

Inventor： 井雅琪 , 李扬曦 , 任博雅 , 杨亚茹 , 沈华伟 , 佟玲玲 , 时磊 , 王永庆 , 段运强 , 段东圣

IPC: G06F16/9535 , G06F16/9536

Abstract: 本发明公开了一种基于置信度的群体发现方法及装置，所述方法包括：步骤1，设置群体的约束条件，基于所述约束条件生成群体的候选用户集及候选网络；步骤2，基于所述候选用户集及所述候选网络综合得到每个候选用户属于该群体的置信度；步骤3，根据所述候选用户的置信度，与预先设置的置信度阈值进行比较，发现新种子用户和新候选用户；步骤4，获取新种子用户，重复执行步骤1‑4直到达到预先设置的迭代次数。

5.

发明授权
一种基于模式拓展的通用特殊词识别方法及系统有权

公开(公告)号：CN111159990B

公开(公告)日：2022-09-30

申请号：CN201911244936.8

申请日：2019-12-06

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所

Inventor： 段东圣 , 任博雅 , 孙旷怡 , 井雅琪 , 时磊 , 佟玲玲 , 李扬曦 , 宋永浩 , 卢杰

IPC: G06F40/186 , G06F40/126 , G06F40/284 , G06F16/33 , G06F16/31

Abstract: 本发明提出一种基于模式拓展的通用特殊词识别方法及系统，提出了一种基于基础词的音形编码，常用汉字音节，常用汉字结构以及特殊字符映射节点来构建前缀树，通过比较字符编码相似度进行模糊匹配，完成新词提取的方法及系统。本发明可以应用于大量文本中特定词的发现提取，某些任务的数据集的提取生成，给定文本数据集的预处理等场景中，比如短信、微博等数据集的筛选以及纠正等文本预处理过程。本发明为下一步的文本分类任务提供了数据来源和基本标注，也对文本数据中新词的发现和纠正提供了帮助。

6.

发明公开
一种基于通信类短文本的事件检测与跟踪方法及系统有权

公开(公告)号：CN111143508A

公开(公告)日：2020-05-12

申请号：CN201911244928.3

申请日：2019-12-06

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所

Inventor： 李扬曦 , 井雅琪 , 任博雅 , 时磊 , 余翠玲 , 佟玲玲 , 段东圣 , 胡燕林 , 苏晓玉 , 吴小盼

IPC: G06F16/33 , G06F40/30 , G06F40/289 , G06K9/62

Abstract: 本发明提出了一种基于通信类短文本的事件检测与跟踪方法，包括：提取与某事件对应的样本集合中各通信类短文本的语义特征、关键要素，及该样本集合的传播网络；根据该语义特征、该关键要素和该传播网络，分别获得任意两个该通信类短文本之间的语义距离、要素距离和用户距离；以该语义距离、该要素距离和该用户距离，获得任意两个该通信类短文本之间的度量距离；对所有该度量距离进行聚类，获得该事件的事件检测结果；提取该事件检测结果的特征属性以跟踪该事件。还提出一种基于通信类短文本的事件检测与跟踪系统，以及一种进行基于通信类短文本的事件检测与跟踪的数据处理装置。

7.

发明授权
一种基于通信类短文本的事件检测与跟踪方法及系统有权

公开(公告)号：CN111143508B

公开(公告)日：2023-04-28

申请号：CN201911244928.3

申请日：2019-12-06

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所

Inventor： 李扬曦 , 井雅琪 , 任博雅 , 时磊 , 余翠玲 , 佟玲玲 , 段东圣 , 胡燕林 , 苏晓玉 , 吴小盼

IPC: G06F16/33 , G06F40/30 , G06F40/289 , G06F18/23

Abstract: 本发明提出了一种基于通信类短文本的事件检测与跟踪方法，包括：提取与某事件对应的样本集合中各通信类短文本的语义特征、关键要素，及该样本集合的传播网络；根据该语义特征、该关键要素和该传播网络，分别获得任意两个该通信类短文本之间的语义距离、要素距离和用户距离；以该语义距离、该要素距离和该用户距离，获得任意两个该通信类短文本之间的度量距离；对所有该度量距离进行聚类，获得该事件的事件检测结果；提取该事件检测结果的特征属性以跟踪该事件。还提出一种基于通信类短文本的事件检测与跟踪系统，以及一种进行基于通信类短文本的事件检测与跟踪的数据处理装置。

8.

发明公开
一种实时文本数据流的特定信息识别方法及系统有权

公开(公告)号：CN111143553A

公开(公告)日：2020-05-12

申请号：CN201911244895.2

申请日：2019-12-06

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所

Inventor： 李扬曦 , 任博雅 , 井雅琪 , 时磊 , 段东圣 , 余翠玲 , 胡燕林 , 佟玲玲 , 宋永浩 , 梁冬

IPC: G06F16/35 , G06K9/62 , G06N3/04 , G06N3/08

Abstract: 本发明提出一种实时文本数据流的特定信息识别方法及系统。本发明主要解决的问题是针对海量实时文本数据流实现领域关注的特定信息识别。本发明提出一种针对海量实时文本数据流的特定信息识别框架及系统，侧重于具有海量性、实时性、多样化和复杂性特点的社交文本特定信息识别，并且实现能够适用于生产环境的社交大数据在线实时分析系统。本发明的目的在于根据互联网环境及手机短信网络环境下海量文本数据流，识别出文本中隐含的特定信息。

9.

发明公开
一种社交群体发现方法、装置和存储介质有权

公开(公告)号：CN110704612A

公开(公告)日：2020-01-17

申请号：CN201910732451.7

申请日：2019-08-09

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所

Inventor： 井雅琪 , 李扬曦 , 刘权 , 段东圣 , 张皓彭 , 杨亚茹 , 沈华伟 , 佟玲玲 , 任博雅 , 胡燕林 , 段运强 , 时磊

IPC: G06F16/35 , G06F16/31 , G06F40/216 , G06F40/30 , G06Q50/00

Abstract: 本发明提出了一种社交群体发现方法、装置和存储介质，用以提高社交群体发现精度和准确度。所述社交群体发现方法，包括：利用预先设定的种子用户和约束条件，从通信数据源中查找候选用户，所述候选用户包括与所述种子用户通信的第一用户和/或满足所述约束条件的第二用户；从所述候选用户的通信数据中提取与所述种子用户关联的关联特征信息；根据提取的关联特征信息，确定每一候选用户对应的置信度；确定对应的置信度大于预设阈值的候选用户为目标用户；根据目标用户之间的通信联系建立初始群体网络；利用群体发现算法从所述初始群体网络中发现社交群体子网络。

10.

发明公开
基于置信度的群体发现方法及装置有权

公开(公告)号：CN110674390A

公开(公告)日：2020-01-10

申请号：CN201910747703.3

申请日：2019-08-14

Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所

Inventor： 井雅琪 , 李扬曦 , 任博雅 , 杨亚茹 , 沈华伟 , 佟玲玲 , 时磊 , 王永庆 , 段运强 , 段东圣

IPC: G06F16/9535 , G06F16/9536

Abstract: 本发明公开了一种基于置信度的群体发现方法及装置，所述方法包括：步骤1，设置群体的约束条件，基于所述约束条件生成群体的候选用户集及候选网络；步骤2，基于所述候选用户集及所述候选网络综合得到每个候选用户属于该群体的置信度；步骤3，根据所述候选用户的置信度，与预先设置的置信度阈值进行比较，发现新种子用户和新候选用户；步骤4，获取新种子用户，重复执行步骤1-4直到达到预先设置的迭代次数。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification