-
公开(公告)号:CN109992645B
公开(公告)日:2021-05-14
申请号:CN201910250572.8
申请日:2019-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 拓尔思信息技术股份有限公司
Abstract: 本发明公开了一种基于文本数据的资料管理系统及方法,属于信息管理系统领域。资料管理系统包括数据上传模块,数据存储模块,数据解析模块,数据检索模块,数据可视化模块,工具箱和管理台。所述方法首先将本地文件利用数据上传模块上传至数据存储模块,然后数据解析模块对上传文件进行解析处理,得到上传文件的属性并进行存储。将解析后的资料内容及附件分别存储在数据存储模块中的全文索引搜索引擎数据库和关系型数据库中。最后采用相似性判断技术,利用数据检索模块对存储到数据库中的资料进行检索;利用数据可视化模块对所有资料内容按分类进行展示、文档操作功能和各种可视化展示。本发明提高了工作效率,提升了对战略研究素材的管理能力。
-
公开(公告)号:CN109992645A
公开(公告)日:2019-07-09
申请号:CN201910250572.8
申请日:2019-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 拓尔思信息技术股份有限公司
Abstract: 本发明公开了一种基于文本数据的资料管理系统及方法,属于信息管理系统领域。资料管理系统包括数据上传模块,数据存储模块,数据解析模块,数据检索模块,数据可视化模块,工具箱和管理台。所述方法首先将本地文件利用数据上传模块上传至数据存储模块,然后数据解析模块对上传文件进行解析处理,得到上传文件的属性并进行存储。将解析后的资料内容及附件分别存储在数据存储模块中的全文索引搜索引擎数据库和关系型数据库中。最后采用相似性判断技术,利用数据检索模块对存储到数据库中的资料进行检索;利用数据可视化模块对所有资料内容按分类进行展示、文档操作功能和各种可视化展示。本发明提高了工作效率,提升了对战略研究素材的管理能力。
-
公开(公告)号:CN113239663B
公开(公告)日:2022-07-12
申请号:CN202110309085.1
申请日:2021-03-23
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F40/126 , G06F40/216 , G06F40/242 , G06F40/284 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于知网的多义词中文实体关系识别方法,其步骤包括:1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化,得到每一个字对的字颗粒度向量;然后对每一字颗粒度向量所在的位置信息进行编码,得到语料中每个字与预标注的待识别实体关系对的相对位置编码;2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合;3)基于知网生成每一语料的词颗粒度语义向量集合;4)利用各语义向量及其对应位置编码训练深度自注意力神经网络,得到深度自注意力神经网络编码器;5)生成待处理语料中字和词汇的语义向量及其对应位置编码输入深度自注意力神经网络编码器,得到该待处理语料中的实体关系。
-
公开(公告)号:CN109033166B
公开(公告)日:2022-01-07
申请号:CN201810636331.2
申请日:2018-06-20
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/211
Abstract: 本发明公开了一种人物属性抽取训练数据集构建方法。首先,下载HTML页面中的文本数据内容,提取描述人物正文内容和属性信息的信息框数据,并进行编码存储和语句切分;然后,对切分后的语句,选取既包含人物名称、人物属性值内容的语句构建人物属性抽取语料数据集;最后,提取人物属性抽取语料数据集中的所有动词,基于信息熵的方法对所有动词进行排序,提取排名靠前的动词作为属性触发词,把人物属性抽取语料数据集中不包含属性触发词的语句删除掉,剩下的语句就组成了人物属性抽取训练数据集。本发明综合利用的网页数据采集、词性分析、词语信息熵计算等技术自动构建人物属性抽取训练数据集,对提高训练数据集构建的效率具有重要意义。
-
公开(公告)号:CN113255720A
公开(公告)日:2021-08-13
申请号:CN202110393842.8
申请日:2021-04-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06K9/62 , G06Q50/00 , G06F16/901
Abstract: 本发明公开了一种基于分层图池化的多视角聚类方法,包括以下步骤:将待处理数据划分成多视角数据集,然后将多视角数据集按各视角构建对应的图表示,得到对应的视图;采用分层图池化层迭代计算方法提取每个视图的聚类信息,每个视图的聚类信息包括对应该视图的粗化图和分配矩阵,该粗化图包括迭代后的邻接矩阵、特征矩阵、图拉普拉斯矩阵;采用多视角谱聚类融合方法融合所有视图的聚类信息,得到每一类特征向量所对应的类别。具有充分利用待处理数据本身的多视图特征,可以综合包含原各个视图的聚类信息。公开了一种基于分层图池化的多视角聚类系统,包括:图构建模块、聚类信息计算提取模块、多视角融合模块。本发明具有提升聚类效果的有益效果。
-
公开(公告)号:CN112214558B
公开(公告)日:2023-08-15
申请号:CN202011296138.2
申请日:2020-11-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/28 , G06F16/33 , G06F16/951 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本申请提供了一种主题相关度判别方法及装置,方法包括:对获取的网页构建网页特征向量;利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算;筛选出相似度高于预设值的网页特征向量。本申请结合了语义向量相似度计算和机器学习方法的优点,相比于现有技术,可以实现较高的判别精度,并且本申请在训练样本的筛选上也作出了不同于现有技术的改进。
-
公开(公告)号:CN113313379A
公开(公告)日:2021-08-27
申请号:CN202110586002.3
申请日:2021-05-27
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06Q10/06
Abstract: 本发明提供一种确定事件角色影响力指数的方法、装置及存储介质,包括:对各角色类别中的角色个体划分为一级指标和二级指标;根据角色类别及特定限制信息,提取所有满足所述限制信息的角色个体对应的二级指标中各指标的数值,计算并形成信息矩阵;对所提取形成的信息矩阵,利用熵权法计算二级指标的权重;针对二级指标权重利用变异系数法计算一级指标权重;将每个二级指标权重与其对应一级指标权重相乘,得到每个二级指标的综合权重;将目标角色个体的各二级指标对应的值与每个二级指标的综合权重相乘求和,得到所述目标角色个体的影响力指数。通过本发明的方法,能够计算出事件角色影响力,用于各领域角色影响力量化分析。
-
公开(公告)号:CN113239663A
公开(公告)日:2021-08-10
申请号:CN202110309085.1
申请日:2021-03-23
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F40/126 , G06F40/216 , G06F40/242 , G06F40/284 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于知网的多义词中文实体关系识别方法,其步骤包括:1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化,得到每一个字对的字颗粒度向量;然后对每一字颗粒度向量所在的位置信息进行编码,得到语料中每个字与预标注的待识别实体关系对的相对位置编码;2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合;3)基于知网生成每一语料的词颗粒度语义向量集合;4)利用各语义向量及其对应位置编码训练深度自注意力神经网络,得到深度自注意力神经网络编码器;5)生成待处理语料中字和词汇的语义向量及其对应位置编码输入深度自注意力神经网络编码器,得到该待处理语料中的实体关系。
-
公开(公告)号:CN111694952A
公开(公告)日:2020-09-22
申请号:CN202010299741.X
申请日:2020-04-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/31 , G06F16/335
Abstract: 本发明公开了一种基于微博的大数据分析模型系统及其实现方法,该实现方法包括以下步骤:步骤1、首先对收集的数据进行清洗和预处理工作,然后对数据进行人工标注;步骤2、模型训练阶段,采用SVM、cnnrnn结合Bert预训练模的方式进行模型训练;步骤3、在次人工标注的训练集上进行模型训练;步骤4、通过对比真实数据标签和预测结果,不断迭代优化通过不断的迭代优化参数调优的方式得到最佳模型;步骤5、在海量的文章中聚类,通过simHash算法,对文章内容进行局部HASH;步骤6、把选择出来的HASH对应的文章查询出来,再通过机器学习的算法进行聚类。本发明能够在保证模型准确率的基础上可以有效地减少机器需求,提高模型的准确率以及鲁棒性。
-
公开(公告)号:CN119106199A
公开(公告)日:2024-12-10
申请号:CN202310657378.8
申请日:2023-06-05
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9536 , G06F16/906 , G06F16/904 , G06Q50/00
Abstract: 本发明提出一种面向社交媒体的迭代式线索发现方法和系统。包括融合文本、结构和互动信息的线索主体重要度评分方法。通过对候选账号的文本内容、社交网络结构和互动信息分别进行建模,分别得到内容、结构和互动三个维度的重要度评分,再对多个维度的评分进行加权,得到最终的线索主体重要度评分。选取分数最高的作为线索发现结果。该方法及系统可以综合利用社交媒体平台中的内容、结构以及互动信息对线索主体进行评分,提升线索主体识别的准确率。
-
-
-
-
-
-
-
-
-