-
公开(公告)号:CN113256079A
公开(公告)日:2021-08-13
申请号:CN202110490584.5
申请日:2021-05-06
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06Q10/06
Abstract: 本发明公开了一种特定领域的国际组织影响力的量化评价方法,包括:获取特定领域的每一国际组织信息和每一国际组织的每一成员信息;将国际组织影响力划分为多个维度,每个维度划分为多个指标,每个指标包含不同的国际组织信息和/或国际组织的成员信息,根据每个指标包含的国际组织信息和/或国际组织的成员信息计算特定领域的每一国际组织每个指标的指标值,再对每个指标值进行无量纲化处理;计算待评价国际组织其中一个维度的维度总分;为待评价国际组织每个维度的维度总分分配权重,将待评价国际组织的所有维度的维度总分加权求和得到待评价国际组织的影响力得分。本发明实现了定领域下的国际组织的影响力自动评价推荐的业务需求。
-
公开(公告)号:CN113239663A
公开(公告)日:2021-08-10
申请号:CN202110309085.1
申请日:2021-03-23
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F40/126 , G06F40/216 , G06F40/242 , G06F40/284 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于知网的多义词中文实体关系识别方法,其步骤包括:1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化,得到每一个字对的字颗粒度向量;然后对每一字颗粒度向量所在的位置信息进行编码,得到语料中每个字与预标注的待识别实体关系对的相对位置编码;2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合;3)基于知网生成每一语料的词颗粒度语义向量集合;4)利用各语义向量及其对应位置编码训练深度自注意力神经网络,得到深度自注意力神经网络编码器;5)生成待处理语料中字和词汇的语义向量及其对应位置编码输入深度自注意力神经网络编码器,得到该待处理语料中的实体关系。
-
公开(公告)号:CN112069312A
公开(公告)日:2020-12-11
申请号:CN202010806716.6
申请日:2020-08-12
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/9535
Abstract: 本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
-
公开(公告)号:CN111694952A
公开(公告)日:2020-09-22
申请号:CN202010299741.X
申请日:2020-04-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/31 , G06F16/335
Abstract: 本发明公开了一种基于微博的大数据分析模型系统及其实现方法,该实现方法包括以下步骤:步骤1、首先对收集的数据进行清洗和预处理工作,然后对数据进行人工标注;步骤2、模型训练阶段,采用SVM、cnnrnn结合Bert预训练模的方式进行模型训练;步骤3、在次人工标注的训练集上进行模型训练;步骤4、通过对比真实数据标签和预测结果,不断迭代优化通过不断的迭代优化参数调优的方式得到最佳模型;步骤5、在海量的文章中聚类,通过simHash算法,对文章内容进行局部HASH;步骤6、把选择出来的HASH对应的文章查询出来,再通过机器学习的算法进行聚类。本发明能够在保证模型准确率的基础上可以有效地减少机器需求,提高模型的准确率以及鲁棒性。
-
公开(公告)号:CN112069312B
公开(公告)日:2023-06-20
申请号:CN202010806716.6
申请日:2020-08-12
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/9535
Abstract: 本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
-
公开(公告)号:CN113255918B
公开(公告)日:2023-04-25
申请号:CN202110393843.2
申请日:2021-04-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06N5/04 , G06F16/36 , G06N5/022 , G06F18/22 , G06F40/126 , G06N3/0455 , G06N3/042
Abstract: 本发明公开了一种强化聚合知识指导的生成常识推理方法,包括:基于知识图谱构建概念推理图和分层概念扩展图;搭建强化聚合指导下基于概念推理图的知识图谱增强型编码器;搭建强化聚合指导下基于分层概念扩展图的知识图谱增强型解码器;训练包含知识图谱增强型编码器和知识图谱增强型解码器的生成常识推理模型;应用训练后的生成常识推理模型生成常识推理语句。本发明提供的方法可以有效避免因未考虑概念之间关系而导致生成语句不符合日常情景、逻辑不合理等一系列问题,通过引入强化聚合过程从知识图谱中筛选能提供丰富关系信息的附加概念描述,有效提升了模型对不可见概念集的概括。
-
公开(公告)号:CN113761215A
公开(公告)日:2021-12-07
申请号:CN202110321491.X
申请日:2021-03-25
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
Inventor: 赵忠华 , 李建广 , 余智华 , 王禄恒 , 陈欣洁 , 赵志云 , 冯凯 , 葛自发 , 杜漫 , 孙小宁 , 穆庆伟 , 万欣欣 , 申双成 , 李欣 , 孙立远 , 付培国 , 王晴 , 杜宛真
IPC: G06F16/36 , G06F16/35 , G06F40/242 , G06F40/295
Abstract: 本发明公开了一种基于反馈自学习的动态字典库生成方法,包括以下步骤:S1、字典库定义;S2、基于字典库分类体系;S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型;S5、将S4步生成的预测数据回填到字典库。有益效果:该方法通过概念模式定义、自然语言处理技术、全流程调度机制,实现从原始语料概念模式定义生成基础字典库,在基础字典库基础上进行标注模型的自动构建、迭代训练及修正,最后再利用标注模型来进行新的语料数据标注,反馈更新字典库,实现从标注训练到反馈自学习的闭环流程,达到模型自动逐步优化能力。最终实现字典库的自动完善,标注模型逐步优化的全自动循环过程。
-
公开(公告)号:CN113255360A
公开(公告)日:2021-08-13
申请号:CN202110418139.8
申请日:2021-04-19
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/284 , G06F40/126 , G06F40/216 , G06N3/04 , G06N3/08
Abstract: 本发明实施例公开了基于层次化自注意力网络的文档评级方法和装置。该方法包括:获取目标文档的评论文本,其中,所述评论文本包含多个评论,各评论包含多个句子;提取各句子中各词语的特征;基于自注意力机制,从各评论中各句子所包含全部词语的特征中提取各评论中各句子的特征;基于自注意力机制,从各评论所包含的所述多个句子的特征中提取各评论的特征;基于自注意力机制,从所述多个评论的特征中提取所述评论文本的特征;根据所述评论文本的特征,生成所述目标文档的评级结果。基于该方法和装置,可以充分捕捉目标文档的评论文本所包含的深层次语义信息,进而自动给出针对目标文档的评级结果。
-
公开(公告)号:CN111932109A
公开(公告)日:2020-11-13
申请号:CN202010784889.2
申请日:2020-08-06
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06Q10/06 , G06F16/735 , G06F16/951 , G06Q50/00
Abstract: 本发明涉及一种面向移动短视频应用的用户影响力评价系统,属于数据挖掘技术领域。本方法充分考虑了移动短视频应用域内数据和多元化的域外新媒体平台数据,分别采集移动短视频应用域内的用户基本信息、短视频信息以及域外平台关联账号的粉丝数信息等,设计评估算法分别计算基于短视频质量的域内影响力值和基于传播潜力的域外影响力值,通过一定的权重合成最终的用户影响力值。所述方法对已有的单一平台数据来源的评价方法作出改进,考虑用户的跨平台传播潜力,以适应新媒体平台“矩阵式”传播的新形势,提高对移动短视频用户影响力评价的全面性和有效性,实现评价系统的自动化运行和实时更新。
-
公开(公告)号:CN109992645A
公开(公告)日:2019-07-09
申请号:CN201910250572.8
申请日:2019-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 拓尔思信息技术股份有限公司
Abstract: 本发明公开了一种基于文本数据的资料管理系统及方法,属于信息管理系统领域。资料管理系统包括数据上传模块,数据存储模块,数据解析模块,数据检索模块,数据可视化模块,工具箱和管理台。所述方法首先将本地文件利用数据上传模块上传至数据存储模块,然后数据解析模块对上传文件进行解析处理,得到上传文件的属性并进行存储。将解析后的资料内容及附件分别存储在数据存储模块中的全文索引搜索引擎数据库和关系型数据库中。最后采用相似性判断技术,利用数据检索模块对存储到数据库中的资料进行检索;利用数据可视化模块对所有资料内容按分类进行展示、文档操作功能和各种可视化展示。本发明提高了工作效率,提升了对战略研究素材的管理能力。
-
-
-
-
-
-
-
-
-