-
公开(公告)号:CN112069312B
公开(公告)日:2023-06-20
申请号:CN202010806716.6
申请日:2020-08-12
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/9535
Abstract: 本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
-
公开(公告)号:CN113255918B
公开(公告)日:2023-04-25
申请号:CN202110393843.2
申请日:2021-04-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06N5/04 , G06F16/36 , G06N5/022 , G06F18/22 , G06F40/126 , G06N3/0455 , G06N3/042
Abstract: 本发明公开了一种强化聚合知识指导的生成常识推理方法,包括:基于知识图谱构建概念推理图和分层概念扩展图;搭建强化聚合指导下基于概念推理图的知识图谱增强型编码器;搭建强化聚合指导下基于分层概念扩展图的知识图谱增强型解码器;训练包含知识图谱增强型编码器和知识图谱增强型解码器的生成常识推理模型;应用训练后的生成常识推理模型生成常识推理语句。本发明提供的方法可以有效避免因未考虑概念之间关系而导致生成语句不符合日常情景、逻辑不合理等一系列问题,通过引入强化聚合过程从知识图谱中筛选能提供丰富关系信息的附加概念描述,有效提升了模型对不可见概念集的概括。
-
公开(公告)号:CN111581956B
公开(公告)日:2022-09-13
申请号:CN202010269087.8
申请日:2020-04-08
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Inventor: 赵忠华 , 吴俊杰 , 赵志云 , 葛自发 , 孙小宁 , 张冰 , 王欣欣 , 李欣 , 袁钟怡 , 孙立远 , 付培国 , 王禄恒 , 左源 , 李丰志 , 李英汉 , 户中方
IPC: G06F40/279 , G06F40/216 , G06F40/242 , G06F40/126 , G06F16/335 , G06F16/35 , G06K9/62
Abstract: 本发明公开了一种基于BERT模型和K近邻的敏感信息识别方法,包括:步骤一、对文本进行预处理;步骤二、标注多条预处理文本为敏感信息和非敏感信息,步骤三、表征得到敏感信息的向量表征和非敏感信息的向量表征;步骤四、以敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建近似最邻近搜索图;步骤五、将待测文本的向量表征输入至近似最邻近搜索图,搜索得到近似最近邻的K个节点,判断节点属性及根据该条待测文本的敏感度权重,修正其敏感度值后,判断是否为敏感信息。本发明公开了一种基于BERT模型和K近邻的敏感信息识别系统。本发明具有提升文本质量,提升敏感信息识别的速度和精度的有益效果。
-
公开(公告)号:CN113761215A
公开(公告)日:2021-12-07
申请号:CN202110321491.X
申请日:2021-03-25
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
Inventor: 赵忠华 , 李建广 , 余智华 , 王禄恒 , 陈欣洁 , 赵志云 , 冯凯 , 葛自发 , 杜漫 , 孙小宁 , 穆庆伟 , 万欣欣 , 申双成 , 李欣 , 孙立远 , 付培国 , 王晴 , 杜宛真
IPC: G06F16/36 , G06F16/35 , G06F40/242 , G06F40/295
Abstract: 本发明公开了一种基于反馈自学习的动态字典库生成方法,包括以下步骤:S1、字典库定义;S2、基于字典库分类体系;S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型;S5、将S4步生成的预测数据回填到字典库。有益效果:该方法通过概念模式定义、自然语言处理技术、全流程调度机制,实现从原始语料概念模式定义生成基础字典库,在基础字典库基础上进行标注模型的自动构建、迭代训练及修正,最后再利用标注模型来进行新的语料数据标注,反馈更新字典库,实现从标注训练到反馈自学习的闭环流程,达到模型自动逐步优化能力。最终实现字典库的自动完善,标注模型逐步优化的全自动循环过程。
-
公开(公告)号:CN113255360A
公开(公告)日:2021-08-13
申请号:CN202110418139.8
申请日:2021-04-19
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/284 , G06F40/126 , G06F40/216 , G06N3/04 , G06N3/08
Abstract: 本发明实施例公开了基于层次化自注意力网络的文档评级方法和装置。该方法包括:获取目标文档的评论文本,其中,所述评论文本包含多个评论,各评论包含多个句子;提取各句子中各词语的特征;基于自注意力机制,从各评论中各句子所包含全部词语的特征中提取各评论中各句子的特征;基于自注意力机制,从各评论所包含的所述多个句子的特征中提取各评论的特征;基于自注意力机制,从所述多个评论的特征中提取所述评论文本的特征;根据所述评论文本的特征,生成所述目标文档的评级结果。基于该方法和装置,可以充分捕捉目标文档的评论文本所包含的深层次语义信息,进而自动给出针对目标文档的评级结果。
-
公开(公告)号:CN111932109A
公开(公告)日:2020-11-13
申请号:CN202010784889.2
申请日:2020-08-06
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06Q10/06 , G06F16/735 , G06F16/951 , G06Q50/00
Abstract: 本发明涉及一种面向移动短视频应用的用户影响力评价系统,属于数据挖掘技术领域。本方法充分考虑了移动短视频应用域内数据和多元化的域外新媒体平台数据,分别采集移动短视频应用域内的用户基本信息、短视频信息以及域外平台关联账号的粉丝数信息等,设计评估算法分别计算基于短视频质量的域内影响力值和基于传播潜力的域外影响力值,通过一定的权重合成最终的用户影响力值。所述方法对已有的单一平台数据来源的评价方法作出改进,考虑用户的跨平台传播潜力,以适应新媒体平台“矩阵式”传播的新形势,提高对移动短视频用户影响力评价的全面性和有效性,实现评价系统的自动化运行和实时更新。
-
公开(公告)号:CN110263319A
公开(公告)日:2019-09-20
申请号:CN201910216192.2
申请日:2019-03-21
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明涉及一种基于网页文本的学者观点抽取方法,包括学者网页信息采集、文本数据预处理、观点抽取分析、观点摘要生成4个部分;学者信息抽取部分负责从互联网中获取给定学者相关的网页文本数据;文本数据预处理部分负责对原始网页文本数据进行清洗、语句分割、句法树分析、人名识别;观点抽取分析部分负责抽取出观点句,分析观点句的情感倾向和情感极性强度值。观点摘要生成部分负责将同一网页中的学者的所有观点语句进行总结,形成一个观点摘要段落。本发明综合利用了网络信息采集、数据挖掘、情感分析、自然语言处理等技术,从网络中自动提取出学者发表的观点及情感倾向,并生成观点摘要,有了解学者的社会活动和影响有重要意义。
-
公开(公告)号:CN110096575A
公开(公告)日:2019-08-06
申请号:CN201910375599.X
申请日:2019-05-07
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/33 , G06F16/958 , G16H10/20 , G16H20/70
Abstract: 本发明公开了一种面向微博用户的心理画像方法,包括:步骤一、在微博平台上选取样本用户,根据设定的心理学量表,利用调查问卷法获取样本用户的人格特征得分;步骤二、根据所述样本用户在微博平台上的文本信息,获取样本用户的文本表征,根据所述样本用户的行为信息,获取样本用户的行为表征;步骤三、根据样本用户的人格特征得分与文本表征和行为表征的对应关系,构建人格特征预测模型;步骤四、获取待测用户的文本表征和行为表征,根据人格特征预测模型,获得待测用户的人格特征。本发明能够实现对微博用户的人格特质的分析,为微博用户的心理画像提供技术支持。
-
公开(公告)号:CN106295347B
公开(公告)日:2019-06-18
申请号:CN201510284253.0
申请日:2015-05-28
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F21/57
Abstract: 本发明公开了一种用于搭建漏洞验证环境的方法及装置。例如,所述方法可以包括:提供要素库,以便用户从所述要素库中选择出需要的要素,其中,所述要素库中包含用于漏洞验证的文件对应的要素,当用户完成要素的选择时,使用系统镜像文件定制技术将选择出的要素对应的文件打包,得到用于生成虚拟机的漏洞验证模板。根据本发明公开的方法及装置,测试人员可以快捷地从要素库中选择用于漏洞验证的文件对应的要素,无需手动安装相关工具,减少了对人力的耗费,提高了漏洞验证环境的搭建效率。
-
公开(公告)号:CN109033166A
公开(公告)日:2018-12-18
申请号:CN201810636331.2
申请日:2018-06-20
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种人物属性抽取训练数据集构建方法。首先,下载HTML页面中的文本数据内容,提取描述人物正文内容和属性信息的信息框数据,并进行编码存储和语句切分;然后,对切分后的语句,选取既包含人物名称、人物属性值内容的语句构建人物属性抽取语料数据集;最后,提取人物属性抽取语料数据集中的所有动词,基于信息熵的方法对所有动词进行排序,提取排名靠前的动词作为属性触发词,把人物属性抽取语料数据集中不包含属性触发词的语句删除掉,剩下的语句就组成了人物属性抽取训练数据集。本发明综合利用的网页数据采集、词性分析、词语信息熵计算等技术自动构建人物属性抽取训练数据集,对提高训练数据集构建的效率具有重要意义。
-
-
-
-
-
-
-
-
-