-
公开(公告)号:CN118821774A
公开(公告)日:2024-10-22
申请号:CN202410768549.9
申请日:2024-06-14
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06N3/0442 , G06N3/0455 , G06N3/08
Abstract: 本发明公开一种基于序列转化的命名实体识别方法及系统,属于信息抽取领域。所述方法包括:利用双向长短记忆神经网络解码自然文本,得到第t个时间步的隐藏向量ht;利用单向长短记忆网络对所述隐藏向量ht进行解码,得到第j个时间步的解码结果sj;基于第j‑1个时间步的解码结果sj‑1生成第j个时间步的标签概率分布矩阵Pj;获取条件随机场生成的标签转移概率矩阵Aj;基于所有时间步j上的标签概率分布矩阵Pj和标签转移概率矩阵Aj,得到自然文本对应的命名实体识别结果。本发明可以利用过去和未来的标签来高精度地预测当前标签。
-
公开(公告)号:CN115858798A
公开(公告)日:2023-03-28
申请号:CN202210651618.9
申请日:2022-06-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/36 , G06F40/295 , G06F40/30
Abstract: 本发明涉及一种面向维基百科文本数据的事理图谱构建方法和系统,属于文本数据挖掘领域。该方法包括以下步骤:获取维基百科的数据并将其解析为纯文本的形式;使用语义角色标注技术抽取维基百科数据中的事件简介;使用命名实体识别技术对维基百科数据的事件中的人物、地点、机构进行抽取;使用正则表达式匹配技术对维基百科数据的事件中的时间进行抽取;将抽取的事件简介、人物、地点、机构和时间构造为事理图谱。本发明实现了从数据获取、事件抽取、事件论元抽取到图谱构建的相关技术流程,能够帮助研究和分析事件的基本信息和演化过程。
-
公开(公告)号:CN115114427A
公开(公告)日:2022-09-27
申请号:CN202210279929.7
申请日:2022-03-21
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
Abstract: 本发明公开一种基于预训练和多任务学习的文本摘要和关键词抽取方法,属于文本信息抽取领域,基于预训练语言模型在抽取任务上进行针对性的进一步微调,并在关键词抽取任务与摘要抽取任务的协作下用于抽取关键词和摘要。本发明能够解决现有文本关键词抽取和摘要抽取技术存在的准确率和召回率低的问题。
-
公开(公告)号:CN117149949B
公开(公告)日:2024-12-17
申请号:CN202311059658.5
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/335 , G06F16/35 , G06F18/23
Abstract: 本发明公开了一种融合多源信息的人名消歧方法及装置,所述方法包括:将所有文本划分为若干个类;基于同名作者对应的机构名称、文本共同作者和文本主题内容,分别对每一类文本进行聚类,以得到该类文本的机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果;基于簇内机构信息及文本的共现信息,对机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果进行融合,得到该类文本的初步聚类结果;提取初步聚类结果中的单簇文本,并基于所述单簇文本与该类文本中其他文本的相似度进行单簇文本的融合后,得到人名消歧结果。本发明可以实现了更好的消歧准确率。
-
公开(公告)号:CN117194773A
公开(公告)日:2023-12-08
申请号:CN202311061729.5
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F16/9538 , G06F16/35 , G06F16/532
Abstract: 本发明公开了一种基于多模态特征的网站识别方法及装置,所述方法包括:获取处理后的网页信息;得到对应的网页文本特征;获取网页用户特征;获取网页资源信息特征;获取所述网页信息对应的网页图片快照,由网页图片处理模块对所述网页图片快照提取网页图片特征;将所述网页文本特征、网页用户特征、网页资源信息特征及网页图片特征进行特征融合,得到多模态融合特征,由多模态识别模型对所述多模态融合特征进行识别。本方法利用多模态识别模型对网站进行分类,有效提高了对不良网站识别的准确率。
-
公开(公告)号:CN117149949A
公开(公告)日:2023-12-01
申请号:CN202311059658.5
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/335 , G06F16/35 , G06F18/23
Abstract: 本发明公开了一种融合多源信息的人名消歧方法及装置,所述方法包括:将所有文本划分为若干个类;基于同名作者对应的机构名称、文本共同作者和文本主题内容,分别对每一类文本进行聚类,以得到该类文本的机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果;基于簇内机构信息及文本的共现信息,对机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果进行融合,得到该类文本的初步聚类结果;提取初步聚类结果中的单簇文本,并基于所述单簇文本与该类文本中其他文本的相似度进行单簇文本的融合后,得到人名消歧结果。本发明可以实现了更好的消歧准确率。
-
公开(公告)号:CN115269833A
公开(公告)日:2022-11-01
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06K9/62
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN115858798B
公开(公告)日:2024-11-19
申请号:CN202210651618.9
申请日:2022-06-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/36 , G06F40/295 , G06F40/30
Abstract: 本发明涉及一种面向维基百科文本数据的事理图谱构建方法和系统,属于文本数据挖掘领域。该方法包括以下步骤:获取维基百科的数据并将其解析为纯文本的形式;使用语义角色标注技术抽取维基百科数据中的事件简介;使用命名实体识别技术对维基百科数据的事件中的人物、地点、机构进行抽取;使用正则表达式匹配技术对维基百科数据的事件中的时间进行抽取;将抽取的事件简介、人物、地点、机构和时间构造为事理图谱。本发明实现了从数据获取、事件抽取、事件论元抽取到图谱构建的相关技术流程,能够帮助研究和分析事件的基本信息和演化过程。
-
公开(公告)号:CN118821782A
公开(公告)日:2024-10-22
申请号:CN202410768553.5
申请日:2024-06-14
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种多粒度相似性增强的篇章级事件论元抽取方法及系统,属于文本信息抽取领域。本发明首先将文档输入预训练语言模型编码,得到高维度嵌入表示;然后构建包含句子和段落节点的异构图,通过图神经网络融合全局语义信息;最后,通过对比学习和排序损失增强段落和句子粒度的相似性。本发明解决了远距离事件论元抽取的难题,并有效缓解了噪音实体对抽取结果的干扰,提高了抽取的准确性和鲁棒性。
-
公开(公告)号:CN115269833B
公开(公告)日:2024-08-16
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06F18/23213 , G06F18/24 , G06F18/25
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
-
-
-
-
-
-
-
-