-
公开(公告)号:CN115858798B
公开(公告)日:2024-11-19
申请号:CN202210651618.9
申请日:2022-06-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/36 , G06F40/295 , G06F40/30
Abstract: 本发明涉及一种面向维基百科文本数据的事理图谱构建方法和系统,属于文本数据挖掘领域。该方法包括以下步骤:获取维基百科的数据并将其解析为纯文本的形式;使用语义角色标注技术抽取维基百科数据中的事件简介;使用命名实体识别技术对维基百科数据的事件中的人物、地点、机构进行抽取;使用正则表达式匹配技术对维基百科数据的事件中的时间进行抽取;将抽取的事件简介、人物、地点、机构和时间构造为事理图谱。本发明实现了从数据获取、事件抽取、事件论元抽取到图谱构建的相关技术流程,能够帮助研究和分析事件的基本信息和演化过程。
-
公开(公告)号:CN115269833B
公开(公告)日:2024-08-16
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06F18/23213 , G06F18/24 , G06F18/25
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN115269833A
公开(公告)日:2022-11-01
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06K9/62
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN115858798A
公开(公告)日:2023-03-28
申请号:CN202210651618.9
申请日:2022-06-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/36 , G06F40/295 , G06F40/30
Abstract: 本发明涉及一种面向维基百科文本数据的事理图谱构建方法和系统,属于文本数据挖掘领域。该方法包括以下步骤:获取维基百科的数据并将其解析为纯文本的形式;使用语义角色标注技术抽取维基百科数据中的事件简介;使用命名实体识别技术对维基百科数据的事件中的人物、地点、机构进行抽取;使用正则表达式匹配技术对维基百科数据的事件中的时间进行抽取;将抽取的事件简介、人物、地点、机构和时间构造为事理图谱。本发明实现了从数据获取、事件抽取、事件论元抽取到图谱构建的相关技术流程,能够帮助研究和分析事件的基本信息和演化过程。
-
公开(公告)号:CN115114427A
公开(公告)日:2022-09-27
申请号:CN202210279929.7
申请日:2022-03-21
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
Abstract: 本发明公开一种基于预训练和多任务学习的文本摘要和关键词抽取方法,属于文本信息抽取领域,基于预训练语言模型在抽取任务上进行针对性的进一步微调,并在关键词抽取任务与摘要抽取任务的协作下用于抽取关键词和摘要。本发明能够解决现有文本关键词抽取和摘要抽取技术存在的准确率和召回率低的问题。
-
公开(公告)号:CN113297934B
公开(公告)日:2024-03-29
申请号:CN202110512224.0
申请日:2021-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06V40/16 , G06V40/20 , G06V20/40 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/09
Abstract: 本发明公开了检测互联网暴力有害场景的多模态视频行为分析方法,主要包括视频场景人物快速定位检测、视频场景行为判别、视频场景有害程度定性三个阶段,该方法在行为识别的基础上,将目标人物情绪、网络评论弹幕情绪作为判定维度,实现对特定有害场景的精准发现。
-
公开(公告)号:CN117278253A
公开(公告)日:2023-12-22
申请号:CN202311043720.1
申请日:2023-08-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L9/40 , H04L61/4511 , G06F21/56 , G06N3/04
Abstract: 一种基于DNS流量特征与进程特征的恶意软件检测装置与方法,该装置主要包括:DNS进程特征采集模块,部署于要保护的终端主机上,用于确定发起DNS请求的进程,获取其特征信息;DNS流量特征采集模块,部署于网关,用于获取终端主机发起的DNS请求,获取其流量特征信息;数据整合模块,用于对上述模块收集到的特征信息进行关联后发送给分析模块;分析模块,将收到的DNS特征数据输入预先训练好的神经网络,判断对应的进程是否有害。监控DNS请求中的流量特征和进程特征,有效地发现设备中存在的恶意软件。
-
公开(公告)号:CN113608946B
公开(公告)日:2023-09-12
申请号:CN202110910834.6
申请日:2021-08-10
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 基于特征工程和表示学习的机器行为识别方法,由三个步骤构成:步骤一,对大数据进行分析,通过时间、频次等多维度的信息,建立3σ模型,用于确定机器行为的访问时间频段,在机器行为的访问时间频段下,通过分组聚合等方式,归纳总结提取出基于机器行为的特征;步骤二,并通过查阅API文档、软件模拟复现、官方的RFC文档等方式对行为进行定义和命名,整合成一组完备的机器行为特征,完成基于特征工程机器行为识别工作;步骤三,对识别效果不佳的模型加入与其他行为存在交集的特征,去排除其他行为,以提高准确率。
-
公开(公告)号:CN116680419A
公开(公告)日:2023-09-01
申请号:CN202310955604.0
申请日:2023-08-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/36 , G06F40/216 , G06F40/30 , G06F40/295
Abstract: 本发明涉及自然语言处理技术领域,提供一种多源数据映射关联细粒度不良信息检测方法,所述方法包括:获取待检测文本和历史浏览文本,待检测文本和历史浏览文本属于同一用户的浏览文本;对待检测文本进行实体关系抽取,得到待检测三元组;获取历史浏览文本中的不良信息所对应的历史三元组,并基于历史三元组与待检测三元组之间的关联度,从待检测三元组中确定出待检测文本中的不良信息所对应的三元组。本发明提供的一种多源数据映射关联细粒度不良信息检测方法,能够准确从待检测三元组中确定出待检测文本中的不良信息所对应的三元组,避免传统方法中分词演变绕过黑名单机制导致漏检的问题,进一步提高的不良信息的检测精度。
-
公开(公告)号:CN115982111A
公开(公告)日:2023-04-18
申请号:CN202211660716.5
申请日:2022-12-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/17 , G06F16/18 , H04L61/4511 , H04L101/69 , H04L101/668
Abstract: 本发明公开了一种基于IP访问特征的用户群体画像方法,涉及网络治理技术领域,该方法首先根据日志的访问域名的类别信息,通过数理统计的方法构建IP访问特征数据集,然后,基于用户群体划分算法识别特定群体和非特定群体,最后,构建用户群体属性标签体系,对划分的群体进行群体画像分析,在充分研究原始日志的基础上,以IP访问特征为着力点,设计了基于规则和机器学习相结合的用户群体划分算法,根据日志数据量大的特点,研究了在大数据情况下,优化机器学习算法效率的方法。
-
-
-
-
-
-
-
-
-