-
公开(公告)号:CN115269833A
公开(公告)日:2022-11-01
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06K9/62
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN115269833B
公开(公告)日:2024-08-16
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06F18/23213 , G06F18/24 , G06F18/25
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN116702094A
公开(公告)日:2023-09-05
申请号:CN202310957274.9
申请日:2023-08-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/26 , G06F18/25 , G06F18/213 , G06F18/22 , G06F18/27 , G06N3/045 , G06N3/044 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及数据处理技术领域,提供一种群体应用偏好特征表示方法,其中方法包括:获取用户的交互数据;基于多模态预训练模型,提取所述交互数据的特征表示;基于所述交互数据的特征表示,确定所述交互数据的群体应用偏好特征;基于所述群体应用偏好特征,对所述用户进行画像。本发明提供的群体应用偏好特征表示方法,能够自适应的针对任意的纯文本数据、纯图像数据、图文混合数据提取联合特征,实现对多模态数据的分析处理,在图文模态下,可以增加特征提取的语义交互能力,使得到的群体应用偏好特征更准确,从而提高用户画像的质量。
-
公开(公告)号:CN115809368A
公开(公告)日:2023-03-17
申请号:CN202211660700.4
申请日:2022-12-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F40/289 , G06F40/30 , G06F16/35 , G06N3/0442 , G06N3/0464 , G06N3/045 , G06N3/048 , G06N3/047 , G06N3/08
Abstract: 本发明涉及侦测搜索技术领域,具体公开了一种基于HTML结构特征的端到端色情网站侦测方法,包括词嵌入层、Bi‑LSTM层、卷积层、Attention层,研究了搜索引擎的网站排名机制和HTML的标签结构特征,通过提取HTML源代码中的meta标签作为文本数据集,构建了BiLSTM+TextCNN+Attention协同模型用于色情网站侦测。
-
公开(公告)号:CN118227796B
公开(公告)日:2024-07-19
申请号:CN202410641847.1
申请日:2024-05-23
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/33 , G06F40/289 , G06F40/30 , G06F18/24 , G06N3/0455 , G06N3/048 , G06N3/08
Abstract: 长文本特定内容自动分类与阈值优化方法及其系统,涉及自然语言处理长文本领域。为了解决现有的长文本处理方法在自动分类时存在准确性差、效率低、动态调整、阈值自适应差的缺陷,本发明采用基于深度学习的长文本语义分析模型对待处理的长文本信息数据进行自动分类处理;对长文本进行动态分区域处理;对所述长文本信息数据的语义进行上下文感知融合,提高长文本内容自动分类的准确度;采用误差反馈机制动态调整分类阈值,从而实现长文本内容自动分类的阈值优化。本发明主要用于对互联网长文本的内容进行自动分类和阈值优化。
-
公开(公告)号:CN118227796A
公开(公告)日:2024-06-21
申请号:CN202410641847.1
申请日:2024-05-23
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/33 , G06F40/289 , G06F40/30 , G06F18/24 , G06N3/0455 , G06N3/048 , G06N3/08
Abstract: 长文本特定内容自动分类与阈值优化方法及其系统,涉及自然语言处理长文本领域。为了解决现有的长文本处理方法在自动分类时存在准确性差、效率低、动态调整、阈值自适应差的缺陷,本发明采用基于深度学习的长文本语义分析模型对待处理的长文本信息数据进行自动分类处理;对长文本进行动态分区域处理;对所述长文本信息数据的语义进行上下文感知融合,提高长文本内容自动分类的准确度;采用误差反馈机制动态调整分类阈值,从而实现长文本内容自动分类的阈值优化。本发明主要用于对互联网长文本的内容进行自动分类和阈值优化。
-
公开(公告)号:CN116702094B
公开(公告)日:2023-12-22
申请号:CN202310957274.9
申请日:2023-08-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/26 , G06F18/25 , G06F18/213 , G06F18/22 , G06F18/27 , G06N3/045 , G06N3/044 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及数据处理技术领域,提供一种群体应用偏好特征表示方法,其中方法包括:获取用户的交互数据;基于多模态预训练模型,提取所述交互数据的特征表示;基于所述交互数据的特征表示,确定所述交互数据的群体应用偏好特征;基于所述群体应用偏好特征,对所述用户进行画像。本发明提供的群体应用偏好特征表示方法,能够自适应的针对任意的纯文本数据、纯图像数据、图文混合数据提取联合特征,实现对多模态数据的分析处理,在图文模态下,可以增加特征提取的语义交互能力,使得到的群体应用偏好特征更准确,从而提高用户画像的质量。
-
公开(公告)号:CN110866170A
公开(公告)日:2020-03-06
申请号:CN201910992292.4
申请日:2019-10-18
Applicant: 中国科学院信息工程研究所
IPC: G06F16/953 , G06F16/958
Abstract: 本发明公开了一种基于站点质量的Tor暗网服务的重要性评估方法、搜索方法及系统。本方法为:1)构建Tor暗网站点质量评估指标体系,确定评估指标及对应的权重;2)采集目标Tor暗网站点的网页信息,并根据采集信息确定该目标Tor暗网站点的审美评估的评估值、易用性评估的评估值、多媒体支持评估的评估值、内容丰富性评估的评估值;3)根据该目标Tor暗网站点中是否有用户反馈页面、网站是否被Tor2web服务收录以及暗网服务地址是否具有可读性确定该目标Tor暗网站点的网站声誉评估的评估值;4)根据该目标Tor暗网站点的各评估值及对应的权重,确定该目标Tor暗网站点的重要性。本发明能够准确评估站点的质量。
-
公开(公告)号:CN110825950B
公开(公告)日:2022-05-17
申请号:CN201910911334.7
申请日:2019-09-25
Applicant: 中国科学院信息工程研究所
IPC: G06F16/953 , G06K9/62 , H04L67/51
Abstract: 本发明公开了一种基于元搜索的隐藏服务发现方法,其步骤包括:1)根据设定的初始关键词进行搜索,并将搜索结果页面中的链接加入集合U中;2)根据设定的隐藏服务地址匹配规则从该集合U中提取匹配的隐藏服务地址并加入到集合V中;3)访问集合V中的每一地址,提取各地址对应网页中的链接并加入到一集合L中;4)访问集合L的每一地址,根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H中;5)将该集合H中的地址作为隐藏服务地址输出。本发明摆脱了匿名网络协议的限制,并且体现出了良好的效果,提高了隐藏服务发现。
-
公开(公告)号:CN110781301A
公开(公告)日:2020-02-11
申请号:CN201910910832.X
申请日:2019-09-25
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35 , G06F16/33 , G06F40/131 , G06F40/295
Abstract: 本发明公开了一种面向人物属性稀疏页面的人物信息抽取方法,其步骤包括:1)对页面的人物属性信息含量进行量化;其中,页面为根据设定检索关键词搜索到的页面;2)根据页面的量化值确定从该页面抽取的语句数n,作为该页面的文本块;其中,抽取的n个语句为与检索关键词最邻近的n个句子,页面的量化值越高,则对应的语句数n值越大;3)从各所述文本块中抽取人物属性特征,得到包含人物属性特征的候选集。本发明能够在页面人物属性稀疏的场景下依旧能达到较高的准确率、召回率以及F1值,从而为人物检索系统提供准确可靠的数据基础。
-
-
-
-
-
-
-
-
-