-
公开(公告)号:CN110866170A
公开(公告)日:2020-03-06
申请号:CN201910992292.4
申请日:2019-10-18
Applicant: 中国科学院信息工程研究所
IPC: G06F16/953 , G06F16/958
Abstract: 本发明公开了一种基于站点质量的Tor暗网服务的重要性评估方法、搜索方法及系统。本方法为:1)构建Tor暗网站点质量评估指标体系,确定评估指标及对应的权重;2)采集目标Tor暗网站点的网页信息,并根据采集信息确定该目标Tor暗网站点的审美评估的评估值、易用性评估的评估值、多媒体支持评估的评估值、内容丰富性评估的评估值;3)根据该目标Tor暗网站点中是否有用户反馈页面、网站是否被Tor2web服务收录以及暗网服务地址是否具有可读性确定该目标Tor暗网站点的网站声誉评估的评估值;4)根据该目标Tor暗网站点的各评估值及对应的权重,确定该目标Tor暗网站点的重要性。本发明能够准确评估站点的质量。
-
公开(公告)号:CN115269833A
公开(公告)日:2022-11-01
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06K9/62
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN110825950B
公开(公告)日:2022-05-17
申请号:CN201910911334.7
申请日:2019-09-25
Applicant: 中国科学院信息工程研究所
IPC: G06F16/953 , G06K9/62 , H04L67/51
Abstract: 本发明公开了一种基于元搜索的隐藏服务发现方法,其步骤包括:1)根据设定的初始关键词进行搜索,并将搜索结果页面中的链接加入集合U中;2)根据设定的隐藏服务地址匹配规则从该集合U中提取匹配的隐藏服务地址并加入到集合V中;3)访问集合V中的每一地址,提取各地址对应网页中的链接并加入到一集合L中;4)访问集合L的每一地址,根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H中;5)将该集合H中的地址作为隐藏服务地址输出。本发明摆脱了匿名网络协议的限制,并且体现出了良好的效果,提高了隐藏服务发现。
-
公开(公告)号:CN110781301A
公开(公告)日:2020-02-11
申请号:CN201910910832.X
申请日:2019-09-25
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35 , G06F16/33 , G06F40/131 , G06F40/295
Abstract: 本发明公开了一种面向人物属性稀疏页面的人物信息抽取方法,其步骤包括:1)对页面的人物属性信息含量进行量化;其中,页面为根据设定检索关键词搜索到的页面;2)根据页面的量化值确定从该页面抽取的语句数n,作为该页面的文本块;其中,抽取的n个语句为与检索关键词最邻近的n个句子,页面的量化值越高,则对应的语句数n值越大;3)从各所述文本块中抽取人物属性特征,得到包含人物属性特征的候选集。本发明能够在页面人物属性稀疏的场景下依旧能达到较高的准确率、召回率以及F1值,从而为人物检索系统提供准确可靠的数据基础。
-
公开(公告)号:CN110825950A
公开(公告)日:2020-02-21
申请号:CN201910911334.7
申请日:2019-09-25
Applicant: 中国科学院信息工程研究所
IPC: G06F16/953 , G06K9/62 , H04L29/08
Abstract: 本发明公开了一种基于元搜索的隐藏服务发现方法,其步骤包括:1)根据设定的初始关键词进行搜索,并将搜索结果页面中的链接加入集合U中;2)根据设定的隐藏服务地址匹配规则从该集合U中提取匹配的隐藏服务地址并加入到集合V中;3)访问集合V中的每一地址,提取各地址对应网页中的链接并加入到一集合L中;4)访问集合L的每一地址,根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H中;5)将该集合H中的地址作为隐藏服务地址输出。本发明摆脱了匿名网络协议的限制,并且体现出了良好的效果,提高了隐藏服务发现。
-
公开(公告)号:CN115269833B
公开(公告)日:2024-08-16
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06F18/23213 , G06F18/24 , G06F18/25
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN107341183B
公开(公告)日:2021-06-22
申请号:CN201710397901.2
申请日:2017-05-31
Applicant: 中国科学院信息工程研究所
IPC: G06F16/951 , G06F16/35
Abstract: 本发明公开了一种基于暗网网站综合特征的网站分类方法。本方法为:1)爬取目标暗网网站,得到一带标注的暗网网站训练集合;2)提取该集合中每一网站信息进行分词,构建该网站的词的空间向量,并计算每一词的权重;将词与对应权重进行相乘后的空间向量作为网站的文本特征;3)提取该暗网网站训练集合中每一网站的标签,构建该网站的标签的空间向量,并计算每个标签的权重;将标签与对应权重相乘后的空间向量作为网站的结构特征;4)将每一网站的文本特征与结构特征结合得到该网站的综合特征;5)对各网站的综合特征进行训练,得到一分类模型;然后利用该分类模型对待分类网站进行预测,得到该待分类网站的类别。本发明提高了网站分类效率。
-
公开(公告)号:CN107341183A
公开(公告)日:2017-11-10
申请号:CN201710397901.2
申请日:2017-05-31
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30705
Abstract: 本发明公开了一种基于暗网网站综合特征的网站分类方法。本方法为:1)爬取目标暗网网站,得到一带标注的暗网网站训练集合;2)提取该集合中每一网站信息进行分词,构建该网站的词的空间向量,并计算每一词的权重;将词与对应权重进行相乘后的空间向量作为网站的文本特征;3)提取该暗网网站训练集合中每一网站的标签,构建该网站的标签的空间向量,并计算每个标签的权重;将标签与对应权重相乘后的空间向量作为网站的结构特征;4)将每一网站的文本特征与结构特征结合得到该网站的综合特征;5)对各网站的综合特征进行训练,得到一分类模型;然后利用该分类模型对待分类网站进行预测,得到该待分类网站的类别。本发明提高了网站分类效率。
-
-
-
-
-
-
-