-
公开(公告)号:CN114050912B
公开(公告)日:2023-04-07
申请号:CN202111158750.8
申请日:2021-09-30
Applicant: 中国科学院信息工程研究所
IPC: H04L9/40 , H04L61/4511 , G06F18/24 , G06N3/08
Abstract: 本发明涉及一种基于深度强化学习的恶意域名检测方法和装置。该方法的步骤包括:获取待检测域名的真实DNS流量;查询并记录真实DNS流量中待检测域名的whois信息;根据待检测域名本身以及whois信息,对待检测域名进行特征提取,生成待检测域名的特征向量;将待检测域名的特征向量输入至深度强化学习模型中,判断待检测域名是否具有恶意行为。本发明使用基于深度强化学习的方法来解决真实DNS流量中良性与恶意样本数据不平衡的分类问题,能够快速有效地发现真实DNS流量中存在的低比例恶意样本,在低平衡率时依旧保持较好的效果。
-
公开(公告)号:CN115439564A
公开(公告)日:2022-12-06
申请号:CN202210926540.7
申请日:2022-08-03
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于稠密子图的图压缩方法和系统,属于计算机软件技术领域。本发明利用稠密子图进行结点重排序并重编码,使得排序不用在大图上进行从而减少结点排序的时间,并降低稠密子图中各结点在内存中的冗余消耗;对抽取出的K边联通子图内各结点进行重编码,构建新的边的存储表示,使得图中出现频次较高的结点占用的空间得以减少;对于图的稀疏空间上,采用压缩邻接表降低存储消耗并采用二级索引提高结点邻居的查找效率。本发明简单且易于使用,降低了结点间的间隙距离,有效减少了将图存储在内存中所需的空间。
-
公开(公告)号:CN110688479B
公开(公告)日:2022-06-17
申请号:CN201910764862.4
申请日:2019-08-19
Applicant: 中国科学院信息工程研究所
IPC: G06F16/34 , G06F16/33 , G06F16/35 , G06F40/295
Abstract: 本发明公开了一种用于生成式摘要的评估方法及排序网络。本发明从三个方面来评估摘要质量:第一,运用语言模型来评估语言的流畅度;第二,使用相似度模型评估文本和摘要之间的语义相关性;第三,为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。本发明从摘要的语言流畅性、摘要与原文的相关性以及摘要所包含的信息量等多个方面来综合评估摘要的质量,大大提高了评估的准确性。
-
公开(公告)号:CN109783696B
公开(公告)日:2021-06-04
申请号:CN201811466997.4
申请日:2018-12-03
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901 , G06F16/2458
Abstract: 本发明公开了一种面向弱结构相关性的多模式图索引构建方法及系统。本方法为:1)读取目标领域的模式图集合中的模式图并为每一模式图生成一模式图标志ID;2)构建模式图同构树:对各模式图进行两两判断,如果两个模式图之间存在子图同构关系,则添加一条从规模较小模式图指向规模较大模式图的有向边,得到模式图集合的模式图同构树;3)对模式图同构树进行频繁子图挖掘,找到公共模式图并将其加入到模式图同构树中;4)当模式图同构树中存在一子模式图具有多个父模式图时,则为该子模式图保留唯一的父模式图;5)计算模式图同构树的最小生成树,并对其进行深度优先遍历,得到模式图集的最优匹配顺序。本发明能够大大提高匹配效率。
-
公开(公告)号:CN110233938B
公开(公告)日:2020-12-22
申请号:CN201910398052.1
申请日:2019-05-14
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于可疑性度量的团伙诈骗电话识别方法,采用无监督的方式,利用电话号码之间的呼叫记录信息,为每个电话号码定义可疑性度量,采用风险等级量化的方式识别团伙诈骗电话。本方法不需引入用户的主观标记结果,不仅能避免主观判断带来的缺陷,还能在较短时间内完成模型训练与线上使用,为用户遭受团体诈骗提供了一种简单、实用的识别方法,有效地缓解了滞后性所带来的问题。
-
公开(公告)号:CN112000818A
公开(公告)日:2020-11-27
申请号:CN202010663328.7
申请日:2020-07-10
Applicant: 中国科学院信息工程研究所
IPC: G06F16/432 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种面向文本和图像的跨媒体检索方法及电子装置,提取一设定长度语音信息的g维MFCC特征,并将长度为m的g维MFCC特征转换为一维语音特征;对一设定文本进行编码,获取词级别文本表示,并将词级别文本表示中每一个词与一维语音特征进行拼接,得到语音引导文本特征;提取每一图片的区域特征,计算区域特征与语音引导文本特征的相似性分数,判断该图片是否包含设定语音信息及设定文本信息,得到检索结果。本发明利用语音信息的停顿信息,以及语音信息与图像和文本间的关联关系来提升图像-文本匹配任务的性能,建模了融合语音信息的文本特征表示,引入基于局部注意力机制的细粒度特征融合方式进行跨模态特征融合,提升图文匹配效果。
-
公开(公告)号:CN111753150A
公开(公告)日:2020-10-09
申请号:CN202010412344.9
申请日:2020-05-15
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9032
Abstract: 本发明公开一种基于图搜索方法加速epsilon闭包计算的方法及系统,涉及计算机领域,针对传统闭包计算整体消耗时间长的缺陷,为了优化闭包算法,利用图搜索的方法,在NFA构造DFA的过程中对现有的方法进行优化,加速了DFA的构造过程。
-
公开(公告)号:CN111597330A
公开(公告)日:2020-08-28
申请号:CN201910129637.3
申请日:2019-02-21
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/216 , G06F40/289
Abstract: 本发明公开了一种基于支持向量机的面向智能专家推荐的用户画像方法,其步骤包括:1)利用设定专家的个人信息,获取一专家信息数据集;2)对该专家信息数据集中的每一条专家信息处理为一个由词语序列构建而成的句子;3)计算每篇文档中的每个词语的TF-IDF值,构成TF-IDF权重矩阵tdm;4)利用该TF-IDF权重矩阵tdm生成TF-IDF特征空间;然后在该TF-IDF特征空间中构建并训练支持向量机模型;5)根据待构建画像专家的文本信息生成对应TF-IDF值,然后在该TF-IDF特征空间中利用训练后的支持向量机模型对该TF-IDF值进行分类,生成该待构建画像专家的用户画像。本方法用户画像准确性高。
-
公开(公告)号:CN106980858B
公开(公告)日:2020-08-18
申请号:CN201710112377.X
申请日:2017-02-28
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法,该系统包括:一特征提取网络,用于从待检测图像中提取底层的CNN特征,得到若干不同的特征图;至少三个区域建议网络,用于分别对上述不同的特征图进行二分类以及边界框回归,然后根据包含文本的特征图产生文本候选区域;一过渡区域,用于连接多个上述文本候选区域,并根据上述包含文本的特征图及文本候选区域产生区域卷积特征图;一文本检测网络,用于根据上述区域卷积特征图产生文本区域边界框偏置信息,并对上述偏置信息进行非极大值抑制以及非合理区域过滤操作,产生图像坐标空间的预测文本区域边界框坐标信息。
-
公开(公告)号:CN107451433B
公开(公告)日:2020-05-22
申请号:CN201710499053.6
申请日:2017-06-27
Applicant: 中国科学院信息工程研究所
IPC: G06F21/16 , G06F40/211 , G06F40/284 , G06N3/04
Abstract: 本发明提供一种基于文本内容的信息源识别方法,适用于非结构化的文本,即自由文本,包括以下步骤:将输入的文本按句子切分并分词;识别出各句子中包含的类型为信息源的实体;如所述实体为其所在句子的信息源,则将其作为一信息源实体;整合各句子得到的信息源实体,作为文本信息识别结果。可以不依赖于网页结构化信息,不依赖于人工特征提取,通过分析文本内容,自动识别非结构化文本的信息源。同时提供对应实现上述方法的装置。
-
-
-
-
-
-
-
-
-