-
公开(公告)号:CN107451433A
公开(公告)日:2017-12-08
申请号:CN201710499053.6
申请日:2017-06-27
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于文本内容的信息源识别方法,适用于非结构化的文本,即自由文本,包括以下步骤:将输入的文本按句子切分并分词;识别出各句子中包含的类型为信息源的实体;如所述实体为其所在句子的信息源,则将其作为一信息源实体;整合各句子得到的信息源实体,作为文本信息识别结果。可以不依赖于网页结构化信息,不依赖于人工特征提取,通过分析文本内容,自动识别非结构化文本的信息源。同时提供对应实现上述方法的装置。
-
公开(公告)号:CN106803035A
公开(公告)日:2017-06-06
申请号:CN201611079933.X
申请日:2016-11-30
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F21/45 , G06F21/31 , G06F21/46 , G06F21/602 , H04L63/083
Abstract: 本发明公开了一种基于用户名信息的密码猜测集生成方法及密码破解方法。本发明的密码破解方法为:1)对泄漏数据训练集中的用户名、密码分别进行分词和语义结构标注,计算用户名、密码的语义相似性;其中,所述语义相似性包括语义结构相似性和语义片段相似性;2)将该语义相似性应用到PCFGs语法中,即基于语义相似性构建PCFGs语法;3)根据步骤2)构建的PCFGs语法,按照概率降序生成密码猜测集;4)根据该密码猜测集进行密码破解。本发明利用用户名和密码的片段相似性和结构相似性,理解密码的构成语义,从而生成密码猜测集,提高密码破解效率。
-
公开(公告)号:CN105825216A
公开(公告)日:2016-08-03
申请号:CN201610153384.X
申请日:2016-03-17
Applicant: 中国科学院信息工程研究所
IPC: G06K9/32
CPC classification number: G06K9/325 , G06K2209/01
Abstract: 本发明公开了一种复杂背景图像中的文本定位方法。本方法为:1)在待处理的彩色图像的R、G和B三个通道上分别使用MSERs算法进行处理,得到对应三个通道上的MSERs区域;然后将得到的结果标记在该彩色图像上,得到每个MSERs区域在彩色图像上的坐标;2)进行初步去噪,去掉判断为重复的MSERs区域和非文本的MSERs区域,得到候选MSERs区域;3)从得到的候选MSERs区域中提取设定特征,然后利用一基于该设定特征训练的分类器对候选MSERs区域分类,得到包含文本的MSERs区域,即文本块;4)将得到的文本块连接成文本条;5)对得到的文本条进行去重处理。本发明大大提高了文本定位效率。
-
公开(公告)号:CN105630884A
公开(公告)日:2016-06-01
申请号:CN201510957634.0
申请日:2015-12-18
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/3087 , G06F17/30705
Abstract: 本发明公开了一种微博热点事件的地理位置发现方法。本方法为:1)基于行政区规划地理词词典及中文简称词的命名规则构建一简称词词典,然后将该简称词词典与全称词词典进行关联;2)根据事件关键字,获取包含该事件关键字的微博信息;3)对获取的微博信息进行分词处理,得到该微博的分词集合,然后判断该分词集合中每一名词是否在该简称词词典或全称词词典中,如果存在则将该名词作为候选地理位置词保留;当该微博中出现多个候选地理位置词时,则选取一候选地理位置词作为该微博的地点;4)获取确定的每一地点的地理位置经纬度信息,然后对得到的地理位置经纬度信息进行聚类,根据聚类中心判断出事件爆发地点。本方法可更好的了解突发事件。
-
公开(公告)号:CN104008146A
公开(公告)日:2014-08-27
申请号:CN201410196803.9
申请日:2014-05-09
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30247
Abstract: 本发明涉及一种基于共同视觉模式的图像查询扩展方法及系统,包括视觉关键词级查询扩展和图像级查询扩展,视觉关键词级查询扩展是在离线时构建一个训练图像库,挖掘训练图像库中各图像间的CVP,根据CVP计算每一个视觉关键词的上下文同义词并保存,在线查询时,将待查询的视觉关键词扩展到其上下文同义词,并在原始图像库中查询;图像级查询扩展是在视觉关键词级查询扩展的基础上进行的,通过视觉关键词级查询得到初始结果,计算查询图像与初始结果中相似的n幅图像间的CVP,以CVP为线索,找到训练图像库中的相似图像,根据查询图像和相似图像在原始图像库中进行查询;本发明提供多种查询方式,在提高检索精度的同时保证了检索速度。
-
公开(公告)号:CN111753150B
公开(公告)日:2023-10-13
申请号:CN202010412344.9
申请日:2020-05-15
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9032
Abstract: 本发明公开一种基于图搜索方法加速epsilon闭包计算的方法及系统,涉及计算机领域,针对传统闭包计算整体消耗时间长的缺陷,为了优化闭包算法,利用图搜索的方法,在NFA构造DFA的过程中对现有的方法进行优化,加速了DFA的构造过程。
-
公开(公告)号:CN116170168A
公开(公告)日:2023-05-26
申请号:CN202210253611.1
申请日:2022-03-15
Applicant: 中国科学院信息工程研究所
IPC: H04L9/40 , H04L61/4511
Abstract: 本发明公开一种基于深度支持向量数据描述的DGA域名检测方法及系统,涉及网络安全领域,为解决解决已有工作检测未知DGA家族方法单一、检测率低的问题,本发明首先从真实DNS流量获取不可解析域名作为待检测域名,然后对不可解析域名提取特征向量,最后将特征向量输入至深度支持向量数据描述算法模型中,判别每个不可解析域名是否是DGA域名。
-
公开(公告)号:CN115883513A
公开(公告)日:2023-03-31
申请号:CN202211484474.9
申请日:2022-11-24
Applicant: 中国科学院信息工程研究所
IPC: H04L61/4511 , H04L69/164 , H04L9/40
Abstract: 本发明公开了一种基于DNS水印技术的解析器探测方法及其分类方法,属于计算机网络领域。本发明中通过自建的权威域名服务器,可以从DNS解析中的权威侧收集数据,能够发现大量非公开的递归解析器;使用DNS水印和权威域名服务器动态响应的技术将权威侧和用户侧探测收集的数据都保存在DNS响应记录中;针对解析器在DNS解析过程中的不同角色清晰的定义了解析器类别,并给出了明确的分类,有助于进一步了解DNS体系结构。
-
公开(公告)号:CN113472742B
公开(公告)日:2022-09-27
申请号:CN202110588732.7
申请日:2021-05-28
Applicant: 中国科学院信息工程研究所
IPC: H04L9/40 , H04L41/142 , G06K9/62 , G06N3/04
Abstract: 本发明涉及一种基于门控循环单元的内部威胁检测方法和装置。该方法的步骤包括:解析用户审计日志以获取用户动作信息,将每个用户的动作按照时间先后顺序构建用户动作序列;利用门控循环单元GRU从用户动作序列中提取用户行为的时序特征;将提取的时序特征输入LR分类器进行分类,判别其为正常或异常,从而实现内部威胁检测。本发明融合多域的用户活动记录以全面地刻画用户行为,GRU可以更好地捕获用户动作序列的长期依赖,该方案能够实现用户行为细粒度的分析并提高了内部威胁检测的准确率。
-
公开(公告)号:CN114050912A
公开(公告)日:2022-02-15
申请号:CN202111158750.8
申请日:2021-09-30
Applicant: 中国科学院信息工程研究所
IPC: H04L9/40 , H04L61/4511 , G06K9/62 , G06N3/08
Abstract: 本发明涉及一种基于深度强化学习的恶意域名检测方法和装置。该方法的步骤包括:获取待检测域名的真实DNS流量;查询并记录真实DNS流量中待检测域名的whois信息;根据待检测域名本身以及whois信息,对待检测域名进行特征提取,生成待检测域名的特征向量;将待检测域名的特征向量输入至深度强化学习模型中,判断待检测域名是否具有恶意行为。本发明使用基于深度强化学习的方法来解决真实DNS流量中良性与恶意样本数据不平衡的分类问题,能够快速有效地发现真实DNS流量中存在的低比例恶意样本,在低平衡率时依旧保持较好的效果。
-
-
-
-
-
-
-
-
-