-
公开(公告)号:CN107798080A
公开(公告)日:2018-03-13
申请号:CN201710952357.3
申请日:2017-10-13
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词;以特征词为关键词搜索URL,并验证搜索到的URL是否正常,如是,则添加至训练样本集。构造与钓鱼URL强相似的正常URL,而不是从公开平台随机选取合法URL作为训练样本。不依赖于任何先验知识,可以得到与已知钓鱼URL相近的正常URL训练样本集。从而,解决背景技术中提到的机器学习或深度学习的训练样本两极分化十分严重的问题。
-
公开(公告)号:CN106569997A
公开(公告)日:2017-04-19
申请号:CN201610912585.3
申请日:2016-10-19
Applicant: 中国科学院信息工程研究所
IPC: G06F17/27
Abstract: 本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。
-
公开(公告)号:CN107992469A
公开(公告)日:2018-05-04
申请号:CN201710952360.5
申请日:2017-10-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于词序列的钓鱼URL检测方法及系统,用来检测钓鱼URL。通过对URL字符串进行分词,进而得到词序列的向量表示,然后利用深度学习模型自动学习词序列中的上下文信息和特征,不需要人工提取URL中包含单词相关的文本特征,采用训练好的模型用来检测钓鱼URL。从而,解决前面提到的已有基于词特征的钓鱼URL检测中遇到的问题。
-
-