短文本相似度计算方法及系统

    公开(公告)号:CN108334495A

    公开(公告)日:2018-07-27

    申请号:CN201810090296.9

    申请日:2018-01-30

    Abstract: 本发明提供了一种短文本相似度计算方法,包括以下步骤:S1、对训练语料进行分词,利用word2vec算法得到每个词的词向量,并组合形成词向量集合;S2、分别对待计算短文本进行分词,在词向量集合中找到待计算短文本的每个词语的词向量,并组合形成短文本向量集合;S3、计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度,并得到每个词向量的最大相似度值组合得到短文本句子向量;S4、计算两个短文本句子向量间的相似度,即可计算两个短文本间的相似度。本发明还提供了一种短文本相似度计算系统。本发明的相似度算法通过将短文本句子以句子向量表示,有效的刻画了短文本句子之间的语义相似度,准确率高。

    网络数据包URL过滤方法
    33.
    发明公开

    公开(公告)号:CN103957154A

    公开(公告)日:2014-07-30

    申请号:CN201410145480.0

    申请日:2014-04-11

    Abstract: 本发明公开了一种网络数据包URL过滤方法,包括步骤一、在Tilera众核平台下配置Mpipe规则;步骤二、创建n个收包线程,为各个线程绑定一个用于处理数据包的CPU核,n个收包线程并行运行;步骤三、在每个收包线程中,调用Mpipe接口接收网络数据包,从网络数据包里提取URL;步骤四、在每个收包线程中,将提取的URL与URL匹配规则表进行快速匹配查找;步骤五、如果在URL匹配规则表中查找到与数据包中的URL时,则数据包匹配URL规则,然后根据程序的参数设置对匹配URL规则的网络数据包进行过滤或者转发,否则按照预先设置的默认方式处理数据包。

    一种网络实体行为奇异性检测方法及装置

    公开(公告)号:CN108964998B

    公开(公告)日:2021-10-15

    申请号:CN201810735317.8

    申请日:2018-07-06

    Inventor: 钱丽萍 汪立东

    Abstract: 本发明公开了一种网络实体行为奇异性检测方法及装置,本发明通过提取训练周期内网络实体访问网络行为的时域、空域和频域特征,为其时域、空域和频域行为画像,并以此画像作为网络实体后续网络行为奇异性检测依据,相对于现有技术来说,本发明采取自主学习而无需专家经验和先验知识,检测准确率较高,计算复杂性较低,且可以同步检测和演进画像以确保检测结果的时效性,可以支持多种基于网络流量检测技术的业务应用。

    一种基于关键字词频特征的多模式匹配方法

    公开(公告)号:CN105373601B

    公开(公告)日:2019-05-21

    申请号:CN201510755911.X

    申请日:2015-11-09

    Abstract: 本发明提供一种基于关键字词频特征的多模式匹配方法,首先从已知的信息数据库中提取关键字并统计出现频率作为其词频信息,其次采用构造含有关键字词频信息的二叉树完成其中的模式串匹配,在字符匹配过程中若出现字符不相等,则与该不匹配字符所在节点的兄弟节点所含字符进行匹配。其利用信息来源的模式的关键字词频信息构造基于字典树的二叉树完成其中的模式串的匹配,并与AC算法进行了比较。传统的AC算法需要维护三张表,并且在模式匹配过程中会频繁访问这三张表;本发明的一种基于关键字词频特征的多模式匹配方法更多的利用了模式本身的词频信息,并不需要维护过多的信息,这就大大减少了系统的内存消耗。

    一种语种训练数据获得方法及装置

    公开(公告)号:CN109741731A

    公开(公告)日:2019-05-10

    申请号:CN201910015434.1

    申请日:2019-01-08

    Abstract: 本发明提供一种语种训练数据获得方法及装置,用以解决相关技术中语种训练数据质量较低的问题。该方法包括:训练用于识别各种语种的语种识别模型;使用各语种识别模型识别数据集中的第二音频数据,获得与各语种识别模型对应的得分;确定第二音频数据对应的识别语种;计算数据集中各条第二音频数据的得分信息熵;将所述数据集中,得分信息熵满足第一预设条件且实际语种与识别语种一致的第二音频数据的集合作为训练数据集,训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。本发明提高了语种训练数据的质量。

    网络数据包URL过滤方法
    39.
    发明授权

    公开(公告)号:CN103957154B

    公开(公告)日:2017-12-05

    申请号:CN201410145480.0

    申请日:2014-04-11

    Abstract: 本发明公开了一种网络数据包URL过滤方法,包括步骤一、在Tilera众核平台下配置Mpipe规则;步骤二、创建n个收包线程,为各个线程绑定一个用于处理数据包的CPU核,n个收包线程并行运行;步骤三、在每个收包线程中,调用Mpipe接口接收网络数据包,从网络数据包里提取URL;步骤四、在每个收包线程中,将提取的URL与URL匹配规则表进行快速匹配查找;步骤五、如果在URL匹配规则表中查找到与数据包中的URL时,则数据包匹配URL规则,然后根据程序的参数设置对匹配URL规则的网络数据包进行过滤或者转发,否则按照预先设置的默认方式处理数据包。

    一种基于消息队列的分布式数据实时去重方法

    公开(公告)号:CN105183858A

    公开(公告)日:2015-12-23

    申请号:CN201510572334.0

    申请日:2015-09-10

    CPC classification number: G06F17/30303 G06F17/30386

    Abstract: 本发明公开一种基于消息队列的分布式数据实时去重方法,根据消息网络接口,配置若干台数据从服务器,并加入消息网络;为每一种需去重的数据配置添加原始数据信息、去重数据信息、去重服务信息;根据原始数据信息,去重数据信息及去重服务信息确定从服务器;原始数据产生者查询重服务信息,并将原始数据发送至相应的原始数据队列;数据从去重服务器查询去重服务信息,从相应的原始数据队列中消费数据,并输入至数据去重引擎,之后将去重后的数据输入到相应的去重数据队列;去重数据消费者查询去重服务信息,并从相应的去重数据队列中消费数据;主服务器根据从服务器信息更新从服务器信息。

Patent Agency Ranking