一种基于编码和机器学习的多语种识别方法

    公开(公告)号:CN106528535B

    公开(公告)日:2019-04-26

    申请号:CN201611001398.6

    申请日:2016-11-14

    Abstract: 本发明提供了一种基于编码和机器学习的多语种识别方法,是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别,编码识别时还统计各语种的单词量,当机器学习单元的识别结果在编码识别单元的判定区间内,且二者识别的语言一致时,输出单一识别语言,当编码识别单元识别到多种语言时,进行混合语言规则判断,若第二语言在文本中的单词量比例达到设定比例,则判定文本为混合语言。本发明对长文本可先作随机采样再判定,以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等97种语言的语种识别,同时支持混合语种文本识别,在海量数据分析以及舆情监控中具有广泛的应用前景。

    网络数据包URL过滤方法
    16.
    发明公开

    公开(公告)号:CN103957154A

    公开(公告)日:2014-07-30

    申请号:CN201410145480.0

    申请日:2014-04-11

    Abstract: 本发明公开了一种网络数据包URL过滤方法,包括步骤一、在Tilera众核平台下配置Mpipe规则;步骤二、创建n个收包线程,为各个线程绑定一个用于处理数据包的CPU核,n个收包线程并行运行;步骤三、在每个收包线程中,调用Mpipe接口接收网络数据包,从网络数据包里提取URL;步骤四、在每个收包线程中,将提取的URL与URL匹配规则表进行快速匹配查找;步骤五、如果在URL匹配规则表中查找到与数据包中的URL时,则数据包匹配URL规则,然后根据程序的参数设置对匹配URL规则的网络数据包进行过滤或者转发,否则按照预先设置的默认方式处理数据包。

Patent Agency Ranking