一种快速内容分析的多关键词匹配方法

    公开(公告)号:CN101359325B

    公开(公告)日:2010-06-16

    申请号:CN200710119845.2

    申请日:2007-08-01

    Abstract: 本发明公开了一种快速内容分析的多关键词匹配方法。所述发明方法包括预处理阶段和模式匹配阶段。其中,所述的预处理阶段包括关键词特征串裁剪和关键词特征分片集合的构建、基于关键词特征分片集合的Bloom Filte(布隆过滤器)构造,以及原始关键词集合线性表构造,所述关键词匹配阶段包括:依据Bloom Filter实现当前窗口中文本串不与任何关键词特征分片匹配的快速判定;只在判定失败情况下通过字符串比较操作实现与候选关键词的精确匹配;将文本匹配窗口连续多字节快速跳跃。本发明充分利用了待匹配文本与关键词匹配成功概率异常低的特点,可实现大数量关键词场景下的高速匹配,非常适合病毒检测等在线病毒扫描应用。

Patent Agency Ranking