一种垃圾短信分析方法和装置

    公开(公告)号:CN106681980B

    公开(公告)日:2019-06-28

    申请号:CN201510744742.X

    申请日:2015-11-05

    Abstract: 本发明公开了一种垃圾短信分析方法和装置,用以提高正则策略的覆盖率和垃圾短信过滤效率。垃圾短信分析方法,包括:对预处理后的待分析垃圾短信进行分词得到多个词语;利用根据垃圾短信样本集确定出的关键词提取模型从得到的词语中提取关键词;以及利用根据垃圾短信样本集确定出的关键词组训练模型,从关键词中提取组成关键词组的关键词;针对关键词组所包含的每一关键词,按照各关键词在待分析垃圾短信中的出现顺序,确定相邻两个关键字在所述垃圾短信样本集包含的垃圾短信中同时出现时的最小距离和最大距离;根据关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略。

    一种垃圾短信分析方法和装置

    公开(公告)号:CN106681980A

    公开(公告)日:2017-05-17

    申请号:CN201510744742.X

    申请日:2015-11-05

    CPC classification number: G06F17/271 G06K9/6256

    Abstract: 本发明公开了一种垃圾短信分析方法和装置,用以提高正则策略的覆盖率和垃圾短信过滤效率。垃圾短信分析方法,包括:对预处理后的待分析垃圾短信进行分词得到多个词语;利用根据垃圾短信样本集确定出的关键词提取模型从得到的词语中提取关键词;以及利用根据垃圾短信样本集确定出的关键词组训练模型,从关键词中提取组成关键词组的关键词;针对关键词组所包含的每一关键词,按照各关键词在待分析垃圾短信中的出现顺序,确定相邻两个关键字在所述垃圾短信样本集包含的垃圾短信中同时出现时的最小距离和最大距离;根据关键词组所包含的关键词以及相邻两个关键词在垃圾短信样本中的最小距离和最大距离生成用于过滤垃圾短信的正则策略。

Patent Agency Ranking