发明授权
- 专利标题: 基于特征解交织的非法文本识别方法及装置
-
申请号: CN201910730306.5申请日: 2019-08-08
-
公开(公告)号: CN110704611B公开(公告)日: 2022-08-19
- 发明人: 任博雅 , 刘权 , 李扬曦 , 赵媛 , 时磊 , 徐雅静 , 林鸿展 , 孙忆南 , 李思
- 申请人: 国家计算机网络与信息安全管理中心
- 申请人地址: 北京市朝阳区裕民路甲3号
- 专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人地址: 北京市朝阳区裕民路甲3号
- 代理机构: 工业和信息化部电子专利中心
- 代理商 秦莹
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F40/216 ; G06F40/242 ; G06F40/279
摘要:
本发明公开了一种基于特征解交织的非法文本识别方法及装置,所述方法包括:步骤1,对待识别文本进行去变体操作,去除所述待识别文本中的特殊字符;步骤2,根据预先设置的文本特征词库和乱序特征字库,判断所述待识别文本是否为乱序文本,如果判断为是,则对所述待识别文本进行解交织处理,消除变体,否则,直接执行步骤3;步骤3,利用预先训练的分类器组对解变体后的待识别文本进行分类,输出是否为非法文本预测结果。
公开/授权文献
- CN110704611A 基于特征解交织的非法文本识别方法及装置 公开/授权日:2020-01-17