一种基于半监督学习的DHT网络敏感内容识别方法

    公开(公告)号:CN116306613A

    公开(公告)日:2023-06-23

    申请号:CN202211531946.1

    申请日:2022-12-01

    Abstract: 本发明公开了一种基于半监督学习的DHT网络敏感内容识别方法,通过爬取DHT网络得到网络数据并对其中部分数据进行人工标注,构建了文件元数据数据集,同时针对种子信息文本自身具有的有效信息较为分散等特征,采用基于注意力机制的双向长短期记忆网络模型进行敏感内容识别,运用基于数据驱动的学习型算法极大减少了人工干预定义规则的需求,同时针对DHT网络数据训练过程中存在的数据量少、数据不平衡及无效样本多等问题,采用基于有标签数据和无标签数据同时进行训练的半监督学习方法有效提升了模型在小样本标注数据集上的训练效果。

    一种基于限定领域的分词方法及系统

    公开(公告)号:CN114330307A

    公开(公告)日:2022-04-12

    申请号:CN202110483554.1

    申请日:2021-04-30

    Abstract: 本发明公开了一种基于限定领域的分词方法及系统,方法包括:对限定领域的数据进行预处理,对预处理后得到的数据中的命名实体进行识别,并抽取出数据中的实体词汇,得到命名实体识别结果;基于预处理后得到的数据计算限定领域语料中的特征信息,并根据得到的特征信息构建新词发现模型,利用新词发现模型对语料库中的新词进行识别,以获取新词数据组;利用所述命名实体识别结果及常用词词典对获取的新词数据组进行过滤,排除掉常用词汇和实体词汇,以获取并确认敏感词,并基于确认后的敏感词建立敏感词库;结合敏感词库中获取的敏感词信息和命名实体识别结果进行分词。解决了现有技术中在限定领域中分词准确性较差的技术问题。

Patent Agency Ranking