一种文档级敏感信息检测模型训练及预测方法

    公开(公告)号:CN115759043A

    公开(公告)日:2023-03-07

    申请号:CN202211434726.7

    申请日:2022-11-16

    Abstract: 本发明涉及一种文档级敏感信息检测模型训练及预测方法,所述训练方法包括:获取训练样本集;使用上下文编码器对所述文档中的每个句子进行编码,得到句子中每个单词的上下文表示,根据所述句子中最短依赖路径上的关系和所述上下文语义的关联强度,生成文档级实体注意力权重图;将所述注意力权重图输入到图卷积神经网络中,得到文档级跨句语义结构,根据所述文档级跨句语义结构,更新所述注意力权重图;将更新后的注意力权重图输入到分类器中,得到分类分数;根据所述分类分数与所述标签计算损失值,根据所述损失值对所述上下文编码器、图卷积神经网络和分类器进行训练,得到训练完成的模型。

    一种诈骗文本命名实体识别方法及系统

    公开(公告)号:CN113642328A

    公开(公告)日:2021-11-12

    申请号:CN202010343089.7

    申请日:2020-04-27

    Abstract: 本发明提出一种诈骗文本命名实体识别方法,包括:收集诈骗文本,对诈骗文本进行类别标记;使用诈骗文本和类别标记过的诈骗文本进行诈骗文本模型训练,生成诈骗文本命名实体判断模型;接收新通信文本,使用诈骗文本命名实体判断模型对新通信文本进行分析,获取新通信文本中的命名实体及类别。本发明针对诈骗文本手段不断变化,收集大量的历史诈骗文本,构建诈骗文本命名实体判断模型,周期性收集多条历史诈骗文本的相关数据对诈骗文本命名实体判断模型进行自回溯验证,对新通讯文本命名实体识别进行实时验证,实现系统自动化分析处理与人工校准相结合,有效识别新型诈骗文本中的命名实体,通过自动验证不断完善系统模型,实现系统自动化。

Patent Agency Ranking