-
公开(公告)号:CN118485070A
公开(公告)日:2024-08-13
申请号:CN202410632258.7
申请日:2024-05-21
Applicant: 中国科学院信息工程研究所
IPC: G06F40/284 , G06F40/30 , G06N3/0442 , G06N3/045 , G06N3/047 , G06N3/096
Abstract: 本发明提出一种敏感词汇识别方法,包括:S1:输入文本到基础敏感词识别模型得到中间矩阵;S2:将中间矩阵输入敏感信息提取模块,变换得到#imgabs0#和#imgabs1#;S3:将#imgabs2#和#imgabs3#输入位置信息增强模块,得到四维矩阵#imgabs4#;S4:将#imgabs5#输入敏感信息筛选模块,得到筛选后的矩阵;S5:将筛选后的矩阵输入CRF层得到每个字的概率;S6:提取S2‑S4步的损失值,提高其在整体损失值中的比重。S7:通过敏感词识别模型模型进行迭代训练,保存精度最高的模型,进行词汇类别预测。本发明方法可提高敏感词汇的识别准确率。