-
公开(公告)号:CN119514531A
公开(公告)日:2025-02-25
申请号:CN202411526201.5
申请日:2024-10-30
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/284 , G06F40/242 , G06F40/30 , G06N3/042 , G06N3/0464 , G06N3/0895 , G06F18/24 , G06F18/23
Abstract: 本发明涉及互联网文本内容识别领域,尤其涉及一种文本特定信息识别判定方法,包括以下步骤:(S1)获取文本数据并进行预处理和分词,通过改进的哈希算法计算每个词语的哈希值,形成词典,利用多层次时间序列模型,计算短期和长期频率,识别异常高频词语作为潜在新词候选词,并将其映射到高维向量空间,生成综合语义向量;(S2)使用综合语义向量构建上下文语义图模型,分析词语的上下文兼容性,构建多任务学习情感分析模型,分别计算情感得分和特定领域相关性得分,通过综合计算各个得分,得到每个候选词的总置信度,识别出潜在的新词,本发明可以提高对隐蔽违法违规内容的识别能力以及识别判定特定文本信息的可靠性。
-
公开(公告)号:CN119441481A
公开(公告)日:2025-02-14
申请号:CN202411509637.3
申请日:2024-10-28
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/16 , G06F40/154
Abstract: 本发明涉及文本分类分级评估技术领域,具体地说,涉及基于信息要素抽取技术的特定文本分类分级评估系统及方法。其包括抽取单元基于大模型微调技术对文本数据进行关键要素字段抽取;规范单元对抽取的各个要素字段进行规范化处理;评估单元基于规范化后的字段通过决策树构建文本分类分级评估体系。本发明技术通过大模型微调技术,模型可以提高关键要素字段抽取的准确性和覆盖率,其可以帮助模型更好地理解文本中的语境,从而减少误报和漏报的情况,提高抽取质量,微调技术可以使模型更好地适应新数据集,即使数据集与预训练数据集略有不同,也能保持较好的性能,有助于增强模型在面对不同风格或格式的文本时的鲁棒性。
-