一种基于领域数据配比的大语言模型知识注入方法

    公开(公告)号:CN119831030A

    公开(公告)日:2025-04-15

    申请号:CN202411730689.3

    申请日:2024-11-29

    Abstract: 本发明涉及一种基于领域数据配比的大语言模型知识注入方法,属于大语言模型、领域知识、自然语言处理技术领域。本发明设计了一个自我监督的持续预训练框架,该框架能够在不增加额外人工标注成本的情况下,利用选定的知识对LLMs进行知识增强;提出了一个基于同质性度量的知识筛选机制,用于从大规模知识图谱中精选与目标任务相关的高质量知识,有效提升了LLMs的领域感知。在多个低资源垂直领域的NER任务上进行了广泛的实验,实验结果验证了本方法的有效性,尤其是在提升模型对复杂实体类型识别能力方面表现出色。

Patent Agency Ranking