-
公开(公告)号:CN119831030A
公开(公告)日:2025-04-15
申请号:CN202411730689.3
申请日:2024-11-29
Applicant: 北京计算机技术及应用研究所
Abstract: 本发明涉及一种基于领域数据配比的大语言模型知识注入方法,属于大语言模型、领域知识、自然语言处理技术领域。本发明设计了一个自我监督的持续预训练框架,该框架能够在不增加额外人工标注成本的情况下,利用选定的知识对LLMs进行知识增强;提出了一个基于同质性度量的知识筛选机制,用于从大规模知识图谱中精选与目标任务相关的高质量知识,有效提升了LLMs的领域感知。在多个低资源垂直领域的NER任务上进行了广泛的实验,实验结果验证了本方法的有效性,尤其是在提升模型对复杂实体类型识别能力方面表现出色。
-
公开(公告)号:CN119721022A
公开(公告)日:2025-03-28
申请号:CN202411699641.0
申请日:2024-11-26
Applicant: 北京计算机技术及应用研究所
IPC: G06F40/279 , G06F40/216 , G06F40/30 , G06F18/22 , G06F40/186 , G06F40/211 , G06F40/253 , G06N20/00 , G06N3/045
Abstract: 本发明涉及一种基于关键词提示的细粒度关系抽取数据增强方法,属于人工智能、大数据、自然语言处理技术领域。此方法在句子合成过程中增加了关键词提示的上下文约束,以确保生成的句子在保持关系依赖性和语义一致性的同时,通过结合大语言模型的强大生成能力,生成具有丰富上下文多样性的句子,同时保持语义一致性,提高生成数据的多样性。
-