基于知识库反馈的生成式大语言模型的训练方法和装置

    公开(公告)号:CN117009490A

    公开(公告)日:2023-11-07

    申请号:CN202311112954.7

    申请日:2023-08-31

    Inventor: 黄飞 战凯 吴信东

    Abstract: 本发明公开了一种基于知识库反馈的生成式大语言模型的训练方法和装置,该方法利用领域知识库以及监督微调训练对大语言模型进行优化;采用基于知识库反馈的强化学习方法,利用领域知识库,构建奖励模型,对大语言模型生成的答案进行打分和反馈,构成了强化学习的流程。本发明的创新之处将知识图谱技术应用在奖励构建之中,从而可通过知识工程的自动化流程进行大语言模型微调,取代了基于人类反馈的强化学习,有利于节省大量人类反馈标注的高昂成本,基于确定性的知识推理得到领域应用的正确答案可修正生成式大语言模型捏造事实的关键缺陷,可使用在基于领域知识图谱构建行业垂直应用语言大模型的场景,适用性强。

Patent Agency Ranking