医疗语言模型训练方法、医疗问答方法及医疗对话系统

    公开(公告)号:CN117633166A

    公开(公告)日:2024-03-01

    申请号:CN202311373049.7

    申请日:2023-10-20

    Abstract: 本发明涉及人工智能技术领域,提供一种医疗语言模型训练方法、医疗问答方法及医疗对话系统,该训练方法首先确定医疗领域的样本问答对;然后将样本问答对输入至初始语言模型,得到初始语言模型输出的对应于样本问答对中样本问题的多个生成回复;最后确定多个生成回复的偏好信息和价值观信息,并基于多个生成回复及其偏好信息和价值观信息,对初始语言模型进行训练,得到医疗语言模型。该训练方法引入生成回复的偏好信息和价值观信息,并借助于此对初始语言模型进行训练,使得到的医疗语言模型可以具有较好的排序性能及价值观分类性能,可以输出一个最符合语言习惯且较大概率符合价值观的回复内容。

    一种针对语言模型的知识蒸馏方法及相关设备

    公开(公告)号:CN118132763A

    公开(公告)日:2024-06-04

    申请号:CN202410321142.1

    申请日:2024-03-20

    Abstract: 本发明提供了一种针对语言模型的知识蒸馏方法及相关设备,方法包括:根据第一语言模型构建初始的第二语言模型;以学习第一语言模型的语言建模能力为目标,采用通用领域的无标注语料对构建的第二语言模型进行训练;以学习第一语言模型的指令遵循能力为目标,采用通用领域的有标注语料对无监督训练后第二语言模型进行训练;以学习第一语言模型对齐人类价值观的能力为目标,采用通用领域的有标注语料对有监督训练后第二语言模型进行训练,得到最终的第二语言模型。本发明通过对第一语言模型进行分步知识蒸馏,可获得具备第一语言模型所具备能力的第二语言模型,这样的第二语言模型易在真实场景中部署应用,能够解决多种任务,应用范围较广。

Patent Agency Ranking