-
公开(公告)号:CN119862964A
公开(公告)日:2025-04-22
申请号:CN202510345245.6
申请日:2025-03-24
Applicant: 科大讯飞股份有限公司
IPC: G06N5/04 , G06N5/01 , G06N3/092 , G06N3/098 , G06F18/214 , G06F18/243
Abstract: 本发明提供一种对话模型训练方法、对话方法、系统、设备及介质,涉及人机交互技术领域,该方法包括:根据样本对话中的当前样本用户输入信息和历史样本对话信息,生成当前样本对话状态信息;基于待训练策略网络和待训练价值网络进行树搜索,得到当前样本回复动作信息,以及当前样本回复动作信息对应的对话轨迹的全局奖励值;根据当前样本回复动作信息模拟生成的下一样本对话状态信息、当前样本对话状态信息、当前样本回复动作信息和全局奖励值,构建样本数据;根据样本数据,对待训练策略网络和待训练价值网络进行联合训练,以构建对话模型。本发明实现在对话时综合考虑长期回报和策略优化,由此提升多轮对话的生成质量、交互能力和用户体验感。
-
公开(公告)号:CN119849635A
公开(公告)日:2025-04-18
申请号:CN202411965448.7
申请日:2024-12-30
Applicant: 科大讯飞股份有限公司
IPC: G06N5/04 , G06F16/3329
Abstract: 本发明提供一种奖励模型的训练方法、答案评价方法和装置,涉及人工智能技术领域。其中奖励模型的训练方法包括:将原始训练样本和提示文本输入至初始奖励模型,得到初始奖励模型输出的第一推理原理和第一评分;提示文本包括推理原理生成要求文本,推理原理生成要求文本包括推理原理的生成要求信息,推理原理用于指示初始奖励模型在进行评分时需遵循的推理逻辑;基于原始训练样本、第一推理原理和第一评分,微调初始奖励模型,以得到奖励模型;其中,初始奖励模型为预训练的大语言模型。本发明可以提高奖励模型的性能,最终提高基于奖励模型强化的答案生成模型的性能,即提高答案生成模型的生成准确性。
-