对话模型训练方法、对话方法、系统、设备及介质

    公开(公告)号:CN119862964A

    公开(公告)日:2025-04-22

    申请号:CN202510345245.6

    申请日:2025-03-24

    Abstract: 本发明提供一种对话模型训练方法、对话方法、系统、设备及介质,涉及人机交互技术领域,该方法包括:根据样本对话中的当前样本用户输入信息和历史样本对话信息,生成当前样本对话状态信息;基于待训练策略网络和待训练价值网络进行树搜索,得到当前样本回复动作信息,以及当前样本回复动作信息对应的对话轨迹的全局奖励值;根据当前样本回复动作信息模拟生成的下一样本对话状态信息、当前样本对话状态信息、当前样本回复动作信息和全局奖励值,构建样本数据;根据样本数据,对待训练策略网络和待训练价值网络进行联合训练,以构建对话模型。本发明实现在对话时综合考虑长期回报和策略优化,由此提升多轮对话的生成质量、交互能力和用户体验感。

Patent Agency Ranking