一种基于深度强化学习的机车智能操纵方法与系统
摘要:
本发明涉及一种基于深度强化学习的机车智能操纵方法与系统,该系统包括数据源模块、机车运行环境学习模块、评价机制学习模块和控制策略学习模块,数据源模块为机车运行环境学习模块和评价机制学习模块提供所需的数据输入,机车运行环境学习模块和评价机制学习模块将分别获得的具体的运行环境和奖赏函数值输出至控制策略学习模块。基于深度强化学习算法,机车运行环境模型以机车操纵动作的实时评价作为反馈信息,通过奖赏或惩罚当前的操纵动作,给控制策略反馈一个奖赏函数作为奖赏评价值,控制策略结合运行状态迭代地进行策略的更新与优化。本发明能更好的实现机车智能优化操纵,并极大地减少了人工参与。
0/0