一种基于多对多深度强化学习算法的空闲出租车调度方法

    公开(公告)号:CN117151362A

    公开(公告)日:2023-12-01

    申请号:CN202310664656.2

    申请日:2023-06-06

    Abstract: 本发明公开了一种基于多对多深度强化学习算法的空闲出租车调度方法,包括:对出租车调度区域进行网格划分,将出租车重定位任务定义为部分可观察的马尔可夫决策过程,并定义优化目标,以构建出租车重定位模型;其中,优化目标是平衡出租车供需关系,重定位模型包括评论家部分和演员部分,演员部分包括多个策略网络,每个网格对应一个策略网络;评论家部分包括价值网络和目标网络,两个网络合作以尽可能准确地预测某一特定时间的全局状态值;使用多对多深度强化学习算法来训练所述出租车重定位模型;利用训练好的出租车重定位模型实现空闲出租车调度,得到调度结果。本发明获得的重定位策略可以使供需更加平衡,提高响应率,减少出租车的响应时间。

Patent Agency Ranking