一种基于马尔可夫奖励的竞拍迭代及调度方法和装置

    公开(公告)号:CN117540891A

    公开(公告)日:2024-02-09

    申请号:CN202311662163.1

    申请日:2023-12-06

    Abstract: 本发明公开了一种基于马尔可夫奖励的竞拍迭代及调度方法和装置,首先,结合实际物流场景建立了MAPD问题的数学模型;其次,提出了一种新的任务分配与路径规划的耦合方法,根据任务的创建时间、截止时间及动态路径距离设计拍卖成本函数,基于随迭代情况和路径动态变化的投标估值重新设计竞拍程序;最后引入了强化学习中的马尔可夫奖励进一步提升系统性能。本发明首次将强化学习与拍卖竞价程序耦合,引入马尔可夫奖励概念,进一步提升了算法性能。在保证实时性的前提下,与现有算法相比,该拍卖算法生成的任务分配方案能实现接近全局最优解,平均总旅行距离大大缩短,任务总完成时间也随之减少。

Patent Agency Ranking