一种集成遗传表达式编程和双延迟深度确定性策略梯度算法的装配车间物流任务实时调度方法及系统

    公开(公告)号:CN118605407A

    公开(公告)日:2024-09-06

    申请号:CN202410608647.6

    申请日:2024-05-15

    Abstract: 本发明属于车间调度相关技术领域,其公开了一种集成遗传表达式编程和双延迟深度确定性策略梯度算法的装配车间物流任务实时调度方法及系统,方法包括:采用遗传表达式编程方式对基本调度规则库中的调度规则进行重组优化获得目标规则库;基于运输任务数量以及各运输载具的位置获得环境状态空间;将环境状态空间输入Transformer获得目标环境状态空间,采用两个评论家网络对目标规则库中的调度策略对应的动作在目标环境状态空间下的Q值进行评估,选择较低的Q值进行动作执行,采用奖励函数对动作执行所产生的环境状态变化进行奖励,更新评论家网络获得最优调度策略。本申请使得当前决策与当前环境状态更加相关,提升了对新环境的适应能力。

    一种适用于作业车间调度的强化学习智能体交互策略网络训练方法、程序产品及系统

    公开(公告)号:CN118657337A

    公开(公告)日:2024-09-17

    申请号:CN202410861456.0

    申请日:2024-06-28

    Abstract: 本发明属于车间调度领域,公开了一种适用于作业车间调度的强化学习智能体交互策略网络训练方法、程序产品及系统。该方法应用深度强化学习方法解决车间调度问题,针对现有强化学习环境设计研究十分不充分的现状,通过提供连续和离散两种动作模式,适配于几乎所有经典强化学习算法,在所测试的多种算法上均能取得计算时间短,质量高的调度方案,进而提高生产稳定性以及产品质量,降低产品制造周期等,以此带来可观的经济效益。使用上述方法构建强化学习环境和交互策略,可以获得高可复用性、高效率、高质量的作业车间调度方案生成模型。

Patent Agency Ranking