基于强化学习-群体进化混合算法的双边拆解线设计方法

    公开(公告)号:CN115271568B

    公开(公告)日:2023-01-20

    申请号:CN202211206939.4

    申请日:2022-09-30

    申请人: 暨南大学

    摘要: 本发明涉及基于强化学习‑群体进化混合算法的双边拆解线设计方法,所述方法包括以下步骤:S1、定义与、或优先关系;S2、建立以优化产线布置、经济效益和安全环保三个方面共六个指标的数学模型;S3、初始化种群,建立外部档案储存Pareto较优解,建立R值表记录算子的改进效果,建立Q值表储存Q值;S4、采用群优化算法迭代更新外部档案,同时记录每代优化算子的对于目标的改进值;S5、重复步骤S3‑S4,进行多次强化学习获得稳定的R值表和Q值表;S6、根据Q值表终表,采用群优化算法迭代更新外部档案,获得稳定解。本发明采用了基于强化学习的群体进化算法解决拆卸任务之间复杂的约束类型,能高效获得稳定的最优解并保证解的多样性。

    一种基于离线强化学习的智能机器人对话方法及系统

    公开(公告)号:CN113360618A

    公开(公告)日:2021-09-07

    申请号:CN202110633919.4

    申请日:2021-06-07

    申请人: 暨南大学

    IPC分类号: G06F16/332 G06F16/33 G06N3/04

    摘要: 本发明提出一种基于离线强化学习的智能机器人对话方法及系统,方法包括获取已有的对话数据信息,基于对话数据构建训练集;在训练集抽取预设关键信息,对关键信息进行数据处理,引入非策略的批量强化学习算法;构建基于对话预判模型,并利用基于关键信息得到的数据对模型进行训练;获取待交流对话的数据信息;从数据信息中抽取预设关键信息,通过数据处理得到第一向量;利用已训练的模型处理第一向量,得到对应的第一标签,根据第一向量和第一标签进行决策输出;基于决策与用户进行对话。系统包括GPU服务器、模型存储器、存储模块、语言数据库、离线强化学习处理器、CPU处理器、语言收集模块和智能对话执行模块。

    基于强化学习-群体进化混合算法的双边拆解线设计方法

    公开(公告)号:CN115271568A

    公开(公告)日:2022-11-01

    申请号:CN202211206939.4

    申请日:2022-09-30

    申请人: 暨南大学

    摘要: 本发明涉及基于强化学习‑群体进化混合算法的双边拆解线设计方法,所述方法包括以下步骤:S1、定义与、或优先关系;S2、建立以优化产线布置、经济效益和安全环保三个方面共六个指标的数学模型;S3、初始化种群,建立外部档案储存Pareto较优解,建立R值表记录算子的改进效果,建立Q值表储存Q值;S4、采用群优化算法迭代更新外部档案,同时记录每代优化算子的对于目标的改进值;S5、重复步骤S3‑S4,进行多次强化学习获得稳定的R值表和Q值表;S6、根据Q值表终表,采用群优化算法迭代更新外部档案,获得稳定解。本发明采用了基于强化学习的群体进化算法解决拆卸任务之间复杂的约束类型,能高效获得稳定的最优解并保证解的多样性。

    一种基于RQL算法的选择拆卸规划方法及系统

    公开(公告)号:CN117151425B

    公开(公告)日:2024-04-26

    申请号:CN202311364387.4

    申请日:2023-10-20

    申请人: 暨南大学

    摘要: 本发明提供一种基于RQL算法的选择拆卸规划方法及系统,获取待拆卸产品的数据集,结合Q‑learning算法和Rollout策略迭代采样待拆卸产品的数据集,得到待拆卸产品的优选拆卸序列,本申请的RQL(Rollout‑Q‑learning)算法是基于Rollout策略优化了Q‑learning算法在迭代过程中的动作选择,在每个决策阶段使用Rollout策略对每个可行动作进行有限步数的模拟采样之后,选择在有限步数内估计价值最大的可行动作,从而使Q‑learning算法具备更强的全局搜索能力,最终得到优选拆卸序列,相对于传统的Q‑learning算法,RQL(Rollout‑Q‑learning)算法在拆卸序列规划上有很大的性能提升,同时能够提高拆卸流程的回收效益,尽可能减少EoL产品对环境造成的危害。

    一种基于离线强化学习的智能机器人对话方法及系统

    公开(公告)号:CN113360618B

    公开(公告)日:2022-03-11

    申请号:CN202110633919.4

    申请日:2021-06-07

    申请人: 暨南大学

    IPC分类号: G06F16/332 G06F16/33 G06N3/04

    摘要: 本发明提出一种基于离线强化学习的智能机器人对话方法及系统,方法包括获取已有的对话数据信息,基于对话数据构建训练集;在训练集抽取预设关键信息,对关键信息进行数据处理,引入非策略的批量强化学习算法;构建基于对话预判模型,并利用基于关键信息得到的数据对模型进行训练;获取待交流对话的数据信息;从数据信息中抽取预设关键信息,通过数据处理得到第一向量;利用已训练的模型处理第一向量,得到对应的第一标签,根据第一向量和第一标签进行决策输出;基于决策与用户进行对话。系统包括GPU服务器、模型存储器、存储模块、语言数据库、离线强化学习处理器、CPU处理器、语言收集模块和智能对话执行模块。

    一种基于RQL算法的选择拆卸规划方法及系统

    公开(公告)号:CN117151425A

    公开(公告)日:2023-12-01

    申请号:CN202311364387.4

    申请日:2023-10-20

    申请人: 暨南大学

    摘要: 本发明提供一种基于RQL算法的选择拆卸规划方法及系统,获取待拆卸产品的数据集,结合Q‑learning算法和Rollout策略迭代采样待拆卸产品的数据集,得到待拆卸产品的优选拆卸序列,本申请的RQL(Rollout‑Q‑learning)算法是基于Rollout策略优化了Q‑learning算法在迭代过程中的动作选择,在每个决策阶段使用Rollout策略对每个可行动作进行有限步数的模拟采样之后,选择在有限步数内估计价值最大的可行动作,从而使Q‑learning算法具备更强的全局搜索能力,最终得到优选拆卸序列,相对于传统的Q‑learning算法,RQL(Rollout‑Q‑learning)算法在拆卸序列规划上有很大的性能提升,同时能够提高拆卸流程的回收效益,尽可能减少EoL产品对环境造成的危害。

    一种废旧产品拆解序列与拆解深度集成决策方法

    公开(公告)号:CN113283616A

    公开(公告)日:2021-08-20

    申请号:CN202110398156.X

    申请日:2021-04-14

    申请人: 暨南大学

    摘要: 本发明公开了一种废旧产品拆解序列与拆解深度集成决策方法,包括以下步骤,S1、构建零件回收综合评价指标体系;S2、数据收集及预处理;S3、利用Choquet积分计算零件的回收评价值;S4、构造废旧产品的拆解优先图并赋予节点对应的零件的回收评价值;S5、采用拓扑排序的方法结合零件回收评价值确定完全拆解序列;S6、构造拆解深度价值曲线;S7、进行拆解深度决策。本发明方法与传统的优化方法相比,在保证解的质量的同时极大的缩短了求解废旧产品最佳拆解序列与拆解深度的速度,并且通过合理评价零件的回收效益提高了求得解的可靠性。