基于数字孪生及知识图谱的强化学习的车间调度方法

    公开(公告)号:CN117669984A

    公开(公告)日:2024-03-08

    申请号:CN202311750332.7

    申请日:2023-12-18

    摘要: 本发明提出了基于数字孪生及知识图谱的强化学习的车间调度方法,包括:建立数据接收与存储结构收集多模态数据,根据多模态数据生成标签和元数据,并利用图模型的连接性预测与现有数据相关的标签和元数据;对生成的标签和元数据进行数据质量评估与过滤,所述数据质量评估是根据数据质量评分进行评估;设计多层次车间状态表示并建立车间数字孪生模型;构建知识图谱和可解释强化学习模型;根据可解释强化学习模型生成决策逻辑和解释决策逻辑;根据决策逻辑和车间数字孪生模型搭建实验环境并评估实验性能。本发明综合性地解决了车间调度的效率、成本和解释性问题。

    基于数字孪生及知识图谱的强化学习的车间调度方法

    公开(公告)号:CN117669984B

    公开(公告)日:2024-11-05

    申请号:CN202311750332.7

    申请日:2023-12-18

    摘要: 本发明提出了基于数字孪生及知识图谱的强化学习的车间调度方法,包括:建立数据接收与存储结构收集多模态数据,根据多模态数据生成标签和元数据,并利用图模型的连接性预测与现有数据相关的标签和元数据;对生成的标签和元数据进行数据质量评估与过滤,所述数据质量评估是根据数据质量评分进行评估;设计多层次车间状态表示并建立车间数字孪生模型;构建知识图谱和可解释强化学习模型;根据可解释强化学习模型生成决策逻辑和解释决策逻辑;根据决策逻辑和车间数字孪生模型搭建实验环境并评估实验性能。本发明综合性地解决了车间调度的效率、成本和解释性问题。

    基于强化学习和注意力机制的智能作业调度系统

    公开(公告)号:CN114580937B

    公开(公告)日:2023-04-28

    申请号:CN202210237299.7

    申请日:2022-03-10

    申请人: 暨南大学

    摘要: 本发明涉及用于数据处理方法技术领域,具体涉及一种基于强化学习和注意力机制的智能作业调度系统;包括:从给定的由机器矩阵MO和工时矩阵TO描述的调度实例,生成包含动态事件的由新的机器矩阵MO′和新的工时矩阵TO′描述的调度实例,并将其作为当前交互环境;调度系统与环境进行交互,收集经验并训练;提取特征,输入D3QPN得到当前状态下不同动作的Q值;根据Q值表进行作业调度。本发明通过注意力机制有效提取出关键信息,并使用强化学习算法选择最优的调度策略解决动态作业车间问题,以此解决实际智能制造中作业的动态变化问题,让智能调度作业系统在动态作业调度环境下依然拥有不错的性能。

    一种基于MMDDPG算法的RGV小车调度方法及系统

    公开(公告)号:CN114936783B

    公开(公告)日:2023-01-17

    申请号:CN202210620696.2

    申请日:2022-06-02

    申请人: 暨南大学

    摘要: 本发明提供了一种基于MMDDPG算法的RGV小车调度方法及系统,属于人工智能技术领域。本发明基于银行家算法,并利用结合熵正则化器的MMDDPG算法对生产过程中的多辆RGV小车进行协同调度,其中对每个RGV小车的调度都考虑其他RGV小车的调度策略,同时,引入不可抢占式最低松弛度优先算法,以最大限度缩短任务等待响应的时间。本发明所提出的基于MMDDPG算法的RGV小车调度方法及系统考虑了多RGV小车存在时的RGV小车的协作关系,对多个RGV小车进行统一调度,保证了多个RGV小车整体效率的最大化。

    基于物联网系统和强化学习的车间生产方法

    公开(公告)号:CN116414093A

    公开(公告)日:2023-07-11

    申请号:CN202310393809.4

    申请日:2023-04-13

    申请人: 暨南大学

    IPC分类号: G05B19/418

    摘要: 本发明提出了一种基于物联网系统和强化学习的车间生产方法,包括:部署传感器实时收集生产线上的多模态数据并发送到中央数据处理系统;中央数据处理系统对多模态数据进行预处理;对预处理后的数据进行特征提取和融合;根据特征提取和融合的输出进行转化作为改进PPO算法的输入,使用PPO算法优化多目标柔性车间调度任务。本发明使用物联网设备收集实时生产数据,结合多模态数据进行强化学习来实现一个多目标的柔性车间生产调度方法,引入了一个长短时记忆神经网络处理多模态数据中的时序信息,并利用自注意力机制来自动识别关键信息,使用算法进行强化学习,在强化学习训练方法使用了一个多目标的奖励评价指标使得智能体可以满足多个目标的需求。

    一种能够自动更新的案件预判智能体训练方法及系统

    公开(公告)号:CN113282705B

    公开(公告)日:2022-01-28

    申请号:CN202110567522.X

    申请日:2021-05-24

    申请人: 暨南大学

    摘要: 本发明公开了一种能够自动更新的案件预判智能体训练方法及系统,方法包括获取一定数量的司法案件审判书作为样本,从审判书种抽取事实等关键信息,对于数据进行处理,同时接收专家标注的新的数据,构建新的数据集,针对司法审判问题进行建模,得到对关键信息的准确率计算模型,从模型中提取训练所需要的参数,定义模型训练的reward函数,再使用BCQ算法根据参数以及数据集进行智能体模型的训练。本发明使用强化学习的方法解决司法案件预判不准确的问题,同时能够进行改进和优化,长期保持模型的准确率。

    一种基于强化学习的个性化短视频推荐方法以及系统

    公开(公告)号:CN113282787B

    公开(公告)日:2022-01-04

    申请号:CN202110567524.9

    申请日:2021-05-24

    申请人: 暨南大学

    IPC分类号: G06F16/735 G06K9/62 G06N20/00

    摘要: 本发明提出一种基于强化学习的个性化短视频推荐方法以及系统,个性化短视频推荐方法包括:收集单个用户的历史记录,得到真实数据分布和专家轨迹;将真实数据分布输入GAN‑SD算法,对用户的特征进行建模,得到用户特征分布;将用户特征分布和专家轨迹输入到MAIL算法,对用户的交互行为建模,得到用户的决策函数;得到用户特征分布和决策函数后,完成对用户的建模;建模推荐引擎和用户的马尔科夫决策过程,用TRPO+ANC算法训练推荐引擎的马尔科夫决策过程,根据得到的累积回报值确定不同动作下的短视频推荐策略,从短视频推荐策略中选择最优的短视频推荐策略,将该策略加载为实际使用的推荐引擎。