一种基于双时延深度确定性策略梯度的船舶姿态控制方法

    公开(公告)号:CN118466562A

    公开(公告)日:2024-08-09

    申请号:CN202410620610.5

    申请日:2024-05-20

    Applicant: 兰州大学

    Abstract: 本发明公开了基于双时延深度确定性策略梯度的船舶姿态控制方法,包含以下步骤:(1)根据强化学习原理,构建状态空间S、动作空间A和奖励函数R;(2)训练双时延确定性策略梯度算法,得到收敛的策略函数;(3)在模拟系统中使用策略和模拟状态,检测策略的安全性和稳定性;(4)在实际航行中使用策略和真实状态测试策略的安全性和稳定性;(5)迭代执行步骤s102至s104,直至船舶获得在复杂多变海域的安全性和稳定性。本发明使得船舶动力系统能够动态自适应调节,克服传统控制方法的依赖预设规则和经验、无法实时响应、没有考虑船舶能耗等因素带来的影响,在保证船舶整体的安全性前提下,尽可能提高乘客的乘坐舒适性以及货物运输的安全性。

    一种基于多智能体强化学习的视频摘要生成方法

    公开(公告)号:CN115982407B

    公开(公告)日:2023-09-19

    申请号:CN202210211270.1

    申请日:2022-03-05

    Applicant: 兰州大学

    Abstract: 本发明公开一种基于多智能体强化学习的视频摘要生成方法。视频摘要生成是通过对原有视频的简化和压缩并保留其中的关键信息,在视频监控领域应用前景广阔,可以极大地减轻存储压力并提高工作效率。传统的视频摘要生成方法通过对整体视频进行时间分割,得到每一帧的关键性分数之后,根据分值大小以及所需要的关键帧的数量合成摘要。本发明提出的基于多智能强化学习的视频摘要生成方法利用多个智能体之间的协同合作特点,对视频的关键帧进行优先级投票选择,模拟人类制作视频摘要数据集关键帧标注的过程,采用多智能体深度确定性策略梯度的方法进行参数的更新,利用Actor‑Critic框架和策略集成的方法进行模型训练,最终生成的摘要视频具有代表性和多样性。

    一种基于离线强化学习的机甲车自动行驶训练与控制方法

    公开(公告)号:CN116430860A

    公开(公告)日:2023-07-14

    申请号:CN202310315829.X

    申请日:2023-03-28

    Applicant: 兰州大学

    Abstract: 本发明公开一种基于离线强化学习的机甲车自动行驶训练与控制方法,主要包括(1)人为控制机甲车按照制定路线行驶,获取机甲车行驶过程中的摄像头图像,位置信息和机甲车的状态信息,构建数据集;(2)使用离线强化学习算法在机甲车行驶数据集上训练,训练过程中在行驶控制指令中添加动作扰动;(3)获取机甲车的摄像头图像信息,使用特征网络提取机甲车自身位置和障碍物位置特征信息,Q网络和策略网络根据特征信息分别输出Q值和机甲车制行驶指令,设置安全性奖励函数和准确性奖励函数,智能体根据环境奖励反馈调整下一步行驶指令;(4)利用训练好的机甲车控制策略在真实环境中测试评估,迭代训练直到机甲车可以进行自动行驶和避障任务。

    融合人类反馈信息和深度强化学习的履带车自动驾驶方法

    公开(公告)号:CN117032208A

    公开(公告)日:2023-11-10

    申请号:CN202310882796.7

    申请日:2023-07-18

    Applicant: 兰州大学

    Abstract: 本发明公开了融合人类反馈信息和深度强化学习的履带车自动驾驶方法,包含以下步骤:(1)使用Actor‑Critic算法在环境中探索并保存履带车行驶的轨迹信息,同时使用规则化奖励函数训练自动驾驶车辆的预训练策略;(2)由数据标注员对履带车行驶的轨迹片段进行比较,并根据比较结果标注轨迹片段的奖励值;(3)使用轨迹数据训练基于深度神经网络的奖励函数模型(4)使用PPO算法对预训练策略进行微调直至策略能够控制履带车完成自动驾驶任务。本发明结合人类对行驶轨迹的反馈信息与深度强化学习完成模型的训练,适用于奖励函数不直观且难以人为构造的复杂环境中的履带车自动控制任务。

    融合物理信息和深度强化学习的自动驾驶车辆控制方法

    公开(公告)号:CN116052412B

    公开(公告)日:2023-08-18

    申请号:CN202211487027.9

    申请日:2022-11-23

    Applicant: 兰州大学

    Abstract: 本发明公开了融合物理信息和深度强化学习的自动驾驶车辆控制方法,包含以下步骤:(1)构造连续时间内基于哈密顿‑雅可比‑贝尔曼方程的强化学习偏微分方程,采集车辆行驶中的感知层信息量、动作控制量、奖励值及下一个状态感知层信息量,形成四元组数据并存储;(2)构造基于物理信息的自动驾驶车辆动力学模型并将其求取偏导数添加至强化学习模型约束项中;(3)训练和评估融和物理信息和深度强化学习的自动驾驶车辆控制模型,通过神经网络将车辆运动轨迹样本数据和物理运动学结合构造模型训练函数并在GPU上训练,直到驾驶车辆完成自动控制。本发明结合物理动力学规律和深度强化学习完成模型训练,适用于复杂环境的自动驾驶车辆学习控制。

    一种智能投诉分类与处理系统

    公开(公告)号:CN109345262A

    公开(公告)日:2019-02-15

    申请号:CN201710645143.1

    申请日:2017-08-01

    Applicant: 兰州大学

    Abstract: 如今,互联网已经成为社会必不可少的基础设施。但用户在使用互联网时所碰到的问题需要向相关客服反映,很长时间才能得到解决且成本高效率低。解决用户投诉问题的传统BP算法分类技术已经不能满足当前业务的增长速度。本发明涉及互联网、电子商务、电信等服务行业业务IT支撑、客户服务技术领域。它是一种基于深度学习的智能投诉分类与处理系统,包括对投诉语音、文本进行向量化处理,BP神经网络深度学习实现投诉分类,BP神经网络深度学习,实现投诉处理通过对客服系统输入的投诉文本进行向量化处理,转为文本向量,利用深度BP神经网络进行训练,生成投诉机器分类,然后进行不同的系统集成,最终进行特定投诉类型的输出匹配,实现机器智能回复。

    融合物理信息和深度强化学习的自动驾驶车辆控制方法

    公开(公告)号:CN116052412A

    公开(公告)日:2023-05-02

    申请号:CN202211487027.9

    申请日:2022-11-23

    Applicant: 兰州大学

    Abstract: 本发明公开了融合物理信息和深度强化学习的自动驾驶车辆控制方法,包含以下步骤:(1)构造连续时间内基于哈密顿‑雅可比‑贝尔曼方程的强化学习偏微分方程,采集车辆行驶中的感知层信息量、动作控制量、奖励值及下一个状态感知层信息量,形成四元组数据并存储;(2)构造基于物理信息的自动驾驶车辆动力学模型并将其求取偏导数添加至强化学习模型约束项中;(3)训练和评估融和物理信息和深度强化学习的自动驾驶车辆控制模型,通过神经网络将车辆运动轨迹样本数据和物理运动学结合构造模型训练函数并在GPU上训练,直到驾驶车辆完成自动控制。本发明结合物理动力学规律和深度强化学习完成模型训练,适用于复杂环境的自动驾驶车辆学习控制。

Patent Agency Ranking