-
公开(公告)号:CN116430860B
公开(公告)日:2024-09-24
申请号:CN202310315829.X
申请日:2023-03-28
Applicant: 兰州大学
Abstract: 本发明公开一种基于离线强化学习的机甲车自动行驶训练与控制方法,主要包括(1)人为控制机甲车按照制定路线行驶,获取机甲车行驶过程中的摄像头图像,位置信息和机甲车的状态信息,构建数据集;(2)使用离线强化学习算法在机甲车行驶数据集上训练,训练过程中在行驶控制指令中添加动作扰动;(3)获取机甲车的摄像头图像信息,使用特征网络提取机甲车自身位置和障碍物位置特征信息,Q网络和策略网络根据特征信息分别输出Q值和机甲车制行驶指令,设置安全性奖励函数和准确性奖励函数,智能体根据环境奖励反馈调整下一步行驶指令;(4)利用训练好的机甲车控制策略在真实环境中测试评估,迭代训练直到机甲车可以进行自动行驶和避障任务。
-
公开(公告)号:CN115982407A
公开(公告)日:2023-04-18
申请号:CN202210211270.1
申请日:2022-03-05
Applicant: 兰州大学
IPC: G06F16/738 , G06V20/40 , G06V10/82 , G06N3/04
Abstract: 本发明公开一种基于多智能体强化学习的视频摘要生成方法。视频摘要生成是通过对原有视频的简化和压缩并保留其中的关键信息,在视频监控领域应用前景广阔,可以极大地减轻存储压力并提高工作效率。传统的视频摘要生成方法通过对整体视频进行时间分割,得到每一帧的关键性分数之后,根据分值大小以及所需要的关键帧的数量合成摘要。本发明提出的基于多智能强化学习的视频摘要生成方法利用多个智能体之间的协同合作特点,对视频的关键帧进行优先级投票选择,模拟人类制作视频摘要数据集关键帧标注的过程,采用多智能体深度确定性策略梯度的方法进行参数的更新,利用Actor‑Critic框架和策略集成的方法进行模型训练,最终生成的摘要视频具有代表性和多样性。
-
公开(公告)号:CN118570689A
公开(公告)日:2024-08-30
申请号:CN202310174847.0
申请日:2023-02-28
Applicant: 兰州大学
Abstract: 本发明公开了一种面向视频的可控文本摘要生成方法,包括步骤:(1)收集并构建场景视频数据集,针对数据集进行文本摘要数据标定;(2)将视频以秒为单位切割为多帧并标定文本构建控制信号;(3)基于CLIP网络和I3D网络提取视频的静态和动态特征并统一不同的视频特征维度;(4)利用Vision Transformer Encoder对融合特征进行编码;(5)利用多层LSTM网络对编码后的特征进行解码,生成可控的视频文本摘要;(6)利用强化学习优化模型参数。与现有技术相比,本发明构建控制信号,利用控制信号指导模型生成可控的视频摘要,同时解决了特征编码阶段隐藏状态的丢失问题,提高了视频摘要内容的准确性以及内容可控性。
-
公开(公告)号:CN115982407B
公开(公告)日:2023-09-19
申请号:CN202210211270.1
申请日:2022-03-05
Applicant: 兰州大学
IPC: G06F16/738 , G06V20/40 , G06V10/82 , G06N3/04
Abstract: 本发明公开一种基于多智能体强化学习的视频摘要生成方法。视频摘要生成是通过对原有视频的简化和压缩并保留其中的关键信息,在视频监控领域应用前景广阔,可以极大地减轻存储压力并提高工作效率。传统的视频摘要生成方法通过对整体视频进行时间分割,得到每一帧的关键性分数之后,根据分值大小以及所需要的关键帧的数量合成摘要。本发明提出的基于多智能强化学习的视频摘要生成方法利用多个智能体之间的协同合作特点,对视频的关键帧进行优先级投票选择,模拟人类制作视频摘要数据集关键帧标注的过程,采用多智能体深度确定性策略梯度的方法进行参数的更新,利用Actor‑Critic框架和策略集成的方法进行模型训练,最终生成的摘要视频具有代表性和多样性。
-
公开(公告)号:CN116430860A
公开(公告)日:2023-07-14
申请号:CN202310315829.X
申请日:2023-03-28
Applicant: 兰州大学
IPC: G05D1/02
Abstract: 本发明公开一种基于离线强化学习的机甲车自动行驶训练与控制方法,主要包括(1)人为控制机甲车按照制定路线行驶,获取机甲车行驶过程中的摄像头图像,位置信息和机甲车的状态信息,构建数据集;(2)使用离线强化学习算法在机甲车行驶数据集上训练,训练过程中在行驶控制指令中添加动作扰动;(3)获取机甲车的摄像头图像信息,使用特征网络提取机甲车自身位置和障碍物位置特征信息,Q网络和策略网络根据特征信息分别输出Q值和机甲车制行驶指令,设置安全性奖励函数和准确性奖励函数,智能体根据环境奖励反馈调整下一步行驶指令;(4)利用训练好的机甲车控制策略在真实环境中测试评估,迭代训练直到机甲车可以进行自动行驶和避障任务。
-
-
-
-