Patent search ap:("安徽大学") AND inv:"施卓然" Page 1

1.

发明授权
一种基于统一AI框架的深度强化学习智能决策平台有权

公开(公告)号：CN117114088B

公开(公告)日：2024-01-19

申请号：CN202311338634.3

申请日：2023-10-17

Applicant: 安徽大学

Inventor： 孙长银 , 柳文章 , 穆朝絮 , 任璐 , 施卓然

IPC: G06N3/10 , G06N3/092 , G06F8/34

Abstract: 本发明公开了一种基于统一AI框架的深度强化学习智能决策平台，通过参数配置模块选定深度强化学习模型的参数，利用通用模块对选定的参数进行读取，根据读取到的参数，从模型库中调取并创建相应的表征器、策略模块、学习器以及智能体，在创建策略和学习器的过程中，从数学工具中调取必要的函数定义以及优化器；同时，根据读取到的参数，在原始环境基础上创建向量环境，并实例化环境，将实例化环境和智能体输入运行器中计算动作输出，并在环境中执行动作，实现智能决策。该智能决策平台对不同功能和结构的深度强化学习模型进行模块化设计，从而兼容多种AI框架。

2.

发明公开
基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法审中-实审

公开(公告)号：CN118938988A

公开(公告)日：2024-11-12

申请号：CN202411003909.2

申请日：2024-07-25

Applicant: 安徽大学

Inventor： 任璐 , 施卓然 , 王振 , 柳文章

IPC: G05D1/495 , G05D1/46 , G05D101/15 , G05D109/20

Abstract: 本发明公开了一种基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法，包括：初始化环境；获取无人机初始状态信息；将初始状态信息输入策略网络得到动作信息，计算下一状态和外部奖励，再记录判断是否终止的结束标识，并一起存入经验回放池，从回放池中随机抽取一批元组样本，计算抽取样本的状态熵来得到内在奖励，合并为总奖励；利用总奖励来更新价值网络参数，通过策略梯度优化策略网络；定期更新目标策略网络和目标价值网络的参数，评估当前策略的表现。本发明引入状态熵作为内在奖励，显著提升了无人机在密集障碍环境中探索的效率，结合外部奖励和内在奖励，该方法使得无人机能够快速学习最佳路径，同时追求全局最优解。

3.

发明公开
一种基于统一AI框架的深度强化学习智能决策平台有权

公开(公告)号：CN117114088A

公开(公告)日：2023-11-24

申请号：CN202311338634.3

申请日：2023-10-17

Applicant: 安徽大学

Inventor： 孙长银 , 柳文章 , 穆朝絮 , 任璐 , 施卓然

IPC: G06N3/10 , G06N3/092 , G06F8/34

Abstract: 本发明公开了一种基于统一AI框架的深度强化学习智能决策平台，通过参数配置模块选定深度强化学习模型的参数，利用通用模块对选定的参数进行读取，根据读取到的参数，从模型库中调取并创建相应的表征器、策略模块、学习器以及智能体，在创建策略和学习器的过程中，从数学工具中调取必要的函数定义以及优化器；同时，根据读取到的参数，在原始环境基础上创建向量环境，并实例化环境，将实例化环境和智能体输入运行器中计算动作输出，并在环境中执行动作，实现智能决策。该智能决策平台对不同功能和结构的深度强化学习模型进行模块化设计，从而兼容多种AI框架。

Patent Agency Ranking