Patent search ap:("哈尔滨工业大学(深圳)") AND inv:"曹睿" Page 1

1.

发明公开
基于内在奖励的视频游戏决策方法有权

公开(公告)号：CN111260040A

公开(公告)日：2020-06-09

申请号：CN202010370070.1

申请日：2020-05-06

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 王轩 , 漆舒汉 , 张加佳 , 曹睿 , 何志坤 , 刘洋 , 蒋琳 , 廖清 , 夏文 , 李化乐

IPC: G06N3/04 , G06N3/08 , A63F13/45 , A63F13/46

Abstract: 本发明提供了一种基于内在奖励的视频游戏决策方法，包括以下步骤：S1、获取视频游戏模拟环境；S2、构建神经网络模型；S3、设计内在奖励模型；S4、将内在奖励模型与构建的神经网络模型结构结合；S5、通过模拟环境获取游戏的记录；S6、通过获取的游戏记录，更新神经网络模型；S7、循环训练神经网络模型直至收敛。本发明的有益效果是：较好的解决了三维场景中较为常见的缺乏环境反馈奖励值的问题。

2.

发明授权
基于辅助任务学习的视频游戏决策方法有权

公开(公告)号：CN111260039B

公开(公告)日：2020-08-07

申请号：CN202010369831.1

申请日：2020-05-06

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 王轩 , 张加佳 , 漆舒汉 , 曹睿 , 杜明欣 , 刘洋 , 蒋琳 , 廖清 , 夏文 , 李化乐

IPC: G06N3/04 , G06N3/08 , A63F13/45 , A63F13/46

Abstract: 本发明提供了一种基于辅助任务学习的视频游戏决策方法，包括以下步骤：S1、构建神经网格模型；S2、启动多进程视频游戏环境；S3、判断是否运行了指定轮次，如果否，则进入步骤S4，如果是，则进入步骤S6；S4、获取游戏经验，更新经验池；S5、将经验输入到神经网格模型，更新神经网格模型参数，返回步骤S3；S6、保存神经网格模型；S7、在视频游戏里利用神经网格模型决策；S8、结束。本发明的有益效果是：可以更准确地估计三维场景中的状态价值以及引起状态改变的智能体动作。

3.

发明公开
基于辅助任务学习的视频游戏决策方法有权

公开(公告)号：CN111260039A

公开(公告)日：2020-06-09

申请号：CN202010369831.1

申请日：2020-05-06

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 王轩 , 张加佳 , 漆舒汉 , 曹睿 , 杜明欣 , 刘洋 , 蒋琳 , 廖清 , 夏文 , 李化乐

IPC: G06N3/04 , G06N3/08 , A63F13/45 , A63F13/46

Abstract: 本发明提供了一种基于辅助任务学习的视频游戏决策方法，包括以下步骤：S1、构建神经网格模型；S2、启动多进程视频游戏环境；S3、判断是否运行了指定轮次，如果否，则进入步骤S4，如果是，则进入步骤S6；S4、获取游戏经验，更新经验池；S5、将经验输入到神经网格模型，更新神经网格模型参数，返回步骤S3；S6、保存神经网格模型；S7、在视频游戏里利用神经网格模型决策；S8、结束。本发明的有益效果是：可以更准确地估计三维场景中的状态价值以及引起状态改变的智能体动作。

4.

发明授权
基于内在奖励的视频游戏决策方法有权

公开(公告)号：CN111260040B

公开(公告)日：2020-11-06

申请号：CN202010370070.1

申请日：2020-05-06

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 王轩 , 漆舒汉 , 张加佳 , 曹睿 , 何志坤 , 刘洋 , 蒋琳 , 廖清 , 夏文 , 李化乐

IPC: G06N3/04 , G06N3/08 , A63F13/45 , A63F13/46

Abstract: 本发明提供了一种基于内在奖励的视频游戏决策方法，包括以下步骤：S1、获取视频游戏模拟环境；S2、构建神经网络模型；S3、设计内在奖励模型；S4、将内在奖励模型与构建的神经网络模型结构结合；S5、通过模拟环境获取游戏的记录；S6、通过获取的游戏记录，更新神经网络模型；S7、循环训练神经网络模型直至收敛。本发明的有益效果是：较好的解决了三维场景中较为常见的缺乏环境反馈奖励值的问题。

5.

发明授权
一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质有权

公开(公告)号：CN110399920B

公开(公告)日：2021-07-27

申请号：CN201910676439.9

申请日：2019-07-25

Applicant: 哈尔滨工业大学(深圳)

Inventor： 王轩 , 漆舒汉 , 蒋琳 , 曹睿 , 李明豪 , 廖清 , 李化乐 , 张加佳 , 刘洋 , 夏文

IPC: G06K9/62 , G06N3/04 , G06N3/08

Abstract: 本发明提供了一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质，该方法包括：探索利用机制改进策略梯度算法的步骤、深度强化学习网络中加入记忆单元的步骤、自我驱动机制对奖励值进行优化的步骤。本发明的有益效果是：本发明通过基线函数解决策略梯度算法经常出现的高方差问题，对于强化学习采样和优化过程时间复杂度高的问题，采取并行机制提高模型求解效率，通过自驱动机制，在弥补环境奖励值稀疏的同时，帮助智能体更有效地对环境进行探索。

6.

发明公开
一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质有权

公开(公告)号：CN110399920A

公开(公告)日：2019-11-01

申请号：CN201910676439.9

申请日：2019-07-25

Applicant: 哈尔滨工业大学(深圳)

Inventor： 王轩 , 漆舒汉 , 蒋琳 , 曹睿 , 李明豪 , 廖清 , 李化乐 , 张加佳 , 刘洋 , 夏文

IPC: G06K9/62 , G06N3/04 , G06N3/08

Abstract: 本发明提供了一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质，该方法包括：探索利用机制改进策略梯度算法的步骤、深度强化学习网络中加入记忆单元的步骤、自我驱动机制对奖励值进行优化的步骤。本发明的有益效果是：本发明通过基线函数解决策略梯度算法经常出现的高方差问题，对于强化学习采样和优化过程时间复杂度高的问题，采取并行机制提高模型求解效率，通过自驱动机制，在弥补环境奖励值稀疏的同时，帮助智能体更有效地对环境进行探索。

Patent Agency Ranking