Patent search ap:("哈尔滨工业大学(深圳)") AND inv:"杜明欣" Page 1

1.

发明授权
基于辅助任务学习的视频游戏决策方法有权

公开(公告)号：CN111260039B

公开(公告)日：2020-08-07

申请号：CN202010369831.1

申请日：2020-05-06

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 王轩 , 张加佳 , 漆舒汉 , 曹睿 , 杜明欣 , 刘洋 , 蒋琳 , 廖清 , 夏文 , 李化乐

IPC: G06N3/04 , G06N3/08 , A63F13/45 , A63F13/46

Abstract: 本发明提供了一种基于辅助任务学习的视频游戏决策方法，包括以下步骤：S1、构建神经网格模型；S2、启动多进程视频游戏环境；S3、判断是否运行了指定轮次，如果否，则进入步骤S4，如果是，则进入步骤S6；S4、获取游戏经验，更新经验池；S5、将经验输入到神经网格模型，更新神经网格模型参数，返回步骤S3；S6、保存神经网格模型；S7、在视频游戏里利用神经网格模型决策；S8、结束。本发明的有益效果是：可以更准确地估计三维场景中的状态价值以及引起状态改变的智能体动作。

2.

发明公开
基于辅助任务学习的视频游戏决策方法有权

公开(公告)号：CN111260039A

公开(公告)日：2020-06-09

申请号：CN202010369831.1

申请日：2020-05-06

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 王轩 , 张加佳 , 漆舒汉 , 曹睿 , 杜明欣 , 刘洋 , 蒋琳 , 廖清 , 夏文 , 李化乐

IPC: G06N3/04 , G06N3/08 , A63F13/45 , A63F13/46

Abstract: 本发明提供了一种基于辅助任务学习的视频游戏决策方法，包括以下步骤：S1、构建神经网格模型；S2、启动多进程视频游戏环境；S3、判断是否运行了指定轮次，如果否，则进入步骤S4，如果是，则进入步骤S6；S4、获取游戏经验，更新经验池；S5、将经验输入到神经网格模型，更新神经网格模型参数，返回步骤S3；S6、保存神经网格模型；S7、在视频游戏里利用神经网格模型决策；S8、结束。本发明的有益效果是：可以更准确地估计三维场景中的状态价值以及引起状态改变的智能体动作。

3.

发明授权
基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置有权

公开(公告)号：CN114048834B

公开(公告)日：2023-01-17

申请号：CN202111303694.2

申请日：2021-11-05

Applicant: 哈尔滨工业大学(深圳)

Inventor： 王轩 , 张加佳 , 漆舒汉 , 袁昊 , 刘洋 , 唐琳琳 , 夏文 , 廖清 , 李君一 , 杜明欣

IPC: G06N3/00 , G06N3/04 , G06N3/08 , G06N20/00

Abstract: 本发明公开了一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置，包括下述步骤：获取非完全博弈环境，确定任务目标；构建第一神经网络和基于未来值预测的强化学习方法；构建事后经验回顾池；对第一神经网络进行训练，直至第一神经网络收敛；构建渐进式神经网络，实现网络模型的渐进式扩展；选择下一个任务作为任务目标，利用基于未来值预测的强化学习方法持续训练，直至所有的任务都训练完成。本发明通过使用非完全信息博弈场景中丰富的智能体状态变化作为监督信号，解决该环境下的奖励稀疏问题，同时引入持续学习框架渐进式神经网络对未来值预测网络结构进行动态扩展，解决了在该环境下的多任务场景中的灾难性遗忘的问题。

4.

发明公开
基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置有权

公开(公告)号：CN114048834A

公开(公告)日：2022-02-15

申请号：CN202111303694.2

申请日：2021-11-05

Applicant: 哈尔滨工业大学(深圳)

Inventor： 王轩 , 张加佳 , 漆舒汉 , 袁昊 , 刘洋 , 唐琳琳 , 夏文 , 廖清 , 李君一 , 杜明欣

IPC: G06N3/00 , G06N3/04 , G06N3/08 , G06N20/00

Abstract: 本发明公开了一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置，包括下述步骤：获取非完全博弈环境，确定任务目标；构建第一神经网络和基于未来值预测的强化学习方法；构建事后经验回顾池；对第一神经网络进行训练，直至第一神经网络收敛；构建渐进式神经网络，实现网络模型的渐进式扩展；选择下一个任务作为任务目标，利用基于未来值预测的强化学习方法持续训练，直至所有的任务都训练完成。本发明通过使用非完全信息博弈场景中丰富的智能体状态变化作为监督信号，解决该环境下的奖励稀疏问题，同时引入持续学习框架渐进式神经网络对未来值预测网络结构进行动态扩展，解决了在该环境下的多任务场景中的灾难性遗忘的问题。

Patent Agency Ranking