Patent search ap:("哈尔滨工业大学(深圳)") AND inv:"侯晓涵" Page 1

1.

发明授权
一种多智能体协同强化学习方法、终端及存储介质有权

公开(公告)号：CN116226662B

公开(公告)日：2024-02-09

申请号：CN202310012741.0

申请日：2023-01-05

Applicant: 哈尔滨工业大学(深圳)

Inventor： 漆舒汉 , 张书豪 , 王轩 , 张加佳 , 吴宇琳 , 王强 , 施少怀 , 侯晓涵

IPC: G06F18/214 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种多智能体协同强化学习方法、终端及存储介质，方法包括：获取环境参数，构造模拟环境，并根据环境参数以及智能体数目确定学习者智能体；根据任务需求构造对应数量的工作者智能体，并根据任务需求构造对应数量的行动者智能体；其中，每个工作者智能体用于与多个行动者智能体进行交互，每个行动者智能体分别与一个独立的模拟环境交互；获取样本数据，根据样本数据对学习者智能体进行训练，得到训练后的模型参数；通过学习者智能体定期将训练后的模型参数更新到共享内存中，并通过工作者智能体定期从共享内存中更新决策网络的参数，得到强化学习后的策略。本发明提高了多智能体的强化学习过程中的样本利用率及样本数量。

2.

发明公开
一种多智能体协同强化学习方法、终端及存储介质有权

公开(公告)号：CN116226662A

公开(公告)日：2023-06-06

申请号：CN202310012741.0

申请日：2023-01-05

Applicant: 哈尔滨工业大学(深圳)

Inventor： 漆舒汉 , 张书豪 , 王轩 , 张加佳 , 吴宇琳 , 王强 , 施少怀 , 侯晓涵

IPC: G06F18/214 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种多智能体协同强化学习方法、终端及存储介质，方法包括：获取环境参数，构造模拟环境，并根据环境参数以及智能体数目确定学习者智能体；根据任务需求构造对应数量的工作者智能体，并根据任务需求构造对应数量的行动者智能体；其中，每个工作者智能体用于与多个行动者智能体进行交互，每个行动者智能体分别与一个独立的模拟环境交互；获取样本数据，根据样本数据对学习者智能体进行训练，得到训练后的模型参数；通过学习者智能体定期将训练后的模型参数更新到共享内存中，并通过工作者智能体定期从共享内存中更新决策网络的参数，得到强化学习后的策略。本发明提高了多智能体的强化学习过程中的样本利用率及样本数量。

Patent Agency Ranking