Patent search ap:("哈尔滨工业大学(深圳)") AND inv:"袁昊" Page 1

1.

发明公开
基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置有权

公开(公告)号：CN114048834A

公开(公告)日：2022-02-15

申请号：CN202111303694.2

申请日：2021-11-05

Applicant: 哈尔滨工业大学(深圳)

Inventor： 王轩 , 张加佳 , 漆舒汉 , 袁昊 , 刘洋 , 唐琳琳 , 夏文 , 廖清 , 李君一 , 杜明欣

IPC: G06N3/00 , G06N3/04 , G06N3/08 , G06N20/00

Abstract: 本发明公开了一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置，包括下述步骤：获取非完全博弈环境，确定任务目标；构建第一神经网络和基于未来值预测的强化学习方法；构建事后经验回顾池；对第一神经网络进行训练，直至第一神经网络收敛；构建渐进式神经网络，实现网络模型的渐进式扩展；选择下一个任务作为任务目标，利用基于未来值预测的强化学习方法持续训练，直至所有的任务都训练完成。本发明通过使用非完全信息博弈场景中丰富的智能体状态变化作为监督信号，解决该环境下的奖励稀疏问题，同时引入持续学习框架渐进式神经网络对未来值预测网络结构进行动态扩展，解决了在该环境下的多任务场景中的灾难性遗忘的问题。

2.

发明公开
一种基于Bert的动态阈值调整的智能问答系统有权

公开(公告)号：CN113961667A

公开(公告)日：2022-01-21

申请号：CN202111112028.0

申请日：2021-09-23

Applicant: 哈尔滨工业大学(深圳)

Inventor： 张加佳 , 王轩 , 漆舒汉 , 袁昊 , 罗文坚 , 唐琳琳 , 刘洋

IPC: G06F16/33 , G06F16/332 , G06F16/35

Abstract: 本发明公开了一种基于Bert的动态阈值调整的智能问答系统，其特征在于方法步骤如下：S101：获取用户问题q；S102：将用户问题q通过基于关键字向量化的问句匹配方法，得到Kw个相似的标准问题；S103：将用户问题q通过BERT预训练模型，得到Kr个相似的标准问题；S104：按照一定的规则挑选出两个方法得到的标准问题作为匹配的标准问题集；S105：将标准问题集通过动态阈值调整模块得到最终的结果；本发明结合标准问答对知识库的管理，提出了一个动态阈值调整的问题匹配方法，可以匹配识别未训练的标准问题，进一步提高问题回答的准确率。

3.

发明授权
一种基于Bert的动态阈值调整的智能问答系统有权

公开(公告)号：CN113961667B

公开(公告)日：2024-06-25

申请号：CN202111112028.0

申请日：2021-09-23

Applicant: 哈尔滨工业大学(深圳)

Inventor： 张加佳 , 王轩 , 漆舒汉 , 袁昊 , 罗文坚 , 唐琳琳 , 刘洋

IPC: G06F16/33 , G06F16/332 , G06F16/35

Abstract: 本发明公开了一种基于Bert的动态阈值调整的智能问答系统，其特征在于方法步骤如下：S101：获取用户问题q；S102：将用户问题q通过基于关键字向量化的问句匹配方法，得到Kw个相似的标准问题；S103：将用户问题q通过BERT预训练模型，得到Kr个相似的标准问题；S104：按照一定的规则挑选出两个方法得到的标准问题作为匹配的标准问题集；S105：将标准问题集通过动态阈值调整模块得到最终的结果；本发明结合标准问答对知识库的管理，提出了一个动态阈值调整的问题匹配方法，可以匹配识别未训练的标准问题，进一步提高问题回答的准确率。

4.

发明授权
基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置有权

公开(公告)号：CN114048834B

公开(公告)日：2023-01-17

申请号：CN202111303694.2

申请日：2021-11-05

Applicant: 哈尔滨工业大学(深圳)

Inventor： 王轩 , 张加佳 , 漆舒汉 , 袁昊 , 刘洋 , 唐琳琳 , 夏文 , 廖清 , 李君一 , 杜明欣

IPC: G06N3/00 , G06N3/04 , G06N3/08 , G06N20/00

Abstract: 本发明公开了一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置，包括下述步骤：获取非完全博弈环境，确定任务目标；构建第一神经网络和基于未来值预测的强化学习方法；构建事后经验回顾池；对第一神经网络进行训练，直至第一神经网络收敛；构建渐进式神经网络，实现网络模型的渐进式扩展；选择下一个任务作为任务目标，利用基于未来值预测的强化学习方法持续训练，直至所有的任务都训练完成。本发明通过使用非完全信息博弈场景中丰富的智能体状态变化作为监督信号，解决该环境下的奖励稀疏问题，同时引入持续学习框架渐进式神经网络对未来值预测网络结构进行动态扩展，解决了在该环境下的多任务场景中的灾难性遗忘的问题。

Patent Agency Ranking