一种细粒度专家行为模仿学习方法、装置、介质及终端

    公开(公告)号:CN115688858B

    公开(公告)日:2024-02-09

    申请号:CN202211285500.5

    申请日:2022-10-20

    Abstract: 本发明公开了一种细粒度专家行为模仿学习方法、装置、介质及终端,方法包括,获取智能体的当前环境状态信息,将当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据预测信息控制智能体执行相应动作,采集任务完成情况信息和当前动作的状态信息;根据动作的状态信息计算单次奖励值,根据任务完成情况信息计算任务奖励值;根据单次奖励值及任务奖励值训练预设预测网络模型,将任务奖励值和每局若干单次奖励值相加,得到总奖励值,当总奖励值大于阈值时,完成对预设预测网络模型的训练并将输出的策略返回,上述方法降低了训练难度、提高了训练效率,无需采集大量专家数据即可在高维状态、动作空间中学习到接近专家行为模式的策略。

    一种基于单估值网络的CFR策略求解方法及相关设备

    公开(公告)号:CN116028817A

    公开(公告)日:2023-04-28

    申请号:CN202310078101.X

    申请日:2023-01-13

    Abstract: 本发明公开一种基于单估值网络的CFR策略求解方法及相关设备,所述方法包括:初始化每个博弈者的初始优势值网络;利用外部采样方法遍历博弈树,并收集得到累积遗憾值后,计算出优势值;利用所述优势值训练多个初始优势值网络,并将得到的多个经过训练后的优势值网络保存在优势值网络缓冲区中;在所述优势值网络缓冲区中选择一个经过训练后的优势值网络进行优势值网络采样操作,生成综合策略。本发明通过利用优势值训练初始优势值网络,将经过训练后的优势值网络保存在优势值网络缓冲区中,并对保存的经过训练后的优势值网络进行优势值网络采样操作,直接生成综合策略,不仅减少了存储和计算资源,提高了综合策略的质量和优越性。

    一种替代模型自动提取方法、终端及存储介质

    公开(公告)号:CN115470927A

    公开(公告)日:2022-12-13

    申请号:CN202210987308.4

    申请日:2022-08-17

    Abstract: 本发明公开了一种替代模型自动提取方法、终端及存储介质,方法包括:获取目标模型面向的任务及任务数据信息,根据目标模型面向的任务确定替代模型的架构,并根据模型提取的特点及为改进提取流程设置模型提取框架;对收集的目标模型的任务数据进行降维处理,并对降维后的数据进行筛选,得到替代模型的训练数据集;根据预设指标度量替代模型的分类信心,根据分类信心对训练数据集进行分类,得到查询样本数据;通过模型提取框架中的监督学习算法和一致性正则化算法训练替代模型,得到训练后的替代模型;本发明可以获得目标模型决策能力,使得替代模型尽可能接近甚至超越目标模型在测试数据集上的表现,从而使得替代模型具有更令人满意的可用性。

    一种基于模型的近端策略优化方法

    公开(公告)号:CN113947022B

    公开(公告)日:2022-07-12

    申请号:CN202111220714.X

    申请日:2021-10-20

    Abstract: 本发明公开了一种基于模型的近端策略优化方法,包括步骤:获取模拟环境,并确定所述模拟环境对应的环境模型和策略网络;基于所述策略网络与所述模拟环境,确定状态数据;其中,所述状态数据包括所述模拟环境的视频序列帧;基于所述模拟环境的视频序列帧训练所述环境模型,得到已训练的环境模型输出的预测图像;基于所述预测图像,更新所述状态数据,得到更新的状态数据;基于所述更新的状态数据,更新所述策略网络,得到更新的策略网络。融合基于模型的深度强化学习算法,提出了基于模型的近端策略优化框架,较好的解决了非完全信息博弈环境下采样利用率低的问题,在提高采样率的同时提升训练速度。

    一种基于有监督超图离散化图像二值编码方法

    公开(公告)号:CN109284411B

    公开(公告)日:2022-03-18

    申请号:CN201810402753.3

    申请日:2018-04-28

    Abstract: 本发明涉及图像数据处理领域,特别涉及一种基于有监督超图离散化图像二值编码方法。该方法包括以下步骤:S1.假设一个由n幅图像组成训练集,将训练集所有样本通过学习哈希函数映射到汉明空间的二值化哈希码;S2.定义一个线性多分类模型,采用优化函数对离散化变量进行优化,得出第一目标函数;S3.采用超图对数据哈希码之间的距离度量一致性进行约束,得出第二目标函数;S4.整合第一目标函数和第二目标函数,得到完整的目标函数,采用“位循环坐标下降方法”学习哈希码矩阵,并通过迭代运算优化目标函数。本发明既可以保持数据在原始空间相似性,又能提高检索的准确率。

    基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置

    公开(公告)号:CN114048834A

    公开(公告)日:2022-02-15

    申请号:CN202111303694.2

    申请日:2021-11-05

    Abstract: 本发明公开了一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置,包括下述步骤:获取非完全博弈环境,确定任务目标;构建第一神经网络和基于未来值预测的强化学习方法;构建事后经验回顾池;对第一神经网络进行训练,直至第一神经网络收敛;构建渐进式神经网络,实现网络模型的渐进式扩展;选择下一个任务作为任务目标,利用基于未来值预测的强化学习方法持续训练,直至所有的任务都训练完成。本发明通过使用非完全信息博弈场景中丰富的智能体状态变化作为监督信号,解决该环境下的奖励稀疏问题,同时引入持续学习框架渐进式神经网络对未来值预测网络结构进行动态扩展,解决了在该环境下的多任务场景中的灾难性遗忘的问题。

Patent Agency Ranking