策略网络训练方法、装置、设备及可读存储介质

    公开(公告)号:CN113392971A

    公开(公告)日:2021-09-14

    申请号:CN202110653456.8

    申请日:2021-06-11

    Applicant: 武汉大学

    Abstract: 本发明提供一种策略网络训练方法、装置、设备及可读存储介质。该方法包括:将N个高带宽数据输入M个智能体,得到每个智能体基于输入的高带宽数据生成的选择动作,以及选择动作对应的奖励值,并构建i个样本,根据每个样本的奖励值,将样本放入优化经验池或常规验池;以预设采样机制从优化经验池以及常规验池中获取样本,作为训练样本,通过训练样本对策略网络和价值网络进行更新;重复执行上述步骤,直至策略网络和价值网络收敛。通过本发明,智能体不断与环境进行交互,利用环境反馈给其的奖励值来决定智能体的下一个动作。因此,所需要的先验知识更少,能够在未知的环境中进行学习,得到较优的策略网络。

    策略网络训练方法、装置、设备及可读存储介质

    公开(公告)号:CN113392971B

    公开(公告)日:2022-09-02

    申请号:CN202110653456.8

    申请日:2021-06-11

    Applicant: 武汉大学

    Abstract: 本发明提供一种策略网络训练方法、装置、设备及可读存储介质。该方法包括:将N个高带宽数据输入M个智能体,得到每个智能体基于输入的高带宽数据生成的选择动作,以及选择动作对应的奖励值,并构建i个样本,根据每个样本的奖励值,将样本放入优化经验池或常规验池;以预设采样机制从优化经验池以及常规验池中获取样本,作为训练样本,通过训练样本对策略网络和价值网络进行更新;重复执行上述步骤,直至策略网络和价值网络收敛。通过本发明,智能体不断与环境进行交互,利用环境反馈给其的奖励值来决定智能体的下一个动作。因此,所需要的先验知识更少,能够在未知的环境中进行学习,得到较优的策略网络。

    一种基于迁移学习的动物图像种类识别方法

    公开(公告)号:CN113627501A

    公开(公告)日:2021-11-09

    申请号:CN202110870176.2

    申请日:2021-07-30

    Applicant: 武汉大学

    Abstract: 本发明提供了一种基于迁移学习的动物图像种类识别方法,在根据图像任务分类需求选择了合适的深度学习模型之后,为了避免出现因样本数据匮乏导致模型训练效果差的问题,使用空间几何类变换对ImageNet数据集样本进行增强处理,从而得到预模型。最后根据预模型学习到的参数进行模型迁移,提高了在样本数据匮乏的情况下图像识别的准确率,能够更好地服务于野外动物监测与保护。

Patent Agency Ranking