-
公开(公告)号:CN119294471A
公开(公告)日:2025-01-10
申请号:CN202411218104.X
申请日:2024-09-02
Applicant: 北京理工大学
IPC: G06N3/092 , G06N3/0985
Abstract: 本发明属于强化学习技术领域,具体涉及一种深度强化学习泛化性的评估方法及应用,包括设置强化学习算法环境,通过总的所有回合的奖励平均值和总的最终回合的奖励平均值对超参数进行优化,随后计算改进渐进校验损失,训练代理来收集奖励数据;使用奖励数据计算每个算法在每个环境下的改进渐进校验损失;采用Z测试进行显著胜负统计,进行胜负差量化计算,定义两个算法之间的胜负差并利用其评估强化学习泛化性性能,本发明采用了改进渐进校验损失计算函数,同时考虑基于奖励的状态和行动序列,可以量化且直观的确定每个算法对其他算法的显著胜负表现。