-
公开(公告)号:CN114492845A
公开(公告)日:2022-05-13
申请号:CN202210336685.1
申请日:2022-04-01
Applicant: 中国科学技术大学
IPC: G06N20/00
Abstract: 本发明公开了一种资源受限条件下提高强化学习探索效率的方法,包括:步骤1,智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境;步骤2,接受环境返回执行所述智能体动作后的新状态和相应的外在奖励;步骤3,通过资源感知方式计算智能体用于探索环境的内在奖励;步骤4,按以下总体奖励计算公式计算所述智能体的总体奖励;步骤5,根据得出的智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新;步骤6,判断智能体本轮环境探索得到的所有外在奖励的累积值是否最大化,若否,则回到步骤1重复进行处理,若是,则结束本轮环境探索。该方法能在资源受限条件下,提升智能体应用的主流强化学习方法的探索效率。
-
公开(公告)号:CN118761368B
公开(公告)日:2024-11-29
申请号:CN202411253234.7
申请日:2024-09-09
Applicant: 中国科学技术大学
IPC: G06F30/337 , G06F30/27 , G06N3/092 , G06N3/126 , G06F111/06
Abstract: 本发明提供了一种电路遗传进化方法,可以应用于算术逻辑电路优化技术领域。该方法包括:将基因序列模型中的电路基因作为局部搜索算子的初始状态信息;利用目标案例集合对强化学习代理任务的初始状态进行反复重启进而完成对局部搜索算子的设计,利用局部搜索算子对基因序列模型的局部结构进行优化;基于多粒度遗传变异因子设计全局搜索算子,利用全局搜索算子对局部结构优化后的基因序列模型进行全局结构优化;利用基于深度神经网络的混合学习评估模型对全局结构优化后的基因序列模型进行筛选,得到电路基因更新后的基因序列模型;迭代进行局部结构优化操作、全局结构优化操作以及筛选操作,直到满足预设训练条件,得到结构优化后的目标电路。
-
公开(公告)号:CN114492845B
公开(公告)日:2022-07-15
申请号:CN202210336685.1
申请日:2022-04-01
Applicant: 中国科学技术大学
IPC: G06N20/00
Abstract: 本发明公开了一种资源受限条件下提高强化学习探索效率的方法,包括:步骤1,智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境;步骤2,接受环境返回执行所述智能体动作后的新状态和相应的外在奖励;步骤3,通过资源感知方式计算智能体用于探索环境的内在奖励;步骤4,按以下总体奖励计算公式计算所述智能体的总体奖励;步骤5,根据得出的智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新;步骤6,判断智能体本轮环境探索得到的所有外在奖励的累积值是否最大化,若否,则回到步骤1重复进行处理,若是,则结束本轮环境探索。该方法能在资源受限条件下,提升智能体应用的主流强化学习方法的探索效率。
-
公开(公告)号:CN118761368A
公开(公告)日:2024-10-11
申请号:CN202411253234.7
申请日:2024-09-09
Applicant: 中国科学技术大学
IPC: G06F30/337 , G06F30/27 , G06N3/092 , G06N3/126 , G06F111/06
Abstract: 本发明提供了一种电路遗传进化方法,可以应用于算术逻辑电路优化技术领域。该方法包括:将基因序列模型中的电路基因作为局部搜索算子的初始状态信息;利用目标案例集合对强化学习代理任务的初始状态进行反复重启进而完成对局部搜索算子的设计,利用局部搜索算子对基因序列模型的局部结构进行优化;基于多粒度遗传变异因子设计全局搜索算子,利用全局搜索算子对局部结构优化后的基因序列模型进行全局结构优化;利用基于深度神经网络的混合学习评估模型对全局结构优化后的基因序列模型进行筛选,得到电路基因更新后的基因序列模型;迭代进行局部结构优化操作、全局结构优化操作以及筛选操作,直到满足预设训练条件,得到结构优化后的目标电路。
-
公开(公告)号:CN114139675B
公开(公告)日:2024-09-20
申请号:CN202111491549.1
申请日:2021-12-08
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种提升智能体控制中选择可靠动作准确性的方法,包括:步骤1,将预先部署有行为策略网络、概率神经网络和评价打分网络的智能体按待完成的预设目标任务与真实环境交互采集真实环境数据,并从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型;步骤2,智能体基于多个动力学模型学习评价打分网络的评价打分函数的多个估计;步骤3,智能体使用得到的评价打分函数的多个估计中最小的k个估计的平均值来优化行为策略网络的策略;步骤4,智能体控制中采用优化后的策略进行行为的选择。能提高智能体用有模型强化学习方法的样本效率,进而提升学习的策略性能低,提高控制中选择可靠动作的准确性。
-
公开(公告)号:CN114139675A
公开(公告)日:2022-03-04
申请号:CN202111491549.1
申请日:2021-12-08
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种提升智能体控制中选择可靠动作准确性的方法,包括:步骤1,将预先部署有行为策略网络、概率神经网络和评价打分网络的智能体按待完成的预设目标任务与真实环境交互采集真实环境数据,并从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型;步骤2,智能体基于多个动力学模型学习评价打分网络的评价打分函数的多个估计;步骤3,智能体使用得到的评价打分函数的多个估计中最小的k个估计的平均值来优化行为策略网络的策略;步骤4,智能体控制中采用优化后的策略进行行为的选择。能提高智能体用有模型强化学习方法的样本效率,进而提升学习的策略性能低,提高控制中选择可靠动作的准确性。
-
-
-
-
-