-
公开(公告)号:CN119129669A
公开(公告)日:2024-12-13
申请号:CN202411043452.8
申请日:2024-07-31
Applicant: 中国科学院自动化研究所
IPC: G06N3/0499 , G06N3/092 , G06N20/00 , G06N3/047
Abstract: 本发明提供一种多场景通用的决策方法和装置,应用于智能决策技术领域。该方法包括:获取当前时刻智能体的观测值和行动值;将所述观测值和所述行动值输入任务状态提示器模块,得到任务状态提示序列;将所述任务状态提示序列输入广义动力学模块,得到所述智能体的下一时刻的观测值;其中,所述广义动力学模块为基于变换器的循环状态空间模型。由于可以解决不同场景下动力学难以拟合的问题,因此可以提高多场景离线强化学习方法的学习回报率,从而实现决策方法的多场景通用需求。
-
公开(公告)号:CN114327916A
公开(公告)日:2022-04-12
申请号:CN202210232543.0
申请日:2022-03-10
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种资源分配系统的训练方法、装置及设备,其中,所述方法包括:封装第一算法和第一仿真引擎,得到初始模型的第一执行程序;基于所述初始模型运行所述第一执行程序,生成至少一组态势数据;针对所述至少一组态势数据中的每一组态势数据执行训练操作,直到所述至少一组态势数据对应的执行结果均满足相应条件,得到所述资源分配系统。通过上述方式,本发明建立了一个可扩展可复用的资源分配系统,该资源分配系统能够实现多目标多资源动态分配的智能决策。
-
公开(公告)号:CN114146420A
公开(公告)日:2022-03-08
申请号:CN202210126379.5
申请日:2022-02-10
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种资源分配方法、装置及设备,其中,所述方法包括:获取至少两个虚拟对象对应的交互环境的至少两个特征信息;将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的总特征信息;根据所述总特征信息,获得第一分配指令;转换所述第一分配指令,获得包含第二分配动作的第二分配指令;根据所述第二分配指令,控制所述至少两个虚拟对象执行对应的第二分配动作。通过上述方式,本发明可以在多目标多资源的分配场景下,提高学习最优资源分配方法的效率。
-
公开(公告)号:CN114327916B
公开(公告)日:2022-06-17
申请号:CN202210232543.0
申请日:2022-03-10
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种资源分配系统的训练方法、装置及设备,其中,所述方法包括:封装第一算法和第一仿真引擎,得到初始模型的第一执行程序;基于所述初始模型运行所述第一执行程序,生成至少一组态势数据;针对所述至少一组态势数据中的每一组态势数据执行训练操作,直到所述至少一组态势数据对应的执行结果均满足相应条件,得到所述资源分配系统。通过上述方式,本发明建立了一个可扩展可复用的资源分配系统,该资源分配系统能够实现多目标多资源动态分配的智能决策。
-
公开(公告)号:CN114146420B
公开(公告)日:2022-04-22
申请号:CN202210126379.5
申请日:2022-02-10
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种资源分配方法、装置及设备,其中,所述方法包括:获取至少两个虚拟对象对应的交互环境的至少两个特征信息;将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的总特征信息;根据所述总特征信息,获得第一分配指令;转换所述第一分配指令,获得包含第二分配动作的第二分配指令;根据所述第二分配指令,控制所述至少两个虚拟对象执行对应的第二分配动作。通过上述方式,本发明可以在多目标多资源的分配场景下,提高学习最优资源分配方法的效率。
-
-
-
-