-
公开(公告)号:CN118504605A
公开(公告)日:2024-08-16
申请号:CN202410464414.3
申请日:2024-04-17
Applicant: 清华大学深圳国际研究生院
Abstract: 本发明提供一种基于双目标引导的自主决策方法及装置,涉及计算机技术领域,该方法包括:获取目标对象的当前状态;将所述当前状态输入至双目标引导决策模型,得到所述双目标引导决策模型输出的所述当前状态对应的目标决策;所述双目标引导决策模型是基于多个样本四元组进行训练得到的,所述样本四元组包括当前样本状态、样本动作、样本奖励和下一个样本状态;所述双目标引导决策模型用于确定所述当前状态对应的所述目标决策。由于双目标引导决策模型是基于多个样本四元组进行训练得到的,使得双目标引导决策模型的鲁棒性较好以及模型的决策精度高,提高了目标决策的准确性。