基于分布式训练框架的智能决策方法及系统

    公开(公告)号:CN119831048A

    公开(公告)日:2025-04-15

    申请号:CN202411953175.4

    申请日:2024-12-27

    Abstract: 本公开提供了一种基于分布式训练框架的智能决策方法及系统,属于人工智能和分布式计算领域,分布式训练框架包括采样器、学习器和协调服务器。智能决策方法包括:从第一策略集中选择k个策略作为训练策略,确定每个训练策略对应的采样器和学习器。将每个训练策略分别与目标策略作为一组进行对抗采样得到第一采样数据。基于第一采样数据对学习器进行训练得到学习器的网络模型参数,对网络模型参数进行聚合得到全局模型参数。将全局模型参数发送至各个学习器和各个采样器进行迭代训练得到满足预设收敛条件的目标策略集。本公开通过将同步采样与分布式并行计算相结合,使智能决策适用于复杂的军事对抗博弈场景,显著提升了策略多样性的优化效果。

    多线路车辆智能排班方法及系统、设备、存储介质

    公开(公告)号:CN119671185A

    公开(公告)日:2025-03-21

    申请号:CN202411821115.7

    申请日:2024-12-11

    Abstract: 本公开提供了多线路车辆智能排班方法及系统、设备、存储介质,属于智能车辆调度技术领域,该方法包括:构建特征提取网络,特征提取网络用于提取第一信息的特征向量。构建车辆选择网络,车辆选择网络用于选择车辆进行排班。构建模拟环境,模拟环境用于模拟车辆的运行信息。基于特征提取网络和车辆选择网络构建智能体。基于模拟环境生成第一信息,基于第一信息和奖励函数对智能体进行训练得到强化学习智能体,其中,第一信息为模拟车辆的历史运行信息,奖励函数为第一信息对应的奖励值计算函数,将第二信息输入到强化学习智能体中得到目标排班方案,第二信息为多线路车辆信息。本公开提供的多线路车辆智能排班方法及系统、设备、存储介质能够提高对复杂车辆排班问题的应对能力。

    一种协作与竞争场景下的可泛化智能体生成方法

    公开(公告)号:CN119558343A

    公开(公告)日:2025-03-04

    申请号:CN202411713024.1

    申请日:2024-11-27

    Abstract: 本发明公开了一种协作与竞争场景下的可泛化智能体生成方法,包括:构建多样性策略池;选取一个子环境,提取团队智能体的策略网络参数,并赋值给学习者;采用多智能体强化学习算法对学习者的策略网络参数进行优化更新,获得学习者的第一策略网络参数;构建回合记忆库,对队友和对手的观测数据进行视角对齐转换;在优化更新过程中,基于学习者观测特征,从回合记忆库中检索与学习者最匹配的观测数据;对检索到的观测数据进行位置编码处理后,基于超网络生成学习者的第二策略网络参数;结合第一策略网络参数和第二策略网络参数,获得优化后的学习者策略网络参数。本发明智能体的设定能够在当前环境下与未知的队友和对手进行有效的协作与竞争。

Patent Agency Ranking