多智能体强化学习方法及装置、电子设备、存储介质

    公开(公告)号:CN118052272A

    公开(公告)日:2024-05-17

    申请号:CN202410189439.7

    申请日:2024-02-20

    Abstract: 本公开提供了一种多智能体强化学习方法及装置、电子设备、存储介质,属于超图表示学习技术领域,该方法包括:基于多智能体系统中各个智能体的观测信息生成多条超边。每条超边连接多个智能体,多条超边组成超图结构。超图结构为多智能体系统对应的通信结构。基于各个智能体的观测信息计算多智能体之间的消息权重。基于通信结构和消息权重生成多智能体系统对应的关联度。基于关联度对各个智能体的通信信息进行融合,得到每个智能体对应的融合通信信息。融合通信信息用于指导对应智能体的动作。本公开提供的多智能体强化学习方法及装置、电子设备、存储介质能对多个来自不同智能体的异构信息进行通信融合。

    基于分布式训练框架的智能决策方法及系统

    公开(公告)号:CN119831048A

    公开(公告)日:2025-04-15

    申请号:CN202411953175.4

    申请日:2024-12-27

    Abstract: 本公开提供了一种基于分布式训练框架的智能决策方法及系统,属于人工智能和分布式计算领域,分布式训练框架包括采样器、学习器和协调服务器。智能决策方法包括:从第一策略集中选择k个策略作为训练策略,确定每个训练策略对应的采样器和学习器。将每个训练策略分别与目标策略作为一组进行对抗采样得到第一采样数据。基于第一采样数据对学习器进行训练得到学习器的网络模型参数,对网络模型参数进行聚合得到全局模型参数。将全局模型参数发送至各个学习器和各个采样器进行迭代训练得到满足预设收敛条件的目标策略集。本公开通过将同步采样与分布式并行计算相结合,使智能决策适用于复杂的军事对抗博弈场景,显著提升了策略多样性的优化效果。

    智能体训练方法及装置、电子设备、存储介质

    公开(公告)号:CN119701377A

    公开(公告)日:2025-03-28

    申请号:CN202411939576.4

    申请日:2024-12-26

    Abstract: 本公开提供了一种智能体训练方法及装置、电子设备、存储介质,属于智能体训练技术领域,该方法包括:确定主智能体的第一策略模型和陪练智能体的第二策略模型,第一策略模型为主智能体历史版本池中的模型,第二策略模型为陪练智能体历史版本池中的模型;基于第一策略模型和第二策略模型的交互数据对第一策略模型进行更新得到第三策略模型,基于第一策略模型和第二策略模型的交互数据对第二策略模型进行更新得到第四策略模型;将第三策略模型加入主智能体历史版本池中,将第四策略模型加入到陪练智能体历史版本池中。本公开提供的智能体训练方法及装置、电子设备、存储介质能够满足在非对称任务中策略多变、环境复杂的实际需求。

    一种基于图神经网络的多模态阅读眼动表征方法

    公开(公告)号:CN119357900A

    公开(公告)日:2025-01-24

    申请号:CN202411507526.9

    申请日:2024-10-28

    Abstract: 本发明公开了一种基于图神经网络的多模态阅读眼动表征方法,属于智能学习领域,该方法包括以下步骤:获取被试眼动数据,对所述被试眼动数据进行预处理得到预处理眼动数据;将所述预处理眼动数据转化为拓扑结构图;对所述拓扑结构图进行迭代与多维注意力处理得到节点特征和多维边特征;基于图注意力网络的多维建模方法对所述节点特征和所述多维边特征进行交互融合得到最终的阅读眼动表征输出。本发明提出了一种结合了门控神经网络和边特征图注意力网络的多模态眼动表征方法,能够有效融合眼动特征和文本刺激信息,实现对眼动追踪数据的高效表征。

    一种图像分类方法及装置、电子设备、可读存储介质

    公开(公告)号:CN118097283A

    公开(公告)日:2024-05-28

    申请号:CN202410274125.7

    申请日:2024-03-11

    Abstract: 本公开提供了一种图像分类方法及装置、电子设备、可读存储介质,属于机器学习技术领域,该方法包括:基于第一分类类别对目标分类器的权重进行更新。确定第一训练集中样本类别和第二训练集中样本类别的数量比例,基于数量比例计算目标分类器对应的图像分类模型的损失函数值。第一训练集为第一分类类别对应的训练集,第二训练集属于图像分类模型的历史训练集,为第二分类类别对应的训练集。第二分类类别不同于第一分类类别。基于损失函数值、第一训练集以及第二训练集对图像分类模型的骨干网络进行参数更新直至图像分类模型收敛。基于收敛后的图像分类模型进行图像分类。本公开提供的图像分类方法能够减轻数据不平衡问题对图像分类模型训练性能的影响,提高模型的泛化能力。

    大语言模型自我提升方法及装置

    公开(公告)号:CN118093823A

    公开(公告)日:2024-05-28

    申请号:CN202410287285.5

    申请日:2024-03-13

    Abstract: 本公开提供了一种大语言模型自我提升方法及装置,属于深度学习技术领域,该方法包括:在第一知识库中检索与第一输入信息对应的反思样本,得到反思样本信息;将反思样本信息和第一输入信息输入至大语言模型中,得到目标反思信息;基于第一输入信息和目标反思信息对第一知识库进行更新;在第二知识库中检索与第二输入信息对应的改进样本,得到改进样本信息;将第二输入信息和改进样本信息输入至大语言模型中,得到目标改进信息;基于第二输入信息和目标改进信息对第二知识库进行更新。本公开根据大语言模型的反思信息和改进信息更新第一知识库和第二知识库,丰富了第一知识库和第二知识库的内容,提高了大语言模型的输出质量。

    一种基于图神经网络的多模态阅读眼动表征方法

    公开(公告)号:CN119357900B

    公开(公告)日:2025-05-13

    申请号:CN202411507526.9

    申请日:2024-10-28

    Abstract: 本发明公开了一种基于图神经网络的多模态阅读眼动表征方法,属于智能学习领域,该方法包括以下步骤:获取被试眼动数据,对所述被试眼动数据进行预处理得到预处理眼动数据;将所述预处理眼动数据转化为拓扑结构图;对所述拓扑结构图进行迭代与多维注意力处理得到节点特征和多维边特征;基于图注意力网络的多维建模方法对所述节点特征和所述多维边特征进行交互融合得到最终的阅读眼动表征输出。本发明提出了一种结合了门控神经网络和边特征图注意力网络的多模态眼动表征方法,能够有效融合眼动特征和文本刺激信息,实现对眼动追踪数据的高效表征。

    多线路车辆智能排班方法及系统、设备、存储介质

    公开(公告)号:CN119671185A

    公开(公告)日:2025-03-21

    申请号:CN202411821115.7

    申请日:2024-12-11

    Abstract: 本公开提供了多线路车辆智能排班方法及系统、设备、存储介质,属于智能车辆调度技术领域,该方法包括:构建特征提取网络,特征提取网络用于提取第一信息的特征向量。构建车辆选择网络,车辆选择网络用于选择车辆进行排班。构建模拟环境,模拟环境用于模拟车辆的运行信息。基于特征提取网络和车辆选择网络构建智能体。基于模拟环境生成第一信息,基于第一信息和奖励函数对智能体进行训练得到强化学习智能体,其中,第一信息为模拟车辆的历史运行信息,奖励函数为第一信息对应的奖励值计算函数,将第二信息输入到强化学习智能体中得到目标排班方案,第二信息为多线路车辆信息。本公开提供的多线路车辆智能排班方法及系统、设备、存储介质能够提高对复杂车辆排班问题的应对能力。

    一种协作与竞争场景下的可泛化智能体生成方法

    公开(公告)号:CN119558343A

    公开(公告)日:2025-03-04

    申请号:CN202411713024.1

    申请日:2024-11-27

    Abstract: 本发明公开了一种协作与竞争场景下的可泛化智能体生成方法,包括:构建多样性策略池;选取一个子环境,提取团队智能体的策略网络参数,并赋值给学习者;采用多智能体强化学习算法对学习者的策略网络参数进行优化更新,获得学习者的第一策略网络参数;构建回合记忆库,对队友和对手的观测数据进行视角对齐转换;在优化更新过程中,基于学习者观测特征,从回合记忆库中检索与学习者最匹配的观测数据;对检索到的观测数据进行位置编码处理后,基于超网络生成学习者的第二策略网络参数;结合第一策略网络参数和第二策略网络参数,获得优化后的学习者策略网络参数。本发明智能体的设定能够在当前环境下与未知的队友和对手进行有效的协作与竞争。

    一种芯片拥塞预测方法
    20.
    发明公开

    公开(公告)号:CN119443028A

    公开(公告)日:2025-02-14

    申请号:CN202411493069.2

    申请日:2024-10-24

    Abstract: 本发明公开了一种芯片拥塞预测方法,包括:构建单元操作集,基于单元操作集构建搜索空间,使用梯度下降法选取神经网络架构并进行迭代更新,获得最优神经网络架构;获取目标领域和源领域的芯片布局布线设计图集并选取预设数量的图像,获得目标训练集和源训练图集,通过选取的图像训练循环生成对抗网络;基于源领域的芯片布局布线设计图集与循环生成对抗网络获得辅助数据集;基于目标训练集与辅助训练集对最优神经网络结构进行训练,获得最终芯片拥塞预测模型,基于最终芯片拥塞预测模型进行芯片拥塞预测。本发明克服了使用机器学习模型进行拥塞预测时需要大量专业知识和巨大工程消耗的问题,大幅度减少跨芯片拥塞预测需要的数据样本数量。

Patent Agency Ranking