图神经网络训练方法、标签生成方法、装置、设备及介质

    公开(公告)号:CN118780318A

    公开(公告)日:2024-10-15

    申请号:CN202410921639.7

    申请日:2024-07-10

    Applicant: 吉林大学

    Abstract: 本申请提供了一种图神经网络训练方法、标签生成方法、装置、设备及介质,该方法应用于图数据技术领域,该方法包括:获取训练图数据中第i个节点数据的目标邻域结构与所述第i个节点数据的样本标签;基于所述目标邻域结构中的邻居节点数据的原始节点特征,对所述第i个节点数据的原始节点特征进行特征聚合,得到所述第i个节点数据的平滑特征;将所述第i个节点数据的平滑特征输入至待训练的图神经网络,输出所述第i个节点数据的目标预测标签;基于所述第i个节点数据的目标预测标签和所述样本标签之间的差异,对所述待训练的图神经网络进行迭代训练,得到训练后的图神经网络。该方法能够适用对不同图结构中节点的标签进行预测。

    基于多智能体强化学习的多路口交通信号灯公平控制方法

    公开(公告)号:CN118298648A

    公开(公告)日:2024-07-05

    申请号:CN202410269549.4

    申请日:2024-03-11

    Applicant: 吉林大学

    Abstract: 本发明属于智能交通控制技术领域,具体公开了基于多智能体强化学习的多路口交通信号灯公平控制方法,设计了一种新型的公平性度量指标,并提出了一种公平性感知的多智能体强化学习方法,可以在确保模型性能不受影响的前提下,提供相对公平的动作决策;提出了反事实数据增强的模块,通过利用反事实思想,基于已有的交互数据实现数据集的扩展,有利于丰富交互数据的多样性,进而在交互数据收集受限的任务中提高训练样本效率;设计了辅助自监督表示学习任务,通过状态之间天然的时序关系构建自监督表示学习损失,额外训练损失的引入有利于状态信息特征提取,提升模型训练样本效率。

    一种空间对齐与选择性权重激活的持续离线强化学习方法

    公开(公告)号:CN119761454A

    公开(公告)日:2025-04-04

    申请号:CN202510248451.5

    申请日:2025-03-04

    Applicant: 吉林大学

    Abstract: 本申请提供了一种空间对齐与选择性权重激活的持续离线强化学习方法,包括:针对持续学习任务序列中的每一个任务,使用该任务对应的数据集,利用量化空间对齐方法将状态空间和动作空间对齐,以得到相同空间下的状态序列和动作序列;获取单时间步奖励序列,并利用奖励函数计算出累积折扣奖励和序列;基于该任务的状态序列,将累积折扣奖励和序列作为扩散模型的条件信息,利用被激活的扩散模型生成给定状态序列,再利用逆动力学模型生成给定动作序列;将各任务累积的折扣奖励和的最大化作为目标,进行持续强化学习,以更新各任务对应的扩散模型参数,和逆动力学模型参数。该方法使各任务的强化学习过程在同样的空间上进行,并有效缓解了灾难性遗忘。

    一种智能体训练方法、装置、存储介质及电子设备

    公开(公告)号:CN117540214A

    公开(公告)日:2024-02-09

    申请号:CN202311677765.4

    申请日:2023-12-07

    Applicant: 吉林大学

    Abstract: 本说明书公开了一种智能体训练方法、装置、存储介质及电子设备,其中方法包括:获取环境向量、智能体的局部状态向量和动作向量进行拼接,得到智能体的全局向量,采用对比模块对全局向量进行计算,得到目标向量,采用集成评价网络对目标向量进行评价得到样本评分,对样本评分进行处理得到预估评分,计算对比模块、策略网络和集成评价网络的损失函数,基于损失函数对网络参数进行调整,直至损失函数指示收敛,得到训练完成的对比模块、策略网络和集成评价网络,采用本说明书,采用对比模块辅助评价网络进行训练增加额外的损失函数,提高目标向量的表示能力,并通过集成式评价网络减少预估时产生的误差,提高了智能体训练模型的样本训练效率。

Patent Agency Ranking