一种基于贝叶斯Q学习的无人机集群网络智能跳频方法

    公开(公告)号:CN113382381A

    公开(公告)日:2021-09-10

    申请号:CN202110596287.9

    申请日:2021-05-30

    Abstract: 本发明公开了一种基于贝叶斯Q学习的无人机集群网络智能跳频方法,该方法采用Myopic‑VPI决策策略选择无人机集群上行链路的无线信道,在无人机和干扰机均处于未知移动状态的场景下实现对干扰信道的规避;同时在基于对信道环境的数据观测下,运用矩更新方法,逐步修正基于高斯‑伽马分布模型的Q值分布,最终学习到干扰机的干扰策略并智能选择可用的传输信道,最大程度上降低干扰。本发明针对无人机集群网络分别处于单音随机干扰、多音扫频干扰和马尔科夫干扰三种场景下,通过无人机自主交互的协同认知能力规避干扰,实现智能抗干扰通信;相较于传统Q学习能够更快地学习到最优的跳频方法,有效提升了信息传输速率且降低了功率消耗。

    一种基于多智能体强化学习的无人机网络协同快跳频方法

    公开(公告)号:CN113572548B

    公开(公告)日:2023-07-07

    申请号:CN202110680187.4

    申请日:2021-06-18

    Abstract: 本发明公开了一种基于多智能体强化学习的无人机网络协同快跳频方法,具体为:输入无人机网络环境,每对无人机初始化自身Q表以及最优先验动作分布估计、互信息惩罚项系数和动作状态对出现次数;在当前时隙中,每对无人机根据上一时隙生成的动作选择传输信道,传输完成后得到环境反馈的奖励;每对无人机观测环境的当前状态,再与其它无人机对交互当前状态下各个动作的Q值得到全局Q值,根据互信息正则化soft Q‑learning算法中的行为策略生成动作;每对无人机更新自身Q表以及各个参量;当达到训练回合的最大步数时,重新输入无人机网络环境开始下一回合。本发明实现了所有无人机对的总吞吐量性能的提升,为无人机网络提供了通信保障。

    一种基于深度强化学习的信息年龄可感知资源分配方法

    公开(公告)号:CN114630299B

    公开(公告)日:2024-04-23

    申请号:CN202210228341.9

    申请日:2022-03-08

    Abstract: 本发明公开了一种基于深度强化学习的信息年龄可感知资源分配方法,具体为:输入车联网环境,基站初始化自身actor网络和critic网络的参数;在当前时隙中,基站先为环境中所有的车辆用户对分配信道和发射功率;车辆用户和蜂窝用户完成通信后,所有链路的剩余负载量和信息年龄更新;基站得到环境反馈的奖励后,感知并收集环境当前状态信息,同时缓冲池存储此时隙产生的样本数据;当样本数量足够时,根据置信域策略优化算法中的迭代公式来更新actor网络和critic网络的参数,更新完成后清空缓冲池;当达到训练回合的最大步数时,重新输入车联网环境开始下一回合。本发明通过最小化平均信息年龄和平均功耗来支持车联网中各类实时性敏感应用。

    一种基于贝叶斯Q学习的无人机集群网络智能跳频方法

    公开(公告)号:CN113382381B

    公开(公告)日:2022-08-30

    申请号:CN202110596287.9

    申请日:2021-05-30

    Abstract: 本发明公开了一种基于贝叶斯Q学习的无人机集群网络智能跳频方法,该方法采用Myopic‑VPI决策策略选择无人机集群上行链路的无线信道,在无人机和干扰机均处于未知移动状态的场景下实现对干扰信道的规避;同时在基于对信道环境的数据观测下,运用矩更新方法,逐步修正基于高斯‑伽马分布模型的Q值分布,最终学习到干扰机的干扰策略并智能选择可用的传输信道,最大程度上降低干扰。本发明针对无人机集群网络分别处于单音随机干扰、多音扫频干扰和马尔科夫干扰三种场景下,通过无人机自主交互的协同认知能力规避干扰,实现智能抗干扰通信;相较于传统Q学习能够更快地学习到最优的跳频方法,有效提升了信息传输速率且降低了功率消耗。

    一种基于强化学习的无线异构车联网边缘卸载方案

    公开(公告)号:CN113613206A

    公开(公告)日:2021-11-05

    申请号:CN202010537028.4

    申请日:2020-06-12

    Abstract: 本发明公开了一种基于强化学习的无线异构车联网边缘卸载方案。在该方案中,用户车辆支持V2I、V2V两种卸载方式。实施本发明首先需要AP在每时隙的开头观察并收集路段中的环境信息,包括路段中所有基站车辆、用户车辆的位置以及所有V2I信道和V2V信道的信道增益。其次,基于收集到的环境状态,通过DQN网络,确定该时隙内所有用户车辆的任务卸载选择。然后,AP将卸载选择广播到所有相关车辆,使各用户车辆卸载任务至目标边缘服务器。最后,在时隙的末尾,AP接收所有用户车辆对这一时隙计算率的反馈,并以该反馈的函数作为回报,进而训练DQN网络。本发明可以实现在不同车辆数目、随机变化的车联网环境中通过训练获得用户车辆的最佳计算任务卸载选择,为计算密集型以及时延敏感性计算任务的车联网应用提供决策。

    一种基于深度强化学习的信息年龄可感知资源分配方法

    公开(公告)号:CN114630299A

    公开(公告)日:2022-06-14

    申请号:CN202210228341.9

    申请日:2022-03-08

    Abstract: 本发明公开了一种基于深度强化学习的信息年龄可感知资源分配方法,具体为:输入车联网环境,基站初始化自身actor网络和critic网络的参数;在当前时隙中,基站先为环境中所有的车辆用户对分配信道和发射功率;车辆用户和蜂窝用户完成通信后,所有链路的剩余负载量和信息年龄更新;基站得到环境反馈的奖励后,感知并收集环境当前状态信息,同时缓冲池存储此时隙产生的样本数据;当样本数量足够时,根据置信域策略优化算法中的迭代公式来更新actor网络和critic网络的参数,更新完成后清空缓冲池;当达到训练回合的最大步数时,重新输入车联网环境开始下一回合。本发明通过最小化平均信息年龄和平均功耗来支持车联网中各类实时性敏感应用。

    一种基于多智能体强化学习的无人机网络协同快跳频方法

    公开(公告)号:CN113572548A

    公开(公告)日:2021-10-29

    申请号:CN202110680187.4

    申请日:2021-06-18

    Abstract: 本发明公开了一种基于多智能体强化学习的无人机网络协同快跳频方法,具体为:输入无人机网络环境,每对无人机初始化自身Q表以及最优先验动作分布估计、互信息惩罚项系数和动作状态对出现次数;在当前时隙中,每对无人机根据上一时隙生成的动作选择传输信道,传输完成后得到环境反馈的奖励;每对无人机观测环境的当前状态,再与其它无人机对交互当前状态下各个动作的Q值得到全局Q值,根据互信息正则化soft Q‑learning算法中的行为策略生成动作;每对无人机更新自身Q表以及各个参量;当达到训练回合的最大步数时,重新输入无人机网络环境开始下一回合。本发明实现了所有无人机对的总吞吐量性能的提升,为无人机网络提供了通信保障。

Patent Agency Ranking