基于深度强化学习的实时分布式无线网络调度方法和系统

    公开(公告)号:CN114173418B

    公开(公告)日:2025-04-04

    申请号:CN202111327838.8

    申请日:2021-11-10

    Abstract: 本发明提出一种基于深度强化学习的实时分布式无线网络调度方法和系统,包括:获取由多个接入点和用户节点组成的无线网络;在测试阶段的每个时隙,接入点根据部分数据流对应的发送队列信息,得到各数据流的状态,同时获取之前对无线信道的历史观测信息将数据流的状态和历史观测信息输入至决策模型,接入点执行决策模型输出结果对应的调度决策;在训练阶段,网络中存在的全局决策模型获取所有数据流的状态信息,并给出每个接入点的最优决策动作,接入点执行专家网络给出的最优决策动作,同时将部分数据流的状态,信道的历史观测信息,最优调度决策动作作为交互信息存储至各自的经验回放池中,从各自的经验回放池中抽取经验,训练更新当前决策模型。

    基于深度强化学习的实时分布式无线网络调度方法和系统

    公开(公告)号:CN114173418A

    公开(公告)日:2022-03-11

    申请号:CN202111327838.8

    申请日:2021-11-10

    Abstract: 本发明提出一种基于深度强化学习的实时分布式无线网络调度方法和系统,包括:获取由多个接入点和用户节点组成的无线网络;在测试阶段的每个时隙,接入点根据部分数据流对应的发送队列信息,得到各数据流的状态,同时获取之前对无线信道的历史观测信息将数据流的状态和历史观测信息输入至决策模型,接入点执行决策模型输出结果对应的调度决策;在训练阶段,网络中存在的全局决策模型获取所有数据流的状态信息,并给出每个接入点的最优决策动作,接入点执行专家网络给出的最优决策动作,同时将部分数据流的状态,信道的历史观测信息,最优调度决策动作作为交互信息存储至各自的经验回放池中,从各自的经验回放池中抽取经验,训练更新当前决策模型。

    一种基于深度强化学习的无线网络分布式实时调度方法

    公开(公告)号:CN117336875A

    公开(公告)日:2024-01-02

    申请号:CN202311356766.9

    申请日:2023-10-19

    Abstract: 本发明提供了一种基于深度强化学习的无线网络分布式实时调度方法,无线网络包括预定范围内的多个节点,节点为接入点或者移动用户节点,方法包括:在每个节点中分别执行预设的分布式调度协议,基于所述协议为本节点的每条数据流建立一个调度组件以调度发送数据的数据流,其中,每个数据流的调度组件被配置为:为该数据流维护用于描述其流量特征的流量模型,并将最新的流量模型广播给无线网络中的各数据流的调度组件;监测每个时隙中该数据流对应的状态集合和历史观测信息;为该数据流部署专属的强化学习模型,其用于根据该数据流在当前时隙对应的状态集合和历史观测信息预测动作;和至少基于所述强化学习模型预测的动作确定当前时隙的实际动作。

    基于深度强化学习的实时集中式无线网络调度方法和设备

    公开(公告)号:CN114189937A

    公开(公告)日:2022-03-15

    申请号:CN202111327752.5

    申请日:2021-11-10

    Abstract: 本发明提出一种基于深度强化学习的实时集中式无线网络调度方法和系统,包括:获取由一个接入点和多个用户节点互连组成的无线网络,在每个时隙,接入点根据所有数据流对应的发送队列信息,得到各数据流的状态,集合所有数据流的状态构成当前时隙的环境状态,接入点获取所有数据流的流量模型与链路质量作为环境特征信息,将环境状态和环境特征信息输入至决策模型,接入点执行决策模型输出结果对应的调度决策;接入点执行调度决策后,收到网络环境的反馈;将交互信息和环境状态和环境特征信息作为经验,存储至子区域;从经验回放池中抽取经验,以训练更新当前决策模型。本发明训练时间不会随数据流数量增加而快速增长,能够快速的收敛到最优实时吞吐量。

Patent Agency Ranking