一种基于强化学习的5G物联网系统多用户调度方法与系统

    公开(公告)号:CN114867123A

    公开(公告)日:2022-08-05

    申请号:CN202210420438.X

    申请日:2022-04-21

    IPC分类号: H04W72/12

    摘要: 一种基于强化学习的5G物联网多用户调度方法,包括如下步骤:根据通信场景模型,计算集合中每个用户的实际可达速率;根据每个用户的实际可达速率,生成初始调度用户集合;根据每个用户的实际可达速率以及每个用户被调用的次数,通过Q‑learning方法,评价当前调度周期下每个用户的动作价值估计值;确定每个用户的动作价值的置信区间上界值;根据每个用户的动作价值的置信区间上界值,确定当前调度周期下的调度用户集合;根据当前调度周期下的调度用户集合,再次计算当前调度周期下每个已选用户的实际可达速率。利用本发明算法,基站可以直接选择M个最优用户,而无需尝试不同的用户组合。从而减少了计算量,同时算法收敛后的系统性能不低于现有方法。