-
公开(公告)号:CN115717758A
公开(公告)日:2023-02-28
申请号:CN202211378174.2
申请日:2022-11-04
Applicant: 北京邮电大学 , 北京鹏通高科科技有限公司
IPC: F24F11/58 , F24F11/64 , F24F11/74 , F24F11/54 , F24F11/89 , F24F110/10 , F24F110/20
Abstract: 本发明提供一种室内空间温度和湿度调控方法及系统,以温湿度状态参数作为状态空间,以恒温恒湿机出风口风速档位作为动作空间,通过在源空间训练预训练得到源域深度强化学习模型;在目标空间中,每个执行器与其周边设定范围内的温湿度传感器构成局部控制组件,每个局部控制组件由独立的目标域智能体控制,每个目标智能体分别迁移学习源域深度强化学习模型进行参数微调和控制,以目标空间所有温湿度传感器采集的温度值和湿度值共同计算目标空间观测奖励值,以最大化未来多步目标空间观测奖励值为目标分别对各目标域智能体的源域深度强化学习模型进行训练,以快速适应对目标空间环境对温湿度的实现精准控制。
-
公开(公告)号:CN115996475B
公开(公告)日:2025-04-22
申请号:CN202211487474.4
申请日:2022-11-25
Applicant: 北京邮电大学
IPC: H04W72/541 , H04W72/53 , G06N3/092 , G06N20/00
Abstract: 本发明提供一种超密集组网多业务切片资源分配方法及装置,包括:获取多智能体强化学习模型,该模型在各微基站上部署策略网络和价值网络,预先求解发射功率均衡解,策略网络以微基站传输速率和发射功率作为状态参数,以各微基站关联参数集合和预测的其他微基站发射功率集合作为动作参数;每个微基站获取自身状态参数,生成相应动作策略,价值网络根据全局信息对相应微基站生成的动作策略计算预估Q值,用于策略网络参数的更新;以最大化奖励值为目标构建预估Q值和实际Q值的损失函数,对价值网络进行参数更新,直至模型到达预设性能要求;将各微基站自身状态参数输入训练好的多智能体强化学习模型,生成相应动作策略,以实现多业务切片资源分配。
-
公开(公告)号:CN116367172A
公开(公告)日:2023-06-30
申请号:CN202111614491.5
申请日:2021-12-27
Applicant: 北京邮电大学
IPC: H04W16/14 , H04W72/0453 , H04W72/044 , H04W72/541
Abstract: 本发明提供一种认知无线网络中多业务切片资源分配方法及装置,所述方法包括:建立运营商在许可频段的收益函数以及在非许可频段的收益函数,并确定所述运营商的总收益函数;建立用户在许可频段的收益函数以及在非许可频段的收益函数,并基于用户在许可频段的收益函数以及在非许可频段的收益函数确定用户的总收益函数;根据运营商的总收益函数和所述用户的总收益函数计算所述运营商在许可频段内分配的某类业务的单位频谱切片的价格、在非许可频段内用户向运营商支付的干扰价格、用户购买的所述运营商的支持所述某类业务的频谱需求比例以及所述用户在非许可频段上分配的发射功率所对应的纳什均衡解;将各纳什均衡解作为最优的资源分配策略。
-
公开(公告)号:CN115996475A
公开(公告)日:2023-04-21
申请号:CN202211487474.4
申请日:2022-11-25
Applicant: 北京邮电大学
IPC: H04W72/541 , H04W72/53 , G06N3/092 , G06N20/00
Abstract: 本发明提供一种超密集组网多业务切片资源分配方法及装置,包括:获取多智能体强化学习模型,该模型在各微基站上部署策略网络和价值网络,预先求解发射功率均衡解,策略网络以微基站传输速率和发射功率作为状态参数,以各微基站关联参数集合和预测的其他微基站发射功率集合作为动作参数;每个微基站获取自身状态参数,生成相应动作策略,价值网络根据全局信息对相应微基站生成的动作策略计算预估Q值,用于策略网络参数的更新;以最大化奖励值为目标构建预估Q值和实际Q值的损失函数,对价值网络进行参数更新,直至模型到达预设性能要求;将各微基站自身状态参数输入训练好的多智能体强化学习模型,生成相应动作策略,以实现多业务切片资源分配。
-
-
-