-
公开(公告)号:CN118625661A
公开(公告)日:2024-09-10
申请号:CN202410656749.5
申请日:2024-05-24
Applicant: 清华大学 , 中讯邮电咨询设计院有限公司
Abstract: 本说明书涉及数据中心技术领域,提供了一种基于强化学习的数据中心机房的控制方法及装置。所述方法包括:根据数据中心模拟机房中的每一空调单元的状态,及空调单元的临近设备的状态,为每一空调单元建立状态转换模型;将数据中心模拟机房中所有空调单元的状态转移模型,组合构建代理模型;根据代理模型的状态数据及强化学习算法,训练得到一个基础策略;将基础策略部署至各空调单元,分别使用与各空调单元相关的数据对部署至空调单元的基础策略微调,记录每一空调单元的微调策略。本说明书基于代理模型进行高样本效率的强化学习训练,得到单ACU控制的基础策略;引入平衡回放技术对基础策略进行微调,提高强化学习样本效率、控制精度及性能。
-
公开(公告)号:CN119337944A
公开(公告)日:2025-01-21
申请号:CN202411362689.2
申请日:2024-09-27
Applicant: 清华大学 , 亚信科技(中国)有限公司
IPC: G06N3/0475 , G06N3/094 , G06N3/047 , G06F11/34
Abstract: 本发明提供一种大语言模型自我评价方法、装置、电子设备及存储介质,其中的方法包括:获取目标输入,目标输入包括待解答问题及其对应的回答结果;基于预先训练的大语言模型,根据目标输入,预测得到自我评价结果;其中,大语言模型基于判别器和生成器通过正样本和负样本构成的训练样本集进行训练优化得到,正样本和负样本均包括问题、答案和质量标签。该方法通过基于判别器和生成器根据正样本和负样本对大语言模型进行有监督训练,能够有效提升大语言模型的自我评价准确度,进而充分利用已有数据实现大语言模型的自我进化,提升大语言模型的推理能力和泛化能力。
-
公开(公告)号:CN116880164A
公开(公告)日:2023-10-13
申请号:CN202311149176.9
申请日:2023-09-07
Applicant: 清华大学
Abstract: 本文涉及人工智能领域,提供了一种数据中心末端空调系统运行策略确定方法及装置,方法包括:根据数据中心机房温度场的仿真模型,建立马尔可夫决策过程模型,马尔可夫决策过程模型中状态从空调系统的观测变量中选取,动作从空调系统的控制变量中选取,利用仿真模型提供状态转移函数;建立拟合状态转移过程的神经网络替代模型,神经网络替代模型的输入为t时刻的状态与动作,输出为t+1时刻的状态;将神经网络替代模型作为学习环境,在马尔可夫决策过程模型的基础上,应用强化学习算法,在学习环境中训练得到数据中心末端空调系统运行策略。本文能够提高强化学习的训练效率。
-
公开(公告)号:CN116880164B
公开(公告)日:2023-11-14
申请号:CN202311149176.9
申请日:2023-09-07
Applicant: 清华大学
Abstract: 本文涉及人工智能领域,提供了一种数据中心末端空调系统运行策略确定方法及装置,方法包括:根据数据中心机房温度场的仿真模型,建立马尔可夫决策过程模型,马尔可夫决策过程模型中状态从空调系统的观测变量中选取,动作从空调系统的控制变量中选取,利用仿真模型提供状态转移函数;建立拟合状态转移过程的神经网络替代模型,神经网络替代模型的输入为t时刻的状态与动作,输出为t+1时刻的状态;将神经网络替代模型作为学习环境,在马尔可夫决策过程模型的基础上,应用强化学习算法,在学习环境中训练得到数据中心末端空调系统运行策略。本文能够提高强化学习的训练效率。
-
公开(公告)号:CN115983438A
公开(公告)日:2023-04-18
申请号:CN202211571284.0
申请日:2022-12-08
Applicant: 清华大学
IPC: G06Q10/04 , G06Q10/0631 , G06Q50/06
Abstract: 本发明公开了一种数据中心末端空调系统运行策略确定方法及装置,该方法包括:搭建数据中心机房的温度场分布模型;构建数据中心末端空调系统运行策略的马尔可夫决策过程模型;在温度场分布模型中,使用强化学习算法,分别基于不同的策略函数、不同参数的马尔可夫决策过程模型进行训练,生成多种数据中心末端空调系统的运行策略,构建策略库;依据序优化方法,在温度场分布模型中对策略库中每个运行策略的性能进行评估,从策略库中确定挑选集合;将挑选集合中的各个运行策略分别应用于数据中心机房的真实运行环境中,确定挑选集合中的最优运行策略。本发明可以准确地确定数据中心末端空调系统的最优运行策略。
-
公开(公告)号:CN114330852B
公开(公告)日:2022-09-23
申请号:CN202111573336.3
申请日:2021-12-21
Applicant: 清华大学
Abstract: 本发明公开了一种一体化数据中心柜末端空调系统节能优化方法及装置,该方法包括:确定一体化数据中心柜末端空调系统的马尔可夫决策过程模型;构建一体化数据中心柜仿真环境;在所述仿真环境中,基于马尔可夫决策过程模型,对基于价值的函数逼近型差分强化学习算法进行训练,输出训练好的动作价值函数,在训练过程中通过不断更新时序差分误差、平均收益估计值,实现对动作价值函数的参数的更新;基于训练好的动作价值函数,实时获取当前时刻最大动作价值函数值对应的动作;获得当前时刻最大动作价值函数值对应的动作对应的空调压缩机的开关状态。本发明可以对一体化数据中心柜末端空调系统进行节能优化,效果好,实施难度小。
-
公开(公告)号:CN117313548A
公开(公告)日:2023-12-29
申请号:CN202311458840.8
申请日:2023-11-03
Applicant: 清华大学
IPC: G06F30/27
Abstract: 本说明书涉及数据中心技术领域,提供了一种基于数字镜像的数据中心运行调试方法及装置。该方法包括:获取目标数据中心的物理场景信息;根据所述物理场景信息确定目标数据中心的元模型;利用元模型的运行状况数据训练所述元模型;根据训练后的元模型和所述物理场景信息建立数据中心镜像模型;根据所述数据中心镜像模型对目标数据中心进行运行调试。通过本说明书实施例,可实现模型精度、模型速度、训练数据成本间的有效平衡。
-
公开(公告)号:CN115952737A
公开(公告)日:2023-04-11
申请号:CN202310006010.5
申请日:2023-01-04
Applicant: 清华大学
IPC: G06F30/27 , G06N3/045 , G06N3/092 , G06F119/08 , G06F119/06
Abstract: 本发明公开了一种数据中心运行仿真的优化方法及装置,其中该方法包括:构建数据中心仿真模型;获取数据中心的状态数据集和动作数据集,将状态数据集和动作数据集输入第一状态预测模型,得到第一状态预测模型预测的下一状态数据集;判断下一状态数据集是否满足状态安全判定条件;若满足,将状态数据集和动作数据集输入第二状态预测模型,得到第二状态预测模型预测的下一状态数据集;利用状态数据集、动作数据集和第二状态预测模型预测的下一状态数据集对强化学习算法的网络参数进行优化;利用训练好的强化学习算法确定数据中心的实时状态数据集对应的动作数据集。本发明在数据中心运行仿真时,在确保找出最优控制策略的同时,减少计算资源的消耗。
-
公开(公告)号:CN114330852A
公开(公告)日:2022-04-12
申请号:CN202111573336.3
申请日:2021-12-21
Applicant: 清华大学
Abstract: 本发明公开了一种一体化数据中心柜末端空调系统节能优化方法及装置,该方法包括:确定一体化数据中心柜末端空调系统的马尔可夫决策过程模型;构建一体化数据中心柜仿真环境;在所述仿真环境中,基于马尔可夫决策过程模型,对基于价值的函数逼近型差分强化学习算法进行训练,输出训练好的动作价值函数,在训练过程中通过不断更新时序差分误差、平均收益估计值,实现对动作价值函数的参数的更新;基于训练好的动作价值函数,实时获取当前时刻最大动作价值函数值对应的动作;获得当前时刻最大动作价值函数值对应的动作对应的空调压缩机的开关状态。本发明可以对一体化数据中心柜末端空调系统进行节能优化,效果好,实施难度小。
-
-
-
-
-
-
-
-