JIA Q S, TANG J X, WU J J, et al. Reinforcement learning for green and reliable data center[J].Chinese Journal of Intelligent Science and Technology, 2020, 2(4): 341-347.
1.引言
数据中心已经成为现代社会的基础设施之一,它不仅承载大量的互联网应用,而且伴随着物联网技术的普及、5G 商用、边缘计算走进生活,当今大型数据中心的计算能力、信息处理能力、网络通信能力等已经成为国家核心竞争力的标志之一。2020 年年初开始的新型冠状病毒肺炎疫情深刻改变了人们生活、学习、工作的方式,线上购物、在线教学、远程办公成为重要趋势。数据中心作为承载线上教学、居家办公新模式的核心基础设施,已经获得世界各国的高度重视。数据中心已被列入我国2020年发布的“新基建”重点领域之一。 数据中心在过去10年间高速发展,与此同时,其运行能耗也与日俱增。据预测,到 2030 年,电信系统年用电量将占全球年用电总量的20%以上,其中数据中心的运行能耗将达到3 000 TWh,占全球年用电总量的8%。因而,研究数据中心的运行节能具有重要的社会意义和经济价值。 世界上拥有大型数据中心的知名公司,如国外的谷歌、亚马逊、脸书等,国内的阿里、腾讯、华为、百度等,均高度重视数据中心的运行能效。2016年,谷歌公司的DeepMind团队与数据中心部门合作,显著降低了数据中心的电源使用效率(power usage effectiveness,PUE)。2020年,谷歌大型数据中心的平均PUE为1.11,个别数据中心的PUE甚至可以达到1.06。然而,目前全球数据中心的平均PUE为1.8,我国为1.67。因而,数据中心的运行节能具有巨大潜力。 数据中心的运行节能面临多方面挑战。第一,高维信息。现代数据中心一般部署了大量传感器,传感器定期监测数据中心机柜的温度场分布、制冷系统的冷冻水水温与水流量等信息,并汇聚到大数据运行平台。高维海量数据中的信息方差小,为决策优化带来了挑战。第二,耦合动态过程。大型数据中心一般由多栋建筑物构成,建筑面积达到上万平方米,甚至更大。数据中心的发展呈现出模块化趋势,在每个模块化数据中心(modularized data center,MDC)内,由冷热通道将机柜群分隔,机柜整齐排列在通道两侧。冷热通道之间的空气流动相对独立,各机柜内的温度场分布受服务器所承载的计算任务影响,动态变化,关联耦合。这一复杂的动态过程虽有机理模型,但是精细的性能评价仍需基于仿真模拟甚至物理实验。制冷系统的循环过程也需仿真模拟方可评价控制策略的性能,这导致对策略性能的评价非常耗费时间。第三,计算业务的需求随机波动。数据中心支撑的计算任务种类丰富、差异明显,计算业务的需求量具有明显的随机波动性,难以精准预测。因而对制冷系统的控制策略和对计算作业的调度策略的性能评价,一般需要多次仿真、多次实验取均值才能获得较为精确的评价。这使得策略性能评价耗费了大量的时间与代价。如何在上述挑战下实现数据中心的运行节能是一项重大挑战。 作为基础设施,数据中心运行的稳定性与可靠性至关重要。为保障电源供应的稳定,数据中心一般配有备用发电机(柴油发电机、氢能源发电机等)及不间断电源(uninterruptible power supply,UPS)。UPS的核心构件是电池。数据中心一般建有针对电池工作状况的在线监测系统,将工作电压、温度等数据回传至大数据平台。虽然有许多针对电池寿命预测的机理模型与实验研究,但是现有方法一般需要通过充放电才可以获得较为详细的内部电化学反应数据。而数据中心UPS的电池一般处于浮充状态,很少处于放电状态。这导致电池监测数据中鲜有适用于经典分析方法的数据。如何将专家知识与监测数据相结合,提升对电池潜在故障的预测精度,更准确地进行电池的预防性维护与更换,是一项重大的科学挑战,具有重要的实际意义。
2.数据中心的仿真优化方法综述
数据中心的绿色可靠运行有较多的相关研究工作。本节简要阐述与本文关系最密切的内容。 近年来,数据中心呈现出聚集化效应。大型数据中心的PUE低于中小型数据中心。鉴于小型数据中心提升能效的潜力有限,越来越多的大型数据服务公司将其数据中心整合在一起。目前在全球数据中心的能耗中,大型数据中心的能耗占比已经超过1/4且在不断增加。为了提升数据中心的能效水平,可以在数据中心周边建设新能源发电厂(如太阳能、风能等),也可在电力市场购买新能源发电量,从而降低对常规电力的消耗。谷歌、脸书、亚马逊等公司先后宣布了可持续发展的路线图,计划逐步实现自有数据中心用新能源供电。2017年,谷歌实现了自有大型数据中心的 100%新能源供电,更在2020 年 9 月宣布实现了自有数据中心历史上所有碳排放的零中和(即自有数据中心历史耗电总碳排放已经通过植树、碳交易等方式中和)。可以预见,数据中心的碳中和的可持续发展模式是一种趋势。 数据中心的能耗与设计、选址、选型关系密切,因此利用海水、湖泊、极地、高寒等自然冷源是重要手段。比起个案的特殊设计,推进数据中心的标准化是更重要的工作,更易被大量采用,有利于提升众多数据中心的平均能效。模块化数据中心(如图1 所示)在这一发展中起到了重要作用,通过标准化接口设计、制冷、配电、UPS、封闭式机柜等模块,数据中心的布设成本与周期大大降低。腾讯的T-block系列产品是其中的代表之一。 与设计优化相比,数据中心的运行节能是本文更加关注的内容。数据中心的内部温度场分布、制冷系统的构成包括众多原件,虽然有理论上的机理模型,但是一般需要仿真模型进行更细致的刻画。常见的仿真软件包括 6SigmaDC、FLUENT、TileFlow、FloVENT、FloTHERM和EnergyPlus等,这些计算流体动力学(computational fluid dynamics,CFD)商用软件常用于对数据中心气流分布的仿真与计算和热管理。 强化学习是解决策略优化问题的一种重要方法,特别适用于机理模型复杂或未知的系统,但是存在需要大量且丰富的观测数据的问题。利用上述CFD仿真软件,已经有学者基于强化学习方法对数据中心的运行节能进行研究。Li Y L等人基于深度确定性策略梯度 (deep deterministic policy gradient,DDPG)和行动-评价(actor-critic)框架,提出了一种端到端的制冷控制算法,该算法包含5个动作(action):直接蒸发冷却出口温度、间接蒸发冷却出口温度、冷却水回路出口温度、直接膨胀式冷却盘管出口温度、冷却器冷却空气回路出口温度;两个状态量(state):环境空气温度、信息技术(information technology,IT)设备负荷系数;一个奖励函数:基于PUE和各温度数据计算得到的目标函数值。EnergyPlus平台的仿真结果表明,该方法可达到较低的PUE,与手动设定数据中心温度的基准控制方法相比,可节省约11%的冷却量。但这种方法是完全由数据驱动的,它的控制决策依赖于清洁的数据,在大型数据中心中,如何保证数据的清洁度是需要认真考虑的问题。Ran Y Y等人基于深度Q网络(deep Q-network,DQN)提出了一种参数化动作空间的方法,解决了离散(IT 设备)-连续(冷却装置)混合的动作空间问题,联合优化了 IT 系统的作业调度和冷却系统的风量调节。该方法使用了 6 个状态量,涉及 IT 系统与热管理,具体包括:可用CPU数、CPU利用率、能量消耗、机架的两个入口温度和一个出口温度;两个动作:精密冷却单元的通风量、任务调度行为;奖励函数:基于 PUE 和惩罚项计算得到的目标函数值。6SigmaDC 软件的仿真结果表明,该算法可以节省10%~15%的能量,并且可以在节能和保证服务质量之间实现更好的权衡。Yi D L等人提出了基于深度Q网络的数据中心作业调度方法,使得数据中心在达到同样作业吞吐量的同时减小能源消耗。上述基于强化学习方法的数据中心均取得了一定的能源降耗成果,但在实际使用过程中还存在以下问题:第一,若数据中心规模较大、结构较复杂,则原始数据可能含有较大噪声、缺失、异常值,数据清洗必须做到非常精细;第二,在训练阶段及强化学习算法收敛前,为了充分探索状态-动作空间,可能会尝试激进的动作,这些动作可能会导致严重偏离最佳状态和服务器过热等问题;第三,IT系统往往在几秒甚至几微秒内做出响应,而冷却系统(机械设备)可能在几分钟内做出响应,这种反应时间的不匹配可能会导致不必要的波动等。 数据中心 UPS 的电池主要采用阀控式密封铅酸(valve-regulated lead acid,VRLA)蓄电池。在实际使用过程中,电池的寿命受板栅材料、运维状态、外部环境等多重因素的影响。常规的电池维护手段包括人工定期检测和故障维修。估计电池的剩余寿命一般需要通过深度充放电实验实现,而数据中心UPS的电池长期处于浮充状态,完整的放电过程数据较少,这为电池维护带来了挑战。
问题P1对应的马氏决策过程面临高维状态向量的挑战。为了克服大状态空间的困难,可以定义事件并进行状态集结,采用事件驱动的强化学习方法。 事件驱动的强化学习方法适用于基于仿真的策略优化问题,特别是状态空间大、性能评价需要通过仿真进行以及随机的动态变化过程等难点。事件驱动的强化学习方法在能源互联网中的应用可参见参考文献。下面仅简述其关键思想。 事件 e ∈E 在数学上表示一组状态转移对构成的集合,即:
其中,s与s’表示任意两个状态,S表示状态空间, E表示事件构成的集合。事件驱动的优化关注如何由事件 e 驱动进行决策。可以定义策略 d 的事件-行为的Q-因子: 其中,表示事件e的输入状态构成的集合,表示策略 d 下出现事件 e时系统的真实状态为 i 的概率,r(i,a)表示在状态 i和行为a下的收益,表示事件e的输出状态构成的集合,表示系统在状态i下出现事件e时采取行为a且最终转移到状态j的概率,gdK(j)表示状态j在策略d下未来K阶段的势函数,即:
然后决定k时刻的行为:
这便是事件驱动的Q学习的基本思想。该方法的性能受事件的定义影响较大。事件优选本身等价于状态转移对的着色问题,寻求最优事件定义一般而言并非易事,应结合具体的问题结构,选择恰当的状态转移对聚类方式。另外,给定事件定义后,可以与现有的其他强化学习算法相结合,比如深度Q网络、深度确定性策略梯度、信任域策略优化(trust region policy optimization,TRPO)、actor-critic等。
第二步,数据标注,即对数据集添加标签。由于N通常是上百万量级,手动标注并不现实,因此,笔者提出了一种计算机辅助的标注方法。该方法的核心思想是通过变点检测算法,确定电池性能衰退事件发生的时间区间,只需对该区间内收集的数据进行基于专家知识的手动标注,其余数据可由计算机自动标注,大幅减小了工作量。 第三步,特征构造。寻找预测函数f的过程本质上是在所张成的向量空间中找到一个分类超平面。一般而言,只包含电压、电流、内阻三维,相对于百万量级的样本量来说,空间维度过低,找到分类超平面的难度极大。因此需要首先设计映射函数H: R3→RD(D>3),将样本点从三维空间映射至 D 维空间。函数 H 的设计思路以专家经验为主,综合考虑电池组内特征(如组内电压和电阻的均衡性)和离散度、时间序列特征(如电压和电阻的变化率及组合特征)。 第四步,样本平衡,模型训练。电池故障在数据中心属于罕见事件,因此收集的数据必然极为不平衡。以这样的数据集拟合出的映射函数f可能会通过牺牲在少数故障样本上的精度来换取整体精度的上升,因此对非故障样本的降采样很有必要。得到样本平衡的数据集后拟合分类函数,常用的神经网络模型和决策树模型都可以用作分类模型。