算力VS能耗，数据中心如何当好“端水大师”？

几年前，每到电商大促、春晚红包等重大节点，宕机和救火几乎是从不缺席的戏份。你经常可以经历或听闻剁手时提交不了订单、无法付款的情况。然而近两年，却是另外一番景象：即便在618大促这样的流量波峰，大多数电商平台都顶住了高并发压力，平稳渡过年中狂欢，除了大促时间从一个日子延长到一段日子外，算力的迅猛增长也是其中一个重要原因。

可以看到，算力正进入“基建化”时代。正如中国信通院在一份研究报告中所揭示的：2016年到2020年期间，中国的算力规模平均每年增长42%，其中2020年的算力总规模已经达到135EFlops，并仍在保持55%的高速增长速度。

不过，算力高速增长的同时，也带来了新的问题。

计算与散热的“零和博弈”

对不少人来说，“计算”早已不是什么新概念。每一次打开“绿码”，每一次视频会议，每一次搜索点击……都离不开数据中心的处理计算。“计算”在日常生活中的无缝渗透，勾勒出多彩的数字世界。

可当计算量越来越大，功耗也随之上升。以全球最为知名的预训练大模型「GPT-3」为例，GPT-3每次训练都要消耗巨量算力，需用掉约19万度电力、产生85万吨二氧化碳，可谓“耗电怪兽”。

倘若这些电力用在“计算”本身，或许不是什么坏消息。毕竟数字经济时代有个著名的经济学解释，即算力上每投入一元，将带动3-4元的经济产出，“性价比”远高于传统的农牧业和工业生产。

然而现实的情况却并不乐观。根据开源证券研究所的统计结果，在一个数据中心的能耗分布中，散热系统的占比高达40%。也就是说，数据中心每耗费一度电，只有一半用在了“计算”上，其他的则浪费在了散热、照明等方面。

计算和散热几乎陷入了一场零和博弈，计算量越大散热消耗的电量越大，可是如果不付出足够的能源支撑散热，又将直接影响数据中心的性能、密度和可靠性。

业内也由此流行起了「PUE」的概念，即电源使用效率，用来测算数据中心消耗的所有能源与IT负载消耗的能源的比值，被视为评价数据中心能源效率的重要指标。PUE值越接近1，表明非IT设备的耗能越少，数据中心的能效水平越高。目前国内大型数据中心的平均PUE值为1.55，超大型数据中心平均PUE值也只有1.46。

2020年国内数据中心用电量已超过2000亿千瓦时，占到用电总量的2.7%，预计2023年数据中心的能耗就将超过2500亿千瓦时，2030年时将超过4000亿千瓦时，用电量占比也将上升到3.7%。就这个角度而言，解决数据中心的能耗问题，已经是摆在案前的棘手挑战。

被捧上神坛的“液冷”技术

传统的数据中心散热方案以「风冷」为主，以空气作为冷媒，把服务器主板、CPU等散发出的热量传递给散热器模块，再利用风扇或空调制冷等方式将热量吹走，这也是散热系统消耗数据中心近半电力的主要诱因。

当PUE值被严格限定，绿色计算渐渐深入人心，上世纪80年代就开始尝试的“液冷”技术迅速成为产业上下游的新焦点。其实“液冷”技术的原理并不复杂，简单来说就是利用矿物油、氟化液等绝缘低沸点的冷却液作为冷媒，通过热交换将服务器的热量排出，并演变出了冷板式、喷淋式、浸没式等多种散热方案。

液冷看似只是“冷媒”的改变，却为数据中心的节能降耗带来了诸多可能：

比如风冷热传导存在过程复杂、热阻总和大、换热效率较低等痛点，很大程度上制约了数据中心的算力密度，并且常常会产生巨大噪音。对比之下，液冷技术所呈现出的节能降耗、减少噪声、节约空间的特性，不可谓不诱人。

一个直接的例子就是「普渡大学的Bell集群」，这里10个机架的戴尔「PowerEdge C6525」服务器直接浸没在冷却液中，运行时产生的热量直接被冷却液吸收，PUE最低可以降到1.05左右，散热所需的功耗比传统方案降低了90%以上。

再比如风冷想要提高散热能力，最“简单粗暴”的做法就是提高风扇转速，然而这种做法把热量带出去的同时，也会在风扇和硬盘间形成大漩涡，而这不规则的湍流可能会影响硬盘的读写能力，甚至会因为磁头震动导致硬盘报废。

液冷技术近乎完美地规避了这些不利因素，由于液冷方案是一个相对静止的环境，可以有效降低由空气、灰尘和震动引起的硬件产品故障率，且数据中心始终在低温环境中运行，因此极大提升了内部电子元器件的使用寿命。

可以看到，液冷技术的出现和应用，在很大程度上让计算和散热跳出了“囚徒困境”，对风冷降维打击的综合优势，也让液冷技术被不少人捧上神坛。

然而和很多新技术一样，液冷方案同样存在天然短板：冷却液的价格堪比茅台，无形中增加了散热的硬性成本；液冷技术对数据中心的机房环境要求苛刻，重新改造的成本较高；液冷技术降低了PUE，运营成本却难言优势……

纵然液冷是各种散热方案中的无可争议的翘楚，却也要考虑现实因素。

戴尔科技给出最优解

今年年初，国家发改委等部委启动“东数西算”工程，将东部的算力需求转移到西部，除了东西部电力资源的不平衡的考虑之外，另一个重要的因素就是利用自然冷源。

有机构曾经估算，在现有的散热方案下，按照工业平均电价每千瓦时0.5元来计算，数据中心所在地的气温每降低1℃，配备10万台服务器的标准数据中心机房每天就可节约9.6万元电费。

这无疑向外界传递了一个清晰的信号：液冷价格居高不下，不可能在短时间内彻底取代风冷，现阶段需要的仍然是多元化的散热方案。挑战其实留给了大大小小的IT厂商：到底是All in 理想化的液冷，还是根植市场的现实诉求，推出多样性的解决方案？

在服务器市场牢牢占据一席之地的戴尔科技，已经给出了自己的答案。

在外界普遍将风冷打入“冷宫”的时候，戴尔并未放弃「风冷散热」的技术创新，一边利用最佳的计算流体动力学CFD气流模拟技术来优化系统设计，一边推出了将数据中心的温暖废气循环到主空气调节的新风(Fresh Air)系统，结合最新的空气输送解决方案和先进的软件控制算法，刷新了风冷能耗的“成绩单”。

比如新一代戴尔PowerEdge系列产品R750，通过合理的散热布局减少过多气流，让服务器的散热能效比前代产品提高了60%，大大降低了工作流程中的能源消耗，同时避免了因过热导致服务器宕机、业务中断的尴尬。

戴尔PowerEdge R750服务器

戴尔PowerEdge R750采用英特尔®第三代Xeon®可扩展处理器，最高40核心/80线程，并在核心、缓存

以及内存和I/O方面进行了大量优化，释放数据中心可扩展性能的巨大潜能。

哪怕是“传统”的风冷散热，戴尔的Fresh Air硬件冷却解决方案也让外界看到了新可能：在冬季为建筑设施提供“免费”的热量，在温暖月份直接将外部空气吸入数据中心，通过减少运行冷水机时间等方式，进一步降低了服务器的运营管理成本，PUE值同样有机会降低到1.05的水平。

对于CPU功率超过150w的需求，戴尔科技针对不同的场景提供了冷板式和浸没式两种液冷技术：

前者对应的例子有「Triton液体冷却系统」，将冷却液直接放入服务器sled冷却CPU，不仅带来了最高的冷却效率，还降低了冷却液的用量；「PowerEdge C6520」则是浸没式技术的典型代表，以闭环水流取代典型的金属散热器，使服务器能够同时支持高功率处理器和更高的机架密度。

戴尔科技的答案并不复杂，不同于对某种技术的过度依赖，戴尔科技的策略是针对客户需求提供不同散热方案，再通过统一能耗管理软件「OpenManage Power Center」提高客户对服务器功耗的可见性和控制性，继而帮助客户低成本、自动化、智能化地应对各种能耗事件，找到适合自己的最优解。

根据赛迪顾问的预测，2025年中国浸没式液冷数据中心的市场规模将超过526亿元，市场份额有望突破40%。

站在行业角度，液冷散热的高速普及不失为一个好消息。可对于数据中心运营者来说，绿色计算是一件等不得的要务，存量的数据中心需要提高散热能力，找到性能和散热间的新平衡；对于一些追求“性价比”的用户，降低PUE的渠道不应只有液冷散热一种，而需要适合自己的产品和方案。

因此，戴尔科技深入市场需求，为不同用户提供多样化散热解决方案应对能耗焦虑，让您的数据中心运营更安心。

上一篇：第五代存储持续创新，英特尔携手戴尔助力打造未来企业
下一篇：欲善其事，先利其器 — 戴尔服务器管理三大工具解析

塔式服务器

机架式服务器

模块化基础架构

工业级服务器

专业服务器

查看产品及报价>>

塔式工作站

移动工作站

机架式工作站

查看产品及报价>>

主存储

非结构化数据存储

查看产品及报价>>

成都强川科技有限公司

联系我们

在线咨询

电话咨询