几年前,每到电商大促、春晚红包等重大节点,宕机和救火几乎是从不缺席的戏份。你经常可以经历或听闻剁手时提交不了订单、无法付款的情况。然而近两年,却是另外一番景象:即便在618大促这样的流量波峰,大多数电商平台都顶住了高并发压力,平稳渡过年中狂欢,除了大促时间从一个日子延长到一段日子外,算力的迅猛增长也是其中一个重要原因。
可以看到,算力正进入“基建化”时代。正如中国信通院在一份研究报告中所揭示的:2016年到2020年期间,中国的算力规模平均每年增长42%,其中2020年的算力总规模已经达到135EFlops,并仍在保持55%的高速增长速度。
不过,算力高速增长的同时,也带来了新的问题。
计算与散热的“零和博弈”
对不少人来说,“计算”早已不是什么新概念。每一次打开“绿码”,每一次视频会议,每一次搜索点击……都离不开数据中心的处理计算。“计算”在日常生活中的无缝渗透,勾勒出多彩的数字世界。
可当计算量越来越大,功耗也随之上升。以全球最为知名的预训练大模型「GPT-3」为例,GPT-3每次训练都要消耗巨量算力,需用掉约19万度电力、产生85万吨二氧化碳,可谓“耗电怪兽”。
倘若这些电力用在“计算”本身,或许不是什么坏消息。毕竟数字经济时代有个著名的经济学解释,即算力上每投入一元,将带动3-4元的经济产出,“性价比”远高于传统的农牧业和工业生产。
然而现实的情况却并不乐观。根据开源证券研究所的统计结果,在一个数据中心的能耗分布中,散热系统的占比高达40%。也就是说,数据中心每耗费一度电,只有一半用在了“计算”上,其他的则浪费在了散热、照明等方面。
计算和散热几乎陷入了一场零和博弈,计算量越大散热消耗的电量越大,可是如果不付出足够的能源支撑散热,又将直接影响数据中心的性能、密度和可靠性。
业内也由此流行起了「PUE」的概念,即电源使用效率,用来测算数据中心消耗的所有能源与IT负载消耗的能源的比值,被视为评价数据中心能源效率的重要指标。PUE值越接近1,表明非IT设备的耗能越少,数据中心的能效水平越高。目前国内大型数据中心的平均PUE值为1.55,超大型数据中心平均PUE值也只有1.46。
2020年国内数据中心用电量已超过2000亿千瓦时,占到用电总量的2.7%,预计2023年数据中心的能耗就将超过2500亿千瓦时,2030年时将超过4000亿千瓦时,用电量占比也将上升到3.7%。就这个角度而言,解决数据中心的能耗问题,已经是摆在案前的棘手挑战。
被捧上神坛的“液冷”技术
传统的数据中心散热方案以「风冷」为主,以空气作为冷媒,把服务器主板、CPU等散发出的热量传递给散热器模块,再利用风扇或空调制冷等方式将热量吹走,这也是散热系统消耗数据中心近半电力的主要诱因。
当PUE值被严格限定,绿色计算渐渐深入人心,上世纪80年代就开始尝试的“液冷”技术迅速成为产业上下游的新焦点。其实“液冷”技术的原理并不复杂,简单来说就是利用矿物油、氟化液等绝缘低沸点的冷却液作为冷媒,通过热交换将服务器的热量排出,并演变出了冷板式、喷淋式、浸没式等多种散热方案。
液冷看似只是“冷媒”的改变,却为数据中心的节能降耗带来了诸多可能:
比如风冷热传导存在过程复杂、热阻总和大、换热效率较低等痛点,很大程度上制约了数据中心的算力密度,并且常常会产生巨大噪音。对比之下,液冷技术所呈现出的节能降耗、减少噪声、节约空间的特性,不可谓不诱人。
一个直接的例子就是「普渡大学的Bell集群」,这里10个机架的戴尔「PowerEdge C6525」服务器直接浸没在冷却液中,运行时产生的热量直接被冷却液吸收,PUE最低可以降到1.05左右,散热所需的功耗比传统方案降低了90%以上。
再比如风冷想要提高散热能力,最“简单粗暴”的做法就是提高风扇转速,然而这种做法把热量带出去的同时,也会在风扇和硬盘间形成大漩涡,而这不规则的湍流可能会影响硬盘的读写能力,甚至会因为磁头震动导致硬盘报废。
液冷技术近乎完美地规避了这些不利因素,由于液冷方案是一个相对静止的环境,可以有效降低由空气、灰尘和震动引起的硬件产品故障率,且数据中心始终在低温环境中运行,因此极大提升了内部电子元器件的使用寿命。
可以看到,液冷技术的出现和应用,在很大程度上让计算和散热跳出了“囚徒困境”,对风冷降维打击的综合优势,也让液冷技术被不少人捧上神坛。
然而和很多新技术一样,液冷方案同样存在天然短板:冷却液的价格堪比茅台,无形中增加了散热的硬性成本;液冷技术对数据中心的机房环境要求苛刻,重新改造的成本较高;液冷技术降低了PUE,运营成本却难言优势……
纵然液冷是各种散热方案中的无可争议的翘楚,却也要考虑现实因素。
戴尔科技给出最优解
今年年初,国家发改委等部委启动“东数西算”工程,将东部的算力需求转移到西部,除了东西部电力资源的不平衡的考虑之外,另一个重要的因素就是利用自然冷源。
有机构曾经估算,在现有的散热方案下,按照工业平均电价每千瓦时0.5元来计算,数据中心所在地的气温每降低1℃,配备10万台服务器的标准数据中心机房每天就可节约9.6万元电费。
这无疑向外界传递了一个清晰的信号:液冷价格居高不下,不可能在短时间内彻底取代风冷,现阶段需要的仍然是多元化的散热方案。挑战其实留给了大大小小的IT厂商:到底是All in 理想化的液冷,还是根植市场的现实诉求,推出多样性的解决方案?
在服务器市场牢牢占据一席之地的戴尔科技,已经给出了自己的答案。
在外界普遍将风冷打入“冷宫”的时候,戴尔并未放弃「风冷散热」的技术创新,一边利用最佳的计算流体动力学CFD气流模拟技术来优化系统设计,一边推出了将数据中心的温暖废气循环到主空气调节的新风(Fresh Air)系统,结合最新的空气输送解决方案和先进的软件控制算法,刷新了风冷能耗的“成绩单”。
比如新一代戴尔PowerEdge系列产品R750,通过合理的散热布局减少过多气流,让服务器的散热能效比前代产品提高了60%,大大降低了工作流程中的能源消耗,同时避免了因过热导致服务器宕机、业务中断的尴尬。
戴尔PowerEdge R750采用英特尔®第三代Xeon®可扩展处理器,最高40核心/80线程,并在核心、缓存
以及内存和I/O方面进行了大量优化,释放数据中心可扩展性能的巨大潜能。
哪怕是“传统”的风冷散热,戴尔的Fresh Air硬件冷却解决方案也让外界看到了新可能:在冬季为建筑设施提供“免费”的热量,在温暖月份直接将外部空气吸入数据中心,通过减少运行冷水机时间等方式,进一步降低了服务器的运营管理成本,PUE值同样有机会降低到1.05的水平。
对于CPU功率超过150w的需求,戴尔科技针对不同的场景提供了冷板式和浸没式两种液冷技术:
前者对应的例子有「Triton液体冷却系统」,将冷却液直接放入服务器sled冷却CPU,不仅带来了最高的冷却效率,还降低了冷却液的用量;「PowerEdge C6520」则是浸没式技术的典型代表,以闭环水流取代典型的金属散热器,使服务器能够同时支持高功率处理器和更高的机架密度。
戴尔科技的答案并不复杂,不同于对某种技术的过度依赖,戴尔科技的策略是针对客户需求提供不同散热方案,再通过统一能耗管理软件「OpenManage Power Center」提高客户对服务器功耗的可见性和控制性,继而帮助客户低成本、自动化、智能化地应对各种能耗事件,找到适合自己的最优解。
根据赛迪顾问的预测,2025年中国浸没式液冷数据中心的市场规模将超过526亿元,市场份额有望突破40%。
站在行业角度,液冷散热的高速普及不失为一个好消息。可对于数据中心运营者来说,绿色计算是一件等不得的要务,存量的数据中心需要提高散热能力,找到性能和散热间的新平衡;对于一些追求“性价比”的用户,降低PUE的渠道不应只有液冷散热一种,而需要适合自己的产品和方案。
因此,戴尔科技深入市场需求,为不同用户提供多样化散热解决方案应对能耗焦虑,让您的数据中心运营更安心。
戴尔服务器R750,R750XS,R750XA主要有什么区别?各主要用途是什么?
也许2022全球超级计算大会上最激动人心的事情之一就是戴尔的新平台。Dell PowerEdge XE9680 终于让该公司能够为其客户提供合法的高端人工智能培训平台。在2022全球超级计算大会的一个发着蓝光的角落里,巨大的系统展示给所有人看。
戴尔正在推进其AMD EPYC服务器计划。它现在提供5个支持 Gen3 EPYC CPU 的 PowerEdge 机架型号,并且正在审查的最新 R7525 提供了令人难以置信的配置支持。
在专门针对VDI优化的2U双路平台中提供加速器卡、存储和计算能力的卓越组合,最大限度地提高应用程序性能。【企业级主流服务器,一机多用】
Dell PowerEdge T440服务器适用于:WEB、文件共享、财务ERP、数据库、虚拟化存储。利用性能、容量和I/O选项满足您的独特需求
戴尔PowerEdge T640是一款用途广泛的高性能服务器,非常适合服务器虚拟化、桌面虚拟化、ERP、CRM、HPC、数据中心等。
PowerEdge M640 是一款针对密度进行了优化的半高刀片式服务器,旨在实现高性能和高效率。它非常适合 XaaS、私有云和 HPC 应用程序。
专为Web托管和多用途应用程序而设计的入门级1U机架式服务器。流畅运行ERP软件,文件共享,财务系统,数据保护等各种应用。
Dell PowerEdge T340塔式服务器,可靠运行、轻松管理并扩展业务。适合关注协作和文件共享且配有远程办公室的成长型企业。
Dell PowerEdge T140,易于使用、安全且实用的入门级服务器,适用于成长型企业。非常适合文件和打印以及销售点应用程序。
Dell EMC PowerEdge R7515 是一款单插槽 2U 服务器,专为处理软件定义的存储、虚拟化和数据分析等工作负载而设计。【按需定制,下单享好礼】
Dell EMC PowerEdge R6525 是一款具备高性能和创新功能的双插槽 1U 服务器,可处理 HPC、VDI 和虚拟化等工作负载。【现货库存、按需定制】
Dell EMC PowerEdge R7525 双插槽 2U 机架式服务器,能够提供强劲的性能和灵活的配置。可处理高性能计算HPC、VDI 和虚拟化等工作负载。
Dell EMC PowerEdge C6525 是一款计算密集型服务器,旨在提高数据中心性能,以应对各种高性能计算 (HPC) 工作负载和应用场景。
Dell Unity XT 380 是 Dell Unity XT 混合闪存阵列系列的入口点。它专为多云部署而构建,提供简单且价格合理的统一存储,旨在提高性能和效率,并在所有数据池中实现在线数据减少,并且能够运行不需要性能和延迟的通用工作负载NVMe 架构,处理内联数据缩减,并提供不影响性能的数据服务。
使用 Dell Unity XT 480 混合闪存阵列处理各种通用工作负载。这个统一的存储平台平衡了闪存的性能和磁盘的经济性,能够同时运行不需要 NVMe 架构的性能和延迟的混合应用程序工作负载,处理内联数据减少,并提供不影响性能的数据服务。
使用 Dell Unity XT 680 混合闪存阵列覆盖广泛的通用工作负载。该统一存储平台专为多云部署而构建,平衡了闪存的性能和磁盘的经济性,能够同时运行不需要 NVMe 架构的性能和延迟的混合应用程序工作负载,处理内联数据减少,并提供对性能没有影响的数据服务。
Dell Unity XT 880 混合闪存阵列平衡了闪存的性能与磁盘的经济性,能够同时运行不需要 NVMe 架构的性能和延迟的通用用途,处理内联数据减少,并提供无性能的数据服务影响。