正如黄仁勋喜欢说的那样,摩尔定律已死——在本月的英伟达 GTC 大会上,这位 GPU 巨头的首席执行官透露了计算扩展法则究竟有多么不再适用。
站在舞台上,黄仁勋不仅展示了芯片设计公司的下一代 Blackwell Ultra 处理器,还透露了关于未来两代加速计算平台的惊人细节,包括一个配备 576 个 GPU 的 600kW 机架规模系统。我们还了解到,一个计划于 2028 年推出的 GPU 家族将以理查德·费曼命名。你肯定是在开玩笑吧!
芯片制造商偶尔会透露他们的路线图,这并不罕见,但我们通常不会一次性获得这么多信息。这是因为英伟达遇到了不止一个,而是多个障碍。更糟糕的是,除了投入资金解决问题之外,这些问题大多不在英伟达的控制范围内。
对于那些关注这一领域的人来说,这些挑战并不令人意外。分布式计算一直是一场瓶颈打地鼠的游戏,而 AI 可能正是终极的地鼠狩猎。
从这里开始,所有的一切都在向上和向外扩展
这些挑战中最明显的一个围绕着计算扩展。
近年来,工艺技术的进步几乎停滞不前。虽然仍有一些调整空间,但它们变得越来越难以推动。
面对这些限制,英伟达的策略很简单:尽可能扩大每个计算节点中的硅含量。如今,英伟达最密集的系统,或实际上是机架,通过其高速 1.8TB/s NVLink 结构将 72 个 GPU 集成到一个计算域中。然后使用 InfiniBand 或以太网将八个或更多这样的机架连接在一起,以实现所需的计算和内存容量。
在 GTC 大会上,英伟达透露了将这一数字提升至每个机架 144 个,最终达到 576 个 GPU 的计划。然而,扩展不仅限于机架;它也发生在芯片封装上。
这一点在一年前推出的英伟达 Blackwell 加速器中变得显而易见。这些芯片的性能提升是 Hopper 的 5 倍,这听起来很棒,直到你意识到它需要两倍的芯片数量、新的 4 位数据类型和多消耗 500 瓦的功率才能实现。
实际上,标准化到 FP16 时,英伟达规格最高的 Blackwell 芯片的速度仅比 GH100 快约 1.25 倍,达到 1,250 密集 teraFLOPS,而 GH100 为 989——只是它们恰好有两个。
到 2027 年,英伟达 CEO 黄仁勋预计随着 Rubin Ultra NVL576 的推出,机架功率将飙升至 600kW。
我们尚不知道英伟达计划为其下一代芯片使用什么工艺技术,但我们知道 Rubin Ultra 将继续这一趋势,从两个光罩限制的芯片跳到四个。即使从 TSMC 2nm 中获得大约 20% 的效率提升,黄仁勋预计这仍将是一个非常热的封装。
不仅仅是计算,还有内存。眼尖的读者可能已经注意到 Rubin 到 Rubin Ultra 之间容量和带宽的显著提升——每个封装从 288GB 增加到 1TB。大约一半来自更快、更高容量的内存模块,而另一半来自将用于内存的硅量从 Blackwell 和 Rubin 的八个模块增加到 Rubin Ultra 的 16 个模块。
更高的容量意味着英伟达可以在单个封装中塞入更多的模型参数,大约 2 万亿个 FP4 参数,或者每个“GPU”5000 亿个,因为他们现在计算的是单个芯片而不是插槽。HBM4e 也有望有效地将内存带宽翻倍,相比 HBM3e。带宽预计将从今天每个 Blackwell 芯片约 4TB/s 跃升至 Rubin Ultra 的约 8TB/s。
不幸的是,除非工艺技术有重大突破,否则未来英伟达 GPU 封装可能会塞入更多的硅。
好消息是,工艺进步并不是扩展计算或内存的唯一途径。一般来说,从 16 位降到 8 位精度可以有效地将吞吐量翻倍,同时将给定模型的内存需求减半。问题是英伟达在减少位数以提升性能增益方面已经几乎没有空间了。从 Hopper 到 Blackwell,英伟达减少了四位,翻倍了硅含量,并声称获得了 5 倍的浮点增益。
但在低于四位精度时,大语言模型推理变得相当困难,困惑度得分迅速上升。也就是说,围绕超低精度量化(低至 1.58 位)保持准确性的一些有趣研究正在进行中。
减少精度并不是获得 FLOPS 的唯一方法。你还可以减少分配给 AI 工作负载不需要的高精度数据类型的芯片面积。
我们在 Blackwell Ultra 上看到了这一点。英伟达加速计算业务部门副总裁 Ian Buck 在接受采访时告诉我们,他们实际上削弱了芯片的双精度(FP64)张量核心性能,以换取 50% 更多的 4 位 FLOPS。
这是否意味着 FP64 在英伟达即将消失还有待观察,但如果你真的关心双精度性能,AMD 的 GPU 和 APU 可能应该是你的首选。
无论如何,英伟达的前进道路是明确的:其计算平台只会变得更大、更密集、更热和更耗电。正如黄仁勋在上周的新闻发布会上所说的那样,机架的实际限制是你能提供多少电力。
“一个数据中心现在是 250 兆瓦。这是每个机架的限制。我认为其余的只是细节,”黄仁勋说。“如果你说一个数据中心是一个千兆瓦,我会说每个机架一个千兆瓦听起来是个不错的限制。”
无法逃避的电力问题
显然,600kW 的机架对数据中心运营商来说是一个巨大的难题。
需要明确的是,冷却兆瓦级超密集计算并不是一个新问题。Cray、Eviden 和联想的人们多年来已经解决了这个问题。变化的是,我们现在讨论的不是一年中少数几个精品计算集群,而是几十个集群,其中一些大到足以取代 Top500 中最强大的超级计算机,如果将 200,000 个 Hopper GPU 用于 Linpack 可以赚钱的话。
在这些规模下,高度专业化、低产量的热管理和电力传输系统根本无法满足需求。不幸的是,数据中心供应商——也就是那些销售让这些价值数百万美元的 NVL72 机架正常工作的不那么性感的零部件的人——现在才赶上需求。
我们怀疑这就是为什么到目前为止宣布的许多 Blackwell 部署都是用于空气冷却的 HGX B200,而不是黄仁勋一直在宣传的 NVL72。这些八 GPU HGX 系统可以在许多现有的 H100 环境中部署。英伟达多年来一直在做 30-40kW 的机架,因此跳到 60kW 并不是那么大的飞跃,即使是这样,降到每个机架两到三台服务器仍然是一个选择。
这就是黄仁勋一直在谈论的“AI 工厂”的用武之地
NVL72 是一种受超大规模数据中心启发的机架规模设计,具有直流母线、电源滑轨和前置网络。在 120kW 的液冷计算下,在现有设施中部署多个这样的系统很快就会变得困难。而且一旦英伟达的 600kW 怪物机架在 2027 年底亮相,这只会变得更加困难。
这就是黄仁勋一直在谈论的“AI 工厂”的用武之地——与 Schneider Electric 等合作伙伴合作设计的专用数据中心,以应对 AI 的电力和热量需求。
令人惊讶的是,在详细介绍其未来三年的 GPU 路线图一周后,施耐德宣布在美国进行 7 亿美元的扩张,以提高支持这些系统所需的所有电力和冷却设备的生产。
当然,拥有为这些超密集系统供电和冷却所需的基础设施并不是唯一的问题。首先将电力输送到数据中心也是一个问题,而这再次大多不在英伟达的控制范围内。
每当 Meta、Oracle、Microsoft 或其他公司宣布另一个 AI 数据中心时,通常会伴随着一份丰厚的电力购买协议。Meta 在海湾地区的新数据中心是与一个 2.2GW 的燃气发电厂一起宣布的——可持续性和碳中和承诺就这样被抛诸脑后。
尽管我们希望核能能够卷土重来,但当即使是最乐观的预测也将部署时间定在 2030 年代时,很难认真对待小型模块化反应堆。
跟随领导者
需要明确的是,这些障碍并不是英伟达独有的。AMD、Intel 和其他每一个争夺英伟达市场份额的云提供商和芯片设计公司都将很快面临这些相同的挑战。英伟达只是恰好是第一个遇到这些挑战的公司之一。
虽然这肯定有其不利之处,但它也使英伟达在塑造未来数据中心电力和热量设计方向方面处于一个相对独特的位置。
正如我们之前提到的,黄仁勋愿意透露其未来三代 GPU 技术并暗示其第四代的原因是为了让其基础设施合作伙伴在它们最终到来时做好准备。
“我之所以向世界传达英伟达未来三、四年的路线图,是因为现在其他人都可以计划了,”黄仁勋说。
另一方面,这些努力也为竞争对手芯片制造商扫清了道路。如果英伟达设计了一个 120kW,或者现在是 600kW 的机架,并且托管服务提供商和云运营商愿意支持这一点,那么 AMD 或 Intel 现在就可以放心地在他们自己的机架规模平台中塞入同样多的计算能力,而不必担心客户会把它们放在哪里。
戴尔服务器R750,R750XS,R750XA主要有什么区别?各主要用途是什么?
也许2022全球超级计算大会上最激动人心的事情之一就是戴尔的新平台。Dell PowerEdge XE9680 终于让该公司能够为其客户提供合法的高端人工智能培训平台。在2022全球超级计算大会的一个发着蓝光的角落里,巨大的系统展示给所有人看。
戴尔正在推进其AMD EPYC服务器计划。它现在提供5个支持 Gen3 EPYC CPU 的 PowerEdge 机架型号,并且正在审查的最新 R7525 提供了令人难以置信的配置支持。
在专门针对VDI优化的2U双路平台中提供加速器卡、存储和计算能力的卓越组合,最大限度地提高应用程序性能。【企业级主流服务器,一机多用】
Dell PowerEdge T440服务器适用于:WEB、文件共享、财务ERP、数据库、虚拟化存储。利用性能、容量和I/O选项满足您的独特需求
戴尔PowerEdge T640是一款用途广泛的高性能服务器,非常适合服务器虚拟化、桌面虚拟化、ERP、CRM、HPC、数据中心等。
PowerEdge M640 是一款针对密度进行了优化的半高刀片式服务器,旨在实现高性能和高效率。它非常适合 XaaS、私有云和 HPC 应用程序。
专为Web托管和多用途应用程序而设计的入门级1U机架式服务器。流畅运行ERP软件,文件共享,财务系统,数据保护等各种应用。
Dell PowerEdge T340塔式服务器,可靠运行、轻松管理并扩展业务。适合关注协作和文件共享且配有远程办公室的成长型企业。
Dell PowerEdge T140,易于使用、安全且实用的入门级服务器,适用于成长型企业。非常适合文件和打印以及销售点应用程序。
Dell EMC PowerEdge R7515 是一款单插槽 2U 服务器,专为处理软件定义的存储、虚拟化和数据分析等工作负载而设计。【按需定制,下单享好礼】
Dell EMC PowerEdge R6525 是一款具备高性能和创新功能的双插槽 1U 服务器,可处理 HPC、VDI 和虚拟化等工作负载。【现货库存、按需定制】
Dell EMC PowerEdge R7525 双插槽 2U 机架式服务器,能够提供强劲的性能和灵活的配置。可处理高性能计算HPC、VDI 和虚拟化等工作负载。
Dell EMC PowerEdge C6525 是一款计算密集型服务器,旨在提高数据中心性能,以应对各种高性能计算 (HPC) 工作负载和应用场景。
Dell Unity XT 380 是 Dell Unity XT 混合闪存阵列系列的入口点。它专为多云部署而构建,提供简单且价格合理的统一存储,旨在提高性能和效率,并在所有数据池中实现在线数据减少,并且能够运行不需要性能和延迟的通用工作负载NVMe 架构,处理内联数据缩减,并提供不影响性能的数据服务。
使用 Dell Unity XT 480 混合闪存阵列处理各种通用工作负载。这个统一的存储平台平衡了闪存的性能和磁盘的经济性,能够同时运行不需要 NVMe 架构的性能和延迟的混合应用程序工作负载,处理内联数据减少,并提供不影响性能的数据服务。
使用 Dell Unity XT 680 混合闪存阵列覆盖广泛的通用工作负载。该统一存储平台专为多云部署而构建,平衡了闪存的性能和磁盘的经济性,能够同时运行不需要 NVMe 架构的性能和延迟的混合应用程序工作负载,处理内联数据减少,并提供对性能没有影响的数据服务。
Dell Unity XT 880 混合闪存阵列平衡了闪存的性能与磁盘的经济性,能够同时运行不需要 NVMe 架构的性能和延迟的通用用途,处理内联数据减少,并提供无性能的数据服务影响。