CoreWeave 与 Solidigm 全力布局液冷技术

CoreWeave 计算架构高级总监 Jacob Yundt 强调了当今人工智能数据中心面临的核心挑战之一:散热。让高性能部署场景中的各类组件维持在适宜温度运行至关重要。否则设备会出现降频现象、性能受损,甚至会缩短组件的使用寿命。

CoreWeave 针对这一挑战的解决方案是大力采用液冷技术。风冷技术的散热能力,根本无法满足这些高功耗、高密度机柜的需求。CoreWeave 始终致力于为其图形处理器产品采用原生芯片直连液冷技术,因此 Solidigm 的芯片直连液冷 SSD,也自然成为其液冷系统搭建中的关键组件。

Solidigm 凭借其高密度 SSD 不断突破数据存储的边界,并借助 CSAL 软件与液冷技术对这些 SSD 进行优化。CoreWeave 能够将这些存储创新成果应用到其人工智能云平台的部署中。CoreWeave 与 Solidigm 展开合作,为相关标准的制定提供意见,助力业务持续规模化发展,并依托这些标准,积极为客户推出全新产品。

我们青睐 Solidigm 液冷 SSD 的原因之一,是液冷技术能让我们拥有高性能、高可靠性的解决方案,从而实现整体部署密度的提升。与 Solidigm 的合作非常愉快。
Jacob Yundt CoreWeave


 

CoreWeave 是一家专注于加速计算的专业云服务提供商。我们是人工智能领域不可或缺的云平台。我们的系统一直在突破物理规律的限制。

我是 Jacob Yundt,现任 CoreWeave 计算架构高级总监。

人工智能从根本上改变了基础设施的需求。如今,市场对算力性能的需求达到了前所未有的规模。当数十万块 GPU 协同运行时,每一个组件都必须保持完美的工作状态。

人工智能架构的挑战之一是,每台服务器的供电预算都是固定的。如果将大部分供电预算用于风扇,可供 GPU 使用的电力就会减少,客户能使用的 GPU 数量也会相应降低。风冷技术在这种场景下完全行不通。

因为风冷的散热能力无法满足这些 GPU 机柜的高功耗需求,根本无法让足够的气流流过这些发热组件,使其维持在适宜的工作温度。无法避免设备降频。也无法保障组件的使用寿命。而这会直接影响客户端的使用性能。

客户选择 CoreWeave 云平台的原因之一是,我们能保障极致的性能体验。如果组件因散热问题出现降频,我们就无法兑现这一承诺。CoreWeave 正大力推行液冷技术。2024 年,当我们看到各类产品路线图时,便意识到液冷技术是部分产品未来的唯一发展方向。我们调整了数据中心规划,只为 GPU 产品提供原生芯片直连液冷方案。这一调整带来了实质性的影响 —— 我们得以率先推出 GB 200 产品,又率先推出 GB 300 产品,原因就在于我们所有的数据中心均已做好支持原生液冷解决方案的准备。

Solidigm 能在 SSD 芯片直连液冷领域占据领先地位,原因之一便是其助力制定了相关行业标准。这些标准助力我们实现业务的持续规模化发展,让我们能率先推出新产品,更能依托这些开放标准,积极为客户打造各类全新产品。

我们青睐 Solidigm 液冷 SSD 的原因之一是,液冷技术能为我们打造出高性能、高可靠性的解决方案,进而实现整体部署密度的提升。与 Solidigm 的合作非常愉快。我们会尽可能依托开放标准开展工作,而与 Solidigm 合作的收获颇丰,因为我深知,他们会助力推动这些开放标准的持续发展。