分享

发布于 May 7, 2024

作者 Allyson Klein

文章预计阅读时间

利用 CoreWeave 实现规模化的 AI 性能


由来自 TechArena 的 Allyson Klein 撰写的合作伙伴文章

 

我最近参加了 NVIDIA GTC——一次被某些人誉为“AI 时代的伍德斯托克时刻”的会议,而且我到现在都还在努力消化我们在那里学到的关于如何通过行业创新推动 AI 工作负载的新知。虽然 TechArena 在此次活动中与业界创新者展开了尽可能多的对话,但我们对 CoreWeave 的 Jacob Yundt 的采访尤为重要。他是 CoreWeave 基础设施建设的负责人,该团队为实现前所未有的规模化云端 AI 训练规划出一条路线。 他们是如何做到的?像许多其他拐点一样,CoreWeave 具备不受传统束缚的优势,提供专为 AI 训练集群构建的云端堆栈,覆盖从初始配置到运行状况检查、编排和调度的方方面面。借此,该公司能够在整个训练期间提供可靠的计算,同时在特定训练任务中以惊人的速度启动大量 GPU。CoreWeave 会对其实例进行主动监控,以确保宝贵的训练周期不因潜在硬件故障、I/O 出错或数据中心基础设施面临的其他问题而中断。 CoreWeave 已经吸引到一批希望通过对算法进行训练,凭借训练速度抓住市场机遇的 AI 初创公司。Jacob 明确指出,他们的市场重点是任何希望“以惊人的规模进行开拓性工作”的客户,这表达了他们在计算、存储和网络方面的底层基础设施类型。而且市场对这种基础设施的需求可谓巨大。CoreWeave 曾公开表示,单只训练集群产生的电力需求就已经令其运营所在社区的本地电网承压,而且业界对 CoreWeave 的需求还在以指数级的速度增长。去年 12 月,该公司估值为 70 亿美元,而在四个月后的最新一轮估值讨论中,更是飙升至 160 亿美元,凸显出 AI 训练的增长潜力。 那么,CoreWeave 是利用什么基础设施来提供 AI 服务?众所周知,他们的训练基于 NVIDIA GPU,此外,CoreWeave 还将利用液体冷却技术将新一代 Blackwell GPU 整合到集群中。 但 Jacob 强调,他们所能够达到的颠覆性的规模,并非仅仅依靠 GPU 就能够实现。这样的规模化始于对数据管道的重新构想,为此,CoreWeave 与 VAST Data 建立战略合作伙伴关系,实现能够根据 GPU 性能需要进行扩展的创新数据管理和控制。VAST Data 的平台带来数据集管理的新功能,可更高效、更快速地对数据进行复杂处理,消除了与传统分层存储解决方案有关的大部分开销。 Jacob 表示,与 VAST Data 的合作源于其团队对 QLC 存储的热衷,在及在性能、容量和能效等方面的平衡。说 Jacob 是 QLC 的粉丝,这决不为过,而且也并不令人意外,因为与 TLC 技术相比,QLC 在提高每单元数据密度方面具有优势。Jacob 表示,他与 Solidigm 的长期合作确保他的数据中心能够采用 QLC 部署,二者的合作伙伴关系不仅限于采购,还包括客户和工程支持。考虑到在 CoreWeave 训练的 LLM 的规模,您应该很容易就会猜到,他们部署了大量的 QLC NAND。 那么 CoreWeave 的下一步行动会是什么?敬请关注我们,进一步了解他们持续的基础设施建设如何为更广泛的 AI 市场采用起到先行作用。我也想知道 CoreWeave 能否通过针对 AI 优化的训练堆栈,在云服务提供商领域取得一席之地。我还将报告数据管道基础设施行业的新发展,包括我与 Solidigm 联合推出的“数据洞察”系列。


敬请关注由 Solidigm 赞助的 TechArena 数据洞察系列,了解 Coreweave 如何改变面向 AI 客户提供的可扩展数据管道,及其对前沿的 VAST Data 解决方案,包括 Solidigm QLC SSD 的利用。

利用 CoreWeave 实现规模化的 AI 性能