数据中心中 AI 的演进与热管理考量

图示中的冰晶现象,体现了 Solidigm 单面冷板技术在数据中心固态硬盘散热方面的有效性。
图示中的冰晶现象,体现了 Solidigm 单面冷板技术在数据中心固态硬盘散热方面的有效性。

执行摘要

人工智能 (AI) 和高性能计算 (HPC) 工作负载正在推动数据中心计算密度的急剧提升,同时显著增加了热输出和功耗需求。传统的风冷方式正难以跟上为 AI 和 HPC 工作负载提供支持的数据中心基础设施和组件的散热需求。随着基础设施功率特性的持续提升,不断突破组件的功耗与热设计边界,这些组件正迅速接近其有效运行的极限。

直接液冷 (DLC) 是一种行之有效的散热方式,可对服务器及其关键组件进行冷却,包括 CPU、GPU、DPU、NIC 以及固态硬盘 (SSD),并为提升热效率和降低运营成本提供了变革性的机会。Solidigm 完全液冷、支持热插拔的固态硬盘 (Solidigm™ D7-PS1010 E1.S),使新一代无风扇、热优化 AI 服务器架构的设计、开发与部署成为可能,从而应对现代数据中心在热管理和成本控制方面的双重挑战。

AI 工作负载与不断上升的热挑战

随着 AI 的持续演进,服务器工作负载正变得越来越依赖高算力和高功率,机柜功率密度已超过 100 kW。这些高性能 GPU 集群产生了前所未有的热通量,远远超出了传统风冷系统的处理能力。这一变化正推动越来越多的数据中心采用全新的散热范式。传统风冷数据中心的电能使用效率 (PUE) 通常约为 2.01,而新一代液冷数据中心已能实现低至 1.2 的 PUE,1标志着能源效率的显著提升。降低 PUE 带来的一个直接附加优势,是显著降低数据中心的运营成本。

在传统风冷数据中心中,制冷通常占总能耗的 35%–45%1。液冷提供了一种极具吸引力的替代方案,可将能耗降低最高达 10%,并将 PUE 改善约 15%。这些改进不仅降低了运营成本,也有助于提升环境可持续性。ABI Research 预测,到 2030 年,液冷市场规模将达到 37 亿美元,其增长动力来自于对更高计算密度和 300%–500% 能效提升的强烈需求。2

液冷技术与基础设施

数据中心正日益采用多种液冷技术,包括直触芯片冷板、后门式换热器以及浸没式冷却系统。其中,冷板系统尤为突出,在采用 NVIDIA GB300 平台的部署中,机柜功率密度可支持高达 120 kW。虽然对现有数据中心进行液冷改造是可行的,但最高效的部署通常出现在新建数据中心中,因为基础设施可以从一开始就针对 DLC 系统进行定制设计。

在高密度 AI 服务器中,这些服务器代表了功率与性能曲线的最前沿,必须全面考虑所有会增加服务器热负载的组件。传统依靠风扇强制送风、并使气流穿过服务器组件的风冷方式,已无法满足这些高性能组件的散热需求。液冷提供了更优越的热管理方案。液体的导热能力比空气高出 1,000 倍至 3,000 倍3,从而实现更高效的散热,并提升系统整体性能与使用寿命。

下一代液冷固态硬盘解决方案

传统的液冷固态硬盘方案通常是在固态硬盘的两侧分别安装冷板。冷却液在冷板中循环流动,对固态硬盘及其内部和两侧的组件进行散热。

在液冷固态硬盘的实现中,冷板和固态硬盘通常安装在一个封装结构内,以确保设备的结构完整性、可维护性以及最佳的热传导效率。为最大化冷板与固态硬盘之间的热交换效果,会使用导热界面材料 (TIM)。TIM 将固态硬盘与散热板连接起来,从而在散热板和固态硬盘之间实现较大的接触面积,从而实现最高的散热效率。

Solidigm D7-PS1010 9.5mm E1.S 固态硬盘在存储散热管理方面实现了突破性创新,采用单面冷板即可同时为固态硬盘的两侧进行散热。这一设计通过减少冷板数量,提高了服务器的存储密度和可用容量。此外,由 Solidigm 与 NVIDIA 合作设计的 D7-PS1010 9.5 毫米 E1.S 固态硬盘及其冷板封装结构,能够在单面冷板条件下散热超过 25W。该设计还实现了完整的热插拔能力,而这在双冷板方案中是一个重大挑战,同时也为下一代无风扇服务器配置做好了准备。

 固态硬盘冷板技术对比:Solidigm 单面冷板与双面冷板 图 1. 双面冷板方案与单面冷板方案实现方式对比。

 

该硬盘提供多种规格:9.5 毫米规格,适用于风冷和液冷部署;15 毫米规格,仅适用于风冷部署,满足多样化基础设施需求。Solidigm D7-PS1010 9.5mm E1.S固态硬盘支持构建紧凑型、完全液冷的 1U 服务器,无需内部风扇,从而实现更高密度和更高热效率。

通过将液冷技术扩展至固态硬盘,数据中心可以减少热限频现象,并提升系统可靠性。Solidigm 完全液冷、支持热插拔的固态硬盘设计,满足企业级可维护性需求。同时,该方案有助于开发超紧凑、无风扇的 1U 服务器,提升机柜级密度,简化气流设计,并降低资本支出和运营支出。这些服务器还能降低总体能耗,帮助组织实现环境、社会与治理 (ESG) 目标。

通过在固态硬盘层面引入液冷,数据中心可以减少为冷却系统预留的空间,从而实现更紧凑的整体布局。这种空间效率的提升,使得在相同设施内实现更高的计算密度成为可能,或者在不牺牲性能的前提下,缩小整体数据中心规模。由于在风冷架构中,冷却相关区域往往占据大量非机柜空间,液冷所带来的冷却空间缩减可实现约 23%–27% 的整体空间节省。4

总结

AI 基础设施的发展方向,在于采用覆盖整个子系统的液冷方案,使所有服务器组件都能在其设计的最佳运行效率和功能状态下工作,从而释放最高性能。在新建数据中心中,从一开始就引入像 Solidigm D7-PS1010 这样的完全液冷固态硬盘,将获得最大收益。对于现有部署,液冷改造则需要进行基础设施升级,包括引入冷却分配单元 (CDU)。通过评估 PUE 改善情况以及因减少 HVAC 和服务器维护而带来的总体拥有成本 (TCO) 下降,可以验证相关投资的合理性。未来的数据中心设计必须在 CPU、GPU、DPU、NIC 和存储之间实现散热协同,才能全面释放运营和可持续性方面的收益。

AI 驱动的工作负载正在重塑数据中心架构,并将传统散热方式推向极限。将液冷扩展至存储设备,为通过提升热效率来降低运营成本提供了重要机遇。Solidigm 的完全液冷固态硬盘为构建热优化的新一代无风扇高密度服务器设计提供了可行路径,在降低能耗和成本的同时,显著提升运营效率。这些创新使数据中心能够以更高的灵活性和可持续性,满足未来 AI 应用不断增长的需求。


关于作者

Pompey Nagra 是 Solidigm 的产品与生态系统营销经理。他在计算、网络、存储和电信行业拥有丰富经验,长期致力于为具有挑战性的数据中心和 AI 部署开发并整合解决方案。Pompey 毕业于英国 Kingston University,获得电子工程(计算与商业方向)工程学学士学位 (BEng)。

注释:

1. https://en.wikipedia.org/wiki/Category:Data_centers

2. https://blog.geoactivegroup.com/2025/02/ai-driven-data-center-liquid-cooling.html

3. www.jtti.cc/supports/2895.html

4. https://www.solidigm.com/products/technology/economics-of-exabyte-data-storage.html#bodycopy5