人工智能 (AI) 亦有其局限性。对 AI 计算的无尽需求正使能源电网不堪重负。五年前,当三哩岛核电厂最后一座反应堆退役时,谁也未曾料到它会重启,而且仅仅是为一个数据中心供电。但这正是微软最近签订的电力采购协议所反映的情况,并且面临极端 AI 能源挑战的远不止微软一家。
当今的数据中心架构师深知,在部署新的 AI 应用时,每一瓦电力和每一平方英尺空间都至关重要。企业无法依靠陈旧的硬件来运行 AI,存储设备自然也不例外。选择能源与空间效率更高的固态硬盘 (SSD),能够为 AI 模型的训练和推理释放出宝贵的电力与空间资源。
要探讨数据中心的能源效率,就必须首先理解过去十年间计算能力与数据量的惊人增长。回溯 2014 年,一颗普通处理器平均需要 100W 的散热功率。时至 2024 年,这一平均值已增长超过五倍,1 当前的 NVIDIA H100 SXM 图形处理器 (GPU) 的散热需求更是高达 700W。2
机架的平均功率需求也随之增加。2014 年的机架功率平均约为 4 至 5kW,而到 2024 年,这一数字已攀升至 10 至 14kW,3 基于 GPU 的计算集群需求则更为庞大。在最近的 OCP 峰会上,微软和谷歌都提到,他们已有工作机架,其功率规模从数百千瓦扩展到 1 兆瓦。
如果我们能获得充足的能源,我们或许能够构建比现有规模更大的集群。
—— 马克·扎克伯格,Meta4
此外,生成式 AI (GenAI) 及其他 AI 应用为了优化模型性能,正吞噬着海量数据,这极大地推动了数据总量的激增。例如,Common Crawl 数据集每月新增 30 至 50 亿个网页。5 我们也观察到,一些 AI 模型的数据集规模甚至不到两年就会翻一番。6
尽管为 GPU 基础设施提供充足的电力与高效散热是当前的技术焦点,但在电力资源受限的环境下,每一瓦特电力都举足轻重。除计算单元外,存储系统同样是数据中心的能源消耗大户。
例如,Meta 公布的数据显示,传统机械硬盘 (HDD) 存储消耗了其 AI 推荐引擎集群 35% 的电力。7 来自微软的数据则表明,存储设备占 Azure 解决方案整体运营碳排放的 33%,该比例也直接反映了其能耗水平。8 在电力紧张的环境中,每有一瓦特电力用于存储,实际上都意味着计算单元的可用电力减少了一瓦特。
采用高容量 SSD 设计的数据存储方案,相较于传统存储,能以更少的设备承载更多数据。更关键的是,在其他条件相同的前提下,硬盘数量越少,就意味着能耗更低、服务器更少、占用空间更小,从而能够降低整体散热需求。业界容量翘楚的数据中心级 SSD—Solidigm D5-P5336,其单盘容量高达 61.44TB,与当今容量最高的 HDD 相比,能在显著降低运行功耗的前提下,存储海量数据集。9
我们发现,每个 AI 机架(以 4 台 DHX 服务器为例)所需的数据容量,对于基于文本的 AI 应用而言,大约在 0.5 至 2.0PB 之间;而对于基于视觉的 AI 应用,则高达约 16PB。更有甚者,多家供应商已开始展示单 AI 机架高达 32PB 的存储能力。为了在下表中准确展现节能效果,我们以每个计算机机架承载 16 PB 数据为基准,但也认识到 SSD 的节能效果几乎会随着所需数据量成线性放大或缩小。
在我们的对比中,我们将 16 PB 数据托管在 TLC SSD 缓存 + HDD 后端存储方案中,或采用全 Solidigm QLC SSD 方案。。
每个计算集群 16 PB 数据存储方案 |
||
对比存储配置: | TLC 缓存 + HDD 后端 |
全 Solidigm QLC 固态硬盘 |
---|---|---|
数据本地化 | 分离存储
|
所有数据均存于 QLC NAND
|
存储机架空间 | 约 3 个机架 (78U),包括 缓存:18U(209 个TLC SSD,每个 7.68TB),分布于 12 台 SSD/1U 服务器 大容量存储:60U(1,800 个 HDD,每个 24TB,假设三向镜像),分布于 90 个驱动器/3U JBoD |
0.5 个机架 (21U),包括 大容量存储:21U(521 个 SSD,每个 61.44 TB,假设双向镜像),分布于 1-12个 SSD/1U 服务器加上 2-32 个驱动器1U Jbof,或每 3U 机架空间 76 个 SSD
|
存储功耗 | 18.9kW,包括: 缓存:1.3kW(基于 209 个 TLC SSD,
大容量存储:17.6kW(基于 1800 个 HDD,
|
3.7kW 大容量存储:基于 521 QLC SSD,
|
辅助设备功耗&与机架空间: | 10.5kW(3U 电源单元 (PSU) 和 3U 网络设备各需 3.5kW),18U 机架空间,每个机架 6U | 3.5kW (3U-PSU + 3U-网络设备),6U 机架空间 |
总功耗与总机架空间:& | 29.4kW,3 个机架,96U | 7.2kW,1 个机架,27U |
部署全 Solidigm D5-P5336 QLC SSD 阵列,能为处理 16PB AI 数据的数据中心节省高达 22.2kW 的电力,并节约超过 1.6 个机架的空间。具体应用场景可能有所差异,但总体而言,在单个 AI 计算集群中,相较于传统存储,部署 QLC SSD 大致能实现如此规模的功耗与空间节省。
考虑到一台 NVIDIA DGX H100 服务器的功耗即达 10.2kW,节省 22.2kW 的电力或许看似不多,但这可能意味着数据中心能为 AI 应用额外部署两台此类服务器。并且,如果 AI 应用对每个计算集群的数据需求量更大,那么电力节省的效益只会愈加显著。
必须指出,成本差异是此处需要考量的一个因素。从每 TB 成本来看,HDD 的采购价格历来低于 SSD。因此,全 QLC SSD 存储方案的初始购置成本可能会更高。
然而,对于电力受限的改造项目,甚至电力供应有限的新建数据中心部署而言,节省每一瓦电力都可能成为新 AI 应用能否上线的成败关键。
在功耗与空间效率方面,当今的企业级 Solidigm QLC SSD 正深刻改变着现代数据中心的格局。选择高能效、高空间利用率的 SSD 存储,能够使 AI 基础设施投资获得更充分的回报。
Dave Sierra 是 Solidigm 的产品营销分析师,专注于解决当今数据中心所面临的基础设施效率挑战。
Ace Stryker 是 Solidigm 的市场开发总监,他主要负责公司数据中心存储解决方案产品组合中的各种新应用,并在 AI 工作负载与解决方案方面拥有深厚的专业积累。
1. 平均机架功率与功率细分
2. 数据来源:https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet
3. 数据来源:https://www.idc.com/getdoc.jsp?containerId=US50554523
5. 数据来源:https://commoncrawl.org/
6. 数据来源:https://epochai.org/trends#data
7. 数据来源:https://engineering.fb.com/2022/09/19/ml-applications/data-ingestion-machine-learning-training-meta/
8. 《关于存储排放的研究呼吁》,卡内基梅隆大学与微软 Azurehttps://hotcarbon.org/assets/2024/pdf/hotcarbon24-final126.pdf
9. https://www.solidigm.com/products/data-center/d5/p5336.html