AI 因其在创新领域的巨大潜力,已成为企业的重中之重。然而,构建 AI 数据中心带来了重大挑战。AI 既需要大量计算能力,也需要大量数据,涉及到庞大的基础设施需求,因此也伴随有巨大的电力需求。支持新型 AI 数据中心所需的庞大电力带来了严峻的挑战,同时会带来成本和可持续性问题,并且限制了单个数据中心可以部署的总基础设施。
虽然与 AI 相关的能源问题通常集中在 GPU 的广泛使用上,但存储大规模 AI 训练数据集和模型检查点所需的数据存储也对数据中心的能效产生了重大影响。本研究重点关注网络附加数据存储在 AI 数据中心中的作用,并评估不同存储介质对能效的影响。
本研究的目标是构建一个新 100 兆瓦 AI 数据中心的模型,并评估不同存储设备对总能效的影响。本研究专门评估 QLC 固态硬盘、TLC 固态硬盘和基于机械硬盘的混合部署的影响。
AI 领域的最新进展再度引发了人们对这一技术的广泛关注。AI 应用已成为几乎所有行业的重中之重,并有望推动重大创新。
虽然这些新 AI 应用带来创新的潜力巨大,但其构建和部署面临着不小的挑战。AI 部署需耗费大量资源,需要大量的计算资源和庞大的数据容量。计算方面,现代 AI 模型依靠大量 GPU 来并行处理和加速训练过程。在数据存储需求方面,存在两个主要挑战。首先,AI 模型需要大量的训练数据才能达到较高的准确性。此外,整个训练过程中需要存储一致的模型检查点,以保存模型状态。因此 AI 数据中心的存储容量需求极高。
在构建 AI 数据中心时,高计算和存储需求都带来了另一个主要挑战:电力。AI 基础设施的巨大电力需求已成为各组织构建 AI 数据中心时面临的一个主要问题。AI 数据中心的能耗可能会增加巨额成本,妨碍可持续发展目标的实现,并最终成为限制部署 AI 基础设施的因素。在超大规模企业等某些情况下,电力需求变得非常之大,以至于这些企业开始投资小型核反应堆来为其 AI 数据中心供电。虽然大多数数据中心可能不会选择购买专用核反应堆,但与 AI 相关的电力挑战仍然存在。构建 AI 数据中心的组织必须了解 AI 的电力需求,以及构建更高效数据中心的选项。
数据中心内的电力消耗大致分为以下几类:计算、网络、存储和非 IT 基础设施(主要为散热)相关用电。由于计算需要大规模使用 GPU,因此围绕 AI 电力需求的大多数关注点通常集中在该领域上。虽然 GPU 确实需要消耗大量能源,但其在 AI 训练中的作用无可替代。AI 模型训练是一个耗时的计算密集型过程,在计算资源减少的情况下,通常无法于常规时间范围内完成。AI 数据中心内的网络并非功耗最高的领域,也无法从根本上加以改变来提高能效,因为其与计算和存储规模直接相关。在考虑与非 IT 基础设施相关的用电时,散热是一个主要关注领域,可以通过使用液冷技术来改变该领域的功耗,从而提升能效。然而,液冷技术的挑战在于,其需要全新的基础设施,并可能增加巨额成本。这使得数据存储成为可通过相对简单方式实现能效优化的关键领域。
尽管 GPU 计算占据 AI 数据中心的大部分能耗,但数据存储的能耗也很巨大。虽然最强大的 GPU 通常对加速训练至关重要,但企业在存储设备选择方面具有更大的灵活性。存储设备经历了从早期以机械硬盘为主,到如今转向密度不断提升的固态技术的演变过程。基于机械硬盘的方案通常作为大容量存储的经济型选择,同时搭配固态硬盘缓存层来弥补机械硬盘性能较低的不足。另一方面,现代全闪存方案通常会用到三层单元 (TLC) 或四层单元 (QLC) 设备,二者各具优劣。TLC 设备通常以降低密度为代价提供更高性能。而 QLC 设备则能实现超高存储密度,与 TLC 相比读取性能相近,但写入性能略有下降。
QLC 技术的出现改变了存储设备选择的传统格局——此前机械硬盘是大容量存储最具成本效益的选择,而 TLC 固态硬盘则是高性能需求工作负载的不二之选。QLC 驱动器的高密度性挑战了机械硬盘的经济优势,同时提供闪存性能,使其成为许多典型机械硬盘环境的理想替代方案。随着对能耗问题的关注日益增加,QLC 技术进一步确立了其替代机械硬盘的地位,因为固态硬盘通常被认为比机械硬盘更节能。与此同时,QLC 技术也在全闪存环境中挑战着 TLC 设备的主导地位——尤其在读取密集型工作负载场景中,其性能表现已具备高度竞争力。
在为 AI 选择数据存储方案时,设备必须在性能、容量和能效之间取得平衡。训练 AI 模型通常需要 PB 级容量支持:更多数据有助于构建更精准的模型,且大型模型需持续保存检查点并持久存储。但仅满足容量需求并不足够,存储系统还必须符合严格的性能要求,才能高效地为 GPU 服务器提供数据读取服务。此外,叠加对存储设备能效优化的需求,进一步增加了这一任务的复杂性。综合考量 AI 的存储需求,QLC 集高密度、闪存级性能和能效于一身的优势使该技术成为 AI 数据中心极具吸引力的选择。
为应对 AI 技术的蓬勃兴起以及业界对 AI 基础设施能耗问题的日益关注,本研究评估了存储设备对 AI 数据中心能效的影响。为此,Signal65 与 Solidigm 合作构建了一个 100 兆瓦级 AI 数据中心的仿真模型,用以测算不同存储设备对整体能效的影响。选择存储设备作为变量,是因为其为 IT 决策者提供了优化能效的实际可行路径。研究团队构建了三种不同的存储系统配置模型:基于机械硬盘的混合存储方案、全 TLC 固态硬盘方案,以及全 QLC 固态硬盘方案。评估采用的设备包括 Solidigm 大容量 QLC 固态硬盘、竞品 TLC 固态硬盘,以及搭配 Solidigm TLC 固态硬盘缓存层的竞品机械硬盘方案。
为隔离存储设备的影响,所有其他变量在各环境中保持一致。每种存储配置均基于以下参数建模:
为在现实且公平的条件下评估三种存储环境,必须在整个建模过程中建立并遵循若干关键假设。这些假设为模型提供了框架,并基于外部研究与行业认知制定。但需注意,这些假设可能不适用于所有实际部署场景,结果或存在差异。建模过程中使用的主要假设包括:
本次评估聚焦于 AI 模型训练,因其通常比推理过程更具资源密集型特征。为准确反映 AI 训练工作负载特性,假设工作负载由 90% 读取与 10% 写入的配比构成。高读取比例反映了需持续向 GPU 服务器输送训练数据的要求,10% 的写入则对应模型检查点保存需求。
所有评估存储设备的功耗指标均直接取自厂商规格参数。为平衡特定工作负载下读写操作的功耗,采用加权平均值进行计算。竞品 TLC 固态硬盘和机械硬盘的供应商未分别提供读取和写入的功耗指标,因此统一采用单一运行功耗值。以下是每种设备的功耗值:
为更精准地平衡设备的运行与空闲时间功耗,基于各驱动器的性能与存储密度进行占空比计算。由于机械硬盘从空闲状态切换至运行状态耗时较长,且工作负载对吞吐量要求极高,假设机械硬盘及其配套固态硬盘缓存层始终处于 100% 运行状态。竞品 QLC 与 TLC 驱动器的占空比通过以下方式计算得出:基于各驱动器的性能(如吞吐量)与容量指标,测算其达到与机械硬盘相同数据输出量所需运行时间的相对百分比。与功耗计算逻辑一致,性能指标通过各驱动器读取与写入吞吐量的加权平均值进行计算,以保持与读取密集型 AI 工作负载的一致性。
每种驱动器类型相关的总电力需求通过利用占空比计算结果,取驱动器活动和闲置时功耗的加权平均值来计算。然后用该数值乘以存储服务器和 JBOF 或 JBOD 中支持给定有效容量所需的设备总数。此外,根据运行软件定义存储所需的计算能力,假设每个存储管理服务器的功耗为 560 W。
准确建模 AI 数据中心的一个关键挑战在于确定所需的存储容量。尽管人们普遍认为 AI 需要大量数据支持,但不同 AI 应用之间的存储需求仍存在显著差异。在本研究中,所需存储容量会直接影响最终测算的相关电力指标。因此,完全围绕单一容量点构建模型可能产生误导性结论。
为使模型能够广泛适用于各类人工智能环境,研究选取了代表不同应用场景的三个差异化容量基准点。这些容量基准的确定,既基于对现有人工智能数据中心的广泛调研,也参考了 NVIDIA DGX H100 部署方案中多款参考架构的评估结果。以下详细说明选取的三个容量基准点及其适用场景。
总体而言,AI 系统通常需要 PB 级数据存储能力。每机架配置 1PB 存储空间作为基础容量指标,这一标准在各种文献资料中常被提及,通常作为可后续扩展的基准起点。由于各种原因,这种低容量范围可能适合某些环境。例如,自然语言模型通常需要相对较小的训练数据容量,因为其主要基于文本。然而,存储模型检查点仍然需要大量存储空间,具体将因模型的大小和所需训练的总量而异。使用较少参数训练较小模型可以降低容量需求,也可以利用经过预训练的基础模型和转移学习或微调等流程来减少整体训练需求。
该容量点对应的存储容量高于定义为“低容量”的容量点,但仍低于一些非常大型的 AI 部署。由于训练数据集和检查点需求更大,AI 的容量需求也有所提升。训练数据集增大可能是由于为让模型更准确而采集更多数据,或者是由于使用更大的数据类型,例如用于多模态模型。检查点存储需求的增长源于两方面因素:一是模型更大,增加了每个检查点的大小;二是训练期更长,增加了所创建检查点的总数。
该容量对应被视为具有极高存储需求的 AI 部署场景。需要特别指出的是,每机架10PB存储容量并非上限,实际应用中可能存在存储需求更高的 AI 部署场景。例如在自动驾驶或医学影像分析等应用场景中,由于模型训练需处理海量图像/视频数据,往往需要更大规模的存储配置。参数量极大且训练周期漫长的基础模型也会显著推高整体存储容量需求。
本研究选择的容量点基于几个参考文献而定,代表了一系列合理的存储部署,旨在更细致地探究数据存储对 AI 功耗的影响。需要特别说明的是,实际 AI 应用场景的存储需求可能游离于这些基准区间之外或处于中间地带。但总体而言,随着模型的不断增大,以及编译的训练数据增加,AI 未来的容量需求可能会有所增加。
在评估存储设备的能效时,关键不仅在于分析不同设备之间的相对能效差异,还需综合考量其对数据中心整体能效格局的影响。为了全面了解模型中每个存储设备的影响,本研究通过多次计算评估能效研究结果。
首先,对仅存储部分的功耗进行了评估,目的是将支持单机架 GPU 服务器在选定容量点所需的网络附加存储所消耗的电力单独剥离分析。为了解存储能效与计算功率的重要性,本研究还计算了计算与存储的总功耗。该项测量的是单个 GPU 服务器机架及满足容量需求所需的所有相关存储的总功耗。最终,为了全面理解存储系统在整个 AI 数据中心内的宏观影响,研究团队对一个总功率为 100 兆瓦的数据中心内所支持的全部基础设施进行了测算,并重点对数据存储设备在总功耗中所占比例进行了详细拆解分析。
在评估数据中心内各类存储设备的能效影响时,首要步骤是明确不同配置下存储设备直接消耗的总功率。具体方法是通过剥离分析,在预设的“高”、“中”、“低”三个容量层级上,分别测算支持单台满载 GPU 服务器机架所需的网络附加存储所对应的功率消耗。针对三种待评估存储设备的不同配置方案,研究团队分别建立了功率计算模型(详见图1所示)。
在对三种存储配置进行功耗对比时,模型表明 QLC 固态硬盘在每级容量点均展现出较 TLC 固态硬盘和机械硬盘配置更优的能效表现。此外,随着存储容量的提升,QLC 的能效优势呈现扩大趋势。相较于 TLC 固态硬盘,当容量从 1PB 扩展至 10PB 时,QLC 的能效优势区间从 3.3% 逐步提升至 19.5%。而与机械硬盘混合存储环境相比,其优势更为显著:在低容量层级可实现 32.9% 的能效提升,至高容量层级时优势幅度进一步扩大至 79.5%。
在直接评估存储设备的能效表现时,QLC 设备相比 TLC 固态硬盘或机械硬盘具有显著更高的能效优势。尽管建模数据表明三种设备在单盘运行功耗上存在差异(其中机械硬盘的单盘动态功耗最低),但高密度QLC设备通过更少的硬盘数量即可实现同等总存储容量,从而大幅降低整体功耗。这种设备密度优势在与机械硬盘对比时尤为明显——机械硬盘的存储密度显著低于任何类型的固态硬盘。
随着存储环境容量需求的增长,QLC 与 TLC 固态硬盘之间的密度差异及其对功耗的影响愈发突出。本研究发现,在低容量需求场景下 QLC 相比 TLC 仅具有 3.3% 的能效优势,但该优势在中容量和高容量层级分别扩大至 12.7% 和 19.5%。这不仅证明了 QLC 所具备的能效优势,还揭示了高密度存储设备在面对大数据挑战时拥有巨大影响力的原因。
在孤立分析数据中心内存储设备的功耗特性虽有助于理解不同存储介质的能效差异,但还需将其置于数据中心的整体架构中进行综合考量。由于 AI 数据中心会使用 GPU 服务器,计算功耗的占比通常很大。为了解存储设备对 AI 基础设施整体能效的影响,本研究计算了 GPU 服务器及其相关存储的功耗。每次均在修改设备类型和总容量需求后计算一个 GPU 服务器机架的功耗,详情请见图 2。
与此前仅针对存储设备的独立分析结论一致,本次联合计算模型再次验证了 QLC 固态硬盘的能效优势。由于三种测试环境中 GPU 服务器的计算功耗保持恒定,而 QLC 已被证实能提供更高能效的存储方案,这一结果符合预期。然而,这项评估确实表明,即使计算资源消耗了大部分电力,使用更节能的存储也会影响整体 AI 基础设施的能效。
在低容量层级,QLC 存储环境的能效优势较为微弱——相较于 TLC 环境仅提升 0.16%,相较于机械硬盘环境提升 2.32%。然而随着存储容量的增长,存储系统对整体能效的影响随之增强。在中等容量层级,测算显示 QLC 环境能效较 TLC 提升 1%,相较于机械硬盘提升 10%。至高容量层级时,QLC 的能效优势进一步提升:相较于 TLC 达到 1.6%,相较于机械硬盘则扩大至 20.8%。
这一趋势表明,随着 AI 存储需求的持续增长,高容量 QLC 存储设备实现的能效优势将产生愈发显著的影响。若进一步评估该能效优势可转化为部署额外 AI 基础设施的潜力,则能更充分理解其价值。
本研究的核心目标是量化在固定电力预算下,数据中心可支撑的 AI 基础设施总规模。具体而言,研究通过建模测算了一个总电力容量为 100 兆瓦的数据中心内可部署的 GPU 服务器机架数量。添加到模型中的每个机架都附带了所需的存储基础设施,同时假设 PUE 值为1.3 以计算非 IT 基础设施的电力消耗。不同存储容量点与存储设备组合下可支持的 GPU 服务器机架数量计算结果如图 3 所示。
测算结果再次呈现相似趋势——QLC 固态硬盘的优势随容量提升而增强。在此场景下,高密度 QLC 固态硬盘的能效优势通过数据中心内可部署的基础设施总量进行量化。在高容量级别下,QLC 固态硬盘的能效优势使其与 TLC 固态硬盘相比可多部署 26 个 GPU 服务器机架,与基于机械硬盘的部署方案相比则可多部署 335 个 GPU 服务器机架。
对于 AI 数据中心而言,支持此类额外GPU计算能力将产生重大影响。虽然 GPU 是推动 AI 创新的关键使能技术,但 AI 工作负载的高能耗会限制基础设施的总部署规模。本次评估结果表明,存储介质的选择将直接影响可支持的 AI 基础设施总量。
通过评估数据存储设备在数据中心总能耗中的占比,可以准确理解存储系统功耗在数据中心能效管理中的关键地位。
使用 QLC 固态硬盘时,存储系统功耗约占数据中心总能耗的 3.72% 至 5.21%。相比之下,配置 TLC 固态硬盘的存储系统能耗区间为3.84% 至 6.37%,而机械硬盘配置方案则产生 5% 至 20.1%。尽管数据存储并非主要能耗源,但其整体能耗规模仍具有显著影响。在总供电规模达 100MW 的 AI 数据中心中,即便存储系统仅占较小能耗比例,其绝对功耗仍可达兆瓦级。尽管无法通过改变数据中心的许多因素来显著降低功耗,本研究表明,存储设备的选择能够对数据存储的总体功耗产生切实影响。
本研究结果凸显了数据存储在 AI 数据中心中的重要性。数据存储在 AI 数据中心的电力消耗中占据了很大比例,且随着存储容量的增长,其影响也越来越显著。虽然还有其他多个组件会显著影响数据中心的功耗,例如计算资源和制冷需求,但数据存储为优化能效提供了切实可行的途径。QLC 技术已彻底改变了存储设备的格局,并已成为 AI 数据存储的理想基础。
QLC 固态硬盘相较于 TLC 固态硬盘拥有更高的存储密度,相较于机械硬盘拥有更高的性能和密度,并且如本研究所示,其能效也优于这两种竞争技术。这些特性非常适合 AI 数据中心,它们不仅需要高性能和大容量,而且整体功耗的限制也日益凸显。
本研究证明了高密度 QLC 驱动器在容量需求极高的环境(如人工智能)中的价值。要用机械硬盘或 TLC 固态硬盘实现这种容量水平,需要更多的设备,这会减少数据中心用于计算的物理空间并增加存储相关的功耗——而这些资源本可用于部署更多的 AI 计算资源。正如本研究中所使用的各个容量点所示,随着容量需求的增长,这种动态影响也变得愈发显著。
随着对 AI 技术兴趣的重新燃起,整体数据需求可能会增加,这进一步凸显了在高容量阶段对高能效存储的需求。未来的 AI 容量需求可能将由更大的训练数据集以及日益庞大的模型所驱动。随着容量需求日益增大,高密度 QLC 设备成为高效数据存储的理想选择。
通过对 100 兆瓦级 AI 数据中心电力需求的建模,本研究表明 Solidigm 高密度 QLC 固态硬盘在能效方面相比竞品 TLC 固态硬盘和机械硬盘均具有显著优势。在单独衡量数据存储功耗时,研究结果表明,Solidigm 的 QLC 固态硬盘在能效方面相比 TLC 固态硬盘最多提升 19.5%,相比机械硬盘最多提升 79.5%。研究还发现,利用 Solidigm QLC 固态硬盘所获得的能效提升,可以使数据中心部署更多的整体基础设施。在对一个 100 兆瓦数据中心的基础设施进行评估时,采用 QLC 设备相比 TLC 固态硬盘可释放最多 1.6% 的 AI 基础设施部署空间,相比机械硬盘可提升最多 26.3%。这些结果表明,高密度 QLC 存储可以帮助组织突破数据中心的功耗限制,从而实现更大规模的 AI 计算集群、更快的计算结果,以及在人工智能领域中更强的整体创新能力。
除了本研究中的结果之外,在讨论 AI 日益严峻的能源挑战时,其他领先的科技厂商也认可了采用 Solidigm 高密度 QLC 固态硬盘所带来的能效优势。Arm 副总裁 Chloe Ma 表示:"随着 AI 模型日益复杂,若要充分释放 AI 的潜力,就必须应对其不断增长的能源需求。一个涵盖计算、存储与网络的整体性方法是优化 AI 工作负载基础设施的关键,而广泛应用的 Arm 计算平台正在从云端到边缘助力实现这一目标。"
Solidigm 的新款 122TB 存储解决方案采用 Arm 的高性能节能技术,将有助于应对这些电力挑战,实现更高效、更可扩展的数据中心设计。
随着 AI 的不断发展,数据存储将继续发挥关键作用。Solidigm 高密度 QLC 设备被定位为 AI 数据中心的理想选择,提供高密度的全闪存储,既能满足 AI 对性能和容量的需求,又能优化能效表现。本研究结果突显了数据存储在 AI 能耗中的重要作用,并展示了 QLC 设备如何帮助组织提升能效,实现其 AI 目标。
以下图表展示完整的研究结果。
表 1 展示单个 GPU 服务器机架的存储基础设施功耗。
Solidigm QLC | TLC | 高出比率 | 机械硬盘混合部署 | 高出比率 | |
---|---|---|---|---|---|
低容量 (1 PB) | 2,258 W | 2,335 W | 3.30% | 3,368 W | 32.97% |
中容量 (5 PB) | 2,690 W | 3,080 W | 12.65% | 8,179 W | 67% |
高容量 (10 PB) | 3,230 W | 4,011 W | 19.46% | 15,749 W | 79.49% |
表 1. 总功耗 – 仅存储
表 2 展示单个 GPU 服务器机架及其相关存储的合计功耗。
Solidigm QLC | TLC | 高出比率 | 机械硬盘混合部署 | 高出比率 | |
---|---|---|---|---|---|
低容量 (1 PB) | 46,706 W | 46,783 W | 0.16% | 47,816 W | 2.32% |
中容量 (5 PB) | 47,138 W | 47,528 W | 1% | 52,627 W | 10% |
高容量 (10 PB) | 47,678 W | 48,459 W | 1.61% | 60,197 W | 20.80% |
表 2. 总功耗:计算 + 存储
表 3 展示 100 MW 数据中心可支持的 GPU 服务器机架及相关存储的总数。
Solidigm QLC | TLC | 高出比率 | 机械硬盘混合部署 | 高出比率 | |
---|---|---|---|---|---|
低容量 (1 PB) | 1,647 | 1,644 | 0.17% | 1,609 | 2.38% |
中容量 (5 PB) | 1,632 | 1,618 | 0% | 1,462 | 11.64% |
高容量 (10 PB) | 1,613 | 1,587 | 1.64% | 1,278 | 26.26% |
表 3. 100 MW 数据中心内支持的 AI 基础设施数量
表 4 展示所测量的每个配置下 100 MW 数据中心内数据存储功耗占总功耗的百分比。
Solidigm QLC | TLC | 机械硬盘混合部署 | |
---|---|---|---|
低容量 (1 PB) | 3.72% | 3.84% | 5% |
中容量 (5 PB) | 4.39% | 4.98% | 11.96% |
高容量 (10 PB) | 5.21% | 6.37% | 20.12% |
表 4. 功耗百分比
模型内每个设备的占空比使用以下公式计算:
固态硬盘占空比 = 机械硬盘占空比 * (固态硬盘容量 / 机械硬盘容量) * (机械硬盘性能 / 固态硬盘性能)
假设机械硬盘的占空比为 100%
表 5 展示本研究所用设备的相关信息。
Solidigm QLC 固态硬盘 | TLC 固态硬盘 | 机械硬盘 | |
---|---|---|---|
容量 | 122.88 TB | 61.44 TB | 24 TB |
读取性能 | 7,462 MB/s | 12,000 MB/s | 285 MB/s |
写入性能 | 3,250 MB/s | 5,000 MB/s | 285 MB/s |
活动状态下的读取功率 | 13.44 W | 20 W* | 8.2 W* |
活动状态下的写入功率 | 22.08 W | 20 W* | 8.2 W* |
闲置功率 | 5 W | 5 W | 6.5 |
表 5. 设备规格
*TLC 固态硬盘和机械硬盘功率指标未细分为读写两部分。两个值均采用设备规格中提供的混合读/写功率指标。
Mitch Lewis 是 Signal65 的性能分析师,在计算机科学和数据科学领域拥有资深背景。Mitch 拥有深厚的数据存储、数据管理和 AI 技术知识。在加入 Signal65 之前,Mitch 曾在 Evaluator Group 担任信息管理行业专家,此前还曾在 Oracle 担任云实施主管。
Signal65 是一家独立的研究、分析和咨询公司,主要关注数字创新和颠覆市场的技术和趋势。我们的分析师、研究人员和顾问每天都会帮助世界各地的前沿企业预测其所在行业的结构性变化,助力它们利用颠覆性创新在所在市场中获得或保持竞争优势。
[1] 为固态硬盘环境选择了 2 倍复制,为机械硬盘环境选择了 3 倍复制。冗余架构根据适用于 Ceph 的指南选择。(图片来源:Red Hat)