使用 Solidigm™ 固态硬盘优化 AI 工作负载

MLPerf 推理、训练与存储基准测试性能解析

摘要

人工智能 (AI) 工作负载的持续发展,推动了市场对高效存储与计算解决方案的需求,以此实现训练和推理任务的性能优化。本研究利用 MLPerf 基准测试 Inference v4.1、Training v4.1 和 Storage v1.0 来评估 Solidigm 固态硬盘(特别是 D7-PS1010 (PCIe Gen5)、D5-P5336 (PCIe Gen4) 和 D3-S4520 (SATA))对 AI 效率的影响。结果表明,推理性能在很大程度上不受磁盘配置的影响,因为其主要取决于 GPU 能力和内存带宽,因而增加固态硬盘并没有带来显著收益。相比之下,训练工作负载(特别是像 DLRMv2 这样的数据密集型模型)在搭载高速 NVMe 固态硬盘后性能提升显著;在磁盘数量较少的配置中,D7-PS1010 性能优于 D5-P5336,但随着磁盘数量增加,性能提升效果逐渐趋于平缓。MLPerf Storage 基准测试进一步验证了 NVMe 相对 SATA 的性能优势:D7-PS1010 仅需更少磁盘即可达到吞吐量峰值,表现优于 D5-P5336;而 D3-S4520 的性能则无法满足现代 AI 工作负载的需求。上述研究结果凸显了定制存储策略的必要性,即:训练场景适配高性能 NVMe 固态硬盘,推理场景则应聚焦计算性能优化;同时也凸显了基础设施资源的均衡配置,对最大化 AI 系统运行效率的关键作用。

引言

人工智能 (AI) 工作负载日益增加的复杂性对系统性能提出了前所未有的要求,这就需要深入理解存储与计算组件对系统运行效率的影响机制。MLPerf 基准测试套件(Inference、Training 和 Storage)为评估不同硬件配置下 AI 系统的性能提供了标准化框架,为工作负载优化提供了核心参考依据。

MLPerf Inference 评估实时预测任务,其中效率取决于模型执行速度(通常在内存中执行),因此磁盘性能是次要因素。而 MLPerf Training 聚焦 AI 模型的从头构建过程,该阶段因需要频繁访问海量数据,对存储吞吐量高度依赖,推荐系统、图像处理等任务尤为显著。作为上述测试的补充,MLPerf Storage 基准测试将 AI 特有的数据管道的存储性能独立出来接受专项评估,旨在应对数据密集型应用对高扩展、高吞吐量存储方案日益增长的需求。

本研究基于 QuantaGrid D74H-7U 和 D54U-3U 两款服务器平台,搭载 Solidigm D7-PS1010、D5-P5336、D3-S4520 三款 NVMe 固态硬盘,探究存储配置与 AI 系统性能之间的关联。研究发现,推理工作负载受计算和内存资源限制,优化存储配置带来的性能提升微乎其微;而训练和存储基准测试则证明,NVMe 固态硬盘能带来显著性能优势,对 DLRMv2 这类需要快速数据检索的模型尤为明显。通过分析测试结果,本研究强调:高性能存储在训练场景中占据核心地位,而 GPU 和内存优化在推理场景中占据首要地位;研究结果为设计高效 AI 基础设施提供了可落地的指导方案。本研究的结论旨在为学术界和产业界相关从业者提供参考,助力其根据不同工作负载的需求选择硬件,实现系统的可扩展性与性能稳定性。

基准测试设置和方法

Solidigm D7-PS1010 U.2 高性能固态硬盘
Solidigm D5-P5336 U.2 高密度固态硬盘

硬件和软件配置

为了评估存储配置对 AI 工作负载的影响,在两个服务器平台上进行了 MLPerf 推理、训练和存储基准测试。

系统 QuantaGrid D74H-7U QuantaGrid D54U-3U
CPU

Intel Xeon Platinum 8480+

56 核 x 2

Intel Xeon Platinum 8470

52 核 x 2

RAM 2 TB (DDR5-4800 64GB x 32) 2 TB (DDR5-4800 64GB x 32)
操作系统磁盘 Samsung PM9A3 3.84TB x 1 Samsung PM9A3 1.92TB x 1
数据磁盘

Solidigm D7-PS1010 U.2 7.68TB x 8

Solidigm D5-P5336 U.2 15.36TB x 8

Solidigm D7-PS1010 U.2 7.68TB x 8

Solidigm D5-P5336 U.2 15.36TB x 8

Solidigm D3-S4520 SATA 7.68TB x 8

加速器 H100 SXM5 80GB x 8 H100 PCIe 80GB x 4
BIOS 配置

配置:性能

启用 LP [Global]:所有 LP

SNC:禁用

操作系统 Rocky Linux 9.2 版 (Blue Onyx)
内核 5.14.0-362.18.1.el9_3.x86_64 5.14.0-284.11.1.el9_2.x86_64
框架

GPU 驱动程序 550.127.08

CUDA 12.4 + GDS 12.4

GPU 驱动程序 550.90.07

CUDA 12.4

表 1:QuantaGrid D74H-7U 和 D54U-3U 搭载 SOLIDIGM 多款 NVMe 解决方案的配置。

  Solidigm™ D7-PS1010(外形规格:U.2) Solidigm™ D5-P5336(外形规格:U.2) Solidigm™ D3-S4520(外形规格:U.2)
  图像 图像 图像
容量 7.68 TB 15.36TB 7.68 TB
制造工艺 176L TLC 3D NAND 192L QLC 3D NAND 144L TLC 3D NAND
接口 PCIe 5.0 x4,NVMe PCIe 4.0 x4,NVMe SATA 3.0 6Gb/s
连续读取(最高) 14,500 MB/s 7,000 MB/s 550 MB/s
连续写入(最高) 9,300 MB/s 3,000 MB/s 510 MB/s
随机读取(最高) 2,800,000 IOPS (4K) 1,005,000 IOPS (4K) 86,000 IOPS (4K)
随机写入(最高) 400,000 IOPS (4K) 24,000 IOPS (4K) 30,000 IOPS (4K)

表 2:SOLIDIGM PS1010、P5336 和 S4520 的规格

MLPerf 推理测试在两个平台上进行,每个系统都在“服务器”和“离线”模式下进行评估,以模拟真实的 AI 推理环境。基准测试分别使用 1、2、4 和 8 个驱动器评估了不同存储配置下的性能,以分析可扩展性和吞吐量效率。鉴于推理工作负载主要依赖内存和 GPU 性能,因此测试的目的是确定增加磁盘数量是否会对性能产生任何可量化的影响。

在 MLPerf 训练和存储基准测试中,将 QuantaGrid D74H-7U 和 D54U-3U 用于训练工作负载,而 D54U-3U 还用于存储性能评估。训练测试旨在探究存储配置与 AI 模型性能之间的关联。存储基准测试分析了 AI 专属工作负载下的磁盘吞吐量和运行效率,对比评估 NVMe 固态硬盘相对 SATA 替代方案的性能优势。

在使用 2、4 和 8 个驱动器的配置中实施了软件 RAID0 设置,以优化读写速度,确保数据在各固态硬盘间高效分布。为充分发挥固态硬盘的性能,所有 NVMe 固态硬盘均通过 CPU 的 PCIe 通道或 PCIe 交换机实现直连。本研究未采用硬件 RAID 模式,避免 RAID 控制器造成潜在的带宽限制,确保 AI 工作负载在无 PCIe 通道约束的情况下,实现存储吞吐量的最大化。

MLPerf 工作负载

本节将介绍由 MLCommons Association 开发的 MLPerf 基准测试套件(Inference v4.1、Training v4.1 和 Storage v1.0),该套件用于评估 AI 系统在推理、训练、存储三类工作负载下的性能。该系列套件提供了标准化、可复现的测试方法,用于评估软硬件运行效率;并通过差异化的测试分类和规则,保障测试的公平性、可比性与灵活性。

MLPerf Inference v4.1

MLPerf Inference v4.1 用于测试 AI 系统在实时推理任务中的性能,重点关注执行速度、延迟及精度。该测试基于标准化的系统配置和框架,评估多类工作负载性能,包括 BERT [1]、ResNet-50 [2]、RetinaNet [3]、3D-Unet [4]、DLRMv2 [5]、GPT-J [6]、Llama2-70B [7]、Mixtral-8x7B [8]、稳定扩散 XL (SDXL)[9]。该套件在确保模型精度符合预设标准的前提下,对延迟、吞吐量、运行效率等核心指标进行量化评估,适配从低功耗边缘设备到高性能数据中心服务器的各类平台。该测试为计算机视觉、自然语言处理、电商推荐、生成式 AI、图计算等领域提供了开放、可比的性能评估标准,适配各类实际部署场景。

关键定义

在 MLPerf Inference 中,关键术语包括:

  • 样本:推理的基本单位,图像、句子、节点 ID 等(例如:ResNet-50 的单个样本为一张图像,BERT 的单个样本为一个序列)。
  • 查询:一次性向被测系统 (SUT) 提交的 N 个样本的集合,N 为正整数(例如:每次查询包含 8 张图像)。
  • 质量:模型生成准确输出结果的能力。
  • 被测系统 (SUT):用于性能测试的、已完成配置的硬件(例如处理器、加速器、内存)和软件资源集合。
  • 参考实现:由 MLPerf 提供的标准实现方案,所有合规的封闭赛道测试结果均需与该方案的表现一致。

测试场景

MLPerf Inference 包含四类差异化测试场景,模拟真实的推理工作负载,具体信息见下表:

场景 目的 用例 指标
单流 评估单个查询流的处理延迟 语音识别、实时视频分析等实时应用 处理单个查询的时间
多流 测试多查询流并发处理性能 视频流、聊天机器人等多用户系统 并发查询下的延迟与吞吐量
服务器 评估动态、在线查询负载的处理能力 需求波动的云推理服务 延迟约束下的每秒查询数 (QPS)
离线 衡量大批量处理的吞吐量 数据集分析、媒体索引等批量处理任务 固定时间内处理的查询总数

测试赛道

MLPerf Inference 分为两个赛道:封闭赛道和开放赛道。封闭赛道要求测试实现与参考方案或替代标准方案一致,允许对模型进行量化校准,但禁止重新训练模型。开放赛道允许对模型进行任意预处理/后处理、自定义模型甚至重新训练,仅需上报精度和延迟约束;该赛道鼓励技术创新,但测试结果不具备可比性。

方法和工作流程

MLPerf Inference 测试基于负载生成器 (LoadGen) 开展,该工具由 C++ 开发并提供 Python 接口,可实现查询模拟、延迟统计、精度验证及指标计算。LoadGen 在处理器上运行,模拟来自逻辑源的查询,将测试轨迹存储于 DRAM 中,并严格遵循带宽限制要求。图 1 展示了 MLPerf Inference 从配置到验证阶段的简化流程,同时包含验证失败的场景处理:若验证未通过,需对被测系统 (SUT) 重新配置。

MLPerf Inference 至验证阶段的简化工作流程 图 1. MLPerf Inference 至验证阶段的简化工作流程

上述测试场景全面覆盖了对延迟敏感和对吞吐量要求较高的各类应用;测试设置了提前终止准则,可在保证统计有效性的前提下缩短测试时长。

规则与准则

规则旨在确保评测的公平性,要求测试系统与框架保持一致,且代码必须开源;将非确定性因素限制为固定随机种子,同时禁止检测基准测试或基于输入数据进行针对性优化。测试结果的可复现性为硬性要求,将通过审核验证合规性,封闭赛道的测试结果审核尤为严格。

用例与价值

MLPerf Inference 支持边缘计算、云基础设施和专业领域,优化实时推理和可扩展性,推动高效 AI 解决方案的开发。

MLPerf Training v4.1

MLPerf Training v4.1 制定了标准化的基准测试方案,用于评估各类机器学习任务的训练性能,核心指标为模型执行速度。该测试通过明确的规则保障公平性,评估多类工作负载性能,包括 BERT、DLRMv2、GNN (R-GAT) [10]、低秩自适应 (LoRA) [11]、稳定扩散 (SD) [12]以及单次检测器 (SSD) [13]。性能和质量是关键指标,合规的测试结果可使用 MLPerf 商标进行发布。该套件涵盖测试系统、框架、基准方案等维度,测试结果将基于参考方案进行标准归一化处理。

关键定义

关键术语包括:

  • 性能:训练的执行速度。
  • 质量:模型生成正确输出的准确性。
  • 系统:影响模型运行的软硬件资源集合,不含机器学习框架。
  • 框架:特定版本的机器学习库。
  • 基准测试:通过训练达到质量目标来解决的抽象机器学习问题。
  • 运行:模型从初始化到达到质量目标的完整训练过程,以实际耗时计量。
  • 参考实现:由 MLPerf 提供的标准实现方案,为基准测试划定统一标准。

测试基准与赛道

该套件覆盖计算机视觉、自然语言处理、电商推荐、图计算等领域,分为封闭赛道和开放赛道。封闭赛道要求采用参考方案的预处理流程、模型及目标,保障测试结果的可比性;开放赛道允许自定义数据和方法,要求模型持续迭代优化并与基准测试数据集对齐。

方法和工作流程

训练过程需遵循参考模型、权重、优化器及超参数设置;随机数生成(封闭赛道:原生算法,通过 mllog 基于时钟生成种子)和数值格式(封闭赛道:预先批准,如 fp32、fp16)均受严格限制。数据处理流程需与参考方案保持一致,按指定频次评估模型质量;测试结果由多次运行得出,并基于参考方案进行归一化处理。图 2 展示了 MLPerf 训练测试从系统定义到收敛验证阶段的简化工作流程,同时包含收敛失败的场景处理:若模型收敛未达到参考收敛点 (RCP),需调整超参数或重新执行训练流程。

MLPerf 训练至收敛验证的简化工作流程 图 2. MLPerf 训练至收敛验证的简化工作流程

规则与准则

公平性为测试的首要原则,禁止检测基准测试、对模型进行预训练(元数据相关预训练除外),且要求测试结果可复现。参考收敛点 (RCP) 确保测试提交的模型收敛效果与参考方案一致;测试允许通过审核和借鉴超参数的方式优化模型性能。

用例与价值

MLPerf Training 为计算机视觉、自然语言处理、电商推荐等领域的 AI 模型开发提供支撑,助力数据中心训练性能优化、系统可扩展性提升,推动软硬件技术创新。

MLPerf Storage v1.0

MLPerf Storage v1.0 用于评估机器学习工作负载下的存储系统性能,通过休眠间隔模拟加速器的数据需求,实现数据处理流程的隔离,无需计算集群即可开展可扩展的测试。该测试核心关注存储系统的可扩展性和性能,支持 3D U-Net、ResNet-50、CosmoFlow 等工作负载。

关键定义

关键术语包括:

  • 样本:训练的基本数据单位,如图像、句子等(例如:3D U-Net 的单个样本为 140MB)。
  • 步骤:首次加载至模拟加速器的一批数据。
  • 加速器利用率 (AU):模拟加速器的工作时长占总测试时长的百分比(例如:3D U-Net 的加速器利用率要求≥90%)。
  • 赛道:保障测试结果可比性的规则体系,分为封闭赛道和开放赛道。
  • DLIO:模拟数据 I/O 模式的核心基准测试工具。DLIO(深度学习 I/O)[14] 是由阿贡国家实验室开发的开源基准测试套件,最初为 Theta 超级计算机等高性能计算 (HPC) 系统设计。通过对科学深度学习工作负载的 I/O 行为进行分析与建模,DLIO 能精准、大规模复现真实的数椐摄取模式。这一特性支持用户在大规模分布式机器学习训练的典型场景下,对存储基础设施进行压力测试,且测试核心并非评估原始计算能力。
  • 数据集内容:仅关注数据本身及存储容量,与格式无关(如 3D U-Net 使用的 KiTS19 数据集)。
  • 数据集格式:存储格式(例如 npz)。
  • 存储系统:为主机节点提供存储服务的软硬件组合。
  • 存储扩展单元:实现存储性能/规模提升的最小单元(例如节点、控制器)。
  • 主机节点:实现负载提升的最小单元,所有节点上的模拟器执行逻辑完全一致。

测试基准与赛道

该套件模拟 MLPerf 训练/HPC 场景下的 I/O 模式,以每秒处理样本数为核心指标,且测试需满足加速器利用率 (AU) 最低阈值要求(如 ResNet-50 模型的 AU 阈值为 90%)。封闭赛道对参数进行标准化定义以保障结果可比性,限制修改;开放赛道则允许自定义配置(如修改 DLIO 工具参数)以实现创新,但要求进行文档记录。

方法和工作流程

MLPerf Storage 使用 DLIO 生成合成数据集(数据集容量 ≥5 倍主机 DRAM,避免缓存干扰),并根据加速器、内存配置及训练步骤计算数据集的最小容量。支持单主机或分布式部署的负载扩展,通过屏障机制实现节点同步,以每秒处理样本数衡量性能。图 3 展示了 MLPerf Storage 从配置到加速器利用率 (AU) 阈值验证阶段的简化工作流程,同时包含 AU 阈值未达标的失败场景处理:该情况下需对存储系统或配置进行调整。

MLPerf Storage 至 AU 阈值验证的简化工作流程 图 3. MLPerf Storage 至 AU 阈值验证的简化工作流程

规则与准则

规则旨在确保公平性,要求测试系统为近 6 个月内可商用的产品、使用固定随机种子、存储系统运行稳定、禁止数据预加载、测试前清空缓存,且五次测试结果的可复现性误差需控制在 5% 以内。审核负责验证合规性:封闭赛道需使用官方提供的脚本执行测试,开放赛道允许对 DLIO 进行修改。

用例与价值

MLPerf Storage 为机器学习训练的存储优化提供依据,支持计算机视觉、科学计算等领域的大规模数据处理流程,为基础设施的可扩展性与效率规划提供指导。

结果和分析

MLPerf Inference v4.1 磁盘配置性能分析

基于 Solidigm D7-PS1010 (PCIe Gen5)、D5-P5336 (PCIe Gen4) 及 D3-S4520(SATA 固态硬盘),在不同 RAID0 磁盘配置下开展 MLPerf Inference v4.1 性能测试,结果表明:增加磁盘数量对推理性能的影响微乎其微。在所有被测模型中(包括 ResNet50、RetinaNet、BERT、DLRMv2、3D-Unet、SDXL、GPT-J、Llama2-70b 及 Mixtral),性能加速比基本保持恒定。 

从图 4 至图 8 的测试结果可看出,D7-PS1010、D5-P5336 和 D3-S4520 在不同磁盘配置下,推理性能加速比均无变化。这表明 MLPerf 推理工作负载的性能主要受计算和内存资源限制,而非受 I/O 能力限制。由于推理过程主要涉及模型在内存中的执行,对磁盘的访问极少,因此增加存储设备无法带来可量化的性能提升。

此外,在 D74H-7U 和 D54U-3U 平台上,上述趋势保持一致:不同固态硬盘型号及磁盘配置下,性能加速比均无显著差异。这一结果进一步印证,MLPerf 推理性能的提升并非依赖磁盘 I/O,磁盘选择对系统整体运行效率的影响极小。

值得注意的是,Mixtral 作为 MLPerf Inference v4.1 新增的测试模型,英伟达已针对 H100、H200 SXM5 等高性能 GPU 对其进行了优化和量化处理。但 Mixtral 在 D54U-3U 平台上无法完全支持 80GB 版本的 H100 PCIe 显卡,因此未纳入其测试范围。 

上述研究结果强调,针对 AI 推理任务,额外投入高速固态硬盘难以带来显著收益,优化重点应放在计算加速能力和内存效率上。

D74H-7U 搭载 Solidigm D7-PS1010 的 MLPerf 推理测试结果 图 4. D74H-7U 搭载 Solidigm D7-PS1010 的 MLPerf 推理测试结果
D74H-7U 搭载 Solidigm D5-P5336 的 MLPerf 推理测试结果 图 5. D74H-7U 搭载 Solidigm D5-P5336 的 MLPerf 推理测试结果
D54U-3U 搭载 Solidigm D7-PS1010 的 MLPerf 推理测试结果 图 6. D54U-3U 搭载 Solidigm D7-PS1010 的 MLPerf 推理测试结果
D54U-3U 搭载 Solidigm D5-P5336 的 MLPerf 推理测试结果 图 7. D54U-3U 搭载 Solidigm D5-P5336 的 MLPerf 推理测试结果
D54U-3U 搭载 Solidigm D3-S4520 的 MLPerf 推理测试结果 图 8. D54U-3U 搭载 Solidigm D3-S4520 的 MLPerf 推理测试结果

MLPerf Training v4.1 磁盘配置性能分析

图 9 和图 10 对 D74H-7U 分别搭载 D7-PS1010 和 D5-P5336 系统时,不同存储配置下的 MLPerf 训练性能加速比作了对比分析。这些图表清晰展示了 BERT、DLRMv2、GNN、LoRA、稳定扩散 (SD)、单次检测器 (SSD) 等多款机器学习模型,在 1/2/4/8 块磁盘的不同配置下的性能扩展特性。

D74H-7U 搭载 Solidigm D7-PS1010 的 MLPerf 训练测试结果 图 9. D74H-7U 搭载 Solidigm D7-PS1010 的 MLPerf 训练测试结果

在图 9 中,随着磁盘数量的增加,DLRMv2 和 GNN 的性能提升最为显著。搭载 8 块磁盘时,DLRMv2 的性能加速比达到峰值 1.29 倍,GNN 则为 1.10 倍。其他模型的性能仅有微小变化,表明其对磁盘 I/O 的依赖程度较低。

D74H-7U 搭载 Solidigm D5-P5336 的 MLPerf 训练测试结果 图 10. D74H-7U 搭载 Solidigm D5-P5336 的 MLPerf 训练测试结果

表 3 展示了各模型在不同存储配置下的相对标准偏差 (RSD)。相对标准偏差数据表明,各模型的训练性能存在显著波动,说明训练性能受磁盘 I/O 之外的其他因素影响;而随机种子的选择会影响多轮训练的收敛性和计算效率,进一步加剧了这种性能波动。

AI 模型

/

设备数量

Solidigm D7-PS1010 Solidigm D5-P5336
8 4 2 1 8 4 2 1
BERT 7.65% 9.46% 8.03% 8.95% 5.70% 9.91% 72.50% 5.90%
DLRMv2 5.13% 7.32% 4.32% 6.91% 5.46% 5.38% 3.02% 3.71%
GNN 4.50% 3.98% 5.26% 3.69% 4.20% 6.77% 34.50% 4.14%
LoRA 6.17% 4.27% 8.17% 8.58% 6.55% 6.19% 5.48% 6.33%
SD 13.86% 11.21% 11.75% 15.39% 11.18% 11.93% 13.54% 11.40%
SSD 0.07% 10.65% 0.12% 0.22% 0.17% 0.16% 0.08% 0.04%

表 3. MLPerf 训练中各 AI 模型工作负载的相对标准偏差

与之相反,图 10 显示 D5-P5336 系统的性能随磁盘数量增加提升显著,尤其是 DLRMv2 模型,在 8 块磁盘配置下的性能加速比达到峰值 2.51 倍。GNN 的性能也呈稳步提升趋势,但提升幅度相对较小。其他模型的性能仅有微小波动,其中 BERT 模型的性能随磁盘数量增加出现轻微下降。上述结果表明,D5-P5336 系统的性能提升对磁盘数量的依赖性更强,对于 DLRMv2 这类数据密集型工作负载尤为明显。

DLRMv2 模型对固态硬盘性能高度敏感,因此针对该模型开展了进一步的专项测试。D74H-7U 的硬件架构支持 NVIDIA GDS(GPUDirect Storage,见图 11 所示),这是实现 AI 训练加速的关键特性。GDS 实现了 NVMe 固态硬盘与 GPU 之间的直接数据传输,绕过系统内存并减少 CPU 的参与。该优化方案能最大限度地减少数据传输延迟、提升吞吐量,对需要高速数据访问的工作负载尤为有利。因此,在 D74H-7U 上开展的所有测试均开启了 GDS 功能。由于 D74H-7U 仅支持 NVMe 固态硬盘,因此 D3-S4520 的训练测试仅在 D54U-3U 上开展。

英伟达 GPUDirect Storage 技术示意图 图 11. 英伟达 GPUDirect Storage 技术示意图

图 12 对比分析了 D7-PS1010 固态硬盘在 D74H-7U 和 D54U-3U 平台上,运行 DLRMv2 模型的 MLPerf 训练性能。单磁盘配置下,两款平台的性能表现相近;但随着磁盘数量增加,D74H-7U 平台的 D7-PS1010 性能提升显著,8 块磁盘配置下的加速比达到峰值 1.29 倍。而 D54U-3U 平台的性能加速比始终接近 1.00 倍,这表明开启 GDS 后,D74H-7U 能更好地利用磁盘扩展实现性能提升,而 D54U-3U 在 I/O 扩展方面存在硬件架构限制。

D74H-7U 与 D54U-3U 平台搭载 PS1010 运行 DLRMv2 的 MLPerf 训练性能对比 图 12. D74H-7U 与 D54U-3U 平台搭载 PS1010 运行 DLRMv2 的 MLPerf 训练性能对比

图 13 显示,D7-PS1010 的性能始终优于 D5-P5336,在磁盘数量较少的配置下优势尤为明显。单磁盘配置下,D7-PS1010 的训练耗时为 5.04 分钟,而 D5-P5336 的训练耗时显著更长,达到 9.78 分钟。4 块磁盘配置下,性能提升开始趋于稳定,D7-PS1010 的训练耗时为 4.14 分钟,D5-P5336 为 4.15 分钟。当磁盘数量增加至 8 块时,两款固态硬盘的性能差距完全收敛,D7-PS1010 的训练耗时为 3.92 分钟,D5-P5336 为 3.90 分钟。上述结果表明,D7-PS1010 的 PCIe Gen5 高带宽在磁盘数量较少的配置下能带来显著性能优势,但当磁盘扩展达到效率极限后,该优势的影响会逐渐减弱。

不同磁盘配置下 DLRMv2 模型的性能表现 图 13. 不同磁盘配置下 DLRMv2 模型的性能表现

图 14 进一步测试了 D54U-3U 系统上,D7-PS1010、D5-P5336 和 D3-S4520 固态硬盘运行 DLRMv2 模型的 MLPerf 训练性能,并进行了对比分析。结果显示,D7-PS1010 和 D5-P5336 在不同磁盘配置下的训练耗时保持稳定,而 D3-S4520 的性能加速比随磁盘数量增加显著提升。值得关注的是,8 块磁盘配置下的 D3-S4520 相比单磁盘配置,性能加速比达到 6.78 倍,训练耗时从 123.29 分钟缩短至 18.19 分钟。与之相反,D7-PS1010 和 D5-P5336 的性能始终处于窄幅波动区间,无论磁盘数量多少,训练耗时均在 15 分钟左右。上述结果凸显了存储类型对 AI 训练性能的关键影响,对于磁盘读写速度高度敏感的工作负载尤为重要。

D54U-3U 平台搭载 D7-PS1010、D5-P5336 和 D3-S4520 的 MLPerf 训练性能对比 图 14. D54U-3U 平台搭载 D7-PS1010、D5-P5336 和 D3-S4520 的 MLPerf 训练性能对比

MLPerf Storage v1.0 磁盘配置性能分析

MLPerf Storage 基准测试模拟 GPU 上的 AI 训练过程,主要测试磁盘的读取性能。测试结果表明,SATA 接口的 D3-S4520 固态硬盘性能明显不足,NVMe 固态硬盘成为唯一可行的选择。在本次测试使用的单台服务器中,2 块 D7-PS1010 磁盘即可达到可用性能上限,而 D5-P5336 则需要 4 块才能达到其性能上限。在 ResNet50 和 CosmoFlow AI 工作负载中,单块 D7-PS1010 或 D5-P5336 磁盘的读取性能均接近其理论规格上限。

图 15、图 16 及表 4 详细对比了 D54U-3U 平台上 D7-PS1010 和 D5-P5336 的 MLPerf Storage 性能,分析对象包括 ResNet-50、Unet3D 和 CosmoFlow 等多款 AI 模型。结果表明,不同工作负载下磁盘的性能扩展特性存在差异,从而凸显出理解特定工作负载存储需求的重要性。

在图 15 中,D7-PS1010 在所有被测工作负载中均表现出优异的性能。Unet3D 模型的性能随磁盘数量增加提升显著,8 块磁盘配置下的吞吐量峰值达到 23176.57 MiB/s,而单磁盘配置下仅为 11869.57 MiB/s。ResNet-50 模型呈现类似趋势,吞吐量从单磁盘的 15550.54 MiB/s 提升至 2 块磁盘的 20069.97 MiB/s,但 4 块以上磁盘配置的吞吐量趋于稳定。而 CosmoFlow 模型的吞吐量随磁盘数量增加仅有微小提升,始终在 15838.27 MiB/s 左右波动,表明其存储访问模式无法充分利用额外的 NVMe 设备。

D54U-3U 平台搭载 D7-PS1010 的 MLPerf Storage 测试结果 图 15. D54U-3U 平台搭载 D7-PS1010 的 MLPerf Storage 测试结果

图 16 展示了 D5-P5336 的测试结果,其性能扩展模式与 D7-PS1010 存在差异。Unet-3D 模型仍保持强劲的性能扩展趋势,8 块磁盘配置下吞吐量达到 23045.24 MiB/s;而 ResNet-50 模型的性能提升幅度相比 D7-PS1010 更为显著,从单磁盘的 8402.90 MiB/s 提升至 8 块磁盘的 19817.54 MiB/s。CosmoFlow 模型的性能扩展收益依旧有限,8 块磁盘配置下的吞吐量峰值为 15657.91 MiB/s。这表明,对于 Unet3D 和 ResNet-50 这类工作负载,D5-P5336 能提供具有竞争力的性能,但其需要更多磁盘才能达到性能峰值。

D54U-3U 平台搭载 D5-P5336 的 MLPerf Storage 测试结果 图 16. D54U-3U 平台搭载 D5-P5336 的 MLPerf Storage 测试结果

表 4 展示了 D54U-3U 平台上,ResNet50、UNet-3D 和 CosmoFlow 三款 AI 模型在 1/2/4/8 块磁盘配置下,搭载 Solidigm 固态硬盘(D7-PS1010、D5-P5336 和 D3-S4520)的测试结果。该表包含数据集大小、加速器利用率 (AU)、吞吐量 (MiB/s) 及模拟加速器数量指标,所有配置均通过反复调试实现性能峰值。

AI 模型 设备数量 Solidigm D7-PS1010 Solidigm D5-P5336 Solidigm D3-S4520
8 4 2 1 8 4 2 1 8 4 2 1
ResNet50 模拟 H100 加速器数量 111 111 111 86 112 112 86 47 28 14 6 2
数据集大小 (GiB) 5030 5030 5030 5030 5030 5030 5030 5030 5030 5030 5030 639
AU_1 90.30 91.87 92.77 92.83 90.93 93.29 90.42 91.58 91.16 91.34 98.78 95.37
AU_2 90.26 91.72 92.65 92.69 90.07 93.16 90.51 91.70 91.22 91.29 98.79 95.25
AU_3 90.80 91.76 92.92 92.72 90.89 93.01 90.33 91.45 91.36 91.44 98.75 95.31
AU_4 90.36 91.17 92.32 92.59 90.88 92.48 90.39 91.70 91.34 91.31 98.79 95.23
AU_5 90.59 91.71 92.52 92.35 90.50 93.26 90.52 91.47 91.27 91.43 98.80 95.16
吞吐量 (MiB/s) 19598.80 19855.28 20069.97 15550.54 19817.54 20337.54 15181.02 8402.90 4989.15 2497.28 1157.25 371.96
Unet3D 模拟 H100 加速器数量 8 8 7 4 8 8 4 2 1 1 1 1
数据集大小 (GiB) 5030 5030 5030 5030 5030 5030 5030 5030 5030 5030 639 639
AU_1 96.29 95.67 90.98 98.66 97.34 96.55 98.66 98.72 98.80 67.83 29.85 11.58
AU_2 96.58 95.80 91.87 98.68 97.75 97.40 98.65 98.70 98.77 67.85 30.05 11.59
AU_3 96.78 94.87 92.06 98.68 97.17 98.26 98.66 98.73 98.79 67.86 30.11 11.60
AU_4 96.45 94.44 90.95 98.69 96.50 97.82 98.68 98.72 98.80 67.71 30.14 11.58
AU_5 96.57 95.69 91.01 98.68 96.11 97.78 98.66 98.73 98.79 67.74 30.12 11.59
吞吐量 (MiB/s) 23176.57 22877.37 19216.97 11869.57 23045.24 23143.96 11864.99 5938.05 2976.95 无效 无效 无效
Cosmoflow 模拟 H100 加速器数量 28 28 28 28 28 28 28 14 7 3 2 1
数据集大小 (GiB) 5030 5030 5030 5030 5030 5030 5030 5030 5030 5030 5030 639
AU_1 72.06 72.00 73.18 73.56 72.95 73.48 70.44 76.75 72.64 87.19 72.85 64.07
AU_2 71.70 71.98 73.26 73.67 72.90 73.86 70.57 76.80 72.85 87.43 72.85 64.74
AU_3 72.02 71.99 73.28 73.57 72.78 73.61 70.48 76.75 72.96 87.57 72.47 65.04
AU_4 71.77 72.08 73.27 73.70 72.68 73.97 70.62 76.81 73.16 87.74 72.84 65.05
AU_5 71.89 72.28 73.38 73.74 72.72 73.57 70.45 76.80 73.24 87.94 72.72 64.81
吞吐量 (MiB/s) 15461.26 15499.75 15757.37 15838.27 15657.91 15848.42 15165.49 8270.50 3933.09 2023.81 1121.04 无效

表 4. 不同 Solidigm NVMe 型号的 MLPerf Storage 测试结果

ResNet50 模型在所有配置下的加速器利用率均超过 90%,满足其标准;吞吐量峰值分别为 D7-PS1010 8 块磁盘的 20069.97 MiB/s、D5-P5336 8 块磁盘的 19817.54 MiB/s,而 D3-S4520 的吞吐量仅为 4989.15 MiB/s,表明其无法满足高吞吐量需求。UNet-3D 模型的加速器利用率同样始终高于 90%,D7-PS1010 和 D5-P5336 在 8 块磁盘配置下的吞吐量分别达到 23176.57 MiB/s 和 23045.24 MiB/s,表现优异;这凸显了 NVMe 固态硬盘相对 D3-S4520 的优势,D3-S4520 在磁盘数量较少时的测试结果均无效。CosmoFlow 模型的加速器利用率标准为 70%,所有配置下均高于该阈值,但其吞吐量随磁盘数量增加仅有微小提升(例如,在 8 块磁盘配置下,D7-PS1010 为 15838.27 MiB/s,D5-P5336 为 15657.91 MiB/s),这一特性反映了该工作负载的固有属性。这表明 CosmoFlow 模型的数椐访问模式和计算需求对存储扩展的敏感度较低,系统优化的重点应放在计算和内存效率等其他因素上。

模拟加速器的数量均经过迭代测试优化,是各配置下平衡加速器利用率和吞吐量的最优选择。得益于 PCIe Gen5 的高带宽,Solidigm D7-PS1010 在磁盘数量较少时性能普遍优于 D5-P5336,而 D5-P5336 需要更多的磁盘扩展才能与之持平。D3-S4520 的性能始终表现不佳,这进一步印证了 NVMe 固态硬盘是 AI 工作负载的必要选择。上述结果强调了按工作负载定制存储规划的重要性:对于 UNet-3D 这类高吞吐量模型,NVMe 固态硬盘是核心配置;而 CosmoFlow 模型的性能稳定性表明其对存储扩展的依赖程度较低。

总体而言,测试数据证实 NVMe 固态硬盘是 AI 工作负载的必备存储方案,对于 Unet-3D 这类高吞吐量需求的模型尤为关键。D7-PS1010 仅需更少磁盘即可达到性能峰值,而 D5-P5336 需要进一步的磁盘扩展才能匹配其性能。D3-S4520 不适合此类任务,这凸显了在 AI 基础设施规划中,谨慎选择存储方案的重要性。

AI 模型训练的硬件配置建议

基于上述分析,为优化 AI 模型训练性能,提出以下配置建议:

  1. 存储选择:对于磁盘读写速度高度敏感的工作负载,选择 Solidigm D7-PS1010 (PCIe Gen5) 等高性能 NVMe 固态硬盘是核心要求。对于成本敏感型部署,可通过多块固态硬盘的存储扩展缓解性能瓶颈。
  2. 英伟达 GDS 的使用:建议开启英伟达 GPUDirect Storage (GDS) 技术以加速 AI 训练工作负载,尤其是在 NVMe 固态硬盘与 GPU 之间的直接数据传输可减少 CPU 开销和内存瓶颈的场景中。
  3. 均衡的系统架构:要实现最优性能,需保证存储、CPU 和 GPU 配置的均衡性。具备高 PCIe 带宽和高效数据流机制的系统,通常能在 AI 训练中取得更优的性能表现。

遵循上述建议,可实现 AI 模型训练的性能和效率优化,确保硬件投入得到有效利用,以满足计算需求。

结论

MLPerf v4.1 的基准测试结果凸显了高性能存储在 AI 工作负载中的关键作用,在训练场景中尤为重要。对 Solidigm NVMe 固态硬盘(D7-PS1010 PCIe Gen5、D5-P5336 PCIe Gen4、D3-S4520 SATA)的评估结果表明:推理性能基本不受存储配置影响,而 AI 训练和存储密集型工作负载能从高速 NVMe 解决方案中获得显著的性能收益。

针对推理工作负载,测试结果证实磁盘数量无任何可量化的影响,因为模型在执行前已预加载至内存中。因此,相比扩展存储解决方案,优化 GPU 性能和内存带宽对提升推理效率更为关键。

与之相反,对于训练工作负载,尤其是 DLRMv2 这类存储密集型模型,使用高速 NVMe 固态硬盘能带来显著的性能提升。Solidigm D7-PS1010 PCIe Gen5 固态硬盘的训练时间始终优于 D5-P5336 PCIe Gen4 固态硬盘,在磁盘数量较少的配置下优势尤为明显。但随着磁盘数量增加,性能提升开始趋于平缓,这表明存在一个阈值,超过该阈值后,额外的存储扩展所带来的收益会不断递减。

MLPerf Storage 基准测试结果进一步强调了 NVMe 固态硬盘在 AI 应用中的必要性。SATA 固态硬盘 (Solidigm D3-S4520) 的性能无法满足现代 AI 工作负载的需求,NVMe 存储成为首选方案。D7-PS1010 仅需更少磁盘即可达到效率峰值,而 D5-P5336 需要更多存储扩展才能匹配其性能,这再次凸显了按工作负载定制存储规划的重要性。

总体而言,上述研究结果表明,AI 基础设施的优化需要采取均衡策略:训练工作负载需配置高性能 NVMe 固态硬盘,而推理工作负载则能从 GPU 和内存性能的提升中获得更多收益。计划扩大 AI 部署规模的企业,应根据工作负载需求优先选择适配的存储方案,确保计算能力、内存带宽和存储性能的最优平衡,以实现系统效率和可扩展性的最大化。


关于作者

参考文献

[1] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” May 24, 2019, arXiv: arXiv:1810.04805. doi: 10.48550/arXiv.1810.04805.

[2] K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition,” Dec. 10, 2015, arXiv: arXiv:1512.03385. doi: 10.48550/arXiv.1512.03385.

[3] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár, “Focal Loss for Dense Object Detection,” Feb. 07, 2018, arXiv: arXiv:1708.02002. doi: 10.48550/arXiv.1708.02002.

[4] Ö. Çiçek, A. Abdulkadir, S. S. Lienkamp, T. Brox, and O. Ronneberger, “3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation,” Jun. 21, 2016, arXiv: arXiv:1606.06650. doi: 10.48550/arXiv.1606.06650.

[5] M. Naumov et al., “Deep Learning Recommendation Model for Personalization and Recommendation Systems,” May 31, 2019, arXiv: arXiv:1906.00091. doi: 10.48550/arXiv.1906.00091.

[6] B. Wang and A. Komatsuzaki, “GPT-J-6B: A 6 billion parameter autoregressive language model.” May 2021. [Online]. Available: https://github.com/kingoflolz/mesh-transformer-jax

[7] H. Touvron et al., “Llama 2: Open Foundation and Fine-Tuned Chat Models,” Jul. 19, 2023, arXiv: arXiv:2307.09288. doi: 10.48550/arXiv.2307.09288.

[8] A. Q. Jiang et al., “Mixtral of Experts,” Jan. 08, 2024, arXiv: arXiv:2401.04088. doi: 10.48550/arXiv.2401.04088.

[9] D. Podell et al., “SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis,” Jul. 04, 2023, arXiv: arXiv:2307.01952. doi: 10.48550/arXiv.2307.01952.

[10] M. Chen, Y. Zhang, X. Kou, Y. Li, and Y. Zhang, “r-GAT: Relational Graph Attention Network for Multi-Relational Graphs,” Sep. 13, 2021, arXiv: arXiv:2109.05922. doi: 10.48550/arXiv.2109.05922.

[11] E. J. Hu et al., “LoRA: Low-Rank Adaptation of Large Language Models,” Oct. 16, 2021, arXiv: arXiv:2106.09685. doi: 10.48550/arXiv.2106.09685.

[12] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-Resolution Image Synthesis with Latent Diffusion Models,” Apr. 13, 2022, arXiv: arXiv:2112.10752. doi: 10.48550/arXiv.2112.10752.

[13] W. Liu et al., “SSD: Single Shot MultiBox Detector,” vol. 9905, 2016, pp. 21–37. doi: 10.1007/978-3-319-46448-0_2.

[14] H. Devarajan, H. Zheng, A. Kougkas, X.-H. Sun, and V. Vishwanath, “DLIO: A Data-Centric Benchmark for Scientific Deep Learning Applications,” in 2021 IEEE/ACM 21st International Symposium on Cluster, Cloud and Internet Computing (CCGrid), May 2021, pp. 81–91. doi: 10.1109/CCGrid51090.2021.00018.

[15] J. Zhou et al., “Graph Neural Networks: A Review of Methods and Applications,” Oct. 06, 2021, arXiv: arXiv:1812.08434. doi: 10.48550/arXiv.1812.08434.

免责声明

©2025, Solidigm. “Solidigm” 是 SK hynix NAND Product Solutions Corp(经营别称:Solidigm)的注册商标,已在美国、中华人民共和国、新加坡、日本、欧盟、英国、墨西哥及其他国家/地区注册。

文中涉及的其他名称及商标属于各自所有者资产。

Solidigm 可随时在不另行通知的情况下修改规格和产品说明。

测试记录特定系统上具体测试中的组件性能。

硬件、软件或配置的任何不同都可能影响实际性能。

当您考虑购买时,请参考其他信息资源以评估产品性能。

上述结果均为初步结果,仅供参考。所述数值和声明既非最终版本,亦非官方内容。

文中涉及的磁盘驱动器可视为工程样品。产品指南请参阅产品路线图。