利用高性能存储加速 AI

搭载英伟达 Magnum IO 架构的 Solidigm™ 固态硬盘,该架构包含 GPUDirect® Storage 技术及由英伟达 Bluefield®-3 数据处理单元驱动的 NVMe 仿真功能

Solidigm 固态硬盘搭载英伟达 GDS 的性能表现与 CPU-GPU 数据路径对比

GPU 和存储瓶颈

现代 AI 工作负载对海量数据集的访问提出了前所未有的要求:高数据吞吐量、低延迟。传统存储架构依赖 CPU 实现 NVMe 固态硬盘与 GPU 间的数据传输,其性能已难以匹配 GPU 的计算能力。以 Solidigm™ D7-PS1010 为代表的数据中心级固态硬盘,连续读取速度可达 14,500MB/s,但要释放其全部性能潜力,需重新设计 GPU 与本地存储及分布式远程系统存储的交互方式。

英伟达 GPUDirect Storage (GDS)

英伟达 GPUDirect Storage (GDS) 支持 GPU 与 NVMe 固态硬盘之间的直接内存访问 (DMA),从根本上消除 CPU 性能瓶颈。作为英伟达 Magnum IO SDK 的组成部分,GDS 可与 CUDA 等框架集成,跳过 CPU/内存的数据暂存环节,在降低传输延迟的同时,释放 CPU 资源以处理核心管理任务。

依托英伟达 DPU 将 GDS 技术拓展至远程存储场景

GDS 技术虽能优化本地存储访问,但现代 AI 基础设施亟需可扩展的解决方案,实现存储与单个 GPU 节点的解耦。英伟达数据处理单元 (DPU) 可分担存储与网络任务,填补这一技术空白,并通过自身的 SNAP 框架实现远程 NVMe-over-Fabric (NVMe-oF) 仿真1。Solidigm PCIe Gen5 固态硬盘可虚拟化为基于高速结构的远程驱动器,支持 GPU 访问分布式存储资源池。该架构融合了 GDS 的直接数据传输路径与 DPU 驱动的结构扩展能力,为 AI 工作负载提供一体化存储解决方案。

系统配置

硬件

  1. 服务器:Supermicro ARS-111GL-NHR
  2. CPU/GPU:- Grace Hopper 200
  3. 固态硬盘:Solidigm™ D7-PS1010(E1.S,7.68TB,PCIe 5.0)和 Solidigm™ D7-P5520(U.2,7.68TB,PCIe 4.0)

软件

  1. 操作系统:Ubuntu 22.04.5 LTS
  2. 内核:6.8.0-1021-nvidia-64k
  3. CUDA:12.6
  4. GDSIO:1.11

测试方法

比较了两种数据路径

1. GDS 路径:GPU 与固态硬盘之间的直接 DMA 数据传输。

2. 传统路径:数据移动路径为固态硬盘 → CPU/内存 → GPU

搭载与未搭载英伟达 GDS 的两种数据传输路径 图 1. GPU 与固态硬盘间采用直接 DMA 传输的 GDS 路径,对比图 2. 未启用 GDS 的传统路径

基准测试参数

  • 块大小:64KiB、128KiB、512KiB、1024KiB、4096KiB
  • 工作负载:连续读取
  • 队列深度 (QD):24/32
  • 指标:吞吐量 (GB/s),CPU USR 利用率 (%)
  • 运行时间:45 秒
  • 服务器功耗(瓦特)

结果

驱动器 D7-P5520 - 7.68TB (PCIe Gen4)
测试 GDS 路径 CPU-GPU(传统路径)
IO 大小 吞吐量 (GiBps) CPU_USR(%) 吞吐量 (GiBps) CPU_USR(%)
64KiB 4.35 0.14 4.30 0.92
128KiB 5.21 0.08 5.18 0.56
512KiB 6.50 0.03 6.51 0.20
1024KiB 6.59 0.02 6.64 0.12
4096KiB 6.62 0.01 6.63 0.06

表 1. Solidigm D7-P5520 固件:9CV10330(U.2,7.68TB,PCIe 4.0)

驱动器 D7-PS1010 - 7.68 TB (PCIe Gen5)
测试 GDS 路径 CPU-GPU(传统路径)
IO 大小 吞吐量 (GiBps) CPU_USR(%) 吞吐量 (GiBps) CPU_USR(%)
64KiB 12.38 0.51 12.70 3.15
128KiB 13.20 0.27 13.48 1.64
512KiB 13.41 0.04 13.48 0.46
1024KiB 13.48 0.02 13.48 0.29
4096KiB 13.48 0.01 13.48 0.14

表 2. Solidigm D7-PS1010 固件:G77YG100(E1.S,7.68TB,PCIe 5.0)

Solidigm D7-P5520 搭载英伟达 GDS 与传统 CPU-GPU 路径的吞吐量对比。 图 3. Solidigm D7-P5520 吞吐量
Solidigm D7-P5520 搭载英伟达 GDS 与传统 CPU-GPU 路径的利用率对比。 图 4. Solidigm D7-P5520 利用率
Solidigm D7-PS1010 搭载英伟达 GDS 与传统 CPU-GPU 路径的吞吐量对比。 图 5. Solidigm D7-PS1010 吞吐量
Solidigm D7-P5520 搭载英伟达 GDS 与传统 CPU-GPU 路径的利用率对比。 图 6. Solidigm D7-PS1010 利用率
英伟达 GDS 路径与传统 CPU-GPU 路径的服务器 100 次循环平均功耗(瓦特)。 图 7. 100 次循环的平均服务器功耗(瓦特)

核心结论与分析

  1. 在所有块大小的测试场景中,GDS 路径的性能与吞吐量均与传统 CPU-GPU 路径持平。
  2. 我们注意到,GDS 技术可显著降低 CPU 利用率:通过避免 CPU 将冗余数据拷贝至内存,释放 CPU 核心资源以处理应用任务。
  3. 在执行 GDS 工作负载时,我们发现服务器功耗比 CPU-GPU 工作负载降低约 7 瓦。该数据在多次运行(100 次循环)中保持一致。

搭载英伟达 Magnum IO 架构的远程存储性能表现

本节将展示 Solidigm 固态硬盘在英伟达 Magnum IO 架构中的性能表现,该架构包含英伟达 Magnum IO GPUDirect Storage 技术及英伟达 NVMe SNAP 框架。1

英伟达数据处理单元 (DPU)

DPU 是一款专用处理器,可从 CPU 处分担基础设施层任务,包括网络、存储、安全防护等。英伟达 Bluefield DPU 融合多核心 Arm CPU、高速网络模块与硬件加速器,以优化数据中心效率。

SNAP(软件定义的 NVMe 访问协议)

SNAP 是由 DPU 加速的框架,可将远程固态硬盘虚拟化为本地 NVMe 驱动器。SNAP 在英伟达 DPU 的容器中运行,可将本地 NVMe 指令转换为 NVMe-oF 协议数据包,实现远程存储与 GPU 内存之间的直接 RDMA 传输。

NVMe over Fabric (NVMe-oF)

NVMe-oF 技术对 NVMe 协议进行扩展,支持通过 InfiniBand 等网络访问远程存储设备。该技术支持构建共享存储资源池、实现可扩展的资源分配,让 GPU 和服务器可将高性能固态硬盘当作本地直连设备使用。

搭载 Solidigm 固态硬盘的英伟达 Magnum IO 架构 图 8. 搭载 Solidigm 固态硬盘的英伟达 Magnum IO 架构

端到端工作流程

  1. 主机服务器通过 GDS 发起连续读取
    GPU 服务器通过 gdsio 基准测试工具触发连续读取操作,该工具专为英伟达 GPUDirect Storage (GDS) 设计。该工具可完全绕过 CPU 与系统内存,从 GPU 内存空间直接向 DPU 仿真1的 NVMe 驱动器发送原生 NVMe 读取指令。
  2. DPU 捕获并转换 NVMe 指令
    DPU 作为仿真1 NVMe 驱动器的控制器,捕获上述 NVMe 读取指令. DPU 通过内置的 SNAP 框架将这些指令转换为 NVMe-oF 协议数据包。该转换过程在保留本地 NVMe 操作语义的同时,实现了网络远程存储访问的适配。
  3. 基于结构的 RDMA 传输
    转换后的 NVMe-oF 指令通过高速 InfiniBand RDMA 结构传输,该结构连接 GPU 服务器与搭载物理 Solidigm PCIe Gen5 固态硬盘的远程存储服务器。数据从远程固态硬盘直接传输至 GPU 内存缓冲区,无需在主机内存中进行中间暂存。
  4. 数据直接写入 GPU 内存
    DPU 的 SNAP 框架确保获取的数据通过 RDMA 直接写入 GPU 内存空间,完成读取操作。这一端到端的传输路径完全无需 CPU 参与,既能保持接近本地存储的延迟,又能实现吞吐量最大化。
  5. SNAP 队列
    在存储定义网络加速处理 (SNAP) 架构中,队列支持 I/O 操作的并行处理,可提升吞吐量、降低延迟。相较于单队列,32 队列配置可实现多核心间的负载均衡,避免性能瓶颈,提升整体表现。该配置是高效处理高流量应用的关键,可保障更快的响应速度与更强的系统扩展性。

性能基准测试:远程存储与本地存储对比

远程部署的系统配置

存储服务器

  1. 服务器:Supermicro AS1115C-TNR
  2. CPU:AMD EPYC 9124 (PCIe 5.0)
  3. DPU/NIC:B3140 Bluefield DPU 3
  4. 固态硬盘:
    Solidigm D7-PS1010(E1.S,7.68 TB,PCIe 5.0)
    Solidigm D7-P5520(U.2,7.68TB,PCIe 4.0)
  5. 操作系统:Ubuntu 20.04.6 LTS
  6. 内核:5.4.0-205-generic

计算服务器

  1. 服务器:Supermicro ARS-111GL-NHR
  2. CPU/GPU:Grace Hopper 200
  3. DPU:B3240 Bluefield DPU 3
  4. 操作系统:Ubuntu 22.04.5 LTS
  5. 内核:6.8.0-1021-nvidia-64k
  6. CUDA:12.6
  7. GDSIO:1.11

测试方法

比较了两种数据路径

  1. 本地存储:通过 GDS 访问本地直连固态硬盘。
  2. 远程存储:通过 GDS 访问由 DPU 仿真1的 NVMe-oF 驱动器(基于 InfiniBand 的固态硬盘)。

基准测试参数

  • 块大小:64KiB、128KiB、512KiB、1024KiB、4096KiB
  • SNAP 队列:1、7、15、23、31
  • 工作负载:连续读取
  • 队列深度 (QD):24/32
  • 指标:吞吐量 (GB/s)
  • 运行时间:45 秒

结果

IO 大小 PCIe 4.0 – Solidigm D7-P5520 7.68TB 固件:9CV10330 PCIe 5.0 – Solidigm D7-PS1010 7.68TB 固件:G77YG100
本地部署 (GiBps) 远程部署 (GiBps) 本地部署 (GiBps) 远程部署 (GiBps)
64KiB 4.42 4.14 12.38 10.42
128KiB 5.27 5.07 13.20 13.16
512KiB 6.50 6.45 13.41 13.50
1024KiB 6.58 6.70 13.48 13.85
4096KiB 6.46 6.50 13.48 13.85

表 3. PCIe 4.0 与 PCIe 5.0 结果的对比

SNAP 队列对 Solidigm D7-PS1010 E1.S 7.68TB 的性能影响

SNAP 队列 1  
(GiBps)
7  
(GiBps)
15 
(GiBps)
23 
(GiBps)
31 (GiBps)
64KiB 6.77 8.06 9.48 9.78 10.68
128KiB 9.18 11.1 12.68 12.73 12.93
512KiB 9.44 11.15 12.53 13.06 13.09
1024KiB 9.56 12.25 12.59 13.15 13.34
4096KiB 10.57 12.56 13.48 13.67 13.73

表 4. SNAP 队列的影响

Solidigm D7-P5520 本地部署与远程部署的吞吐量对比。 图 9. Solidigm D7-P5520 吞吐量
Solidigm D7-PS1010 本地部署与远程部署的吞吐量对比。 图 10. Solidigm D7-PS1010 吞吐量
SNAP 队列对本地部署与远程部署性能的影响对比。 图 11. SNAP 队列影响

核心结论与分析

1. 吞吐量持平

英伟达 Bluefield DPU 的协议卸载能力与 RDMA 技术将结构开销降至最低,实现了接近本地存储的吞吐量。从 PCIe Gen4 与 PCIe Gen5 固态硬盘的测试图表可看出,远程存储部署的吞吐量与本地存储部署基本持平。

2. 块大小的影响

测试发现,随着块大小增加,远程存储部署的吞吐量相较本地存储部署略有提升;而在较小的块大小场景下,远程存储部署的吞吐量略低,原因是较小块大小的结构传输开销更高。

3. SNAP 队列的影响

SNAP 队列是启用远程存储部署时的另一个重要考量因素。将 SNAP 队列数增加至 32 时,系统可同时处理更多 I/O 请求,减少潜在性能瓶颈,从而实现更高的吞吐量,这一点在不同队列数的测试图表中均有体现。

结论与未来发展方向

本白皮书验证了以下结论:英伟达 GPUDirect Storage 技术与 Solidigm PCIe Gen5 固态硬盘、DPU 驱动的 NVMe-oF 仿真技术1相结合,可实现远程存储性能与本地 NVMe 驱动器持平。该架构通过消除 CPU 性能瓶颈,并利用基于高速 InfiniBand 结构的 RDMA 技术,打造出可扩展、高性价比的 AI 基础设施,且不损失加速性能;同时验证了集中式存储资源池可替代本地驱动器,且能保障 GPU 工作负载效率不受影响。

对 AI 基础设施的意义

企业可通过存储与计算节点的解耦,减少硬件设备的冗余部署,降低运营成本;而 DPU 的任务卸载能力与精简的数据传输路径带来的能耗节约,可支撑企业实现可持续的系统扩展。该方案对分布式训练工作流程与边缘推理部署尤为重要,这两类场景均要求对共享数据集的低延迟访问。

展望未来,800G 网络、DPU 加速的计算存储技术的发展,以及与 Kubernetes 和机器学习框架的深度集成,将进一步夯实该架构的地位,使其成为下一代 AI 数据中心的核心基础。

建议

企业可考虑采用 GDS 与 DPU 技术,搭配 Solidigm PCIe Gen4 和/或 Gen5 固态硬盘处理海量数据工作负载,打造面向未来的 AI 基础设施;同时部署支持 RDMA 技术的结构,最大限度降低传输延迟。这种一体化架构可帮助企业在扩展 GPU 资源的同时,保持性能与成本的双重优势。

 


关于作者

Ashwin Pai 是 Solidigm 的系统验证工程师,具备在软件、硬件和系统工程方面近十年的经验。他专注于跨不同平台验证下一代固态硬盘技术,包括针对 AI 与数据密集型工作负载优化的平台。Ashwin 与跨职能团队合作,运用先进的 AI 方法与突破性创新技术,提升 Solidigm 固态硬盘在 AI 驱动环境中的性能表现。他拥有 VES 理工学院的电子工程学士学位和北卡罗来纳州立大学的计算机工程硕士学位。

Akhil Srinivas 是 Solidigm 的电气和系统工程师。他与行业领先的生态系统供应商合作,针对前沿存储解决方案完成 Solidigm 固态硬盘的验证测试。他运用新兴 AI 技术与开创性创新成果,推动 Solidigm 固态硬盘成为下一代平台的核心组件,深化 AI 领域的合作伙伴关系。工作之余,他热爱美食探索,走遍全美体验热门餐车与特色餐厅。Akhil 拥有 R.V. 工程学院的电信工程学士学位和加州大学戴维斯分校的电气与计算机工程硕士学位。

附录

1. 在进行 GDS 和 DOCA 的部署和安装时,我们参考了以下链接。

2. 执行的工作负载

  • gdsio -T 45  -s 512M -I 0 -x 0 -D /mnt -w 32 -d 0 -i 64k 
  • gdsio -T 45  -s 512M -I 0 -x 0 -D /mnt -w 32 -d 0 -i 128k 
  • gdsio -T 45  -s 2048M -I 0 -x 0 -D /mnt -w 24 -d 0 -i 512k 
  • gdsio -T 45  -s 2048M -I 0 -x 0 -D /mnt -w 24 -d 0 -i 1024k 
  • gdsio -T 45  -s 2048M -I 0 -x 0 -D /mnt -w 24 -d 0 -i 4096k

<T> 指定测试持续时间(秒)

<s> 设置数据集的大小

<I> 指示迭代计数,其中 0 通常表示连续或无限迭代,直到达到测试持续时间为止

<x> 定义传输类型,其中 0 通常表示读取操作

<D> 设置存储测试文件的目录路径

<w> 指定测试期间要使用的工作线程数

<d> 指示要使用的 GPU 设备 ID,<i> 设置 I/O 大小

3. 我们使用服务器管理控制台记录了服务器功耗。

注释

1. 在英伟达 DOCA SNAP 框架中,仿真指通过软件创建 NVMe 设备,该设备对于主机系统而言,功能与物理硬件完全一致。

免责声明

©2025, Solidigm. “Solidigm”是 SK hynix NAND Product Solutions Corp(经营别称:Solidigm)的注册商标,已在美国、中华人民共和国、新加坡、日本、欧盟、英国、墨西哥及其他国家/地区注册。

文中涉及的其他名称及商标属于各自所有者资产。

Solidigm 可随时在不另行通知的情况下修改规格和产品说明。

测试记录特定系统上具体测试中的组件性能。

硬件、软件或配置的任何不同都可能影响实际性能。

当您考虑购买时,请参考其他信息资源以评估产品性能。

上述结果均为初步结果,仅供参考。所述数值和声明既非最终版本,亦非官方内容。

文中涉及的磁盘驱动器可视为工程样品。产品指南请参阅产品路线图。