现代 AI 工作负载对海量数据集的访问提出了前所未有的要求:高数据吞吐量、低延迟。传统存储架构依赖 CPU 实现 NVMe 固态硬盘与 GPU 间的数据传输,其性能已难以匹配 GPU 的计算能力。以 Solidigm™ D7-PS1010 为代表的数据中心级固态硬盘,连续读取速度可达 14,500MB/s,但要释放其全部性能潜力,需重新设计 GPU 与本地存储及分布式远程系统存储的交互方式。
英伟达 GPUDirect Storage (GDS) 支持 GPU 与 NVMe 固态硬盘之间的直接内存访问 (DMA),从根本上消除 CPU 性能瓶颈。作为英伟达 Magnum IO SDK 的组成部分,GDS 可与 CUDA 等框架集成,跳过 CPU/内存的数据暂存环节,在降低传输延迟的同时,释放 CPU 资源以处理核心管理任务。
GDS 技术虽能优化本地存储访问,但现代 AI 基础设施亟需可扩展的解决方案,实现存储与单个 GPU 节点的解耦。英伟达数据处理单元 (DPU) 可分担存储与网络任务,填补这一技术空白,并通过自身的 SNAP 框架实现远程 NVMe-over-Fabric (NVMe-oF) 仿真1。Solidigm PCIe Gen5 固态硬盘可虚拟化为基于高速结构的远程驱动器,支持 GPU 访问分布式存储资源池。该架构融合了 GDS 的直接数据传输路径与 DPU 驱动的结构扩展能力,为 AI 工作负载提供一体化存储解决方案。
硬件
软件
比较了两种数据路径
1. GDS 路径:GPU 与固态硬盘之间的直接 DMA 数据传输。
2. 传统路径:数据移动路径为固态硬盘 → CPU/内存 → GPU
| 驱动器 | D7-P5520 - 7.68TB (PCIe Gen4) | |||
|---|---|---|---|---|
| 测试 | GDS 路径 | CPU-GPU(传统路径) | ||
| IO 大小 | 吞吐量 (GiBps) | CPU_USR(%) | 吞吐量 (GiBps) | CPU_USR(%) |
| 64KiB | 4.35 | 0.14 | 4.30 | 0.92 |
| 128KiB | 5.21 | 0.08 | 5.18 | 0.56 |
| 512KiB | 6.50 | 0.03 | 6.51 | 0.20 |
| 1024KiB | 6.59 | 0.02 | 6.64 | 0.12 |
| 4096KiB | 6.62 | 0.01 | 6.63 | 0.06 |
表 1. Solidigm D7-P5520 固件:9CV10330(U.2,7.68TB,PCIe 4.0)
| 驱动器 | D7-PS1010 - 7.68 TB (PCIe Gen5) | |||
|---|---|---|---|---|
| 测试 | GDS 路径 | CPU-GPU(传统路径) | ||
| IO 大小 | 吞吐量 (GiBps) | CPU_USR(%) | 吞吐量 (GiBps) | CPU_USR(%) |
| 64KiB | 12.38 | 0.51 | 12.70 | 3.15 |
| 128KiB | 13.20 | 0.27 | 13.48 | 1.64 |
| 512KiB | 13.41 | 0.04 | 13.48 | 0.46 |
| 1024KiB | 13.48 | 0.02 | 13.48 | 0.29 |
| 4096KiB | 13.48 | 0.01 | 13.48 | 0.14 |
表 2. Solidigm D7-PS1010 固件:G77YG100(E1.S,7.68TB,PCIe 5.0)
本节将展示 Solidigm 固态硬盘在英伟达 Magnum IO 架构中的性能表现,该架构包含英伟达 Magnum IO GPUDirect Storage 技术及英伟达 NVMe SNAP 框架。1
DPU 是一款专用处理器,可从 CPU 处分担基础设施层任务,包括网络、存储、安全防护等。英伟达 Bluefield DPU 融合多核心 Arm CPU、高速网络模块与硬件加速器,以优化数据中心效率。
SNAP 是由 DPU 加速的框架,可将远程固态硬盘虚拟化为本地 NVMe 驱动器。SNAP 在英伟达 DPU 的容器中运行,可将本地 NVMe 指令转换为 NVMe-oF 协议数据包,实现远程存储与 GPU 内存之间的直接 RDMA 传输。
NVMe-oF 技术对 NVMe 协议进行扩展,支持通过 InfiniBand 等网络访问远程存储设备。该技术支持构建共享存储资源池、实现可扩展的资源分配,让 GPU 和服务器可将高性能固态硬盘当作本地直连设备使用。
存储服务器
计算服务器
比较了两种数据路径
| IO 大小 | PCIe 4.0 – Solidigm D7-P5520 7.68TB 固件:9CV10330 | PCIe 5.0 – Solidigm D7-PS1010 7.68TB 固件:G77YG100 | ||
|---|---|---|---|---|
| 本地部署 (GiBps) | 远程部署 (GiBps) | 本地部署 (GiBps) | 远程部署 (GiBps) | |
| 64KiB | 4.42 | 4.14 | 12.38 | 10.42 |
| 128KiB | 5.27 | 5.07 | 13.20 | 13.16 |
| 512KiB | 6.50 | 6.45 | 13.41 | 13.50 |
| 1024KiB | 6.58 | 6.70 | 13.48 | 13.85 |
| 4096KiB | 6.46 | 6.50 | 13.48 | 13.85 |
表 3. PCIe 4.0 与 PCIe 5.0 结果的对比
SNAP 队列对 Solidigm D7-PS1010 E1.S 7.68TB 的性能影响
| SNAP 队列 | 1 (GiBps) |
7 (GiBps) |
15 (GiBps) |
23 (GiBps) |
31 (GiBps) |
|---|---|---|---|---|---|
| 64KiB | 6.77 | 8.06 | 9.48 | 9.78 | 10.68 |
| 128KiB | 9.18 | 11.1 | 12.68 | 12.73 | 12.93 |
| 512KiB | 9.44 | 11.15 | 12.53 | 13.06 | 13.09 |
| 1024KiB | 9.56 | 12.25 | 12.59 | 13.15 | 13.34 |
| 4096KiB | 10.57 | 12.56 | 13.48 | 13.67 | 13.73 |
表 4. SNAP 队列的影响
英伟达 Bluefield DPU 的协议卸载能力与 RDMA 技术将结构开销降至最低,实现了接近本地存储的吞吐量。从 PCIe Gen4 与 PCIe Gen5 固态硬盘的测试图表可看出,远程存储部署的吞吐量与本地存储部署基本持平。
测试发现,随着块大小增加,远程存储部署的吞吐量相较本地存储部署略有提升;而在较小的块大小场景下,远程存储部署的吞吐量略低,原因是较小块大小的结构传输开销更高。
SNAP 队列是启用远程存储部署时的另一个重要考量因素。将 SNAP 队列数增加至 32 时,系统可同时处理更多 I/O 请求,减少潜在性能瓶颈,从而实现更高的吞吐量,这一点在不同队列数的测试图表中均有体现。
本白皮书验证了以下结论:英伟达 GPUDirect Storage 技术与 Solidigm PCIe Gen5 固态硬盘、DPU 驱动的 NVMe-oF 仿真技术1相结合,可实现远程存储性能与本地 NVMe 驱动器持平。该架构通过消除 CPU 性能瓶颈,并利用基于高速 InfiniBand 结构的 RDMA 技术,打造出可扩展、高性价比的 AI 基础设施,且不损失加速性能;同时验证了集中式存储资源池可替代本地驱动器,且能保障 GPU 工作负载效率不受影响。
企业可通过存储与计算节点的解耦,减少硬件设备的冗余部署,降低运营成本;而 DPU 的任务卸载能力与精简的数据传输路径带来的能耗节约,可支撑企业实现可持续的系统扩展。该方案对分布式训练工作流程与边缘推理部署尤为重要,这两类场景均要求对共享数据集的低延迟访问。
展望未来,800G 网络、DPU 加速的计算存储技术的发展,以及与 Kubernetes 和机器学习框架的深度集成,将进一步夯实该架构的地位,使其成为下一代 AI 数据中心的核心基础。
企业可考虑采用 GDS 与 DPU 技术,搭配 Solidigm PCIe Gen4 和/或 Gen5 固态硬盘处理海量数据工作负载,打造面向未来的 AI 基础设施;同时部署支持 RDMA 技术的结构,最大限度降低传输延迟。这种一体化架构可帮助企业在扩展 GPU 资源的同时,保持性能与成本的双重优势。
Ashwin Pai 是 Solidigm 的系统验证工程师,具备在软件、硬件和系统工程方面近十年的经验。他专注于跨不同平台验证下一代固态硬盘技术,包括针对 AI 与数据密集型工作负载优化的平台。Ashwin 与跨职能团队合作,运用先进的 AI 方法与突破性创新技术,提升 Solidigm 固态硬盘在 AI 驱动环境中的性能表现。他拥有 VES 理工学院的电子工程学士学位和北卡罗来纳州立大学的计算机工程硕士学位。
Akhil Srinivas 是 Solidigm 的电气和系统工程师。他与行业领先的生态系统供应商合作,针对前沿存储解决方案完成 Solidigm 固态硬盘的验证测试。他运用新兴 AI 技术与开创性创新成果,推动 Solidigm 固态硬盘成为下一代平台的核心组件,深化 AI 领域的合作伙伴关系。工作之余,他热爱美食探索,走遍全美体验热门餐车与特色餐厅。Akhil 拥有 R.V. 工程学院的电信工程学士学位和加州大学戴维斯分校的电气与计算机工程硕士学位。
1. 在进行 GDS 和 DOCA 的部署和安装时,我们参考了以下链接。
2. 执行的工作负载
<T> 指定测试持续时间(秒)
<s> 设置数据集的大小
<I> 指示迭代计数,其中 0 通常表示连续或无限迭代,直到达到测试持续时间为止
<x> 定义传输类型,其中 0 通常表示读取操作
<D> 设置存储测试文件的目录路径
<w> 指定测试期间要使用的工作线程数
<d> 指示要使用的 GPU 设备 ID,<i> 设置 I/O 大小
3. 我们使用服务器管理控制台记录了服务器功耗。
1. 在英伟达 DOCA SNAP 框架中,仿真指通过软件创建 NVMe 设备,该设备对于主机系统而言,功能与物理硬件完全一致。
©2025, Solidigm. “Solidigm”是 SK hynix NAND Product Solutions Corp(经营别称:Solidigm)的注册商标,已在美国、中华人民共和国、新加坡、日本、欧盟、英国、墨西哥及其他国家/地区注册。
文中涉及的其他名称及商标属于各自所有者资产。
Solidigm 可随时在不另行通知的情况下修改规格和产品说明。
测试记录特定系统上具体测试中的组件性能。
硬件、软件或配置的任何不同都可能影响实际性能。
当您考虑购买时,请参考其他信息资源以评估产品性能。
上述结果均为初步结果,仅供参考。所述数值和声明既非最终版本,亦非官方内容。
文中涉及的磁盘驱动器可视为工程样品。产品指南请参阅产品路线图。