AI 正加速推动存储架构从混合阵列向全闪阵列转型

企业 IT 部门面临着多重需求的协同挑战。需兼顾当前与未来的应用需求,同时考量基础设施的资本支出与运营支出,以及功耗、散热与空间限制。当然,还需确保持续稳定的业务运营。

除新建项目外,多数企业数据中心仍采用混合 (SSD+HDD) 存储阵列。但存在另一种解决方案:全闪存存储阵列 (AFA)。这种纯固态硬盘配置能为企业在多个维度带来显著优势,尤其适用于 AI 应用场景。众多领先的 IT 团队已转向 AFA 存储,而更多企业也正在探索如何借助其满足 AI 数据需求。

AI 技术正开辟全新业务模式,并为关键流程提供更优支撑。然而,IT 部门在实施 AI 过程中面临多重挑战,包括昂贵的新型计算设备、电力与散热基础设施以及 AI 应用本身。鉴于 AI 基础设施的高昂成本,确保其高利用率成为核心关切。充足的 IO 性能是维持 AI 基础设施高效运转的关键因素之一。

然而,AI 应用为企业带来的真正价值并不在于训练或推理本身,而在于其所赋能的企业整体能力提升。例如:

  • 推荐引擎虽是极具吸引力的解决方案,但其真正价值体现在客户点击推荐内容的行为上。此时,整个 IT 基础设施将协同运作,支撑该点击行为以促成新交易。这些并非独立或单次性事务。零售业每年都会在“黑色星期五”和圣诞促销季严阵以待,力求跟上由顾客网络活动引发的所有销售动态。
  • 视觉系统在识别与追踪场景中的物体或人员方面表现出色。然而,利用该功能来追踪顾客行为、诊断异常或识别瑕疵部件仅是其中一环。企业如何运用这些信息,还需依赖运行在额外基础设施上的应用程序来付诸行动。这正是物体追踪与人员追踪技术真正商业价值的所在。
  • 大语言模型 (LLM) 是一项令人瞩目的新技术,但为使其适用于企业场景并减少“幻觉”现象,大多数机构会结合向量数据库与检索增强生成系统共同使用。RAG 系统接收企业数据,对其进行编码、嵌入或向量化处理,加载至向量数据库并建立索引,通过查询为任何输入提示添加企业专属上下文。向量数据库的加载、索引构建与数据访问均属于显著的 I/O 密集型工作负载。根据提示活动频率与新信息获取速率,这些操作可能消耗大量 I/O 资源。

任何此类 AI 辅助或后续活动理论上可采用混合存储,但随着 I/O 压力上升,混合系统的性能往往开始下降。即当 I/O 需求处于高位时,混合存储系统常出现响应延迟。

混合存储的 I/O 性能问题均源于其基础架构设计。本质上,这类系统致力于优化数据布局,使热数据(高频访问数据)驻留于固态硬盘,而冷数据(低频访问数据)存储于机械硬盘。对于易于按活跃度分类的数据,该机制或许运行良好;但当数据难以简单分类或访问活动激增时,往往需要频繁在机械硬盘与固态硬盘间迁移数据,即产生“颠簸”现象。颠簸会加剧混合系统的工作负载,而此时系统本应全力处理应用 I/O 需求。

数据布局策略是混合存储与全闪存存储的关键差异点

需指出的是,混合存储供应商采用差异显著的数据布局优化方案,以减少并控制此类额外数据迁移。但归根结底,当需要访问冷数据时,必须将其移至固态硬盘或直接从机械硬盘读取。当热数据不再被频繁访问时,则需移回机械硬盘以释放空间容纳新的热数据。

另一方面,在高 I/O 负载期间,全闪存阵列 (AFA) 系统几乎不存在混合阵列那般显著的数据迁移或性能问题。这是因为全闪存系统无需访问低速存储层来卸载数据或检索长期未访问的数据。无论系统复杂程度如何,全闪存存储中观察到的 I/O 延迟与性能波动范围远小于混合系统。因此,全闪存系统能够提供更为稳定、高水平的 I/O 性能,且不受访问模式影响。

全闪存系统在写入数据以释放已用存储页时,确实存在固态硬盘层面的内部数据迁移,并通过内部虚拟化机制管理设备内的数据存储位置。然而,此类迁移与虚拟化过程对读取 I/O 几乎不产生额外开销,仅对写入操作有轻微影响,且仅引起设备内部单向的数据迁移。数据从即将释放的存储页迁移至新存储页,而在垃圾回收过程中无需再次回迁。

全闪存阵列的优势

在先前的博客文章《高效能存储的非凡力量》中,我们详细探讨了相较于全机械硬盘系统,Solidigm QLC 固态硬盘如何显著降低空间与功耗需求,从而为 AI 训练与推理的数据湖提供支持。总结该文核心发现:在支持 1PB 数据的AI场景中,采用Solidigm 61.44TB QLC 固态硬盘的解决方案,相比全机械硬盘方案可减少驱动器数量(521 个固态硬盘对比 1800 个机械硬盘)、降低功耗(减少 22.2 千瓦)并节约机架空间(约减少 60 个机架单位)。

对比混合存储与全闪存存储时,优势不仅体现在性能、空间、功耗与散热方面。例如,固态硬盘的可靠性远优于机械硬盘存储。对于消费级存储,固态硬盘的可靠性至少比机械硬盘高出三分之一或以上。

而企业级 Solidigm 固态硬盘经过远超常规固态硬盘行业标准的严格测试,其可靠性表现更为卓越。事实上,在超过 35 亿年的模拟运行寿命中,Solidigm 固态硬盘尚未检测到任何数据损坏事件。1

既然全闪存与混合系统的维护成本已涵盖维修服务,更高可靠性如何为企业带来实际收益? 企业为混合系统与全闪存系统支付的维护费用受多重因素影响难以直接比较,但通常故障率更高的系统因需更多备件库存与服务支持,总体成本会更高。此外,当机械硬盘发生故障时,混合存储系统的性能衰减程度远高于固态硬盘故障时的表现。2

采用纠删码数据保护的系统可体现这种差异。当 RAID 条带中的某个固态硬盘或机械硬盘发生故障时,需读取该条带内所有其余驱动器以重建丢失数据。重建过程耗时取决于驱动器速度与容量,可能持续较长时间。固态硬盘的带宽约是机械硬盘的 10 至 25 倍。同时,固态硬盘的 I/O 延迟为微秒级,而机械硬盘为毫秒级,固态硬盘的 I/O 速度比机械硬盘快约 1,000 倍。因此,相同容量驱动器的重建时间,固态硬盘远短于机械硬盘。

在重建过程中,存储系统负载显著增加,这会进一步延长系统恢复至全性能状态所需的时间。上述分析表明,当混合系统中的机械硬盘发生故障时(需注意:在运行三年后,机械硬盘的故障率高于固态硬盘,3系统在重建期间的性能将受到更严重的影响。因此,虽然全闪存阵列中的固态硬盘故障同样会造成系统性能下降,但其更快的读写速度与更高带宽意味着重建时间显著缩短。

全闪存是存储的未来

历史趋势对混合阵列并不乐观。虽然混合阵列已在数据中心存在数十年,但企业级硬盘出货量早在十多年前已达到峰值。

有观点认为机械硬盘出货量的下降趋势似乎正在趋缓。但这并未反映全貌。企业级机械硬盘的出货量有所下降,4目前仍在大量出货的机械硬盘只有用于速度较慢的对象存储的近线硬盘。正当企业级硬盘出货量开始急剧下滑之时,固态硬盘的出货量却开始显著增长。

综上所述,针对企业级 AI 应用,采用全闪存阵列相较于混合存储阵列具有多重优势。这些优势包括:关键业务时段更高且更稳定的 IO 性能、更高的可靠性、更低的功耗与散热需求,以及更小的空间占用等等。

此外,企业级硬盘出货量的下滑与固态硬盘出货量的攀升进一步表明,混合存储的时代已进入倒计时。全闪存存储系统正日益成为企业应对 AI 工作负载及其他类似高 IO 密集型需求的新型主要存储解决方案。


关于作者

Ace Stryker 是 Solidigm 的市场开发总监,他主要负责公司数据中心存储解决方案产品组合中的各种新应用,并在 AI 工作负载与解决方案方面拥有深厚的专业积累。

  1. 来源:Solidigm。Soft Error Rates conducted at Los Alamos Labs, at 1TB/day
  2. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/08/a7-narayanan.pdf
  3. https://www.backblaze.com/blog/how-reliable-are-ssds/
  4. https://www.statista.com/statistics/285474/hdds-and-ssds-in-pcs-global-shipments-2012-2017/