搜索

什么样的存储架构才是AI大模型时代的最佳选择?

2023年12月18日

郭洪星

华为分布式存储解决方案首席架构师

在华为举行的大模型时代AI存储新品发布会上，我们注意到非常关键的一句话，即“一套存储覆盖AI全流程”。什么是AI全流程？为什么要一套存储覆盖AI全流程？

通常，AI全流程包括数据获取、数据预处理、模型训练与评估、模型部署应用这四个阶段，每个阶段都涉及海量数据的存储与访问，当前大部分客户在AI各阶段的IT系统采用烟囱式的建设模式，例如数据收集与预处理阶段、模型训练阶段、推理阶段都有独立的存储集群，而各个阶段的数据需要相互协同。因此，我们认为到了AI大模型时代，这种建设模式将会遇到前所未有的挑战。

AI大模型发展趋势

随着人工智能技术的发展，为了让AI大模型拥有更强的涌现能力和泛化性，拥有更精准的语言语义理解和推理能力，从而实现认知智能。AI大模型存在三大发展趋势：

第一，大模型参数量继续呈指数增长，从千亿级“大模型”走向万亿级“超大模型”；

第二，大模型已从单模态走向多模态，将来还会走向全模态；用于训练的数据集从NLP大模型3TB，增长到多模态40TB，未来全模态将会达到PB级数据；

第三，对算力需求的增长速度大幅超越单GPU卡算力的增长速度，大模型训练集群的规模会变得越来越大。

AI开发平台未来面临的挑战

从AI全流程业务视角来看，上述趋势将带来以下几大挑战：

第一，随着AI大模型训练数据集的增长，当前主流的共享存储+本地SSD盘的存储架构已无法满足大模型的发展要求。

第二，在原始数据存储集群、数据预处理集群、AI模型训练集群烟囱式建设模式下，未来PB级数据频繁迁移将成为大模型生产效率的最大影响因素。

第三，更大规模的AI集群导致系统故障间隔时间进一步缩短，更高频度的CheckPoint给存储带来巨大写入带宽挑战。

数据总量和数据质量决定了AI大模型的高度，数据准备效率和数据在全流程间的流转效率将成为影响AI大模型端到端生产成本的核心要素。

AI大模型业务关键技术需求介绍

选择一套可以满足AI大模型快速发展的存储系统，对于提升大模型生产效率、降低大模型TCO至关重要。

那什么样的存储架构才是AI大模型时代的最佳选择呢？我认为它需要同时具备以下五个关键特征：

第1个关键特征：一套存储系统同时具备高性能层和大容量层，并对外呈现统一的命名空间，具备数据全生命周期管理的能力。首先，可以指定数据首次写入时的放置策略，例如在数据获取阶段，新获取的数据需要在短时间内处理的，可以直接放置到高性能层；而新获取的数据在短时间内无需处理的或用来长期归档的数据，则可以直接写入容量层；其次，可以设置丰富的数据分级流动策略，例如可以设置访问频度与时间相结合的流动策略，也可以设置容量水位触发的流动策略；再者，根据用户制定的分级策略，数据能够在高性能层和大容量层之间自动分级流动，数据分级迁移过程对业务应用完全透明；最后，对于已经分级到容量层的数据，用户可以通过命令或API对指定的数据集配置预热策略，以加速计划性任务的冷启动速度。

第2个关键特征：一套存储可以承载AI全流程业务，同时支持AI全流程工具链所需的NAS、大数据、对象、并行客户端等协议，且需要各协议语义无损，达到与原生协议一样的生态兼容性要求。此外，上述所有协议共享相同的存储空间，各协议采用Thin Provision的空间分配机制，具备AI各阶段存储空间动态快速调配的能力。

第3个关键特征：具备AI各流程协同所需要的数据高效流转能力。在各个阶段，基于不同协议生态的工具链，可以看到相同的数据和元数据，不同阶段协同需要做到数据0拷贝、格式0转换，前一阶段的输出可以直接作为下个阶段的输入，达到AI各阶段协同业务0等待的效果。

第4个关键特征：具备数千节点的横向扩展能力，系统架构需采用全对称式架构设计，没有独立的元数据服务节点，随着存储节点数的增加，系统带宽和元数据访问能力可实现线性增长。要能在AI训练每个epoch的shuffle阶段，提供高效的亿级文件列表获取能力；要能支撑住在上亿训练集文件上，通过为每个文件频繁创建新的硬链接，以实现训练集的版本管理能力。

第5个关键特征：一套系统、一套参数具备高性能动态混合负载的承载能力。在数据导入阶段，大小文件同时写入；在数据预处理阶段，大小文件批量读取处理后生成海量小文件；在模型训练阶段，海量小文件批量随机读取；在生成CheckPoint时，要能满足大高带宽写入；在模型部署阶段，即使大并发读取同一个模型文件，随着部署设备数量的增加，集群聚合吞吐带宽仍然可以线性增长。

观点总结

基于具备上述全部特征的存储系统，我们就可以为AI大模型搭建一个AI Native的数据湖存储平台：所有需要高效处理的数据均在高性能存储层完成；AI全流程各阶段协同时不再需要频繁迁移数据；可以大幅提升AI大数据训练数据准备效率，提升AI计算集群的GPU利用率，显著降低GPU算力投资成本和数据预处理的人力成本；缩短AI大模型开发的周期，降低电费开销。基于拥有AI Native架构的数据存储，初步预估生产一个千亿级参数的大模型端到端TCO可以降低10%以上。

对于存储系统来说，在一种或几种场景I/O模型下具有较好的性能表现并不难，而在AI大模型全流程工具链产生所有I/O模型下，性能都表现出色的存储系统已是凤毛麟角，如果该存储系统还同时具备上述五大关键特征，目前放到世界范围内来看华为OceanStor Pacific也是优先选择，这拼的是公司在分布式文件系统上十多年的持续投入积累起来的硬实力。

免责声明：文章内容和观点仅代表作者本人观点，供读者思想碰撞与技术交流参考，不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情，请访问产品与技术介绍页面或咨询华为公司人员。

郭洪星

华为分布式存储解决方案首席架构师

企业业务网站

华为云网站

运营商网络业务网站

消费者业务网站

集团网站

什么样的存储架构才是AI大模型时代的最佳选择?

AI大模型发展趋势

AI开发平台未来面临的挑战

AI大模型业务关键技术需求介绍

观点总结