搜索

AI数据湖，打破数据孤岛，助力AI大模型发展

2024年06月18日

余乐清

华为数据存储产品线

大模型业务发展趋势与挑战

自从2022年11月ChatGPT发布以来，AI大模型得到迅猛发展，2023年底Google发布的Gemini大模型可以同时识别文本、图像、音频、视频和代码五种类型信息，并生成高质量的图像内容；今年2月份OpenAI发布的Sora大模型能够根据文字指令创造出长达1分钟的逼真视频。AI大模型的发展速度远超人们的预期。

从ChatGPT到Gemini再到Sora，主要带来了两方面的变化：

首先，随着AI大模型从NLP走向多模态，训练语料从纯文本变成了集文本、视频、图片和语音多种数据类型的混合体，AI大模型的数据呈现万倍的增长。

其次，算力、算法和数据是AI大模型发展的核心三要素，算法和数据相互依存，AI大模型的规模正在从千亿参数到万亿演进，将来甚至会扩张到十万亿级别，训练AI大模型所需要的数据量同样要飞速增加，缺数据将成为AI大模型训练的新常态。

数据作为AI三要素之一，对大模型的发展起着至关重要的作用，数据的数量与质量将决定着AI智能的高度。然而，当前数据散落在众多的数据中心中，形成了一个个数据孤岛，如何打破数据孤岛，将分散的数据有效地利用起来，成为AI大模型厂家面临的最大挑战。

大模型开发过程中，为了收集更多的数据作为训料，需要频繁进行数据的跨域搬迁。通常数据准备时间在大模型生产全流程中占比超过60%，因此，如何提升数据准备效率，避免数据反复搬迁成为大模型基础设施建设过程中的首要问题。

以某大型银行为例，53年内积累的超100PB数据，每天实时产生300TB数据，这些数据被分散存储在多个数据中心。如何让这些分散的数据流动起来，变成供AI大模型学习的语料，已成为该银行技术部门急需解决的问题。因此，构建一个高效的数据存储和流通平台，对于AI大模型的发展至关重要。

理想的AI存储解决方案具有哪些核心能力？

AI数据湖，打破数据孤岛，助力AI大模型发展

AI数据湖是集数据存储、编织、管理、流动于一体的数据存储解决方案，能够帮助企业构建更高效，更智能，更满意的AI大模型。

AI数据湖不仅能够实现对企业内部多源异构数据的统一存储和管理，还能够提供高效的数据处理和分析能力，为企业提供全方位的数据服务。通过构建AI数据湖，企业可以打破传统数据中心的限制，实现数据的全局可视和高效流动，为AI大模型的训练提供源源不断的动力。

其次，数据要素流通是实现数据价值最大化的关键，AI数据湖的建设是加速企业数据要素流通，释放数据价值的必由之路。AI数据湖通过构建全局文件系统，能够实现多中心数据资产的全局可视，帮助企业清晰地了解自身数据资源的分布和状况。同时，通过优化数据存储与传输机制，数据可以在多个数据中心之间按需高效流动，为AI大模型的训练提供源源不断的数据支持。值得一提的是，数据的流通还能够促进各行业私域数据的共享和整合，不同行业的数据具有各自独特的价值和特征，通过将这些数据进行融合和分析，可以挖掘出更多有价值的信息和规律，这对于提升AI大模型的性能和准确性具有重要意义。

因此，理想的AI存储解决方案应具备以下几个核心能力：

支持数据全局管理和高效流通：应具备数据全局管理能力，高效服务于上层AI大模型开发与训练，同时能满足企业跨数据中心的数据高效流通；

具备高性能：AI工作负载通常涉及大量的数据处理和计算，因此存储系统需要具备高吞吐量和低延迟的性能，以满足实时分析和模型训练的需求；

具备大容量以及可扩展性：AI模型和数据集往往非常大，存储系统需要具备足够的容量来存储这些数据和模型，并且要随着需求的增长灵活地扩展；

保证数据持久性和安全性：AI数据通常具有很高的价值，因此存储系统必须保证数据的安全性和可靠性，能够抵御硬件故障、数据损坏等风险，提供数据备份和恢复功能。对于敏感信息，存储需要具备安全功能，保护数据不被恶意访问或泄露；

兼顾成本效益：在满足性能、容量和可靠性等要求的同时，存储解决方案应提供合理性价比，使热温冷数据按需流动；

支持与AI平台和工具集成：理想的AI存储，应支持与各类AI平台和工具无缝集成，并支持通过不同平台和工具、多种协议类型对数据进行高效访问。

典型AI数据湖解决方案及价值

华为近期推出AI数据湖解决方案，对以上核心能力进行了充分的整合，为企业打破数据孤岛、实现数据要素的流通提供了有力的支持，该解决方案具备三重优势。

AI数据湖，打破数据孤岛，助力AI大模型发展

首先，AI数据湖解决方案具备构建GFS全局文件系统的能力，能够将多个数据中心的资源整合形成全局统一视图，数据全局可视、按需调用，为AI大模型的训练提供了丰富的数据资源，解决了AI大模型数据资源匮乏的问题。

其次，在构建AI数据湖的过程中，必须加强对数据的安全管理和隐私保护，确保数据的合法性和合规性，只有在保障数据安全的前提下，才能更好地发挥数据的价值，推动AI大模型的发展。因此，华为AI数据湖解决方案通过统一数据调动能力，让数据按需高效流动，并且支持数据跨中心按需缓存加速、跨域自动分级，支持在多数据中心间进行数据容灾。同时能够实现对全域数据进行精细化访问控制，帮助用户实现对全域数据的有序管理。

最后，为了应对模型训练过程中频繁加载训练集和CheckPoint而导致的GPU等待时间过长、算力利用率不高的问题，华为AI数据湖解决方案还提供了存、算、网深度协同的访问加速技术，通过GPU/NPU直通存储技术、小文件智能预取等技术突破了小文件和大带宽性能瓶颈，实现算力数据访问零等待，彻底解决了因算力等待而导致的AI集群系统利用率不高的问题。

总体来看，AI数据湖解决方案以其独特的优势和技术实力，为企业打破数据孤岛、实现数据要素的流通提供了有力的支持。随着技术的不断进步和应用场景的不断拓展，AI数据湖将在未来发挥更加重要的作用，为AI大模型的发展注入新的动力，推动智能技术的不断创新和发展。

免责声明：文章内容和观点仅代表作者本人观点，供读者思想碰撞与技术交流参考，不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情，请访问产品与技术介绍页面或咨询华为公司人员。

余乐清

华为数据存储产品线

企业业务网站

华为云网站

运营商网络业务网站

消费者业务网站

集团网站

AI数据湖，打破数据孤岛，助力AI大模型发展

大模型业务发展趋势与挑战

理想的AI存储解决方案具有哪些核心能力？

典型AI数据湖解决方案及价值