本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>
当今AI大模型迅猛发展,带来数据中心的巨大变革。今天我想跟大家探讨一个问题,为了更好地开发有竞争力的生成式AI,我们需要构建怎样的数据基础设施。
数据基础设施建设面临着巨大挑战。首先是AI集群的可用度。AI集群中GPU资源非常昂贵,但是GPU大多数时候处于等待状态。如何提高AI集群的可用度?这需要GPU、网络和存储的联合创新,其中存储尤为重要。
第二个挑战是数据韧性。如果遭遇勒索攻击,训练数据或者大模型参数数据被挟持,企业将面临巨大的损失。
最后是数据资产化。缺数据,无AI,数据对于AI来说十分重要。但是,很多企业CEO甚至不知道公司的数据资产存在哪里。如何确保企业的所有数据资产都可视、可管、可用?这同样也是一个挑战。
过去的几年里,华为在海内外参与了大量的AI数据中心建设项目,我们发现业界对生成式AI的数据基础设施建设理解不尽相同。
有人认为GPU越多,AI数据中心就会越强大,而事实是需要多种AI要素协同发展。GPU越多,意味着数据中心越复杂,同时效率越低。如果想要线性地提高效率,必须要重视数据存储。
也有很多人认为应该在AI训练中心的服务器中使用本地磁盘,从而提高速度。但事实并非如此,服务器本地盘并不稳定。设想如果在成千上万的训练卡、GPU卡同时工作的场景下,AI服务器的本地盘出现问题,整个数据集都必须重新训练,效率变得低下。
我们认为,AI训练中心建设推荐采用高带宽、高IOPS的存储,这对海量文件处理尤为重要。对于企业来说,构建AI数据基础设施有下面两种场景:
第一种场景是中心AI。中心AI通常用于训练L0或L1的大模型,数据中心需要使用数百甚至数千个GPU,还需要支持不同类型的数据,数据量也非常庞大。
第二种场景是边缘AI。对于中小企业而言,他们可能不需要建立非常大型且昂贵的AI数据中心,少量的GPU即可满足其AI诉求。
在中心AI场景下,AI训练开始时需要准备好数据给DPU,再发送到GPU、内存,以便下次训练。在此过程中,训练中断频频发生,据统计AI训练中心持续训练的时间最长仅为2.6天,导致GPU必须反复保存CKPT数据。在这种场景下,如果存储能够提供更高效的读写性能,就可以将AI集群的效率提升30%,这是非常惊人的数字。
为此,华为推出新一代高性能NAS存储OceanStor A800。OceanStor A800采用创新的数控分离架构,单引擎支持500GB/s带宽和2400万IOPS,大幅提升AI集群性能。此外,整个存储集群支持EB级容量扩展;每个引擎有16个插槽用于DPU或GPU扩展,可以增加更多算力。
从性能上看,OceanStor A800带宽是友商同类产品的4倍,IOPS达友商的8倍,可显著提升AI集群效率。
此外,数据韧性对AI数据中心非常重要。华为OceanStor存储新增勒索病毒检测能力,并推出OceanCyber数据安全卡。只要安装上数据安全卡,原有产品同样具备勒索病毒检测能力;通过蜜罐技术设置诱饵文件,勒索攻击侦测准确率高达99.9%;通过搭载DME数据管理引擎,能够实现对AI集群的精准安全策略管理。目前,我们的方案已通过第三方独立测试机构Tolly的测试和认证。
另外今年我们推出全新内置备份软件的OceanProtect E8000备份一体机,进一步降低用户成本。此外,该产品支持Scale-out横向扩展,结合全闪存技术,可以为大型AI数据中心提供数据保护。
一直以来,如何做好数据资产的管理是业界难题,我们也有相应的解决方案。基于OceanStor A系列高性能存储与OceanStor Pacific分布式存储的智能分级能力,加上DME内含的Omni-Dataverse全局文件系统,构建起更高效的AI数据湖解决方案,可以帮助客户了解数据集的位置,更好地利用这些数据集,实现企业数据资产可视、可管、可流动。即使数据中心在多地部署,Omni-Dataverse也可准确感知数据位置、数据类型并进行高效地数据处理,用于AI训练。
对于边缘AI场景,华为提供FusionCube A3000训/推超融合一体机解决方案,包含AI服务器、知识库存储,以及大模型软件和管理软件。开箱即用,支持多种业务场景,如自动编程、人工助手等。很多人说,生成式AI很美好,但它太复杂、太昂贵。而我们的“一站式”解决方案,不需要采用任何复杂的工序、技术、组件,就可以快速部署AI。
以上就是华为发布的四大AI-Ready解决方案。如果您需要部署存储设备,请选择AI-Ready的存储产品,例如华为OceanStor A系列存储,它可以帮助您在未来建设生成式AI数据基础设施时,避免浪费投资。第二个是AI数据保护方案和OceanProtect E8000备份一体机,为企业提供高效、大容量的备份存储方案。第三是AI数据湖解决方案,它可以帮助您轻松管理数据资产。对于中小企业来说,边缘AI解决方案非常重要,我们提供面向边缘AI的FusionCube A3000训/推超融合一体机产品,帮助企业快速部署AI。
在这个AI时代,数据正在觉醒。让我们携手构建领先的AI-Ready数据基础设施。
免责声明:文章内容和观点仅代表作者本人观点,供读者思想碰撞与技术交流参考,不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情,请访问产品与技术介绍页面或咨询华为公司人员。