本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>
[中国,北京,2026年5月30日] 5月28日,在2026 GDCT数据中心市场年会上,华为推出面向超大规模数据中心推理场景的 OceanDisk 1800智能盘框,以提升Token生成效率、降低推理服务成本为核心,加速AI应用规模化落地。
华为分布式存储领域副总裁杨小林发表《重构AI时代存储架构,加速超大规模数据中心AI推理》主题演讲。他表示,随着AI推理应用全面进入规模化落地阶段,Token生成效率与成本正成为决定AI产业发展的关键因素。

华为数据存储分布式领域副总裁 杨小林
随着Agentic AI快速发展,大模型正加速融入生产业务系统,AI价值创造方式也从参数规模驱动转向Token生成效率驱动。行业数据显示,2026年中国日均Token调用量预计突破140万亿,相比2024年初增长超1000倍,AI推理应用正进入爆发式增长阶段。
超大规模数据中心的AI服务(如MaaS、AI Agent、生成式推荐等)持续演进,使得单位Token成本、推理时延及xPU吞吐性能直接影响企业商业模式的可行性与最终用户体验。尤其随着长文本(Long Context)推理需求持续增长,128K至1M上下文逐渐成为行业标配,KV Cache容量需求快速迈向百PB乃至千PB级别,传统推理存储架构面临新的挑战。
华为认为,当前业界KV Cache存储方案仍面临两大核心挑战:
1. 内存方案成本高昂:依赖显存或内存的方案虽具备低时延优势,但受限于介质成本,单卡通常仅能获得GB级KV Cache容量,难以支撑超大规模推理服务的业务需求,导致TCO居高不下。
2. 传统外置存储性能瓶颈:在承载KV Cache数据的场景下,基于文件系统的传统存储方案I/O路径长、协议转换复杂与频繁的CPU上下文切换问题,时延容易抖动,影响推理服务的稳定性与用户体验。
面对上述挑战,业界亟需一种兼具内存级体验与闪存级高性价比的新型KV Cache存储新架构。华为推出的OceanDisk 1800智能盘框,以高性能DPU为核心,借助DPU中的NP核(Network Process Core)硬化卸载原生KV语义,实现KV Cache数据从推理服务器xPU直接访问存储,彻底旁路CPU、DRAM,从根本上重构了AI推理的数据访问路径。
OceanDisk 1800智能盘框实现了两大关键技术突破。
第一,内存级体验:通过原生KV语义与xPU直通能力,极大优化了KV Cache数据换入换出效率。实验室原型验证表明,其首Token时延(TTFT)可与内存方案持平;同时通过DPU打破共享边界,实现大容量SSD资源的动态分配,单xPU的可用KV Cache容量从GB级跃升至TB级,缓存命中率显著提高,TTFT可进一步降低80%。
第二,闪存级经济性:在性能优化的同时,采用大容量全闪介质与高密硬件,可扩展为PB级共享KV Cache池,使得单位Token成本降低30%。
基于DPU的OceanDisk 1800智能盘框不仅是推理存储架构的一次技术创新,更是AI数据基础设施向高效率、低成本、规模化演进的重要方向。未来,华为将持续投入推理场景的产品研发与创新,推动AI推理存储架构持续升级,以更优的成本效益释放超大规模数据中心的AI潜力,加速AI技术在更多行业场景中的规模化落地。