搜索

Agentic AI时代，如何为百万上下文大模型提供推理加速？

2026年06月09日

章鹏

华为OceanDisk智能盘框技术专家

2026年，主流大模型上下文窗口正式突破百万 Token，参数规模迈入万亿级。然而，随着上下文持续增长，KV Cache规模同步指数级扩张。如何在超大规模场景下高效存储并低延迟访问KV Cache，已成为决定推理性能、吞吐能力与成本结构的关键变量。

传统推理存储架构面临的挑战

在大模型逐 Token 自回归生成过程中，每个Token都需与历史Token的Key-Value进行注意力计算。为避免重复计算，系统引入KV Cache缓存机制。但KV Cache具有明显区别于传统数据的特征：访问极其频繁、生命周期短、规模增长极快，并直接影响推理性能，而非持久化存储需求。

当前主流推理集群通常采用“显存—内存—本地闪存—网络存储”的层级架构。当推理规模较小时尚能满足业务需求，而超大规模数据中心 MaaS模型即服务、生成式推荐等性能敏感的业务场景中，该架构局限性正在逐步显现。

1. CPU成为I/O瓶颈

在传统架构中，KV Cache数据依赖 CPU 在不同介质之间完成数据搬移，而受限于CPU性能与PCIe通道数的限制，导致数据搬移效率低，NPU/GPU供数不足，造成算力资源空转和利用率下降。

2. 协议转换复杂

传统文件/块存储无法理解KV数据结构，访问需经过多次协议转换、元数据查询与多层软件栈处理，访问路径长且容易引入时延抖动，影响推理服务稳定性与用户体验。

3. 介质成本高昂

显存和内存虽然能够提供极高性能，但成本高昂，容量有限。仅依赖显存或内存扩容KV Cache池，将导致推理基础设施成本快速攀升，难以满足超大规模数据中心的商业化运营需求。

本质上看，传统推理存储架构已无法满足百万上下文推理需求。亟需一种面向KV Cache设计的新型架构，在保证性能的同时兼顾容量与性价比。

OceanDisk 1800基于 DPU 创新，助力超大规模数据中心推理加速

为解决推理场景中的KV Cache访问瓶颈，华为推出的 OceanDisk 1800 智能盘框，以DPU为核心构建KV Cache加速架构，实现存储与推理系统的协同优化。单框配置4颗DPU与24块NVMe SSD，提供160GB/s带宽与1600万IOPS极致性能，实现KV Cache数据高效供给。

OceanDisk 1800由三大核心模块构成：

• DPU加速引擎：DPU在硬件层卸载原生KV语义与存储管理服务，并通过参数网络与NPU/GPU直连，将路径压缩为“NPU/GPU—DPU—SSD”三跳架构，显著降低数据访问时延。

• DPU开发框架：支持开发者根据模型需求定制 KV 语义处理逻辑与加速算子。KV Cache 的压缩、检索与索引操作在 DPU 侧完成，实现近数据计算加速。

• KV Connector：作为 KV 管理引擎与通信库，为vLLM/SGLang/Mooncake等推理框架提供 API接口，支持基于 Key 的精确查找与预取，使请求可直达KV Cache所在DPU节点，减少数据寻址开销。

在解决方案层面，OceanDisk 1800作为存储部件与业界主流的推理框架进行整合。

计算侧，KV Connector对接推理框架定义的KV接口，直通算子可向存储直接发起KV IO，将所需的KV Cache数据逐层从盘框读取到显存中，同时将新生成的KV Cache数据从显存逐层写入到对应的盘框中。

存储侧，DPU中的NP核硬化卸载原生KV语义，IO到达DPU时由NP核直接查询KV索引（即Key到盘LBA的索引），确认Value存储所在的盘和LBA地址，然后NP核直接发起NVMe IO请求，实现KV IO端到端硬直通。此外，OceanDisk 1800引入了自研的双模多流大容量SSD盘，通过双模多流技术，盘寿命不仅能提升2倍以上，端到端推理成本还能降低30%。

实测验证：长序列场景TTFT优势显著

为了验证该方案价值，我们基于Qwen-32B模型进行测试，在KV Cache容量与缓存命中率一致的条件下，OceanDisk 1800方案的TTFT与纯内存池方案基本持平；在10K Token长文本场景下，受内存容量限制影响，传统内存池方案缓存命中率仅为15%；而OceanDisk 1800凭借大容量KV Cache池，将缓存命中率提升至90%。最终，TTFT从7.43秒降至1.31秒，推理速度提升5.64倍。

结果表明，通过重构推理存储架构，大容量KV Cache池能够实现在低并发与短序列场景接近内存级的TTFT体验，而在长序列场景命中率和响应速度可以提升数倍。

总结

随着百万上下文窗口和万亿参数大模型普及，KV Cache成为推理系统中规模最大、访问最频繁的数据，以DPU为中心的数据加速引擎正在成为推理基础设施演进的重要方向。OceanDisk 1800智能盘框通过原生KV语义、DPU硬件卸载和近数据计算能力，构建面向百万上下文的新一代推理存储架构，在性能、成本与扩展性之间实现平衡，为超大规模AI推理系统提供新的基础设施范式。

免责声明：文章内容和观点仅代表作者本人观点，供读者思想碰撞与技术交流参考，不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情，请访问产品与技术介绍页面或咨询华为公司人员。

其他文章

章鹏

华为OceanDisk智能盘框技术专家

企业业务网站

华为云网站

运营商网络业务网站

消费者业务网站

集团网站

Agentic AI时代，如何为百万上下文大模型提供推理加速？

传统推理存储架构面临的挑战

OceanDisk 1800基于 DPU 创新，助力超大规模数据中心推理加速

实测验证：长序列场景TTFT优势显著

总结