本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

搜索

Agentic AI时代,如何为百万上下文大模型提供推理加速?

2026年06月09日

2026年,主流大模型上下文窗口正式突破百万 Token,参数规模迈入万亿级。然而,随着上下文持续增长,KV Cache规模同步指数级扩张。如何在超大规模场景下高效存储并低延迟访问KV Cache,已成为决定推理性能、吞吐能力与成本结构的关键变量。

传统推理存储架构面临的挑战

在大模型逐 Token 自回归生成过程中,每个Token都需与历史Token的Key-Value进行注意力计算。为避免重复计算,系统引入KV Cache缓存机制。但KV Cache具有明显区别于传统数据的特征:访问极其频繁、生命周期短、规模增长极快,并直接影响推理性能,而非持久化存储需求。

当前主流推理集群通常采用“显存—内存—本地闪存—网络存储”的层级架构。当推理规模较小时尚能满足业务需求,而超大规模数据中心 MaaS模型即服务、生成式推荐等性能敏感的业务场景中,该架构局限性正在逐步显现。

1. CPU成为I/O瓶颈

在传统架构中,KV Cache数据依赖 CPU 在不同介质之间完成数据搬移,而受限于CPU性能与PCIe通道数的限制,导致数据搬移效率低,NPU/GPU供数不足,造成算力资源空转和利用率下降。

2. 协议转换复杂

传统文件/块存储无法理解KV数据结构,访问需经过多次协议转换、元数据查询与多层软件栈处理,访问路径长且容易引入时延抖动,影响推理服务稳定性与用户体验。

3. 介质成本高昂

显存和内存虽然能够提供极高性能,但成本高昂,容量有限。仅依赖显存或内存扩容KV Cache池,将导致推理基础设施成本快速攀升,难以满足超大规模数据中心的商业化运营需求。

本质上看,传统推理存储架构已无法满足百万上下文推理需求。亟需一种面向KV Cache设计的新型架构,在保证性能的同时兼顾容量与性价比。

OceanDisk 1800基于 DPU 创新,助力超大规模数据中心推理加速

为解决推理场景中的KV Cache访问瓶颈,华为推出的 OceanDisk 1800 智能盘框,以DPU为核心构建KV Cache加速架构,实现存储与推理系统的协同优化。单框配置4颗DPU与24块NVMe SSD,提供160GB/s带宽与1600万IOPS极致性能,实现KV Cache数据高效供给。

OceanDisk 1800由三大核心模块构成:

• DPU加速引擎:DPU在硬件层卸载原生KV语义与存储管理服务,并通过参数网络与NPU/GPU直连,将路径压缩为“NPU/GPU—DPU—SSD”三跳架构,显著降低数据访问时延。

• DPU开发框架:支持开发者根据模型需求定制 KV 语义处理逻辑与加速算子。KV Cache 的压缩、检索与索引操作在 DPU 侧完成,实现近数据计算加速。

• KV Connector:作为 KV 管理引擎与通信库,为vLLM/SGLang/Mooncake等推理框架提供 API接口,支持基于 Key 的精确查找与预取,使请求可直达KV Cache所在DPU节点,减少数据寻址开销。

在解决方案层面,OceanDisk 1800作为存储部件与业界主流的推理框架进行整合。

计算侧,KV Connector对接推理框架定义的KV接口,直通算子可向存储直接发起KV IO,将所需的KV Cache数据逐层从盘框读取到显存中,同时将新生成的KV Cache数据从显存逐层写入到对应的盘框中。

存储侧,DPU中的NP核硬化卸载原生KV语义,IO到达DPU时由NP核直接查询KV索引(即Key到盘LBA的索引),确认Value存储所在的盘和LBA地址,然后NP核直接发起NVMe IO请求,实现KV IO端到端硬直通。此外,OceanDisk 1800引入了自研的双模多流大容量SSD盘,通过双模多流技术,盘寿命不仅能提升2倍以上,端到端推理成本还能降低30%。

实测验证:长序列场景TTFT优势显著

为了验证该方案价值,我们基于Qwen-32B模型进行测试,在KV Cache容量与缓存命中率一致的条件下,OceanDisk 1800方案的TTFT与纯内存池方案基本持平;在10K Token长文本场景下,受内存容量限制影响,传统内存池方案缓存命中率仅为15%;而OceanDisk 1800凭借大容量KV Cache池,将缓存命中率提升至90%。最终,TTFT从7.43秒降至1.31秒,推理速度提升5.64倍。

结果表明,通过重构推理存储架构,大容量KV Cache池能够实现在低并发与短序列场景接近内存级的TTFT体验,而在长序列场景命中率和响应速度可以提升数倍。

总结

随着百万上下文窗口和万亿参数大模型普及,KV Cache成为推理系统中规模最大、访问最频繁的数据,以DPU为中心的数据加速引擎正在成为推理基础设施演进的重要方向。OceanDisk 1800智能盘框通过原生KV语义、DPU硬件卸载和近数据计算能力,构建面向百万上下文的新一代推理存储架构,在性能、成本与扩展性之间实现平衡,为超大规模AI推理系统提供新的基础设施范式。

免责声明:文章内容和观点仅代表作者本人观点,供读者思想碰撞与技术交流参考,不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情,请访问产品与技术介绍页面或咨询华为公司人员。

TOP