新品速递
华为企业业务2026年新品上市,快人一步了解新品亮点
本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>
1月新品
AI推理加速解决方案:突破推理算力瓶颈
长序列输入超出模型上下文窗口,只能截断或分批推理
随着序列长度增加,导致首Token时延增长,推理吞吐下降
无法持续化KV Cache,大量重复计算,消耗大量算力
推得动 10倍级上下文窗口扩展
搭载UCM(推理记忆数据管理器),通过把KV Cache分层卸载至存储,解决超长序列不能推理问题
推得快 首Token时延最高降低90%
多轮问答、行业总结分析类场景,Prefix Cache算法KV Cache命中率超90%
推得省 系统吞吐最大提升22倍
Prefill阶段基于历史推理数据,以查代算;Decode阶段采用KV稀疏加速,保留关键KV,减少计算压力,实现系统吞吐提升
中航信云数据有限公司采用华为AI推理加速方案,加速人工智算平台系列AI应用规模化落地。
智能助手:员工日常问答与合规检查需调用海量制度文件,输入序列长度超16K,推理吞吐能力难以承接业务高并发需求
文档写作:需基于近三年民航服务案例、政策文件等历史文档生成内容,参考文档Token数达64K-128K,并且首Token响应时间超30秒
代码生成:大模型处理8K以上序列时,出现请求队列积压,影响研发效率
探索AI推理加速解决方案
更多品类