本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

搜索
  • 大规模训推算力平台

    大规模训推算力平台

    通智融合,风液融合,训推融合,多模融合

概述

  • 概述
  • 方案价值
  • 架构图
  • 相关产品

大规模训推算力平台

华为提供大规模训推算力平台方案,满足以下典型需求:

1. 高效训练:企业面临应用场景多、需求变化快等挑战,希望模型高效训练,实现业务敏捷迭代。
2. 长稳训练:企业客户希望训练微调行业模型过程中少中断、不中断;任务中断时,可以通过断点续训缩短恢复时间。
3. 高性能推理:企业部署超高并发的大模型推理应用,希望在确定的业务场景、确定延时要求下,实现吞吐性能不断提升,保证用户体验。
4. 算力利用率提升:企业希望提升算力利用率,避免算力闲置。算力平台支持推理/训练任务灵活切换,实现时分复用;同时支持算力切分、一卡多用,实现空分复用。
5. 管理运维简单:企业部署大规模训推算力平台,涉及算、网、存、云多领域,包含数千卡NPU、数万光模块及存储、网络设备等,故障定位难、运维挑战大。希望借助平台工具简化管理,实现跨域统一运维。

案价

高效训练微调

高效训练微调

通过MindSpeed+NSLB、ModelArts+昇腾等算网存云协同技术,实现训练加速、长稳、微调高效

高性能推理

高性能推理

通过ModelArts+昇腾+CANN+MindIE等软硬协同优化,推理吞吐性能领先

算力高效利用

算力高效利用

通过算力切分、训推共池、大规模推理服务弹性伸缩等技术,实现资源灵活动态调度,提升算力资源利用率

统一智简运维

统一智简运维

算存网云联动运维,故障快速定位

架构图

架构图

多机多卡实现推理高吞吐率

面向企业2C的大规模推理应用,P/D分离部署,系统级优化,吞吐率提升,参数面网络成本大幅降低

训推共池实现算力资源高效利用

“ModelArts+算力底座”协同,推理服务支持API和定时扩缩容,及时释放闲置资源

软硬协同优化,实现高性能推理

算子融合、量化性能提升,Batch及时填充,内存IO优化

集群统一智简运维

跨域统一运维,训前一键式健康检查,作业全局可视可管

Huawei

相关产品

华为云Stack

华为云Stack

华为云Stack是部署在政企客户本地数据中心的云基础设施,通过持续创新,打造安全、可靠、高效的混合云,以用户视角一朵云的能力,助力客户从业务上云迈向深度用云,释放数字生产力。

AI开发平台ModelArts

AI开发平台ModelArts

面向开发者的一站式AI开发平台,可快速创建和部署模型,管理全周期AI工作流,助力千行百业智能升级。

Atlas 800I A2推理服务器

Atlas 800I A2推理服务器

Atlas 800I A2 推理服务器采用8模组高效推理方式,提供强劲 AI 推理能力,在算力、内存带宽和互联能力方面具有优势,可广泛应用于生成式大模型推理,例如智能客服、文案生成、知识沉淀等内容生成类场景,支持NPU互联,提升大模型推理效率。

Atlas 800 推理服务器 (型号:3000)

Atlas 800 推理服务器 (型号:3000)

Atlas 800 推理服务器 (型号:3000)最大可支持8个Atlas 300I/V Pro,提供强大的实时推理能力和视频分析能力,广泛应用于中心侧AI推理场景。

TaiShan 200服务器
2280均衡型

TaiShan 200服务器 2280均衡型

2280具有高性能、低功耗以及灵活的扩展能力等特点,适合为大数据分析、软件定义存储、Web等应用场景的工作负载进行高效加速。

OceanStor Pacific 9550 分布式存储

OceanStor Pacific 9550 分布式存储

OceanStor Pacific 9550 智能分布式存储可为用户提供极致性价比的数据存储服务。在每个5U的机箱中集成2个存储节点,采用HDD大容量主存,每机箱可提供720TB至2160TB超大裸容量,相比通用存储型服务器可降低62.5%的机柜空间占用。它广泛适用于海量非结构化数据存储,且可与OceanStor Pacific 9950高密性能型存储配合形成数据分级存储方案,最大程度帮助用户优化投资。

OceanStor Pacific 9950 分布式存储

OceanStor Pacific 9950 分布式存储

华为OceanStor Pacific 9950高密高性能存储系统,每个5U机箱里可容纳8个存储节点,采用全NVMe SSD主存,结合全PCIe 4.0设计,每机箱可提供128TB至614.4TB裸容量,以及高达160GB/s带宽、640万IOPS领先性能。

CloudEngine XH16800系列数据中心交换机

CloudEngine XH16800系列数据中心交换机

CloudEngine XH16800是华为推出的面向AI场景的数据中心核心交换机,具备高算力效率和高算力可用率两大特点。在算力效率方面,CloudEngine XH16800 系列交换机支持NSLB(网络级负载均衡),实现训练效率提升20%。在算力可用率方面,支持算网CCAE一体化运维等功能,排障效率提升90%。

CloudEngine XH9100
系列数据中心交换机

CloudEngine XH9100 系列数据中心交换机

CloudEngine XH9100系列数据中心交换机是华为公司面向数据中心AI场景推出的新一代高性能、高密度的接入交换机。CloudEngine XH9100系列采用先进的硬件结构设计,提供高密200GE端口接入,支持丰富的数据中心特性,风道方向可以灵活选择。

TOP