如果您需要帮助,请点击这里

CloudFabric,引领数据中心网络进入智能时代

华为数据通信产品线数据中心网络领域总裁 王雷/文

感情男声
  • 感情男声
  • 感情女声
  • 标准男声
  • 标准女声
倍速1.0X
  • 倍速0.5X
  • 倍速1.0X
  • 倍速1.5X

人类社会的发展在经历了农业时代、工业时代后,随着信息化技术的发展,终于迎来了数字经济时代。据Gartner调研,75%的大型企业已经将数字化转型作为企业核心战略。与农业经济关注土地和劳动,工业经济关注资本和技术截然不同,数字经济的核心生产要素已经转变为数据和智能。企业数字化转型过程中产生大量的数据,已经成为企业核心资产的一部分,然而数据本身不是目的,知识和智慧才是永恒的价值。通过AI从数据中挖掘智慧,实现数据的商业价值变现,成为当前企业数字化转型的主题。AI成为企业重塑商业模式、提升客户体验和开创未来的关键推动力。+AI,标志着企业数字化转型进入了智能化新阶段。

AI驱动数据中心重构,数据中心网络面临新挑战

企业智能化升级驱动数据中心从云时代迈入了智能时代。相比而言,云数据中心更像是个业务支撑中心,以应用为中心,通过云平台实现 IT 资源的快速发放。而 AI 数据中心在云数据中心基础上真正演进成为商业价值中心,以数据为中心,聚焦于如何基于 AI 对数据进行高效处理。

众所周知,AI 高效运行依赖巨大算力支撑,比如一次普通的 AI 训练涉及到 20E(1E=10 18 )次的浮点计算,即便用全世界最高性能的超级计算机来计算,也需要较长的时间。

AI 的算力诉求驱动数据中心架构重塑。数据中心正走向以全闪存存储数据湖为核心,以 GPU/AI 多样化计算为算力底座的智能时代数据中心新架构。存储和计算设施正在发生颠覆性的变革:全闪存化存储介质使得存储性能提升百倍,GPU/AI 智能计算使得计算性能提升百倍。

如果说单个服务器的运行效率通过提升处理器和存储介质的性能来获得,而整个数据中心的运行效率则取决于数据中心网络的性能。数据中心网络已经成为智能时代数据中心算力释放,数据价值变现的核心关键。同时 AI 作为智能时代的使能技术,如何进一步帮助数据中心网络自身完成智能升级,提升部署运维效率,成为新的机遇和挑战。

CloudFabric 面向 AI 智能时代全新升级

作为企业数据金矿的炼金术,AI 点石成金,成为企业数字化转型到智能升级成败的关键。而 AI 技术的大量使用,驱动企业数据中心使命发生颠覆性变革。值此 AI 技术正在广泛应用于数据中心之际,为了帮助客户更好地应对新挑战,华为对CloudFabric 数据中心网络解决方案进行全新升级。

• 全球最高密 400GE,打通进入智能时代康庄大道

企业数字化带来全球每年产生数据量暴增,据华为 GIV 预测预计 2025 年将达到 180ZB,10 年增加 20 倍。当前 100GE 的数据中心网络已经无法应对未来几年的数字洪水挑战,同时从业界主流的 AI 业务服务器来看 100GE 网卡接口已经成为标配,数据中心网络 400GE 时代已经来临。

2019 年,华为发布的业界首款面向 AI 智能时代的数据中心交换机 CloudEngine 16800,全面升级了硬件交换平台,在正交架构基础上,突破超高速信号传输、超强散热、高效供电等多项技术难题,使得单槽位可提供业界最高密度 48 端口 400GE 线卡,单机提供业界最大的 768 端口 400GE 交换容量,交换能力达到业界的 5 倍,轻松应对 AI 智能时代流量倍增需求。

• 业界首个0丢包以太网,释放智能时代算力巅峰

智能时代的核心就是引入 AI 挖掘数据价值,以深度学习为特征的 AI 计算依赖海量的数据的输入,数据的存取速度将直接影响算力的发挥。计算和存储的性能百倍提升导致传统网络的拥塞易丢包带来的网络瓶颈问题开始突显。1‰的丢包在 AI 时代会直接导致算力下降接近 50%。而随着业务负载增加和分布式计算流量的增多,网络丢包问题将更为严重。AI 数据中心一方面算力贵,算力缺成为时代挑战,而另一方面由于网络瓶颈问题导致昂贵的算力无法充分释放。如何构建一个 0 丢包的无损数据中心网络成为面向智能时代的数据中心网络的基本要求。

华为 CloudEngine 16800 是业界首款搭载了高性能 AI 芯片的数据中心交换机,承载独创的 iLossLess 智能无损交换算法,实现流量模型自适应自优化。基于 CloudEngine 交换机构筑的智能无损 DCN,真正实现以太网络 0 丢包,全面释放 AI 算力潜能。根据权威第三方测试机构 Tolly 测试,在同样 GPU 集群下,通过采用华为智能无损 DCN,AI 业务的训练效率比采用当前业界其他网络提升 27% 以上。

华为智能无损 DCN 目前已经应用于代表全球算力巅峰的 AI 训练集群 Atlas900 中,成为其突破性能瓶颈冲击世界纪录的关键助推器。智能无损 DCN 不仅仅是面向 AI 训练集群的高性能网络,更是代表面向智能时代数据中心的新一代网络新架构。

• 率先实现网络全智能,迈向自治自愈的自动驾驶

数据中心的规模越来越大,结构越来越复杂,有些数据中心 OPEX 支出甚至超过为 CAPEX 的三倍,数据中心的效率和成本面临结构性挑战,即便采用当前主流的 SDN 实现网络的自动部署,但是在业务意图理解,网络日常巡检,故障定位修复等方面,仍然依赖管理员。

华为首先提出自动驾驶网络的理念,在 SDN网络架构基础上,针对网络设备、网络管理控制及上层业务编排系统,在规划、部署、运行、维护、优化和经营的端到端过程中引入 AI 技术。通过 AI技术使得网络从自动化业务部署和动作执行,走向智能化的故障自愈,网络自我优化,最终实现网络自治自愈和无人值守。

AI 加持的全智能数据中心网络 CloudFabric目前已经可以初步实现“智能理解业务意图、智能选取最佳网络路径、智能评估变更风险、智能检测故障和快速定位根因”,针对 75 类常见故障,可以做到 1 分钟感知故障、3 分钟定位故障、5 分钟修复故障,率先在数据中心网络领域实现业界首个 L3 级自动驾驶网络,并获得 Tolly 第三方权威机构的认证。

扫描体验移动阅读
ict 28 400 514

第28期 智能IP网络特辑

引领智能IP时代

当前相关内容

刊首语

视野

特别报道

焦点

专栏