搜索

超融合数据中心网络CloudFabric 3.0，新以太释放新算力

2021年06月30日

王雷

华为数据通信产品线总裁

导言：工业时代，电力是机械文明的基石，而迈入数字时代的今天，算力正在成为智能世界的底座。数据通过多场景联接汇聚到数据中心进行分析和应用，驱动产业升级与商业模式创新。作为承载数据存储、分析、计算的唯一载体，数据中心贯穿了数据从生产要素到商业价值转换的全流程。数据中心算力成为新的生产力，数据中心量纲从原有的资源规模向算力规模转变。

算力的关键在于数据流通与处理效率，融合是必然诉求

数据中心算力是服务器对数据进行处理后实现结果输出的能力，是计算、存储、网络三大资源协同能力的综合衡量指标。作为联接数据中心各类资源的大动脉，数据中心网络承载着保障数据高效流通的职责。

根据联接资源的不同，数据中心网络分为：1）通用计算网络：与外部用户终端对接提供服务；2）数据存储网络：联接存储节点，支撑数据存储、读写与备份；3）高性能计算网络：联接CPU/GPU服务器，支撑高性能计算或AI训练。

在数据流通和处理过程中，这三张网络需要深度协作，保证算力的最大化释放。通用计算网络普遍采用开放的以太协议，而传统集中式存储区以及高性能计算区则较多采用封闭的Fibre Channel（FC）以及InfiniBand专网技术。三套网络协议各异、架构割裂，给数据跨节点和资源流通带来阻碍。融合成为算力提升的必然要求。

三大变革驱动数据中心网络全以太化，带来融合契机

数据中心网络服务于云应用、计算资源与存储资源。三大服务对象的变革正在驱动数据中心网络向以太化演进：

• 云化升级：云化加速浪潮之下，企业IT架构从本地集中式向云端分布式、甚至多云分布式演进。开放以太架构天然可被云灵活调用，具备良好的互通性、弹性、敏捷性以及多租户安全能力，已经成为通用计算网络的压倒性协议。

• 存储全闪存化：随着机械硬盘向全闪存升级，存储介质的读写性能提升了百倍。传统FC最高32G/64G带宽，不满足全闪存高吞吐的需求，带宽高达400GE的以太网成为新一代存储网络的事实标准。

• 计算单元去PCIe：业界CPU/GPU厂商正在通过去PCIe总线突破总线的速率瓶颈，直接出以太口来提供更高算力。

在三大变革的驱动下，以太化正在向纵深推进。全球HPC TOP500统计数据表明，2016年起以太已经超越IB成为主流。2019年，计算机行业巨头Intel放弃了源于InfiniBand的Omni-Path高速互连网络技术，继而在2021年推出了面向HPC场景的以太网交换机，同时HPC套件针对RoCE进行优化升级。随着全以太化的网络技术的快速发展，相关测试规范与标准陆续出台，融合时间窗正式开启。

融合之路并非坦途，全以太化数据中心网络面临三大挑战

虽然业界普遍看好全以太化的趋势，但要实现从网络性能过硬到管理配套成熟并非易事。数据中心网络全以太化面临三大挑战：

• 网络丢包挑战：以太网天然有丢包，无法满足通信密集型HPC、高端存储等场景下极端性能要求。

• 管理效率挑战：近年来全球数据中心普遍采用集约化规模化的建设原则，中小型数据中心被大型、超大型数据中心替代。随着管理规模的扩张，传统分散的多工具多平台的管理模式成为网络运维的效率瓶颈。

• 多云多场景挑战：一方面，为了满足核心业务稳定的同时快速响应变化，企业数据中心基础设施通常使用公有云-敏态业务与私有云-稳态业务双架构；另一方面，业务场景极大丰富，不仅行业间网络需求迥异，同一行业内不同业务场景下也有较大的不同。复杂的业务场景对网络的开放性和服务化能力提出更高的要求。

华为超融合数据中心网络CloudFabric 3.0，实现数据中心网络三层融合

为应对全以太化网络三大挑战，华为推出超融合数据中心网络CloudFabric 3.0方案，核心部件包括CloudEngine数据中心交换机与iMaster NCE网络智能管控系统。基于三层融合架构，CloudFabric 3.0可最大化保障数据的流通和处理效率，充分释放数据中心算力：

• 全无损以太架构：三张网统一为0丢包以太网架构，实现流量承载融合，打破异构协议限制；

• 全生命周期自动管理：实现网络管控析融合，打破多工具多平台管理数据割裂的限制；

• 全场景服务化能力：实现多业务场景融合，打破跨区域跨场景算力割裂的限制。

全以太HPC网络，100%释放算力

传统以太网丢包带来性能瓶颈，0.1%的丢包会导致50%的算力损失。40多年来业界专家探索了很多路径解决以太网丢包，但无一例外都失败了：有通过流控反压来控制流量发送速度，但粗暴的反压机制会频繁停发报文，导致吞吐量极低；在网络应用流量越来越复杂的今天，控速时机也很难把握。华为创造性地将智能无损算法iLossless-DCN引入到网络联接中来，用算法代替专家经验实现实时精准控速，保证网络0丢包，实现规模不变，算力翻番。

全以太存储网络，存储性能提升87%

对于存储网络，金融的双活数据中心场景性能要求最为严苛。同城数据中心之间的距离一般在30公里到70公里不等，由于长距光纤数据传输存在静态时延（5μs/公里），距离越长时延越大，与短距场景相比时延增长了百倍，流控复杂度指数级增加。为此，华为推出长距无损iLossless-DCI算法，在短距无损的基础上增加了距离变量，基于大数据分析提前应对流量变化，最大可实现100GE链路70公里无损传输，跨数据中心链路较FC网络可减少90%。在DC内和跨DC的同等距离场景下，IOPS较FC网络可提升87%，时延降低42%。

全生命周期自动化，业务秒级部署与1-3-5智能运维

针对业界SDN“设计校验靠人工，配置下发才自动”的半自动化运维模式，华为将数字孪生方法论引入网络管理领域，实现建全生命周期的自动化。基于网络数字建模，可综合评估400+影响网络设计的因子，可推荐最优网络设计方案并实现配置变更的秒级校验。基于网络知识图谱，可以实现故障1分钟感知，3分钟定位和5分钟修复。通过大数据挖掘与建模，识别网络对象与对象间的关联关系与故障扩散规律，感知90%潜在风险。

全场景服务化体验，跨云业务部署从月到天

多云场景下网络异构成为常态，多厂商设备往往配套多种控制器。一方面，当跨云业务变更时，需求要分解到多个控制器；如果控制器能力不满足，则需要依赖原厂商落入版本开发，周期在3~6个月不等。另一方面，企业云管平台需要同时对接多个控制器，适配工作量巨大。南向和北向的多接口模式造成跨云网络部署动辄耗时数月，成为算力跨区流通的瓶颈。为此，华为定义统一的设备网元模型并构筑开放的南向框架，可实现跨厂商设备的统一管理以及设备驱动程序的动态加载。同时，CloudFabric 3.0北向可提供上千种丰富的网络API服务，实现云管平台侧灵活网络编排，业务上线周期从数月缩短至一周。

全新CloudFabric 3.0，新以太释放新算力

数据中心集合了极其丰富的软硬件资源，从芯片到服务器，从存储设备到网络设施，从平台软件到应用软件，不一而足。要构建强大算力，各类资源需要高度协同，深度融合。作为融合道路上的开拓者，华为推出超融合数据中心网络CloudFabric 3.0，是对CloudFabric 2.0方案中无损以太和自动驾驶网络两大能力在全以太趋势下的扩展与增强。基于三层融合架构，超融合数据中心网络CloudFabric 3.0可助力数据高效流通与处理，100%释放算力，为数字经济和企业数字化转型构筑坚实的算力底座。

免责声明：文章内容和观点仅代表作者本人观点，供读者思想碰撞与技术交流参考，不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情，请访问产品与技术介绍页面或咨询华为公司人员

# 数据中心网络 # 数据中心

王雷

华为数据通信产品线总裁

其他文章

企业业务网站

华为云网站

运营商网络业务网站

消费者业务网站

集团网站