全球算力巅峰Atlas 900网络技术揭秘

2020-06-17

1730

3

2020年2月25日， GSMA宣布华为Atlas 900 AI集群荣获Global Mobile Awards 2020 (GLOMO奖项)未来技术大奖。该奖项由GSMA组织方首次设定，旨在表彰超越时代、重塑世界的技术，标志着业界对华为在人工智能领域技术创新的高度肯定。

Atlas 900是华为在全联接大会2019上发布的AI训练集群，代表了当今全球的算力巅峰。这么大的算力如果运行经典的图像识别算法ResNet-50@ImageNet只需59.8秒就可完成训练，排名全球第一。那么这个速度到底有多快？它的关键技术难点在哪儿？为什么华为可以做到？本文将详细解读这些疑问背后的关键技术支撑。

Atlas 900 AI训练集群

Atlas900训练集群的59.8秒到底有多快？

前面提到ImageNet，我们先来看看ImageNet是个什么？ImageNet刚开始是一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库，大约包含上千万张标记的样本图片，为众多的图像识别AI算法提供样本数据。从2010年开始，开始举办ImageNet大规模视觉识别挑战赛。ImageNet现在成为一个业界权威的AI竞技场，短短7年内，AI优胜者的识别率就从71.8%提升到97.3%，超过了人类，极大促进了AI技术的飞速发展。

目前ImageNet已经不仅仅是一个AI算法竞技场，也成为众多AI厂商AI算力的竞技场，完成一次ImageNet训练的时间已经成为业界AI算力金标准。我们看看过去几年业界相关的新闻：

•2017年9月，24分钟完成ImageNet训练，刷新世界纪录（UC Berkeley）

•2017年11月，11分钟训练完ImageNet，DNN训练再破纪录（UC Berkeley）

•2018年8月，世界纪录！4分钟训练完ImageNet！（腾讯）

可以看出，业界毫不掩饰对于训练完成时间每缩短几分钟后的欣喜感。不难理解的是这样一个完成一次训练任务大约需要百亿亿次的浮点计算，即便是用全球性能最高的超级计算机，也需要较长时间，而华为Atlas900训练集群一举将该训练时间缩短到秒级，取得里程碑式突破，获得GSMA GLOMO未来技术大奖实至名归。

AI训练集群性能提升的难点在哪儿？

如何提升AI训练的算力，一个很容易想到的方法就是采用更高性能的处理器，诚然如此，AI处理器的性能是整个集群性能的基础，近几年来AI处理器的处理性能井喷式发展。但是一个集群往往涉及到成千上万的AI处理器参与计算，如何有效的协同才是当前业界面临最大的难题。

单台AI服务器性能看处理器

Atlas 900 AI训练集群采用昇腾处理器，整体浮点计算峰值能力有望接近到P级。但是即便如此，远远不够完成一个AI训练（比如ImageNet训练）所要求的百亿亿次浮点计算要求，需要更多的AI服务器组成一个集群协同才能完成。那么是不是AI训练集群的规模越大，算力就越强呢？非常遗憾，答案是否定的，这也成为AI训练集群性能提升真正的难点值所在。

AI训练集群性能瓶颈在网络

我们知道，2台服务器组成的AI集群，整体性能理论上应该是单台的2倍，但由于协同的开销，只能达到1.x倍。根据业界经验，当AI集群规模达到32个节点的时候，最高只能达到理论性能的一半。如果再增加服务器节点不仅不能提升整体集群的性能，甚至有可能会下降。所有的AI训练集群都存在它的性能天花板。

AI训练集群性能增长曲线

为什么会发生这样的现象？详细分析原因，会发现AI训练集群在完成一次训练的时候会涉及到多个服务器之间频繁的大量的参数同步，一旦服务器规模变大，网络拥塞就会很严重，产生网络丢包。实测数据得知即便只有1‰的网络丢包就可能造成接近50%的网络吞吐下降，而丢包率会随着服务器节点数的增加而增加，如果丢包率达到2%的时候，整个网络将陷入瘫痪状态。不难看出，网络丢包成为AI集群性能提升的瓶颈，也成为AI集群性能提升的天花板。

华为是如何攻克这一难题的？

作为全球最快的AI训练集群Atlas 900，实现了数千颗昇腾处理器组成的上百台服务器节点互联构成。Atlas 900如何突破性能天花板，确保这几百个服务节点之间的高效无损互联，不造成算力损失，构建一个0丢包的网络成为需要解决的首要问题？

七年磨一剑，瞄准智能无损

早在2012年，华为为了应对未来数据洪水挑战，投入数十个科学家开始新一代无损网络的研究，致力于构建0丢包、低时延的以太网。七年如一日，经过多方向多路径的艰难探索，通过AI技术实现网络拥塞调度和网络自优化的iLossless算法方案，取得了突破性的进展。 iLossless算法为以太网的流量调度提供了智能预测能力，根据当前流量状态可以精准预测下一刻的拥塞状态，提前做好预留和准备。就好像我们看到警车开道就可以提前预测可能戒严的拥塞路段，根据机场航班起飞和降落的密集度可以预测机场高速的拥塞程度，提前做好调度，从而提高交通的通行率。

不过iLossLess算法作为AI算法，它的真正商用还必须依赖大量样本数据的训练，华为在过去的几年来与数百个客户联合创新，基于客户的现网运行场景和独创的随机样本生成技术积累了数千万的有效样本数据，训练的效果达到了理想目标，在任何场景下都实现了100%吞吐下的0丢包。

这一创新成果终结了以太网四十多年来一旦拥塞容易丢包的历史。目前在华为主导下，IEEE已经成立了Nendica（IEEE 802 “Network Enhancements for the Next Decade” Industry Connections Activity）工作组，成为以太网技术标准发展的新方向。

业界唯一0丢包的以太网，助力Atlas冲击全球算力巅峰

2019年初，华为发布了业界首款面向AI时代的CloudEngine数据中心交换机，率先将AI芯片内嵌交换机中，独创iLossless智能无损交换算法得到了最佳的运行平台，目前算法、算据和算力三大AI关键要素全部具备，新一代CloudEngine交换机完成了多年核心技术研究成果到商业落地的突破。

Atlas 900系统网络联接架构示意图

采用CloudEngine系列交换机组成智能无损的全网0丢包以太网络。Atlas900就是这样的0丢包以太网连接而成， 0丢包的以太网为Atlas集群内的每一个AI服务器提供8*100GE的接入能力，从而实现百TB全互联无阻塞0丢包专属参数同步网络。基于全球最高密度400G的CloudEngine16800构筑的智能无损DCN，不仅满足Atlas当前集群的0丢包诉求，更支持大规模400GE组网演进，为未来的Scale-out性能线性扩展提供了保障，确保持续的性能巅峰。

华为智能无损DCN真正实现0丢包，100%释放AI算力，助力Atlas900冲击并持续保持全球算力巅峰。

智能无损DCN，引领下一代三网融合DCN架构

华为智能无损DCN不仅仅是面向AI训练集群的高性能网络，更是代表面向云和AI数据中心的下一代网络新架构。彻底解决了丢包问题的以太网络，无论是在在代表存储发展方向的全闪存分布式存储，分布式数据库场景，还是以计算为核心HPC，大数据场景，都有极强的性能优势。根据第三方权威测试机构Tolly测试结果表明，0丢包的智能无损DCN的带来的业务性能超越当前传统的以太网30%左右，完全可以和专网相媲美。

构建一张融合的数据中心网络一直是网络运营者的梦想。过去由于传统以太网拥塞易丢包，无法胜任存储及其他要求较高的场景，像FC或者IB等专用网络尽管存在生态封闭、现网不兼容等众多问题，仍然无法彻底被抛弃，存在一定量的现网部署。华为智能无损DCN的发布，使得数据中心三网融合成为可能。目前在华为云、招行分行云、百度、UCloud等全球47个数据中心得到商用部署，实现计算网，存储网和业务网的归一化。据测算，统一融合的数据中心网络部署后可带来TCO降低53%。

智能无损数据中心网络，正在成为下一代三网融合DCN架构的基石！

企业业务网站

华为云网站

运营商网络业务网站

消费者业务网站

集团网站

全球算力巅峰Atlas 900网络技术揭秘

Atlas900训练集群的59.8秒到底有多快？

AI训练集群性能提升的难点在哪儿？

华为是如何攻克这一难题的？

智能无损DCN，引领下一代三网融合DCN架构