本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>
[法国,巴黎,2022年4月8日] 今日,在MPLS SD & AI网络世界大会上,华为加拿大研究所数据中心网络首席研究员郑晓龙发表“0丢包以太网,助力算力100%释放”的主题演讲,解读华为超融合数据中心网络CloudFabric 3.0解决方案是如何创新性解决数据中心网络丢包难题,实现低时延、高吞吐、大规模的0丢包以太网,100%释放算力潜能。
郑晓龙发表“0丢包以太网,助力算力100%释放”主题演讲
“算力缺失是以数据为中心的算力时代的最大挑战,要实现数据的实时处理和价值变现,就需要有强大的算力支撑。”郑晓龙表示。大数据已经无处不在,元宇宙、基于大数据的病毒传播跟踪、基于人工智能的药物研究、基于用户习惯的智能推荐广告等等,这些大数据的成功应用都需要强大的算力实现数据快速处理。然而人工智能计算模型的规模正在呈指数级增长,例如,业界最新发布的语言模型Megatron-Turing NLG已经实现支持5300亿参数,而在2017年业界最复杂的模型还仅支持6100万参数,五年内计算压力增加了10000倍。如何高效提升算力,100%释放算力的潜能,成为算力时代首先要解决的问题。
完成一个AI模型(比如GPT3语言模型)训练所要求的百亿亿次浮点计算要求,需要众多计算服务器组成一个集群协同才能完成。然而所有的AI训练集群都存在性能天花板。当到达天花板时,即便再增加服务器节点,也不能使集群的性能再进一步提升,甚至有可能会下降。这是因为集群内部存在计算协同,当网络有丢包时,增大了因协同等待而产生的时间等开销,使算力持续下降。据实验统计,0.1%的丢包会引起算力损失50%。因此,要提升算力,首先要构建一个0丢包的数据中心网络。
华为超融合数据中心网络CloudFabric 3.0解决方案基于独有iLossless智能无损算法,终结了以太网自诞生以来四十多年的丢包历史,以高吞吐、低时延、大规模的0丢包以太网,助力任意场景下多元算力的100%释放。
高吞吐: 传统流量调度依赖手工僵化配置,无法适应网络动态变化。华为智能无损核心技术ACC(Automatic ECN)可精准预测网络拥塞状态,实现在任意拥塞链路0丢包的基础上接近100%吞吐。通过第三方权威测试机构Tolly表明,超融合数据中心网络可助力全闪存IOPS性能提升93%。2021年8月,智能无损技术论文《ACC: Automatic ECN Tuning for High-Speed Datacenter Networks》(高性能数据中心网络中的ECN动态调优)入选全球网络通信顶级会议ACM SIGCOMM 2021,得到业界专家的一致认可,具有世界级技术影响力。
低时延:在HPC高性能计算中,应用时延=计算操作的步数*每步时延,因此针对时延敏感型应用,减少计算操作的步数可以有效降低整体应用时延。华为智能无损网算一体技术基于在网计算(In-network computing)和拓扑感知(Topology-Aware Computing)实现网络和计算协同,一方面网络参与计算信息的汇聚和同步,减少计算信息同步的次数,另一方面尽量确保计算任务分布在同一个TOR下,减少通信跳数,进一步降低应用时延。以MPI_allreduce为例,相比传统网络仅做数据转发不参与计算过程,超融合数据中心网络可有效降低时延,提升计算效率27%。
大规模: 数据中心传统三层CLOS组网架构最大仅支持65k节点,不能满足大型数据中心规模诉求。华为超融合数据中心网络基于新一代直连拓扑组网架构和创新分布式自适应路由协议,不仅满足算力网络0丢包的诉求,更支持270k节点大规模组网,组网规模是业界的4倍,可助力构建E级和10E级大型和超大型算力枢纽。
0丢包难题的突破和性能的持续演进对于以数据为中心的算力时代具有重大意义。通过和金融、制造、超算等客户的联合测试证明,华为超融合数据中心网络CloudFabric 3.0同时在全闪存、分布式存储、HPC高性能计算、人工智能计算等场景,都具有极强的性能优势。未来,华为将持续投入智能无损技术研究,持续提升无损网络能力,充分释放算力,使能企业智能化升级。