本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

搜索

CloudEngine 16800解密系列1:AI芯片+算法,使能数据中心内AI算力100%发挥

2019-01-18
2064
0

以人工智能为引擎的第四次技术革命正将我们带入一个万物感知、万物互联、万物智能的智能世界。根据华为GIV 2025(Global Industry Vision)的预测,到2025年,新增数据量达到180ZB,95%的非结构化数据(语音/视频等)依赖AI处理,企业对AI的采用率将达到86%,越来越多的企业将利用AI助力决策、重塑商业模式与生态系统、重建客户体验,因此数据中心从云时代向AI时代演进成为必然。

刷脸支付的背后是上亿次图像信息的智能识别,深度健康诊断需要基于数千个算法模型进行分析,快捷网购体验离不开数百台服务器的智能计算。新商业物种的诞生,产业的跨越式发展,以及用户体验得以改变,强烈地依赖于人脸识别、生命科学、智能推荐等AI应用的发展。当深度学习算法突破后,数据处理效率成为了阻碍人工智能规模商用的新瓶颈。为了提升AI运行效率,存储介质演进到闪存盘,时延降低了不止100倍,计算领域通过采用GPU甚至专用的AI芯片,将处理数据的能力提升了100倍以上,处理的协议由TCP/IP演进到RDMA(Remote Direct Memory Access,远程直接数据存取),这时网络通信时延反而成为关键短板,构建一个0丢包,低时延,高吞吐的数据中心网络就成为AI业务的基本诉求。

RDMA的提出之初承载在无损的InfiniBand网络中,缺乏完善的丢包保护机制,对于网络丢包异常敏感。由于开放性和降低运维复杂度要求,RDMA承载在以太网上成为趋势。而传统以太网是一种尽力而为的网络,存在丢包,对于RDMA这种时延要求极其敏感的业务是不可容忍的。华为CloudEngine 16800,率先在数据中心交换机中引入高性能AI芯片,结合创新的iLossless智能无损交换算法,构建面向AI时代的数据中心网络。其主要包含两个方面的机制创新:

一方面是单流局部调优机制,实现的功能就好比一个城市道路十字路口的智能红绿灯,它能根据本路口的行人和车辆情况动态调整红绿灯时间,从而使得该十字路口通行效率最高。华为CloudEngine 16800基于AI芯片和iLossless算法,对网络流量状态实时检测,实现交换队列动态ECN(Explicit Congestion Notification,显式拥塞通知)门限和队列缓存的智能调整,并在最佳的时刻给予发送端最快的反馈,实现源端发送速率的动态调整。

另一方面是整网全局调优机制,实现的功能就好比一个城市的交通大脑,能根据所有道路的行人和车辆情况,动态关联的调整所有红绿灯,使得整个城市的道路通行情况最优。华为CloudEngine 16800基于AI芯片和iLossless算法,对全网流量进行实时的学习训练,并根据不同业务流量模型的特点动态设置最优的网络参数,更精准地控制全网流量,实现百万流和基于应用的队列自适应,使能不同场景的全网自优化。这样的智能无损数据中心网络保证了在传输无丢包基础上达到最高的吞吐量,克服了传统以太网丢包导致的算力损失,将AI算力从50%提升到100%,数据存储IOPS(Input/Output Operations Per Second)性能提升30%。以某互联网巨头的无人驾驶AI训练为例,以往1天运行的数据需要7天才能训练完,现在只需4天即可完成AI训练,无人驾驶等AI应用的商用进程进一步加速。

华为CloudEngine 16800,作为业界首个内嵌高性能AI芯片的数据中心交换机,承载创新的iLossless智能无损交换算法,重新定义了AI时代的数据中心交换机,使能有人工智能“孵化器”之称的数据中心内宝贵的AI算力100%发挥,引领数据中心网络进入AI时代。

TOP