本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

搜索

数据中心互联如何智能运维

2019-09-16
2449
0

DCI作为企业数字化转型的基石,一方面,数据中心互联网络承载的业务越来越多,对可靠性要求越来越高,另一方面,随着数据中心的快速扩充,其数量庞大的光纤管理越来越难,高密度的业务管理越来越复杂。一旦出现故障,上层的业务如DCN交换机、存储服务器、IT应用等往往先感知,网络部门面对的将是其他部门如雪片的的投诉,这样就非常被动。由于光纤或单板的原因会同时产生大量衍生的告警,这对没有传送背景的非专业运维人员,很难快速找到真实原因。目前的现状是往往几个运维人员要维护成百上千台设备,有限的网络运维人力和快速增长的网络需求之间的矛盾日益突出。

那么,如何才能构建智能的网络系统,帮忙更好地进行业务管理,尤其是光纤管理。既要保持光纤的安全性、可靠性、可维护性,又要在出现故障时,能够快速定界发生故障的光纤,并且通过软件的方式快速精确定位,不需要任何辅助工具或者下站点,帮忙最终快速恢复业务,最好是能够做到提前预警,将隐患消除在萌芽阶段。

海量数据

采集海量、精确的光层网络状态参数是实现智能网络管理的基础。一个典型传输系统中的相干接收机主要包括3部分:oDSP(Optical Digital Signal Processor)、发射机和接收机。其中oDSP是整个系统中最为核心的部件,通过在oDSP中集成光层神经元功能模块,能够在光层网络实现分布式全覆盖,并且在不改变网络设备形态的前提下(功能模块内嵌,无需额外设备),实时精确感知所有光层网络状态参数,用于支撑控制层的分析、运算功能,进行网络区域性或者全局的故障提前预警、业务调度、配置和优化。

光层神经元是一个功能模块,被集成在华为最新一代oDSP中,用于感知网络中所有波长信道在L0光层上的运行状态参数。其原理是在发送端通过oDSP将光层标签加载到所有波长信道上,当该波长经过网络中任意具备检测功能的节点时,该波长信道的标签被提取,同时将其一系列光层状态数字化,实现光层网络可视化管控。

光层神经元仅限于感知光信号在L0层传输状态参数,作为整体光网络优化的基础,包括但不限于以下状态信息:

• 光信噪比(OSNR)
• 色散(Dispersion)
• 偏振态(Polarization state)
• 偏振态变化(Polarization change)
• 非线性效应(Nonlinear effect)
• 链路余量(Link margin)
• 滤波特性(Filtering)

相对于业界传统方案,华为光网神经元可以实现高频率秒级采集光网物理特征参数,采集的参数种类多达400多种。这里收集是网络维护参数,不涉及到客户的业务数据,不涉及到信息安全的安全,只是为了更好地诠释出真实的光网络特性,将物理的光网络映射成为数字光网,后续结合大数据挖掘、智能算法等技术,对这些数据进行训练和建模,可以更好的在上层应用中使用,提升智能化、自动化程度,节省OPEX。

强大算力

设备内置专业智能芯片,用于海量光网络参数的大数据处理和分析。伴随着智能算法复杂度的增加,以及海量数据的处理,对算力有巨大诉求。

设备上集成了智能芯片,其极致高效计算、低功耗在配合硬件加速板卡,为大数据采集、存储、分析、训练、上报等使用,提供相对于原CPU的10倍以上的强大计算能力。由于设备广泛覆盖在网络各个节点中,可以很好的处理实时性要求高的数据和应用。

云端部署也集成了智能芯片,是业界计算密度最大的智能单芯片(256T vs 业界最佳125T),可以方便部署更加复杂的智能算法和应用,更利于集中处理实时性要求不高的数据。

智能算法

最后,算法是智能化关键的使能技术。智能算法可以从大量的数据中进行特征提取,结合专家经验,从已有的故障特征或者资源特征中建立模型, 快速解决已知问题;同时,基于机器学习的智能算法,可以建立知识图谱和对趋势进行预测, 以实现故障的提前规避和性能的提前优化。

总之,基于光层神经元感知光层网络的所有状态参数,硬件构筑强大算力,配合控制层面的优化算法,实现网络智能化管控,应用到实际的场景中可以衍生出许多应用。

• 光网健康保障:由被动运维到预测式运维,节省OPEX,提升客户体验

长期以来,光网络的运维都是在故障发生乃至用户投诉之后的被动维修,无法提前识别故障发生前的缓慢劣化,只能等待“亚健康”状态的光纤或者业务持续恶化,直至引发各种故障,再进行紧急修复,既影响了业务,也增加了维护成本。据分析某网络故障数据,发现光纤故障占网络故障68%。其中OTS/OCh的缓变类故障 占比56%(占网络总故障的38%),其中弯折、摇晃、松动、纤芯故障四类占90%。

华为光网健康保障功能包,通过光网健康可视、光网健康预测、光网智能调测等Use Case,实现了对OTS/OCh的健康监控、预测、自动调优等运维自动化的闭环。

其中,光网健康预测,通过机器学习和预测算法,分析每条光纤和波道的健康情况,并根据光性能变化趋势,提前预测故障发生的风险和具体故障风险点,从而提前规避网络风险,提供修复建议,实现主动运维,减少业务中断。

• 故障根因分析:一故障一告警,快速精准排障

当数据中心网络出现故障时,业务会产生相应的告警,但是相同的故障往往会同时影响业务层OPU,电层ODU,光通道Och, 以及光线路侧OTS等,涌现出上百个衍生告警,不利于排查真实原因。但是可以通过智能计算与分析,找到根因告警,抑制其他的次要告警,做到一故障一告警,这样可以大大降低对运维人员技能的要求,帮助快速的故障定位和精准排障。

• 智慧光纤管理工具:精准光纤质量在线监测,快速指导光纤修复

当数据中心之间的长距离光纤出现故障时,传统方案智能通过管理系统上的告警来通知客户,同时需要派专业的工程人员进站,携带OTDR仪表检测光纤质量,时间长成本高。智慧光纤管理系统通过设备上内置eOTDR功能,通过软件的方式一键式精确定位光纤故障的位置,可快速通过运维人员进行维修,不仅缩短了业务恢复的时间,还减少了因为排障带来的OPEX。

博客标签: # 云计算

TOP