本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

搜索
  • banner pc

    云脑智能平台:让IT运维更简单


云脑,谐音“运”脑,是在IT运维工作中应用人工智能(AI)技术的新尝试。
如何真正实现信息系统运行的高可用和高性能,始终是运维领域最重要的研究方向。近年来,智能运维因其能够快速定位故障根因、预知容量风险并合理应对资源配置,使得引入智能运维的呼声不断。云脑就是用来升级运维工作现状,解决企业信息系统运维中存在的突出问题的。

运维的伤与痛

  • 场景一:快速定位故障

当故障发生时:集中报警带来的大批量报警消息通过各种渠道汹涌而来,手机信息不断刷屏,让人应接不暇,毫无招架之力。
此时此刻,你不得不从单条故障告警信息入手,同时还要访问对应的服务器,搜索运行日志,30分钟的故障有效定位和解决时限成了压在运维工程师心口的一块大石。随着限期的不断临近,心口的大石越发沉重,再加上业务方的紧盯和催促,眼前成百甚至上千个分散告警让你脑中一片空白,茫然失措。
运维工程师的内心是崩溃的:这种情况太糟糕了,我该怎么办?

  • 场景二:预知容量风险

业务部门开展活动的时机总是让人捉摸不透。只要愿意,他们可以随时随地通知信息技术部门,可能是明天,也可能是下午,无论时间多紧,IT部门都必须做好保障工作,至于活动量级?对不起,业务部门无法提供。


运维团队接到需求的那一刻,会迅速按照保障SOP手册完成各项检查部署工作,而至于系统扩容后是否能够支撑住保障活动的要求,运维负责人也没有绝对底气,只能搏一把运气。在整个业务活动保障过程中,业务与技术双方都在祈祷:一切顺利皆大欢喜,支撑不住的话再完全的准备也变得毫无意义。
这种不踏实的感觉何时才能消失?提心吊胆的风险何时才能彻底消除?

云脑:化解运维的忧与愁

云脑的核心大“脑”就是AI。AIOps缘起于Gartner的定义,是Algorithmic IT Operations的缩写,意即智能运维,就是让运维具备机器学习和算法能力。基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力和稳定性,降低IT成本,并提高企业的产品竞争力,是自动化运维的下一个阶段。
AIOps常见的应用场景包括质量保障、成本管理和效率提升等,太平洋保险与华为合作选择了“告警工单收敛”与“业务趋势预测”这两个需求场景。

  • 基于AI的告警工单收敛——“里”

工单收敛主要包括离线模型训练模块和在线工单收敛模块两部分。建模模块依次进行数据采集与预处理、特征选择和模型训练等过程,随后进入工单收敛阶段,完成包括工单分类、信息提取、聚类和根因分析等处理过程。
近几年,华为公司内部一直在应用AI技术实现降本增效,已有广泛实践和成功案例,其中就涉及到智能运维方面的实践,包括网络智能运维和IT系统智能运维等。因此,我们的算法选择过程充分借鉴了华为在AIOps上的成功经验,采用了LSTM、关联项挖掘、决策树和随机森林等机器学习和深度学习算法;同时,华为还基于开源算法完成了算法性能提升来提高模型生成速度,以及通过对算法本身的优化来提高模型的泛化能力和预测精度。
通过本项目的建模和验证显示,在不同业务系统报警数据中取得了减少工单量60%~80%的效果。目前告警工单收敛率总体超过70%,经运维工程师测评确认明细收敛结果正确率则超过90%。

  • 基于AI的告警工单收敛——“表”

云脑将脑中分析的结果以分析看板的形式呈现出来。拓扑架构上的各层报警通过云脑分析后,直接完成告警工单的收敛结果和溯源分析结果。一旦故障发生,云脑的介入使得整个分析过程变得异常高效,运维工程师在此基础上能够直达本源,快速通过自动化运维等平台联动处理,让以往复杂的分析过程变得简单。

  • AIOps实践之业务量预测——“里”

用于预测研究的关键业务量包括太平洋保险2016~2017年寿险出单量、车险报案量、车险结案量、承保出单量和产寿险话务呼入量。主要建模算法选择了XGBoost,其是boosting类集成算法中的一种,在预测领域效果非常显著。
以2017年产险车险结案量数据为例,根据XGBoost算法生成基本模型后发现,该模型对春节、国庆、小长假和星期等模式的预测趋势基本正确,但强度不够,再根据历史数据建立星期模型、春节模型、国庆模型和小长假模型,根据这些模型对基础模型的输出进一步进行调整,结果显示,增强后的模型误差可减少50%左右。

  • AIOps实践之业务量预测——“表”

业务趋势预测也通过看板的形式向业务和技术方实施动态展现,提前预警,应对业务变化对IT资源支撑带来的冲击,在运维管理中建立预测看板已经成为未来运维工作发展的趋势。而从评判效果的预测误差(NRMSE,指预测误差值,即差异量/平均每日交易量,值越小差异越小,模型效果越好)来看,云脑已达到了可参考范围,其总体误差小于30%。


生产力转化

将告警收敛模型产品嵌入到目前的告警平台之后,通过与自动化运维平台链接,可实现告警同类合并、问题分析和关联分析等中间处理能力,无需再人工反复回顾历史告警信息,即可快速定位根因溯源。引入后以年告警工单量70万计算,可降低人工工作量超过7人年,提升解决故障时效预计达到22%。
而趋势预测模型成为告警看板平台的新成员之后,有利于业务部门和IT部门联动协作,提前应对业务变化的容量预估,同时建立系统运行数据档案,而且其扩展应用的效果将更加广阔。

两个场景需求通过云脑整体提供模型管理平台,提供在线和离线运行模型,内含结构化数据与非结构化数据处理、图片/文字等识别,通过模型构建和训练调优验证上线,并与各需求方系统通过接口对接实现交互,除了目前的知识库以外,不久还将全新升级底层知识支撑,依靠知识图谱技术提供更高效、更准确的分析结果,其中知识图谱的建设会采用华为提供的图引擎产品,以提供高性能知识图谱关系的存储、多跳查询和关系分析能力。

行业复用及推广前景

  • 云脑实际交付形态

提供看板:可视化图表将复杂处理过程及数据变得一目了然,正确表达数据的意义,让数据变成故事,让人快速读懂并定位问题。按照需求揭示细节,洞察背后原因,提供决策能力。

  • 提供模型:通过分析应用场景,可引入场景数据、训练确定算法方案、创建提供模型。对数据进行埋点、清洗、存储以及特征选择。对数据中包含的无效信息进行过滤,减少不确定性,提升算法能达到的上限,从数据中挖掘信息能力,不断衡量模型“聪明度”,持续验证、持续训练、反复迭代,直到符合预设的要求。
  • 提供引擎:让业务人员轻松高效地根据使用场景进行实时、准实时的决策模型/规则配置,实现在实时流数据驱动下,基于海量数据进行成千上万个决策模型/规则的计算任务,满足高并发、低延迟的应用场景需求。具备可编程、可扩展、高兼容、高能效和高弹性的特点。
  • 提供接口:可根据实际系统需要提供规范接口,对接提供分析推理服务,实现多平台链接,更快速、更便捷。
  • 云脑应用场景
  • 主要适用的行业内需求场景:问题缺陷收敛、资源使用预测、预测用户行为定制保险产品、成本(理赔)预测,以及保险关联反欺诈等。
  • 主要适用的行业外需求场景:海量信息收敛、物流预测、网站流量预测、销售量预测、保险关联反欺诈,以及人流量预测等。

面向远方,温暖未来

云脑从应用场景出发,关注客户的本质需求,解决用户的运维痛点。客户需要的是顺利稳定的业务运行和平滑顺畅的使用体验。云脑可以帮助用户快速定位故障点、掌握故障的原因,并第一时间迅速解决问题,实现故障过程无感化。
Gartner相关报告预测,AIOps的全球部署率将从2017年的10%增加到2020年的50%,其应用行业除互联网以外,还包括高性能计算、电信、金融、电力、物联网、医疗、航空航天、军用设备和网络等领域。
也许目前整个运维领域还处于探索阶段,甚至更多公司才刚刚起步,仍在观望,但智能化没有局外人,在智能化的进程中,你的位置在哪里?

TOP