本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

搜索
  • banner pc

    不是所有的服务器都叫“智能服务器”

数据中心运维面临新挑战

随着云计算和大数据相关领域的迅速发展,业界正在快速增加数据中心的部署,对服务器的需求也大量增加。根据Gartner的报告,2017年第4季度全球范围内服务器的收入同比增加25.7%,服务器相关的技术产业处于上升期。

数据中心的设备规模从几千向几万、几十万甚至上百万数量演进,业务系统需要支持快速上线和灵活伸缩,海量服务器管理场景将由简单化变得复杂化和专业化,传统运维领域面临许多新型的挑战。

服务器部署的挑战:数据中心的迁移、扩容和整合场景中,一台新采购的服务器到正式使用需要经过装配、分配网络资源和下发配置等过程,现场人力涉及到硬件安装和技术类运营维护等。这些操作大部分都需要运维人员现场手工操作,据华为公司IT部门统计,在这类变更操作中超过50%的故障是由人工操作引发的。人工操作效率较低且容易出错,这将导致额外的人力、物力以及时间的开销。

能耗管理的挑战:根据Climate Change News的报告,2017年全球数据中心的电力消耗总量占全球电力使用量的3%,而且预计在2025年这一比例将高达20%。另外据统计,能耗费用占数据中心OPEX(营业费用)的比例高达35%,OPEX的高速增长已成为“全球难题”。用户对能耗管理的诉求主要体现在如何设计可靠的能耗管理策略,使之能够高效地节约能耗开销,以及如何有效地统计和预测能耗开销,这对数据中心的精准投资至关重要。

故障预警及诊断的挑战:传统运维模式中,运维人员主要是被动式地等待问题发生,再进行故障处理,传统运维人均维护效率为50~100台。随着数据中心规模快速增长,故障将发生得更加频繁,故障之间的关联将更加复杂,传统方式的维护效率将进一步降低。另外,传统的告警上报方式是要达到严重的阈值才能检测到问题,难以避免业务中断。在这样的背景下,用户级的99.95%或以上的服务质量承诺(SLA)很难保障。

智能运维:变被动为主动

运维行业整体处于高速发展之中,Gartner于2016年提出了智能运维的概念(Algorithmic IT Operations,AIOps),AIOps的部署率在2016年低于5%,Gartner预计2019年AIOps的全球部署率可以达到25%, 智能运维正在蓬勃发展。Gartner定义的AIOps运维平台拥有如下11项能力:历史数据管理、流数据管理、日志数据提取、网络数据提取、算法数据提取、文本和NLP文档提取、自动化模型的发现和预测、异常检测、根因分析、按需交付,以及软件服务交付能力等,这些能力的定义为解决上述痛点问题提供了很多针对性的解决措施,是当前数据中心管理海量服务器的主要发展方向。

图1 智能运维概况(来源:Gartner 2016)

智能运维是一个长期演进的过程,可以看到智能运维侧重的是从海量机器数据中进行检测和预测,从被动运维变成主动运维,这种优化主要是软件层面的优化,但实际上要在部署、节能以及故障管理等领域实现质的提升,软硬件的协作必不可少。

智能服务器:为智能运维提供新的演进方向

在这样的背景下,华为提出了智能服务器的概念,智能服务器通过集成智能芯片和智能算法,在服务器部署、故障诊断与预测、能耗管理、移动运维以及版本管理等方面提供智能化的管理能力。

图2 华为智能服务器的5大主要功能

智能服务器是集成运维平台软件、BMC软件以及智能化芯片的软硬件整体解决方案,那么这种软硬件整体的解决方案有什么优势呢?

相对于传统服务器,智能服务器本身便具备智能化的管理功能,例如单机级别的故障预测和分析、智能能耗管理等。相对于OEM模式的服务器提供了差异化的竞争力;同时,界面操作更加人性化和智能化,降低了运维人员的维护成本,提高运维体验;此外,智能服务器支持维护人员在近端通过蓝牙和Wi-Fi接入服务器运维系统,在服务器部署和故障定位排查方面提供了极大的便利性。

以部署和维护场景为例,智能服务器提供一键式Wi-Fi热点按钮,维护人员到达现场后,按下服务器上的Wi-Fi热点按钮,并使用移动App扫描服务器上的条码接入服务器运维网络,快速维护服务器的框位信息及下发配置操作,或者根据移动App提供的装配和故障排查指导进行装配和维修等。

相对于智能运维,智能服务器提供了支持智能化管理功能的硬件平台,这大大丰富了智能运维的场景。在很多场景下,运维人员需要手工操作的瓶颈点并不是因为有效信息隐藏在海量数据中,而是硬件本身不支持智能化的管理。智能服务器将软硬件打通,从根本上解决了一些运维场景中仅依赖软件层面无法解决的问题。同时由于硬件芯片能力的提升,服务器本身能够分担一部分智能运维能力,对服务器的管理更加及时和高效;服务器采集到的硬件信息也将更加全面,能够为运维平台进行决策提供更加可靠的参考。

以能耗管理为例,智能服务器将动态CPU调频、风扇调速以及电源休眠等功能进行整合。当夜间业务负载较低时,用户将能耗模型设置成节能模式,智能服务器动态地调节CPU频率,限制功率数值,同时让部分电源进入休眠模式,进一步节约能耗。当日间业务负载较高时,用户将能耗模式设置成高性能模式,智能服务器解除CPU调频限制和电源休眠配置,同时让风扇散热使用高性能的散热规格,节能策略的智能联动使得单柜服务器有望节能10%以上。智能化的能耗管理平台还提供了机柜级能耗的智能控制,根据历史功率推荐合适的功率封顶数值,在典型业务场景下,单柜服务器的部署密度可以提升10%以上。

智能服务器继承了智能运维现有的功能,同时为智能运维的演进提供了一个新的方向。可以预期,通过智能服务器解决方案的实施,能够帮助传统运维人员摆脱以往机械式、重复性和低价值的日常工作,将手工操作最大限度地变为智能化的自动操作,现场运维人力的效率能够得到极大提升。同时智能化的能耗和故障管理能力能够更好地保障对业务系统所承诺的服务质量(SLA),并且为用户更好地节省运营成本(OPEX)。

TOP