如果您需要帮助,请点击这里

招商银行联合华为推进网络变革,勾勒金融 AI 新未来

招商银行总行信息技术部数据中心网络室经理 李云龙/文

感情男声
  • 感情男声
  • 感情女声
  • 标准男声
  • 标准女声
倍速1.0X
  • 倍速0.5X
  • 倍速1.0X
  • 倍速1.5X

招商银行是 1987 年在中国改革开放最前沿深圳诞生的,是中国第一家完全由企业法人持股的股份制商业银行。作为中国第一家为客户撑伞、第一家有排队机、第一家给客户发牛奶的银行,30 年来,招商银行迅猛发展,在 2018《财富》世界 500强榜单中名列第 213 位,在《银行家》公布的 2018 年全球银行 1000 强中,招行经营绩效指标在国内银行排名第一。

从卡时代向 APP 时代跃迁,全力推进零售金融3.0

这些成绩与招行多年来的持续战略转型密不可分。说起数字化转型,从 2014 年开始招商银行就明确了轻型银行的转型方向和“一体两翼”(以零售金融为主体,公司金融和同业金融为两翼)的战略定位。2015 年进一步提出了移动优先的策略,并且集中力量打造了招商银行两大 APP:招商银行手机 APP 和掌上生活 APP,让招商银行进入 APP 时代。2017 年招行进一步提出要以金融科技作为转型下半场的动力,实现从客户思维、交易思维的卡时代,向用户思维、旅程思维的 APP 时代跃迁,从经营静态的交易产品向构建动态的服务生态,全力推进零售金融 3.0。

目前招商银行的经营主战场从网点变成了 APP,两大 APP已经成为连接招行最主要的载体和连接零售业务最主要的平台。截至 2019 年底 “招商银行”和“掌上生活”两大 App 的月活跃用户(MAU)达 1.02 亿户。2018 年招行就提出将 MAU(月活跃用户数)作为牵引零售金融转型的“北极星”指标,在接下来的零售金融 3.0 时代,招行会继续坚持移动 APP 的优先战略,通过“内建平台、外拓场景、流量经营”,全面推进零售金融数字化转型,构建全产品、全渠道、全客群的服务体系,打造最佳客户体验银行。

重构数字化运营能力,网络的三大挑战和变革

在以 APP 经营为核心的金融科技转型背后,是运用金融科技对客户服务、经营模式和组织架构的转型和计划,是 IT 基础设施的巨大蜕变和重构,同时也给网络带来了严峻的挑战。

首先在决策系统,业务的实时性和智能化需求使得大数据分析越来越多地出现在业务链条当中,其时效性很强,AI 算法不仅与 IT 算力有关,更与网络性能息息相关。高吞吐、低时延、零丢包成为对网络的一项基本要求,传统网络限制了 AI 训练效率的提升。第二在生产系统,在 APP 时代,金融业务爆发,敏捷是一个天然的属性,但是在传统的运营能力下,以周为单位的交付能力,以天为单位的网络策略开通能力,已经跟敏捷无法沾边。第三在运维支撑系统,数据的全互联、网络规模越来越大,流量越来越复杂,如何保证业务连续性,网络的稳定性、可视化和洞察力也急需加强。

以下从三个方面介绍招商银行在数字化转型方面的实践:

• 重构决策系统,智能无损以太网实现 AI 数据中心高效运行

业务的智能化离不开大数据的支撑。数据中心内有海量的业务数据、客户数据、运维数据,且这些数据持续爆炸式增长。如何在海量数据中挖掘价值信息?招行现在有智能客服、智慧营销、摩羯智投等多样化业务,在数据不断给招行创造价值的同时,实时的数据分析也走进了招行的业务流中。数据分析的实效性要求越来越高,对网络而言,大数据分析不仅仅需要大带宽,低时延和零丢包也成为关键指标。

招行率先在分行云中做了实践,分行云是招行全行云计算战略的一个创新试点,采用了计算和存储分离的部署架构,同时为了给用户提供像访问本地硬盘一样的客户体验,招行 IT 系统引进了远程直接数据存取(Remote Direct MemoryAccess ,RDMA)的技术,来提升网络的整体吞吐量、降低 CPU 的消耗。RDMA 是对时延和丢包极度敏感的技术,招行实测的数据显示,1/1000 左右的丢包,就会导致整体性能损失一半,这要求网络做到零丢包。

然而传统的数据中心网络中,以太网天生就是不那么可靠的网络。幸运的是,华为CloudFabric 数据中心网络为招行提供了智能无损以太网解决方案。采用该方案后,招行实现了高吞吐、零丢包和低时延的网络。经过实际的 AI 训练测试,一台 25G 网卡的计算节点访问存储节点的吞吐量达 2.8GByte/s,整个存储集群的吞吐性能提升 20%,效果相当于增加 4~5 次迭代 / 秒。下一步,招行正计划将智能无损以太网引入到300 张网卡的 GPU 集群中,希望能够为招行的 AI战略带来更大的助力。

• 重构生产系统,ADN 构建全流程自动化

随着金融数据化转型,以及云计算、大数据、人工智能等全行科技战略的推进,带来的是招行 IT 基础设施指数级的增长。在 2017 年年初到 2018 年 10 月这一年多的时间中,招行全行的计算和网络资源增长的规模已经超过了过去 10 年的存量,APP 访问量已经达到 4.5 亿次 / 天,峰值高达 1.5 万次 / 秒。

量变一定会引起质变,一方面是基础设施交付的压力,一方面是业务的敏捷,均要求频繁地网络变更。如何能够构建一个全流程的、自动化的链条,使得业务的意图可以快速地落地到网络的配置中。这是招行曾面临的巨大挑战之一,招行也和华为在这方面做了联合创新和探索。

在 2017 年新建的招行某云数据中心中,有一个 2000 个节点的可用区,招行部署了华为CloudFabric 数据中心网络。基于华为 iMasterNCE 自动驾驶网络管理控制系统配合 ZTP 零配置上线功能,招行实现了整体网络零配置上线,以及 Overlay 配置自动化下发。不仅做到业务配置的分钟级下发,将基础网络的交付从过去的两周缩短至 3 天,同时极大减轻了在资源交付阶段的压力。

但是这还远远不够,网络资源虽然敏捷交付了,后续还有永无止境的业务上线和业务的弹性伸缩。比如,网络工程师常常面临这样的业务需求场景:业务部门打来电话,有一个 A 业务,预计业务的增长量会超过 50%,请 IT 部门帮助提供相应的基础设施保障。当接到这样的业务诉求,作为一个网络人员,我们可能是无所适从的,因为这里可能涉及 50 个服务器节点的扩容,还涉及500 个 IP 地址的分配和相关的网络配置,更可能涉及 5000 条网络策略的开通。虽然在每一部分的工作当中招行网络工程师都已经做了一定程度的自动化,但是还不能做到全流程的自动化。总体而言,这种规模的扩容上线,评估需要耗时近一个月,同时面临很高的沟通成本以及错配、漏配的返工成本,都是网络工程师需要面临的挑战。

为了解决这个痛点,招行和华为启动了一个联合创新项目,希望在自动驾驶网络(ADN)方面再次突破,将业务意图识别为网络的行为,形成策略、校验、下发、验证的一个完整闭环,将整体的网络交付时间和运营扩容时间缩短至以天为单位。

• 重构运维系统,实现智能运维 1-3-5

运维通常会经历几个阶段:第一个阶段是求稳,业务上线,能不动就不动。因为变更就意味着风险,同时运维工程师希望高度可视化,追求是指标的可度量和可视化。第二阶段随着金融科技的发展,禁止变更是不切实际的,不但变更会存在,而且业务需要更敏捷的变更。在此阶段,平台的自动化成为关键。享受了自动化的红利,也会面临自动化的问题。主要挑战是网络成为了一个黑盒,传统运维已经力不从心。然而,海量运维数据也催生出基于大数据和 AI 的智能运维,进入第三阶段 AIOps。

招行云数据中心通过引入华为 iMaster NCEFabricInsight 网络智能分析器,实现基于大数据和 AI 算法的故障自动识别、智能定位和潜在风险提前预测。FabricInsight 从业务的视角向下管理整个网络,每台网络设备都是一个探针,可以对每条业务流进行全路径的运维管理,实现 1 分钟故障识别、3分钟快速故障定位和5分钟故障修复。

2018 年 7 月,FabricInsight 在招行数据中心上线不久,招行业务人员在业务系统上发现,某个渠道大数据集群和 Kafka 集群间有大量的重传告警,预计达到 30 万条 / 小时,原因无法确认。

而借助 Fabricinsight 的智能分析,根本的原因被快速发现,Kafka 集群中某台服务器的一个端口对 syn.ack 的响应非常慢,从而导致大量的重传告警。本次故障,从发现问题到确认根因,只花了几分钟。并且当网络工程师将故障原因主动告知业务部门人员后,很快就得到了正面反馈,业务人员确认了访问响应慢的问题并在重启应用后,故障被消除,整个问题得到了完美的解决。

以前传统运维是什么流程呢?一定是业务人员发现访问慢了,简单自查后给网络工程师打电话,要求赶紧排查网络。网络人员又需要花费很长时间来定位问题,对业务的影响会比较大。因此网络部门会不断地被业务部门投诉,甚至成为“背锅侠”。以前的网络不透明,往往会存在很多说不清、道不明的情况。FabricInsight 让网络更加可视 , 让网络运维工程师拥有非常强的网络洞察能力。招行也对 FabricInsight 即将提供的更完善的智能预测和自动验证等能力更加期待,期望协助招行迈向自动驾驶网络。

扫描体验移动阅读
ict 28 400 514

第28期 智能IP网络特辑

引领智能IP时代

Current catalogue

刊首语

视野

特别报道

焦点

专栏