打造金融韧性基础设施，跨域协同激发系统潜力

2024年08月28日

马俊

华为数字金融军团，Marketing与解决方案销售部部长

作为数据密集型行业和数智化转型的先锋，金融行业对高可靠、高性能、高安全有着极致要求，而日益开放的服务和无所不在的体验，使金融机构面临客户体验、业务连续、高效运营、外部攻击等多重变化和挑战。

基础设施韧性，面临全新挑战

首先，服务场景更加多元。商业银行正与各行业及其产业链上下游，构建更全面的生态系统，为中小企业、乡镇企业等群体提供更快捷更广泛的金融普惠服务；金融机构逐步将AI能力与网点服务、客服支撑、信贷评估、投研投顾等场景融合，通过技术创新提升服务体验。

其次，为响应需求的快速变化，金融产品从设计、开发、发布到运营，需要高度敏捷，以支撑新业务快速上线。银行生产系统从封闭架构走向开放架构，已是大势所趋。但如何保证核心业务在极端环境下的高性能、高可用，是必须攻克的首要技术难题。

同时，全球银行纷纷提前布局智能风控、安全防御体系，应对日益频发的交易欺诈、勒索攻击，守护资金安全。

综上所述，全新的数智时代，金融机构需要打造稳健韧性的数字基础设施、敏捷弹性的数据平台能力，以应对用户需求的快速变化，提供安全可靠的服务，确保业务在各种突发情况下仍能平稳运行。

构建韧性的五大关键技术

华为在服务中国及全球金融机构的过程中，与领先金融机构共同创新，提出了金融韧性基础设施的“4 Zeros”目标：Zero Downtime高可用，Zero Wait极致体验，Zero Touch高效运维，和Zero Trust可信安全。当然，这四个方面不是割裂的能力，而是需要云、网、存、算等基础设施跨域协同，形成端到端的韧性体系，如下几大技术和方向至关重要：

1. 计算资源的高可用性和弹性

金融数据中心的关键业务，包括结构化的数据库业务和半结构、非结构化数据分析类业务。这两类业务的最大特征就是多任务的并行性、逻辑相似性。以6.18为例，上千万用户同时进行在线交易，运行的是相似的下单-过账-查询逻辑。

对于计算资源而言，X86采用长流水线架构，并行流水线相对较少，适合于长语义类的复杂逻辑计算；而ARM流水线数量多、长度相对较小，适合于多并行计算；GPU或NPU采用立体式的多维矩阵，则更适合多维度逻辑关联的AI训练和推理。

确定性的逻辑、高度的并发，最能发挥ARM架构的优势。因此，基于ARM的多核并行计算平台，更适用于银行海量并发交易业务。

2. 存储系统的安全性和可靠性

《中国人民银行业务领域数据安全管理办法》要求对信息系统第三层级以上数据实施加密存储。但软件层加密技术十分消耗CPU资源，且对数据库模糊查询机制产生影响，导致数据库等值查询性能损失超过20%。企业级存储则可依靠专用引擎或硬盘芯片，实现性能无损的数据库加密。外置专业存储亦通过多重冗余方式，借助跨数据中心双活等系统级方案，保障数据永远在线。

3. 网络连接的稳定性和高效性

面向数据中心联接，需基于高性能网络设备和智能管控平台，构筑高可用容灾DCN网络，提供极速切换0中断、网络变更0事故，故障定界0担忧的三大能力。

面向业务承载网络，需支持端到端SRv6、IPSec/xSEC能力，确保业务快速接入并端到端安全加密，并通过云网边端一体防护，为分支提供和总部一致性的安全保障，守护金融分支网点安全。

4. 云平台系统化的高可用性设计

云管理平面通常采用多区域、多可用区部署架构，消除单区域失效对业务的影响。业务平台将业务负载分散编排到多个节点和可用区运行，通过负载均衡和自动扩展机制，根据业务需求动态调整资源分配，避免单点故障和处理性能不足带来的业务失效。

5. 数据中心的灾备多活建设

金融数据中心正由两地三中心向多地多中心演进，通过多实例部署、流量分发、统一管理多云多地域容器集群等资源，实现基础设施云原生多活、数据多活和应用多活。

云网存算多活数据中心全面提升业务韧性

图1 云网存算多活数据中心全面提升业务韧性

大型头部银行已率先实践

众所周知，用于承载核心交易、信贷、报表等业务的数据库，对性能、数据一致性和可靠性有极致的要求。

而传统的存算一体架构，存在三方面问题：数据库性能不足导致分库分表，将大幅增加业务改造成本；大业务压力下，主从节点间数据差异可达数百秒，存在数据不一致的风险；容灾能力由双集群容灾降级为单集群容灾，服务器本地盘故障时易导致整个节点性能降低，故障影响面扩散到集群，导致业务“夯死”，难以承担金融级核心应用。

为此，某大型头部银行将企业级全闪存储和数据库进行创新改造，通过跨域协同，形成全栈国产化的存算分离双集群多主容灾架构，实现业界首个跨Region、跨集群的高性能高可用方案。

存算分离双集群多主容灾架构

图2 存算分离双集群多主容灾架构

该方案采用数据库引擎和数据分离的架构，数据库节点仅进行计算，充分释放数据库性能，上层业务无需规模改造；以日志复制替代数据复制，极大减小了复制数据量和对系统性能的影响；借助存储同步复制的高性能、高并发、强一致性的特点，实现了RPO=0，RTO<2min的高可靠性，满足金融A+级可用性需求。

此外，通过数据库与高性能ARM服务器软硬协同，以NUMA-Aware技术，在全并行多核框架下，通过异步并行拷贝、减少跨核数据拷贝和通信等调优，实现OLTP性能提升1.5~1.6倍；通过NOF+技术协同服务器、网络和存储设备，全面替换FC网络，实现读写带宽提升超50%，拥塞时延降低40%。

目前，存算分离多主架构、NUMA-Aware数据库加速、NOF+等跨域协同技术已经在国内多家领先银行得到规模应用。

韧性需要更安全高效的运维体系

面对日益严峻的网络攻击和数据泄露风险，金融机构须建立安全高效的运维体系，完备网络安全防护、数据保护机制，提升自动化运维水平，支撑故障快速定位、决策和切换，完善灾难预演预警、影响评估、辅助决策、敏捷切换等核心能力。

1. 网络攻击防御是基础能力

数字金融面临的风险，不仅来自于自然和人因故障，还包括越来越隐蔽的网络威胁攻击，如勒索软件等。传统的数据安全事件管理和技术，往往只能采取被动响应和恢复行为来消减风险，其响应滞后性较大，无法提前有效识别潜在风险和应对网络威胁攻击。

为提升安全韧性，需要提供更全面的动态检测、主动防御、联动恢复能力：借助数据行为自学习技术，实时分析业务I/O异常，主动采用防御行为，保障数据出现安全风险时可防可知可恢复；通过防火墙和存储的联动检测，快速隔离受感染的系统，利用安全快照和离线存储技术秒级恢复业务。

2. 高效故障定界和变更管理

传统运维系统的管控平台只能看到隧道层，无法定位某个具体应用的质量问题现状，支持应用级的业务可视和调优。

新一代运维系统可基于应用对故障点进行自动定位，精准还原客户业务体验，辅助运维人员快速排查；通过自动化管理工具，可以实现配置的仿真验证、自动部署，确保变更的准确性，从而大幅提升运维效率。

3. 统一灾备管理

金融数据中心的稳定性至关重要，面对海量服务器和网络设备，亟需一套平台协同灾难恢复预案，完成灾备环境监控、日常演练，确保容灾切换工作的完整性。

统一灾备管理平台支撑高效运维

图3 统一灾备管理平台支撑高效运维

华为全面升级金融韧性基础设施解决方案

华为不断优化云、管、边、端的产品组合，为金融行业升级打造韧性数智基础设施：

•在数据库GaussDB和数据存储Dorado协同容灾的基础上，进一步提出MAS多活高可用架构，为多地多中心形成架构参考；

•提供MRP存网协同防勒索方案，实现病毒发现快、数据隔离快、业务恢复快，已在全球百余家银行部署，受保护的核心数据超过100PB；

•推出安全SASE方案，精准识别终端异常行为，构筑安全的泛在连接，支撑网点业务切换零感知；

•发布网络数字地图方案，实现了业务全景可视，高效支撑了1 分钟感知故障、3 分钟定位根因、5 分钟故障恢复的自愈模式。

金融机构的韧性架构建设是一个系统性工程，需从顶层设计出发，按照平台优先战略打造基础设施平台，支撑基于云平台和分布式技术的业务应用，并通过智能化的安全运维体系，全面提升业务敏捷韧性。

在迈向智能世界的道路上，华为将持续打造竞争力领先的产品解决方案，更好地服务全球金融客户。

免责声明：文章内容和观点仅代表作者本人观点，供读者思想碰撞与技术交流参考，不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情，请访问产品与技术介绍页面或咨询华为公司人员。

马俊

华为数字金融军团，Marketing与解决方案销售部部长

其他文章

企业业务网站

华为云网站

运营商网络业务网站

消费者业务网站

集团网站