本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

搜索

打造金融韧性基础设施,跨域协同激发系统潜力

2024-08-28
2223
1

作为数据密集型行业和数智化转型的先锋,金融行业对高可靠、高性能、高安全有着极致要求,而日益开放的服务和无所不在的体验,使金融机构面临客户体验、业务连续、高效运营、外部攻击等多重变化和挑战。

基础设施韧性,面临全新挑战

首先,服务场景更加多元。商业银行正与各行业及其产业链上下游,构建更全面的生态系统,为中小企业、乡镇企业等群体提供更快捷更广泛的金融普惠服务;金融机构逐步将AI能力与网点服务、客服支撑、信贷评估、投研投顾等场景融合,通过技术创新提升服务体验。

其次,为响应需求的快速变化,金融产品从设计、开发、发布到运营,需要高度敏捷,以支撑新业务快速上线。银行生产系统从封闭架构走向开放架构,已是大势所趋。但如何保证核心业务在极端环境下的高性能、高可用,是必须攻克的首要技术难题。

同时,全球银行纷纷提前布局智能风控、安全防御体系,应对日益频发的交易欺诈、勒索攻击,守护资金安全。

综上所述,全新的数智时代,金融机构需要打造稳健韧性的数字基础设施、敏捷弹性的数据平台能力,以应对用户需求的快速变化,提供安全可靠的服务,确保业务在各种突发情况下仍能平稳运行。

构建韧性的五大关键技术

华为在服务中国及全球金融机构的过程中,与领先金融机构共同创新,提出了金融韧性基础设施的“4 Zeros”目标:Zero Downtime高可用,Zero Wait极致体验,Zero Touch高效运维,和Zero Trust可信安全。当然,这四个方面不是割裂的能力,而是需要云、网、存、算等基础设施跨域协同,形成端到端的韧性体系,如下几大技术和方向至关重要:

1. 计算资源的高可用性和弹性

金融数据中心的关键业务,包括结构化的数据库业务和半结构、非结构化数据分析类业务。这两类业务的最大特征就是多任务的并行性、逻辑相似性。以6.18为例,上千万用户同时进行在线交易,运行的是相似的下单-过账-查询逻辑。

对于计算资源而言,X86采用长流水线架构,并行流水线相对较少,适合于长语义类的复杂逻辑计算;而ARM流水线数量多、长度相对较小,适合于多并行计算;GPU或NPU采用立体式的多维矩阵,则更适合多维度逻辑关联的AI训练和推理。

确定性的逻辑、高度的并发,最能发挥ARM架构的优势。因此,基于ARM的多核并行计算平台,更适用于银行海量并发交易业务。

2. 存储系统的安全性和可靠性

《中国人民银行业务领域数据安全管理办法》要求对信息系统第三层级以上数据实施加密存储。但软件层加密技术十分消耗CPU资源,且对数据库模糊查询机制产生影响,导致数据库等值查询性能损失超过20%。企业级存储则可依靠专用引擎或硬盘芯片,实现性能无损的数据库加密。外置专业存储亦通过多重冗余方式,借助跨数据中心双活等系统级方案,保障数据永远在线。

3. 网络连接的稳定性和高效性

面向数据中心联接,需基于高性能网络设备和智能管控平台,构筑高可用容灾DCN网络,提供极速切换0中断、网络变更0事故,故障定界0担忧的三大能力。

面向业务承载网络,需支持端到端SRv6、IPSec/xSEC能力,确保业务快速接入并端到端安全加密,并通过云网边端一体防护,为分支提供和总部一致性的安全保障,守护金融分支网点安全。

4. 云平台系统化的高可用性设计

云管理平面通常采用多区域、多可用区部署架构,消除单区域失效对业务的影响。业务平台将业务负载分散编排到多个节点和可用区运行,通过负载均衡和自动扩展机制,根据业务需求动态调整资源分配,避免单点故障和处理性能不足带来的业务失效。

5. 数据中心的灾备多活建设

金融数据中心正由两地三中心向多地多中心演进,通过多实例部署、流量分发、统一管理多云多地域容器集群等资源,实现基础设施云原生多活、数据多活和应用多活。

云网存算多活数据中心全面提升业务韧性

图1 云网存算多活数据中心全面提升业务韧性

大型头部银行已率先实践

众所周知,用于承载核心交易、信贷、报表等业务的数据库,对性能、数据一致性和可靠性有极致的要求。

而传统的存算一体架构,存在三方面问题:数据库性能不足导致分库分表,将大幅增加业务改造成本;大业务压力下,主从节点间数据差异可达数百秒,存在数据不一致的风险;容灾能力由双集群容灾降级为单集群容灾,服务器本地盘故障时易导致整个节点性能降低,故障影响面扩散到集群,导致业务“夯死”,难以承担金融级核心应用。

为此,某大型头部银行将企业级全闪存储和数据库进行创新改造,通过跨域协同,形成全栈国产化的存算分离双集群多主容灾架构,实现业界首个跨Region、跨集群的高性能高可用方案。

存算分离双集群多主容灾架构

图2 存算分离双集群多主容灾架构

该方案采用数据库引擎和数据分离的架构,数据库节点仅进行计算,充分释放数据库性能,上层业务无需规模改造;以日志复制替代数据复制,极大减小了复制数据量和对系统性能的影响;借助存储同步复制的高性能、高并发、强一致性的特点,实现了RPO=0,RTO<2min的高可靠性,满足金融A+级可用性需求。

此外,通过数据库与高性能ARM服务器软硬协同,以NUMA-Aware技术,在全并行多核框架下,通过异步并行拷贝、减少跨核数据拷贝和通信等调优,实现OLTP性能提升1.5~1.6倍;通过NOF+技术协同服务器、网络和存储设备,全面替换FC网络,实现读写带宽提升超50%,拥塞时延降低40%。

目前,存算分离多主架构、NUMA-Aware数据库加速、NOF+等跨域协同技术已经在国内多家领先银行得到规模应用。

韧性需要更安全高效的运维体系

面对日益严峻的网络攻击和数据泄露风险,金融机构须建立安全高效的运维体系,完备网络安全防护、数据保护机制,提升自动化运维水平,支撑故障快速定位、决策和切换,完善灾难预演预警、影响评估、辅助决策、敏捷切换等核心能力。

1. 网络攻击防御是基础能力

数字金融面临的风险,不仅来自于自然和人因故障,还包括越来越隐蔽的网络威胁攻击,如勒索软件等。传统的数据安全事件管理和技术,往往只能采取被动响应和恢复行为来消减风险,其响应滞后性较大,无法提前有效识别潜在风险和应对网络威胁攻击。

为提升安全韧性,需要提供更全面的动态检测、主动防御、联动恢复能力:借助数据行为自学习技术,实时分析业务I/O异常,主动采用防御行为,保障数据出现安全风险时可防可知可恢复;通过防火墙和存储的联动检测,快速隔离受感染的系统,利用安全快照和离线存储技术秒级恢复业务。

2. 高效故障定界和变更管理

传统运维系统的管控平台只能看到隧道层,无法定位某个具体应用的质量问题现状,支持应用级的业务可视和调优。

新一代运维系统可基于应用对故障点进行自动定位,精准还原客户业务体验,辅助运维人员快速排查;通过自动化管理工具,可以实现配置的仿真验证、自动部署,确保变更的准确性,从而大幅提升运维效率。

3. 统一灾备管理

金融数据中心的稳定性至关重要,面对海量服务器和网络设备,亟需一套平台协同灾难恢复预案,完成灾备环境监控、日常演练,确保容灾切换工作的完整性。

统一灾备管理平台支撑高效运维

图3 统一灾备管理平台支撑高效运维

华为全面升级金融韧性基础设施解决方案

华为不断优化云、管、边、端的产品组合,为金融行业升级打造韧性数智基础设施:

•在数据库GaussDB和数据存储Dorado协同容灾的基础上,进一步提出MAS多活高可用架构,为多地多中心形成架构参考;

•提供MRP存网协同防勒索方案,实现病毒发现快、数据隔离快、业务恢复快,已在全球百余家银行部署,受保护的核心数据超过100PB;

•推出安全SASE方案,精准识别终端异常行为,构筑安全的泛在连接,支撑网点业务切换零感知;

•发布网络数字地图方案,实现了业务全景可视,高效支撑了1 分钟感知故障、3 分钟定位根因、5 分钟故障恢复的自愈模式。

金融机构的韧性架构建设是一个系统性工程,需从顶层设计出发,按照平台优先战略打造基础设施平台,支撑基于云平台和分布式技术的业务应用,并通过智能化的安全运维体系,全面提升业务敏捷韧性。

在迈向智能世界的道路上,华为将持续打造竞争力领先的产品解决方案,更好地服务全球金融客户。

免责声明:文章内容和观点仅代表作者本人观点,供读者思想碰撞与技术交流参考,不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情,请访问产品与技术介绍页面或咨询华为公司人员。

TOP