本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>
作为数据密集型行业和数智化转型的先锋,金融行业对高可靠、高性能、高安全有着极致要求,而日益开放的服务和无所不在的体验,使金融机构面临客户体验、业务连续、高效运营、外部攻击等多重变化和挑战。
首先,服务场景更加多元。商业银行正与各行业及其产业链上下游,构建更全面的生态系统,为中小企业、乡镇企业等群体提供更快捷更广泛的金融普惠服务;金融机构逐步将AI能力与网点服务、客服支撑、信贷评估、投研投顾等场景融合,通过技术创新提升服务体验。
其次,为响应需求的快速变化,金融产品从设计、开发、发布到运营,需要高度敏捷,以支撑新业务快速上线。银行生产系统从封闭架构走向开放架构,已是大势所趋。但如何保证核心业务在极端环境下的高性能、高可用,是必须攻克的首要技术难题。
同时,全球银行纷纷提前布局智能风控、安全防御体系,应对日益频发的交易欺诈、勒索攻击,守护资金安全。
综上所述,全新的数智时代,金融机构需要打造稳健韧性的数字基础设施、敏捷弹性的数据平台能力,以应对用户需求的快速变化,提供安全可靠的服务,确保业务在各种突发情况下仍能平稳运行。
华为在服务中国及全球金融机构的过程中,与领先金融机构共同创新,提出了金融韧性基础设施的“4 Zeros”目标:Zero Downtime高可用,Zero Wait极致体验,Zero Touch高效运维,和Zero Trust可信安全。当然,这四个方面不是割裂的能力,而是需要云、网、存、算等基础设施跨域协同,形成端到端的韧性体系,如下几大技术和方向至关重要:
1. 计算资源的高可用性和弹性
金融数据中心的关键业务,包括结构化的数据库业务和半结构、非结构化数据分析类业务。这两类业务的最大特征就是多任务的并行性、逻辑相似性。以6.18为例,上千万用户同时进行在线交易,运行的是相似的下单-过账-查询逻辑。
对于计算资源而言,X86采用长流水线架构,并行流水线相对较少,适合于长语义类的复杂逻辑计算;而ARM流水线数量多、长度相对较小,适合于多并行计算;GPU或NPU采用立体式的多维矩阵,则更适合多维度逻辑关联的AI训练和推理。
确定性的逻辑、高度的并发,最能发挥ARM架构的优势。因此,基于ARM的多核并行计算平台,更适用于银行海量并发交易业务。
2. 存储系统的安全性和可靠性
《中国人民银行业务领域数据安全管理办法》要求对信息系统第三层级以上数据实施加密存储。但软件层加密技术十分消耗CPU资源,且对数据库模糊查询机制产生影响,导致数据库等值查询性能损失超过20%。企业级存储则可依靠专用引擎或硬盘芯片,实现性能无损的数据库加密。外置专业存储亦通过多重冗余方式,借助跨数据中心双活等系统级方案,保障数据永远在线。
3. 网络连接的稳定性和高效性
面向数据中心联接,需基于高性能网络设备和智能管控平台,构筑高可用容灾DCN网络,提供极速切换0中断、网络变更0事故,故障定界0担忧的三大能力。
面向业务承载网络,需支持端到端SRv6、IPSec/xSEC能力,确保业务快速接入并端到端安全加密,并通过云网边端一体防护,为分支提供和总部一致性的安全保障,守护金融分支网点安全。
4. 云平台系统化的高可用性设计
云管理平面通常采用多区域、多可用区部署架构,消除单区域失效对业务的影响。业务平台将业务负载分散编排到多个节点和可用区运行,通过负载均衡和自动扩展机制,根据业务需求动态调整资源分配,避免单点故障和处理性能不足带来的业务失效。
5. 数据中心的灾备多活建设
金融数据中心正由两地三中心向多地多中心演进,通过多实例部署、流量分发、统一管理多云多地域容器集群等资源,实现基础设施云原生多活、数据多活和应用多活。
图1 云网存算多活数据中心全面提升业务韧性众所周知,用于承载核心交易、信贷、报表等业务的数据库,对性能、数据一致性和可靠性有极致的要求。
而传统的存算一体架构,存在三方面问题:数据库性能不足导致分库分表,将大幅增加业务改造成本;大业务压力下,主从节点间数据差异可达数百秒,存在数据不一致的风险;容灾能力由双集群容灾降级为单集群容灾,服务器本地盘故障时易导致整个节点性能降低,故障影响面扩散到集群,导致业务“夯死”,难以承担金融级核心应用。
为此,某大型头部银行将企业级全闪存储和数据库进行创新改造,通过跨域协同,形成全栈国产化的存算分离双集群多主容灾架构,实现业界首个跨Region、跨集群的高性能高可用方案。
图2 存算分离双集群多主容灾架构该方案采用数据库引擎和数据分离的架构,数据库节点仅进行计算,充分释放数据库性能,上层业务无需规模改造;以日志复制替代数据复制,极大减小了复制数据量和对系统性能的影响;借助存储同步复制的高性能、高并发、强一致性的特点,实现了RPO=0,RTO<2min的高可靠性,满足金融A+级可用性需求。
此外,通过数据库与高性能ARM服务器软硬协同,以NUMA-Aware技术,在全并行多核框架下,通过异步并行拷贝、减少跨核数据拷贝和通信等调优,实现OLTP性能提升1.5~1.6倍;通过NOF+技术协同服务器、网络和存储设备,全面替换FC网络,实现读写带宽提升超50%,拥塞时延降低40%。
目前,存算分离多主架构、NUMA-Aware数据库加速、NOF+等跨域协同技术已经在国内多家领先银行得到规模应用。
面对日益严峻的网络攻击和数据泄露风险,金融机构须建立安全高效的运维体系,完备网络安全防护、数据保护机制,提升自动化运维水平,支撑故障快速定位、决策和切换,完善灾难预演预警、影响评估、辅助决策、敏捷切换等核心能力。
1. 网络攻击防御是基础能力
数字金融面临的风险,不仅来自于自然和人因故障,还包括越来越隐蔽的网络威胁攻击,如勒索软件等。传统的数据安全事件管理和技术,往往只能采取被动响应和恢复行为来消减风险,其响应滞后性较大,无法提前有效识别潜在风险和应对网络威胁攻击。
为提升安全韧性,需要提供更全面的动态检测、主动防御、联动恢复能力:借助数据行为自学习技术,实时分析业务I/O异常,主动采用防御行为,保障数据出现安全风险时可防可知可恢复;通过防火墙和存储的联动检测,快速隔离受感染的系统,利用安全快照和离线存储技术秒级恢复业务。
2. 高效故障定界和变更管理
传统运维系统的管控平台只能看到隧道层,无法定位某个具体应用的质量问题现状,支持应用级的业务可视和调优。
新一代运维系统可基于应用对故障点进行自动定位,精准还原客户业务体验,辅助运维人员快速排查;通过自动化管理工具,可以实现配置的仿真验证、自动部署,确保变更的准确性,从而大幅提升运维效率。
3. 统一灾备管理
金融数据中心的稳定性至关重要,面对海量服务器和网络设备,亟需一套平台协同灾难恢复预案,完成灾备环境监控、日常演练,确保容灾切换工作的完整性。
图3 统一灾备管理平台支撑高效运维华为不断优化云、管、边、端的产品组合,为金融行业升级打造韧性数智基础设施:
•在数据库GaussDB和数据存储Dorado协同容灾的基础上,进一步提出MAS多活高可用架构,为多地多中心形成架构参考;
•提供MRP存网协同防勒索方案,实现病毒发现快、数据隔离快、业务恢复快,已在全球百余家银行部署,受保护的核心数据超过100PB;
•推出安全SASE方案,精准识别终端异常行为,构筑安全的泛在连接,支撑网点业务切换零感知;
•发布网络数字地图方案,实现了业务全景可视,高效支撑了1 分钟感知故障、3 分钟定位根因、5 分钟故障恢复的自愈模式。
金融机构的韧性架构建设是一个系统性工程,需从顶层设计出发,按照平台优先战略打造基础设施平台,支撑基于云平台和分布式技术的业务应用,并通过智能化的安全运维体系,全面提升业务敏捷韧性。
在迈向智能世界的道路上,华为将持续打造竞争力领先的产品解决方案,更好地服务全球金融客户。
免责声明:文章内容和观点仅代表作者本人观点,供读者思想碰撞与技术交流参考,不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情,请访问产品与技术介绍页面或咨询华为公司人员。