本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

搜索

分布式体系下核心系统安全运营能力建设探索

2024-12-16
83
0

文 / 中国光大银行金融科技部副总经理 彭晓

中国光大银行金融科技部 刘凌志 胥骞

“五篇大文章”赋予银行核心系统新的使命

当前中国银行业正加速数字化转型进程,需全面提升数字化经营与服务能力。在这一背景下,银行通过强化金融科技能力,深度支撑业务管理模式的革新、服务形态的重塑及产品创新策略的全面升级,全面融入并引领数字化时代。分布式新核心系统的建设正是这一战略部署中的关键一环,旨在有效响应并加速银行的数字化转型进程。

银行的核心系统,作为金融业务运作的心脏地带,承载着交易处理与数据流转的关键任务,是银行数字化转型和产品服务创新的重要前提和基石。因此,在追求全面数字化转型和产品服务创新的征途上,银行必须聚焦于核心能力的数字化重塑,致力于新一代核心系统的构建。这一系统不仅需深度融合数字化通用能力,还需成为推动银行服务模式、产品创新乃至整个业务生态革新的强大引擎。

新一代分布式核心系统建设实践

1.现有系统存在的问题与挑战

光大银行现有核心系统基于传统的IOE架构建设,自2004年运行至今,虽历经多次架构优化改造,实现了应用与数据库分离、应用负载均衡、交易读写分离及应用服务器小机下移等多项升级工作,系统性能和可靠性有了充分提升,但系统核心仍围绕账户运作,缺乏灵活的产品化能力与交易核算分离机制。技术层面,集中式数据库部署限制了系统对互联网高频小额交易、灾备切换灵活性、横向扩展能力、敏捷发布流程及自主创新性的支持,成为当前亟待解决的痛点。

2.业务需求与技术需求梳理

新一代核心系统在建设过程中通过需求的业务建模与架构的敏捷设计,全面提升核心系统服务的敏捷性与稳定性,实现敏稳融合的双模态全新数字核心,为银行数字化转型贡献“核心”力量。

(1)通过“需求模型化、应用服务化、业务组件化、逻辑原子化”构建乐高式核心,极致提升核心业务响应效率,构建“产品化、数字化、敏捷化”的高效智能业务服务新生态。

(2)从应用到基础设施的弹性伸缩架构设计,提高系统的容灾能力,实现业务资源的“随用随取”,并通过微服务将稳态业务沉淀为共享基础能力,在服务层增加组装工厂设计,内部实现业务稳敏解耦,对外呈现稳敏融合的全新数字核心架构。

3.架构设计和技术亮点

(1)多地多活的分布式单元化架构。为统一业务与IT架构,新一代核心系统融入“复用”“共享”“组件化”中台理念,设计11个业务微服务及6大子系统,实现灵活对接。通过采用微服务架构,各服务独立部署,减少系统耦合度,更好地满足个性需求。同时,采用单元化架构,数据按维度拆分至不同单元处理,实现跨地域多活部署,增强业务连续性。核心业务模块优先单元化,非收敛业务则集中部署,确保系统既灵活又稳健,支持快速方便扩展,减少系统故障爆炸半径。

图1  新核心分布式单元化架构

图1  新核心分布式单元化架构

提升扩容能力,按单元快速扩容,灵活调配流量。

支持灰度(单元)发布,灵活调拨灰度流量,通过小规模生产流量(单元)充分验证新版本,及时回切应急,保证新产品的平滑上线。

支持多活,实现同城多活,具备异地多活的能力基础。

支持同城、异地容灾,同城RPO=0、RTO为秒级,数据水平拆分,分片有同城和异地副本,满足容灾要求。应用流量与数据分片一致,支持中心内快速切换。

单元化多活,缩小故障影响范围,业务分散在多个数据中心、多个单元,故障隔离域粒度小。

(2)基于一体化全栈的自主创新系统。架构新一代核心系统基于全栈云部署,全栈云是光大银行全面引入的自主创新公有云架构,基于软件定义网络,软件定义存储等技术,替代原有虚拟化软件,补齐分布式对象存储、微隔离安全防护、制品库、GPU算力等服务能力。通过单元化架构充分适配我行“两基一云”,兼容云上多活,使我行新核心成为全栈云原生核心系统(微服务、容器化、DevOps)。

为更好支持新核心系统的建设,前期我行自研打造了分布式服务框架、分布式总线、分布式缓存、分布式消息、分布式网关、分布式事务、分布式批量、分布式数据库,为分布式架构的弹性伸缩、敏捷响应和高可用打下坚实基础。新核心在部署上实现了全栈自主创新,采用全栈自主创新硬件、分布式数据库和中间件,以及自研数据库,同时通过自研的云管平台进行高效管理,我行新核心是基于全栈自主创新环境构建的核心系统,这是金融科技领域突破关键核心技术应用的重大实践。

(3)构建真实业务在准生产环境重放能力,提升故障分析和故障预警能力。我行新核心系统通过构建准生产环境报文重放能力,从而实现生产报文在线重放与预跑批机制,显著增强了系统的故障预警、根因定位及批量故障预防能力。相比传统环境使用存储快照技术,当前的核心挑战在于,如何在分布式架构下,确保多单元、多副本分布式数据库与生产数据的高效同步与快速解耦,并实现在线交易重放。

图2  准生产报文重放

图2  准生产报文重放

数据库层创新:新核心系统采用数据库集群整体复制架构,在双AZ区域内各自部署独立的准生产数据库集群。为节约成本,该集群使用的服务器与生产环境等比例缩小,数据采用更大规格磁盘存放。依托分布式数据库的DRSP异步复制技术,我们实现了生产数据至准生产环境的准实时同步,确保数据一致性与时效性;依托磁盘镜像拷贝复制技术解耦准生产环境与生产环境,实现准生产换到数据重放环境的转换。

应用层优化:通过统一的容器化部署与版本管理策略,应用层严格保持与生产环境的版本与配置同步。重放环境不仅捕获并转换生产报文为T+1日数据,还实现了对新核心准生产系统的精确报文重放,提前发现系统中因序号长度变化、特殊时间点而引起程序缺陷。此外,针对生产环境中的偶发故障场景,重放环境能够在相同压力下复现故障,收集详尽信息以助力故障根源分析。

交易模拟与压力测试:为精准模拟生产联机交易的真实场景,重放系统精确控制发送速率与报文时序,精准再现生产交易量及TPS波动。重放后,通过响应报文对比验证重放效果,确保系统行为与生产环境高度一致。同时,系统支持灵活调整报文类型与TPS值,为不同业务提供定制化压力测试,精准测定各业务线的系统交易阈值,为系统优化与扩容提供数据支撑。

(4)同步建设金融级云原生运维平台,助力新核心系统安全运营。为充分应对分布式架构转型,特别是保障我行新核心系统上线后的稳定运行,分布式应用运维集成平台与新核心系统同步研发,从而更好地应对云原生运维挑战,整合复杂运营工作于一体化平台,涵盖监测、变更、应急、运行分析及容灾等关键领域。通过数据治理,构建统一资源视图,提升IT资产管理水平,支持架构优化及专项治理。

在可观测方面,平台以应用为核心,以总览拓扑为入口展示系统信息,支持应用、中间件以及基础资源的层层下钻和关联分析,以日志、指标、链路等数据为基础,实现立体化观测,提供一站式分析,助力事前预警、事中定位与事后分析。在变更发布方面,支持全生命周期管理,包括灰度发布、全程监控与回滚策略,确保变更安全可控,并通过对比分析发现配置风险。在应急处置上,预置应急预案,快速响应,灵活控制,确保恢复效率,总结改进形成运维资产,并建立操作流水线以降低故障影响。通过引入运行分析智能平台,利用AI模型预测容量需求与潜在故障,提前干预。该平台不仅整合了多项运维功能,还高效支持多数据中心流量的无缝切换,满足日常灾备切换演练与真实故障接管的高标准要求;在技术层面上,高效保障了两地多中心容灾体系的真实性与有效性,确保我行业务连续性不受影响。

4.面临的挑战与解决方案

(1)技术挑战。一是事务一致性保障。核心系统的应用服务分布式化部署和数据分布式存储,必然会对数据一致性、事务隔离性、原子性及性能效率等方面产生极大挑战。例如,在高并发的情况下,多个事务可能同时对相同的数据进行读写操作,导致数据不一致,且分布式事务需要协调多个节点的操作,会增加事务的执行时间。这就要求分布式核心系统必须引入支持多种事务模式、性能效率高的分布式事务管理组件。

我行通过自研分布式事务组件,保证在跨服务调用事务时的一致性,低应用入侵,满足核心系统高性能、高可靠要求,且提供完善的事务监控、查询统计及链路展示能力,提供事务异常场景下的控制及补偿机制。该分布式事务组件具有多种事务模式、异常处理能力。

二是高并发与低延迟处理。随着企业整体架构转向分布式,信息系统间交互模式也逐步由集中交换模式转向去中心化的点对点直联调用模式,加之手机银行、个人网银、图前柜面等触客渠道系统转向分布式架构,作为承载银行存款、贷款、银行卡、清算核算等核心业务的核心系统,将面临几何倍增的并发压力,且核心应用分布式改造后,一个交易可能涉及多次服务调用或数据库交互,相比集中式架构又会引入额外的网络开销,导致时延增长。

我行主要通过分布式核心系统的云原生单元化架构设计应对并发压力,并通过引入自研POIN-RPC组件,提供高效跨服务调用能力、同步和异步调用能力以及完善的异常重试补偿机制,构建高性能、高可靠的金融级分布式通信框架,有效降低高并发场景下的跨服务调用时延,并提高通讯稳定性。

(2)业务挑战。一是业务流程再造与适配。新核心系统绝不是对老核心系统单纯的翻版,它是一项全新的业务升级再造工程,面对错综复杂的业务流程和庞大的账务系统,其梳理过程之艰难不言而喻,对业务和科技人员皆是重大挑战。

我行采用了企业级业务架构建模,是通过结构化的方式,对企业业务模式进行抽象,从而实现业务标准化、组件化的目标。基于业务建模的企业架构转型是银行数字化转型的有效路径。在企业级架构项目中,前台业务、产品、中台控制、后台运营及科技团队,都是需求部门,也都是执行部门,各部门在企业级的蓝图中,运用同一套方法、相同的思维模式,能够实现高度融合。通过业务建模工作方法,实现对业务需求的统一管控、业务功能的灵活组合、快速的组件化研发,建立业务、数据、技术间全流程、多层级协同工作机制,使新一代核心系统具备更敏捷的市场和客户需求响应能力。

二是存量系统迁移与数据整合。新核心系统的投产上线伴随着行内多个系统功能边界的调整、数据的迁移和整合,如何保证系统功能和数据的准确性、完整性和安全性,以及确保投产期间的业务的连续性和良好的客户体验是一个重要挑战。

我行根据不同的业务类型特点并结合同业经验,设计了两种新老核心系统的切换模式。

一次性切换:将老核心系统的数据和流量一次性切换到新核心系统,此模式适合迁移数据量少,迁移时间较短,对客敏感度低,停业时间可控的业务类型,如支付类业务可利用人行维护窗口进行新老核心系统的切换。

分批在线切换:分批次将部分客户数据迁移至新核心系统,由新核心系统向迁移后客户提供服务,原有客户依然由老核心系统提供服务。此模式适合迁移数据量大,迁移时间较长,迁移过程复杂,客户敏感度高的业务类型,如负债类业务。分批次迁移客户,每次系统停止服务时间短,影响范围小,客户体验更好。

三是人员培训与技能提升。人员培养与技能提升在数字化转型中发挥着不可替代的作用,从传统核心系统转型成分布式核心系统,对人才的技术能力、业务理解能力、跨领域知识、思维方式和组织协调能力等都存在重要挑战。新核心系统的建设是业务与科技的深度融合的过程,构建数字化人才梯队、提升员工应对新技术的能力至关重要。

在新一代核心建设过程中多措并举持续提升完善复合型科技人才培养体系,不断提升相关人员科技与业务融合能力。围绕核心业务项目组建业务柔性团队,提高跨部门沟通和协同效率;开展总行业务和科技骨干人员双向交流,促进业务与科技双向融合;不断加大外部人才吸引力度,通过考核激励、机制优化等方式加快核心业务人才队伍规模化培养。

实践成果与效益分析

1.提升交易处理速度与并发能力

通过构建新一代分布式核心系统实现核心的服务能力倍增,系统处理性能、客户账户容量的倍增;分布式批量解决日终计结息慢、代发代扣慢等老核心系统痛点,多单元多任务并发大幅提升执行效率,具备一天内代发全行客户的能力,同时日终批量和结息日批量也降低至2~3小时内处理完成。

在业务连续性方面,通过单元化架构实现真正多中心多活,实现同城RPO为0,RTO达到数十秒级的水平,即使出现机房级故障依旧整体业务连续,支持单元级发布、扩容、切换,实现核心系统永不停机,提升客户体验。支持计算资源弹性伸缩、动态调配,构建全方位弹性伸缩能力;日常交易分流至多单元并行,极端场景支持单元级整体性横向扩展;单元内分片扩容不影响其他单元业务;单元内容器化应用扩缩对整体服务无感。

在产品快速迭代与创新能力方面,产品管理人员利用产品模型进行快速产品装配,单元化架构下通过灰度单元进行小范围试点,实现创新型产品的稳定、高效投放,支持业务快速迭代,提升客户体验,满足市场和用户个性化的需求。

2.优化经济效益、成本与资源

我行新一代核心系统建设中,绿色可持续发展正成为关键考量,核心系统建设将更加注重资源的高效利用。

在数据中心建设方面,将更加注重自然冷却、可再生能源的利用以及能源回收技术。在硬件基础设施层面将选择具有低能耗特性的芯片,以及具备智能电源管理功能的设备,有效降低能源消耗,以减少对传统能源的依赖。在系统架构设计方面,基于计算技术优化资源管理,高效利用资源。在软件层面,将对算法和架构进行优化,使核心系统能够在处理海量数据和复杂业务时,最大程度地降低能耗。在运维方面,建立完善的能耗监测和管理体系,及时发现并解决能耗异常问题,同时制定科学合理的节能策略和目标,推动绿色低碳的持续发展。在成本节约方面通过分布式架构和云计算技术带来的技术红利,系统可以灵活进行弹性扩缩容,通过精细化的系统容量管理,可显著降低系统建设和运营成本。

3.支持银行业务创新与发展

分布式核心系统通过微服务架构,将传统单体集中式核心中的多项能力“解锁”,如产品个性化定制、综合合约管理、高效账户服务及灵活的计费计价等,并以服务接口的形式广泛提供给内外部需求方。在此基础上,银行利用开放平台策略,进一步整合并创新这些能力,与金融科技企业及第三方供应商携手,共同打造出包括电子钱包、在线开户、智能贷款等在内的丰富互联网金融应用场景。

随着云原生技术在分布式核心系统的充分应用,我行正携手生态伙伴,共建行业云生态,通过SaaS化的核心应用与行业应用,为特定行业或集团内部法人提供全方位、定制化的SaaS开放服务,不仅提升了服务效率与灵活性,还极大地促进了金融服务的合作共赢、多元化与开放性。

总结与展望

随着我国数字经济的发展,金融服务已经从物理世界走向了数字世界,从消费物联和产业互联逐步迈向万物互联,未来金融业务将无处不在,金融服务与场景也将全面深度融合。新一代核心系统也需要适应场景金融时代下的金融业务线上化、场景化、多元化的变化,需要通过云原生技术实现服务原子化、业务规则模型化来支撑场景业务快速变化及创新,基础设施实现海量吞吐并加强业务连续性,提升合作伙伴服务能力,提升核心服务嵌入生态的能力对外提供充分的场景服务,支撑全行构筑创新、开放、融合、共赢的金融服务新生态,为我行践行“五篇大文章”战略保驾护航。

本文转载自《金融电子化》分布式体系下核心系统安全运营能力建设探索专题文章

分布式体系下核心系统安全运营能力建设探索

免责声明:文章内容和观点仅代表作者本人观点,供读者思想碰撞与技术交流参考,不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情,请访问产品与技术介绍页面或咨询华为公司人员。

TOP