本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>
作为数字经济的重要组成部分,金融行业一直走在数字化转型的前沿,总是有新的建设要求,总是在寻求技术创新,又总是面临新的挑战。面向数智化未来,如何构建可靠金融数据基础设施,是需要我们持续关注的焦点。
这几年IT技术发展非常迅猛并伴随很多的变化,我们大家都享受到了IT技术发展带来的红利,尤其是数字经济带来的红利。多年来,在IT和数字经济的基础设施领域主要有三大变化:
第一大变化是新的应用,尤其是面向大数据、人工智能的新应用层出不穷。随着云原生的推广,大量云原生应用开始迁移到线下提供各种各样的服务,以匹配不同业务场景的需要。
新应用纷纷出现,催生了各种各样的新数据。以金融行业为例,在过去最重要的数据是表格类数据,处理账务、报表是业务的核心,这些大多是结构化数据。如今,各类非结构化数据纷纷出现,已经逐步成为我们生产决策的依据,比如图片数据、视频数据、音频数据。在金融行业,非结构化数据不仅成为风险控制的重要依据,也成为我们每一笔交易的依据和存根。面向未来,生成式AI大模型需要的不仅仅是某一类数据,而是要将混合型的数据输入到大模型当中。因此,处理这些数据,尤其是在数据量急剧增加的时候,我们的数据基础设施要做匹配。
此外,安全问题日益严峻,过去主要是防御自然因素对数据造成的损坏。现在,人为因素--黑客已经不再是过去的偶发行为,而是商业行为。以上这些问题的发生,给金融行业带来几个大的挑战:
首先,稳态和敏态业务如何长期共存,既是矛盾也是我们的机会;其次,业务在多云多地部署下我们如何提供更好的数据基础设施;在大数据、AI等新的应用爆发式增长的时候我们如何应对;以及绿色低碳、数据安全,这些是今天我想跟大家分享的主要内容。
由于关系到国计民生,金融行业数据基础设施需要具备韧性、可靠性。然而,除了传统的核心交易业务外,由大数据所支撑的风控、数字化营销、互联网经营等业务都需要敏捷变化以匹配客户需求。支持这些敏态业务的数据基础设施不仅要可靠,更需要具备可扩展性、弹性并且能够高度支持软件版本微服务化技术。
这两类业务对IT基础设施的要求是矛盾的,如何提供更好的支持?稳态的业务往往要求RTO、RPO与可靠性,敏态业务的要求是可扩展性、弹性。
在今天“一切云化”的口号下,针对如何改造IT基础设施的问题,业内有一种声音叫做“一切皆分布式”。在产品技术当中,一切皆分布式好像没有什么问题。以华为存储为例,我们的存储产品架构也是分布式的,它具有一定的Scale-out能力,但是Scale-out不是必须的,因为在核心生产交易场景,我们需要的是稳定性、可靠性,特别是更高的性能。为此我们可以牺牲一定的Scale-out能力,而且在核心生产交易这种稳态的业务下也不需要太高的Scale-out能力。
敏态业务下我们需要Scale-out,因此我们的分布式存储产品就可以发挥作用,在华为英文的产品目录表里面它是Scale-out Storage,这一点希望大家要注意,避免在口号下歪曲业务的实质。
首先,多云已经成为常态,不仅在金融、运营商、大型制造等行业,包括华为公司都是采用多云架构。在多云架构下,不同云的数据自成一体,因为在企业中不同业务部门之间需要独立性,但在保证业务独立性的前提下,也需要确保数据可以流动。
因此,全局数据视图是必要的,透过全局视图看到的不仅仅是某一个云下面的数据,而是可以看到整体的数据到底在哪里,以此更好的调度和使用数据。尤其是随着海量新应用的产生,数据底座的数据共享能力很重要,可以帮助我们充分利用好数据资产。
一般来说,两地互相容灾、互相备份可以组成一个可靠的架构,例如两地三中心。然而,两地三中心并不是一个高效的系统,因为两地只做生产中心,另外一个地方专门做灾备,造成了资源浪费。因此我们更加推崇两地四中心架构,所有中心都是生产中心,既做生产也做备份和容灾。从某种程度来说,可以节省大量投资。
云原生已成为新趋势,在公有云中原生的应用必然会发挥持续的作用,在这个过程中,IT基础设施架构的改造适配十分重要,因为我们需要把生态“带下来”。金融机构正在拥抱容器化,IT基础设施中的存储、服务器、网络如何更好配合上层的容器技术,如何平滑地支持云原生技术的应用,是我们必须要重点思考的问题。
还有分布式数据库的改造,华为在全球智慧金融峰会2023上发布了面向金融的全栈GaussDB解决方案,该解决方案采用了高可靠的主存储、生产存储作为数据底座。许多银行认为,在做分布式数据库改造时,有本地盘就足够了。很多人错误认为本地盘是可靠的,数据存在硬盘里面就不会变了。然而,为了保证可靠性,尤其是为了实现秒级业务恢复的要求下,分布式数据库需要采用存算分离架构,这样既保证高效,更可以保证面向核心生产交易的可靠性。
在金融行业的敏态业务中有大数据、数据仓库,我们欣喜的看到各个金融机构纷纷采用了存算分离的架构。在过去,许多金融机构每年采购大量服务器,因为需要存储的数据量在增加,然而算力却是足够、不需要增配的。当存和算分离后,计算资源不够就买服务器,存储资源不够就买存储设备,对于数据仓库和大数据服务来说,这种架构会更加节约及高效。
大模型首先需要一个数据湖来支持多样化的数据存储。此外,不可能所有的运算都依赖大模型处理,如何从数据湖中进行数据选择和数据清洗?
在大模型训练过程中有很多checkpoints用于备份恢复,能够在遭遇故障时,确保训练回退到中间点,而不至于回到初始点重新训练。这些checkpoint数据的高效存取需要专业的支持AI大模型的高性能存储做中介,而不是直接从数据湖把数据送到大模型中,这样的IT基础设施架构需要得到关注。
中国金融行业的伙伴们要注意,我们今天硬盘用得太多,如果使用SSD替换一个硬盘,相当于为地球种150颗树。在今天,存储占数据中心能耗的20%左右,必须要用先进的存力替换落后的机械式的存力。
在以往,安全更多指的是自然、地震、火灾等物理因素给数据中心造成的损害。今天,人因造成的损害已成为很重要的问题,特别是勒索病毒。在数据越来越重要的情况下,存放数据的保险箱才是最后一道防线。存储的内生安全、防勒索以及加密功能是我们必须考虑的问
面向新应用、新数据、新安全,华为数据存储将持续创新,助力金融客户构筑可靠金融数据基础设施,应对稳态、敏态架构长期共存,业务多云、多地域部署,大数据、生成式AI爆发,数据安全及绿色低碳等五大挑战。
免责声明:文章内容和观点仅代表作者本人观点,供读者思想碰撞与技术交流参考,不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情,请访问产品与技术介绍页面或咨询华为公司人员。