本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

搜索
  • banner pc

    试金石携手华为,为征信市场打造大数据实时服务平台

自古以来,中国就是个重信守诺的国度,所谓一言九鼎、一诺千金、言而有信……这一类的成语所有人都耳熟能详。而在今天这样一个高度商业化的社会,信用的高低对一个人的影响已经扩展到了社会生活的方方面面——在银行办理信用卡、在保险公司购买保险、在小贷机构申请贷款;未来,甚至在社交、婚恋、求职等领域,个人信用都将发挥至关重要的作用。

征信进入大数据时代

所谓征信,其实就是为了服务于上述各种各样需要信用的场景,由专业化、独立的第三方机构为个人或组织建立信用档案,依法采集、客观记录其信用信息,并依法对外提供信用信息服务的一种活动。

从这一点来看,征信背后的逻辑其实就是数据——对多维度、异构、难以确定规模的海量数据的处理,并在数据处理的过程中将其中的价值和知识提炼出来,而且还要非常方便地采用交互式的方式交付到应用场景中去。

随着移动互联和大数据时代的到来,征信所服务的对象正发生着巨大的变化:一方面是服务场景从线下的面对面服务向着线上的实时服务转变,另一方面数据源变得异常丰富,用户的上网行为、移动轨迹、交易记录、消费习惯……数据源非常多,数据结构也更加复杂。征信市场正在快步迈入大数据时代,未来两年,“大数据征信”市场将会很快呈现出来,预测规模将超过千亿,并获得高速发展。

2016年3月3日,中国移动通信集团公司与招商局集团有限公司两大央企响应国务院鼓励发展“大数据征信”的号召,强强联合、合资成立了试金石信用服务有限公司。中国移动是中国规模最大的移动通信运营商,拥有8亿多用户的实名资料;而招商局在金融行业也实力雄厚,非常了解征信业务的应用场景。而且两家公司都是国企,所以,试金石是以“国家队”的身份进军征信市场的。

过去两年,试金石一直致力于开发商用大数据实时服务平台,通过采用微服务架构以进一步降低客户的应用难度,客户只需要考虑其应用逻辑,不用担心海量的数据接入后如何处理、不同的表结构能否存储下来、怎样方便地实现离线分析等等问题,这些都可以交给大数据实时服务平台来解决。经过两年多的努力,试金石已经推出了成熟的产品化的平台,不仅自己可以应用,还可以提供给其他行业的客户使用。

例如在金融行业,试金石能够基于电信运营商丰富的大数据资源,专业为金融机构快速引入包括用户位置、交往圈、开户信息等在内的运营商数据,并通过实时分析运算为金融应用提供从身份验证、反欺诈排查到综合信用评分等一系列风险管理解决方案。除此之外,试金石的解决方案还可服务于保险、电信、政府等不同行业,在保险核保、交通服务、政府事务等方面发挥作用。

目前,试金石的框架平台已经成功服务于一些中小型城市银行和商业银行,未来,“大数据征信”应用的范围将会非常广泛,除了金融行业和泛金融行业例如保险业,在其他的生活场景、社交场景、职业场景等其应用也都非常广泛。

大数据实时服务平台:鱼与熊掌可以兼得

自2015年10月开始,试金石在华为公司的帮助下,针对金融行业高频、实时服务场景的需要,从零开始、积极探索,开创性地采用Hadoop大数据平台作为底层技术架构,自主规划和研发了大数据实时服务框架平台。该平台在需要实时、高频交互的金融信用服务场景下,经过近一年多的商用检验,取得了较好的实际效果。具体而言,试金石的大数据实时服务平台方案具有以下特点:

  • 秒级的实时交易服务
  • 试金石将列式数据库HBase直接放到了生产交易系统中,采用HBase的列式结构直接存储交易数据,这样做的好处首先是在需要进行数据分析时,可以将中间的数据转换过程省掉,而且列式数据库HBase的数据容纳能力非常好,数据来了不会丢失;其次是扩展能力强,无论需要接入的数据是来自QQ、微信还是微博,不需要再去改数据库的表结构,大大减轻了数据处理的负担;第三是规模不受限制,而关系型数据库的表结构是有规模限制的。

    大数据实时服务平台在继续保留了大数据原有的分析能力的同时,还为其打造了实时服务能力。通过将复杂的批量数据处理逻辑解偶为实时请求,从而可以将耗时较长的数据处理和存储操作从请求主线中剥离,交由实时流处理框架来实时完成,然后再用列式数据库进行存储;同时还采用了微服务框架,很好地满足了实时服务的需要。

  • 分钟级的高速分析
  • 对于征信业务场景,光有实时处理还不够,还要进行高速数据分析。而要实现这一点其实并不困难,因为在我们平台的底层架构下,交易数据全部是存在HBase列式数据库中的,需要分析时可以将数据从主数据集群直接同步到备集群,由备集群进行高速分析。所以,我们的平台架构能够实现分钟级分析的原因在于:首先是数据获取快,不需要经过漫长的ETL过程,马上就可以获得数据;其次,大量的预处理准备使得数据在到达时很多预处理工作就已经完成了;第三,不与主集群竞争资源,由备集群进行批量分析,这样就可以在分钟级之内完成模型运算,并交付到应用场景中去。

  • 实时服务的高可用架构
  • 高可用架构设计是整个平台最重要、也最艰难的环节。所以,在设计平台高可用架构的过程中,我们至少花了9个月时间来解决各种问题。考虑到提供实时服务的连续性,我们在生产系统上搭建了主/备两个集群,以在主集群发生灾难性故障或集群内关键技术组件不可用时,备集群可接替其工作。此外,平台将主/备集群之间数据的一致性放在与服务连续性同等重要的位置上,具体而言,数据一致性包含两个层次的内容:首先在主集群正常工作时,数据能够完整同步到备集群中;其次在备集群接替主集群或主集群恢复工作的切换过程中,不发生数据丢失。

  • 全时序的信息链列式结构
  • 在设计数据结构时,试金石采用了列式数据库的设计,这在表现用户的信用历史、信用信息时与行式设计不一样,克服了关系数据库的很多天然缺陷,我们将其称之为“全时序的信息链列式结构”。例如,如果要查询一个用户过去5年的还款情况、职业情况、交通违章等信息,在传统的关系型数据库中这是一件很复杂的事情,而在列式数据库中,这一点很容易实现。

    列式数据结构可以满足外部数据经简单分类就快速入库的需要,在读取数据的时候也可以方便地根据所需分类读取对应信息,减少数据交互量。从扩展性上看,当某些信息分类出现变化时,可以创建新的分类表或整合分类表,并将原分类的列进行迁移或整合。通过对实体信息的分类分层,平台可以在列式存储上将每个人或企业的各类信息有效地进行全时序存储。随着外部原始信息层的不断丰富,以及分析手段的不断深入,平台可以逐步或迭代式地完善最终认知分析层的信息,为上层应用和场景提供服务。

  • 大数据统一集成监控
  • 可视化实时监控是系统成熟度的重要体现。针对秒级的实时服务、分钟级的高速分析和小时级的离线服务,整个的资源调度和业务监控需要有一个集成的监控平台,才能清楚地了解系统的运行情况。

    我们的平台每个月可以处理高达3600万个请求,处理并发1000个TDS,而这一切只需要9个节点就足够了。现在,平台每个月的交易量倍增,交行、民生、中信、浦发、招行、苏宁等金融和互联网公司先后都接入到了系统当中,整个应用系统无论是在压力测试还是真实的生产环境中都安然无恙,没有出现过一个问题。

    选择华为:数字平台+服务+生态

    对于征信行业而言,数字平台的选择是很重要的一件事情,对试金石也同样如此。在这方面,华为引入了一个非常好的数字平台技术——Hadoop,其拥有很强的数据容纳能力,可以实现多维数据的吞吐和高速分析;虽然现在还存在实时服务能力不足的短板,但全世界有这么多最聪明的人都在不断优化这个生态,相信其一定会慢慢演化、越来越好,最终会取代关系型数据库。所以,我个人还是比较认同这条技术路线。华为将Hadoop这个开源技术平台拿回来做了很多工作,从安全性、可靠性、易用性以及高性能4个层面进行了不断的研发和改进,消除了开源版本的大量Bug,改进了开源版本的诸多不足之处,又研发了多个自研组件以弥补其生态短板,同时还回馈开源社区,与大数据技术共同发展,最终成功形成了企业级的大数据平台产品。作为一个商用系统,必须要有一个华为这样数字平台厂商来提供可靠的、值得信任的基础。

    在双方的合作中,华为提供了全套的大数据解决方案,从稳定的x86硬件平台到FusionInsight企业级大数据平台,还有很多的解决方案、技术支持和服务;而试金石做的是基于业务应用开发完整的平台解决方案。

    在方案设计之始,本着从征信来、到四海去的愿望,试金石将大数据服务平台设计成了一个完全通用的架构,而且是一个实时、高可靠的架构,将实时服务、链式结构、高可用等元素进行了抽象化,打包成一个产品化的平台,这个平台完全可以跳出征信行业,应用到各行各业需要进行大数据实时处理的领域。

    华为在ICT数字平台、解决方案和服务等方面具备全面的能力,在大数据平台的开发过程中发挥了重要的作用,给了我们很多指导,使得当我们在工作中遇到各种各样的问题时,旁边有个高参、有个伙伴能够给予足够的帮助。例如,华为派驻了大数据技术专业驻场人员,帮助我们对大数据集群进行运维管理,发现问题则及时改进,最终成功验证并实施了大数据高可靠解决方案。

    大数据行业的门槛很高,我们希望通过自身的努力能将这个门槛变低,在实现我们自身商业价值的同时,使之能够惠及到更多的行业、更多的机构和企业。而华为拥有强大的渠道和完善的生态体系,铺开的摊子更大、接触面也更广,更适合从事这项工作。

    TOP