华为Oceanstor海量存储助力
浙江电信降本增效
本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>
中国电信股份有限公司浙江分公司是中国电信首批在海外上市的四家省级公司之一,是浙江省内规模最大、历史最悠久的电信运营企业。目前公司下辖11个市分公司、62个县(市、区)分公司、1个直属单位(省长途电信传输局)、2个专业分公司。
随着4G的普及,电信行业的用户数已经趋于稳定,收入增长逐渐变缓。互联网的崛起,撑大了运营商的管道,网络能力需求越来越高,但每Bit的收入却越来越低。为了应对挑战,运营商纷纷开启数字化转型之路,一方面,需要通过数字化转型提升运营效率,与更高效的互联网厂商竞争,另一方面,需要通过数据分析,支撑业务决策,找到更多的商机。
浙江电信在2005年开始企业级经营分析和决策系统的建设,采集B域(业务支撑系统)数据,构建起以客户为核心的统一企业数据视图,帮助浙江电信逐步实现由粗放经营向精细化营销的转变。由于传统数据库只能承载TB级的数据分析,浙江电信最早是采用MPPDB(分布式并行数据库)架构,承载数百TB数据的分析。MPPDB提供了很好的交互式查询能力,但随着数据规模的扩大,其成本越来越高,且其单集群支撑的节点数有限,限制了经营分析系统的发展。随着Hadoop技术兴起,其良好的扩展性和低成本,吸引着浙江电信客户逐渐从MPPDB演进到Hadoop架构,经营分析系统当前已经建设近400节点的大数据集群。
当前Hadoop均采用计算存储一体化的建设模式,采用多副本机制保证数据可靠性,但随着数据的爆发式增加,这种架构的成本问题逐渐凸显。浙江电信是采用集采模式采购硬件设备,为了均衡容量和性能需求,大数据系统一般是选择均衡型的12盘位服务器,存储密度低,且计算和存储利用率不均衡,在现网集群中,当存储资源即将耗尽时,计算资源平均利用率不到20%,浪费了投资;多副本的数据保护策略,导致可得容量只是裸容量的1/3,磁盘利用率极低,需要采购大量硬件设备才能满足数据存储需求。以7PB的数据存储需求为例,需要采购300余台服务器,投资超过2000万以上,占用近40个机柜,每年运维成本超过200万,极大的加重了企业数字化转型负担。
华为大数据存算分离方案,在存储层实现了原生的HDFS语义,将大数据存储和计算剥离,形成按需扩展的存算分离创新架构。在存储层采用EC(纠删码)替代多副本的数据保护技术,确保可靠性和性能不降低的前提下,存储资源利用率提升1.75倍。最终实现当期采购成本降低35%,每年的运维成本降低57%,让客户可以存储更多的数据,加速数字化转型。
当前,经营分析系统不仅仅采集B域的Billing、CRM数据,还包含了O域信令、日志,以及互联网网页等数据。海量数据流入大数据集群后,通过原始数据层、基础数据层、融合数据层等层层汇总,最终生成应用数据层数据,支撑各个应用系统决策。每一层的数据又分为小时表、天表、月表,每张表的分区映射到存储层都会在HDFS上形成多个文件,总文件数轻松上亿。
当前建设的Hadoop集群,数据存储层元数据管理节点是主备模式,而数据文件的增、删、查、改请求均需要通过元数据管理节点,当文件数据超过1.5亿后,性能有接近50%的衰减,限制了数据规模的扩展。在大并发的场景下,甚至可能导致元数据管理节点的崩溃。为了解决元数据管理瓶颈问题,业务部门不得不做业务拆分,新建多套元数据管理节点,将每套元数据管理节点的数据规模控制在一定范围内。
华为OceanStor海量存储采用全分布式的元数据管理架构,通过DHT(Distributed Hash Table,分布式哈希表)算法计算出数据存储位置,将元数据打散到每个存储节点,元数据处理能力随着节点数的增加线性提升,提供海量的扩展能力。每个存储设备上构建多级缓存能力,通过分布式存储系统将各个存储设备上的SSD组建成共享的分布式Cache资源池,供所有业务系统共同使用,通过分层读缓存机制(第一层为内存Cache,第二层为SSD Cache),缩短数据访问时间,提升IO性能。在本项目中,在低并发场景下,读写性能提升10%以上,在20并发以上的场景下,性能提升35%以上,充分体现OceanStor海量存储在海量数据并发场景下的性能优势。
存算一体的Hadoop建设方案采用的是单故障域,每个故障域超过2个节点同时故障,就有数据丢失风险。在数据恢复过程中,由于业务IO和内部IO未分离,数据重构IO也需要走业务网络平面,影响业务性能。另外,Hadoop是一款纯软件产品,对于硬件缺少监控和预测机制,在每月数十块硬盘故障的情况下,需要频繁的更换硬盘,才能保证系统的稳定性。
华为OceanStor海量存储具备硬盘级、节点级和系统级数据高可用保障设计,将每个数据块切分成N个小数据块,采用EC算法,计算出M个校验块,同一个数据的每个数据块和校验块均分布到独立的节点上。当系统检测到硬盘或者节点硬件发生故障时,自动在后台启动数据修复。由于数据块被分散到多个不同节点上,数据重建会在多节点同时启动,每个节点只需重建一小部分数据,多节点并行工作,重构速度超过2TB/小时。前后端IO采用独立的网卡,互相隔离,数据重构不会抢占业务IO带宽,提供稳定的性能体验。为了进一步提升可靠性,OceanStor海量存储采用多故障域设计,每个故障域均允许2-4个节点同时故障,在本项目中,一套集群分成了3个故障域,同时允许6个节点故障,数据可靠性相对于存算一体的建设方案提升2倍以上。
浙江电信采用华为大数据存算分离方案,实现经营分析大数据平台存算分离建设,单集群超过100存储节点,承载10PB的数据规模。
• 当期采购投资降低35%,每年的运维成本降低56%,累计节省近千万的投资。
• 分析效率提升10%,带来运营效率的提升,预计每年将带来上千万的收益增长。
• 数据保护可靠性提升2倍以上,保障业务7*24小时在线。