本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

搜索

新应用,新负载,新存储 | 分布式存储驱动企业新兴业务发展

2022-06-01
2845
0

华为 OceanStor Pacific分布式存储,是专为海量数据场景设计的分布式存储系统,为高性能数据分析(HPDA)、大数据分析、虚拟化/云资源池、视频、内容存储/备份归档等类型应用提供多样性存储服务,帮助企业释放海量数据价值。

与传统存储不同的是,分布式存储更偏向于图像、视频、日志之类的数据,而且是多样性的、正在高速增长中的海量数据。如今,千行百业数字化转型深入,超算、大数据、AI等新技术得到广泛应用,例如生命科学研究、气象卫星、8K超高清电影制作、智慧工场等……分布式存储就是用来支撑这些新型应用的。通过数据分析,从海量数据中挖掘新价值、提升运营效率,为企业孵化新业务。

面向海量多样化数据,华为推出了OceanStor Pacific分布式存储。Pacific就是太平洋,地球上最大的海洋,如果把数据比喻成水流,希望Pacific系列像太平洋一样,成为海量数据的安心之选。OceanStor Pacific分布式存储的创新点首先是在硬件形态上,不断推出新的硬件产品,并在性能、协议支持以及容量等维度均实现了能力的进一步增强,更好的满足了高性能计算、大数据分析、备份归档等不同应用场景的多样化数据存储诉求。

分布式存储需要面对多样化的数据、多样化的应用,而不同应用对存储的要求也不尽相同。大家都知道数据有大有小,大的像8K超高清电影一部手机装不下,小的如一张压缩图片只有几KB,这就是多样化带来的混合负载。以往业界往往强调“术业有专攻”,需要部署多套存储以支撑不同的应用。华为OceanStor Pacific可同时满足大文件和小文件高速访问,这样就实现了一套顶多套。这方面的创新主要有两点:

• 首先是存储空间的利用率,通过算法优化和数据压缩等技术,可以将高性能数据分析(HPDA)场景的存储利用率提升30%。

• 其次是性能方面,在大数据场景提供了更加实时的数据分析,可辅助千亿数据集的分析时间从几天缩短到几分钟,大大缩短创新应用开发周期。

下面结合两个具体的场景案例来诠释。第一个场景案例我们看看华西医院在高性能数据分析的助力下,基因测序如何变得更高效、更准确,并从实验室走向大众临床应用。

基因测序是一种新型基因检测技术,能锁定个人病变基因,提前预防和治疗,在生殖健康、遗传病筛查、肿瘤诊断及治疗、特别是在SARS和新冠病毒的特殊时期,都发挥着重要作用。

按照传统方案,获取一个人的遗传变异数据,大概需要24小时。而经过华为、华西医院的方案优化,人类全基因组分析时间从24小时缩短至7分钟,这是全球首次将人类全基因组分析推进至分钟级时代,在多组学数据分析领域具有跨时代的意义。方案主要优化了两个方向:在算力问题上,把分析软件由CPU移植GPU框架下,充分利用GPU的高并发性。在存储上,主要做了三点优化: 1、面向基因测序过程中产生的海量大小不一的文件,实现大文件直通读写,小文件聚合读写,提升数据访问效率;2、通过多协议互通能力,针对性地优化基因组数据分析各个环节作业流程的融合访问,实现了存储性能的瓶颈打破。

从华西医院的案例可以看到,随着技术的进步,我们也在不断创造新的预防和治疗手段,从现在的疾病治疗,到疾病预防,这将极大改善医疗质量,还能一定程度上缓解咱们看病难、看病贵的问题。华为将和生态伙伴一起,为用户提供端到端的基因测序解决方案。

第二个场景案例关于大数据分析。我们经常用手机上的“通信大数据行程卡”查询自己的行程,这就是大数据在生活上为我们带来的便利。在大风、暴雨、地震等自然灾害来时,大数据同样能提供很大的帮助。数据科技确实在惠及越来越多的行业、家庭及个人。我们的目标就是要让数据分析既精准又实时。一方面期望能打通数据仓库和数据湖的隔离,实现数据大融合;另一方面把分布于全国的各大数据中心连接起来,实现数据能够随取随用、就近处理,内部叫贴源计算。在中国移动和华为的联合探索里,将基于分布式存储的统一元数据管理、近实时数据处理等新技术应用于系统中。

同时,随着数据量越来越大,通过技术创新提升资源利用率,用更少的设备处理更多的数据,积极推进双碳目标尽早达成。中国移动与华为共同设计出一套新的基础设施架构,基于OceanStor分布式存储构建大数据存算分离方案,能够把计算和存储分离开,实现算力不足扩计算、容量不足扩存储。我们自己算过一笔帐,这套架构上线后,包括机柜、服务器、电费等软硬件成本可节省40%,年碳排放量可减少50%以上。

从中国移动大数据创新案例可以看出,大数据科技已经跟我们普通老百姓的生活息息相关。华为OceanStor Pacific在大数据分析场景下,最大的不同在于让数据分析更快更实时。企业主要有两类数据,一类是已经存放好的历史数据;一类是正在处理的实时数据,这两类数据格式不一样,而且存储的位置也不一样,没办法拿到一起做快速的分析。华为OceanStor Pacific直接在存储侧构建一条直通隧道,让历史数据能够随时与实时数据融合,进而让实时的融合数据分析成为可能。

除此以外,分布式存储所支撑的海量数据分析场景,还可以应用到生命科学、油气勘探、自动驾驶、气象预报等等众多行业。不同的行业有不同的诉求和生态,华为将持续和合作伙伴一起打造更多端到端的行业解决方案。

免责声明:文章内容和观点仅代表作者本人观点,供读者思想碰撞与技术交流参考,不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情,请访问产品与技术介绍页面或咨询华为公司人员。

TOP