本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

搜索

AI时代,分布式存储如何通过数据加速引擎提速高性能数据分析?

2023-08-24
2876
8

随着ChatGPT等人工智能(AI)大模型的推出,让人们认识到AI技术的巨大潜力,并促使更多AI技术用于大数据分析及高性能计算等场景。例如,在大数据分析场景,使用AI模型将用户基于自然语言的输入直接转换为准确的SQL语句并替代传统的Spark SQL输入,将有效提升大数据分析效率。AI与大数据以及HPC的融合,使得新趋势下的高性能数据分析(HPDA)应用在数据访问规模、效率等方面提出更高的诉求。高效、快速处理海量数据并即时提供分析结果以支撑企业精准决策,几乎是所有企业用户的诉求。同时,HPDA系统也面临全新的挑战!

传统HPDA系统存在的问题

传统的HPDA系统基于分层解耦划分为计算、网络和存储三层,如图1所示。

图1:传统HPDA系统

图1:传统HPDA系统

计算层,应用可以通过存储并行处理客户端(例如华为OceanStor Pacific分布式并行客户端DPC)、标准NFS客户端挂载文件系统后访问数据,或者通过HDFS、S3协议访问数据。对于小规模集群,计算和存储之间仅需部署一层网络交换机(通常是2台网络交换机互为HA高可用),这种部署模式不存在突出的网络传输效率问题。一旦集群规模变大,就需要引入汇聚交换机,甚至需要将计算集群按不同用途划分为多个计算域。在这种大规模集群下,应用访问数据将跨越多重交换机,导致访问时延变长;同时,计算和存储之间的网络因为收敛比等因素,将制约应用访问数据的带宽,甚至会因为不同计算域中的应用同时访问数据带来存储网络流量的相互冲突,从而影响高性能数据分析效率。

在高性能数据分析应用中,最大程度提高计算资源利用率是用户的普遍共识。例如,在AI场景,为了尽可能让GPU处于繁忙状态,要求存储系统能提供高带宽、高IOPS和低时延,以减少GPU访问数据的等待时长。传统的计算-网络-存储三层系统在大规模集群场景下无法很好满足业务需求,亟需优化。

基于两层存储架构的新型HPDA系统

为了解决传统HPDA系统中的高带宽、高IOPS和低时延的三大挑战,采用数据加速层结合数据持久存储层的存储架构是业界普遍认可的新方式,如图2所示。

图2: 基于两层存储架构的HPDA系统

图2: 基于两层存储架构的HPDA系统

数据加速引擎解决HPDA性能瓶颈问题

数据加速引擎是在应用与持久化存储池之间构建了一个空间远大于计算节点本地盘且非易失的分布式大缓存层,通过采用大容量高速介质和分布式技术,缓存提供的带宽可达到几十TB/s级。同时,数据加速层离应用更近,通过设计针对高性能数据分析的数据精准调度算法,保障计算节点的读写尽可能发生在数据加速层,直接对应用数据访问加速,从而消除I/O性能瓶颈。这样的数据加速也被称之为近计算加速。

数据加速层可以有效解决大规模数据并行处理带来的带宽和IOPS挑战,避免跨域网络瓶颈,减少不同计算域之间的相互影响。主要体现在如下三个方面:

首先,通过引入独立的数据加速层,HPDA应用的数据访问尽可能在本计算域的加速层闭环,既可以减少多个计算域同时访问数据持久存储层带来的网络带宽抢占,又可以避免跨层访问带来的额外网络时延。

其次,为了提供几十TB/s级大聚合带宽,数据加速层通常采用全闪介质,通过加速层软件栈采用Flash Native原生闪存架构设计,例如数据直通访问、DTOE(Direct TCP Offload Engine)卸载等技术,能充分释放闪存介质的性能。

第三,数据加速层与应用软件协同设计,有效降低数据访问时延。HPDA软件栈在数据访问上存在部分冗长路径,无论是NFS标准协议访问还是POSIX并行访问,至少涉及一次内核态和用户态间的跨态切换,增加了I/O响应时延。针对不同应用场景,设计应用软件层和数据加速层的协同调度方案,可以有效缩短访问跨径,实现0跨态访问,从而有效降低响应时延。例如,高性能计算场景,在作业执行之前将数据从持久化存储层加载到数据加速层,可以避免作业执行等待;AI场景,可以提前将训练数据集从数据持久存储层加载到数据加速层,避免GPU等待。

华为OceanStor Pacific 分布式存储HPDA架构高性能数据分析架构

新一代华为OceanStor Pacific分布式存储引入数据加速引擎作为加速层,实现满足HPDA系统海量数据高效处理,系统架构如图3所示。

图3:基于OceanStor Pacific的HPDA架构

图3:基于OceanStor Pacific的HPDA架构

OceanStor Pacific分布式存储的HPDA系统架构,在单一的超大规模计算集群场景,设计了虚拟全局文件系统,将同一计算域或不同计算域的多个数据加速引擎集群组成一个虚拟全局命名空间,提供大规模数据并发读写快速响应能力。

如今,HPDA应用几乎无处不在,它是企业加速海量数据价值变现和智能化演进的有效手段。作为IT基础设施核心数据底座的存储系统,需要应对HPDA应用带来的全新性能挑战。通过IT堆栈分层解耦,在传统存储层新部署数据加速引擎,构建计算、存储、网络分工协同的新型系统架构,数据加速引擎可提供几十TB/s超大带宽和亿级IOPS,可承载E级以上FLOPS大规模算力应用,有效加速HPDA应用数据访问。

免责声明:文章内容和观点仅代表作者本人观点,供读者思想碰撞与技术交流参考,不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情,请访问产品与技术介绍页面或咨询华为公司人员。

TOP