新型存算分离架构技术展望

2023年04月11日

舒继武

CCF信息存储技术专委会主任、IEEE Fellow、CCF会士、清华大学教授、厦门大学信息学院院长

数字化不断发展是推动计算、存储等IT基础设施进步的重要动力。云和互联网行业构建了我国最大的IT基础设施平台，存储和处理的数据量占比最大。预计到2025年，我国将具备300 EFLOPS的算力，数据量将达到48.6 ZB。同时，我国东数西算工程的持续推进，对数据中心走向绿色集约、自主可控提出了更高要求。

传统存算融合的大数据存储解决方案以基于服务器的超融合系统为代表，将服务器的资源进行统一管理；但当存算需求各异时，存在扩展不灵活、利用率低等问题。存算分离将存算资源拆分为独立模块建设，在存储资源高效共享等方面具有显著优势，目前已在多个场景应用实践，能够为存储系统带来了数据共享、灵活伸缩等优势。

技术驱动构建新型存算分离架构

1. 传统存算融合架构面临四重挑战

云和互联网的存储域主要采用服务器部署分布式存储服务的融合方式，它面临如下挑战：

数据保存周期与服务器更新周期不匹配。新兴业务的海量数据需按照其生命周期策略（例如8~10年）保存。基于服务器的存储系统换代周期由处理器的升级周期（例如3~5年）决定。两者之间巨大的差异导致系统资源大量浪费，数据迁移丢失风险增大。比如，存储域中服务器组件随CPU升级而淘汰，为此需进行数据迁移。

性能可靠与资源利用率难以兼得。分布式存储系统大致可以分为性能型和容量型。性能型存储运行数据库等关键业务，通常采用三副本等并配合独立冗余磁盘阵列模式，但仅30%的空间利用率，极大浪费了存储资源。容量型系统采用EC提升利用率，EC计算时对系统资源造成大量消耗，重构效率低，带来风险（如图1）。

图1 分布式存储资源利用率

新型分布式应用的极简高效共享存储诉求。以serverless应用为代表的新型分布式应用不断涌现，应用从无状态化向有状态化扩展，数据共享访问增多。同时，人工智能等应用需要大量异构算力协同，产生共享内存访问的诉求，更关注高带宽、低时延，仅需无复杂企业特性的轻量的共享存储。

数据中心税导致数据密集型应用效率低下。以CPU为中心的服务器架构、应用为获取数据所缴纳的“数据中心税”（datacenter tax）日益加重。例如，CPU为存储IO请求，需消耗30%的算力。

综上所述，云和互联网存储需兼顾资源利用率、可靠性等诉求，基于新型软硬件技术构建新型存算分离架构。

2. 技术的发展为重构提供基础

面对数据中心在容量利用率、存力效率等方面的挑战，专用数据处理器、新型网络等快速发展，为重构数据中心基础设施提供了技术基础。

首先，为取代服务器本地盘，很多厂商推出EBOF高性能盘框。注重采用NoF等新型的数据访问标准，以提供高性能存储。

其次，业界涌现出越来越多的DPU和IPU专用芯片取代通用处理器，提升算力能效比。同时，基于可编程交换机的网存协同也是研究热点，例如NetCache、KV-Direct等。

最后，数据访问网络标准也在持续增强，比如CXL协议新加强了内存池化方向的特性。

3. 新型存算分离架构的特征

随着RDMA、CXL、NVMe SSD等新型硬件技术的发展，需构建新型存算分离架构，以确保云和互联网存储域服务能够兼顾资源利用率、可靠性等诉求。相较传统架构，新型架构的区别在于两点：第一，彻底的存算解耦，组建为彼此独立的硬件资源池；第二，细粒度的处理分工，使数据处理等CPU不擅长的任务被专用加速器替代，以实现能效比最优的组合（如图2右侧所示）。

图2 传统存算分离架构与新型存算分离架构对比

新型架构具备以下特征：

Diskless服务器。新型存算分离架构将服务器本地盘拉远构成Diskless服务器和远端存储池，还通过远程内存池扩展本地内存，实现了真正意义的存算解耦，极大提升存储资源利用率，减少了数据迁移。

多样化的网络协议。计算和存储间的网络协议从当前的IP或光纤通道协议扩展到CXL+NoF+IP协议组合。CXL使得网络时延降低到亚微秒级，实现内存型介质池化；NoF加速SSD池化。这几类协议组合构建的高通量网络，满足了多种池化接入诉求。

专用的数据处理器。数据存储等不由通用处理器负责，卸载到专用数据处理器。此外，如纠删码等特定的数据操作可由专用硬件加速器进行进一步加速。

极高存力密度的存储系统。分离式存储系统是新型架构的重要组件，它作为持久化数据的底座，在存储介质的集约化管理基础上，结合芯片、介质的深度协同设计，整合当前系统、盘两级的空间管理，通过大比例纠删码算法减少冗余资源开销比例。此外，还可通过基于芯片加速的场景化数据缩减技术提供更多的数据可用空间。

面向云和互联网场景的新型存算分离架构及关键技术

1. 极简分层的新型存算分离架构

新型存算分离架构意在解决传统架构的几大问题挑战，将其进行彻底解耦池化和重组整合，形成新的三大简化层：存储模组、总线网络和算力模组。

存储模组：云和互联网业务主要分为三种典型的应用场景（如图3所示）。第一种场景是针对虚拟化业务，直接将数据中心存储域服务器的本地盘拉远；第二种场景是为大数据服务等需要极热数据处理的业务提供大内存、Key-Value接口，加速数据处理；第三种场景是容器等新业务场景，为Ceph等分布式应用直接提供文件语义，并支持将温热数据分级到更冷的EBOD等机械硬盘存储模组中，提升存储效率。

图3 存储模组的三类典型应用场景

新型存算分离架构中，存储型模组主要以EBOF、EBOM等新型盘框形态存在，EC/压缩等传统存储能力下沉到新型盘框中，构成“盘即存储”的大盘技术，对外通过NoF等高速共享网络提供块、文件等标准服务。

从内部架构来看，其介质层既可由标准硬盘组成，也可由晶圆工艺整合的颗粒大板组成，盘框融合以实现极致成本。在这之上，存储模组需构建池化子系统，基于RAID、EC等可靠冗余技术实现本地介质的池化，结合重删压缩等技术进一步提升可得容量。为了支撑新型架构的高通量数据调度，需要提供更加高效的数据吞吐能力，通常基于硬件直通等技术构建快速数据访问路径。和传统阵列相比，避免了用户数据和控制数据（元数据等）的低效交织，减少传统存储阵列的复杂特性处理（复制等特性），缩短IO处理路径，最终实现高吞吐、低时延的极致性能体验。

存储模组作为一种存力集约化、紧凑化、极致化的新型存储形态，加速服务器Diskless，有效支撑了传统数据中心架构朝极简分层的新型存算分离架构演进。

算力模组：摩尔定律演进变缓，采用专用处理器才能进一步发挥出下一阶段的算力。引入专用处理器后，算力池化是必然选择；否则，如果为每台服务器配置异构算力卡，不仅功耗巨大，还会导致资源利用率十分低下。DPU等专业数据处理器成本、功耗更低、即插即用等独特优势，保证业务正常运行的同时也保障了服务质量。

高通量数据总线：过去10年，万兆IP网络促使HDD池化，基于IP网络发展了支持块、文件等共享的访问协议。当前，面向热数据处理，NVMe/RoCE促使SSD池化；并且，NVMe协议快速发展并开始收编烟囱式协议。下一步，面向极热数据处理，内存型网络（如CXL）将促使内存资源池化（如图4所示）。

图4 网络技术发展时间线

2. 新型存算分离架构催生的关键技术

新型存算分离架构改变了各类硬件资源的组合形式，催生了一系列关键技术，例如场景化数据缩减、高通量超融合网络等。

场景化数据缩减：新型存算分离架构下，数据缩减能力下沉到存储模组，配合前后台缩减任务，有效减少对性能的影响，提升缩减率。此外，针对不同场景的数据特征，可使用不同的缩减技术。

高通量超融合网络：根据部署场景及多样化网络敏捷和自适应性的业务需求，存算模组间可以选用基于CXL Fabric、NoF、IP的组合进行组网，需要考虑以下关键技术。首先，网络连接可以选用直连模式或是池化模式。直连模式下，网卡资源被设备独占使用；池化模式下，网卡资源池化，被多个设备共享使用，可以提供更经济的使用效率。其次，跨机架通信通常采用RDMA机制。传统RDMA连接数受限，需解决大规模互联的扩展性问题。例如，可使用无连接等技术，解耦连接状态和网络应用，支持数万的连接规模。

网存协同：智能网卡和DPU是服务器的数据出入口，充分利用智能网卡和DPU的硬件卸载NoF、压缩等加速能力，协同好主机和DPU间的任务调度，降低主机数据处理开销，可提升IO效率；可编程交换机是服务器、存储之间的数据交换中枢，它们在系统中占据特殊的位置。结合其可编程能力和交换机的中心化和高性能的优势，可以实现高效的数据协同处理。

盘存协同：通过介质和控制芯片深度协同可获得端到端最佳TCO和效率。以冗余设计为例，新型存储型模组直接集成介质颗粒，仅在框这一级构建一层大比例EC的池化空间，辅助专有芯片卸载加速，最终简化了原有的盘内、框内等多层冗余设计，有效改善资源利用率。

最后，新型存储模组基于专有芯片除了提供传统IO接口外，还有旁路接口加速，使元数据绕开厚重的IO栈，以远程内存访问方式提升并行访问能力。

新型存算分离系统面临的挑战

可以看到在国家东数西算和节能减排的发展浪潮下，新型存算分离架构必将成为一大热点话题。当然，构建新型存算分离系统也面临众多技术挑战，需要各领域专家共同探索解决。

计算和存储之间的数据访问接口及标准主要采用“主-从”请求响应模式，并以传输块存储语义为主。然而，随着内存盘、智能网卡异构算力的快速发展，内存访问语义、存算协同语义等方面的表现能力出现不足。

如何与已有生态结合，发挥出基于新架构的基础设施潜力仍需深入探索。例如，新的数据处理器、全局共享存储系统的潜力如何最大限度地发挥出来，如何设计更高效的应用服务框架等，都是一个长期而艰巨的任务。

免责声明：文章内容和观点仅代表作者本人观点，供读者思想碰撞与技术交流参考，不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情，请访问产品与技术介绍页面或咨询华为公司人员。

# 数据存储

舒继武

CCF信息存储技术专委会主任、IEEE Fellow、CCF会士、清华大学教授、厦门大学信息学院院长

企业业务网站

华为云网站

运营商网络业务网站

消费者业务网站

集团网站