训推一体机预置大模型，加速行业L2模型落地，打通“最后一公里”

2023年12月15日

陈春明

华为DCS解决方案资深架构师

随着人工智能技术的不断发展，越来越多的企业开始将AI技术应用到自己的业务中，以提高效率和降低成本。而在这个过程中，模型部署成为了一个重要的挑战。特别是在大规模部署L2模型时，企业面临的挑战更加严峻。

首先，模型部署难是一个普遍存在的问题。在部署L2大模型时，企业需要考虑硬件选型、交付周期和运维管理等问题。此外，模型部署需要一定的时间和人力资源，这也会对企业的运营造成一定的影响。

其次，训练成本高也是一个需要考虑的问题。大模型需要大量的计算资源来进行训练，这也会增加成本。此外，由于大模型需要大量的内存来存储参数和中间结果，因此需要使用高内存的计算机或服务器，这也会增加成本。

第三，数据存取难也是一个需要考虑的问题。在多机多卡的情况下，数据需要共享，这也会增加数据存取的难度。此外，海量小文件的随机读写速度较慢，CheckPoint保存时间长，也会对数据存取造成一定的影响。

最后，模型易泄露也是一个需要考虑的问题。推理模型容易被窃取，行业数据高价值容易被窃取，这也会对企业的安全造成一定的威胁。

综上所述，大规模部署L2模型面临的挑战是多方面的。企业需要在硬件选型、交付周期、运维管理、训练成本、数据存取和安全等方面进行全面考虑，以确保模型的顺利部署和运行。同时，企业也需要加强对模型的安全保护，以避免模型泄露对企业造成的损失。

整柜开箱即用

从AI基础设施建设角度看，是一个小型/微型ICT的需求，包括计算、网络、存储、安全等要求。

传统的AI基础设施采购模式存在以下问题：

1. 设备多，分包采购：AI基础设施需要大量的设备，包括服务器、存储设备、网络设备等，因此采购过程需要分包进行。这会增加采购成本和管理难度。

2. 无整体建设方案，需集成商介入：AI基础设施采购过程中，缺乏整体建设方案，需要集成商介入，进行设备的整合和配置。这会增加采购成本和管理难度。

3. 设备货期不一致，流程繁琐：设备多次接收，流程繁琐，需要耗费大量的时间和精力。

4. 专业IT人员出差现场组装，耗时费力：需要专业的IT人员出差现场组装设备，这会耗费大量的时间和精力，增加交付成本和管理难度。

针对传统采购模式存在的问题，需逐渐从传统的“组合”方式，向“全栈”集成方向演进，一站式方案用来满足全栈AI基础设施诉求，降低了方案复杂度、运维复杂度、部署复杂度等。

训推一体机是一种集成了主流大模型的全栈软硬件调优的AI平台，它的出现为企业提供了一种全新的解决方案，可以帮助企业更加高效地进行AI任务的训练、评估和预测。

首先，训推一体机的一站式采购功能可以为企业提供多种模型参数规模选择配置，比如8B、13B等典型配置，这样可以让企业根据自身的需求选择最适合自己的配置。

其次，训推一体机的整框设计、发货和接收功能可以让企业省去繁琐的组装和调试过程，从而节省时间和人力成本，让企业更加专注于AI任务的实现。

第三，训推一体机集成了主流大模型，全栈软硬件调优，具备训练、评估、预测等能力，训练和推理一体化设计。这意味着企业可以在一个平台上完成整个AI任务的流程。

全栈软硬运维

由于AI训练推理一体机的复杂性和高度集成性。这种设备需要同时管理硬件和软件，包括CPU、GPU、内存、存储、操作系统、深度学习框架等多个组件，而这些组件之间的相互作用和影响非常复杂。因此，为了确保设备的稳定性和可靠性，需要具备全栈运维特性，以便及时发现和解决问题。

全栈运维软件需集成各种管理和监测工具，对设备进行全面的监测和管理。例如，可以使用系统监测工具来监测CPU和内存的使用情况，使用网络监测工具来监测网络带宽和延迟，使用安全管理工具来保护设备免受恶意攻击，使用性能管理工具来优化设备的性能等等。

全栈运维特性带来的好处主要有以下几点：

首先，训推一体机支持四级监测，包括部件级、节点级、集群级和AI任务级。在部件级监测方面，训推一体机可以监测CPU、GPU、PCIE、存储等部件的状态，及时发现并解决问题。在节点级监测方面，训推一体机可以监测节点的状态，及时发现并解决节点故障。在集群级监测方面，训推一体机可以监测整个集群的状态，及时发现并解决集群故障。在AI任务级监测方面，训推一体机可以监测AI任务的状态，及时发现并解决任务故障。

其次，训推一体机支持任务视角的全链路拓扑，自动构建任务全链路的拓扑视图，可视化故障、下钻式故障分析。这意味着，用户可以通过训推一体机的全链路拓扑视图，快速定位任务故障，并进行下钻式故障分析，从而更好地解决问题。

最后，训推一体机支持问题全局搜索，任务资源一键检索，自动梳理资源关系，一秒汇聚。这意味着，用户可以通过训推一体机的问题全局搜索功能，快速找到相关资源，并进行一键检索。同时，训推一体机还可以自动梳理资源关系，一秒汇聚，让用户更加方便地管理资源。

这些功能可以帮助企业更好地管理AI任务，及时发现和解决问题，提高效率和准确性。

训推一体机预置大模型，加速行业L2模型落地，打通“最后一公里”-01

高效数据处理

大模型训练读取数据的痛点主要包括以下几个方面：

1. 数据量大：大模型需要大量的数据进行训练，而这些数据通常需要从分布式存储系统中读取，这就需要高效的数据读取和传输技术。

2. 数据格式多样：不同的数据格式需要不同的处理方式，而大模型通常需要同时处理多种数据格式，这就需要灵活的数据处理能力。

3. 数据质量不一：大模型需要高质量的数据进行训练，而实际上数据质量往往不尽如人意，这就需要对数据进行清洗和预处理。

共享存储给AI带来的好处主要包括以下几个方面：

1. 提高数据共享效率：共享存储可以让多个AI模型共享同一份数据，避免了数据重复存储和传输，提高了数据共享效率。

2. 提高数据安全性：共享存储可以对数据进行统一管理和控制，避免了数据泄露和滥用，提高了数据安全性。

3. 提高数据利用率：共享存储可以让多个AI模型共同使用同一份数据，避免了数据孤岛和浪费，提高了数据利用率。

训推一体机预置大模型，加速行业L2模型落地，打通“最后一公里”-02

训推场景涉及大量的小文件，共享存储需通过多级均衡技术可加速海量小文件并发性能，提升训练效率：

1.接入负载均衡利用多IP聚合及多路径技术，将传统的NFS的单一路径访问优化成多条路径并发访问，提升文件接入性能；

2.数据处理均衡采用分布式文件系统的A-A架构，将文件均分到各控制器并行处理，提升并发读写性能；

3.写盘负载均衡主要通过两种方式实现，一方面通过聚合连续数据块将多个小文件聚合成连续大块，提升海量小文件写性能，另一方面通过RAID 2.0+将数据切片存储到全局磁盘，更多盘参与IO处理，提升并发写性能。

提高GPU利用率

由于深度学习模型的训练需要大量的计算资源，而GPU是一种高效的计算资源，因此GPU池化技术应运而生。GPU池化技术的原理是将多个GPU连接在一起，形成一个GPU池，通过分配任务和数据，实现多GPU并行计算，从而提高深度学习模型的训练速度和效率。

GPU池化技术带来的好处主要有以下几点：

1. 提高训练速度：GPU池化技术可以将大型深度学习模型的训练任务分配到多个GPU上并行计算，从而大大缩短训练时间。

2. 提高训练效率：GPU池化技术可以充分利用多个GPU的计算资源，提高训练效率，使得深度学习模型的训练效果更加优秀。

3. 节省成本：GPU池化技术可以通过共享GPU资源，减少GPU的购买和维护成本，从而降低深度学习模型的训练成本。

4. 提高可扩展性：GPU池化技术可以随时增加或减少GPU的数量，从而提高深度学习模型的可扩展性，满足不同规模的训练需求。

安全训练推理

AI训练数据和模型的安全挑战包括以下几个方面：

1. 数据隐私：训练数据可能包含敏感信息，如个人身份信息、财务数据等，如果泄露，将会对个人和组织造成严重的损失。

2. 模型安全：攻击者可能会通过篡改模型参数、注入恶意代码等方式来攻击模型，从而影响模型的输出结果。

3. 对抗攻击：攻击者可能会通过对抗样本来欺骗模型，使其产生错误的输出结果。

4. 模型解释性：AI模型的黑盒特性使得其输出结果难以解释，这可能会导致模型的不可信度和不可靠性。

5. 模型共享：在模型共享过程中，可能会泄露模型的敏感信息，如模型参数、训练数据等。

6. 模型部署：在模型部署过程中，可能会面临网络攻击、恶意软件注入等安全威胁，从而影响模型的安全性和可靠性。

综上所述，AI训练数据和模型的安全挑战是多方面的，需要综合考虑各种安全威胁，并采取相应的安全措施来保护数据和模型的安全。

为了满足这些要求，一体机需要一种高性能机密执行环境，以及数据和模型的机密防护措施。

首先，我们需要一个高性能机密执行环境，以确保在数据、模型机密性前提下的高性能AI应用需求。这个环境需要满足以下要求：

1. 裸机机密容器：AI应用需要在一个裸机机密容器中部署，以确保数据和模型的机密性。这个容器需要具有高度的安全性和可靠性，以保护数据和模型不受攻击和泄露。

2. 高性能：AI应用需要在一个高性能的环境中运行，以确保其能够快速、准确地处理大量的数据和模型。这个环境需要具有高度的计算能力和存储能力，以满足AI应用的需求。

其次，我们需要一种数据、模型机密防护的措施，以确保数据和模型仅在既定使用权限、物理环境、有效时段下可用。这个措施需要满足以下要求：

1. 透明加解密：数据和模型需要在传输和存储过程中进行透明加解密，以确保其机密性。这个加解密过程需要在不影响AI应用性能的前提下进行，以确保AI应用的高性能。

2. 权限策略管理：数据和模型需要在既定使用权限、物理环境、有效时段下可用。这个权限策略需要在数据和模型的使用过程中进行管理，以确保其机密性和安全性。

综上所述，高性能机密执行环境和数据、模型机密防护措施是保障AI应用机密性和安全性的重要手段。

知识高精推理

大模型从训练完成到使用时往往有数月的滞后性，而实际应用希望得到及时的、准确的结果。因此，为了模型应用的及时性、避免大模型的“幻觉”（hallucination），可以结合外挂向量数据库的方式，将不同格式的文件数据（如word、excel、pdf、图片等）切片后更新到向量库，形成即时知识库。

一体机提供向量数据库的重要性在于，它可以为我们提供更加高效、准确的数据处理和分析能力，从而提高我们的工作效率和决策水平。当用户提问时，可从向量库里检索与问题相似度高的向量，并提炼成Promt输入到既有大模型中进行推理，实现通用模型在行业的快速落地。结合向量数据库对行业最新知识应用于既有大模型推理的流程示意图如下：

训推一体机预置大模型，加速行业L2模型落地，打通“最后一公里”-03

免责声明：文章内容和观点仅代表作者本人观点，供读者思想碰撞与技术交流参考，不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情，请访问产品与技术介绍页面或咨询华为公司人员。

陈春明

华为DCS解决方案资深架构师

企业业务网站

华为云网站

运营商网络业务网站

消费者业务网站

集团网站