搜索

AI大模型时代，内外兼修的数据保护系统建设势在必行

2024年04月18日

李永健

华为数据保护领域总裁

2023年，超大规模多模态预训练大模型——GPT-4 发布，迅速引爆互联网。之后，OpenAI、微软、谷歌、华为、百度、商汤、字节跳动等纷纷入场，推出各自的大模型，AI大模型正式进入百花齐放的时代。

从本质上讲，AI大模型是在大量数据的基础上，通过“预训练”和“大模型”支撑各类应用。AI大模型参数从数十亿级到万亿级，在数据获取、预训练、建模等各个环节，最关键的资产就是数据。数据的可靠性决定了训练结果的准确性。而数据又恰恰是AI大模型时代最容易被攻击的价值资产，新形势下，如何确保数据的可靠性和安全性成为不容回避的问题。

AI大模型的数据安全主要面临两大挑战

挑战一：新型攻击出现，数据可靠性难保障

AI时代开始出现勒索、投毒、窃取等新型安全攻击，时刻威胁着大模型训练数据的可靠性与结果的准确性并带来严重的经济损失。

其一，勒索软件攻击者加密数据，导致算力集群无法正常读取并使用数据，由于大模型训练涉及昂贵的基础设施投资，分担到每天的成本超过百万人民币，停训后经济损失巨大。

其二，勒索攻击同时伴随着数据泄露。攻击者窃取模型结果、数据等关键资产后，在暗网公开售卖，对企业造成严重损失。2023年3月，Meta语言大模型遭泄露，随后一周内陆续出现Alpaca、ChatLLama、ColossalChat、FreedomGPT等类似大模型，Meta随后被迫宣布开源，前期投资化为泡影，损失惨重。

其三，新型网络投毒攻击出现，攻击者通过在训练数据中混入恶意数据样本，最终以极小的代价干扰训练结果，造成大模型训练结果失真、甚至结果无效。根据墨尔本大学和Facebook的研究：只需要占比0.006%的恶意样本，就可以有50%的概率完成数据投毒攻击。

挑战二：训推数据容量大，数据保护成本和难度高

以国内某知名AI厂商为例，在数据训练和建模场景，数据的规模分别达到了5PB和250TB。而Sora的出现，标志着AI大模型从NLP走向多模态，数据规模、数据预处理复杂度几何级增大。以Sora和Gemini为例，训练数据涉及的图片、音频、视频等高达100PB。随着万亿多模态向十万亿多模态的演进，数据规模更是高达EB 级。面对PB级乃至EB级的数据保护，性能和成本成为AI时代数据安全迫切需要解决的难题。

内外兼修的数据保护势在必行

AI大模型时代，如何确保数据安全可靠？笔者认为，不外乎，外练筋骨皮，内练一口气，内外兼修，增强数据的健壮性。外练筋骨皮，强调外力加持，通过外在手段，比如数据备份，隔离区副本留存等AI存储系统之外的方式增强安全可靠性；内练一口气则强调内生安全，通过内在手段，比如安全快照，不可变副本，纵深防御等强化数据的原生安全性和健壮性。

安全可靠是AI存储的关键特性

图 1 安全可靠是AI存储的关键特性

外炼筋骨皮最有效的方式就是数据备份

对于外练筋骨皮，最常见的手段就是对关键数据进行高效备份。从业界来看，通常采用数据备份一体机实现。在传统备份能力基础上，面向AI场景，笔者认为，数据备份一体机需要采用多种技术，重点解决AI时代训推数据容量大、数据保护成本高和难度高的痛点：

可以采用全闪介质，为AI大模型数据保护提速。近年来，SSD单盘密度持续提高，目前单盘容量高达61.44TB，是HDD容量的3倍，SSD介质容量大，性能高，成为加速AI时代数据备份的最佳选择。华为提供基于30.72TB/61.44TB全闪大盘的OceanProtect备份一体机，将备份恢复性能提升3倍以上，满足严苛的备份时间窗口需求。

算法更新，进一步提升备份一体机的数据缩减比：基于源端重删，目标端重删持续迭代更新缩减率算法，降低用户的整体拥有成本。华为OceanProtect备份一体机支持高达72:1的数据缩减，并持续向＞100:1演进，在PB级备份数据源场景下，可以最大化降低备份数据所占用的存储空间，减少机房机柜空间，降低能耗，实现节能减排的目标。

数据脱敏，保障AI数据安全：AI时代，隐私泄露的风险时刻存在。针对备份副本，在备份数据被再利用前，可以通过对人名、ID、密码等敏感数据进行脱敏，降低隐私数据泄露的风险，最大化保障备份数据副本再利用的安全性，同时满足PCI-DSS，HIPAA等合规要求。

内练一口气侧重内生安全防护

内练一口气，则侧重对数据基础设施内生安全能力的打造。一方面基于存储系统原生的防护措施加以保障，比如通过勒索侦测，确保AI数据来源的可靠性；一方面通过构建多级立体的网络与存储联动能力，形成纵深防御，为AI大模型数据打造最强防护。

网存联动为AI大模型打造最强立体化防护

图 2 网存联动为AI大模型打造最强立体化防护

构建多级立体纵深防御能力通常具备以下优势：

网存联动更及时：网络侧感知到异常入侵后，触发告警并同步发送存储侧，存储基于告警的严重程度，如高、中、低，采取对应的防护措施，比如安全快照、断开隔离区网络等，响应更及时；

诱饵文件更精准：传统存储层防御主要通过黑/白名单管理，事后扫描等被动方式应对勒索攻击。而诱饵文件，则通过模拟写入敏感数据的方式实现对勒索软件的提前触发和识别，从而化被动为主动，进一步提高防护级别，实现精准检测。

纵深防御更可靠：通过多级纵深防御体系建设，延长分析勒索攻击通路，最大化增强各防线侦测、识别勒索攻击的能力，叠加备份一体机的独立备份副本和隔离区副本，最终实现对恶意软件攻击“能识别、防得住、易恢复”，有效保障数据安全。华为采用网络侧与存储侧联动方案，通过6层防御可以实现勒索攻击侦测的准确率高达99.99%。

内外兼修的数据保护助力AI使能千行万业

AI大模型持续加速迭代，参数规模和数据量成万倍增长。数据可靠性，安全性在AI大模型时代是无法规避的两个话题。只有建设好内外兼修的数据保护系统，才能有效支撑对PB~EB级数据的训练要求，确保训练结果的准确性，最终支撑和使能千行万业的应用。

免责声明：文章内容和观点仅代表作者本人观点，供读者思想碰撞与技术交流参考，不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情，请访问产品与技术介绍页面或咨询华为公司人员。

李永健

华为数据保护领域总裁

企业业务网站

华为云网站

运营商网络业务网站

消费者业务网站

集团网站