洞察之路变革：AI-HPC范式转移

发表于： 2024-09-25 分类于： DataCenter

字数：40 阅读：≈ 1分钟浏览：

在一篇近期发布的论文中，作者提出了一种令人担忧的现象：当AI模型在先前LLM模型递归生成的数据点上进行训练时，可能会发生模型崩溃，即所谓的“蛇吞尾”现象。生成式AI在挖掘互联网数据，构建大型LLM模型方面取得了显著的成功，这些模型能够对许多问题提供类人的回答。

特别是，生成新文本一直是许多LLM的强项。从文档摘要到报告生成，LLM能够创造大量文本。然而，不可避免地，这些LLM生成的文本会出现在互联网上，并被下一代LLM模型所采集。论文中的研究人员认为，这种递归训练会导致模型性能退化，最终引发模型崩溃。

应对此问题的一种方案是使用合成数据训练模型。另一种策略是在缺乏大规模、多样化标注数据集的情况下，利用LLM生成合成数据。合成数据可模拟现实世界的数据特征，有助于提升数据质量，并增强定制LLM（非基础模型）的性能。

AI HPC 图1：LLM“蛇吞尾”的示意图。

HPC的数据优势

当主流生成式AI开发面临原始数据获取困境时，HPC领域并不存在此类问题。HPC一直致力于创建用于预测或模拟物理系统的数值模型。从银河系到蛋白质，再到F1赛车，HPC始终在生成高质量的合成解决方案（数据）。随着计算能力的提升，模型精度也在不断提高。

LLM在数据中发现隐藏关系（或“特征”）的能力已在先前的文章中有所描述。

微软的Aurora天气项目是利用传统HPC数据作为基础模型的典型案例。（注：微软的Aurora模型与阿贡国家实验室的Aurora百亿亿次计算系统不同）Aurora模型在计算速度上比传统的数值天气预报综合预报系统提高了5000倍。微软解释了Aurora的方法，并强调：“Aurora的成效在于其在超过一百万小时的多样化天气和气候模拟中进行训练，从而对大气动力学有了全面的理解。”

本质上，他们通过利用“天气物理学”的结果来训练LLM，然后运用所学知识预测天气。像Aurora这样的基础模型的成功，预示着 HPC 领域即将迎来重大变革。

传统的HPC方法如图2所示，通常基于描述目标系统的物理定律开发模型。模型开发完成后，会在特定的初始条件下运行。这些模型可能需要数天、数周甚至数月才能得出解决方案。如需更改初始条件，模型必须从头重新运行。

AI HPC 图2：传统HPC发现方法示意图。

在AI增强的HPC中，LLM类模型可利用现有数据（如模拟的天气数据或实测数据）进行训练。训练数据的创建或收集可能需要数周或数月。在许多情况下，“合成”HPC训练数据可能已经存在。然而，一旦训练完成，该模型就能通过推理快速为一组初始条件（“查询”）提供解决方案，无需进行数值计算。这一过程如图3所示。

AI HPC 图3：AI增强HPC发现方法示意图。

AI增强方法的优势在于模型的灵活性。当初始条件发生变化时，模型可通过推理得出结果，无需重新计算。以Aurora基础天气模型为例，可迅速得出新的天气预测，而无需通过传统模型的数学运算。此外，基础模型还可微调以适应更多预设的解决方案。

例如，微软Aurora基础天气模型不仅提供了高精度和快速计算，还具备传统天气模型难以企及的多功能性。Aurora能预测广泛的大气变量，从温度和风速到空气污染水平和温室气体浓度。此外，Aurora的架构设计可处理异构输入，并在不同分辨率和精度下生成预测。

HPC的权衡

AI增强的HPC模型为模拟物理世界提供了新视角。然而，这并非没有代价。对于LLM模型，大部分计算在前期完成：训练模型需要巨大资源，但由此产生的泛化推理可用于多种问题的不同变体。如前所述，一旦拥有基于LLM的天气模型，就无需使用传统HPC模型从头计算明天的天气；可请求模型推断天气，这种方式可能与“计算”传统模型一样准确。模型使用频率越高，前期计算成本就被摊薄得越多。长远来看，AI增强模型可能比传统方法更具计算效率。HPC的“计算成本”可能会降低，效果也可能更佳（同时我们需确保避免“自噬”现象）。

高质量HPC数据的重要性

训练LLM需要海量数据。在数据科学领域，高质量数据是模型生成和使用的基础。业界常说，“数据科学家和工程师将80%的时间用于寻找、清理和组织数据，剩余时间才用于实际开发和运行模型。”

这一规律同样适用于从互联网收集LLM模型数据。垃圾进，垃圾出（GIGO）原则在各个层面都适用。然而，用于训练LLM的合成HPC模型数据几乎不存在此类问题。传统HPC模型输出数据本身就是为进一步使用（如可视化）而精心设计和管理的。

展望未来，HPC社区深谙如何创建用于科学和工程的基础LLM的高质量、清洁的合成数据。实际上，HPC在创建此类数据方面已有数十年经验。幸运的是，生成训练数据所需的许多基于GPU的系统与创建基础模型的系统相同。

最后，有人担心过度依赖基础模型可能产生偏见结果。还存在幻觉和不当训练的问题。随着AI方法和技术的进步，这些问题有望得到解决。本质上，我们是在向LLM展示我们所能创建的最佳现实模型，并询问：“你看到了什么？” 随着模型和问题变得更加精细，我们可期待LLM发现人类难以察觉的关系和洞察。

智能折叠蛋白质的方式

微软Aurora模型并非唯一的AI增强成功案例。谷歌通过一种名为AlphaFold的应用，基本解决了棘手的蛋白质折叠问题。蛋白质折叠问题涉及计算蛋白质的构象以形成生物活性结构。使用传统分子建模方法解决蛋白质折叠问题是一项计算密集型任务。

AlphaFold并未使用传统分子动力学来确定解决方案。相反，AlphaFold采用了一种深度学习算法，通过机器学习从氨基酸序列预测蛋白质的三维结构。AlphaFold使用了来自公共蛋白质序列和结构库中的超过17万个蛋白质来训练模型。该程序使用了类似于生成式AI transformer的方法，但并非严格意义上的LLM。AlphaFold的AI模型将目标折叠序列与多序列比对（MSA）统计信息结合，作为输入和结构预测的输出。据报道，初始训练是在100到200个GPU上进行的。

AlphaFold项目始于2018年。当时，已知人类蛋白质结构的比例为17%。得益于AlphaFold，目前几乎所有（98.5%）人类蛋白质的三维结构都已解析。

重新定义性能指标

随着 AI 在HPC中扮演越来越重要甚至可能主导的角色，追求双精度Top500基准测试可能不再是衡量未来HPC性能的最佳方式。

阿贡国家实验室Aurora百亿亿次计算系统项目负责人Rick Stevens表示，“我们有意决定不为双精度设计矩阵单元的芯片，而是将额外的芯片用于加速低精度运算。例如，在bfloat16中，我们获得了更高的性能。这就是技术考量。”

AI性能的衡量标准已落到AI工程联盟MLCommons及其MLPerf AI基准测试套件上。

对HPC而言，传统浮点计算（Top500）和低精度AI计算（MLPerf）都将至关重要。目前，这两个基准测试的目标在某种程度上是正交的，可能需要一种新方式来定义HPC性能。

科学和工程洞察之路正在经历重大变革。