摘要:这项研究对机构和研究人员设计和训练大语言模型的方式产生了重大影响。随着该领域不断追求更大且能力更强的模型,这项研究凸显了平衡预训练时长和训练后适应性的重要性。...

一项新的学术研究对大语言模型(LLMs)开发中的一个核心假设提出了挑战,该研究警告称,更多的预训练数据并不一定能带来更好的模型。

来自西方及全球一些顶尖计算机科学机构的研究人员 —— 包括卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学 —— 提出了 “灾难性过度训练” 这一概念。他们指出,过长时间的预训练实际上可能会使语言模型更难进行微调,最终导致其性能下降。

这项名为《过度训练的语言模型更难微调》的研究发表在 arXiv 上,由雅各布・米切尔・施普林格(Jacob Mitchell Springer)牵头。其共同作者包括萨钦・戈亚尔(Sachin Goyal)、文凯悦(Kaiyue Wen 音译)、塔尼什克・库马尔(Tanishq Kumar)、岳翔(Xiang Yue 音译)、萨迪卡・马拉迪(Sadhika Malladi)、格雷厄姆・纽比格(Graham Neubig)和阿迪蒂・拉古纳坦(Aditi Raghunathan)。

收益递减规律

该研究聚焦于现代大语言模型开发中一个令人惊讶的趋势:虽然模型在不断扩大的数据池上进行预训练(这些数据有的获得了授权,有的是从网络上爬取而来,以一系列标记或概念和想法的数字表示形式提供给大语言模型),但在预训练期间增加标记数量,可能会导致这些模型在随后针对特定任务进行微调时,效果反而降低。

研究团队进行了一系列实证评估和理论分析,以研究延长预训练对模型适应性的影响。

其中一项关键发现围绕 AI2 的开源模型 OLMo-1B 展开。

研究人员比较了该模型的两个版本:一个在 2.3 万亿个标记上进行预训练,另一个在 3 万亿个标记上进行预训练。

尽管后者使用了多出 30% 的数据进行训练,但在进行指令调整后,其表现却更差。具体而言,在几个标准的大语言模型基准测试中,3 万亿标记的模型比 2.3 万亿标记的模型表现要差 2% 以上。在某些评估中,性能下降幅度高达 3%。

研究人员认为,这种性能下降并非个例,而是一种他们称之为 “灾难性过度训练” 的普遍现象。

理解敏感性和遗忘现象

该论文将这种性能下降归因于一种他们称之为 “渐进敏感性” 的系统性增加。随着模型进行长时间的预训练,其参数对变化变得更加敏感。

这种增加的脆弱性使得模型在训练后的修改过程中,比如指令调整、针对多模态任务的微调,甚至是简单的权重扰动时,更容易出现性能下降的情况。

研究人员提供的证据表明,在预训练超过某个点之后,任何修改 —— 无论是像微调这样有组织的修改,还是像添加高斯噪声这样无组织的修改 —— 都会导致模型之前学到的能力出现更大程度的损失。

这种敏感性导致了 “遗忘” 现象,即随着新训练数据的引入,模型原本的优势会逐渐减弱。

该研究确定了预训练中的一个 “转折点”,在这个点之后,额外的训练会导致微调结果的收益递减,甚至出现负收益。对于 OLMo-1B 模型来说,这个阈值大约出现在 2.5 万亿个标记左右。

大量证据支撑

研究团队的分析涵盖了现实场景和受控实验环境。他们在不同的任务中对这一现象进行了测试,包括使用 Anthropic-HH 和 TULU 等数据集进行指令调整,以及使用 LLaVA 框架进行多模态微调。

结果一致表明,在超过特定标记数量的预训练后,模型在微调后的表现会变差。

此外,研究人员使用线性网络构建了一个理论模型,以便更好地理解为什么过度训练会导致敏感性增加。

他们的分析证实,如果在没有适当约束的情况下无限期地继续预训练,从数学角度来看,渐进敏感性和灾难性过度训练是不可避免的。

最终结论:模型提供者和训练者必须做出权衡

这些发现对 “更多预训练数据总是更好” 这一普遍观点提出了挑战。相反,该论文提出了一种更为细致的权衡:虽然更长时间的预训练可以提升基础模型的能力,但同时也增加了微调会降低这些能力的风险。

在实践中,尝试减轻这种影响的方法 —— 比如调整微调学习率或添加正则化 —— 可能会延迟灾难性过度训练的出现,但如果不牺牲下游性能,就无法完全消除这种影响。

因此,对于希望利用大语言模型改善业务流程和成果的企业来说,如果打算通过微调开源模型来实现这一目标,这项研究带来的启示是,微调在较少数据上训练的低参数模型,可能会得到更可靠的生产模型。

论文作者也承认,需要进一步研究以了解影响灾难性过度训练何时以及如何发生的因素。悬而未决的问题包括预训练优化器、训练目标或数据分布是否会影响这一现象的严重程度。

对未来大语言模型和人工智能模型开发的影响

这项研究对机构和研究人员设计和训练大语言模型的方式产生了重大影响。随着该领域不断追求更大且能力更强的模型,这项研究凸显了平衡预训练时长和训练后适应性的重要性。

此外,这些发现可能会影响模型开发者对资源分配的思考方式。开发者可能需要重新评估策略,以在不产生灾难性过度训练负面影响的前提下优化下游性能,而不是仅仅专注于增加预训练资源投入。