微调LLM是巨大的时间浪费
微调大型语言模型(LLM)经常被宣传为一种快速、强大的注入新知识的方法。表面上,这很直观:将新数据输入已经强大的模型,调整其权重,提高针对性任务的性能。
但这种逻辑在高级模型中不成立,而且是非常严重的问题。在高性能水平上,微调不仅仅是添加新数据——而是覆盖现有知识。每个更新的神经元都有丢失已经复杂编织在网络中的信息的风险。简而言之:神经元是有价值的、有限的资源。更新它们不是无成本的行为;这是一个危险的权衡,威胁到高级模型的微妙生态系统。
执行要点(文章TL;DR)
微调高级LLM不是知识注入——而是破坏性覆盖。训练语言模型中的神经元不是空白石板;它们是密集相互连接的,已经编码了关键的、细微的信息。当你微调时,你冒着擦除有价值的现有模式的风险,导致意想不到的下游问题。
相反,使用模块化方法,如检索增强生成、适配器或提示工程——这些技术注入新信息而不会破坏底层模型精心构建的生态系统。
1. LLM作为信息生态系统
要理解为什么微调高级语言模型不像听起来那么简单,让我们首先考虑神经网络,特别是语言模型,是如何从头开始训练的。
在其核心,神经网络是巨大的相互连接的神经元集合,每个神经元都包含决定其行为的数值(权重)。最初,这些权重是随机设置的——没有编码意义,没有存储知识,只有数学噪音。
当训练开始时,网络接收输入(单词、句子、文档),进行预测(下一个单词、句子补全),并计算这些预测与现实的差距。这种差异称为损失。网络然后使用称为反向传播的过程逐步调整每个神经元的权重,减少这种损失。在训练早期,这很容易——神经元存储本质上是随机值,所以更新它们几乎没有损失有用的信息。
随着更多训练,网络逐步编码有意义的模式:语言细微差别、语法规则、语义关系和上下文相关的含义。
在现代LLM(这是大多数傻瓜尝试调整的水平),大多数神经元密集地充满了关键洞察。微调/运行任何更新更有可能击中你的一些重要神经元,完全改变你的预期行为。
2. 前进的道路:模块化知识插入
如果微调是一个有风险的解决方案,替代方案是什么?答案在于模块化和增强。检索增强生成(RAG)、外部记忆库和适配器模块等技术提供了更强大的方法来合并新信息,而不会覆盖现有网络的知识库。
检索增强生成(RAG) 使用外部数据库在推理时动态增强知识。很多人宣扬愚蠢的事情,如RAG已死,但这仍然是处理大型知识存储进行QA时最可靠的技术。对于更复杂的知识工作,你可能会发现朴素RAG不足,但可以实施更高级的检索和表示技术来创造更强大的性能。
适配器模块 和 LoRA(低秩适配)通过专门的、隔离的子网络插入新知识,使现有神经元保持未触及状态。这最适合格式化、特定链等内容——所有这些都不需要完整的神经网络更新。
上下文提示 利用预存在的模型能力,而不进行任何永久性神经元修改。
这些技术认识到神经元的真正本质:有限的、珍贵的、密集打包的资源,最好尽可能保持完整。
3. 结束语
微调不是知识注入——而是知识覆盖。对于高级LLM,神经元不再是中立占位符;它们是高度专业化的、密集相互连接的有价值信息库。不小心更新它们可能导致灾难性的、不可见的损害。
如果你的目标是构建可适应的、可扩展的、稳健的系统,请以应有的谨慎对待微调。拥抱模块化解决方案(软件原则不会因为我们从事AI工作而消失),保持网络基础知识的完整性。否则,你只是在拆除你精心构建的知识生态系统——一次一个神经元。
原文链接: Fine-Tuning LLMs is a Huge Waste of Time
汇智网翻译整理,转载请标明出处