APPLICATION

从词袋到GPT

在互联网历史的大部分时间里，“理解语言”意味着统计单词或匹配模式。但到了2010年代后期，情况发生了变化。我们不再问“哪些词出现最多？”而是开始问“这句话实际上说了什么？”这就是大型语言模型在每个涉及文本的领域悄然引爆的时候。

admin

Jul 29, 2025 • 14 min read

在计算机领域有一句不断变化的格言，每隔几年我们都会假装它一直存在。在互联网历史的大部分时间里，“理解语言”意味着统计单词或匹配模式。如果你想让机器“阅读”，你会使用所有微妙程度像大锤一样的工具。

我们称之为词袋（Bag of Words）。每份文档变成了一张粗糙的购物清单：统计名词、动词和形容词，并希望信号超过噪音。不是语言，只是账本上的计数。

几十年来，这已经足够了。它推动了搜索引擎、垃圾邮件过滤器和带有预设答案的聊天机器人。进步意味着更聪明的加权方案或一点词干提取。没有人期望电脑真正理解它们读到的内容。

但到了2010年代后期，情况发生了变化。我们不再问“哪些词出现最多？”而是开始问“这句话实际上说了什么？”这就是大型语言模型在每个涉及文本的领域悄然引爆的时候。

我们是怎么走到这一步的？一路上我们失去了什么或破坏了什么？

现在，不到十年后，我们期望我们的软件能够推理、发挥、即兴创作，有时甚至能比我们自己做得更好。

1、计数单词的时代

词袋如何统治并失败

如果你在2015年前构建过软件，你记得旧制度：文本不是语言。它是数据。每封电子邮件、搜索查询或文章只是一个袋子，一个无形状的单词堆。*“自然语言处理”*意味着排齐这些袋子，统计哪些单词重叠，并假装这给了你意义。

垃圾邮件过滤器不知道*“恭喜，你赢了！”的实际含义。它只是注意到“恭喜”经常与“奖品”、“金钱”或可疑的链接一起出现，并做出猜测。相关性？情感？上下文？别提了。词袋无法区分“我喜欢猫”和“我不喜欢猫”*，除非你写了自定义逻辑。

早期的搜索引擎生活在这个世界中。大多数聊天机器人、文档分类器和推荐系统也是如此。它们运行在诸如词频、TF-IDF以及最终的n-gram等特征上。这些方法便宜、透明且可预测。它们也很脆弱。

如果你交换了单词，它们就会绊倒。如果你重新排列了一个句子，意义就崩溃了。讽刺、否定、歧义，都看不见。计算机没有解析英语。它们是在盲目的情况下解决填字游戏。

有一段时间，没人关心。这对于筛选垃圾邮件或聚类新闻来说已经足够好了。但一旦你想要细微差别，任何真正的理解，词袋就会一分为二。语言不仅仅是令牌的堆叠。它是上下文、意图、节奏、矛盾和惊喜。机器直到最近才看不到这些。

那么，发生了什么变化？三个大的事情：更多的数据、更快的硬件和一种新的数学方法。

2、从向量到上下文

改变一切的突破

词袋有一个致命的缺陷：它把单词看作孤岛。*“银行”在“河岸”和“银行账户”*中的意思是一样的。这不是人们阅读的方式，但这是机器以前的做法，直到词嵌入出现。

Word2Vec和GloVe是第一个破解密码的人。它们不再将单词视为不相关的标记，而是将每个单词映射到高维空间中的一个点，一个向量。语义相似的单词聚集在一起：“猫”靠近“狗”，而*“法国”则靠近“巴黎”。突然之间，“国王”减去“男人”加上“女人”会带你到“王后”*。这些模型不仅仅在计数。它们学会了关系。

但即使这些突破也错过了一些重要的东西：上下文。在Word2Vec中，*“ bark”*总是意味着狗的叫声或树皮，但从不同时意味着两者。无论句子如何，向量都不会改变。

随着ELMo等模型以及关键的transformer的到来，这种情况发生了变化。ELMo让单词的意义根据周围环境而变化。但Google 2017年的论文《注意力就是一切》引爆了这个领域。Transformer架构使得可以读取整个序列（不只是单词，还有短语、段落和整篇文档），并动态地决定什么是重要的。

这就是现代语言模型故事真正开始的地方。突然之间，上下文不再是锦上添花。它是主要事件。

机器语言理解的演变，从原始的单词计数到深度上下文。

3、GPT时刻

规模、意外和推理机器的黎明

从巧妙的嵌入到能够写作、争论和解释的语言模型的飞跃发生得比任何人（说实话，甚至是那些构建它们的人）预期的都要快。

OpenAI的GPT-2于2019年发布，感觉像一个魔术。给你一个提示，它用文本回复，通常来说，有意义。有时候它会唠叨或虚构事实，但流畅性的飞跃是显而易见的。第一次，一台机器可以在英语中即兴发挥，跨段落而不是仅仅句子地串起想法。

什么变了？不是核心数学，而是规模。Transformer被证明在提供更多信息和增加参数数量时显著改善。GPT-2有15亿个参数。第二年，GPT-3将其提升到1750亿个，几乎浏览了整个公共互联网。这种规模不仅仅是渐进式的。它是一个相变。突然之间，语言模型不仅擅长自动完成。它们开始泛化。你可以要求一个模型总结法律合同、编写Python代码或向孩子解释相对论理论。

这并不是人类意义上的“理解”，但它足够接近，以至于从教授到诗人都感到不安。世界不仅获得了更智能的软件。它获得了一种新型的软件，模糊了工具和合作者之间的界限。

游戏开始了。

4、LLM无处不在

GPT如何改变工作、代码和沟通

我仍然记得第一次看到GitHub Copilot在我之前完成我的想法。我输入了一个注释，概述了一个棘手的功能，而在我没有写一行代码之前，建议栏就填满了解决方案。这是我可能花了整整一个小时才能摸索出来的。它感觉像是作弊和魔法，同时发生。

到2022年，语言模型不再是研究玩具。它们悄悄地接管了互联网的日常管道。聊天机器人不再听起来像电话菜单，而是开始像一个无聊的同事一样即兴发挥。电子邮件客户端通过阅读意图来标记钓鱼尝试，而不仅仅是标题。突然之间，“AI写作”无处不在，从博客文章到代码审查再到客户服务脚本。

在开发人员圈子中，GitHub Copilot改变了数百万人编写代码的方式。它不仅仅自动完成变量名。它生成完整的函数，重构遗留逻辑，并甚至解释晦涩的错误信息。如果你是软件工程师，你可能已经看到Copilot建议你从未考虑过的解决方案，或者，老实说，你不敢在未经审查的情况下发货的代码。

法律、医疗和研究领域迅速适应或防御。律师开始自动化合同摘要。科学家要求模型从期刊中提取模式。有时，模型会犯错误（有时很滑稽，有时很危险）。但方向很明显：LLMs现在进入了工作流程，而不仅仅是课堂或实验室。

不可避免地，老问题再次出现，更加尖锐：什么是“理解”某事的意思？如果一个模型给出了完美的答案，但原因错误呢？我们可以信任一个不知道自己不知道的机器吗？

尽管如此，市场仍在前进。每周都有新公司和产品推出。Google、Meta、OpenAI、Anthropic以及每个云供应商都将全部赌注押在LLMs作为基础设施上，而不仅仅是API。

语言模型所做的不仅仅是回答问题。它们悄悄地塑造着工作的进行方式。

5、我们得到了什么，又失去了什么

LLM的双刃剑

如果你在语言模型周围待太久，你会发现两个故事在平行展开。

一方面， LLMs将曾经不可能的任务变成了次要任务。翻译不同语言、总结法律文件、快速编写脚本，现在这些只需几分钟。非程序员自动化他们的工作流程；作家从一个提示中起草整篇文章。教育、可及性和研究得到加速。那些从未认为自己是“技术”的人现在掌握了曾经局限于神秘语法或企业软件的力量。在一个信息泛滥的世界里，LLMs帮助你以比昨天的“生产力技巧”更高速度合成、组织和生产。

但另一方面， 这种新的流利度带来了一种新的脆弱性。同样能够回答问题的模型也可能虚构事实、强化偏见或编造自信的废话。它们擅长模仿知识的形状，但不知道什么是真实的。幻觉不是罕见的错误，而是这些模型猜测下一个词时内置的。

随着LLMs的传播，它们的错误成本也在上升。一个编写代码的模型可能会引入微妙的错误；一个撰写法律建议的模型可能会发明条款。每次模型节省几小时，就有风险悄悄引入风险：智力、法律、财务和声誉方面的风险。

还有一个更安静的权衡：当我们自动化写作、编码和总结的琐碎工作时，我们可能会失去对底层推理的接触。如果你能在一分钟内生成一篇1000字的报告，你还记得如何构建一个谨慎的论点或检查一个来源吗？ 有时，理解的幻觉比诚实的无知更危险。

这意味着什么？ LLMs的兴起不仅增加了力量。它改变了谁能使用它以及在翻译中失去了什么。

现在，随着这些模型重塑从代码到合同的一切，我们面临着一组新的问题，不仅是关于什么可能，而是关于什么值得保留。收益是真实的，但损失也是：速度、规模和便利性换来了新的风险和技能的微妙侵蚀。

6、未来

大型语言模型的下一步

那么，现在怎么办？在2025年，很明显我们离这个故事的结尾还很远。LLMs无处不在，但我们刚开始努力弄清楚它们真正擅长什么。以及它们可能在我们关心的事情上悄悄破坏什么。

模型变得越来越大， 但“更大”并不是剩下的唯一游戏。研究界正在转向：更小、更专业的模型（例如：针对特定领域的微调代理）正在取得进展，用透明度和更低的成本换取原始力量。*“只需添加更多数据和计算”*的时代正在让位于真正的问题：

如何获得可靠的推理，而不仅仅是表面的流利？
当一切都可能泄露时，如何保护用户数据？
如何建立信任，而不仅仅是更多的输出？

在技术方面，最大的变化可能不是那些吸引头条新闻的变化。高效的设备内模型意味着你的手机可以在不连接数据中心的情况下总结通话。开放权重的LLMs挑战封闭商店的方法。现在任何人都可以运行最先进的模型，对其进行调整，并查看黑箱内部。我们终于看到了真实准确率、安全性和环境影响的基准测试，而不仅仅是排行榜分数。

但最难的问题仍然是关于人的。团队必须决定何时信任一个模型，何时再检查一次。产品领导者必须在速度和风险、愉悦和严谨之间取得平衡。每个人（从作家到工程师到高管）都必须养成新的质疑习惯：

这个输出真的正确吗？
我们还在思考，还是只是外包了判断？

最终，LLM的故事不仅仅是技术性的。它是文化的。我们现在都生活在一个语言廉价但仔细思考稀有的世界里。最好的团队将是那些不仅询问模型能做什么，而是专注于他们仍需要拥有的东西。

7、不要外包思考

使用LLMs提高标准

每一次技术浪潮都会带来炒作和担忧。大型语言模型的兴起也不例外。但如果有哪一条经验教训在过去十年中显现出来，那就是：工具可以放大你已经做的事情，但它们不能取代理解、挑战和改进自己思维的艰苦工作。

我们建造LLMs是为了让我们工作得更快、更聪明、更少障碍。如果我们不小心，我们会满足于更快的胡说八道。现在很容易按下“生成”，快速浏览输出，然后继续。最好的团队和建设者将每次模型回应视为草稿，而不是福音。他们会提出问题，推动并验证。他们将模型视为合作伙伴，而不是神谕。

如果你想构建持久的产品、内容或公司，不要只追逐最新的模型更新。加倍投入清晰度：你和你的团队的清晰度。当你信任LLM处理常规任务时，利用节省下来的时间去做只有人类才能做的事情：提出更好的问题，画出更清晰的界限，并决定什么最重要。

所以，是的，拥抱这些工具。但保持手握方向盘。未来属于那些使用LLMs提升标准的人，而不是将其降至地面。

在语言现在廉价的世界里，你将如何让你的思考变得稀有？

原文链接：From Bag-of-Words to GPT

汇智网翻译整理，转载请标明出处