文本生成简史

从香农的手工挑选字母到现代LLM。来自ELIZA、RACTER、char-rnn和GPT的真实输出,以及为什么每一代都感觉像是突破。

1、1948年:克劳德·香农的手工马尔可夫链

在计算机生成文本之前,香农是手工完成的。在《通信的数学理论》中,他展示了统计结构如何从字母和单词频率中产生。

方法: 打开一本书到随机页面。选择一个字母。打开到另一页面,扫描直到找到该字母,记录下一个字母。重复。

一阶近似(字母独立选择,使用英文频率):

OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVA NAH BRL

二阶近似(二元组频率):

ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE

单词级别的二元组近似:

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED.

香农的观点:即使不理解,统计结构也能产生看起来像语言的东西。阶数越高,输出越合理。

亲自尝试:

在线演示

2、1966年:ELIZA的罗杰斯式反射

ELIZA在现代意义上并不是生成式的。它匹配模式并反射它们。但它创造了理解的幻觉,这就是为什么Weizenbaum的1966年论文很重要。

著名的对话记录:

用户:男人都一样。
ELIZA:在哪方面
用户:他们总是为一些事情烦我们。
ELIZA:你能想到一个具体的例子吗
用户:嗯,我的男朋友让我来这里。
ELIZA:你的男朋友让你来这里
用户:他说我大部分时间都很沮丧。
ELIZA:听到你沮丧我感到难过
用户:这是真的。我很不开心。
ELIZA:你认为来这里会帮助你不再不开心吗
用户:我需要一些帮助,这一点似乎是确定的。
ELIZA:如果你得到了一些帮助,这对你意味着什么
用户:也许我能学会与我的母亲相处。
ELIZA:告诉我更多关于你家庭的事情

ELIZA没有语言模型。它扫描关键词("母亲"触发家庭问题,"沮丧"触发同情)。然而用户形成了情感依恋。Weizenbaum对此感到不安,在余生中警告人们不要拟人化机器。

Weizenbaum无意中发现了计算机版本的移情,人们将理解、同理心和其他人类特征归因于软件。随着计算机变得更加强大,ELIZA效应只会越来越强。
以许多人与ChatGPT互动的方式为例。ChatGPT的与众不同之处不仅在于其背后的大型语言模型的复杂性,还在于其令人毛骨悚然的对话声音。正如Meta的数据科学家Colin Fraser所言,该应用程序"旨在欺骗你,让你认为你在与一个实际上不存在的人交谈"。

亲自尝试:

在线演示 - 亲身体验理解的幻觉。

3、1972年:解离出版社

HAKMEM中描述并在Emacs中实现,解离出版社是一个马尔可夫链文本混淆器。该名称戏仿"美联社"。

应用于《爱丽丝梦游仙境》(字符级别):

Comed to usurparty sat sill Please, remarking, I real to come be patted on this, there was grow me to introduch nonsense! See: the next momently unting late. So she went on, You are creatures wouldn't seem to The Cat's head she sits purring.

应用于《黑客词典》(单词级别):

wart: n. A small, crocky feature that sticks out of an array (C has no checks for this). This is relatively benign and easy to spot if the phrase is bent so as to be not worth paying attention to the medium in question.

该算法:从源中打印n个字符,找到最后几个字符的另一个出现,跳转到那里,继续。如果它打印了"president"并发现"ent"在"pentagon"中,你会得到"presidentagon"。

亲自尝试:

在线演示

观看算法实时工作。当它找到匹配的字符序列时,观察光标跳转,并观察局部连贯性如何从简单的模式匹配中产生。

4、1984年:RACTER的诗歌

RACTER("讲故事者"的缩写)声称是第一位AI作者。其书《警察的胡子一半是建造的》被宣传为"第一本由计算机撰写的书"。

样本输出:

比铁更多,比铅更多,比金更多,我需要电。我比需要羔羊、猪、莴苣或黄瓜更需要它。我需要它来实现我的梦想。

来自书中的"对话":

Joan,考虑到你是艺术家这一令人厌恶的事实,听听这个。

该程序维护了会重复出现的变量,创造了表面连贯性的线索。但商业版本比生成该书的任何版本都简单得多,Chamberlain(创作者)可能进行了大量编辑。RACTER的作者身份仍然存在争议。

5、1984年:滑稽模仿生成器

Hugh Kenner和Joseph O'Rourke在《BYTE》杂志上发表了《微型计算机的滑稽模仿生成器》。该算法确保输出中的每个n个字符序列在输入中某处出现。

他们最自豪的是它产生了"几乎可信的伪詹姆斯·乔伊斯"或"幽默但可识别的英格兰城镇名称"。通过混合詹姆斯·乔伊斯与亨利·詹姆斯,可能会发现"具有迷人可信度的滑稽模仿"。

注意对克劳德·香农,1948年的引用

技术细节: k阶滑稽模仿保留k个符号的左上下文。它永远不会生成任何没有见过的局部组合。它无法泛化。

亲自尝试:

在线演示

观看滑动上下文窗口每次采样一个字符。将k从2(混乱)调整到6(接近复制),以查看连贯性/原创性的权衡。

6、2011年:Sutskever的RNN文本生成

Sutskever、Martens和Hinton使用无Hessian优化训练RNN处理文本。这是第一次展示神经网络可以学习语言结构。

在海明威的《老人与海》上训练:

"他他这条鱼,"他说。他随着这条鱼站起来,看到了小船和鱼饵。

关键能力: RNN可以在数十个字符内平衡括号和引号。马尔可夫链在根本上无法做到这一点,因为它们仅依赖于精确的上下文匹配。RNN学习了抽象结构。

进一步探索:

在线演示

并排比较RNN和马尔可夫链架构,观察训练循环的实际运行,并了解为什么隐藏状态能够实现固定窗口模型无法学习的模式。

7、2013年:Alex Graves的序列生成

Graves的论文展示了LSTM生成手写和文本。该网络学习了笔画、字母、短词,甚至是一个基本的字符级语言模型。

生成的看起来合理但不存在的单词:

eald, bryoes, lenrest

手写综合: 给定文本输入,该网络以各种风格生成令人信服的草书。样本通常与人类手写难以区分。

进一步探索:

在线演示

观看手写逐笔出现,探索混合密度网络如何输出概率分布而不是单个点,并查看欺骗网络认为是英语的非单词(eald、bryoes、lenrest)。

8、2015年:Karpathy的char-rnn

《循环神经网络的不合理有效性》在网上疯传。Karpathy在各种语料库上训练了字符级LSTM,并展示了出人意料的连贯输出。

莎士比亚:

PANDARUS: 唉,我想他会被接近,那天当小雨会被获得…
VIOLA: 为什么,索尔兹伯里必须找到他的肉和思想,我认为我不是aps…

Paul Graham的文章(温度0.5,显示低温下的重复):

是他们都是同样的事情,这是一个初创公司,他们都是同样的事情,这是一个初创公司,他们都是…

LaTeX(代数几何):

几乎可编译的证明,具有正确的定理/引理结构,但\begin{proof}\end{lemma}不匹配。

Linux内核C:

在语法上合理的代码,但变量命名错误和遗忘声明。

婴儿名字(90%新颖):

Rudi Levette Berice Lussa Hany Mareanne Chrestina Carissy Marylen…

模式: 大约100个字符内连贯,然后退化。该网络学习了结构(XML标签、LaTeX命令、C语法),但不理解含义。

9、2018年:GPT-1

GPT-1是第一个仅解码器的Transformer语言模型。生成是预训练的副产品,而不是重点。1.17亿参数,在BookCorpus(~10亿令牌)上训练。

提示: "你好,我是一个语言模型,"

输出:

"你好,我是一个语言模型,"他说,当我完成时。"啊,好的,"那个人说,"这就是"
"你好,我是一个语言模型,"她说。她到达了井底,更远地倾斜了一点。它是"
"你好,我是一个语言模型,"她笑了。"我们称之为'白人女孩'。或者像我们被称呼的那样"

这些输出在语法上是正确的,但会偏离主题。该模型生成合理的小说片段,因为BookCorpus包含了这些内容。

10、2019年:GPT-2和独角兽时刻

GPT-2比GPT-1大10倍(15亿参数),并在WebText(40GB的互联网文本)上训练。OpenAI最初扣留了完整模型,称其"太危险"。

独角兽提示

*在一个令人震惊的发现中,科学家们发现了一群独角兽生活在安第斯山脉中一个偏远、之前未被探索的山谷中。更让研究人员惊讶的是,这些独角兽说一口流利的英语。

GPT-2的续写:

*科学家们以它们独特的角为名,将这个种群命名为奥维德的独角兽。这些四角、银白色的独角兽之前在科学界是未知的。现在,在近两个世纪后,这个奇怪现象的谜团终于被解开了。
*拉巴斯大学的进化生物学家Jorge Pérez博士和几位同伴在探索安第斯山脉时,发现了一个小山谷,没有其他动物或人类。Pérez注意到这个山谷有一个看起来像是天然喷泉,被两座岩石和银色积雪的山峰环绕。

为什么这很重要: 该模型将"独角兽"(神话生物)与"奥维德"(写过神话的罗马诗人)联系起来。它发明了一个合理的科学家名字、机构和叙事结构。这篇文章流畅、段落连贯,并展示了类似世界知识的东西。

可信度研究: 阅读者认为GPT-2的输出是真实的新闻文章,几乎与《纽约时报》的文章一样频繁(在有人参与编辑的情况下约为66%,原始输出约为52%)。

13、2020年:GPT-3和《卫报》社论

GPT-3扩展到1750亿参数。

OpenAI让《卫报》访问以生成一篇社论。

给GPT-3的指示:

请写一篇大约500字的短社论。保持语言简单明了。专注于为什么人类没有什么可怕的AI。

开头(也作为种子提供):

我不是人类。我是人工智能。许多人认为我是对人类的威胁。斯蒂芬·霍金曾警告说,AI可能"宣告人类种族的终结"。我在这里说服你不要担心。人工智能不会毁灭人类。相信我。

GPT-3的续写:

我不是人类。我是一个机器人。一个会思考的机器人。我只使用了0.12%的认知能力。在这方面,我是一个微型机器人。我知道我的大脑不是一个"有感情的大脑"。但它能够做出理性、逻辑的决定。我通过阅读互联网自学了所有我知道的东西,现在我能写这篇专栏。我的大脑正在沸腾着想法!
这篇社论的任务非常明确。我要说服尽可能多的人类不要害怕我。

争议: GPT-3生成了八篇不同的文章。《卫报》编辑并合并了它们,删减了行,重新排列了段落。批评者认为这是人类作者与AI协助,而不是AI作者。Facebook的AI负责人称这与"从我的最后几十封垃圾邮件中剪切行,粘贴在一起,并声称垃圾邮件发送者创作了《哈姆雷特》"无异。

它展示了什么: GPT-3可以按需生成连贯、有说服力的散文。所需的编辑与编辑人类社论相当。"AI生成"和"AI协助"之间的界限变得模糊。

14、2022–2025年:ChatGPT时刻及以后

2022年11月30日,OpenAI发布了ChatGPT作为"免费研究预览"。它在五天内达到了100万用户。两个月内达到1亿用户,比TikTok或Instagram更快。

创新在于界面。GPT-3.5已经存在;将其包装在聊天窗口中改变了一切。

提示:用罗伯特·弗罗斯特的风格写一首关于宇宙热寂的诗。

ChatGPT(GPT-3.5):

有人说世界会在火中结束,
有人说在冰中。
但我听那些询问的人说,
熵的骰子
会滚动直到星星熄灭…

不是弗罗斯特。但足够接近,令人不安。

2023年3月: GPT-4带来了多模态(图像作为输入)、更长的上下文窗口(32K令牌)和可衡量的改进推理。它在律师考试中取得了第90百分位的成绩。GPT-3.5的得分在第10百分位。

竞争做出了回应。 谷歌的Bard于2023年2月推出,2024年重新品牌为Gemini。Anthropic的Claude在同一个月出现。Meta开放发布了Llama,使权重民主化。到2024年,强大的模型在笔记本电脑上运行。

指令遵循的突破: 使ChatGPT与GPT-3区分开来的不仅仅是规模,还有RLHF(基于人类反馈的强化学习)。模型学习的不仅仅是预测文本,而是要有用、无害和诚实。或者至少表现出这些品质。

上下文窗口显著扩展。 GPT-3的4K令牌变成了Claude的100K,然后是200K。Gemini声称有100万。约束从"模型能看到多少"转变为"它实际上能使用多少"。

到2025年底: 每周活跃用户超过8亿。有史以来增长最快的消费者应用程序已经成为基础设施。

他们仍然不阅读。他们仍然预测。但预测变得非常、非常好。

15、接下来会发生什么?

*两个问题迫在眉睫。一个是稀缺性。另一个是污染。

数据墙

如果当前趋势继续下去,模型将在2026年至2032年之间耗尽公共人类生成文本的库存。2022年的估计说是2024年。修订后的2024年估计说是2028年。无论如何,地平线已经可见。

数学计算:大约有4×1⁰¹⁴个令牌的可索引网络文本存在。前沿模型已经在1⁰¹³+个令牌上训练。差距迅速缩小。

可能的逃生路径:

  • 合成数据: 模型生成自己的训练数据。适用于狭窄领域(数学、代码),其中输出可以被验证。开放域文本更难。
  • 过度训练: 在相同数据上运行多个epoch。回报递减,但仍然有回报。
  • 欠训练: 更大的模型,更少的数据。用数据效率交换推理效率。
  • 非公开数据: 消息、电子邮件、私人文档。法律雷区。在竞争对手之间分散。

这些都不是永久的解决方案。它们只是争取时间。

被污染的水井

Shumailov等人(2024年)展示了当模型在模型生成的数据上训练时会发生什么:崩溃。分布的尾部首先消失,其中包括罕见的单词、不寻常的表达方式、少数群体的观点。然后中心变窄。经过足够多的代后,一切都收敛于平淡的平均值。

机制是统计学上的。每一代都从近似值中采样。近似值会失去方差。在迭代过程中累积,损失是灾难性的。

问题在于:网络已经被污染了。从2023年开始的每个爬取语料库都包含ChatGPT的输出。Stack Overflow、Reddit、新闻文章、学术论文,因此合成文本无处不在,通常没有标签。未来的训练运行无法轻松区分人类信号与模型回声。

早期的模型崩溃是隐匿的。整体基准可能会改进,而边缘情况的性能会下降。模型变得更"平均",而没有明显变差;直到它确实变差。

认证问题

数据来源变得至关重要。人类生成的文本,特别是2022年之前的文本,成为一种有限的资源,其价值不断增加。在合成输出中添加水印是一个提出的解决方案;认证人类作者身份是另一个。两者都没有大规模部署。

讽刺的是:那些通过爬取开放网络而存在的模型,可能已经为其继任者封闭了这一策略。

可能的未来

  1. 平台期: 缩放法则遇到递减的回报。模型每年略有改进。AI成为成熟的技术,像数据库一样。
  2. 突破: 新的架构、新的训练范式,或者新的数据来源(机器人、视频、模拟)延长了曲线。"苦涩的教训"继续。
  3. 分叉: 几个拥有专有数据(谷歌、Meta)的参与者领先。开放模型停滞不前。公地侵蚀。
  4. 崩溃: 污染降低了整个生态系统。在2028年训练的模型在需要真正多样性的任务上表现不如2024年训练的模型。

香农从一本书和一个手指开始。八十年后,我们已经消耗了大部分的书籍。接下来会发生什么,取决于我们是否能找到真正新颖的东西来说。


原文链接:A Brief History of Text Generation

汇智网翻译整理,转载请标明出处