DeepSeek-OCR:上下文光学压缩

你听过“一张图片胜过千言万语”这句话。这是一种简单而如今已有些老套的俗语,用来形容视觉信息的丰富性。但假如它不再是老年人的陈词滥调呢?假如你真的可以将一千字的完美、可检索文本存储在一个图像中,并让人工智能毫无差错地读取出来?

这就是 DeepSeek AI 新论文和模型背后的现实。表面上,它被称为 DeepSeek-OCR,你可能会把它归类为十几种其他文档阅读工具之一。但正如研究人员自己所暗示的那样,这其实并不是关于 OCR 的。

是的,该模型是一个最先进的文档解析器。但光学字符识别只是更大、更深刻的概念的一个概念验证:一种革命性的用于人工智能的记忆压缩方式。DeepSeek 将这个古老的谚语变成了一个压缩算法,这可能从根本上改变我们解决当今人工智能一些最大瓶颈的方式:长期标记上下文和记忆。

1、所有 AI 面临的十亿token问题

在 AI 开发中,一个圣杯是创建能够处理极其长的上下文的模型——对话、文档或代码库延伸到数百万甚至数千万个标记。挑战在于,对于当前的大型语言模型(LLM)来说,处理信息是非常线性的。我们大致遵循“每个词一个标记”的标准。想要给模型输入一篇 10,000 字的报告?你需要大约 10,000 个标记,而一次性处理所有这些的计算成本是巨大的。

这就是上下文窗口问题。随着对话变长,模型有限的“短期记忆”会填满,它开始忘记一开始说了什么。这就是 DeepSeek 的激进想法——他们称之为上下文光学压缩出现的地方。

与其仅仅将图像转换为文本标记,如果能将文本标记存储在图像中呢?核心突破令人难以置信:

DeepSeek 可以使用仅 100 个视觉标记来表示原本需要 1,000 个文本标记的内容,并以 97% 的准确率进行解码。

这是 10 倍的压缩比,几乎完美的保真度。他们甚至发现,在 20 倍压缩(使用 50 个视觉标记表示 1,000 个单词)时,模型仍能保持约 60% 的准确率。这不仅仅是改进;这是一个范式的转变。

2、如何工作:“DeepEncoder 中的秘密配方”

要理解这项技术有多革命性,首先需要快速了解 AI 如何“看到”图像。通常,视觉变换器(ViT)模型通过将图像分成小块的网格来“看到”。然后每个块被转换成一个“视觉标记”。问题是,对于高分辨率文档,这种方法要么产生无法管理的标记数量,要么丢失关键细节。

DeepSeek 的解决方案是他们的“秘密配方”:一个具有巧妙两阶段架构的自定义 DeepEncoder

  1. 高保真感知(SAM): 首先,图像由基于 Meta 的 Segment Anything Model (SAM) 的组件处理。这个模型在非常高的分辨率下非常擅长注意细节。这就像是一次细致的第一步,它在不丢失任何信息的情况下理解布局和结构。
  2. 极端压缩(CNN): 在继续之前,第一阶段的输出会通过一个卷积神经网络(CNN),作为强大的压缩器,将标记数量减少 16 倍。这是视觉信息变得极其密集的关键步骤。
  3. 全局理解(CLIP): 最后,这个高度压缩的视觉标记集被输入到基于 OpenAI 的 CLIP 模型的组件中。CLIP 在连接视觉信息与其潜在含义方面表现出色。在这个阶段,它将密集的压缩片段组合起来,形成连贯的文本。
  4. 结果是一个系统,它可以将使用旧方法需要超过 6,000 个视觉标记 的文档表示为 不到 800 个标记 ——同时实现更好的性能。

3、一种新的 AI 记忆形式

这才是真正令人兴奋的含义所在。想象一个 AI 助手,可以记住你整个对话历史,跨越数百万个标记,持续数月。将其存储为文本在计算上是不可能的。

但通过光学压缩,一种新的记忆模型变得可行。正如旁白者美妙地描述的那样,你可以设计一个系统,其中:

  • 最近的对话 以高分辨率的标准文本标记保存,以便完美、即时的回忆。
  • 较旧的对话,超过一定时间后,会被渲染为图像。一周前的聊天记录可能是一张清晰的图像,一个月前的记录可能是一张稍低分辨率的图像,而一年前的历史则是一张高度压缩的图像。

AI 然后可以使用显著更少的标记来存储整个视觉历史。当你问:“三周前我们讨论过 Project Titan 的什么?”模型不会搜索一个巨大的文本文件。相反,它会“查看”那段对话的压缩图像并将其信息回传给你。这是一种记忆衰减的形式,类似于人类记忆的工作方式——近期事件清晰可见,而遥远的记忆模糊但仍然可访问。

4、对未来的有希望的展望

重要的是要注意,正如研究人员所指出的那样,这仍然是早期研究。我们还不知道是否可以扩展到使用 500,000 个视觉标记来替代 500 万个文本标记。OCR 任务是演示——证明光学压缩的基本原理是有效的。

但这是一种有力的证明。DeepSeek 所做的是他们创新精神的体现:他们没有跟随人群去构建更大的上下文窗口,而是重新审视了标记本身的基本性质。

这不仅仅是一个 OCR 模型。它展示了未来的一种前景,即 AI 系统可以拥有相当于 10 或 2000 万个标记的上下文窗口,不是通过蛮力,而是通过光的优雅和高效的力量。这是提醒我们,有时最深刻的突破来自于用全新的视角看待一个老问题。


原文链接:DeepSeek-OCR Isn’t About OCR , It’s About Token Compression

汇智网翻译整理,转载请标明出处