MinerU-Diffusion:OCR的新路径

大多数现有的OCR和视觉语言模型(VLMs)严重依赖自回归解码,即它们从左到右逐个顺序生成文本token。

图1:基于AR的OCR从左到右解码token,导致延迟、错误传播,以及在语义被破坏时依赖语言先验。MinerU-Diffusion将OCR重新定义为逆向渲染,并使用块级掩码扩散在视觉条件下并行精炼token,具有可调的速度-精度权衡

虽然这种方法在标准文本生成任务中效果良好,但对文档OCR来说远非理想。原因如下:

  1. 速度问题: 文档,特别是充满表格、公式和复杂布局的长文档,需要生成大量token。逐个顺序解码每个token会导致显著的延迟,减慢整个识别过程。
  2. 错误传播: 自回归方法对早期错误高度敏感。单个识别错误会扭曲后续token的上下文,导致不准确性层层叠加。
  3. 过度依赖语言先验: 在Semantic Shuffle基准测试中,AR模型通常严重依赖语言线索和语义连贯性。这意味着它们可能"猜测"而非清晰感知实际文本。当语义结构被破坏或模糊时,AR性能通常会急剧下降。
  4. OCR作为逆向渲染: 从根本上说,文档OCR更适合被视为"逆向渲染"。目标是从二维图像重建结构化信息(如文本、布局、表格和公式)。正确的解释主要取决于视觉证据和空间排列。强制严格的从左到右序列化只是为了表示方便的"实现产物",而非文档实际结构的根本属性。
  5. 与扩散的强契合: 与开放式文本生成(如与ChatGPT聊天)不同,OCR是一个近乎确定性的任务,语义模糊性有限。这使得OCR成为掩码扩散的强候选,其中掩码token可以在图像和部分观测序列的条件下并行预测,产生可调的速度-精度权衡。
图2:通过不同解码方法的文档OCR逆向渲染过程概述。模型将2D文档图像映射到1D token序列,通过自回归和基于扩散的方法进行解码。[来源]。

鉴于这些考虑,文档OCR系统将从并行化、全局一致且强基于视觉特征的解码策略中大大受益。与其将OCR强加到自回归语言生成的顺序模式中,不如采用专门设计以利用视觉结构的方法。

2、MinerU-Diffusion:从OCR到并行视觉解码

MinerU-Diffusion使用基于扩散的解码代替传统的自回归方法,使模型能够通过视觉上下文同时确认或纠正多个token。这种方法提升了处理速度,减少了错误传播,并降低了对语言上下文猜测内容的依赖。

图3:(a) 置信度阈值控制MinerU-Diffusion中的解码并行性。与MinerU2.5相比,该方法实现了高达3.26倍的加速。(b) MinerU-Diffusion保持了强大的精度-效率权衡,在99.9%相对精度下实现2.12倍加速,在98.8%相对精度下实现3.01倍加速。© 扩散解码在视觉条件下从掩码token逐步重建结构化文本:黑色token已确认,红色token正在更新,黄色token仍被掩码,实现具有全局一致性的并行生成,与自回归从左到右解码形成对比。[来源]。

该方法可以通过四个实用组件来理解。

2.1 统一输出格式

文本、布局标注、表格符号和公式指示符都表示为统一的token序列。

对于文档解析,模型输出结构化序列而非仅纯文本;特定任务的提示仍可产生纯文本、LaTeX或表格标记。

2.2 基于扩散的解码替代自回归

在训练期间,token被随机掩码,提示模型根据周围上下文和文档图像的视觉证据预测这些掩码元素。

在推理时,模型逐步重建掩码位置,使用已解码的上下文和视觉特征,而非严格从左到右生成。经过多轮迭代,不确定的token被逐步揭示并纠正,而非从左到右顺序生成每个token。

2.3 块级扩散

在整个文档序列上进行扩散可能缓慢且不稳定,因此序列被划分为更小的块:

  • 块内:扩散被并行化,上下文被双向考虑。
  • 块间:粗略的从前到后的依赖有助于保持序列连贯性并减少长程漂移。
  • 系统效率:块间的因果(从前到后)结构自然地在推理期间实现高效的KV缓存,与全注意力扩散模型相比减少了内存和计算成本。

这种设计保持了快速的并行解码,同时减轻了长文档中常见的位置漂移和错误累积。

2.4 置信度驱动的动态解码 + 两阶段训练

在推理期间,高置信度的token首先被确认,而低置信度的token经过进一步的迭代纠正。置信度阈值平衡解码速度和精度。

图4:MinerU-Diffusion的训练。左:目标token序列被随机掩码形成部分观测输入,模型在视觉和提示条件下仅预测掩码位置。右:训练期间使用的结构化块注意力掩码,token在每个块内双向关注,并对所有前序块因果关注,实现块内并行扩散精炼同时保持块间粗略自回归结构。[来源]。

在多模态初始化之后,训练分两个阶段进行:初始大规模训练提供一般能力,随后是不确定性驱动的精炼。模型通过测量自身的推理一致性自动挖掘困难样本(如复杂表格或模糊边界),将学习集中在最难的情况以增强鲁棒性。

简而言之,MinerU-Diffusion将文档OCR视为从图像重建结构化文本的逆问题,利用块级扩散并行精炼token,并采用置信度驱动的调度和困难案例训练来提升解码速度、稳定性和可靠性。

3、评估

3.1 文档解析评估

图5:在OmniDocBench v1.5上的文档解析综合评估。↑表示越高越好,↓表示越低越好。[来源]。

MinerU-Diffusion的全页文档解析能力使用OmniDocBench v1.5进行评估,通过各种指标(如文本编辑距离、公式正确性(CDM)、表格提取质量(TEDS)和阅读顺序)测量其性能。

结果显示,MinerU-Diffusion在不使用真实布局的情况下获得了88.94的总体分数。当提供真实布局时,分数显著提升至93.37,非常接近强自回归OCR系统的性能。这主要表明,一旦消除了布局错误,其识别质量极具竞争力。

3.2 效率评估

图6:TPF、TPS和准确率的阈值敏感性分析。TPF表示每次前向的token数,TPS指在NVIDIA H200 GPU上batch大小为1时测量的吞吐量。[来源]。

效率通过调整置信度阈值进行测试,这些阈值决定了模型在单次解码步骤中最终确定多少token。较低的阈值导致更快的解码速度,而较高的阈值提高了稳定性。

MinerU-Diffusion实现了高达3.2倍解码加速,即使在高精度水平下也保持了明显的速度优势。

4、思考

从本质上讲,MinerU-Diffusion将OCR解码从顺序的逐token生成转变为视觉驱动的块级扩散过程:token在每个块内并行精炼,而块保持粗略的从前到后的依赖关系。

结合不确定性驱动的课程训练,这种转变代表了解码范式层面的根本性变化,而非仅仅是替换底层模型骨干。

但我有一个担忧。

块边界可能引入新的微妙错误来源。虽然MinerU-Diffusion通过允许token因果关注前序块来缓解这一点,但它们被严格切断了与未来块的联系。跨越换行符的标题、页脚、表格单元格或公式等结构,如果恰好落在这些边界附近,仍可能被破坏。这种系统性碎片化可能不会通过平均评估指标清楚地显现。


原文链接: MinerU-Diffusion: A New Path Beyond Autoregressive OCR

汇智网翻译整理,转载请标明出处