MinerU-Diffusion：OCR的新路径

大多数现有的OCR和视觉语言模型（VLMs）严重依赖自回归解码，即它们从左到右逐个顺序生成文本token。

图1：基于AR的OCR从左到右解码token，导致延迟、错误传播，以及在语义被破坏时依赖语言先验。MinerU-Diffusion将OCR重新定义为逆向渲染，并使用块级掩码扩散在视觉条件下并行精炼token，具有可调的速度-精度权衡

虽然这种方法在标准文本生成任务中效果良好，但对文档OCR来说远非理想。原因如下：

速度问题： 文档，特别是充满表格、公式和复杂布局的长文档，需要生成大量token。逐个顺序解码每个token会导致显著的延迟，减慢整个识别过程。
错误传播： 自回归方法对早期错误高度敏感。单个识别错误会扭曲后续token的上下文，导致不准确性层层叠加。
过度依赖语言先验： 在Semantic Shuffle基准测试中，AR模型通常严重依赖语言线索和语义连贯性。这意味着它们可能"猜测"而非清晰感知实际文本。当语义结构被破坏或模糊时，AR性能通常会急剧下降。
OCR作为逆向渲染： 从根本上说，文档OCR更适合被视为"逆向渲染"。目标是从二维图像重建结构化信息（如文本、布局、表格和公式）。正确的解释主要取决于视觉证据和空间排列。强制严格的从左到右序列化只是为了表示方便的"实现产物"，而非文档实际结构的根本属性。
与扩散的强契合： 与开放式文本生成（如与ChatGPT聊天）不同，OCR是一个近乎确定性的任务，语义模糊性有限。这使得OCR成为掩码扩散的强候选，其中掩码token可以在图像和部分观测序列的条件下并行预测，产生可调的速度-精度权衡。

图2：通过不同解码方法的文档OCR逆向渲染过程概述。模型将2D文档图像映射到1D token序列，通过自回归和基于扩散的方法进行解码。[来源]。

鉴于这些考虑，文档OCR系统将从并行化、全局一致且强基于视觉特征的解码策略中大大受益。与其将OCR强加到自回归语言生成的顺序模式中，不如采用专门设计以利用视觉结构的方法。

2、MinerU-Diffusion：从OCR到并行视觉解码

MinerU-Diffusion使用基于扩散的解码代替传统的自回归方法，使模型能够通过视觉上下文同时确认或纠正多个token。这种方法提升了处理速度，减少了错误传播，并降低了对语言上下文猜测内容的依赖。

图3：(a) 置信度阈值控制MinerU-Diffusion中的解码并行性。与MinerU2.5相比，该方法实现了高达3.26倍的加速。(b) MinerU-Diffusion保持了强大的精度-效率权衡，在99.9%相对精度下实现2.12倍加速，在98.8%相对精度下实现3.01倍加速。© 扩散解码在视觉条件下从掩码token逐步重建结构化文本：黑色token已确认，红色token正在更新，黄色token仍被掩码，实现具有全局一致性的并行生成，与自回归从左到右解码形成对比。[来源]。

该方法可以通过四个实用组件来理解。

2.1 统一输出格式

文本、布局标注、表格符号和公式指示符都表示为统一的token序列。

对于文档解析，模型输出结构化序列而非仅纯文本；特定任务的提示仍可产生纯文本、LaTeX或表格标记。

2.2 基于扩散的解码替代自回归

在训练期间，token被随机掩码，提示模型根据周围上下文和文档图像的视觉证据预测这些掩码元素。

在推理时，模型逐步重建掩码位置，使用已解码的上下文和视觉特征，而非严格从左到右生成。经过多轮迭代，不确定的token被逐步揭示并纠正，而非从左到右顺序生成每个token。

2.3 块级扩散

在整个文档序列上进行扩散可能缓慢且不稳定，因此序列被划分为更小的块：

块内：扩散被并行化，上下文被双向考虑。
块间：粗略的从前到后的依赖有助于保持序列连贯性并减少长程漂移。
系统效率：块间的因果（从前到后）结构自然地在推理期间实现高效的KV缓存，与全注意力扩散模型相比减少了内存和计算成本。

这种设计保持了快速的并行解码，同时减轻了长文档中常见的位置漂移和错误累积。

2.4 置信度驱动的动态解码 + 两阶段训练

在推理期间，高置信度的token首先被确认，而低置信度的token经过进一步的迭代纠正。置信度阈值平衡解码速度和精度。

图4：MinerU-Diffusion的训练。左：目标token序列被随机掩码形成部分观测输入，模型在视觉和提示条件下仅预测掩码位置。右：训练期间使用的结构化块注意力掩码，token在每个块内双向关注，并对所有前序块因果关注，实现块内并行扩散精炼同时保持块间粗略自回归结构。[来源]。

在多模态初始化之后，训练分两个阶段进行：初始大规模训练提供一般能力，随后是不确定性驱动的精炼。模型通过测量自身的推理一致性自动挖掘困难样本（如复杂表格或模糊边界），将学习集中在最难的情况以增强鲁棒性。

简而言之，MinerU-Diffusion将文档OCR视为从图像重建结构化文本的逆问题，利用块级扩散并行精炼token，并采用置信度驱动的调度和困难案例训练来提升解码速度、稳定性和可靠性。

3、评估

3.1 文档解析评估

图5：在OmniDocBench v1.5上的文档解析综合评估。↑表示越高越好，↓表示越低越好。[来源]。

MinerU-Diffusion的全页文档解析能力使用OmniDocBench v1.5进行评估，通过各种指标（如文本编辑距离、公式正确性（CDM）、表格提取质量（TEDS）和阅读顺序）测量其性能。

结果显示，MinerU-Diffusion在不使用真实布局的情况下获得了88.94的总体分数。当提供真实布局时，分数显著提升至93.37，非常接近强自回归OCR系统的性能。这主要表明，一旦消除了布局错误，其识别质量极具竞争力。

3.2 效率评估

图6：TPF、TPS和准确率的阈值敏感性分析。TPF表示每次前向的token数，TPS指在NVIDIA H200 GPU上batch大小为1时测量的吞吐量。[来源]。

效率通过调整置信度阈值进行测试，这些阈值决定了模型在单次解码步骤中最终确定多少token。较低的阈值导致更快的解码速度，而较高的阈值提高了稳定性。

MinerU-Diffusion实现了高达3.2倍解码加速，即使在高精度水平下也保持了明显的速度优势。

4、思考

从本质上讲，MinerU-Diffusion将OCR解码从顺序的逐token生成转变为视觉驱动的块级扩散过程：token在每个块内并行精炼，而块保持粗略的从前到后的依赖关系。

结合不确定性驱动的课程训练，这种转变代表了解码范式层面的根本性变化，而非仅仅是替换底层模型骨干。

但我有一个担忧。

块边界可能引入新的微妙错误来源。虽然MinerU-Diffusion通过允许token因果关注前序块来缓解这一点，但它们被严格切断了与未来块的联系。跨越换行符的标题、页脚、表格单元格或公式等结构，如果恰好落在这些边界附近，仍可能被破坏。这种系统性碎片化可能不会通过平均评估指标清楚地显现。

原文链接: MinerU-Diffusion: A New Path Beyond Autoregressive OCR

汇智网翻译整理，转载请标明出处