MinerU-Diffusion:OCR的新路径
大多数现有的OCR和视觉语言模型(VLMs)严重依赖自回归解码,即它们从左到右逐个顺序生成文本token。
虽然这种方法在标准文本生成任务中效果良好,但对文档OCR来说远非理想。原因如下:
- 速度问题: 文档,特别是充满表格、公式和复杂布局的长文档,需要生成大量token。逐个顺序解码每个token会导致显著的延迟,减慢整个识别过程。
- 错误传播: 自回归方法对早期错误高度敏感。单个识别错误会扭曲后续token的上下文,导致不准确性层层叠加。
- 过度依赖语言先验: 在Semantic Shuffle基准测试中,AR模型通常严重依赖语言线索和语义连贯性。这意味着它们可能"猜测"而非清晰感知实际文本。当语义结构被破坏或模糊时,AR性能通常会急剧下降。
- OCR作为逆向渲染: 从根本上说,文档OCR更适合被视为"逆向渲染"。目标是从二维图像重建结构化信息(如文本、布局、表格和公式)。正确的解释主要取决于视觉证据和空间排列。强制严格的从左到右序列化只是为了表示方便的"实现产物",而非文档实际结构的根本属性。
- 与扩散的强契合: 与开放式文本生成(如与ChatGPT聊天)不同,OCR是一个近乎确定性的任务,语义模糊性有限。这使得OCR成为掩码扩散的强候选,其中掩码token可以在图像和部分观测序列的条件下并行预测,产生可调的速度-精度权衡。
鉴于这些考虑,文档OCR系统将从并行化、全局一致且强基于视觉特征的解码策略中大大受益。与其将OCR强加到自回归语言生成的顺序模式中,不如采用专门设计以利用视觉结构的方法。
2、MinerU-Diffusion:从OCR到并行视觉解码
MinerU-Diffusion使用基于扩散的解码代替传统的自回归方法,使模型能够通过视觉上下文同时确认或纠正多个token。这种方法提升了处理速度,减少了错误传播,并降低了对语言上下文猜测内容的依赖。
该方法可以通过四个实用组件来理解。
2.1 统一输出格式
文本、布局标注、表格符号和公式指示符都表示为统一的token序列。
对于文档解析,模型输出结构化序列而非仅纯文本;特定任务的提示仍可产生纯文本、LaTeX或表格标记。
2.2 基于扩散的解码替代自回归
在训练期间,token被随机掩码,提示模型根据周围上下文和文档图像的视觉证据预测这些掩码元素。
在推理时,模型逐步重建掩码位置,使用已解码的上下文和视觉特征,而非严格从左到右生成。经过多轮迭代,不确定的token被逐步揭示并纠正,而非从左到右顺序生成每个token。
2.3 块级扩散
在整个文档序列上进行扩散可能缓慢且不稳定,因此序列被划分为更小的块:
- 块内:扩散被并行化,上下文被双向考虑。
- 块间:粗略的从前到后的依赖有助于保持序列连贯性并减少长程漂移。
- 系统效率:块间的因果(从前到后)结构自然地在推理期间实现高效的KV缓存,与全注意力扩散模型相比减少了内存和计算成本。
这种设计保持了快速的并行解码,同时减轻了长文档中常见的位置漂移和错误累积。
2.4 置信度驱动的动态解码 + 两阶段训练
在推理期间,高置信度的token首先被确认,而低置信度的token经过进一步的迭代纠正。置信度阈值平衡解码速度和精度。
在多模态初始化之后,训练分两个阶段进行:初始大规模训练提供一般能力,随后是不确定性驱动的精炼。模型通过测量自身的推理一致性自动挖掘困难样本(如复杂表格或模糊边界),将学习集中在最难的情况以增强鲁棒性。
简而言之,MinerU-Diffusion将文档OCR视为从图像重建结构化文本的逆问题,利用块级扩散并行精炼token,并采用置信度驱动的调度和困难案例训练来提升解码速度、稳定性和可靠性。
3、评估
3.1 文档解析评估
MinerU-Diffusion的全页文档解析能力使用OmniDocBench v1.5进行评估,通过各种指标(如文本编辑距离、公式正确性(CDM)、表格提取质量(TEDS)和阅读顺序)测量其性能。
结果显示,MinerU-Diffusion在不使用真实布局的情况下获得了88.94的总体分数。当提供真实布局时,分数显著提升至93.37,非常接近强自回归OCR系统的性能。这主要表明,一旦消除了布局错误,其识别质量极具竞争力。
3.2 效率评估
效率通过调整置信度阈值进行测试,这些阈值决定了模型在单次解码步骤中最终确定多少token。较低的阈值导致更快的解码速度,而较高的阈值提高了稳定性。
MinerU-Diffusion实现了高达3.2倍解码加速,即使在高精度水平下也保持了明显的速度优势。
4、思考
从本质上讲,MinerU-Diffusion将OCR解码从顺序的逐token生成转变为视觉驱动的块级扩散过程:token在每个块内并行精炼,而块保持粗略的从前到后的依赖关系。
结合不确定性驱动的课程训练,这种转变代表了解码范式层面的根本性变化,而非仅仅是替换底层模型骨干。
但我有一个担忧。
块边界可能引入新的微妙错误来源。虽然MinerU-Diffusion通过允许token因果关注前序块来缓解这一点,但它们被严格切断了与未来块的联系。跨越换行符的标题、页脚、表格单元格或公式等结构,如果恰好落在这些边界附近,仍可能被破坏。这种系统性碎片化可能不会通过平均评估指标清楚地显现。
原文链接: MinerU-Diffusion: A New Path Beyond Autoregressive OCR
汇智网翻译整理,转载请标明出处