Dots.ocr:迄今最好的小型OCR
如果你还在2025年还在处理笨重的OCR流程,那就停下来吧。Dots.ocr刚刚发布,它正是那种“安静地出色”的模型,会让你重新检查参数数量。
是的,它是17亿个参数。不,它感觉不像。
这个模型把扫描的文档当早餐吃:布局、内容、多语言文本、公式、表格,它都能轻松解析。而且它在一个统一的视觉-语言模型中完成这些工作。不需要奇怪的多阶段预处理。你只需要给它一个提示。它自己会解决其余的问题。
让我们谈谈这个模型为什么如此强大。
1、Dots.ocr不只是一个OCR模型
dots.ocr是一个精通文档的视觉-语言模型。
与其他模型使用YOLO风格的检测器加上语言模型不同,dots.ocr只使用一个VLM来处理布局检测、文本解析、阅读顺序,甚至公式。无需在模型之间切换。无需担心特征不对齐。只需一个干净的基于提示的界面即可切换任务。
- 你需要布局检测? 改变提示。
- 你需要纯文本OCR? 改变提示。
- 你想通过边界框来定位某个区域? 也有对应的提示。
这使得它非常容易部署、调试和扩展。你不需要维护三个不同的模型,并希望它们在表格坐标上达成一致。dots.ocr第一次就能正确完成。
2、性能
我们来谈一下基准测试。因为如果你在OCR领域待得够久,你就知道,没有好的数据,花哨的声明毫无意义。
2.1 OmniDocBench
在文档解析的标准基准测试中,dots.ocr彻底掌控了其类别。它在以下方面取得了顶级成绩:
- 文本识别: EN: 0.032, ZH: 0.066 (数值越低越好)
- 公式检测: 与Gemini2.5-Pro等72B模型相当
- 表格理解: 88.6 / 89.0 TableTEDS (EN/ZH)
- 阅读顺序: 它基本上做得很好,错误率低于GPT-4o、Mistral,甚至MonkeyOCR-Pro-3B
从这个角度来看,这个17亿参数的模型比其大小20倍的模型表现更好。
2.2 多语言解析(dots.ocr-bench)
dots.ocr不仅能在资源匮乏的语言中生存,还能蓬勃发展。在其内部基准测试(1493个PDF文件,涵盖100种语言)中,它的错误率几乎减少了一半,相比 Doubao 或 MonkeyOCR。
为什么这很重要? 因为大多数OCR系统在遇到藏语或卡纳达语时就会崩溃。而 dots.ocr 只是耸耸肩继续解析。
2.3 布局检测
DocLayout-YOLO本来应该是“足够好”的基准。但 dots.ocr 直接碾压它:
- F1@IoU .50: 0.93整体 vs YOLO的0.80
- 单独的公式检测:0.832 vs 0.620
而且它不需要专门的检测模型。只需提示 prompt_layout_only_en
,它就变成一个检测模型。这就是诀窍:以前的VLM是万金油,但不是专家。dots.ocr则像一位大师。
3、深度分析:OLMOCR-bench
如果你曾经处理过嘈杂的PDF、旧扫描件、数学密集的期刊、奇怪的页眉,你就知道这些是模型的噩梦。
- MonkeyOCR-pro-3B 的总体得分不错,为75.8。
- dots.ocr?79.1。即使在带有嵌入LaTeX和地狱脚注的多列垃圾扫描件上,它也不会退缩。
甚至还有针对特定文档类型的细分:
教科书、考试试卷、财务报告、报纸……dots.ocr在所有类型中都领先或位居第二。考虑到它仅运行在约30亿参数和BF16精度下,这真是令人难以置信。
4、部署出乎意料地干净
你可以通过 vLLM
或 Huggingface API 部署它。文档实际上可用,但让我印象深刻的是:
- 没有TensorRT的麻烦。不需要照顾CUDA。
- 基于提示的任务切换意味着你不需要为每种文档类型编写自定义推理脚本。
- 如果你懒惰,支持Docker(我就是这样)。
它甚至有一个可工作的Gradio演示。
5、Dots.ocr还不是完美的
如果我不指出缺点,这篇帖子就不诚实了:
- 高密度图像可能会让它出错。如果你的图像有11289600像素或更多,请降低分辨率或将DPI提高到200。
- 特殊字符如
...
或___
会导致输出出现奇怪的重复问题。在这种情况下,你可能需要尝试其他提示。 - 无法解析图片。这仍然是一个空白。如果你的文档中嵌入了信息图表,那你就要失望了。
- 吞吐量有限,不适合批量作业。它尚未优化用于大规模PDF摄入。
但考虑到这是首次发布,这些是次要的权衡。它仍然比市场上大多数产品更可靠。
6、为什么这个模型真的重要
dots.ocr感觉像是一个证明,不仅仅是文档解析,而是正确的视觉-语言建模。多年来,OCR是一个独立的领域,工具笨拙且管道脆弱。现在呢?它只是另一个提示的距离。
这不仅仅是关于OCR。这是关于将整个工具链压缩成一个灵活的VLM,它真正有效。
如果你正在构建任何涉及扫描表单、多语言文档、学术论文,甚至是混乱的发票的东西,测试这个模型。它是免费的、快速的,并且非常强大。
该模型是开源的,可以访问这个链接。
7、结束语
我通常不会写关于OCR工具的情书。但 dots.ocr 感觉像是那种一夜之间让其他工具变得无关紧要的模型。在它变得臃肿、商业化或被十层企业许可埋没之前,先试试看。
如果你正在围绕文档智能构建项目,跳过YOLO、UNet和手工制作的表格启发式方法。直接使用这个。
原文链接:Dots.ocr : The best small-sized OCR ever
汇智网翻译整理,转载请标明出处