4个最强大的开源 OCR 模型

最近我花了很多时间测试不同的 OCR 模型,试图找到一个真正像人类一样读取 PDF、扫描件和截图的模型。今年有四个开源项目脱颖而出:DeepSeek-OCR、Olmo-OCR 2、Qwen3-VL 和 Dots.OCR。

它们的作用相同(读取文档),但方式却截然不同。以下是我在使用它们的过程中学到的。

1、DeepSeek-OCR-3B — 速度狂魔

如果您想要一个快速可靠的 OCR 模型,能够轻松处理图像和 PDF 文件,那么 DeepSeek-OCR 就是您的不二之选。

它使用 vLLM 或 Transformers 在 GPU 上运行,因此您可以根据自己的配置选择合适的模型。

设置需要几个命令:

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation

准备就绪后,您可以尝试以下 Python 代码片段:

from vllm import LLM, SamplingParams
from PIL import Image

llm = LLM(model="deepseek-ai/DeepSeek-OCR")
img = Image.open("your_image.png").convert("RGB")
out = llm.generate([{"prompt": "<image>\nRead this.", "multi_modal_data": {"image": img}}],
                   SamplingParams(max_tokens=8192))
print(out[0].outputs[0].text)

它会直接从您的图像生成文本。在 A100 GPU 上,它的速度非常快——对于 PDF 文档,每秒大约可以生成 2500 个 token。

2、Olmo-OCR 2 — PDF 的 Whisper

如果您正在处理学术论文、手册或技术 PDF,Olmo-OCR 2 将独领风骚。

它专门针对重要且杂乱的文档进行训练——这类文档包含表格、公式和标题,而这些内容总是会让旧版 OCR 感到困惑。

它不仅仅是生成文本;它能让你以清晰的阅读顺序阅读 Markdown 文件。这样一来,你得到的不再是杂乱无章的行,而是井然有序的段落、列表和格式正确的数学公式。

在 Ubuntu 上安装很简单:

sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer fonts-crosextra-carlito gsfonts

安装完成后,你就可以处理一个 PDF 文件夹并生成结构化的 Markdown 文件。它并不轻量级(你需要一个 15 GB 以上内存的 GPU),但效率很高——根据其基准测试,每百万页大约需要 200 美元。

3、Qwen3-VL — 全能天才

Qwen3-VL 不仅仅是 OCR——它本质上是一个视觉语言大脑。它可以阅读、推理,甚至理解界面。

你可以把书籍、截图,甚至视频都扔给它。它不仅可以提取文本,还能理解正在发生的事情。就像拥有一位可以查看您屏幕的研究助理一样。

一些亮点:

  • 支持 32 种语言
  • 处理多列布局、公式和 GUI
  • 理解空间推理(例如“这个图标左边是什么”)
  • 适用于 Transformers ≥ 4.57

安装方法:

pip install "transformers>=4.57.0"

如果您想将 OCR 与视觉推理相结合——例如针对文档提问或创建交互式阅读器——那么这个模型值得考虑。

4、Dots.OCR-3B — 小巧、简单,出乎意料地好

Dots.OCR 是我最喜欢的“冷门”模型。与其他模型相比,它体积较小(只有 1.7 亿个参数),但性能却非常出色。

它独立管理文本、表格和布局检测——无需额外的模块或多模型配置。而且它还支持多种语言。

设置方法如下:

conda create -n dots_ocr python=3.12
conda activate dots_ocr
git clone https://github.com/rednote-hilab/dots.ocr.git
cd dots.ocr
pip install torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 --index-url https://download.pytorch.org/whl/cu128
pip install -e .

它运行速度快,并提供易于解析的结构化输出。如果您的 GPU 内存不足,或者想要快速可靠的解决方案,Dots.OCR 就是您的理想之选。

5、结束语

我欣赏这些模型的地方在于它们各自以独特的方式推进了 OCR 的发展。

模型优势:DeepSeek-OCR 兼具速度与灵活性。Olmo-OCR 可创建清晰的 PDF 并将其转换为 Markdown 文件。Qwen3-VL 提供视觉推理和多语言支持。Dots.OCR 轻量级,但可生成高质量的 OCR 图像。

如果您正在开发自己的 OCR 流程,甚至可以将它们结合起来——例如,使用 DeepSeek 处理图像,Olmo 处理 PDF。

OCR 的发展远不止于简单的“读取文本”。这些模型可以理解结构、格式,甚至理解读取内容背后的推理——这正是它们令人兴奋之处。今天就用起来。


原文链接:Top 4 Open-Source OCR Models

汇智网翻译整理,转载请标明出处