PaddleOCR-VL开源文档解析模型

您是否曾被文档解析的复杂性所困扰?无论是处理扫描合同、从财务报告中提取表格,还是识别论文中的公式,传统的 OCR 工具在面对多样化的布局和复杂的元素时,往往不堪重负。更何况,那些高效的大型模型往往拥有数百甚至数百亿个参数,这使得本地部署和高效推理成为一种奢望。

今天,我想向大家介绍一个由百度开源的项目——PaddleOCR-VL,它或许能改变这一现状。它巧妙地平衡了性能和效率,凭借仅 9 亿个参数的超紧凑视觉语言模型,实现了业界领先(SOTA)的多语言文档解析能力。

1、核心价值:小模型,大影响

PaddleOCR-VL 的核心是一个名为 PaddleOCR-VL-0.9B 的视觉语言模型 (VLM)。它创新地将 NaViT 风格的动态分辨率视觉编码器与轻量级 ERNIE-4.5-0.3B 语言模型相结合。

这种设计的优势在于:

  • 小巧而强大:它在保持高精度的同时,大幅降低了计算资源消耗,能够在标准硬件上实现高效实用的文档处理。
  • 多功能解析:它超越了简单的文本识别。无论是常规文本、复杂表格、手写公式还是图表,它都能准确识别和解析。
  • 多语言支持:它支持 109 种语言,包括中文、英语、日语、韩语、拉丁语系文字,以及俄语、阿拉伯语、印地语等,轻松满足全球文档处理需求。

简而言之,PaddleOCR-VL 让开发者充满信心:“这款工具解决了我实际使用的文档解析问题,而且它足够轻量,我可以在自己的项目中实际使用它。”

2、模型架构

来源

3、用例

公式识别:

表格识别:

文档解析:

如果您感兴趣,可以访问该在线地址,亲自体验其文档解析功能。

4、快速入门

首先,您需要安装 PaddlePaddle 和 PaddleOCR。官方建议使用 Linux 环境(Windows 用户可以使用 WSL 或 Docker)。

python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
python -m pip install -U "paddleocr[doc-parser]"
python -m pip install https://paddle-whl.bj.bcebos.com/nightly/cu126/safetensors/safetensors-0.6.2.dev0-cp38-abi3-linux_x86_64.whl

安装完成后,无论是通过命令行还是 Python API,使用都非常方便。

CLI:

paddleocr doc_parser -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png

Python API:

from paddleocr import PaddleOCRVL

pipeline = PaddleOCRVL()
output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png")
for res in output:
    res.print()
    res.save_to_json(save_path="output")
    res.save_to_markdown(save_path="output")

5、性能

PaddleOCR-VL 在 OmniDocBench 上,在整体、文本、公式、表格和阅读顺序方面均达到了 SOTA 性能v1.5:

6、结束语

PaddleOCR-VL 为开发者社区提供了真正高性能、高效的文档智能解决方案。它降低了使用高级文档解析技术的门槛,让更多开发者能够将其集成到实际应用中。

如果您正在寻找一款功能强大、轻量级且支持广泛场景的文档解析工具,PaddleOCR-VL 绝对值得一试。


原文链接:A 0.9B Open-Source Model for SOTA Document Parsing: Outperforming GPT-4o and Gemini 2.5 Pro

汇智网翻译整理,转载请标明出处