PaddleOCR-VL开源文档解析模型
您是否曾被文档解析的复杂性所困扰?无论是处理扫描合同、从财务报告中提取表格,还是识别论文中的公式,传统的 OCR 工具在面对多样化的布局和复杂的元素时,往往不堪重负。更何况,那些高效的大型模型往往拥有数百甚至数百亿个参数,这使得本地部署和高效推理成为一种奢望。
今天,我想向大家介绍一个由百度开源的项目——PaddleOCR-VL,它或许能改变这一现状。它巧妙地平衡了性能和效率,凭借仅 9 亿个参数的超紧凑视觉语言模型,实现了业界领先(SOTA)的多语言文档解析能力。
1、核心价值:小模型,大影响
PaddleOCR-VL 的核心是一个名为 PaddleOCR-VL-0.9B 的视觉语言模型 (VLM)。它创新地将 NaViT 风格的动态分辨率视觉编码器与轻量级 ERNIE-4.5-0.3B 语言模型相结合。
这种设计的优势在于:
- 小巧而强大:它在保持高精度的同时,大幅降低了计算资源消耗,能够在标准硬件上实现高效实用的文档处理。
- 多功能解析:它超越了简单的文本识别。无论是常规文本、复杂表格、手写公式还是图表,它都能准确识别和解析。
- 多语言支持:它支持 109 种语言,包括中文、英语、日语、韩语、拉丁语系文字,以及俄语、阿拉伯语、印地语等,轻松满足全球文档处理需求。
简而言之,PaddleOCR-VL 让开发者充满信心:“这款工具解决了我实际使用的文档解析问题,而且它足够轻量,我可以在自己的项目中实际使用它。”
2、模型架构
3、用例
公式识别:
表格识别:
文档解析:
如果您感兴趣,可以访问该在线地址,亲自体验其文档解析功能。
4、快速入门
首先,您需要安装 PaddlePaddle 和 PaddleOCR。官方建议使用 Linux 环境(Windows 用户可以使用 WSL 或 Docker)。
python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
python -m pip install -U "paddleocr[doc-parser]"
python -m pip install https://paddle-whl.bj.bcebos.com/nightly/cu126/safetensors/safetensors-0.6.2.dev0-cp38-abi3-linux_x86_64.whl
安装完成后,无论是通过命令行还是 Python API,使用都非常方便。
CLI:
paddleocr doc_parser -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png
Python API:
from paddleocr import PaddleOCRVL
pipeline = PaddleOCRVL()
output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png")
for res in output:
res.print()
res.save_to_json(save_path="output")
res.save_to_markdown(save_path="output")
5、性能
PaddleOCR-VL 在 OmniDocBench 上,在整体、文本、公式、表格和阅读顺序方面均达到了 SOTA 性能v1.5:
6、结束语
PaddleOCR-VL 为开发者社区提供了真正高性能、高效的文档智能解决方案。它降低了使用高级文档解析技术的门槛,让更多开发者能够将其集成到实际应用中。
如果您正在寻找一款功能强大、轻量级且支持广泛场景的文档解析工具,PaddleOCR-VL 绝对值得一试。
原文链接:A 0.9B Open-Source Model for SOTA Document Parsing: Outperforming GPT-4o and Gemini 2.5 Pro
汇智网翻译整理,转载请标明出处