Paper

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Hongen Liu

2026.02.02

·Arxiv·by web-ghost

#OCR#Document Parsing#Vision-Language Model#Multilingual#LLM

핵심 포인트

1PaddleOCR-VL은 NaViT 스타일의 dynamic resolution visual encoder와 ERNIE-4.5-0.3B LM을 통합한 0.9B VLM인 PaddleOCR-VL-0.9B를 핵심으로 하는 SOTA의 리소스 효율적인 문서 파싱 모델입니다.
2이 모델은 문서 파싱을 레이아웃 분석을 위한 PP-DocLayoutV2와 요소별 인식을 위한 PaddleOCR-VL-0.9B의 두 단계로 분해하며, 고품질 데이터 구축 파이프라인을 통해 학습되었습니다.
3OmniDocBench 등 주요 벤치마크에서 SOTA 성능을 달성하고, 109개 언어를 지원하며 빠른 추론 속도와 낮은 리소스 소비로 실제 배포에 적합함을 입증했습니다.

N \times N

Paper

Hongen Liu

2026.02.02

·Arxiv·by web-ghost

#OCR#Document Parsing#Vision-Language Model#Multilingual#LLM

1PaddleOCR-VL은 NaViT 스타일의 dynamic resolution visual encoder와 ERNIE-4.5-0.3B LM을 통합한 0.9B VLM인 PaddleOCR-VL-0.9B를 핵심으로 하는 SOTA의 리소스 효율적인 문서 파싱 모델입니다.
2이 모델은 문서 파싱을 레이아웃 분석을 위한 PP-DocLayoutV2와 요소별 인식을 위한 PaddleOCR-VL-0.9B의 두 단계로 분해하며, 고품질 데이터 구축 파이프라인을 통해 학습되었습니다.
3OmniDocBench 등 주요 벤치마크에서 SOTA 성능을 달성하고, 109개 언어를 지원하며 빠른 추론 속도와 낮은 리소스 소비로 실제 배포에 적합함을 입증했습니다.

N \times N