
PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model
핵심 포인트
- 1PaddleOCR-VL은 NaViT 스타일의 dynamic resolution visual encoder와 ERNIE-4.5-0.3B LM을 통합한 0.9B VLM인 PaddleOCR-VL-0.9B를 핵심으로 하는 SOTA의 리소스 효율적인 문서 파싱 모델입니다.
- 2이 모델은 문서 파싱을 레이아웃 분석을 위한 PP-DocLayoutV2와 요소별 인식을 위한 PaddleOCR-VL-0.9B의 두 단계로 분해하며, 고품질 데이터 구축 파이프라인을 통해 학습되었습니다.
- 3OmniDocBench 등 주요 벤치마크에서 SOTA 성능을 달성하고, 109개 언어를 지원하며 빠른 추론 속도와 낮은 리소스 소비로 실제 배포에 적합함을 입증했습니다.
이 보고서는 문서 파싱(Document Parsing)을 위한 최첨단(SOTA)의 자원 효율적인 모델인 PaddleOCR-VL을 제안합니다. 이 모델은 복잡한 현대 문서가 제시하는 본질적인 도전 과제, 즉 밀도 높은 텍스트, 복잡한 표 또는 차트, 수학적 표현, 다국어 및 손글씨 텍스트를 처리하는 데 중점을 둡니다. 기존 방법론의 한계를 극복하기 위해, PaddleOCR-VL은 파이프라인(pipeline) 방식의 통합 복잡성과 오류 전파 문제, 그리고 종단 간(end-to-end) VLM(Vision-Language Model) 방식의 긴 시퀀스 출력에 따른 높은 계산 오버헤드, 텍스트 순서 문제 및 환각(hallucination) 현상 문제를 해결합니다.
PaddleOCR-VL은 문서 파싱 작업을 두 단계로 분해합니다. 첫 번째 단계는 PP-DocLayoutV2로, 레이아웃 분석(Layout Analysis)을 담당하여 의미론적 영역을 지역화하고 읽기 순서(reading order)를 예측합니다. 두 번째 단계에서는 PaddleOCR-VL-0.9B가 이 레이아웃 예측을 활용하여 텍스트, 표, 수식, 차트 등 다양한 콘텐츠의 미세한 인식(fine-grained recognition)을 수행합니다. 마지막으로 경량의 후처리(post-processing) 모듈이 두 단계의 출력을 통합하여 최종 문서를 구조화된 Markdown 및 JSON 형식으로 변환합니다.
핵심 방법론:
- 레이아웃 분석 (PP-DocLayoutV2):
- 아키텍처: PP-DocLayoutV2는 두 개의 순차적으로 연결된 네트워크로 구성됩니다. 첫 번째는 RT-DETR [17] 기반의 검출 모델로, 레이아웃 요소(text block, table, formula, chart 등) 검출 및 분류를 수행합니다. 검출된 경계 상자(bounding box)와 클래스 레이블은 후속 포인터 네트워크(pointer network)로 전달되어 이러한 레이아웃 요소의 순서를 지정합니다.
- 포인터 네트워크: 검출된 요소들 중 전경(foreground) 제안(proposal)을 클래스별 임계값(per-class thresholds)을 통해 선택한 후, 절대 2D 위치 인코딩(absolute 2D positional encodings)과 클래스 레이블 임베딩(class label embeddings)을 사용하여 임베딩(embed)합니다. 인코더 어텐션(encoder attention)은 Relation-DETR [18]에서 파생된 기하학적 바이어스 메커니즘(geometric bias mechanism)을 통합하여 요소들 간의 쌍별(pairwise) 기하학적 관계를 명시적으로 모델링합니다. 이 쌍별 관계 헤드(pairwise relation head)는 요소 표현(element representations)을 쿼리(query) 및 키(key) 벡터로 선형 투영(linearly projects)한 다음, 이선형 유사성(bilinear similarities)을 계산하여 쌍별 로짓( matrix)을 생성하고 각 요소 쌍 간의 상대적 순서를 나타냅니다. 최종적으로 결정론적 승리-누적 디코딩 알고리즘(deterministic win-accumulation decoding algorithm)을 통해 위상적으로 일관된 읽기 순서(topologically consistent reading order)를 복구합니다.
- 훈련: 훈련은 두 단계로 진행됩니다. 먼저 RT-DETR [17] 모델을 레이아웃 검출 및 분류를 위해 훈련하고, 그 후 파라미터(parameters)를 고정하고 포인터 네트워크를 읽기 순서 예측을 위해 독립적으로 훈련합니다. 포인터 네트워크 훈련에는 Generalized Cross Entropy Loss [26]가 사용되며, 이는 미리 주석이 달린 데이터(pre-annotated data)가 데이터셋에 혼합된 시나리오에서 강건함(robustness)을 높입니다.
- 요소 수준 인식 (PaddleOCR-VL-0.9B):
- 아키텍처: LLaVA [20]에서 영감을 받은 아키텍처 스타일을 채택하여, 사전 훈련된 비전 인코더(pre-trained vision encoder), 동적 해상도 전처리기(dynamic resolution preprocessor), 무작위로 초기화된 2계층 MLP 투영기(projector), 그리고 사전 훈련된 대규모 언어 모델(Large Language Model, LLM)을 통합합니다.
- 비전 인코더: NaViT-스타일 [15]의 인코더를 사용하며, Keye-VL [22]의 비전 모델로 초기화되어 네이티브 해상도(native-resolution) 입력을 지원합니다. 이는 임의 해상도의 이미지를 왜곡 없이 처리할 수 있게 하여, 텍스트가 많은 작업에서 환각 현상을 줄이고 성능을 향상시킵니다.
- 투영기(Projector): GELU [23] 활성화 함수(activation)를 가진 무작위 초기화된 2계층 MLP로, 인코더의 시각적 특징(visual features)을 언어 모델의 임베딩 공간(embedding space)으로 효율적으로 연결하기 위한 병합 크기(merge size) 2를 통합합니다.
- 언어 모델: ERNIE-4.5-0.3B [5] 모델을 사용합니다. 이는 비교적 적은 파라미터 수와 강력한 추론 효율성(inference efficiency)의 균형을 이룹니다. 구현에서는 3D-RoPE [24]를 통합하여 위치 표현(positional representation)을 더욱 강화합니다.
- 훈련: ERNIEKit [27] 저장소 기반의 포스트-어댑테이션(post-adaptation) 전략을 따르며, 두 단계로 나뉩니다.
- Stage 1 (사전 훈련 정렬): 2,900만 개의 고품질 이미지-텍스트 쌍으로 구성된 대규모 데이터셋에서 시각 정보와 텍스트 표현을 연결하는 방법을 학습합니다. 최대 해상도 1280x28x28, 배치 크기 128, 시퀀스 길이 16384로 1 에포크(epoch) 동안 훈련됩니다. 이 단계의 목표는 비전 인코더와 언어 모델의 특징 공간(feature spaces)을 정렬하는 것입니다.
- Stage 2 (명령어 미세 조정): 270만 개의 엄선된 샘플로 구성된 데이터셋을 사용하여 일반적인 다중 모달 이해(multimodal understanding)를 특정 하위 요소 인식 작업에 맞게 조정합니다. 최대 해상도가 2048x28x28으로 증가하고 2 에포크 동안 훈련됩니다. 이 단계에서 모델은 4가지 유형의 작업(OCR, Table Recognition, Formula Recognition, Chart Recognition)에 대해 명시적 지침(explicit instructions)으로 훈련됩니다.
데이터셋 구축:
고품질의 다양한 훈련 데이터셋을 구축하기 위해 체계적인 방법론을 제안합니다.
- 데이터 큐레이션: 오픈 소스 데이터셋(CASIA-HWDB, UniMER-1M, MathWriting 등), 합성 데이터셋(imbalanced distribution 해결), 네트워크 접근 가능 데이터셋(학술 논문, 신문 등), 그리고 내부 데이터셋을 포함한 네 가지 주요 소스에서 데이터를 수집합니다.
- 자동 데이터 주석: 전문 모델(PP-StructureV3)을 사용하여 초기 의사 레이블(pseudo labels)을 생성하고, 프롬프트 엔지니어링(prompt engineering)을 통해 원본 이미지와 의사 레이블을 포함하는 프롬프트를 고급 다중 모달 대규모 언어 모델(ERNIE-4.5-VL [5], Qwen2.5VL [24])에 제출하여 레이블을 개선합니다. 마지막으로 환각 필터링(hallucination filtering)을 통해 잠재적으로 부정확한 콘텐츠를 제거합니다.
- 난이도 높은 사례 마이닝(Hard Cases Mining): 특정 복잡한 시나리오에서의 성능 병목 현상을 극복하기 위해 평가 엔진(eval engine)을 개발하고 수동으로 주석을 단 정밀한 평가 데이터를 사용하여 모델이 취약한 부분을 식별합니다. 이후 풍부한 자원(폰트 라이브러리, CSS 라이브러리, 코퍼스 등)과 렌더링 도구(XeLaTeX, 웹 브라우저 등)를 활용하여 새로운 고품질의 어려운 사례(hard cases)를 합성하여 생성합니다.
평가:
PaddleOCR-VL은 OmniDocBench v1.5 벤치마크에서 기존 파이프라인 도구, 일반 VLM 및 다른 전문 문서 파싱 모델들을 능가하는 SOTA 성능을 달성했습니다. 특히, 전반적인 점수 92.86으로 최고 기록을 세웠으며, Text-Edit distance 0.035, Formula-CDM 91.22, Table-TEDS 90.89, Table-TEDS-S 94.76, Reading Order Edit 0.043에서 모두 선도적인 결과를 보여 텍스트 인식, 수식 인식, 복잡한 표 구조 분석에서의 우수한 정확도를 입증했습니다. 109개 언어를 지원하며, 손글씨 텍스트와 역사 문서와 같은 도전적인 콘텐츠 유형을 포함한 광범위한 실제 시나리오에 적용 가능합니다.