GitHub - opendataloader-project/opendataloader-pdf: PDF Parser for AI-ready data. Automate PDF accessibility. Open-source.
핵심 포인트
- 1OpenDataLoader PDF는 AI 데이터 추출을 위한 오픈소스 PDF 파서로, Markdown, JSON (bounding boxes 포함), HTML 출력을 지원하며 벤치마크에서 0.90의 전체 정확도로 1위를 차지했습니다.
- 2이 도구는 정확한 읽기 순서와 요소별 Bounding Box 제공을 기본으로 하며, 복잡한 테이블, 스캔된 PDF (OCR 지원), 수식 및 차트 설명을 위해 AI 하이브리드 모드를 제공합니다.
- 3또한, OpenDataLoader는 PDF 문서의 자동 태그 지정을 통한 접근성 자동화 (Q2 2026 출시 예정)를 목표로 하며, 수동 PDF 교정의 높은 비용 문제를 해결하고자 합니다.
OpenDataLoader PDF는 AI 데이터 추출 및 PDF 접근성 자동화를 위한 오픈소스 PDF parser입니다. 이는 Markdown, JSON (bounding boxes 포함), HTML을 모든 PDF에서 추출할 수 있으며, 특히 RAG (Retrieval Augmented Generation) pipeline과 PDF 접근성 규정 준수를 목표로 설계되었습니다. 전체 benchmark에서 0.90의 종합 정확도로 1위를 기록했으며, table 정확도는 0.93에 달합니다.
이 parser는 두 가지 주요 모드를 통해 작동합니다:
- Deterministic Local Mode (Fast Mode): GPU 없이 CPU에서 100% 로컬로 실행되는 빠르고 rule-based 방식입니다. "XY-Cut++" 알고리즘을 사용하여 정확한 읽기 순서를 결정하며, 다단 레이아웃도 정확히 처리합니다. 모든 요소 (heading, paragraph, table, image 등)에 대한 "bounding boxes"를 제공하여 RAG에서 source citation을 용이하게 합니다. 또한, "prompt injection"으로부터 보호하기 위해 hidden text, off-page content, suspicious invisible layers를 자동으로 filtering하는 "AI safety" 기능을 내장하고 있습니다. 이 모드는 PDF의 내장 "structure tags"를 활용하여 작성자가 의도한 정확한 레이아웃을 보존할 수 있습니다.
- AI Hybrid Mode: 복잡한 PDF (예: 스캔된 문서, 복잡한 table, 수식, 차트)를 처리하기 위해 local Java processing과 AI backend를 결합합니다. 간단한 페이지는 local에서 빠르게 처리되고 (0.05s/page), 복잡한 페이지는 정확도를 높이기 위해 AI backend로 자동 라우팅됩니다 (complex table의 경우 0.49에서 0.93 TEDS score로 향상). 이 AI backend 역시 사용자의 machine에서 로컬로 실행되므로 데이터가 외부로 전송되지 않습니다. Hybrid Mode의 주요 기능은 다음과 같습니다:
- OCR (Optical Character Recognition): 80개 이상의 언어를 지원하며, 스캔된 PDF 또는 이미지 기반 PDF의 텍스트를 인식합니다.
- Formula Extraction: 과학 문서에서 LaTeX 형식의 수학 공식을 추출합니다. 예를 들어, JSON 출력에서 수식은 와 같이 제공됩니다.
- Chart & Image Description: "SmolVLM" (256M)과 같은 경량 vision model을 사용하여 차트 및 이미지에 대한 AI 설명을 생성하며, RAG 검색 및 접근성 "alt text"에 유용합니다.
OpenDataLoader PDF는 특히 RAG pipeline에 최적화되어 있습니다. Markdown 출력은 heading, table, list 구조를 보존하여 chunking에 이상적이며, JSON 출력은 각 요소에 "bounding boxes", "semantic type", page number를 포함하여 granular한 source citation을 가능하게 합니다.
PDF 접근성 자동화 측면에서는, 이 프로젝트는 PDF Association 및 "veraPDF" 개발사인 Dual Lab과의 협력을 통해 개발되었습니다. 2026년 2분기에 출시될 "Auto-tagging" 기능은 layout analysis 엔진을 사용하여 untagged PDF를 Apache 2.0 라이선스 하에 "Tagged PDF"로 변환합니다. 이는 "Well-Tagged PDF" specification을 따르며 "veraPDF"를 통해 programmatic하게 검증됩니다. 이는 end-to-end로 "Tagged PDF"를 생성하는 최초의 오픈소스 도구로서, 수동 PDF remediation (문서당 $50–200 비용 발생)의 필요성을 없앱니다. "PDF/UA-1" 또는 "PDF/UA-2" export와 visual editor를 포함하는 전체 "PDF/UA" compliance는 enterprise add-on으로 제공됩니다.
Python, Node.js, Java SDK를 제공하며, "LangChain"과의 공식적인 integration도 지원합니다. 이 프로젝트는 Apache 2.0 라이선스를 채택하여 enterprise 환경에서의 통합을 용이하게 합니다.