목록으로
naver-hyperclovax/HyperCLOVAX-SEED-Vision-Instruct-3B · Hugging Face
Service2025.04.27

naver-hyperclovax/HyperCLOVAX-SEED-Vision-Instruct-3B · Hugging Face

요약

NAVER의 HyperCLOVAX-SEED-Vision-Instruct-3B는 텍스트와 이미지 이해 및 텍스트 생성을 수행하는 경량 Vision-Language 모델로, 특히 한국어 처리와 VQA 및 차트 해석에 강점을 보입니다.
️ LLaVA 기반 아키텍처를 채택한 이 모델은 3.2B LLM과 0.43B Vision Module로 구성되어 있으며, 자동화된 검증 시스템과 SFT 및 온라인 RLHF 훈련을 통해 데이터 품질과 효율적인 비전 이해를 강화했습니다.
적은 시각 토큰으로도 경쟁력 있는 성능을 발휘하여 유사 크기의 오픈소스 모델들을 능가하는 벤치마크 결과를 보이며, 한국 최초의 오픈소스 Vision-Language 모델로서 한국의 AI 역량 강화에 크게 기여합니다.

상세 내용

NAVER에서 개발한 HyperCLOVAX-SEED-Vision-Instruct-3B는 텍스트와 이미지를 이해하고 텍스트를 생성할 수 있는 모델입니다. 이 모델은 경량 아키텍처에 중점을 두어 연산 효율성을 최적화했으며, Visual Question Answering (VQA), 차트 및 다이어그램 해석, 그리고 콘텐츠 이해와 같은 시각적 이해 능력을 제공합니다. 한국어에 특화된 Pareto-optimal 균형을 목표로 설계되었으며, 추론 시 유사 크기의 다른 모델에 비해 적은 시각 토큰(visual tokens)으로도 경쟁력 있는 성능을 보여줍니다. 특히 한국어 입력 처리에서 강점을 보이며, 관련 벤치마크에서 유사 규모의 오픈소스 모델들을 능가합니다. 한국 최초의 시각 이해 능력을 갖춘 오픈소스 Vision-Language Model로서, 한국의 Sovereign AI 역량 강화에 기여할 것으로 기대됩니다.

모델 아키텍처 및 사양:
HyperCLOVAX-SEED-Vision-Instruct-3B는 LLaVA 기반의 Vision-Language Model 아키텍처를 따릅니다. LLM 모듈은 Transformer 기반의 Dense Model이며, 3.2B(32억)개의 파라미터를 가지고 있습니다. Vision Encoder는 SigLIP 기반 아키텍처로, 그리드(grid)당 378x378px의 입력 해상도를 처리합니다. Vision-Language Connector는 C-Abstractor 기반으로 AnyRes 메커니즘을 사용하여 9개 그리드에 걸쳐 최대 1.29M(129만) 총 픽셀을 지원합니다. 전체 파라미터 수는 LLM 모듈 3.2B와 Vision 모듈 0.43B를 합쳐 총 3.63B입니다. 입력/출력 형식은 텍스트, 이미지, 비디오를 입력으로 받아 텍스트를 출력합니다. Context Length는 16k이며, Knowledge Cutoff Date는 2024년 8월 이전의 데이터를 기반으로 합니다.

학습 방법론:
모델 학습은 텍스트 및 비전 영역에서 진행되었습니다.
텍스트 학습에서는 고품질 데이터 확보를 위해 HyperCLOVA X 기반의 자동화된 검증 시스템을 활용하여 데이터 품질을 개선하고 학습 프로세스를 간소화했습니다. 이는 특히 수학 및 코딩과 같이 명확한 답변이 있는 영역에서 모델 성능을 크게 향상시켰습니다. 모델은 HyperCLOVAX-SEED-Text-Base-3B를 기반으로 시작되었으며, Supervised Fine-Tuning (SFT)과 온라인 강화 학습 알고리즘인 GRPO를 기반으로 한 Reinforcement Learning from Human Feedback (RLHF)을 적용했습니다.

비전 학습에서는 이미지 기반 질의응답(VQA) 및 차트/다이어그램 해석과 같은 시각 관련 태스크 처리 능력을 추가하기 위해 모델 아키텍처가 신중하게 설계되었습니다. 이는 기존 HyperCLOVA X LLM의 성능을 저해하지 않으면서도 시각적 능력을 통합하는 데 중점을 두었습니다. 모델은 경량임에도 불구하고 기본적인 이미지 VQA 태스크를 수행할 수 있으며, OCR-free 처리도 지원합니다. 비디오 입력 토큰 효율성 최적화에 중점을 두었으며, 프레임당 추출되는 토큰 수를 세심하게 조정하여 최소한의 토큰으로 효율적인 비디오 이해를 가능하게 했습니다. 또한, RLHF 학습 단계에서는 텍스트 도메인과 마찬가지로 비전 특화 V-RLHF 데이터가 사용되어 모델의 학습 능력을 향상시켰습니다.

벤치마크 성능:
텍스트 벤치마크 (KMMLU, HAE-RAE, CLiCK, KoBEST)에서 HyperCLOVAX-SEED-Vision-Instruct-3B는 0.4422, 0.6499, 0.5599, 0.7180의 성능을 기록하여 Qwen2.5-3B-instruct 및 gemma-3-4b-it와 비교하여 특정 벤치마크에서 우수한 성능을 보였습니다.

비전 벤치마크 (VideoMME (Ko), NAVER-TV-CLIP (Ko), VideoChatGPT (Ko), PerceptionTest (En), ActivityNet-QA (En), KoNet (Ko), MMBench-Val (En), TextVQA-Val (En), Korean VisIT-Bench (Ko))에서는 이미지(4개)와 비디오(5개) 벤치마크를 포함하여 종합적인 평가가 이루어졌습니다. HyperCLOVAX-SEED-Vision-Instruct-3B는 1856 토큰, 108 프레임으로 59.54의 'All' 점수를 기록했습니다. OCR 정보가 없는 경우 55.05를 기록했습니다. Qwen-2.5-VL-3B, Gemma-3-4B, GPT4V, GPT4o 등과 같은 다른 모델들과 비교하여 효율적인 토큰 사용량에도 불구하고 경쟁력 있는 성능을 보여주었습니다. 특히, 이미지 이해 성능을 높이기 위해 OCR 결과 및 엔티티 인식(Lens)과 같은 추가 정보를 포함할 것을 권장하며, 이러한 형식으로 데이터를 입력할 경우 유의미하게 향상된 출력 품질을 기대할 수 있습니다.

종속성 및 사용 예시:
모델 사용을 위한 주요 종속성으로는 einops, timm, av, decord가 있습니다. 예제 코드에서는 transformers 라이브러리를 활용하여 LLM 및 VLM 태스크를 위한 AutoModelForCausalLM, AutoProcessor, AutoTokenizer를 사용하는 방법을 제시하며, ChatML 스타일의 대화 템플릿 사용을 권장합니다.
또한, 추론 속도를 높이기 위해 vLLM 엔진을 활용할 수 있는 가이드라인과 관련 환경 설정, API 서버 구동 방법 및 요청 예시를 제공합니다. vLLM 사용 시 ATTENTION_BACKENDFLASH_ATTN_VLLM_V1로 설정하고 max-model-len, max-num-batched-tokens, max-num-seqs 등의 파라미터를 조절하여 최적의 성능을 낼 수 있습니다.

원본 보기
Hugging Face
Shared by Anonymous