naver-hyperclovax/HyperCLOVAX-SEED-Vision-Instruct-3B · Hugging Face
요약
상세 내용
모델 아키텍처 및 사양:
HyperCLOVAX-SEED-Vision-Instruct-3B는 LLaVA 기반의 Vision-Language Model 아키텍처를 따릅니다. LLM 모듈은 Transformer 기반의 Dense Model이며, 3.2B(32억)개의 파라미터를 가지고 있습니다. Vision Encoder는 SigLIP 기반 아키텍처로, 그리드(grid)당 378x378px의 입력 해상도를 처리합니다. Vision-Language Connector는 C-Abstractor 기반으로 AnyRes 메커니즘을 사용하여 9개 그리드에 걸쳐 최대 1.29M(129만) 총 픽셀을 지원합니다. 전체 파라미터 수는 LLM 모듈 3.2B와 Vision 모듈 0.43B를 합쳐 총 3.63B입니다. 입력/출력 형식은 텍스트, 이미지, 비디오를 입력으로 받아 텍스트를 출력합니다. Context Length는 16k이며, Knowledge Cutoff Date는 2024년 8월 이전의 데이터를 기반으로 합니다.
학습 방법론:
모델 학습은 텍스트 및 비전 영역에서 진행되었습니다.
텍스트 학습에서는 고품질 데이터 확보를 위해 HyperCLOVA X 기반의 자동화된 검증 시스템을 활용하여 데이터 품질을 개선하고 학습 프로세스를 간소화했습니다. 이는 특히 수학 및 코딩과 같이 명확한 답변이 있는 영역에서 모델 성능을 크게 향상시켰습니다. 모델은 HyperCLOVAX-SEED-Text-Base-3B를 기반으로 시작되었으며, Supervised Fine-Tuning (SFT)과 온라인 강화 학습 알고리즘인 GRPO를 기반으로 한 Reinforcement Learning from Human Feedback (RLHF)을 적용했습니다.
비전 학습에서는 이미지 기반 질의응답(VQA) 및 차트/다이어그램 해석과 같은 시각 관련 태스크 처리 능력을 추가하기 위해 모델 아키텍처가 신중하게 설계되었습니다. 이는 기존 HyperCLOVA X LLM의 성능을 저해하지 않으면서도 시각적 능력을 통합하는 데 중점을 두었습니다. 모델은 경량임에도 불구하고 기본적인 이미지 VQA 태스크를 수행할 수 있으며, OCR-free 처리도 지원합니다. 비디오 입력 토큰 효율성 최적화에 중점을 두었으며, 프레임당 추출되는 토큰 수를 세심하게 조정하여 최소한의 토큰으로 효율적인 비디오 이해를 가능하게 했습니다. 또한, RLHF 학습 단계에서는 텍스트 도메인과 마찬가지로 비전 특화 V-RLHF 데이터가 사용되어 모델의 학습 능력을 향상시켰습니다.
벤치마크 성능:
텍스트 벤치마크 (KMMLU, HAE-RAE, CLiCK, KoBEST)에서 HyperCLOVAX-SEED-Vision-Instruct-3B는 0.4422, 0.6499, 0.5599, 0.7180의 성능을 기록하여 Qwen2.5-3B-instruct 및 gemma-3-4b-it와 비교하여 특정 벤치마크에서 우수한 성능을 보였습니다.
비전 벤치마크 (VideoMME (Ko), NAVER-TV-CLIP (Ko), VideoChatGPT (Ko), PerceptionTest (En), ActivityNet-QA (En), KoNet (Ko), MMBench-Val (En), TextVQA-Val (En), Korean VisIT-Bench (Ko))에서는 이미지(4개)와 비디오(5개) 벤치마크를 포함하여 종합적인 평가가 이루어졌습니다. HyperCLOVAX-SEED-Vision-Instruct-3B는 1856 토큰, 108 프레임으로 59.54의 'All' 점수를 기록했습니다. OCR 정보가 없는 경우 55.05를 기록했습니다. Qwen-2.5-VL-3B, Gemma-3-4B, GPT4V, GPT4o 등과 같은 다른 모델들과 비교하여 효율적인 토큰 사용량에도 불구하고 경쟁력 있는 성능을 보여주었습니다. 특히, 이미지 이해 성능을 높이기 위해 OCR 결과 및 엔티티 인식(Lens)과 같은 추가 정보를 포함할 것을 권장하며, 이러한 형식으로 데이터를 입력할 경우 유의미하게 향상된 출력 품질을 기대할 수 있습니다.
종속성 및 사용 예시:
모델 사용을 위한 주요 종속성으로는 einops, timm, av, decord가 있습니다. 예제 코드에서는 transformers 라이브러리를 활용하여 LLM 및 VLM 태스크를 위한 AutoModelForCausalLM, AutoProcessor, AutoTokenizer를 사용하는 방법을 제시하며, ChatML 스타일의 대화 템플릿 사용을 권장합니다.
또한, 추론 속도를 높이기 위해 vLLM 엔진을 활용할 수 있는 가이드라인과 관련 환경 설정, API 서버 구동 방법 및 요청 예시를 제공합니다. vLLM 사용 시 ATTENTION_BACKEND를 FLASH_ATTN_VLLM_V1로 설정하고 max-model-len, max-num-batched-tokens, max-num-seqs 등의 파라미터를 조절하여 최적의 성능을 낼 수 있습니다.