naver-hyperclovax/HyperCLOVAX-SEED-Think-32B · Hugging Face
요약
상세 내용
핵심 방법론 및 기술적 특징:
HyperCLOVA X SEED 32B Think는 텍스트 토큰(text tokens)과 시각 패치(visual patches)를 단일한 임베딩 공간(shared embedding space) 내에서 처리하는 Transformer 기반의 Dense 모델 아키텍처를 채택하고 있습니다. 이를 통해 텍스트와 이미지/비디오 데이터 간의 seamless한 멀티모달 이해를 가능하게 합니다.
이 모델의 가장 독특한 특징 중 하나는 '사고 모드(thinking mode)' 또는 '추론 모드(reasoning mode)'입니다. extra_body 파라미터에 {"chat_template_kwargs": {"thinking": True}}를 설정하여 활성화할 수 있으며, 이 모드에서는 모델이 복잡한 작업에 대해 체인-오브-쏘트(chain-of-thought) 추론 과정을 수행하고 태그 내에 그 추론 과정을 명시적으로 출력합니다. 예를 들어, 수학 문제 해결 시 단계별 사고 과정을 보여주는 방식입니다. 이 기능은 모델의 추론 과정을 투명하게 만들고 사용자가 제어할 수 있는 깊은 추론 능력을 제공합니다. thinking_token_budget 파라미터를 통해 추론에 할당될 최대 토큰 수를 제어할 수 있습니다.
또한, 최대 128K 토큰에 달하는 긴 컨텍스트(long-context) 멀티모달 이해를 지원하여 장문의 텍스트나 복잡한 시각 정보를 포함하는 시나리오에서도 뛰어난 성능을 발휘합니다.
기본 정보:
* 아키텍처(Architecture): Transformer 기반 비전-언어 모델(VLM) (Dense Model)
* 파라미터(Parameters): 32B
* 입력 형식(Input Format): 텍스트(Text), 이미지(Image), 비디오(Video)
* 출력 형식(Output Format): 텍스트(Text)
* 컨텍스트 길이(Context Length): 128K 토큰
* 지식 업데이트 시점(Knowledge Cutoff): 2025년 5월
벤치마크 및 역량:
모델은 다양한 한국어 중심 및 멀티모달 벤치마크에서 평가되었습니다.
* 일반 지식 (한국어 텍스트): KoBalt, CLIcK, HAERAE Bench 1.0
* 시각 이해 (Vision Understanding): ChartVQA, TextVQA, K-MMBench, K-DTCBench
* 에이전트 태스크 (Agentic Tasks): Tau^2-Airline, Tau^2-Retail, Tau^2-Telecom
예시로는 2026년 한국 수능 수학 문제 해결 및 텍스트 레이아웃 추론(Text layout Inference)과 같은 복잡한 작업 처리 능력을 보여줍니다.
배포 및 추론 시스템:
본 모델은 OpenAI 호환 API를 제공하는 프로덕션 레디(production-ready) 멀티모달 추론 시스템인 OmniServe를 통해 배포됩니다.
하드웨어 요구사항:
OmniServe를 통한 모델 실행을 위해 4x NVIDIA A100 80GB GPU가 권장됩니다. 구체적으로는 Vision Encoder에 약 8GB VRAM이 필요하며, 32B LLM에는 2개의 GPU를 사용하여 총 약 60GB VRAM이 필요합니다. 전체적으로 3개의 GPU에 약 68GB의 VRAM이 요구됩니다.