NC-AI-consortium-VAETKI/VAETKI · Hugging Face
요약
상세 내용
핵심 특징으로는 지시 이행을 위한 강력한 인간 선호 정렬과 보다 자연스러운 대화 제공이 있으며, Tool Agent 작업에는 non-thinking mode가 적용됩니다. 또한, 영어, 한국어, 중국어, 일본어의 다국어 지시 이행 및 번역을 지원합니다.
모델 상세 정보 (VAETKI-100B-A10B):
* 유형: Causal (Auto-regressive) Language Model
* 아키텍처: Transformers, MoE
* 개발 기관: NC-AI consortium (ETRI, Korea University 포함)
* 학습 단계: Pretraining 및 Post-training
* 파라미터 수: 총 112.2B, 활성화된 파라미터(Activated Parameters)는 10.1B, Non-Embedding 파라미터는 111.3B
* 레이어 수: 48
* Attention Head 수: 24
* Experts 수: 128
* 활성화되는 Experts 수: 8
* Context Length: 32k tokens
* 어휘 크기 (Vocabulary Size): 126k
* 지원 언어: 한국어, 영어, 중국어, 일본어
* 라이선스: MIT License
핵심 방법론인 MoE 아키텍처는 모델의 총 파라미터 수는 크지만, 특정 입력에 대해 소수의 Expert만 활성화하여 계산 효율성을 높이는 구조입니다. VAETKI는 128개의 Expert 중 8개만을 활성화하여 10.1B의 파라미터만 실제로 연산에 사용하므로, 112.2B의 전체 파라미터 규모에도 불구하고 효율적인 추론이 가능합니다. 이는 거대한 모델의 표현력을 유지하면서도 실제 운영 비용을 절감하는 데 기여합니다.
학습 상세 정보:
* 총 학습 데이터: 약 9.8T tokens. 다양한 데이터셋을 포함하며, FineWeb-2(kor_Hang), FineWeb2-HQ, The Stack v2, Nemotron-CC-v2, DCLM-baseline-1.0 등이 주요 데이터 소스입니다.
* NIA 지원 데이터셋: 다국어 처리 및 복잡한 추론 능력 강화를 위해 NIA의 지원을 받아 구축된 데이터셋을 활용했습니다. Pre-training 단계에서는 긴 문맥 이해 (long-context comprehension) 및 Chain-of-Thought (CoT) 추론에 특화된 데이터와 중국어, 일본어 코퍼스를 통합하여 7.6B tokens를 확보했습니다. Post-training 단계에서는 전문 한국어 연구 및 수학적 추론에 중점을 둔 10B tokens 규모의 추가 데이터셋을 개발하여 모델의 언어적 뉘앙스와 논리적 성능을 극대화했습니다.
* 학습 절차: Naver Cloud MLX Platform에서 NVIDIA H100 80GB HBM3 GPU 1,016개를 사용하여 학습되었습니다. Megatron-Core v0.14를 기반으로 모델 아키텍처 구성, 학습 루프, 체크포인트, 분산 최적화 로직이 구현되었습니다.
* 하이퍼파라미터: Learning rate는 2e-4에서 8e-5로 점진적으로 감소했으며, Batch size는 8.1M Tokens에서 46M Tokens로 증가했습니다. Context Length는 초기 4096에서 최종 32768로 확장되었습니다.
평가 결과:
VAETKI-100B-A10B는 다양한 벤치마크에서 평가되었습니다. MoE 아키텍처를 사용하는 gpt-oss-120b와 비교했을 때, 한국어 벤치마크(KMMLU-Pro, CLIcK, KoBALT)에서는 전반적으로 비슷한 수준의 성능을 보이거나 약간 우세한 결과를 나타냈습니다 (예: CLIcK 75.5 vs 73.0, KoBALT 47.5 vs 46.0). 영어 벤치마크에서는 일부 지표에서 gpt-oss-120b 대비 낮은 성능을 보였으나, IFEval에서는 86.0으로 gpt-oss-120b의 83.6보다 높은 점수를 기록했습니다.
제한 사항:
모델은 부정확하거나 불완전한 출력을 생성할 수 있으며, 특히 모호한 프롬프트나 높은 사실 정확도를 요구하는 작업에서 할루시네이션이 발생할 수 있습니다. 복잡한 다단계 추론, 정밀한 수학 계산, 코드 생성의 엄격한 정확성에서 한계가 있을 수 있습니다. 또한, 독립적으로 정보를 검증하는 능력이 없으며, 학습 데이터에 포함된 사회적 또는 문화적 편향이 모델 출력에 반영될 수 있습니다. 의료, 법률, 금융, 군사 등 안전이 중요한 영역에서의 사용은 권장되지 않습니다.