LGAI-EXAONE/K-EXAONE-236B-A23B · Hugging Face
요약
상세 내용
주요 특징:
* 아키텍처 및 효율성 (Architecture & Efficiency):
K-EXAONE은 236B fine-grained MoE 설계를 특징으로 하며, 이 중 23B 파라미터가 추론에 사용됩니다. Multi-Token Prediction (MTP) 기술로 최적화되어, self-speculative decoding을 통해 추론 처리량을 약 1.5배 향상시킵니다. MTP는 모델이 다음 토큰을 추측하고, 추측이 맞으면 여러 토큰을 한 번에 생성하여 디코딩 속도를 가속화하는 기술입니다. 이는 특히 긴 시퀀스 생성에 효과적입니다.
* 긴 컨텍스트 처리 능력 (Long-Context Capabilities):
모델은 기본적으로 256K (262,144) 토큰의 컨텍스트 윈도우를 지원합니다. 이는 128-token Sliding Window를 사용하는 3:1 Hybrid Attention Scheme을 통해 구현되며, 긴 문서 처리 시 메모리 사용량을 크게 최소화합니다. Hybrid Attention은 고정된 슬라이딩 윈도우 내에서는 full attention을 적용하고, 특정 중요한 토큰(예: 시작 토큰)에는 전역적으로 attention을 적용하여 효율성과 성능을 동시에 확보하는 방식입니다. NoPE (No Rotary Positional Embedding)를 사용합니다.
* 다국어 지원 (Multilingual Support):
K-EXAONE은 한국어, 영어, 스페인어, 독일어, 일본어, 베트남어 등 6개 언어를 지원합니다. SuperBPE로 재설계된 150k vocabulary를 사용하여 토큰 효율성을 약 30% 향상시켰습니다.
* 에이전트 능력 (Agentic Capabilities):
이 모델은 멀티 에이전트 전략을 통해 뛰어난 도구 사용(tool-use) 및 검색(search) 능력을 보여줍니다. OpenAI 및 HuggingFace의 tool calling 사양과 호환됩니다.
* 안전 및 윤리 (Safety & Ethics):
보편적인 인간 가치에 맞춰 정렬되었으며, 특히 한국 문화 및 역사적 맥락을 통합하여 다른 모델들이 간과할 수 있는 지역적 민감성을 해결합니다. 다양한 위험 범주에서 높은 신뢰성을 입증했습니다.
모델 구성:
* 총 파라미터 (Total Params): 236B
* 활성화 파라미터 (Active Params): 23B
* 임베딩 제외 파라미터 (Params without embeddings): 234B
* 히든 차원 (Hidden Dimension): 6,144
* 레이어 수 (Number of Layers): 48 Main layers + 1 MTP layers
* Hybrid Attention 패턴: 12 x (3 Sliding window attention + 1 Global attention)
* Sliding Window Attention: 64 Q-heads, 8 KV-heads, Head Dimension: 128, Sliding Window Size: 128
* Global Attention: 64 Q-heads, 8 KV-heads, Head Dimension: 128
* RoPE (Rotary Positional Embedding) 미사용 (NoPE).
* MoE (Mixture of Experts):
* Experts 수 (Number of Experts): 128
* 활성화 전문가 수 (Number of Activated Experts): 8
* 공유 전문가 수 (Number of Shared Experts): 1
* MoE Intermediate Size: 2,048
* 어휘 크기 (Vocab Size): 153,600
* 컨텍스트 길이 (Context Length): 262,144 tokens
* 지식 마감 시점 (Knowledge Cutoff): 2024년 12월
평가 결과:
제시된 표는 K-EXAONE (Reasoning 모드)의 성능을 이전 모델인 EXAONE-4.0 및 경쟁 모델 (GPT-OSS, Qwen3-Thinking-2507, DeepSeek-V3.2)과 비교합니다. K-EXAONE은 특히 수학(Math), 코딩/에이전트(Coding / Agentic), 에이전트 도구 사용(Agentic Tool Use) 및 한국어(Korean) 벤치마크에서 우수한 성능을 보였습니다. 예를 들어, Agentic Tool Use의 τ2-Bench (Telecom)에서 73.5점을 기록하며 EXAONE 4.0의 23.7점을 크게 상회합니다. 또한, 긴 컨텍스트 이해(Long Context Understanding)에서 AA-LCR 53.5점, OpenAI-MRCR 52.3점으로 이전 모델 대비 큰 향상을 보였습니다. 다국어 능력(Multilinguality)의 MMMLU와 WMT24++에서도 높은 점수를 얻었습니다.
사용 및 배포:
K-EXAONE은 Transformers 라이브러리를 통해 사용할 수 있으며, EXAONE-MoE 아키텍처를 지원하는 Transformers, vLLM, SGLang, llama.cpp의 특정 fork를 설치해야 합니다.
모델은 를 통해 추론 모드(reasoning mode)로 실행될 수 있으며, 로 설정하여 비추론 모드(non-reasoning mode)로 저지연 추론이 가능합니다. 최적의 성능을 위해서는 , , 설정을 권장합니다.
배포를 위해 vLLM 및 SGLang에 대한 지원이 제공되며, 특히 vLLM을 통해 4개의 H200 GPU에서 256K 컨텍스트 길이로 모델을 서빙할 수 있습니다. MTP 가중치를 활용한 speculative decoding 옵션도 지원됩니다.
제한 사항:
K-EXAONE은 확률적 토큰 출력에 기반하여 응답을 생성하므로, 때때로 부적절하거나 편향되거나 부정확한 응답을 생성할 수 있습니다. 훈련 데이터에서 유해하거나 편향된 정보를 제거하려는 노력이 있었음에도 불구하고, 일부 문제가 있는 콘텐츠가 포함될 수 있습니다. 모델은 최신 정보를 반영하지 않을 수 있으며, 생성된 텍스트는 LG AI Research의 견해를 반영하지 않습니다.