LGAI-EXAONE/K-EXAONE-236B-A23B · Hugging Face

요약

LG AI Research에서 개발한 K-EXAONE은 236B의 총 파라미터와 23B의 활성 파라미터를 가진 대규모 다국어 MoE(Mixture-of-Experts) 모델로, 256K의 긴 Context Window와 한국어, 영어 등 6개 언어를 지원합니다.

Multi-Token Prediction (MTP)으로 추론 처리량을 약 1.5배 향상시키고 3:1 하이브리드 Attention으로 메모리 사용을 최소화하며, 추론, Agentic 기능, 다국어 이해 및 장문 처리 능력에서 우수한 성능을 보입니다.

K-EXAONE은 정확성을 위한 Reasoning 모드와 낮은 Latency를 위한 Non-reasoning 모드를 제공하며 Tool-use를 지원하고 vLLM, SGLang 등에서 배포 가능하지만, 학습 데이터의 특성상 때때로 부적절하거나 편향된 응답을 생성할 수 있는 한계가 있습니다.

상세 내용

LG AI Research에서 개발한 대규모 다국어 언어 모델인 K-EXAONE이 소개됩니다. 이 모델은 MoE (Mixture-of-Experts) 아키텍처를 기반으로 하며, 총 2360억 개의 파라미터 중 추론 시 230억 개의 파라미터가 활성화됩니다. K-EXAONE은 추론(reasoning), 에이전트(agentic) 능력, 일반 지식, 다국어 이해, 긴 컨텍스트 처리 등 다양한 벤치마크에서 우수한 성능을 입증했습니다.

주요 특징:

* 아키텍처 및 효율성 (Architecture & Efficiency):
K-EXAONE은 236B fine-grained MoE 설계를 특징으로 하며, 이 중 23B 파라미터가 추론에 사용됩니다. Multi-Token Prediction (MTP) 기술로 최적화되어, self-speculative decoding을 통해 추론 처리량을 약 1.5배 향상시킵니다. MTP는 모델이 다음 토큰을 추측하고, 추측이 맞으면 여러 토큰을 한 번에 생성하여 디코딩 속도를 가속화하는 기술입니다. 이는 특히 긴 시퀀스 생성에 효과적입니다.

* 긴 컨텍스트 처리 능력 (Long-Context Capabilities):
모델은 기본적으로 256K (262,144) 토큰의 컨텍스트 윈도우를 지원합니다. 이는 128-token Sliding Window를 사용하는 3:1 Hybrid Attention Scheme을 통해 구현되며, 긴 문서 처리 시 메모리 사용량을 크게 최소화합니다. Hybrid Attention은 고정된 슬라이딩 윈도우 내에서는 full attention을 적용하고, 특정 중요한 토큰(예: 시작 토큰)에는 전역적으로 attention을 적용하여 효율성과 성능을 동시에 확보하는 방식입니다. NoPE (No Rotary Positional Embedding)를 사용합니다.

* 다국어 지원 (Multilingual Support):
K-EXAONE은 한국어, 영어, 스페인어, 독일어, 일본어, 베트남어 등 6개 언어를 지원합니다. SuperBPE로 재설계된 150k vocabulary를 사용하여 토큰 효율성을 약 30% 향상시켰습니다.

* 에이전트 능력 (Agentic Capabilities):
이 모델은 멀티 에이전트 전략을 통해 뛰어난 도구 사용(tool-use) 및 검색(search) 능력을 보여줍니다. OpenAI 및 HuggingFace의 tool calling 사양과 호환됩니다.

* 안전 및 윤리 (Safety & Ethics):
보편적인 인간 가치에 맞춰 정렬되었으며, 특히 한국 문화 및 역사적 맥락을 통합하여 다른 모델들이 간과할 수 있는 지역적 민감성을 해결합니다. 다양한 위험 범주에서 높은 신뢰성을 입증했습니다.

모델 구성:

* 총 파라미터 (Total Params): 236B
* 활성화 파라미터 (Active Params): 23B
* 임베딩 제외 파라미터 (Params without embeddings): 234B
* 히든 차원 (Hidden Dimension): 6,144
* 레이어 수 (Number of Layers): 48 Main layers + 1 MTP layers
* Hybrid Attention 패턴: 12 x (3 Sliding window attention + 1 Global attention)
* Sliding Window Attention: 64 Q-heads, 8 KV-heads, Head Dimension: 128, Sliding Window Size: 128
* Global Attention: 64 Q-heads, 8 KV-heads, Head Dimension: 128
* RoPE (Rotary Positional Embedding) 미사용 (NoPE).
* MoE (Mixture of Experts):
* Experts 수 (Number of Experts): 128
* 활성화 전문가 수 (Number of Activated Experts): 8
* 공유 전문가 수 (Number of Shared Experts): 1
* MoE Intermediate Size: 2,048
* 어휘 크기 (Vocab Size): 153,600
* 컨텍스트 길이 (Context Length): 262,144 tokens
* 지식 마감 시점 (Knowledge Cutoff): 2024년 12월

평가 결과:

제시된 표는 K-EXAONE (Reasoning 모드)의 성능을 이전 모델인 EXAONE-4.0 및 경쟁 모델 (GPT-OSS, Qwen3-Thinking-2507, DeepSeek-V3.2)과 비교합니다. K-EXAONE은 특히 수학(Math), 코딩/에이전트(Coding / Agentic), 에이전트 도구 사용(Agentic Tool Use) 및 한국어(Korean) 벤치마크에서 우수한 성능을 보였습니다. 예를 들어, Agentic Tool Use의 τ2-Bench (Telecom)에서 73.5점을 기록하며 EXAONE 4.0의 23.7점을 크게 상회합니다. 또한, 긴 컨텍스트 이해(Long Context Understanding)에서 AA-LCR 53.5점, OpenAI-MRCR 52.3점으로 이전 모델 대비 큰 향상을 보였습니다. 다국어 능력(Multilinguality)의 MMMLU와 WMT24++에서도 높은 점수를 얻었습니다.

사용 및 배포:

K-EXAONE은 Transformers 라이브러리를 통해 사용할 수 있으며, EXAONE-MoE 아키텍처를 지원하는 Transformers, vLLM, SGLang, llama.cpp의 특정 fork를 설치해야 합니다.
모델은 $enable_thinking=True$ 를 통해 추론 모드(reasoning mode)로 실행될 수 있으며, $enable_thinking=False$ 로 설정하여 비추론 모드(non-reasoning mode)로 저지연 추론이 가능합니다. 최적의 성능을 위해서는 $temperature=1.0$ , $top_p=0.95$ , $presence_penalty=0.0$ 설정을 권장합니다.
배포를 위해 vLLM 및 SGLang에 대한 지원이 제공되며, 특히 vLLM을 통해 4개의 H200 GPU에서 256K 컨텍스트 길이로 모델을 서빙할 수 있습니다. MTP 가중치를 활용한 speculative decoding 옵션도 지원됩니다.

제한 사항:

K-EXAONE은 확률적 토큰 출력에 기반하여 응답을 생성하므로, 때때로 부적절하거나 편향되거나 부정확한 응답을 생성할 수 있습니다. 훈련 데이터에서 유해하거나 편향된 정보를 제거하려는 노력이 있었음에도 불구하고, 일부 문제가 있는 콘텐츠가 포함될 수 있습니다. 모델은 최신 정보를 반영하지 않을 수 있으며, 생성된 텍스트는 LG AI Research의 견해를 반영하지 않습니다.

#LLM #MoE #Multilingual #Transformers #AI