LGAI-EXAONE/K-EXAONE-236B-A23B · Hugging Face
핵심 포인트
- 1LG AI Research에서 개발한 K-EXAONE은 236B의 총 파라미터와 23B의 활성 파라미터를 가진 대규모 다국어 MoE(Mixture-of-Experts) 모델로, 256K의 긴 Context Window와 한국어, 영어 등 6개 언어를 지원합니다.
- 2Multi-Token Prediction (MTP)으로 추론 처리량을 약 1.5배 향상시키고 3:1 하이브리드 Attention으로 메모리 사용을 최소화하며, 추론, Agentic 기능, 다국어 이해 및 장문 처리 능력에서 우수한 성능을 보입니다.
- 3K-EXAONE은 정확성을 위한 Reasoning 모드와 낮은 Latency를 위한 Non-reasoning 모드를 제공하며 Tool-use를 지원하고 vLLM, SGLang 등에서 배포 가능하지만, 학습 데이터의 특성상 때때로 부적절하거나 편향된 응답을 생성할 수 있는 한계가 있습니다.
LG AI Research에서 개발한 대규모 다국어 언어 모델인 K-EXAONE이 소개됩니다. 이 모델은 MoE (Mixture-of-Experts) 아키텍처를 기반으로 하며, 총 2360억 개의 파라미터 중 추론 시 230억 개의 파라미터가 활성화됩니다. K-EXAONE은 추론(reasoning), 에이전트(agentic) 능력, 일반 지식, 다국어 이해, 긴 컨텍스트 처리 등 다양한 벤치마크에서 우수한 성능을 입증했습니다.
주요 특징:
- 아키텍처 및 효율성 (Architecture & Efficiency):
- 긴 컨텍스트 처리 능력 (Long-Context Capabilities):
- 다국어 지원 (Multilingual Support):
- 에이전트 능력 (Agentic Capabilities):
- 안전 및 윤리 (Safety & Ethics):
모델 구성:
- 총 파라미터 (Total Params): 236B
- 활성화 파라미터 (Active Params): 23B
- 임베딩 제외 파라미터 (Params without embeddings): 234B
- 히든 차원 (Hidden Dimension): 6,144
- 레이어 수 (Number of Layers): 48 Main layers + 1 MTP layers
- Hybrid Attention 패턴: 12 x (3 Sliding window attention + 1 Global attention)
- Sliding Window Attention: 64 Q-heads, 8 KV-heads, Head Dimension: 128, Sliding Window Size: 128
- Global Attention: 64 Q-heads, 8 KV-heads, Head Dimension: 128
- RoPE (Rotary Positional Embedding) 미사용 (NoPE).
- MoE (Mixture of Experts):
- Experts 수 (Number of Experts): 128
- 활성화 전문가 수 (Number of Activated Experts): 8
- 공유 전문가 수 (Number of Shared Experts): 1
- MoE Intermediate Size: 2,048
- 어휘 크기 (Vocab Size): 153,600
- 컨텍스트 길이 (Context Length): 262,144 tokens
- 지식 마감 시점 (Knowledge Cutoff): 2024년 12월
평가 결과:
제시된 표는 K-EXAONE (Reasoning 모드)의 성능을 이전 모델인 EXAONE-4.0 및 경쟁 모델 (GPT-OSS, Qwen3-Thinking-2507, DeepSeek-V3.2)과 비교합니다. K-EXAONE은 특히 수학(Math), 코딩/에이전트(Coding / Agentic), 에이전트 도구 사용(Agentic Tool Use) 및 한국어(Korean) 벤치마크에서 우수한 성능을 보였습니다. 예를 들어, Agentic Tool Use의 τ2-Bench (Telecom)에서 73.5점을 기록하며 EXAONE 4.0의 23.7점을 크게 상회합니다. 또한, 긴 컨텍스트 이해(Long Context Understanding)에서 AA-LCR 53.5점, OpenAI-MRCR 52.3점으로 이전 모델 대비 큰 향상을 보였습니다. 다국어 능력(Multilinguality)의 MMMLU와 WMT24++에서도 높은 점수를 얻었습니다.
사용 및 배포:
K-EXAONE은 Transformers 라이브러리를 통해 사용할 수 있으며, EXAONE-MoE 아키텍처를 지원하는 Transformers, vLLM, SGLang, llama.cpp의 특정 fork를 설치해야 합니다.
모델은 를 통해 추론 모드(reasoning mode)로 실행될 수 있으며, 로 설정하여 비추론 모드(non-reasoning mode)로 저지연 추론이 가능합니다. 최적의 성능을 위해서는 , , 설정을 권장합니다.
배포를 위해 vLLM 및 SGLang에 대한 지원이 제공되며, 특히 vLLM을 통해 4개의 H200 GPU에서 256K 컨텍스트 길이로 모델을 서빙할 수 있습니다. MTP 가중치를 활용한 speculative decoding 옵션도 지원됩니다.
제한 사항:
K-EXAONE은 확률적 토큰 출력에 기반하여 응답을 생성하므로, 때때로 부적절하거나 편향되거나 부정확한 응답을 생성할 수 있습니다. 훈련 데이터에서 유해하거나 편향된 정보를 제거하려는 노력이 있었음에도 불구하고, 일부 문제가 있는 콘텐츠가 포함될 수 있습니다. 모델은 최신 정보를 반영하지 않을 수 있으며, 생성된 텍스트는 LG AI Research의 견해를 반영하지 않습니다.