Paper2026.01.04
skt/A.X-K1 · Hugging Face
요약
A.X K1은 총 5190억 개의 파라미터를 가진 대규모 Mixture-of-Experts(MoE) 언어 모델로, 효율적인 고용량 추론 및 명령어 이해를 위해 처음부터 학습되었습니다.
이 모델은 'Think' 및 'Non-Think' 모드를 통한 하이브리드 추론 제어, 다국어 및 코드 데이터에 최적화된 토크나이저, 그리고 Post-MLP RMSNorm을 포함한 안정적인 아키텍처를 특징으로 합니다.
이러한 설계는 강한 성능을 유지하면서도 사용자가 작업 요구사항에 따라 심층 추론과 응답 지연 시간 사이의 균형을 선택할 수 있도록 유연성을 제공합니다.
상세 내용
A.X K1은 SK텔레콤에서 개발한 대규모 Mixture-of-Experts (MoE) 언어 모델로, 기존 모델을 기반으로 하지 않고 처음부터 학습되었습니다. 이 모델은 5190억 개의 총 파라미터(parameters)와 토큰당 330억 개의 활성화 파라미터(active parameters)를 가지고 있어, 높은 추론 능력과 명령어 수행 능력을 효율적으로 제공합니다. 이는 사용자가 작업 요구사항에 따라 심층적인 추론과 응답 지연 시간(latency) 중 하나를 선택할 수 있는 하이브리드(hybrid) 설계를 가능하게 합니다. 대규모 희소 MoE (Large-Scale Sparse MoE): A.X K1은 총 5190억 개의 파라미터(192개의 전문가(experts)와 1개의 공유 전문가 포함)를 가지는 MoE 아키텍처를 채택합니다. 이 모델은 각 토큰(token)에 대해 330억 개의 파라미터(8개의 전문가와 1개의 공유 전문가 포함)만 활성화시켜 연산 비용을 훨씬 적은 파라미터를 가진 조밀한(dense) 모델과 유사한 수준으로 유지하면서도 모델의 용량(capacity)을 크게 증가시킵니다. MoE 아키텍처는 주로 전문가를 추가하여 모델 용량을 확장함으로써, 조밀한 모델에 비해 컴퓨팅 자원(compute)의 증가를 훨씬 느리게 합니다. 또한, 전문가 병렬화(expert parallelism)를 통해 대규모 학습 및 서빙을 지원합니다. 하이브리드 추론 제어 (Hybrid Reasoning Control): A.X K1은 단일 모델 내에서 추론의 깊이를 사용자 제어할 수 있도록 설계되었습니다. 이를 통해 추론 깊이와 응답 지연 시간 간의 균형을 조절할 수 있습니다.
* Think 모드: 복잡한 문제 해결 및 다단계 추론을 위해 답변을 생성하기 전에 추론 단계를 명시적으로 출력합니다.
* Non-Think 모드: 저지연 시간(low-latency) 사용에 최적화된 간결하고 직접적인 응답을 생성합니다. 최적화된 토크나이저 (Tokenizer Optimized for Multilingual and Code Data): 이 모델은 영어, 한국어, 중국어, 일본어, 스페인어 등 5개 언어에 걸쳐 토큰 효율성을 위해 최적화된 대규모 어휘 기반의 BBPE(Byte-Pair Encoding) 토크나이저를 사용합니다. 특히 소스 코드, 구조화된 텍스트 및 프로그래밍 관련 패턴에 중점을 두어 설계되었습니다. 안정성 지향 아키텍처 (Stability-Oriented Architecture): 대규모 희소 MoE 설정에서 학습 안정성을 향상시키기 위해, A.X K1은 각 Transformer 레이어의 MLP (MoE) 블록 이전과 *이후* 모두에 RMSNorm 정규화(normalization)를 적용합니다. 이 설계는 추론 집약적인 작업과 장문맥(long-context) 생성 모두에서 견고성을 높입니다. Multi-Token Prediction (MTP): 학습 과정에서 A.X K1은 표준 다음 토큰 예측(next-token objective) 외에 한 단계 더 미래의 토큰을 예측하는 Multi-Token Prediction 목표를 사용합니다. 이는 대규모 모델의 학습 안정화를 돕는 보조 신호 역할을 합니다. 추론 시에는 표준 Autoregressive decoding 과정에 영향을 미치지 않지만, 호환되는 서빙 프레임워크와 함께 사용될 때 추측 디코딩(speculative decoding)을 통해 더 높은 추론 처리량(throughput)을 제공할 수 있습니다.
핵심 특징 및 방법론:
* Non-Think 모드: 저지연 시간(low-latency) 사용에 최적화된 간결하고 직접적인 응답을 생성합니다.
모델 세부사항:
* 아키텍처: Decoder-only Transformer with Mixture-of-Experts
* 총 파라미터: 5190억 (192 experts + 1 shared expert)
* 토큰당 활성화 파라미터: 330억 (8 experts + 1 shared expert)
* 레이어 수: 61 (1 dense + 60 MoE)
* 어텐션 헤드(Attention Heads) 수: 64
* 중간 크기(Intermediate size): 7168
* 전문가 중간 크기(Expert intermediate size): 2048
* 정규화: RMSNorm (MLP 블록 전후 적용)
* 어텐션: Multi-Latent Attention (MLA)
* 어휘 크기(Vocab size): 163,840
* 컨텍스트 길이(Context length): 131,072 토큰
Hugging Face
Shared by Anonymous