Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning | NVIDIA Technical Blog
Blog

Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning | NVIDIA Technical Blog

Chris Alexiuk
2026.03.11
·Web·by 이호민
#Agentic AI#LLM#Mamba#MoE#Transformer

핵심 포인트

  • 1Nemotron 3 Super는 Multi-Agent AI 시스템의 'thinking tax' 및 'context explosion' 문제를 해결하기 위해 설계된 오픈 하이브리드 Mamba-Transformer MoE 모델입니다.
  • 2이 모델은 Mamba와 Transformer 레이어를 결합하여 긴 Context 효율성과 정밀한 Reasoning을 제공하며, Latent MoE, Multi-token prediction, Native NVFP4 pretraining 등 혁신적인 기술을 통합합니다.
  • 3Nemotron 3 Super는 높은 처리량과 정확도로 Agentic Reasoning, Coding, Long-context 분석에 뛰어나며, Weights, Datasets, Recipes를 모두 공개하여 개발자들이 쉽게 활용하고 최적화할 수 있도록 합니다.

Nemotron 3 Super는 agentic AI 시스템의 주요 과제인 "Context Explosion"과 "Thinking Tax"를 해결하기 위해 설계된 대규모 언어 모델(LLM)입니다. 이 모델은 총 120B 파라미터 중 12B의 active 파라미터를 가진 MoE(Mixture-of-Experts) 아키텍처를 특징으로 하며, 이전 Nemotron Super 대비 5배 이상 높은 처리량(throughput)을 제공합니다. 1M 토큰의 native context window를 지원하여 장기 기억 및 정교한 추론을 가능하게 합니다. 모델 가중치(weights), 데이터셋, 학습 레시피를 포함하여 완전히 공개되어 있습니다.

Nemotron 3 Super의 핵심 기술 혁신은 다음과 같습니다.

  1. Latent MoE: 기존 MoE 아키텍처에서 토큰이 experts에게 라우팅되기 전에 토큰 임베딩을 압축된 저차원(low-rank) latent space로 투영(project)합니다. Expert 연산은 이 작은 차원에서 수행된 후 다시 전체 모델 차원으로 투영됩니다. 이를 통해 동일한 추론 비용으로 4배 더 많은 expert specialists를 활용할 수 있어, 더 세분화된(finer-grained) 전문화를 가능하게 합니다.
  2. Multi-token prediction (MTP): 단일 토큰 예측 방식과 달리, 각 위치에서 여러 미래 토큰을 동시에 예측하도록 훈련됩니다. 이는 훈련 중 모델이 장거리 구조(longer-range structure)와 논리적 종속성(logical dependencies)을 내재화하도록 강제하여 강력한 추론 능력을 향상시킵니다. 추론 시에는 단일 forward pass로 여러 토큰을 예측하여 내장된(built-in) speculative decoding 기능을 제공하며, 긴 시퀀스 생성 시간을 획기적으로 줄여 최대 3배의 wall-clock speedup을 달성합니다. 모든 MTP 헤드가 가중치를 공유하는(shared-weight) 디자인을 사용하여 파라미터 오버헤드를 최소화하고 훈련 안정성을 향상시킵니다.
  3. Hybrid Mamba-Transformer backbone: Mamba-2 레이어와 Transformer attention 레이어, 그리고 MoE 레이어를 교차(interleave)하여 구성됩니다.
    • Mamba-2 layers: 대부분의 시퀀스 처리를 담당하며, 시퀀스 길이에 대해 선형 시간 복잡도(O(L)\mathcal{O}(L))를 가집니다. 이는 1M 토큰 context window를 실용적으로 만들고 메모리 사용량을 관리할 수 있도록 돕습니다.
    • Transformer attention layers: 특정 깊이에 interleaved되어 순수 SSM(State Space Models)이 어려워하는 정밀한 연관성 회상(associative recall) 능력을 보존합니다. 이는 긴 context 내에서 특정 정보를 찾아내는 데 필수적입니다.
    • MoE layers: dense computation 비용 없이 유효 파라미터 수를 확장하며, 토큰당 일부 expert만 활성화되어 낮은 지연 시간(latency)과 높은 처리량을 유지합니다.
  4. Native NVFP4 pretraining: 모델 훈련 시 대부분의 부동 소수점 연산을 NVIDIA의 4-bit 부동 소수점 형식인 NVFP4로 수행합니다. 이는 훈련 후에 양자화하는 방식과 달리, 훈련 시작부터 4-bit 연산의 제약 내에서 정확도를 학습하게 하여 메모리 요구 사항을 크게 줄이고 추론 속도를 4배 향상(NVIDIA B200에서 FP8을 사용한 H100 대비)시키면서도 정확도를 유지합니다.

Nemotron 3 Super의 훈련은 세 단계로 이루어집니다.

  1. Pretraining: 25조 토큰(unique curated 토큰 10조개 포함)으로 NVFP4를 사용하여 사전 훈련됩니다. Reasoning 및 코딩 관련 추가 데이터에 compute를 집중했습니다.
  2. Supervised fine-tuning (SFT): 약 7백만 개의 SFT 샘플(총 4천만 개의 post-training corpus에서 추출)을 사용하여 모델의 동작을 형성합니다. 이는 추론, 지시 따르기(instruction following), 코딩, 안전(safety), 다단계 agent task를 포함합니다.
  3. Multi-environment reinforcement learning (RL): NVIDIA NeMo Gym 및 NeMo RL을 사용하여 21개의 다양한 환경 구성에서 120만 회 이상의 환경 롤아웃(rollouts)을 통해 후처리(post-trained)됩니다. 이는 모델이 단일 응답뿐만 아니라 일련의 동작(tool calls, functional code, multi-part plans)을 수행하는 능력을 강화하며, 다단계 워크플로우에서 안정적인 동작을 가능하게 하고 "reasoning drift"를 줄입니다.

Nemotron 3 Super는 새로운 agentic 벤치마크인 PinchBench에서 85.6%의 점수를 기록하며 동급 오픈 모델 중 최고 성능을 보여주었습니다. 또한, Nemotron 3 Super는 Nemotron 3 Nano와 함께 사용하여 복잡한 다단계 agentic 작업에는 Super를, 특정 개별 단계 실행에는 Nano를 활용하는 "Super + Nano" 배포 패턴을 지원하여 효율성을 극대화합니다. 모델은 Hugging Face와 NVIDIA NIM을 통해 제공되며, 전체 학습 및 평가 레시피, 배포 Cookbook (vLLM, SGLang, TensorRT-LLM), 미세 조정(fine-tuning) Cookbook (LoRA/SFT, GRPO/DAPO), 그리고 사전 훈련(pretraining) 및 후처리(post-training) 데이터셋을 포함한 오픈 리소스를 제공합니다.