Qwen/Qwen3-Coder-Next · Hugging Face
Feed

Qwen/Qwen3-Coder-Next · Hugging Face

2026.02.06
·Hugging Face·by 성산/부산/잡부
#LLM#AI#Code Generation

핵심 포인트

  • 1Qwen3-Coder-Next는 코딩 에이전트 및 로컬 개발을 위해 특별히 설계된 open-weight 언어 모델입니다.
  • 2총 80B 파라미터 중 3B의 활성화된 파라미터만으로도 10-20배 더 큰 모델과 유사한 성능을 제공하며, 256k의 긴 Context Length와 고급 Agentic Capabilities를 갖추고 있습니다.
  • 3이 모델은 Hugging Face `transformers`를 통해 쉽게 사용 가능하며, SGLang 및 vLLM을 활용한 OpenAI 호환 API 배포를 지원하여 다양한 개발 환경에 통합할 수 있습니다.

Qwen3-Coder-Next는 코딩 에이전트 및 로컬 개발을 위해 특별히 설계된 오픈-웨이트(open-weight) 언어 모델입니다. 이 모델은 단 3B의 활성화된 파라미터(총 80B 파라미터 중)로, 10~20배 더 많은 활성 파라미터를 가진 모델들과 비견되는 성능을 달성하여 에이전트 배포에 매우 비용 효율적입니다. 또한, 정교한 훈련 레시피를 통해 장기 추론(long-horizon reasoning), 복잡한 도구 사용(complex tool usage), 실행 실패 복구(recovery from execution failures) 능력에서 탁월한 에이전트 역량을 발휘하며, 다양한 CLI/IDE 플랫폼(예: Claude Code, Qwen Code, Qoder, Kilo, Trae, Cline 등)과의 원활한 통합을 위해 256k의 컨텍스트 길이를 제공합니다.

모델 아키텍처 및 핵심 방법론:
Qwen3-Coder-Next는 Causal Language Models의 한 종류로, Pretraining과 Post-training 단계를 거쳐 훈련되었습니다. 총 80B의 파라미터 중 3B만이 활성화되며, 비-임베딩(Non-Embedding) 파라미터는 79B입니다. 모델의 Hidden Dimension은 2048이며, 총 48개의 레이어로 구성됩니다.

핵심적인 하이브리드 레이아웃은 다음과 같이 정의됩니다:
12×(3×(Gated DeltaNetMoE)1×(Gated AttentionMoE))12 \times (\text{3} \times (\text{Gated DeltaNet} \to \text{MoE}) \to \text{1} \times (\text{Gated Attention} \to \text{MoE}))

이는 모델이 12개의 주요 블록을 가지며, 각 블록은 Gated DeltaNet과 Gated Attention 메커니즘을 MoE(Mixture of Experts)와 결합하여 사용함을 의미합니다.

  • Gated Attention: Q(쿼리)에 대해 16개, KV(키/값)에 대해 2개의 Attention Heads를 가지며, Head Dimension은 256입니다. Rotary Position Embedding(RoPE)의 차원은 64입니다.
  • Gated DeltaNet: V(값)에 대해 32개, QK(쿼리/키)에 대해 16개의 Linear Attention Heads를 가지며, Head Dimension은 128입니다.
  • Mixture of Experts (MoE): 총 512개의 Expert들 중에서 10개의 Expert가 활성화되며, 1개의 Shared Expert가 존재합니다. Expert의 Intermediate Dimension은 512입니다. 이러한 MoE 구조는 모델이 특정 입력에 따라 필요한 전문가를 선택적으로 활성화함으로써, 전체 파라미터 수가 크더라도 실제 연산에 필요한 활성 파라미터 수를 줄여 효율성을 높이는 데 기여합니다.

모델은 262,144 토큰(256K)의 Context Length를 natively 지원합니다. enablethinking=Falseenable_thinking=False 설정이 더 이상 필요하지 않으며, <think></think> <think></think> 블록을 생성하지 않는 "non-thinking mode"만 지원합니다.

활용 및 배포:
Qwen3-Coder-Next는 transformers 라이브러리를 통해 쉽게 로드하고 사용할 수 있습니다. AutoTokenizer.from_pretrainedAutoModelForCausalLM.from_pretrained를 사용하여 모델을 불러온 후, apply_chat_template으로 대화 형식을 적용하여 텍스트 생성을 수행합니다. OOM(Out-Of-Memory) 문제가 발생할 경우, 컨텍스트 길이를 32,768과 같이 줄일 수 있습니다.

배포를 위해 sglang (v0.5.8 이상) 또는 vllm (v0.15.0 이상)을 사용하여 OpenAI-compatible API 엔드포인트를 생성할 수 있습니다. 예를 들어, sglang을 사용하면 --tool-call-parser qwen3_coder 옵션과 함께 --tp-size 2로 텐서 병렬 처리를 활용하여 API 서버를 시작할 수 있습니다.

에이전트 코딩 능력은 특히 강점이며, 모델은 함수 호출(tool calling) 기능을 통해 외부 도구를 효과적으로 활용할 수 있습니다. OpenAI 라이브러리를 사용하여 로컬에 배포된 모델과 통신하며, 정의된 함수를 호출할 수 있습니다. 예를 들어, square_the_number와 같은 함수를 정의하고, 모델이 사용자 질의에 따라 이 함수를 호출하도록 할 수 있습니다.

최적의 성능을 위해서는 temperature=1.0temperature=1.0, topp=0.95top_p=0.95, topk=40top_k=40와 같은 샘플링 파라미터를 사용하는 것이 권장됩니다.