목록으로
Qwen/Qwen3-Next-80B-A3B-Instruct · Hugging Face
News2025.09.14

Qwen/Qwen3-Next-80B-A3B-Instruct · Hugging Face

요약

Qwen3-Next-80B-A3B-Instruct는 Hybrid Attention, High-Sparsity MoE, Multi-Token Prediction과 같은 혁신적인 아키텍처 개선을 통해 효율적인 스케일링을 목표로 하는 차세대 파운데이션 모델입니다.
이 모델은 80B 파라미터를 가지며, 기존 Qwen3-32B-Base 대비 10%의 훈련 비용으로 더 나은 성능을 보여주며, Qwen3-235B-A22B-Instruct-2507과 대등한 벤치마크 결과를 달성합니다.
Qwen3-Next-80B-A3B-Instruct는 기본적으로 256K 토큰의 초장문 Context Length를 지원하며, YaRN 기술을 사용하여 최대 100만 토큰까지 확장 가능하고, 강력한 Agentic 기능을 제공합니다.

상세 내용

Qwen3-Next-80B-A3B-Instruct 모델은 총 파라미터(total parameters)와 컨텍스트 길이(context length)를 확장하려는 AI 개발 동향에 발맞춰 개발된 차세대 파운데이션 모델입니다. 이 모델은 확장 효율성을 혁신적인 모델 아키텍처를 통해 개선하는 데 중점을 둡니다.

주요 개선사항 및 핵심 방법론:

  • Hybrid Attention (하이브리드 어텐션):
  • * 표준 어텐션(standard attention)을 Gated DeltaNet과 Gated Attention의 조합으로 대체합니다.
    * 이 기술은 초장문 컨텍스트(ultra-long context length)에 대한 효율적인 컨텍스트 모델링을 가능하게 합니다.
    * Gated DeltaNet: 선형 어텐션(linear attention) 방식을 사용하며, V에 대해 32개, QK에 대해 16개의 헤드(head)를 가집니다. 헤드 차원(head dimension)은 128입니다.
    * Gated Attention: Q에 대해 16개, KV에 대해 2개의 헤드를 가지며, 헤드 차원은 256입니다. Rotary Position Embedding (RoPE) 차원은 64입니다.
    * Hybrid Layout: 모델은 48개의 레이어(layer)로 구성되어 있으며, 각 레이어는 12×(3×(Gated DeltaNetMoE)1×(Gated AttentionMoE))12 \times (3 \times (\text{Gated DeltaNet} \to \text{MoE}) \to 1 \times (\text{Gated Attention} \to \text{MoE}))의 하이브리드 구조를 가집니다. 이는 Gated DeltaNet 블록 3개와 Gated Attention 블록 1개가 MoE 레이어와 결합된 형태로 12번 반복됨을 의미합니다.

  • High-Sparsity Mixture-of-Experts (MoE, 고희소성 전문가 혼합):
  • * MoE 레이어에서 극도로 낮은 활성화 비율(extreme low activation ratio)을 달성하여, 토큰(token)당 FLOPs를 대폭 줄이면서도 모델 용량(model capacity)을 보존합니다.
    * 총 512개의 전문가(expert) 중 10개만 활성화되며, 1개의 공유 전문가(shared expert)가 존재합니다. 전문가 중간 차원(Expert Intermediate Dimension)은 512입니다.
    * 이러한 MoE 구조는 모델의 효율성과 확장성을 동시에 잡는 데 기여합니다.

  • Stability Optimizations (안정성 최적화):
  • * zero-centeredweight-decayed layernorm과 같은 기술을 포함하여, 강력한 사전 학습(pre-training) 및 후속 학습(post-training)을 위한 안정성을 확보합니다.

  • Multi-Token Prediction (MTP, 다중 토큰 예측):
  • * 사전 학습 모델의 성능을 향상시키고 추론(inference) 속도를 가속화합니다.

    성능:

    * Qwen3-Next-80B-A3B-Base는 다운스트림 태스크(downstream tasks)에서 Qwen3-32B-Base보다 10%의 총 학습 비용(total training cost)으로 우수한 성능을 보여주며, 32K 토큰 이상의 컨텍스트에서 10배의 추론 처리량(inference throughput)을 제공합니다.
    * Qwen3-Next-80B-A3B-Instruct는 특정 벤치마크(benchmark)에서 Qwen3-235B-A22B-Instruct-2507과 동등한 성능을 보이며, 최대 256K 토큰의 초장문 컨텍스트 처리에서 상당한 강점을 입증했습니다.
    * 기본적으로 262,144 토큰의 컨텍스트 길이를 지원하며, YaRN 방법론을 사용하여 최대 1,010,000 토큰까지 확장 가능합니다.
    * RULER 벤치마크의 1M 버전 평가에서 Qwen3-Next-80B-A3B-Instruct는 91.8%의 평균 정확도(Acc avg)를 기록하며, 특히 장문 컨텍스트에서 우수한 성능을 나타냅니다.

    모델 상세 정보:

    * 유형: Causal Language Models
    * 학습 단계: Pretraining (15T tokens) & Post-training
    * 파라미터 수: 총 80B, 활성화 3B
    * 비-임베딩 파라미터 수: 79B
    * Hidden Dimension: 2048
    * 레이어 수: 48
    * Context Length: 기본 262,144 (YaRN으로 최대 1,010,000 토큰까지 확장 가능)

    배포 및 사용:

    * Hugging Face transformers 라이브러리의 main 브랜치에 통합되어 있습니다.
    * 추론을 위해서는 SGLang (버전 0.5.2 이상) 또는 vLLM (버전 0.10.2 이상)과 같은 전용 추론 프레임워크 사용이 권장됩니다. 이들 프레임워크는 MTP를 포함한 효율적인 추론을 지원합니다.
    * YaRN을 통한 초장문 컨텍스트 처리를 위해 config.json 파일에 rope_scaling 필드를 추가하거나, vLLM 및 SGLang에서 --rope-scaling 또는 --json-model-override-args와 같은 커맨드 라인 인자를 통해 설정할 수 있습니다.
    * "rope_scaling": {"rope_type": "yarn", "factor": 4.0, "original_max_position_embeddings": 262144}
    * 에이전트 기능(agentic ability)을 최대한 활용하기 위해 Qwen-Agent 사용이 권장됩니다.

    최적 성능을 위한 권장 설정:

    * Sampling Parameters: Temperature=0.7Temperature=0.7, TopP=0.8TopP=0.8, TopK=20TopK=20, MinP=0MinP=0 사용을 권장합니다.
    * presence_penalty를 0에서 2 사이로 조정하여 반복을 줄일 수 있습니다.
    * Adequate Output Length: 대부분의 질의에 대해 16,384 토큰의 출력 길이가 적절합니다.
    * Standardize Output Format: 벤치마킹 시 프롬프트(prompt)를 사용하여 모델 출력을 표준화합니다.
    * 수학 문제: "Please reason step by step, and put your final answer within \boxed{}."
    * 객관식 문제: {"answer": "C"}와 같은 JSON 구조를 프롬프트에 추가합니다.

    원본 보기
    Hugging Face
    Shared by Anonymous