Qwen/Qwen3-Next-80B-A3B-Instruct · Hugging Face
요약
상세 내용
주요 개선사항 및 핵심 방법론:
* 이 기술은 초장문 컨텍스트(ultra-long context length)에 대한 효율적인 컨텍스트 모델링을 가능하게 합니다.
* Gated DeltaNet: 선형 어텐션(linear attention) 방식을 사용하며, V에 대해 32개, QK에 대해 16개의 헤드(head)를 가집니다. 헤드 차원(head dimension)은 128입니다.
* Gated Attention: Q에 대해 16개, KV에 대해 2개의 헤드를 가지며, 헤드 차원은 256입니다. Rotary Position Embedding (RoPE) 차원은 64입니다.
* Hybrid Layout: 모델은 48개의 레이어(layer)로 구성되어 있으며, 각 레이어는 의 하이브리드 구조를 가집니다. 이는 Gated DeltaNet 블록 3개와 Gated Attention 블록 1개가 MoE 레이어와 결합된 형태로 12번 반복됨을 의미합니다.
* 총 512개의 전문가(expert) 중 10개만 활성화되며, 1개의 공유 전문가(shared expert)가 존재합니다. 전문가 중간 차원(Expert Intermediate Dimension)은 512입니다.
* 이러한 MoE 구조는 모델의 효율성과 확장성을 동시에 잡는 데 기여합니다.
zero-centered 및 weight-decayed layernorm과 같은 기술을 포함하여, 강력한 사전 학습(pre-training) 및 후속 학습(post-training)을 위한 안정성을 확보합니다.성능:
* Qwen3-Next-80B-A3B-Base는 다운스트림 태스크(downstream tasks)에서 Qwen3-32B-Base보다 10%의 총 학습 비용(total training cost)으로 우수한 성능을 보여주며, 32K 토큰 이상의 컨텍스트에서 10배의 추론 처리량(inference throughput)을 제공합니다.
* Qwen3-Next-80B-A3B-Instruct는 특정 벤치마크(benchmark)에서 Qwen3-235B-A22B-Instruct-2507과 동등한 성능을 보이며, 최대 256K 토큰의 초장문 컨텍스트 처리에서 상당한 강점을 입증했습니다.
* 기본적으로 262,144 토큰의 컨텍스트 길이를 지원하며, YaRN 방법론을 사용하여 최대 1,010,000 토큰까지 확장 가능합니다.
* RULER 벤치마크의 1M 버전 평가에서 Qwen3-Next-80B-A3B-Instruct는 91.8%의 평균 정확도(Acc avg)를 기록하며, 특히 장문 컨텍스트에서 우수한 성능을 나타냅니다.
모델 상세 정보:
* 유형: Causal Language Models
* 학습 단계: Pretraining (15T tokens) & Post-training
* 파라미터 수: 총 80B, 활성화 3B
* 비-임베딩 파라미터 수: 79B
* Hidden Dimension: 2048
* 레이어 수: 48
* Context Length: 기본 262,144 (YaRN으로 최대 1,010,000 토큰까지 확장 가능)
배포 및 사용:
* Hugging Face transformers 라이브러리의 main 브랜치에 통합되어 있습니다.
* 추론을 위해서는 SGLang (버전 0.5.2 이상) 또는 vLLM (버전 0.10.2 이상)과 같은 전용 추론 프레임워크 사용이 권장됩니다. 이들 프레임워크는 MTP를 포함한 효율적인 추론을 지원합니다.
* YaRN을 통한 초장문 컨텍스트 처리를 위해 config.json 파일에 rope_scaling 필드를 추가하거나, vLLM 및 SGLang에서 --rope-scaling 또는 --json-model-override-args와 같은 커맨드 라인 인자를 통해 설정할 수 있습니다.
* "rope_scaling": {"rope_type": "yarn", "factor": 4.0, "original_max_position_embeddings": 262144}
* 에이전트 기능(agentic ability)을 최대한 활용하기 위해 Qwen-Agent 사용이 권장됩니다.
최적 성능을 위한 권장 설정:
* Sampling Parameters: , , , 사용을 권장합니다.
* presence_penalty를 0에서 2 사이로 조정하여 반복을 줄일 수 있습니다.
* Adequate Output Length: 대부분의 질의에 대해 16,384 토큰의 출력 길이가 적절합니다.
* Standardize Output Format: 벤치마킹 시 프롬프트(prompt)를 사용하여 모델 출력을 표준화합니다.
* 수학 문제: "Please reason step by step, and put your final answer within \boxed{}."
* 객관식 문제: {"answer": "C"}와 같은 JSON 구조를 프롬프트에 추가합니다.