deepseek-ai/DeepSeek-R1-0528 · Hugging Face

요약

DeepSeek-R1-0528은 향상된 계산 리소스와 알고리즘 최적화를 통해 추론 및 추론 능력이 크게 향상된 DeepSeek R1의 마이너 버전 업그레이드 모델입니다.

이 모델은 AIME 2025 테스트에서 87.5% 정확도를 달성하고 질문당 평균 23K 토큰을 사용하는 등 수학, 프로그래밍, 일반 논리 벤치마크에서 뛰어난 성능을 보이며 O3 및 Gemini 2.5 Pro와 같은 선도적인 모델에 근접했습니다.

DeepSeek-R1-0528의 Chain-of-Thought는 DeepSeek-R1-0528-Qwen3-8B로 증류되어 AIME 2024에서 오픈소스 모델 중 SOTA 성능을 달성했으며, 이 버전은 시스템 프롬프트를 지원하고 API를 통해 접근 가능합니다.

상세 내용

본 논문은 DeepSeek-R1 모델의 마이너 버전 업그레이드인 DeepSeek-R1-0528에 대해 설명하고 있습니다. 이 새로운 버전은 계산 자원 증대와 후속 훈련(post-training) 과정에서의 알고리즘 최적화 메커니즘 도입을 통해 추론 능력과 이해력 깊이를 크게 향상시켰습니다. 그 결과, 수학, 프로그래밍, 일반 논리 등 다양한 벤치마크 평가에서 뛰어난 성능을 보여주며, O3 및 Gemini 2.5 Pro와 같은 선두 모델에 근접하는 전반적인 성능을 달성했습니다.

핵심 방법론 및 개선 사항:
DeepSeek-R1-0528의 가장 중요한 개선점은 복잡한 추론 작업을 처리하는 능력의 비약적인 발전입니다. 이는 AIME 2025 테스트에서 이전 버전의 70% 정확도에서 현재 87.5%로 향상된 것을 통해 입증됩니다. 이러한 진보는 추론 과정에서 모델의 '사고 깊이(thinking depth)'가 심화되었기 때문인데, AIME 테스트 세트에서 이전 모델이 질문당 평균 12K 토큰을 사용한 반면, 새 버전은 평균 23K 토큰을 사용하여 더 많은 사고 과정을 거쳤음을 보여줍니다.

모델의 추론 능력 향상은 단순히 토큰 사용량 증가를 넘어, 훈련 후 알고리즘적 최적화(algorithmic optimization mechanisms during post-training)를 통해 이루어졌습니다. 이는 모델이 문제 해결을 위해 더 심층적인 내부 추론 체인(chain of reasoning)을 구성하고 활용하도록 유도하는 방식으로 이루어진 것으로 보입니다.

추론 능력 외에도, DeepSeek-R1-0528은 환각(hallucination) 비율 감소, 함수 호출(function calling) 지원 강화, 그리고 'vibe coding'을 위한 더 나은 경험을 제공합니다. 모든 모델에 대해 최대 생성 길이는 64K 토큰으로 설정되어 있으며, 벤치마크 평가 시에는 $T_{\text{model}} = 0.6$ 의 온도(temperature), $P_{\text{top}} = 0.95$ 의 top-p 값, 그리고 pass@1 추정을 위해 쿼리당 16개의 응답을 생성하는 샘플링 전략을 사용했습니다.

평가 결과:
DeepSeek-R1-0528은 MMLU-Redux (93.4 EM), GPQA-Diamond (81.0 Pass@1), LiveCodeBench (73.3 Pass@1), AIME 2025 (87.5 Pass@1) 등 다양한 벤치마크에서 이전 버전에 비해 크게 향상된 점수를 기록했습니다. 특히 코드 관련 벤치마크(Codeforces-Div1 Rating 1930, SWE Verified 57.6% Resolved, Aider-Polyglot 71.6% Acc.)와 수학 벤치마크(AIME 2024 91.4% Pass@1, HMMT 2025 79.4% Pass@1)에서 두드러진 개선을 보였습니다.

DeepSeek-R1-0528-Qwen3-8B 소형 모델:
본 연구에서는 DeepSeek-R1-0528의 사고 체인(chain-of-thought)을 Qwen3 8B Base 모델에 증류(distillation)하여 DeepSeek-R1-0528-Qwen3-8B를 개발했습니다. 이 모델은 AIME 2024에서 Qwen3 8B보다 10.0%p 높은 성능을 달성하며 오픈 소스 모델 중 최고 수준(SOTA)의 성능을 보였고, Qwen3-235B-thinking과 유사한 성능을 나타냈습니다. 이는 추론 모델에 대한 학술 연구 및 소규모 모델 개발에 중요한 기여를 할 것으로 예상됩니다. DeepSeek-R1-0528-Qwen3-8B는 Qwen3-8B와 동일한 아키텍처를 가지지만, DeepSeek-R1-0528과 동일한 토크나이저(tokenizer) 설정을 사용합니다.

사용 권장 사항:
DeepSeek-R1-0528은 이제 시스템 프롬프트(system prompt)를 지원하며, 더 이상 모델을 사고 모드로 전환하기 위해 $<think>\n$ 을 출력 시작 부분에 추가할 필요가 없습니다. 시스템 프롬프트는 该助手为DeepSeek-R1，由深度求索公司创造。今天是{current date}。와 같은 형식으로 사용됩니다.

이 모델은 MIT 라이선스(License)를 따르며 상업적 사용 및 증류(distillation)를 허용합니다.

#LLM #DeepSeek #R1 #text-generation #conversational