Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled · Hugging Face
핵심 포인트
- 1Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled는 Qwen3.5 아키텍처를 기반으로 Claude-4.6 Opus의 CoT(Chain-of-Thought) 추론을 SFT 방식으로 증류하여 복잡한 문제 해결에 최적화된 추론 모델입니다.
- 2이 모델은 "developer" 역할을 기본 지원하고, 중단 없이 장시간 추론 모드를 유지하며, 코딩 에이전트 환경에서 향상된 자율성과 안정성을 제공합니다.
- 3Unsloth를 활용하여 Claude 4.6 Opus 추론 데이터셋으로 학습되었으며, `<think> {internal reasoning} </think>\n {final answer}` 구조를 통해 효율적이고 구조화된 사고 패턴을 습득했습니다.
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 모델 요약
이 문서는 Hugging Face에 공개된 Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 모델에 대한 상세 설명입니다. 이 모델은 Qwen3.5-27B를 기반으로, Claude-4.6 Opus의 고급 추론 방식을 Supervised Fine-Tuning (SFT)을 통해 증류(distillation)하여 개발된 고성능 추론 모델입니다.
모델 소개 및 목적:
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled는 복잡한 사용자 문제를 분석하고, 엄격하게 태그로 포맷된 내부 추론 과정을 통해 단계별 방법론을 계획하며, 정밀하고 미묘한 솔루션을 제공하는 데 탁월합니다. 이는 Claude-4.6 Opus의 Chain-of-Thought (CoT) 증류를 통해 이루어졌습니다. 이 모델의 핵심 목적은 Qwen3.5 기본 모델이 단순한 쿼리에서도 보이던 과도한 전환적이거나 반복적인 추론 경향을 해결하고, 더욱 효율적이고 구조화된 사고 패턴을 학습시키는 것입니다.
핵심 방법론 (Core Methodology):
- 기반 모델 (Base Model): Qwen3.5-27B 모델을 기본으로 사용합니다.
- 지도 미세 조정 (Supervised Fine-Tuning, SFT) 및 LoRA:
- 목표: 고밀도 추론 로직을 주입하고, 최종 응답을 출력하기 전에 내부 사고 상태를 포함하는 문제 해결을 위한 엄격한 형식을 확립하는 것입니다.
- LoRA (Low-Rank Adaptation): Unsloth 라이브러리를 사용하여 LoRA 기법을 통해 메모리 및 계산을 고효율적으로 최적화하면서 미세 조정을 수행했습니다. LoRA는 기존 모델 가중치를 동결하고 작은 랭크의(low-rank) 행렬을 주입하여 훈련 효율성을 높이는 기법입니다.
train_on_responses_only전략: 이 전략은 미세 조정 과정에서 매우 중요합니다. 손실(loss) 계산이 오직 시퀀스의 생성과 그에 따른 최종 솔루션에 대해서만 이루어지도록 입력 지시사항(instructions)을 마스킹(masking)합니다. 이를 통해 모델은 사용자 입력에 대한 직접적인 복제보다는, 문제 해결을 위한 내부적인 사고 과정과 최종 답변을 생성하는 데 집중하도록 학습됩니다. 이는 모델이 추론 과정을 명시적으로 표현하도록 강제하여, 효율적인 구조화된 사고 패턴을 내면화하도록 돕습니다.- 형식 강제 (Format Enforcement): 모든 훈련 샘플은 모델이 이라는 구조를 엄격히 따르도록 체계적으로 정규화되었습니다.
- Claude-4.6 Opus 추론 증류 (Distillation):
- 모델은 Claude-4.6 Opus와의 상호작용에서 얻은 Chain-of-Thought 데이터셋을 통해 추론 능력을 증류했습니다. 이는 단순히 Claude의 출력을 모방하는 것을 넘어, Claude의 구조화된 추론 방식과 문제 해결 접근법을 학습하는 것을 의미합니다.
- 모델은 "Let me analyze this request carefully: 1..2..3..."와 같은 효율적인 구조화된 사고 패턴을 채택하여, 불필요한 인지적 반복(redundant cognitive loops)을 줄이면서도 깊은 분석 능력을 유지합니다.
훈련 환경 및 개선 사항:
- Fine-tuning Framework: Unsloth 2026.3.3을 사용했습니다.
- Core Dependencies: Transformers 5.2.0을 사용했습니다.
- Jinja Template 수정: 기존 Qwen3.5 공식 모델의 Jinja 템플릿이 "developer" 역할을 지원하지 않아 발생하는 충돌(crash) 문제를 해결했습니다. 이 모델은 "developer" 역할을 기본적으로 지원하며, 사고 모드(thinking mode)가 비활성화되지 않아 에이전트가 중단 없이 9분 이상 연속 실행될 수 있도록 자율성과 안정성을 크게 향상시켰습니다.
학습 데이터셋:
고품질의 필터링된 추론 증류 데이터셋이 사용되었습니다:
nohurry/Opus-4.6-Reasoning-3000x-filtered: 포괄적인 Claude 4.6 Opus 추론 궤적을 제공합니다.Jackrong/Qwen3.5-reasoning-700x: 구조화된 단계별 문제 해결을 강화하고 추론 다양성을 개선하기 위해 큐레이션된 추가 추론 샘플입니다.
주요 특징 및 장점:
- 모듈식 및 구조화된 사고: Claude Opus 수준의 추론 특성을 상속받아, 모델은 프롬프트(prompt)를 자신감 있게 파싱(parsing)하고, 탐색적 "시행착오(trial-and-error)" 자기 의심 없이 블록에 단계별 계획을 수립합니다.
- Tool Calling 성능: 벤치마크 테스트에 따르면, 다른 Qwen3.5 양자화 모델과 비교하여 Claude Opus 추론으로 증류된 27B 모델만이 안정적인 Tool Calling 성능을 보여줍니다.
- Agent 환경 최적화: Claude Code 및 OpenCode와 같은 코딩 에이전트 환경에서 "developer" 역할을 기본적으로 지원하며, Jinja 템플릿 패치나 ChatML 우회 작업이 필요 없습니다. 사고 모드가 완벽하게 보존되어 전체 Chain-of-Thought 추론 과정이 유지됩니다. 자율성과 안정성이 크게 향상되어, 자율적으로 9분 이상 연속 실행 가능하며, 도구 응답을 기다리고, 출력을 읽고, 오류를 자체 수정하며, README 파일까지 자동 생성할 수 있습니다.
제한 사항 및 의도된 사용 시나리오:
- 환각 위험 (Hallucination Risk): 추론 능력은 강력하지만, 여전히 자기회귀 언어 모델(autoregressive LLM)이므로, 실제 세계의 사건을 확인하는 경우 사고 시퀀스에서 제공되는 외부 사실에 간혹 환각(hallucinations)이 포함될 수 있습니다.
- 의도된 시나리오: AI의 내부 로직을 투명하게 추적해야 하는 오프라인 분석 작업, 코딩, 수학 및 논리 의존적인 프롬프트에 가장 적합합니다.
- 프리뷰 버전: 모델이 비교적 새롭고 가볍기 때문에, 추론 템플릿, 미세 조정 파이프라인, 라우팅 구성, 도구 통합 등 주변 생태계가 아직 완전히 성숙하지 않거나 표준화되지 않았을 수 있습니다.
감사 및 인용:
빠른 미세 조정을 가능하게 한 Unsloth AI 팀과 탁월한 증류 데이터셋을 제공한 오픈소스 커뮤니티 개발자들에게 감사를 표합니다. 이 모델을 연구 또는 프로젝트에 사용하는 경우, 제시된 BibTeX 형식으로 인용할 것을 권장합니다.