Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled · Hugging Face
Feed

Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled · Hugging Face

2026.04.06
·Hugging Face·by 배레온/부산/개발자
#Distilled#Image-to-Text#LLM#Qwen#Reasoning

핵심 포인트

  • 1Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled는 Qwen3.5 아키텍처를 기반으로 Claude-4.6 Opus의 CoT(Chain-of-Thought) 추론을 SFT 방식으로 증류하여 복잡한 문제 해결에 최적화된 추론 모델입니다.
  • 2이 모델은 "developer" 역할을 기본 지원하고, 중단 없이 장시간 추론 모드를 유지하며, 코딩 에이전트 환경에서 향상된 자율성과 안정성을 제공합니다.
  • 3Unsloth를 활용하여 Claude 4.6 Opus 추론 데이터셋으로 학습되었으며, `<think> {internal reasoning} </think>\n {final answer}` 구조를 통해 효율적이고 구조화된 사고 패턴을 습득했습니다.

Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 모델 요약

이 문서는 Hugging Face에 공개된 Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 모델에 대한 상세 설명입니다. 이 모델은 Qwen3.5-27B를 기반으로, Claude-4.6 Opus의 고급 추론 방식을 Supervised Fine-Tuning (SFT)을 통해 증류(distillation)하여 개발된 고성능 추론 모델입니다.

모델 소개 및 목적:
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled는 복잡한 사용자 문제를 분석하고, 엄격하게 <think><think> 태그로 포맷된 내부 추론 과정을 통해 단계별 방법론을 계획하며, 정밀하고 미묘한 솔루션을 제공하는 데 탁월합니다. 이는 Claude-4.6 Opus의 Chain-of-Thought (CoT) 증류를 통해 이루어졌습니다. 이 모델의 핵심 목적은 Qwen3.5 기본 모델이 단순한 쿼리에서도 보이던 과도한 전환적이거나 반복적인 추론 경향을 해결하고, 더욱 효율적이고 구조화된 사고 패턴을 학습시키는 것입니다.

핵심 방법론 (Core Methodology):

  1. 기반 모델 (Base Model): Qwen3.5-27B 모델을 기본으로 사용합니다.
  1. 지도 미세 조정 (Supervised Fine-Tuning, SFT) 및 LoRA:
    • 목표: 고밀도 추론 로직을 주입하고, 최종 응답을 출력하기 전에 내부 사고 상태를 포함하는 문제 해결을 위한 엄격한 형식을 확립하는 것입니다.
    • LoRA (Low-Rank Adaptation): Unsloth 라이브러리를 사용하여 LoRA 기법을 통해 메모리 및 계산을 고효율적으로 최적화하면서 미세 조정을 수행했습니다. LoRA는 기존 모델 가중치를 동결하고 작은 랭크의(low-rank) 행렬을 주입하여 훈련 효율성을 높이는 기법입니다.
    • train_on_responses_only 전략: 이 전략은 미세 조정 과정에서 매우 중요합니다. 손실(loss) 계산이 오직 <think><think> 시퀀스의 생성과 그에 따른 최종 솔루션에 대해서만 이루어지도록 입력 지시사항(instructions)을 마스킹(masking)합니다. 이를 통해 모델은 사용자 입력에 대한 직접적인 복제보다는, 문제 해결을 위한 내부적인 사고 과정과 최종 답변을 생성하는 데 집중하도록 학습됩니다. 이는 모델이 추론 과정을 명시적으로 표현하도록 강제하여, 효율적인 구조화된 사고 패턴을 내면화하도록 돕습니다.
    • 형식 강제 (Format Enforcement): 모든 훈련 샘플은 모델이 <think>내부추론</think>\n최종답변<think> {내부 추론} </think>\n {최종 답변}이라는 구조를 엄격히 따르도록 체계적으로 정규화되었습니다.
  1. Claude-4.6 Opus 추론 증류 (Distillation):
    • 모델은 Claude-4.6 Opus와의 상호작용에서 얻은 Chain-of-Thought 데이터셋을 통해 추론 능력을 증류했습니다. 이는 단순히 Claude의 출력을 모방하는 것을 넘어, Claude의 구조화된 추론 방식과 문제 해결 접근법을 학습하는 것을 의미합니다.
    • 모델은 "Let me analyze this request carefully: 1..2..3..."와 같은 효율적인 구조화된 사고 패턴을 채택하여, 불필요한 인지적 반복(redundant cognitive loops)을 줄이면서도 깊은 분석 능력을 유지합니다.

훈련 환경 및 개선 사항:

  • Fine-tuning Framework: Unsloth 2026.3.3을 사용했습니다.
  • Core Dependencies: Transformers 5.2.0을 사용했습니다.
  • Jinja Template 수정: 기존 Qwen3.5 공식 모델의 Jinja 템플릿이 "developer" 역할을 지원하지 않아 발생하는 충돌(crash) 문제를 해결했습니다. 이 모델은 "developer" 역할을 기본적으로 지원하며, 사고 모드(thinking mode)가 비활성화되지 않아 에이전트가 중단 없이 9분 이상 연속 실행될 수 있도록 자율성과 안정성을 크게 향상시켰습니다.

학습 데이터셋:
고품질의 필터링된 추론 증류 데이터셋이 사용되었습니다:

  • nohurry/Opus-4.6-Reasoning-3000x-filtered: 포괄적인 Claude 4.6 Opus 추론 궤적을 제공합니다.
  • Jackrong/Qwen3.5-reasoning-700x: 구조화된 단계별 문제 해결을 강화하고 추론 다양성을 개선하기 위해 큐레이션된 추가 추론 샘플입니다.

주요 특징 및 장점:

  • 모듈식 및 구조화된 사고: Claude Opus 수준의 추론 특성을 상속받아, 모델은 프롬프트(prompt)를 자신감 있게 파싱(parsing)하고, 탐색적 "시행착오(trial-and-error)" 자기 의심 없이 <think><think> 블록에 단계별 계획을 수립합니다.
  • Tool Calling 성능: 벤치마크 테스트에 따르면, 다른 Qwen3.5 양자화 모델과 비교하여 Claude Opus 추론으로 증류된 27B 모델만이 안정적인 Tool Calling 성능을 보여줍니다.
  • Agent 환경 최적화: Claude Code 및 OpenCode와 같은 코딩 에이전트 환경에서 "developer" 역할을 기본적으로 지원하며, Jinja 템플릿 패치나 ChatML 우회 작업이 필요 없습니다. 사고 모드가 완벽하게 보존되어 전체 Chain-of-Thought 추론 과정이 유지됩니다. 자율성과 안정성이 크게 향상되어, 자율적으로 9분 이상 연속 실행 가능하며, 도구 응답을 기다리고, 출력을 읽고, 오류를 자체 수정하며, README 파일까지 자동 생성할 수 있습니다.

제한 사항 및 의도된 사용 시나리오:

  • 환각 위험 (Hallucination Risk): 추론 능력은 강력하지만, 여전히 자기회귀 언어 모델(autoregressive LLM)이므로, 실제 세계의 사건을 확인하는 경우 사고 시퀀스에서 제공되는 외부 사실에 간혹 환각(hallucinations)이 포함될 수 있습니다.
  • 의도된 시나리오: AI의 내부 로직을 투명하게 추적해야 하는 오프라인 분석 작업, 코딩, 수학 및 논리 의존적인 프롬프트에 가장 적합합니다.
  • 프리뷰 버전: 모델이 비교적 새롭고 가볍기 때문에, 추론 템플릿, 미세 조정 파이프라인, 라우팅 구성, 도구 통합 등 주변 생태계가 아직 완전히 성숙하지 않거나 표준화되지 않았을 수 있습니다.

감사 및 인용:
빠른 미세 조정을 가능하게 한 Unsloth AI 팀과 탁월한 증류 데이터셋을 제공한 오픈소스 커뮤니티 개발자들에게 감사를 표합니다. 이 모델을 연구 또는 프로젝트에 사용하는 경우, 제시된 BibTeX 형식으로 인용할 것을 권장합니다.