GitHub - Marker-Inc-Korea/COT_steering: This repository aims to develop CoT Steering based on CoT without Prompting. It focuses on enhancing the model’s latent reasoning capability without additional training by leveraging Test-Time Scaling techniques.
요약
상세 내용
CoT reasoning은 본질적으로 탐색(search) 문제이며, 모델은 올바른 답으로 이어지는 최적의 추론 경로를 찾기 위해 여러 후보 경로를 탐색합니다. 그러나 사전 훈련(pretraining) 또는 미세 조정(fine-tuning) 과정에서 습득된 편향으로 인해 모델의 기본 탐색 동작은 종종 솔루션 공간의 좁고 최적화되지 않은 영역에 제한됩니다. 본 연구에서는 "CoT without Prompting"이라는 디코딩 전략을 통해 모델의 검색 공간을 확장하여 명시적인 프롬프트 없이도 모델 내부의 잠재적인 추론 경로를 발견할 수 있도록 합니다.
기존의 "CoT without Prompting" 구현 방식이 디코딩 프로세스의 잘못된 수정, 부적절한 집계(aggregation) 메커니즘, 그리고 의도된 탐색 의미(search semantics)를 보존하지 못하는 문제점을 지적하며, 본 연구는 원본 공식에 충실하게 재구현했습니다. 더 나아가, 모델의 추론 궤적을 명시적으로 조건화하는 메커니즘으로 "steering tokens"를 도입하여 확장했습니다. 이는 제어된 방식으로 검색 공간을 좁혀 모델이 구조화된 CoT 경로를 더 안정적으로 따를 수 있도록 합니다. Steering은 이론적으로는 latent space에서도 적용될 수 있지만, 본 연구에서는 모델의 autoregressive 특성을 활용하여 디코딩 과정에 제약 조건을 직접 주입하는 토큰 레벨(token level)에서 적용됩니다. Steering 없이 제약 없는 CoT 디코딩을 수행하려면 STEERING_TOKEN을 빈 문자열('')로 설정합니다.
이 방법론의 핵심은 Chat Template과 토큰 제약(Token Constraints)을 결합한 steering 방식에 있습니다. 여기서 steering은 모델의 디코딩 동작에 제약(constraints)을 가하여 검색 공간을 제한하거나 생성을 원하는 방향으로 유도하는 것을 의미합니다. LLM의 내장된 채팅 포맷팅 로직(예: user와 assistant 턴의 교대)을 활용하여 assistant의 응답 시작 부분에 steering token을 주입합니다. 이를 통해 모델은 마치 자신의 응답인 것처럼 출력을 생성하도록 조건화되는 동시에, 의도된 추론 궤적을 미묘하게 따르도록 제약됩니다. 이 접근 방식은 다음과 같은 장점을 가집니다.
* Prompt-agnostic: 표준 채팅 인터페이스와 호환됩니다.
* Compact and modular: 아키텍처 변경이 필요 없습니다.
* Flexible control: 모델의 생성 공간에 대한 유연한 제어를 제공합니다.
이러한 직관적인 방법은 특히 steering token이 assistant 턴에 정확히 배치될 때 Chain-of-Thought reasoning을 조종하는 데 매우 효과적입니다. 이는 모델이 제약이 있으면서도 표현력이 풍부한 하위 공간(subspace) 내에서 탐색할 수 있도록 하여, 구조화된 디코딩 형식에서 다양하면서도 제어 가능한 추론 경로를 가능하게 합니다.
본 연구는 2025학년도 한국 수능 국어 영역에 대해 CoT Steering without Prompting의 효과를 평가했습니다. FuseAI/FuseO1-DeepSeekR1-QwQ-SkyT1-32B-Preview 모델을 사용하여, 추가 훈련 없이 성능의 상당한 향상을 달성했습니다. 베이스라인 모델이 67점을 기록한 반면, CoT Steering 메커니즘을 적용한 후 모델은 84점을 기록하여 고난도 언어 이해 작업에서 test-time reasoning modulation의 잠재력을 입증했습니다. 특히, 대부분의 비교 베이스라인이 100B에서 685B에 이르는 매개변수(parameter)를 가진 모델을 활용했음에도 불구하고, 본 접근 방식은 33B 매개변수 모델을 사용하여 경쟁력 있는 성능을 달성했습니다. 이는 CoT Steering의 효율성과 효과를 강조하며, 상대적으로 작은 모델에서도 강력한 추론 능력을 발휘할 수 있음을 보여줍니다. Token level, latent space, potential function을 통한 steering 방식 간에 유의미한 성능 차이가 없어, 더 큰 유연성과 계산 효율성을 제공하는 token-level steering 방식이 채택되었습니다.
Tested environment:
* CUDA Driver Version: 535.183.06
* CUDA Toolkit Version: 12.2
* PyTorch Version: 2.6.0
* vLLM Version: 0.7.3