본 논문은 대규모 언어 모델(LLMs)의 복잡한 추론 능력 향상에 있어서 Reinforcement Learning with Verifiable Rewards (RLVR)와 같은 기존의 강화 학습 방법론이 가지는 한계, 즉 값비싸고 도메인에 특화된 외부 보상(external rewards)에 대한 의존성을 극복하고자 합니다. 이를 위해 외부 보상이나 레이블링된 데이터 없이 모델 자체의 내재적 신호(intrinsic signals)로부터 학습하는 Reinforcement Learning from Internal Feedback (RLIF)이라는 새로운 패러다임을 제안하고 탐구합니다.
본 논문에서 제안하는 INTUITOR는 RLIF의 구체적인 구현체로, 모델 자신의 "자기 확신(self-certainty)"을 유일한 보상 신호로 활용합니다. Self-certainty는 모델의 출력 분포와 균일 분포(uniform distribution) 사이의 평균 KL divergence로 정의됩니다. 수식으로 표현하면 다음과 같습니다.
Self-certainty(o∣q):=∣o∣1i=1∑∣o∣KL(U∥pπθ(⋅∣q,o<i))=−∣o∣⋅∣V∣1i=1∑∣o∣j=1∑∣V∣log(∣V∣⋅pπθ(j∣q,o<i))
여기서 q는 입력 쿼리, o는 생성된 출력, o<i는 이전에 생성된 토큰들, U는 어휘(vocabulary) V에 대한 균일 분포, pπθ(⋅∣q,o<i)는 모델의 다음 토큰 분포를 나타냅니다. Self-certainty 값이 높을수록 모델의 확신도가 높음을 의미합니다. INTUITOR는 기존 RLVR 프레임워크인 Group Relative Policy Optimization (GRPO)에서 외부 검증 가능한 보상 신호 대신 이 self-certainty 점수를 사용합니다.
GRPO의 목표 함수는 다음과 같습니다.
JGRPO(θ)=Eq∼P(Q),{oi}i=1G∼πθold(O∣q)[G1i=1∑Gmin(ci,t(θ)A^i,t,clip(ci,t(θ),1−ϵ,1+ϵ)A^i,t)−βDKL(πθ∥πref)]
여기서 ci,t(θ)=πθold(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t)는 확률 비율이고, DKL(πθ∥πref)는 현재 정책 πθ와 참조 정책 πref 간의 KL divergence입니다.
INTUITOR는 이 GRPO에서 보상 대신 self-certainty 점수를 사용합니다. 구체적으로, 각 출력 oi에 대해 ui=Self-certainty(oi∣q)를 계산하고, 이 점수들을 사용하여 어드밴티지(advantage)를 추정합니다. 정규화된 어드밴티지 A^i,t는 다음과 같이 계산됩니다.
A^i,t=std({u1,u2,⋯,uG})ui−mean({u1,u2,⋯,uG})
이러한 방식으로 INTUITOR는 모델이 자체적으로 더 확신하는 출력을 선호하도록 정책을 업데이트하여, 외부 지도 없이도 학습이 이루어지도록 합니다.
실험은 Qwen2.5-1.5B 및 Qwen2.5-3B 모델을 백본으로 사용하여 MATH 데이터셋으로 GRPO 및 INTUITOR를 학습시켰습니다. GRPO-PV(plurality voting) 변형도 비교를 위해 사용되었습니다. INTUITOR-Code는 Codeforces 데이터셋에 대해 더 작은 학습률과 스텝 수로 학습되었습니다. 평가는 수학 추론(GSM8K, MATH500), 코드 생성(LiveCodeBench v6, CRUXEval-O), 지시 따르기(AlpacaEval 2.0) 및 일반 상식(MMLU-Pro) 벤치마크에서 수행되었습니다.
주요 결과는 다음과 같습니다:
성능 동등성 및 우수한 일반화: INTUITOR는 gold answers에 의존하지 않고도 MATH와 GSM8K 같은 인-도메인(in-domain) 수학 벤치마크에서 GRPO와 견줄만한 성능을 달성했습니다. 특히, 아웃-오브-도메인(out-of-domain) 코드 생성 태스크(LiveCodeBench, CRUXEval-O)에서는 GRPO보다 훨씬 우수한 일반화 성능을 보였습니다. 예를 들어, Qwen2.5-3B 모델의 경우 LiveCodeBench에서 GRPO 대비 65% 상대적 성능 향상을, CRUXEval-O에서는 76% 상대적 성능 향상을 보였습니다.
지시 따르기 능력 향상: INTUITOR는 Qwen2.5-1.5B와 3B 모델 모두에서 AlpacaEval의 Length Control Win Rate를 GRPO보다 더 크게 향상시켰으며, 이는 지시 준수 능력의 강력한 향상을 시사합니다.
빠른 초기 학습 및 구조화된 추론: Self-certainty는 연속적이고 과정 지향적인 보상 신호로, 모델이 더 효과적인 학습 궤적을 따르도록 돕습니다. 초기 학습 단계(예: 10 스텝)에서 INTUITOR는 GRPO보다 GSM8K와 MATH 모두에서 일관되게 더 높은 성능을 보였습니다. 또한, INTUITOR로 학습된 모델은 CRUXEval-O 및 LiveCodeBench에서 프롬프트가 JSON 형식의 추론을 요구함에도 불구하고, 코드 생성 전 자유 형식의 자연어 추론을 먼저 수행하는 경향을 보였습니다. 이는 모델이 스스로 이해도를 높이는 방향으로 추론 과정을 구조화하는 능력, 즉 R1과 같은 장문의 추론 능력이 자연스럽게 발현되었음을 시사합니다.
점진적 학습과 자기 설명: LiveCodeBench에 대한 출력 분석 결과, 모델은 초기에는 유효한 코드 생성에 집중하다가 점차적으로 코드를 생성하기 전에 추론 과정을 추가하여 자기 설명을 강화하는 방식으로 발전하는 경향을 보였습니다. 이는 모델이 자체적인 확신을 높이기 위해 더 상세한 추론 단계를 생성하는 학습 메커니즘을 시사합니다.결론적으로, INTUITOR는 LLMs가 외부의 값비싼 보상 없이도 내재적 신호인 자기 확신을 통해 효과적으로 학습하고, 다양한 도메인에서 우수한 일반화 능력을 보이는 새로운 가능성을 제시합니다. 이는 AI 시스템의 자율 학습을 위한 확장 가능한 대안을 제공합니다.