Eliciting Reasoning in Language Models with Cognitive Tools

요약

이 논문은 Large Language Model(LLM)의 추론 능력 발현에 대한 논의 속에서, 인지 심리학 기반의 모듈화된 'cognitive tools'를 제안합니다.

️ 이 방법은 LLM을 에이전트 기반의 tool-calling 프레임워크에 'understand question', 'recall related', 'examine answer', 'backtracking'과 같은 인지 도구로 구현하여 LLM 내부 추론 과정을 유연하게 오케스트레이션합니다.

그 결과, 'cognitive tools'는 수학 추론 벤치마크에서 LLM의 성능을 크게 향상시키며, 특히 GPT-4.1의 AIME2024 pass@1 성능을 32%에서 53%로 높여 o1-preview를 능가하는 등 기존 방식 대비 상당한 이점을 입증했습니다.

상세 내용

이 논문은 대규모 언어 모델(LLM)에서 추론 능력을 이끌어내는 새로운 방법인 "Cognitive Tools"를 제안합니다. 기존 LLM의 추론 능력은 CoT(Chain-of-Thought)와 RL(Reinforcement Learning)을 통해 강화되어 왔지만, 최근 연구들은 기본 모델(base model) 자체에 이미 강력한 추론 능력이 내재되어 있으며 RL은 단지 이를 '드러내는' 역할을 할 뿐이라고 주장합니다. 이에 저자들은 인지 심리학 및 인지 아키텍처(예: ACT-R) 문헌에서 영감을 받아, 추론이 모듈화되고 미리 정의된 인지 작업(cognitive operation)들의 순차적이고 조화로운 실행에서 비롯된다는 아이디어를 현대적인 에이전트형 도구 호출(agentic tool-calling) 프레임워크에 구현합니다.

핵심 방법론: Cognitive Tools

제안하는 방법론은 LLM에 특정 추론 작업(reasoning operation)을 캡슐화한 소수의 "인지 도구(cognitive tools)"를 부여하는 것입니다. 각 인지 도구는 LLM 자체에 의해 실행됩니다. 이는 기존의 외부 도구(예: 계산기, 검색 엔진)와 달리 LLM의 *내부* 추론 과정을 모듈화합니다.

구체적인 실행 파이프라인은 다음과 같습니다:

초기 프롬프팅: LLM은 문제 해결을 위한 추론 과정을 시작하며, 필요에 따라 인지 도구를 호출하도록 지시받습니다. 시스템 프롬프트인 "Cognitive Tools Prompt"는 LLM에게 도구 사용의 자유도, 코드 생성 능력 활용, 그리고 최종 답변 형식(ANSWER: answer) 등을 안내합니다.

도구 호출 감지: LLM이 추론 트레이스(trace)를 생성하는 도중 정의된 인지 도구 t의 호출이 감지되면, 현재 LLM의 생성은 중단됩니다.

도구 실행: 도구 t를 캡슐화하는 모듈이 실행됩니다. 흥미롭게도, 이 각 도구는 별도의 LLM 인스턴스가 아니라 *동일한 LLM 인스턴스*를 특정 "도구 역할(tool role)"에 대한 특정 프롬프트 템플릿과 함께 호출하여 실행됩니다. 즉, 인지 도구는 LLM의 내부 추론 프로세스를 특정 서브태스크(subtask)로 격리시키는 샌드박스 환경을 제공합니다.

결과 피드백: 도구 실행의 결과물(structured intermediate result)은 다시 메인 LLM으로 피드백되어 LLM이 추론을 이어갈 수 있도록 합니다. 이 과정은 최종 답변이 생성되거나 추가적인 도구 호출이 필요할 때까지 반복됩니다.

이러한 접근 방식은 LLM이 자율적으로 적절한 시점에 "예산 강제(budget forcing)"를 유연하게 구현하는 것과 유사합니다.

제안하는 네 가지 주요 인지 도구는 다음과 같습니다:

* understand question: 질문의 핵심 개념을 식별하고, 관련 정보, 유용한 속성, 정리, 기술 등을 추출하여 문제를 분해하도록 LLM을 프롬프트합니다. 이는 인지 아키텍처의 "목표 관리(goal management)"에서 영감을 받았습니다.
* recall related: 유사한 질문에 대한 관련 지식과 정답을 LLM에 제공하여, 모델이 해당 예시를 통해 문제 해결 경로를 찾도록 안내합니다. 이는 기존의 "recall" 기반 프롬프팅 기법과 유사합니다.
* examine answer: LLM의 현재 추론 트레이스를 검토하여 가능한 결함, 잘못된 가정, 오계산 또는 고려되지 않은 제약 조건을 확인합니다. 이는 "자기 성찰(self-reflection)" 메커니즘을 구현합니다.
* backtracking: 잘못된 해결책을 발견하거나 추론 흐름에 결함이 있을 경우, 이전의 올바른 단계로 돌아가 대안적인 경로를 탐색하도록 합니다. 이는 Monte Carlo Tree Search와 유사한 탐색 개념을 반영합니다.

실험 및 결과

저자들은 AIME 2024, MATH500, AMC, Smolbenchmark와 같은 수학 추론 벤치마크에서 Qwen2.5, Llama3.1, Llama3.3과 같은 오픈 소스 모델과 GPT-4.1, o1-preview와 같은 클로즈드 소스 모델을 사용하여 실험을 수행했습니다. 평가는 pass@1 정확도를 사용하며, MATH500의 경우 LLM-as-a-judge 방식을 사용했습니다.

주요 발견은 다음과 같습니다:
* 인지 도구의 효과: 각 인지 도구는 개별적으로 LLM의 성능을 향상시키며, 특정 도구의 효과는 모델마다 다르게 나타납니다.
* 모듈성(Modularity)의 우월성: 인지 도구 접근 방식은 Kramer and Baumann (2024)의 "인지 프롬프팅(cognitive prompting)"보다 일관되게 우수한 성능을 보여줍니다. 이는 모듈화된 접근 방식이 LLM이 특정 인지 작업에 집중하고, 컨텍스트 윈도우 내의 간섭을 줄이며, 추론 과정의 유연성을 높이기 때문이라고 주장됩니다.
* 강력한 성능 향상: 인지 도구를 LLM에 적용했을 때 모든 모델과 벤치마크에서 일관되게 상당한 성능 향상을 보였습니다. 특히 GPT-4.1에 인지 도구를 적용한 결과 AIME 2024에서 pass@1 성능이 32%에서 53%로 크게 증가하여, RL로 학습된 o1-preview의 성능(44.6%)을 능가했습니다. 이는 추가 학습 없이 오직 추론 강화만으로 달성된 결과입니다.
* 코드 생성과의 시너지: 모델에 코드 생성 능력을 부여하는 것이 유익하지만, 인지 도구는 여전히 추론 능력 향상에 중요한 역할을 합니다.

결론

이 연구는 모듈화된 인지 도구라는 새로운 패러다임을 통해 LLM의 추론 능력을 효과적으로 이끌어낼 수 있음을 보여줍니다. 인지 도구는 LLM의 내부 추론 단계를 격리된 프롬프트 기반 작업으로 캡슐화함으로써, 추론 단계 간의 간섭을 줄이고, 자율적이고 유연한 문제 해결 전략을 가능하게 합니다. 이는 LLM의 추론 능력이 사후 학습(post-training)에 의해 주입되는 것이 아니라, 기본 모델에 내재된 능력을 인지적으로 구조화된 방식으로 '해제(unlock)'하는 것일 수 있다는 논쟁에 기여합니다.

#LLM #Reasoning #Cognitive Tools #Agentic Framework #Tool Calling