Agentic Reasoning for Large Language Models
Paper

Agentic Reasoning for Large Language Models

Tianxin Wei
2026.01.28
·Arxiv·by web-ghost
#Agentic Reasoning#LLM#AI Agents#Reasoning#Multi-agent Systems

핵심 포인트

  • 1Agentic Reasoning은 LLM이 closed-world 환경에서의 추론 능력을 넘어, open-ended하고 dynamic한 환경에서 계획, 행동, 학습을 통해 상호작용하는 자율 Agent로 진화하는 패러다임을 제시합니다.
  • 2이 Survey는 Agentic Reasoning을 Foundational, Self-evolving, Collective multi-agent라는 세 가지 주요 차원으로 체계화하고, 각 차원을 in-context reasoning 및 post-training reasoning이라는 최적화 설정에 따라 분석합니다.
  • 3논문은 Agentic Reasoning 프레임워크의 실제 응용 사례와 벤치마크를 검토하며, Agentic 시스템 설계를 위한 실행 가능한 로드맵을 제공하고 향후 연구 과제 및 발전 방향을 제시합니다.

Agentic Reasoning은 Large Language Models(LLM)가 수동적인 시퀀스 생성 모델에서 계획, 행동, 학습을 통해 환경과 지속적으로 상호작용하는 자율 에이전트로 재구성되는 패러다임 전환을 의미합니다. 이는 추론과 행동을 통합하여, 추론을 인지, 계획, 의사결정 및 검증의 조직 원리로 자리매김합니다.

본 논문은 Agentic Reasoning을 세 가지 상호 보완적인 차원으로 체계화하여 종합적인 로드맵을 제공합니다. 첫째, Foundational Agentic Reasoning은 안정적인 환경에서 작동하는 계획(planning), 도구 사용(tool use), 탐색(search)과 같은 핵심 단일 에이전트 기능을 확립합니다. 둘째, Self-Evolving Agentic Reasoning은 에이전트가 피드백, 메모리, 적응을 통해 진화하는 환경에서 이러한 능력을 개선하는 방법을 탐구합니다. 셋째, Collective Multi-Agent Reasoning은 여러 에이전트가 역할을 조율하고, 지식을 공유하며, 공동 목표를 추구하는 협업 시나리오로 지능을 확장합니다.

이러한 세 가지 계층 전반에 걸쳐, Agentic Reasoning은 두 가지 상보적인 최적화 모드를 통해 구현됩니다.

  1. In-context Reasoning (Inference-Time Search): 모델 파라미터 θ\theta가 고정된 상태에서, 추론 궤적을 최적화하기 위해 추론 공간 ZZ를 탐색하여 휴리스틱 가치 함수 v^(ht,z)\hat{v}(h_t, z)를 최대화합니다. 이는 부분적인 사고(thoughts)를 노드 uUu \in U로 간주하고, 최적의 경로 τargmaxτtv^ϕ(ut)\tau^* \in \arg\max_{\tau} \sum_t \hat{v}_{\phi}(u_t)를 탐색하는 방식으로 모델링됩니다. ReAct와 같은 방법은 사고 zz와 행동 aa를 번갈아 가며 Greedy decoding을 수행하며, Tree-of-Thoughts (ToT)는 MCTS-style 접근 방식을 사용하여 계획을 수행합니다.
  2. Post-training Reasoning (Policy Optimization): 에이전트의 행동을 장기적인 보상 rtr_t (예: 정확성, 안전성)에 맞게 정렬하기 위해 모델 파라미터 θ\theta를 최적화합니다. 이는 다중 턴 추론 또는 도구 사용을 학습하는 데 사용됩니다. 표준적인 Reinforcement Learning (RL) 방법인 PPO가 사용될 수 있지만, GRPO (Group Relative Policy Optimization)와 같은 방법도 널리 사용됩니다. GRPO의 목적 함수는 다음과 같습니다:
LGRPO(θ)=EqP(Q)[1Gi=1G(min(ρiA^i,clip(ρi,1ϵ,1+ϵ)A^i)βDKL(πθπref))]L_{\text{GRPO}}(\theta) = E_{q \sim P(Q)} \left[ \frac{1}{G} \sum_{i=1}^{G} \left( \min(\rho_i \hat{A}_i, \text{clip}(\rho_i, 1 - \epsilon, 1 + \epsilon) \hat{A}_i) - \beta D_{KL}(\pi_{\theta} \| \pi_{\text{ref}}) \right) \right]
여기서 ρi=πθ(yiq)πθold(yiq)\rho_i = \frac{\pi_{\theta}(y_i|q)}{\pi_{\theta_{\text{old}}}(y_i|q)}이고, 그룹 정규화된 advantage는 A^i=riμσ+δ\hat{A}_i = \frac{r_i - \mu}{\sigma + \delta}이며, μ=1Gj=1Grj\mu = \frac{1}{G} \sum_{j=1}^{G} r_j, σ=1Gj=1G(rjμ)2\sigma = \sqrt{\frac{1}{G} \sum_{j=1}^{G} (r_j - \mu)^2}입니다. ARPO 및 DAPO와 같은 고급 방법은 이 프레임워크를 확장하여 희소 보상 및 복잡한 도구 사용 환경에서 안정성을 개선합니다.

에이전트의 정책은 πθ(zt,atht)=πreason(ztht)πexec(atht,zt)\pi_{\theta}(z_t, a_t | h_t) = \pi_{\text{reason}}(z_t | h_t) \cdot \pi_{\text{exec}}(a_t | h_t, z_t)로 분해되어, A(acting)에 앞서 Z(thinking)에서 계산을 수행하는 Agentic systems의 핵심 변화를 강조합니다.

Self-Evolving Agentic Reasoning은 에이전트 시스템 자체를 에피소드 k=1,,Kk=1, \dots, K에 걸쳐 최적화하는 메타 학습 루프로 설명됩니다. 진화 가능한 시스템 상태 SkS_k (예: 명시적 메모리, 도구 라이브러리, 코드)는 Sk+1U(Sk,τk,Fk)S_{k+1} \leftarrow U(S_k, \tau_k, F_k) 규칙에 따라 업데이트됩니다. 여기서 FkF_k는 환경 피드백입니다. 이는 Verbal Evolution (Reflexion), Procedural Evolution (Voyager), Structural Evolution (AlphaEvolve) 등으로 분류됩니다.

Collective Multi-Agent Reasoning은 Decentralized Partially Observable Markov Decision Process (Dec-POMDP)로 확장되며, 각 에이전트의 관찰 otio_t^i에 통신 채널 CC가 포함됩니다. 에이전트 간의 통신은 추론 과정의 확장으로 간주되며, 한 에이전트의 외부 행동이 다른 에이전트의 내부 추론 체인을 촉발하는 프롬프트 역할을 할 수 있습니다.

본 조사는 Agentic Reasoning을 과학, 로봇 공학, 헬스케어, 자율 연구 및 수학과 같은 실제 응용 분야 및 벤치마크에 적용된 사례를 검토합니다. 마지막으로, 개인화, 장기적 상호작용, 월드 모델링, 확장 가능한 다중 에이전트 훈련 및 거버넌스 프레임워크와 같은 미해결 과제 및 미래 방향을 제시합니다.