The Second Half

요약

AI의 첫 번째 절반은 벤치마크를 능가하는 새로운 훈련 방법과 모델 개발에 집중했지만, 방대한 language pre-training과 scale, 그리고 reasoning을 결합한 새로운 'recipe'가 다양한 복합 task에서 RL이 일반화되도록 만들었습니다.

이 강력한 'recipe'는 이제 점진적인 방법론을 무의미하게 만들고 새로운 benchmark들을 빠르게 해결하며, 문제 해결에서 평가의 근본적인 재정의로 초점을 전환할 필요성을 제기합니다.

AI의 '두 번째 절반'은 현재의 자동화되고 i.i.d. 가정에서 벗어나 실제 시나리오와 utility를 반영하는 새로운 evaluation setup을 개발하여 'utility problem'을 해결하고 진정으로 영향력 있는 발전을 이끌어야 합니다.

상세 내용

이 논문은 AI 발전의 역사를 "전반전(first half)"과 "후반전(second half)"으로 나누어 설명하며, AI 연구의 패러다임 변화를 주장합니다.

전반전 (The First Half): 모델 및 방법론 중심
AI의 전반전은 주로 새로운 훈련 방법론과 모델을 개발하는 데 집중했습니다. Transformer, AlexNet, GPT-3와 같은 혁신적인 모델들은 특정 벤치마크(예: WMT'14 for Transformer)에서 성능을 크게 향상시키며 성공을 거두었습니다. 이 시기에는 방법론(methods) 자체가 태스크 정의나 벤치마크보다 중요하게 여겨졌는데, 이는 새로운 알고리즘이나 아키텍처(예: backpropagation, CNN, Transformer)를 만드는 것이 훨씬 더 많은 통찰력과 공학적 노력을 필요로 했기 때문입니다. 또한, Transformer와 같이 개발된 방법론들은 초기 적용 분야를 넘어 CV, NLP, RL 등 다양한 도메인에서 광범위하게 적용될 수 있었기 때문에 더 큰 영향력을 가졌습니다. 즉, 전반전의 게임은 새로운 모델과 방법론을 구축하고, 벤치마크를 통해 그 효과를 입증하는 것이었습니다.

변화의 시점: RL의 일반화 (RL finally works and generalizes)
이러한 게임의 규칙이 변하고 있다고 저자는 설명합니다. 그 이유는 바로 'RL이 마침내 작동하고 일반화되기 시작했다'는 점입니다. 지난 수십 년간의 연구와 이정표가 축적되면서, 광범위한 RL 태스크를 해결할 수 있는 '레시피(recipe)'가 완성되었습니다. 이 레시피의 핵심 구성 요소는 massive language pre-training, scale (in data and compute), 그리고 reasoning and acting입니다.

레시피의 상세 분석 (From RL Perspective):
전통적인 RL 연구는 algorithm (예: REINFORCE, DQN, PPO)에 초점을 맞추었으며, environment와 priors는 고정되거나 최소한으로 간주되었습니다. 하지만 Deep RL 시대에 접어들면서 environment의 중요성이 부각되었고, OpenAI의 Gym과 같은 노력으로 표준화가 시도되었습니다. 그러나 여기서도 중요한 한 조각이 빠져있었습니다. 바로 priors입니다.
GPT-2, GPT-3의 등장은 강력한 language pre-training을 통해 일반적인 상식 및 언어 지식(priors)을 모델에 주입할 수 있음을 보여주었습니다. 이는 WebGPT나 ChatGPT와 같은 에이전트의 등장을 가능하게 했습니다.
결정적인 통찰은 reasoning을 일종의 행동(action)으로 통합하는 것이었습니다. 고전적인 RL 이론에서 '사고(thinking)'는 외부 세계에 직접적인 영향을 미치지 않으므로 비효율적으로 간주될 수 있지만, reasoning을 행동 공간(action space)에 추가함으로써 언어 pre-training에서 얻은 priors를 활용하여 일반화 능력을 크게 향상시킬 수 있습니다. 즉, "Language generalizes through reasoning in agents." (에이전트 내 추론을 통해 언어가 일반화된다)는 것입니다.
이로 인해 올바른 RL priors (language pre-training)와 RL environment (언어 추론을 행동으로 추가)가 갖춰지면, RL algorithm 자체는 상대적으로 덜 중요해지게 되었습니다. 결국, AI 연구의 우선순위는 Priors > Environment > Algorithm으로 완전히 역전되어야 한다는 결론에 이르게 됩니다.

후반전 (The Second Half): 평가 중심의 패러다임 전환
이러한 "레시피"의 등장으로 AI의 게임은 근본적으로 변화하고 있습니다.
* "레시피"는 벤치마크 hillclimbing을 표준화하고 산업화하여, 새로운 아이디어가 크게 필요하지 않게 되었습니다.
* 새로운 방법론이 특정 태스크를 5% 개선하는 동안, "o-series"와 같은 레시피 기반 모델은 해당 태스크를 명시적으로 목표하지 않고도 30% 개선할 수 있습니다.
* 아무리 어려운 벤치마크라도 이 레시피에 의해 점점 더 빠르게 해결되고 있습니다.

따라서 후반전의 AI 연구는 evaluation을 근본적으로 재고하는 데 중점을 두어야 합니다. 이는 단순히 더 어렵고 새로운 벤치마크를 만드는 것을 넘어, 기존 평가 설정의 가정들을 질문하고 새로운 평가 방식을 창조하는 것을 의미합니다.
핵심적인 문제는 AI가 체스, 바둑, SAT, 변호사 시험, IMO/IOI에서 인간을 능가했지만, 실제 세계(경제, GDP)에는 큰 변화가 없다는 '유틸리티 문제(utility problem)'입니다. 이는 우리의 평가 설정(evaluation setups)이 실제 세계 설정(real-world setups)과 근본적으로 다르기 때문입니다.
두 가지 예시로,

자동 평가(Automatic evaluation): 현재 평가는 대부분 에이전트가 자율적으로 태스크를 수행하고 보상을 받는 방식입니다. 하지만 실제로는 에이전트가 태스크 전반에 걸쳐 인간과 상호작용해야 합니다. Chatbot Arena나 tau-bench와 같이 인간 또는 사용자 시뮬레이션을 포함하는 새로운 벤치마크가 필요합니다.

독립동일분포(i.i.d.) 가정: 대부분의 테스트 세트는 태스크를 독립적으로 실행하고 평균을 내는 i.i.d. 가정을 따릅니다. 그러나 실제 세계에서는 태스크를 순차적으로 해결하며 장기적인 기억이나 경험 축적이 중요합니다. 학계는 이러한 i.i.d. 가정에 의문을 제기하고 장기 기억(long-term memory)을 평가할 적절한 벤치마크가 부족합니다.

결론적으로, AI의 후반전 게임은 실제 세계의 유용성을 위한 새로운 평가 설정 또는 태스크를 개발하고, 이를 현재의 "레시피"로 해결하거나 새로운 구성 요소로 확장하는 반복적인 과정이 될 것입니다. 이는 익숙하지 않지만 흥미로운 도전이며, 단순히 게임이나 시험을 푸는 것을 넘어 수십억, 수조 달러 규모의 유용한 제품을 만들어내는 데 기여할 것입니다. 현재의 "레시피"를 깨뜨릴 수 있는 새로운 가정을 제시할 때 진정한 게임 체인징 연구가 가능해질 것입니다.

#AI #RL #LLM #Reasoning #Evaluation