
The Second Half
핵심 포인트
- 1AI의 첫 번째 절반은 벤치마크를 능가하는 새로운 훈련 방법과 모델 개발에 집중했지만, 방대한 language pre-training과 scale, 그리고 reasoning을 결합한 새로운 'recipe'가 다양한 복합 task에서 RL이 일반화되도록 만들었습니다.
- 2이 강력한 'recipe'는 이제 점진적인 방법론을 무의미하게 만들고 새로운 benchmark들을 빠르게 해결하며, 문제 해결에서 평가의 근본적인 재정의로 초점을 전환할 필요성을 제기합니다.
- 3AI의 '두 번째 절반'은 현재의 자동화되고 i.i.d. 가정에서 벗어나 실제 시나리오와 utility를 반영하는 새로운 evaluation setup을 개발하여 'utility problem'을 해결하고 진정으로 영향력 있는 발전을 이끌어야 합니다.
이 논문은 AI 발전의 역사를 "전반전(first half)"과 "후반전(second half)"으로 나누어 설명하며, AI 연구의 패러다임 변화를 주장합니다.
전반전 (The First Half): 모델 및 방법론 중심
AI의 전반전은 주로 새로운 훈련 방법론과 모델을 개발하는 데 집중했습니다. Transformer, AlexNet, GPT-3와 같은 혁신적인 모델들은 특정 벤치마크(예: WMT'14 for Transformer)에서 성능을 크게 향상시키며 성공을 거두었습니다. 이 시기에는 방법론(methods) 자체가 태스크 정의나 벤치마크보다 중요하게 여겨졌는데, 이는 새로운 알고리즘이나 아키텍처(예: backpropagation, CNN, Transformer)를 만드는 것이 훨씬 더 많은 통찰력과 공학적 노력을 필요로 했기 때문입니다. 또한, Transformer와 같이 개발된 방법론들은 초기 적용 분야를 넘어 CV, NLP, RL 등 다양한 도메인에서 광범위하게 적용될 수 있었기 때문에 더 큰 영향력을 가졌습니다. 즉, 전반전의 게임은 새로운 모델과 방법론을 구축하고, 벤치마크를 통해 그 효과를 입증하는 것이었습니다.
변화의 시점: RL의 일반화 (RL finally works and generalizes)
이러한 게임의 규칙이 변하고 있다고 저자는 설명합니다. 그 이유는 바로 'RL이 마침내 작동하고 일반화되기 시작했다'는 점입니다. 지난 수십 년간의 연구와 이정표가 축적되면서, 광범위한 RL 태스크를 해결할 수 있는 '레시피(recipe)'가 완성되었습니다. 이 레시피의 핵심 구성 요소는 massive language pre-training, scale (in data and compute), 그리고 reasoning and acting입니다.
레시피의 상세 분석 (From RL Perspective):
전통적인 RL 연구는 algorithm (예: REINFORCE, DQN, PPO)에 초점을 맞추었으며, environment와 priors는 고정되거나 최소한으로 간주되었습니다. 하지만 Deep RL 시대에 접어들면서 environment의 중요성이 부각되었고, OpenAI의 Gym과 같은 노력으로 표준화가 시도되었습니다. 그러나 여기서도 중요한 한 조각이 빠져있었습니다. 바로 priors입니다.
GPT-2, GPT-3의 등장은 강력한 language pre-training을 통해 일반적인 상식 및 언어 지식(priors)을 모델에 주입할 수 있음을 보여주었습니다. 이는 WebGPT나 ChatGPT와 같은 에이전트의 등장을 가능하게 했습니다.
결정적인 통찰은 reasoning을 일종의 행동(action)으로 통합하는 것이었습니다. 고전적인 RL 이론에서 '사고(thinking)'는 외부 세계에 직접적인 영향을 미치지 않으므로 비효율적으로 간주될 수 있지만, reasoning을 행동 공간(action space)에 추가함으로써 언어 pre-training에서 얻은 priors를 활용하여 일반화 능력을 크게 향상시킬 수 있습니다. 즉, "Language generalizes through reasoning in agents." (에이전트 내 추론을 통해 언어가 일반화된다)는 것입니다.
이로 인해 올바른 RL priors (language pre-training)와 RL environment (언어 추론을 행동으로 추가)가 갖춰지면, RL algorithm 자체는 상대적으로 덜 중요해지게 되었습니다. 결국, AI 연구의 우선순위는 Priors > Environment > Algorithm으로 완전히 역전되어야 한다는 결론에 이르게 됩니다.
후반전 (The Second Half): 평가 중심의 패러다임 전환
이러한 "레시피"의 등장으로 AI의 게임은 근본적으로 변화하고 있습니다.
- "레시피"는 벤치마크 hillclimbing을 표준화하고 산업화하여, 새로운 아이디어가 크게 필요하지 않게 되었습니다.
- 새로운 방법론이 특정 태스크를 5% 개선하는 동안, "o-series"와 같은 레시피 기반 모델은 해당 태스크를 명시적으로 목표하지 않고도 30% 개선할 수 있습니다.
- 아무리 어려운 벤치마크라도 이 레시피에 의해 점점 더 빠르게 해결되고 있습니다.
따라서 후반전의 AI 연구는 evaluation을 근본적으로 재고하는 데 중점을 두어야 합니다. 이는 단순히 더 어렵고 새로운 벤치마크를 만드는 것을 넘어, 기존 평가 설정의 가정들을 질문하고 새로운 평가 방식을 창조하는 것을 의미합니다.
핵심적인 문제는 AI가 체스, 바둑, SAT, 변호사 시험, IMO/IOI에서 인간을 능가했지만, 실제 세계(경제, GDP)에는 큰 변화가 없다는 '유틸리티 문제(utility problem)'입니다. 이는 우리의 평가 설정(evaluation setups)이 실제 세계 설정(real-world setups)과 근본적으로 다르기 때문입니다.
두 가지 예시로,
- 자동 평가(Automatic evaluation): 현재 평가는 대부분 에이전트가 자율적으로 태스크를 수행하고 보상을 받는 방식입니다. 하지만 실제로는 에이전트가 태스크 전반에 걸쳐 인간과 상호작용해야 합니다.
Chatbot Arena나tau-bench와 같이 인간 또는 사용자 시뮬레이션을 포함하는 새로운 벤치마크가 필요합니다. - 독립동일분포(i.i.d.) 가정: 대부분의 테스트 세트는 태스크를 독립적으로 실행하고 평균을 내는 i.i.d. 가정을 따릅니다. 그러나 실제 세계에서는 태스크를 순차적으로 해결하며 장기적인 기억이나 경험 축적이 중요합니다. 학계는 이러한 i.i.d. 가정에 의문을 제기하고 장기 기억(long-term memory)을 평가할 적절한 벤치마크가 부족합니다.
결론적으로, AI의 후반전 게임은 실제 세계의 유용성을 위한 새로운 평가 설정 또는 태스크를 개발하고, 이를 현재의 "레시피"로 해결하거나 새로운 구성 요소로 확장하는 반복적인 과정이 될 것입니다. 이는 익숙하지 않지만 흥미로운 도전이며, 단순히 게임이나 시험을 푸는 것을 넘어 수십억, 수조 달러 규모의 유용한 제품을 만들어내는 데 기여할 것입니다. 현재의 "레시피"를 깨뜨릴 수 있는 새로운 가정을 제시할 때 진정한 게임 체인징 연구가 가능해질 것입니다.