The Second Half
요약
상세 내용
전반전 (The First Half): 모델 및 방법론 중심
AI의 전반전은 주로 새로운 훈련 방법론과 모델을 개발하는 데 집중했습니다. Transformer, AlexNet, GPT-3와 같은 혁신적인 모델들은 특정 벤치마크(예: WMT'14 for Transformer)에서 성능을 크게 향상시키며 성공을 거두었습니다. 이 시기에는 방법론(methods) 자체가 태스크 정의나 벤치마크보다 중요하게 여겨졌는데, 이는 새로운 알고리즘이나 아키텍처(예: backpropagation, CNN, Transformer)를 만드는 것이 훨씬 더 많은 통찰력과 공학적 노력을 필요로 했기 때문입니다. 또한, Transformer와 같이 개발된 방법론들은 초기 적용 분야를 넘어 CV, NLP, RL 등 다양한 도메인에서 광범위하게 적용될 수 있었기 때문에 더 큰 영향력을 가졌습니다. 즉, 전반전의 게임은 새로운 모델과 방법론을 구축하고, 벤치마크를 통해 그 효과를 입증하는 것이었습니다.
변화의 시점: RL의 일반화 (RL finally works and generalizes)
이러한 게임의 규칙이 변하고 있다고 저자는 설명합니다. 그 이유는 바로 'RL이 마침내 작동하고 일반화되기 시작했다'는 점입니다. 지난 수십 년간의 연구와 이정표가 축적되면서, 광범위한 RL 태스크를 해결할 수 있는 '레시피(recipe)'가 완성되었습니다. 이 레시피의 핵심 구성 요소는 massive language pre-training, scale (in data and compute), 그리고 reasoning and acting입니다.
레시피의 상세 분석 (From RL Perspective):
전통적인 RL 연구는 algorithm (예: REINFORCE, DQN, PPO)에 초점을 맞추었으며, environment와 priors는 고정되거나 최소한으로 간주되었습니다. 하지만 Deep RL 시대에 접어들면서 environment의 중요성이 부각되었고, OpenAI의 Gym과 같은 노력으로 표준화가 시도되었습니다. 그러나 여기서도 중요한 한 조각이 빠져있었습니다. 바로 priors입니다.
GPT-2, GPT-3의 등장은 강력한 language pre-training을 통해 일반적인 상식 및 언어 지식(priors)을 모델에 주입할 수 있음을 보여주었습니다. 이는 WebGPT나 ChatGPT와 같은 에이전트의 등장을 가능하게 했습니다.
결정적인 통찰은 reasoning을 일종의 행동(action)으로 통합하는 것이었습니다. 고전적인 RL 이론에서 '사고(thinking)'는 외부 세계에 직접적인 영향을 미치지 않으므로 비효율적으로 간주될 수 있지만, reasoning을 행동 공간(action space)에 추가함으로써 언어 pre-training에서 얻은 priors를 활용하여 일반화 능력을 크게 향상시킬 수 있습니다. 즉, "Language generalizes through reasoning in agents." (에이전트 내 추론을 통해 언어가 일반화된다)는 것입니다.
이로 인해 올바른 RL priors (language pre-training)와 RL environment (언어 추론을 행동으로 추가)가 갖춰지면, RL algorithm 자체는 상대적으로 덜 중요해지게 되었습니다. 결국, AI 연구의 우선순위는 Priors > Environment > Algorithm으로 완전히 역전되어야 한다는 결론에 이르게 됩니다.
후반전 (The Second Half): 평가 중심의 패러다임 전환
이러한 "레시피"의 등장으로 AI의 게임은 근본적으로 변화하고 있습니다.
* "레시피"는 벤치마크 hillclimbing을 표준화하고 산업화하여, 새로운 아이디어가 크게 필요하지 않게 되었습니다.
* 새로운 방법론이 특정 태스크를 5% 개선하는 동안, "o-series"와 같은 레시피 기반 모델은 해당 태스크를 명시적으로 목표하지 않고도 30% 개선할 수 있습니다.
* 아무리 어려운 벤치마크라도 이 레시피에 의해 점점 더 빠르게 해결되고 있습니다.
따라서 후반전의 AI 연구는 evaluation을 근본적으로 재고하는 데 중점을 두어야 합니다. 이는 단순히 더 어렵고 새로운 벤치마크를 만드는 것을 넘어, 기존 평가 설정의 가정들을 질문하고 새로운 평가 방식을 창조하는 것을 의미합니다.
핵심적인 문제는 AI가 체스, 바둑, SAT, 변호사 시험, IMO/IOI에서 인간을 능가했지만, 실제 세계(경제, GDP)에는 큰 변화가 없다는 '유틸리티 문제(utility problem)'입니다. 이는 우리의 평가 설정(evaluation setups)이 실제 세계 설정(real-world setups)과 근본적으로 다르기 때문입니다.
두 가지 예시로,
Chatbot Arena나 tau-bench와 같이 인간 또는 사용자 시뮬레이션을 포함하는 새로운 벤치마크가 필요합니다.결론적으로, AI의 후반전 게임은 실제 세계의 유용성을 위한 새로운 평가 설정 또는 태스크를 개발하고, 이를 현재의 "레시피"로 해결하거나 새로운 구성 요소로 확장하는 반복적인 과정이 될 것입니다. 이는 익숙하지 않지만 흥미로운 도전이며, 단순히 게임이나 시험을 푸는 것을 넘어 수십억, 수조 달러 규모의 유용한 제품을 만들어내는 데 기여할 것입니다. 현재의 "레시피"를 깨뜨릴 수 있는 새로운 가정을 제시할 때 진정한 게임 체인징 연구가 가능해질 것입니다.