트랜스포머의 아버지, 우카시 카이저: 추론은 이제 1층이다
Video

트랜스포머의 아버지, 우카시 카이저: 추론은 이제 1층이다

2026.01.23
·YouTube·by 이호민
#Transformer#LLM#Reasoning#AI#OpenAI

핵심 포인트

  • 1Lukaš Kaiser는 현재 AI가 '다음 단어 예측' 패러다임의 데이터 한계에 도달하고 있지만, Reinforcement Learning(RL)으로 훈련된 'reasoning' 모델이라는 새로운 패러다임이 등장하여 훨씬 적은 데이터로 학습하고 복잡한 작업을 수행한다고 설명합니다.
  • 2Reasoning 모델은 스스로 '단계별 사고'를 배우고 오류를 수정하며, 이를 통해 과학 연구 가속화, 창의적 발견 및 프로그래밍 지원 등 인간의 작업 방식을 혁신할 잠재력을 가지고 있습니다.
  • 3이러한 발전에도 불구하고, 궁극적인 병목 현상은 GPU와 에너지 자원이며, AI는 대외적으로 폭발적인 성장처럼 보일 수 있으나 내부적으로는 꾸준한 노력과 개선을 통해 발전하고 있어 AI 겨울은 없을 것이라고 전망합니다.

Łukasz Kaiser는 2017년 논문 "Attention Is All You Need"의 저자 중 한 명이며, 이 논문은 Transformer 패러다임의 시작을 알리는 상징적인 역할을 했습니다. 현재 OpenAI에서 GPT-4의 long context 리드를 담당했으며, 01 reasoning model 연구를 이끌고 있습니다.

AI의 발전은 두 가지 주요 패러다임 변화를 겪고 있다고 설명합니다.

  1. Old Style LLMs / Transformer Paradigm (Next Word Prediction):
    • 특징: 이 패러다임은 주어진 텍스트에서 다음 단어를 예측하는 방식으로, 더 많은 데이터와 더 큰 모델을 훈련시키는 Scale-up을 통해 발전했습니다. ChatGPT가 이 패러다임의 정점에 있습니다.
    • 한계: 인터넷의 일반적인 데이터는 거의 소진되었으며, 이 방식만으로는 발전의 경제적 한계에 도달하고 있습니다. 하지만 여전히 Scaling Law(모델이 커질수록 성능이 좋아지는 경향)는 유효하며, 새로운 GPU 자원이 투입되면 다시 한 번 성능 향상을 가져올 수 있습니다. 특히 장시간 작업에서 실수를 줄여주는 데 강점을 보입니다.
  1. New Paradigm: Reasoning Models:
    • 핵심 방법론: 이 패러다임은 단순히 다음 단어를 예측하는 것을 넘어, 모델이 '사고(thinking)' 과정을 수행하도록 학습시키는 데 초점을 맞춥니다.
      • Chain of Thought (CoT): 초기에는 모델에게 "단계별로 생각하라(think step by step)"고 지시하는 CoT 방식이 있었으나, 이는 근본적인 추론 능력 향상이라기보다는 표면적인 모방에 가까웠습니다.
      • Reinforcement Learning (RL) 기반 훈련: Reasoning model의 진정한 Breakthrough는 Reinforcement Learning (RL)을 도입하여 훈련시킨 데 있습니다. 기존 LLM은 주로 Gradient Descent로 훈련되어 "출력(output)을 모방"하는 데 집중했습니다. 반면 Reasoning model은 RL을 통해 "과정(actions)을 모방"하고, 더 나아가 스스로 사고 과정을 개선하도록 학습합니다.
        • RL은 Gradient Descent보다 더 까다로운 훈련 방식이지만, 모델이 오류에서 학습하고, 문제 해결을 위해 다양한 경로를 탐색하며, 정보를 검증하고, 도구(tools)를 호출하는 등 훨씬 정교한 사고 능력을 개발할 수 있도록 합니다.
        • 이러한 접근 방식은 Richard Sutton과 같은 비평가들이 지적했던 "LLM이 과정이 아닌 출력만 모방한다"는 한계를 극복합니다. Reasoning model은 최종 답변을 위한 사고 과정을 '잠재적(latent)' 요소로 학습하며, 이를 통해 인간의 사고 방식과 유사하게 작동합니다.
    • 데이터 효율성: Reasoning model은 기존 LLM보다 '한 자릿수 이상 적은(another order of magnitude less)' 데이터로도 학습이 가능합니다. 예를 들어, 수학 데이터는 인터넷 데이터에 비해 매우 적지만, 이를 통해 드라마틱한 개선을 이룹니다. 이는 모델이 이전에 보지 못한 상황으로 일반화(generalize)하는 능력을 크게 향상시킵니다.
    • 현재 및 잠재적 활용: 수학 및 컴퓨터 과학 경진대회 우승, 코딩 능력(bip coding, code on the fly), 문서 편집, 슬랙/구글 독스와 연동되는 지능형 검색(connectors) 등 다양한 분야에서 놀라운 성과를 보여주고 있습니다.
    • 미래 전망: Reasoning model 패러다임은 아직 초기 단계이며, "매우 가파른(steep path up)" 성장 경로에 있습니다. AI가 진정으로 창의적이고 새로운 과학적 발견을 하도록 돕는 것은 물론, 연구자들이 아이디어를 실행하고 실험하는 과정을 가속화할 것입니다. AI가 자체적으로 더 나은 AI 도구(예: 합성 데이터 생성, 자동화된 실험 실행, 소프트웨어 시스템 개선)를 구축하는 데 기여하며, 이는 인공지능 개발 속도를 높일 수 있습니다.

주요 Bottleneck:
AI 발전의 궁극적인 병목 현상은 GPU와 에너지입니다. 아무리 소프트웨어나 방법론이 효율적이 되더라도, 물리적인 컴퓨팅 자원의 한계가 존재합니다. 현재 모든 연구실에서 GPU 부족을 겪고 있으며, 이는 실험 병렬화에 제약을 줍니다.

AI Winter 예측에 대한 의견:
Łukasz Kaiser는 AI winter는 오지 않을 것이라고 단언합니다. 오히려 다음 1~2년 내에 "매우 급격한 개선(very sharp improvement)"이 있을 수 있다고 전망합니다. 이는 새로운 Reasoning model 패러다임의 성숙과 새로운 GPU 인프라 확충이 맞물리기 때문입니다.

AI의 일상 업무 활용:
OpenAI 내부에서도 코딩 보조 도구(Codex) 사용이 크게 늘었으며, 코드를 작성하고 버그를 수정하는 데 많은 도움을 받고 있습니다. 또한, Reasoning model은 새로운 모델 훈련을 위한 합성 데이터(synthetic data)를 생성하는 데 사용되어, AI가 AI를 훈련시키는 자기반복(self-recurring)적인 과정에 기여합니다. 이러한 변화는 '폭발적(explosion)'이라기보다는 '점진적(series of hard work)'인 발전에 가깝지만, 전체적인 속도를 가속화할 것입니다. 연구의 병목이 아이디어보다는 아이디어의 실행에 있기 때문에, AI가 실행 부분을 맡아주면 과학 발전이 가속화될 수 있습니다.