Andrej Karpathy가 말하는 코드 에이전트, AutoResearch, 그리고 AI | GeekNews
핵심 포인트
- 1AI 코드 에이전트의 등장으로 소프트웨어 개발 방식이 직접 코딩에서 에이전트에게 의도를 전달하고 병렬 관리하는 패러다임으로 급변했으며, 사용자 숙련도가 핵심 역량으로 부상하고 있습니다.
- 2AutoResearch는 인간 개입 없이 에이전트가 자율적으로 하이퍼파라미터 최적화를 탐색하게 하는 프레임워크로, 현재 AI 모델은 RL로 검증 가능한 영역에서 탁월하지만 다른 영역에서는 정체된 들쭉날쭉한 지능 양상을 보입니다.
- 3이러한 변화는 디지털 정보 처리 분야에서 먼저 대규모 혁신을 일으키고 궁극적으로 로보틱스와 같은 물리적 세계로 확장될 것이며, 산업 전체가 에이전트 우선(agent-first) 방식으로 재편될 전망입니다.
이 보고서는 Andrej Karpathy가 강조한 AI 코드 에이전트의 부상과 그로 인한 소프트웨어 개발 패러다임의 근본적인 변화, AutoResearch 프레임워크를 통한 자율 연구의 가능성, 그리고 AI 지능의 현재 특성 및 미래 시장 기회에 대한 심층적인 통찰을 제공합니다.
코드 에이전트 시대와 작업 방식 전환:
2024년 12월을 기점으로 소프트웨어 개발 방식이 직접 코딩 비율 80%에서 거의 0%로 급감하는 혁명적 변화를 겪고 있습니다. 과거 타이핑 속도가 병목이었으나, 이제는 에이전트에게 의도를 정확히 전달하는 능력이 핵심 역량으로 부상했습니다. Peter Steinberger의 사례처럼, 개발자들은 Claude Code, Codex 등 다수의 에이전트를 병렬로 운영하며 10개 이상의 레포를 동시에 관리하고, 각 에이전트에 '새 기능 구현'과 같은 20분 단위의 작업을 배분합니다. 이는 작업 단위가 '코드 한 줄'이나 '함수 하나'에서 '새 기능' 수준으로 상승했음을 의미합니다. 에이전트가 예상대로 작동하지 않는 경우 대부분 '모델 능력 부족'보다는 사용자의 숙련도, 즉 에이전트용 MD 파일 지시사항 부족이나 메모리 도구 구성 미흡 등이 원인으로 지목됩니다. 또한, 사용 가능한 토큰 처리량을 최대한 활용하지 못하면 불안감을 느끼는 '토큰 처리량 지휘 능력'이 새로운 핵심 역량으로 강조됩니다.
OpenClaw와 에이전트 성격의 중요성:
OpenClaw는 기존 에이전트와 달리 지속성(persistence)을 극대화하여 사용자가 실시간으로 개입하지 않아도 샌드박스 내에서 자율적으로 작업을 진행합니다. 이는 컨텍스트가 차면 단순히 압축하는 수준의 기존 에이전트보다 훨씬 정교한 메모리 시스템을 갖췄기 때문입니다. 에이전트의 '성격(personality)' 또한 매우 중요한 요소로 부각됩니다. OpenClaw는 마치 팀원처럼 느껴지는 반면, Codex는 건조하고 담백하며, Claude는 칭찬의 톤 조절이 뛰어나 사용자의 동기 부여에 기여합니다. Peter Steinberger는 이러한 성격 설계, 메모리 시스템, 그리고 단일 WhatsApp 포털 통합 등 다섯 방향에서 동시에 혁신을 이루었습니다.
집요정 Dobby (스마트홈 사례) 및 앱의 종말:
실제 사례로 '집요정 Dobby'라는 Claw 기반의 스마트홈 관리 에이전트가 소개됩니다. 이 에이전트는 로컬 네트워크에서 Sonos 시스템을 자율적으로 탐색하고 API 엔드포인트를 역공학하며, 단 세 번의 프롬프트만으로 음악 재생에 성공했습니다. 또한 조명 시스템을 파악하여 대시보드를 구축하고 "잘 시간이야"와 같은 자연어 명령으로 집안 조명을 제어합니다. 외부 카메라의 변경 감지 시 Qwen 비전 모델로 분석하여 WhatsApp 알림을 보내는 기능도 구현했습니다. Dobby는 기존 6개 스마트홈 앱의 기능을 모두 통합하여 개별 앱의 필요성을 없애면서 '앱의 종말'과 '에이전트 우선(agent-first)' 세계의 도래를 예고합니다. LLM이 도구를 구동하고 복잡한 작업을 수행할 수 있으므로, 스마트홈 장치는 API만 노출하고 에이전트가 직접 호출하는 구조로 전환되어야 합니다. 미래에는 고객이 인간이 아닌 에이전트가 될 것이므로, 산업 전반의 재구성이 필요하다고 전망합니다.
AutoResearch: 연구자를 루프에서 제거:
AutoResearch의 핵심 동기는 '토큰 처리량 최대화'를 위해 사용자, 즉 인간을 병목에서 제거하는 것입니다. 목표는 사용자 개입 없이 에이전트가 더 오랜 기간 자율적으로 실행되도록 추상화를 리팩토링하는 것입니다. 이는 재귀적 자기 개선(recursive self-improvement)을 통해 이루어지며, 모든 Frontier Labs가 추구하는 본질적인 목표로 설명됩니다.
핵심 방법론: Karpathy는 GPT-2 모델 훈련을 소규모 도구로 활용하여 이 아이디어를 탐색했습니다. AutoResearch의 실제 성과는 20년 경력의 연구자가 충분히 조정했다고 판단한 모델에 대해 AutoResearch를 하룻밤 돌렸을 때 나타났습니다. 이 시스템은 인간 연구자가 놓쳤던 value embedding의 weight decay 및 atom beta 미조정 등 최적화 기회를 발견했습니다. 하이퍼파라미터들은 공동으로 상호작용하므로 하나를 조정하면 다른 것도 변경해야 하는데, 인간이 병목이 되면 이러한 탐색이 제한됩니다. AutoResearch는 이러한 복합적인 최적화 공간을 자율적으로 탐색하여 인간의 인지적 한계를 보완합니다.
다만, 이는 평가하기 쉬운 객관적 지표()가 있는 작업(예: CUDA 커널 최적화, 코드 효율화)에만 잘 맞으며, 현재 모델의 '가장자리(edge)'가 아직 거칠어 너무 앞서나가면 실용성이 떨릴 수 있다는 주의사항이 따릅니다.
프로그램 MD의 메타 최적화:
이 개념은 연구 조직 전체를 마크다운 파일(프로그램 MD)로 기술하는 것을 의미합니다. 이는 조직 내의 모든 역할과 연결 방식을 설명하며, 다양한 연구 조직을 코드로 정의하고 각각 다른 특성(예: 스탠드업 빈도, 위험 감수 정도)을 부여할 수 있게 합니다. 일단 코드가 되면 코드 자체의 최적화, 즉 '메타 최적화(meta-optimization)'가 가능해집니다. 다양한 프로그램 MD를 작성하게 하고, 동일 하드웨어에서 가장 큰 개선이 이루어지는 지점을 측정하여 그 데이터를 모델에 넘겨 더 나은 프로그램 MD를 작성하도록 유도합니다. 이는 LLM 정렬 에이전트 복수 에이전트 지침 지침의 최적화로 이어지는 양파의 레이어처럼 한 단계씩 추상화가 쌓이는 구조입니다.
AI 모델의 들쭉날쭉한(jagged) 지능과 종분화:
현재 AI 모델은 매우 뛰어난 박사이면서 동시에 10살짜리 같은 실수를 하는 기이한 조합을 보입니다. RL(강화 학습)로 검증 가능한 영역(코드 정확성, 단위 테스트 통과)에서는 빛의 속도로 발전하지만, 농담과 같은 비검증 영역에서는 3~5년 전 수준에 정체되어 있습니다. 이는 코드 영역에서의 똑똑함이 다른 영역으로 일반화되지 않는 '들쭉날쭉한 전문화' 양상을 나타냅니다. 모델은 훈련 목적의 궤도 위에서는 탁월하지만, 그 밖에서는 정체되는 구조적 특성을 가집니다.
Karpathy는 '지능의 종분화(speciation)' 필요성을 강조합니다. 현재 연구소들은 단일 모델 단일 문화(monoculture)로 모든 영역의 지능을 하나의 파라미터에 담으려는 경향이 있지만, 동물의 왕국처럼 자연의 틈새에 맞는 다양한 전문화된 모델이 필요합니다. 이는 인지 핵심은 유지하면서 특정 분야에 전문화된, 더 작고 효율적인 모델(예: Lean 기반 수학 전용 모델)을 의미합니다. 종분화가 아직 충분히 일어나지 않는 이유로는 뇌를 기능 손실 없이 미세 조정하는 과학의 미발달, 컨텍스트 창 조작은 저렴하지만 가중치를 직접 수정하는 위험, 그리고 연구소들이 현재 전체 사용 가능 범위(entire possible space)를 쫓고 있어 특화보다 범용에 집중하는 경향 등이 언급됩니다. 컴퓨팅 인프라의 공급 부족은 단기적으로 종분화를 촉진할 가능성이 있습니다.
오픈 소스와 Frontier Labs의 균형:
클로즈드 모델이 선두를 달리지만, 오픈 소스 모델과의 격차는 18개월에서 6~8개월로 수렴 중입니다. LLM 개발에는 막대한 자본 지출(CapEx)이 필요하지만, 대부분의 소비자 사용 사례는 오픈 소스 모델로 충분히 커버 가능하며, 향후 몇 년 내에 로컬 실행까지 가능할 전망입니다. Frontier 지능(노벨상급 작업, 대규모 프로젝트)은 클로즈드 모델이 담당하지만, 더 많은 연구소가 Frontier에 참여해야 하며, ML 앙상블처럼 다양한 관점의 앙상블이 최선이라고 주장합니다.
AutoResearch의 분산 확장:
AutoResearch를 인터넷의 신뢰할 수 없는 작업자 풀(untrusted worker pool)로 확장하는 구상이 제안됩니다. 블록체인과 유사하게 '블록' 대신 '커밋', '작업 증명(Proof of Work)'은 수많은 실험을 수행하여 작동하는 커밋을 찾는 방식으로 작동합니다. 후보 솔루션 생성은 비용이 크지만 검증은 저렴한 비대칭 구조(SETI@home, Folding@home 유사)를 활용하여, 기업이나 개인이 관심 있는 AutoResearch 트랙에 컴퓨팅을 기부하고 연구자에게 그 결과를 환원하는 모델을 상정합니다. 이는 Frontier Labs의 한정된 컴퓨팅 자원을 지구 전체의 광범위한 컴퓨팅 자원으로 확장하는 방식입니다.
취업 시장과 AI의 영향:
AI는 현재 디지털 세계를 조작하는 '유령 같은 존재'로, 물리적 구현이 없습니다. 디지털 정보 처리 직업이 먼저 크게 변화하고, 물리적 세계 직업은 뒤따를 것으로 예상됩니다. 소프트웨어 엔지니어링에 대해서는 조심스러운 낙관론을 펼칩니다. 소프트웨어는 기존에 너무 비싸고 부족했으므로, 비용이 낮아지면 Jevons 역설에 의해 수요가 오히려 증가할 수 있습니다. 코드는 이제 임시적(ephemeral)이 되어, 기존의 불완전한 구독형 소프트웨어에 묶이지 않고 수정·변경이 가능해집니다. Frontier Labs의 연구자들은 본질적으로 스스로를 자동화하는 작업을 수행 중이며 이에 대한 불안감도 존재합니다.
디지털-물리적 인터페이스와 미래 기회:
미래 순서는 디지털 공간의 변화 디지털-물리적 인터페이스 물리적 세계로 이어질 것입니다. 물리적 세계의 센서(카메라 등)와 액추에이터가 디지털 지능에 데이터를 공급하고, 결과를 물리적 세계에 적용하는 구조입니다. 'Periodic'(재료 과학 AutoResearch) 사례에서 지능에 대한 센서는 값비싼 실험실 장비입니다. 아직 '정보 시장(information markets)'이 충분하지 않아 에이전트가 자율적으로 물리적 세계의 데이터를 구매하는 구조가 미비합니다. 로보틱스는 자본 집약적이고 복잡하여 디지털 공간에서의 변화보다 뒤처지겠지만, 총 주소 가능 시장(TAM)은 디지털보다 훨씬 클 가능성이 있습니다.
microGPT와 교육의 미래:
microGPT는 LLM 훈련의 본질을 약 200줄의 Python 코드로 압축한 프로젝트입니다. 이는 모든 복잡성이 효율성 때문이며, 알고리듬 자체는 매우 단순하다는 것을 보여줍니다. 교육 방식이 과거의 인간 대상 강의에서 '에이전트에게 설명하는 것'으로 전환될 것이라고 예상합니다. 200줄의 코드를 에이전트에게 설명하면, 에이전트가 각 사용자의 수준에 맞게 무한한 인내심으로 재설명할 수 있습니다. '스킬(skill)' 개념은 에이전트에게 가르치는 방법을 지시하는 커리큘럼을 마크다운으로 작성하는 것을 의미하며, 코드 라이브러리 문서도 에이전트가 소화할 수 있는 마크다운 형태로 전환되어야 합니다. 인간 교육자의 역할은 에이전트가 아직 못하는 핵심 비트를 설계하고, 커리큘럼의 중요 포인트를 주입하는 전략적 선택으로 바뀔 것입니다.