Measuring AI Ability to Complete Long Tasks
요약
상세 내용
핵심 방법론 (Core Methodology)
이 연구는 다음 세 단계를 통해 AI 에이전트의 타임 호라이즌을 측정한다:
* RE-Bench: 7개의 머신러닝 연구 엔지니어링 태스크로, 각 태스크는 인간 전문가에게 약 8시간이 소요되도록 의도되었다.
* Software Atomic Actions (SWAA): 66개의 짧은 태스크(1초에서 30초 소요)로, 소프트웨어 개발에서 흔히 수행되는 단일 단계의 '원자적' 액션들을 나타낸다. 이는 기존 벤치마크의 한계점인 짧은 태스크의 부족을 보완한다.
* 모든 태스크는 자동화된 채점 기능을 가지며, 연속적인 점수(0-1) 또는 이진 임계값으로 성공 여부를 판단한다.
* AI 에이전트 평가 (AI Agent Evaluation): 2019년부터 2025년까지의 13개 Frontier 모델(GPT-2, GPT-3, Claude 3.5 Sonnet 등)을 평가한다. 각 모델은
modular-public이라는 기본 에이전트 스캐폴드(Python 및 Bash 명령어 사용 가능)를 사용하여 태스크를 수행하며, 태스크당 8번의 실행을 통해 평균 성공률을 기록한다. HCAST와 RE-Bench의 태스크에서 GPT-2는 낮은 컨텍스트 길이로 인해 모든 태스크에서 0점을 기록한 것으로 간주되었다.여기서 와 는 로지스틱 회귀를 통해 추정되는 계수이다. 이 모델은 인간이 오래 걸리는 태스크일수록 AI의 성공률이 낮아지는 경향을 포착한다.
* 50% 성공률 지점 추정 (Estimating the 50% Success Rate Point): 위 로지스틱 모델을 사용하여 AI 모델의 성공률이 50%가 되는 태스크 소요 시간()을 역산한다. 이 값이 해당 AI 모델의 "50%-task-completion time horizon"이 된다.
주요 결과 및 함의 (Key Findings and Implications)
* 지수적 성장 (Exponential Growth): 2019년부터 2025년까지 AI 모델의 50% 타임 호라이즌은 약 7개월마다 두 배로 증가하는 지수적 성장 추세를 보였다(그림 1). Claude 3.5 Sonnet과 같은 최신 모델은 약 50분의 타임 호라이즌을 달성했다.
* 성장 동력 (Drivers of Growth): 이러한 성장은 주로 AI 모델의 신뢰성 향상, 오류에 대한 적응 능력, 논리적 추론 능력 및 도구 사용(tool use) 능력의 개선에 기인한다.
* 외부 유효성 (External Validity): 연구는 제안된 메트릭이 실제 소프트웨어 태스크에도 적용될 수 있는지에 대한 외부 유효성을 탐구한다.
* "Messiness" 요인 분석: 태스크의 난이도 외에 'messiness'(자원 제한, 참신성, 동적 환경 등 16가지 요인)를 고려했을 때, 모델은 messiness 점수가 높은 태스크에서 더 낮은 성능을 보였으나, AI 에이전트의 성능 성장 추세는 messiness 수준에 관계없이 유사하게 나타났다.
* SWE-bench Verified 복제: SWE-bench Verified 데이터셋으로 방법론을 복제했을 때도 지수적 추세가 유지되었으며, 오히려 더 짧은 doubling time을 보였다.
* 내부 Pull Request (PR) 평가: 소규모 내부 PR 평가에서는 인간 그룹별(계약자 vs. 유지보수자) 태스크 완료 시간의 큰 차이(5-18배)를 발견했으며, 계약자 시간을 기준으로 할 경우 본 연구의 타임 호라이즌 결과와 일치하는 경향을 보였다.
* 미래 예측 (Future Prediction): 현재의 추세를 단순 외삽하면, AI는 2028년 말에서 2031년 초 사이에 1개월(167 작업 시간) 이상의 타임 호라이즌에 도달할 것으로 예측된다. 이는 AI가 현재 인간에게 한 달이 걸리는 많은 소프트웨어 태스크를 자동화할 수 있음을 시사한다.
* 한계점 (Limitations): 이 결과는 외부 유효성 및 미래 성장률 변화에 영향을 받을 수 있다. "Messier"하고 덜 구조화된 태스크에서는 AI 성능이 여전히 낮다.
이 연구는 AI 능력의 발전을 추적하고 예측하기 위한 새로운 양적 측정 방법을 제시하며, AI의 자율성 증대가 잠재적으로 가져올 위험과 사회적 영향을 이해하는 데 중요한 기반을 제공한다.