목록으로
Paper2025.04.20

Measuring AI Ability to Complete Long Tasks

요약

이 논문은 AI 시스템의 실제 능력을 정량화하기 위해 50%-task-completion time horizon이라는 새로운 지표를 제안하며, 이는 AI 모델이 50%의 성공률로 완료할 수 있는 작업의 인간 소요 시간을 의미합니다.
2019년부터 2025년까지 인간 전문가의 작업 시간을 기준으로 13개의 AI 모델을 평가한 결과, AI의 50% time horizon이 약 7개월마다 두 배로 증가하는 추세를 보였습니다.
현재 최신 AI 모델의 50% time horizon은 약 50분이며, 이 추세가 지속된다면 AI는 5년 이내에 현재 인간에게 한 달이 걸리는 많은 소프트웨어 작업을 자동화할 수 있을 것으로 예측됩니다.

상세 내용

이 논문은 인공지능 시스템의 능력을 인간의 능력과 비교하여 정량화하기 위한 새로운 측정 지표인 "50%-task-completion time horizon"을 제안한다. 이 지표는 AI 모델이 50%의 성공률로 완료할 수 있는 태스크를 인간이 일반적으로 완료하는 데 걸리는 시간을 의미한다.

핵심 방법론 (Core Methodology)

이 연구는 다음 세 단계를 통해 AI 에이전트의 타임 호라이즌을 측정한다:

  • 다양한 태스크 스위트 구축 (Diverse Task Suite Construction):
  • * HCAST 서브셋: 사이버 보안, 머신러닝, 소프트웨어 엔지니어링, 일반 추론 등 97개의 다양한 태스크로 구성되며, 인간이 1분에서 30시간까지 걸리는 광범위한 난이도를 포괄한다. 이 태스크들은 현실적인 경제적 가치를 지니도록 설계되었다.
    * RE-Bench: 7개의 머신러닝 연구 엔지니어링 태스크로, 각 태스크는 인간 전문가에게 약 8시간이 소요되도록 의도되었다.
    * Software Atomic Actions (SWAA): 66개의 짧은 태스크(1초에서 30초 소요)로, 소프트웨어 개발에서 흔히 수행되는 단일 단계의 '원자적' 액션들을 나타낸다. 이는 기존 벤치마크의 한계점인 짧은 태스크의 부족을 보완한다.
    * 모든 태스크는 자동화된 채점 기능을 가지며, 연속적인 점수(0-1) 또는 이진 임계값으로 성공 여부를 판단한다.

  • 인간 및 AI 에이전트 성능 평가 (Human and AI Agent Performance Evaluation):
  • * 인간 기준선 (Human Baselining): HCAST 및 RE-Bench 태스크에 대해서는 관련 도메인 전문 지식을 가진 숙련된 인간 전문가들(평균 5년 경력)이 태스크를 수행하는 데 걸린 시간을 측정한다. 성공적인 완료 시간의 기하 평균을 사용하여 태스크의 '인간 소요 시간'을 추정한다. SWAA 태스크는 METR 내부 직원들이 웹 애플리케이션을 통해 수행하며, 태스크 소요 시간을 더욱 정밀하게 측정한다. 총 800개 이상의 인간 기준선 시도가 기록되었다.
    * AI 에이전트 평가 (AI Agent Evaluation): 2019년부터 2025년까지의 13개 Frontier 모델(GPT-2, GPT-3, Claude 3.5 Sonnet 등)을 평가한다. 각 모델은 modular-public이라는 기본 에이전트 스캐폴드(Python 및 Bash 명령어 사용 가능)를 사용하여 태스크를 수행하며, 태스크당 8번의 실행을 통해 평균 성공률을 기록한다. HCAST와 RE-Bench의 태스크에서 GPT-2는 낮은 컨텍스트 길이로 인해 모든 태스크에서 0점을 기록한 것으로 간주되었다.

  • 타임 호라이즌 계산 (Time Horizon Calculation):
  • * 로지스틱 모델 피팅 (Logistic Model Fitting): 연구는 인간의 태스크 소요 시간(난이도 대리변수)과 AI 에이전트의 성공률 사이의 관계를 모델링하기 위해 로지스틱 회귀 모델을 사용한다. 구체적으로, 각 AI 모델의 성공률 PP는 태스크의 인간 소요 시간 TT의 로그 함수로 모델링된다:
    P(T)=11+e(a+blnT)P(T) = \frac{1}{1 + e^{-(a + b \ln T)}}
    여기서 aabb는 로지스틱 회귀를 통해 추정되는 계수이다. 이 모델은 인간이 오래 걸리는 태스크일수록 AI의 성공률이 낮아지는 경향을 포착한다.
    * 50% 성공률 지점 추정 (Estimating the 50% Success Rate Point): 위 로지스틱 모델을 사용하여 AI 모델의 성공률이 50%가 되는 태스크 소요 시간(P(T)=0.5P(T) = 0.5)을 역산한다. 이 값이 해당 AI 모델의 "50%-task-completion time horizon"이 된다.

    주요 결과 및 함의 (Key Findings and Implications)

    * 지수적 성장 (Exponential Growth): 2019년부터 2025년까지 AI 모델의 50% 타임 호라이즌은 약 7개월마다 두 배로 증가하는 지수적 성장 추세를 보였다(그림 1). Claude 3.5 Sonnet과 같은 최신 모델은 약 50분의 타임 호라이즌을 달성했다.
    * 성장 동력 (Drivers of Growth): 이러한 성장은 주로 AI 모델의 신뢰성 향상, 오류에 대한 적응 능력, 논리적 추론 능력 및 도구 사용(tool use) 능력의 개선에 기인한다.
    * 외부 유효성 (External Validity): 연구는 제안된 메트릭이 실제 소프트웨어 태스크에도 적용될 수 있는지에 대한 외부 유효성을 탐구한다.
    * "Messiness" 요인 분석: 태스크의 난이도 외에 'messiness'(자원 제한, 참신성, 동적 환경 등 16가지 요인)를 고려했을 때, 모델은 messiness 점수가 높은 태스크에서 더 낮은 성능을 보였으나, AI 에이전트의 성능 성장 추세는 messiness 수준에 관계없이 유사하게 나타났다.
    * SWE-bench Verified 복제: SWE-bench Verified 데이터셋으로 방법론을 복제했을 때도 지수적 추세가 유지되었으며, 오히려 더 짧은 doubling time을 보였다.
    * 내부 Pull Request (PR) 평가: 소규모 내부 PR 평가에서는 인간 그룹별(계약자 vs. 유지보수자) 태스크 완료 시간의 큰 차이(5-18배)를 발견했으며, 계약자 시간을 기준으로 할 경우 본 연구의 타임 호라이즌 결과와 일치하는 경향을 보였다.
    * 미래 예측 (Future Prediction): 현재의 추세를 단순 외삽하면, AI는 2028년 말에서 2031년 초 사이에 1개월(167 작업 시간) 이상의 타임 호라이즌에 도달할 것으로 예측된다. 이는 AI가 현재 인간에게 한 달이 걸리는 많은 소프트웨어 태스크를 자동화할 수 있음을 시사한다.
    * 한계점 (Limitations): 이 결과는 외부 유효성 및 미래 성장률 변화에 영향을 받을 수 있다. "Messier"하고 덜 구조화된 태스크에서는 AI 성능이 여전히 낮다.

    이 연구는 AI 능력의 발전을 추적하고 예측하기 위한 새로운 양적 측정 방법을 제시하며, AI의 자율성 증대가 잠재적으로 가져올 위험과 사회적 영향을 이해하는 데 중요한 기반을 제공한다.

    원본 보기
    Arxiv
    Shared by Anonymous