
Agent Laboratory: Using LLMs as Research Assistants
요약
mle-solver와 실험 결과를 학술 논문 형식으로 정리하는 paper-solver를 핵심 구성 요소로 활용합니다.mle-solver는 MLE-Bench에서 다른 솔버들보다 높은 성과를 보였으나, 자율 생성된 보고서의 품질은 NeurIPS 기준에 크게 미치지 못했으며, gpt-4o 모델이 가장 비용 효율적이고 빠른 성능을 보였습니다.상세 내용
Agent Laboratory는 세 가지 주요 단계로 구성됩니다:
각 단계에서 LLM 기반의 특수 에이전트들이 협력하며 arXiv, Hugging Face, Python, LaTeX와 같은 외부 도구를 통합하여 최적의 결과를 도출합니다.
핵심 방법론: mle-solver 및 paper-solver
* mle-solver (ML 문제 해결 도구):
이 모듈은 일반적인 목적의 ML 코드 해결사로 작동하며, 이전 단계에서 도출된 연구 방향을 텍스트 형태로 입력받아 연구 코드를 반복적으로 개선합니다. 이는 'top programs' 컬렉션을 사용하여 수행됩니다. 이 'top programs'는 태스크 지침(task instructions), 명령어 설명(command descriptions), 증류된 지식(distilled knowledge)과 같은 입력에 반복적으로 조건화(conditioned)되어, 스코어링 함수(scoring function)에 따라 실험 결과가 개선되도록 합니다.
코드 변경은 두 가지 주요 명령을 통해 생성됩니다: REPLACE(모든 코드를 다시 작성)와 EDIT(특정 라인을 수정). 성공적으로 컴파일된 코드는 스코어를 기반으로 'top programs'를 업데이트하며, 오류가 발생하면 최대 세 번의 복구 시도를 거친 후 새로운 코드를 시도합니다. 에이전트는 각 단계에서 결과를 개선하기 위해 반성(reflects) 과정을 거칩니다.
mle-solver는 MLE-bench의 10개 ML 챌린지에서 독립적으로 평가되었으며, OpenHands(gpt-4o), AIDE(o1-preview), MLAB과 비교하여 높은 성과를 보였습니다. mle-solver는 4개의 메달(금 2, 은 1, 동 1)을 획득했고, 10개 벤치마크 중 6개에서 인간 중간값 이상의 성능을 달성했습니다.
* paper-solver (연구 보고서 작성 도구):
이 모듈은 실험 결과 및 코드를 기반으로 보고서를 생성하는 데 중점을 둡니다. 이전 실험 단계의 출력과 발견 사항을 요약하여 인간이 읽기 쉬운 학술 논문 형태로 변환합니다. 연구 계획, 실험 결과, 도출된 통찰력, 문헌 검토가 입력으로 제공되며, 컨퍼런스 제출에 적합한 표준 학술 논문 형식의 출력을 생성합니다.
평가 및 성능:
* 언어 모델별 인간 인지 품질 평가:
gpt-4o, o1-mini, o1-preview 세 가지 백엔드 모델이 실험 품질, 보고서 품질, 인지된 유용성 측면에서 평가되었습니다. o1-preview가 가장 높은 인지 유용성(4.4/5)과 보고서 품질(3.4/5)을 보였고, o1-mini는 가장 높은 실험 품질(3.2/5)을 달성했습니다. gpt-4o는 전반적으로 가장 낮은 점수를 받았습니다. 연구 주제에 따라 품질 인식에 차이가 있었으며, 특정 주제에서는 o1-mini가 gpt-4o보다 훨씬 우수한 성능을 보였습니다.
* 인간 리뷰어 점수 (NeurIPS 스타일 기준):
NeurIPS 스타일 기준(품질, 중요성, 명확성, 건전성, 발표, 기여도)으로 평가했을 때, o1-preview가 평균 4.0/10점으로 가장 높은 전반적인 점수를 기록했습니다. o1-mini는 품질(2.3/4)에서 우수했고, o1-preview는 건전성(2.2/4)에서 선두를 달렸습니다. 모든 모델은 중요성 및 기여도 측면에서 보통의 성능을 보였으며, 이는 독창성과 영향력의 한계를 시사합니다. 모든 모델의 점수는 NeurIPS 채택 논문의 평균 점수인 5.9점보다 훨씬 낮아, 기술적 및 방법론적 엄격성에서 상당한 격차가 있음을 나타냅니다.
* Co-Pilot 품질 (인간-가이드 모드):
인간-가이드 모드(co-pilot)에서 Agent Laboratory는 유용성(3.5/5), 지속 가능성(3.75/5), 만족도(3.63/5), 사용성(4.0/5) 측면에서 좋은 평가를 받았습니다. 자율 모드 대비 co-pilot 모드에서는 전반적인 논문 품질 점수가 3.8/10에서 4.38/10으로 향상되었습니다.
* 런타임 통계:
gpt-4o가 가장 효율적이고 비용 효과적인 모델 백엔드로, 전체 워크플로우를 1165.4초에 2.33달러의 비용으로 완료하여 o1-mini(3616.8초, 7.51달러) 및 o1-preview(6201.3초, 13.10달러)를 크게 능가했습니다. gpt-4o는 속도와 비용 면에서 특히 'Running Experiments' 및 'Report Writing' 하위 작업에서 3-5배 더 빠르고 훨씬 저렴했습니다. 모든 모델은 높은 신뢰성(95.7% 이상)을 보였습니다. 'Report Writing'은 특히 o1-preview의 경우 가장 비용이 많이 드는 단계였습니다.