Agent Laboratory: Using LLMs as Research Assistants

요약

‍🔬 Agent Laboratory는 인간의 연구 아이디어를 입력받아 연구 보고서와 코드 저장소를 생성하는 LLM 에이전트 기반 시스템으로, 연구자가 아이디어와 비판적 사고에 집중할 수 있도록 반복 작업을 자동화합니다.

이 시스템은 문헌 검토, 실험, 보고서 작성의 세 단계로 진행되며, ML 문제 해결을 위한 mle-solver와 실험 결과를 학술 논문 형식으로 정리하는 paper-solver를 핵심 구성 요소로 활용합니다.

mle-solver는 MLE-Bench에서 다른 솔버들보다 높은 성과를 보였으나, 자율 생성된 보고서의 품질은 NeurIPS 기준에 크게 미치지 못했으며, gpt-4o 모델이 가장 비용 효율적이고 빠른 성능을 보였습니다.

상세 내용

Agent Laboratory는 인간 연구자가 연구 아이디어를 구현하는 데 도움을 주어, 연구 보고서와 코드 저장소를 출력하는 LLM 에이전트 기반 시스템입니다. 이 시스템은 연구자의 창의성을 보완하고 코딩 및 문서화와 같은 반복적이고 시간 소모적인 작업을 자동화하여 연구 생산성을 최적화하는 것을 목표로 합니다.

Agent Laboratory는 세 가지 주요 단계로 구성됩니다:

Literature Review (문헌 검토): 관련 연구 논문의 독립적인 수집 및 분석을 수행합니다.

Experimentation (실험): 협력적 계획 수립, 데이터 준비, 자동화된 실험 실행을 담당합니다.

Report Writing (보고서 작성): 포괄적인 연구 보고서 생성을 처리합니다.

각 단계에서 LLM 기반의 특수 에이전트들이 협력하며 arXiv, Hugging Face, Python, LaTeX와 같은 외부 도구를 통합하여 최적의 결과를 도출합니다.

핵심 방법론: mle-solver 및 paper-solver

* mle-solver (ML 문제 해결 도구):
이 모듈은 일반적인 목적의 ML 코드 해결사로 작동하며, 이전 단계에서 도출된 연구 방향을 텍스트 형태로 입력받아 연구 코드를 반복적으로 개선합니다. 이는 'top programs' 컬렉션을 사용하여 수행됩니다. 이 'top programs'는 태스크 지침(task instructions), 명령어 설명(command descriptions), 증류된 지식(distilled knowledge)과 같은 입력에 반복적으로 조건화(conditioned)되어, 스코어링 함수(scoring function)에 따라 실험 결과가 개선되도록 합니다.
코드 변경은 두 가지 주요 명령을 통해 생성됩니다: REPLACE(모든 코드를 다시 작성)와 EDIT(특정 라인을 수정). 성공적으로 컴파일된 코드는 스코어를 기반으로 'top programs'를 업데이트하며, 오류가 발생하면 최대 세 번의 복구 시도를 거친 후 새로운 코드를 시도합니다. 에이전트는 각 단계에서 결과를 개선하기 위해 반성(reflects) 과정을 거칩니다.
mle-solver는 MLE-bench의 10개 ML 챌린지에서 독립적으로 평가되었으며, OpenHands(gpt-4o), AIDE(o1-preview), MLAB과 비교하여 높은 성과를 보였습니다. mle-solver는 4개의 메달(금 2, 은 1, 동 1)을 획득했고, 10개 벤치마크 중 6개에서 인간 중간값 이상의 성능을 달성했습니다.

* paper-solver (연구 보고서 작성 도구):
이 모듈은 실험 결과 및 코드를 기반으로 보고서를 생성하는 데 중점을 둡니다. 이전 실험 단계의 출력과 발견 사항을 요약하여 인간이 읽기 쉬운 학술 논문 형태로 변환합니다. 연구 계획, 실험 결과, 도출된 통찰력, 문헌 검토가 입력으로 제공되며, 컨퍼런스 제출에 적합한 표준 학술 논문 형식의 출력을 생성합니다.

평가 및 성능:

* 언어 모델별 인간 인지 품질 평가:
gpt-4o, o1-mini, o1-preview 세 가지 백엔드 모델이 실험 품질, 보고서 품질, 인지된 유용성 측면에서 평가되었습니다. o1-preview가 가장 높은 인지 유용성(4.4/5)과 보고서 품질(3.4/5)을 보였고, o1-mini는 가장 높은 실험 품질(3.2/5)을 달성했습니다. gpt-4o는 전반적으로 가장 낮은 점수를 받았습니다. 연구 주제에 따라 품질 인식에 차이가 있었으며, 특정 주제에서는 o1-mini가 gpt-4o보다 훨씬 우수한 성능을 보였습니다.

* 인간 리뷰어 점수 (NeurIPS 스타일 기준):
NeurIPS 스타일 기준(품질, 중요성, 명확성, 건전성, 발표, 기여도)으로 평가했을 때, o1-preview가 평균 4.0/10점으로 가장 높은 전반적인 점수를 기록했습니다. o1-mini는 품질(2.3/4)에서 우수했고, o1-preview는 건전성(2.2/4)에서 선두를 달렸습니다. 모든 모델은 중요성 및 기여도 측면에서 보통의 성능을 보였으며, 이는 독창성과 영향력의 한계를 시사합니다. 모든 모델의 점수는 NeurIPS 채택 논문의 평균 점수인 5.9점보다 훨씬 낮아, 기술적 및 방법론적 엄격성에서 상당한 격차가 있음을 나타냅니다.

* Co-Pilot 품질 (인간-가이드 모드):
인간-가이드 모드(co-pilot)에서 Agent Laboratory는 유용성(3.5/5), 지속 가능성(3.75/5), 만족도(3.63/5), 사용성(4.0/5) 측면에서 좋은 평가를 받았습니다. 자율 모드 대비 co-pilot 모드에서는 전반적인 논문 품질 점수가 3.8/10에서 4.38/10으로 향상되었습니다.

* 런타임 통계:
gpt-4o가 가장 효율적이고 비용 효과적인 모델 백엔드로, 전체 워크플로우를 1165.4초에 2.33달러의 비용으로 완료하여 o1-mini(3616.8초, 7.51달러) 및 o1-preview(6201.3초, 13.10달러)를 크게 능가했습니다. gpt-4o는 속도와 비용 면에서 특히 'Running Experiments' 및 'Report Writing' 하위 작업에서 3-5배 더 빠르고 훨씬 저렴했습니다. 모든 모델은 높은 신뢰성(95.7% 이상)을 보였습니다. 'Report Writing'은 특히 o1-preview의 경우 가장 비용이 많이 드는 단계였습니다.

#LLM #Agent #Research Assistant #Automation #ML