
Paper
코드 변경은 두 가지 주요 명령을 통해 생성됩니다:
Agent Laboratory: Using LLMs as Research Assistants
2025.02.16
·Web·by Anonymous#LLM#Agent#Research Assistant#Automation#ML
핵심 포인트
- 1Agent Laboratory는 인간의 연구 아이디어를 입력받아 연구 보고서와 코드 저장소를 생성하는 LLM 에이전트 기반 시스템으로, 연구자가 아이디어와 비판적 사고에 집중할 수 있도록 반복 작업을 자동화합니다.
- 2이 시스템은 문헌 검토, 실험, 보고서 작성의 세 단계로 진행되며, ML 문제 해결을 위한 `mle-solver`와 실험 결과를 학술 논문 형식으로 정리하는 `paper-solver`를 핵심 구성 요소로 활용합니다.
- 3`mle-solver`는 MLE-Bench에서 다른 솔버들보다 높은 성과를 보였으나, 자율 생성된 보고서의 품질은 NeurIPS 기준에 크게 미치지 못했으며, gpt-4o 모델이 가장 비용 효율적이고 빠른 성능을 보였습니다.
Agent Laboratory는 인간 연구자가 연구 아이디어를 구현하는 데 도움을 주어, 연구 보고서와 코드 저장소를 출력하는 LLM 에이전트 기반 시스템입니다. 이 시스템은 연구자의 창의성을 보완하고 코딩 및 문서화와 같은 반복적이고 시간 소모적인 작업을 자동화하여 연구 생산성을 최적화하는 것을 목표로 합니다.
Agent Laboratory는 세 가지 주요 단계로 구성됩니다:
- Literature Review (문헌 검토): 관련 연구 논문의 독립적인 수집 및 분석을 수행합니다.
- Experimentation (실험): 협력적 계획 수립, 데이터 준비, 자동화된 실험 실행을 담당합니다.
- Report Writing (보고서 작성): 포괄적인 연구 보고서 생성을 처리합니다.
각 단계에서 LLM 기반의 특수 에이전트들이 협력하며 arXiv, Hugging Face, Python, LaTeX와 같은 외부 도구를 통합하여 최적의 결과를 도출합니다.
핵심 방법론: mle-solver 및 paper-solver
- mle-solver (ML 문제 해결 도구):
코드 변경은 두 가지 주요 명령을 통해 생성됩니다:
REPLACE(모든 코드를 다시 작성)와 EDIT(특정 라인을 수정). 성공적으로 컴파일된 코드는 스코어를 기반으로 'top programs'를 업데이트하며, 오류가 발생하면 최대 세 번의 복구 시도를 거친 후 새로운 코드를 시도합니다. 에이전트는 각 단계에서 결과를 개선하기 위해 반성(reflects) 과정을 거칩니다.mle-solver는 MLE-bench의 10개 ML 챌린지에서 독립적으로 평가되었으며, OpenHands(gpt-4o), AIDE(o1-preview), MLAB과 비교하여 높은 성과를 보였습니다. mle-solver는 4개의 메달(금 2, 은 1, 동 1)을 획득했고, 10개 벤치마크 중 6개에서 인간 중간값 이상의 성능을 달성했습니다.- paper-solver (연구 보고서 작성 도구):
평가 및 성능:
- 언어 모델별 인간 인지 품질 평가:
gpt-4o, o1-mini, o1-preview 세 가지 백엔드 모델이 실험 품질, 보고서 품질, 인지된 유용성 측면에서 평가되었습니다. o1-preview가 가장 높은 인지 유용성(4.4/5)과 보고서 품질(3.4/5)을 보였고, o1-mini는 가장 높은 실험 품질(3.2/5)을 달성했습니다. gpt-4o는 전반적으로 가장 낮은 점수를 받았습니다. 연구 주제에 따라 품질 인식에 차이가 있었으며, 특정 주제에서는 o1-mini가 gpt-4o보다 훨씬 우수한 성능을 보였습니다.- 인간 리뷰어 점수 (NeurIPS 스타일 기준):
o1-preview가 평균 4.0/10점으로 가장 높은 전반적인 점수를 기록했습니다. o1-mini는 품질(2.3/4)에서 우수했고, o1-preview는 건전성(2.2/4)에서 선두를 달렸습니다. 모든 모델은 중요성 및 기여도 측면에서 보통의 성능을 보였으며, 이는 독창성과 영향력의 한계를 시사합니다. 모든 모델의 점수는 NeurIPS 채택 논문의 평균 점수인 5.9점보다 훨씬 낮아, 기술적 및 방법론적 엄격성에서 상당한 격차가 있음을 나타냅니다.- Co-Pilot 품질 (인간-가이드 모드):
- 런타임 통계:
gpt-4o가 가장 효율적이고 비용 효과적인 모델 백엔드로, 전체 워크플로우를 1165.4초에 2.33달러의 비용으로 완료하여 o1-mini(3616.8초, 7.51달러) 및 o1-preview(6201.3초, 13.10달러)를 크게 능가했습니다. gpt-4o는 속도와 비용 면에서 특히 'Running Experiments' 및 'Report Writing' 하위 작업에서 3-5배 더 빠르고 훨씬 저렴했습니다. 모든 모델은 높은 신뢰성(95.7% 이상)을 보였습니다. 'Report Writing'은 특히 o1-preview의 경우 가장 비용이 많이 드는 단계였습니다.