목록으로
Gemini Flash Pretraining
Blog2025.05.04

Gemini Flash Pretraining

요약

이 문서는 Gemini Flash Pretraining에 대한 토론 및 문헌 검토로, LLM Scaling Laws 및 추론 제약 조건에서의 적용에 중점을 둡니다.
발표는 Scaling Laws의 역사적 논의와 Jacob Austin의 작업을 포함한 관련 연구를 다루며, Industry POV에서 유용한 관점과 설명을 제공합니다.
저자는 Quant 및 kernel 개발, Funsearch 방향, 그리고 비싼 (N, D) 데이터 포인트에 대한 Scaling Laws의 통계적 적합 프레임워크 개발과 같은 학계의 연구 기회를 제안합니다.

상세 내용

본 논문은 Gemini Flash Pretraining에 대한 공개 강연 내용을 바탕으로, 스케일링 법칙(scaling laws)과 추론 제약(inference constraints)에 직면하여 이러한 법칙을 어떻게 수정해야 하는지에 대한 문헌 검토 및 산업적 관점의 논의를 제공합니다.

강연은 크게 두 부분으로 구성됩니다. 첫 번째 부분에서는 Sebastian Borgeaud와 Jean-Baptiste Alayrac의 슬라이드를 인용하여 스케일링 법칙에 대한 역사적 논의를 다룹니다. 두 번째 부분에서는 "Flash" 설정에 적용할 관련 연구들을 검토하며, Jacob Austin의 훌륭한 연구들을 참조합니다. 이 강연은 특히 시스템 및 기계 학습 학생들을 위한 모델링 관점을 제공하며, 산업계의 시각에서 외부 연구들을 정리하고 논평합니다.

이어서, 논문은 학계가 이 분야에 기여할 수 있는 미래 연구 기회들을 제시합니다. 주요 기회들은 다음과 같습니다:

  • Quant 및 Kernel 개발: 이는 확장된 훈련 없이도 수학적 불변량(mathematical invariants)을 식별하기 위한 창의적 사고를 요구하는 분야로, 명백히 중요하다고 언급됩니다.
  • Funsearch 방향의 형식화: Funsearch는 LLM을 사용하여 후보 프로그램(예: 순회 판매원 문제(Travelling Salesman Problem)와 같은 조합론적 문제의 휴리스틱)을 생성하고, 이를 정량적으로 평가할 수 있는 설정에서 유전 프로그래밍(genetic programming)을 통해 탐색합니다. 흥미로운 점은, 생성 탐색(generative search) 과정에서 제안 빈도(proposal frequency)와 평가(evaluation) 사이의 적절한 균형을 맞추는 것이 중요하다는 것입니다. Funsearch 팀은 중간 크기의 모델이 가장 좋은 결과를 보였다고 언급하며, 이는 루프 내에서 사용되는 모델 크기 \(M\)과 평가 비용 \(C\) 간의 최적의 균형을 찾는 문제로 볼 수 있습니다. 논문은 이러한 방법론을 형식화하고, 검증된 강화 학습(verified RL) 설정에도 적용할 것을 제안합니다.
  • 스케일링 법칙 피팅을 위한 통계적 프레임워크: 현재 스케일링 법칙 논의에서 빠진 핵심 요소로 지적됩니다. \((N, D)\) (여기서 \(N\)은 파라미터 수, \(D\)는 데이터 크기) 각 지점을 관찰하는 데는 많은 비용이 듭니다. 최소 제곱법(Least Squares)과 최대 우도 추정(Maximum Likelihood Estimation, MLE) 피팅은 다른 처방(prescriptions)을 암시하며, LLM 평가의 노이즈(noise)를 다루기 위한 프레임워크가 필요합니다. 이는 데이터/파라미터 크기에 대한 격자 탐색(grid search) 대신, 예상 정보 이득(expected information gain)에 따라 포인트를 반복적으로 선택함으로써 스케일링 법칙을 더 효율적으로 피팅할 수 있는 제안으로 이어질 것입니다. 이는 \(\mathcal{L}(N, D) = a N^{\alpha} D^{\beta}\)와 같은 형태로 가정되는 스케일링 법칙의 계수 \((a, \alpha, \beta)\)를 더 효율적으로 추정하기 위한 방법론적 개선을 의미합니다.
  • 원본 보기
    Web
    Shared by Anonymous