GitHub - openai/parameter-golf: Train the smallest LM you can that fits in 16MB. Best model wins!
Blog

GitHub - openai/parameter-golf: Train the smallest LM you can that fits in 16MB. Best model wins!

openai
2026.03.22
·GitHub·by 이호민
#AI Challenge#LLM#Model Optimization#Parameter Golf#Quantization

핵심 포인트

  • 1OpenAI의 "Parameter Golf" 챌린지는 16MB 아티팩트 크기 및 8xH100에서 10분 이내의 훈련 시간 제약 하에 FineWeb 데이터셋에서 최적의 언어 모델을 개발하는 도전 과제입니다.
  • 2이 챌린지는 참가자들에게 고유한 아키텍처, 압축 방식 및 창의적인 솔루션 개발을 장려하며, OpenAI는 $1,000,000 상당의 컴퓨팅 크레딧을 지원하고 초기 경력 연구자들에게 채용 기회를 제공합니다.
  • 3참가자는 PR(Pull Request)을 통해 제출하며, SOTA(State-of-the-Art) 기록을 0.005 nats 이상 개선해야 하고, 모든 제출물은 재현 가능해야 하며 특정 파일과 로그를 포함해야 합니다.

이 문서는 OpenAI Model Craft Challenge: Parameter Golf에 대한 안내문입니다. 이 챌린지의 목표는 16MB 아티팩트 크기 제약과 8xH100 GPU에서 10분 이내의 학습 시간 제약 내에서 FineWeb 검증 세트의 압축 성능(bits per byte)을 기준으로 가장 우수한 언어 모델을 학습시키는 것입니다.

핵심 목표 및 제약 조건:
이 챌린지는 NanoGPT Speedrunning 챌린지에서 영감을 받았으며, 데이터, 컴퓨팅, 스텝 또는 아키텍처에 구애받지 않고 고정된 파라미터 수(NN)에서 최저 손실(L(N)L(N))을 최적화하는 형태입니다. 주요 제약은 다음과 같습니다:

  • 아티팩트 크기: 코드 바이트와 압축된 모델 바이트를 포함하여 정확히 16,000,000바이트(16MB)를 초과할 수 없습니다. 평가 중에는 외부 다운로드, 학습 데이터셋 접근 또는 네트워크 호출이 허용되지 않으며, 아티팩트는 완전히 자체 포함되고 재현 가능해야 합니다.
  • 학습 시간: 8xH100 GPU에서 10분 이내에 학습을 완료해야 합니다. 리더보드 제출은 이 제약을 따라야 하지만, 'Non-record Submissions' 섹션에서는 무제한 컴퓨팅 트랙도 허용됩니다.
  • 평가 지표: FineWeb 검증 세트에 대한 압축 성능 (tokenizer-agnostic, bits per byte)으로 평가됩니다. 목표는 val_bpbval\_bpb 점수를 낮추는 것입니다.
  • 평가 시간: 모델 평가는 8xH100에서 10분을 초과할 수 없습니다. (학습 시간과는 별개의 제한)

도전의 취지:
이러한 제약 조건은 참가자들이 다음과 같은 독특한 접근 방식을 탐색하도록 장려합니다:

  • 아키텍처 혁신: test-time compute, aggressive parameter tying, depth recurrence, low-rank training 등.
  • 압축 기법: low precision (예: int5, int6), Quantization-Aware Training (QAT), BitNets, 새로운 토크나이저 등.
  • 창의적 제출: test-time training, long context, megakernels 등.

기술적 세부 사항 및 방법론:
참가자들은 train_gpt.py (PyTorch 기반) 또는 train_gpt_mlx.py (Apple Silicon Mac용 MLX 기반) 스크립트를 출발점으로 사용하여 모델을 개발합니다.
핵심적인 방법론은 고정된 파라미터 예산 내에서 모델의 효율성과 표현력을 극대화하는 것입니다. 리더보드에 나타난 성공적인 전략들은 다음과 같습니다:

  • 저정밀도 양자화 (Quantization): int5, int6, int8과 같은 혼합 정밀도(mixed precision) 또는 QAT를 사용하여 모델 가중치와 활성화 함수를 양자화하여 모델 크기를 줄입니다. 이는 NN을 줄이는 동시에 성능 손실을 최소화하는 데 중점을 둡니다.
  • MLP 변형: 표준 트랜스포머의 피드포워드 네트워크(MLP)를 3x MLP 또는 특정 크기(예: 1344)로 변형하여 파라미터 효율성을 높입니다.
  • 임베딩 최적화: BigramHash와 같은 기법을 사용하여 임베딩 공간을 압축하거나, Tied Embeddings (인코더-디코더 임베딩 공유) 및 저정밀도 임베딩(예: fp16 Embed)을 활용합니다.
  • 정규화 및 최적화: Stochastic Weight Averaging (SWA), Muon Weight Decay (Muon WD) 및 OrthoInit과 같은 초기화 기법을 사용하여 학습 안정성과 최종 성능을 개선합니다.
  • 데이터 압축: Zstd-22와 같은 압축 알고리즘을 활용하여 모델을 압축합니다.
  • 평가 전략: Sliding Window Evaluation 또는 Test-Time Training (LoRA TTT)과 같이 평가 시 모델의 성능을 향상시키는 기법을 사용합니다. Test-Time Training은 이미 평가된 토큰에 대해서만 허용됩니다.
  • 컨텍스트 길이: 4k 또는 2048의 더 긴 시퀀스 길이 탐색.

제출 프로세스:
새로운 최고 기록(SOTA)은 이전 기록을 최소 0.005 nats 이상 개선해야 하며, p < 0.01의 통계적 유의성을 보여주는 충분한 런 로그(일반적으로 3회 학습 실행의 평균)를 제공해야 합니다. 제출은 새로운 폴더를 /records 하위 폴더에 추가하는 Pull Request 형태로 이루어지며, 다음을 포함해야 합니다: README.md, submission.json (이름, GitHub ID, val_bpb 등 메타데이터), 학습 로그, 그리고 실행 가능한 train_gpt.py 스크립트 및 관련 종속성.

OpenAI는 이 챌린지를 통해 초기 경력 연구자들을 발굴하고 채용 기회를 제공하며, 참가자들에게 컴퓨팅 크레딧을 지원합니다.