Paper

Learning to Discover at Test Time

James Zou

2026.01.31

·Arxiv·by 네루

#LLM#Reinforcement Learning#Test-Time Training#AI Discovery#Open Model

핵심 포인트

1TTT-Discover는 LLM이 특정 문제에 대해 학습을 계속하여 단일 최고의 솔루션을 발견하도록 돕는 테스트 시점 훈련 방식을 제안합니다.
2이 방법은 평균 보상 대신 최대 보상에 초점을 맞추는 entropic objective와 PUCT 기반의 상태 재사용 전략을 사용하여, 고품질 단일 솔루션 발견에 최적화되었습니다.
3TTT-Discover는 수학, GPU kernel engineering, 알고리즘 설계, 생물학 등 다양한 분야에서 새로운 SOTA를 달성했으며, 오픈 모델과 저렴한 비용으로 이전 AI 및 인간의 기록을 경신했습니다.

d

Paper

James Zou

2026.01.31

·Arxiv·by 네루

#LLM#Reinforcement Learning#Test-Time Training#AI Discovery#Open Model

1TTT-Discover는 LLM이 특정 문제에 대해 학습을 계속하여 단일 최고의 솔루션을 발견하도록 돕는 테스트 시점 훈련 방식을 제안합니다.
2이 방법은 평균 보상 대신 최대 보상에 초점을 맞추는 entropic objective와 PUCT 기반의 상태 재사용 전략을 사용하여, 고품질 단일 솔루션 발견에 최적화되었습니다.
3TTT-Discover는 수학, GPU kernel engineering, 알고리즘 설계, 생물학 등 다양한 분야에서 새로운 SOTA를 달성했으며, 오픈 모델과 저렴한 비용으로 이전 AI 및 인간의 기록을 경신했습니다.

d