The Second Half

Blog

The Second Half

Shunyu Yao

2025.08.31

·Web·by Anonymous

#AI#RL#LLM#Reasoning#Evaluation

핵심 포인트

1AI의 첫 번째 절반은 벤치마크를 능가하는 새로운 훈련 방법과 모델 개발에 집중했지만, 방대한 language pre-training과 scale, 그리고 reasoning을 결합한 새로운 'recipe'가 다양한 복합 task에서 RL이 일반화되도록 만들었습니다.
2이 강력한 'recipe'는 이제 점진적인 방법론을 무의미하게 만들고 새로운 benchmark들을 빠르게 해결하며, 문제 해결에서 평가의 근본적인 재정의로 초점을 전환할 필요성을 제기합니다.
3AI의 '두 번째 절반'은 현재의 자동화되고 i.i.d. 가정에서 벗어나 실제 시나리오와 utility를 반영하는 새로운 evaluation setup을 개발하여 'utility problem'을 해결하고 진정으로 영향력 있는 발전을 이끌어야 합니다.

The Second Half

Blog

The Second Half

Shunyu Yao

2025.08.31

·Web·by Anonymous

#AI#RL#LLM#Reasoning#Evaluation

핵심 포인트

1AI의 첫 번째 절반은 벤치마크를 능가하는 새로운 훈련 방법과 모델 개발에 집중했지만, 방대한 language pre-training과 scale, 그리고 reasoning을 결합한 새로운 'recipe'가 다양한 복합 task에서 RL이 일반화되도록 만들었습니다.
2이 강력한 'recipe'는 이제 점진적인 방법론을 무의미하게 만들고 새로운 benchmark들을 빠르게 해결하며, 문제 해결에서 평가의 근본적인 재정의로 초점을 전환할 필요성을 제기합니다.
3AI의 '두 번째 절반'은 현재의 자동화되고 i.i.d. 가정에서 벗어나 실제 시나리오와 utility를 반영하는 새로운 evaluation setup을 개발하여 'utility problem'을 해결하고 진정으로 영향력 있는 발전을 이끌어야 합니다.