Paper

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

Weiqiang Lou

2026.03.03

·Arxiv·by 이호민

#Agent#CUDA#Kernel Generation#LLM#Reinforcement Learning

핵심 포인트

1GPU 커널 최적화의 어려움과 기존 LLM 방식의 한계를 극복하기 위해, 본 논문은 CUDA Agent라는 대규모 agentic RL 시스템을 제안합니다.
2CUDA Agent는 확장 가능한 데이터 합성 파이프라인, 자동화된 검증 및 프로파일링을 갖춘 skill-augmented 개발 환경, 그리고 안정적인 RL 훈련을 위한 알고리즘 개선을 통해 CUDA 커널 생성 능력을 강화합니다.
3CUDA Agent는 KernelBench에서 `torch.compile` 대비 100%, 100%, 92% 더 빠른 속도를 달성하며 SOTA 성능을 기록했고, 최신 상용 모델을 뛰어넘어 LLM 기반 커널 생성이 기존 컴파일러를 능가할 수 있음을 입증했습니다.

r

Paper

Weiqiang Lou

2026.03.03

·Arxiv·by 이호민

#Agent#CUDA#Kernel Generation#LLM#Reinforcement Learning

1GPU 커널 최적화의 어려움과 기존 LLM 방식의 한계를 극복하기 위해, 본 논문은 CUDA Agent라는 대규모 agentic RL 시스템을 제안합니다.
2CUDA Agent는 확장 가능한 데이터 합성 파이프라인, 자동화된 검증 및 프로파일링을 갖춘 skill-augmented 개발 환경, 그리고 안정적인 RL 훈련을 위한 알고리즘 개선을 통해 CUDA 커널 생성 능력을 강화합니다.
3CUDA Agent는 KernelBench에서 `torch.compile` 대비 100%, 100%, 92% 더 빠른 속도를 달성하며 SOTA 성능을 기록했고, 최신 상용 모델을 뛰어넘어 LLM 기반 커널 생성이 기존 컴파일러를 능가할 수 있음을 입증했습니다.

r