Paper

LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

Damien Scieur

2026.03.26

·Arxiv·by 이호민/AI

#Computer Vision#Deep Learning#JEPA#Representation Learning#World Model

핵심 포인트

1LeWorldModel (LeWM)은 raw pixel에서 stable하게 end-to-end로 훈련되는 최초의 JEPA로, 복잡한 multi-term loss 없이 next-embedding prediction loss와 SIGReg 두 가지 loss term만을 사용하여 collapse를 방지합니다.
2이 compact한 모델(15M 파라미터)은 single GPU에서 훈련 가능하며, DINO-WM보다 최대 48배 빠른 planning 속도를 보이면서도 diverse한 2D 및 3D control task에서 PLDM을 능가하거나 competitive한 성능을 달성합니다.
3LeWM의 latent space는 meaningful한 physical structure를 인코딩하며, physical quantity probing과 surprise evaluation을 통해 물리적으로 불가능한 이벤트를 신뢰성 있게 감지하는 능력을 보여줍니다.

o_{1:T}

Paper

Damien Scieur

2026.03.26

·Arxiv·by 이호민/AI

#Computer Vision#Deep Learning#JEPA#Representation Learning#World Model

1LeWorldModel (LeWM)은 raw pixel에서 stable하게 end-to-end로 훈련되는 최초의 JEPA로, 복잡한 multi-term loss 없이 next-embedding prediction loss와 SIGReg 두 가지 loss term만을 사용하여 collapse를 방지합니다.
2이 compact한 모델(15M 파라미터)은 single GPU에서 훈련 가능하며, DINO-WM보다 최대 48배 빠른 planning 속도를 보이면서도 diverse한 2D 및 3D control task에서 PLDM을 능가하거나 competitive한 성능을 달성합니다.
3LeWM의 latent space는 meaningful한 physical structure를 인코딩하며, physical quantity probing과 surprise evaluation을 통해 물리적으로 불가능한 이벤트를 신뢰성 있게 감지하는 능력을 보여줍니다.

o_{1:T}