Grounding World Simulation Models in a Real-World Metropolis
Paper

Grounding World Simulation Models in a Real-World Metropolis

2026.03.18
·Web·by 네루
#Computer Vision#Generative AI#RAG#Video Generation#World Model

핵심 포인트

  • 1Seoul World Model (SWM)은 수백만 장의 street-view 이미지를 RAG에 활용하여 서울의 실제 풍경을 수 킬로미터에 걸쳐 충실하게 렌더링하는 도시 규모의 World Model입니다.
  • 2이 모델은 실제 데이터와 CARLA 시뮬레이터의 합성 데이터를 통합하여 보행, 차량, 자유 카메라 이동 등 다양한 trajectory를 지원하며, cross-temporal pairing 및 view interpolation 기법으로 robustness를 확보합니다.
  • 3SWM은 긴 길이의 영상 생성에서 발생하는 오류 누적을 방지하기 위해 Virtual Lookahead Sink라는 새로운 기법을 도입하여, 미래 위치의 retrieved 이미지를 통해 지속적으로 생성을 re-grounding하여 안정성을 크게 향상시켰습니다.

Seoul World Model (SWM)은 기존의 세계 모델이 상상 속의 환경을 렌더링하는 것과 달리, 실제 존재하는 도시(서울)를 기반으로 한 도시 규모의 세계 모델입니다. SWM은 Street-View 이미지 RAG(Retrieval-Augmented Generation)를 통해 자동회귀적(autoregressive) 비디오 생성을 실제 세계에 grounding합니다.

SWM은 몇 가지 주요 과제를 해결합니다:

  1. Retrieved References와 Target Scene 간의 Temporal Misalignment: 검색된 참조 이미지와 동적인 목표 장면 간의 시간적 불일치.
  2. 제한된 Trajectory 다양성 및 Data Sparsity: 차량 장착형(vehicle-mounted) 캡처로 인한 제한적인 궤적 다양성 및 데이터 희소성.
  3. Long-horizon 생성 시 에러 누적: 긴 궤적을 따라 자동회귀적으로 비디오를 생성할 때 발생하는 에러 축적 문제.

핵심 방법론 및 기술 세부 사항:

  1. Retrieval-Augmented Generation (RAG) 아키텍처:
SWM은 텍스트 프롬프트, 카메라 궤적, 그리고 지리적으로 인덱싱된 Street-View 데이터베이스에서 검색된 Street-View 이미지를 조건으로 하여 비디오 청크(chunk)를 자동회귀적으로 생성합니다.
  • Retrieval & Referencing: 각 생성 청크에 대해 인접한 Street-View 이미지들이 최근접 이웃(nearest-neighbor) 검색과 depth-based reprojection 필터링을 통해 검색됩니다. 이 참조 이미지들은 두 가지 보완적인 경로를 통해 생성을 조건화합니다.
    • Geometric Referencing: 가장 가까운 참조 이미지를 depth-based splatting을 통해 목표 시점으로 워프(warp)하여 공간적 레이아웃 단서(layout cues)를 제공합니다.
    • Semantic Referencing: 원본 참조 이미지들을 Transformer의 latent sequence에 주입하여 모델이 모든 참조 이미지에서 외관(appearance) 세부 사항에 주의(attend)를 기울일 수 있도록 합니다.
  1. Virtual Lookahead Sink (VL Sink):
자동회귀적 생성은 장기적인(long-horizon) 궤적에서 오류를 누적시키는 경향이 있습니다. 기존 방식은 초기 프레임에 고정된 정적(static) attention sink를 사용했는데, 카메라가 멀리 이동할수록 이 가이던스(guidance)가 약해지는 문제가 있었습니다.
SWM의 Virtual Lookahead Sink는 이 문제를 해결합니다. 이는 현재 청크보다 앞선(future) 위치에서 가장 가까운 Street-View 이미지를 "가상 미래 목적지(virtual future destination)"로 동적으로 검색합니다. 이를 통해 SWM은 오류가 없는 깨끗한 앵커(anchor)를 지속적으로 제공하여 생성 과정을 재-grounding하고, 수백 미터에 달하는 궤적에 걸쳐 비디오 품질 저하를 효과적으로 방지합니다.

  1. 데이터 전략 및 전처리:
SWM은 Street-View 참조 이미지와 목표 비디오 시퀀스의 정렬된 쌍으로 학습됩니다.
  • Data Overview:
    • 서울 전역에서 캡처된 120만 개의 실제 파노라마 이미지.
    • 431,500m² 면적의 도시를 커버하는 Unreal Engine 기반 CARLA 도시 시뮬레이터에서 생성된 1만 개의 합성(synthetic) 비디오.
  • Cross-Temporal Pairing: 참조 Street-View 이미지는 목표 비디오와 다른 시점에 캡처되도록 하여, 모델이 동적 객체(예: 차량) 대신 지속적인 공간 구조에 의존하도록 강제합니다. 이는 참조 이미지의 동적 내용이 생성된 비디오로 누출되는 것을 방지합니다.
  • Street-View Interpolation: Street-View keyframe(5~20m 간격)으로부터 부드러운 훈련 비디오를 합성하기 위해 "Intermittent Freeze-Frame" 전략을 사용합니다. 이는 3D VAE의 시간적 보폭(temporal stride)에 맞춰 희소한 Street-View 이미지들로부터 일관된 훈련 데이터를 생성합니다.
  • Unreal Engine 기반 합성 데이터: 실제 데이터의 운전 위주 궤적을 보완하기 위해 CARLA 시뮬레이터에서 보행자(pedestrian), 차량(vehicle), 자유 카메라(free-camera)의 세 가지 궤적 유형을 렌더링합니다. 이 궤적 다양성은 SWM이 전방 주행(forward-driving)을 넘어 임의의 카메라 움직임을 처리할 수 있도록 합니다.

SWM은 서울, 부산, Ann Arbor 세 도시에서 최신 비디오 세계 모델들과 비교 평가되었습니다. SWM은 실제 도시 환경에서 수백 미터에 달하는 궤적에 걸쳐 공간적으로 충실하고, 시간적으로 일관되며, 장기적인 비디오를 생성하는 데 있어서 기존 방법들을 능가하며, 다양한 카메라 움직임과 텍스트 프롬프트 기반 시나리오 변형을 지원합니다.