website
Blog

website

2026.02.24
·Web·by 이호민
#AI#Autonomous Driving#Generative Model#Simulation#Waymo

핵심 포인트

  • 1Waymo World Model은 Waymo Driver를 위한 하이퍼리얼리스틱 자율주행 시뮬레이션을 위해 Google DeepMind의 Genie 3를 기반으로 개발된 선도적인 generative 모델입니다.
  • 2이 모델은 Genie의 방대한 world knowledge를 활용하여 현실에서 포착하기 어려운 희귀 이벤트를 시뮬레이션하며, camera 및 Lidar를 포함한 고정밀 다중 센서 데이터를 생성합니다.
  • 3Waymo World Model은 driving action, scene layout, language control 등 강력한 controllability를 제공하여 Waymo Driver가 복잡하고 예측 불가능한 시나리오에 대비하게 함으로써 안전성 기준을 높입니다.

Waymo World Model은 Waymo Driver의 시뮬레이션을 위한 최첨단 generative model로, 대규모의 hyper-realistic 자율주행 시뮬레이션을 가능하게 합니다. 이 모델은 Google DeepMind의 가장 진보된 일반 목적 world model인 Genie 3를 기반으로 하며, 운전 영역의 엄격한 요구사항에 맞게 적용되었습니다.

핵심 방법론 (Core Methodology):
Waymo World Model의 핵심은 세 가지 주요 특성, 즉 광범위한 세계 지식 (broad world knowledge), 정교한 제어 가능성 (fine-grained controllability), 그리고 multi-modal realism에 있습니다.

  1. 광범위한 세계 지식 (Broad World Knowledge):
    • 대부분의 자율주행 시뮬레이션 모델이 온로드 데이터(on-road data)만을 기반으로 처음부터 훈련되는 것과 달리, Waymo World Model은 Genie 3의 방대한 사전 훈련(pre-training) 경험을 활용합니다. Genie 3는 매우 크고 다양한 비디오 데이터셋으로 사전 훈련되어, Waymo fleet이 직접 관찰하지 못했던 희귀하고 복잡한 시나리오를 시뮬레이션할 수 있는 강력한 세계 지식을 갖추고 있습니다.
    • 이러한 Genie 3의 2D 비디오 기반 세계 지식은 Waymo의 고유한 하드웨어 스위트(hardware suite)에 특화된 3D lidar 출력으로 변환되는 전문화된 후처리 훈련(post-training)을 거칩니다. 카메라가 시각적 세부 묘사에 뛰어난 반면, lidar 센서는 정밀한 depth와 같은 귀중한 보완 신호를 제공하여, Waymo World Model은 다양한 센서 modality를 통해 사실적인 장면을 생성할 수 있습니다. 예를 들어, 토네이도, 코끼리와 같은 극히 희귀한 이벤트를 시뮬레이션할 수 있습니다.
  1. 정교한 제어 가능성 (Strong Simulation Controllability):
    • 모델은 세 가지 메커니즘을 통해 높은 제어 가능성을 제공합니다:
      • Driving Action Control: 특정 운전 입력(driving inputs)에 반응하는 시뮬레이터를 가능하게 하여, Waymo Driver가 특정 상황에서 양보하는 대신 더 자신감 있게 운전했더라면 어땠을지(what-if counterfactual events)와 같은 "반사실적(counterfactual)" 이벤트를 시뮬레이션할 수 있습니다. 순수한 재구성 시뮬레이션 방법(reconstructive simulation methods) (예: 3D Gaussian Splats, 3DGS)이 시뮬레이션 경로가 원본 운전과 너무 다를 때 관찰 누락으로 인한 시각적 손상(visual breakdowns)을 겪는 것과 달리, 이 모델은 강력한 generative capabilities 덕분에 좋은 realism과 일관성을 유지합니다.
      • Scene Layout Control: 도로 레이아웃(road layouts), 신호등 상태(traffic signal states), 다른 도로 사용자(road users)의 행동을 맞춤 설정할 수 있습니다. 이를 통해 다른 도로 사용자의 선택적 배치 또는 도로 레이아웃에 대한 사용자 지정 변형(custom mutations)을 통해 맞춤형 시나리오를 생성할 수 있습니다.
      • Language Control: 가장 유연한 도구로, 시간대(time-of-day), 기상 조건(weather conditions)을 조정하거나, 완전히 synthetic scene을 생성할 수 있습니다.
  1. Multi-modal Realism:
    • Waymo World Model은 카메라 데이터와 lidar 데이터를 모두 포함하는 고품질의 multi-sensor 출력을 생성합니다. 이는 시각적 디테일과 정확한 3D 구조를 동시에 제공하여 시뮬레이션의 realism을 극대화합니다.
    • 일반적인 일상 운전 시나리오부터 극심한 기상 조건(예: 눈 덮인 Golden Gate Bridge, 토네이도, 침수된 cul de sac), 희귀하고 안전에 중요한 이벤트(예: 난폭 운전자, 고장 난 트럭), 그리고 long-tail 객체(예: 코끼리, Texas longhorn, 사자, T-rex 복장을 한 보행자, 거대한 tumbleweed)와 같은 다양한 시나리오를 multi-modal하게 생성할 수 있습니다.

추가 기능:

  • 대시캠 비디오 변환 (Converting Dashcam Videos): 일반 카메라로 촬영된 비디오(예: 대시캠 비디오)를 multi-modal 시뮬레이션으로 변환하여, Waymo Driver가 해당 장면을 어떻게 인식할지 보여줄 수 있습니다. 이는 실제 footage에서 파생된 시뮬레이션을 통해 최고 수준의 realism과 사실성(factuality)을 제공합니다.
  • 확장 가능한 추론 (Scalable Inference): Waymo World Model의 효율적인 변형(variant)을 통해 더 긴 시나리오(long rollout)도 compute 요구량을 극적으로 줄이면서 높은 realism과 fidelity를 유지하며 시뮬레이션할 수 있습니다. 이는 대규모 시뮬레이션을 가능하게 합니다.

결론적으로, Waymo World Model은 Genie 3의 방대한 세계 지식과 정교한 제어 메커니즘, 그리고 multi-modal realism을 결합하여 Waymo Driver가 현실에서 만나기 어려운 "불가능한(impossible)" 시나리오를 가상으로 경험하고 학습할 수 있도록 함으로써, Waymo 서비스의 안전성(safety)을 향상시키고 더 많은 지역과 새로운 운전 환경으로 확장하는 데 기여합니다.