gWorld: Generative Visual Code Mobile World Models
Paper

gWorld: Generative Visual Code Mobile World Models

2026.02.06
·Web·by 이호민
#LLM#VLM#World Models#GUI Agent#Code Generation

핵심 포인트

  • 1기존 모바일 GUI World Models의 시각적 충실도와 텍스트 렌더링 한계를 극복하기 위해, 이 연구는 픽셀을 직접 생성하는 대신 실행 가능한 웹 코드를 예측하여 다음 GUI 상태를 렌더링하는 'renderable code generation'이라는 새로운 시각적 World Modeling 패러다임을 제안합니다.
  • 2이러한 접근 방식을 위해, 논문은 오프라인 정책 궤적을 전환 삼중항으로 변환하고 픽셀에서 렌더링 가능한 웹 코드로 다음 상태를 교차 모달 리라벨링하며 추론 흔적을 합성하는 3단계 데이터 생성 프레임워크를 소개합니다.
  • 3그 결과, "gWorld" (8B, 32B) 모델은 MWMBench 벤치마크에서 기존 SOTA 모델들보다 최대 50.25배 작은 크기로도 평균 Instruction Accuracy (IAcc.)에서 새로운 pareto frontier를 설정하고, Render Fail 비율을 1% 미만으로 크게 줄였습니다.

이 논문은 모바일 GUI World Model (WM)의 성능 향상을 위한 새로운 패러다임을 제시합니다. 기존의 접근 방식들은 텍스트 기반 WM이 시각적 충실도(visual fidelity)를 희생하거나, 시각적 WM이 정밀한 텍스트 렌더링에 어려움을 겪어 느리고 복잡한 파이프라인에 의존해야 하는 문제에 직면했습니다.

제안하는 gWorld 모델은 renderable code generation을 통한 시각적 월드 모델링이라는 혁신적인 패러다임을 도입합니다. 이는 단일 Vision-Language Model (VLM)이 다음 GUI 상태를 픽셀을 직접 생성하는 대신, 렌더링 가능한 실행 가능한 웹 코드(executable web code)로 예측하는 방식입니다. 이 접근 방식은 VLM이 언어적 선험 지식(linguistic priors)을 유지하여 정확한 텍스트 렌더링을 가능하게 하고, 구조화된 웹 코드(structured web code)에 대한 사전 학습(pre-training)을 통해 높은 충실도(high-fidelity)의 시각적 생성을 달성함으로써 두 접근 방식의 장점을 결합합니다.

핵심 방법론은 세 단계의 데이터 생성 파이프라인에 있습니다.

  1. Repurposing Policy Trajectory: 오프라인 정책 궤적(offline policy trajectories)인 {St,At}\{S_t, A_t\}를 월드 모델링 데이터 {St,At,St+1}\{S_t, A_t, S_{t+1}\}로 변환합니다. 여기서 StS_t는 시각적 상태(visual state), AtA_t는 에이전트의 행동(action)을 나타내며, St+1S_{t+1}는 다음 상태를 의미합니다.
  2. Synthetic Cross-modal Re-labeling: 최신 VLM을 활용하여 픽셀(pixels) 형태의 ground-truth 다음 상태 supervision인 St+1S_{t+1}를 렌더링 가능한 웹 코드(renderable web code)로 크로스-모달 재-라벨링(cross-modal re-labeling)합니다.
  3. Reasoning Data with Look-ahead: 목표 상태(target state)에 대한 look-ahead 접근 권한을 통해 추론 트레이스(RtR_t)를 생성합니다. 이는 모델이 다음 상태를 예측하기 위한 추론 과정을 학습하는 데 도움을 줍니다.

이 연구는 이러한 패러다임을 기반으로 구축된 최초의 오픈-웨이트(open-weight) 시각적 모바일 GUI WM인 gWorld (8B, 32B)를 소개하며, 코드 기반 훈련 데이터를 자동으로 합성하는 데이터 생성 프레임워크를 제공합니다.

평가를 위해 MWMBench라는 종합적인 벤치마크가 도입되었습니다. 이 벤치마크는 GUI의 풍부한 세부 정보를 보존하는 visual world modeling, 모바일 실행과 직접 호환되는 좌표 공간(coordinate space)에서의 real-world action space, 그리고 4개의 in-distribution (AitW, GUIOdyssey, AndroidControl, AMEX) 및 2개의 out-of-distribution (AndroidWorld, KApps) 벤치마크를 포함한 ID + OOD Evaluation을 특징으로 합니다.

주요 평가 지표는 Instruction Accuracy (IAcc.), Render Fail, Similarity입니다.

  • Instruction Accuracy (IAcc.): 모델이 올바른 다음 GUI 상태를 얼마나 정확하게 예측하는지 측정합니다.
  • Render Fail: 생성된 코드가 유효한 GUI를 렌더링하지 못하는 경우의 비율을 나타냅니다.
  • Similarity: 생성된 GUI와 ground-truth GUI 간의 시각적 유사성을 측정합니다.

광범위한 평가 결과, gWorld 8B 및 32B는 IAcc.에서 새로운 pareto frontier를 설정하며, 최대 50.25배 더 큰 8개의 최신 오픈-웨이트 모델들을 능가하는 성능을 보였습니다. 특히, gWorld는 구조적 오류(Render Fail)를 1% 미만으로 거의 제거하는 동시에 경쟁력 있는 시각적 유사성(Similarity)을 유지했습니다. 기본 모델인 Qwen3 VL 8B, 32B 대비 IAcc.에서 각각 +45.7%, +27.1%의 상당한 성능 향상을 달성했습니다. 또한, 훈련 데이터 스케일링이 파워 로우(power law)(R20.94R^2 \ge 0.94)를 따르며 예측 가능하고 포화되지 않는 성능 향상을 가져옴을 보여주었습니다.