Paper

gWorld: Generative Visual Code Mobile World Models

2026.02.06

·Web·by 이호민

#LLM#VLM#World Models#GUI Agent#Code Generation

핵심 포인트

1기존 모바일 GUI World Models의 시각적 충실도와 텍스트 렌더링 한계를 극복하기 위해, 이 연구는 픽셀을 직접 생성하는 대신 실행 가능한 웹 코드를 예측하여 다음 GUI 상태를 렌더링하는 'renderable code generation'이라는 새로운 시각적 World Modeling 패러다임을 제안합니다.
2이러한 접근 방식을 위해, 논문은 오프라인 정책 궤적을 전환 삼중항으로 변환하고 픽셀에서 렌더링 가능한 웹 코드로 다음 상태를 교차 모달 리라벨링하며 추론 흔적을 합성하는 3단계 데이터 생성 프레임워크를 소개합니다.
3그 결과, "gWorld" (8B, 32B) 모델은 MWMBench 벤치마크에서 기존 SOTA 모델들보다 최대 50.25배 작은 크기로도 평균 Instruction Accuracy (IAcc.)에서 새로운 pareto frontier를 설정하고, Render Fail 비율을 1% 미만으로 크게 줄였습니다.

\{S_t, A_t\}

Paper

2026.02.06

·Web·by 이호민

#LLM#VLM#World Models#GUI Agent#Code Generation

1기존 모바일 GUI World Models의 시각적 충실도와 텍스트 렌더링 한계를 극복하기 위해, 이 연구는 픽셀을 직접 생성하는 대신 실행 가능한 웹 코드를 예측하여 다음 GUI 상태를 렌더링하는 'renderable code generation'이라는 새로운 시각적 World Modeling 패러다임을 제안합니다.
2이러한 접근 방식을 위해, 논문은 오프라인 정책 궤적을 전환 삼중항으로 변환하고 픽셀에서 렌더링 가능한 웹 코드로 다음 상태를 교차 모달 리라벨링하며 추론 흔적을 합성하는 3단계 데이터 생성 프레임워크를 소개합니다.
3그 결과, "gWorld" (8B, 32B) 모델은 MWMBench 벤치마크에서 기존 SOTA 모델들보다 최대 50.25배 작은 크기로도 평균 Instruction Accuracy (IAcc.)에서 새로운 pareto frontier를 설정하고, Render Fail 비율을 1% 미만으로 크게 줄였습니다.

\{S_t, A_t\}