GLM-5V-Turbo - Overview - Z.AI DEVELOPER DOCUMENT
Paper

GLM-5V-Turbo - Overview - Z.AI DEVELOPER DOCUMENT

Mintlify
2026.04.01
·Web·by 권준호
#Agent#Coding#Computer Vision#LLM#Multimodal AI

핵심 포인트

  • 1Sora 및 Veo와 같은 기존 비디오 생성 모델들은 추론 능력에 한계를 보이며, 현재 비디오 추론 벤치마크들은 규모가 작고 체계적인 기반이 부족합니다.
  • 2이를 해결하기 위해 이 논문은 인지 아키텍처 기반 200개 태스크와 201만 5천 개 이상의 샘플을 포함하는 대규모 VBVR-Dataset과 검증 가능한 평가 프레임워크인 VBVR-Bench로 구성된 VBVR 스위트를 소개합니다.
  • 3VBVR-Bench 평가 결과는 최신 모델들이 인간보다 훨씬 낮은 추론 능력을 보임을 나타내며, 데이터 스케일링 법칙과 정성적 분석을 통해 고품질 대규모 추론 데이터가 모델 성능 향상과 새로운 인지 능력 발현에 중요함을 시사합니다.

본 논문은 비디오 생성 모델(예: Sora, Veo)의 시각적 품질이 빠르게 향상되고 있음에도 불구하고 추론 능력의 한계를 해결하기 위해 설계된 대규모 비디오 추론 스위트인 VBVR(Very Big Video Reasoning)을 소개합니다. 기존 비디오 추론 벤치마크는 규모가 작고 체계적인 이론적 기반이 부족한 문제를 안고 있습니다. VBVR은 인간 인지 아키텍처에 기반한 체계적인 태스크 디자인을 통해 순수한 "시각적 생성"을 넘어 "물리 세계의 상식과 논리적 추론" 역량을 갖춘 비디오 추론 모델을 발전시키는 것을 목표로 합니다.

VBVR 스위트는 VBVR-Dataset이라는 대규모 데이터셋과 VBVR-Bench라는 검증 가능한 평가 프레임워크로 구성됩니다.

1. VBVR-Dataset: 대규모 및 체계적인 데이터셋

VBVR-Dataset의 핵심 혁신은 Kant와 Anderson과 같은 인간 인지 과학 이론에 기반한 태스크 분류 체계에 있습니다. 데이터셋은 비디오 추론을 다섯 가지 핵심 인지 능력으로 분해합니다:

  • Perception (지각): 감각 입력으로부터 구조화된 표현을 추출합니다.
  • Transformation (변환): 정신적 표현을 조작하고 구성합니다.
  • Spatiality (공간성): 위치 및 탐색에 대한 직관적인 이해입니다.
  • Abstraction (추상화): 구체적인 경험으로부터 일반적인 패턴을 추출합니다.
  • Knowledge (지식): 사전 지식과 논리적 규칙을 적용합니다.

이 데이터셋은 총 200개의 태스크와 약 201.5만 개의 샘플(훈련 샘플 100만 개, 테스트 샘플 100만 개)을 포함합니다. 이는 기존 비디오 추론 벤치마크(예: Video-Zero-Shot, Ruler-Bench)에 비해 태스크 수와 데이터셋 크기 모두에서 한 자릿수 이상 향상된 규모로, 모델 훈련에 충분한 "연료"를 제공합니다.

VBVR은 단순한 기하학적 도형 인식부터 복잡한 물리 시뮬레이션 및 논리적 계획에 이르기까지 매우 다양한 태스크 디자인을 특징으로 합니다. 예를 들어, 다각형 인식, 파이프 연결, 그리드 탐색, 미로 해결, 슬라이딩 퍼즐 태스크 등이 포함되며, 이들은 지각, 공간 추론, 논리적 연산을 포함하는 추론 과정을 요구합니다.

데이터의 품질과 규모를 모두 보장하기 위해 VBVR은 분산 파라메트릭 생성 파이프라인을 채택합니다. 태스크는 먼저 엄격하게 설계 및 검토된 다음, 표준화된 제너레이터 템플릿을 통해 구현되고, 마지막으로 클라우드 서비스(AWS Lambda)를 사용하여 병렬로 대규모 생성 및 저장됩니다.

2. VBVR-Bench: 검증 가능한 평가 프레임워크

VBVR-Bench는 규칙 기반의 재현 가능하고 해석 가능한 평가 프레임워크를 제공합니다. 연구팀은 CogVideoX와 같은 오픈 소스 모델과 Sora 2, Veo 3.1과 같은 클로즈드 소스 모델을 포함한 현재의 SOTA 비디오 생성 모델에 대한 포괄적인 평가를 수행했습니다.

평가 결과, 가장 우수한 성능을 보인 모델(Sora 2)조차도 총점 약 0.546에 그쳐 인간의 성능(0.974)에 훨씬 못 미치는 것으로 나타났습니다. 이는 현재 모델이 엄격한 논리적 추론과 물리적 일관성을 요구하는 비디오 태스크에서 여전히 큰 도전에 직면해 있음을 시사합니다.

VBVR-Bench의 효과를 검증하기 위해 대규모 인간 선호도 일치 분석을 수행했습니다. 그 결과, VBVR의 자동 평가 점수가 인간 선호도 점수와 높은 상관 관계(\(\rho > 0.93\))를 보여 벤치마크가 모델의 실제 추론 능력을 정확하게 반영함을 입증했습니다.

3. Scaling Laws 및 Emergent Capabilities

연구는 데이터 규모가 모델의 추론 능력에 미치는 영향을 추가로 탐구했습니다. VBVR-Dataset에서 Wan2.2 모델을 Fine-tuning한 결과, 훈련 데이터가 0에서 500K로 증가함에 따라 모델 성능이 모든 지표에서 꾸준히 상승하는 경향을 보였습니다. 이는 모델 성능 향상에 고품질의 대규모 추론 데이터가 중요한 역할을 한다는 것을 입증합니다.

정성적 분석에서 VBVR 데이터로 Fine-tuning된 모델(VBVR-Wan2.2)은 Sora 2보다 더 제어 가능한 실행을 보여주었습니다. 예를 들어, "특정 심볼 삭제" 또는 "정확하게 객체 회전"과 같은 태스크에서 VBVR-Wan2.2는 지시를 엄격하게 따를 수 있었던 반면, Sora 2는 객체 변형이나 실행 실패 경향이 더 컸습니다.

또한, 연구는 모델이 자발적으로 완료 전략(Self-chosen completion policy)을 선택하거나 장면에 대한 "합리화된" 해석(Rationalizing)을 제공하는 등 여러 Emergent Behaviors를 관찰했습니다. 이는 대규모 추론 훈련이 더 깊은 인지 능력을 해제할 수 있음을 시사합니다.

결론

VBVR 스위트는 현재까지 가장 크고 체계적인 비디오 추론 데이터셋 및 평가 벤치마크를 제공함으로써, 현재 비디오 생성 모델의 논리적 추론 한계를 드러내고, 더 많은 고품질 추론 데이터를 통해 모델 역량을 향상시킬 수 있음을 검증합니다. 이는 진정한 물리 세계의 상식과 논리적 추론 능력을 갖춘 범용 비디오 Agent의 미래 개발을 위한 토대를 마련합니다.