
Paper2025.06.08
Chain-of-Zoom
요약
CoZ(Chain-of-Zoom)는 기존 SR(Super-Resolution) 모델이 훈련 범위를 넘어서는 극단적인 배율에서 성능이 저하되는 문제를 해결하기 위해, SR을 중간 스케일 상태의 autoregressive 체인으로 분해하여 extreme resolution을 달성하는 model-agnostic 프레임워크입니다.
이 프레임워크는 각 줌 단계에서 VLM(Vision-Language Model)이 생성하는 multi-scale-aware text prompt를 사용하여 원본 입력 신호의 희소성을 극복하고 사실적인 이미지 생성을 유도합니다.
또한, 생성된 text prompt는 GRPO(Generalized Reward Policy Optimization)와 critic VLM을 활용하는 RLHF(Reinforcement Learning from Human Feedback) 파이프라인을 통해 인간 선호도에 맞춰 fine-tune되어 정확한 guidance를 제공합니다.
상세 내용
Chain-of-Zoom (CoZ)은 기존 Single-Image Super-Resolution (SISR) 모델이 훈련된 배율(예: 4배)을 훨씬 넘어선 극단적인 해상도(예: 16배 ~ 256배)에서는 성능이 저하되는 문제점을 해결하기 위한 모델-불가지론적(model-agnostic) 프레임워크입니다. 이 프레임워크는 SISR 과정을 중간 스케일 상태(scale-states)의 자기회귀적(autoregressive) 체인으로 분해하고, 각 단계에서 다중 스케일 인식 프롬프트(multi-scale-aware prompts)를 활용하여 extreme resolution을 달성합니다. 스케일 자기회귀 (Scale Autoregression): CoZ는 단일 백본 SR 모델을 반복적으로 재사용하여 조건부 확률을 다루기 쉬운 부분 문제로 분해합니다. 예를 들어, 1배 이미지를 256배로 직접 확대하는 대신, 동일한 4배 SR 모델을 사용하여 1배 → 4배 → 16배 → 64배 → 256배와 같이 점진적으로 스케일을 증가시킵니다. 각 단계에서는 이전 단계의 확대된 이미지가 다음 단계의 입력이 됩니다. 이는 기존 SR 모델이 훈련된 작은 배율 범위 내에서만 작동하도록 하여 고해상도에서의 블러(blur) 및 아티팩트(artifact) 생성을 억제합니다. 다중 스케일 인식 프롬프트(Multi-scale-aware Prompts): 고배율에서는 원본 이미지의 시각적 정보가 희미해지므로, CoZ는 각 확대 단계에 시각 언어 모델(VLM)이 생성하는 다중 스케일 인식 텍스트 프롬프트를 추가합니다. 이 프롬프트는 이미지의 세부 정보와 의미론적 내용을 안내하여 SR 모델이 더 사실적인 이미지를 생성하도록 돕습니다. 초기 LR(Low-Resolution) 이미지뿐만 아니라, SR 과정을 통해 생성된 중간 HR(High-Resolution) 이미지로부터도 VLM 프롬프트가 추출됩니다. 선호도 정렬(Preference Alignment)을 위한 프롬프트 추출 VLM 미세 조정: 생성된 텍스트 프롬프트가 인간의 선호도와 더 잘 일치하도록, 프롬프트 추출 VLM은 Generalized Reward Policy Optimization (GRPO)이라는 Reinforcement Learning from Human Feedback (RLHF) 파이프라인을 통해 미세 조정됩니다.
* 비평가 VLM (Critic VLM): 또 다른 VLM이 비평가(critic) 역할을 하며, 생성된 프롬프트의 의미론적 품질을 평가하여 보상(reward)을 제공합니다.
* 페널티(Penalties): 불필요한 구문(phrase exclusion) 및 반복(repetition)에 대한 페널티를 적용하여 프롬프트의 간결성(conciseness)과 관련성(relevance)을 강화합니다. 이 GRPO 훈련을 통해 VLM은 부정확한 정보나 환각(hallucination)을 줄이고, 인간이 선호하는 정확하고 유용한 가이던스를 제공하는 프롬프트를 생성하도록 학습됩니다.
CoZ의 핵심 방법론은 다음과 같습니다.
* 페널티(Penalties): 불필요한 구문(phrase exclusion) 및 반복(repetition)에 대한 페널티를 적용하여 프롬프트의 간결성(conciseness)과 관련성(relevance)을 강화합니다. 이 GRPO 훈련을 통해 VLM은 부정확한 정보나 환각(hallucination)을 줄이고, 인간이 선호하는 정확하고 유용한 가이던스를 제공하는 프롬프트를 생성하도록 학습됩니다.
요약하자면, CoZ는 기존 SR 모델의 점진적인 재사용과 VLM 기반의 인간 선호도 정렬 프롬프트 생성을 결합하여, 단일 4배 확산 SR 모델을 사용하여 256배 이상의 극단적인 해상도에서도 높은 지각적 품질(perceptual quality)과 충실도(fidelity)를 달성합니다.
Web
Shared by Anonymous