TIPS: Text-Image Pretraining with Spatial awareness
Paper

TIPS: Text-Image Pretraining with Spatial awareness

Kevis-Kokitsi Maninis
2026.04.11
·Arxiv·by 이호민/AI
#Computer Vision#Image-Text Pretraining#Self-Supervised Learning#Spatial Awareness#Transformer

핵심 포인트

  • 1기존 image-text 모델의 공간 이해 능력 부족과 dense task 적용 한계를 극복하기 위해, 본 논문은 spatial awareness를 갖춘 새로운 image-text 모델 TIPS를 제안합니다.
  • 2이를 위해 TIPS는 노이즈가 많은 웹 캡션과 공간 정보를 풍부하게 담은 synthetic 캡션을 Dual Embedding 방식으로 결합하고, Self-Distillation 및 Masked Image Modeling (MIM)을 통합하여 image feature의 공간 일관성을 강화합니다.
  • 3TIPS는 다양한 dense 및 global vision task(총 8개 작업, 16개 데이터셋)에서 강력한 off-the-shelf 성능을 달성하여, image-text 모델의 새로운 활용 가능성을 제시합니다.

이 논문은 이미지-텍스트 표현 학습(image-text representation learning) 모델이 공간적 인식(spatial awareness)이 부족하여 깊이 추정(depth estimation)이나 시맨틱 분할(semantic segmentation)과 같은 dense understanding task에 직접적으로 적용하기 어렵다는 문제점을 해결하고자 한다. 기존에는 이러한 dense task를 위해 self-supervised image-only pre-training이 주로 사용되었으나, 이는 명시적인 supervision signal이 없다는 한계가 있었다. 본 논문은 이러한 격차를 줄이기 위해, dense 및 global vision task 모두에 효과적으로 사용할 수 있는 새로운 일반 목적(general-purpose) 이미지-텍스트 모델인 TIPS(Text-Image Pretraining with Spatial awareness)를 제안한다.

TIPS의 핵심 방법론은 두 가지 주요 아이디어에 기반한다:

  1. 텍스트 supervision 강화: 기존 웹 이미지 캡션의 노이즈 문제를 해결하기 위해, 합성적으로 생성된 텍스트 설명(synthetically generated textual descriptions)을 활용한다. 합성 캡션은 시각적 내용을 더 포괄적으로 설명하고, 장면 내 객체와 공간적 관계를 더 풍부하게 포착하여 spatially aware representations 학습에 더 나은 신호를 제공한다. 그러나 노이즈가 있는 웹 캡션 또한 미세한 디테일(fine-grained details)을 포함하여 global understanding task에 유용할 수 있으므로, TIPS는 노이즈 캡션과 합성 캡션을 모두 활용하는 적응된 훈련 방법을 제안한다.
  • Dual Image-Text Embedding: f로 모델링되는 ViT(Vision Transformer) 기반의 이미지 인코더는 입력 이미지 I로부터 전역 임베딩 e_g와 패치 임베딩 enn=1N{e_n}_{n=1}^N을 생성한다. 기존 CLIP 방식은 e_g와 원본 노이즈 캡션 T의 텍스트 임베딩 e_t 간의 LCLIPL_{CLIP} 손실을 사용한다. TIPS는 이 f에 추가적인 [CLS] 토큰을 도입하여 합성 캡션 T^\hat{T}을 위한 또 다른 전역 임베딩 e^g\hat{e}_g를 생성한다. 훈련 시에는 TT^\hat{T}을 텍스트 인코더 g에 입력하여 e_te^t\hat{e}_t를 얻는다. e_ge_t 간의 LCLIPL_{CLIP} 손실 외에도 e^g\hat{e}_ge^t\hat{e}_t 간의 L^CLIP\hat{L}_{CLIP} 손실을 계산한다. 이를 통해 모델은 e_g에서는 객체 중심(object-centric) 임베딩을, e^g\hat{e}_g에서는 더 공간 인식적인(spatially-aware) 임베딩을 학습할 수 있으며, 이 두 임베딩 모두 조밀한 특징 맵(dense feature maps)으로 역전파되어 개선된 패치 임베딩 enn=1N{e_n}_{n=1}^N을 학습한다. 추론 시에는 다운스트림 태스크에 따라 두 가지 전역 임베딩 중 하나를 선택하여 사용할 수 있다.
  1. 학습 기법 개선: 이미지-텍스트 Contrastive Learning에 self-supervised Masked Image Modeling(MIM)을 결합하여 공간적 일관성(spatial coherence)을 촉진한다. 이는 특히 dense downstream application에서 상당한 성능 향상을 가져온다.
  • Teacher-Student Architecture: 메인 모델인 Student ViT f_s와 Teacher ViT f_t를 사용한다. f_t의 가중치는 f_s의 가중치에 EMA(Exponential Moving Average)를 적용하여 업데이트된다.
  • Self-distillation Loss (LdistillL_{distill}): 입력 이미지 I로부터 M개의 local crop을 생성하고, 이를 f_s로 처리하여 각 local crop의 [CLS] 토큰에서 M개의 local crop 임베딩 eg,m_m=1M{e_{g,m}}\_{m=1}^M을 얻는다. 동시에 If_t에 통과시켜 Teacher의 [CLS] 토큰으로부터 eg,te_{g,t}를 얻는다. LdistillL_{distill}은 이 M개의 student local crop 임베딩이 teacher의 전역 임베딩 eg,te_{g,t}의 예측과 일치하도록 강제한다. 이는 MLP 기반의 Projection Head P_t, P_s를 통해 프로토타입 점수(prototype scores) pt=Pt(eg,t)p_t = P_t(e_{g,t}), pm=Ps(eg,m)p_m = P_s(e_{g,m})를 계산하고, softmax 정규화와 cross-entropy loss를 적용하여 이루어진다.
수식은 다음과 같다:
__BLOCK_FORMULA_0__
여기서 b는 배치 내 이미지를, m은 local crop을 나타낸다. τt\tau_t, τs\tau_s는 Teacher와 Student의 온도(temperature)이며, c는 균일 분포를 유도하기 위한 centering variable이다.

  • Masking Loss (LmaskL_{mask}): 입력 이미지 I의 마스킹된 버전(masked version)을 f_s에 입력한다. 마스킹된 패치들은 마스크 토큰(mask tokens) {m_n}_n으로 대체된다. 인코딩된 마스크 토큰 {e_n^m}_n은 프로토타입 점수로 투영된 후, Teacher 모델의 해당 마스킹되지 않은 토큰 {e_n^t}_n과 비교된다. 이는 Masked Image Modeling(MIM)과 유사하게 작동하며, 가시적인(visible) 패치 표현이 마스킹된 패치의 의미를 복구하도록 장려하여 공간적 맥락(spatial context)을 이해하는 데 도움을 준다.
수식은 다음과 같다:
__BLOCK_FORMULA_1__
여기서 ptn=Pt(ent)p_t^n = P_t'(e_n^t)psn=Ps(enm)p_s^n = P_s'(e_n^m)는 패치 n에 대한 Teacher와 Student의 프로토타입 점수이다.

  • 총 손실 함수: TIPS의 총 손실 함수는 각 손실 항의 가중 합으로 정의된다:
__BLOCK_FORMULA_2__
이러한 다중 목표(multi-objective) 학습은 image-text contrastive learning과 self-supervised learning의 시너지를 극대화하여 다양한 downstream task에서 뛰어난 성능을 보인다. 특히, self-distillation과 MIM을 동시에 통합하는 방식은 기존 MaskCLIP이나 SILC와 차별화되는 지점이다.

TIPS 모델은 ViT-g 아키텍처(1.1B 파라미터)와 SwiGLU 피드포워드 네트워크를 사용하여 확장되었다. 텍스트 인코더는 12개 레이어의 트랜스포머이다. 학습 데이터로는 WebLI 데이터셋(10B 이미지-텍스트 쌍)을 사용하였으며, Pretrained Alignment Model을 사용한 이미지-텍스트 유사성 필터링, 영어 캡션 필터링, 큐레이션된 데이터셋과의 유사성 기반 필터링, 중복 이미지 제거 등의 과정을 통해 1.16억 개의 고품질 이미지-텍스트 쌍으로 구성된 데이터셋을 구축하였다.

평가는 semantic segmentation, monocular depth estimation, surface normal estimation과 같은 dense prediction task와 image classification, fine-grained/instance-level retrieval, image-to-text retrieval, text-to-image retrieval, zero-shot classification과 같은 global understanding task에 걸쳐 총 8개의 task와 16개 데이터셋에서 수행되었다. 모든 평가에서 TIPS의 이미지-텍스트 표현은 frozen 상태로 유지되어, 모델의 off-the-shelf 특징 추출기(feature extractor)로서의 유용성을 입증한다.