
TIPS: Text-Image Pretraining with Spatial awareness
핵심 포인트
- 1기존 image-text 모델의 공간 이해 능력 부족과 dense task 적용 한계를 극복하기 위해, 본 논문은 spatial awareness를 갖춘 새로운 image-text 모델 TIPS를 제안합니다.
- 2이를 위해 TIPS는 노이즈가 많은 웹 캡션과 공간 정보를 풍부하게 담은 synthetic 캡션을 Dual Embedding 방식으로 결합하고, Self-Distillation 및 Masked Image Modeling (MIM)을 통합하여 image feature의 공간 일관성을 강화합니다.
- 3TIPS는 다양한 dense 및 global vision task(총 8개 작업, 16개 데이터셋)에서 강력한 off-the-shelf 성능을 달성하여, image-text 모델의 새로운 활용 가능성을 제시합니다.
이 논문은 이미지-텍스트 표현 학습(image-text representation learning) 모델이 공간적 인식(spatial awareness)이 부족하여 깊이 추정(depth estimation)이나 시맨틱 분할(semantic segmentation)과 같은 dense understanding task에 직접적으로 적용하기 어렵다는 문제점을 해결하고자 한다. 기존에는 이러한 dense task를 위해 self-supervised image-only pre-training이 주로 사용되었으나, 이는 명시적인 supervision signal이 없다는 한계가 있었다. 본 논문은 이러한 격차를 줄이기 위해, dense 및 global vision task 모두에 효과적으로 사용할 수 있는 새로운 일반 목적(general-purpose) 이미지-텍스트 모델인 TIPS(Text-Image Pretraining with Spatial awareness)를 제안한다.
TIPS의 핵심 방법론은 두 가지 주요 아이디어에 기반한다:
- 텍스트 supervision 강화: 기존 웹 이미지 캡션의 노이즈 문제를 해결하기 위해, 합성적으로 생성된 텍스트 설명(synthetically generated textual descriptions)을 활용한다. 합성 캡션은 시각적 내용을 더 포괄적으로 설명하고, 장면 내 객체와 공간적 관계를 더 풍부하게 포착하여 spatially aware representations 학습에 더 나은 신호를 제공한다. 그러나 노이즈가 있는 웹 캡션 또한 미세한 디테일(fine-grained details)을 포함하여 global understanding task에 유용할 수 있으므로, TIPS는 노이즈 캡션과 합성 캡션을 모두 활용하는 적응된 훈련 방법을 제안한다.
- Dual Image-Text Embedding:
f로 모델링되는 ViT(Vision Transformer) 기반의 이미지 인코더는 입력 이미지I로부터 전역 임베딩e_g와 패치 임베딩 을 생성한다. 기존 CLIP 방식은e_g와 원본 노이즈 캡션T의 텍스트 임베딩e_t간의 손실을 사용한다. TIPS는 이f에 추가적인[CLS]토큰을 도입하여 합성 캡션 을 위한 또 다른 전역 임베딩 를 생성한다. 훈련 시에는T와 을 텍스트 인코더g에 입력하여e_t와 를 얻는다.e_g와e_t간의 손실 외에도 와 간의 손실을 계산한다. 이를 통해 모델은e_g에서는 객체 중심(object-centric) 임베딩을, 에서는 더 공간 인식적인(spatially-aware) 임베딩을 학습할 수 있으며, 이 두 임베딩 모두 조밀한 특징 맵(dense feature maps)으로 역전파되어 개선된 패치 임베딩 을 학습한다. 추론 시에는 다운스트림 태스크에 따라 두 가지 전역 임베딩 중 하나를 선택하여 사용할 수 있다.
- 학습 기법 개선: 이미지-텍스트 Contrastive Learning에 self-supervised Masked Image Modeling(MIM)을 결합하여 공간적 일관성(spatial coherence)을 촉진한다. 이는 특히 dense downstream application에서 상당한 성능 향상을 가져온다.
- Teacher-Student Architecture: 메인 모델인 Student ViT
f_s와 Teacher ViTf_t를 사용한다.f_t의 가중치는f_s의 가중치에 EMA(Exponential Moving Average)를 적용하여 업데이트된다.
- Self-distillation Loss (): 입력 이미지
I로부터M개의 local crop을 생성하고, 이를f_s로 처리하여 각 local crop의[CLS]토큰에서M개의 local crop 임베딩 을 얻는다. 동시에I를f_t에 통과시켜 Teacher의[CLS]토큰으로부터 를 얻는다. 은 이M개의 student local crop 임베딩이 teacher의 전역 임베딩 의 예측과 일치하도록 강제한다. 이는 MLP 기반의 Projection HeadP_t,P_s를 통해 프로토타입 점수(prototype scores) , 를 계산하고, softmax 정규화와 cross-entropy loss를 적용하여 이루어진다.
__BLOCK_FORMULA_0__여기서
b는 배치 내 이미지를, m은 local crop을 나타낸다. , 는 Teacher와 Student의 온도(temperature)이며, c는 균일 분포를 유도하기 위한 centering variable이다.- Masking Loss (): 입력 이미지
I의 마스킹된 버전(masked version)을f_s에 입력한다. 마스킹된 패치들은 마스크 토큰(mask tokens){m_n}_n으로 대체된다. 인코딩된 마스크 토큰{e_n^m}_n은 프로토타입 점수로 투영된 후, Teacher 모델의 해당 마스킹되지 않은 토큰{e_n^t}_n과 비교된다. 이는 Masked Image Modeling(MIM)과 유사하게 작동하며, 가시적인(visible) 패치 표현이 마스킹된 패치의 의미를 복구하도록 장려하여 공간적 맥락(spatial context)을 이해하는 데 도움을 준다.
__BLOCK_FORMULA_1__여기서 와 는 패치
n에 대한 Teacher와 Student의 프로토타입 점수이다.- 총 손실 함수: TIPS의 총 손실 함수는 각 손실 항의 가중 합으로 정의된다:
__BLOCK_FORMULA_2__이러한 다중 목표(multi-objective) 학습은 image-text contrastive learning과 self-supervised learning의 시너지를 극대화하여 다양한 downstream task에서 뛰어난 성능을 보인다. 특히, self-distillation과 MIM을 동시에 통합하는 방식은 기존 MaskCLIP이나 SILC와 차별화되는 지점이다.
TIPS 모델은 ViT-g 아키텍처(1.1B 파라미터)와 SwiGLU 피드포워드 네트워크를 사용하여 확장되었다. 텍스트 인코더는 12개 레이어의 트랜스포머이다. 학습 데이터로는 WebLI 데이터셋(10B 이미지-텍스트 쌍)을 사용하였으며, Pretrained Alignment Model을 사용한 이미지-텍스트 유사성 필터링, 영어 캡션 필터링, 큐레이션된 데이터셋과의 유사성 기반 필터링, 중복 이미지 제거 등의 과정을 통해 1.16억 개의 고품질 이미지-텍스트 쌍으로 구성된 데이터셋을 구축하였다.
평가는 semantic segmentation, monocular depth estimation, surface normal estimation과 같은 dense prediction task와 image classification, fine-grained/instance-level retrieval, image-to-text retrieval, text-to-image retrieval, zero-shot classification과 같은 global understanding task에 걸쳐 총 8개의 task와 16개 데이터셋에서 수행되었다. 모든 평가에서 TIPS의 이미지-텍스트 표현은 frozen 상태로 유지되어, 모델의 off-the-shelf 특징 추출기(feature extractor)로서의 유용성을 입증한다.