Paper

TIPS: Text-Image Pretraining with Spatial awareness

Kevis-Kokitsi Maninis

2026.04.11

·Arxiv·by 이호민/AI

#Computer Vision#Image-Text Pretraining#Self-Supervised Learning#Spatial Awareness#Transformer

핵심 포인트

1기존 image-text 모델의 공간 이해 능력 부족과 dense task 적용 한계를 극복하기 위해, 본 논문은 spatial awareness를 갖춘 새로운 image-text 모델 TIPS를 제안합니다.
2이를 위해 TIPS는 노이즈가 많은 웹 캡션과 공간 정보를 풍부하게 담은 synthetic 캡션을 Dual Embedding 방식으로 결합하고, Self-Distillation 및 Masked Image Modeling (MIM)을 통합하여 image feature의 공간 일관성을 강화합니다.
3TIPS는 다양한 dense 및 global vision task(총 8개 작업, 16개 데이터셋)에서 강력한 off-the-shelf 성능을 달성하여, image-text 모델의 새로운 활용 가능성을 제시합니다.

{e_n}_{n=1}^N

Paper

Kevis-Kokitsi Maninis

2026.04.11

·Arxiv·by 이호민/AI

#Computer Vision#Image-Text Pretraining#Self-Supervised Learning#Spatial Awareness#Transformer

1기존 image-text 모델의 공간 이해 능력 부족과 dense task 적용 한계를 극복하기 위해, 본 논문은 spatial awareness를 갖춘 새로운 image-text 모델 TIPS를 제안합니다.
2이를 위해 TIPS는 노이즈가 많은 웹 캡션과 공간 정보를 풍부하게 담은 synthetic 캡션을 Dual Embedding 방식으로 결합하고, Self-Distillation 및 Masked Image Modeling (MIM)을 통합하여 image feature의 공간 일관성을 강화합니다.
3TIPS는 다양한 dense 및 global vision task(총 8개 작업, 16개 데이터셋)에서 강력한 off-the-shelf 성능을 달성하여, image-text 모델의 새로운 활용 가능성을 제시합니다.

{e_n}_{n=1}^N