System Prompts
요약
상세 내용
제안하는 핵심 방법론은 크게 두 단계로 구성된다. 첫째, 자기 지도 사전 학습(Self-Supervised Pre-training) 단계이다. 이 단계에서는 대량의 레이블 없는(unlabeled) 데이터셋을 활용하여 모델이 풍부하고 차별적인(discriminative) 특징 표현(feature representations)을 학습하도록 유도한다. 특히, 본 논문은 Momentum Contrast (MoCo)와 유사한 대조 학습(contrastive learning) 방식을 채택한다. 이는 쿼리(query) 인스턴스와 하나의 긍정적인(positive) 키(key) 인스턴스를 가깝게 만들고, 다수의 부정적인(negative) 키 인스턴스로부터 멀어지게 학습하는 방식으로 특징 공간(feature space)을 구성한다. 구체적으로, 손실 함수는 다음과 같은 대조 손실(contrastive loss) 를 사용한다:
여기서 은 코사인 유사도(cosine similarity)를 나타내며, 는 쿼리 특징 벡터, 는 해당 긍정적인 키 특징 벡터, 는 번째 부정적인 키 특징 벡터, 그리고 는 온도 매개변수(temperature parameter)이다. 이를 통해 모델은 클래스 간의 관계보다는 인스턴스 수준에서의 유사성을 학습하여 일반화된 특징 추출기(feature extractor) 역할을 수행한다.
둘째, 에피소드 방식의 메타 미세 조정(Episodic Meta-Fine-tuning) 단계이다. 사전 학습된 특징 추출기를 기반으로, 모델은 다양한 소규모 FSL 태스크(task)로 구성된 에피소드(episode)를 통해 메타 학습 방식으로 미세 조정된다. 각 에피소드는 -way -shot 분류 문제로 구성되며, 서포트 세트(support set) 와 쿼리 세트(query set) 로 나뉜다. 모델은 서포트 세트에서 학습하고 쿼리 세트에서 평가되며, 이 과정에서 모델은 새로운 미지의 태스크에 빠르게 적응하는 방법을 학습한다. 본 논문은 Model-Agnostic Meta-Learning (MAML)의 변형을 사용하여, 각 태스크에 대한 내부 루프(inner loop)와 모든 태스크에 걸쳐 모델의 초기 파라미터를 업데이트하는 외부 루프(outer loop)를 가진다. 내부 루프에서는 서포트 세트에 대한 표준 교차 엔트로피(cross-entropy) 손실 를 사용하여 모델 파라미터 를 업데이트한다:
외부 루프에서는 이 업데이트된 파라미터 를 사용하여 쿼리 세트에 대한 손실을 최소화하는 방향으로 초기 파라미터 를 업데이트한다:
여기서 와 는 학습률(learning rate)이다. 이 이중 루프 최적화(bi-level optimization)는 모델이 소수의 예시만으로 새로운 태스크에 효과적으로 전이 학습(transfer learning)할 수 있는 초기 파라미터 공간을 찾도록 돕는다.
실험은 miniImageNet, tieredImageNet과 같은 표준 FSL 벤치마크 데이터셋에서 수행되었으며, 제안된 방법론이 기존의 메타 학습 및 전이 학습 기반 FSL 방법론들에 비해 우수한 성능을 보임을 입증하였다. 특히, 자기 지도 사전 학습을 통해 얻은 일반화된 특징 표현이 모델의 적응 능력을 크게 향상시키는 데 기여했음을 강조한다. 이는 대규모 레이블 없는 데이터의 활용이 FSL 문제 해결에 중요한 역할을 할 수 있음을 시사한다.