목록으로
Paper2026.01.13

SPLADE-v3: New baselines for SPLADE

요약

이 기술 보고서는 SPLADE 라이브러리의 최신 버전인 SPLADE-v3 모델을 소개하며, 훈련 구조의 개선 사항과 새로운 성능 기준선을 제시합니다.
️ SPLADE-v3는 다중 Negative 샘플링, 교차 인코더 앙상블을 통한 개선된 Distillation 점수, 그리고 KL-Div와 MarginMSE 두 가지 Distillation Loss의 조합을 통해 훈련되었습니다.
광범위한 평가 결과, SPLADE-v3는 BM25 및 이전 SPLADE++ 모델보다 통계적으로 유의미하게 더 효과적이며, MS MARCO 및 BEIR 벤치마크에서 Re-ranker에 필적하는 뛰어난 성능을 보였습니다.

상세 내용

이 논문은 SPLADE 라이브러리의 최신 버전을 출시하면서 SPLADE-v3 모델 시리즈를 소개하는 기술 보고서입니다. 이 모델은 훈련 구조에 간단한 수정 사항을 적용하여 성능 향상을 달성했습니다.

핵심 방법론은 다음과 같은 훈련 개선 사항을 포함합니다.

  • Multiple Negatives Per Batch: Tevatron을 따라, 이제 배치당 여러 개의 하드 네거티브를 사용하여 훈련할 수 있습니다. SPLADE++ 모델에서 추출된 네거티브를 사용하며, 총 100개의 네거티브(상위 50개에서 50개, 상위 1k에서 무작위로 50개)를 활용합니다. 이는 in-domain 설정에서 특히 효과적이며, out-of-domain 일반화에는 큰 영향을 미치지 않습니다.
  • Better Distillation Scores: 모델의 효과성을 더욱 향상시키기 위해, 표준적인 단일 모델 접근 방식 대신 cross-encoder re-ranker 앙상블을 사용하여 distillation 점수를 생성합니다. 사용된 모델은 cross-encoder/ms-marco-MiniLM-L-6-v2, naver/trecdl22-crossencoder-rankT53b-repro, naver/trecdl22-crossencoder-debertav3, naver/trecdl22-crossencoder-debertav2, naver/trecdl22-crossencoder-electra 등입니다. 점수는 두 가지 유형으로 생성됩니다:
    • Simple Ensemble: 앙상블 모델들의 점수를 단순히 합산합니다.
    • Rescored Version: 이전 distillation 설정에서 사용된 점수(cross-encoder/ms-marco-MiniLM-L-6-v2)와 유사한 평균 및 표준 편차를 갖도록 affine transformation을 적용하여 점수를 조정합니다. 이 변환은 ranx 라이브러리의 min-max aggregation을 통해 쿼리별로 정규화됩니다.
  • Two Distillation Losses: 정보 검색(IR) 분야에서 효과적임이 입증된 두 가지 distillation loss인 KL-Div와 MarginMSE를 결합하여 사용합니다. 실험적으로, MarginMSE는 Recall에, KL-Div는 Precision에 더 중점을 두는 경향이 있음을 발견했습니다. 이 두 loss를 다른 가중치로 조합하여 사용합니다: λKL = 1 (KL-Div) 및 λMSE = 0.05 (MarginMSE). 이 조합은 전반적으로 더 나은 결과를 가져왔습니다.
  • Further Fine-Tuning SPLADE: 훈련은 SPLADE++SelfDistil 체크포인트에서 시작됩니다. 이 접근 방식은 CoCondenser나 DistilBERT 체크포인트에서 시작하는 것보다 더 나은 효과성을 보였습니다. 저자들은 이를 일종의 curriculum learning 효과로 추정합니다.
  • SPLADE-v3 모델은 SPLADE++SelfDistil에서 시작하여, KL-Div와 MarginMSE의 조합으로 훈련되었으며, SPLADE++SelfDistil에서 샘플링된 쿼리당 8개의 네거티브를 사용합니다. 평가에는 RANGER의 meta-analysis 절차를 사용하여 44개 이상의 쿼리 세트에 걸쳐 효과성을 측정합니다. 평가 지표로는 nDCG*@10 (또는 표준 nDCG@10)을 사용합니다.

    결과 비교:

    • BM25와의 비교: SPLADE-v3는 대부분의 쿼리 세트에서 BM25보다 통계적으로 유의미하게 더 효과적입니다. 단 3개의 쿼리 세트(Webis Touché-2020 및 두 개의 TREC-MQ 쿼리 세트)에서만 통계적 감소를 보였습니다. 전체적으로는 BM25를 크게 능가합니다.
    • SPLADE++SelfDistil과의 비교: SPLADE-v3는 초기화에 사용된 SPLADE++SelfDistil보다 전반적으로 효과성이 향상되었으며, Quora 데이터셋에서만 유의미한 감소를 보였습니다.
    • Re-ranker와의 비교: SPLADE-v3가 반환한 상위 50개 문서를 re-rank하는 MiniLM 및 DeBERTaV3와 비교했습니다. MiniLM은 SPLADE-v3와 큰 차이를 보이지 않았지만, DeBERTaV3는 대부분의 쿼리 세트에서 SPLADE-v3를 능가했습니다 (ArguAna 제외).
    추가적으로, 세 가지 다른 SPLADE-v3 변형 모델도 공개되었습니다:
    • SPLADE-v3-DistilBERT: DistilBERT에서 훈련을 시작하여 더 작은 추론 "footprint"를 가집니다.
    • SPLADE-v3-Lexical: 쿼리 확장을 제거하여 검색 FLOPS를 줄이고 효율성을 높였지만, out-of-domain BEIR 벤치마크에서는 성능이 저하됩니다.
    • SPLADE-v3-Doc: CoCondenser에서 훈련을 시작하며 쿼리에 대한 계산을 수행하지 않아 가장 효율적입니다. "zero-shot" 설정에서는 덜 효과적이지만, 그 효율성을 고려하면 여전히 경쟁력 있는 성능을 보입니다.
    결론적으로, SPLADE-v3 모델 시리즈는 이전 버전보다 통계적으로 유의미하게 더 효과적이며, BM25를 능가하고 일부 re-ranker와도 경쟁할 수 있음을 광범위한 평가를 통해 입증했습니다. 특히, MS MARCO dev set에서 40 이상의 MRR@10을 달성하고, BEIR 벤치마크의 out-of-domain 결과에서 2% 향상을 이루었습니다.
    원본 보기
    Arxiv
    Shared by Anonymous