VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023
Paper

VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023

Weifeng Zhao
2026.01.15
·Arxiv·by 배레온/부산/개발자
#Singing Voice Conversion#VITS#DSPGAN#SVCC2023#HuBERT

핵심 포인트

  • 1이 논문은 SVCC2023에 참가한 T02 팀의 시스템을 소개하며, VITS 기반의 Singing Voice Conversion (SVC) 모델에 DSPGAN 후처리 과정을 통합했습니다.
  • 2이 시스템은 HuBERT를 활용한 특징 추출기, VITS 기반의 음성 변환기, 그리고 음질 향상을 위한 DSPGAN 보코더로 구성되며, 제한된 데이터 상황에서 2단계 학습 전략과 데이터 증강 기법을 사용했습니다.
  • 3SVCC2023 공식 평가 결과, 이 시스템은 특히 cross-domain task에서 자연성 1위, 유사성 2위를 차지하며 우수한 성능을 보였고, ablation study를 통해 시스템 설계의 효과를 입증했습니다.

이 논문은 SVCC2023(Singing Voice Conversion Challenge 2023)에 출품된 T02 팀의 VITS 기반 SVC(Singing Voice Conversion) 시스템에 대해 설명합니다. 이 시스템은 SVC의 핵심 과제인 스피커 음색, 내용 및 멜로디를 분리하고 재구성하는 데 중점을 둡니다.

시스템 개요 (System Overview)

이 시스템은 크게 세 가지 모듈로 구성됩니다: Feature Extractor, Voice Converter, 그리고 Post-processor. 학습(Training) 단계와 추론(Inference) 단계가 다릅니다.

  • 학습 단계 (Training Phase):
    • Feature Extractor는 입력 노래 음성(singing waveform)으로부터 SSL(Self-Supervised Learning) feature, F0, 그리고 Mel-spectrogram을 추출합니다.
    • Voice Converter (VITS 기반)는 이러한 추출된 feature들을 입력받아 현재 스피커 ID와 함께 음성을 재구성합니다.
    • 재구성된 파형의 Mel-spectrogram과 원본 파형의 Mel-spectrogram 간의 차이를 측정하는 재구성 손실(Reconstruction loss)을 사용하여 훈련됩니다.
  • 추론 단계 (Inference Phase):
    • Feature Extractor는 소스 노래 음성에서 SSL feature와 F0를 추출합니다.
    • Key Shifter는 추출된 F0를 목표 스피커의 피치 범위에 맞게 조정합니다.
    • Voice Converter는 조정된 F0, 추출된 SSL feature, 그리고 목표 스피커 ID를 사용하여 목표 노래 음성을 생성합니다.
    • Post-processor는 생성된 노래 음성의 오디오 품질을 더욱 향상시킵니다.

모듈 상세 (Modules in Detail)

  1. Feature Extractor:
    • 목표: 스피커 음색과 언어적 내용(linguistic content)을 분리합니다.
    • 언어적 내용 (Linguistic Content): HuBERT [11]의 변형 모델 [19]을 사용하여 256차원의 SSL feature를 추출합니다. 이 모델은 스피커 디커플링(speaker-decoupling) 설계가 적용되어 언어적 내용 표현에 강건함을 보입니다.
    • 스피커 정체성 (Speaker Identity): Look-up table (LuT)을 통해 스피커 임베딩(speaker embedding)을 학습합니다.
    • F0 윤곽 (F0 Contour): PYIN [20]으로 계산된 F0 윤곽을 사용하여 변환된 노래 음성의 멜로디 정확도를 높입니다.
  1. Voice Converter (VITS 기반):
    • VITS [17] 아키텍처를 기반으로 구현되었으며, Posterior Encoder, Prior Encoder, Decoder, Discriminator로 구성됩니다.
    • Posterior Encoder: 훈련 중 소스 파형 y를 숨겨진 표현 z로 인코딩하며, P(z|y) 분포를 모델링합니다. 6계층의 비인과성 WaveNet 잔여 블록(residual blocks)을 사용합니다.
    • Decoder: 인코딩된 z를 원본 파형으로 재구성하며, HIFI-GAN [22] 디코더를 사용합니다. 중요한 개선점은 F0 [21]에서 얻은 사인 기반 여기 신호(sine-based excitation signal)를 HIFI-GAN 디코더의 숨겨진 feature에 추가하여 노래 음성 재구성 품질을 향상시킨다는 점입니다.
    • Discriminator: 파형 품질을 적대적 방식으로 제약하기 위해 MPD(Multi-Period Discriminator)와 MSD(Multi-Scale Discriminator)를 사용합니다.
    • Prior Encoder: 스피커 음색(speaker ID), 피치(F0), 언어적 내용(SSL feature)을 융합하여 사전 분포(prior distribution)를 모델링합니다. 컨버터블 플로우(convertible flow)를 사용하여 사전 분포를 사후 분포(posterior distribution)로 변환합니다.
    • 추론 (Inference): Prior Encoder와 Decoder의 연결을 통해 소스 노래 음성을 목표 스피커 음색을 가진 목표 노래 음성으로 변환합니다.
  1. Key Shifter:
    • 목표: 소스와 목표 스피커 간의 피치 범위 차이로 인한 변환 품질 저하를 완화합니다.
    • 동작 방식: 추론 시, 목표 스피커의 평균 피치(F0tF0_t)와 소스 스피커의 평균 피치(F0sF0_s)를 미리 계산합니다. 이들의 차이 δF0=F0tF0s\delta F0 = F0_t - F0_s를 구한 후, 소스 F0에 δF0\delta F0를 더하여 조정된 피치 F0pF0_p를 얻습니다. 이 F0pF0_p를 Voice Converter의 입력으로 사용합니다.
  1. Post-processor (DSPGAN):
    • 목표: Voice Converter가 생성한 파형에 있을 수 있는 금속성 소리(metallic noise sounds)나 숨소리(breathing)의 인공물(artifacts)을 제거하고 오디오 품질을 향상시킵니다.
    • 기술: DSPGAN [18]은 GAN(Generative Adversarial Network) 기반의 유니버설 보코더(universal vocoder)입니다. 사인 여기 신호를 시간 도메인 감독(time-domain supervision)으로 사용하여 고조파 모델링(harmonic modeling)을 개선하고 인공물을 제거합니다. 또한, DSPGAN 모듈에서 파생된 Mel-spectrogram을 시간-주파수 도메인 감독(time-frequency domain supervision)으로 활용하여 어쿠스틱 모델(acoustic model)의 예측된 Mel-spectrogram과 실제 Mel-spectrogram 간의 불일치 문제를 해결합니다.

데이터 및 훈련 (Data and Model Training)

  • 데이터: VCTK [23] 및 혼합 음성 데이터셋(LJspeech [24], VCTK, LibriTTS [25], HI-FI TTS [26])을 음성 모델 학습에 사용하고, 혼합 노래 데이터셋(NUS48e [27], Opencpop [28], M4singer [29], Opensinger [30])을 노래 모델 학습에 사용합니다. SVCC의 제한된 목표 스피커 데이터(in-domain 0.41시간, cross-domain 0.18시간)도 활용합니다.
  • 훈련 전략 (Two-stage Training Strategy):
    1. 사전 훈련 (Pre-training): Voice Converter는 VCTK 데이터셋으로 초기화된 후, 혼합 노래 데이터셋으로 추가 사전 훈련을 진행합니다.
    2. 적응 (Adaptation/Fine-tuning): 목표 스피커 데이터와 두 개의 보조 가수(auxiliary singer) 데이터를 함께 사용하여 미세 조정을 수행합니다. 보조 데이터는 적응 과정의 안정화에 기여합니다.
      • 훈련 트릭 (Training Tricks):
        • 속도 교란 (Speed Perturbation): 목표 스피커 오디오 클립의 속도를 0.8에서 1.4 사이의 무작위 인자로 조정하여 데이터 다양성을 높이고 과적합을 완화합니다.
        • 공동 훈련 (Joint Training): 보조 가수 데이터와 함께 훈련하여 적응 성능을 향상시킵니다.
  • DSPGAN 훈련: DSPGAN은 혼합 음성 데이터셋으로 사전 훈련된 후, 혼합 노래 데이터셋으로 미세 조정을 거칩니다.

실험 결과 (Experimental Results)

SVCC 2023의 공식 평가에서 T02 시스템은 다음과 같은 성과를 달성했습니다:

  • In-domain SVC: 영어 청취자 기준 자연스러움(naturalness) 5위, 유사성(similarity) 5위. 일본어 청취자 기준 자연스러움 3위, 유사성 3위.
  • Cross-domain SVC: 영어 청취자 기준 자연스러움 1위, 유사성 2위. 일본어 청취자 기준 자연스러움 2위, 유사성 1위. 특히 cross-domain 태스크에서 우수한 성능을 보였습니다.

Ablation Study:

다음과 같은 주요 구성 요소의 효과를 검증하기 위한 ablation study를 수행했습니다:

  • w/o Speech Pre-training: 음성 데이터 사전 훈련을 제거하면 자연스러움과 유사성 모두에서 성능 저하(4.013.604.01 \to 3.60, 3.433.213.43 \to 3.21)가 관찰되었습니다.
  • w/o Adaptation Tricks: 데이터 증강 및 보조 훈련 전략과 같은 적응 트릭을 제거하면 시스템이 제한된 훈련 데이터에 과적합되어 자연스러움과 유사성 모두에서 큰 폭의 성능 저하(4.013.904.01 \to 3.90, 3.433.023.43 \to 3.02)가 발생했습니다.
  • w/o DSPGAN Post-processor: DSPGAN 후처리 단계를 제거하면 파형 재구성 품질 저하로 인해 자연스러움과 유사성 모두에서 성능 저하(4.013.524.01 \to 3.52, 3.433.293.43 \to 3.29)가 나타났습니다.

이러한 ablation 결과들은 제안된 시스템 설계의 각 구성 요소가 성능 향상에 효과적임을 입증합니다.