
VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023
핵심 포인트
- 1이 논문은 SVCC2023에 참가한 T02 팀의 시스템을 소개하며, VITS 기반의 Singing Voice Conversion (SVC) 모델에 DSPGAN 후처리 과정을 통합했습니다.
- 2이 시스템은 HuBERT를 활용한 특징 추출기, VITS 기반의 음성 변환기, 그리고 음질 향상을 위한 DSPGAN 보코더로 구성되며, 제한된 데이터 상황에서 2단계 학습 전략과 데이터 증강 기법을 사용했습니다.
- 3SVCC2023 공식 평가 결과, 이 시스템은 특히 cross-domain task에서 자연성 1위, 유사성 2위를 차지하며 우수한 성능을 보였고, ablation study를 통해 시스템 설계의 효과를 입증했습니다.
이 논문은 SVCC2023(Singing Voice Conversion Challenge 2023)에 출품된 T02 팀의 VITS 기반 SVC(Singing Voice Conversion) 시스템에 대해 설명합니다. 이 시스템은 SVC의 핵심 과제인 스피커 음색, 내용 및 멜로디를 분리하고 재구성하는 데 중점을 둡니다.
시스템 개요 (System Overview)
이 시스템은 크게 세 가지 모듈로 구성됩니다: Feature Extractor, Voice Converter, 그리고 Post-processor. 학습(Training) 단계와 추론(Inference) 단계가 다릅니다.
- 학습 단계 (Training Phase):
- Feature Extractor는 입력 노래 음성(singing waveform)으로부터 SSL(Self-Supervised Learning) feature, F0, 그리고 Mel-spectrogram을 추출합니다.
- Voice Converter (VITS 기반)는 이러한 추출된 feature들을 입력받아 현재 스피커 ID와 함께 음성을 재구성합니다.
- 재구성된 파형의 Mel-spectrogram과 원본 파형의 Mel-spectrogram 간의 차이를 측정하는 재구성 손실(Reconstruction loss)을 사용하여 훈련됩니다.
- 추론 단계 (Inference Phase):
- Feature Extractor는 소스 노래 음성에서 SSL feature와 F0를 추출합니다.
- Key Shifter는 추출된 F0를 목표 스피커의 피치 범위에 맞게 조정합니다.
- Voice Converter는 조정된 F0, 추출된 SSL feature, 그리고 목표 스피커 ID를 사용하여 목표 노래 음성을 생성합니다.
- Post-processor는 생성된 노래 음성의 오디오 품질을 더욱 향상시킵니다.
모듈 상세 (Modules in Detail)
- Feature Extractor:
- 목표: 스피커 음색과 언어적 내용(linguistic content)을 분리합니다.
- 언어적 내용 (Linguistic Content): HuBERT [11]의 변형 모델 [19]을 사용하여 256차원의 SSL feature를 추출합니다. 이 모델은 스피커 디커플링(speaker-decoupling) 설계가 적용되어 언어적 내용 표현에 강건함을 보입니다.
- 스피커 정체성 (Speaker Identity): Look-up table (LuT)을 통해 스피커 임베딩(speaker embedding)을 학습합니다.
- F0 윤곽 (F0 Contour): PYIN [20]으로 계산된 F0 윤곽을 사용하여 변환된 노래 음성의 멜로디 정확도를 높입니다.
- Voice Converter (VITS 기반):
- VITS [17] 아키텍처를 기반으로 구현되었으며, Posterior Encoder, Prior Encoder, Decoder, Discriminator로 구성됩니다.
- Posterior Encoder: 훈련 중 소스 파형
y를 숨겨진 표현z로 인코딩하며,P(z|y)분포를 모델링합니다. 6계층의 비인과성 WaveNet 잔여 블록(residual blocks)을 사용합니다. - Decoder: 인코딩된
z를 원본 파형으로 재구성하며, HIFI-GAN [22] 디코더를 사용합니다. 중요한 개선점은 F0 [21]에서 얻은 사인 기반 여기 신호(sine-based excitation signal)를 HIFI-GAN 디코더의 숨겨진 feature에 추가하여 노래 음성 재구성 품질을 향상시킨다는 점입니다. - Discriminator: 파형 품질을 적대적 방식으로 제약하기 위해 MPD(Multi-Period Discriminator)와 MSD(Multi-Scale Discriminator)를 사용합니다.
- Prior Encoder: 스피커 음색(speaker ID), 피치(F0), 언어적 내용(SSL feature)을 융합하여 사전 분포(prior distribution)를 모델링합니다. 컨버터블 플로우(convertible flow)를 사용하여 사전 분포를 사후 분포(posterior distribution)로 변환합니다.
- 추론 (Inference): Prior Encoder와 Decoder의 연결을 통해 소스 노래 음성을 목표 스피커 음색을 가진 목표 노래 음성으로 변환합니다.
- Key Shifter:
- 목표: 소스와 목표 스피커 간의 피치 범위 차이로 인한 변환 품질 저하를 완화합니다.
- 동작 방식: 추론 시, 목표 스피커의 평균 피치()와 소스 스피커의 평균 피치()를 미리 계산합니다. 이들의 차이 를 구한 후, 소스 F0에 를 더하여 조정된 피치 를 얻습니다. 이 를 Voice Converter의 입력으로 사용합니다.
- Post-processor (DSPGAN):
- 목표: Voice Converter가 생성한 파형에 있을 수 있는 금속성 소리(metallic noise sounds)나 숨소리(breathing)의 인공물(artifacts)을 제거하고 오디오 품질을 향상시킵니다.
- 기술: DSPGAN [18]은 GAN(Generative Adversarial Network) 기반의 유니버설 보코더(universal vocoder)입니다. 사인 여기 신호를 시간 도메인 감독(time-domain supervision)으로 사용하여 고조파 모델링(harmonic modeling)을 개선하고 인공물을 제거합니다. 또한, DSPGAN 모듈에서 파생된 Mel-spectrogram을 시간-주파수 도메인 감독(time-frequency domain supervision)으로 활용하여 어쿠스틱 모델(acoustic model)의 예측된 Mel-spectrogram과 실제 Mel-spectrogram 간의 불일치 문제를 해결합니다.
데이터 및 훈련 (Data and Model Training)
- 데이터: VCTK [23] 및 혼합 음성 데이터셋(LJspeech [24], VCTK, LibriTTS [25], HI-FI TTS [26])을 음성 모델 학습에 사용하고, 혼합 노래 데이터셋(NUS48e [27], Opencpop [28], M4singer [29], Opensinger [30])을 노래 모델 학습에 사용합니다. SVCC의 제한된 목표 스피커 데이터(in-domain 0.41시간, cross-domain 0.18시간)도 활용합니다.
- 훈련 전략 (Two-stage Training Strategy):
- 사전 훈련 (Pre-training): Voice Converter는 VCTK 데이터셋으로 초기화된 후, 혼합 노래 데이터셋으로 추가 사전 훈련을 진행합니다.
- 적응 (Adaptation/Fine-tuning): 목표 스피커 데이터와 두 개의 보조 가수(auxiliary singer) 데이터를 함께 사용하여 미세 조정을 수행합니다. 보조 데이터는 적응 과정의 안정화에 기여합니다.
- 훈련 트릭 (Training Tricks):
- 속도 교란 (Speed Perturbation): 목표 스피커 오디오 클립의 속도를 0.8에서 1.4 사이의 무작위 인자로 조정하여 데이터 다양성을 높이고 과적합을 완화합니다.
- 공동 훈련 (Joint Training): 보조 가수 데이터와 함께 훈련하여 적응 성능을 향상시킵니다.
- 훈련 트릭 (Training Tricks):
- DSPGAN 훈련: DSPGAN은 혼합 음성 데이터셋으로 사전 훈련된 후, 혼합 노래 데이터셋으로 미세 조정을 거칩니다.
실험 결과 (Experimental Results)
SVCC 2023의 공식 평가에서 T02 시스템은 다음과 같은 성과를 달성했습니다:
- In-domain SVC: 영어 청취자 기준 자연스러움(naturalness) 5위, 유사성(similarity) 5위. 일본어 청취자 기준 자연스러움 3위, 유사성 3위.
- Cross-domain SVC: 영어 청취자 기준 자연스러움 1위, 유사성 2위. 일본어 청취자 기준 자연스러움 2위, 유사성 1위. 특히 cross-domain 태스크에서 우수한 성능을 보였습니다.
Ablation Study:
다음과 같은 주요 구성 요소의 효과를 검증하기 위한 ablation study를 수행했습니다:
- w/o Speech Pre-training: 음성 데이터 사전 훈련을 제거하면 자연스러움과 유사성 모두에서 성능 저하(, )가 관찰되었습니다.
- w/o Adaptation Tricks: 데이터 증강 및 보조 훈련 전략과 같은 적응 트릭을 제거하면 시스템이 제한된 훈련 데이터에 과적합되어 자연스러움과 유사성 모두에서 큰 폭의 성능 저하(, )가 발생했습니다.
- w/o DSPGAN Post-processor: DSPGAN 후처리 단계를 제거하면 파형 재구성 품질 저하로 인해 자연스러움과 유사성 모두에서 성능 저하(, )가 나타났습니다.
이러한 ablation 결과들은 제안된 시스템 설계의 각 구성 요소가 성능 향상에 효과적임을 입증합니다.