ACE-Step-1.5 - 유료 서비스를 능가하는 로컬 음악 생성 모델 | GeekNews
Blog

ACE-Step-1.5 - 유료 서비스를 능가하는 로컬 음악 생성 모델 | GeekNews

xguru
2026.03.26
·News·by 배레온/부산/개발자
#AI Music Generation#Local LLM#LoRA#Music Production#Open Source

핵심 포인트

  • 1ACE-Step-1.5는 상용 서비스인 Suno v4.5~v5 수준의 음악 생성 품질을 일반 소비자 하드웨어에서 구현하는 오픈소스 로컬 음악 생성 모델입니다.
  • 2RTX 3090에서 10초 이내에 전체 곡을 생성하고 4GB VRAM 이하 환경에서도 구동 가능하며, LoRA 기반의 개인화 학습을 지원합니다.
  • 3Mac(MLX), AMD ROCm, Intel XPU, CUDA GPU 등 다양한 플랫폼에서 실행 가능하며, Gradio Web UI와 API를 통해 폭넓게 활용될 수 있습니다.

ACE-Step-1.5는 Suno와 같은 상용 음악 생성 모델에 필적하거나 그 이상의 품질을 일반 소비자용 하드웨어에서도 구현하기 위해 개발된 오픈소스 로컬 음악 생성 모델이다.

핵심 방법론 및 기술적 특징:
이 모델은 LoRA(Low-Rank Adaptation) 기반의 개인화 학습을 핵심 방법론으로 채택하여 사용자의 음악 스타일을 반영한다. LoRA는 대규모 사전 학습된 모델의 가중치를 직접 미세 조정하는 대신, 적은 수의 추가 파라미터만을 학습하여 효율적으로 특정 스타일에 적응시키는 기술이다. 이를 통해 사용자는 자신의 원하는 음악적 특징을 모델에 학습시켜 맞춤형 음악을 생성할 수 있다. 특히, LoRA 학습 기능이 내장되어 Gradio UI에서 원클릭으로 주석 및 학습이 가능하며, RTX 3090(12GB) 기준으로 8곡을 1시간 이내에 학습 완료할 수 있는 높은 효율성을 자랑한다. 또한, Side-Step 모듈을 통해 고급 LoRA/LoKR 미세조정 및 VRAM 최적화를 지원하여 사용자들에게 세밀한 제어와 자원 효율성을 제공한다.

성능 및 품질:
ACE-Step-1.5는 Suno v4.5~v5 수준 이상의 음질과 스타일 다양성을 제공하며, 1000개 이상의 악기와 장르를 지원하여 세밀한 음색 제어가 가능하다. RTX 3090 환경에서 10초 이내로 전체 곡을 고속 생성할 수 있으며, 최대 10분(600초) 길이의 오디오 생성 및 8곡 동시 배치 생성을 지원한다. 4GB VRAM 이하의 환경에서도 로컬 실행이 가능하다.

주요 기능:

  • 음악 생성 및 제어: 50개 이상의 언어로 가사 프롬프트를 사용하여 음악의 구조와 스타일을 제어할 수 있다.
  • 변환 및 편집: 커버 생성, 리페인트(부분 재생성), 보컬을 BGM으로 변환하는 기능, 트랙 분리 및 멀티트랙 합성을 지원한다.
  • 개인화: LoRA 기반의 개인화 학습을 통해 사용자의 음악 스타일을 반영한다.

호환성 및 인터페이스:
다양한 플랫폼(Mac(MLX), AMD ROCm, Intel XPU, CUDA GPU, CPU)에서 호환되며, 자동 환경 감지 및 설정 스크립트를 제공한다. 사용자는 Gradio Web UI, DAW 유사 Studio UI, Python API, REST API, CLI 등 다양한 인터페이스를 통해 모델을 활용할 수 있다. 영어, 중국어, 일본어, 한국어를 포함한 다국어 문서 세트도 제공된다.

라이선스:
MIT License를 따르며, 창작, 교육, 엔터테인먼트 목적의 사용을 권장하고 저작권 및 문화적 민감성 준수를 명시한다.