노타, 업스테이지 ‘솔라’ 메모리 사용량 72% 줄여…”독자 MoE 양자화 기술 개발” - AI타임스
핵심 포인트
- 1노타가 업스테이지의 '솔라' 모델 메모리 사용량을 72% 절감하는 데 성공했습니다.
- 2이는 노타가 독자적으로 개발한 MoE (Mixture of Experts) 양자화 기술을 활용한 결과입니다.
- 3이 기술 개발은 모델의 효율적인 운용에 기여할 것으로 보입니다.
노타(Nota)는 업스테이지(Upstage)의 인공지능 모델인 ‘솔라(SOLAR)’의 메모리 사용량을 72% 대폭 절감하는 데 성공했습니다. 이러한 성과는 노타가 자체 개발한 MoE(Mixture-of-Experts) 양자화 기술을 적용함으로써 달성되었습니다. MoE는 여러 개의 '전문가' 서브 네트워크와 이를 제어하는 라우터 네트워크로 구성되어 특정 입력에 대해 소수의 전문가만을 활성화하는 구조로, 모델의 파라미터 수는 매우 크지만 추론 시 계산 효율성이 높은 특징을 가집니다. 그러나 대규모 파라미터로 인해 메모리 사용량이 많다는 단점이 존재합니다. 노타는 이 문제 해결을 위해 독자적인 양자화(Quantization) 기술을 개발했습니다. 양자화는 일반적으로 모델 가중치와 활성화 값의 수치 정밀도를 낮춰(예: 32비트 부동 소수점에서 8비트 정수로) 메모리 사용량을 줄이고 연산 속도를 향상시키는 기법입니다. 노타의 독자 MoE 양자화 기술은 MoE 모델의 독특한 구조적 특성, 즉 희소하게 활성화되는 전문가들과 방대한 전체 파라미터 수를 고려하여, 정확도 손실을 최소화하면서 메모리 효율성을 극대화하도록 설계된 것으로 보입니다. 이 기술을 통해 ‘솔라’ 모델의 메모리 점유율이 72% 감소함으로써, 한정된 자원의 디바이스에서도 대규모 AI 모델을 더 효율적으로 운영할 수 있는 길이 열렸습니다.