News2026.01.04
개인 PC·스마트폰 GPU로 AI 서비스 비용 67% 낮춘다
요약
KAIST 연구팀은 고가의 데이터센터 GPU 대신 개인용 PC나 스마트폰에 탑재된 저렴한 GPU를 활용하여 AI 서비스 비용을 약 67% 절감하는 '스펙엣지(SpecEdge)' 기술을 개발했습니다.
이 기술은 엣지 GPU의 소형 모델이 초안을 빠르게 생성하고 데이터센터의 대규모 모델이 이를 검증 및 수정하는 '추측적 디코딩(Speculative Decoding)' 방식을 통해 LLM 추론 인프라를 효율적으로 구성합니다.
SpecEdge는 기존 방식 대비 토큰당 비용을 67.6% 절감하고 서버 처리량을 2.22배 향상시키며, 이는 NeurIPS 학회에서 우수 논문으로 선정될 만큼 높은 효율성을 보였습니다.
상세 내용
KAIST 연구팀이 고가의 데이터센터 GPU에 필수적으로 의존하는 대규모 언어모델(LLM) 기반 AI 서비스의 비용을 획기적으로 절감할 수 있는 새로운 기술인 '스펙엣지(SpecEdge)'를 개발했습니다. 이 기술은 개인용 PC나 스마트폰에 탑재된 저렴한 GPU, 즉 '엣지 GPU'를 활용하여 LLM 인프라 비용을 약 67%까지 낮출 수 있음을 보여줍니다. 이 연구 결과는 인공지능 분야 최고 권위 학회인 NeurIPS 2023에서 상위 3.2%에 해당하는 스포트라이트 논문으로 선정되었습니다. 엣지 GPU의 역할: 엣지 기기(개인 PC 또는 스마트폰)에 배포된 소형 언어모델(small language model)이 먼저 확률이 높은 토큰 시퀀스, 즉 '초안(draft)'을 빠르게 생성합니다. 엣지 GPU는 서버의 응답을 기다리지 않고 계속해서 단어를 생성하여 추론 속도를 높입니다.
데이터센터 GPU의 역할: 엣지 GPU에서 생성된 초안 토큰 시퀀스를 데이터센터의 대규모 언어모델(large language model)이 일괄적으로 검증하고 필요한 경우 수정합니다.
스펙엣지는 데이터센터 GPU와 엣지 GPU가 역할을 분담하여 LLM 추론 인프라를 함께 구성하는 방식입니다. 핵심 방법론은 '추측적 디코딩(Speculative Decoding)'을 활용하는 것입니다. 기존 LLM 추론 방식이 데이터센터의 대규모 모델에서 토큰(token)을 하나씩 순차적으로 생성하는 것과 달리, 스펙엣지는 다음과 같은 과정을 따릅니다.
이러한 분산 처리 방식을 통해 고비용의 데이터센터 GPU의 연산 부담을 줄이고 효율성을 극대화합니다. 기존 데이터센터 GPU만 사용하는 방식과 비교했을 때 토큰당 비용을 약 67.6% 절감했으며, 데이터센터 GPU 내에서만 추측적 디코딩을 수행하는 방식과 비교해서는 비용 효율성이 1.91배, 서버 처리량(throughput)은 2.22배 향상되었습니다. 일반적인 인터넷 속도 환경에서도 문제없이 작동하며, 서버는 여러 엣지 GPU로부터의 검증 요청을 효율적으로 처리하도록 설계되어 GPU 유휴 시간 없이 더 많은 요청을 동시에 처리할 수 있는 LLM 서빙(serving) 인프라 구조를 구현했습니다.
궁극적으로 스펙엣지는 데이터센터를 넘어 사용자 주변의 엣지 자원까지 LLM 인프라로 활용함으로써 AI 서비스 제공 비용을 낮추고, 누구나 고품질의 AI 서비스를 이용할 수 있는 환경을 구축하는 것을 목표로 합니다.
News
Shared by Anonymous