엔비디아가 이 LPU를 선택한 이유 [Nvidia, Groq, LPU, execuhire]
요약
상세 내용
1. Groq의 인수 및 배경:
* Groq는 GPU가 아닌 LPU라는 새로운 하드웨어를 설계, 제조, 판매하는 회사입니다. 이 LPU는 AI 추론에 특화되어 있습니다.
* 이번 인수는 'e-queue hire' 또는 '추론 기술 라이선스 계약(Inference Technology Licensing Agreement)'으로 불리며, Groq의 핵심 인력(설립자 겸 사장 Jonathan Russ 등)이 엔비디아로 이동하는 형태입니다.
* 인수 금액은 200억 달러로 알려져 있으나 공식적으로 공개되지는 않았습니다. 이는 과거 구글의 Character AI 인수(25억 달러)나 메타의 Scale AI 인수(150억 달러)와 같은 'executive hire' 사례와 비교되며, 훨씬 큰 규모입니다.
* 엔비디아는 추론 시장의 강력한 경쟁자였던 Groq를 인수함으로써, 시장 확장 및 자체 개발 대신 외부 기술을 확보하는 전략을 취한 것으로 분석됩니다.
2. Groq LPU의 핵심 기술 및 방법론:
Groq의 LPU는 기존 GPU와 차별화되는 여러 가지 독점적인 아키텍처적 특징을 가집니다:
* 메모리 아키텍처 (On-Memory / On-Chip SRAM):
* LPU의 가장 큰 특징은 HBM(High Bandwidth Memory)을 전혀 사용하지 않고 오직 온칩(on-chip) SRAM(Static Random-Access Memory)만을 메모리로 사용한다는 점입니다.
* 기존 GPU는 대규모 언어 모델(LLM)의 가중치를 HBM에 로드하고, 계산은 GPU의 SRAM(캐시 역할)이나 레지스터에서 수행합니다.
* Groq LPU는 모델 전체를 SRAM에 로드하여, 메모리 접근에 따른 지연 시간을 최소화하고 데이터 이동 없이 직접 계산을 수행합니다.
* 이는 SRAM이 HBM보다 대역폭 면에서 약 10배 이상 빠르다는 이점을 활용한 것입니다 (본문에서는 SRAM 80 bar/s, HBM 8 TB/s로 언급되었으나 단위 혼용 가능성 있음. 핵심은 SRAM의 압도적인 대역폭 활용).
* 단점으로는 SRAM이 HBM보다 용량 대비 비용이 매우 높고, 대면적 칩 설계로 인해 수율(yield)이 저하될 수 있다는 점이 있습니다.
* 속도 (Speed):
* 온칩 SRAM 기반의 아키텍처는 놀라운 추론 속도를 제공합니다. 1조 파라미터 모델을 구동했을 때 195~200 tokens/sec에 이르는 빠른 응답 속도를 시연했습니다. 이는 latency를 5초로 줄일 수 있음을 보여줍니다.
* 확정적(Deterministic) 실행:
* LPU의 프로세서 구조는 확정적이며, 실행 시간이 고정되어 예측 가능합니다.
* CPU나 GPU와 달리 캐시 미스(cache miss)나 분기 예측 오류(branch prediction error)와 같은 가변적인 요소가 없기 때문에, 특정 시간 내에 응답을 보장해야 하는 지연 시간에 민감한 애플리케이션에 매우 유리합니다.
* 소프트웨어 우선(Software-First) 및 프로그래밍 가능(Programmable):
* Groq LPU는 소프트웨어 우선으로 설계되었으며, 칩셋 전체가 소프트웨어 제어됩니다.
* 이를 통해 칩 간의 통신을 직접 제어하고, 동기화(synchronization) 대기 시간을 제거하여 칩 간 대역폭(chip-to-chip bandwidth)을 극대화합니다.
* 라우터나 컨트롤러 없이도 다수의 칩을 선형적으로 연결하여 대규모 모델을 처리할 수 있는 다중 칩 연산기(multi-chip Algebra calculator) 구조를 가지고 있습니다.
* 선형 대수 계산에 특화된 하드웨어이지만, 프로그래밍 유연성이 높아 다양한 선형 대수 관련 연산을 처리할 수 있습니다.
3. 서비스 및 활용:
* Groq는 사용자들이 LPU의 추론 속도를 직접 체험할 수 있도록 'Flower Playground'와 같은 오픈 라우터(open router) 서비스를 제공했습니다.
* 이를 통해 Kimi K2와 같은 대규모 모델의 빠른 추론을 시연할 수 있었으며, 이는 오픈AI의 Whisper 대비 훨씬 저렴한 가격에 서비스를 제공했습니다.
* Groq는 'Grok Rek'이라는 랙 단위의 제품을 판매하며, 이 제품은 공랭식(air cooling)으로도 효과적인 전력 효율을 보여준다고 언급됩니다.
4. 엔비디아의 인수 이유:
* 엔비디아가 추론 시장에서의 경쟁력을 강화하고 시장을 확장하기 위해 Groq의 독점적인 기술(온칩 SRAM 기반 아키텍처, 확정적 실행, 소프트웨어 제어 통신 등)을 내부 개발 대신 빠르게 흡수하려는 전략으로 보입니다.
* Groq 설립자가 구글의 TPU 팀 출신이라는 점에서, TPU 특허와 FPU(Groq LPU) 특허 간의 잠재적 충돌 가능성도 고려되었을 수 있습니다.