Video
엔비디아가 이 LPU를 선택한 이유 [Nvidia, Groq, LPU, execuhire]
sudoremove
2026.01.11
·YouTube·by 이호민#LPU#Groq#Nvidia#Inference#AI
핵심 포인트
- 1Nvidia는 AI 추론 전용 하드웨어인 LPU(Language Processing Unit)를 개발하는 Grok과 기술 라이선스 계약을 맺으며, 설립자 및 핵심 인력을 흡수하여 추론 시장에서의 입지를 강화하고 있습니다.
- 2Grok의 LPU는 GPU의 HBM 대신 온칩 SRAM을 광범위하게 활용하여 매우 빠른 메모리 대역폭과 추론 속도를 달성하며, 프로그래밍 가능하고 결정론적인 아키텍처를 특징으로 합니다.
- 3이러한 LPU는 실제 테스트에서 월등한 추론 속도를 보여주며, 비용 효율성 측면에서 아직 불확실성이 있지만, Nvidia가 기존 GPU와는 다른 방식으로 추론 성능을 극대화하려는 전략적 움직임으로 해석됩니다.
본 문서의 내용은 엔비디아(Nvidia)가 추론(inference) 전용 하드웨어인 LPU(Language Processing Unit)를 개발한 회사인 Groq를 인수(또는 "e-queue hire"라고 언급된 방식)한 배경과 Groq 기술의 특징을 설명하고 있습니다.
1. Groq의 인수 및 배경:
- Groq는 GPU가 아닌 LPU라는 새로운 하드웨어를 설계, 제조, 판매하는 회사입니다. 이 LPU는 AI 추론에 특화되어 있습니다.
- 이번 인수는 'e-queue hire' 또는 '추론 기술 라이선스 계약(Inference Technology Licensing Agreement)'으로 불리며, Groq의 핵심 인력(설립자 겸 사장 Jonathan Russ 등)이 엔비디아로 이동하는 형태입니다.
- 인수 금액은 200억 달러로 알려져 있으나 공식적으로 공개되지는 않았습니다. 이는 과거 구글의 Character AI 인수(25억 달러)나 메타의 Scale AI 인수(150억 달러)와 같은 'executive hire' 사례와 비교되며, 훨씬 큰 규모입니다.
- 엔비디아는 추론 시장의 강력한 경쟁자였던 Groq를 인수함으로써, 시장 확장 및 자체 개발 대신 외부 기술을 확보하는 전략을 취한 것으로 분석됩니다.
2. Groq LPU의 핵심 기술 및 방법론:
Groq의 LPU는 기존 GPU와 차별화되는 여러 가지 독점적인 아키텍처적 특징을 가집니다:
- 메모리 아키텍처 (On-Memory / On-Chip SRAM):
- LPU의 가장 큰 특징은 HBM(High Bandwidth Memory)을 전혀 사용하지 않고 오직 온칩(on-chip) SRAM(Static Random-Access Memory)만을 메모리로 사용한다는 점입니다.
- 기존 GPU는 대규모 언어 모델(LLM)의 가중치를 HBM에 로드하고, 계산은 GPU의 SRAM(캐시 역할)이나 레지스터에서 수행합니다.
- Groq LPU는 모델 전체를 SRAM에 로드하여, 메모리 접근에 따른 지연 시간을 최소화하고 데이터 이동 없이 직접 계산을 수행합니다.
- 이는 SRAM이 HBM보다 대역폭 면에서 약 10배 이상 빠르다는 이점을 활용한 것입니다 (본문에서는 SRAM 80 bar/s, HBM 8 TB/s로 언급되었으나 단위 혼용 가능성 있음. 핵심은 SRAM의 압도적인 대역폭 활용).
- 단점으로는 SRAM이 HBM보다 용량 대비 비용이 매우 높고, 대면적 칩 설계로 인해 수율(yield)이 저하될 수 있다는 점이 있습니다.
- 속도 (Speed):
- 온칩 SRAM 기반의 아키텍처는 놀라운 추론 속도를 제공합니다. 1조 파라미터 모델을 구동했을 때 195~200 tokens/sec에 이르는 빠른 응답 속도를 시연했습니다. 이는
latency를 5초로 줄일 수 있음을 보여줍니다.
- 온칩 SRAM 기반의 아키텍처는 놀라운 추론 속도를 제공합니다. 1조 파라미터 모델을 구동했을 때 195~200 tokens/sec에 이르는 빠른 응답 속도를 시연했습니다. 이는
- 확정적(Deterministic) 실행:
- LPU의 프로세서 구조는 확정적이며, 실행 시간이 고정되어 예측 가능합니다.
- CPU나 GPU와 달리 캐시 미스(cache miss)나 분기 예측 오류(branch prediction error)와 같은 가변적인 요소가 없기 때문에, 특정 시간 내에 응답을 보장해야 하는 지연 시간에 민감한 애플리케이션에 매우 유리합니다.
- 소프트웨어 우선(Software-First) 및 프로그래밍 가능(Programmable):
- Groq LPU는 소프트웨어 우선으로 설계되었으며, 칩셋 전체가 소프트웨어 제어됩니다.
- 이를 통해 칩 간의 통신을 직접 제어하고, 동기화(synchronization) 대기 시간을 제거하여 칩 간 대역폭(chip-to-chip bandwidth)을 극대화합니다.
- 라우터나 컨트롤러 없이도 다수의 칩을 선형적으로 연결하여 대규모 모델을 처리할 수 있는 다중 칩 연산기(multi-chip Algebra calculator) 구조를 가지고 있습니다.
- 선형 대수 계산에 특화된 하드웨어이지만, 프로그래밍 유연성이 높아 다양한 선형 대수 관련 연산을 처리할 수 있습니다.
3. 서비스 및 활용:
- Groq는 사용자들이 LPU의 추론 속도를 직접 체험할 수 있도록 'Flower Playground'와 같은 오픈 라우터(open router) 서비스를 제공했습니다.
- 이를 통해 Kimi K2와 같은 대규모 모델의 빠른 추론을 시연할 수 있었으며, 이는 오픈AI의 Whisper 대비 훨씬 저렴한 가격에 서비스를 제공했습니다.
- Groq는 'Grok Rek'이라는 랙 단위의 제품을 판매하며, 이 제품은 공랭식(air cooling)으로도 효과적인 전력 효율을 보여준다고 언급됩니다.
4. 엔비디아의 인수 이유:
- 엔비디아가 추론 시장에서의 경쟁력을 강화하고 시장을 확장하기 위해 Groq의 독점적인 기술(온칩 SRAM 기반 아키텍처, 확정적 실행, 소프트웨어 제어 통신 등)을 내부 개발 대신 빠르게 흡수하려는 전략으로 보입니다.
- Groq 설립자가 구글의 TPU 팀 출신이라는 점에서, TPU 특허와 FPU(Groq LPU) 특허 간의 잠재적 충돌 가능성도 고려되었을 수 있습니다.