엔비디아가 이 LPU를 선택한 이유 [Nvidia, Groq, LPU, execuhire]

요약

Nvidia는 AI 추론 전용 하드웨어인 LPU(Language Processing Unit)를 개발하는 Grok과 기술 라이선스 계약을 맺으며, 설립자 및 핵심 인력을 흡수하여 추론 시장에서의 입지를 강화하고 있습니다.

Grok의 LPU는 GPU의 HBM 대신 온칩 SRAM을 광범위하게 활용하여 매우 빠른 메모리 대역폭과 추론 속도를 달성하며, 프로그래밍 가능하고 결정론적인 아키텍처를 특징으로 합니다.

이러한 LPU는 실제 테스트에서 월등한 추론 속도를 보여주며, 비용 효율성 측면에서 아직 불확실성이 있지만, Nvidia가 기존 GPU와는 다른 방식으로 추론 성능을 극대화하려는 전략적 움직임으로 해석됩니다.

상세 내용

본 문서의 내용은 엔비디아(Nvidia)가 추론(inference) 전용 하드웨어인 LPU(Language Processing Unit)를 개발한 회사인 Groq를 인수(또는 "e-queue hire"라고 언급된 방식)한 배경과 Groq 기술의 특징을 설명하고 있습니다.

1. Groq의 인수 및 배경:
* Groq는 GPU가 아닌 LPU라는 새로운 하드웨어를 설계, 제조, 판매하는 회사입니다. 이 LPU는 AI 추론에 특화되어 있습니다.
* 이번 인수는 'e-queue hire' 또는 '추론 기술 라이선스 계약(Inference Technology Licensing Agreement)'으로 불리며, Groq의 핵심 인력(설립자 겸 사장 Jonathan Russ 등)이 엔비디아로 이동하는 형태입니다.
* 인수 금액은 200억 달러로 알려져 있으나 공식적으로 공개되지는 않았습니다. 이는 과거 구글의 Character AI 인수(25억 달러)나 메타의 Scale AI 인수(150억 달러)와 같은 'executive hire' 사례와 비교되며, 훨씬 큰 규모입니다.
* 엔비디아는 추론 시장의 강력한 경쟁자였던 Groq를 인수함으로써, 시장 확장 및 자체 개발 대신 외부 기술을 확보하는 전략을 취한 것으로 분석됩니다.

2. Groq LPU의 핵심 기술 및 방법론:
Groq의 LPU는 기존 GPU와 차별화되는 여러 가지 독점적인 아키텍처적 특징을 가집니다:

* 메모리 아키텍처 (On-Memory / On-Chip SRAM):
* LPU의 가장 큰 특징은 HBM(High Bandwidth Memory)을 전혀 사용하지 않고 오직 온칩(on-chip) SRAM(Static Random-Access Memory)만을 메모리로 사용한다는 점입니다.
* 기존 GPU는 대규모 언어 모델(LLM)의 가중치를 HBM에 로드하고, 계산은 GPU의 SRAM(캐시 역할)이나 레지스터에서 수행합니다.
* Groq LPU는 모델 전체를 SRAM에 로드하여, 메모리 접근에 따른 지연 시간을 최소화하고 데이터 이동 없이 직접 계산을 수행합니다.
* 이는 SRAM이 HBM보다 대역폭 면에서 약 10배 이상 빠르다는 이점을 활용한 것입니다 (본문에서는 SRAM 80 bar/s, HBM 8 TB/s로 언급되었으나 단위 혼용 가능성 있음. 핵심은 SRAM의 압도적인 대역폭 활용).
* 단점으로는 SRAM이 HBM보다 용량 대비 비용이 매우 높고, 대면적 칩 설계로 인해 수율(yield)이 저하될 수 있다는 점이 있습니다.

* 속도 (Speed):
* 온칩 SRAM 기반의 아키텍처는 놀라운 추론 속도를 제공합니다. 1조 파라미터 모델을 구동했을 때 195~200 tokens/sec에 이르는 빠른 응답 속도를 시연했습니다. 이는 latency를 5초로 줄일 수 있음을 보여줍니다.

* 확정적(Deterministic) 실행:
* LPU의 프로세서 구조는 확정적이며, 실행 시간이 고정되어 예측 가능합니다.
* CPU나 GPU와 달리 캐시 미스(cache miss)나 분기 예측 오류(branch prediction error)와 같은 가변적인 요소가 없기 때문에, 특정 시간 내에 응답을 보장해야 하는 지연 시간에 민감한 애플리케이션에 매우 유리합니다.

* 소프트웨어 우선(Software-First) 및 프로그래밍 가능(Programmable):
* Groq LPU는 소프트웨어 우선으로 설계되었으며, 칩셋 전체가 소프트웨어 제어됩니다.
* 이를 통해 칩 간의 통신을 직접 제어하고, 동기화(synchronization) 대기 시간을 제거하여 칩 간 대역폭(chip-to-chip bandwidth)을 극대화합니다.
* 라우터나 컨트롤러 없이도 다수의 칩을 선형적으로 연결하여 대규모 모델을 처리할 수 있는 다중 칩 연산기(multi-chip Algebra calculator) 구조를 가지고 있습니다.
* 선형 대수 계산에 특화된 하드웨어이지만, 프로그래밍 유연성이 높아 다양한 선형 대수 관련 연산을 처리할 수 있습니다.

3. 서비스 및 활용:
* Groq는 사용자들이 LPU의 추론 속도를 직접 체험할 수 있도록 'Flower Playground'와 같은 오픈 라우터(open router) 서비스를 제공했습니다.
* 이를 통해 Kimi K2와 같은 대규모 모델의 빠른 추론을 시연할 수 있었으며, 이는 오픈AI의 Whisper 대비 훨씬 저렴한 가격에 서비스를 제공했습니다.
* Groq는 'Grok Rek'이라는 랙 단위의 제품을 판매하며, 이 제품은 공랭식(air cooling)으로도 효과적인 전력 효율을 보여준다고 언급됩니다.

4. 엔비디아의 인수 이유:
* 엔비디아가 추론 시장에서의 경쟁력을 강화하고 시장을 확장하기 위해 Groq의 독점적인 기술(온칩 SRAM 기반 아키텍처, 확정적 실행, 소프트웨어 제어 통신 등)을 내부 개발 대신 빠르게 흡수하려는 전략으로 보입니다.
* Groq 설립자가 구글의 TPU 팀 출신이라는 점에서, TPU 특허와 FPU(Groq LPU) 특허 간의 잠재적 충돌 가능성도 고려되었을 수 있습니다.

#LPU #Groq #Nvidia #Inference #AI