RNGD
요약
상세 내용
핵심 특징 및 성능:
RNGD는 180W의 낮은 TDP(Thermal Design Power)를 유지하면서 고성능 LLM 및 멀티모달 배포 기능을 제공합니다. Llama 3.1 70B 모델(2,048 입력 토큰 / 128 출력 토큰, FP8) 추론 시, 8개의 RNGD 카드를 사용하여 FuriosaSDK 환경에서 957.05 token/s/W의 효율을 달성합니다. 이는 H100 SXM(2,064.53 token/s/W) 및 L40S(163.53 token/s/W)와 비교하여 특정 워크로드에서 경쟁력 있는 효율을 보여줍니다. 특히, Llama 3.1 8B 모델(128 입력 토큰 / 4,096 출력 토큰, FP8)의 경우, 1개의 RNGD 카드로 FuriosaSDK 환경에서 3,935.25 token/s를 달성합니다. 이는 H100 SXM(13,222.06 token/s) 및 L40S(2989.17 token/s)와 비교됩니다.
코어 방법론: Tensor Contraction Processor (TCP) 아키텍처:
RNGD의 핵심은 ISCA 2024에서 발표된 Tensor Contraction Processor(TCP) 아키텍처입니다. 대부분의 상용 딥러닝 가속기가 고정 크기의 matmul(행렬 곱셈) 명령어를 기본 연산으로 사용하는 반면, TCP는 텐서 축약(tensor contraction) 연산을 효율적으로 처리하도록 특별히 설계되었습니다. 텐서 축약은 현대 딥러닝의 기본적인 계산이며, 행렬 곱셈의 고차원 일반화입니다. RNGD는 이러한 텐서 연산을 퍼스트 클래스 시티즌(first-class citizen)으로 취급함으로써, 기존 가속기의 고정된 matmul 방식에서 벗어나 성능과 에너지 효율을 극대화합니다.
TCP 아키텍처는 하드웨어와 소프트웨어 간의 프로그래밍 인터페이스를 고도화하여 텐서 축약을 단일하고 통합된 연산으로 처리합니다. 이 근본적인 설계 선택은 프로그래밍을 간소화하고, 병렬 처리 및 데이터 재사용을 최대화하며, 텐서 형태에 따라 컴퓨팅 자원의 유연성과 재구성 가능성을 제공합니다. Furiosa Compiler는 이러한 하드웨어의 유연성과 재구성 가능성을 활용하여 가장 최적화된 전략(tactics)을 선택함으로써, 모든 규모의 배포에서 강력하고 효율적인 딥러닝 가속을 제공합니다.
하드웨어 사양:
RNGD는 TSMC 5nm 공정으로 제조되며, FP8에서 512 TFLOPS, INT8에서 512 TOPS, INT4에서 1024 TOPS의 성능을 제공합니다. 48GB HBM3 메모리(2 x HBM3 CoWoS-S, 6.0 Gbps)를 탑재하고 있으며, 1.5 TB/s의 HBM3 메모리 대역폭과 384 TB/s의 온칩 대역폭을 가집니다. 180W의 낮은 TDP를 가지며, 공랭식 데이터 센터를 목표로 합니다. 또한, PCIe Gen5 x16 호스트 인터페이스를 지원하고, PCIe P2P, Multiple-Instance 및 Virtualization 기능, 그리고 Secure boot & model encryption 기능을 제공합니다. BF16, FP8, INT8, INT4 등 다양한 데이터 타입을 지원합니다.
소프트웨어 에코시스템:
Furiosa SW Stack은 모델 압축기(model compressor), 서빙 프레임워크(serving framework), 런타임(runtime), 컴파일러(compiler), 프로파일러(profiler), 디버거(debugger) 및 API 스위트로 구성되어 LLM 배포의 용이성을 제공합니다. PyTorch 2.x 통합을 통해 오픈 소스 AI의 발전을 활용하며, 컨테이너화(containerization), SR-IOV, Kubernetes 등 클라우드 네이티브 구성 요소를 지원하여 데이터 센터 활용률을 극대화합니다.
NXT RNGD 서버:
"Furiosa NXT RNGD Server"는 8개의 RNGD TCP를 탑재하여 총 4 petaFLOPS(FP8)의 성능을 제공하며, 12 TB/s의 메모리 대역폭과 384GB의 HBM3 용량을 갖춥니다. 총 3 kW의 전력 소비로 공랭식 데이터 센터에 최적화되어 온프레미스, 관리형 환경 또는 코로케이션 시설에 배포될 수 있습니다. LG AI Research와 같은 고객사에서는 RNGD가 EXAONE 모델 배포에 효과적이며, 우수한 실질 성능, 총 소유 비용(TCO)의 극적인 감소, 그리고 놀랍도록 간단한 통합을 제공한다고 평가했습니다.