GitHub - ziwon/ai-data-center-network: AI Data Center Network 참여형 스터디 자료 모음
Feed

GitHub - ziwon/ai-data-center-network: AI Data Center Network 참여형 스터디 자료 모음

ziwon
2026.05.13
·GitHub·by igor
#AI Data Center#InfiniBand#LLM#Network#RoCEv2

핵심 포인트

  • 1이 GitHub 레포지토리는 AI Data Center Network 관련 참여형 스터디를 위한 다양한 자료를 모아둔 곳입니다.
  • 2주로 효율적인 LLM Inference 시스템, InfiniBand 및 RoCEv2와 같은 데이터센터 네트워킹 기술, GPU 아키텍처 및 분산 학습에 대한 정보를 다룹니다.
  • 3책, 코드, 아티클, 강연, 논문 등 광범위한 형식의 자료들을 통해 AI 워크로드를 위한 네트워크 설계 및 최적화 방안을 탐구합니다.

본 문서는 "AI Data Center Network 참여형 스터디 자료 모음"이라는 제목의 GitHub 저장소 README 파일로, AI 데이터센터 네트워크 분야에 대한 광범위한 학습 자료와 참고 문헌을 큐레이션하여 제공합니다. 단일 연구 논문이 아닌, 관련 주제들을 체계적으로 분류한 자료집의 성격을 가집니다.

핵심 내용은 AI 데이터센터의 네트워크 설계, 성능 최적화, 최신 기술 동향을 다루며, 주로 고성능 컴퓨팅 및 대규모 언어 모델(LLM) 학습/추론 환경에 필요한 인프라에 중점을 둡니다.

자료는 다음과 같은 주요 범주로 나뉩니다:

  • Books (서적): AI 데이터센터 네트워크 설계 및 기술, AI 데이터센터에서의 트래픽 패턴 및 네트워크 요구사항 이해를 위한 딥러닝, GPU, CUDA, PyTorch를 활용한 모델 학습 및 추론 워크로드 최적화를 위한 AI 시스템 성능 엔지니어링 등 미래 출판 예정 서적 정보가 포함되어 있습니다.
  • Code (코드/프로젝트): 효율적인 LLM 추론 시스템, 알고리즘 및 생산 엔지니어링, 밑바닥부터 대규모 언어 모델 구축, InfiniBand 네트워크 아키텍처 등 실제 구현 및 엔지니어링 관련 자료 링크를 제공합니다.
  • Articles (아티클): InfiniBand와 RoCEv2의 비교 분석, DGX 클러스터 네트워크 구성, RoCEv2 무손실 네트워크 가이드, AI 데이터센터 디자인 요구사항, Cisco 및 Juniper 솔루션, 대규모 AI를 위한 네트워크 베스트 프랙티스 등 다양한 기술 아티클들이 포함되어 있습니다. 특히 InfiniBand와 RoCEv2 간의 선택 및 기술적 차이에 대한 깊이 있는 논의가 두드러집니다.
  • Talks (강연): 2조 파라미터 LLM 학습 엔지니어링, AI 네트워크 아키텍처(InfiniBand vs Ultra Ethernet), RDMA에 대한 전반적인 이해 등 강연 자료들이 나열되어 있습니다.
  • Papers (논문): 분할 추론(Splitwise)을 이용한 효율적인 생성형 LLM 추론, 트랜스포머 추론 스케일링, LLM.int8(), 신경망 언어 모델의 스케일링 법칙 등 LLM과 관련된 핵심 연구 논문들이 포함되어 있습니다.
  • GPU H100 Tensor Core GPU Architecture: NVIDIA의 GPU 아키텍처, NVFP4, FP8 및 FP4 활용, Transformer Engine 관련 정보 등 GPU 하드웨어 및 최적화 기술에 대한 자료를 언급합니다.
  • NCCL and Communication Collectives: 분산 학습에 필수적인 NVIDIA Collective Communications Library (NCCL) 및 통신 집합체(Communication Collectives) 알고리즘에 대한 정보를 제공합니다.
  • LLM Arch (LLM 아키텍처): 다양한 LLM 아키텍처 비교 및 갤러리를 포함합니다.
  • Models & Training (모델 및 학습): Unsloth, Nemotron-3, Omni, Qwen 등 특정 LLM 모델들과 LLM 파인튜닝 가이드, Ray Train과 같은 학습 프레임워크에 대한 정보를 다룹니다.
  • Cable & Data Center (케이블 및 데이터센터): 해저 케이블 지도 및 오픈 그리드 워크스 등 물리적 인프라 관련 링크를 포함합니다.

본 자료집은 AI 데이터센터 네트워크를 이해하고 구축하며 최적화하는 데 필요한 광범위한 기술 스택을 아우르며, 하드웨어(GPU, NIC), 네트워크 프로토콜(InfiniBand, RoCEv2), 소프트웨어(LLM, 프레임워크), 그리고 전반적인 시스템 아키텍처에 대한 최신 정보를 제공합니다.