Paper

mHC: Manifold-Constrained Hyper-Connections

Yixuan Wei

2026.01.10

·Arxiv·by 네루

#LLM#Deep Learning#Neural Network Architecture#Residual Connection#Foundational Models

핵심 포인트

1최근 Hyper-Connections(HC)는 성능 향상을 제공하지만, identity mapping 속성을 손상시켜 훈련 불안정성과 확장성 제약을 야기합니다.
2이러한 문제를 해결하기 위해, Manifold-Constrained Hyper-Connections(mHC)는 HC의 residual connection 공간을 특정 manifold에 투영하여 identity mapping 속성을 복원합니다.
3mHC는 kernel fusion 및 recomputing과 같은 엄격한 인프라 최적화를 통해 효율성을 확보하여, 대규모 훈련에서 뛰어난 성능과 안정성, 그리고 우수한 확장성을 입증했습니다.

x_{l+1} = x_l + F(x_l, W_l)

Paper

Yixuan Wei

2026.01.10

·Arxiv·by 네루

#LLM#Deep Learning#Neural Network Architecture#Residual Connection#Foundational Models

1최근 Hyper-Connections(HC)는 성능 향상을 제공하지만, identity mapping 속성을 손상시켜 훈련 불안정성과 확장성 제약을 야기합니다.
2이러한 문제를 해결하기 위해, Manifold-Constrained Hyper-Connections(mHC)는 HC의 residual connection 공간을 특정 manifold에 투영하여 identity mapping 속성을 복원합니다.
3mHC는 kernel fusion 및 recomputing과 같은 엄격한 인프라 최적화를 통해 효율성을 확보하여, 대규모 훈련에서 뛰어난 성능과 안정성, 그리고 우수한 확장성을 입증했습니다.

x_{l+1} = x_l + F(x_l, W_l)