Aman's AI Journal • Primers • Ilya Sutskever's Top 30
Blog

Aman's AI Journal • Primers • Ilya Sutskever's Top 30

2026.02.13
·Web·by 이호민
#AI#Deep Learning#LLM#Machine Learning#RNN

핵심 포인트

  • 1Deep Residual Networks(ResNets)는 이전보다 훨씬 깊은 네트워크의 훈련을 현저히 용이하게 하는 개념을 도입합니다.
  • 2이들은 층들이 원하는 매핑 대신 잔차 매핑을 학습하도록 하는 잔차 블록을 활용하여 훈련 과정을 개선합니다.
  • 3이를 통해 네트워크 깊이 증가에 따라 정확도를 향상시키고, 더 깊은 모델의 효과적인 학습을 가능하게 합니다.

"Deep Residual Learning for Image Recognition"은 이전보다 훨씬 더 깊은 신경망의 학습을 현저히 용이하게 하는 deep residual networks (ResNets) 개념을 도입한 중요한 논문입니다. 이 논문은 레이어가 원하는 기본 매핑을 직접 맞추려고 시도하는 대신 residual mapping을 맞추도록 허용하는 residual block을 사용하여 학습 프로세스를 촉진하고 깊이 증가로 인한 정확도 향상을 가능하게 합니다.

핵심 혁신 및 발견:

  • Degradation Problem 해결: 기존의 심층 신경망은 깊이가 증가할수록 accuracy가 포화된 후 급격히 저하되는 degradation problem을 겪었습니다. 이는 overfitting 때문이 아니라, 매우 깊은 네트워크를 최적화하기 어렵기 때문에 발생합니다. ResNets는 이러한 문제에 대한 해결책을 제시합니다.
  • Residual Learning Framework: 논문은 몇 개의 stacked layers가 residual mapping F(x):=H(x)xF(x) := H(x) - x를 학습하도록 제안합니다. 여기서 H(x)H(x)는 이러한 레이어들이 학습해야 할 desired underlying mapping입니다. 그러면 원래의 매핑은 H(x)=F(x)+xH(x) = F(x) + x가 됩니다. 이 방식은 layers가 identity mapping에 가깝게 동작하도록 유도하여, 네트워크가 정보 전달을 더 잘 하도록 돕습니다.
  • Identity Mapping (Skip Connection): residual block의 핵심은 F(x)F(x)의 출력에 input xx를 직접 더하는 identity mapping 또는 skip connection입니다. 이 connection은 하나 이상의 레이어를 건너뛰어 input xx를 subsequent layers의 input에 직접 추가합니다. 수식으로 표현하면 y=F(x,{Wi})+xy = F(\mathbf{x}, \{W_i\}) + \mathbf{x}와 같습니다. 여기서 F(x,{Wi})F(\mathbf{x}, \{W_i\})는 학습될 residual mapping을 나타내며, x\mathbf{x}block의 input, {Wi}\{W_i\}는 학습될 가중치 집합입니다. 만약 input과 output의 차원(dimensions)이 다를 경우, identity mapping xx는 linear projection WsxW_s x를 통해 차원을 맞춰야 합니다. 예를 들어, y=F(x,{Wi})+Wsxy = F(\mathbf{x}, \{W_i\}) + W_s \mathbf{x}와 같이 사용할 수 있습니다.
  • Optimization 촉진: Residual learningidentity mapping을 명시적으로 참조함으로써, 스택된 non-linear layersidentity mapping을 학습하는 것을 훨씬 더 쉽게 만듭니다. 이는 gradient flow를 개선하고, 극도로 깊은 네트워크의 학습을 안정화하는 데 기여합니다.
  • Architecture: ResNetsconvolutional layers, Batch Normalization, 그리고 ReLU 활성화 함수로 구성된 residual blocks를 쌓아 올린 구조를 가집니다. 특히, 계산 효율성을 높이기 위해 bottleneck architecture가 제안되었습니다. 이는 1×11 \times 1 convolution을 사용하여 차원을 줄였다가 다시 늘리는 방식으로, 더 깊은 네트워크를 만들면서도 파라미터 수를 줄입니다.
  • 실험 결과:
    • ImageNet 데이터셋에서 152-layer ResNet은 이전의 8-layer VGG와 34-layer VGG보다 훨씬 깊지만 더 낮은 complexity를 가지면서, top-5 error rate 4.49%를 달성하여 역사상 첫 번째로 인간 수준의 인식 성능을 뛰어넘었습니다.
    • CIFAR-10과 같은 다른 데이터셋에서도 깊이가 증가할수록 성능이 향상되는 것을 보여주며, degradation problem이 효과적으로 해결됨을 입증했습니다.

결론적으로, ResNetsdeep neural networks 학습의 난제였던 degradation problemresidual learningidentity mapping이라는 간단하면서도 강력한 개념을 통해 해결했습니다. 이는 computer vision 분야에서 deep learning의 발전을 가속화하는 데 결정적인 역할을 했으며, 이후 다양한 deep learning architectures에 영감을 주었습니다.