목록으로
Paper2026.01.10

Deep Delta Learning

요약

Deep Delta Learning (DDL)은 기존 residual network의 identity shortcut이 가지는 엄격한 additive inductive bias의 한계를 극복하기 위해, learnable하고 data-dependent한 geometric transformation인 "Delta Operator"를 도입하여 일반화한 새로운 아키텍처입니다.
️ Delta Operator는 reflection direction vector k\kb와 gating scalar β\beta로 매개변수화된 rank-1 perturbation이며, 이 gate β\beta는 Identity, Orthogonal Projection, Reflection 세 가지 기본 선형 변환 사이를 동적으로 보간하여 네트워크가 복잡한 비단조 역학을 모델링할 수 있게 합니다.
이 프레임워크는 layer-wise transition operator의 spectrum을 명시적으로 제어할 수 있도록 synchronous rank-1 injection을 통해 기존 정보의 "erasure"와 새로운 feature의 "writing"을 동기적으로 통합하며, 이는 특정 feature subspace를 선택적으로 "clean"하거나 "rewrite"하여 정보 간섭을 방지합니다.

상세 내용

Deep Delta Learning (DDL)은 심층 잔차 네트워크(deep residual networks)의 핵심 요소인 identity shortcut connection의 한계를 극복하기 위해 제안된 새로운 아키텍처입니다. 기존 ResNet은 Xl+1=Xl+F(Xl)\Xb_{l+1} = \Xb_l + \Fb(\Xb_l)와 같은 additive update를 통해 미분방정식 X˙=F(X)\dot{\Xb} = \Fb(\Xb)를 근사하며, 이는 vanishing gradient 문제를 완화하지만, 특징 변환에 엄격한 additive inductive bias를 부여하여 복잡한 상태 전이를 모델링하는 능력을 제한합니다.

DDL은 learnable하고 데이터에 의존하는 기하학적 변환인 "Delta Operator"를 통해 이 identity shortcut을 일반화합니다. 이 Delta Operator는 identity matrix에 대한 rank-1 perturbation으로 정의되며, reflection direction vector k(X)\kb(\Xb)와 gating scalar β(X)\beta(\Xb)에 의해 매개변수화됩니다. 제안된 Delta-Res 블록의 업데이트 규칙은 다음과 같습니다:
Xl+1=(Iβlklkl)Delta Operator A(X)Xl+βlklvl\Xb_{l+1} = \underbrace{(\Ib - \beta_l \kb_l \kb_l^\top)}_{\text{Delta Operator } \Ab(\Xb)} \Xb_l + \beta_l \kb_l \vb_l^\top
여기서 XRd×dv\Xb \in \RR^{d \times d_v}는 hidden state matrix를 나타냅니다. kRd\kb \in \RR^d는 reflection direction vector이고, vRdv\vb \in \RR^{d_v}는 value vector이며, βR\beta \in \RR는 스칼라 게이트입니다. 이 공식은 이전 정보의 "erasure"( k\kb에 대한 투영을 통해)와 새로운 특징의 "writing"( v\vb의 주입을 통해)을 게이트 β\beta에 의해 동시에 조절하며 결합합니다. 이는 dynamic step size 역할을 하여 old information의 소거와 new features의 기록을 동기적으로 제어합니다.

DDL의 표현력은 Delta Operator A(X)\Ab(\Xb)의 스펙트럼 속성에서 비롯되며, 이는 게이트 β\beta에 의해 결정적으로 제어됩니다. A(X)\Ab(\Xb)의 고유값은 {1,,1,1β}\{1, \dots, 1, 1-\beta\}로 구성됩니다. 이를 통해 네트워크는 세 가지 근본적인 선형 변환 사이를 동적으로 보간할 수 있습니다:
* Identity ( β0\beta \to 0 ): 이 경우 AI\Ab \approx \Ib가 되어, 업데이트는 Xl+1Xl+βlklvl\Xb_{l+1} \approx \Xb_l + \beta_l \kb_l \vb_l^\top와 유사해집니다. 이는 신호 보존을 위한 skip connection 역할을 하며, 깊은 전파에 유리합니다. 스펙트럼은 {1}\{1\}에 수렴합니다.
* Projection ( β1\beta \to 1 ): A(Ikk)\Ab \to (\Ib - \kb \kb^\top)가 되어, k\kb에 평행한 성분들을 지우면서 k\kb^\perp 초평면으로의 orthogonal projection이 발생합니다. 이는 정보를 "망각"하는 효과를 가지며, det(A)0\det(\Ab) \to 0이 됩니다. 스펙트럼은 {0,1}\{0, 1\}에 수렴합니다.
* Reflection ( β2\beta \to 2 ): A(I2kk)\Ab \to (\Ib - 2\kb \kb^\top)가 되며, 이는 Householder Reflection을 나타냅니다. 상태를 k\kb를 따라 반전시켜 oscillatory 또는 oppositional dynamics를 모델링하기 위해 음의 고유값( 1-1 )을 도입합니다. det(A)1\det(\Ab) \to -1이 됩니다. 스펙트럼은 {1,1}\{-1, 1\}에 수렴합니다.

또한, DDL은 DeltaNet과 같은 효율적인 시퀀스 모델과의 이론적 연결을 확립합니다. DeltaNet이 시간 차원에 "Delta Rule"을 적용하는 반면, Deep Delta Learning은 깊이(depth) 차원에 적용합니다. DDL 업데이트를 확장하면 고전적인 Delta Rule 구조가 드러납니다:
Xl+1=Xl+βlkl(vlTargetklXlCurrent Projection)\Xb_{l+1} = \Xb_l + \beta_l \kb_l (\underbrace{\vb_l^\top}_{\text{Target}} - \underbrace{\kb_l^\top \Xb_l}_{\text{Current Projection}})
이 형식은 네트워크가 레이어별로 특정 feature subspace를 선택적으로 "청소"하거나 "다시 작성"할 수 있도록 하여, 표준 additive ResNet에서 흔히 발생하는 간섭의 축적을 방지합니다. 이를 통해 네트워크는 레이어별 전이 연산자의 스펙트럼을 명시적으로 제어하여 복잡하고 비단조적인 역학을 모델링할 수 있으며, 동시에 게이트형 잔차 아키텍처의 안정적인 훈련 특성을 유지합니다.

원본 보기
Web
Shared by Anonymous