Deep Delta Learning
요약
상세 내용
DDL은 learnable하고 데이터에 의존하는 기하학적 변환인 "Delta Operator"를 통해 이 identity shortcut을 일반화합니다. 이 Delta Operator는 identity matrix에 대한 rank-1 perturbation으로 정의되며, reflection direction vector 와 gating scalar 에 의해 매개변수화됩니다. 제안된 Delta-Res 블록의 업데이트 규칙은 다음과 같습니다:
여기서 는 hidden state matrix를 나타냅니다. 는 reflection direction vector이고, 는 value vector이며, 는 스칼라 게이트입니다. 이 공식은 이전 정보의 "erasure"( 에 대한 투영을 통해)와 새로운 특징의 "writing"( 의 주입을 통해)을 게이트 에 의해 동시에 조절하며 결합합니다. 이는 dynamic step size 역할을 하여 old information의 소거와 new features의 기록을 동기적으로 제어합니다.
DDL의 표현력은 Delta Operator 의 스펙트럼 속성에서 비롯되며, 이는 게이트 에 의해 결정적으로 제어됩니다. 의 고유값은 로 구성됩니다. 이를 통해 네트워크는 세 가지 근본적인 선형 변환 사이를 동적으로 보간할 수 있습니다:
* Identity ( ): 이 경우 가 되어, 업데이트는 와 유사해집니다. 이는 신호 보존을 위한 skip connection 역할을 하며, 깊은 전파에 유리합니다. 스펙트럼은 에 수렴합니다.
* Projection ( ): 가 되어, 에 평행한 성분들을 지우면서 초평면으로의 orthogonal projection이 발생합니다. 이는 정보를 "망각"하는 효과를 가지며, 이 됩니다. 스펙트럼은 에 수렴합니다.
* Reflection ( ): 가 되며, 이는 Householder Reflection을 나타냅니다. 상태를 를 따라 반전시켜 oscillatory 또는 oppositional dynamics를 모델링하기 위해 음의 고유값( )을 도입합니다. 이 됩니다. 스펙트럼은 에 수렴합니다.
또한, DDL은 DeltaNet과 같은 효율적인 시퀀스 모델과의 이론적 연결을 확립합니다. DeltaNet이 시간 차원에 "Delta Rule"을 적용하는 반면, Deep Delta Learning은 깊이(depth) 차원에 적용합니다. DDL 업데이트를 확장하면 고전적인 Delta Rule 구조가 드러납니다:
이 형식은 네트워크가 레이어별로 특정 feature subspace를 선택적으로 "청소"하거나 "다시 작성"할 수 있도록 하여, 표준 additive ResNet에서 흔히 발생하는 간섭의 축적을 방지합니다. 이를 통해 네트워크는 레이어별 전이 연산자의 스펙트럼을 명시적으로 제어하여 복잡하고 비단조적인 역학을 모델링할 수 있으며, 동시에 게이트형 잔차 아키텍처의 안정적인 훈련 특성을 유지합니다.