GitHub - hyunwoongko/solar-vs-glm-vs-phi: Solar vs GLM vs Phi
요약
상세 내용
hyunwoongko/solar-vs-glm-vs-phi GitHub 저장소에 게재된 내용으로, 기존 sionic-ai/solar-vs-glm 저장소에서 제기된 "Solar-Open-100B가 GLM-4.5-Air에서 파생되었다"는 주장을 반박하기 위해 작성되었습니다. 원본 레포는 Layernorm 파라미터의 cosine 유사도를 근거로 파생 관계를 주장했으나, 이 논문은 Layernorm 파라미터의 특성과 다양한 유사성 지표를 통해 해당 주장의 설득력이 부족함을 보입니다.주요 논지 및 방법론:
* "낮은 유사도" 주장의 원인 분석: 원본 레포의 주장은 특정 비교 설정, 즉 0번 레이어의
input_layernorm을 다른 레이어와 비교한 결과로 해석됩니다. 0번 레이어의 input_layernorm은 입력 임베딩 직후의 분포를 직접적으로 받아 다른 레이어의 정규화된 hidden state를 처리하는 Layernorm 파라미터와 역할이 달라 낮은 유사도를 보일 수 있다고 추정합니다. 실제로 0번 레이어의 post_attention_layernorm은 다른 레이어의 post_attention_layernorm과 0.92 이상의 높은 cosine 유사도를 보입니다.* 높은 유사도 현상의 원인 추정 및 실험적 검증:
* 원인 추정: Layernorm (또는 RMSNorm)의 weight 파라미터는 대부분 1.0으로 초기화되고, 학습이 진행되어도 낮은 분산을 가지며 대부분 양수로 유지되는 경향이 있습니다. 즉, 초기부터 벡터의 방향이 결정된 상태로 학습이 시작되며, 훈련 중에도 방향이 크게 변하지 않기 때문에 스케일 차이와 무관하게 원점으로부터의 벡터 방향만 보는 cosine 유사도가 높게 나올 가능성이 존재합니다.
* 미니 실험 (): Layernorm 파라미터를 1.0으로 초기화한 경우와 랜덤으로 초기화한 경우를 비교하는 GPT2 모델 훈련 실험을 통해 이를 검증했습니다.
* 1.0 초기화 (Ones init): 서로 다른 모델의 동일 레이어 Layernorm 파라미터 간 cosine 유사도가 약 0.999 수준으로 매우 높게 나타났습니다. 이는 Layernorm weight가 초기부터 거의 같은 값(1.0)으로 정렬되어 학습 후에도 방향이 유지되기 때문입니다.
* 랜덤 초기화 (Rand init): 서로 다른 모델의 동일 레이어 Layernorm 파라미터 간 cosine 유사도가 0에 가까운 값을 보였습니다. 이는 초기부터 서로 다른 방향을 가지며, Layernorm weight가 태스크 표현을 위해 크게 재배열되는 파라미터가 아니기 때문에 초기 방향성이 보존되기 때문입니다.
* 결론: Layernorm weight의 cosine 유사도는 모델이 같은 데이터로 학습되었는지, 또는 서로 파생되었는지에 대한 신뢰할 만한 증거가 아니라, Layernorm weight가 특정 공통 prior (예: 1.0 초기화) 아래에서 시작했음을 반영하는 지표일 가능성이 크다고 결론 내립니다.
* Centered Cosine 유사도:
* 정의: 각 벡터에서 평균을 뺀 뒤 cosine 유사도를 계산합니다.
* 결과: 일반 cosine 유사도와 달리, 서로 다른 모델 간 동일 레이어 Layernorm 파라미터의 centered cosine 유사도는 대부분 0에 가까운 값으로 떨어졌습니다. 이는 일반 cosine 유사도가 높게 나온 이유가 Layernorm 파라미터가 공통적으로 1 근처의 좁은 분포를 갖는 성질 때문이었음을 시사합니다.
* 동일 모델 내 유사도: 동일 모델 내 서로 다른 레이어의 centered cosine 유사도는 0.7-0.9 수준으로 여전히 높게 나타나, 평균 제거 후에도 패턴 유사성이 어느 정도 유지됨을 보였습니다.
* Pearson 상관계수: centered cosine과 유사하게 "평균을 제거한 뒤의 패턴 유사성"을 측정하며, 결과 또한 centered cosine과 매우 유사한 양상을 보였습니다.
* mean_abs_diff (절대 평균 차이): 두 벡터의 원소별 차이의 절대값을 평균낸 값입니다.
* 결과: Layernorm 파라미터에서 Solar vs GLM보다 Phi vs GLM의 mean_abs_diff가 더 작게 측정되어, Solar가 GLM에서 파생되었다면 더 작게 나와야 할 값이 그렇지 않음을 보여줍니다.
* p99_abs_diff (|w| 분포의 99퍼센타일 차이): 각 벡터의 절대값 분포에서 99퍼센타일 값의 차이를 비교합니다. 극단값/꼬리(tail)에 민감합니다.
* 결과: 많은 경우 Solar vs GLM보다 Phi vs GLM의 p99_abs_diff가 더 작게 측정되어, tail 스케일 차이 관점에서도 Solar가 Phi에 비해 GLM에 특별히 더 가깝다고 보기 어렵다는 점을 시사합니다.
* rel_l2 (상대 거리): 두 벡터의 L2 차이를 기준 벡터의 L2 노름으로 정규화한 값입니다.
* 결과: Layernorm 파라미터에서 Solar vs GLM의 rel_l2가 Phi vs GLM보다 더 크게 측정되는 경우가 많았습니다. 특히 k_proj, v_proj와 같은 큰 행렬 파라미터에서도 모델 간 상당히 먼 거리를 보였으며, 이는 이 파라미터들이 절대 차이 관점에서는 모두 비슷하게 작게 나왔던 것과 대조적입니다.
* cv_diff (변동계수 차이): 두 벡터의 변동계수(Coefficient of Variation, )의 차이를 비교합니다.
* 결과: 세 모델 쌍의 Layernorm cv_diff가 거의 0으로 측정되어, Layernorm weight가 평균 대비 표준편차 비율(CV) 측면에서 매우 유사하다는 것을 보여줍니다.
결론:
이 논문은 Solar-Open-100B, GLM-4.5-Air, Phi-3.5-MoE-instruct 모델의 파라미터를 여러 지표로 비교 분석한 결과, 원본 레포가 제시한 Layernorm cosine 유사도 기반 주장만으로는 모델 파생 관계를 결론내리기 어렵다는 점을 명확히 보여줍니다. 높은 Layernorm cosine 유사도는 Layernorm/RMSNorm weight의 특성(1.0 초기화, 낮은 분산, 양수 편향 등)에서 비롯된 false positive일 가능성이 크며, centered cosine, Pearson 상관계수, 절대/상대 거리 지표 등 다른 지표들에서는 Solar가 GLM에서 파생되었다고 볼 만한 일관된 근거를 찾을 수 없었습니다. 특히 k_proj, v_proj와 같이 쉐입이 동일한 큰 행렬 파라미터에서도 파생 관계를 뒷받침할 만한 뚜렷한 패턴은 관찰되지 않았습니다.