Paper

STEM: Scaling Transformers with Embedding Modules

Attiano Purpura-Pontoniere

2026.01.22

·Arxiv·by 이호민

#Transformer#Sparsity#LLM#Embedding#Efficiency

핵심 포인트

1STEM은 Transformer 모델에서 FFN의 up-projection을 토큰별 layer-local embedding lookup으로 대체하여, 고정된(static) 희소성을 도입하고 CPU offload를 가능하게 함으로써 per-token compute 및 cross-device communication 부담을 줄이는 방법론입니다.
2이 접근 방식은 극심한 희소성에도 불구하고 안정적인 학습을 제공하며, MoE와 같은 동적 희소성 방식의 단점(training instability, load balancing, communication overhead)을 해결합니다.
3STEM은 dense baseline 대비 최대 3~4%의 정확도 향상과 함께 FLOPs 및 parameter access 감소를 제공하며, 토큰 기반의 특성으로 인해 향상된 지식 저장 능력, Interpretability 및 knowledge editing 기능을 보여줍니다.

W_u

Paper

Attiano Purpura-Pontoniere

2026.01.22

·Arxiv·by 이호민

#Transformer#Sparsity#LLM#Embedding#Efficiency

1STEM은 Transformer 모델에서 FFN의 up-projection을 토큰별 layer-local embedding lookup으로 대체하여, 고정된(static) 희소성을 도입하고 CPU offload를 가능하게 함으로써 per-token compute 및 cross-device communication 부담을 줄이는 방법론입니다.
2이 접근 방식은 극심한 희소성에도 불구하고 안정적인 학습을 제공하며, MoE와 같은 동적 희소성 방식의 단점(training instability, load balancing, communication overhead)을 해결합니다.
3STEM은 dense baseline 대비 최대 3~4%의 정확도 향상과 함께 FLOPs 및 parameter access 감소를 제공하며, 토큰 기반의 특성으로 인해 향상된 지식 저장 능력, Interpretability 및 knowledge editing 기능을 보여줍니다.

W_u