Paper

GitHub - EverMind-AI/MSA

EverMind-AI

2026.03.19

·GitHub·by 네루

#Attention#LLM#Memory#RAG#Scalability

핵심 포인트

1MSA는 기존 LLM의 긴 컨텍스트 제약과 RAG/선형 Attention 방식의 한계를 극복하기 위해, end-to-end 학습 가능한 sparse latent-state memory framework를 제안합니다.
2이 프레임워크는 near-linear complexity를 위한 scalable sparse attention과 document-wise RoPE, 100M 토큰 처리량을 위한 KV cache compression 및 Memory Parallel, 그리고 multi-hop 추론을 위한 Memory Interleave 기술을 핵심으로 합니다.
3MSA는 16K에서 100M 토큰 범위에서 9% 미만의 성능 저하를 보이며 long-context QA와 NIAH 벤치마크에서 기존 RAG 및 최신 long-context 모델들을 능가하는 우수한 성능과 안정성을 입증했습니다.

K

Paper

EverMind-AI

2026.03.19

·GitHub·by 네루

#Attention#LLM#Memory#RAG#Scalability

1MSA는 기존 LLM의 긴 컨텍스트 제약과 RAG/선형 Attention 방식의 한계를 극복하기 위해, end-to-end 학습 가능한 sparse latent-state memory framework를 제안합니다.
2이 프레임워크는 near-linear complexity를 위한 scalable sparse attention과 document-wise RoPE, 100M 토큰 처리량을 위한 KV cache compression 및 Memory Parallel, 그리고 multi-hop 추론을 위한 Memory Interleave 기술을 핵심으로 합니다.
3MSA는 16K에서 100M 토큰 범위에서 9% 미만의 성능 저하를 보이며 long-context QA와 NIAH 벤치마크에서 기존 RAG 및 최신 long-context 모델들을 능가하는 우수한 성능과 안정성을 입증했습니다.

K