Latent Collaboration in Multi-Agent Systems
Paper

Latent Collaboration in Multi-Agent Systems

James Zou
2026.02.07
·Arxiv·by 이호민
#Collaboration#Efficiency#Latent Space#LLM#Multi-Agent Systems

핵심 포인트

  • 1LatentMAS는 Multi-Agent Systems(MAS)에서 Large Language Model(LLM) 에이전트들이 텍스트 기반 소통 대신 연속적인 latent space에서 직접 협업하도록 돕는 training-free 프레임워크입니다.
  • 2이 프레임워크는 각 에이전트가 last-layer hidden embeddings를 통해 auto-regressive latent thoughts를 생성하고, shared latent working memory(KV cache)를 통해 정보를 손실 없이 교환합니다.
  • 3광범위한 벤치마크에서 LatentMAS는 기존 text-based MAS 대비 최대 14.6% 높은 정확도, 70.8%-83.7% 적은 토큰 사용, 그리고 4배 이상 빠른 추론 속도를 달성하며 뛰어난 성능과 효율성을 입증했습니다.

이 논문은 대규모 언어 모델 (LLM) 기반의 다중 에이전트 시스템 (MAS)에서 텍스트 기반의 추론 및 통신에 의존하는 기존 방식의 한계를 극복하기 위해, 연속적인 Latent space 내에서 직접 협업을 가능하게 하는 새로운 프레임워크인 LatentMAS를 제안합니다. LatentMAS는 어떠한 추가적인 훈련 없이 종단간 (end-to-end)으로 작동하며, 에이전트 간의 순수한 Latent collaboration을 가능하게 합니다.

1. LatentMAS의 핵심 원리 및 방법론

LatentMAS는 LLM 에이전트들이 오직 그들의 내부 Latent representation을 통해 사고하고 상호작용하도록 설계되었습니다. 이는 다음의 두 가지 주요 구성 요소로 이루어집니다.

1.1. 에이전트 내에서의 자동회귀적 (Auto-regressive) Latent Thoughts 생성:

일반적인 Transformer 모델은 토큰을 생성하기 위해 마지막 레이어의 hidden state hth_t를 Vocabulary space로 매핑한 후 softmax를 적용하여 다음 토큰을 예측합니다 (fθ(xt+1xt)=softmax(htWout)f_\theta(x_{t+1} | x_{\le t}) = \text{softmax}(h_t W_{\text{out}})). LatentMAS에서는 명시적인 토큰 디코딩 대신, 모델의 내부 추론을 Latent space에서 직접 수행합니다.

  • Latent Thoughts 생성 과정: 입력 시퀀스 x=(x1,,xT)x = (x_1, \dots, x_T)에 해당하는 임베딩 E=[e1,,et]E = [e_1, \dots, e_t]가 주어졌을 때, 각 LLM 에이전트 AiA_iLL개의 Transformer 레이어를 통해 마지막 레이어의 hidden representation hth_t를 계산합니다. 이 hth_t는 다음 step t+1t+1의 입력 임베딩으로 직접 사용됩니다. 이 과정을 mm Latent step 동안 자동회귀적으로 반복하여, 새로 생성된 마지막 레이어 hidden state들의 시퀀스 H=[ht+1,ht+2,,ht+m]H = [h_{t+1}, h_{t+2}, \dots, h_{t+m}]를 얻습니다. 이 연속적인 출력 표현 HH를 에이전트 AiA_i가 생성한 "Latent thoughts"라고 정의합니다.
  • 입력-출력 분포 정렬 (Input-Output Distribution Alignment): 새로 생성된 Latent thoughts는 고차원의 dense representation이므로, 이를 직접 입력 임베딩으로 사용하면 out-of-distribution 활성화를 유발할 수 있습니다. 이를 완화하기 위해, 훈련이 필요 없는 선형 정렬 (linear alignment) 오퍼레이터가 도입됩니다. 각 출력 벡터 hHh \in H를 유효한 입력 임베딩 공간과 정렬시키기 위해 투영 행렬 WaRdh×dhW_a \in \mathbb{R}^{d_h \times d_h}를 사용하여 e=hWae = h W_a를 계산합니다. 여기서 WaWout1WinW_a \approx W_{\text{out}}^{-1} W_{\text{in}}이며, WoutW_{\text{out}}는 출력 임베딩 레이어, WinW_{\text{in}}는 입력 임베딩 레이어입니다. 실제로는 WaW_a는 다음의 Ridge regression을 풀어 한 번 계산하여 재사용됩니다:
minWa{WoutWaWinF2+λWaF2}\min_{W_a} \{\|W_{\text{out}}W_a - W_{\text{in}}\|_F^2 + \lambda \|W_a\|_F^2\}
이 정렬된 벡터 ee는 다음 Latent 생성 step을 위한 입력 시퀀스에 추가됩니다.

  • Latent Thoughts의 표현력 (Expressiveness): Latent thoughts 생성은 기존 텍스트 기반 추론보다 훨씬 효율적이고 풍부한 정보를 담을 수 있음을 이론적으로 증명합니다 (Theorem 3.1). 길이가 mm인 Latent thoughts 시퀀스가 텍스트 기반 추론을 통해 손실 없이 표현될 수 있다면, 텍스트 (토큰)의 길이는 최소 Ω(dhm/logV)\Omega(d_h m / \log |V|)여야 합니다. 여기서 dhd_h는 hidden dimension, V|V|는 vocabulary size입니다. 이는 Latent thoughts 생성이 텍스트 기반 추론보다 O(dh/logV)O(d_h / \log |V|)배 더 효율적이며, 표현력이 dhd_h에 비례하여 확장됨을 의미합니다.

1.2. 에이전트 간의 Working Memory 보존 및 Latent Thoughts 전송:

텍스트 기반 MAS에서는 한 에이전트의 자연어 출력이 다음 에이전트의 입력 시퀀스에 직접 추가됩니다. LatentMAS에서는 명시적인 텍스트 출력 없이 hidden state 생성을 수행하므로, 손실 없는 정보 보존 및 교환을 위한 새로운 Latent working memory 전송 메커니즘을 설계합니다.

  • Working Memory 추출 및 전송: 에이전트 A1A_1mm Latent step의 생성을 완료하면, A1A_1의 모든 LL개 Transformer 레이어로부터 KV-caches를 추출합니다. 이를 A1A_1의 Latent working memory MA1M^{A_1}로 정의합니다:
MA1={(KA1,cache(l),VA1,cache(l))l=1,2,,L}M^{A_1} = \left\{\left(K^{(l)}_{A_1,\text{cache}}, V^{(l)}_{A_1,\text{cache}}\right) \mid l = 1, 2, \dots, L\right\}
여기서 KA1,cache(l)=[KA1,1(l),,KA1,t+m(l)]K^{(l)}_{A_1,\text{cache}} = [K^{(l)}_{A_1,1}, \dots, K^{(l)}_{A_1,t+m}] 이고 VA1,cache(l)=[VA1,1(l),,VA1,t+m(l)]V^{(l)}_{A_1,\text{cache}} = [V^{(l)}_{A_1,1}, \dots, V^{(l)}_{A_1,t+m}] 입니다. 이 KV-cache는 초기 입력 컨텍스트와 A1A_1이 새로 생성한 Latent thoughts를 모두 캡슐화합니다.

  • 정보 보존 (Information Preservation): 다음 에이전트 A2A_2A1A_1로부터 전송된 working memory MA1M^{A_1}를 통합합니다. A2A_2가 Latent thoughts를 생성하기 전에, MA1M^{A_1}의 각 레이어별 KV-cache (KA1,cache(l),VA1,cache(l)K^{(l)}_{A_1,\text{cache}}, V^{(l)}_{A_1,\text{cache}})를 A2A_2의 기존 KV-cache (KA2,cache(l),VA2,cache(l)K^{(l)}_{A_2,\text{cache}}, V^{(l)}_{A_2,\text{cache}})에 각각 접두어로 추가하여 업데이트합니다. 이로써 A2A_2의 새로운 Latent thoughts 생성은 A1A_1의 working memory와 A2A_2 자체의 내부 표현 모두에 기반하게 됩니다. 이 Latent working memory 전송 메커니즘은 이전 에이전트의 완전한 출력을 재인코딩 없이 다음 에이전트가 완벽하게 받을 수 있도록 보장하며, 이는 텍스트 기반 MAS에서의 명시적인 입력 교환과 동등한 정보 충실도를 보장합니다 (Theorem 3.3).

1.3. 종단간 파이프라인 및 복잡도 분석:

LatentMAS의 나머지 에이전트들도 동일한 Latent thoughts 생성 및 working memory 전송 메커니즘을 따릅니다. 즉, A3A_3A2A_2로부터 MA2M^{A_2}를 상속받고, Latent state 생성을 수행한 후, 업데이트된 MA3M^{A_3}를 다음 에이전트에 전송합니다. 이 과정은 LatentMAS 내의 모든 에이전트에 걸쳐 계속되며, 최종 에이전트만이 최종 답변을 텍스트로 디코딩합니다.

  • LatentMAS의 시간 복잡도 (Theorem 3.4): LatentMAS의 각 에이전트에 대한 시간 복잡도는 O((dh2+dhm2+dhtm)L)O((d_h^2 + d_h m^2 + d_h t m)L)입니다. 여기서 tt는 해당 에이전트의 입력 길이, mm은 Latent thoughts의 길이, LL은 Transformer 레이어의 수입니다. 대조적으로, 동일한 표현력을 달성하기 위한 일반적인 텍스트 기반 MAS의 각 에이전트 시간 복잡도는 O((dh3/logV+dh3Vm1/log2V)L+dh2tm1/logV+dh2m12)O((d_h^3 / \log |V| + d_h^3 |V| m_1 / \log^2 |V|)L + d_h^2 t m_1 / \log |V| + d_h^2 m_1^2) 입니다. LatentMAS는 훨씬 낮은 계산 복잡도를 가지면서 더 높은 협업 표현력을 제공합니다.

2. 실험 결과 및 성능:

LatentMAS는 수학 및 과학 추론 (GSM8K, AIME24, AIME25, GPQA-Diamond, MedQA), 상식 이해 (ARC-E, ARC-C), 코드 생성 (MBPP+, HumanEval+)을 포함한 9개의 벤치마크에 걸쳐 종합적으로 평가되었습니다. Qwen3 모델 (4B, 8B, 14B)을 백본으로 사용하여 Single LLM, Sequential TextMAS, Hierarchical TextMAS와 비교했습니다.

  • 정확도 향상: LatentMAS는 모든 벤치마크에서 강력한 단일 모델 및 텍스트 기반 MAS 기준선보다 지속적으로 우수한 성능을 보였으며, 최대 14.6%까지 정확도를 향상시켰습니다 (평균 13.3% 향상). 이는 Latent collaboration이 시스템 수준의 추론 품질을 향상시킨다는 것을 보여줍니다.
  • 토큰 사용량 감소: LatentMAS는 출력 토큰 사용량을 70.8%에서 83.7%까지 대폭 줄였습니다. 이는 텍스트 기반 통신에서 발생하는 불필요한 토큰 오버헤드를 제거함으로써 달성됩니다.
  • 추론 속도 향상: LatentMAS는 종단간 추론 속도를 4배에서 4.3배까지 빠르게 향상시켰습니다. 이는 Latent space에서의 효율적인 정보 교환과 토큰 디코딩 과정의 생략 덕분입니다.

이러한 결과는 LatentMAS가 추가적인 훈련 없이도 향상된 시스템 수준의 추론 품질과 함께 상당한 효율성 향상을 제공함을 입증합니다.