목록으로
Context Rot: How Increasing Input Tokens Impacts LLM Performance
Paper2025.07.27

Context Rot: How Increasing Input Tokens Impacts LLM Performance

요약

Large Language Models(LLM)는 일반적으로 컨텍스트를 균일하게 처리한다고 가정되지만, 실제로는 입력 길이 변화에 따라 성능이 크게 달라집니다.
본 보고서는 모델이 컨텍스트를 균일하게 사용하지 않으며, 입력 길이가 증가할수록 성능이 점점 더 불안정해진다는 점을 밝힙니다.
연구는 최신 GPT-4.1, Claude 4, Gemini 2.5, Qwen3 모델을 포함한 18개 LLM을 평가하여 이러한 경향을 확인했습니다.

상세 내용

"Context Rot: How Increasing Input Tokens Impacts LLM Performance"라는 제목의 본 보고서는 Large Language Models (LLMs)에서 입력 토큰(input tokens)의 증가가 모델 성능에 미치는 영향을 심층적으로 탐구합니다. 일반적으로 LLM은 콘텍스트(context)를 균일하게 처리한다고 가정됩니다. 즉, 모델이 10,000번째 토큰을 100번째 토큰만큼 안정적으로 처리해야 한다는 가정이 존재합니다.

그러나 본 연구는 이러한 가정이 실제로는 성립하지 않음을 관찰했습니다. 핵심 방법론은 입력 길이(input length) 변화에 따른 LLM의 성능 변동을 체계적으로 평가하는 것입니다. 단순한 태스크(task)에서도 입력 길이가 달라짐에 따라 모델의 성능이 유의미하게 변화하는 양상이 확인되었습니다. 이러한 평가를 위해 최신 기술 모델인 GPT-4.1, Claude 4, Gemini 2.5, Qwen3 모델을 포함하여 총 18개의 LLM이 분석되었습니다.

연구 결과는 모델들이 콘텍스트를 균일하게 사용하지 않으며, 입력 길이가 증가할수록 성능이 점차적으로 더 불안정해진다는 점을 명확히 보여줍니다. 구체적인 예시로 Claude Sonnet 4, GPT-4.1, Qwen3-32B, 그리고 Gemini 2.5 Flash 모델을 대상으로 수행된 "Repeated Words Task"에서 이러한 성능 저하 경향이 나타났습니다.

원본 보기
Web
Shared by Anonymous