Introducing Composer 1.5
Blog

Introducing Composer 1.5

Cursor Team
2026.02.10
·Web·by 네루
#Agent#Coding Model#LLM#Reinforcement Learning

핵심 포인트

  • 1Composer 1.5는 기존 Composer 1보다 향상된 agentic coding model로, 동일한 pretrained model에 대해 RL을 20배 더 스케일링하여 개발되었습니다.
  • 2이 모델은 'thinking tokens'를 활용하여 추론 및 계획을 세우며, 쉬운 문제에는 빠르게, 어려운 문제에는 충분히 생각하여 응답 속도와 지능의 균형을 이룹니다.
  • 3또한, Composer 1.5는 'self-summarization' 기능을 통해 context 부족 시에도 해결책을 탐색할 수 있으며, RL을 통한 코딩 능력의 지속적인 확장이 가능함을 입증합니다.

본 논문은 최초의 agentic 코딩 모델인 Composer 1의 후속 모델인 Composer 1.5에 대해 설명합니다. Composer 1.5는 속도와 인텔리전스 사이의 강력한 균형을 제공하여 일상적인 사용에 적합하게 설계되었습니다.

이 모델의 핵심 방법론은 동일한 사전 학습(pretrained) 모델에서 reinforcement learning(RL)을 20배 더 확장하여 구축되었다는 점입니다. Composer 1.5의 후속 학습(post-training)에 사용된 컴퓨팅 자원은 베이스 모델을 사전 학습시키는 데 사용된 양을 능가합니다. 연구 결과, RL 스케일링을 통해 코딩 능력에서 지속적인 개선이 관찰되었습니다.

Composer 1.5의 성능은 실제 코딩 문제로 구성된 내부 벤치마크에서 측정되었으며, Composer 1을 빠르게 능가하며 성능이 지속적으로 향상되는 것으로 나타났습니다. 이러한 개선은 특히 도전적인(challenging) 작업에서 가장 두드러졌습니다.

Composer 1.5는 "사고 모델(thinking model)"로서 동작합니다. 사용자 쿼리에 응답하는 과정에서, 모델은 사용자 코드베이스를 추론하고 다음 단계를 계획하기 위해 "사고 토큰(thinking tokens)"을 생성합니다. 이러한 사고 단계는 모델의 인텔리전스에 매우 중요하다고 설명됩니다. 동시에 모델은 속도와 상호작용성을 유지하도록 훈련되었습니다. 이를 위해 쉬운 문제에 대해서는 최소한의 사고로 빠르게 응답하는 반면, 어려운 문제에 대해서는 만족스러운 답변을 찾을 때까지 충분히 사고하도록 설계된 적응형 사고(adaptive thinking) 기능을 갖추고 있습니다.

장기 실행(longer running) 작업을 처리하기 위해 Composer 1.5는 "자체 요약(self-summarize)" 기능을 가지고 있습니다. 이 기능은 모델이 사용 가능한 컨텍스트(available context)가 소진되었을 때에도 솔루션 탐색을 계속할 수 있도록 합니다. 자체 요약 기능은 훈련 과정에서 RL의 일부로, 컨텍스트가 소진될 때 유용한 요약을 생성하도록 요청하여 학습되었습니다. 이 과정은 어려운 예시에서 재귀적으로(recursively) 여러 번 트리거될 수 있습니다. 자체 요약 기능을 통해 모델은 컨텍스트 길이(context length)가 달라져도 원래의 정확도(accuracy)를 유지할 수 있습니다.

결론적으로, Composer 1.5는 Composer 1보다 훨씬 강력한 모델이며 상호작용적인 사용에 권장됩니다. Composer 1.5의 훈련은 코딩을 위한 RL이 예측 가능한 지능 향상과 함께 지속적으로 확장될 수 있음을 입증합니다.