Kimi K2.5: Visual Agentic Intelligence | Technical Report
Paper

Kimi K2.5: Visual Agentic Intelligence | Technical Report

2026.01.29
·Web·by web-ghost
#LLM#Agent#Multimodal#AI#Open Source

핵심 포인트

  • 1Kimi K2.5는 약 15T의 visual 및 text 토큰으로 지속 pre-training되어 강화된 가장 강력한 open-source multimodal 모델입니다.
  • 2이 모델은 최대 100개의 sub-agent로 구성된 agent swarm을 자율적으로 생성하고 오케스트레이션하여 복잡한 작업을 병렬 처리함으로써 실행 시간을 최대 4.5배 단축합니다.
  • 3K2.5는 vision을 활용한 advanced coding (visual debugging 포함) 및 대규모 office productivity 작업에서 뛰어난 성능을 제공합니다.

Kimi K2.5는 Kimi K2를 기반으로 약 15조(15T) 개의 혼합 시각 및 텍스트 토큰으로 지속적인 pretraining을 통해 개발된 가장 강력한 open-source 모델입니다. 이 모델은 native multimodal로 설계되어 state-of-the-art 수준의 코딩 및 vision 기능을 제공하며, self-directed agent swarm 패러다임을 특징으로 합니다. 복잡한 작업을 위해 Kimi K2.5는 최대 100개의 sub-agent로 구성된 agent swarm을 self-direct할 수 있으며, 최대 1,500개의 tool call을 통해 병렬 워크플로우를 실행합니다. 이는 단일 agent 설정 대비 실행 시간을 최대 4.5배 단축시킵니다. Agent swarm은 Kimi K2.5에 의해 사전 정의된 sub-agent나 워크플로우 없이 자동으로 생성 및 조정됩니다. Kimi K2.5는 Kimi.com, Kimi App, API 및 Kimi Code를 통해 이용 가능하며, Kimi.com 및 Kimi App은 K2.5 Instant, K2.5 Thinking, K2.5 Agent 및 K2.5 Agent Swarm (Beta)의 4가지 모드를 지원합니다.

1. Coding with Vision
Kimi K2.5는 코딩, 특히 front-end 개발에서 가장 강력한 open-source 모델입니다. 간단한 대화를 완전한 front-end 인터페이스로 변환할 수 있으며, 스크롤 트리거 효과와 같은 interactive layout 및 rich animation을 구현합니다. K2.5는 vision을 활용한 코딩에서 탁월한 성능을 보이며, image 및 video를 추론하여 image/video-to-code 생성 및 visual debugging을 개선합니다. 이는 사용자가 시각적으로 의도를 표현하는 장벽을 낮춥니다. 이러한 역량은 massive-scale vision-text joint pre-training에서 비롯되며, vision과 text 역량이 상호 보완적으로 향상됩니다. Kimi K2.5는 Kimi Code Bench라는 내부 코딩 벤치마크(building, debugging, refactoring, testing, scripting 등 다양한 end-to-end 작업 포함)에서 K2 대비 일관되고 의미 있는 개선을 보여줍니다. Kimi Code는 터미널 및 VSCode, Cursor, Zed와 같은 다양한 IDE와 통합 가능한 새로운 코딩 제품으로, open-source이며 image 및 video 입력을 지원합니다. 또한, 기존 skill 및 MCP(Multi-Component Protocols)를 작업 환경으로 자동으로 발견하고 migrate합니다. K2.5는 autonomous visual debugging을 통해 자체 출력을 시각적으로 검사하고 자율적으로 반복하여 개선합니다.

2. Agent Swarm
K2.5 Agent Swarm은 단일 agent 스케일링에서 self-directed, coordinated swarm-like execution으로의 전환을 의미하는 연구 preview로 공개되었습니다. 이는 Parallel-Agent Reinforcement Learning (PARL)을 통해 훈련되었으며, 사전 정의된 역할이나 수동으로 제작된 워크플로우 없이 최대 100개의 sub-agent로 구성된 agent swarm을 self-direct하고 최대 1,500개의 coordinated step을 실행합니다. PARL은 trainable orchestrator agent를 사용하여 작업을 parallelizable subtask로 분해하며, 각 subtask는 dynamically instantiated되고 frozen된 subagent에 의해 실행됩니다. 이러한 subtask의 동시 실행은 sequential agent execution 대비 end-to-end latency를 크게 줄입니다.

reliable한 parallel orchestrator 훈련은 독립적으로 실행되는 subagent로부터의 지연되고 sparse하며 non-stationary한 feedback으로 인해 도전적입니다. 일반적인 실패 모드는 serial collapse로, orchestrator가 병렬 처리 능력이 있음에도 단일 agent 실행으로 default 설정되는 경우입니다. 이를 해결하기 위해 PARL은 staged reward shaping을 사용합니다. 이는 훈련 초기에 병렬 처리를 장려하고 점진적으로 task success로 초점을 전환합니다. Reward는 다음과 같이 정의됩니다:
Rt=λaux(e)rparallel+(1λaux(e))(I[success]Q(τ))R_t = \lambda_{aux}(e) \cdot r_{parallel} + (1 - \lambda_{aux}(e)) \cdot (I[\text{success}] \cdot Q(\tau))
여기서 λaux(e)\lambda_{aux}(e)는 훈련이 진행됨에 따라 0.1에서 0.0으로 annealing됩니다. 훈련 초기에 auxiliary reward rparallelr_{parallel}는 subagent instantiation 및 concurrent execution을 incentive하여 병렬 스케줄링 공간의 탐색을 촉진합니다. 훈련이 진행됨에 따라 최적화는 end-to-end task quality Q(τ)Q(\tau)로 전환되어, 이름만 병렬인 degenerate solution을 방지합니다.

병렬 전략을 더욱 강제하기 위해, sequential execution을 비실용적으로 만드는 computational bottleneck이 도입되었습니다. 총 단계를 세는 대신, 병렬 계산의 critical path에서 영감을 받은 latency-oriented metric인 Critical Steps를 사용하여 성능을 평가합니다:
CriticalSteps=t=1T(Smain(t)+maxiSsub,i(t))\text{CriticalSteps} = \sum_{t=1}^{T} (S_{main}(t) + \max_i S_{sub,i}(t))
여기서 Smain(t)S_{main}(t)는 orchestration overhead를 나타내고, maxiSsub,i(t)\max_i S_{sub,i}(t)는 각 단계에서 가장 느린 subagent를 반영합니다. 이 metric 하에서는 subtask를 더 많이 spawning하는 것이 critical path를 단축시키는 경우에만 도움이 됩니다. Agent swarm은 orchestrator를 가지며, 이는 AI Researcher, Physics Researcher, Fact Checker와 같은 specialized subagent를 동적으로 생성하고 복잡한 작업을 효율적인 분산 실행을 위해 parallelizable subtask로 분해합니다. K2.5 Agent Swarm은 내부 평가에서 병렬, specialized execution을 통해 복잡한 작업의 성능을 향상시키며, end-to-end runtime을 80% 감소시키고 더 복잡하고 long-horizon 워크로드를 가능하게 합니다. 이는 wide search 시나리오에서 단일 agent execution 대비 3배~4.5배의 최소 critical steps 감소로 이어지며, 병렬화를 통해 최대 4.5배의 wall-clock time 감소를 달성합니다.

3. Office Productivity
Kimi K2.5는 agentic intelligence를 실제 지식 업무(knowledge work)에 도입합니다. K2.5 Agent는 고밀도, 대규모 사무 작업을 end-to-end로 처리할 수 있습니다. 대량의 고밀도 입력을 추론하고, multi-step tool use를 조정하며, 문서, 스프레드시트, PDF 및 슬라이드 덱과 같은 expert-level output을 대화를 통해 직접 제공합니다. 실제 전문 업무에 중점을 두고 두 가지 내부 expert productivity 벤치마크(AI Office Benchmark, General Agent Benchmark)를 설계했습니다. K2.5는 두 벤치마크 모두에서 K2 Thinking 대비 각각 59.3% 및 24.3%의 개선을 보여, 실제 작업에서 더 강력한 end-to-end 성능을 반영합니다. K2.5 agent는 Word에 annotation 추가, Pivot Table로 financial model 구축, PDF에 LaTeX 방정식 작성과 같은 고급 작업을 지원하며, 10,000단어 분량의 논문이나 100페이지 분량의 문서와 같은 long-form output으로 확장 가능합니다.

결론
Vision을 활용한 코딩, agent swarms 및 office productivity 분야의 발전을 기반으로 하는 Kimi K2.5는 open-source 커뮤니티를 위한 AGI(인공 일반 지능)를 향한 의미 있는 진전을 나타내며, 실제 제약 조건 하에서 실제 작업에 대한 강력한 역량을 보여줍니다.