Gemini 3.1 Flash-Lite: Built for intelligence at scale
News

Gemini 3.1 Flash-Lite: Built for intelligence at scale

The Gemini Team
2026.03.03
·Web·by 이호민
#AI#Gemini#Google AI#LLM#Vertex AI

핵심 포인트

  • 1Google은 고용량 워크로드를 위한 Gemini 3 시리즈의 가장 빠르고 비용 효율적인 모델인 Gemini 3.1 Flash-Lite를 Gemini API 및 Vertex AI를 통해 Preview로 출시했습니다.
  • 2이 모델은 $0.25/1M input tokens, $1.50/1M output tokens의 저렴한 가격으로 2.5 Flash보다 2.5배 빠른 Time to First Answer Token 및 45% 향상된 출력 속도를 제공합니다.
  • 3Gemini 3.1 Flash-Lite는 높은 Elo score와 벤치마크 점수를 바탕으로 Translation, Content moderation, UI/dashboard 생성, Simulation 등 다양한 고빈도 및 복합 작업을 효율적으로 처리할 수 있습니다.

Gemini 3.1 Flash-Lite는 Google의 Gemini 3 시리즈 모델 중 가장 빠르고 비용 효율적인 모델로, 대규모 개발자 워크로드에 최적화되어 있습니다. 2026년 3월 3일에 공개되었으며, 현재 Google AI Studio의 Gemini API를 통해 개발자에게, 그리고 Vertex AI를 통해 기업에게 프리뷰로 제공됩니다.

이 모델은 1M input tokens당 0.25,1Moutputtokens0.25, 1M output tokens당1.50라는 파격적인 가격으로, 대규모 모델 대비 매우 낮은 비용으로 뛰어난 성능을 제공합니다. 특히, 2.5 Flash 모델보다 2.5배 빠른 Time to First Answer Token과 Artificial Analysis benchmark 기준 45% 향상된 output speed를 보여주며, 이는 고빈도(high-frequency) 워크플로우에 필요한 낮은 latency를 구현합니다. 품질 면에서도 2.5 Flash와 유사하거나 더 나은 성능을 유지하며, Arena.ai Leaderboard에서 1432 Elo score를 달성했습니다. 또한, GPQA Diamond 벤치마크에서 86.9%, MMMU Pro 벤치마크에서 76.8%의 점수를 기록하여 추론(reasoning) 및 multimodal understanding 분야에서 동급 모델들을 능가하며, 심지어 이전 세대의 더 큰 Gemini 모델들(예: 2.5 Flash)까지 뛰어넘는 성능을 보여줍니다.

Gemini 3.1 Flash-Lite의 핵심적인 방법론 및 기능 중 하나는 AI Studio와 Vertex AI에서 제공되는 "thinking levels"입니다. 이 기능은 개발자가 특정 작업에 대해 모델이 "생각하는" 정도를 제어할 수 있도록 하여, 고빈도 워크로드 관리 시 비용과 추론 깊이 사이의 균형을 효과적으로 맞출 수 있게 합니다. 이는 모델의 자원 활용도를 미세 조정하여 효율성을 극대화하는 중요한 기술적 특징입니다.

이러한 특성 덕분에 Gemini 3.1 Flash-Lite는 비용이 중요한 대량 번역 및 콘텐츠 moderation과 같은 고빈도 작업을 처리할 수 있을 뿐만 아니라, 사용자 인터페이스 및 대시보드 생성, 시뮬레이션 생성, 복잡한 다단계 지침(multi-step tasks) 수행과 같이 더 깊은 추론이 필요한 복잡한 워크로드도 처리할 수 있습니다. 예를 들어, e-commerce wireframe에 수백 개의 제품을 즉시 채우거나, 실시간 예측 및 과거 데이터를 사용하여 동적 날씨 대시보드(dynamic weather dashboards)를 생성하고, 다양한 작업을 실행하는 SaaS agent를 생성하는 데 활용될 수 있습니다. 또한, 대량의 이미지와 같은 콘텐츠를 빠르게 분석하고 분류하는 능력도 갖추고 있습니다.

Latitude, Cartwheel, Whering과 같은 초기 액세스 개발사와 기업들은 이미 Gemini 3.1 Flash-Lite를 사용하여 복잡한 문제를 대규모로 해결하고 있습니다. 이들 초기 테스터들은 모델의 효율성과 추론 능력을 강조하며, 더 큰 모델 수준의 정밀도로 복잡한 입력을 처리하고 지침을 따르며 일관성을 유지한다고 평가했습니다.