Google은 오늘 Gemini 3.1 Flash-Lite를 공식 출시하여 Gemini 3 시리즈 중 가장 빠르고 비용 효율적인 모델이라고 주장했습니다. 또한 3.1 Flash-Lite는 개발자의 대규모, 높은 처리량 워크로드를 위해 설계되었으며 가격대와 모델 수준에서 매우 높은 품질을 입증한다고 밝혔습니다.

오늘부터 3.1 Flash-Lite는 Google AI Studio의 Gemini 인터페이스를 통해 개발자에게 미리보기로 제공되며 Vertex AI를 통해 기업 사용자에게도 제공됩니다.

3.1 Flash-Lite 비용은 백만 입력 토큰(입력 토큰)당 미화 0.25달러, 백만 출력 토큰(출력 토큰)당 미화 1.50달러입니다. Artificial Analysis의 벤치마크 테스트에 따르면 3.1 Flash-Lite는 동일하거나 더 높은 품질을 유지하면서 2.5 Flash보다 더 나은 성능을 발휘합니다. 첫 번째 단어 응답 속도(Time to First Answer Token)가 2.5배 증가했고, 출력 속도도 45% 증가했습니다. Google은 이 짧은 지연 시간 기능이 빈도가 높은 워크플로에 꼭 필요한 기능이므로 개발자가 반응성이 뛰어난 실시간 경험을 구축하는 데 이상적인 모델이라고 말합니다.


3.1 Flash-Lite는 Arena.ai 리더보드에서 1432점을 기록했습니다. 추론 및 다중 모드 이해에 대한 다양한 벤치마크 테스트에서 해당 성능은 동일한 수준의 다른 모델을 능가합니다. 예를 들어 GPQA Diamond 테스트에서 86.9%, MMMU Pro 테스트에서 76.8%의 점수를 받았습니다. 이 성능은 2.5 Flash와 같은 이전 세대의 대형 모델을 능가합니다.


기본 성능 외에도 Gemini 3.1 Flash-Lite에는 AI Studio 및 Vertex AI의 "Thinking Level" 기능이 표준으로 제공됩니다. 이를 통해 개발자는 모델이 특정 작업에 대해 얼마나 깊이 "생각"하는지 제어할 수 있는 유연성을 제공하며, 이는 빈도가 높은 워크로드를 관리하는 데 중요합니다. 3.1 Flash-Lite는 비용에 민감한 대용량 번역 및 콘텐츠 조정과 같은 대규모 작업을 처리할 수 있습니다. 동시에 사용자 인터페이스 및 대시보드 생성, 시뮬레이션 환경 생성, 복잡한 지침 따르기 등 심층적인 추론이 필요한 복잡한 작업도 수행할 수 있습니다.

Google은 AI Studio 및 Vertex AI의 초기 액세스 개발자뿐만 아니라 Latitude, Cartwheel 및 Whering과 같은 회사가 이미 3.1 Flash-Lite를 사용하여 복잡한 문제를 대규모로 해결하고 있다고 밝혔습니다. 초기 테스터들은 3.1 Flash-Lite의 효율성과 추론 기능을 강조했습니다. 그들은 이 모델이 대규모 모델의 정확성으로 복잡한 입력을 처리할 수 있고 지침을 엄격하게 따르며 높은 수준의 일관성을 유지할 수 있다고 말했습니다.