Google은 최근 Gemma 4 12B 버전 다중 모드 모델을 출시하고 오픈소스화했습니다. 이 모델의 개발 목표는 소비자급 장치가 AI 모델을 로컬에서 실행할 수 있도록 하는 것입니다. Google의 테스트에 따르면 이 모델은 12B의 소규모 매개변수 덕분에 16GB의 메모리/비디오 메모리를 갖춘 노트북과 데스크톱에서 실행할 수 있지만 이 모델은 Gemma 26B 버전 모델만큼 지능적입니다.

모델의 장점은 다음과 같습니다.
새로운 통합 아키텍처: 다중 모드 인코더가 필요 없으며 텍스트, 이미지, 비디오 및 오디오 입력을 직접 지원합니다.
고급 추론 기능: 벤치마크 성능은 로컬에서 다단계 추론을 제공할 수 있는 Gemma 버전 26B 하이브리드 전문가 아키텍처 모델에 가깝습니다.
낮은 메모리 요구 사항: 로컬로 실행하려면 16GB의 메모리 또는 비디오 메모리만 필요하지만 메모리가 많을수록 성능이 향상됩니다.
모델 오픈소스 릴리스: 모델은 Apache 2.0 라이선스에 따라 릴리스되며 Google과 커뮤니티에서는 완전한 개발자 생태계 지원도 제공합니다.
예측 선택기: Gemma 4 12B 버전에는 지연을 효과적으로 줄일 수 있는 다양한 토큰 예측 선택기가 장착되어 있습니다.
모델에 대한 추가 정보:
주석 벤치마크 테스트에서 Gemma 4 12B의 지능은 이전에 Google이 오픈 소스로 출시한 26B MoE 하이브리드 아키텍처 모델에 가깝습니다. 그러나 12B 버전은 메모리 요구 사항이 매우 낮으며 16GB 메모리 또는 비디오 메모리가 장착된 소비자급 노트북 및 데스크탑에서 직접 실행할 수 있으므로 사용자는 로컬에서 강력한 다중 모드 및 지능형 상호 작용 경험을 경험할 수 있습니다.
이 모델의 뛰어난 장점에는 이미지, 비디오 및 오디오 입력 처리를 단순화하는 것도 포함됩니다. 기존 다중 모드 모델은 일반적으로 독립 인코더를 사용하여 이미지와 오디오를 변환한 다음 변환된 표현을 언어 모델에 전달합니다. 이러한 개별 인코더로 인해 지연 시간과 메모리 사용량이 증가하므로 Google은 인코더 없는 아키텍처를 사용하여 Gemma 4 12B 모델을 학습하므로 모델이 오디오 및 시각적 입력을 직접 통합할 수 있습니다.
비전: 가벼운 임베딩 모듈을 사용하여 Gemma 4 시각적 인코더를 대체합니다. 이 모듈에는 1개의 행렬 곱셈, 위치 임베딩 및 정규화 작업만 포함되어 있어 모델 백본 네트워크가 시각적 처리를 직접 담당할 수 있습니다.
오디오: Google은 오디오 인코더를 완전히 제거하여 원시 오디오 신호를 텍스트 마크업과 동일한 차원 공간에 투사했습니다.
모델을 사용해 보고 다운로드하세요.
현재 Gemma 4 12B 버전은 여러 플랫폼에서 제공되고 있습니다. 관심 있는 개발자는 올라마(Ollama) 등에서 직접 체험해 볼 수도 있고, 허깅페이스(HuggingFace)나 캐글(Kaggle)에 가서 모델 가중치 파일을 다운로드할 수도 있다. 개발자는 효율적인 미세 조정을 위해 Unsloth를 사용하여 필요한 버전을 사용자 지정할 수도 있습니다.
올라마: https://ollama.com/library/gemma4
허깅페이스: https://huggingface.co/collections/google/gemma-4
느림보: https://unsloth.ai/docs/models/gemma-4