Google은 최근 Google Gemini API의 파일 검색 기능 확장을 발표하여 개발자에게 더욱 완전한 다중 모드 RAG(검색 강화 생성) 기능을 제공했습니다. 이 업데이트의 핵심에는 이미지와 텍스트의 혼합 검색 지원, 사용자 정의 메타데이터 필터링 지원, 새로운 페이지 수준 참조 지원, 기업 지식 베이스, 문서 Q&A, 에이전트와 같은 시나리오에서 AI 시스템의 향상된 접근성 및 정확성이 포함됩니다.

Google 공식 블로그에 따르면 새 버전의 파일 검색 기능은 더 이상 전통적인 텍스트 벡터 검색에 국한되지 않고 이미지, PDF, 문서의 시각적 콘텐츠와 텍스트 콘텐츠를 동시에 이해할 수 있는 Gemini Embedding 2를 기반으로 구축된 통합 다중 모드 임베딩 기능을 기반으로 합니다. 개발자는 복잡한 벡터 데이터베이스, 임베딩 파이프라인 또는 문서 분할 시스템을 구축할 필요가 없으며 Gemini API에서 직접 전체 RAG 워크플로우를 완료할 수 있습니다.

기존 RAG 시스템에서는 그림, 차트, 스크린샷, 디자인 도면과 같은 시각적 콘텐츠를 효과적으로 색인화하기 어려운 경우가 많아 AI 답변에 대한 맥락적 이해가 부족합니다. Gemini API의 새로운 다중 모드 파일 검색 기능은 기본적으로 사진의 콘텐츠를 식별하고 텍스트와 함께 검색 색인을 구축할 수 있습니다. 예를 들어 기업은 제품 이미지, 데이터 차트, 기술 아키텍처 다이어그램이 포함된 PDF 파일을 업로드할 수 있으며, AI는 답변 시 시각적 정보와 텍스트 설명을 동시에 이해할 수 있습니다.

구글은 이 기능이 특히 기업 수준의 지식 도우미, 고객 서비스 로봇, 문서 분석 시스템, AI 에이전트를 구축하는 데 적합하다고 밝혔습니다. 개발자는 독립적인 이미지 검색 시스템을 추가로 유지 관리할 필요 없이 모델이 내부 문서를 기반으로 추론을 수행하도록 할 수 있습니다. 이미지와 텍스트가 혼합된 데이터가 많은 기업의 경우 이는 배포 복잡성이 낮아지고 검색 정확도가 높아진다는 것을 의미합니다.

또 다른 새로운 기능은 사용자 정의 메타데이터 필터링입니다. 개발자는 업로드된 파일에 태그, 카테고리, 시간, 부서 등의 메타데이터를 추가할 수 있으므로 후속 검색 중에 메타데이터에 따라 필터링하여 정확성과 효율성을 높일 수 있습니다. 이는 또한 대규모 지식 기반 관리에 더 적합하며 관련 없는 콘텐츠가 컨텍스트 창에 들어가는 것을 줄여줍니다.

또 다른 중요한 기능은 페이지 수준 인용입니다. 답변을 생성할 때 Gemini AI는 전체 파일을 막연하게 참조하는 대신 정보가 문서의 어느 페이지에서 왔는지 명확하게 표시할 수 있습니다. 이를 통해 사용자는 답변을 얻은 후 특정 문서 페이지를 클릭하여 내용의 정확성을 판단하고 전체 문서를 읽어 더 많은 정보를 얻을 수 있습니다.

현재 Google Gemini API 파일 검색 기능의 새 버전은 모든 개발자에게 공개되어 있습니다. 관심 있는 개발자는 Google AI Studio, Google Cloud 등의 플랫폼을 통해 Gemini API를 열어 체험해 볼 수 있습니다.

개발자 가이드: https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878