네이버는 AI 모델에 사용된 중국 알리바바 Qwen 2.5 비주얼 인코더를 완전히 제거하고 자체 개발한 비주얼 인코더로 완전히 교체하겠다고 공식 발표했습니다.네이버클라우드는 지난달 초 자체 개발한 비주얼 인코더 개발을 완료하고 내재화 작업에 착수했으며, 향후 모든 멀티모달 모델에 본격 적용할 계획이다.
네이버는 이번 신형 인코더가 네이버의 원천 기술인 'VUClip'을 기반으로 대폭 개선돼 성능이 세계 최고 모델인 Qwen과 맞먹는 수준에 이르렀다고 밝혔다.
비주얼 인코더는 이미지와 영상 정보를 이해할 수 있는 데이터 형식으로 변환하는 멀티모달 AI의 모듈로, 모델의 '시신경'이라고 불린다.
네이버는 올 초 정부가 주도하는 AI 독자모델 기본모델 사업에 참여할 당시 HyperCLOVA X SEED 32B Sync 모델에 알리바바 Qwen 2.5의 비주얼 인코더를 일부 사용해 논란을 일으켰다.
과학기술정보통신부는 1월 15일 1차 검토 결과를 발표했다. 모델 독창성과 기술적 독립성이 부족해 네이버 클라우드가 직접 탈락했다. NC AI도 함께 탈락했다.
당시 네이버는 “비주얼 인코더는 언제든지 교체가 가능하며, 대체 불가능한 핵심 구성요소가 아니다”고 주장했다.
4개월 후, 네이버의 새로운 인코더가 출시되었습니다. 가장 큰 특징은 학습 단계부터 한국어를 중심으로 설계하여 중간 번역 레이어를 거치지 않고 이미지와 한국어를 직접 연결한다는 점입니다.
네이버 클라우드 담당자는 한국의 지리, 문화, 고유명사가 포함된 시각적 데이터를 처리할 때 새로운 인코더를 사용하면 번역 과정에서 정보의 왜곡을 피할 수 있다고 강조했습니다.
다만, 오픈소스로 출시된 HyperCLOVA X SEED 32B Sync 모델의 인코더 교체 계획은 아직 결정되지 않았습니다.
