화중과학기술대학(Huazhong University of Science and Technology)은 학교의 소프트웨어 학교 팀이 다중 모드 대형 모델 "Monkey"를 출시했다는 성명을 공식적으로 발표했습니다.이 모델은 이미지 묘사와 시각적 질의응답에 능숙하며, 세상에 대한 '관찰'을 실현하고 심층적인 질의응답 의사소통을 수행하며 그림을 정확하게 묘사할 수 있습니다.


공식 소개에 따르면 18개 데이터 세트에 대한 실험에서 Huake University Monkey 모델이 특히 좋은 성능을 보였습니다.이미지 설명과 시각적 질문 및 답변 작업 측면에서 Microsoft의 LLAVA, Google의 PALM-E, Alibaba의 Mplug-owl 등 기존의 많은 유명 모델을 능가했습니다.

또한,Monkey는 일부 샘플에서 업계에서 인정받는 리더인 GPT-4V를 능가하는 등 텍스트 중심 질문 및 답변 작업에서 상당한 이점을 보여줍니다.

원숭이의 특징은 '그림을 보고 말하는 능력'이 뛰어나다는 점이다. 세부 설명 작업에서 Monkey는 이미지 세부 정보를 인식하는 능력을 보여 주었고 다른 대규모 다중 모드 모델이 무시한 콘텐츠를 감지할 수 있었습니다.

또 다른 하이라이트는 최대 1344x896 픽셀의 해상도로 이미지를 처리할 수 있는 능력입니다. 이는 현재 다른 다중 모드 대형 모델이 처리할 수 있는 최대 크기의 6배입니다.

현재 업계에서 처리하는 이미지의 최대 해상도는 448×448픽셀인 것으로 알려졌다.

팀이 세계 최대 코드 호스팅 서비스 플랫폼인 GitHub에서 Monkey 코드 오픈 소스를 만들었다는 점은 언급할 가치가 있습니다.