수요일에 OpenAI는 ChatGPT의 다중 모드 기능에 대한 금지를 해제한다고 발표했습니다. 이제 온라인에 올라오자마자 네티즌들은 즉시 미쳐 버립니다. 다음으로 ChatGPT의 이미지 인식 기능이 얼마나 강력한지 살펴보겠습니다.
01
사진을 찍어 업로드하면 즉시 코드가 생성됩니다.
한 네티즌은 회의 중 영상을 녹화하고 화이트보드 사진을 올린 뒤 ChatGPT에 코드 작성을 요청했다.
또한 손으로 그린 스케치를 업로드하고 ChatGPT에 HTML로 웹 페이지를 생성하도록 요청할 수 있습니다.
쉭쉭, 1분마다 코드가 나왔어요.
이는 단순히 올해 GPT-4가 출시되었을 때 Greg Brockman이 시연한 다중 모드 기능입니다.
또 다른 예로, 할 일 목록 노트북의 사진을 찍으세요.
그런 다음 GPT-4가 PythonTkinterGUI를 만들도록 하고 구현되었습니다...
02
한눈에 번역된 고대 두루마리 사본
여기 17세기 연금술사 로버트 보일이 그린 또 다른 원고가 있습니다. GPT-4가 읽을 수 있나요?
이것은 그것을위한 케이크 조각입니다.
예를 들어 "약용 미라에 관한 카탈로니아어 약용 매뉴얼".
ChatGPT는 전사 및 번역도 가능합니다.
UCSC 역사학과 부교수인 벤자민 브린(Benjamin Breen)은 이렇게 말했습니다.
이는 역사가들에게 큰 영향을 미칠 것입니다. 특정 원고 세트에 대해 훈련된 맞춤형 다중 모드 GPT-4를 상상해 보십시오. 전사할 수 있을 뿐만 아니라 번역하고 분류할 수도 있습니다. (LLM 없이 글을 쓴다는 것은 제 생각에는 큰 일입니다).
03
차트요약도 너무 좋네요 6
GPT-4에 명령을 내려 차트를 기반으로 데이터를 추출할 수도 있습니다.
그런 다음 Python 코드를 생성하여 차트를 복제하고 차트와 비슷하게 만들 수 있습니다.
그리고 거기에 주식 동향 차트를 던지면 특성을 분석하고 요약할 수도 있습니다.
04
사진을 읽는 것은 "IQ가 우월하다"
GPT-4에 추상적인 그림을 제공하십시오.
이 네 장의 그림이 표현하고자 하는 '소통의 중요성'에 대한 은유를 실제로 정확하게 파악할 수 있다. 이것은 터무니없는 일입니다.
GPT-4V는 의사의 필기체도 읽을 수 있습니다.
일부 일본 네티즌들은 '드래곤볼'의 손오공을 직접 이용해 ChatGPT 테스트에 응시했습니다.
"당신은 인간입니까?" 인증 코드도 다양합니다.
자신의 작업을 업로드하면 GPT-4가 개선을 위한 제안도 제공할 수 있습니다.
일부 네티즌들은 kosmos-1 논문에서 GPT-4V가 이 질문에 정답을 제시했지만 추론 과정에 오류가 있었다는 사실을 발견했습니다.
이 기능을 사용하면 아이들은 더 이상 숙제를 할 필요가 없습니다.
05
네티즌들의 총평
위의 경험 외에도 일부 네티즌들은 자신들의 GPT-4V 테스트를 소개하는 장문의 글을 작성하기도 했다.
테스트 하나:시각적 Q&A
이모티콘을 주고 GPT-4V가 이를 얼마나 잘 이해하는지 확인해 보세요.
GPT-4V는 그것이 흥미로운 이유를 성공적으로 설명하고 그림의 개별 구성 요소와 연결 방법을 언급합니다.
GPT-4V가 제공된 괄호 안에 있는 설명을 읽고 응답할 수 있다는 점은 주목할 가치가 있습니다.
그럼에도 불구하고 GPT-4V는 "GPU" 대신 "NVIDIABURGER"라는 라벨을 붙이는 실수를 했습니다.
그런 다음 미국 페니 사진인 동전으로 다시 테스트해 보세요. GPT-4V는 동전의 원산지와 명칭을 성공적으로 식별할 수 있습니다.
그런데 동전 여러 개를 놓고 GPT-4V를 묻는 사진이라면 내가 가진 돈은 얼마나 될까?
이 시점에서는 코인 개수만 식별할 수 있고 통화 종류는 식별할 수 없습니다.
테스트 2: OCR 인식
웹페이지에서 텍스트 이미지를 캡처하여 업로드합니다. GPT-4V는 내용을 매우 잘 읽을 수 있습니다.
테스트 3: 수학 OCR
수학 OCR은 수학 방정식을 대상으로 하는 특수한 형태의 광학 문자 인식입니다.
한 네티즌이 GPT-4V에게 수학 문제를 출제해 문서 스크린샷 형태로 제시했다.
이 문제는 이미지에 "solve it"이라는 프롬프트를 사용하여 2개의 각도가 주어진 지퍼 라인의 길이를 계산하는 것과 관련됩니다.
이 모델은 삼각법을 사용하여 해결할 수 있는 문제를 식별하고, 사용할 함수를 식별하며, 문제 해결 방법에 대한 단계별 연습을 제공합니다. 그런 다음 GPT-4V는 질문에 대한 정답을 제공합니다.
그러나 GPT-4V 시스템 카드에는 모델에 수학 기호가 누락되었을 수 있다고 명시되어 있습니다.
종이에 손으로 쓴 방정식이나 표현식을 사용한 테스트를 포함한 다양한 테스트는 수학 문제에 답하는 모델의 능력이 부족함을 나타낼 수 있습니다.
테스트 4: 객체 감지
GPT-4V가 영상 속 개를 감지하고, 개의 위치에 관련된 x_min, y_min, x_max, y_max 값을 제공하도록 합니다. GPT-4V에서 반환된 경계 상자 좌표가 개의 위치와 일치하지 않습니다.
GPT-4V는 이미지 질문에 답하는 데 매우 강력하지만 이미지에서 객체가 어디에 있는지 알고 싶을 때 미세 조정 객체 감지 모델을 대체할 수는 없습니다.
테스트 5: 인증 코드
GPT-4V는 인증코드가 포함된 이미지를 인식할 수 있는 것으로 나타났으나 테스트에 실패하는 경우가 많았다.
신호등 그리드를 선택하는 예에서 GPT-4V는 신호등이 포함된 그리드를 더 적게 선택했습니다.
테스트 6: 크로스워드 퍼즐과 스도쿠
스도쿠 테스트에서 GPT-4V는 게임을 인식했지만 보드의 구조를 잘못 이해하여 부정확한 결과를 반환했습니다.
그런데 ChatGPT 네트워킹 기능이 다시 돌아왔습니다.