베이징 시간 월요일 저녁, 인공지능(AI) 분야로 유명한 스타트업 오픈AI(OpenAI)가 ''라는 제목의 보고서를 발표했다.ChatGPT는 이제 보고, 듣고, 말할 수 있습니다' 발표를 통해 앞으로 2주 내에 이 기능이 유료 사용자에게 푸시될 것이라고 알렸습니다. 올해 3월 GPT-4 기자회견에서 가장 충격적인 장면은 OpenAI의 사장인 Greg Brockman이 메모지 한 장을 가져와 스케치를 그린 후 사진을 찍고 GPT-4가 10초 만에 이 웹사이트의 코드를 생성하도록 했다는 것입니다.


(출처: 오픈AI)

ChatGPT는 이전에 이미지를 업로드할 수 있는 "코드 해석기" 기능을 출시했으며 이미지 및 텍스트 사진을 처리하기 위한 몇 가지 예비 기능을 갖추고 있습니다. 그러나 오늘날의 "사진을 찍고 질문하기"가 대부분의 사용자의 AI 보조 사용 시나리오에 더 가깝다는 것은 의심의 여지가 없습니다.

냉장고 사진찍고 오늘 저녁 뭐먹을지 알려줘

제목 순서대로 오늘 업데이트된 두 가지 주요 기능은 다음과 같습니다.사진 기반 대화, 실시간 음성 대화.

먼저 많은 관심을 받고 있는 사진채팅 기능에 대해 이야기해보겠습니다. OpenAI에 따르면 이제 사용자는냉장고 사진을 찍어 ChatGPT에서 레시피를 추천해 보세요. 여행하는 동안랜드마크 사진을 찍고 ChatGPT가 해당 장소의 흥미로운 점을 알려주세요. 물론, 수학 문제의 사진을 찍어 ChatGPT가 답변하도록 할 수도 있습니다.

공식 예에서 ChatGPT에는자전거 사진을 찍고 어떻게 됐는지 물었습니다.좌석이 낮아졌습니다. 그런 다음 ChatGPT는 자동차 모델에 따라 다르다고 말했습니다. 일부 자동차에는 퀵 릴리스 로드가 있고 일부는 볼트로 고정된 후 세부 단계를 제공합니다.


그러자 관계자는 이해하지 못하는 척하며 볼트 사진을 찍었습니다.그는 강조를 위해 공식 그리기 도구로 동그라미를 친 다음 ChatGPT에게 그것이 퀵 릴리스 레버인지 물었습니다. ChatGPT가 말했습니다.이건 볼트이므로 육각 렌치를 찾으셔야 합니다.


그런 다음 공무원은 도구 상자의 또 다른 사진을 찍고 ChatGPT에 어떤 렌치인지 물었습니다. ChatGPT는 또한 렌치를 성공적으로 인식하고 사용자에게 어떤 크기를 취해야 하는지 정확히 묻는 메시지를 표시했습니다.


ChatGPT는 대화할 수 있습니다!

또한 OpenAI는 음성 인식, 전사 및 오디오 생성 기능도 패키지로 제공하고 출시합니다.AI 음성 채팅 기능은 iOS 및 Android 클라이언트에서만 사용할 수 있습니다. 관계자는 사용자가 이 기능을 사용하여 집에서 아이들에게 잠자리에 들기 전 이야기를 들려줄 수 있다고 말했습니다. 또는 집에서 식사를 하다가 갑자기 어떤 문제로 말다툼이 벌어졌을 때, 데스크톱에 ChatGPT를 설치해 문제를 해결할 수도 있습니다.


OpenAI에 따르면 이 기능은 Whisper 오픈 소스 음성 인식 시스템을 사용하여 사용자가 말하는 내용을 텍스트로 변환합니다. 또한 새로운 텍스트 음성 변환 모델을 사용하고 전문 성우와 협력하여 사용자가 선택할 수 있는 5가지 음성을 제공합니다.

더욱 발전된 AI에도 새로운 위험과 한계가 있습니다.

OpenAI는 자사의 새로운 음성 기술이 단 몇 초의 실제 음성으로 사실적인 합성 음성을 생성할 수 있다고 말합니다. 이 기능은 창의성의 문을 열어주지만 범죄자가 공인을 사칭하여 사기를 저지를 가능성과 같은 새로운 위험도 야기합니다. 따라서 OpenAI의 결정은 "음성 채팅"과 같은 특정 사용 사례를 통해 이 기능을 출시하는 것입니다.

동시에 OpenAI는 더 많은 기관과 협력하고 있습니다. 예를 들어스트리밍 회사인 Spotify는 음성 번역을 위해 이 기능을 시험하고 있으며, 팟캐스트 호스트가 자신의 음성을 사용하여 팟캐스트 오디오를 다른 언어로 번역함으로써 전 세계적으로 도달 범위를 확장할 수 있도록 돕고 있습니다.

이미지는 또한 환각 문제 및 고위험 영역의 이미지 모델 해석에 의존하는 사용자와 같은 새로운 과제를 가져옵니다. 따라서 OpenAI는 온라인에 진출하기 전에 극단주의, 과학적 역량 등 영역에 대한 위험 테스트도 수행했습니다.

또한, 이 글을 읽는 중국 독자들에게는 그림대화의 경험도 기대할만한 가치가 있겠지만, 음성대화는 폄하해야 할 수도 있다. 오픈AI가 말했다.이 모델은 영어 텍스트를 복사하는 데는 적합하지만 일부 다른 언어, 특히 로마자가 아닌 알파벳을 사용하는 언어에서는 성능이 좋지 않으므로 영어가 아닌 사용자는 이러한 목적으로 ChatGPT를 사용하지 않는 것이 좋습니다.