휴가를 보내십시오. ChatGPT는 너무 빨리 업데이트되어 네티즌의 상상력이 따라잡을 수 없습니다. 월요일에 ChatGPT는 포괄적인 다중 모드 기능을 갖춘 주요 업데이트를 발표했습니다. 앞으로는 공유자전거를 타고 퇴근길에 자전거에 이상이 있다고 생각되면 부품을 사진으로 찍어 직접 물어보면 됩니다.

그런 다음 집에 돌아와서 아무 것도 모르는 냉장고 컬렉션을 보면 ChatGPT가 저녁 식사로 어떤 품목을 골라야 할지 알려줄 수 있습니다.

식사를 하고 잠자리에 든 후에도 여전히 졸리지 않으면 Bilibili나 YouTube에서 해당 블로거의 이야기를 듣는 것이 지겹다면 ASMR 서비스를 제공할 수도 있습니다.

1985년 9월 '보이지 않는 도시들'을 집필한 칼비노가 뇌졸중으로 사망했다. 올해 여름 그는 두통 때문에 의사의 도움을 구했다. 외과 의사는 이렇게 복잡하고 섬세한 뇌를 본 적이 없다고 말했습니다.

ChatGPT는 믿을 수 없을 정도로 아름답고 눈에 보이지 않는 두뇌로 시작되었지만 이제 마침내 눈, 귀, 입이 생겼습니다.

전 세계 네티즌들: 자, 제스쳐를 해보자.


출처: 트위터

누군가가 그것을 시도했고 기본적으로 다른 사람을 위한 소프트웨어 프로젝트 개발을 수행할 수 있습니다.

소프트웨어 프로젝트의 탄생은 대략 다음과 같습니다. 먼저 화이트보드에 와이어프레임을 그리고 배열 논리를 정리한 다음 코드 작성을 시작하고 마지막으로 인터페이스를 생성합니다. 이제 이 문제에 있어서 화이트보드에 적힌 작업은 당신의 것이고, 화이트보드를 떠나는 것은 당신의 것입니다.

개발자가 자신의 와이어프레임 사진을 찍어 ChatGPT에 던졌고, ChatGPT에서 소프트웨어를 직접 작성했습니다.

그는 또한 배열의 위치를 ​​불규칙한 화살표로 바꾸는 등 약간의 트릭을 사용했습니다. ChatGPT는 그것을 봤을 뿐만 아니라 받아들였습니다.

우리는 아마도 다중 양식이 가져올 결과를 여전히 과소평가할 것입니다.

여기서 인공지능과 인간지능의 발전은 정반대다. 인간은 먼저 눈이 있고, 세상을 본 후에 언어와 논리를 형성하고, 이를 통해 자신이 보는 세상을 더 잘 설명하고 이해할 수 있습니다. 지난 600만년 동안 인간 지능의 향상은 거대한 기계 학습 용광로가 되었습니다.

ChatGPT는 이미 최고의 지능 수준을 갖추고 있으며 많은 것을 이해할 수 있습니다. 제한 사항은 정보를 텍스트로 압축하여 더 복잡한 문제에 접근할 수 없다는 것입니다. 그런 뇌에 눈 한 쌍을 주면 무슨 일이 일어날까요? 즉, 이미지 정보를 직접 볼 수 있게 되면서 문제를 분해하는 능력이 폭발하기 시작하는 것이다.

누군가 ChatGPT에 SaaS 소프트웨어의 인터페이스 다이어그램을 제공하고 이를 작은 구성 요소로 나누고 모든 코드를 작성하도록 요청했습니다.

Unity 편집 인터페이스의 대략적인 스크린샷을 제공하고 모델 작업을 추가하는 프로세스를 제공하도록 요청할 수도 있습니다.


출처: 트위터

다중 모드 기능을 개방한 후 ChatGPT의 이해 및 추론 기능은 더욱 직관적이고 심지어 조금 무섭게 되었습니다.

잠시 시간을 내어 다음 그림의 의미를 이해할 수 있는지 확인해 보세요.


출처: 트위터

ChatGPT의 해석은 다음과 같습니다.


출처: 트위터

"이 만화 세트는 팀 내 의사소통, 이해, 조화의 중요성을 강조하는 것 같습니다." ChatGPT가 마지막에 끝났습니다.

이런 이해는 페이스북과 우버에서 일했던 AI 엔지니어 피에트로 시라노(Pietro Schirano)에게 충격을 주어 말문이 막혔다.

눈 외에도 귀와 입이 있습니다.

이번 ChatGPT 업그레이드 뒤에는 음성 인식 기능이 오픈 소스 Whisper 모델을 기반으로 하며, 사운드 생성 기능은 추가 TTS(text-to-speech) 모델을 기반으로 합니다. 현재 음성합성은 5명의 목소리를 지원하고 있으며, 모두 전문 성우들의 협업을 통해 제작됐다.

그런데 두 대의 휴대폰에서 ChatGPT가 눈앞에서 "당신과 함께 노래방을 불러본 사용자가 있나요?" - 그것은 당신에게 묻는 것이 아니라 또 다른 것을 묻는 것입니다. 그것은 시대를 너무 앞서 있는 것 같습니다.

게다가 정신과 의사가 될 가능성도 있는 것 같다. OpenAI 보안팀의 일원인 Lilian Weng은 음성 모드에서 ChatGPT와 스트레스와 일과 삶의 균형에 관해 매우 감정적인 비공개 대화를 나누었습니다.

릴리안 웬(Lilian Weng)은 트위터를 통해 "재미있는 점은 내 말을 듣고 따뜻해지는 느낌이 든다는 것"이라고 말했다. 그녀는 생산성 도구로만 사용한다면 좀 더 섬세한 측면을 시도해 보는 것이 더 낫다고 제안했습니다.


출처: 트위터

ChatGPT 자체의 진화에 관해서는 2022년에 훈련된 다중 모드 기능을 개방하는 것도 미래 진화를 위한 새로운 기반을 구축하는 것입니다.

ChatGPT 수석 설계자 John Schulman은 한 달 전 Pieter Abbeel(John Schulman이 캘리포니아 대학교 버클리에서 박사 과정 중 강화 학습에 집중할 때 멘토)이 진행한 팟캐스트에서 기존 데이터 및 모델 확장 방법으로 인한 성능 향상이 일정 시간이 지나면 한계에 도달할 수 있다고 느꼈습니다. 그 이후에는 알고리즘, 데이터 세트, 데이터 세트 크기 및 컴퓨팅 성능으로 인한 개선이 점차 감소할 것입니다.

"따라서 멀티모달 기능을 추가하면 성능이 크게 향상됩니다. 이를 통해 모델은 텍스트에서 얻을 수 없는 지식을 얻을 수 있고 잠재적으로 순수 언어 모델이 수행할 수 없는 작업을 마스터할 수 있습니다. 예를 들어 모델은 물리적 세계 또는 컴퓨터 화면과 상호 작용하는 비디오를 시청함으로써 큰 이점을 얻을 수 있습니다. 모든 소프트웨어는 인간을 위해 설계되었으며, 모델이 픽셀을 관찰하고 비디오를 이해할 수 있다면 우리는 모든 종류의 기존 소프트웨어를 사용하거나 사람들이 이를 사용하도록 도울 수 있습니다. 모델에 새로운 기능을 제공하고 모델이 새로운 것과 상호 작용할 수 있도록 허용하면 모델의 실제 기능이 크게 향상됩니다. 모델."

그렇다면 ChatGPT는 다음 달에 무엇을 할 수 있나요? 너무 기대됩니다.