ChatGPT에 대한 OpenAI의 변경 사항 중 대부분은 AI 봇의 기능, 즉 답변할 수 있는 질문, 액세스할 수 있는 정보, 개선된 기본 모델과 관련이 있습니다. 하지만 이번에는 ChatGPT 자체를 사용하는 방식이 변경되었습니다. 이 회사는 텍스트 상자에 문장을 입력하는 것뿐만 아니라 큰 소리로 말하거나 사진을 업로드하여 AI 봇에게 메시지를 보낼 수 있는 새로운 버전의 서비스를 출시하고 있습니다.

OpenAI에 따르면 새로운 기능은 향후 2주 이내에 ChatGPT 비용을 지불하는 사용자에게 출시될 예정이며, 다른 사용자도 "곧" 새로운 기능을 받게 될 것입니다.

음성 채팅 부분은 매우 친숙하게 느껴집니다. 버튼을 클릭하고 질문을 말하면 ChatGPT가 이를 텍스트로 변환하여 대규모 언어 모델에 공급한 다음 답변을 얻고 음성으로 변환하여 큰 소리로 대답합니다. Alexa나 Google Assistant와 대화하는 듯한 느낌이 들지만, OpenAI만이 기반 기술의 개선 덕분에 답변이 더 좋아지기를 바라고 있습니다. 대부분의 가상 비서는 혁신을 위해 LLM에 의존하는 것처럼 보이지만 OpenAI가 이를 주도하고 있습니다.

OpenAI의 우수한 Whisper 모델은 음성-텍스트 변환 작업을 많이 수행하며 회사는 "텍스트와 몇 초의 음성 샘플에서 인간과 같은 오디오를 생성"할 수 있는 새로운 텍스트-음성 모델을 출시할 예정입니다. ChatGPT의 음성은 5가지 옵션 중에서 선택할 수 있지만 OpenAI는 이 모델이 그보다 훨씬 더 많은 잠재력을 가지고 있다고 생각하는 것 같습니다. 예를 들어 OpenAI는 Spotify와 협력하여 팟캐스트의 목소리를 유지하면서 팟캐스트를 다른 언어로 번역하고 있습니다. 합성된 음성에는 흥미로운 용도가 많이 있으며 OpenAI는 업계에서 중요한 부분이 될 수 있습니다.

그러나 유능한 합성 음성을 만드는 데 단 몇 초의 오디오가 필요하다는 사실은 또한 다양한 문제가 있는 사용 사례의 문을 열어줍니다. "이러한 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 가능성과 같은 새로운 위험도 가져옵니다. 이러한 이유로 OpenAI는 이 모델을 광범위하게 사용하지 않습니다. OpenAI는 더 엄격하게 통제되고 특정 사용 사례 및 파트너십으로 제한될 것입니다."라고 회사는 새로운 기능을 발표하는 블로그 게시물에서 밝혔습니다.

한편 이미지 검색은 Google Lens와 약간 비슷합니다. 관심 있는 내용의 사진을 찍으면 ChatGPT가 문제가 무엇인지 파악하고 그에 따라 응답합니다. 또한 앱의 그리기 도구를 사용하여 질문을 명확하게 표현하거나, 그림을 기반으로 질문을 말하거나 입력할 수 있습니다. 이것이 바로 ChatGPT의 앞뒤 특성이 도움이 되는 부분입니다. 먼저 검색한 다음 잘못된 답변을 얻은 후 다시 검색하는 대신 봇에게 메시지를 표시하고 동시에 답변을 구체화할 수 있습니다. (이는 Google이 다중 모드 검색을 수행하는 것과 매우 유사합니다.)

분명히 이미지 검색에도 잠재적인 문제가 있습니다. 그 중 하나는 사람과 챗봇을 호출할 때 일어날 수 있는 일입니다. OpenAI는 정확성과 개인 정보 보호 문제로 인해 ChatGPT의 "사람을 분석하고 직접 진술하는 능력"을 의도적으로 제한한다고 말합니다. 이는 인공지능의 가장 공상과학적인 비전 중 하나인 사람을 보고 "저 사람은 누구죠?"라고 말할 수 있는 능력이 조만간 실현되지 않을 것이라는 의미입니다. 그리고 어쩌면 그것은 좋은 것일 수도 있습니다.

ChatGPT가 처음 출시된 지 거의 1년이 지난 지금도 OpenAI는 새로운 문제와 단점을 도입하지 않고 봇에 더 많은 기능을 제공하는 방법을 찾으려고 노력하고 있는 것 같습니다. 이러한 버전에서 회사는 새 모델의 기능을 의도적으로 제한하여 이를 달성하려고 노력했습니다. 그러나 이 접근 방식은 영원히 작동하지 않습니다. 점점 더 많은 사람들이 음성 제어 및 이미지 검색을 사용하고 ChatGPT가 진정한 다중 모드의 유용한 가상 비서로 발전함에 따라 가드레일을 유지하는 것이 점점 더 어려워질 것입니다.