화요일 라이브 스트리밍에서 OpenAI CEO인 Sam Altman은 1년여 만에 ChatGPT의 이미지 생성 기능에 대한 첫 번째 주요 업그레이드를 발표했습니다. ChatGPT는 이제 회사의 GPT-4o 모델을 활용하여 이미지와 사진을 기본적으로 생성하고 수정할 수 있습니다. GPT-4o는 오랫동안 인공지능 챗봇 플랫폼의 기반이 되어왔지만 지금까지 모델은 이미지가 아닌 텍스트만 생성하고 편집할 수 있었습니다.

Altman은 GPT-4o 기본 이미지 생성이 이제 ChatGPT 및 OpenAI의 AI 비디오 생성 제품 Sora에 제공되며 회사의 월 200달러 Pro 요금제 가입자가 사용할 수 있다고 말했습니다. OpenAI는 이 기능이 곧 ChatGPT Plus 및 무료 사용자와 회사의 API 서비스를 사용하는 개발자에게 출시될 것이라고 밝혔습니다.

이미지 출력 기능을 갖춘 GPT-4o는 효과적으로 대체하는 이미지 생성 모델인 DALL-E3보다 더 오래 "생각"하여 OpenAI가 설명하는 더 정확하고 상세한 이미지를 생성합니다. GPT-4o는 사람이 포함된 이미지를 포함하여 기존 이미지를 편집할 수 있습니다. 이를 변환하거나 전경 및 배경 개체와 같은 세부 사항을 "수정"할 수 있습니다.

OpenAI는 새로운 이미지 생성 기능을 구현하는 데 어떤 이미지 데이터를 사용했는지 공개하지 않았습니다. 많은 생성 AI 공급업체는 훈련 데이터를 경쟁 우위로 간주하므로 해당 데이터와 이를 둘러싼 정보를 비밀로 유지합니다. 그러나 훈련 데이터 세부 사항은 지적 재산과 관련된 소송을 유발할 수도 있으며, 이는 기업이 너무 많은 정보 공개를 꺼리는 또 다른 이유입니다. 

OpenAI는 제작자가 자신의 작업물을 교육 데이터 세트에서 제거하도록 요청할 수 있는 거부 양식을 제공합니다. 또한 회사는 웹 스크래핑 봇이 웹사이트에서 이미지를 포함한 교육 데이터를 수집하는 것을 금지해 달라는 요청을 존중한다고 밝혔습니다.

ChatGPT의 업그레이드된 이미지 생성 기능은 Google의 주력 모델 중 하나인 Gemini 2.0 Flash에 대한 실험적인 기본 이미지 출력에 이어 나왔습니다. 이 강력한 기능은 소셜 미디어에서 입소문을 타고 있지만 반드시 좋은 이유만 있는 것은 아닙니다. Gemini2.0 Flash의 그래픽 구성 요소에는 보호 기능이 거의 없으므로 사람들이 워터마크를 제거하고 저작권이 있는 문자를 묘사하는 이미지를 만들 수 있습니다.