GPT Image2는 네트워크 전체를 새로 고치는데 효과가 왜 이렇게 좋은 걸까요? 연구 리더 Chen Boyan은 다음과 같이 밝혔습니다. 기본 아키텍처가 완전히 재구성되었습니다. 그러나 그는 확산 모델을 사용했는지 자기회귀 기술을 사용했는지에 대한 답변을 거부하고 신비롭게도 이를 "보편적 모델" 또는 "이미지 필드의 GPT"라고 설명했습니다.


Chen Boyuan의 트윗에서도 작년 12월 말 GPT Image 1.5보다 큰 개선을 이루는 데 4개월밖에 걸리지 않았다고 밝혔습니다.

이러한 획기적인 성과를 달성하기 위해 핵심팀은 단 13명에 불과합니다.
전체 팀의 리더인 가브리엘 고가 AI 팀원들의 가족사진을 게재했다.

댓글창에 올라온 일부 네티즌들은 “왜 다 동양인이냐”고 한탄했다.

Chen Boyan: Python을 모르는 것에서 연구 책임자로
GPT 이미지 2의 아키텍처는 정확히 무엇입니까?
OpenAI가 오랫동안 발표되지 않을 수도 있지만 핵심 팀원들의 학문적 경험에서 일부 흔적을 볼 수 있습니다.
Chen Boyan은 팀의 연구 책임자입니다. 그와 다른 멤버 송기환은 박사과정 시절 같은 멘토 빈센트 시츠만(Vincent Sitzmann)을 만났다. MIT에서.

그의 걸작인 확산 강제: 박사 과정 동안 다음 토큰 예측과 전체 시퀀스 확산이 만나 NeurIPS 2024에 선정되었습니다.
본 연구에서는 토큰별 독립적인 잡음 수준 확산과 인과적인 다음 토큰 예측을 결합하고 자동 회귀 모델의 가변 길이 생성과 전체 시퀀스 확산 모델의 장거리 안내 이점을 통합하는 새로운 시퀀스 생성 훈련 패러다임인 확산 강제(Diffusion Forcing)를 제안합니다.

Google에서 인턴십을 하는 동안 그는 SpatialVLM을 공동 저자로 출판하기도 했습니다.
인터넷 규모의 3차원 공간 추론 VQA 데이터 세트(1천만 개의 이미지, 20억 개의 QA 쌍)를 자동으로 구축함으로써 시각적 언어 모델에 정량적/정성적 공간 추론 기능이 부여되며 미터법 거리, 크기, 방향 등의 정확한 값이 단일 2D 이미지에서 출력될 수 있습니다.
본 연구는 체화된 지능 분야에 사고 사슬 공간 추론을 적용합니다.

Google에서 인턴십을 하는 동안 그가 개발한 명령어 미세 조정 기술은 나중에 Gemini 2.0에 채택되었습니다.
그는 고등학교 때 과학연구 여름 캠프에 참가했을 때 파이썬의 기본 구문을 이해하지 못했습니다. 당시 만난 구글 딥마인드 수석연구원 샤페이(Xia Fei)는 그에게 AI의 세계를 소개했다.
Xia Fei는 DeepMind에서 우수한 인턴십을 이수하도록 그를 두 번 초대했습니다. 이러한 경험을 통해 Chen Boyuan은 대규모 모델 교육에 대한 엔지니어링 경험을 축적하고 다중 모드 시스템의 데이터 요구 사항을 이해하는 데 귀중한 관점을 제공했습니다.
Chen Boyuan은 박사 학위를 취득한 후 2025년 6월 OpenAI에 합류하여 빠르게 GPT 이미지 생성의 5개 핵심 멤버 중 한 명이 되었습니다. 그는 GPT 이미지 생성 모델의 모든 교육을 담당했으며 Sora 비디오 생성 팀의 일원이기도 했습니다.
이번 시연에서 그는 자신의 고향인 우시(无锡)를 상징하는 포스터를 만들었다. 그런 다음 서울에서 온 팀원들을 위해 한국어 포스터를 만들고 방글라데시에서 온 팀원들을 위해 벵골어 포스터를 만들었습니다. 각각의 텍스트 렌더링이 정확합니다.

Jianfeng Wang, 중국 과학기술대학교: Shengtu AI가 세계 지식을 이해하게 하세요
박사 학위를 취득한 Jianfeng Wang. 중국 과학기술대학교 출신의 그는 GPT Image 2 팀에서 지시를 따르고 세상을 이해하는 또 다른 놀라운 능력을 담당하고 있습니다.

구형 모델이 그린 영원한 시계는 항상 10시 10분을 가리키고 있는데, 이는 인터넷의 시계 광고 사진에서 파생된 것으로 거의 모두 10시 10분이다.
시계 제조사들이 심리학자들과 실험을 진행한 결과, 이것이 소비자의 시계 구매 의향을 자극하는 데 도움이 될 것이라고 믿기 때문이다.

그는 새 모델에게 2시 25분, 3시 30분, 9시 10분, 7시 45분을 모두 정확하게 그려달라고 요청했습니다.

이것은 단지 전채일 뿐입니다.
중앙에 사과, 오른쪽에 컵, 상단에 책, 왼쪽에 카메라, 아래에 농구공이 있는 더욱 복잡한 공간 레이아웃입니다. 모델은 모두 정확하게 실행됩니다.

OpenAI에 합류하기 전에 그는 Microsoft에서 거의 9년 동안 근무했습니다. Microsoft에 있는 동안 저는 DALLE-3에 대해 OpenAI 팀과 협력했습니다.
그는 컴퓨터 비전 분야에서 많은 학술 논문을 발표했으며 그의 연구 내용은 이미지 분류, 대상 탐지, 의미론적 분할 및 시각적 표현 학습을 다룰 수 있습니다.
세계 지식을 이해하는 능력이 크게 향상되었으며, 사물의 의미적 내용과 기능적 구조가 올바르게 이해되었습니다.
JianFeng Wang은 시연 비디오 끝에서 다음과 같이 말했습니다. GPT Image 2는 의도와 모델 출력 사이의 격차를 없애줍니다.
정말로 당신이 원하는 것을 하세요. 그러면 모델은 당신이 원하는 것을 줄 것입니다.
Yuguang Yang: 고정밀 복합 정보 그래픽 생성
Yuguang Yang은 GPT Image 2 출시 행사에서 인포그래픽과 PPT 생성을 시연했습니다.

75페이지 분량의 GPT-3 용지 전체를 ChatGPT로 드래그하면 자동으로 7개의 슬라이드가 생성됩니다.

그의 경험은 팀원 중 가장 풍부하다고 할 수 있습니다. 그가 맡은 모든 직업은 국경을 넘는 직업이지만 모두 기계 학습에 중점을 둡니다.
그는 Zhejiang University의 Zhu Kezhen College에서 학사 학위를 취득하고 공학을 전공했으며, 박사 학위를 취득하는 동안 전산 화학 물리학과 기계 학습을 공부했습니다. 존스홉킨스 대학교에서.
그의 첫 정규직은 정량 분석가였습니다. Yaniu는 Tsinghua University에서 방문 연구원으로 근무하면서 나노로봇용 강화 학습 및 제어 알고리즘을 연구했습니다.
나중에 그는 Amazon에서 Alexa 음성 연구를 수행했습니다.
또한 Microsoft에서 Bing 검색 쿼리 이해 및 검색, 문서 이해 작업을 수행했습니다.
2025년 초 OpenAI에 합류한 후 이미지 생성 외에도 ChatGPT 에이전트 프로젝트에도 참여했습니다.

그는 자신의 개인 계정에 GPT Image 2의 인포그래픽 생성 기능을 소개했는데, 이는 과학 연구자들의 시간을 많이 절약할 수 있습니다.

나는 또한 인포그래픽을 만들 때 사고 방식을 선택하는 것을 잊지 말라고 여러분에게 반복해서 상기시킵니다.

DALL-E에서 GPT 이미지 2.0으로
팀원 Kenji Hata의 자기소개를 통해 GPT Image 1.0이 GPT-4o의 이미지 생성 부분이라는 것을 알게 되었습니다.

DALL-E 이후 전체 OpenAI 멀티모달 시리즈 연구에 참여한 사람이 한 명 있습니다.
GPT Image 2.0 팀의 리더 Gabriel Goh 입니다.
2019년 OpenAI에 합류한 이후 그의 초기 연구는 해석 가능성, 볼록 최적화 등에 중점을 두어 보다 이론적이었습니다.
DALL-E부터 시작해서 천천히 이미지 생성으로 방향을 틀었습니다.

다른 팀원인 Weixin Liang의 연구 이력서를 보면 GPT 이미지 2의 기술적 배경이 드러났습니다.
Meta에서 인턴십을 하는 동안 그의 대표적인 작업인 Mixture-of-Transformers는 모달 디커플링 MoE와 디커플링 주의를 도입하여 다중 모달 모델 사전 훈련의 계산 비용을 크게 줄였습니다.

그는 스탠포드에서 박사학위를, 저장대학교 주커전대학에서 학사학위를 취득했지만 양위광보다 몇 년 늦었다.
Chen Boyuan과 마찬가지로 Weixin Liang도 둘 다 25년의 박사 학위를 가지고 있습니다. 졸업 후 바로 OpenAI에 입사해 빠르게 팀의 핵심 멤버가 되었습니다.

기타 GPT Image 2.0 팀 구성원은 다음과 같습니다.
이전에 Luma AI에서 근무했던 Ayaan Haque는 Luma의 기본 비디오 생성 모델인 Dream Machine의 훈련에 참여했습니다.
Bing Liang은 5년 넘게 Google에서 근무하며 Imagen3, Veo 및 Gemini Multimodal에 참여했습니다. 2025년에는 이미지 생성 연구를 위해 OpenAI로 뛰어들었습니다.
Mengchao Zhong은 Shanghai Jiao Tong University의 졸업생으로 Texas A&M University에서 학사 및 석사 학위를 취득했습니다. 그는 Pinterest와 Airtable에서 소프트웨어 엔지니어로 근무했으며 OpenAI에서 다중 모드 제품 엔지니어링을 담당하고 있습니다.
Dibya Bhattacharjee, Yale University, 2015년 IPhO 동메달, CIE A-레벨 수학 및 생물학 부문에서 세계 최고 점수.
송기환 씨는 2025년 10월에 마지막으로 합류했다. 연구는 물론, 팀 내 프롬프트 워드 마스터이기도 하다. 당신이 보는 공식 시연 사진의 대부분은 그가 찍은 것입니다.
…
초기 DALL-E부터 오늘날의 GPT Image 2.0까지 이 팀은 이를 하나씩 해결했습니다. 선명하게 그릴 수 있고, 아름답게 그릴 수 있으며, 정확하게 그릴 수 있습니다.

최근 몇 년 동안 OpenAI의 인재 흐름이 훌륭했지만 OpenAI는 여전히 다양한 성격을 가진 인재를 지속적으로 유치할 수 있고, 전공에 제한을 두지 않으며, 국경 간 연구를 환영하고, 상향식 창발 연구를 믿는 회사입니다.
작은 팀에서 시작하여 획기적인 발전을 이룬 후 회사는 세상을 바꿀 때까지 더 많은 자원을 투입합니다.
한 가지 더
옛날 옛적에 GPT-4o 이미지 생성은 지브리 스타일 아바타를 모방하여 전 세계를 휩쓸었습니다.
이제 GPT Image 2.0의 팀원들은 모두 아바타를 이 이상한 목 스타일로 변경했습니다.

그렇다면 이 그림 스타일에 대한 단서는 무엇입니까? 팀원도 공개됐다.
Use my photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall 1:3 image.
참조 링크:
[1]https://x.com/gabeeegoooh/status/2046674385407512687?s=20
[2]https://venturebeat.com/technology/openais-chatgpt-images-2-0-is-here-and-it-does-multilingual-text-full-infographics-slides-maps-even-manga-seemingly-flawously