오늘 Alibaba는 차세대 이미지 생성 및 편집 모델인 Qwen-Image-2.0을 공식 출시했습니다.Qianwen 대형 모델의 이미지 생성 모델 기반인 Qwen-Image-2.0은 이미지 생성과 편집을 통합합니다. AI 아레나 이미지 생성 평가에서 1029점을 기록해 Seedream4.5, Flux2-Max 등의 모델을 제치고, 구글 나노바나나프로(Google Nano Banana Pro), GPT Image1.5에 이어 2위를 기록했다.
Qwen-Image-2.0은 1K 토큰의 매우 긴 텍스트 입력과 2K 고해상도를 지원합니다. 복잡한 지침을 정확하게 렌더링하고 전문적인 PPT 및 인포그래픽을 쉽게 생성할 수 있습니다. 품질은 전문 사진 작가의 품질과 비슷합니다. 동시에 Qwen-Image-2.0은 매우 강력한 한자 렌더링 기능을 갖추고 있으며 수백 개의 고대 텍스트의 전체 텍스트를 그림에 거의 완전히 렌더링할 수 있습니다.

Qwen-Image-2.0은 Qwen-Image와 Qwen-Image-Edit의 두 가지 주요 모델을 기반으로 한 새로운 업그레이드입니다. 최초로 이미지 생성과 편집이 하나의 모델로 통합되었습니다. 더 가벼운 모델 아키텍처를 사용하면 이미지 생성 및 이미지 수정 성능이 크게 향상됩니다.
Qwen-Image-2.0이 생성한 이미지의 질감은 노인의 주름부터 우주의 광대함까지 특히 섬세합니다. 모델로 생성된 사람, 자연, 건물 등의 일반적으로 사용되는 이미지는 매우 생생합니다.
AI Arena의 권위 있는 평가에서 Qianwen의 새 모델은 이미지 생성에서 1029점을 획득하여 3위를 차지했습니다. 사진 편집 부문에서는 Nano Banana Pro에 이어 2위인 1034점을 기록했습니다.

한자 렌더링 측면에서 Qwen-Image-2.0의 성능이 매우 뛰어납니다. 다양한 글꼴의 한자를 정확하게 렌더링할 수 있을 뿐만 아니라, 많고 정확하게 쓸 수 있으며 효과는 Nano Banana Pro보다 좋습니다.
Qianwen의 새 모델은 입력 프롬프트 단어를 1K 토큰으로 확장하여 작업을 자세히 설명하고 보다 전문적인 텍스트 렌더링을 달성하며 전문 PPT, 고급 포스터 및 다중 프레임 만화와 같은 복잡한 이미지를 쉽게 처리할 수 있습니다. 예를 들어, "란팅 컬렉션 서문"의 전체 텍스트 일러스트레이션 중 수백 단어는 거의 완전히 작은 일반 스크립트 글꼴로 렌더링되고, 에세이 형식 일러스트레이션이 포함된 복잡한 PPT는 자연어로 생성됩니다.

Qwen-Image-2.0 모델을 기반으로 사용자는 AI와 협력하여 한 문장으로 쿵파오치킨을 생성하는 흐름도, 항저우 2일 여행 가이드, 4x6 다중 프레임 만화 단체 사진, 어린이 그림책 사진, 사실적인 스타일의 영화 포스터, 극도로 사실적인 녹색 정글 등과 같은 더욱 풍부하고 실용적인 그림을 만들 수 있습니다.
동시에 사용자는 편집을 위해 여러 장의 사진을 업로드하여 다양한 제스처가 포함된 셀카, 실제 사람이 포함된 이모티콘, 두 사람의 사실적인 AI 사진, 사진이 포함된 시 등을 생성할 수 있습니다.
