오늘 Tencent는 Hunyuan 3D World Model 2.0(HY-World 2.0)을 공식 출시하고 오픈소스화했습니다. 보고서에 따르면 HY-World 2.0은 텍스트, 그림, 비디오 등 다양한 유형의 입력을 이해하고 3D 세계를 자동으로 생성, 재구성 및 시뮬레이션할 수 있는 다중 모드 세계 모델입니다. 또한 다중 형식 3D 자산(메시/3DGS/포인트 클라우드 등) 내보내기를 지원하고 기존 게임 워크플로우와 원활하게 연결되어 게임 맵 및 레벨 프로토타입을 빠르게 생성할 수 있습니다.

동영상 파일만 생성할 수 있는 구글 지니3, 훈위안 월드 모델 1.5와 달리 월드 모델 2.0은 두 번 편집 가능한 3D 자산 파일을 직접 생성할 수 있어 더욱 실용적이라고 한다. 이렇게 생성된 3D 자산을 게임 제작이나 구현된 시뮬레이션 엔진으로 직접 가져와 실제로 플레이 가능하고 사용 가능한 결과를 얻을 수 있습니다.

현재 Tencent Hunyuan 3D Creation Engine 공식 웹사이트에 World Model 2.0이 출시되었으며 사용자는 신청하여 사용할 수 있습니다.

Hunyuan World Model 2.0은 텍스트, 사진 및 비디오의 다중 입력을 지원합니다. 텍스트나 그림을 입력하면 모델이 복잡한 의미를 정확하게 분석하고 한 번의 클릭으로 돌아다닐 수 있는 다양한 세계를 생성할 수 있습니다. Hunyuan World Model 1.0과 비교하여 2.0의 모델 아키텍처가 완전히 업그레이드되었으며 사진 정밀도와 사실성이 크게 향상되었습니다. 사용자는 스타일을 사용자 정의하고 필요에 따라 사실적, 만화적 또는 게임 스타일의 3D 공간을 생성할 수도 있습니다. 생성이 완료된 후 사용자는 2차 편집을 위해 자산을 Unity 및 UE와 같은 엔진으로 가져올 수 있으므로 게임 맵 생성 임계값이 크게 낮아집니다.

이 모델은 캐릭터 모드도 지원합니다. 사용자는 게임처럼 캐릭터를 조작해 시간 제한이나 물리적 충돌 없이 거리, 건물, 장면을 자유롭게 탐색할 수 있습니다. 동시에 World Model 2.0은 실제 3D 장면 복제를 지원합니다. 사용자는 실제 공간의 영상이나 멀티뷰 이미지를 입력할 수 있고, 모델은 고정밀 디지털 트윈 공간을 구축할 수 있다. 업그레이드된 WorldMirror 2.0 아키텍처를 기반으로 하는 이 모델은 모든 크기의 이미지 및 비디오 입력을 지원하고 조밀한 포인트 클라우드, 다중 뷰 깊이 맵, 표면 법선 및 카메라 매개변수를 한 번에 예측하고 이를 한 번 생성하여 영구적으로 재사용할 수 있습니다. 향후 실내장식 미리보기, 도시계획, 문화유산 보호 등의 시나리오를 이러한 역량을 바탕으로 신속하게 구축하고 복원할 수 있습니다.

Hunyuan World Model 2.0은 3D를 주축으로 삼고 통일된 공간 이해, 생성 및 재구성 아키텍처를 통해 SOTA 수준의 생성 효과를 달성합니다. 다른 세계 모델과 비교하여 Hunyuan World Model 2.0은 장면 완성도(객체의 측면 및 후면)와 입력 이미지 준수 측면에서 더 나은 성능을 발휘합니다. Hunyuan에서 생성된 3DGS와 메시의 하이브리드 표현을 통해 사용자는 실제 객체 충돌과의 상호 작용을 위해 캐릭터 모드를 켤 수도 있습니다.