Google DeepMind, '생성 AI'를 재정의하는 세계 모델 Genie 3 출시

Google DeepMind는 전례 없이 다양한 대화형 환경을 생성하고 텍스트 프롬프트를 제공할 수 있는 3세대 범용 세계 모델 Genie 3의 출시를 월요일 발표했습니다. Genie 3는 초당 24프레임으로 실시간 탐색이 가능하고 720p 해상도에서 몇 분 동안 일관성을 유지할 수 있는 역동적인 세계를 생성할 수 있습니다.

Genie 3는 처음에는 중요한 피드백을 수집하기 위해 소수의 학자 및 창작자 그룹에게 제한된 연구 미리 보기로 제공될 예정입니다.

지니 3 브레이크스루

DeepMind는 시뮬레이션 환경 분야에서 10년 이상의 경험을 축적해 왔습니다. 실시간 전략 게임을 플레이하기 위한 AI 훈련부터 로봇을 위한 개방형 학습 환경 개발에 이르기까지 이러한 연구는 모두 강력한 세계 모델 구축이라는 공통 목표를 지적합니다.

Genie 3는 실시간 상호 작용이 가능한 최초의 세계 모델로, Genie 1/2 등의 이전 세대 모델과 Veo 2 등의 비디오 생성 모델에 비해 향상된 일관성과 사실성을 제공합니다. Veo 3의 직관적인 물리학에 대한 깊은 이해

특성	지니 2	베오	지니 3
해결	360p	720p~4K	720p
필드	3D 환경	만능인	만능인
제어방식	제한된 키보드/마우스	비디오 레벨 설명	실시간 탐색; 신속한 세계 이벤트
상호작용 기간	10~20초	8초	몇 분
상호작용 지연	실시간이 아님	해당 없음	실시간

핵심역량

세계의 물리적 특성 시뮬레이션: Genie 3는 물리 법칙을 깊이 이해하고 있으며 물의 흐름, 빛과 그림자의 변화, 절벽과 폭포 주위를 조심스럽게 조종하는 헬리콥터와 같은 복잡한 환경 상호 작용을 현실적으로 시뮬레이션할 수 있습니다.

자연 세계 시뮬레이션: 빙하 호수 기슭의 생동감 넘치는 생태계부터 환상 세계의 무지개 다리를 뛰어다니는 사랑스러운 털복숭이 생물까지, Genie 3는 상상을 탐험 가능한 현실로 바꿔줍니다.

애니메이션 및 참신한 모델링: 상상력을 사용하여 환상적인 장면과 표현력이 풍부한 애니메이션 캐릭터를 만들 수 있습니다.

다양한 지역 및 역사적 장면 탐색: 모델은 지리적, 시간적 제약을 초월하여 사용자가 윙수트를 입고 눈 덮인 산 위를 날거나 오랜 역사를 지닌 고대 도시에 몰입하든 상관없이 다양한 장소와 역사적 시대를 탐색하도록 유도할 수 있습니다.

실시간 성능의 한계 극복: 높은 수준의 제어 가능성과 실시간 상호 작용을 달성하려면 각 프레임의 자동 회귀 생성 중에 모델은 시간이 지남에 따라 증가하는 이전에 생성된 궤적을 고려해야 합니다. 예를 들어 사용자가 1분 후에 해당 위치를 다시 방문하는 경우 모델은 1분 전의 관련 정보를 참조해야 합니다. 실시간 상호 작용을 달성하려면 새로운 사용자 입력이 도착할 때마다 이 계산을 초당 여러 번 수행해야 합니다.

장기적인 환경 일관성: AI가 생성한 세계가 몰입도를 높이려면 오랜 기간 동안 물리적 일관성을 유지해야 합니다. 그러나 자동 회귀를 사용하여 환경을 생성하는 것은 시간이 지남에 따라 부정확성이 누적되는 경향이 있기 때문에 전체 비디오를 생성하는 것보다 더 어려운 기술적 문제인 경우가 많습니다. Genie 3 환경은 몇 분 동안 대체로 일관되며 시각적 기억은 1분 전으로 거슬러 올라갑니다. Genie 3가 생성한 세계는 사용자의 세계 설명과 행동을 기반으로 프레임별로 생성되기 때문에 더욱 역동적이고 풍부해졌습니다.

Promptable World Events: 내비게이션 입력 외에도 Genie 3는 Promptable World Events라는 보다 표현력이 풍부한 텍스트 기반 상호 작용 형식도 지원합니다. 큐 가능한 세계 이벤트는 기상 조건을 변경하거나 새로운 개체 및 캐릭터를 도입하는 등 생성된 세계를 변경하여 내비게이션 제어 경험을 향상시킬 수 있습니다. 또한 이 기능은 에이전트가 예상치 못한 상황을 처리하기 위해 경험을 통해 학습하는 데 사용할 수 있는 반사실적 또는 "가상" 시나리오의 폭을 넓혀줍니다.

체화된 지능 강화 연구

Genie 3의 궁극적인 목표 중 하나는 구체화된 에이전트를 위한 무한히 풍부한 훈련 환경을 제공하는 것입니다. DeepMind는 범용 에이전트 SIMA와 함께 이를 테스트했습니다. 연구원은 SIMA에 목표(예: 빵집에서 산업용 믹서 찾기)를 부여할 수 있으며 SIMA는 Genie 3에 탐색 지침을 보내 작업을 완료하려고 시도합니다. Genie 3는 실제 세계와 같으며 SIMA의 행동을 기반으로 실시간 피드백 결과를 제공하므로 에이전트는 수많은 가정 시나리오에서 학습하고 성장할 수 있습니다.

현재 제한 사항

Genie 3의 현재 제한사항:

제한된 행동 공간: 에이전트의 직접 행동 범위는 여전히 제한되어 있습니다.

다중 에이전트 시뮬레이션 부족: 여러 독립 에이전트 간의 복잡한 상호 작용을 정확하게 시뮬레이션하기 어려움

불충분한 지리적 정확성: 실제 지리적 위치를 완벽하게 복제할 수 없습니다.

불량한 텍스트 렌더링: 생성된 텍스트는 초기 프롬프트에서 지정하지 않는 한 종종 흐릿합니다.

제한된 상호 작용 기간: 현재 몇 시간이 아닌 몇 분의 지속적인 상호 작용을 지원합니다.