NVIDIA는 실험실에서 GPU를 설치하고 케이블 타이를 자르도록 로봇을 훈련시키는 AI 자율 "코칭" 솔루션을 출시합니다

미국 현지 시간인 6월 17일, NVIDIA의 GEAR Lab(General Embodied Agent Research Laboratory)은 새로운 로봇 자체 개선 계획을 발표했습니다. AI 프로그래밍 에이전트로 구성된 '코칭 팀'을 통해 인간의 개입이 거의 없는 로봇 팔에 대한 훈련 프로세스를 설계하여 로봇이 플라스틱 끈을 자르고, 작은 부품을 정리하고, GPU를 마더보드 확장 슬롯에 정확하게 삽입하는 방법을 배울 수 있도록 하는 것입니다.

이 솔루션은 ENPIRE라는 "에이전트 하네스"를 기반으로 합니다. 이는 대형 모델을 감싸는 소프트웨어 셸과 같기 때문에 AI 프로그래밍 에이전트가 다양한 도구를 호출하고 메모리, 컨텍스트 관리, 제약 조건 제어 및 피드백 루프 기능을 통해 로봇 훈련 작업을 자동으로 계획, 실행, 평가 및 반복할 수 있습니다. Nvidia는 이 프레임워크가 Carnegie Mellon University 및 University of California, Berkeley의 연구원들과 협력하여 GEAR Lab 팀에 의해 개발되었다고 밝혔습니다.

NVIDIA AI 책임자인 Jim Fan은 이제 실험실의 일부가 밤에 "자체 개선"할 수 있으며 연구원들은 전날 밤 로봇의 진행 상황을 이해하기 위해 아침에 훈련 보고서를 확인하면 된다고 소셜 플랫폼에서 설명했습니다. 그는 반 농담으로 이상적인 세상에서는 "모든 사람이 휴가를 갈 것이지만 황런순은 이를 알지 못할 것"이라고 말했으며, 팀은 누구나 집에서 자신만의 "자체 운영 로봇 실험실"을 구축할 수 있도록 관련 결과를 공개할 계획이라고 말했습니다.

ENPIRE 프레임워크에는 현재 4개의 핵심 모듈이 포함되어 있습니다. 첫째, 로봇 작업에 대한 자동 재설정 및 결과 검증을 제공합니다. 둘째, 로봇 제어 전략을 자동으로 최적화합니다. 셋째, 여러 물리적 로봇에서 동시에 다양한 전략을 평가합니다. 넷째, 로그 분석, 논문 읽기, 훈련 인프라 및 알고리즘 코드 개선 등을 통해 훈련 실패 사례를 처리한다. 연구팀은 시스템의 구현 세부 사항과 실험 결과를 자세히 기술한 기술 논문을 6월 16일에 발표했습니다.

실험에서 연구원들은 OpenAI Codex 및 GPT‑5.5 기반 에이전트, Anthropic Claude Code Opus 4.7 기반 에이전트, Dark Side of the Moon(Moonshot AI) Kimi Code K2.6 기반 에이전트 등 세 가지 유형의 주류 AI 프로그래밍 에이전트를 도입했습니다. 이들 에이전트는 독립적으로 팀 단위로 다양한 알고리즘 개선 방안을 제안하고, 실제 로봇을 대상으로 훈련 실험을 진행하며, 전체적인 성공률을 높일 수 있는 변경 사항을 유지하며 계속해서 반복하게 됩니다.

결과는 ENPIRE의 스케줄링에 따라 AI 프로그래밍 에이전트가 다양한 로봇 팔 작업 작업에 대한 효과적인 자기 개선 전략을 자동으로 설계할 수 있음을 보여줍니다. 표준 Push-T 데스크탑 작업 작업에서 로봇은 T자형 빌딩 블록을 대상 영역으로 정확하게 밀어야 합니다. 다른 작업에서는 로봇이 바늘 상자에 작은 바늘을 정리하고, 플라스틱 끈을 묶고 자르거나, GPU를 마더보드 슬롯에 삽입하고 각 테스트 후에 다시 꺼내서 재설정해야 합니다. 여러 작업에서 시스템은 궁극적으로 99%의 성공률을 달성했으며, AI 기반 교육 프로그램은 핀 삽입 및 정렬 작업에 인간이 참여하는 "최첨단 인간 참여 접근 방식"보다 훨씬 빠르게 거의 100%의 성공률에 도달했습니다.

또한 실험에 따르면 에이전트 수를 늘리면 학습 프로세스가 크게 가속화될 수 있습니다. Push‑T 작업에서 8명의 에이전트로 구성된 팀은 단 2시간의 연구 시간 만에 성공률을 99%로 끌어올린 반면, 동일한 수준에 도달하려면 4명으로 구성된 팀은 3시간, 단일 에이전트는 거의 5시간이 필요했습니다. 그러나 연구자들은 다중 에이전트 협업의 효율성이 선형적으로 향상되지 않는다는 점도 발견했습니다. 에이전트 수가 늘어날수록 실제로 로봇이 훈련을 수행하도록 예약하는 것보다 요약하고 서로 통신하는 데 더 많은 시간이 소요됩니다.

연구팀은 또한 현재 시스템의 몇 가지 한계를 지적했습니다. 로봇은 오랜 시간 동안 실험대에서 유휴 상태로 AI 프로그래밍 에이전트가 로그를 읽고 코드를 작성 및 디버그하거나 기본 언어 모델이 응답할 때까지 기다립니다. 또한 병렬 훈련 측면에서 에이전트가 기존 컴퓨팅 리소스를 완전히 활용하지 못하는 경우가 있어 실험 처리량이 이론적 상한보다 낮습니다. 비용 측면에서 에이전트 수와 훈련 빈도의 증가는 토큰 소비량의 증가를 의미하기도 하며, 이는 현재 많은 AI 서비스 제공업체가 토큰 기반 과금 방식의 증가를 고려하고 있다는 사실과 직접적인 관련이 있습니다.

여전히 단점이 있지만 Nvidia는 소위 "물리적 AI"에 대한 야망을 분명히 높이고 있습니다. AI 물결이 가져온 풍부한 현금 흐름에 힘입어 회사는 여러 로봇 프로젝트에 계속 투자하고 있습니다. 올해 5월 말 NVIDIA는 중국 로봇 회사 Unitree의 경쟁사인 Unitree와 협력하여 일반 AI 로봇의 연구 개발을 위한 '범용 휴머노이드 로봇 참조 플랫폼'을 연구 기관에 제공하겠다고 발표했습니다. 황런쉰 회장은 올해 6월 초 한국을 집중 방문해 정의선 현대자동차그룹 회장과 만나 AI 로봇의 대규모 제조 확대 방안을 논의했다. 현대차는 앞서 4족 보행 로봇견 '스팟'으로 유명한 미국 기업 보스턴 다이내믹스를 인수하고, 2족 보행 휴머노이드 로봇 아틀라스의 상용화를 추진하고 있다.

이 길에서 엔파이어와 그 뒤를 잇는 AI 프로그래밍 에이전트 팀은 '자율주행 로봇 연구실'을 향한 핵심 구성요소로 꼽힌다. 그들은 시행착오, 매개변수 조정, 문헌 읽기 등 인간 전문가의 많은 작업을 AI에 넘겨주려고 노력하여 연구자들이 "아침 일일 검토" 역할을 더 많이 수행할 수 있도록 합니다. 관련 코드와 프레임워크의 오픈 소스를 통해 유사한 자율 훈련 시스템이 향후 대학, 기업, 심지어 개인 매니아들 사이에서 대중화될지 여부는 "물리 AI" 구현 속도를 관찰하는 중요한 창이 될 것입니다.