Toyota Research Institute(TRI)는 "Robotic Kindergarten"에서 생성 인공 지능을 사용하여 수백 시간의 프로그래밍 및 버그 수정 없이 로봇에게 아침 식사를 만들거나 최소한 아침 식사를 만드는 데 필요한 개별 작업을 가르치도록 했습니다. 대신 연구자들은 로봇에게 촉각을 부여하고 인공 지능 모델에 연결한 다음 인간처럼 무엇을 해야 하는지 가르쳐줌으로써 짧은 시간 안에 이를 달성했습니다.

연구원들은 터치가 "핵심 조력자"라고 말합니다. 아래 비디오에서 볼 수 있는 베개 모양의 엄지손가락을 로봇이 확장하게 함으로써(그들의 말이 아닌 내 말이), 모델은 자신이 하는 일을 "느끼고" 더 많은 정보를 얻을 수 있습니다. 이는 눈으로만 보는 것보다 어려운 작업을 더 쉽게 수행할 수 있게 해줍니다.

연구실의 능숙한 운영 부서 관리자인 Ben Burchfiel은 "그들이 환경과 상호 작용하는 것을 보는 것은 매우 흥미롭습니다."라고 말했습니다. 먼저 '교사'가 일련의 기술을 시연한 다음 '몇 시간에 걸쳐' 모델이 백그라운드에서 학습합니다. "우리는 종종 오후에 로봇을 가르치고, 밤새도록 학습시킨 후 다음날 아침에 로봇의 새로운 행동을 확인합니다."라고 그는 덧붙였습니다.

연구원들은 로봇을 위한 "대형 행동 모델"(LargeBehaviorModels) 또는 LBM을 만들려고 노력하고 있다고 말합니다. MIT의 로봇 공학 교수이자 TRI의 로봇 연구 부사장인 Russ Tedrake는 "LLM이 인간의 쓰기 패턴을 기록하여 훈련하는 방식과 유사하게 Toyota의 LBM은 관찰을 통해 학습한 다음 "일반화하여 배운 적이 없는 새로운 기술을 수행"할 것입니다.

연구원들은 이 과정을 통해 "액체 붓기, 도구 사용하기, 변형 가능한 물체 조작하기"와 같은 60개 이상의 까다로운 기술을 훈련했다고 말합니다. 그들은 2024년 말까지 이 숫자를 1,000개로 늘리기를 희망하고 있습니다.

Google과 Tesla는 RoboticTransformerRT-2를 사용하여 유사한 연구를 수행해 왔습니다. Toyota 연구원의 접근 방식과 유사하게 그들의 로봇은 자신의 경험을 사용하여 작업 수행 방법을 추론합니다. 이론적으로 AI 훈련 로봇은 인간에게 일반적인 지침(예: "유출물 청소")을 제공하는 것 외에는 거의 지침 없이 작업을 수행할 수 있습니다.

그러나 New York Times가 거대 검색업체의 연구를 보도하면서 언급했듯이 Google의 봇은 적어도 아직 갈 길이 멀습니다. 이러한 종류의 작업은 종종 "느리고 노동 집약적"이며, 충분한 훈련 데이터를 제공하는 것은 AI 모델에 인터넷에서 다운로드한 대량의 데이터를 공급하는 것보다 훨씬 어렵습니다.