2024년에는 대형 모델의 지속적인 급증과 더불어 로봇의 발전도 정점을 맞이하게 될 것이다. "로봇 팔을 물리적 입출력 장치로 활용하는 멀티모달 LLM, 시스템1과 시스템2 사이의 격차를 해소하는 알고리즘..." 로봇 기술은 2024년 더욱 빠르게 발전할 것이다.
지난해 말 엔비디아의 '인터넷 유명 연구원'이자 오픈AI의 첫 인턴인 짐 팬(Jim Fan)은 트위터를 통해 대형 모델 외에 2024년 가장 중요한 것은 로봇이라고 밝혔다. ChatGPT가 구현된 지능의 시대까지는 아직 3년 정도 남았습니다.
짐은 오랫동안 사람들이 '모라벡의 역설'(Moravec's paradox)로 고민해 왔다고 지적했는데, 이는 사람에게는 직관에 어긋나는 현상, 즉 '사람이 쉽다고 생각하는 작업이 인공지능에게는 극도로 어렵고, 그 반대도 마찬가지'라는 현상이다.
그러나 Jim은 2024년이 인공지능 커뮤니티가 이러한 역설에 맞서기 위해 등장하는 첫 해가 될 것이라고 낙관적으로 예측합니다. 짐은 “당장 승리하지는 못하겠지만 승리를 향한 길을 가겠다”고 말했다.
동시에 Jim은 2023년 미래 로봇을 위한 기본 모델 및 플랫폼 개발을 다음과 같이 나열했습니다.
1. 로봇 팔을 물리적 입출력 장치로 사용하는 다중 모드 LLM: VIMA, PerAct, RvT(NVIDIA), RT-1, RT-2, PaLM-E(Google), RoboCat(DeepMind), Octo(Berkeley, Stanford, CMU) 등
2. System1(저수준 제어 담당)과 System2(고수준 추론 담당)(시스템이 상위 수준 추론을 사용하여 결정을 내리고 이해하며 이러한 결정을 실제 운영 및 제어로 변환할 수 있도록 함) 사이의 격차를 해소하는 알고리즘: Eureka(NVIDIA), CodeasPolicies(Google) 등
3. 강력한 하드웨어의 놀라운 발전: Tesla Optimus Prime, Figure, 1X, Apptronik, Sanctuary, Agility+Amazon, Unitree 등
4. 데이터는 항상 로봇공학의 아킬레스건이었습니다. 연구계에서는 RT-X(OpenX-Embodiment) 데이터 세트 공개 등 차세대 ImageNet(인공지능 딥러닝 혁신을 위한 핵심 프로젝트)을 공동으로 계획하고 있습니다. 데이터 세트가 아직 충분히 다양하지는 않지만 이는 중요한 진전입니다.
5. 시뮬레이션 및 합성 데이터는 로봇의 민첩성 및 일반적인 컴퓨터 비전 문제를 해결하는 데 핵심적인 역할을 합니다.
(1) NVIDIA Isaac은 실시간보다 1,000배 빠르게 현실을 시뮬레이션할 수 있으며, 컴퓨팅 규모가 증가함에 따라 수신되는 데이터 스트림도 확장됩니다.
(2) 하드웨어 가속 레이 트레이싱을 통해 사실적인 효과를 얻을 수 있습니다. 사실적 렌더링에는 분할, 깊이, 3D 포즈 등과 같은 무료 지상 정보 주석도 함께 제공됩니다.
(3) 시뮬레이터는 실제 데이터를 확장하여 더 큰 데이터 세트를 생성할 수도 있으므로 비용이 많이 드는 수동 시연 작업을 크게 줄일 수 있습니다. MimicGen(NVIDIA)이 대표적인 예입니다.