엔비디아 자율주행 총괄이 “테슬라와 웨이모를 뛰어넘는” 로드맵을 자세히 설명한다

NVIDIA 자동차 비즈니스 리더우 신저우6개월 정도마다 자율주행 시스템이 "충분히 자신감"을 갖게 되는 지점까지 반복되면 CEO인 Huang Jen-Hsun은 실제 도로 테스트를 위해 자동차에 초대될 것입니다. 가장 최근 두 사람은 MB.Drive Assist Pro 핸즈프리 운전 보조 시스템을 탑재한 메르세데스-벤츠 CLA를 타고 캘리포니아주 우드사이드에서 샌프란시스코 시내까지 운전했습니다. 이 시스템은 부분적으로 NVIDIA에 의해 설계되었으며 형태적으로 Tesla의 "완전 자율 주행"(FSD)과 매우 유사합니다.

도로에 교통 정체가 많았음에도 불구하고 차 안은 여유로운 분위기였습니다. Huang Renxun은 시스템이 자율 주행 모드에 들어간 후 "안전에 대한 걱정이 줄어들기 시작했다"고 농담하기도 했습니다.

이후 엔비디아는 메르세데스-벤츠가 건설 도로, 불법 주차 차량, 주황색 원뿔로 막힌 좁은 도로 등 복잡한 일상 도시 장면을 주행하는 22분 분량의 차량 내 영상을 언론에 제공했습니다. 시스템은 매우 원활하게 작동했지만, 영상이 편집되어 완전한 녹화가 되지 않았습니다. Nvidia의 대변인은 나중에 전체 여정 동안 수동 개입이 필요한 시스템 "인계 실패"가 없다고 강조했습니다. 저자는 이전에 샌프란시스코에서 Nvidia 임원들과 함께 자동차에서 유사한 시스템을 경험했으며 신호등, 4방향 교차로, 불법 주차 차량, 보호되지 않은 좌회전, 보행자, 자전거 및 스쿠터 사이에서 작동하는 능력에 깊은 인상을 받았습니다. 그는 Tesla가 이미 카메라와 칩을 사용한 솔루션을 실행했다는 전제하에 세계에서 가장 가치 있는 칩 회사가 동일하거나 더 나은 시스템을 만드는 것이 어렵지 않다고 믿습니다.

수년간의 "비하인드 스토리 강화" 이후 Nvidia는 자율 주행 산업 무대의 중심에 적극적으로 자리 잡기 시작했습니다. 테슬라 등 자동차 업체에 자동차급 칩을 지속적으로 공급하는 것 외에도 자체 개발한 AI 주행 기능을 플랫폼에 패키징해 메르세데스-벤츠, 재규어랜드로버, 루시드 등 파트너사에도 제공하고 있다. 올해 초 CES에서 Huang Renxun은 특정 조건에서 차량이 L4 자율 주행을 달성할 수 있도록 하는 것을 목표로 AI 모델, 시뮬레이션 청사진 및 데이터 세트를 다루는 "Alpamayo"라는 자율 주행 개발 포트폴리오를 발표했습니다. 그는 심지어 이 노드를 "실제 세계 AI의 ChatGPT 순간"이라고 불렀습니다.

그러나 차 안에서 Wu Xinzhou와 이야기를 나눌 때 Huang Renxun은 기자회견에서 오만함을 억제하고 침착하게 반성하는 것을 선호했지만 여전히 기술의 미래에 대해 매우 낙관적이었습니다. 그는 알파마요의 힘은 환경에 대해 추론하는 능력에 있지만 실제 어려움은 "알파마요가 무엇을 할 수 없는지 모른다"는 점에 있기 때문에 여전히 전통적인 "고전 기술 스택"과 깊이 통합될 필요가 있음을 인정했습니다. 그의 견해로는 엔지니어링 관점에서 완전히 엔드투엔드 대형 모델의 안전성을 입증하는 것은 어려운 반면, 기존 기술 스택은 성숙한 엔지니어링 프로세스를 기반으로 하며 특정 동작을 안전하게 검증하는 데 더 도움이 됩니다. 이 두 가지를 결합하면 인간에 가까운 운전 스타일을 달성할 수 있을 뿐만 아니라 전통적인 교통 규칙의 틀 내에서 행동을 제한할 수도 있습니다. 업계의 다른 자율주행 기업들도 엔드투엔드 신경망 위에 명시적인 안전 규칙을 오버레이하고 있지만 엔드투엔드 학습은 업계에서 새로운 트렌드가 되고 있습니다. Waymo는 하이브리드 접근 방식을 채택하고 Tesla는 거의 전적으로 엔드투엔드 네트워크에 투자하고 있습니다.

Wu Xinzhou는 인터뷰에서 엔드 투 엔드 모델이 과속 방지턱, 차선 변경 등 섬세한 장면을 처리할 때 기계적인 느낌과 '로봇적' 지연을 줄일 수 있으며 실제 운전의 리듬에 더 가깝다고 말했습니다. 그가 'ChatGPT 모멘트'를 강조한 이유다. “자동차가 자신 있게 작동할 때만 사용자는 자동차를 계속 사용할 의향이 더 커질 것입니다.”라고 그는 말했습니다.

Tesla와 비교했을 때 Wu Xinzhou는 반대자들의 안전 논란에 대해 공개적으로 논평하기보다는 Nvidia의 차이점을 센서 조합과 시스템 아키텍처에 더 많이 두었습니다. Tesla FSD는 지금까지 85억 마일이 넘는 도로 테스트를 축적했지만 수많은 심각한 안전 사고에도 연루되었습니다. 규제 당국은 이 차량이 23건의 부상과 최소 2건의 치명적인 사고에 연루된 것으로 지정했습니다. NVIDIA 임원은 작년에 회사가 내부적으로 비교 테스트를 위해 자체 시스템과 Tesla FSD를 사용했다고 밝혔습니다. 운전자 인수 횟수로 판단하면 두 가지 모두 서로 다른 시나리오에서 고유한 장점이 있었습니다.

Wu Xinzhou는 NVIDIA가 "다중 소스 중복" 센서 조합 사용을 고집한다고 강조했습니다. 카메라와 밀리미터파 레이더 외에도 초음파 센서도 배치되고 LiDAR는 더 높은 구성에 추가될 것입니다. 그의 견해로는 다양한 센서의 중복성과 다양성이 극단적인 엣지 시나리오를 보완하고 전반적인 보안 중복성을 향상시키는 열쇠입니다. 물론 센서가 많을수록 전체 시스템, 특히 라이더의 하드웨어 비용이 높아지기 때문에 안전 사양이 가장 높은 솔루션이 고가의 고급차에만 등장할 것이라는 우려가 제기됩니다. 이와 관련하여 Wu Xinzhou는 NVIDIA의 "수직 통합" 솔루션과 센서 가격의 전반적인 하락 추세에 의존하면 안전 성능을 "가능한 최저" 비용 범위로 줄일 수 있다고 믿습니다.

그는 NVIDIA의 DRIVE Hyperion 플랫폼이 설계 초기부터 다단계 구성을 지원했다고 소개했습니다. 보급형 버전은 카메라와 레이더를 기반으로 한 단순화된 솔루션을 사용합니다. 10년 이상의 대량 생산 이후 이러한 장치의 가격은 크게 떨어졌으며 초음파 센서 자체도 매우 저렴합니다. 더 높은 수준의 자율 주행을 위해 플랫폼은 필요에 따라 LiDAR와 겹쳐질 수 있습니다. 이런 유형의 센서 가격이 계속 하락하고 있기 때문에 $40,000~$50,000 가격대의 대량 생산 모델에 완전한 센서 스택을 장착하는 것은 상상할 수 없는 일이 아니라고 생각합니다.

최근 샌프란시스코 등지에서 발생한 Waymo의 안전 사고(예: 정전으로 인해 교차로 신호가 실패하여 자율주행 택시가 교차로를 막는 등)에 대해 Wu Xinzhou는 이러한 극단적인 사례를 Nvidia가 시뮬레이션 환경으로 옮겨 반복적으로 추론했다고 말했습니다. 대규모의 자가용 차량을 보유하고 있는 Tesla나 공공 도로에서 거의 2억 마일에 가까운 완전 자율 주행을 축적한 Waymo와 달리 Nvidia는 실제 도로 테스트 데이터에 우위가 없기 때문에 "합성 데이터" 및 고충실도 시뮬레이션에 대한 인프라 투자에 더 많은 관심을 기울이고 있습니다.

시뮬레이션 전략 측면에서 NVIDIA는 주로 두 가지 방법을 채택합니다. 첫 번째는 '신경 재건(NuRec)'입니다. 엔지니어는 실제 차량에서 수집한 센서 데이터를 사용하여 사실적인 3차원 도로 장면을 재구성함으로써 시스템이 가상 환경에서 특정 실제 도로 상황을 반복적으로 경험할 수 있도록 합니다. 두 번째는 "향상"입니다. 즉, 보행자의 시간, 속도, 위치를 조정하는 등 재구성된 장면의 변수를 지속적으로 수정하여 미묘한 차이만 있는 일련의 새로운 상황을 생성하여 조금씩 변화하는 다양한 조건에서 시스템의 동작을 관찰합니다. 이 프로세스를 내부적으로 데이터 세트 "퍼지화"라고 합니다. Nvidia는 파트너로부터 운전 녹화 영상을 얻을 뿐만 아니라 Waymo가 겪은 교통 정체와 같은 공개 이벤트 장면을 시뮬레이션으로 재현하여 "집단 방해"와 유사한 행동 패턴을 사전에 피하는 방법을 학습하도록 시스템을 교육합니다.

그러나 Wu Xinzhou의 비전에서 미래의 진정으로 이상적인 자율 주행 시스템은 모든 극단적인 경우를 포괄하기 위해 끝없는 실제 차량 도로 테스트 데이터에 의존해서는 안 되며, 규칙과 제한된 경험을 유추하여 대처 전략을 "추론"하고 도출할 수 있는 능력을 갖추어야 합니다. 이를 위해 그의 팀은 시각적 인식, 언어 이해 및 물리적 행동을 동일한 아키텍처로 통합하고 인터넷 수준의 데이터로 훈련된 기본 대형 모델을 사용하여 차량에 더 강력한 이해 및 추론 기능을 제공하는 "Vision Language Action"이라는 새로운 모델을 개발하고 있습니다. Wu Xinzhou는 이를 인간이 운전을 배우는 것에 비유했습니다. 먼저 교통 규칙 매뉴얼을 읽고 도로에서 20시간 동안 연습하십시오. 대부분의 신규 운전자는 이미 도로에서 자격을 갖추고 있으며, 경험을 통해 계속해서 발전합니다. "우리의 목표는 모델이 동일한 작업을 수행할 수 있도록 하는 것입니다. 앞으로는 규칙서와 20시간의 훈련 데이터만 있으면 운전을 배울 수 있을 것입니다."라고 그는 말했습니다.

Tesla, Waymo 등의 선두주자가 이미 앞서 달리고 있는 트랙에서 NVIDIA는 "칩 + 플랫폼 + 모델 + 시뮬레이션"의 완전한 조합을 통해 주행거리와 경험의 격차를 줄이고, 막후의 "컴퓨팅 인프라 구축자"에서 자율주행 기술 경로 및 안전 표준을 설정하는 중요한 설정자로 변모하려고 노력하고 있습니다. Jen-Hsun Huang과 Xinzhou Wu의 경우 "실제 세계에서 AI의 ChatGPT 순간"에 대한 도박이 이제 막 출발선을 넘었습니다.