NVIDIA Research는 OpenAI의 GPT-4를 기반으로 로봇에게 복잡한 기술을 자율적으로 가르칠 수 있는 새로운 인공지능 에이전트 "Eureka"를 개발했다고 오늘 발표했습니다.

구매 페이지를 방문하세요:

JD.com NVIDIA 시리즈 제품 요약

회사는 블로그 게시물을 통해 자체 보상 알고리즘을 작성할 수 있는 유레카가 인간처럼 빠른 펜 회전 기술을 수행하도록 로봇 손을 훈련시킨 최초의 사례라고 밝혔습니다. 유레카는 서랍과 캐비닛 열기, 공 던지고 잡기, 가위 조작 등 거의 30가지 작업을 로봇에게 가르쳤습니다.

NVIDIA 인공지능 연구 수석 이사이자 Eureka 논문의 저자인 Anima Anandkumar는 블로그 게시물에서 "강화 학습은 지난 10년 동안 인상적인 승리를 거두었지만 보상 설계와 같은 많은 과제가 여전히 시행착오 과정으로 남아 있습니다."라고 말했습니다. "Eureka는 생성 ​​학습과 강화 학습 방법을 통합하여 어려운 작업을 해결하는 새로운 알고리즘을 개발하는 첫 번째 단계입니다."

NVIDIA Research는 강화 학습 연구를 위한 물리 시뮬레이션 참조 애플리케이션인 NVIDIA AIsaacGym을 사용하여 실험을 수행할 수 있는 Eureka 인공 지능 알고리즘 라이브러리도 출시했습니다. IsaacGym은 OpenUSD 프레임워크를 기반으로 3D 도구 및 애플리케이션을 구축하기 위한 개발 플랫폼인 NVIDIA Omniverse를 기반으로 구축되었습니다.

올해 4월 Auto-GPT, BabyAGI, AgentGPT 등 자율형 인공지능 에이전트가 등장하는 등 인공지능 에이전트 열풍은 수개월째 계속되고 있다.

NVIDIA Research의 현재 작업은 Minecraft를 자율적으로 플레이할 수 있는 GPT-4를 사용하여 구축된 인공 지능 에이전트인 가장 최근의 Voyager를 포함한 이전 작업을 기반으로 합니다. 이번 주 New York Times는 챗봇을 온라인 에이전트로 전환하는 방법에 대한 기사를 게재했습니다. 브리티시 컬럼비아 대학의 컴퓨터 과학 교수이자 OpenAI의 전 연구원인 Jeff Clune은 "이것은 수조 달러의 수익을 창출할 수 있는 잠재력을 지닌 엄청난 비즈니스 기회입니다. 이는 엄청난 상승 여력과 사회에 큰 영향을 미칩니다."라고 말했습니다.

"유레카: 대규모 언어 모델을 인코딩하여 인간 수준의 보상 설계"라는 제목의 새로운 연구 논문에서 저자는 "유레카는 GPT-4와 같은 최첨단 LLM의 탁월한 영점 생성, 코드 작성 및 컨텍스트 개선 기능을 활용하여 보상 코드를 발전시킵니다."라고 말합니다.

결과 보상은 강화 학습을 통해 복잡한 기술을 습득하는 데 사용될 수 있습니다. "작업별 프롬프트나 사전 정의된 보상 템플릿이 없는 경우 Eureka에서 생성된 보상 기능은 인간이 설계한 전문가 보상보다 성능이 뛰어납니다. 10가지 로봇 형태가 포함된 29개 오픈 소스 RL 환경 세트에서 Eureka는 작업의 83%에서 인간 전문가보다 뛰어난 성능을 보였으며 평균 정규화 개선율은 52%였습니다."

NVIDIA의 수석 연구 과학자이자 프로젝트에 기여한 Jim Fan은 블로그 게시물에서 "Eureka는 대규모 언어 모델과 NVIDIA의 GPU 가속 시뮬레이션 기술의 독특한 조합입니다."라고 말했습니다. "우리는 Eureka가 능숙한 로봇 제어를 가능하게 하고 아티스트에게 물리적으로 사실적인 애니메이션을 만들 수 있는 새로운 방법을 제공할 것이라고 믿습니다."