Amazon, 웹 브라우저 제어할 수 있는 AI 에이전트 Nova Act 출시

아마존은 월요일 웹 브라우저를 제어하고 몇 가지 간단한 작업을 독립적으로 수행할 수 있는 범용 AI 에이전트인 NovaAct를 공개했습니다. Amazon은 새로운 에이전트 AI 모델 외에도 개발자가 NovaAct를 사용하여 에이전트 프로토타입을 구축할 수 있는 도구 키트인 NovaActSDK도 출시했습니다.

Amazon이 샌프란시스코에 새로 오픈한 AGI Labs에서 개발된 NovaAct는 Amazon의 인기 음성 비서에 대한 생성적 AI 향상 기능인 Alexa+로의 향후 업그레이드를 위한 핵심 기능도 제공할 것입니다. 하지만 오늘부터 출시되는 NovaAct 버전은 약간 열악합니다. 아마존은 이를 연구 미리보기라고 부릅니다.

개발자는 Amazon의 다양한 Nova 기본 모델을 소개하는 새로운 웹사이트 nova.amazon.com을 통해 NovaAct 툴킷에 액세스할 수 있습니다.

NovaAct는 자체 일반 인공 지능 에이전트 기술을 활용하여 OpenAI의 Operator 및 Anthropic의 ComputerUse와 경쟁하려는 Amazon의 시도입니다. 몇몇 주요 기술 기업은 사용자를 위해 웹을 탐색할 수 있는 AI 에이전트가 오늘날의 AI 챗봇을 더욱 유용하게 만들 것이라고 믿습니다.

Amazon이 이러한 종류의 에이전트 기술을 최초로 개발한 것은 아닐 수도 있지만 Alexa+를 사용하면 그 범위가 가장 넓을 수 있습니다.

Amazon은 NovaAct SDK를 사용하여 구축하는 개발자가 사용자를 대신하여 Sweetgreen에서 샐러드를 주문하거나 저녁 식사를 예약하는 등의 기본 작업을 자동화할 수 있어야 한다고 말합니다. NovaAct 툴킷을 사용하면 개발자는 AI 에이전트가 웹을 검색하고, 양식을 작성하고, 달력에서 날짜를 선택할 수 있는 도구를 통합할 수 있습니다.

Amazon은 NovaAct가 회사 내 여러 테스트에서 OpenAI 및 Anthropic 에이전트보다 성능이 뛰어났다고 주장합니다. 예를 들어, AI 에이전트가 화면의 텍스트와 상호 작용하는 방식을 측정하는 ScreenSpot WebText에서 NovaAct는 94%를 기록했으며 이는 OpenAI의 CUA(88%) 및 Anthropic의 Claude3.7Sonnet(90%)보다 높습니다.

그러나 Amazon은 WebVoyager와 같은 보다 일반적인 프록시 평가를 사용하여 NovaAct를 벤치마킹하지 않았습니다.

NovaAct는 위에서 언급한 Amazon의 AGI 연구소에서 출시한 최초의 공개 제품입니다. 이 프로젝트는 전 OpenAI 연구원인 David Luan과 Pieter Abbeel이 공동으로 주도하고 있습니다. 두 사람 모두 이전에 자체 스타트업을 설립했습니다. Luan은 Adept를 설립했고 Abbeel은 Covariant를 공동 설립했습니다. Amazon은 작년에 AI 에이전트 활동을 이끌기 위해 그들을 고용했습니다.

AGI Labs가 SweetGreen을 주문할 수 있는 AI 에이전트를 개발한다는 것이 이상하게 보일 수도 있지만 Luan은 에이전트가 초지능 AI 시스템을 만드는 데 중요한 단계라고 믿습니다. Luan은 AGI를 "인간이 컴퓨터에서 수행하는 모든 작업을 수행하는 데 도움을 줄 수 있는 AI 시스템"으로 정의합니다.

Luan은 그의 팀이 NovaActSDK를 설계하여 짧은 작업을 안정적으로 자동화하고 개발자에게 에이전트 워크플로에서 사람의 개입이 필요한 시기를 정확하게 정의할 수 있는 도구를 제공했다고 말했습니다. 그는 이를 통해 개발자가 완전히 자율적인 프록시 애플리케이션은 아니지만 보다 안정적인 프록시 애플리케이션을 만들 수 있기를 희망합니다.

Amazon은 혼잡한 시장에서 최초의 일반 인공지능 에이전트를 출시했지만 이는 회사가 큰 기대를 갖고 있는 핵심 기술입니다. NovaAct의 초기 테스트를 통해 오랫동안 지연된 Alexa+의 일부 기능을 엿볼 수 있으며 Amazon의 인공 지능 노력의 성패를 알 수 있습니다.

OpenAI, Google 및 Anthropic의 초기 AI 에이전트의 주요 문제는 다양한 도메인에서의 안정성입니다. TechCrunch의 테스트에서 이러한 시스템은 느리고 장기간 독립적으로 실행하기 어려웠으며 인간이 저지르지 않는 실수를 저지르는 경향이 있었습니다. Amazon이 코드를 해독했는지, 아니면 에이전트가 경쟁사를 괴롭혔던 것과 동일한 결함으로 어려움을 겪고 있는지 곧 알게 될 것입니다.