2월 2일, OpenAI는 MacOS용 새로운 Codex 데스크톱 애플리케이션을 공식 출시했습니다. 이 애플리케이션은 지난 1년 동안 업계에서 인기를 끌었던 다중 에이전트 "에이전트 코딩" 방식을 로컬 개발 워크플로우에 체계적으로 통합했습니다. 새로운 애플리케이션은 아이디어에서 실행 가능한 소프트웨어까지 전체 개발 주기를 단축하는 것을 목표로 다중 에이전트 병렬 협업, 자동화된 작업 예약 및 사용자 정의 가능한 에이전트 특성에 중점을 둡니다.

지난 1년 동안 소프트웨어 개발 분야에서 AI의 영향력은 급속히 확대됐다. 많은 양의 수동 프로그래밍 작업은 주 에이전트와 하위 에이전트로 구성된 "에이전트 그룹"에 의해 인계되고 있습니다. 개발자들은 또한 새로운 인간-기계 협업 인터페이스와 작업 양식을 적극적으로 실험하고 있습니다. 이러한 추세에 따라 독립적인 프로그래밍 경험에 중점을 둔 클로드 코드(Claude Code), 코워크(Cowork) 등의 애플리케이션이 개발자들의 마음을 사로잡는 데 앞장섰고, OpenAI는 이를 따라잡기 위해 코덱스(Codex) 도구의 진화를 추진하고 있다. 코덱스는 지난해 4월 명령줄 도구로 처음 출시됐고, 한 달 뒤 웹 인터페이스로 확장됐다.
이번에 출시된 MacOS 애플리케이션은 OpenAI가 경쟁사를 '따라잡거나 심지어 추월'하기 위한 핵심 단계로 평가됩니다. 공식 소개에 따르면 Codex 앱의 새 버전은 다중 에이전트 협업에 최적화되어 동시에 로컬에서 여러 에이전트 실행을 지원하고 에이전트 스킬과 같은 최첨단 워크플로 구성 요소를 통합하므로 개발자는 다양한 전문 지식을 가진 에이전트를 조율하고 예약하여 동일한 인터페이스에서 복잡한 작업을 완료할 수 있습니다.
새로운 애플리케이션의 출시는 OpenAI의 현재 가장 강력한 코드 생성 및 이해 모델이기도 한 GPT-5.2-Codex 모델이 온라인에 공개된 지 두 달도 채 되지 않아 출시되었습니다. 회사는 보다 강력한 기본 모델과 보다 유연하고 직관적인 데스크톱 애플리케이션 인터페이스의 결합을 통해 현재 Claude Code와 같은 경쟁 제품을 사용하는 일부 개발자가 Codex 생태계로 마이그레이션할 수 있기를 바라고 있습니다. OpenAI CEO인 샘 알트만(Sam Altman)은 언론 통화에서 복잡한 프로젝트에서 어려운 작업을 수행하고 싶다면 "5.2가 현재 가장 강력한 모델"이라고 말했다. 진짜 과제는 사용하기 쉬운 인터페이스를 통해 이 기능을 더 많은 개발자에게 제공하는 방법입니다.
그러나 업계 벤치마크는 GPT-5.2의 성능 이점에 대해 더 복잡한 그림을 제공합니다. 명령줄 프로그래밍 작업을 위한 TerminalBench 목록에서는 현재 GPT-5.2가 1위를 차지하고 있지만 Gemini 3 및 Claude Opus와 같은 모델은 비슷한 점수를 가지며 그 차이는 오차 범위 내에 있습니다. 실제 소프트웨어 결함 복구 시나리오에 대한 SWE-벤치 테스트에서도 각 헤드 모델의 전반적인 성능이 비슷한 것으로 나타났으며, GPT-5.2가 압도적인 우위를 가지고 있다고 결론짓기는 어렵습니다. 반면, 다중 에이전트 시나리오의 실제 사용 경험에 대한 성숙한 정량적 평가 방법이 아직 부족하고, 서로 다른 모델 간의 실제 사용자 경험의 차이를 통합 지표로 측정하기가 어렵습니다.
특정 기능 수준에서 OpenAI는 Codex 앱의 새 버전이 "더 강력한 모델을 위한 셸"일 뿐만 아니라 효율성과 개인화를 중심으로 설계된 일련의 새로운 기능을 제공한다고 강조했습니다. 사용자는 사전 설정된 일정에 따라 특정 작업이 자동으로 실행되도록 애플리케이션에서 백그라운드 자동화 프로세스를 구성할 수 있으며, 결과는 개발자가 데스크탑으로 돌아올 때 중앙 집중식 검토 및 처리를 용이하게 하기 위해 대기열에 요약됩니다. 또한 이 애플리케이션은 다양한 개발자의 작업 선호도와 의사소통 습관에 맞게 에이전트에 대한 다양한 "개성" 설정(예: 실용적인 실행 또는 보다 공감적인 상호 작용 스타일)을 선택할 수 있도록 지원합니다.
Altman은 이러한 도구가 가져온 개발 효율성의 도약에 대해 야심찬 설명을 했습니다. 그의 견해에 따르면 새로운 Codex 앱을 사용하면 개발자는 빈 종이에서 시작하여 단 몇 시간 만에 상당히 복잡한 소프트웨어 작업을 완료할 수 있습니다. 실제 병목 현상은 프로그래밍 자체에서 인간이 "새로운 아이디어를 입력하는 속도"로 이동했습니다. 그는 개발자가 계속해서 새로운 요구 사항과 아이디어를 제시할 수 있는 한 시스템은 이러한 아이디어를 비슷한 속도로 실행 가능한 기능 모듈로 변환할 수 있다고 말했습니다.
다중 에이전트 자율 프로그래밍이 급속도로 확산되는 상황에서 MacOS 버전의 Codex 출시는 OpenAI가 데스크톱 개발 도구의 핵심 진입자로서의 위치를 되찾기 위해 노력하고 있음을 의미합니다. 모델 강점의 격차가 줄어들고 벤치마크 테스트에서 확실한 우위를 점하기 어려운 상황에서, 누가 제품 형태와 실제 개발 경험에서 우위를 점할 수 있는지가 새로운 AI 프로그래밍 경쟁의 핵심 변수가 되고 있다.