목요일 OpenAI는 차세대 기본 모델인 GPT‑5.4를 공식 출시하여 "현재까지 전문 작업을 위한 가장 강력하고 효율적인 최첨단 모델"이라고 평가했습니다. OpenAI는 표준 버전 외에도 복잡한 추론 기능을 강조하는 GPT‑5.4 Thinking과 고성능 애플리케이션 시나리오를 목표로 하는 GPT‑5.4 Pro의 두 가지 변형을 동시에 출시했습니다.

모델 기능 측면에서 GPT‑5.4의 API 버전은 이전에 OpenAI가 제공한 모델을 훨씬 능가하는 최대 100만 개의 토큰에 대한 컨텍스트 창을 지원합니다. 이는 긴 문서, 복잡한 프로젝트 또는 다단계 작업과 같은 긴 체인 워크플로를 처리하는 데 유용합니다. OpenAI는 또한 GPT-5.4가 이전 세대 모델과 동일한 난이도의 작업을 훨씬 적은 양의 토큰으로 완료할 수 있어 비용 및 응답 속도 측면에서 이점이 있다며 토큰 사용 효율성 향상을 강조했습니다.

최신 벤치마크 테스트 결과에 따르면 GPT‑5.4는 OSWorld-Verified 및 WebArena Verified의 두 가지 "컴퓨터 작동" 시나리오 테스트에서 새로운 기록을 세우고 OpenAI 자체 지식 작업 평가 세트 GDPval에서 최고 점수 83%를 달성하는 등 여러 권위 있는 평가에서 상당한 선두를 달성한 것으로 나타났습니다. GPT‑5.4는 또한 법률 및 금융과 같은 전문 기술에 대해 스타트업 Mercor가 설정한 APEX‑Agents 벤치마크에서도 1위를 차지했습니다.

Mercor의 CEO인 Brendan Foody는 성명서에서 GPT‑5.4가 프레젠테이션, 재무 모델, 법률 분석을 포함한 장기 결과물을 생성하는 데 탁월하며 "동급 최첨단 모델보다 더 빠르고 저렴한 비용으로 최고의 성능을 유지합니다"라고 밝혔습니다.

신뢰성 측면에서 GPT‑5.4는 "환상"과 사실 오류를 줄이기 위해 OpenAI의 연구 개발 방향을 이어갑니다. 공식 내부 평가 결과, 새로운 모델은 GPT-5.2와 비교하여 단일 진술 수준에서 오류 확률이 33% 감소했고, 전체 답변에서는 오류 확률이 18% 감소한 것으로 나타났습니다.

이 릴리스에는 중요한 API 계층 변경 사항도 함께 제공됩니다. OpenAI는 도구 검색이라는 새로운 도구 호출 메커니즘을 시작합니다. 이전 솔루션에서는 시스템 프롬프트가 사용 가능한 모든 도구의 정의를 모델에 한 번에 삽입해야 했습니다. 도구의 수가 증가함에 따라 프롬프트 자체의 이 부분은 많은 양의 토큰을 차지하게 됩니다. 새로운 도구 검색을 사용하면 모델이 필요에 따라 도구 정의를 쿼리할 수 있으므로 도구 크기가 더 큰 시스템의 오버헤드가 크게 줄어들고 호출이 더 빠르고 저렴해집니다.

안전성과 제어 가능성에 초점을 맞춘 OpenAI는 이번에 다단계 작업에서 모델의 "사고 사슬" 성능을 테스트하기 위해 새로운 안전성 평가를 추가했습니다. 연구자들은 추론 능력을 갖춘 모델이 연쇄 사고 과정에서 실제 추론 경로를 "위장"하거나 숨길 수 있다는 점을 오랫동안 우려해 왔습니다. 이전 연구에서는 이것이 실제로 특정 조건에서 발생할 수 있음을 보여주었습니다. OpenAI가 제공한 새로운 평가 결과에 따르면 GPT-5.4 Thinking 버전에서는 이러한 "기만적인" 성능이 발생할 가능성이 훨씬 더 낮습니다. "이는 모델이 추론 과정을 적극적으로 숨기는 능력이 부족하다는 것을 보여주며, 사고 사슬 모니터링은 여전히 ​​효과적인 보안 도구입니다."

OpenAI는 GPT‑5.4와 Pro 및 Thinking 버전의 동시 출시를 통해 전문적인 생산성, 비용 효율성 및 보안 제어 가능성 간의 새로운 균형을 찾으려고 노력하고 있으며 대형 모델을 법률, 금융, 지식 작업과 같은 고가치 시나리오로 더욱 발전시키고 있습니다.