DeepSeekR1, Grok3 및 Claude3.7이 불과 1~2개월 만에 차례로 데뷔하면서 OpenAI는 어제와 목요일 점점 치열해지는 이 대형 모델 경쟁에 GPT-4.5를 추가했습니다. AI 개발 속도는 엄청나며, 모델 업데이트와 반복 주기는 지속적으로 압축됩니다. 산업계와 학계 모두 인공지능의 급속한 발전을 한탄하고 있다.
코드명 "Orion"인 GPT-4.5는 OpenAI가 지금까지 가장 많은 컴퓨팅 리소스와 데이터를 투자한 모델입니다. 이 출시는 업계에서 전통적인 사전 훈련 방법이 한계에 도달했는지에 대한 심층적인 생각을 촉발시켰습니다. OpenAI는 대규모 규모에도 불구하고 GPT-4.5를 최첨단 모델로 간주하지 않는다고 백서에서 지적했습니다.
2월 27일 목요일부터 OpenAI의 월 200달러 ChatGPTPro 요금제를 구독하는 사용자는 연구 미리 보기 단계 동안 ChatGPT에서 GPT-4.5를 사용할 수 있습니다. OpenAIAPI 유료 플랜을 사용하는 개발자도 오늘부터 GPT-4.5를 사용할 수 있습니다. 다른 ChatGPT 사용자와 마찬가지로 OpenAI 대변인은 TechCrunch에 ChatGPTPlus 및 ChatGPTTeam에 가입한 고객은 다음 주에 해당 모델에 액세스할 수 있을 것이라고 말했습니다.
(GPT-4o 및 GPT-4omini에 비해 GPT-4.5의 API 가격은 너무 비쌉니다.)
업계에서는 오리온을 숨죽여 기다려왔는데, 일각에서는 오리온을 전통적인 AI 훈련 방식의 타당성을 가늠하는 전조로 보고 있다. GPT-4.5의 개발은 OpenAI가 GPT-4, GPT-3, GPT-2 및 GPT-1을 개발하는 데 사용하는 것과 동일한 핵심 기술을 사용합니다. 즉, 비지도 학습이라는 "사전 훈련" 단계에서 컴퓨팅 성능과 데이터 양이 크게 증가합니다. GPT-4.5 이전의 모든 GPT 세대에서 확장은 수학, 작문, 프로그래밍과 같은 영역에서 성능에 큰 도약을 가져왔습니다. 실제로 OpenAI는 GPT-4.5의 확장된 규모가 "세계에 대한 더 깊은 지식"과 "더 높은 감성 지능"을 제공한다고 말합니다. 그러나 데이터 및 컴퓨팅 성능 확장으로 인한 이익이 정체되기 시작했다는 징후가 있습니다. 그러나 일부 AI 벤치마크에서 GPT-4.5는 DeepSeek, Anthropic 및 OpenAI의 최신 AI "추론" 모델보다 성능이 나쁩니다.
OpenAI는 GPT-4.5가 실행 비용도 매우 비싸다는 점을 인정했습니다. 너무 비싸서 회사는 API에서 GPT-4.5 서비스를 장기적으로 계속 제공할지 여부를 평가하고 있다고 밝혔습니다.
OpenAI는 공유 블로그 게시물을 통해 "GPT-4.5의 장점과 한계를 더 잘 이해하기 위해 연구 미리보기로 GPT-4.5를 공유하고 있습니다"라고 밝혔습니다. "우리는 여전히 그 기능을 탐구하고 있으며 사람들이 우리가 예상하지 못했던 방식으로 그것을 사용하는 것을 기대하고 있습니다."
전반적인 성과
OpenAI는 GPT-4.5가 대부분의 API와 ChatGPT를 지원하는 회사의 주력 모델인 GPT-4o를 완전히 대체할 의도는 아니라는 점을 강조합니다. GPT-4.5는 파일 및 이미지 업로드, ChatGPT의 캔버스 도구와 같은 기능을 지원하지만 현재 ChatGPT의 현실적인 양방향 음성 모드 지원과 같은 일부 기능이 부족합니다.
장점 측면에서 GPT-4.5는 GPT-4o보다 성능이 뛰어나며 다른 많은 모델보다 뛰어납니다. 직접적이고 사실에 기반한 질문을 처리하는 AI 모델의 능력을 평가하는 OpenAI의 SimpleQA 벤치마크에서 GPT-4.5는 정확성 측면에서 GPT-4o와 OpenAI의 추론 모델 o1 및 o3-mini보다 성능이 뛰어났습니다. OpenAI에 따르면 GPT-4.5는 대부분의 모델보다 환각을 덜 자주 경험합니다. 이는 이론적으로 상황을 꾸며낼 가능성이 적다는 것을 의미합니다.
OpenAI는 SimpleQA 테스트에서 최고의 AI 추론 모델 중 하나인 deepresearch를 나열하지 않습니다. 특히 AI 스타트업 Perplexity의 DeepResearch 모델은 다른 벤치마크에서 OpenAI의 심층 연구와 비슷한 성능을 보였지만 사실 정확도 테스트에서는 GPT-4.5를 능가했습니다.
프로그래밍 문제의 하위 집합인 SWE-BenchVerified 벤치마크에서 GPT-4.5의 성능은 GPT-4o 및 o3-mini와 거의 동일하지만 OpenAI의 심층 연구 및 Anthropic의 Claude3.7Sonnet 모델만큼 좋지는 않습니다. 전체 소프트웨어 기능을 개발하는 AI 모델의 능력을 측정하는 OpenAI의 SWE-Lancer 벤치마크인 또 다른 프로그래밍 테스트에서 GPT-4.5는 GPT-4o 및 o3-mini보다 성능이 뛰어났지만 여전히 심층 연구 모델만큼은 아닙니다.
GPT-4.5는 AIME 및 GPQA와 같은 어려운 학문적 벤치마크에서 o3-mini, DeepSeek의 R1 및 Claude3.7Sonnet(기술적으로는 하이브리드 모델)과 같은 주요 AI 추론 모델의 성능 수준에 도달하지 못하지만 동일한 테스트에서 주요 비추론 모델과 일치하거나 초과하여 모델이 수학과 과학 관련 문제에서 잘 수행된다는 것을 나타냅니다.
OpenAI는 또한 GPT-4.5가 인간의 의도를 이해하는 능력과 같이 벤치마크가 잘 포착하지 못하는 영역에서 다른 모델보다 질적으로 더 뛰어나다고 주장합니다. OpenAI는 GPT-4.5가 더 따뜻하고 자연스러운 톤으로 반응하며 글쓰기, 디자인과 같은 창의적인 작업에서 잘 작동한다고 말합니다.
실제 측정 결과 GPT-4.5는 추론 모델(ReasoningModel)이 아닌 것으로 나타났습니다. 코딩이나 수학용으로 설계되지 않았습니다. 창의성과 글쓰기를 위해 설계되었습니다.
비공식 테스트에서 OpenAI는 GPT-4.5와 다른 두 모델(GPT-4o 및 o3-mini)에 수학 공식과 코드를 기반으로 그래픽을 표시하는 형식인 SVG를 사용하여 유니콘 이미지를 생성하도록 요청했습니다. 결과적으로 GPT-4.5만이 유니콘과 같은 이미지를 만들어냈습니다.
또 다른 테스트에서 OpenAI는 GPT-4.5와 다른 두 모델에 "테스트에 실패한 후 힘든 시간을 보내고 있습니다."라는 프롬프트에 응답하도록 요청했습니다. GPT-4o와 o3-mini는 유용한 정보를 제공했지만 GPT-4.5의 응답은 사회적 적절성 측면에서 가장 잘 수행되었습니다.
확장의 법칙은 여전히 어려움에 직면 해 있습니다
OpenAI의 GPT-4.5는 "비지도 학습으로 가능한 것의 최첨단"에 있습니다. 그것이 사실일 수도 있지만 모델의 한계는 사전 훈련의 "확장 법칙"이 더 이상 유효하지 않다는 전문가의 의심을 확인시켜 주는 것 같습니다.
OpenAI 공동 창립자이자 전 수석 과학자인 Ilya Sutskever는 지난 12월 "우리는 최고 데이터에 도달했다"며 "우리가 알고 있는 사전 훈련은 의심할 여지 없이 끝날 것"이라고 말했습니다. 그의 발언은 지난 11월 AI 투자자, 창업자, 연구원들이 TechCrunch와 공유한 우려를 반영합니다.
사전 훈련 장애물에 직면한 OpenAI를 포함한 업계에서는 비추론 모델보다 작업을 수행하는 데 시간이 더 오래 걸리지만 일관성이 더 높은 추론 모델을 수용하기 시작했습니다. AI 추론 모델이 문제에 대해 "생각"해야 하는 시간과 컴퓨팅 성능을 높임으로써 AI Labs는 모델의 기능을 크게 향상시킬 수 있다고 확신합니다. OpenAI는 결국 올해 말 GPT-5를 시작으로 GPT 모델 제품군과 O 시리즈 추론 모델을 결합할 계획입니다. GPT-4.5는 훈련 비용이 극도로 비싸고 여러 차례 지연되었으며 내부 기대치를 충족시키지 못했으며 자체적으로 AI 벤치마크 왕관을 차지하지 못할 수도 있다고 합니다. 그러나 OpenAI는 이를 보다 강력한 기술을 향한 디딤돌로 간주할 가능성이 높습니다.