오늘 OpenAI는 현재까지 가장 크고 지식이 풍부한 새로운 비추론 모델인 GPT-4.5를 출시했습니다. 이름에서 알 수 있듯이 GPT-4.5는 GPT-4o를 기반으로 하며 사전 훈련 과정에서 더욱 확장됩니다. OpenAI는 GPT-4.5가 최첨단 모델은 아니지만 가장 큰 LLM이며 GPT-4o보다 더 많은 세계 지식, 더 나은 글쓰기 능력, 더 세련된 성격을 가지고 있음을 확인했습니다.

벤치마크 테스트 데이터에 따르면 GPT-4.5는 GPT-4o에 비해 크게 업그레이드되지 않은 것으로 나타났습니다. SWE-benchVerified 벤치마크 테스트에서 GPT-4.5는 38%에 도달했는데, 이는 GPT-4o보다 2~7% 높고 OpenAI의 O3 기반 심층 연구 모델보다 30% 낮습니다. 이에 비해 Anthropic의 Claude3.7Sonnet은 SWE-benchVerified에서 62.3%에 해당하는 성능을 달성했습니다.

최근 OpenAI의 대비 팀은 기능 개발, 설계, 버그 수정 등을 포함한 실제 소프트웨어 엔지니어링 작업에서 LLM의 성능을 평가하기 위해 SWE-Lancer라는 새로운 벤치마크를 개발했습니다. 이 새로운 벤치마크에서 GPT-4.5 모델은 ICSWE 작업의 20%, SWEManager 작업의 44%를 해결할 수 있었으며 이는 OpenAI의 o1 모델에 비해 약간 개선되었습니다. 

여기에서 새 모델의 세부 정보를 읽을 수 있습니다.

https://openai.com/index/introducing-gpt-4-5/

보안 측면에서 OpenAI의 보안 자문 그룹은 준비 상태 평가 결과를 기반으로 새로운 GPT-4.5 모델을 전체 중간 위험으로 분류했습니다. 또한 사이버 보안과 모델 자율성에서도 낮은 점수를 받았습니다.

새로운 GPT-4.5 모델 연구 미리보기는 이제 ChatGPTPro 사용자와 API를 통해 모든 유료 플랜을 사용하는 개발자에게 제공됩니다. 다음 주에는 ChatGPTPlus 사용자에게도 이 기능이 제공됩니다.