멀티모달 대형 모델의 전쟁터에서 이미 몇몇 사람들은 이를 눈치채고 있습니다. 외신 보도에 따르면 오픈AI의 새로운 멀티모달 모델 고비(Gobi)가 준비 중인 것으로 보인다. 구글과 오픈AI의 대결이 임박한 것으로 보인다. 올 가을이 다가오면서 구글과 오픈AI(OpenAI)의 멀티모달 모델 전쟁도 치열한 국면에 접어들었다.
지난주에 Google은 다중 모드 대형 모델인 Gemini의 기능을 일부 외부 회사에 공개했습니다.
그리고 물론 OpenAI는 가만히 앉아서 죽음을 기다리지 않을 것입니다. 그들은 다중 모드 기능을 GPT-4에 통합하기 위해 시간을 다투고 있으며 Gemini와 유사한 기능을 갖춘 대규모 다중 모드 모델을 출시하고 Google을 단번에 죽이려고 노력하고 있습니다.
전설적인 멀티모달 기능은 올해 3월 세계를 놀라게 한 OpenAI의 GPT-4 컨퍼런스에서 시연되었습니다.
종이에 스케치를 그리고 사진을 찍어 GPT-4로 보낸 후 "이 레이아웃으로 웹사이트를 만들어주세요"라고 말하면 즉시 웹페이지 코드가 작성됩니다.
Boss Greg Brockman이 온라인에서 직접 시연했습니다.
그러나 다중 양식은 일시적인 현상인 것처럼 보였고, 누구도 제품화된 물리적 기능을 본 적이 없습니다.
그렇다면 Google과 OpenAI 간의 다중 모드 전쟁이 마침내 다가오고 있습니까?
Google과의 싸움에서 OpenAI는 대규모 다중 모드 모델 출시를 서두르고 있습니다.
Google이 이 거대한 킬러를 죽일 것이라는 소문에 직면했을 때 OpenAI는 확실히 무관심하지 않을 것입니다.
외신 더인포메이션에 따르면 이미 고비(Gobi)라는 새로운 멀티모달 대형 모델이 집중 준비 중이다.
OpenAI는 Gemini 출시 전에 다중 모드 LLM을 출시하여 Google을 완전히 물리칠 계획입니다.
OpenAI의 Greg Brockman과 Google의 Demis Hassabis
실제로 OpenAI는 지난 3월 GPT-4 멀티모달 기능 프리뷰를 출시한 후 이 기능을 BeMyEyes라는 회사에 출시했지만 다른 회사에는 제공하지 않았습니다.
이름에서 알 수 있듯이 이 회사는 시각 장애가 있는 사람들이 더 선명하게 볼 수 있도록 하는 기술을 개발하고 있습니다.
최근 OpenAI는 GPT-Vision이라는 기능을 보다 광범위하게 출시할 계획입니다.
OpenAI가 왜 그렇게 오래 걸렸나요?
인증코드를 자동으로 해독해 사람을 사칭하거나, 안면인식을 통해 사람을 추적하는 등 새로운 시각적 기능이 범죄자들에게 악용될 것을 우려한 것이 주된 이유다.
하지만 OpenAI 엔지니어들은 이러한 법적 보안 위험을 해결한 것으로 보입니다.
마찬가지로 Google 대변인도 다음과 같이 말했습니다. Google은 Gemini가 학대당하는 것을 방지하기 위해 몇 가지 조치를 취했습니다.
구글은 지난 7월 약속에서 자사의 모든 제품에 책임 있는 인공지능을 개발하겠다고 약속했다.
고비가 GPT-5가 될 수 있나요?
GPT-Vision 이후 OpenAI는 코드명 Gobi라는 더욱 강력한 다중 모드 대형 모델을 출시할 가능성이 높습니다.
GPT-4와 달리 Gobi는 처음부터 다중 모드 모델을 기반으로 구축되었습니다.
그렇다면 고비는 전설적인 GPT-5인가?
지금은 우리는 모릅니다. 고비가 훈련에서 어디까지 도달했는지에 대한 명확한 정보는 없습니다.
9월 초, DeepMind의 공동 창업자이자 현재 InflectionAI의 CEO인 Mustafa Suleyman은 인터뷰에서 폭탄 선언을 했습니다. 그는 OpenAI가 비밀리에 GPT-5를 훈련하고 있다고 추측했습니다.
Suleyman은 Sam Altman이 최근 GPT-5를 훈련하지 않았다고 말했을 때 진실을 말하고 있지 않을 수도 있다고 믿습니다. (원래 단어는 다음과 같습니다. Comeon. 모르겠어요. 우리 모두 그냥 솔직하게 말하는 것이 더 낫다고 생각합니다.)
여기서 Gemini를 사용해 보신 분들에 따르면 Gemini는 기존 모델보다 환각 현상이 덜 나타날 것이라고 합니다. 그 이유는 아래에 자세히 설명되어 있습니다.
한마디로 구글과 오픈AI의 멀티모달 모델 전쟁은 아이폰과 안드로이드의 AI판 대결이라고 할 수 있다.
하나는 수년 동안 AI 분야를 장악해 온 실리콘밸리의 거대 기업이고, 다른 하나는 비교할 수 없을 정도로 각광받는 최고 수준의 AI 스타트업 기업이다. 둘 사이의 격차가 얼마나 큰지 다들 숨죽여 기다리고 있다.
Google은 비밀리에 Gemini를 테스트합니다.
한편, 구글은 곧 출시될 차세대 다중 모드 대형 모델 제미니(Gemini)의 테스트를 가속화하기 위해 일부 외부 개발자를 초청하기 시작했습니다.
지난주 The Information에서는 Gemini가 곧 테스트 릴리스를 준비할 예정이며 Google Cloud Vertex AI와 같은 서비스에 통합될 것이라고 단독 보도했습니다.
올해 Google I/O 개발자 컨퍼런스에서 Pichai는 다중 모드 모델, 효율적인 통합 도구 및 API인 Gemini를 공개적으로 소개했습니다.
Google은 함께 협력하여 큰 일을 하기 위해 Google Brain을 DeepMind Labs와 합병했습니다.
제미니의 연구개발에는 딥마인드 창업자인 데미스 하사비스를 필두로, 구글 창업자인 세르게이 브린 등 최소 20명 이상의 임원이 연구개발에 참여한 것으로 전해진다.
또한 Google DeepMind에는 전 Google Brain 이사인 Jeff Dean 등을 포함하여 수백 명의 직원이 있습니다.
이를 테스트한 한 사람은 Gemini가 적어도 한 가지 면에서 GPT-4보다 우위에 있다고 말했습니다. 웹에서 공개적으로 사용 가능한 정보 외에도 이 모델은 Google의 소비자 제품(검색, YouTube)에서 얻은 대량의 독점 데이터도 활용합니다.
따라서 Gemini는 특정 쿼리에 대한 사용자의 의도를 특히 정확하게 이해해야 하며, 오답, 즉 환각이 더 적은 것으로 보입니다.
SemiAnalytic 분석가의 이전 보고서에 따르면 Google의 차세대 대형 모델 Gemini는 GPT-4 교육의 컴퓨팅 성능보다 5배 더 높은 최대 1e26FLOPS의 컴퓨팅 성능을 갖춘 새로운 TPUv5Pod에 대한 교육을 시작했습니다.
또한 Gemini의 훈련 데이터베이스에는 Youtube의 936억 분 분량의 비디오 자막이 포함되어 있으며 전체 데이터 세트 크기는 GPT-4의 약 2배입니다.
구글의 차세대 대형 모델 역시 다양한 규모로 구성돼 MoE 아키텍처와 추측적 샘플링 기술을 활용할 수도 있다고 한다.
토큰은 소형 모델에서 미리 생성되어 대형 모델에 평가용으로 전달되어 모델의 전반적인 추론 속도를 향상시킵니다.
구글 딥마인드 대표인 허사비스는 인터뷰에서 제미니에 수천만~수억 달러의 비용이 들 것으로 예상된다고 말했다. 이는 GPT-4 개발 비용과 맞먹는다.
Gemini는 AlphaGo에 사용된 기술을 통합하여 시스템에 새로운 계획 및 문제 해결 기능을 제공할 것입니다.
Gemini는 AlphaGo 시스템의 장점 중 일부와 대규모 언어 모델의 놀라운 언어 기능을 결합했다고 할 수 있습니다. 그리고 우리는 또 다른 흥미로운 혁신을 가지고 있습니다.
AlphaGo의 기반이 되는 기술은 DeepMind가 개척한 기술인 강화 학습입니다.
RL 에이전트는 시간이 지남에 따라 환경과 상호 작용하며 시행착오를 통해 정책을 학습하여 장기 누적 보상을 극대화합니다.
AI는 강화학습을 통해 시행착오를 통해 성능을 조정하고 피드백을 받아 바둑이나 비디오 게임에서 다음 수를 선택하는 등 어려운 문제에 대처하는 방법을 학습할 수 있습니다.
또한 AlphaGo는 MCTS(Monte Carlo Tree Search) 방법을 사용하여 보드에서 가능한 모든 움직임을 탐색하고 기억합니다.
기존 모델과 비교하여 Gemini는 소프트웨어 개발자의 코드 생성 기능을 크게 향상시킬 것이며 Google은 이를 사용하여 Microsoft의 GitHubCopilot 코드 도우미를 따라잡기를 희망합니다.
Google은 또한 Gemini를 사용하여 완성된 차트의 의미를 해석하도록 모델에 요청하는 등 차트 분석과 같은 기능을 구현하고 텍스트 또는 음성 명령을 사용하여 웹 브라우저 또는 기타 소프트웨어를 탐색하는 것에 대해서도 논의했습니다.
Google Cloud 개발자 플랫폼인 Google Cloud Vertex AI도 Gemini에서 지원되며 크고 작은 버전을 모두 사용할 수 있으므로 개발자는 개인 기기에서 실행할 소형 모델을 구매하기 위해 비용을 지불할 수 있습니다.
이제 구글은 제미니의 반격을 기다리며 전쟁을 완벽하게 준비하고 있다.
gpt-3.5-turbo-instruct 출시
지난 7월 OpenAI는 GPT-4 API를 완전히 사용할 수 있으며 앞으로 몇 달 안에 새로운 모델을 출시할 것이라고 발표했습니다.
아니요, 바로 오늘 네티즌들은 이전 모델 text-davinci-003을 대체할 gpt-3.5-turbo-instruct의 새 모델을 출시하는 이메일을 받았습니다.
보고서에 따르면 gpt-3.5-turbo-instruct는 InstructGPT 스타일 모델이며 훈련 방법은 text-davinci-003과 유사합니다.
사용법은 기존 프롬프트 완성과 유사하며, 프롬프트 단어의 지시에 따라 완성된다.
가격면에서 gpt-3.5-turbo4K는 일관성을 유지합니다.
일부 네티즌들은 이미 최신 모델을 사용해 1800여 대의 엘로로 체스를 두기 시작했다.
그는 이전에 GPT가 이 작업을 전혀 수행할 수 없다는 것을 발견했지만 이제는 이것이 RLHF 채팅 모델의 문제일 뿐인 것으로 보이며 순수 완료 모델은 성공합니다.
게임에서 gpt-3.5-turbo-instruct는 Stockfish 레벨 4(1700점)를 쉽게 이겼고 레벨 5(2000점)에서도 여전히 뒤처지지 않았습니다.
불법적인 움직임을 결코 만들지 않으며 영리한 개시 희생과 믿을 수 없는 폰과 킹 체크메이트를 사용하여 상대가 실제 의미 없이 전진하도록 허용합니다.
네티즌들은 다음 PGN 스타일 프롬프트를 사용하여 마스터 게임을 시뮬레이션합니다. 강조 표시가 약간 잘못되었습니다. GPT는 자체 동작을 수행하고 Stockfish의 동작을 수동으로 입력합니다.
그런데 11월에 개최될 OpenAI의 첫 번째 개발자 컨퍼런스 등록이 시작되었으니 서둘러 신청하세요.