머스크가 20만 장의 카드로 훈련시킨 그록 3(Grok 3)이 딥식(DeepSeek)을 능가할 수 있을까?

2월 18일, 머스크의 '지구상에서 가장 똑똑한 인공지능'이 마침내 데뷔했다. 그의 인공 지능 회사 xAI는 차세대 대형 언어 모델 Grok3을 공식 출시했습니다.머스크 자신도 동시에 소셜 플랫폼 X에서 라이브 시연을 시작했습니다. 생방송에 따르면 Grok3는 현재 시중에 출시된 모든 인공지능을 능가했습니다. 공식적으로 발표된 테스트 데이터에서는 수학적 추론, 과학적 논리적 추론, 코드 작성 성능이 ChatGPT-4o, DeepSeek-V3 등 경쟁 제품보다 우수하다.

Grok 대형 모델은 머스크의 xAI 회사가 출시한 인공지능 모델이다. 미국 공상과학 작가 로버트 하인라인의 소설 '낯선 나라의 낯선 땅'에서 이름을 따왔다. 시리즈의 첫 번째 대형 모델인 Grok1은 2023년 11월 출시될 예정이다. 2024년에는 모델의 매개변수 수가 GPT-3.5의 1,750억 개를 훨씬 초과하는 3,140억 개로 확장될 예정이다. 2024년 8월 Grok2 대형 모델이 출시되어 Grok1을 기반으로 완전히 업그레이드되었으며 X 플랫폼에서 사용자에게 무료로 제공되었습니다. 엔지니어에 따르면 이번 라이브 방송 중에 출시된 Grok3에는 Grok2 교육의 10배가 포함되며 Grok3은 2주 동안 xAI 내에서 실행되었습니다.

Grok3 훈련에 사용되는 GPU의 총 개수는 200,000개라고 합니다. 첫 번째 단계에서는 100,000개의 GPU를 훈련에 사용했으며, 144일이 걸렸습니다. 2단계 92일 동안 사용된 GPU 수는 20만 개로 늘어났다. 이전에 인도가 18,000개 이상의 GPU를 갖춘 공용 컴퓨팅 시설을 출시한 것으로 보고되었으며, 이는 국내 인공 지능 개발과 국내 대형 언어 모델 교육을 촉진하기 위해 스타트업, 연구원 및 개발자에게 공개될 것입니다. 이에 비해 xAI의 Grok3 훈련에 사용된 총 GPU 양은 인도 국가 프로젝트에 사용된 총 GPU 양을 10배 이상 초과했습니다. 엄청난 규모의 컴퓨팅 성능은 Grok3의 출시 가속화에 가장 큰 힘이 되었으며 xAI는 점점 더 치열해지는 시장 경쟁에서 완전한 자신감을 갖게 되었습니다.

라이브 방송 이벤트에서 xAI 엔지니어들은 현장에서 우주 발사의 3D 애니메이션을 위한 코드를 생성하고 "Bejeweled"와 "Tetris"를 결합한 게임을 만드는 등 Grok3의 사용을 시연했습니다. Grok3는 좋은 성능을 보였으며 이는 모델이 복잡한 지식을 잘 이해하고 있음을 입증했습니다. 머스크는 Grok3가 Grok2보다 훨씬 더 강력하다고 말했습니다.

유명 블로거 Alexandr Wang은 Grok3의 뛰어난 성능을 보고 Grok3가 세계 최고의 새로운 모델이라고 말했습니다. 채팅 로봇 분야에서는 1위를 차지하며 훨씬 앞서 있습니다. Amjad Masad는 또한 Grok3가 가장 발전된 최첨단 모델인 것 같다고 말했습니다. 그는 xAI의 상황을 고려하면 이 모델의 출시는 의심할 여지 없이 큰 성과라고 믿습니다. 유명 팟캐스트 진행자 Lex Fridman도 모델에 깊은 인상을 받았으며 모델에 대한 찬사를 표했습니다.

실제로 Grok3로 인한 소란은 해당 모델이 공식 출시되기 전부터 발생했습니다.

이전에는 DeepSeek이 전 세계적으로 열풍을 일으켰습니다. DeepSeek-R1 모델의 탁월한 성능과 그것이 나타내는 저렴한 훈련 경로로 인해 사람들은 한때 글로벌 AI 담론권 소유권 문제를 논의하기 시작했습니다. 인공지능 산업은 여전히 경쟁 단계에 있지만 DeepSeek-R1 모델은 의심할 여지 없이 전 세계에 큰 영향을 미칠 것입니다.

DeepSeek의 인기에 힘입어 OpenAI CEO Altman은 2월 13일 블로그 게시물을 통해 GPT-4.5 및 GPT-5 출시를 준비 중임을 알리고 로드맵을 발표했습니다.

또한 머스크는 2월 13일 두바이에서 열린 세계 정부 정상회담에서 xAI가 차세대 모델 Grok3를 출시할 것이라고 밝히고 "너무 강력해서 사람들이 겁을 먹게 만든다"고 칭찬했습니다. 이로 인해 Grok3에 대한 추측도 촉발되어 AI 담론의 논의가 다시 한 번 서구로 향할 수도 있습니다.

이쯤 되면 인공지능 모델과 관련된 '삼국지 살생'이 구체화됐다.

xAI의 중요한 시장 경쟁자인 OpenAI의 Grok3 대응 역시 사람들의 관심을 끌었습니다. 오늘 머스크의 라이브 방송이 시작되기 전, 울트라맨은 소셜 플랫폼에 메시지를 올렸습니다.

주요 제품인 DeepSeek-R1과 비교할 때 "추론 + 테스트 시간 계산"에서 수학적 추론, 과학적 논리적 추론 및 프로그래밍의 세 가지 측면에서 Grok3ReasoningBeta 버전의 종합 점수는 각각 93, 85, 79로 DeepSeek-R1의 80, 71, 65보다 모두 높습니다. 최신 AIME2025 성능 테스트에서 Grok3ReasoningBeta 버전은 점수를 받았습니다. DeepSeek-R1보다 높은 93포인트입니다. 전 Tesla 인공 지능 이사이자 OpenAI 창립 팀원인 Andrej Karpathy는 초기 경험을 통해 Grok3 모델이 실제로 DeepSeek-R1이 할 수 없는 일을 할 수 있다는 점을 지적했습니다. 테스트 데이터만 보면 Grok3는 실제로 DeepSeek-R1보다 약간 더 좋습니다.

Grok3는 테스트에서 우수한 결과를 얻었지만 여전히 분석 성능을 가지고 있습니다. "추론 + 테스트 시간 계산" 테스트에서 Grok3의 수학적 성능은 o3-mini(high) 또는 DeepSeek-R1에 비해 큰 이점이 없습니다. 머스크는 Grok3가 아직 초기 훈련 단계에 있으며 앞으로도 계속 최적화될 것이라고 말했습니다.

오늘부터 X 플랫폼 PremiumPlus 가입자가 가장 먼저 Grok3에 액세스할 수 있는 것으로 이해됩니다. 또한 xAI는 SuperGrok이라는 독립형 구독 서비스를 출시했지만 가격은 아직 공개되지 않았습니다. Musk는 또한 xAI의 엔지니어링 팀이 현재 Grok3의 미니 버전을 훈련하고 있다고 말하면서 "미니 버전은 훈련하는 데 더 오랜 시간이 걸리고 때로는 Grok3 추론 모델보다 약간 더 나은 성능을 발휘합니다"라고 언급했습니다.

Grok3 이후 “그록보다 나은 AI는 없다”는 머스크의 예측이 실현될 수 있을까? 현재 AI의 업데이트 속도로 판단하면 정말 판단하기 어렵습니다. 하지만 모델의 성능으로 볼 때 머스크는 인공지능 게임에서 상당한 '빅네임'을 내놓은 셈이다.