LLM 순위 업데이트: Google Bard가 GPT-4를 능가함 중국 플레이어가 상위 10위 안에 들지 않음

오늘 Google Bard의 순위는 Imsys의 LLM 예선 대회에서 GPT-4를 제치고 2위로 바로 뛰어올랐습니다.(그러나 OpenAI의 최신 GPT-4Turbo 모델 이상은 아님): 이 좋은 점을 접했을 때 물론 Google의 수석 과학자인 Jeff Dean이 가장 먼저 "과시"하고 자신의 GeminiPro 모델을 가져왔습니다.

순위 소개

이 LLM 순위(ChatbotArena 벤치마크 플랫폼)는 UC Berkeley 연구진이 이끄는 LMSYS(Large Model Systems Organization) 조직에 의해 시작되었습니다. 순위는 LLM 간의 무작위 및 익명 1V1 전투를 통해 Elo 등급 시스템을 기반으로 도출됩니다.

아래 그림과 같이 어떤 질문이라도 할 수 있습니다. 왼쪽은 모델 A의 답이고, 오른쪽은 모델 B의 답입니다. 그러면 두 모델의 답을 평가할 수 있습니다. 총 4가지 옵션이 있습니다. "A가 더 좋음, B가 더 좋음, A가 B만큼 좋음, A가 B만큼 나쁨." 한 라운드의 채팅에서 결정을 내리지 못할 경우에는 자신이 더 낫다고 생각하는 것을 선택할 때까지 채팅을 계속할 수 있지만, 채팅 중에 빅모델의 신원이 노출되면 투표가 집계되지 않습니다.

아래 그림은 모델 B와 대결할 때 모델 A의 승리(무승부 제외) 확률의 비례 분포를 보여줍니다.

아래 그림은 모델 조합별 전투 횟수를 나타냅니다(동점 없음).

아래 그래프는 다른 모든 모델과 비교하여 단일 모델의 평균 승률을 보여줍니다.

OpenAI가 목록을 장악하고 있지만 중국 플레이어는 상위 10위 안에 들지 않습니다.

아래 그림은 현재 목록의 상위 10위 순위를 보여줍니다. GPT 시리즈 모델은 여전히 절대 우위(상위 4개 중 3개)를 갖고 있는 반면, Anthropic의 Claude 시리즈 모델은 상위 10개 중 3개를 차지하고 있음을 알 수 있습니다. 오픈AI(OpenAI)의 유럽판을 자처하는 기업 미스트랄(Mistral)도 이번에 톱 10에 2개의 모델이 이름을 올렸다.

그리고, 위 사진의 가장 오른쪽 열을 봐주세요.상위 10개 모델 중 9개는 비공개 소스 비공개 모델로 오픈소스 모델이 아직 갈 길이 멀다는 것을 보여준다.

중국 선수들의 대형 언어 모델이 톱 10에 진입하지 못한 것은 아쉽다.

그 중 최고 순위 모델은 이카푸 씨의 스타트업 기업 제로원(Zero-One)이 소유한 Yi-34B-Chat 모델로 13위를 기록했다.

그 뒤를 이어 Alibaba의 Tongyi Qianwen Qwen-14B 채팅 모델이 36위에 올랐습니다.

다음은 Tsinghua 교수 Tang Jie의 스타트업 회사인 Zhipu AI의 ChatGLM 시리즈 모델입니다.

세 가지 사항을 설명해야 합니다.

1. 중국의 주요 제조업체에서 개발한 모델 중 이 목록에 포함되지 않은 모델이 많이 있습니다.

2. 이 목록은 전 세계 대중을 위한 것이므로 중국어보다 영어로 채팅하는 사용자가 훨씬 더 많습니다. 이는 중국 플레이어가 개발한 대규모 언어 모델에 해로울 수 있습니다.

3. 이 목록에는 200,000명의 사용자의 무작위 질문과 채팅만 포함되어 있으며, 이는 LLM과 채팅하는 사용자의 실제 평가를 나타냅니다. 그러나 사용자의 질문이 불균등하고 전문성이 높기 때문에 평가에는 어느 정도 주관성이 있습니다.

마지막으로 Google에 대해 이야기하겠습니다. 정리해고와 과학자들이 창업을 위해 떠나는 가운데, 대내외적 난관(자세한 내용은 구글의 위기탈주를 참고하세요! 과학자들은 창업을 위해 떠나고, 직원들은 해고되고...), 구글은 '제국의 역습'을 24년 만에 완성할 수 있을까?

기다려 보자!