ByteDouBao 2.0 출시: GPT-5 및 Gemini 3_5iter.com을 통해 추론 비용이 10배 감소했습니다.

ByteDance의 Doubao 빅 모델이 공식적으로 2.0 단계에 진입하여 에이전트 시대에 맞게 체계적으로 업그레이드된 버전을 출시했습니다.새 버전은 GPT-5.2 및 Gemini 3 Pro와 비슷한 성능을 유지하면서 추론 비용을 약 10배 정도 줄입니다., 대규모 생산 환경에서 복잡한 작업 실행을 위한 보다 경쟁력 있는 솔루션을 제공합니다.

2월 14일, ByteDance는 Doubao 2.0 시리즈에 Pro, Lite, Mini의 세 가지 일반 에이전트 모델과 특수 코드 모델이 포함되어 있다고 발표했습니다.그 중 Beanbao 2.0 Pro의 플래그십 버전은 GPT-5.2 및 Gemini 3 Pro에 대해 완전히 벤치마킹되어 대부분의 시각적 이해 벤치마크 테스트에서 업계 최고 수준에 도달했으며 수학 올림피아드 IMO, CMO 및 프로그래밍 대회 ICPC에서 금메달을 획득했습니다.

이 모델 시리즈는 이제 완전히 온라인 상태가 되었습니다. Doubao 2.0 Pro는 Doubao 앱, PC 및 웹 버전의 "전문가" 모드에 연결되었으며, Code 버전은 AI 프로그래밍 제품 TRAE에 통합되었으며, Volcano Engine은 기업과 개발자를 위한 API 서비스를 동시에 출시했습니다.

분석은 현실 세계의 복잡한 작업에서대규모 추론과 긴 링크 생성에는 많은 양의 토큰이 소모되므로 Doubao 2.0의 비용 이점이 핵심 경쟁력이 될 것입니다.. 이는 대형 모델의 상업적 적용에 있어 ByteDance의 중요한 단계입니다.

다중 모드 기능이 세계 최고 수준에 도달했습니다.

Doubao 2.0은 다중 모드 기능을 포괄적으로 업그레이드했으며 시각적 추론, 지각 능력, 공간 추론 및 장기적인 맥락 이해와 같은 작업에서 탁월한 성능을 발휘합니다.

동적 장면 이해성능 측면에서는 TVBench 등 주요 평가에서 모델이 선두를 달리고 있으며, EgoTempo 벤치마크에서는 휴먼 스코어까지 뛰어넘어 변화, 움직임, 리듬 등의 정보를 포착하는 데 있어 더욱 안정적인 모습을 보여주고 있다.

긴 비디오 장면그중 Doubao 2.0은 대부분의 평가에서 다른 상위 모델보다 성능이 뛰어나며 여러 스트리밍 실시간 Q&A 비디오 벤치마크에서 좋은 성능을 발휘합니다.

이를 통해 실시간 비디오 스트림 분석, 환경 인식, 능동 오류 수정 및 감정적 교제를 완료하는 AI 보조자로 사용할 수 있으며, 수동적 질문 및 답변에서 능동 안내로 대화형 업그레이드를 달성하고 피트니스 및 복장과 같은 교제 시나리오에 적용할 수 있습니다.

추론 능력은 상위 모델과 비슷하며 비용 이점이 상당합니다.

롱테일 도메인 지식을 강화함으로써 Doubao 2.0 Pro는 SuperGPQA에서 GPT-5.2보다 높은 점수를 얻었고 HealthBench에서 1위를 차지했습니다. 과학 분야의 전체 점수는 Gemini 3 Pro 및 GPT-5.2와 동일합니다.

추론 및 에이전트 능력 평가에서는 IMO, CMO 수학 올림피아드, ICPC 프로그래밍 대회에서 금메달을 획득했으며, Putnam Bench에서도 Gemini 3 Pro의 성능을 능가했습니다.

HLE-text(최종 인간 시험)에서 Doubao 2.0 Pro는 54.2점이라는 최고 점수를 획득했으며, 테스트 후 도구 호출 및 지침에서도 좋은 성능을 보였습니다.

게다가,바이트댄스는 이렇게 말했습니다.이 모델은 업계 최고의 대형 모델과 비슷한 성능을 유지하면서 토큰 가격을 약 10배 정도 낮춥니다. 이러한 비용 이점은 대규모 추론 및 긴 링크 생성 시나리오에서 더욱 중요해집니다.

OpenClaw 프레임워크와 Doubao 2.0 Pro 모델을 기반으로 ByteDance는 Feishu에 지능형 고객 서비스 에이전트를 구축했습니다.

에이전트는 다양한 기술을 호출하여 고객 대화를 완료할 수 있습니다. 문제가 생기면 적극적으로 실제 동료를 모집해 도움을 요청하고, 고객이 방문 수리 인력 예약을 할 수 있도록 돕고, 수리 후 적극적으로 재방문해 제품을 추천한다.

코드 모델은 개발 효율성을 향상시킵니다.

Doubao 2.0 코드는 2.0 기본 모델을 기반으로 한 프로그래밍 시나리오에 최적화되어 코드 기반 해석 기능과 애플리케이션 생성 기능을 강화하고 에이전트 워크플로에서 모델의 오류 수정 기능을 향상시킵니다.이 모델은 TRAE China 버전에 내장 모델로 출시되어 이미지 이해 및 추론을 지원합니다.

실제 응용 프로그램에서 개발자는 TRAE와 Doubao 2.0 코드를 사용하여 단 한 라운드의 프롬프트 단어로 "TRAE 봄 축제 마을·말 사원 박람회" 대화형 프로젝트의 기본 구조와 장면을 구성하고 전체 작업은 5라운드의 프롬프트 단어 후에 완료할 수 있습니다.

이 프로젝트에는 대규모 언어 모델에 의해 구동되는 11개의 NPC가 포함됩니다. 자연스럽게 대화도 나누고, 고객과 인사도 하고, 그 자리에서 개성에 맞게 흥정도 할 수 있습니다. AI 관광객들은 어느 노점에 갈지, 무엇을 살지, 무엇을 말할지 독립적으로 결정할 것이다. 개발자가 테스트할 수 있도록 관련 프롬프트 단어와 자료가 GitHub에 오픈 소스로 공개되어 있습니다.

현재 Doubao 2.0 Pro는 C 최종 사용자를 위한 컴퓨터 및 웹 버전인 Doubao 앱에서 "전문가" 모드를 출시했습니다. 기업과 개발자를 위해 Volcano Engine은 Doubao 2.0 시리즈 모델 API 서비스를 동시에 출시했습니다.

Bytedance는 앞으로도 실제 시나리오에 대한 모델을 계속 반복하고 지능의 상한선을 탐색할 것이라고 말했습니다.