6월 18일 딥시크(DeepSeek) 웹페이지와 APP을 열면 거의 모든 유저들이 이전의 퀵 모드와 전문가 모드 오른쪽에 이미지 인식 모드가 있다는 것을 알게 될 것이다. 이는 그레이스케일 테스트를 거치지 않은 많은 사용자가 마침내 DeepSeek를 사용하여 이미지를 처리할 수 있음을 의미합니다.

현재 DeepSeek은 공식적으로 공개 소개를 발표하지 않았으며 모델 인터페이스에는 여전히 "내부 테스트 중인 이미지 이해 기능"이 표시됩니다. 이번에는 풀 테스트 푸시라는 추측도 있다. 그러나 DeepSeek 다중 모드 팀장인 Chen Xiaokang은 오늘 소셜 미디어를 통해 시각적 모드가 웹 페이지와 애플리케이션에 공식적으로 출시되었다고 언급하면서 "이 새로운 눈을 시험해 보세요"라고 말했습니다.

불과 5일 전, Chen Xiaokang이 핫스팟을 따라가며 Auntie Goose Leg의 '녹색 오리 다리'를 DeepSeek에 보내 식별을 요청했다는 점을 언급할 가치가 있습니다. DeepSeek은 답변을 통해 거위다리가 아니라는 사실을 확인할 수 있었으며, 녹색 색상이 식품 안전에 해로울 수 있음을 시사하기도 했습니다. “그때 DeepSeek이 있었다면 올해 ‘오리전쟁’은 없었을 겁니다.” 그는 농담했다.

이 댓글 영역에서 일부 사용자는 시각적 기능을 아직 사용할 수 없는 이유를 물었습니다. 당시 천샤오강은 "소수의 사용자만이 그레이스케일(테스트)을 사용할 수 있다"고 답했다. 올해 4월 말 DeepSeek 이미지 인식 모드는 그레이 스케일 테스트를 시작했으며 5월에는 광범위한 사용자에게 공개되었습니다. 그러나 이번에는 테스트를 위해 모든 사용자에게 공개된 것처럼 보이기 전까지는 여전히 많은 사용자가 사용하지 않았습니다.
DeepSeek은 이미지 인식에 얼마나 효과적인가요? 차이나비즈니스뉴스의 한 기자가 이를 시작하고 경험했는데, 상황에 따라 효과가 달랐다.
나는 DeepSeek에게 상하이 와이탄의 건축 도면을 보내고 그것이 어디에 있는지 물었습니다. DeepSeek은 16초 만에 정상적인 답변을 내놓았습니다. 4개의 주요 건물을 분석한 결과 흰색 아치교는 고전적인 사진 각도인 '자푸로교'일 가능성이 가장 높다고 답했습니다.

하지만 DeepSeek은 요즘 인기 있는 카보 베르데 골키퍼 Vozinha를 알아보지 못할 수도 있습니다. DeepSeek는 깊이 생각하는 데 1분 이상을 소비했습니다. 사고 과정에서 카보베르데가 여러 차례 언급됐으나 특정 선수와 일치하지는 않았다. 결국 완전히 틀린 답을 내놨다.

이는 워즈니아가 이전에 잘 알려지지 않았고 대규모 모델 훈련 데이터에 포함되지 않았기 때문일 수 있습니다. 동시에 DeepSeek의 이미지 인식 모드에는 온라인 검색 기능이 없으므로 현재 인기 인물을 식별할 수 없습니다.
기자는 소셜 플랫폼에서 오랫동안 그레이스케일 테스트를 받아온 사용자들의 피드백이 있다는 것을 알아냈습니다. DeepSeek의 이미지 인식 능력은 국내 모델 평균 수준을 뛰어넘었지만, 해외 상위 모델과 비교하면 복잡한 이미지 이해와 세밀한 추론에는 여전히 격차가 있었습니다.
특히 일일 스크린샷, 오류 메시지, 표, 논문, 웹페이지 콘텐츠 등의 시나리오에서 DeepSeek의 이미지 인식은 기본적으로 충분하고 매우 빠릅니다. 그러나 다층 논리 흐름도나 복잡한 데이터 차트와 같이 더 복잡한 그림인 경우 정확도가 떨어지기 시작합니다. 그러나 위에서 언급한 사용자들은 가격과 개방성을 고려할 때 DeepSeek이 여전히 사용할 가치가 있다고 믿습니다.
바로 4월 30일, DeepSeek은 다중 모드 기술에 대한 세부 사항을 설명하는 다중 모드 기술 보고서인 "Thinking with Visaul Primitives"를 발표했습니다. 그러나 곧 모든 사람들은 해당 공무원이 다중 모드 창고와 논문의 원본 텍스트를 하룻밤 사이에 삭제했으며 Github 인터페이스가 이미 "404" 상태에 있다는 사실을 알게 되었습니다.
당시 외부에서는 많은 추측이 난무했습니다. 어떤 사람들은 DeepSeek이 아직 준비되지 않았다고 믿었고, 다른 사람들은 논문이 너무 많은 정보를 공개했다고 믿었습니다. 논문에서 DeepSeek은 현재의 다중 모드 모델이 비가시성(인식 격차) 때문이 아니라 "부정확한 포인팅"(인용 격차) 때문에 복잡한 작업에서 무너진다고 믿습니다. 다중 모드 지능의 미래는 단순히 "더 많은 픽셀을 보는 것"이 아니라 언어와 시각 사이에 정확하고 명확한 참조 브리지를 구축하는 것입니다.
현재 DeepSeek은 이미지 인식 모드 출시를 공개적으로 발표하지 않았습니다. 이 모드의 기술적인 세부 사항과 더 많은 소식은 공식 소개를 기다려야 합니다.