D 신이 또 방송에 나오나요? 진짜인가 가짜인가? Deepseek은 오랫동안 그것을 참아왔고, 최근에 마침내 그것을 내놓기 시작했습니다. 지난주 그들은 조용히 V4를 출시했고, 그 뒤를 이어 두 번의 큰 가격 인하가 있었습니다. . 량심(梁承)이여, 당신은 다시 모든 중생을 구도하러 오셨습니까? 그 결과, 오늘 갑자기 나타나 다중 모드 기능을 갖춘 DeepSeek라는 회색 테스트의 물결을 보냈습니다. 정확히 말하면 이미지 인식이다.

카드 확인 결과 사실입니다.


새로운 것을 시도하고 싶은 분은 지금 DeepSeek를 열고 살펴보세요.

인터페이스에 "이미지 인식 모드"가 있다면 축하합니다. 내부 테스트를 거친 행운아이시며 V4의 실제 다중 모드 버전을 무료로 직접 구매하실 수 있습니다.

DeepSeek의 연구원인 Chen Xiaokang은 어쩔 수 없이 게시물을 게시했습니다. 우리 고래들은 드디어 눈을 가지게 되었고 더 이상 국가 서버의 맹인 승려가 아닙니다!


모두들 왜 이렇게 신이 나나요? 실제로 DeepSeek은 다중 모드 기능이 없다는 이유로 오랫동안 비판을 받아왔습니다. 외국의 거대 기업인 ChatGPT, Gemini, Claude는 오랫동안 다중 모드 기능을 보유해 왔습니다. Doubao, Qianwen 등 국내 모델도 좋은 성적을 거두었습니다.

이 국산 조명은 기대가 크지만 오랜 세월 동안 사진 한 장도 알아보지 못했습니다. OCR에만 의존하여 사진 속 텍스트를 인식할 수 있습니다. 사용 경험이 정말 좋지 않습니다.

이제 이 단점이 드디어 채워졌습니다.

더 이상 고민하지 말고 바로 테스트를 시작해 보겠습니다.

우선, 기존 OCR을 제거하고 전체 그림을 실제로 볼 수 있습니다. 이에 대해서는 안심하셔도 됩니다.

예를 들어 파란색으로 작성된 "This is a line of red text"라는 텍스트를 제공하는 경우 전통적인 OCR만 사용하면 해당 텍스트가 "This is a line of red text"라는 것만 인식할 수 있으며 파란색이라는 것을 결코 인식하지 못합니다. (인식하지 못할 수도 있습니다)


비주얼 모드를 켜면 파란색과 빨간색 글자의 줄인지 정확하게 식별하고 유머까지 감지할 수 있습니다.


그뿐만 아니라 시각적 추론 기능도 갖추고 있습니다.

이 밈 다들 보셨나요? 나는 내 지능으로 그림에 쓰여진 내용을 확실히 이해할 수 있다고 믿습니다.


그래서 DeepSeek에 보내서 웃긴 포인트 분석에 도움을 요청했습니다.

고심 끝에 알아낸 것뿐만 아니라, "황금 달리아", "은 달리아", "구리 달리아"의 현지화 번역도 했습니다. 그것은 나를 웃게 만들었습니다.


그러다가 동료가 운전 중에 찍은 사진을 무작위로 보냈습니다. 실제로는 꽤 흐릿했고, 외관과 조명 효과에 대한 일부 정보만 분석할 수 있었습니다.


그 결과 그 차가 과연 스바루라고 추측했고, 고민하는 데 13초가 걸렸고 결론에 이르렀다.


D 선생님이 수학 전문가인 점을 고려해 또 다른 수학 관련 밈을 보내드렸습니다. 솔직히 말해서 Shichao는 그것을 거의 이해하지 못했습니다. 그의 형의 시아버지였습니다.


D 선생님의 설명은 여전히 ​​완벽합니다.

간단한 연산을 이해했을 뿐만 아니라 그 안에 여러 개의 동음이의어도 보였습니다. 실수 부분을 취한다는 것은 허수 "i"를 제거한다는 의미이며, 이는 "눈"을 제거한다는 의미이며, 이는 눈을 제거한다는 의미입니다. 역삼각형이 그라데이션인데, 'Graduate'와 거의 똑같아서 작은 얼굴에 학사모를 씌웠습니다.

수학적 지식을 잊어버린 사람들은 단어 하나하나를 복습할 수 있습니다.


그런데, 이 3.5mm 플러그를 어디에 꽂아야 할지 등 생활 속 몇 가지 문제도 테스트해 봤습니다.


이 사각형 USB 포트를 어디에 연결해야 하나요?


매우 간단하지만 초점이 맞지 않을 때 무작위로 촬영한 사진도 이해할 수 있어 일상 업무에 적합하다고 볼 수 있습니다.

그러나 실제로 Shichao의 실제 테스트에 따르면 D 선생님의 현재 버전은 무적이 아닙니다.

예를 들어, 우리는 지구의 매우 아름다운 야경 사진을 제공했습니다.


DeepSeek도 이를 아주 선명하게 보았고 이 사진이 국제 우주 정거장에서 왔다고 말했습니다.


근데 사실 사진을 뒤집어서 보면 알겠지만 이 사진은 노을이 지고 있는 도시의 사진이다. 이것은 거꾸로 된 관점입니다...

그런 다음 인정받는 멀티모달 전문가인 Gemini에게 던졌더니... 정말 봤습니다. 아니, 정신을 잃었음에도 불구하고 그렇게 강한가요?


여전히 다중 모드의 왕인 하지 고래를 최선을 다하게 만들 수는 없습니다.

일부 얼굴 인식이 포함되어 가끔 문제가 발생합니다. 예를 들어 콩주머니 사진을 던졌더니 나를 알아본 사람이 바로 B 스테이션의 UP 리더인 Luo Xiang이었습니다.이 고전적인 착시 문제도 있습니다. 두 공은 분명히 같은 크기가 아니죠? 그 결과 D 선생님이 고민하다가 두 공의 크기가 같다고 말씀해 주셨어요.


하지만 그 사고 과정도 살펴봤습니다. 사실 오른쪽에 있는 공이 더 크다는 것을 이미 보았지만 질문을 주의 깊게 읽었기 때문에 이것이 자신에게 주어진 환상이라고 느껴져서 자신을 속이는 것을 선택하고 크기가 같다고 말했습니다. . 강화 학습이 너무 강한 것일 수도 있습니다.


종합적인 평가를 통해 유령과 신의 이중성을 느낄 수 있습니다. 탬핑하면 탬핑하고, 당기면 끝. .

하지만 DeepSeek은 이제 막 눈이 자랐기 때문에 아직 이 세상에 적응할 시간이 좀 필요합니다.

드디어 현재의 AI 거인 전투는 달리기 점수와 텍스트 출력 기능만 보았던 초보 마을 단계를 오랫동안 통과했습니다.

코딩 수준, 멀티모달 기능, 통화 도구의 부드러움 등은 기본적으로 필수입니다.

하지만 다중 모드 기능을 갖춘 이전 Big D 선생님의 부재는 항상 안타까움을 느꼈습니다. 모두가 흥얼거리며 일하는 것처럼 보이지만 DeepSeeK의 Agent 능력은 팔과 눈이 부족하여 크게 저하됩니다.

결국 대부분의 최신 모델과 API는 다중 모드이거나 최소한 이미지 입력 ​​기능을 갖추고 있습니다.


또한 DeepSeek이 가능한 한 빨리 이미지 인식의 다중 모드 기능을 새로운 V4 모델의 API로 업데이트할 수 있기를 바랍니다.

알다시피, 나는 눈을 가리기 전에 이미 많은 적들과 앞뒤로 싸웠습니다. . 이제 눈가리개를 벗으면 클로드코드, 랍스터, 코워크 등 툴의 성능이 크게 향상될 것으로 예상된다.

또한 이 기간 동안 존재감을 높이기 위해 DeepSeek이 버블을 날리는 빈도로 판단하면 아직 실행 대기 중인 콤보가 많은 것으로 추정됩니다.

더 이상 이야기하지 말고 D 선생님의 공연을 감상하세요.