중국의 AI 리더이자 SenseTime의 창립자인 Tang Xiaoou가 55세의 나이로 세상을 떠났습니다. 그의 마지막 공개 연설은 7월 6일 세계 인공 지능 회의 개막식이었습니다. 인공 지능 분야의 최전선에서 저명한 학자이자 실무자인 Tang Xiaoou는 매일 밤 잠자리에 들기 전에 Yu Qian 선생님의 잡담을 들으면서 "기계가 어떻게 이렇게 흥미로운 영혼을 능가할 수 있을까? 믿을 수 없습니다. "라고 생각했다고 말했습니다.


이날 연설에서 그는 딥러닝 분야에서 꿈을 추구하는 왕샤오강(Wang Xiaogang), 허카이밍(He Kaiming), 린다화(Lin Dahua) 학생 3명의 이야기를 공유하고 대규모 모델 연구에서 젊은 중국 학자들의 독창적인 기여를 강조했습니다. 그는 또한 감동을 표현했습니다. 인공 지능 분야에서 새로운 세대의 학생들이 상하이에서 성공적으로 시작되었습니다.

역사를 되돌아보며 Tang Xiaoou는 2018년 Turing Award가 Joshua Bengio, Geoffrey Hinton 및 Yann LeCun의 세 가지 심층 시상에 수여되었다고 언급했습니다. 배움의 아버지, 이 문에 첫 번째 종을 누른 사람은 2011년 제프리 힌튼(Jeffrey Hinton)과 마이크로소프트의 중국 학자 덩리(Deng Li)가 딥러닝 음성인식 분야에서 획기적인 성과를 거뒀고, 2012년에는 이미지 인식 대회에서도 획기적인 성과를 거뒀다.

Tang Xiaoou와 그의 학생들은 딥 러닝의 처음 몇 년 동안 무엇을 했나요? 그는 첫 번째 학생인 왕샤오강(Wang Xiaogang)에 대해 이야기했습니다.

왕샤오강(Wang Xiaogang)은 중국 과학기술대학 3학년 학부생으로 00반 1등이었다. 석사학위 시절 탕샤오우(Tang Xiaoou)의 연구실에서 공부했고, 이후 MIT에서 박사학위를 취득했다. 박사학위를 졸업한 후 홍콩 중문대학교의 Tang Xiaoou 연구실에 교수로 복귀했습니다. 2011년부터 2013년까지 비전 분야의 두 최고 컨퍼런스인 CVPR(컴퓨터 비전 및 패턴 인식에 관한 국제 컨퍼런스)와 ICCV(컴퓨터 비전에 관한 국제 컨퍼런스)에는 전 세계에서 딥 러닝에 관한 29개의 논문이 있었으며 그 중 14개는 Tang Xiaoou의 연구실에서, 15개는 전 세계 다른 연구실에서 작성되었습니다.

"우리는 얼굴 인식, 얼굴 감지, 얼굴 재구성, 객체 감지, 인간 자세, 이미지 초해상도, 3차원 형상 인식 및 기타 컴퓨터 비전의 핵심 문제를 포함하여 세계 최초로 시각 문제에 딥러닝을 적용하는 18개의 프로젝트를 보유하고 있습니다. 딥러닝의 문에서 우리는 초인종을 18번 눌렀습니다." 탕샤오우가 말했다.

그는 왕샤오강도 페이스북보다 일찍 이루어졌던 인간의 눈보다 기계 얼굴 인식을 더 좋게 만드는 일을 하고 있다고 소개했다. 2015년에는 왕샤오강이 이끄는 팀이 구글 팀을 꺾고 중국 학자 역사상 최초로 ImogeNet(이미지 분류 및 객체 인식을 기반으로 한 국제 대회) 세계 선수권 대회에서 우승했습니다.

두 번째 학생은 허카이밍(He Kaiming)으로 2003년 광둥대학 입학시험에서 최고득점자였다. 그는 칭화대학에서 물리학을 전공하고 홍콩중문대학 탕샤오우 연구실에서 박사학위를 취득했다. Tang Xiaoou는 He Kaiming이 실험실에서 석사 학위를 공부하는 동안 첫 번째 논문을 발표했으며 CVPR에서 최우수 논문을 받았다고 말했습니다. 이는 CVPR 25년 역사상 최초의 아시아 최고의 논문이었습니다. 당시 탕샤오우는 허카이밍에게 자신이 행동을 취하자마자 정점에 이르렀고, 그때부터 그의 학문적 경력은 내리막길만 걷게 될 것이라고 농담을 했다. 그 결과 그는 마이크로소프트와 페이스북에서 일하며 성공을 거두었다.

He Kaiming의 첫 직장은 MSR(Microsoft Research)이었습니다. 2015년 이전에는 딥러닝을 최대 20개 이상의 레이어로만 학습할 수 있었습니다. He Kaiming은 네트워크의 각 레이어에 직접 연결 채널을 도입하여 심층 네트워크의 경사 전달 문제를 해결하고 2016년 최우수 논문을 수상했습니다. 이후 백 개가 넘는 레이어의 딥 러닝을 효과적으로 훈련할 수 있습니다. 대형 모델 시대에는 GPT 시리즈를 포함해 Transformer를 핵심으로 하는 대형 모델들도 일반적으로 이러한 구조를 채택하여 수백 개의 레이어의 적층을 지원합니다.

Tang Xiaoou는 He Kaiming이 네트워크를 더 깊게 만들고 Google이 네트워크의 입구를 더 넓게 만들어 오늘날의 대형 모델이 탄생했다고 결론지었습니다.

He Kaiming의 두 번째 작업인 MaskR-CNN은 Facebook에서 이루어졌습니다. 그는 진정한 고성능 객체 감지 및 알고리즘 프레임워크를 처음으로 제안했으며 ICCV 2017에서 최우수 논문을 수상했습니다. Tang Xiaoou는 He Kaiming이 졸업 후 10년이 채 안 되는 기간에 제1저자로 CVPR 및 ICCV의 최우수 논문을 세 번 수상한 세계 유일의 사람이라고 말했습니다. 그는 처음으로 원본 코드를 기반으로 한 자기 인코딩 아이디어를 시각 분야의 비지도 학습에 적용해 컴퓨터 비전 분야에서 자기 지도 학습의 문을 열고 이를 3차원, 오디오, 심지어 AI 분야까지 확장했습니다.

세 번째 학생인 린다화(Lin Dahua)는 중국 과학기술대학교에서 학사, 홍콩중문대학교에서 석사, MIT에서 박사학위를 취득했습니다. 2010년 MIT에서 박사 과정을 공부하는 동안 그는 NIPS에서 최우수 학생 논문을 수상했습니다. 2014년에 그는 교수로 Tang Xiaoou의 연구실로 돌아왔습니다.

Lin Dahua의 첫 번째 직업은 OpenMMLab이었습니다. 2018년 작은 팀으로 시작해 홍보에 투자하지 않고도 입소문을 타고 전 세계에서 가장 영향력 있는 비주얼 알고리즘 오픈소스 시스템으로 성장했다. 현재 전 세계 140개 이상의 국가와 지역에 사용자가 있습니다.

Tang Xiaoou는 또한 Lin Dahua 작업의 또 다른 두 가지 결과, 곧 출시될 1000억 매개변수와 8K를 갖춘 다국어 대형 언어 모델 'Scholar·Puyu'와 2000억 매개변수와 100제곱킬로미터를 커버하는 도시 수준의 실제 3D 대규모 모델인 LandMark를 소개했습니다.

인공 지능 분야에서 세 학생의 성과에 대해 Tang Xiaoou는 다음과 같이 말했습니다. Wang Xiaogang은 딥 러닝이 부상하는 초기에 많은 독창적인 씨앗을 뿌렸습니다. He Kaiming은 딥 러닝의 기초를 매우 확고하고 깊게 구축했습니다. Lin Dahua는 개발과 대형 모델을 통해 번영을 누렸습니다.

Tang Xiaoou는 "이 큰 나무에 열매가 맺히게 되어 매우 기쁩니다. 불과 2주 전에 우리의 대형 자율주행 모델이 9,155개의 기사 중에서 눈에 띄었고 CVPR 2023 최우수 논문상을 수상했습니다."라고 말했습니다.

그는 Google Scholar 통계를 인용하여 이것이 40년 이상의 개혁 개방 기간 동안 중국 학자들이 완성한 3대 국제 컴퓨터 비전 컨퍼런스 중 첫 번째 최고의 논문이라고 말했습니다. 기사의 주 저자는 박사 학위였습니다. 왕샤오강(Wang Xiaogang)이 가져왔습니다. 또한 OpenMMLab은 Ph.D.인 Chen Kai가 만들었습니다. Lin Dahua가 가져 왔습니다. 인간의 눈을 능가하는 얼굴 인식에 관한 또 다른 논문의 저자인 Lu Chaochao는 Tang Xiaoou의 연구실에서 수행했습니다. 그는 또한 케임브리지대학교에서 박사학위를 취득하고 상하이로 돌아왔습니다. 그는 현재 상하이 치지 연구소에서 중국 유일의 튜링상 수상자 야오 치지(Yao Qizhi)와 함께 AI에 대한 기초 이론 연구를 진행하고 있다. "새로운 세대의 학생들이 상하이에서 성공적으로 시작했습니다."

연설 말미에 Tang Xiaoou는 상하이와 이들 학생들에게 다시 한 번 감사 인사를 전하고 AI에서 능가하기 어렵다고 믿었던 '흥미로운 영혼' Yu Qian의 영화 '안녕 선생님'에 나오는 대사를 인용했습니다.