MIT 연구원과 MIT-IBM Watson 인공 지능 연구소(Watson Artificial Intelligence Laboratory)는 고해상도 이미지의 실시간 의미론적 분할을 가속화하고 자율 주행 자동차와 같이 하드웨어가 제한된 장치에 최적화된 컴퓨터 비전 모델인 EfficientViT를 공개했습니다.
자율주행차는 길모퉁이에 주차된 공회전 트럭부터 교차로를 향해 질주하는 자전거 운전자까지 마주치는 물체를 빠르고 정확하게 식별해야 합니다.
고해상도 컴퓨터 비전을 위한 기계 학습 모델을 사용하면 엣지 장치에서 자율 주행이나 의료 이미지 분할과 같은 계산 집약적인 비전 애플리케이션을 구현할 수 있습니다. 사진에는 자율주행 기술에 대한 작가의 해석이 담겨 있다. 이미지 출처: MIT 뉴스
이를 위해 자율주행차는 강력한 컴퓨터 비전 모델을 사용하여 장면의 고해상도 이미지에서 각 픽셀을 분류하여 낮은 품질의 이미지에서 가려질 수 있는 객체가 무시되지 않도록 할 수 있습니다. 그러나 의미론적 분할로 알려진 이 작업은 복잡하고 높은 이미지 해상도에서 많은 계산이 필요합니다.
MIT, MIT-IBM Watson 인공 지능 연구소 및 기타 기관의 연구원들은 이 작업의 계산 복잡성을 크게 줄이는 보다 효율적인 컴퓨터 비전 모델을 개발했습니다. 그들의 모델은 자율 주행 자동차가 순간적으로 결정을 내릴 수 있게 해주는 온보드 컴퓨터와 같이 하드웨어 리소스가 제한된 장치에서 실시간으로 의미론적 분할을 정확하게 수행할 수 있습니다.
실시간 처리 최적화
최신 최첨단 의미론적 분할 모델은 이미지의 각 픽셀 쌍 간의 상호 작용을 직접 학습하므로 계산 노력이 이미지 해상도에 따라 4배로 늘어납니다. 이로 인해 이러한 모델은 정확하기는 하지만 휴대폰과 같은 센서나 에지 장치에서 실시간으로 고해상도 이미지를 처리하기에는 너무 느립니다.
MIT 연구원들은 이러한 최첨단 모델과 동일한 기능을 달성하지만 선형 계산 복잡성만 갖고 하드웨어 효율성으로 작동하는 의미론적 분할 모델을 위한 새로운 빌딩 블록을 설계했습니다.
그 결과 모바일 장치에 배포할 때 이전 모델보다 최대 9배 더 빠른 성능을 발휘하는 고해상도 컴퓨터 비전을 위한 새로운 모델 제품군이 탄생했습니다. 중요한 것은 이 새로운 모델 제품군이 이러한 대체 모델과 동일하거나 더 높은 정확도를 보여준다는 것입니다.
EfficientViT는 자율주행 자동차가 의미론적 분할, 즉 자동차가 물체를 정확하게 식별할 수 있도록 장면의 모든 픽셀을 분류하는 고해상도 컴퓨터 비전 작업을 효율적으로 수행할 수 있도록 해줍니다. 사진은 물체 분류에 사용되는 다양한 색상을 보여주는 데모 비디오의 사진입니다. 연구진이 제공한 이미지
솔루션 자세히 살펴보기
이 기술은 자율주행차가 실시간 의사결정을 내리는 데 도움이 될 뿐만 아니라 의료 영상 분할과 같은 기타 고해상도 컴퓨터 비전 작업의 효율성도 향상시킵니다.
"연구원들은 오랫동안 전통적인 비전 변환기를 사용해 인상적인 결과를 얻었지만 사람들이 이러한 모델의 효율성 측면에도 집중하기를 바랍니다. 우리의 연구는 계산 부하를 크게 줄여 장치에서 로컬로 실시간 이미지 분할을 수행할 수 있음을 보여줍니다." MIT-IBM Watson AI Lab 회원이자 새 모델을 설명하는 논문의 수석 저자인 EECS(전기공학 및 컴퓨터과학과) 부교수인 Han Song은 말했습니다.
또한 그와 함께 논문을 작성하고 있는 사람은 논문의 제1저자인 전기공학 및 컴퓨터과학과 대학원생 Cai Han, 저장대학교 학부생 Li Junyan, 칭화대학교 학부생 Hu Muyan, MIT-IBM Watson Artificial Intelligence Laboratory의 수석연구원 Gan Chuang입니다. 이 연구는 컴퓨터 비전에 관한 국제 컨퍼런스에서 발표될 예정입니다.
단순화된 솔루션
수백만 개의 픽셀이 있을 수 있는 고해상도 이미지의 모든 픽셀을 분류하는 것은 기계 학습 모델에 있어서 어려운 작업입니다. 최근에는 Visual Converter라는 강력한 새 모델이 효과적으로 적용되었습니다.
Transformer는 원래 자연어 처리를 위해 개발되었습니다. 이 경우 문장의 각 단어를 토큰으로 인코딩한 다음 각 토큰과 다른 모든 토큰 간의 관계를 캡처하는 주의 지도를 생성합니다. 이 주의 지도는 모델이 예측을 할 때 상황을 이해하는 데 도움이 됩니다.
동일한 개념을 사용하여 시각적 변환기는 이미지를 픽셀 패치로 분할하고 각 패치를 레이블로 인코딩한 다음 주의 지도를 생성합니다. 이 어텐션 맵을 생성할 때 모델은 유사성 함수를 사용하여 각 픽셀 쌍 간의 상호 작용을 직접 학습합니다. 이러한 방식으로 모델은 전역 수용 필드(global receptive field)를 형성합니다. 이는 이미지의 모든 관련 부분에 접근할 수 있음을 의미합니다.
고해상도 이미지는 수백만 개의 픽셀을 포함하고 수천 개의 세그먼트로 나누어질 수 있으므로 주의 그래프는 빠르게 매우 커질 수 있습니다. 따라서 이미지 해상도가 증가하면 계산량이 4배 증가합니다.
EfficientViT라는 새로운 모델 계열에서 MIT 연구원들은 주의 지도를 구축하기 위해 비선형 유사성 함수를 선형 유사성 함수로 대체하는 더 간단한 메커니즘을 채택했습니다. 따라서 기능을 변경하거나 전역 수용 필드를 잃지 않으면서 작업 순서를 재정렬하고 전체 계산 노력을 줄일 수 있습니다. 그들의 모델에서 예측에 필요한 계산 노력은 이미지 해상도에 따라 선형적으로 증가합니다.
"그러나 공짜 점심은 없습니다. 선형적인 관심은 이미지의 전체 배경만 캡처할 수 있으며 지역 정보를 잃어 정확도가 떨어집니다."라고 Han은 말했습니다. 정확도 손실을 보상하기 위해 연구원들은 모델에 두 가지 추가 요소를 추가했으며 각 요소에는 소량의 계산만 추가되었습니다.
구성 요소 중 하나는 모델이 로컬 기능의 상호 작용을 포착하고 로컬 정보 추출에서 선형 함수의 약점을 완화하는 데 도움이 될 수 있습니다. 두 번째 요소는 다중 규모 학습을 구현하는 모듈로, 모델이 크고 작은 물체를 인식할 수 있도록 도와줍니다.
Cai Han은 "여기서 가장 중요한 부분은 성능과 효율성의 균형을 신중하게 유지해야 한다는 것입니다."라고 말했습니다. 그들은 하드웨어 친화적인 아키텍처로 EfficientViT를 설계하여 VR 헤드셋이나 자율주행차용 엣지 컴퓨터와 같은 다양한 유형의 장치에서 더 쉽게 실행할 수 있도록 했습니다. 해당 모델은 이미지 분류와 같은 다른 컴퓨터 비전 작업에도 적용될 수 있습니다.
의미론적 분할 단순화
의미론적 분할에 사용되는 데이터 세트에서 모델을 테스트한 결과, 모델이 NVIDIA 그래픽 처리 장치(GPU)에서 다른 인기 있는 시각적 변환기 모델보다 9배 더 빠르게 실행되고 동일하거나 더 나은 정확도로 실행된다는 사실을 발견했습니다.
Han Song은 "이제 우리는 모바일과 클라우드 장치에서 실행할 수 있을 만큼 계산 속도를 늦춰 두 가지 장점을 모두 얻을 수 있습니다"라고 말했습니다. 이러한 결과를 바탕으로 연구원들은 새로운 이미지를 생성하는 데 사용되는 것과 같은 생성적 기계 학습 모델의 속도를 높이는 기술을 적용하기를 희망합니다. 그들은 또한 EfficientViT의 적용을 다른 비전 작업으로 계속 확장하기를 희망합니다.
AMD 인공 지능 알고리즘 수석 이사인 LuTian은 "한송 교수 팀이 개척한 효율적인 변환기 모델은 이제 감지 및 분할과 같은 다양한 컴퓨터 비전 작업에서 최첨단 기술의 근간이 되었습니다. 그들의 연구는 변환기의 효율성과 기능을 보여줄 뿐만 아니라 비디오 게임의 이미지 품질 향상과 같은 실제 응용 프로그램에서 엄청난 잠재력을 보여줍니다."라고 말했습니다.
"모델 압축과 경량 모델 설계는 특히 대규모 기본 모델에서 효율적인 인공지능 컴퓨팅을 구현하기 위한 핵심 연구 주제입니다. 송한 교수 연구팀은 현대 딥러닝 모델, 특히 시각적 변환기를 압축하고 가속화하는 데 상당한 진전을 이루었습니다." 이번 연구에는 참여하지 않았지만 Oracle의 인공 지능 및 기계 학습 부문 글로벌 부사장인 Jay Jackson은 덧붙였습니다. "Oracle Cloud Infrastructure는 효율적이고 친환경적인 인공 지능을 구현하기 위해 이 영향력 있는 연구를 발전시키는 데 그의 팀을 지원해 왔습니다."