Apple 연구원들이 사용자의 자연어 지시를 기반으로 이미지를 편집할 수 있는 새로운 오픈소스 인공지능 모델을 출시했습니다. MGIE는 MLLM(Multimodal Large Language Model)을 사용하여 사용자 요청을 해석하고 픽셀 수준 작업을 수행하는 MLLM-GuidedImageEditing의 약어입니다.
이 모델은 이미지의 모든 측면을 편집할 수 있습니다. 전반적인 사진 향상에는 밝기, 대비 또는 선명도가 포함되거나 스케치와 같은 예술적 효과를 적용할 수 있습니다. 로컬 편집은 이미지의 특정 영역이나 개체의 모양, 크기, 색상 또는 질감을 수정할 수 있는 반면, Photoshop 스타일 수정에는 자르기, 크기 조정, 회전, 필터 추가, 심지어 배경 변경 및 이미지 혼합이 포함됩니다.
피자 사진에 대한 사용자의 입력은 "더 건강해 보이게 만들어라"일 수 있습니다. 상식적인 추론을 사용하여 모델은 토마토, 허브와 같은 야채 재료를 추가할 수 있습니다. 전역 최적화 입력 요청은 "대비 증가, 더 많은 빛 시뮬레이션"의 형태일 수 있는 반면, Photoshop 스타일 수정은 모델에 사진 배경에서 사람을 제거하여 이미지의 초점을 피사체의 얼굴 표정으로 이동하도록 요청할 수 있습니다.
Apple은 캘리포니아대학교 연구진과 협력하여 MGIE를 만들고 2024 ICLR(International Conference on Learning Representations)에서 논문을 발표했습니다. 코드, 데이터, 사전 학습된 모델을 포함한 모델은 GitHub에서 사용할 수 있습니다.
이는 몇 달 만에 인공 지능 연구에서 Apple의 두 번째 혁신입니다. 지난 12월 말, Apple은 혁신적인 플래시 메모리 활용 기술을 개발하여 iPhone 및 기타 메모리가 제한된 Apple 장치에 LLM(대형 언어 모델)을 배포하는 데 큰 진전을 이루었다고 밝혔습니다.
지난 몇 달 동안 Apple은 ChatGPT와 경쟁할 수 있는 "AppleGPT"를 테스트해 왔습니다. Bloomberg의 Mark Gurman에 따르면 AI 작업은 Apple의 우선순위이며 Apple은 대규모 언어 모델을 위한 "Ajax" 프레임워크를 설계하고 있습니다.
The Information과 분석가 Jeff Pu는 Apple이 iOS 18이 출시되는 2024년 말경에 iPhone과 iPad에 일종의 생성 인공 지능 기능을 출시할 것이라고 주장합니다. Gurman에 따르면 iOS 18에는 ChatGPT와 유사한 생성 AI 기능을 갖춘 향상된 Siri 버전이 포함되어 있으며 iPhone 역사상 "가장 큰" 소프트웨어 업데이트가 될 가능성이 있다고 합니다.