Apple, 대규모 웹 스크래핑부터 비밀 승인 거래, 합성 콘텐츠까지 AI 모델 훈련 전략 공개

WWDC 컨퍼런스에서는 운영 체제를 위한 곧 출시될 새로운 시각적 디자인 언어인 Liquid 디자인에 중점을 두었으며 Apple은 장치와 클라우드를 모두 지원하는 차세대 AI 기반 모델도 발표했습니다. 컨퍼런스 이후, 거대 기술 기업인 Apple은 사용자와 기술 커뮤니티에 자사 모델의 훈련 및 최적화 프로세스에 대한 통찰력을 제공할 상세한 기술 보고서를 통해 Apple의 AI 전략을 더 잘 이해할 준비가 되어 있는 것으로 보입니다. Apple은 보고서에서 모델을 훈련할 때 개인 정보 보호와 효율성에 중점을 두고 있음을 강조했습니다.

현재 인공지능 분야에서는 그다지 중요하지 않지만, 애플은 최신 인공지능 모델의 핵심 요소를 심층적으로 소개하는 '애플 인텔리전스 기본 언어 모델 - 2025년 기술 보고서'라는 기본 모델에 대한 상세 보고서를 발표했다. 이 보고서는 모델 아키텍처부터 학습 단계, 학습 후 단계, 모델 미세 조정 방법까지 거의 모든 내용을 다룹니다. 또한 보고서는 개인정보 침해를 방지하면서 모델 효율성을 높이기 위해 모델 기술 개선을 보장하는 데 사용되는 방법을 탐색합니다.

Apple은 이전에 개발자가 사용할 수 있는 온디바이스 AI 모델과 30억 개의 매개변수를 공유했지만, 지금까지 그 구조가 희박하다는 한계가 있습니다. 모델은 효율성을 높이기 위해 여러 부분으로 분할된 것으로 알려졌다. 첫 번째 부분은 블록 1이라고 하며 핵심 빌딩 블록(변환 레이어라고 함)의 60% 이상을 포함합니다. 그러면 AI는 언어의 주요 표현을 이해하고 응답을 생성합니다.

블록 2라고 불리는 두 번째 부분은 메모리 집약적인 두 가지 기술 구성 요소인 키와 값 프로젝션을 제거하여 더욱 가볍습니다. 이 전략 덕분에 Apple은 모델의 메모리 사용량을 약 38% 줄이고 모델의 응답 시간도 단축할 수 있었습니다. 회사는 기본적으로 AI 모델의 성능을 향상시킬 수 있는 방법을 모색해 왔으며, 몇 년 전에는 장치의 메모리 용량보다 큰 모델을 실행하는 아이디어를 탐색했습니다. 이들은 확립된 솔루션을 채택하지는 않았지만 하드웨어 제한 사항 및 기타 과제를 처리할 수 있는 방법을 찾고 있었습니다.

AI 모델의 서버 측과 관련하여 Apple은 자사의 프라이빗 클라우드 컴퓨팅 시스템이 맞춤형 아키텍처를 채택하도록 보장합니다. 이러한 접근 방식을 PT-MoE(Parallel Orbit Mixed Experts)라고 하며, 간단히 말해서 대규모 AI 모델을 전문가라는 작은 부분으로 나누는 영리한 전략입니다. 이제 모델을 전문가들의 혼합으로 분할함으로써 모델을 매번 완전히 실행할 필요가 없습니다. 대신 현재 작업과 관련된 전문가에게만 집중할 수 있습니다. 도메인 전문 지식을 갖춘 모델 부분만 활성화되어 성능을 절약하고 효율성을 높입니다.

또한 Apple은 "Parallel Track Transformer"라는 새로운 Transformer 아키텍처도 설계했습니다. 이 아키텍처에는 핵심 지점에서만 함께 작동하는 여러 개의 독립적으로 실행되는 트랙이 있습니다. 이로 인해 이 모델에서는 시스템 전체의 대기 시간이 발생하지 않습니다. 기술 대기업은 또한 Apple Intelligence의 가장 큰 문제점 중 하나인 제한된 언어 지원을 해결했습니다.

새로운 모델을 통해 Apple은 다국어 기능을 크게 향상시켰습니다. 언어 지원을 확대하기 위해 Apple은 훈련 과정에서 영어가 아닌 데이터의 비율을 8%에서 30%로 늘려 실제 콘텐츠와 AI 생성 콘텐츠를 모두 포함함으로써 모델의 이해도를 높이고 더 넓은 범위의 언어를 지원했습니다. 이렇게 하면 쓰기 도구와 같은 기능이 더 잘 작동하게 됩니다. 새로운 AI 시스템을 훈련할 때 Apple은 이전 모델에서도 사용되었던 자체 웹 크롤러인 Applebot이 수집한 웹 데이터에 크게 의존합니다. 흥미롭게도 Apple은 개인 정보 보호를 존중하므로 웹 사이트가 크롤링을 원하지 않으면 해당 콘텐츠가 사용되지 않습니다.

회사는 모델을 훈련하기 위해 다양한 기술을 사용합니다. 주로 공개 웹 데이터를 교육 자료로 사용합니다. Apple은 관련 없는 콘텐츠를 필터링하고 유용하고 관련성 높은 데이터 세트에 집중하는 경향이 있습니다. 마찬가지로 거대 기술 기업은 의존하는 미디어 회사의 이름을 공개했지만 라이센스 콘텐츠를 게시자에게 의존합니다. 또한 이 회사는 더 나은 미세 조정을 위해 더 작은 모델을 사용하여 특히 이미지 언어 작업, 코드 또는 명령 실행과 관련된 합성 데이터를 수집합니다.

이 다중 접근 방식에는 시각적 데이터도 포함됩니다. 거대 기업은 스크린샷과 손으로 쓴 메모를 포함해 100억 개 이상의 이미지 캡션 쌍을 보유하고 있기 때문입니다. 또한 자체 모델을 사용하여 더욱 풍부한 자막을 생성합니다. 이러한 모든 훈련 방법은 Apple이 더욱 스마트하고 강력한 모델을 구축하는 데 도움이 됩니다. AI 모델 훈련에 대한 Apple의 접근 방식은 매우 명확합니다. 이는 핵심 가치인 개인 정보 보호를 손상시키지 않으면서 시스템이 강력하고 다재다능하게 유지되도록 보장하는 균형 전략입니다.