Microsoft, PC에서 직접 실행할 수 있고 GPT-4o_5iter.com과 비슷한 성능을 갖춘 Fara-7B 출시

11월 24일, 마이크로소프트는 사용자의 로컬 장치에서 직접 복잡한 작업을 실행할 수 있는 "컴퓨터 사용 에이전트(CUA)"로 포지셔닝된 7B 매개변수 AI 모델 Fara-7B의 출시를 발표했습니다. Fara-7B는 동일한 규모에서 최고의 성능을 달성할 뿐만 아니라 AI 에이전트가 거대한 클라우드 모델에 의존하지 않도록 하여 리소스가 제한된 시스템에서 짧은 대기 시간과 강력한 데이터 개인정보 보호를 보장합니다.

보고서에 따르면 Fara-7B의 아키텍처는 기업 사용자가 가장 우려하는 데이터 보안 요구 사항을 직접적으로 해결합니다. 모델이 로컬에서 실행될 수 있을 정도로 간소화되었기 때문에 사용자는 관련 정보가 로컬 장치를 벗어나지 않고도 민감한 워크플로(예: 내부 계정 관리 또는 기밀 데이터 처리)를 자동화하여 개인 정보 보호 및 규정 준수를 크게 향상시킬 수 있습니다.

Fara-7B는 "화면 보기 작업"을 통해 웹 페이지와 상호 작용합니다. 스크린샷을 사용하여 인간처럼 페이지 레이아웃을 "시각적으로 인식"하고 클릭, 입력, 스크롤 및 기타 작업을 완료하기 위한 좌표를 예측하며 브라우저의 기본 접근성 트리 구조에 의존하지 않습니다. 픽셀 수준의 시각적 정보만을 "작동"하는 이 방법을 사용하면 혼란스러운 코드 구조와 구문 분석하기 어려운 페이지가 있는 웹 사이트에서 제대로 작동할 수 있습니다.

Microsoft Research의 수석 제품 관리자인 Yash Lara는 시각적 입력을 완전히 로컬에서 처리하면 진정한 "픽셀 주권"이 달성되어 자동화 및 데이터 추론 프로세스가 로컬에 유지되어 의료 및 금융 산업과 같이 규제가 엄격한 산업의 규정 준수 요구 사항을 충족할 수 있다고 말했습니다.

WebVoyager 등의 표준 테스트에서 Fara-7B의 작업 성공률은 73.5%로 더 많은 리소스를 소비하는 GPT-4o(65.1%), UI-TARS-1.5-7B(66.4%) 등의 모델보다 우수합니다. 동시에 Fara-7B는 작업을 완료하는 데 평균 16단계만 필요한 반면, UI-TARS-1.5-7B는 41단계를 수행하므로 효율성이 크게 향상됩니다. 또한 Fara-7B는 정확성과 비용 측면에서 최고의 가격 대비 성능 비율을 보여줍니다.

하지만 마이크로소프트는 이 모델도 일반적인 AI 시스템에서는 여전히 복잡한 명령 처리 시 환각 현상, 오류 등의 문제가 있다는 점을 강조했다. 위험을 줄이기 위해 Fara-7B는 "핵심" 메커니즘을 도입합니다. 즉, 사용자 개인 데이터 또는 되돌릴 수 없는 작업(예: 이메일 전송, 금융 운영)을 포함하기 전에 모델이 적극적으로 일시 중지되고 사용자 확인을 요청합니다. Microsoft는 사용자가 시간에 개입하고 과도한 중단을 피할 수 있도록 지원하는 인간-컴퓨터 상호 작용 UI(Magenic-UI)를 설계했습니다.

Fara-7B는 다수의 다중 에이전트 시스템 성공 사례(Magentic-One에서 생성된 145,000개의 자동 탐색 궤적)를 단일 모델로 압축하고 변환하기 위해 "지식 증류" 접근 방식을 사용하여 개발되었습니다. 기본 모델은 최대 128,000 단어의 컨텍스트 창과 강력한 텍스트 및 시각적 요소 정렬 기능을 갖춘 Qwen2.5-VL-7B입니다. 전체 프로세스는 감독된 미세 조정에 중점을 두어 모델이 인간 전문가의 시연을 "모방"할 수 있도록 합니다.

마이크로소프트는 앞으로도 무턱대고 모델의 크기를 키우는 것이 아니라, “소형 모델을 더욱 스마트하고 안전하게 만드는 데 집중하겠다”고 강조했다. 후속 계획은 합성 환경의 강화학습 메커니즘(RL)을 훈련에 도입해 Fara-7B가 샌드박스 환경에서 자율적으로 학습할 수 있도록 하는 것이다.

현재 Fara-7B는 MIT 프로토콜을 통해 Hugging Face와 Microsoft Foundry 플랫폼에 출시되어 상업적 이용이 가능해졌습니다. 그러나 Microsoft는 모델이 아직 생산 수준에 도달하지 않았으며 주로 프로토타입 개발 및 테스트에 적합하다는 점을 상기시킵니다.