MIT의 CSAIL은 확산과 포아송 과정을 결합한 인공 지능 모델인 PFGM++를 도입합니다. 전기장의 움직임을 복제하여 놀라운 이미지를 생성하며 생성 인공 지능의 도약을 나타냅니다. 물리학에서 영감을 받은 새로운 생성 모델 PFGM++는 이미지 생성에서 확산 모델보다 성능이 뛰어납니다. 생성적 인공지능(Generative Artificial Intelligence)은 단순한 분포가 이미지, 소리, 텍스트의 복잡한 패턴으로 진화하여 인공지능을 놀라울 정도로 현실화하는 세상을 만들겠다고 약속하면서 현재 뜨거운 화제의 정점에 있습니다.
MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL)의 연구원들이 혁신적인 인공 지능 모델에 생명을 불어넣으면서 상상의 영역은 더 이상 단순한 개념이 아닙니다. 그들의 새로운 기술은 현재까지 가장 성능이 좋은 생성 모델의 기초가 되는 겉보기에 관련이 없어 보이는 두 가지 물리적 법칙, 즉 확산(일반적으로 방에 스며드는 열이나 공간으로 팽창하는 가스와 같은 요소의 무작위 이동을 설명함)과 포아송 과정(전하의 활동을 지배하는 원리를 활용함)을 통합합니다.
이러한 조화로운 혼합을 통해 Ezoic은 기존 최첨단 모델을 능가하는 새로운 이미지 생성에 탁월합니다. PFGM++(Poisson Flow Generative Model++)은 처음부터 항체 및 RNA 서열 생성부터 오디오 제작 및 그래픽 생성에 이르기까지 다양한 분야에서 잠재적인 응용 분야를 찾아냈습니다.
모델은 사실적인 이미지를 생성하거나 실제 프로세스를 모방하는 등 복잡한 패턴을 생성할 수 있습니다. PFGM++는 지난해 연구 결과인 팀의 PFGM을 기반으로 구축됐다. PFGM은 "푸아송(Poisson)" 방정식으로 알려진 수학 방정식에서 영감을 얻은 다음 이를 모델이 학습하려는 데이터에 적용합니다. 이를 위해 팀은 영리한 트릭을 사용했습니다. 즉, 2차원 스케치에서 3차원 모델로 이동하는 것과 약간 비슷하여 모델의 "공간"에 추가 차원을 추가했습니다. 이 추가 차원은 더 많은 작업 공간을 제공하고 데이터를 더 큰 맥락에 배치하며 새로운 샘플을 생성할 때 모든 방향에서 데이터에 접근하는 데 도움이 됩니다.
MIT 핵 과학 연구소 이론 물리학 센터의 이론 입자 물리학자이자 미국 국립 과학 재단 인공 지능 및 기본 상호 작용 연구소(NSFAIIAIFI) 소장인 Jesse Thaler는 다음과 같이 말했습니다. "PFGM++는 인공 지능의 진보를 발전시키기 위한 물리학자와 컴퓨터 과학자 간의 학제간 협력의 예입니다. 최근 몇 년간 인공 지능을 기반으로 한 생성 모델은 사실적인 이미지에서 일반 텍스트 스트림에 이르기까지 끝없는 결과를 만들어냈습니다. 그 결과는 다음과 같습니다. 특히 가장 강력한 생성 모델 중 일부는 대칭 및 열역학과 같이 오랜 세월에 걸쳐 검증된 물리학 개념을 기반으로 합니다. PFGM++는 공간과 시간에 추가 차원이 있을 수 있다는 기본 물리학의 개념을 가져와 이를 합성이면서도 실제 데이터 세트를 생성하기 위한 강력하고 견고한 도구로 변환합니다.
PFGM의 기본 메커니즘은 생각만큼 복잡하지 않습니다. 연구자들은 데이터 포인트를 차원적으로 확장된 세계에서 비행기의 작은 전하에 비유했습니다. 이러한 전하는 자기장 선을 추가 차원으로 이동하는 "전기장"을 생성하여 거대한 상상의 반구에 걸쳐 균일한 분포를 만듭니다. 생성 과정은 되감기와 같습니다. 반구 전체에 균일하게 분포된 전하 세트에서 시작하여 전기장 선을 따라 평면으로 진행 과정을 다시 추적하면 원래 데이터의 분포와 일치하도록 정렬됩니다. 이 흥미로운 과정을 통해 신경 모델은 전기장을 학습하고 원본 데이터와 일치하는 새로운 데이터를 생성할 수 있습니다.
PFGM++ 모델은 PFGM의 전기장을 복잡한 고차원 프레임워크로 확장합니다. 이러한 차원을 계속 확장하면 예상치 못한 일이 발생합니다. 즉, 모델이 또 다른 중요한 모델 클래스, 즉 확산 모델과 닮기 시작합니다. 직업은 올바른 균형을 찾는 것입니다. PFGM 모델과 확산 모델은 스펙트럼의 반대쪽에 있습니다. 하나는 강력하지만 처리하기 복잡하고 다른 하나는 간단하지만 덜 견고합니다. PFGM++ 모델은 견고성과 사용 용이성 사이의 적절한 균형을 찾습니다. 이 혁신은 이미지와 패턴을 보다 효율적으로 생성할 수 있는 길을 열어주며 기술의 중요한 발전을 의미합니다. 연구진은 크기를 조정할 수 있을 뿐만 아니라 전기장을 보다 효율적으로 학습할 수 있는 새로운 훈련 방법도 제안했습니다.
이 이론을 실제로 적용하기 위해 팀은 전기장에서 이러한 전하의 움직임을 자세히 설명하는 한 쌍의 미분 방정식을 풀었습니다. 그들은 실제 이미지와 비교하여 모델에서 생성된 이미지의 품질을 평가하는 데 널리 사용되는 측정 기준인 FID(Frechette Inception Distance) 점수를 사용하여 성능을 평가했습니다. PFGM++는 미분 방정식의 단계 크기에 대해 더 높은 오류 허용 오차와 견고성을 추가로 보여줍니다.
앞으로 그들은 특히 신경망의 추정 오류 동작을 분석하여 특정 데이터, 아키텍처 및 작업에 맞는 D의 "최적 지점" 값을 체계적으로 식별함으로써 모델의 특정 측면을 개선하는 것을 목표로 합니다. 그들은 또한 현대의 대규모 텍스트-이미지/텍스트-비디오 생성에 PFGM++를 적용할 계획입니다.
OpenAI의 연구원인 Yang Song은 “확산 모델은 생성 AI 혁명의 중요한 원동력이 되었습니다.”라고 말했습니다. "PFGM++는 확산 모델의 강력한 일반화를 제공하므로 사용자는 섭동 및 학습 오류에 대한 이미지 생성의 견고성을 향상하여 더 높은 품질의 이미지를 생성할 수 있습니다. 또한 PFGM++는 정전기학과 확산 모델 사이의 놀라운 연관성을 발견하여 확산 모델 연구에 대한 새로운 이론적 통찰력을 제공합니다."
NVIDIA의 수석 연구 과학자인 Karsten Kreis는 다음과 같이 말했습니다. "푸아송 흐름 생성 모델은 정전기학을 기반으로 한 우아한 물리적 경험적 공식에 의존할 뿐만 아니라 실제로 최첨단 생성 모델 성능을 제공합니다. 심지어 현재 문헌을 지배하고 있는 대중적인 확산 모델보다 성능이 뛰어납니다."