인공지능(AI) 초지능이 갑자기 등장할 것인가, 아니면 과학자들이 그 출현을 예측하고 세상에 경고할 기회를 갖게 될 것인가? 이 문제는 최근 대규모 언어 모델(예: ChatGPT)의 등장으로 많은 주목을 받았으며, 이러한 인공 지능은 크기가 커짐에 따라 상당한 새로운 기능을 얻었습니다.누군가는 소위 인공지능 모델이 놀라운 방법으로 지능을 빠르게 획득하는 현상인 '창출' 현상을 지적했습니다. 그러나 최근 연구에서는 이러한 상황을 시스템 테스트 중에 발생하는 아티팩트인 "유령"이라고 부르며 혁신 역량 구축이 실제로는 점진적인 과정임을 시사합니다.

모질라 재단(Mozilla Foundation)에서 인공지능 감사를 연구하는 전산 과학자 데보라 라지(Deborah Raji)는 "그들이 '마법 같은 일은 일어나지 않았다'고 말하길 잘했다고 생각한다"고 말했다. "그것은 훌륭하고 확고하며 측정 기반의 비판입니다."

이 연구는 지난 12월 뉴올리언스에서 열린 NeurIPS 머신러닝 컨퍼런스에서 발표되었습니다.

클수록 좋다

대규모 언어 모델은 일반적으로 다음에 일어날 일을 예측하여 현실적인 답변을 생성하기 위해 엄청난 양의 텍스트나 기타 정보로 훈련됩니다. 특별한 훈련이 없어도 언어를 번역하고, 수학 문제를 풀고, 시를 쓰고, 코드를 계산할 수 있습니다. 모델이 클수록(일부는 조정 가능한 매개변수가 천억 개가 넘음) 성능이 더 좋습니다. 일부 연구자들은 이러한 도구가 결국 대부분의 작업에서 인간의 성능과 일치하거나 심지어 능가할 수 있는 인공 일반 지능(AGI)으로 이어질 수 있다고 의심합니다.

새로운 연구는 몇 가지 방법으로 출현 주장을 테스트합니다. 첫째, 과학자들은 4자리 덧셈으로 4스케일 OpenAIGPT-3 모델의 기능을 비교했습니다. 절대 정확도 측면에서 세 번째와 네 번째로 큰 모델 간의 성능 차이는 0%에 가깝고 100%에 가깝습니다. 그러나 정확하게 예측된 답변의 수를 살펴보면 성과 수준의 차이가 덜 극단적입니다. 연구자들은 또한 모델에 많은 테스트 질문을 주면 곡선이 평평해진다는 사실도 발견했습니다. 이 경우 더 작은 모델이 때때로 올바르게 대답하는 경우도 있었습니다.

그런 다음 연구원들은 여러 작업에서 Google의 LaMDA 언어 모델의 성능을 조사했습니다. 아이러니를 찾아내거나 옳고 그름이 불연속적인 객관식 질문인 속담을 번역하는 부분에서는 지능이 급격히 증가한 것으로 나타났습니다. 그러나 연구자들이 모델이 각 답변에 할당한 확률(연속 측정항목)을 조사한 결과 출현 징후가 사라졌습니다.

마지막으로 연구자들은 출현에 대한 이야기가 거의 없는 분야인 컴퓨터 비전을 조사했습니다. 그들은 이미지를 압축한 다음 재구성하도록 모델을 훈련했습니다. 그러나 정확성에 대한 엄격한 기준이 설정되어 있는 한 상당한 출현을 유도할 수 있습니다. 인공 지능과 상식을 연구하는 워싱턴 대학의 컴퓨터 과학자 최예진은 "그들이 설문조사를 설계한 방식은 매우 창의적이었다"고 말했습니다.

아직 배제되지 않음

연구 공동 저자이자 스탠포드 대학의 컴퓨터 과학자인 산미 코예조(Sanmi Koyejo)는 일부 시스템이 예상치 못한 "상 변화"를 보이기 때문에 사람들이 출현을 생각하는 것이 터무니없는 것은 아니라고 말했습니다. 그는 또한 이 연구가 대규모 언어 모델(미래 시스템은 말할 것도 없고)에서 이런 일이 일어날 가능성을 완전히 배제할 수는 없지만 "현재까지의 과학적 연구는 언어 모델의 대부분의 측면이 실제로 예측 가능하다는 것을 강력히 시사한다"고 덧붙였습니다.

Raji는 학계가 신경망 아키텍처 개발보다 벤치마킹에 더 집중하는 것을 보고 기뻐합니다. 그녀는 연구자들이 한 단계 더 나아가 이러한 작업이 실제 응용 프로그램과 어떤 관련이 있는지 묻기를 원합니다. 예를 들어, GPT-4와 같은 LSAT(로스쿨 입학 시험)에서 좋은 성적을 거두면 모델이 법률 보조원 업무도 할 수 있다는 뜻인가요?

이 작업은 AI 안전과 정책에도 영향을 미칩니다. Raji는 "AGI 군중은 출현 능력 이야기를 선전해 왔습니다."라고 말했습니다. 근거 없는 두려움은 규제를 어렵게 만들거나 더 긴급한 위험으로부터 주의를 돌릴 수 있습니다. "모델은 개선되고 있으며 유용합니다"라고 그녀는 말했습니다. "하지만 아직 의식을 갖기에는 멀었습니다."