OpenAI 수석과학자, 초인공지능 제어 방안 모색 계획 있다

12월 15일 뉴스에 따르면 OpenAI는 일찍이 설립 당시 인공지능이 창조자보다 똑똑하더라도 모든 인류에게 이익이 되는 인공지능을 구축하겠다고 약속했습니다. ChatGPT가 출시된 이후 OpenAI의 비즈니스 야망은 점차 더욱 두드러졌습니다. 최근 회사는 미래 초인공지능 연구를 전담하는 새로운 연구팀을 창설한다고 발표했고, 이미 일부 성과를 거두기 시작했다.

OpenAI 연구원인 Leopold Aschenbrenner는 "일반인공지능(AGI)이 빠르게 다가오고 있으며 뛰어난 능력을 갖추고 있으면서도 매우 위험할 수도 있는 초지능 모델을 보게 될 것이며 아직 이를 제어할 수 있는 방법을 찾지 못했습니다."라고 지적했습니다. 그는 올해 7월 창설된 'Superalignment'(Superalignment) 연구팀에 참여했다. OpenAI는 슈퍼 인공 지능의 안전성과 제어 가능성을 보장하는 방법을 탐구하기 위해 사용 가능한 컴퓨팅 성능의 5분의 1을 'Super Alignment' 프로젝트에 투자할 것이라고 밝혔습니다.

OpenAI는 최근 실험 결과를 설명하는 연구 논문을 발표했습니다. 이 실험은 열악한 AI 모델이 지능을 잃지 않고 더 똑똑한 AI 모델을 안내하는 방법을 테스트하기 위해 설계되었습니다. 관련된 기술이 아직 인간의 손재주를 초과하지는 않지만, 이 실험은 인간이 자신보다 더 똑똑한 인공 지능 시스템과 함께 작업해야 하는 미래를 위해 설계되었습니다.

실험에서 OpenAI 연구원들은 GPT-4와 같은 시스템을 조정하여 더 유용하고 덜 유해하게 만드는 데 사용되는 감독이라는 프로세스를 조사했습니다. GPT는 ChatGPT를 뒷받침하는 대규모 언어 모델입니다. 현재 여기에는 인간이 AI 시스템에 어떤 대답이 좋고 나쁜지에 대한 피드백이 포함됩니다. 인공 지능이 발전함에 따라 연구자들은 시간을 절약하기 위해 이 프로세스를 자동화하는 방법을 모색하고 있습니다. 게다가 AI가 더욱 강력해지면 인간이 유용한 피드백을 제공하지 못할 수도 있다고 믿기 때문입니다.

통제된 실험에서 연구원들은 2019년에 처음 출시된 OpenAI의 GPT-2 텍스트 생성기를 사용하여 GPT-4를 가르치고 두 가지 해결 방법을 테스트했습니다. 한 가지 접근 방식은 더 큰 모델을 점진적으로 훈련하여 각 단계에서 성능 손실을 줄이는 것입니다. 또 다른 하나는 더 강력한 모델이 성능을 저하시키지 않고 더 약한 모델의 지침을 따를 수 있도록 하는 GPT-4의 알고리즘 조정입니다. 두 번째 접근 방식이 더 효과적인 것으로 입증되었으며, 연구원들은 이러한 방법이 더 강력한 모델이 완벽하게 작동한다는 것을 보장하지는 않지만 추가 연구의 출발점이 될 수 있음을 인정합니다.

인공 지능의 위험 관리에 전념하는 샌프란시스코 기반 비영리 단체인 인공 지능 안전 센터(Center for Artificial Intelligence Safety)의 이사인 댄 헨드릭스(Dan Hendryks)는 "OpenAI가 수년간의 노력이 필요한 과제인 초지능 제어 문제를 적극적으로 해결하는 것을 보는 것이 좋습니다."라고 말했습니다.

Aschenbrenner와 Super Alignment 팀의 다른 두 구성원인 Collin Burns와 Pavel Izmailov는 인터뷰에서 잠재적인 초인공지능을 길들이는 중요한 첫 단계에 고무되었다고 말했습니다. Izmailov는 다음과 같이 비유했습니다. "6학년 학생이 대학 수학 전공보다 수학을 덜 알더라도 여전히 대학생들에게 자신이 성취하고 싶은 것이 무엇인지 전달할 수 있고 그것이 우리가 추구하는 것입니다."

Super Alignment 팀은 OpenAI의 수석 과학자이자 공동 창립자인 Ilya Sutskever가 공동으로 이끌고 있습니다. Sultzkefer는 지난 달 CEO Sam Altman을 해고하기로 투표한 원래 이사회 구성원 중 한 명이었습니다. 그러나 그는 나중에 자신의 결정을 번복하고 알트만이 복직되지 않으면 사임하겠다고 위협했습니다. Sutskefer는 최신 논문의 공동 저자이지만 OpenAI는 그에게 프로젝트에 대해 논의하도록 요청하는 것을 거부했습니다.

지난 달 Altman은 OpenAI와 합의에 이르렀고 대부분의 이사회가 사임했으며 OpenAI에서 Sultzkefer의 미래도 불확실성으로 가득 차 있습니다. 그래도 Aschenbrenner는 "이 프로젝트의 원동력이 된 Sutzkefer에게 매우 감사합니다"라고 말했습니다.

인공 지능 분야에서 OpenAI의 연구원들은 기존 기술을 사용하여 미래 인공 지능 시스템을 길들이는 데 도움이 될 수 있는 것이 무엇인지 테스트하려는 첫 번째 그룹은 아닙니다. 그러나 기업 및 학계 실험실의 이전 연구와 마찬가지로 잘 설계된 실험에서 작동하는 아이디어가 미래에 실용적일 것이라고 확신할 수 없습니다. 연구원들은 더 약한 AI 모델을 더 강력한 AI 모델로 훈련시킬 것입니다. 이 기능은 "더 넓은 '초정렬' 문제를 해결하는 핵심 구성 요소"라고 합니다.

이 AI 정렬 실험은 또한 다음과 같은 중요한 질문을 제기합니다. 제어 시스템은 얼마나 신뢰할 수 있습니까? OpenAI의 신기술의 핵심은 더 강력한 AI 시스템이 약한 시스템의 어떤 지침을 무시할 수 있는지 스스로 결정할 수 있다는 아이디어입니다. 이를 통해 AI가 미래에 위험한 방식으로 행동하는 것을 방지할 수 있는 중요한 정보를 무시하게 될 수 있습니다. 그러한 시스템이 효과적이려면 일관성을 제공하는 데 진전이 이루어져야 합니다. Burns는 “궁극적으로 높은 수준의 신뢰가 필요합니다.”라고 강조했습니다.

AI 안전을 연구하는 캘리포니아대학교 버클리캠퍼스의 스튜어트 러셀 교수는 덜 강력한 AI 모델을 사용해 더 강력한 AI 모델을 제어하려는 아이디어가 한동안 존재해 왔다고 말했습니다. 그러나 그는 또한 AI 행동을 가르치는 데 사용되는 방법이 아직 현재 모델을 안정적으로 실행할 수 없기 때문에 실행 가능한지 여부가 불분명하다고 지적합니다.

OpenAI는 더욱 발전된 인공 지능을 제어하기 위한 첫 걸음을 내딛는 동안 외부 도움을 간절히 원합니다. OpenAI는 약한-강한 규제, 고급 모델의 해석성, 한계를 깨기 위한 프롬프트를 통한 모델 강화와 같은 분야의 진전을 장려하기 위해 전 Google CEO인 Eric Schmidt와 협력하여 외부 연구자들에게 1,000만 달러의 보조금을 제공할 것이라고 발표했습니다. 새 논문 작성에 참여한 연구원들은 OpenAI가 내년에도 '슈퍼 정렬'에 관한 컨퍼런스를 열 것이라고 말했습니다.

OpenAI의 공동 창립자이자 Hyper-Alignment 팀의 공동 리더로서 그는 회사의 가장 중요한 기술 활동을 이끌고 있습니다. 동시에, 점점 강력해지는 인공지능을 어떻게 제어할 것인가에 대한 고민이 커지고 있는 대표적인 전문가 중 한 명이다. 올해 초부터 ChatGPT의 영향으로 미래 인공지능 기술을 어떻게 제어할 것인가에 대한 이슈가 새롭게 주목받고 있습니다. Sulzkefer는 심층 신경망 개척자인 Geoffrey Hinton의 지도 아래 박사 과정을 공부했습니다. 후자는 인공지능이 일부 작업에서 인간 수준에 접근하는 것으로 보인다는 경고가 나오면서 올해 5월 구글을 떠났다. (작은)