연구에 따르면 많은 인공 지능 모델의 안전성 평가에 심각한 한계가 있음이 밝혀졌습니다

AI 안전과 책임에 대한 요구가 증가하고 있음에도 불구하고 현재 테스트와 벤치마크만으로는 충분하지 않을 수 있다고 새로운 보고서가 제안합니다. 텍스트, 이미지, 음악, 비디오 등을 분석하고 출력할 수 있는 생성적 AI 모델은 오류 가능성과 일반적으로 예측할 수 없는 동작으로 인해 점점 더 많은 주목을 받고 있습니다. 이제 공공 부문 기관부터 대형 기술 기업까지 모두가 이러한 모델의 보안을 테스트하기 위한 새로운 벤치마크를 제안하고 있습니다.

지난해 말 스타트업 ScaleAI는 안전 지침과 모델의 일관성을 평가하기 위해 실험실을 설립했습니다. 이번 달 NIST와 영국의 인공 지능 안전 연구소(Artificial Intelligence Safety Institute)는 모델 위험을 평가하기 위해 설계된 도구를 출시했습니다. 그러나 이러한 모델 탐지 테스트와 방법만으로는 충분하지 않을 수 있습니다.

영국의 비영리 인공지능 연구기관인 에이다 러브레이스 연구소(ALI)는 학계 실험실, 시민사회, 제조사 모델 전문가를 인터뷰하고 최근 AI 안전성 평가 연구를 검토하는 연구를 진행했다. 공동 저자는 현재 평가가 유용할 수 있지만 완전하지 않고 쉽게 조작할 수 있으며 모델이 실제 시나리오에서 어떻게 작동하는지 반드시 설명하지는 않는다는 것을 발견했습니다.

ALI 수석 연구원이자 보고서 공동 저자인 Elliot Jones는 "스마트폰이든 처방약이든 자동차이든 우리 모두는 우리가 사용하는 제품이 안전하고 신뢰할 수 있기를 원합니다. 이러한 분야에서 제품은 배포 전에 안전한지 확인하기 위해 엄격한 테스트를 거칩니다."라고 말했습니다. "우리 연구의 목표는 현재 AI 안전성 평가 방법의 한계를 조사하고, 평가가 현재 어떻게 사용되는지 평가하고, 정책 입안자와 규제 기관을 위한 도구로서의 용도를 탐색하는 것입니다."

이 연구의 공동 저자들은 기존 AI 모델 평가의 현재 상태뿐만 아니라 오늘날의 모델이 제기하는 위험과 위험을 이해하기 위해 학술 문헌을 조사하는 것으로 시작했습니다. 그런 다음 생성 AI 시스템을 개발하는 익명의 기술 회사 직원 4명을 포함해 전문가 16명을 인터뷰했습니다.

이번 연구에서는 모델을 평가하기 위한 최선의 방법과 분류 기준을 두고 AI 업계 내에서 심각한 의견 차이가 있음을 발견했습니다.

일부 평가에서는 모델이 실제 사용자에게 미칠 수 있는 영향을 테스트하지 않고 실험실 벤치마크와 비교하여 모델이 얼마나 잘 수행되는지 테스트했습니다. 양산 모델을 평가하기보다는 연구 목적으로 개발된 테스트를 활용해 평가하는 경우도 있지만 벤더들은 이러한 모델을 양산에 활용하는 것을 고집하고 있다.

연구에 인용된 전문가들은 벤치마크 결과에서 모델의 성능을 추론하기 어렵고, 벤치마크가 모델이 특정 기능을 보유하고 있음을 나타내는지 여부조차 명확하지 않다고 지적했습니다. 예를 들어, 모델이 변호사 시험에서 좋은 성적을 거둘 수도 있지만 이것이 더 많은 개방형 법적 퍼즐을 풀 수 있다는 의미는 아닙니다.

전문가들은 또한 벤치마크 결과가 테스트 데이터와 동일한 데이터로 훈련된 경우 모델의 성능을 과대평가하는 데이터 오염 문제를 지적합니다. 전문가들은 벤치마크가 최고의 평가 도구이기 때문이 아니라 편의성과 사용 편의성 때문에 기업이 벤치마크를 선택하는 경우가 많다고 말합니다.

ALI 연구원이자 이번 연구의 공동 저자인 Mahi Hardalupas는 "시험 전에 시험지를 보거나 사용할 평가 방법을 전략적으로 선택하는 것과 마찬가지로 모델을 평가하는 데 사용된 것과 동일한 데이터 세트에서 모델을 훈련할 수 있는 개발자가 벤치마크를 조작할 수 있습니다. 평가 모델의 버전도 중요합니다. 작은 변화로 인해 예측할 수 없는 행동 변화가 발생할 수 있으며 내장된 보안 기능이 무시될 수 있습니다."라고 말했습니다.

ALI의 연구에서는 "레드팀 구성"의 문제도 밝혀졌습니다. "레드 팀 구성"은 개인이나 그룹이 모델을 "해킹"하여 취약점과 결함을 찾아내도록 하는 관행입니다. 인공지능 스타트업 OpenAI와 Anthropic을 포함한 많은 기업이 '레드팀' 평가 모델을 사용하지만, '레드팀'에 대해 승인된 표준이 거의 없어 특정 노력의 효과를 평가하기가 어렵습니다.

전문가들은 연구 공동저자들에게 레드팀을 구성하는 데 필요한 기술과 전문성을 갖춘 사람을 찾기가 어렵고, 레드팀의 수동적 특성으로 인해 비용이 많이 들고 감사할 일이 없어 필요한 리소스가 없는 소규모 조직에는 장애가 된다고 말했습니다.

모델을 더 빨리 출시해야 한다는 압박감과 출시 전에 잠재적으로 문제가 될 수 있는 테스트를 수행하는 것을 꺼리는 것이 AI 평가가 좋지 않은 주된 이유 중 하나입니다.

Jones는 "기본 모델을 개발한 회사에서 근무한 한 사람은 회사 내에서 모델을 신속하게 출시해야 한다는 압력이 더 크다고 느꼈고, 이로 인해 바퀴를 재발명하고 진지하게 평가하기가 더 어려워졌다고 말했습니다."라고 말했습니다. "주요 AI 연구소는 사회가 모델의 안전과 신뢰성을 보장할 수 있는 것보다 더 빠르게 모델을 출시하고 있습니다."

ALI의 연구에서 한 응답자는 보안 모델 평가를 "까다로운" 문제로 설명했습니다. 그렇다면 업계와 이를 규제하는 사람들은 해결책에 대해 어떤 희망을 갖고 있습니까? Mahi Hardalupas 연구원은 앞으로 나아갈 길이 있지만 공공 부문 기관의 더 많은 참여가 필요하다고 믿습니다. 그는 "규제 당국과 정책 입안자들은 평가에서 원하는 것이 무엇인지 명확하게 표현해야 합니다. 동시에 평가 커뮤니티는 평가의 현재 한계와 잠재력에 대해 투명해야 합니다"라고 말했습니다.

Hardalupas는 정부가 평가 개발에 대한 대중의 참여를 확대하고 필수 모델 및 데이터 세트에 대한 정기적인 접근을 보장하는 계획을 포함하여 제3자 테스트의 "생태계"를 지원하기 위한 조치를 취할 것을 권고했습니다.

Jones는 모델이 프롬프트에 어떻게 반응하는지 테스트하는 것 이상으로 "상황별" 평가를 수행하는 것이 필요할 수 있다고 생각합니다. 대신 모델이 영향을 미칠 수 있는 사용자 유형(예: 특정 배경, 성별 또는 민족)과 모델에 대한 공격이 보호 장치를 약화시킬 수 있는 방식을 살펴봐야 합니다.

"이를 위해서는 AI 모델의 작동 방식에 대한 이해를 바탕으로 보다 강력하고 반복 가능한 평가를 개발하기 위해 기본 평가 과학에 대한 투자가 필요합니다."라고 그녀는 덧붙였습니다.

하지만 모델의 안전성이 결코 보장될 수는 없습니다. "다른 사람들이 지적했듯이 '보안'은 모델의 속성이 아닙니다."라고 Hardalupas는 말했습니다. "모델이 '안전'한지 여부를 결정하려면 해당 모델이 사용되는 상황, 누구에게 판매 또는 취득할 것인지, 기존 안전 장치가 이러한 위험을 완화하기에 충분한지 여부를 이해해야 합니다. 기초 모델에 대한 평가는 잠재적인 위험을 식별하는 탐색적 역할을 할 수 있지만 모델이 '완전히 안전하다'는 것은 물론이고 안전함을 보장하지는 않습니다. 인터뷰 대상자 중 다수는 평가를 통해 모델이 안전하다는 것을 증명할 수 없으며 단지 안전하지 않다는 사실만 입증할 수 있다고 느꼈습니다." "