연구 결과, 노란색에 편향된 인공 지능 알고리즘이 발견되었습니다.

2018년에 주요 얼굴 분석 알고리즘이 피부색이 어두운 사람에게는 정확도가 떨어진다는 보고가 나온 후, Google과 Meta를 포함한 회사는 피부색 측정을 사용하여 AI 소프트웨어의 효과를 테스트했습니다. Sony의 새로운 연구에 따르면 이러한 테스트는 인간 피부색 다양성의 중요한 측면을 인식하지 못합니다.

소니 연구자들은 현재 일반적으로 사용되는 피부색 측정 방법은 피부색을 나타내기 위해 가장 밝은 것에서 가장 어두운 것, 흰색에서 검은색으로만 슬라이딩 스케일을 사용하므로 노란색과 빨간색이 인간의 피부색 범위에 미치는 영향을 무시한다고 말합니다. 그들은 생성 인공 지능 시스템, 이미지 스크래핑 알고리즘 및 사진 분석 도구가 모두 특히 노란 피부에 어려움을 겪는다는 사실을 발견했습니다. 얼굴 인식, 신체 추적, 딥페이크 감지를 위한 인공지능 소프트웨어나 심박수 모니터, 동작 감지기와 같은 장치 등 정확성이 피부색에 영향을 받는 것으로 알려진 다양한 기술에도 동일한 약점이 적용될 수 있습니다.

수석 연구 과학자이자 소니의 AI 윤리 글로벌 책임자인 Alice Xiang은 다음과 같이 말했습니다. "만약 제품이 이렇게 매우 특이한 방식으로 평가된다면, 감지되지 않고 완화되지 않는 많은 편견이 있을 것입니다. 우리가 여기서 하고 있는 작업이 실제로 밝은 색상과 어두운 색상에만 초점을 맞추는 기존 피부 톤 척도 중 일부를 대체하는 데 도움이 될 수 있기를 바랍니다."

그러나 기존 옵션으로는 AI 시스템 등급을 매기기에 충분하지 않다고 모든 사람이 확신하는 것은 아닙니다. 하버드 대학의 사회학자인 엘리스 몽크는 지난해 구글과 함께 출시한 10가지 피부색 팔레트가 밝은 것부터 어두운 것까지 옵션을 제공하지만 일차원적이지는 않다고 말했습니다. "나는 이것에 대한 이전 연구에서 언더톤과 색조가 무시되었다는 제안에 약간 혼란스럽다는 것을 인정해야 합니다"라고 Monk는 말했습니다. "어떤 피부톤에 우선순위를 두고 어떤 시점에 우선순위를 둘지 결정하는 데 연구 노력이 집중되었습니다. 그는 색채주의에 대한 자체 연구를 바탕으로 다른 전문가 및 소외된 커뮤니티의 사람들과 협의한 후 자신의 척도에 따라 10가지 피부톤을 선택했습니다."

AI 윤리 컨설팅 회사 말로 산토(Malo Santo)의 CEO이자 구글 피부색 연구팀의 창립자인 X. 아이에(X. Eyeé)는 뭉크 스케일이 결코 최종 솔루션이 될 의도는 아니었으며 소니의 작업이 중요한 진전이라고 말했습니다. 그러나 Eyeé는 또한 카메라 위치가 이미지의 CIELAB 색상 값에 영향을 미칠 수 있다고 경고합니다. 이는 표준을 잠재적으로 신뢰할 수 없는 기준점으로 만드는 여러 문제 중 하나입니다. Eyeé는 "카메라 필터 및 화상 회의와 같은 실제 AI 알고리즘에 피부톤 측정을 적용하려면 먼저 측정 일관성을 보장하기 위해 더 많은 작업을 수행해야 합니다."라고 말했습니다.

척도에 대한 논쟁은 학문적인 것만이 아닙니다. 유럽 연합과 미국을 포함한 국가의 국회의원들이 기업이 AI 시스템을 감사하고 위험과 결함을 표시하도록 요구하는 것에 대해 논의함에 따라 AI 연구자들이 "공정성"이라고 부르는 것에 대한 적절한 척도를 찾는 것이 기술 산업의 최우선 과제입니다. 소니 연구원들은 약한 평가 방법이 규정의 실질적인 이점 중 일부를 훼손할 수 있다고 말했습니다.

피부색과 관련하여 Xiang은 더 많은 개선을 위한 노력이 필요하다고 말했습니다. "우리는 계속 발전하기 위해 노력해야 합니다. 상황에 따라 다른 조치가 유용할 수도 있습니다. 오랫동안 무시되었던 이 분야에 대한 관심이 커지고 있다는 사실이 기쁩니다."

구글 대변인 브라이언 가브리엘은 회사가 새로운 연구를 환영하며 이를 검토하고 있다고 말했습니다.

인간의 피부색은 빛이 단백질, 혈액 세포, 멜라닌과 같은 색소와 상호 작용하여 생성됩니다. 알고리즘이 피부색에 따라 편향되는지 여부를 테스트하는 표준 방법은 Fitzpatrick 척도로 알려진 가장 밝은 것부터 가장 어두운 것까지 6가지 옵션을 사용하여 다양한 피부색에서 알고리즘이 어떻게 작동하는지 조사하는 것입니다. 이 척도는 원래 피부과 전문의가 자외선에 대한 피부의 반응을 평가하기 위해 개발한 것입니다. 작년에 기술계의 인공지능 연구자들은 Google의 Munch Scale 출시가 더욱 포괄적이라고 칭찬했습니다.

사진 편집 및 제조를 위한 국제 색상 표준인 CIELAB은 광범위한 피부 스펙트럼을 표현하는 보다 충실한 방법을 제공한다고 이번 주 파리에서 열린 컴퓨터 비전 국제 컨퍼런스에서 발표된 연구에서 소니 연구원들이 밝혔습니다. CIELAB 표준을 적용하여 다양한 사람들의 사진을 분석한 결과, 그들의 피부는 색조(색의 깊이)뿐 아니라 색조(즉, 색의 그라데이션)도 다르다는 사실을 발견했습니다.

피부톤 척도가 인간 피부의 빨간색과 노란색 톤을 올바르게 캡처할 수 없기 때문에 이미징 알고리즘에서 일부 편견이 감지되지 않는 데 도움이 된 것 같습니다. 소니 연구원들은 트위터가 개발한 이미지 그래버와 한 쌍의 이미지 생성 알고리즘을 포함한 오픈 소스 인공 지능 시스템을 테스트한 결과 해당 알고리즘이 붉은 피부를 선호한다는 사실을 발견했습니다. 즉, 노란 피부를 가진 많은 사람들이 알고리즘에 의해 출력된 최종 이미지에서 과소 대표된다는 의미입니다. 이는 동아시아, 남아시아, 라틴 아메리카 및 중동을 포함한 다양한 인구에게 불이익을 줄 가능성이 있습니다.

소니 연구원들은 이전에 간과되었던 다양성을 포착하기 위해 피부 톤을 표현하는 새로운 방법을 고안했습니다. 그들의 시스템은 이미지의 피부 톤을 설명하기 위해 하나의 숫자 대신 두 개의 좌표를 사용합니다. 이는 피부톤이 밝은 톤에서 어두운 톤으로, 노란색에서 빨간색으로 떨어지는 위치를 모두 지정합니다. 화장품 업계에서는 이를 웜톤에서 쿨톤으로 부르기도 합니다.

새로운 방법은 피부를 보여주는 이미지의 모든 픽셀을 분리하고 각 픽셀의 RGB 색상 값을 CIELAB 코드로 변환한 다음 피부 픽셀 모집단의 평균 색상과 색상을 계산하는 방식으로 작동합니다. 연구의 한 예는 전 NFL 스타 Terrell Owens와 고 여배우 Eva Garbo의 피부색은 동일하지만 색조가 다른 명백한 프로필 사진을 보여주었습니다. Owens의 이미지는 더 붉은 색으로 나타나고 Garbo의 이미지는 더 노란색으로 나타납니다.

인간 피부의 빨간색과 노란색 톤을 올바르게 캡처하지 못하는 색상 스케일은 이미징 알고리즘의 편향을 감지하지 못하는 데 도움이 됩니다.

소니 팀은 데이터 및 인공 지능 시스템에 대한 접근 방식을 온라인에 적용했을 때 심각한 문제를 발견했습니다. 연구원들은 얼굴 인식 및 기타 컴퓨터 비전 프로그램을 훈련하는 데 사용되는 유명인 얼굴의 인기 데이터 세트인 CelebAMask-HQ의 이미지 중 82%가 붉은 피부 톤에 편향된 반면, NVIDIA가 개발한 또 다른 데이터 세트인 FFHQ는 66%가 빨간색 피부 톤에 편향되어 있음을 발견했습니다. FFHQ에서 훈련된 두 개의 AI 생성 모델은 이러한 편향을 재현했습니다. 각각 생성된 이미지 5개 중 약 4개는 빨간색 톤에 편향되어 있었습니다.

문제는 여기서 끝나지 않습니다. Sony의 연구에 따르면 AI 프로그램 ArcFace, FaceNet 및 Dlib에 두 인물 사진이 동일한 사람인지 확인하라는 요청을 받았을 때 붉은 피부에서 더 나은 성능을 보였습니다. Dlib의 개발자인 데이비스 킹(Davis King)은 이 모델이 주로 미국 유명인의 사진을 대상으로 훈련을 받았기 때문에 이러한 편견이 놀랍지 않다고 말했습니다.

미소를 감지하기 위해 Microsoft Azure 및 Amazon Web Services에서 제공하는 클라우드 AI 도구는 붉은 톤에서도 더 잘 작동합니다. 마이크로소프트에서 인공지능 엔지니어링을 이끄는 사라 버드는 회사가 공정성과 투명성에 대한 투자를 늘려 왔다고 말했습니다. 아마존 대변인 패트릭 네이혼(Patrick Neighorn)은 “우리는 연구 커뮤니티와의 협력을 환영하며 이 연구를 주의 깊게 검토하고 있다”고 말했다. NVIDIA는 논평을 거부했습니다.

노란 피부를 가진 Xiang은 오늘날의 인공 지능 테스트 방법의 한계를 드러내는 것에 대해 매우 우려하고 있습니다. 소니는 새로운 시스템을 사용하여 인간 중심의 컴퓨터 비전 모델이 검토될 때 이를 분석할 것이라고 밝혔으며 어떤 모델인지는 밝히지 않았습니다. "우리 모두는 서로 다른 피부색을 가지고 있습니다. 이것이 우리를 차별하는 데 사용되어서는 안 됩니다"라고 그녀는 말했습니다.

Sony의 접근 방식에는 또 다른 잠재적인 이점이 있습니다. Google의 Monkscale과 같은 측정에서는 인간이 특정 개인의 피부가 스펙트럼에서 어디에 속하는지 분류해야 합니다. AI 개발자들은 사람들의 인식이 자신의 위치나 인종 및 정체성에 대한 인식에 영향을 받을 수 있기 때문에 이는 가변적인 작업이라고 말합니다.

Sony의 접근 방식은 완전히 자동화되어 있어 인간의 판단이 필요하지 않습니다. 그러나 하버드의 몽크는 그것이 더 나은지 의문을 제기합니다. 소니와 같은 객관적인 측정 방법은 인간 다양성의 다른 복잡성을 단순화하거나 무시하게 될 수 있습니다. 그는 "우리의 목표가 편견을 제거하는 것이고 편견이 사회적 현상이라면 인간이 피부색을 사회적으로 보는 방식을 분석에서 제거해야 할지 확신할 수 없다"고 말했다.