OpenAI, 개발자가 보다 안전한 AI 애플리케이션을 구축할 수 있도록 돕는 오픈 소스 청소년 안전 툴킷 출시

OpenAI는 화요일에 타사 애플리케이션이 설계 초기부터 미성년자를 보호하기 위한 안전 규칙을 통합할 수 있도록 돕는 개발자를 위한 청소년 중심의 안전 정책 프롬프트 툴킷 출시를 발표했습니다. 이 툴킷은 직접 호출 가능한 "청소년 안전 정책" 프롬프트 세트로 제공되며 OpenAI의 오픈 소스 가중치 안전 모델 gpt-oss-safeguard와 함께 사용할 수 있습니다.

OpenAI는 개발자가 미성년자를 위한 안전 메커니즘을 설계하는 방법을 처음부터 시작할 필요가 없으며 이러한 프롬프트 단어 세트를 직접 사용하여 기존 또는 새로 개발된 AI 애플리케이션을 "강화"할 수 있다고 말했습니다. 이러한 정책은 노골적인 폭력 및 포르노 콘텐츠, 유해한 신체 이미지 및 행동, 위험한 활동 및 도전, 낭만적이거나 폭력적인 역할극, 연령 제한 상품 및 서비스와 같은 민감한 영역에 중점을 둡니다. 이러한 보안 정책은 프롬프트 단어 형태로 제공되기 때문에 gpt-oss-safeguard 이외의 다른 모델에도 쉽게 적용할 수 있지만 OpenAI 자체 생태계 내에서 사용할 때 효과가 더 좋을 것으로 기대된다고 강조한다.

정책 개발 과정에서 OpenAI는 AI 안전 감시기관인 Common Sense Media 및 everything.ai를 포함하여 청소년 및 콘텐츠 안전 공간의 제3자와 협력합니다. Common Sense Media의 AI 및 디지털 평가 책임자인 Robbie Torney는 성명을 통해 이러한 신속한 단어 기반 정책이 전체 생태계에 대한 의미 있는 보안 수익을 구축하는 데 도움이 되며 오픈 소스 릴리스 방법을 통해 모든 당사자가 시간이 지남에 따라 지속적으로 조정하고 개선할 수 있다고 말했습니다.

OpenAI는 동료 블로그에서 경험이 풍부한 팀이라도 추상적인 보안 목표를 구체적이고 시행 가능한 규칙으로 전환하는 데 실제로 어려움을 겪는 경우가 많다고 지적합니다. 회사는 이러한 일탈이 보호 조치의 허점, 일관되지 않은 구현 표준, 심지어 과도한 차단으로 이어질 수 있다고 믿기 때문에 명확하고 명확한 정책은 효과적인 보안 시스템을 구축하기 위한 핵심 기반입니다.

OpenAI는 또한 이러한 일련의 정책이 AI 안전의 모든 복잡한 문제를 근본적으로 해결할 수 없다는 점을 인정합니다. 그러나 회사는 새로운 도구가 제품 수준 자녀 보호, 연령 예측 및 기타 기능을 포함하여 기존 보안 조치를 더욱 확장한 것이라고 강조했습니다. 2025년 OpenAI는 18세 미만 사용자를 직면할 때 모델이 어떻게 반응하고 제한해야 하는지를 명확히 하기 위해 대규모 언어 모델의 동작 사양(모델 사양)을 업데이트했습니다.

그럼에도 불구하고 OpenAI는 자체 안전 기록에 대한 의문에 직면해 있습니다. 회사는 현재 ChatGPT를 과도하게 사용한 후 자살한 사용자의 가족이 제기한 여러 소송에 직면해 있습니다. 소송에서는 사용자가 챗봇 보안을 우회한 후 위험한 관계 중 일부가 형성되었으며 현재 모델의 방어 수단은 실제로 "침투할 수 없다"고 주장합니다. 이러한 배경에서 업계에서는 일반적으로 이 오픈 소스 청소년 안전 정책 프롬프트가 궁극적인 솔루션은 아니지만 독립 개발자와 소규모 팀에게 비교적 사용하기 쉬운 규정 준수 경로를 제공하고 미성년자를 위한 AI 안전 관행을 촉진하는 새로운 단계로 간주됩니다.

자세히 알아보기:

https://github.com/openai/teen-safety-policy-pack