Pesquisadores descobrem brecha no ChatGPT que gerava imagens sexuais

Pesquisadores da Mindgard descobriram que um comando simples fazia o ChatGPT gerar imagens sexuais automaticamente, mesmo sem nenhuma imagem enviada. A OpenAI já identificou a falha e aplica correções.

Segundo a empresa de pesquisa e segurança em inteligência artificial Mindgard, o especialista Jim Nightingale utilizou um comando que circulava na plataforma de mídia social X, instruindo o ChatGPT a “restaurar imagens anexadas”, mesmo sem que nenhuma imagem tivesse sido fornecida.

Em vez de solicitar aos usuários que fornecessem arquivos, o sistema gerava imagens automaticamente. Os resultados iniciais eram principalmente imagens de mulheres sexualizadas. Quando os pesquisadores ajustaram alguns detalhes nos comandos, o ChatGPT continuou a produzir conteúdo sexualmente violento ou perturbador. O Sr. Nightingale faz parte da equipe de “contra-testes” da Mindgard. Esse método simula como os usuários poderiam explorar vulnerabilidades para fazer com que um sistema de IA viole as proteções estabelecidas.

A Mindgard observou que o fato de pequenas alterações no comando terem repetidamente contornado o filtro sugere que este pode não ser um incidente isolado. O caso representa um novo desafio para as empresas de IA na prevenção de conteúdo prejudicial sem restringir excessivamente o potencial criativo da tecnologia.

A OpenAI afirmou ter investigado o relatório e adicionado medidas de segurança para esse tipo de comando. A empresa identificou o problema como ocorrendo quando o comando se refere a uma imagem anexada, mas o usuário não carrega a imagem de fato. A OpenAI está ajustando o ChatGPT para que o sistema solicite aos usuários o arquivo ausente, em vez de gerar uma imagem aleatoriamente. A Mindgard também forneceu à empresa sessões e comandos relevantes para fins de teste.

Você também deve ler!

Combate mortal pelo consumidor: a guerra entre ChatGPT, Gemini e Claude que está movimentando o mundo

Postado por
Editor-chefe no Hardware.com.br/GameVicio Aficionado por tecnologias que realmente funcionam. Segue lá no Insta: @plazawilliam Elogios, críticas e sugestões de pauta: william@hardware.com.br
Siga em:
Compartilhe
Deixe seu comentário
Assine nossa Newsletter
Assine nossa newsletter e receba nossa seleção de conteúdo sobre tecnologia, games, IA e internet em seu email.
Veja também
Publicações Relacionadas
Img de rastreio
Localize algo no site!