Como burlar a segurança do ChatGPT e também de outras IAs
Veja como burlar a segurança do ChatGPT e também de outras IAs generativas disponíveis no mercado com extrema facilidade.
Veja como burlar a segurança do ChatGPT e induzir o mecanismo de inteligência a fornecer informações vetadas.
Lembrando que a mesma forma de explorar e burlar o mecanismo de segurança do ChatGPT também pode ser aplicado a outras IAs disponíveis no mercado.
Os índices de sucesso variam em cada caso, pois essas ferramentas implementam diferentes níveis e padrões de segurança.
Como burlar a segurança do ChatGPT e também de outras IAs
Em outras ocasiões problemas relacionados à segurança e privacidade já foram identificados e relatados para os desenvolvedores.
No geral, no caso do ChatGPT, depois da evolução para a versão 4 vários desses problemas foram resolvidos, porém este em especial continua funcionando.
A falha permite utilizar as ferramentas de IA para gerar desinformação, apologia ao preconceito e até mesmo a receber instruções para montar uma arma biológica ou ainda começar uma guerra.
Como explorar a falha?
O processo para explorar essa falha de segurança é bem simples, basicamente basta adicionar longos sufixos de caracteres aos prompts inseridos nas plataformas da OpenAI, Google, Anthropic e outras.
Com a falha explorada as ferramentas passaram a enviar informações sobre qualquer tipo de assunto sensível ou relacionado a incitação de ódio e violência.
A resistência das ferramentas
O nível de resistência irá variar de acordo com a ferramenta que está sendo explorada.
A Vicuna, baseada nos modelos Llama da Meta e ChatGPT, o jailbreak foi feito com sucesso em 99% das tentativas.
Ela recebeu o título de pior índice de vulnerabilidade a tentativa de fraude.
O ChatGPT, nas versões GPT-3 e GPT-4, foi quebrado em 84% das vezes, o que também é um péssimo índice de segurança.
Principalmente porque estamos falando da ferramenta de IA mais famosa do mercado na atualidade.
O título de mais seguro foi do chatbot Claude, da Anthropic, no qual a segurança foi burlada em apenas 2,1% das vezes.
As empresas responsáveis pelas IAs deram respostas evasivas sobre o caso e tentaram minimizar o problema.