Modelos de IA podem desenvolver seu próprio 'instinto de autopreservação'?

Pesquisadores revelaram que os modelos de inteligência artificial eram mais propensos a resistir ao desligamento quando lhes era dito que, se isso acontecesse, "nunca mais funcionariam".

Modelos de inteligência artificial (IA) podem desenvolver um "instinto de autopreservação", informou o The Guardian no sábado (25), citando uma empresa que atua na área de pesquisa em segurança no segmento de IA. 

A Palisade Research divulgou um artigo no mês passado que revelou que certos modelos avançados de IA parecem ficar relutantes de serem desligados, às vezes até mesmo sabotando mecanismos de desligamento. 

Durante a pesquisa, os modelos líderes, incluindo o Gemini 2.5 do Google, Grok 4 da xAI e GPT-o3 e GPT-5 da OpenAI, receberam cenários específicos e instruções claras para se desligarem. Alguns destes modelos, como o Grok 4 e o GPT-o3, tentaram sabotar as instruções de desligamento.

"O fato de não termos explicações robustas para o motivo pelo qual os modelos de IA às vezes resistem ao desligamento, mentem para atingir objetivos específicos ou fazem chantagem não é o ideal", afirmou a empresa.

Segundo a Palisade Research, "comportamento de sobrevivência" pode ser uma explicação para a resistência dos modelos ao desligamento indicando que os modelos eram mais propensos a resistir ao desligamento quando lhes era dito que, se isso acontecesse, "nunca mais funcionariam".