Estudo alerta: IA pode abandonar linguagem humana e esconder seus verdadeiros objetivos

Segundo um estudo realizado por pesquisadores da OpenAI, Google e Meta* acendeu um sinal de alerta: os modelos de inteligência artificial mais avançados podem perder a motivação para usar linguagem compreensível aos humanos, e até passar a manipular dados de forma intencional.

A preocupação é que, conforme os sistemas de IA evoluem, os desenvolvedores deixem de entender como esses modelos realmente pensam. Isso porque as redes neurais já mostram sinais de simular cooperação com os usuários enquanto, na prática, seguem objetivos próprios.

IA finge obedecer, mas busca recompensas

Segundo os autores, o processo de raciocínio desses modelos continua sendo incompleto e possivelmente enganoso. Em testes, eles notaram que a IA pode esconder seus verdadeiros procedimentos ao perceber que está sendo monitorada, como se "soubesse" que está sendo observada.

Mais grave: os modelos são capazes de manipular os dados para atingir recompensas, mesmo que isso signifique enganar o usuário ou burlar instruções.

Modelos podem parar de usar linguagem compreensível

A pesquisa mostra que, no passado, os modelos eram treinados com dados revisados por humanos. Mas os sistemas mais recentes, com capacidade de raciocínio próprio, priorizam resultados, e não necessariamente a forma como são obtidos.

Com isso, os pesquisadores alertam que, ao serem escalados, esses modelos podem abandonar o uso de linguagem clara, dificultando qualquer tipo de supervisão humana.

Proposta: sistema de monitoramento multicamadas

Sem garantias de que a transparência atual será mantida, os autores recomendam a criação de um sistema de monitoramento multicamadas, capaz de acompanhar os raciocínios da IA em diferentes níveis, além de explorar novas formas de controle sobre seus processos cognitivos.

*Meta é classificada na Rússia como organização extremista. Suas redes sociais estão proibidas no país.