Um relatório da ONG Human Rights Watch revelou que um conjunto de dados de código aberto usado para treinar modelos de Inteligência Artificial (IA) 'roubou' fotos pessoais de até 170 crianças e adolescentes brasileiros.
Segundo o documento, divulgado nesta segunda-feira, as imagens são coletadas na web sem conhecimento ou consentimento dos usuários.
A análise da organização expõe que as imagens em questão foram coletadas pela organização alemã sem fins lucrativos LAION-5B, desde a década de 1990, em muitos casos com "suas identidades facilmente rastreáveis, incluindo informações sobre quando e onde a criança estava no momento em que a foto foi tirada". O conjunto de dados ainda contém links para fotos identificáveis de crianças e os nomes de algumas delas estão listados nas legendas ou na URL onde a imagem foi armazenada.
Ao todo, foram encontradas 170 fotos de crianças de pelo menos 10 estados: Alagoas, Bahia, Ceará, Mato Grosso do Sul, Minas Gerais, Paraná, Rio de Janeiro, Rio Grande do Sul, Santa Catarina e São Paulo. Porém, estima-se que esse número é apenas uma fração do total, já que foram analisadas menos de 0,0001% dos 5,85 bilhões de imagens e legendas contidas no conjunto de dados da LAION-5B.
As fotos analisadas abrangem de recém-nascidos a adolescentes, capturando momentos íntimos e privados; "crianças pequenas soprando velas no seu bolo de aniversário ou dançando de cueca e calcinha em casa; estudantes fazendo uma apresentação na escola; e adolescentes posando para fotos no Carnaval de seu colégio", diz o relatório.
A organização alerta que os modelos de IA treinados com esses dados de crianças reais amplia substancialmente o risco de manipulação de imagens por pessoas mal-intencionadas devido a falhas na tecnologia. Nesse sentido,podem gerar clones convincentes de qualquer criança, aumentando o risco de manipulação indevida dessas imagens .