A inteligência artificial (IA) continua avançando em tarefas que exigem capacidades cognitivas complexas e, segundo os especialistas, poderia estar prestes a superar o chamado "Último Exame da Humanidade" (HLE, na sigla em inglês), um teste concebido para medir o limite do conhecimento em áreas específicas.
O exame foi desenvolvido com a participação de mais de mil especialistas de diversos campos da ciência e tem como objetivo avaliar o quão perto a IA está das fronteiras do conhecimento humano.
O exame, que abrange 2.500 questões em mais de 100 disciplinas, desde mitologia até engenharia aeroespacial, foi concebido para ser resolvido exclusivamente por especialistas com nível equivalente a um doutorado.
"Os criadores de modelos fizeram um excelente trabalho aprimorando esses modelos de raciocínio", afirmou ao The Times Calvin Zhang, chefe de pesquisa da Scale, a empresa de IA responsável pelo HLE, explicando que o teste pretende ser uma referência acadêmica que apenas "um pequeno número de pessoas no mundo" seria capaz de resolver.
O desempenho dos sistemas melhorou significativamente em pouco tempo. Enquanto o ChatGPT acertou menos de 3% em 2024, modelos como o Google Gemini alcançaram cerca de 19% de acertos em poucos meses e ultrapassaram os 45% recentemente. "Se isso fosse realmente a única coisa que nos importasse na vida, acho que poderíamos alcançar isso bem rápido", observou Kate Olszewska, sugerindo que uma pontuação próxima a 100% poderia ser alcançada no período de um ano.
"Estão se aproximando da compreensão humana"
Para garantir o nível de dificuldade do exame, os criadores selecionaram dezenas de milhares de perguntas e mantiveram as respostas ocultas para evitar que os modelos as memorizassem. Entre os desafios estão tarefas como traduzir inscrições antigas ou identificar estruturas microanatômicas, o que exige uma compreensão profunda que vai além do reconhecimento de padrões.
"Quando os sistemas de IA começam a obter resultados excepcionais […] é tentador pensar que estão se aproximando da compreensão humana", afirmou Tung Nguyen, professor associado do Departamento de Ciência da Computação e Engenharia da Texas A&M, destacando que a inteligência envolve contexto e especialização.