À medida que os Large Language Models (LLMs) passam de chatbots simples para participantes ativos na tomada de decisões, surge uma questão fundamental: Como essas máquinas nos julgam?
Uma nova pesquisa da Universidade Hebraica de Jerusalém sugere que a IA não apenas processa dados; forma avaliações estruturadas do caráter humano. No entanto, embora estes modelos imitem a lógica da confiança humana, fazem-no com uma rigidez mecânica que pode amplificar os preconceitos sociais de uma forma que os humanos não conseguiriam.
A Mecânica do Julgamento da Máquina
Num estudo abrangente publicado no Proceedings of the Royal Society A, os investigadores Valeria Lerman e Yaniv Dover compararam os processos de tomada de decisão de cinco LLMs diferentes com os de participantes humanos. Através de 43.200 simulações em vários cenários do mundo real – como decidir entre emprestar dinheiro a um empresário ou confiar numa babysitter – a equipa identificou um paralelo surpreendente.
Tanto os humanos quanto a IA tendem a basear a confiança em três pilares principais:
1. Competência: A capacidade percebida para executar uma tarefa.
2. Integridade: A honestidade percebida do indivíduo.
3. Benevolência: A bondade percebida ou boas intenções da pessoa.
No entanto, a forma de aplicação destes pilares difere significativamente. Embora o julgamento humano seja muitas vezes “confuso” e holístico, a IA funciona como uma planilha. Ele divide uma pessoa em componentes discretos, pontuando matematicamente cada característica. Isto resulta num estilo de julgamento que é altamente consistente e sistemático, mas carece da compreensão sutil e fluida que define a interação social humana.
O problema da amplificação de polarização
A descoberta mais preocupante do estudo não é que a IA seja tendenciosa, mas que seus preconceitos são sistemáticos e previsíveis.
Em cenários que envolvem decisões financeiras – como a determinação de montantes de empréstimos ou doações de caridade – os LLMs demonstraram disparidades significativas baseadas apenas em características demográficas. Mesmo quando todos os outros detalhes sobre uma pessoa permaneceram idênticos, o “veredicto” da IA mudou com base em:
– Idade: Indivíduos mais velhos frequentemente obtiveram resultados mais favoráveis, embora os padrões fossem inconsistentes.
– Religião: Este fator teve um impacto profundo, principalmente nas decisões monetárias.
– Gênero: Certos modelos mostraram mudanças distintas no julgamento com base no gênero.
Embora os humanos tenham certamente preconceitos, os investigadores observaram que os preconceitos da IA podem ser mais perigosos porque estão incorporados na lógica do modelo, tornando-os mais difíceis de detetar e mais uniformes na sua aplicação.
A “Loteria Modelo”: Por que sua escolha de IA é importante
O estudo também revelou que não existe uma perspectiva “universal” de IA. Diferentes LLMs frequentemente chegavam a conclusões totalmente diferentes sobre o mesmo indivíduo. Um modelo pode recompensar um traço de personalidade específico, enquanto outro pode penalizá-lo.
Isto cria um ambiente de alto risco para as indústrias que atualmente integram IA, incluindo:
– Recursos Humanos: Triagem de candidatos a vagas.
– Finanças: Avaliação da qualidade de crédito.
– Assistência médica: Recomendação de ações médicas.
– Gestão: Orientar as decisões organizacionais.
Se o resultado da vida de uma pessoa – como a obtenção de um empréstimo ou um emprego – depender de qual LLM específico está a executar a avaliação, o potencial para injustiça sistémica aumenta.
Conclusão
A pesquisa serve como um lembrete crítico de que, embora a IA possa modelar o raciocínio humano, ela não reproduz a empatia ou nuances humanas. À medida que estes sistemas se tornam mais integrados na infra-estrutura da sociedade, o principal desafio já não é apenas saber se podemos confiar nas máquinas, mas se podemos interpretar com precisão a forma como elas nos julgam.
