À medida que os Large Language Models (LLMs) passam de chatbots simples para participantes ativos na tomada de decisões, surge uma questão fundamental: Como essas máquinas nos julgam?

Uma nova pesquisa da Universidade Hebraica de Jerusalém sugere que a IA não apenas processa dados; forma avaliações estruturadas do caráter humano. No entanto, embora estes modelos imitem a lógica da confiança humana, fazem-no com uma rigidez mecânica que pode amplificar os preconceitos sociais de uma forma que os humanos não conseguiriam.

A Mecânica do Julgamento da Máquina

Num estudo abrangente publicado no Proceedings of the Royal Society A, os investigadores Valeria Lerman e Yaniv Dover compararam os processos de tomada de decisão de cinco LLMs diferentes com os de participantes humanos. Através de 43.200 simulações em vários cenários do mundo real – como decidir entre emprestar dinheiro a um empresário ou confiar numa babysitter – a equipa identificou um paralelo surpreendente.

Tanto os humanos quanto a IA tendem a basear a confiança em três pilares principais:
1. Competência: A capacidade percebida para executar uma tarefa.
2. Integridade: A honestidade percebida do indivíduo.
3. Benevolência: A bondade percebida ou boas intenções da pessoa.

No entanto, a forma de aplicação destes pilares difere significativamente. Embora o julgamento humano seja muitas vezes “confuso” e holístico, a IA funciona como uma planilha. Ele divide uma pessoa em componentes discretos, pontuando matematicamente cada característica. Isto resulta num estilo de julgamento que é altamente consistente e sistemático, mas carece da compreensão sutil e fluida que define a interação social humana.

O problema da amplificação de polarização

A descoberta mais preocupante do estudo não é que a IA seja tendenciosa, mas que seus preconceitos são sistemáticos e previsíveis.

Em cenários que envolvem decisões financeiras – como a determinação de montantes de empréstimos ou doações de caridade – os LLMs demonstraram disparidades significativas baseadas apenas em características demográficas. Mesmo quando todos os outros detalhes sobre uma pessoa permaneceram idênticos, o “veredicto” da IA mudou com base em:
Idade: Indivíduos mais velhos frequentemente obtiveram resultados mais favoráveis, embora os padrões fossem inconsistentes.
Religião: Este fator teve um impacto profundo, principalmente nas decisões monetárias.
Gênero: Certos modelos mostraram mudanças distintas no julgamento com base no gênero.

Embora os humanos tenham certamente preconceitos, os investigadores observaram que os preconceitos da IA ​​podem ser mais perigosos porque estão incorporados na lógica do modelo, tornando-os mais difíceis de detetar e mais uniformes na sua aplicação.

A “Loteria Modelo”: Por que sua escolha de IA é importante

O estudo também revelou que não existe uma perspectiva “universal” de IA. Diferentes LLMs frequentemente chegavam a conclusões totalmente diferentes sobre o mesmo indivíduo. Um modelo pode recompensar um traço de personalidade específico, enquanto outro pode penalizá-lo.

Isto cria um ambiente de alto risco para as indústrias que atualmente integram IA, incluindo:
Recursos Humanos: Triagem de candidatos a vagas.
Finanças: Avaliação da qualidade de crédito.
Assistência médica: Recomendação de ações médicas.
Gestão: Orientar as decisões organizacionais.

Se o resultado da vida de uma pessoa – como a obtenção de um empréstimo ou um emprego – depender de qual LLM específico está a executar a avaliação, o potencial para injustiça sistémica aumenta.

Conclusão

A pesquisa serve como um lembrete crítico de que, embora a IA possa modelar o raciocínio humano, ela não reproduz a empatia ou nuances humanas. À medida que estes sistemas se tornam mais integrados na infra-estrutura da sociedade, o principal desafio já não é apenas saber se podemos confiar nas máquinas, mas se podemos interpretar com precisão a forma como elas nos julgam.