Die digitale Jury: Wie KI menschliches Vertrauen nachahmt – und verzerrt

Während sich Large Language Models (LLMs) von einfachen Chatbots zu aktiven Teilnehmern an der Entscheidungsfindung entwickeln, stellt sich eine grundlegende Frage: Wie beurteilen uns diese Maschinen?

Neue Forschungsergebnisse der Hebräischen Universität Jerusalem legen nahe, dass KI nicht nur Daten verarbeitet; es bildet strukturierte Einschätzungen des menschlichen Charakters. Obwohl diese Modelle die Logik des menschlichen Vertrauens nachahmen, tun sie dies jedoch mit einer mechanischen Starrheit, die soziale Vorurteile auf eine Weise verstärken kann, die Menschen möglicherweise nicht tun.

Die Mechanik der maschinellen Beurteilung

In einer umfassenden Studie, die in Proceedings of the Royal Society A veröffentlicht wurde, verglichen die Forscher Valeria Lerman und Yaniv Dover die Entscheidungsprozesse von fünf verschiedenen LLMs mit menschlichen Teilnehmern. Durch 43.200 Simulationen verschiedener realer Szenarien – etwa der Entscheidung, ob man einem Geschäftsinhaber Geld leiht oder einem Babysitter vertraut – identifizierte das Team eine auffällige Parallele.

Sowohl Menschen als auch KI neigen dazu, Vertrauen auf drei Grundpfeilern zu gründen:
1. Kompetenz: Die wahrgenommene Fähigkeit, eine Aufgabe auszuführen.
2. Integrität: Die wahrgenommene Ehrlichkeit des Einzelnen.
3. Wohlwollen: Die wahrgenommene Freundlichkeit oder gute Absichten der Person.

Die Art und Weise, wie diese Säulen angewendet werden, unterscheidet sich jedoch erheblich. Während das menschliche Urteilsvermögen oft „chaotisch“ und ganzheitlich ist, funktioniert die KI wie eine Tabellenkalkulation. Es zerlegt eine Person in einzelne Komponenten und bewertet jedes Merkmal mathematisch. Dies führt zu einem Urteilsstil, der äußerst konsistent und systematisch ist, dem jedoch das differenzierte, fließende Verständnis fehlt, das die menschliche soziale Interaktion definiert.

Das Problem der Bias-Verstärkung

Das besorgniserregendste Ergebnis der Studie ist nicht, dass KI voreingenommen ist, sondern dass ihre Voreingenommenheiten systematisch und vorhersehbar sind.

In Szenarien, in denen es um finanzielle Entscheidungen geht – etwa die Festlegung von Kreditbeträgen oder Spenden für wohltätige Zwecke – zeigten die LLMs erhebliche Unterschiede, die ausschließlich auf demografischen Merkmalen beruhten. Selbst wenn jedes andere Detail über eine Person identisch blieb, änderte sich das „Urteil“ der KI aufgrund von:
Alter: Ältere Personen erzielten häufig günstigere Ergebnisse, obwohl die Muster inkonsistent waren.
Religion: Dieser Faktor hatte tiefgreifende Auswirkungen, insbesondere auf Geldentscheidungen.
Geschlecht: Bestimmte Modelle zeigten deutliche Verschiebungen in der Beurteilung aufgrund des Geschlechts.

Während Menschen sicherlich Vorurteile haben, stellten die Forscher fest, dass KI-Vorurteile gefährlicher sein können, weil sie in die Logik des Modells eingebettet sind, wodurch sie schwerer zu erkennen und einheitlicher in ihrer Anwendung sind.

Die „Modelllotterie“: Warum Ihre Wahl der KI wichtig ist

Die Studie ergab auch, dass es keine „universelle“ KI-Perspektive gibt. Verschiedene LLMs gelangten oft zu völlig unterschiedlichen Schlussfolgerungen über dieselbe Person. Ein Modell belohnt möglicherweise ein bestimmtes Persönlichkeitsmerkmal, während ein anderes es möglicherweise bestraft.

Dies schafft ein Umfeld mit hohen Risiken für Branchen, die derzeit KI integrieren, darunter:
Personalwesen: Überprüfung von Stellenkandidaten.
Finanzen: Beurteilung der Kreditwürdigkeit.
Gesundheitswesen: Empfehlung medizinischer Maßnahmen.
Management: Leitende organisatorische Entscheidungen.

Wenn der Ausgang des Lebens einer Person – etwa die Aufnahme eines Kredits oder eines Arbeitsplatzes – davon abhängt, welcher LLM die Prüfung durchführt, steigt das Potenzial für systemische Ungerechtigkeit.

Fazit

Die Forschung dient als entscheidende Erinnerung daran, dass KI zwar menschliches Denken modellieren kann, menschliches Einfühlungsvermögen oder Nuancen jedoch nicht nachahmt. Da diese Systeme immer stärker in die Infrastruktur der Gesellschaft eingebettet werden, besteht die größte Herausforderung nicht mehr nur darin, ob wir Maschinen vertrauen können, sondern auch darin, ob wir die Art und Weise, wie sie uns beurteilen, genau interpretieren können.