W miarę jak duże modele językowe (LLM) ewoluują od prostych chatbotów do aktywnych uczestników procesu decyzyjnego, pojawia się zasadnicze pytanie: jak te maszyny nas oceniają?
Nowe badania przeprowadzone na Uniwersytecie Hebrajskim w Jerozolimie pokazują, że sztuczna inteligencja nie tylko przetwarza dane; tworzy ustrukturyzowaną ocenę ludzkiego charakteru. Chociaż modele te naśladują logikę ludzkiego zaufania, robią to z mechaniczną sztywnością, która może wzmocnić uprzedzenia społeczne w sposób niedostępny dla ludzi.
Mechanika osądu maszynowego
W obszernym badaniu opublikowanym w czasopiśmie Proceedings of the Royal Society A badacze Valeria Lerman i Yaniv Dover porównali procesy decyzyjne pięciu różnych LLM z decyzjami ludzi. Po przeprowadzeniu 43 200 symulacji w różnych rzeczywistych scenariuszach – takich jak decyzja pożyczkowa właściciela firmy lub zaufanie opiekunce do dziecka – zespół odkrył uderzające podobieństwa.
Zarówno ludzie, jak i sztuczna inteligencja zwykle opierają zaufanie na trzech „filarach”:
1. Kompetencja: postrzegana zdolność do wykonania zadania.
2. Uczciwość: postrzegana uczciwość danej osoby.
3. Ugodowość: postrzegana życzliwość lub dobre intencje danej osoby.
Jednakże sposób stosowania tych filarów znacznie się różni. Chociaż ludzka ocena jest często „niejednoznaczna” i całościowa, sztuczna inteligencja działa jak arkusz kalkulacyjny. Rozbija osobowość na poszczególne elementy, matematycznie oceniając każdą cechę. Skutkuje to stylem osądu, który jest wysoce precyzyjny i systematyczny, ale brakuje mu niuansów i elastycznego zrozumienia, które definiują ludzkie interakcje społeczne.
Problem rosnącej stronniczości
Najbardziej niepokojącym wnioskiem z badania nie jest to, że sztuczna inteligencja jest stronnicza, ale to, że jej uprzedzenia są systematyczne i przewidywalne.
W scenariuszach obejmujących decyzje finansowe – takie jak ustalenie kwoty pożyczki lub darowizn na cele charytatywne – LLM wykazywały znaczne rozbieżności oparte wyłącznie na danych demograficznych. Nawet jeśli wszystkie inne szczegóły dotyczące danej osoby pozostały identyczne, „werdykt” sztucznej inteligencji różnił się w zależności od:
– Wiek: Starsi dorośli często doświadczali korzystniejszych wyników, chociaż te wzorce nie zawsze były spójne.
– Religie: Czynnik ten miał ogromny wpływ, szczególnie przy podejmowaniu decyzji pieniężnych.
– Płeć: niektóre modele wykazały wyraźne zmiany w ocenie ze względu na płeć.
Chociaż ludzie są z pewnością podatni na stronniczość, naukowcy zauważyli, że stronniczość sztucznej inteligencji może być bardziej niebezpieczna, ponieważ jest wbudowana w logikę modelu, przez co jest trudniejsza do wykrycia i bardziej jednolita w zastosowaniu.
Loteria modeli: dlaczego Twoje wybory AI mają znaczenie
Badanie wykazało również, że nie ma „uniwersalnego” punktu widzenia na sztuczną inteligencję. Różne osoby LLM często dochodziły do zupełnie odmiennych wniosków na temat tej samej osoby. Jeden model może nagradzać określoną cechę charakteru, a inny może ją karać.
Stwarza to sytuację wysokiego ryzyka dla branż, które obecnie wdrażają sztuczną inteligencję, w tym:
– HR (Human Resources): selekcja kandydatów do pracy.
– Finanse: ocena kredytowa.
– Opieka zdrowotna: zalecenia dotyczące działań medycznych.
– Zarządzanie: zarządzanie decyzjami organizacyjnymi.
Jeśli wynik życiowy danej osoby – taki jak uzyskanie pożyczki lub znalezienie pracy – zależy od tego, który LLM ją ocenia, wzrasta ryzyko niesprawiedliwości systemowej.
Wniosek
Badanie to stanowi ważne przypomnienie, że chociaż sztuczna inteligencja może symulować ludzkie rozumowanie, nie odtwarza jednak ludzkiej empatii ani zniuansowanej percepcji. W miarę jak systemy te stają się coraz głębiej osadzone w infrastrukturze społeczeństwa, wyzwaniem staje się nie tylko to, czy możemy ufać maszynom, ale także to, czy potrafimy dokładnie zinterpretować sposób, w jaki nas oceniają.**
