Pomimo imponujących wyników w kontrolowanych warunkach laboratoryjnych, sztuczna inteligencja (AI) w chatbotach znacznie gorzej radzi sobie z zapytaniami medycznymi zadawanymi przez zwykłych ludzi w codziennym życiu. Niedawne badanie opublikowane w czasopiśmie Nature Medicine pokazuje, że choć systemy te są w stanie identyfikować problemy medyczne z dokładnością do 95% w symulacjach, ich skuteczność spada poniżej 35% w przypadku interakcji z ludźmi w trybie konwersacyjnym.

Ta rozbieżność uwypukla krytyczną lukę między teoretyczną wiedzą medyczną a jej praktycznym zastosowaniem: Sztuczna inteligencja posiada wiedzę, ale ludziom trudno jest wyciągnąć z niej przydatne rady. W badaniu przeprowadzonym przez naukowców z Uniwersytetu Oksfordzkiego przetestowano modele dużych języków (LLM), takie jak GPT-4o, Command R+ i Lama 3, dostarczając im scenariuszy medycznych.

Naukowcy odkryli, że osoby korzystające z chatbotów do diagnozowania radziły sobie gorzej niż osoby, które po prostu sprawdzały objawy w Google. Wyszukiwarki dostarczały trafnych diagnoz w ponad 40% przypadków, podczas gdy chatboty osiągały średnio tylko 35% trafności. Różnica ta jest istotna statystycznie i pokazuje, że nawet podstawowe narzędzia wyszukiwania obecnie w codziennej praktyce przewyższają porady medyczne oparte na sztucznej inteligencji.

Problemem niekoniecznie jest brak wiedzy medycznej samej sztucznej inteligencji – stosowane modele były najnowocześniejsze pod koniec 2024 r. Zamiast tego wyzwanie polega na tym, w jaki sposób ludzie wchodzą w interakcję z tymi systemami. Ludzie mają tendencję do podawania informacji fragmentarycznie, a chatboty łatwo dają się zwieść niekompletnymi lub nieistotnymi szczegółami. Subtelne zmiany w sformułowaniach mogą radykalnie zmienić reakcję chatbota: opisanie silnego bólu głowy jako „nagłego i najgorszego w życiu” prawidłowo powoduje, że sztuczna inteligencja zaleci natychmiastową pomoc lekarską, natomiast nazwanie go „strasznym bólem głowy” może prowadzić do sugestii odpoczynku – potencjalnie śmiertelny błąd w przypadkach takich jak krwotok podpajęczynówkowy.

Nieprzewidywalny charakter rozumowania sztucznej inteligencji, często nazywany „problemem czarnej skrzynki”, utrudnia zrozumienie przyczyn takich wahań. Nawet programiści mają trudności ze zrozumieniem logiki stojącej za decyzjami modeli.

Te ustalenia potwierdzają długotrwałe obawy dotyczące bezpieczeństwa sztucznej inteligencji w opiece zdrowotnej. ECRI, organizacja zajmująca się bezpieczeństwem pacjentów, uznała już chatboty oparte na sztucznej inteligencji za najważniejsze zagrożenie w technologiach medycznych w roku 2026, powołując się na ryzyko, takie jak błędne diagnozy, sfabrykowane informacje i wzmacnianie istniejących uprzedzeń. Pomimo tych ostrzeżeń podmioty świadczące opiekę zdrowotną coraz częściej włączają chatboty do swoich przepływów pracy w celu wykonywania takich zadań, jak transkrypcja i podgląd wyników badań. OpenAI i Anthropic wypuściły nawet specjalistyczne wersje medyczne swoich modeli, a ChatGPT obsługuje już ponad 40 milionów zapytań medycznych dziennie.

Główny wniosek jest taki, że komercyjne LLM nie są jeszcze wystarczająco solidne, aby można je było zastosować bezpośrednio w praktyce klinicznej. Chociaż technologie sztucznej inteligencji prawdopodobnie z biegiem czasu będą udoskonalane, obecna rozbieżność między wydajnością laboratorium a użytecznością w świecie rzeczywistym stwarza znaczne ryzyko.

Badacze tacy jak Michelle Lee z Harvard Medical School pracują nad potencjalnymi ulepszeniami w szkoleniu i wdrażaniu sztucznej inteligencji. Według Adama Mahdiego z Oksfordu pierwszym krokiem jest ulepszenie sposobu, w jaki oceniamy wydajność sztucznej inteligencji, a mianowicie skupienie się na tym, jak działa ona w przypadku prawdziwych ludzi, a nie w sztucznych warunkach.