Navzdory působivým výsledkům v kontrolovaných laboratorních podmínkách je umělá inteligence (AI) v chatbotech výrazně horší ve zpracování skutečných lékařských dotazů od obyčejných lidí. Nedávná studie publikovaná v časopise Nature Medicine ukazuje, že zatímco tyto systémy jsou schopny identifikovat zdravotní problémy s přesností až 95 % v simulacích, jejich výkon při interakci s lidmi v konverzačním režimu klesá pod 35 %.

Tento rozpor zdůrazňuje kritickou propast mezi teoretickými lékařskými znalostmi a praktickou aplikací: AI má znalosti, ale pro lidi je obtížné z nich získat užitečné rady. Studie vedená vědci z Oxfordské univerzity testovala velké jazykové modely (LLM), jako jsou GPT-4o, Command R+ a Llama 3, tím, že jim poskytla lékařské scénáře.

Výzkumníci zjistili, že lidé používající k diagnostice chatboty dopadli hůře než ti, kteří si symptomy jednoduše vyhledali pomocí Googlu. Vyhledávače poskytovaly správné diagnózy více než 40 % času, zatímco chatboti dosahovali v průměru pouze 35 % přesnosti. Tento rozdíl je statisticky významný, což dokazuje, že i základní vyhledávací nástroje nyní v každodenní praxi překonávají lékařské rady založené na umělé inteligenci.

Problémem nemusí být nutně nedostatek lékařských znalostí na straně samotné AI – použité modely byly ke konci roku 2024 nejmodernější. Místo toho problém spočívá v tom, jak lidé s těmito systémy interagují. Lidé mají tendenci poskytovat informace ve fragmentech a chatboti se snadno nechají uvést v omyl neúplnými nebo irelevantními detaily. Jemné změny ve formulaci mohou dramaticky změnit reakci chatbota: popis silné bolesti hlavy jako „náhlé a nejhorší ve vašem životě“ správně vyzve AI, aby doporučila okamžitou lékařskou pomoc, zatímco označení „strašná bolest hlavy“ může vést k návrhu na odpočinek – potenciálně fatální chyba v případech, jako je subarachnoidální krvácení.

Nepředvídatelná povaha uvažování AI, často označovaná jako „problém černé skříňky“, ztěžuje pochopení důvodů pro takové výkyvy. Dokonce i vývojáři mají problém sledovat logiku rozhodnutí modelů.

Tato zjištění podporují dlouhodobé obavy o bezpečnost umělé inteligence ve zdravotnictví. ECRI, organizace pro bezpečnost pacientů, již označila chatboty s umělou inteligencí za nejvýznamnější hrozbu ve zdravotnických technologiích pro rok 2026, přičemž uvedla rizika, jako jsou chybné diagnózy, vymyšlené informace a posilování stávajících předsudků. Navzdory těmto varováním poskytovatelé zdravotní péče stále více integrují chatboty do svých pracovních postupů pro úkoly, jako je přepis a náhled výsledků testů. OpenAI a Anthropic dokonce spustily specializované lékařské verze svých modelů, přičemž ChatGPT již denně zpracovává více než 40 milionů lékařských dotazů.

Hlavním závěrem je, že komerční LLM ještě nejsou dostatečně robustní pro přímou klinickou aplikaci. I když se technologie umělé inteligence časem pravděpodobně zlepší, současná propast mezi laboratorním výkonem a reálnou užitečností představuje značná rizika.

Výzkumníci, jako je Michelle Lee z Harvard Medical School, pracují na potenciálních vylepšeních školení a implementace AI. Prvním krokem je podle Adama Mahdiho z Oxfordu zlepšit způsob, jakým hodnotíme výkon umělé inteligence, konkrétně tím, že se zaměříme na to, jak funguje u skutečných lidí spíše než v umělých podmínkách.