Незважаючи на вражаючі результати в контрольованих лабораторних умовах, штучний інтелект (ІІ) у човнах значно поступається при обробці реальних медичних запитів від звичайних людей. Нещодавнє дослідження, опубліковане в журналі Nature Medicine, показує, що хоча ці системи здатні виявляти медичні проблеми з точністю до 95% у симуляціях, їх продуктивність падає нижче 35% при взаємодії з людьми в розмовному режимі.

Ця розбіжність підкреслює критичний розрив між теоретичними медичними знаннями та практичним застосуванням: ІІ володіє знаннями, але людям важко отримати з нього корисні поради. Дослідження, проведене вченими Оксфордського університету, протестувало великі мовні моделі (LLM), такі як GPT-4o, Command R+ і Lla.

Дослідники виявили, що люди, які використовують чатботи для діагностики, показали “гірші” результати, ніж ті, хто просто шукав симптоми в Google. Пошукові системи давали правильні діагнози більш ніж 40% випадків, тоді як чатботи загалом досягали лише 35% точності. Ця різниця статистично значуща, що демонструє, що навіть базові пошукові інструменти в даний час перевершують ІІ-засновані медичні поради у повсякденній практиці.

Проблема не обов’язково полягає у відсутності медичних знань самого ІІ — використані моделі були передовими на кінець 2024 року. Натомість труднощі у тому, як взаємодіють із цими системами. Люди схильні надавати інформацію фрагментарно, а чати легко вводяться в оману неповними чи нерелевантними деталями. Незначні зміни у формулюваннях можуть різко змінити відповідь чобота: опис сильного головного болю як «раптового і гіршого в житті» правильно спонукає ІІ рекомендувати негайну медичну допомогу, в той час як називання її «жахливим головним болем» може призвести до пропозиції відпочити — потенційно смертельна помилка у випадках, таких.

Непередбачувана природа ІІ-роздумів, яка часто називається «проблемою чорної скриньки», ускладнює розуміння причин таких коливань. Навіть розробники насилу простежують логіку, що лежить в основі рішень моделей.

Ці висновки підтверджують давні побоювання з приводу безпеки ІІ в охороні здоров’я. ECRI, організація із забезпечення безпеки пацієнтів, вже назвала ІІ-чатбот найбільшою небезпекою в галузі медичних технологій на 2026 рік, посилаючись на ризики, такі як помилкові діагнози, сфабрикована інформація та посилення існуючих. Незважаючи на ці попередження, медичні працівники все частіше інтегрують чатботів у свої робочі процеси для таких завдань, як транскрибування та попередній перегляд результатів аналізів. OpenAI та Anthropic навіть запустили спеціалізовані медичні версії своїх моделей, при цьому ChatGPT вже обробляє понад 40 мільйонів медичних запитів щодня.

Головний висновок у тому, що комерційні LLM ще недостатньо надійні прямого клінічного застосування. Хоча ІІ-технології, ймовірно, покращаться згодом, поточний розрив між лабораторними показниками та реальною корисністю становить значні ризики.

Дослідники, такі як Мішель Лі з Гарвардської медичної школи, працюють над потенційними покращеннями навчання та впровадження ІІ. Перший крок, на думку Адама Махді з Оксфорда, – це вдосконалення методів оцінки продуктивності ІІ, а саме, зосередження уваги на тому, як він працює для “реальних людей”, а не в штучних умовах.