Несмотря на впечатляющие результаты в контролируемых лабораторных условиях, искусственный интеллект (ИИ) в чатботах значительно уступает при обработке реальных медицинских запросов от обычных людей. Недавнее исследование, опубликованное в журнале Nature Medicine, показывает, что хотя эти системы способны выявлять медицинские проблемы с точностью до 95% в симуляциях, их производительность падает ниже 35% при взаимодействии с людьми в разговорном режиме.
Это расхождение подчеркивает критический разрыв между теоретическими медицинскими знаниями и практическим применением: ИИ обладает знаниями, но людям трудно извлечь из него полезные советы. Исследование, проведенное учеными Оксфордского университета, протестировало большие языковые модели (LLM), такие как GPT-4o, Command R+ и Llama 3, предоставляя им медицинские сценарии.
Исследователи обнаружили, что люди, использующие чатботов для диагностики, показали худшие результаты, чем те, кто просто искал симптомы в Google. Поисковые системы давали правильные диагнозы более чем в 40% случаев, в то время как чатботы в среднем достигали только 35% точности. Эта разница статистически значима, что демонстрирует, что даже базовые поисковые инструменты в настоящее время превосходят ИИ-основанные медицинские советы в повседневной практике.
Проблема не обязательно заключается в отсутствии медицинских знаний у самого ИИ — использованные модели были передовыми на конец 2024 года. Вместо этого трудность заключается в том, как люди взаимодействуют с этими системами. Люди склонны предоставлять информацию фрагментарно, а чатботы легко вводятся в заблуждение неполными или нерелевантными деталями. Незначительные изменения в формулировках могут резко изменить ответ чатбота: описание сильной головной боли как «внезапной и худшей в жизни» правильно побуждает ИИ рекомендовать немедленную медицинскую помощь, в то время как называние ее «ужасной головной болью» может привести к предложению отдохнуть — потенциально смертельная ошибка в случаях, таких как субарахноидальное кровоизлияние.
Непредсказуемая природа ИИ-рассуждений, часто называемая «проблемой черного ящика», затрудняет понимание причин таких колебаний. Даже разработчики с трудом прослеживают логику, лежащую в основе решений моделей.
Эти выводы подтверждают давние опасения по поводу безопасности ИИ в здравоохранении. ECRI, организация по обеспечению безопасности пациентов, уже назвала ИИ-чатботов самой значительной опасностью в области медицинских технологий на 2026 год, ссылаясь на риски, такие как ошибочные диагнозы, сфабрикованная информация и усиление существующих предубеждений. Несмотря на эти предупреждения, медицинские работники все чаще интегрируют чатботов в свои рабочие процессы для таких задач, как транскрибирование и предварительный просмотр результатов анализов. OpenAI и Anthropic даже запустили специализированные медицинские версии своих моделей, при этом ChatGPT уже обрабатывает более 40 миллионов медицинских запросов ежедневно.
Главный вывод заключается в том, что коммерческие LLM еще недостаточно надежны для прямого клинического применения. Хотя ИИ-технологии, вероятно, улучшатся со временем, текущий разрыв между лабораторными показателями и реальной полезностью представляет значительные риски.
Исследователи, такие как Мишель Ли из Гарвардской медицинской школы, работают над потенциальными улучшениями обучения и внедрения ИИ. Первый шаг, по мнению Адама Махди из Оксфорда, — это совершенствование методов оценки производительности ИИ, а именно, сосредоточение внимания на том, как он работает для реальных людей, а не в искусственных условиях.
























