Chatbot dengan kecerdasan buatan (AI), meskipun unggul dalam kondisi laboratorium yang terkendali, mengalami kesulitan yang signifikan ketika ditugaskan untuk melakukan pertanyaan medis di dunia nyata dari orang-orang biasa. Sebuah studi terbaru yang dipublikasikan di Nature Medicine mengungkapkan bahwa meskipun sistem ini dapat mengidentifikasi masalah medis dengan akurasi hingga 95% dalam simulasi, kinerjanya menurun hingga di bawah 35% saat berinteraksi dengan manusia melalui percakapan.
Kesenjangan ini menyoroti kesenjangan kritis antara pengetahuan medis teoretis dan penerapan praktis: AI memiliki pengetahuan tersebut, namun manusia kesulitan untuk mendapatkan saran yang berguna darinya. Penelitian yang dilakukan oleh para peneliti di Universitas Oxford ini menguji model bahasa besar (LLM) seperti GPT-4o, Command R+, dan Llama 3 dengan memberikan skenario medis.
Para peneliti menemukan bahwa orang yang menggunakan chatbots untuk diagnosis sebenarnya memiliki kinerja lebih buruk dibandingkan mereka yang hanya menelusuri gejala di Google. Mesin pencari menghasilkan diagnosis yang benar lebih dari 40%, sementara chatbot rata-rata hanya menghasilkan akurasi 35%. Perbedaan ini signifikan secara statistik, menunjukkan bahwa bahkan alat pencarian dasar pun saat ini dapat mengungguli saran medis berbasis AI dalam penggunaan sehari-hari.
Masalahnya bukan terletak pada kurangnya pengetahuan medis pada AI itu sendiri—model yang digunakan merupakan model tercanggih pada akhir tahun 2024. Sebaliknya, masalahnya terletak pada cara manusia berinteraksi dengan sistem ini. Orang cenderung memberikan informasi sedikit demi sedikit, dan chatbot mudah disesatkan oleh detail yang tidak lengkap atau tidak relevan. Perubahan frasa yang halus dapat mengubah respons chatbot secara dramatis: mendeskripsikan sakit kepala parah sebagai “tiba-tiba dan terburuk yang pernah ada” akan membuat AI segera merekomendasikan pertolongan medis, sementara menyebutnya sebagai “sakit kepala yang parah” dapat menyebabkan saran untuk istirahat—kesalahan yang berpotensi fatal dalam kasus seperti perdarahan subarachnoid.
Sifat penalaran AI yang tidak dapat diprediksi, yang sering disebut sebagai “masalah kotak hitam”, membuat sulit untuk memahami mengapa variasi tersebut terjadi. Bahkan para pengembang kesulitan untuk menelusuri logika di balik keputusan model tersebut.
Temuan ini mengonfirmasi kekhawatiran yang sudah lama ada mengenai keamanan AI dalam layanan kesehatan. ECRI, sebuah organisasi keselamatan pasien, telah mengidentifikasi chatbot AI sebagai bahaya teknologi kesehatan paling signifikan pada tahun 2026, dengan alasan risiko seperti kesalahan diagnosis, informasi palsu, dan penguatan bias yang ada. Terlepas dari peringatan ini, profesional layanan kesehatan semakin mengintegrasikan chatbot ke dalam alur kerja mereka untuk tugas-tugas seperti transkripsi dan peninjauan hasil tes awal. OpenAI dan Anthropic bahkan telah meluncurkan versi layanan kesehatan khusus dari model mereka, dengan ChatGPT telah menangani lebih dari 40 juta pertanyaan medis setiap hari.
Kesimpulan utamanya adalah LLM komersial belum cukup dapat diandalkan untuk penggunaan klinis langsung. Meskipun teknologi AI kemungkinan akan meningkat seiring berjalannya waktu, kesenjangan antara kinerja laboratorium dan kegunaan di dunia nyata saat ini menimbulkan risiko yang besar.
Para peneliti seperti Michelle Li di Harvard Medical School sedang berupaya mencari potensi perbaikan pada pelatihan dan implementasi AI. Langkah pertama, menurut Adam Mahdi dari Oxford, adalah menyempurnakan cara pengukuran kinerja AI—khususnya, berfokus pada kinerja AI untuk orang nyata dan bukan dalam lingkungan buatan.
