Saat Model Bahasa Besar (LLM) bertransisi dari chatbot sederhana menjadi partisipan aktif dalam pengambilan keputusan, muncul pertanyaan mendasar: Bagaimana mesin ini menilai kita?
Penelitian baru dari Universitas Ibrani Yerusalem menunjukkan bahwa AI tidak hanya memproses data; itu membentuk penilaian terstruktur terhadap karakter manusia. Meskipun model-model ini meniru logika kepercayaan manusia, model-model tersebut memiliki kekakuan mekanis yang dapat memperbesar bias sosial dengan cara yang mungkin tidak bisa dilakukan oleh manusia.
Mekanisme Penilaian Mesin
Dalam studi komprehensif yang diterbitkan dalam Proceedings of the Royal Society A, peneliti Valeria Lerman dan Yaniv Dover membandingkan proses pengambilan keputusan di lima LLM berbeda dengan partisipan manusia. Melalui 43.200 simulasi di berbagai skenario dunia nyata—seperti memutuskan apakah akan meminjamkan uang kepada pemilik bisnis atau memercayai pengasuh anak—tim tersebut mengidentifikasi persamaan yang mencolok.
Baik manusia maupun AI cenderung mendasarkan kepercayaan pada tiga pilar inti:
1. Kompetensi: Kemampuan yang dirasakan untuk melakukan suatu tugas.
2. Integritas: Kejujuran yang dirasakan individu.
3. Kebajikan: Kebaikan atau niat baik yang dirasakan seseorang.
Namun, cara penerapan pilar-pilar ini berbeda secara signifikan. Meskipun penilaian manusia sering kali “berantakan” dan holistik, AI beroperasi seperti spreadsheet. Ini memecah seseorang menjadi komponen-komponen terpisah, menilai setiap sifat secara matematis. Hal ini menghasilkan gaya penilaian yang sangat konsisten dan sistematis, namun kurang memiliki pemahaman yang bernuansa dan cair yang mendefinisikan interaksi sosial manusia.
Masalah Amplifikasi Bias
Temuan yang paling memprihatinkan dari penelitian ini bukanlah bahwa AI itu bias, namun biasnya sistematis dan dapat diprediksi.
Dalam skenario yang melibatkan keputusan keuangan—seperti menentukan jumlah pinjaman atau sumbangan amal—LLM menunjukkan kesenjangan yang signifikan hanya berdasarkan pada ciri-ciri demografis. Bahkan ketika setiap detail tentang seseorang tetap sama, “putusan” AI berubah berdasarkan:
– Usia: Orang yang lebih tua sering kali menerima hasil yang lebih baik, meskipun polanya tidak konsisten.
– Agama: Faktor ini memiliki dampak yang besar, khususnya dalam pengambilan keputusan moneter.
– Gender: Model tertentu menunjukkan perubahan nyata dalam penilaian berdasarkan gender.
Meskipun manusia tentu saja mempunyai prasangka, para peneliti mencatat bahwa bias AI bisa lebih berbahaya karena bias tersebut tertanam dalam logika model, membuatnya lebih sulit dideteksi dan lebih seragam dalam penerapannya.
“Model Lotere”: Mengapa Pilihan AI Anda Penting
Studi ini juga mengungkapkan bahwa tidak ada perspektif AI yang “universal”. LLM yang berbeda sering kali mencapai kesimpulan yang sangat berbeda tentang individu yang sama. Satu model mungkin memberi penghargaan pada ciri kepribadian tertentu, sementara model lain mungkin menghukumnya.
Hal ini menciptakan lingkungan berisiko tinggi bagi industri yang saat ini mengintegrasikan AI, termasuk:
– Sumber Daya Manusia: Menyaring kandidat pekerjaan.
– Keuangan: Menilai kelayakan kredit.
– Layanan Kesehatan: Merekomendasikan tindakan medis.
– Manajemen: Memandu keputusan organisasi.
Jika hasil hidup seseorang—seperti mendapatkan pinjaman atau pekerjaan—bergantung pada LLM spesifik mana yang menjalankan penilaian, potensi ketidakadilan sistemik akan meningkat.
Kesimpulan
Penelitian ini menjadi pengingat penting bahwa meskipun AI dapat memodelkan pemikiran manusia, AI tidak meniru empati atau nuansa manusia. Ketika sistem ini semakin tertanam dalam infrastruktur masyarakat, tantangan utamanya bukan lagi sekedar apakah kita bisa mempercayai mesin, tapi apakah kita bisa secara akurat menafsirkan cara mereka menilai kita.























