Model AI multimodal terbaru masih gagal memahami visual

Oleh: Lysti Rahma - Jumat, 12 Jul 2024 10:59 WIB

Penelitian ini menunjukkan bahwa meskipun model-model AI tersebut dipromosikan dengan istilah seperti "pemahaman visual," kenyatannya mereka masih kesulitan dalam tugas tersebut.

Sebuah studi terbaru dari para peneliti di Auburn University dan University of Alberta mengungkapkan bahwa model kecerdasan buatan (AI) multimodal terbaru, termasuk GPT-4o dan Gemini 1.5 Pro, yang diklaim mampu memahami gambar dan audio selain teks, ternyata masih gagal dalam tugas-tugas visual dasar.

Dilansir dari Tech Crunch (12/7), penelitian ini menunjukkan bahwa meskipun model-model AI tersebut dipromosikan dengan istilah seperti "kemampuan visi" dan "pemahaman visual," mereka masih kesulitan dalam tugas-tugas yang bahkan dapat diselesaikan oleh anak-anak.

Dalam serangkaian tes visual sederhana, seperti menentukan apakah dua bentuk saling tumpang tindih atau menghitung jumlah pentagon dalam gambar, model-model AI menunjukkan performa yang jauh dari memuaskan. Misalnya, pada tes menentukan apakah dua lingkaran saling tumpang tindih, model GPT-4o hanya berhasil menjawab dengan benar 18% dari waktu ketika jarak antara lingkaran sangat kecil atau tidak ada sama sekali. Model Gemini 1.5 Pro, meskipun lebih baik, hanya mencapai tingkat keberhasilan 70% pada kondisi yang sama.

"Kami berharap model-model AI ini dapat melakukan tugas-tugas sederhana dengan akurasi 100%, namun kenyataannya mereka masih gagal," kata Anh Nguyen, salah satu penulis studi tersebut, dalam emailnya kepada TechCrunch.

Penelitian ini juga menunjukkan bahwa model-model AI ini lebih bergantung pada pola-pola dalam data pelatihan mereka daripada benar-benar memahami visual. Sebagai contoh, model AI dapat dengan mudah mengenali gambar dengan lima lingkaran yang saling terkait, karena mirip dengan logo Olimpiade yang sering muncul dalam data pelatihan mereka. Namun, ketika jumlah lingkaran ditambah menjadi enam atau lebih, tingkat keberhasilan model turun drastis.