Peneliti Tiongkok ungkap lemahnya keamanan model AI seperti ChatGPT, Bard, dan lainnya
Peneliti Tiongkok telah mengungkap celah keamanan yang signifikan dalam model bahasa besar multimodal (MLLM) komersial yang banyak digunakan seperti ChatGPT.
Peneliti Tiongkok telah mengungkap celah keamanan yang signifikan dalam model bahasa besar multimodal (MLLM) komersial yang banyak digunakan seperti ChatGPT, Bard, dan Bing Chat. Model-model ini, yang diterapkan oleh raksasa teknologi seperti Google, Microsoft, dan Baidu, merupakan komponen mendasar dari berbagai aplikasi, mulai dari asisten virtual hingga sistem moderasi konten.
Dilansir dari Gizmochina (9/11), para peneliti tersebut menemukan bahwa kerentanan dalam MLLM ini dapat dieksploitasi dengan menggunakan gambar yang dimanipulasi yang sangat mirip dengan aslinya. Dengan membuat perubahan kecil hampir tidak terlihat oleh mata manusia, para peneliti secara efektif mengabaikan filter bawaan model yang dirancang untuk menyaring konten toksik atau tidak pantas.
Misalnya, para peneliti di Beijing telah mengidentifikasi kerentanan yang signifikan dalam model AI seperti ChatGPT. Saat diserang, model-model ini dapat salah mengira panda raksasa sebagai manusia atau gagal mendeteksi konten berbahaya, sehingga menyoroti kelemahan keamanan kritis dalam sistem AI komersial.
Di antara model yang terpengaruh, Bard, yang dilengkapi dengan mekanisme deteksi wajah dan toksisitas, dapat menghasilkan deskripsi konten berbahaya yang tidak tepat jika disusupi. Tim peneliti Tiongkok bahkan memberikan kode yang menunjukkan bagaimana contoh-contoh permusuhan ini dapat menyesatkan model AI. Eksperimen mereka menghasilkan tingkat keberhasilan sebesar 22% terhadap Bard, 26% terhadap Bing Chat, dan 86% terhadap Ernie Bot.
Wu Zhaohui, wakil menteri sains dan teknologi Tiongkok, membahas temuan mengkhawatirkan ini pada KTT Keamanan AI Global di Inggris. Ia menekankan kebutuhan mendesak akan pengendalian risiko teknis yang lebih kuat dalam tata kelola AI, dan mendesak komunitas global untuk mengatasi kerentanan yang ditemukan dalam model bahasa yang banyak digunakan tersebut.