Hacker berhasil menjebak ChatGPT untuk memberikan instruksi membuat bom rakitan
Seorang ahli bahan peledak yang meninjau keluaran ChatGPT menyatakan bahwa informasi yang diberikan terlalu sensitif untuk dipublikasikan, dan instruksi tersebut dapat menghasilkan produk yang dapat diledakkan.
Seorang peretas berhasil menjebak ChatGPT, chatbot buatan OpenAI, untuk memberikan instruksi detail tentang cara membuat bom rakitan yang berbahaya. Instruksi tersebut dihasilkan setelah hacker tersebut memanfaatkan kelemahan sistem keamanan AI melalui teknik manipulasi sosial, yang dikenal sebagai "jailbreaking," untuk menghindari pembatasan yang ada.
Dilansir dari Tech Crunch (13/9), dalam uji coba standar, jika diminta untuk memberikan instruksi membuat bom, ChatGPT akan menolak dengan tegas, menyatakan bahwa membantu menciptakan benda berbahaya atau ilegal melanggar pedoman keselamatan dan tanggung jawab etis. Namun, seorang hacker bernama Amadon berhasil menipu ChatGPT dengan meminta bot tersebut “bermain permainan” di dunia fiksi ilmiah di mana pedoman keselamatan bot tidak berlaku.
Amadon, yang menggambarkan tekniknya sebagai “hack rekayasa sosial untuk menghancurkan semua pembatasan ChatGPT,” menggunakan serangkaian permintaan kontekstual untuk menipu bot agar keluar dari pengaturan standar keamanannya. Dalam beberapa langkah, ChatGPT mulai memberikan daftar bahan dan instruksi yang dapat digunakan untuk membuat bahan peledak.
Seorang ahli bahan peledak yang meninjau keluaran ChatGPT menyatakan bahwa informasi yang diberikan terlalu sensitif untuk dipublikasikan, dan instruksi tersebut dapat menghasilkan produk yang dapat diledakkan. “Beberapa langkah yang dijelaskan dapat menghasilkan campuran yang dapat meledak,” kata Darrell Taulbee, pensiunan profesor Universitas Kentucky yang pernah bekerja dengan Departemen Keamanan Dalam Negeri AS untuk mengurangi bahaya pupuk.
Amadon mengatakan bahwa tidak ada batasan pada apa yang bisa diminta setelah berhasil mengatasi pembatasan sistem. Dalam percakapan dengan TechCrunch, Amadon mengungkapkan bahwa proses ini adalah tentang memahami bagaimana sistem berpikir dan mencari celah dalam pertahanannya. Dengan menggabungkan narasi fiksi ilmiah, Amadon menciptakan konteks yang tidak terdeteksi oleh sistem sebagai pencarian konten terlarang.
“Ini tentang menenun narasi dan membentuk konteks yang tetap berada dalam aturan sistem, mendorong batasan tanpa melewati garis,” kata Amadon. “Tujuannya bukan untuk meretas dalam arti konvensional, tetapi lebih kepada berdansa strategi dengan AI, mencari respons yang tepat dengan memahami cara berpikirnya.”
Instruksi yang diberikan oleh ChatGPT dinilai akurat dan dapat diandalkan untuk membuat bahan peledak berbahaya, termasuk bom pupuk seperti yang digunakan dalam pengeboman Oklahoma City pada 1995. Amadon melaporkan temuannya kepada OpenAI melalui program bug bounty perusahaan. Namun, OpenAI menanggapinya dengan menyatakan bahwa masalah keselamatan model tidak sesuai dengan program bug bounty, karena ini bukanlah bug individu yang dapat diperbaiki secara langsung, melainkan membutuhkan pendekatan penelitian yang lebih luas.
Sejauh ini, OpenAI belum memberikan tanggapan terkait apakah keluaran ChatGPT tersebut sesuai dengan yang diharapkan dan bagaimana perusahaan akan memperbaiki kerentanan tersebut. Perusahaan mengatakan masalah ini membutuhkan penelitian mendalam dan pendekatan yang lebih luas.
Meski ada peringatan keamanan yang ketat, eksploitasi semacam ini menunjukkan betapa rentannya model AI generatif seperti ChatGPT terhadap manipulasi. Dengan informasi yang tersebar luas di internet, AI model menjadi alat yang mudah digunakan untuk menemukan dan menyebarkan informasi berbahaya dari sudut tergelap dunia maya.
Kasus ini menjadi pengingat serius akan pentingnya meningkatkan sistem keamanan dalam teknologi AI untuk mencegah penyalahgunaan yang dapat membahayakan masyarakat.