Penghapusan data pada model AI mengancam kinerja model

Oleh: Lysti Rahma - Selasa, 30 Jul 2024 13:49 WIB

Teknik unlearning dirancang untuk membuat model melupakan informasi spesifik yang diambil dari data pelatihan, seperti data pribadi yang sensitif atau materi berhak cipta.

Penelitian terbaru menunjukkan bahwa teknik "unlearning" yang digunakan untuk menghapus data tidak diinginkan pada model AI dapat menurunkan kinerja model secara signifikan. Studi ini dilakukan oleh para peneliti dari University of Washington (UW), Princeton, University of Chicago, University of Southern California (USC), dan Google.

Dilansir dari TechCrunch (30/7), teknik unlearning dirancang untuk membuat model melupakan informasi spesifik yang diambil dari data pelatihan, seperti data pribadi yang sensitif atau materi berhak cipta. Namun, temuan menunjukkan bahwa teknik ini tidak hanya menghapus data yang diinginkan, tetapi juga mengurangi kemampuan model dalam menjawab pertanyaan dasar.

"Metode unlearning yang ada saat ini belum siap untuk digunakan dalam situasi dunia nyata," kata Weijia Shi, peneliti studi dan kandidat Ph.D. di bidang ilmu komputer di UW. "Saat ini, tidak ada metode yang efisien yang memungkinkan model melupakan data spesifik tanpa kehilangan utilitas secara signifikan."

Model AI generatif, seperti GPT-4 dan Llama 3.1 405B, dilatih menggunakan data yang diambil dari berbagai sumber publik di internet. Model ini memprediksi kata, gambar, suara, musik, video, dan data lainnya berdasarkan pola yang ditemukan dalam data pelatihan. Contohnya, sebuah model yang dilatih untuk melengkapi pesan email mungkin akan menyarankan kelanjutan yang sesuai dengan pola dari semua email yang telah dipelajarinya.

Namun, praktik ini menimbulkan kontroversi terkait hak cipta. Banyak pemegang hak cipta, termasuk penulis, penerbit, dan label rekaman, telah mengajukan tuntutan hukum terhadap perusahaan teknologi yang menggunakan data mereka tanpa izin atau kompensasi.