Apple, NVIDIA, dan Anthropic gunakan transkrip YouTube tanpa izin untuk latih AI
Beberapa perusahaan teknologi terbesar di dunia melatih model AI mereka pada kumpulan data yang mencakup transkrip lebih dari 173.000 video YouTube tanpa izin.
Beberapa perusahaan teknologi terbesar di dunia melatih model AI mereka pada kumpulan data yang mencakup transkrip lebih dari 173.000 video YouTube tanpa izin. Kumpulan data tersebut, yang dibuat oleh perusahaan nirlaba bernama EleutherAI, berisi transkrip video YouTube dari lebih dari 48.000 channel dan digunakan oleh Apple, NVIDIA, dan Anthropic, serta perusahaan lainnya.
Dilansir dari Engadget (18/7), temuan investigasi ini menyoroti kenyataan yang tidak menyenangkan tentang AI: teknologi ini sebagian besar dibangun berdasarkan data yang diambil dari kreator tanpa persetujuan atau kompensasi mereka.
Kumpulan data tersebut tidak menyertakan video atau gambar apa pun dari YouTube, namun berisi transkrip video dari kreator platform terbesar termasuk Marques Brownlee dan MrBeast, serta penerbit berita besar seperti The New York Times, BBC, dan ABC News. Subtitle dari video milik Engadget juga merupakan bagian dari kumpulan data.
“Apple mengambil data untuk AI mereka dari beberapa perusahaan,” tulis Brownlee di X. “Salah satu dari mereka mengambil banyak data/transkrip dari video YouTube, termasuk milik saya,” tambahnya. “Ini akan menjadi masalah yang terus berkembang dalam jangka waktu yang lama.”
Seorang juru bicara Google mengatakan kepada Engadget bahwa komentar sebelumnya yang dibuat oleh CEO YouTube Neal Mohan mengatakan bahwa perusahaan yang menggunakan data YouTube untuk melatih model AI akan melanggar persyaratan dan layanan platform masih berlaku.