Anthropic luncurkan program pendanaan untuk pengembangan benchmark AI komprehensif

Anthropic mengungkapkan bahwa mereka akan memberikan hibah kepada organisasi pihak ketiga yang mampu mengukur kemampuan canggih dalam model AI.

Anthropic, perusahaan AI di balik model generatif Claude, mengumumkan inisiatif baru untuk mendanai pengembangan benchmark AI yang lebih komprehensif. Program ini bertujuan untuk mengevaluasi kinerja dan dampak model AI secara lebih efektif, termasuk kemampuan keamanan dan implikasi sosialnya.

Dikutip dari TechCrunch (2/7), dalam blog resmi yang dirilis pada Senin, Anthropic mengungkapkan bahwa mereka akan memberikan hibah kepada organisasi pihak ketiga yang mampu mengukur kemampuan canggih dalam model AI. Aplikasi untuk program ini akan dievaluasi secara bergilir.

"Kami berinvestasi dalam evaluasi ini untuk meningkatkan keseluruhan bidang keamanan AI, menyediakan alat berharga yang menguntungkan seluruh ekosistem," tulis Anthropic dalam blog tersebut. "Mengembangkan evaluasi berkualitas tinggi dan relevan dengan keselamatan tetap menjadi tantangan, dan permintaan melebihi pasokan."

Masalah benchmark dalam AI sudah lama menjadi sorotan. Benchmark yang sering digunakan saat ini dianggap kurang representatif dalam menangkap penggunaan sehari-hari oleh masyarakat umum. Selain itu, beberapa benchmark yang ada sebelum era AI generatif modern dipertanyakan kemampuannya dalam mengukur apa yang seharusnya diukur.

Baca Juga

Anthropic mengusulkan solusi dengan menciptakan benchmark yang menantang, fokus pada keamanan AI dan dampak sosial, melalui alat, infrastruktur, dan metode baru.

Perusahaan ini mengajak untuk membuat tes yang menilai kemampuan model AI dalam tugas-tugas seperti serangan siber, peningkatan senjata pemusnah massal, dan manipulasi atau penipuan melalui deepfake atau misinformasi. Anthropic berkomitmen untuk mengembangkan sistem peringatan dini untuk mengidentifikasi dan menilai risiko yang berkaitan dengan keamanan nasional dan pertahanan.

Program ini juga mendukung penelitian tentang benchmark dan tugas end-to-end yang menyelidiki potensi AI dalam studi ilmiah, komunikasi multibahasa, dan mitigasi bias bawaan, serta penyaringan toksisitas secara mandiri.

Anthropic berencana mengembangkan platform baru yang memungkinkan para ahli mengembangkan evaluasi mereka sendiri dan melakukan uji coba model berskala besar dengan ribuan pengguna. Perusahaan telah mempekerjakan koordinator penuh waktu untuk program ini dan mungkin akan membeli atau memperluas proyek yang dianggap memiliki potensi untuk berkembang.

"Kami menawarkan berbagai opsi pendanaan yang disesuaikan dengan kebutuhan dan tahap setiap proyek," tulis Anthropic, meskipun juru bicara perusahaan menolak memberikan rincian lebih lanjut. "Tim akan memiliki kesempatan untuk berinteraksi langsung dengan para ahli Anthropic dari berbagai bidang."

Meskipun inisiatif ini patut diapresiasi, skeptisisme muncul mengingat ambisi komersial Anthropic dalam industri AI. Dalam blognya, Anthropic menyatakan bahwa mereka ingin evaluasi yang dibiayai sejalan dengan klasifikasi keselamatan AI yang mereka kembangkan bersama pihak ketiga seperti METR. Hal ini mungkin memaksa pelamar untuk menerima definisi keselamatan yang mungkin tidak sepenuhnya mereka setujui.

Sebagian komunitas AI juga mempertanyakan referensi Anthropic terhadap risiko AI yang “katastrofik” dan “menipu”, seperti risiko senjata nuklir. Banyak ahli berpendapat bahwa AI saat ini belum menunjukkan kemampuan untuk menjadi ancaman global atau melebihi kecerdasan manusia dalam waktu dekat.

Anthropic berharap program ini dapat menjadi katalis untuk kemajuan menuju masa depan di mana evaluasi AI yang komprehensif menjadi standar industri. Namun, masih harus dilihat apakah upaya ini akan bekerja sama dengan inisiatif lain yang tidak terafiliasi dengan korporasi dan apakah komunitas AI akan menerima standar yang ditetapkan oleh vendor AI dengan kepentingan komersial.

Tag