Anthropic luncurkan program pendanaan untuk pengembangan benchmark AI komprehensif

Oleh: Lysti Rahma - Selasa, 02 Jul 2024 13:06 WIB

Anthropic mengungkapkan bahwa mereka akan memberikan hibah kepada organisasi pihak ketiga yang mampu mengukur kemampuan canggih dalam model AI.

Anthropic, perusahaan AI di balik model generatif Claude, mengumumkan inisiatif baru untuk mendanai pengembangan benchmark AI yang lebih komprehensif. Program ini bertujuan untuk mengevaluasi kinerja dan dampak model AI secara lebih efektif, termasuk kemampuan keamanan dan implikasi sosialnya.

Dikutip dari TechCrunch (2/7), dalam blog resmi yang dirilis pada Senin, Anthropic mengungkapkan bahwa mereka akan memberikan hibah kepada organisasi pihak ketiga yang mampu mengukur kemampuan canggih dalam model AI. Aplikasi untuk program ini akan dievaluasi secara bergilir.

"Kami berinvestasi dalam evaluasi ini untuk meningkatkan keseluruhan bidang keamanan AI, menyediakan alat berharga yang menguntungkan seluruh ekosistem," tulis Anthropic dalam blog tersebut. "Mengembangkan evaluasi berkualitas tinggi dan relevan dengan keselamatan tetap menjadi tantangan, dan permintaan melebihi pasokan."

Masalah benchmark dalam AI sudah lama menjadi sorotan. Benchmark yang sering digunakan saat ini dianggap kurang representatif dalam menangkap penggunaan sehari-hari oleh masyarakat umum. Selain itu, beberapa benchmark yang ada sebelum era AI generatif modern dipertanyakan kemampuannya dalam mengukur apa yang seharusnya diukur.

Anthropic mengusulkan solusi dengan menciptakan benchmark yang menantang, fokus pada keamanan AI dan dampak sosial, melalui alat, infrastruktur, dan metode baru.