Microsoft punya AI yang dapat deskripsikan gambar seperti manusia

Oleh: Nur Chandra Laksana - Kamis, 15 Oktober 2020 11:31

Saat ini, AI milik Microsoft yang berada di Azure Cognitive Services ada di papan peringkat teratas untuk patokan teks gambar nocaps.

Microsoft punya AI yang dapat deskripsikan gambar

AI saat ini sudah memiliki kemampuan yang luar biasa. Berbagai bidang saat ini mulai dikuasai oleh AI. Namun, penggunaan AI saat ini yang paling utama adalah untuk melakukan pengenalan gambar.

Microsoft ternyata telah mengembangkan AI pengenalan yang lebih advance dari AI pengenalan gambar biasa. Mereka mengklaim telah mengembangkan AI yang lebih akurat bahkan dari manusia.

Microsoft mengklaim bahwa AI kali ini dua kali lebih baik daripada model pembuatan teks gambar yang telah digunakan sejak 2015. AI yang merupakan bagian dari Azure Cognitive Services ini ada di papan peringkat teratas untuk patokan teks gambar nocaps.

Engadget (15/10) melaporkan, Microsoft akan menghadirkan teknologi ini di aplikasi Seeing AI. Seperti diketahui, aplikasi ini sengaja dibuat oleh Microsoft untuk digunakan para penyandang tunanetra.

Baca Juga

Dengan menggunakan teknologi AI terbaru mereka, Microsoft akan dapat mendeskripsikan sebuah benda atau hewan yang dilihat oleh kamera smartphone. Kemudian, AI ini akan menceritakan apa yang ada di depannya kepada para pengguna.

"(Image captioning) adalah salah satu masalah tersulit dalam AI," kata Eric Boyd, CVP dari Azure AI. "Ini tidak hanya mewakili pemahaman objek dalam sebuah adegan, tetapi juga bagaimana mereka berinteraksi, dan bagaimana menggambarkannya."

CTO layanan kognitif Azure AI, Xuedong Huang mengatakan bahwa saat ini mereka mendorong untuk mengintegrasikan AI tersebut ke Azure dengan cepat karena potensi manfaatnya bagi pengguna.

Timnya melatih model dengan gambar yang diberi tag dengan kata kunci tertentu, yang membantunya memberikan bahasa visual yang tidak dimiliki oleh kebanyakan kerangka kerja AI. Biasanya, model semacam ini dilatih dengan gambar dan teks lengkap, yang membuatnya lebih sulit bagi model untuk mempelajari cara objek tertentu berinteraksi.

“Pra-pelatihan kosakata visual ini pada dasarnya adalah pendidikan yang dibutuhkan untuk melatih sistem; kami mencoba untuk mendidik memori motorik ini,” kata Huang. Itulah yang memberi model baru ini keunggulan dalam tolok ukur nocaps, yang berfokus menentukan seberapa baik AI dapat memberi caption pada gambar yang belum pernah mereka lihat sebelumnya.