OpenAI luncurkan mode suara canggih ChatGPT dengan audio hiper-realistis

Oleh: Lysti Rahma - Rabu, 31 Jul 2024 09:03 WIB

Dalam beberapa bulan terakhir, OpenAI telah menguji kemampuan suara GPT-4o dengan lebih dari 100 penguji eksternal yang berbicara 45 bahasa berbeda.

OpenAI resmi meluncurkan Mode Suara Canggih ChatGPT yang dapat memberikan akses pertama kepada pengguna terhadap fitur audio hiper-realistis dari GPT-4o. Versi alfa ini akan tersedia untuk sekelompok kecil pengguna ChatGPT Plus hari ini dan akan diluncurkan secara bertahap untuk semua pengguna Plus pada musim gugur 2024.

Dilansir dari TechCrunch (31/7), saat pertama kali diperkenalkan pada bulan Mei, suara GPT-4o mengejutkan audiens dengan respon cepat dan kemiripan yang luar biasa dengan suara manusia nyata. Salah satu suara, bernama Sky, mirip dengan aktris Scarlett Johansson, yang dikenal sebagai asisten virtual dalam film "Her." Setelah melihat demo tersebut, Johansson menolak permintaan dari CEO OpenAI, Sam Altman, untuk menggunakan suaranya, dan menyewa pengacara untuk melindungi hak suaranya.

OpenAI membantah menggunakan suara Johansson namun kemudian menghapus suara tersebut dari demo. Pada bulan Juni, OpenAI mengumumkan penundaan peluncuran Mode Suara Canggih untuk meningkatkan langkah-langkah keamanan.

Dalam pernyataannya, OpenAI menjelaskan bahwa fitur video dan berbagi layar yang ditampilkan selama Pembaruan Musim Semi tidak akan menjadi bagian dari versi alfa ini dan akan diluncurkan pada tanggal berikutnya. Namun, beberapa pengguna premium akan mendapatkan akses ke fitur suara yang memukau tersebut.

Mode Suara Canggih berbeda dari solusi audio yang sebelumnya digunakan ChatGPT. Solusi lama menggunakan tiga model terpisah: satu untuk mengubah suara menjadi teks, GPT-4 untuk memproses permintaan, dan model ketiga untuk mengubah teks menjadi suara. GPT-4o, sebagai model multimodal, mampu memproses tugas-tugas ini secara terpadu, menghasilkan percakapan dengan latensi yang jauh lebih rendah. OpenAI juga mengklaim bahwa GPT-4o dapat mendeteksi intonasi emosional dalam suara pengguna, seperti kesedihan, kegembiraan, atau nyanyian.