Sering disebut rakus daya, peneliti temukan solusi boros energi mesin LLM

Salah satu tantangan menjalankan mesin Large Language Model adalah penggunaan daya yang besar. Namun, para peneliti ini menemukan cara untuk mengatasinya.

ilustrasi server - pixabay / bsdrouin

Kemampuan dari Large Language Model (model bahasa besar; LLM) yang menggerakkan chatbot seperti ChatGPT, Gemini, dan lainnya memang sangatlah hebat. Namun, dibalik kehebatan kemampuan teknologi tersebut, terdapat biaya yang harus dibayarkan, yakni penggunaan daya yang sangat besar.

Hal ini wajar mengingat untuk mengasah kemampuan LLM, perusahaan harus menggunakan server berukuran besar dengan banyak komponen pendukung. Namun, adakah solusi yang dapat diadopsi para perusahaan untuk mengurangi pengguna daya dari server mereka?

Ternyata, para peneliti dari University of California, Santa Cruz, punya solusinya. Mereka memamerkan bahwa model bahasa modern dengan miliaran parameter dapat beroperasi hanya dengan 13 watt daya tanpa mengurangi kinerjanya.

Ini berarti, penggunaan daya ini sama dengan penggunaan daya lampu 100W, dimana meningkatkan efisiensi daya sebanyak 50 kali jika dibandingkan dengan GPU NVIDIA H100 yang khusus untuk AI, dimana mengkonsumsi 700W.

Baca Juga

Dilansir dari laman Digitaltrends (27/6), para peneliti berhasil mendapatkan efisiensi ini dengan hanya mengubah fundamental cara kerja Neural Network. Mereka menghilangkan matriks perkalian dalam jaringan saraf.

“Kami mendapatkan kinerja yang sama dengan biaya yang jauh lebih rendah — yang harus kami lakukan hanyalah mengubah cara kerja jaringan saraf secara mendasar,” kata penulis utama makalah ini, Jason Eshraghian. “Kemudian kami mengambil langkah lebih jauh dan membangun perangkat keras khusus.”

Sebagai informasi, perkalian matriks adalah dasar dari algoritma yang menggerakkan model bahasa saat ini. Kata-kata direpresentasikan sebagai angka dan dikelompokkan dalam matriks, lalu diberi bobot dan dikalikan satu sama lain untuk menghasilkan output bahasa tergantung pada pentingnya kata-kata tertentu dan hubungan mereka dengan kata-kata lain dalam kalimat atau paragraf.

Matriks-matriks ini disimpan di ratusan GPU fisik yang terpisah dan diambil setiap kali ada permintaan atau operasi baru. Proses mengirim data yang perlu dikalikan di antara banyak matriks memakan banyak daya listrik dan uang.

Untuk mengatasi masalah ini, tim UC Santa Cruz mengubah angka dalam matriks menjadi tiga nilai, setiap angka bernilai negatif satu, nol, atau positif satu. Hal ini memungkinkan prosesor hanya menjumlahkan angka-angka tersebut daripada mengalikannya, perubahan kecil yang tidak memengaruhi algoritma tetapi menghemat biaya perangkat keras secara signifikan.

Tapi, untuk mempertahankan kinerja meskipun jumlah operasi berkurang, tim pengembang memperkenalkan komputasi berbasis waktu ke sistem. Hal ini kemudian menciptakan “memori” untuk jaringan dan meningkatkan kecepatan pemrosesan operasi yang lebih sedikit.

“Dari sudut pandang perancang sirkuit, kita tidak memerlukan biaya tambahan untuk perkalian,” ujar Eshraghian. Meskipun tim tersebut mengimplementasikan jaringan baru ini pada perangkat keras FGPA kustom, mereka yakin banyak perbaikan efisiensi dapat diterapkan pada model yang sudah ada dengan menggunakan perangkat lunak sumber terbuka dan penyesuaian perangkat keras minor.

Bahkan pada GPU standar, tim pengembang melihat pengurangan konsumsi memori sebesar 10 kali lipat sambil meningkatkan kecepatan operasional sebesar 25%.

Dengan produsen chip seperti Nvidia dan AMD terus memperluas batas kinerja prosesor GPU, permintaan daya listrik (dan biaya finansial yang terkait) untuk pusat data yang mengoperasikan sistem ini meningkat pesat.

Seiring dengan peningkatan daya komputasi, juga meningkat produksi panas limbah oleh chip, panas yang sekarang memerlukan sistem pendingin cair yang intensif untuk menghilangkannya sepenuhnya.

CEO Arm, Rene Haas, memperingatkan The Register pada bulan April bahwa pusat data AI dapat mengonsumsi hingga 20-25% dari total output listrik AS pada akhir dekade ini jika tindakan korektif tidak segera diambil.

Tag