Language Large Models (LLMs) seperti OpenAI GPT-3 telah memenangkan hati para peneliti dengan kemampuannya menghasilkan teks mirip manusia dalam berbagai bentuk, dari puisi hingga kode pemrograman.
Jaringan syaraf tiruan (JST) yang dilatih menggunakan sekumpulan data dapat memprediksi teks yang mengikuti masukan yang diberikan.
Namun menurut balitteknologikaret.co.id, pada dasarnya, inovasi terbaru dalam pembelajaran mesin jauh melampaui itu. Ini adalah fenomena pembelajaran kontekstual di mana model bahasa besar dapat mempelajari cara menyelesaikan tugas baru tanpa memperbarui parameter.
Sebuah terobosan dalam pembelajaran mesin, pembelajaran konteks memungkinkan model bahasa besar untuk mempelajari tugas baru tanpa melalui proses pelatihan ulang. Sebaliknya, ia mempelajari tugas menggunakan informasi yang diberikan dalam bentuk besar itu sendiri.
Model bahasa besar dari ChatGPT ini dapat menerapkan algoritme pembelajaran sederhana untuk melatih model linier yang lebih kecil di dalamnya untuk menyelesaikan tugas baru.
Di sisi lain, parameter model yang lebih besar tetap sama, membuat proses pelatihan ini sangat efisien.
Ekin Akyurek, seorang mahasiswa pascasarjana ilmu komputer dan penulis utama makalah “Algoritma Pembelajaran Apa Itu Pembelajaran Konteks? Investigasi Menggunakan Model Linier”, mengeksplorasi fenomena ini bersama para peneliti dari MIT, Google Research, dan Stanford University.
Mereka menekankan pentingnya memahami pembelajaran kontekstual dan percaya bahwa pemahaman yang lebih baik tentang pembelajaran kontekstual akan memungkinkan model menyelesaikan tugas baru tanpa pelatihan ulang, proses yang seringkali mahal.
Apa yang membuat model bahasa begitu bagus dalam pembelajaran kontekstual adalah bagaimana mereka dilatih. Misalnya, GPT-3 memiliki ratusan miliar parameter dan dilatih dengan membaca teks dalam jumlah besar dari miliaran situs web di internet.
Alih-alih meminta model mempelajari cara melakukan tugas baru, kami meminta model mengulangi pola yang dilihatnya selama proses pelatihan. Akyurek dan rekan-rekannya percaya bahwa pembelajaran kontekstual tidak hanya cocok dengan pola yang telah dilihat model sebelumnya, tetapi juga belajar bagaimana melakukan tugas-tugas baru.
Untuk menguji hipotesis ini, para peneliti menggunakan model jaringan saraf yang disebut adaptor, yang memiliki arsitektur mirip dengan GPT-3 tetapi dilatih khusus untuk pembelajaran kontekstual.
Evaluasi teoretis dari arsitektur transformator menunjukkan bahwa model linier dapat dibangun dalam keadaan tersembunyi transformator, yaitu di lapisan antara lapisan input dan output.
Adaptor kemudian dapat memperbarui model linier dengan menerapkan algoritme pembelajaran yang lebih sederhana serta mensimulasikan dan melatih versi yang lebih kecil dari dirinya sendiri.
Eksperimen eksplorasi dilakukan untuk memulihkan solusi model linier dalam lapisan tersembunyi transformator. Akibatnya, terungkap bahwa parameter tersebut sebenarnya ditulis dalam keadaan tersembunyi.
Pekerjaan teoretis di bidang ini dapat mengarah pada pengembangan transduser yang dapat belajar dari konteks dengan menambahkan hanya dua lapisan ke jaringan saraf.
Peneliti percaya bahwa pembelajaran kontekstual memiliki potensi besar untuk pembelajaran mesin karena dapat membuat proses pembelajaran menjadi lebih efisien dan hemat biaya. Investigasi di masa depan tentang hal ini dapat mengarah pada eksplorasi lebih lanjut dari algoritme pembelajaran yang berlaku untuk model besar.
Dengan kata lain, fenomena pembelajaran situasional dalam model bahasa berskala besar seperti GPT-3 sangat menjanjikan untuk masa depan pembelajaran mesin.
Dengan pemahaman yang lebih baik tentang proses ini, peneliti dapat mengaktifkan model untuk menyelesaikan tugas baru tanpa pelatihan ulang, menjadikan proses pembelajaran lebih efisien dan hemat biaya.