Meningkatkan Interpretabilitas LLM dengan Evaluation Service Vertex AI

Developer yang memanfaatkan large language model (LLM) sering kali menghadapi dua rintangan besar: mengelola keacakan bawaan dari output dan mengatasi kecenderungan untuk menghasilkan informasi yang salah secara faktual. LLM memang memiliki sedikit ketidakpastian dan menghasilkan respons yang berbeda, bahkan saat diberi perintah yang sama.

Tulisan kali ini akan dibahas cara mengatasi tantangan tersebut dengan memperkenalkan alur kerja baru yang bekerja dengan menghasilkan serangkaian respons LLM dan menggunakan Evaluation Service Vortex AI untuk mengotomatiskan proses pemilihan repsons terbaik. Mari simak bersama!

Langkah 1: Hasilkan respons yang beragam

Photo Credit: Freepik

LLM berbasis dekoder kausal memiliki sedikit keacakan bawaan, yang berarti mengambil sampel setiap kata secara probabilistik. Dengan menghasilkan respons yang sedikit berbeda, maka peluang untuk menemukan kecocokan yang sempurna pun akan lebih besar.

Untuk menerapkannya, biasanya lembaga keuangan menggunakan LLM untuk menghasilkan lima ringkasan berbeda untuk setiap transkrip. Mereka menyesuaikan “suhu” LLM, yang mengendalikan keacakan keluaran, ke kisaran 0,3 hingga 1,0, untuk mendorong jumlah keragaman yang tepat tanpa menyimpang terlalu jauh dari topik. Pendekatan ini akan meningkatkan kemungkinan menemukan ringkasan berkualitas tinggi.

Baca juga: Membangun Aplikasi Gen AI untuk Perusahaan dengan LLM dari Database Google Cloud

Langkah 2: Temukan respons terbaik

Berikutnya muncul kebutuhan untuk menelusuri serangkaian respons yang beragam dan kemudian menentukan respons terbaik. Untuk melakukannya secara otomatis, lembaga keuangan menerapkan pendekatan evaluasi berpasangan yang tersedia di Evaluation Service Vortex AI. Layanan ini mengadu pasangan respons satu sama lain, menilainya berdasarkan instruksi dan konteks asli untuk mengidentifikasi respons yang paling sesuai dengan maksud pengguna.

Baca juga: Google Cloud Directory Sync Kini Menyediakan Setelan Pengelolaan Akun

Langkah 3: Nilai respons yang dihasilkan

Alur kerja kemudian mengambil respons dengan kinerja terbaik dari langkah sebelumnya dan menggunakan layanan evaluasi poin demi poin untuk menilainya. Evaluasi ini menetapkan skor kualitas dan menghasilkan penjelasan yang dapat dibaca pengguna. Proses ini tidak hanya menyoroti respons terbaik tetapi juga memberikan wawasan tentang mengapa model menghasilkan respons tersebut, dan juga mengapa respons ini dianggap lebih unggul daripada respons lainnya, yang menumbuhkan kepercayaan dan transparansi dalam pengambilan keputusan sistem.

Photo Credit: Freepik

Dalam kasus lembaga keuangan, mereka sekarang menggunakan metrik terkait ringkasan dalam evaluasi poin demi poin pada respons yang unggul untuk memperoleh penjelasan tentang bagaimana jawaban ini beralasan, bermanfaat, dan berkualitas tinggi. Kita dapat memilih untuk hanya mengembalikan respons terbaik atau menyertakan metrik kualitas terkait dan penjelasannya untuk transparansi yang lebih baik.

Baca juga: Perlindungan Kebijakan API untuk Menghadapi Era Generative AI

Dengan merangkul variabilitas yang melekat pada LLM dan memanfaatkan Evaluation Service Vortex AI, tantangan dapat diubah menjadi peluang. Menghasilkan respons yang beragam, mengevaluasinya secara sistematis, dan memilih opsi terbaik dengan penjelasan yang jelas akan membantu Anda membuka potensi penuh LLM. Pendekatan ini tidak hanya meningkatkan kualitas dan keandalan keluaran LLM tetapi juga menumbuhkan kepercayaan dan transparansi.

Kemudahan Evaluation Service Vortex AI ini bisa Anda nikmati cukup dengan berlangganan Google Cloud yang kini telah tersedia di EIKON Technology. Untuk informasi lebih lanjut, silakan hubungi kami di sini!

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments