Pra-pemrosesan dan transformasi data mentah menjadi features merupakan langkah penting namun memakan waktu dalam proses machine learning (ML). Terutama ketika seorang data scientist harus memindahkan data. Dalam artikel ini, Anda dapat menyimak tentang bagaimana BigQuery ML dapat menyederhanakan proses tersebut dengan menambahkan dua kemampuan rekayasa fitur.
Fitur Data Preprocessing BigQuery ML
Photo Credit: Freepik
Bulan Oktober 2022 lalu, BigQuery ML meluncurkan beberapa fungsi rekayasa fitur lanjutan. Fitur-fitur tersebut akan membantu mereka untuk menghitung, menormalkan, hingga encode data. Dengan memanfaatkan fitur-fitur ini, tahapan prapemrosesan data pun menjadi lebih cepat dan aman.
Berikut adalah beberapa fitur yang diluncurkan BigQuery ML dalam rilisan tersebut:
- ML.MAX_ABS_SCALER
Menskalakan kolom numerik ke range [-1, 1] tanpa pemusatan dengan nilai absolut maksimum.
- ML.ROBUST_SCALER
Skala kolom numerik dengan memusatkan median (opsional) dan membaginya dengan quantile range pilihan ([25, 75] secara default).
- ML.NORMALIZER
Mengubah input numerical array menjadi unit norm array untuk p-norm apa pun: 0, 1, >1, +inf. Standarnya adalah 2, menghasilkan array yang dinormalisasi di mana jumlah kuadratnya adalah 1.
- ML.IMPUTER
Mengganti nilai yang hilang dalam input numerik atau kategori dengan rata-rata, median, atau mode (paling sering).
- ML.ONE_HOT_ENCODER
One-hot encode input kategori. Selain itu, fitur ini secara opsional melakukan dummy encoding dengan menghilangkan nilai yang paling sering. Dimungkinkan juga untuk membatasi ukuran pengkodean dengan menentukan k untuk k kategori yang paling sering dan/atau ambang batas yang lebih rendah untuk frekuensi kategori.
- ML.LABEL_ENCODER
Enkode input kategori ke nilai integer [0, n kategori] di mana 0 mewakili NULL dan kategori yang dikecualikan. Anda dapat mengecualikan kategori dengan menentukan k untuk k kategori yang paling sering dan/atau ambang batas yang lebih rendah untuk frekuensi kategori.
Baca juga: Mengenal Fitur Log Analytics dari Cloud Logging yang Telah Didukung oleh BigQuery
Ekspor model dengan TRANSFORM Statement
Anda kini dapat mengekspor model BigQuery ML yang menyertakan statemen feature TRANSFORM. Kemampuan untuk menyertakan statemen TRANSFORM membuat model lebih portabel saat mengekspornya untuk prediksi online. Kemampuan ini juga berfungsi saat model BigQuery ML didaftarkan dengan Vertex AI Model Registry dan diterapkan ke end point Vertex AI Prediction. Fitur baru ini tersedia melalui Google Cloud Console, BigQuery API, dan client libraries.
Baca juga: Pengalaman Terpadu Log Gmail di BigQuery, Seperti Apa?
Kemudahan prepemrosesan data dengan BigQuery ML
Photo Credit: Freepik
Dengan fungsi prapemrosesan baru dari BigQuery ML ini, Anda dapat menyederhanakan eksplorasi data dan prapemrosesan feature. Selanjutnya, dengan menyematkan prapemrosesan dalam pelatihan model menggunakan statemen TRANSFORM, proses penyajian disederhanakan dengan menggunakan model yang sudah disiapkan tanpa memerlukan langkah tambahan.
Dengan kata lain, prediksi dilakukan langsung di dalam BigQuery atau sebagai alternatif, model dapat diekspor ke lokasi mana pun di luar BigQuery seperti Vertex AI Prediction untuk penayangan online. Untuk mempelajari cara kerja fitur Data Praprocessing BigQuery ML, Anda dapat mengunjungi halaman tutorial ini.
Baca juga: 3 Fitur Rahasia BigQuery untuk Kelola Data Lebih Baik
Memanfaatkan fitur Data Praprocessing dari BigQuery ML ini pengguna dapat menyederhanakan proses eksplorasi data secara mudah dan aman. BigQuery ML sendiri merupakan sebuah solusi yang dihadirkan Google Cloud untuk memanggil model ML pada data terstruktur hanya dengan menggunakan SQL.
Mulai perjalanan transformasi cloud Anda dengan Google Cloud yang kini telah tersedia di EIKON Technology. Sebagai partner Google Cloud Indonesia, kami menghadirkan produk resmi bergaransi yang disertai dengan konsultasi untuk memastikan penerapan yang mulus dan aman. Informasi lebih lanjut mengenai cara berlangganan, silakan hubungi kami di sini!