EIKON Technology

pipeline

Google Cloud

Membangun Pipeline Data Streaming di Google Cloud

Banyak pelanggan membangun saluran data streaming untuk menyerap, memproses, dan kemudian menyimpan data untuk dianalisis. Di Google Cloud, desain umum pipeline terdiri dari tiga langkah: Sumber data mengirim pesan dengan data ke topik Pub/Sub. Pub/Sub menyangga pesan dan meneruskannya ke komponen pemrosesan. Setelah diproses, komponen pemrosesan menyimpan data di BigQuery. Untuk komponen pemrosesan, terdapat tiga alternatif, mulai dari dasar hingga lanjutan: langganan BigQuery, layanan Cloud Run, dan pipeline Dataflow. Mari simak ulasannya berikut. Contoh penerapan Photo Credit: Google Cloud Blog Tiga alternatif pemrosesan Artikel ini akan membahas cara melakukan pemrosesan menggunakan tiga opsi berikut: Langganan BigQuery, solusi pass-through tanpa kode yang menyimpan pesan tidak berubah dalam set data BigQuery. Layanan Cloud Run, untuk pemrosesan pesan individual yang ringan tanpa agregasi. Pipeline Dataflow, untuk pemrosesan lanjutan. Mari simak pembahasan untuk masing-masing pendekatan di bawah ini: Menyimpan data tidak berubah menggunakan langganan BigQuery Photo Credit: Google Cloud Blog Pendekatan pertama adalah yang paling mudah. Anda dapat mengalirkan pesan dari topik Pub/Sub langsung ke set data BigQuery menggunakan langganan BigQuery. Gunakan saat Anda menyerap pesan dan tidak perlu melakukan pemrosesan apa pun sebelum menyimpan data. Saat menyiapkan langganan baru untuk suatu topik, pilih opsi Write to BigQuery, seperti yang ditampilkan di sini: Photo Credit: Google Cloud Blog Detail tentang bagaimana langganan ini diimplementasikan sepenuhnya dipisahkan dari pengguna. Artinya, tidak ada cara untuk mengeksekusi kode apa pun pada data yang masuk. Ini adalah solusi tanpa kode, Anda tidak dapat menerapkan pemfilteran pada data sebelum disimpan. Baca juga: Mengintip Layanan Baru Google Cloud: Tawarkan Fleksibilitas Tinggi bagi Pengguna Memproses pesan satu per satu menggunakan Cloud Run Gunakan Cloud Run jika Anda memang perlu melakukan beberapa pemrosesan ringan pada masing-masing pesan sebelum menyimpannya. Misalnya, mengkanonikalisasi format data, di mana setiap sumber data menggunakan format dan bidangnya sendiri, tapi Anda ingin menyimpan data dalam satu format data. Photo Credit: Google Cloud Blog Pertimbangkan untuk menggunakan Cloud Run sebagai komponen pemrosesan dalam pipeline, jika: Anda dapat memproses pesan satu per satu, tanpa memerlukan pengelompokan dan penggabungan pesan. Anda lebih suka menggunakan model pemrograman umum daripada menggunakan SDK khusus. Anda sudah menggunakan Cloud Run untuk melayani aplikasi web dan lebih memilih arsitektur solusi yang konsisten dan simpel. Baca juga: Melihat Contoh Penerapan Google Distributed Cloud Edge Appliance Pemrosesan lanjutan dan agregasi pesan menggunakan Dataflow Cloud Dataflow, layanan yang terkelola sepenuhnya untuk mengeksekusi pipeline Apache Beam di Google Cloud, telah lama menjadi landasan pembangunan pipeline streaming di Google Cloud. Ini adalah pilihan yang baik bagi pipeline yang menggabungkan kelompok data untuk mengurangi data dan yang memiliki beberapa langkah pemrosesan. Dalam aliran data, pengelompokan dilakukan dengan menggunakan windowing. Fungsi windowing mengelompokkan koleksi tak terbatas berdasarkan time stamp. Ada beberapa strategi windowing yang tersedia, yaitu fixed, sliding, dan session windowing. Dataflow memiliki dukungan bawaan untuk menangani data yang terlambat. Data terlambat masuk saat jendela telah ditutup, dan Anda mungkin ingin membuang data tersebut atau memulai penghitungan ulang. Pendekatan mana yang sebaiknya dipilih? Photo Credit: Google Cloud Blog Ketiga pendekatan di atas memiliki kemampuan dan tingkat kerumitan yang berbeda. Dataflow adalah opsi paling andal dan paling kompleks, yang mengharuskan pengguna menggunakan SDK khusus (Apache Beam) untuk membangun pipeline mereka. Di sisi lain, langganan BigQuery tidak mengizinkan logika pemrosesan apa pun dan dapat dikonfigurasi menggunakan konsol web. Memilih alat yang paling sesuai dengan kebutuhan akan membantu Anda mendapatkan hasil yang lebih baik dengan lebih cepat. Baca juga: Mengoptimalkan Penggunaan BigQuery BI Engine Untuk pipeline besar (Skala Spotify), atau saat Anda perlu mengurangi data menggunakan windowing, atau memiliki multi-step pipeline yang rumit, pilih Dataflow. Dalam semua kasus lainnya, memulai dengan Cloud Run adalah yang terbaik, kecuali jika Anda sedang mencari solusi tanpa kode untuk menghubungkan Pub/Sub ke BigQuery. Dalam hal ini, pilih langganan BigQuery. Biaya adalah faktor lain yang perlu dipertimbangkan. Cloud Dataflow menerapkan penskalaan otomatis, tetapi tidak akan menskalakan ke instance nol jika tidak ada data yang masuk. Untuk beberapa tim, ini adalah alasan memilih Cloud Run daripada Dataflow. Untuk rangkuman dari ketiga pendekatan tersebut, Anda bisa melihat tabel berikut: Photo Credit: Google Cloud Blog Google Cloud menyediakan solusi menyeluruh untuk membangun pipeline data streaming yang dapat Anda sesuaikan dengan kebutuhan dan bujet. Mulai nikmati berbagai kemudahan Cloud dengan berlangganan melalui EIKON Technology. Sebagai partner resmi Google Cloud Indonesia, kami menyediakan solusi bergaransi disertai dengan implementasi menyeluruh. Untuk informasi lebih lanjut, silakan klik di sini!

Info

Memahami 6 Prinsip Penyerapan Data Google Cloud

Transformasi digital membuat penyimpanan silo data beralih pada gudang data berbasis cloud, salah satunya dengan Google Cloud. Hal ini membuat kolaborasi antar unit bisnis serta akses data menjadi lebih mudah. Meski begitu, kemudahan ini juga disertai dengan problem baru yang berkaitan dengan penyerapan data.  Dengan terbukanya data dari berbagai unit bisnis, mau tak mau Anda harus mengembangkan pipeline untuk penyerapan data. Tanpa adanya pipeline ini, data hanya sekadar terbuka tanpa bisa diolah dan dikembangkan. Mengembangkan cloud pipeline, terutama yang berbasis cloud lokal, akan menyerap banyak data ke gudang data cloud Anda tanpa adanya hambatan yang berarti. Google melalui Google Cloud memiliki 6 prinsip yang bisa Anda terapkan dalam perancangan pipeline untuk penyerapan data. Mari simak pembahasannya berikut ini. Perjelas tujuan Anda Photo Credit: Rawpixel Sebelum mengembangkan pipeline untuk penyerapan data, buatlah tujuan yang sejelas mungkin. Anda bisa mulai dengan membuat gambaran mengenai hasil akhir yang ingin dicapai. Perlu diingat, pipeline hanyalah jalan untuk menuju garis akhir Anda dan bukan garis akhir itu sendiri. Katakanlah Anda menginginkan agar “bisa mendapat pemahaman yang lebih baik tentang pelanggan”. Coba buat lebih jelas dengan menentukan siapa subjek yang harus bisa “mendapat pemahaman” dan bagaimana cara untuk “mendapat pemahaman tersebut”. Dengan runtutan berpikir seperti ini, Anda bisa membuat tujuan yang lebih detail dan tentunya lebih relevan dengan pipeline penyerapan data. Rancangan tujuan awal tersebut pun kemudian akan berubah menjadi, “agar tim pengolah data bisa mendapat pemahaman yang lebih baik tentang pelanggan dengan menyediakan akses ke data CRM.” Bangun tim Anda Berikutnya, bangun tim Anda. Pastikan Anda memilih orang dengan skill yang tepat, entah itu memiliki keahlian untuk mengembangkan, menerapkan, maupun memelihara data pipeline perusahaan. Bagaimana cara terbaik untuk membangun tim yang handal? Pelajari kembali tujauan Anda. Dari tujuan tersebut Anda bisa punya gambaran mengenai apa saja persyaratan yang diperlukan pipeline penyerapan data perusahaan. Persyaratan tersebut akan membantu Anda untuk mengidentifikasi SDM yang diperlukan sekaligus memperkirakan potensi kelemahan yang memerlukan dukungan tambahan dari pihak ketiga di luar perusahaan. Efisiensi waktu Photo Credit: Rawpixel Dalam mengembangkan pipeline untuk penyerapan data Anda juga harus mempertimbangkan efisiensi waktu. Coba hitung beban pemeliharaan jangka panjang dari pipeline penyerapan data Anda sebelum mengembangkan dan menerapkannya. Langkah ini akan membantu Anda untuk menerapkan pipeline yang efisien dan layak. Google Cloud merekomendasikan beberapa pendekatan untuk membangun pipeline yang efisien: Memanfaatkan produk penyerapan data berbasis interface dari Google Cloud. Dengan menggunakan produk semacam ini, Anda bisa mengurangi jumlah kode yang memerlukan pemeliharaan sekaligus mengurangi waktu pengembangan jalur pipeline. Beberapa produk yang bisa Anda pertimbangkan adalah Google Data Transfer Service serta Fivetran untuk mengelola pipeline penyerapan data dengan aplikasi SaaS. Gunakan template kode yang tersedia saat produk penyerapan data berbasis interface tidak mencukupi. Anda bisa menggunakan template yang tersedia untuk Dataflow. Template tersebut akan memungkinkan Anda untuk menentukan variabel dengan mudah dan hemat waktu. Jika kedua opsi di atas masih belum membantu, gunakan layanan untuk menerapkan kode pada pipeline Anda. Beberapa layanan tersebut di antaranya adalah Dataflow dan Dataproc. Cara ini akan mengurangi biaya operasional pengelolaan konfigurasi pipeline. Meningkatkan kepercayaan dan transparansi data Prinsip keempat dari Google Cloud terkait dengan penyerapan data adalah meningkatkan kepercayaan dan transparansi data. Meningkatkan kepercayaan dan transparansi bisa dilakukan dengan mengawasi serta mengelola pipeline pada seluruh tools yang Anda gunakan. Adanya banyak pipeline terkadang mengharuskan Anda untuk menerapkan beberapa alat yang berbeda. Sayangnya, hal ini bisa menyebabkan overhead manajemen pipeline karena jumlah jalur terus meningkat. Akan menjadi semakin rumit jika Anda memperhitungkann persyaratan untuk mengawasi saluran data. Anda bisa memanfaatkan layanan monitoring seperti Google Cloud Monitoring Service atau Splunk yang dapat menjalankan metrics, events, serta pengumpulan metadata dari beragam produk secara otomatis. Mengelola biaya Photo Credit: Rawpixel Menurut Google Cloud, ada beberapa faktor yang harus dipertimbangkan terkait pengelolaan biaya yaitu: Memilih tools: Tiap jalur pipeline penyerapan data memiliki aturan tersendiri mengenai tingkat latensi, waktu aktif, hingga transformasi. Masing-masing jalur akan memiliki kecocokan dengan tools tertentu. Pastikan Anda memilih tools yang sesuai dengan masing-masing pipeline agar penggunaannya efisien. Terapkan pengendalian biaya: Apabila memang tersedia, jangan ragu untuk manfaatkan layanan pengendalian biaya untuk mencegah kesalahan yang menyebabkan biaya tambahan tak terduga. Catat pengeluaran cloud: Selalu catat pengeluaran Anda untuk seluruh pemanfaatan sumber daya cloud. Dengan begitu, Anda bisa memahami tiap perubahan dalam pembelanjaan cloud dan korelasinya dengan dinamika bisnis perusahaan. Manfaatkan layanan yang terus ditingkatkan Layanan Google Cloud secara konsisten melakukan peningkatan kinerja dan stabilitasnya. Dengan memanfaatkan peningkatan tersebut, pipeline data Anda bisa bekerja dengan optimal dan bahkan lebih efisien. Cara termudah untuk merasakan manfaat dari layanan ini adalah melakukan otomatisasi terhadap manajemen pipeline Anda. Dengan begitu, Anda bisa mengurangi biaya operasional dari setiap jalur pipeline. Merancang pipeline yang efisien untuk penyerapan data memang tidak mudah, terlebih jika penyimpanan data Anda begitu luas. Anda bisa menerapkan prinsip pengelolaan pipeline dari Google Cloud di atas untuk membuat sekaligus mengelola pipeline dengan lebih optimal. Seluruh tools manajemen pipeline bisa Anda nikmati dengan berlangganan Google Cloud official. Anda bisa berlangganan layanan Google Cloud yang resmi melalui EIKON Technology. EIKON Technology sendiri merupakan official partner Google di Indonesia. Klik di sini untuk terhubung langsung dengan tim EIKON Technology.

Scroll to Top