Dataplex merupakan sebuah data fabric cerdas yang berfungsi untuk mengelola, memantau, dan mengatur seluruh data yang tersebar di data lake, data warehouse, dan data mart secara terpusat. Dengan begitu, data tersebut dapat diakses ke berbagai alat data science secara aman, tanpa hambatan.
Dengan memanfaatkan Dataplex, perusahaan bisa mendelegasikan kepemilikan, penggunaan, sekaligus berbagi data kepada rekanan bisnis mereka sambil tetap memiliki single pane of glass. Jadi perusahaan bisa tetap konsisten memantau dan mengatur data di berbagai domain yang mereka miliki.
Photo Credit: Google Cloud Blog
Bukan hanya itu, Dataplex juga dilengkapi dengan kecerdasan buatan (AI) sehingga dapat melakukan otomatisasi penemuan data, manajemen siklus hidup data, dan kualitas data, sehingga memungkinkan produktivitas data dan mempercepat analitik. Artikel kali ini akan membahas salah satu kasus penggunaan utama Dataplex, yaitu membangun arsitektur data mesh. Bagaimana langkah-langkahnya?
Mengenal data mesh
Arsitektur data mesh pertama kali diperkenalkan oleh Zamak Deghani dalam sebuah artikel di website Martin Fowler. Dalam tulisannya, Deghani menjelaskan bahwa tumpukan data modern yang bergerak menjauh dari data lake monolitik ke arsitektur domain terdistribusi yang memungkinkan otonomi kepemilikan data mampu memberikan kelincahan.
Sebab, domain yang terdesentralisasi memberikan kemampuan manajemen data sekaligus mampu mengatur dan memantau data secara terpusat di seluruh domain. Penjelasan lebih lanjut bisa disimak dalam whitepaper data mesh berikut.
Baca juga: Memanfaatkan Google Cloud untuk Menyusun Proyek Data Science
Membuat data mesh dengan Google Cloud
Dataplex menyediakan sebuah platform manajemen data untuk membangun domain data independent dalam data mesh yang mencakup perusahaan Anda sambil tetap mempertahankan kontrol pusat untuk mengatur dan memantau data di seluruh domain dengan mudah. Katakanlah Anda memiliki domain seperti contoh berikut:
Photo Credit: Google Cloud Blog
Dengan Dataplex, Anda bisa mengatur data dan artefak terkait seperti buku catatan, kode, dan bahkan log ke dalam Dataplex Lake yang mewakili domain data. Seluruh data dalam domain tertentu sebagai kumpulan Aset Dataplex dalam data lake bisa dibuat model tanpa memindahkan data secara fisik atau menyimpannya ke dalam sistem penyimpanan tunggal.
Data lake dan data zone di Dataplex memungkinkan Anda untuk menyatukan data terdistribusi dan mengaturnya berdasarkan konteks bisnis. Ini membentuk dasar untuk mengelola metadata, menyiapkan kebijakan tata kelola, memantau kualitas data, dan sebagainya, memberi Anda kemampuan untuk mengelola data dalam skala besar.
Photo Credit: Google Cloud Blog
- Menemukan metadata di seluruh sumber data secara otomatis
Dataplex menyediakan manajemen metadata dan katalogisasi yang memungkinkan semua anggota domain untuk dengan mudah mencari, menelusuri, dan menemukan tabel dan kumpulan file serta menambahkannya dengan semantik khusus. Setelah data ditambahkan, Dataplex secara otomatis mengekstrak metadata terkait dan terus memperbaruinya.
- Mengaktifkan interoperabilitas alat
Metadata yang dikurasi oleh Dataplex secara otomatis tersedia sebagai runtime metadata untuk mendukung analitik sumber terbuka gabungan melalui Apache SparkSQL, HiveQL, Presto, dan sebagainya.
- Kelola data dalam skala besar
Dataplex memungkinkan administrator dan pengelola data mengatur kebijakan data IAM mereka secara konsisten dan terukur untuk mengontrol akses data di seluruh data terdistribusi. Ini memberikan kemampuan untuk mengelola data secara terpusat di seluruh domain sambil memungkinkan kepemilikan data yang otonom dan didelegasikan.
- Aktifkan akses ke data berkualitas tinggi
Dataplex menyediakan aturan kualitas data bawaan yang dapat memunculkan gangguan pada data. Anda bisa menjalankan aturan untuk memastikan kualitas data di seluruh data yang ada di BigQuery dan Google Cloud Storage.
- Eksplorasi data sekali klik
Dataplex membantu para insinyur data, ilmuwan data, dan analis data dengan pengalaman eksplorasi data bawaan, self-serve, dan tanpa server untuk menjelajahi data dan metadata secara interaktif, mengembangkan skrip secara iterated, dan menyebarkan serta memantau beban kerja manajemen data.
Ini menyediakan manajemen konten di seluruh skrip SQL dan Jupyter notebook yang memudahkan untuk membuat artefak kode khusus domain dan membagikan atau menjadwalkannya dari antarmuka yang sama.
- Manajemen data
Anda juga dapat memanfaatkan tugas manajemen data bawaan yang menangani tugas-tugas umum seperti tiering, pengarsipan atau penyempurnaan data. Hal ini terintegrasi dengan tools data asli Google Cloud seperti Dataproc Serverless, Dataflow, Data Fusion, dan BigQuery untuk menyediakan platform pengelolaan data terintegrasi.
Baca juga: Penerapan Keamanan Zero Trust Pada Workload dengan GKE, Traffic Director, dan CA Service
Dengan kumpulan data, metadata, kebijakan, kode, infrastruktur analitik interaktif dan produksi, dan pemantauan data. Dataplex memberikan proposisi nilai inti dari data mesh, yakni data sebagai produk.
Dataplex merupakan sebuah data fabric cerdas yang menyatukan data dari berbagai domain. Untuk bisa mengoptimalkan fungsi Dataplex saat membangun data mesh, ada baiknya Anda memanfaatkan integrasinya dengan Google Cloud. Dapatkan solusi komputasi awan dari Google Cloud yang disesuaikan dengan kebutuhan perusahaan Anda melalui EIKON Technology, partner resmi Google untuk Indonesia. Informasi lebih lanjut, silakan klik di sini!