Perancangan data warehouse difokuskan pada perancangan arsitektur data warehouse yang berfokus pada penyediaan data sehingga mampu memenuhi kebutuhan informasi penjualan untuk managemen. Cemerlang skin care sebuah klinik yang tersebar dibeberapa kota besar sehingga membutuhkan sebuah sistem yang mampu mengintegrasikan data dari cabang-cabang yang ada dan menyajikan informasi dengan cepat. Data warehouse ini dirancang dengan menerapkan Nine-Step Methodology dari Kimball sehingga data dapat terintegrasi dan mendukung informasi yang bersifat global yang dapat dilihat dari berbagai sudut pandang sebagai solusi dari permasalahan yang ada. Data warehouse, menjadikan data perusahaan yang tersebar menjadi terintegrasi dan ringkas untuk membantu pengguna menganalisis data yang ada untuk pengambilan keputusan yang bersifat strategis secara cepat dan tepat.
Gambar Arsitektur :
Arsitektur data warehouse (lihat gambar di atas) terdiri dari Sumber data, ETL, data mart dan cube. Sumber data, merupakan data operational yang disimpan dalam database, yang akan diproses (ETL) dan diintegrasikan kedalam data warehouse. Sedangkan datamart dan cube berisi data-data yang mendukung fungsi bisnis, seperti yang dikatakan oleh Inmon (2005, p321) datamart adalah sub-set dari data warehouse yang umumnya terdiri dari sebuah subjek tunggal. Jadi, data mart merupakan serangkaian data yang hanya menjelaskan satu fungsi dari operasi perusahaan. Dari gambar tersebut, terlihat aliran data dari operational ke data warehouse, dilanjutkan dengan pengembangan aplikasi (reporting) yang akan digunakan untuk menganalisis dan mengevaluasi bisnis. Seperti apa yang disampaikan oleh Inmon (2005, p35), data mengalir dari lingkungan operasional ke dalam data warehouse dimana data mengalami transformasi dari tingkatan operasional ke tingkatan data warehouse.
ETL (Extract, Transform, Load)
ETL merupakan proses yang sangat penting dalam data warehouse, dengan ETL inilah data dari operational
dapat dimasukkan ke dalam data warehouse. ETL juga dapat digunakan untuk mengintegrasikan data dengan
sistem yang sudah ada sebelumnya (uUntuk lebih jelasnya dapat dilihat pada Gambar 1 diatas).
Tujuan ETL adalah mengumpulkan, menyaring, mengolah, dan menggabungkan data-data yang relevan dari
berbagai sumber untuk disimpan ke dalam data warehouse. Hasil dari proses ETL adalah dihasilkannya data
yang memenuhi kriteria data warehouse seperti data yang historis, terpadu, terangkum, statis, dan memiliki
struktur yang dirancang untuk keperluan proses analisis.
o Extract
Langkah pertama pada proses ETL adalah mengekstrak data dari sumber-sumber data. Kebanyakan proyek data warehouse menggabungkan data dari sumber-sumber yang berbeda. Sistem-sistem yang terpisah sangat mungkin menggunakan format data yang berbeda. Ektraksi adalah mengubah data ke dalam suatu format yang berguna untuk proses transformasi.
o Transform
Tahapan transformasi menggunakan serangkaian aturan atau fungsi untuk mengekstrak data dari sumber dan selanjutnya akan dimasukkan ke data warehouse. Berikut adalah hal-hal yang dapat dilakukan dalam tahapan transformasi:
• Hanya memilih kolom tertentu saja untuk dimasukkan ke dalam data warehouse.
• Menterjemahkan nilai-nilai yang berupa kode.
• Mengkodekan nilai-nilai ke dalam bentuk bebas (Contohnya memetakan “Pria” dengan “P” dan
“Wanita” ke dalam “W”).
• Melakukan perhitungan nilai-nilai baru (Contohnya nilai = qty * harga_satuan).
• Menggabungkan data secara bersama-sama dari berbagai sumber.
• Membuat ringkasan dari sekumpulan baris data.
• Men-generate nilai surrogate key.
• Transposing atau pivoting (Mengubah sekumpulan kolom menjadi sekumpulan baris atau sebaliknya).
• Memisahkan sebuah kolom menjadi berbagai kolom.
• Menggunakan berbagai bentuk validasi data baik yang sederhana maupun kompleks.
o Load
Fase load merupakan tahapan yang berfungsi untuk memasukkan data ke dalam target akhir, yang biasanya ke dalam suatu data warehouse. Jangka waktu proses ini tergantung pada kebutuhan organisasi. Beberapa data warehouse dapat setiap minggu mengisi keseluruhan informasi yang ada secara kumulatif, data diubah, sementara data warehouse yang lain (atau bagian lain dari data warehouse yang sama) dapat menambahkan data baru dalam suatu bentuk yang historikal, contohnya setiap jam. Waktu dan jangkauan untuk mengganti atau menambah data tergantung dari perancangan data warehouse pada waktu menganalisis keperluan informasi.
Fase load berinteraksi dengan suatu database, constraint didefinisikan dalam skema database sebagai suatu trigger yang diaktifkan pada waktu me-load data (Contohnya uniqueness, referential integrity, mandatory fields), yang juga berkontribusi untuk keseluruhan tampilan dan kualitas data dari proses ETL.
Masalah-masalah yang terjadi dalam ETL adalah sumber-sumber data umumnya sangat bervariasi diantaranya:
Masalah-masalah yang terjadi dalam ETL adalah sumber-sumber data umumnya sangat bervariasi diantaranya:
o Platform mesin dan sistem operasi yang berlainan.
o Mungkin melibatkan sistem kuno dengan teknologi basis data yang sudah ketinggalan zaman.
o Kualitas data yang berbeda-beda.
o Aplikasi sumber data mungkin menggunakan nilai data (representasi) internal yang sulit dimengerti.