Data Mining adalah pengumpulan informasi penting dari data besar. Proses penggalian data biasanya menggunakan metode statistik dan matematika, serta memanfaatkan teknologi kecerdasan buatan.
Nama alternatifnya yaitu Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, dan lain-lain.
Dalam proses KDD yakni melakukan pembersihan data, integrasi data, seleksi data, transformasi, penambangan data, evaluasi pola, dan presentasi pengetahuan.
Fungsi Utama Data Mining
Deskriptif Fungsi deskriptif dalam data mining merupakan fungsi yang digunakan untuk lebih memahami data yang diamati. Harapannya dengan melakukan suatu proses, kamu dapat mengetahui perilaku datanya. Data ini nantinya dapat digunakan untuk mengetahui karakteristik dari data yang dimaksud. selain itu, kamu dapat menemukan beberapa pola tersembunyi dalam data nanti. Dengan kata lain, jika polanya berulang dan bernilai, maka karakteristik datanya dapat diketahui.
Fungsi prediktif adalah bagaimana proses menemukan pola tertentu dalam data. Pola tersebut dapat dilihat dari berbagai variabel yang ada pada data tersebut. Setelah pola ditemukan, pola yang diperoleh dapat digunakan untuk memprediksi variabel lain yang nilai atau tipenya belum diketahui. Inilah mengapa fungsi ini disebut fungsi prediktif dan alasan untuk analisis prediktif. Fungsi ini juga dapat digunakan untuk memprediksi variabel yang tidak ada dalam data. Oleh karena itu, bagi siapa saja yang membutuhkan prediksi yang akurat untuk menyempurnakan hal penting ini, fitur ini dapat dengan mudah diterapkan dan menguntungkan.
Fungsi Data mining yang lainnya yaitu : characterization, discrimination, association, classification, clustering, outlier and trend analysis, dll.
Jenis Data Mining
1. Memory-Based Reasoning
Metode klasifikasi digabungkan dengan penalaran berbasis memori. Proses menggunakan sekumpulan data untuk memprediksi atau menghipotesiskan objek baru yang dapat diperkenalkan. Metode MBR memiliki dua komponen dasar. Yang pertama adalah fungsi kesetaraan, yang mengukur hubungan antara anggota yang sama dari setiap pasangan objek. Yang kedua adalah fungsi kombinasi, yang digunakan untuk menggabungkan hasil dari sekumpulan tetangga untuk sampai pada sebuah keputusan.
2. Cluster Detection
Ada dua metode pengelompokan. Metode pertama didasarkan pada asumsi bahwa ada beberapa cluster dalam data, dan tujuannya adalah memecah data menjadi beberapa cluster. Metode lain adalah pengelompokan aglomerasi, yang mengasumsikan bahwa ada sejumlah kluster yang telah ditentukan, setiap anggota berada di klusternya sendiri, dan menggunakan proses berulang untuk mencoba menggabungkan kluster, meskipun proses penghitungannya sama.
3. Link Analysis
Proses menemukan dan membangun hubungan antar objek dalam dataset juga mencirikan properti yang terkait dengan hubungan antara dua objek. Analisis ini berguna dalam aplikasi analitik yang mengandalkan teori grafik untuk menarik kesimpulan. Selanjutnya, analisis koneksi berguna dalam proses optimasi.
4. Rule Induction
Mengekstrak aturan kausal dari data secara statistik dan mengidentifikasi aturan bisnis yang disimpan dalam data. Metode ini berhubungan dengan induksi aturan yang digunakan dalam proses penemuan. Salah satu cara untuk menemukan aturan adalah dengan menggunakan pohon keputusan.
5. Neural Networks
Model prediktif non-linier belajar melalui pelatihan yang mirip dengan struktur jaringan saraf yang ditemukan dalam biologi. Kemampuan untuk memperoleh makna dari data yang kompleks dan tidak jelas juga dapat digunakan untuk mengekstrak pola dan mendeteksi tren, bahkan yang sangat rumit bagi manusia dan teknologi komputer lainnya.
6. Market Basket Analysis
Market Basket Analysis merupakan proses menganalisis kebiasaan pelanggan dalam menyimpan barang yang akan dibeli di keranjang belanjaannya. Market Basket Analysis menggunakan data transaksi penjualan untuk dianalisis sehingga dapat ditemukan pola berupa barang-barang yang cenderung muncul dalam transaksi pada waktu yang bersamaan. Selain itu, pola yang ditemukan dapat digunakan untuk merancang strategi penjualan atau pemasaran yang efektif, yaitu dengan menempatkan barang yang sering dibeli di area yang berdekatan, merancang tampilan barang dalam katalog, dan merancang kupon diskon, penjualan dalam paket, Dengan begitu, dengan adanya teknik data mining, analisis data manual tidak lagi diperlukan.