Data Mining
Tugas Pengantar Teknologi Informasi Prodi Sistem Informasi UNIDHA
pengertian,
Fungsi, Proses dan Tahapan Data Mining
Pengertian
Data Mining
Ilustrasi Data Mining
|
Data
Mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan
buatan, machine
learning untuk
mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan
yang terkait dari berbagai database besar (Turban dkk. 2005). Terdapat beberapa
istilah lain yang memiliki makna sama dengan data mining, yaitu Knowledge discovery in
databases (KDD),
ekstraksi pengetahuan (knowledge
extraction),
Analisa data/pola (data/pattern
analysis),
kecerdasan bisnis (business
intelligence) dan data
archaeology dan data dredging (Larose, 2005)
Kemampuan Data mining untuk mencari informasi bisnis yang berharga dari basis data yang sangat besar, dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya, teknologi ini dipakai untuk :
Kemampuan Data mining untuk mencari informasi bisnis yang berharga dari basis data yang sangat besar, dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya, teknologi ini dipakai untuk :
- Prediksi
trend dan sifat-sifat bisnis, dimana data mining mengotomatisasi proses
pencarian informasi pemprediksi di dalam basis data yang besar.
- Penemuan
pola-pola yang tidak diketahui sebelumnya, dimana data mining menyapu
basis data, kemudian mengidentifikasi pola-pola yang sebelumnya
tersembunyi dalam satu sapuan.
- Data
mining berguna untuk membuat keputusan yang kritis, terutama dalam
strategi.
Berikut ini beberapa definisi data mining dari beberapa sumber (Larose, 2005):
- Data mining adalah proses menemukan sesuatu
yang bermakna dari suatu korelasi baru, pola dan tren yang ada dengan cara
memilah-milah data berukuran besar yang disimpan dalam repositori,
menggunakan teknologi pengenalan pola serta teknik matematika dan
statistik.
- Data mining adalah analisis pengamatan
database untuk menemukan hubungan yang tidak terduga dan untuk meringkas
data dengan cara atau metode baru yang dapat dimengerti dan bermanfaat
kepada pemilik data.
- Data mining merupakan bidang ilmu
interdisipliner yang menyatukan teknik pembelajaran dari mesin (machine
learning), pengenalan pola (pattern recognition), statistik, database, dan
visualisasi untuk mengatasi masalah ekstraksi informasi dari basis data
yang besar.
- Data mining diartikan sebagai suatu proses
ekstraksi informasi berguna dan potensial dari sekumpulan data yang
terdapat secara implisit dalam suatu basis data.
Fungsi Data Mining
Data
mining mempunyai fungsi yang penting untuk membantu mendapatkan informasi yang
berguna serta meningkatkan pengetahuan bagi pengguna. Pada dasarnya, data
mining mempunyai empat fungsi dasar yaitu:
- Fungsi Prediksi (prediction). Proses untuk menemukan pola
dari data dengan menggunakan beberapa variabel untuk memprediksikan
variabel lain yang tidak diketahui jenis atau nilainya.
- Fungsi Deskripsi (description). Proses untuk menemukan suatu
karakteristik penting dari data dalam suatu basis data.
- Fungsi Klasifikasi (classification). Klasifikasi merupakan suatu
proses untuk menemukan model atau fungsi untuk menggambarkan class atau
konsep dari suatu data. Proses yang digunakan untuk mendeskripsikan data
yang penting serta dapat meramalkan kecenderungan data pada masa
depan.
- Fungsi Asosiasi (association). Proses ini digunakan untuk
menemukan suatu hubungan yang terdapat pada nilai atribut dari sekumpulan
data.
Proses
Data Mining
Proses
yang umumnya dilakukan oleh data mining antara lain: deskripsi, prediksi,
estimasi, klasifikasi, clustering dan asosiasi. Secara rinci proses data mining
dijelaskan sebagai berikut (Larose, 2005):
a.
Deskripsi
Deskripsi
bertujuan untuk mengidentifikasi pola yang muncul secara berulang pada suatu
data dan mengubah pola tersebut menjadi aturan dan kriteria yang dapat mudah
dimengerti oleh para ahli pada domain aplikasinya. Aturan yang dihasilkan harus
mudah dimengerti agar dapat dengan efektif meningkatkan tingkat pengetahuan
(knowledge) pada sistem. Tugas deskriptif merupakan tugas data mining yang
sering dibutuhkan pada teknik postprocessing untuk melakukan validasi dan
menjelaskan hasil dari proses data mining. Postprocessing merupakan proses yang
digunakan untuk memastikan hanya hasil yang valid dan berguna yang dapat digunakan
oleh pihak yang berkepentingan.
b.
Prediksi
Prediksi
memiliki kemiripan dengan klasifikasi, akan tetapi data diklasifikasikan
berdasarkan perilaku atau nilai yang diperkirakan pada masa yang akan datang.
Contoh dari tugas prediksi misalnya untuk memprediksikan adanya pengurangan
jumlah pelanggan dalam waktu dekat dan prediksi harga saham dalam tiga bulan
yang akan datang.
c.
Estimasi
Estimasi
hampir sama dengan prediksi, kecuali variabel target estimasi lebih ke arah
numerik dari pada ke arah kategori. Model dibangun menggunakan record lengkap
yang menyediakan nilai dari variabel target sebagai nilai prediksi.
Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target
dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan
estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur
pasien, jenis kelamin, berat badan, dan level sodium darah. Hubungan antara
tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran
akan menghasilkan model estimasi.
d.
Klasifikasi
Klasifikasi
merupakan proses menemukan sebuah model atau fungsi yang mendeskripsikan dan
membedakan data ke dalam kelas-kelas. Klasifikasi melibatkan proses pemeriksaan
karakteristik dari objek dan memasukkan objek ke dalam salah satu kelas yang
sudah didefinisikan sebelumnya.
e. Clustering
Clustering
merupakan pengelompokan data tanpa berdasarkan kelas data tertentu ke dalam
kelas objek yang sama. Sebuah kluster adalah kumpulan record yang memiliki
kemiripan suatu dengan yang lainnya dan memiliki ketidakmiripan dengan record
dalam kluster lain. Tujuannya adalah untuk menghasilkan pengelompokan objek
yang mirip satu sama lain dalam kelompok-kelompok. Semakin besar kemiripan
objek dalam suatu cluster dan semakin besar perbedaan tiap cluster maka
kualitas analisis cluster semakin baik.
f.
Asosiasi
Tugas
asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu
waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja (market
basket analisys). Tugas asosiasi berusaha untuk mengungkap aturan untuk
mengukur hubungan antara dua atau lebih atribut.
Tahapan
Data Mining
Tahapan
yang dilakukan pada proses data mining diawali dari seleksi data dari data
sumber ke data target, tahap preprocessing untuk memperbaiki kualitas data,
transformasi, data mining serta tahap interpretasi dan evaluasi yang
menghasilkan output berupa pengetahuan baru yang diharapkan memberikan
kontribusi yang lebih baik. Secara detail dijelaskan sebagai berikut (Fayyad,
1996):
1.
Data selection
Pemilihan
(seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap
penggalian informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk
proses data mining, disimpan dalam suatu berkas, terpisah dari basis data
operasional.
·
2. Pre-processing / cleaning
Sebelum
proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada
data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang
duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada
data.
3.
Transformation
Coding
adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut
sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif
dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam
basis data.
4.
Data mining
Data
mining adalah proses mencari pola atau informasi menarik dalam data terpilih
dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma
dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat
sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5.
Interpretation / evalution
Pola
informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam
bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini
merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini
mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan
dengan fakta atau hipotesis yang ada sebelumnya.
Daftar
Pustaka
- Turban, E, 2005, Decision Support Systems and Intelligent Systems Edisi Bahasa
Indonesia Jilid 1. Andi: Yogyakarta.
- Larose, Daniel T. 2005. Discovering Knowledge in Data : An Introduction to Data
Mining. John Willey & Sons, Inc.
- ayyad, Usama. 1996. Advances in Knowledge Discovery and Data Mining.
MIT Press
Website Prodi Sistem Informasi UNIDHA : http://si.unidha.ac.id
Dosen Pengampu PTI , Faradika, M.Kom : http://faradika.id
Komentar
Posting Komentar