Sekilas tentang Data Mining

Seperti kita tahu, suatu data mengandung suatu informasi didalamnya. Semakin banyak data yang ada maka semakin banyak dan bagus informasi yang dikandungnya. Permasalahannya semakin banyak kumpulan data-data tentulah semakin sulit pengolahan untuk mendapat informasi yang terkandung. Data mining dapat menjawab tantangan tersebut.

Data mining merupakan salah satu komponen dari proses business intelligence. Sumber data untuk proses data mining biasa diperoleh dari data warehouse yang menyimpan data-data berjumlah masif.

Data mining terdiri dari 4 proses yaitu:

  1. Data Integration. Proses menggabungkan basis-basis data menjadi basis data yang sama. Umumnya terjadi pada sistem terdistribusi.
  2. Data Preprocessing. Proses membersihkan data-data yang rusak, tidak lengkap, atau berbeda format sebelum diproses lebih lanjut.
  3. Model Construction. Proses membuat suatu model dari data-data yang telah diproses sebelumnya dengan metode tertentu.
  4. Interpretasi. Proses interpretasi informasi hasil model data mining.

Data mining mencakup permasalahan mengenai Regression, Classification, Clustering, dan Association.

  • Regression, mencari model berbentuk persamaan matematis yang dapat menjawab problem dengan hasil berupa data kuantitatif. Misalnya anda berkecimpung di bisnis cafe, suatu hari anda ingin membuat menu baru. Dengan memanfaatkan teknik regresi ini anda dapat mengetahui harga yang tepat untuk menu baru anda dari data-data menu yang sebelumnya. Contoh metodenya seperti regresi linier, regresi Bayessian.
  • Classification, mencari model klasifikasi seperti pohon keputusan. Biasa digunakan di bidang perbankan untuk pendukung keputusan pencairan kredit seseorang. Metodenya seperti J48, ZeroR.
  • Clustering, seperti namanya akan membentuk cluster/kelompok dalam suatu kumpulan data. Misalnya jika anda ingin mengetahui golongan usia mana yang menyukai kopi robusta. Metodenya seperti kMeans, cobweb, EM (expectation-maximization).
  • Association, mencari keterhubungan antar satu entitas dengan entitas lain. Misalnya anda ingin mengetahui jika pelanggan memesan kentang goreng, minuman apa yang kemungkinan besar pelanggan tersebut akan dipesan. Metode biasa yang digunakan seperti Apriori, FPGrowth.

Beberapa hal yang mempengaruhi kualitas data mining:

  • Kualitas pre-processing data. Model yang berasal dari data tanpa proses Pre-processing atau yang asal-asalan yang buruk dapat menimbulkan noise di model yang dihasilkan.
  • Pemilihan metode konstruksi model. Antar metode permodelan data mining menggunakan algoritma yang berbeda dengan kelebihan dan kekurangannya masing-masing. Semakin besar confidence point-nya, maka semakin baik model yang kita hasilkan.
  • Interpretasi hasil. Mayoritas hasil yang didapat setelah proses permodelan berbentuk data kuantitatif yang perlu kita interpretasi hasilnya lebih lanjut.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s