Teknik-Teknik Data Mining
1. Classification
Classification adalah
tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class
attribute. Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan
class attribute itu sebagai fungsi dari input attribute.
Contohnya kita lihat pada contoh kasus College Plan
Sebuah Classification Model akan menggunakan
atribut lain dari kasus tersebut (input
attribut; yaitu kolom IQ,
Gender, ParentIncome, dan ParentEncouragement)
untuk dapat menentukan pola (pattern) class (Output Attribute; yaitu Kolom CollegePlans yang berisi Yes
atau No).
Algoritma Data Mining yang membutuhkan variabel
target untuk belajar (sampai mendapatkan rule / pola yang berlaku pada data
tersebut) kita standarkan dengan sebutan dengan Supervised Algorithm. Yang termasuk kepada Classification
Algorithm adalah Decision Trees, Neural Network dan Naives Bayes.
2. Clustering
Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk
mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah
kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut. Gambar ini
menunjukkan kelompok data pelanggan sederhana yang berisi dua atribut, yaitu Age (Umur) dan Income (Pendapatan). Algoritma Clustering mengelompokkan kelompok
data kedalam tiga segment berdasarkan kedua atribut ini.
- Cluster 1 berisi populasi berusia muda dengan pendapatan rendah
- Cluster 2 berisi populasi berusia menengah dengan pendapatan yang
lebih tinggi
- Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif
rendah.
Clustering adalah metode
data mining yang Unsupervised, karena tidak ada satu atributpun yang digunakan untuk memandu proses
pembelajaran, jadi seluruh atribut input diperlakukan sama. Kebanyakan Algoritma Clustering membangun sebuah model
melalui serangkaian pengulangan dan berhenti ketika model tersebut telah
memusat atau berkumpul (batasan dari segmentasi ini telah stabil).
3. Association
Association juga disebut
sebagai Market Basket Analysis.
Sebuah problem bisnis yang khas adalah menganalisa tabel transaksi penjualan
dang mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh
customer, misalnya apabila orang membeli sambal, biasanya juga dia membeli
kecap. Kesamaan yang ada dari data pembelian digunakan untuk mengidentifikasi
kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan
cross-selling seperti gambar dibawah ini.
Beberapa hal dapat kita baca, misalnya :
- Ketika orang membeli susu, dia biasanya membeli keju
- Ketika orang membeli pepsi atau coke, biasanya dia membeli juice
Didalam istilah association, setiap item
dipertimbangkan sebagai informasi.
Metode association
memiliki dua tujuan:
- Untuk mencari produk apa yang biasanya terjual bersamaan
- Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut.
4. Regression
Metode Regression mirip dengan metode
Classification, yang membedakannya adalah metode regression tidak bisa mencari
pola yang dijabarkan sebagai class (kelas). Metoda regression bertujuan untuk
mecari pola dan menentukan sebuah nilai numerik.
Sebuah Teknik Linear Line-fitting sederhana adalah
sebuah contoh dari Regression, dimana hasilnya adalah sebuah fungsi untuk
menentukan hasil yang berdasarkan nilai dari input. Bentuk yang lebih canggih
dari regression sudah mendukung input berupa kategori, jadi tidak hanya input
berupa numerik. Teknik paling popular yang digunakan untuk regression adalah
linear regression dan logistic regression. Teknik lain yang didukung oleh SQL
Server Data mining adalah Regression Trees (bagian dari dari algoritma
Microsoft Decission Trees) dan Neural Network.
Regression digunakan untuk memecahkan banyak
problem bisnis, contohnya untuk memperkirakan metode distribusi, kapasitas
distribusi, musim dan untuk memperkirakan kecepatan angin berdasarkan
temperatur, tekanan udara, dan kelembaban.
5. Forecasting
Forecasting adalah metode data mining yang sangat
penting. Contohnya digunakan untuk menjawab pertanyaan seperti berikut:
·
Seperti apa jadinya nilai saham
dari Microsoft Corporation (pada NASDAQ, disimbolkan sebagai MSFT) pada
keesokan hari?
·
Sebanyak apa penjualan produk
tertentu pada bulan depan?
Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas.
Sebagai inputnya teknik Forecasting akan mengambil sederetan angka yang
menunjukkan nilai yang berjalan seiring waktu dan kemudian Teknik Forecasting
ini akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam
teknik machine-learning dan teknik statistik yang berhubungan dengan musim,
trend, dan noise pada data.
Gambar diatas menunjukkan dua kurva, garis yang
tegas adalah time-series data sebenarnya dari nilai saham Microsoft, dan garis
putus-putus adalah time series model yang memprediksi nilai saham berdasarkan
nilai saham pada masa lalu.
6. Sequence Analysis
Sequence Anlysis digunakan untuk mencari pola pada
serangkaian kejadian yang disebut dengan Sequence. Sebagai contoh sebuah DNA
terdiri dari rangaian bagian: A, G, C, dan T. dan rangkaian klik pada sebuah
website berisi rentetan URL. Pada kejadian nyata anda mungkin memodelkan
pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data, rangkaian
tersebut adalah:
- Pertama-tama Seorang pelanggan membeli komputer
- kemudian membeli speaker
- dan akhirnya membeli sebuah webcam.
Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama sama
berisi tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah
time-series berisi data bertipe numerik, dan sebuah sequence series berisi
bagian yang khas.
Gambar ini menunjukan rangkaian klik pada sebuah
website berita. Setiap node adalah sebuah kategori URL. Dan garis melambangkan
transisi antar kategori URL tersebut. Setiap transisi di kelompokan dengan
sebuah bobot yang menggambarkan kemungkinan transisi antara satu URL dan URL
yang lain.
Sumber
: http://ishwara.us/metode-data-mining/
3 comments:
Hi
pak, ingin tanya tentang teknik data mining untuk memprediksi penjualan suatu produk, model yang umum untuk memprediksi data historis time series penjualan yang berbentuk seasonal trend selain holt-winter apa ya pak? saya pernah menulis artikel tentang holt winter berikut: http://datacomlink.blogspot.co.id/2015/12/serumit-apa-forecast-metode-holt.html
Nice Article
thanks for sharing
Post a Comment