//visitor

Tuesday, June 05, 2012

Teknik-Teknik Data Mining


Teknik-Teknik Data Mining

1.     Classification
Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute.
Contohnya kita lihat pada contoh kasus College Plan
Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No, perhatikan ini.
Sebuah Classification Model akan menggunakan atribut lain dari kasus tersebut (input attribut; yaitu kolom IQ, Gender, ParentIncome, dan ParentEncouragement) untuk dapat menentukan pola (pattern) class (Output Attribute; yaitu Kolom CollegePlans yang berisi Yes atau No).
Algoritma Data Mining yang membutuhkan variabel target untuk belajar (sampai mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan sebutan dengan Supervised Algorithm. Yang termasuk kepada Classification Algorithm adalah Decision Trees, Neural Network dan Naives Bayes.
2.     Clustering
Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut. Gambar ini menunjukkan kelompok data pelanggan sederhana yang berisi dua atribut, yaitu Age (Umur) dan Income (Pendapatan). Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini.


  • Cluster 1 berisi populasi berusia muda dengan pendapatan rendah
  • Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi
  • Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.
Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut input diperlakukan sama. Kebanyakan Algoritma Clustering membangun sebuah model melalui serangkaian pengulangan dan berhenti ketika model tersebut telah memusat atau berkumpul (batasan dari segmentasi ini telah stabil).
3.     Association
Association juga disebut sebagai Market Basket Analysis. Sebuah problem bisnis yang khas adalah menganalisa tabel transaksi penjualan dang mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer, misalnya apabila orang membeli sambal, biasanya juga dia membeli kecap. Kesamaan yang ada dari data pembelian digunakan untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling seperti gambar dibawah ini.
Beberapa hal dapat kita baca, misalnya :
  • Ketika orang membeli susu, dia biasanya membeli keju
  • Ketika orang membeli pepsi atau coke, biasanya dia membeli juice
Didalam istilah association, setiap item dipertimbangkan sebagai informasi.
Metode association memiliki dua tujuan:
  • Untuk mencari produk apa yang biasanya terjual bersamaan
  • Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut.
4.     Regression
Metode Regression mirip dengan metode Classification, yang membedakannya adalah metode regression tidak bisa mencari pola yang dijabarkan sebagai class (kelas). Metoda regression bertujuan untuk mecari pola dan menentukan sebuah nilai numerik.
Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari Regression, dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai dari input. Bentuk yang lebih canggih dari regression sudah mendukung input berupa kategori, jadi tidak hanya input berupa numerik. Teknik paling popular yang digunakan untuk regression adalah linear regression dan logistic regression. Teknik lain yang didukung oleh SQL Server Data mining adalah Regression Trees (bagian dari dari algoritma Microsoft Decission Trees) dan Neural Network.
Regression digunakan untuk memecahkan banyak problem bisnis, contohnya untuk memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan kelembaban.
5.     Forecasting
Forecasting adalah metode data mining yang sangat penting. Contohnya digunakan untuk menjawab pertanyaan seperti berikut:
·       Seperti apa jadinya nilai saham dari Microsoft Corporation (pada NASDAQ, disimbolkan sebagai MSFT) pada keesokan hari?
·       Sebanyak apa penjualan produk tertentu pada bulan depan?
Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas. Sebagai inputnya teknik Forecasting akan mengambil sederetan angka yang menunjukkan nilai yang berjalan seiring waktu dan kemudian Teknik Forecasting ini akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam teknik machine-learning dan teknik statistik yang berhubungan dengan musim, trend, dan noise pada data.
Gambar diatas menunjukkan dua kurva, garis yang tegas adalah time-series data sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu.
6.     Sequence Analysis
Sequence Anlysis digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian bagian: A, G, C, dan T. dan rangkaian klik pada sebuah website berisi rentetan URL. Pada kejadian nyata anda mungkin memodelkan pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data, rangkaian tersebut adalah:
  • Pertama-tama Seorang pelanggan membeli komputer
  • kemudian membeli speaker
  • dan akhirnya membeli sebuah webcam.
Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama sama berisi tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah time-series berisi data bertipe numerik, dan sebuah sequence series berisi bagian yang khas.
Gambar ini menunjukan rangkaian klik pada sebuah website berita. Setiap node adalah sebuah kategori URL. Dan garis melambangkan transisi antar kategori URL tersebut. Setiap transisi di kelompokan dengan sebuah bobot yang menggambarkan kemungkinan transisi antara satu URL dan URL yang lain.

Sumber : http://ishwara.us/metode-data-mining/

3 comments:

Yusup said...

Hi

Dawud Tan said...

pak, ingin tanya tentang teknik data mining untuk memprediksi penjualan suatu produk, model yang umum untuk memprediksi data historis time series penjualan yang berbentuk seasonal trend selain holt-winter apa ya pak? saya pernah menulis artikel tentang holt winter berikut: http://datacomlink.blogspot.co.id/2015/12/serumit-apa-forecast-metode-holt.html

apps said...

Nice Article
thanks for sharing

Post a Comment

Search This Blog

Twitter Delicious Facebook Digg Stumbleupon Favorites More

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Bluehost Coupons