bab ii

43
BAB II Pengantar Data Mining

Upload: yan-cita-bagoez

Post on 13-Apr-2016

213 views

Category:

Documents


0 download

DESCRIPTION

data mining ppt

TRANSCRIPT

Page 1: BAB II

BAB IIPengantar Data Mining

Page 2: BAB II

Data Mining

Data Mining merupakan kegiatan menemukan secara otomatis informasi tersembunyi (pengetahuan atau pola) yang berpotensi berharga dari sekumpulan data berskala besar dengan cara atau teknik yang tidak mudah.

Page 3: BAB II

Data Mining sebagai Disiplin Berbagai Ilmu

Data Mining

Database

Algoritma

Statistik

Visualisasi

M. Pembelajaran

P. Pola

Page 4: BAB II

Perbedaan data mining danbukan data miningData Mining Bukan Data Mining

Mencari “Apple” dalam konteks tertentu seperti nama perusahaan atau nama buah

Mencari kata “Apple” dalam suatu search engine.

Mencari suatu atau daftar transaksi credit card yang dianggap sebagai penipuan

Mencari suatu/ daftar transaksi credit card dalam suatu periode tertentu

Mencari pelanggan suatu supermarket yang termasuk kedalam kelompok potensial atau tidak potensial

Mencari daftar 10 pelanggan dengan transaksi terbesar pada suatu supermarket

Menentukan katagori suatu kalimat atau berita, misalkan suatu berita apakah termasuk katagori: ekonomi, olahraga, politik, dan lain sebagainya.

Mencari suatu kata tertentu dalam sebuah kalimat atau berita

Page 5: BAB II

Tugas Data Mining

Klasifikasi

Prediksi

Asosiasi

Estimasi

Clusterisasi

Deskripsi

Peringkasan

Visualisasi

Page 6: BAB II

Klasifikasi

Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang mampu mendeskripsikan dan membedakan data atau objek ke dalam kelas-kelas tertentu yang sudah didefinisikan sebelumnya. Klasifikasi didasari pada karakteristik dari objek tersebut.

Page 7: BAB II

Klasifikasi Linear Registration

Linear Regressionw0 + w1 x + w2 y >=

0 Regression

computes wi from data to minimize squared error to ‘fit’ the data

Not flexible enough

Page 8: BAB II

Klasifikasi Decision Trees

X

Y

52

3

if X > 5 then blueelse if Y > 3 then blueelse if X > 2 then greenelse blue

Page 9: BAB II

Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi data diklasifikasikan berdasarkan perilaku atau nilai yang diperkirakan pada masa yang akan datang. Contoh dari tugas prediksi misalnya untuk memprediksikan adanya pengurangan jumlah pelanggan dalam waktu dekat dan prediksi harga emas dalam tiga bulan yang akan datang.

Prediksi

Page 10: BAB II

Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja (market basket). Tugas asosiasi berusaha untuk mengungkap aturan untuk mengukur hubungan antara dua atau lebih atribut.

Page 11: BAB II

Estimasi

Estimasi hampir sama dengan prediksi, kecuali variabel target estimasi lebih ke arah numerik dari pada ke arah kategori.  

Page 12: BAB II

Clusterisasi

Clustering adalah pengelompokan objek dalam suatu kelompok yang serupa satu sama lain dan berbeda dari objek di kelompok lain.

Page 13: BAB II

Deskripsi

Deskripsi bertujuan untuk mengidentifikasi pola yang muncul secara berulang pada suatu data dan mengubah pola tersebut menjadi aturan dan kriteria yang dapat mudah dimengerti agar dapat dengan efektif meningkatkan tingkat pengetahuan (knowledge) pada sistem.

Page 14: BAB II

Peringkasan

Tugas peringkasan dalam data mining adalah untuk memberikan deskripsi pada suatu kelompok atau group. Sebenarnya tugas ini sudah terkandung dalam dalam tugas deskripsi di atas.

Page 15: BAB II

Visualisasi

Visualisasi bertugas memfasilitasi pengguna dalam menemukan informasi atau pengetahuan dengan menekankan pada tampilan atau aspek visual.

Page 16: BAB II

Tahapan Proses Data Mining

______

______

______

Transformed Data

Patternsand

Rules

Target Data

RawData

Data MiningTransformation

Interpretation& Evaluation

Selection& Cleaning

Integration

Understanding

DATAWarehouse

Knowledge

Page 17: BAB II

Penerapan Data MiningBeberapa bidang dalam penerapan data mining dapat dijelaskan sebagai

berikut:

Segmentasi Pelanggan

Page 18: BAB II

Segmentasi Pelanggan (Customer Segmentation)

Segmentasi adalah proses untuk membagi pelanggan ke dalam grup homogen yang unik dalam rangka pengembangan strategi pasar yang berbeda berdasarkan karakteristiknya

Page 19: BAB II

Penerapan Data Mining Pada CRM

Pelanggan (Customer) adalah aset paling penting dari suatu organisasi. Tidak akan terjadi prospek bisnis jika tanpa adanya pelanggan yang merasa puas dan tetap setia

menjalin hubungan dengan suatu organisasi.

Page 20: BAB II

Data mining Dalam Kerangka CRM

Data mining dapat memberikan wawasan pelanggan, yang sangat penting untuk membangun strategi CRM yang efektif. Hal ini dapat menyebabkan interaksi personal dengan pelanggan, maka kepuasan meningkat. Lebih khusus, kegiatan pemasaran yang dapat didukung dengan penggunaan data mining meliputi topik-topik berikut (Tsiptsis dan Chorianopoulos, 2009).

Page 21: BAB II

Segmentasi pelanggan

Segmentasi Kampanye Pemasaran Langsung

Model Akuisisi

Model Cross-/deep-/up-selling

Segementasi Market Basket dan Sequence

Analysis

Model Pengurangan Sukarela

Page 22: BAB II

Aplikasi Data mining Dalam CRM

Beberapa contoh aplikasi yang memanfaatkan data mining dalam CRM yaitu aplikasi retail, perbankan, telekomunikasi dan aplikasi lainnya. Setiap bisnis yang

tertarik dalam memprediksi perilaku pelanggan melalui pengetahuan yang diperoleh dalam data mining (Rygielski dkk, 2002).

Page 23: BAB II

Aplikasi Retail

Melalui penggunaan sistem point-of-sale, Retailer (pengecer) dapat menyimpan catatan secara rinci dari setiap transaksi belanja yang dilakukan. Hal ini memungkinkan mereka untuk lebih memahami berbagai segmen pelanggan mereka.

Page 24: BAB II

Beberapa aplikasi retail

- Performing basket analysis - Sales forecasting- Database marketing - Merchandise planning and allocation

Page 25: BAB II

Contoh aplikasi

HasilClustering Hasil segmentasi

Page 26: BAB II

Perbankan

Bank dapat memanfaatkan penemuan pengetahuan untuk berbagai aplikasi, termasuk (Rygielski dkk, 2002):- Card Marketing- Cardholder pricing and profitability- Fraud detection (Deteksi penipuan)- Predictive life-cycle management.

Page 27: BAB II

Telekomunikasi

Perusahaan telekomunikasi di seluruh dunia menghadapi persaingan yang semakin meningkat memaksa mereka untuk agresif memasarkan program yang dimiliki dengan harga khusus yang ditujukan untuk mempertahankan pelanggan yang ada dan menarik yang baru. Pengetahuan penemuan di bidang telekomunikasi meliputi (Rygielski dkk, 2002):- Call detail record analysis - Customer loyalty (Loyalitas pelanggan)

Page 28: BAB II

Aplikasi Text Mining

Text mining (disebut juga dengan text data mining), adalah suatu proses untuk mengambil informasi dari teks yang ada. Text mining mencari pola-pola yang ada di teks teks dalam bahasa natural yang tidak terstuktur seperti buk, email, artikel, halaman web, dll. Kegiatan yang biasa dilakukan oleh text mining adalah text categorization, text clustering, conception/entity extraction, dll.

Page 29: BAB II

4 feature text mining

1. CharacterCharacter, merupakan komponan individual, bisa huruf, angka,

karakter spesial dan spasi, merupakan block pembangun pada level paling tinggi pembentuk semantik feature, seperti words, term dan concept. Pada umumnya, representasi character-based ini jarang digunakan pada beberapa teknik pemrosesan teks.

Page 30: BAB II

2. WordsWords, merupakan kata-kata tertentu yang dipilih langsung dari sebuah dokumen

asli yang berada pada tingkat dasar kekayaan semantik. Secara umum, fitur kata pada suatu tingkatan harus memiliki nilai dan tidak lebih dari satu token linguistik.3. Terms

Terms merupakan single word dan frasa multiword yang terpilih secara langsung dari corpus. Representasi term-based dari dokumen tersusun dari subset term dalam dokumen.

Page 31: BAB II

4. ConceptConcept, merupakan feature yang di-generate dari sebuah dokumen secara

manual, rule-based, atau metodologi lain. Pada tugas akhir ini, concept di-generate dari argument atau verb yang sudah diberi label pada suatu dokumen.

Page 32: BAB II

3 proses yang biasanya ada dalam sebuah kegiatan text mining1. Characterization of data

Teks yang ada distrukturkan dengan proses seperti parsing, dan diamsukkan ke dalam sebuah database

2. Data miningDari data yang ada lalu dilakukan sebuah pencarian dengan

algoritma tertentu untuk mendapatkan pola dari data tersebut

Page 33: BAB II

3. Data visualizationHasil pencarian yang ada akan diinterpretasi dan dikeluarkan dalam bentuk

output yang dapat dimengerti dengan mudah.

Page 34: BAB II

Algoritma text mining

Page 35: BAB II

Langkah-Langkah Text Mining

Page 36: BAB II

Tokenizing

Tahap Tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya

Page 37: BAB II

Filtering

Tahap Filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stop list (membuang kata yang kurang penting) atau word list (menyimpan kata penting)

Page 38: BAB II

Stemming

ahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering.

Page 39: BAB II

Tagging

Tahap tagging adalah tahap mencari bentuk awal / root dari tiap kata lampau atau kata hasil stemming

Page 40: BAB II

Analyzing

Tahap analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata antar dokumen yang ada.

Page 41: BAB II

Bidang yang membutuhkan Text mining- Aplikasi keamanan- Aplikasi biomedis.- Perangkat Lunak dan Aplikasi- Aplikasi Media Online- Aplikasi Pemasaran- Sentiment Analysis- Aplikasi Akademik

Page 42: BAB II

Image MiningImage Mining difokuskan pada pola penggalian pengetahuan, secara implisit suatu citra atau pola yang tidak secara eksplisit ditemukan dalam citra dari database atau koleksi suatu citra (Zhang dkk, 2002). Beberapa metode yang digunakan untuk mengumpulkan pengetahuan adalah: image retrivel, data mining, pengolahan citra dan kecerdasan buatan.

Page 43: BAB II