data mining - universitas hasanuddinunhas.ac.id/amil/s1tif/dm2020/03 dm 2020.pdftopologi regresi...

27
Data Mining http://www.unhas.ac.id/amil/S1TIF/DM2020/ L3 Amil Ahmad Ilham

Upload: others

Post on 05-Nov-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Data Mininghttp://www.unhas.ac.id/amil/S1TIF/DM2020/

L3

Amil Ahmad Ilham

Page 2: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Algoritma Data Mining (DM)

1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis,

Logistic Regression, etc

4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

2

Page 3: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Linear RegressionLinear Regression

Page 4: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Hubungan antarvariabel

Terhubung Tak Terhubung

Page 5: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Terhubung Linier

Terhubung Non-linier

Terhubung Non-linier

Hubungan antarvariabel

Page 6: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Linier, terhubung kuat Linier, terhubung lemah

Hubungan antarvariabel

Page 7: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Linier, kuat Linier, Lemah Non-Linier

Regresi Linier

Page 8: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Linier, Kuat Linier, Lemah Non-Linier

Resi

dua

ls

Resi

dua

ls

Resi

dua

ls

Regresi Linier - Residual

acak acak - tersebar berpola - tersebar

Page 9: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Koefisien korelasi

22 )()(

))((

YYXX

YYXXr

ii

ii

• Mengukur korelasi antara dua variabel

• Menunjukkan kekuatan korelasi

Pearson coefficient correlation:

Page 10: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

koefisien korelasi

Page 11: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Apa itu regresi?

UkuranMesin

Silinder KonsumsiBBM

Emisi CO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ?

11

Regresi adalah proses untuk memprediksi nilai kontinuvariable terikat

Nila

i ko

nti

nu

X: variable bebas Y: variable terikat

Nilai kategoris atau kontinu

Page 12: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Apa itu model regresi?

12

Data historis mobil:jumlah silinder, ukuran mesin,

konsumsi BBM dan CO2

Model

Jenis mobil baru EstimasiEmisi CO2

Training

Page 13: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Jenis Model Regresi

• Simple Regression (regresi sederhana):• Linier

• Non-linier

• Multiple Regression (Regresi banyak variable):• Linier

• Non-linier

13

Prediksi EmisiCO2 vs Ukuran Mesin

Prediksi EmisiCO2 vs (Ukuran Mesin dan jumlah silinder)

Page 14: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Aplikasi Regresi

• Prediksi Nilai Penjualan per Tahun seseorang• Berdasarkan umur, pendidikan dan pengalaman seorang sales

• Analisis kepuasan pelanggan• Berdasarkan demografi dan faktor psikologis pelanggan

• Estimasi Harga Rumah• Berdasarkan luas, jumlah kamar dll

• Gaji Karyawan• Berdasarkan jenis pekerjaan, pendidikan, jenis kelamin, umur, pengalaman

kerja dll.

Page 15: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Berbagai Algoritma Regresi

• Regresi Ordinal

• Regresi Poisson

• Fast Forest Quantile

• Linier, Polinomial, Lasso, Stepwise, Ridge

• Regresi Linier Bayesian

• Neural Network

• Decision Forest

• Booseted Decision Tree

• KNN (K-nearest neighbors)

15

Page 16: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Regresi Linier Sederhana

16

Page 17: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Topologi Regresi Linier

• Regresi Linier Sederhana• Prediksi Emisi CO2 vs Ukuran Mesin dari semua mobil

• Regresi Linier Berganda (Multiple Linear Regression):• Prediksi Emisi CO2 vs Ukuran Mesin dan Silinder semua mobil

17

Regresi LinierSederhana

Variabel bebas(x1): Ukuran Mesin

Prediksi (y): Emisi CO2

Regresi LinierBerganda

Variabel bebas(x1, x2,…): Ukuran Mesin, Silinder, …

Prediksi (y): Emisi CO2

Page 18: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

UkuranMesin

Silinder KonsumsiBBM

Emisi CO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ?

18

Nila

i ko

nti

nu

X: variable bebas Y: variable terikat

Menggunakan Regresi Linier untuk memperkirakan nilai kontinu

Page 19: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Cara menerapkan regresi linier

UkuranMesin

Silinder KonsumsiBBM

EmisiCO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ? Ukuran Mesin

Emis

iCO

2

Page 20: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Cara menerapkan regresi linier

UkuranMesin

Silinder KonsumsiBBM

EmisiCO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ? x1 (Ukuran Mesin)

Y (E

mis

iCO

2)

2.4

214

Plot Data Y vs X

Page 21: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Cara menerapkan regresi linier

x1 (Ukuran Mesin)

Y (E

mis

iCO

2)

Plot Data Y vs X

𝑦 = 𝜃0 + 𝜃1 𝑥1

Variabel prediksi

Perpotongan sumbu y gradien

Koefisien garis

Variabel bebastunggal

Bagaimana mencari nilai 𝜃0 dan 𝜃1 sehingga garis paling mendekati data (best fit) ?

Page 22: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Cara mencari best fit ?

x1 (Ukuran Mesin)

Y (E

mis

iCO

2)

Plot Data Y vs XAmbil nilai variable bebas 𝑥1 = 5.4𝑦 = 250 (nilai Emisi CO2 menurut data)

𝑦 = 𝜃0 + 𝜃1 𝑥1 𝑦 = 340 adalah hasil prediksi untuk x1

Error = 𝑦 − 𝑦= 250 − 340= −90

Karena nilai error bisa positif atau negatif, gunakan nilai kwardratnya. Best Fit adalahmencari garis yang jumlah kwardrat error – nya paling kecil (minimal square error):

𝑀𝑆𝐸 =1

𝑛

𝑖=1

𝑛

𝑦𝑖 − 𝑦𝑖2

5.4

𝒚 = 𝟐𝟓𝟎

𝒚 = 𝟑𝟒𝟎

minimasi 𝜃0, 𝜃1

Page 23: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Cara mencari best fit ?

x1 (Ukuran Mesin)

Y (E

mis

iCO

2)

Plot Data Y vs X

Pendekatan minimasi:• Pendekatan matematis• Pendekatan optimasi

𝑀𝑆𝐸 =1

𝑛

𝑖=1

𝑛

𝑦𝑖 − 𝑦𝑖2

Distribusi Error

Page 24: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Estimasi parameter 𝜃0 dan 𝜃1 (𝒎𝒂𝒕𝒆𝒎𝒂𝒕𝒊𝒔)

UkuranMesin

Silinder KonsumsiBBM

EmisiCO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ?

𝑥1 𝑦

𝑦 = 𝜃0 + 𝜃1 𝑥1

𝜃1 = 𝑖=1𝑠 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦

𝑖=1𝑠 𝑥𝑖 − 𝑥 2

𝜃1 = 43.98

𝜃𝑜 = 𝑦 − 𝜃1 𝑥

𝜃𝑜 = 92.8

Page 25: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Estimasi parameter 𝜃0 dan 𝜃1 (𝒐𝒑𝒕𝒊𝒎𝒂𝒔𝒊)

UkuranMesin

Silinder KonsumsiBBM

EmisiCO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ?

𝑥1 𝑦

𝑦 = 92.8 + 43.98 𝑥1

Page 26: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Prediksi dengan Regresi Linier

UkuranMesin

Silinder KonsumsiBBM

EmisiCO2

0 2.0 4 8.5 196

1 2.4 4 9.6 221

2 1.5 4 5.9 136

3 3.5 6 11.1 255

4 3.5 6 10.6 244

5 3.5 6 10.0 230

6 3.5 6 10.1 232

7 3.7 6 11.1 255

8 3.7 6 11.6 267

9 2.4 4 9.2 ?

𝑦 = 92.8 + 43.98 𝑥1

198.352

Page 27: Data Mining - Universitas Hasanuddinunhas.ac.id/amil/S1TIF/DM2020/03 DM 2020.pdfTopologi Regresi Linier •Regresi Linier Sederhana •Prediksi Emisi CO2 vs Ukuran Mesin dari semua

Tutorial Simple Linear Regression

• Download file automobileEDA.csv di http://www.unhas.ac.id/amil/S1TIF/DM2020/• Klik kanan file => Save Link As => Save as type: All Files

• Run Jupyter Notebook