missing value

STATISTIKA MULTIVARIAT “MISSING VALUE ANALYSIS”

Selasa, 09 April 2013

Pengantar

Uji data pada prinsipnya bertujuan untuk memastikan bahwa berbagai metode multivariat bisa digunakan pada data tertentu.

Pengabaian uji data berakibat BIASnya kesimpulan yang diambil atau bahkan metode multivariat tidak bisa diproses.

Seperti jika data mempunya banyak missing value

Jika data tersebut dipaksa untuk tetap diproses, output yang dihasilkan bisa sangat berbeda dibandingkan jika data tidak ada yang hilang.

Uji Data

Pengujian dengan menggunakan grafik Pengujian adanya Missing Data Pengujian adanya outlier (data yang

sangat ekstrim) Pengujian beberapa asumsi metode-

metode multivariat (Normalitas data, Uji Linearitas dan sebagainya)

Contoh Kasus

Misalkan ada suatu data berisi 75 konsumen yang digolongkan berdasarkan banyaknya air minum yang dikonsumsi, usia, berat badan, tinggi badan, income konsumen, jam kerja dan lama olahraga. Berikut adalah datanya :

Data Apakah missing value yang terjadi bersifat

acak (random) ataukah tidak? Bagaimana seharusnya perlakuan

terhadap data yang mengandung missing value tersebut?

Langkah-langkah di SPSS

Definisikan variabel dari data yang akan diuji pada Variable View. Baris pertama pada kolom Name ketik Nama, baris kedua ketik Minum, pada kolom Values dilakukan pembagian ata ke dalam dua grup, 1 “sedikit”, 2 “banyak” dst untuk variabel lain.

Setelah pendefinisian variabel selesai klik Data View untuk mengisikan data

Klik Analyze Missing Value Analysis Masukkan variabel usia, berat, tinggi,

income, jam kerja dan olahraga ke bagian Quantitative Variable (bertipe rasio)

Lanjutan..

Masukkan variabel Minum ke bagian Categorical Bariable.

Masukkan variabel Nama ke bagian Case Labels (betipe string/huruf)

Pada bagian Estimation, aktifkan kotak listwise, pairwise dan EM

Pada icon Pattern, di bagian Display aktifkan Tabulated cases.. dan Cases with missing values..

Pada icon Descriptives, di bagian Indicator Variable Statistics, aktifkan Percent mismatch dan Crosstabulation of..

Ok

Analisa Output SPSS

Jika dilihat kolom N, terlihat angka yang bervariasi pada setiap variabel, tergantung data yang hilang pada setiap variabelKolom mean dan standar deviasi menunjukan statistika dasar yang dihitung dari data yang valid.Kolom missing di kolom count untuk jumlah data yang missing untuk masing-masing variabel.

Tabel ini merupakan perluasan dari perhitungan rata-rata, tetapi dengan metode yang berbeda, di mana ada tiga ukuran :Jika digunakan metode Listwise, artinya hanya kasus yang tidak memiliki missing saja yang diikutsertakan dalam perhitungan.Jika digunakan All Values, artinya semua kasus diikutsertakan untuk dihitung walaupun mengandung missing

Penyebaran data yang missing : Tabel sebelumnya menunjukan

penyebaran data yang hilang hanya untuk konsumen yang memang dtanya tidak lengkap (mengandung missing)

Pada baris 1, konsumen bernama Rusdi mempunya satu missing pada variabel berat. Oleh karena missing ada pada 1 dari 7 variabel, persentase missing adalah 1/7 x 100% = 14.3%. dst

Penyebaran missing value dinyatakan per variabel.Pada baris pertama, angka 45 menyatakan ada 45 data konsumen yang valid. Angka ke 5 pada baris kedua menunjukan adanya 5 data yang missing hanya pada variabel berat. dst

Analisis Listwise

Tabel diatas adalah hasil perhitungan korelasi dengan metode listwise (yang tidak memiliki missing saja yang diikutsertakan). Dari 75 konsumen hanya 45 yang datanya lengkap. Angka korelasi antara Income dengan usia sebesar 0.798 (korelasi kuat) artinya Income berpengaruh kuat pada terjadinya missing value pada variabel usia. Hal ini tentunya tidak bagus, karena menandakan rendahnya keacakan missing value.

Analisis Pairwise

Metode ini akan memasangkan variabel yang mempunyai data lengkap dan tidak menghilangkan baris begitu saja . Dengan demikian jumlah data dapat berbeda-beda tergantung kelengkapan data dua variabel yang dipisahkan.

Analisis metode EM

Kriteria Uji :Angka signifikan MCAR (sig) > 0.05, missing value randomAngka signifikan MCAR (sig) < 0.05, missing value tidak randomKarena angka probabilitas (signifikansi) =0.542 > 0.05, maka missing value dari data tersebut random.Kesimpulan : missing value bersifat acak dan tidak mengikuti pola tertentu maka dapat dilakukan berbagai perlakuan lanjutan.

Perlakuan Terhadap Missing Value Jika missing value terbukti random, maka

berbagai perlakuan bisa dilakukan pada data-data yang missing. Penanganan terhadap missing value bisa bervariasi, seperti membuang baris (kasus) yang mengandung missing value, menghapus variabel dsb.

Salah satu cara yang populer adalah bukan menghilangkan baris atau kolom yang mengandung data missing, namun justru mengisi sel (data) yang missing dengan nilai tertentu yang dianggap bisa mendekati kenyataan sebenarnya jika data terisi.

Contoh Kasus

Masih menggunakan data yang sebelumnya. Langkah-langkah : Buka file Missing Value Klik Transform kemudian pilih submenu Replace

Missing Value. Masukkan variabel usia, berat, tinggi, income, jam

kerja dan olahraga ke bagian Nem Variabel(s) Pada bagian Name and Method, perhatikan bagian

Name yang otomatis menampilkan nama variabel baru, seperti usia_1 untuk menampilka variabel baru

Pada bagian Method pilih Series Mean, atau pada kotak Combo pilih Mean of Nearby Point (pilihan)

Hasil Output

Terlihat ada 10 data untuk variabel usia yang diganti, 6 data untuk variabel berat dst.Model pergantian berdasarkan rata-rata, seperti untuk variabel usia, karena rata-ratanya adalah 30.06, maka setiap data yang kosong pada variabel usia akan diganti dengan angka 30.06. dst

missing value

Documents