missing value
TRANSCRIPT
STATISTIKA MULTIVARIAT “MISSING VALUE ANALYSIS”
Selasa, 09 April 2013
Pengantar
Uji data pada prinsipnya bertujuan untuk memastikan bahwa berbagai metode multivariat bisa digunakan pada data tertentu.
Pengabaian uji data berakibat BIASnya kesimpulan yang diambil atau bahkan metode multivariat tidak bisa diproses.
Seperti jika data mempunya banyak missing value
Jika data tersebut dipaksa untuk tetap diproses, output yang dihasilkan bisa sangat berbeda dibandingkan jika data tidak ada yang hilang.
Uji Data
Pengujian dengan menggunakan grafik Pengujian adanya Missing Data Pengujian adanya outlier (data yang
sangat ekstrim) Pengujian beberapa asumsi metode-
metode multivariat (Normalitas data, Uji Linearitas dan sebagainya)
Contoh Kasus
Misalkan ada suatu data berisi 75 konsumen yang digolongkan berdasarkan banyaknya air minum yang dikonsumsi, usia, berat badan, tinggi badan, income konsumen, jam kerja dan lama olahraga. Berikut adalah datanya :
Data Apakah missing value yang terjadi bersifat
acak (random) ataukah tidak? Bagaimana seharusnya perlakuan
terhadap data yang mengandung missing value tersebut?
Langkah-langkah di SPSS
Definisikan variabel dari data yang akan diuji pada Variable View. Baris pertama pada kolom Name ketik Nama, baris kedua ketik Minum, pada kolom Values dilakukan pembagian ata ke dalam dua grup, 1 “sedikit”, 2 “banyak” dst untuk variabel lain.
Setelah pendefinisian variabel selesai klik Data View untuk mengisikan data
Klik Analyze Missing Value Analysis Masukkan variabel usia, berat, tinggi,
income, jam kerja dan olahraga ke bagian Quantitative Variable (bertipe rasio)
Lanjutan..
Masukkan variabel Minum ke bagian Categorical Bariable.
Masukkan variabel Nama ke bagian Case Labels (betipe string/huruf)
Pada bagian Estimation, aktifkan kotak listwise, pairwise dan EM
Pada icon Pattern, di bagian Display aktifkan Tabulated cases.. dan Cases with missing values..
Pada icon Descriptives, di bagian Indicator Variable Statistics, aktifkan Percent mismatch dan Crosstabulation of..
Ok
Analisa Output SPSS
Jika dilihat kolom N, terlihat angka yang bervariasi pada setiap variabel, tergantung data yang hilang pada setiap variabelKolom mean dan standar deviasi menunjukan statistika dasar yang dihitung dari data yang valid.Kolom missing di kolom count untuk jumlah data yang missing untuk masing-masing variabel.
Tabel ini merupakan perluasan dari perhitungan rata-rata, tetapi dengan metode yang berbeda, di mana ada tiga ukuran :Jika digunakan metode Listwise, artinya hanya kasus yang tidak memiliki missing saja yang diikutsertakan dalam perhitungan.Jika digunakan All Values, artinya semua kasus diikutsertakan untuk dihitung walaupun mengandung missing
Penyebaran data yang missing : Tabel sebelumnya menunjukan
penyebaran data yang hilang hanya untuk konsumen yang memang dtanya tidak lengkap (mengandung missing)
Pada baris 1, konsumen bernama Rusdi mempunya satu missing pada variabel berat. Oleh karena missing ada pada 1 dari 7 variabel, persentase missing adalah 1/7 x 100% = 14.3%. dst
Penyebaran missing value dinyatakan per variabel.Pada baris pertama, angka 45 menyatakan ada 45 data konsumen yang valid. Angka ke 5 pada baris kedua menunjukan adanya 5 data yang missing hanya pada variabel berat. dst
Analisis Listwise
Tabel diatas adalah hasil perhitungan korelasi dengan metode listwise (yang tidak memiliki missing saja yang diikutsertakan). Dari 75 konsumen hanya 45 yang datanya lengkap. Angka korelasi antara Income dengan usia sebesar 0.798 (korelasi kuat) artinya Income berpengaruh kuat pada terjadinya missing value pada variabel usia. Hal ini tentunya tidak bagus, karena menandakan rendahnya keacakan missing value.
Analisis Pairwise
Metode ini akan memasangkan variabel yang mempunyai data lengkap dan tidak menghilangkan baris begitu saja . Dengan demikian jumlah data dapat berbeda-beda tergantung kelengkapan data dua variabel yang dipisahkan.
Analisis metode EM
Kriteria Uji :Angka signifikan MCAR (sig) > 0.05, missing value randomAngka signifikan MCAR (sig) < 0.05, missing value tidak randomKarena angka probabilitas (signifikansi) =0.542 > 0.05, maka missing value dari data tersebut random.Kesimpulan : missing value bersifat acak dan tidak mengikuti pola tertentu maka dapat dilakukan berbagai perlakuan lanjutan.
Perlakuan Terhadap Missing Value Jika missing value terbukti random, maka
berbagai perlakuan bisa dilakukan pada data-data yang missing. Penanganan terhadap missing value bisa bervariasi, seperti membuang baris (kasus) yang mengandung missing value, menghapus variabel dsb.
Salah satu cara yang populer adalah bukan menghilangkan baris atau kolom yang mengandung data missing, namun justru mengisi sel (data) yang missing dengan nilai tertentu yang dianggap bisa mendekati kenyataan sebenarnya jika data terisi.
Contoh Kasus
Masih menggunakan data yang sebelumnya. Langkah-langkah : Buka file Missing Value Klik Transform kemudian pilih submenu Replace
Missing Value. Masukkan variabel usia, berat, tinggi, income, jam
kerja dan olahraga ke bagian Nem Variabel(s) Pada bagian Name and Method, perhatikan bagian
Name yang otomatis menampilkan nama variabel baru, seperti usia_1 untuk menampilka variabel baru
Pada bagian Method pilih Series Mean, atau pada kotak Combo pilih Mean of Nearby Point (pilihan)
Hasil Output
Terlihat ada 10 data untuk variabel usia yang diganti, 6 data untuk variabel berat dst.Model pergantian berdasarkan rata-rata, seperti untuk variabel usia, karena rata-ratanya adalah 30.06, maka setiap data yang kosong pada variabel usia akan diganti dengan angka 30.06. dst