distribusi dari data
DESCRIPTION
Cara menentukan distribusi berdasarkan karakteristik datanya...TRANSCRIPT
Tugas IIRiset Pemasaran dan Manajemen Resiko
BAB 7
MENDAPATKAN DISTRIBUSI DARI DATA
OLEH :
KELOMPOK V
RISWANDI H12107001
FADLI LANTERA H12107003
HADIJAH H12107005
SITI ZUHURIA H12107007
KHALILAH NURFADILAH H12107014
A. RANUWIRAWAN R. H12107026
JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS HASANUDDIN
MAKASSAR
2010
BAB 7
MENDAPATKAN DISTRIBUSI DARI DATA
Bab ini dimulai dengan mendorong analis untuk meninjau data yang telah
tersedia dan karakteristik dari variabel yang akan dimodelkan. Beberapa teknik tersebut
kemudian dibahas yang memungkinkan analisis untuk menggunakan data yang tersedia untuk
menentukan distribusi dipasang secara empiris. Kelebihan utama dari pendekatan intuitif ini
adalah kesederhanaan penggunaan dan penghilangan distribusi teoritis yang tidak tepat atau
membingungkan.
Teknik ini kemudian dijelaskan untuk distribusi teoritis dipasang pada data yang
diamati, termasuk penggunaan penduga maksimum likelihood, tingkat kebaikan statistika dan
plot. Akhirnya, beberapa teknik yang dibahas untuk membantu model probabilitas.
7.1 Menganalisis Sifat Data Yang Diamati
Sebelum mencoba untuk menyesuaikan distribusi probabilitas untuk satu set data
yang diamati, ada baiknya pertama mempertimbangkan sifat dari variabel yang bersangkutan.
Sifat-sifat distribusi atau distribusi yang dipilih untuk dipasang dengan data harus sesuai
dengan variabel yang dimodelkan. Perangkat lunak seperti best fit telah membuat distribusi
yang tepat untuk data yang sangat mudah dan dihapus perlu untuk setiap pengetahuan
statistik yang mendalam. Produk-produk ini umumnya sangat berguna tetapi, melalui
otomatisasi dan kemudahan penggunaan, sengaja mendorong pengguna untuk mencoba
cocok untuk distribusi sepenuhnya tidak pantas. Sementara saya sangat mendukung
penggunaan perangkat lunak pas distribusi tersebut, perlu mempertimbangkan hal-hal berikut
sebelum mencoba cocok dengan:
Sebuah variabel diskrit hanya dapat mengambil satu nilai yang spesifik, misalnya
jumlah jembatan di sepanjang jalan raya, tapi pengukuran seperti volume aspal, misalnya,
terus menerus. Sebuah variabel yang diskrit di alam biasanya, namun tidak selalu, paling
sesuai untuk suatu distribusi diskrit. Sebuah pengecualian yang sangat umum adalah di mana
selisih antara nilai-nilai yang diijinkan bersebelahan tidak signifikan dibandingkan dengan
rentang bahwa variabel dapat berlangsung.
Dalam keadaan tertentu, distribusi diskrit bisa sangat erat didekati dengan
distribusi kontinu untuk nilai x yang besar.Jika sebuah variabel diskrit telah dimodelkan
dengan distribusi kontinu untuk kenyamanan, sifat diskrit dengan mudah bisa dimasukkan
kembali ke dalam model analisis risiko.
Distribusi harus dilengkapi, dalam alasan, mencakup rentang di mana variabel
yang dimodelkan secara teoritis dapat diperpanjang. Jika distribusi dipasang mungkin
melampaui jangkauan variabel, sebuah model analisis risiko akan menghasilkan skenario
mustahil. Jika distribusi gagal untuk memperpanjang selama rentang mungkin seluruh
variabel, analisa resiko tidak akan mencerminkan ketidakpastian yang benar dari masalah.
Variabel mungkin berkorelasi dengan, atau fungsi, variabel lain dalam model dan
juga mungkin terkait dengan variabel lain di luar model yang, pada gilirannya,
mempengaruhi variabel ketiga dalam model analisis resiko. Gambar 7.1 mengilustrasikan
beberapa contoh.
Gambar 7.1 Contoh dari keterikatan antara variabel-variabel model: a. Langsung b. Tidak langsung
Dalam contoh (a), sebuah bank, pendapatannya dimodelkan sebagai fungsi dari
bunga dan nilai hipotek, antara lain. Tingkat KPR berkorelasi dengan tingkat bunga karena
tingkat suku bunga sebagian besar mendefinisikan bagaimana suku bunga KPR seharusnya.
Hubungan ini harus disertakan dalam model simulasi untuk memastikan bahwa hanya akan
menghasilkan skenario yang berarti. Ada dua pendekatan untuk ini:
1. Tentukan distribusi untuk tingkat hipotek dan bunga berdasarkan data historis dan
kemudian mengkorelasikan sampling dari distribusi selama simulasi.
2. Tentukan distribusi suku bunga dari data historis dan hubungan (stokastik)
fungsional dengan tingkat hipotek.
Pada contoh (b) gambar 7.1, adalah menghitung harga tawaran untuk memasok
tenaga kerja untuk pekerjaan atap. Pemilihan bahan atap belum diputuskan dan
ketidakpastian ini memiliki implikasi untuk jam orang-yang akan dibutuhkan untuk
membangun atap dan kayu untuk meletakkan atap. Ada karena itu merupakan hubungan tidak
langsung antara kedua variabel yang dengan mudah bisa saja terlewatkan, dia tidak melihat di
luar komponen langsung dari perhitungan biaya nya. Hilang korelasi ini akan menghasilkan
meremehkan penyebaran biaya subkontraktor dan berpotensi menyebabkan dia untuk
penawaran harga yang terkena dia untuk kerugian yang signifikan. Hal ini dapat dilihat
bahwa korelasi merupakan bagian penting dari analisis risiko banyak. Bab 10 menjelaskan
beberapa teknik untuk model korelasi antar variabel.
Jika distribusi diketahui cocok dekat dengan jenis variabel yang dimodelkan,
biasanya sebagai hasil karya akademis diterbitkan, semua yang tersisa adalah untuk
menemukan parameter fitting terbaik, seperti yang dijelaskan dalam bagian 7.3.
7.2 PENERAPAN DISTRIBUSI EMPIRIS PADA DATA YANG DIAMATI
7.2.1 Pemodelan Variabel kontinu
Jika data yang diamati kontinu dan cukup luas, biasanya cukup untuk menggunakan plot
frekuensi kumulatif titik data untuk menentukan distribusi probabilitasnya
Gambar 7.2 Menyesuaikan distribusi empiris kontinu pada data menggunakan distribusi
kumulatif
Gambar 7.2 menggambarkan sebuah contoh dengan 18 titik data. diamati F(x)
dihitung sebagai nilai-nilai yang diharapkan F (x) yang akan sesuai dengan sampling acak
dari distribusi, yaitu F (x i)=i
(n+1) dimana i adalah peringkat titik data yang teramati dan n
adalah jumlah titik data.
minimum dan maksimum untuk distribusi empiris subyektif ditentukan
berdasarkan pengetahuan analis dari variabel. Untuk variabel kontinu, nilai-nilai
ini umumnya di luar jangkauan dari data yang diamati. Nilai minimum dan
maksimum yang dipilih adalah nol dan 45.
Data titik adalah peringkat dalam urutan antara nilai minimum dan maksimum.
Probabilitas kumulatif F (x) untuk setiap nilai x dihitung sebagai berikut:
Ini formula untuk F (x) digunakan karena tempat semua x i s terhadap persentil
kumulatif diharapkan yang akan diamati jika titik data dipilih secara acak dari
distribusi. Karena itu memaksimalkan kesempatan mereplikasi distribusi yang
benar.
Kedua array, {x i } dan {F (x i)}, bersama dengan nilai minimum dan maksimum,
maka dapat digunakan sebagai masukan langsung ke dalam distribusi kumulatif.
Jika ada jumlah data yang sangat besar, menjadi tidak praktis untuk menggunakan
semua titik data untuk menentukan distribusi Kumulatif. Dalam kasus seperti itu,
lebih mudah untuk mengkonversi data ke dalam distribusi Histogram pertama.
Jumlah pita harus ditetapkan dengan maksimum praktis yang menyeimbangkan
kehalusan detail (jumlah besar bar) dengan sering memiliki mendefinisikan besar
array distribusi (angka yang lebih rendah dari bar).
Gambar 7.3 menggambarkan sebuah contoh di mana 221 titik data diplot dalam
bentuk histogram selama rentang dari data yang diamati. Analis menganggap bahwa variabel
dibayangkan bisa berkisar dari nol sampai 300. Karena tidak ada data yang diamati dengan
nilai di bawah 20 dan di atas 280, berkisar histogram bar perlu diubah untuk mengakomodasi
minimal subjektif dan maksimal. Cara termudah untuk mencapai tujuan ini adalah untuk
memperluas jangkauan dari bar pertama dan terakhir dengan non-probabilitas nol untuk
mencakup rentang diperlukan, tetapi tanpa mengubah probabilitasnya. Dalam contoh ini, bar
histogram dengan kisaran 20-40 diperluas ke berbagai 0-40 dan bar dengan kisaran 260-280
diperluas untuk kisaran 260-300. Kami mungkin akan memiliki sedikit membesar-besarkan
taiis distribusi. Namun, jika jumlah bar pada awalnya dipilih cukup besar, akan ada sedikit
pengaruh yang nyata pada model. {x i } array input ke dalam distribusi Kumulatif kemudian
{40, 60, ..., 420260}, maka {x i } array {0.018,0.131, ..., 0.986,0.995} dan minimum dan
maksimum, tentu saja 0 dan 300 masing-masing.
Mengubah distribusi Histogram menjadi distribusi kumulatif mungkin tampak
sedikit berguna ketika Histogram dapat digunakan dalam suatu model analisis risiko. Namun,
teknik ini memungkinkan analisis untuk memilih berbagai lebar bar sesuai kebutuhannya,
seperti dalam contoh di atas, dan oleh karena itu untuk memaksimalkan rincian dalam
distribusi tempat yang membutuhkan.
7.2.2 Pemodelan Variabel Diskrit
Data dari variabel diskrit dapat digunakan untuk menentukan distribusi empiris
dalam dua cara:
Gambar 7.3 Menyesuaikan distribusi empirik dengan data histogram menggunakan distribusi
kumulatif
Jika jumlah nilai x ini tidak berbeda besar, frekuensi data pada setiap nilai x dapat
digunakan langsung untuk menentukan Disribution Diskrit.
Jika jumlah nilai x yang sangat besar, biasanya lebih mudah untuk mengatur data
ke dalam bentuk histogram dan kemudian menentukan distribusi kumulatif, seperti di atas.
Sifat diskrit variabel dapat diperkenalkan kembali oleh embedding distribusi kumulatif di
dalam fungsi (...) standar spreadsheet ROUND.
Opsi yang diuraikan di atas memiliki keunggulan bahwa distribusi berasal dari
data yang diamati akan sangat terpengaruh oleh subjektivitas apapun dan bahwa penggunaan
maksimal data yang telah dibuat dalam mendefinisikan distribusi. Kerugian yang jelas adalah
bahwa proses ini cukup sulit. Namun, data Distribusi fasilitas di Lotus 1-2-3, fasilitas
Histogram di Excel dan laporan statistik BestFit semua bisa membuat menyortir data dan
menghitung frekuensi kumulatif sangat mudah.
7.3 PEMASANGAN SEBUAH DISTRIBUSI TEORITIS ATAS DATA DITINJAU
Bagian ini menjelaskan metode untuk menemukan distribusi teoritis yang paling
sesuai dengan data yang diamati. Sebuah jenis distribusi teoritis dapat dipilih sebagai yang
paling tepat agar sesuai dengan data untuk tiga alasan:
matematika Distribusi adalah sebuah model yang akurat ketidakpastian dalam variabel
yang dipertimbangkan (lihat bagian 7.1)
Distribusi akan cocok dengan data apabila variabel dari type kecocokan ini diketahui
dengan jelas. (lihat bagian 7.1 lagi)
Analisis sederhana harus menemukan teori distribusi dari kecocokan terbaik dari data,
apapun yang mungkin.
Parameter distribusi yang membuat jenis distribusi yang terbaik sesuai dengan data
yang tersedia dapat ditentukan dengan beberapa cara. Teknik yang paling umum adalah
dengan menggunakan estimator maksimum likelihood (MLEs). Parameter (MLEs) dari
distribusi ditemukan bahwa memaksimalkan kepadatan probabilitas gabungan untuk data
yang diamati. MLEs sangat berguna karena, untuk distribusi banyak, mereka menyediakan
cara cepat untuk parameter terbaik. Sebagai contoh, distribusi Normal didefinisikan oleh
mean dan deviasi standar dan MLEs perusahaan mean dan deviasi standar dari data yang
diamati.
7.3.1 Estimator Maksimum Likelihood(MLEs)
Estimator maksimum likelihood dari suatu distribusi adalah nilai-nilai parameter yang
menghasilkan kepadatan maksimum probabilitas gabungan untuk data yang diamati. Dalam
kasus distribusi diskrit, MLEs memaksimalkan probabilitas aktual dari distribusi yang dapat
menghasilkan data yang diamati. Pertimbangkan jenis distribusi probabilitas yang
didefinisikan oleh sebuah parameter tunggal, α. Fungsi likelihood L(α) adalah sebanding
dengan probabilitas bahwa satu set poin n data (x i) dapat dihasilkan dari distribusi dengan
kepadatan probabilitas f(x) atau, dalam kasus distribusi diskrit, massa probabilitas diberikan
oleh
L(α) = ∏ i (x i,α) sehingga L(α) = f(x1 ,α) * f(x2,α)*….*f(xn−1 ,α)*f(xn, α)
Selanjutnya mencari nilai α yang memaksimalkan L(α). Hal ini ditentukan dengan melakukan
diferensial parsial L(α) terhadap α dan menuju ke nol:
δ L(α )δα
= 0
Untuk beberapa jenis distribusi, ini merupakan masalah aljabar relatif yang sederhana, untuk
orang lain persamaan diferensial sangat rumit dan diselesaikan secara numerik sebagai
gantinya. Software seperti BestFit telah membuat proses ini sangat mudah untuk melakukan
secara otomatis, tetapi ada contoh sederhana secara rinci dalam Bagian 7.3.2 untuk tujuan
ilustrasi.
7.3.2 Contoh Derivasi MLEs
Contoh 7.1: Menentukan MLE untuk distribusi eksponensial
Distribusi eksponensial memiliki satu parameter, β. Probabilitas fungsi kepadatan f(x)
diberikan oleh
f(x) =1β
exp(−xβ
)
fungsi likelihoo L(β) adalah,
L(β) =∏i=1
n1β
exp(−xi
β ) =
1
βn exp(−∑
i=1
n
x i
βn
)
Untuk mempermudah perhitungan, kita mendefinisikan I(β) = ln L(β):
I(β) = -n In (β)- 1β∑i=1
n
x i
Nilai maksimum I(β), dan juga L(β), terjadi ketika derivatif parsial terhadap β sama dengan
nol, yaitu
δI (β )δβ
= −nβ
+1β2 ∑
i=1
n
xi = 0
Diberikan
β= 1n∑i=1
n
x i
yaitu β MLE dari distribusi eksponensial adalah mean dari data yang diamati.
Contoh 7.2: Menentukan MLEs untuk distribusi Normal,
distribusi Normal meiliki dua parameter, μ mean dan deviasi standar σ. Probabilitas fungsi
kepadatan f(x) diberikan oleh
f(x) =1
√2 π σ2 exp(-¿¿)
Fungsi likelihood L(μ, σ) = (1
√2 π σ2 )exp (- ∑i=1
n ( xi−µ)2
2σ 2 )
Untuk mempermudah perhitungan, kita kembali definisikan I(β) = ln L(β):
I(µ, σ) = -n2
ln(2 π ) – n ln σ - ∑i=1
n ( xi−µ)2
2 σ 2
Nilai maksimum I(μ, σ), dan karena itu L(μ, σ), terjadi derivatif parsial ketika engkau
sehubungan dengan μ dan σ sama dengan nol, yaitu
δI (µ, σ )δ µ
= -2 ∑i=1
n
x i + 2 µn = 0
Diberikan µ= 1n∑i=1
n
x i=x
Dimana x adalah mean dari data, dan
δI (µ,σ )LP
= −nσ
+ ∑i=1
n ( xi−µ)2
σ 3 = 0
Diberikan
Σ= √∑i=1
n
(x i−µ)2
σ 3
=s
Dimana s standar deviasi dari data yaitu μ dan σ MLEs dari distribusi normal adalah mean
dan deviasi standar dari data yang diamati.
7.3.3 Menemukan Parameter Fitting terbaik menggunakan pemecahan Linear
Gambar 7.4 mengilustrasikan spreadsheet Microsoft Excel dibentuk untuk menemukan parameter dari suatu
distribusi Rayleigh terbaik yang akan cocok dengan 18 poin data yang diamati.
Fungsi distribusi kumulatif untuk distribusi Rayleigh F(x) adalah
F(x) = 1- exp(-x2/2b2)
Dimana b adalah parameter distribusi itu. Microsoft Solver di Excel diatur untuk menemukan
nilai minimum untuk sel F21 (jumlah perbedaan absolut antara di F diamati dan Rayleigh (x)
s) dengan mengubah nilai b di sel C23. Solusi solver untuk b adalah 4.51195, sesuai dengan
cocok ditampilkan dalam bagan Gambar 7.4.
7.3.4 Formalisme Entropi Maksimum
Formalisme entropi maksimum adalah teknik untuk menentukan distribusi dari variabel yang
mewakili ketidakpastian maksimum data yang diamati untuk variabel yang mungkin.
Untuk distribusi kontinu, H(x) ditulis sebagai:
H(x) = ∫−∞
∞
f ( x ) . log f ( x ) .dx
Dimana f(x) adalah probabilitas dari distribusi.Teknik ini dapat diterapkan di mana kita hanya
memiliki pengetahuan yang sangat terbatas dari variabel.
7.4 STATISTIK GOODNESS-OF-FIT
Goodness-of-fit statistic telah banyak dikembangkan tapi hanya 2 yang biasa digunakan.
Yang paling umum adalah chi kuadra (x2¿dan statistik kolmogorov-Smirnoff (K-S) umumnya
digunakan untuk diskrit dan kontinu.
Data yang akan dianalisis bisa masuk dalam salah satu bentuk goodness-of-fit statistic.
Goodness-of-fit statistic tidak mudah untuk dipahami atau ditafsirkan.Tidak memberikan
ukuran propability untuk data sebenarnya berasal dari distribution. Malah, statistik goodness-
of-fit memberikan peluang bahwa data acak yang dihasilkan dari distribusi akan
menghasilkan nilai goodness-of-fit statistic serendah yang dihitung untuk data yang diamati.
Setara dengan probabilitas bahwa data itu, pada kenyataannya, berasal dari pasangan
distribusi, karena mungkin ada distribusi yang memiliki bentuk yang sama dan lebih baik
menghasilkan data ini dan diamati sangat teliti untuk data distribusi normal, karena banyak
distribusi cenderung ke bentuk normal dalam kondisi tertentu.
Nilai-nilai kritis ditentukan oleh tingkat kepercayaan yang diperlukanαyang merupakan
nilai-nilai dari goodness-of-fit statistic yang memiliki probabilitas melebihi yang sama
dengan keyakinan tertentu nilai-nilai level kritis untuk x2 tes ditemukan langsung darix2
distribusi, bentuk dan berbagai distribusix2didefinisikan oleh derajat fredomx2
v=N−a−1
Dimana N = jumlah atau kelas histogram batang
a = sejumlah parameter yang diestimasi untuk menentukan distribusi yang paling
sesuai
7.4.1 Nilai Kritis dan Interval Keyakinan untuk Statistika Goodnesss-of-fit
Bentuk dan jangkauan distribusi didefinisikan oleh derajat kebebasan v:
v =N-a -1.
Dimana jumlah N= Jumlah bar histogram atau kelas
a = parameter yang diperkirakan untuk menentukan distribusi yang paling pas
Gambar 7.5 menunjukkan plot kumulatif turun untuk x2(11), yakni para x2 distribusi dengan
11 derajat kebebasan. Ini plot sebuah kesempatan α 80% (= interval keyakinan) bahwa nilai
akan terjadi yang lebih tinggi dari 6,988 (nilai kritis pada tingkat kepercayaan 80%) untuk
data yang sebenarnya diambil dari distribusi dipasang, yaitu hanya ada 20% kemungkinan
bahwa x2 nilai bisa jadi ini kecil. Jika analis konservatif dan menerima kesempatan ini 80%
dari palsu menolak sesuai dengan, α keyakinannya interval = 80% dan nilai kritis yang terkait
6,988.
Nilai-nilai kritis untuk statistik KS dan AD telah ditemukan oleh simulasi Monte Carlo
(Stephens. 1974, 1977; Chandra et al, 1981). Tabel nilai kritis untuk statistik KS juga sangat
sering ditemukan dalam buku- buku teks statistik. Sayangnya, KS standar dan nilai-nilai AD
penggunaan terbatas untuk membandingkan nilai kritis jika lebih sedikit dari sekitar 30 titik
data. Masalah muncul karena statistik ini dirancang untuk menguji cuaca distribusi dengan
parameter yang dikenal bisa menghasilkan data yang diamati. Jika parameter dari distribusi
dipasang telah diperkirakan dari data tersebut, KS dan statistik AD akan menghasilkan hasil
tes konservatif, yaitu ada kemungkinan lebih kecil dari suatu distribusi baik pas diterima.
Ukuran efek ini bervariasi antara jenis distribusi yang dipasang. Modifikasi statistik KS dan
AD telah ditentukan untuk mengoreksi masalah ini sebagai berikut (lihat manual BestFit
diterbitkan pada tahun 1993) di mana n adalah jumlah titik data dan Dn An2 dimodifikasi KS
dan statistik AD masing-masing:
Kolmogorov-Smirnoff Statistics
Distribution Modified test statistic
Normal(√n - 0.01 +
0.85
√n).Dn
Esponential(Dn –
0.2n
)( √n+ 0.26 + 0.5
√n)
Weibull and extreme Value √n Dn
Lainnya√n+0.12+
0.11
√n).Dn
Anderson-Darling Statistics
Distribution Modified test statistic
Normal(1 +
4n−25
n2 ).An2
Esponential(1+
0.6n
).An2
Weibull and extreme Value ¿)An2
Lainnya An2
7.4.2 Statistik Goodness of fit Chi Square
Statistik Chi Square ( χ2) mengukur sebaik mana memperkirakan frekuensi distribusi yang sesuai dibandingkan dengan frekuensi dari histogram data yang diamati. Tes Chi Square membuat asumsi berikut :
1. Data yang diamati berisi sampel acak dari n titik data independent.2. Ukuran skala bias nominal (yakni numeric) atau menurut angka (numerical)3. n titik data dapat diurut ke dalam bentuk histogram dengan N kelas non-overlapping
atau bar yang menutup keseluruhan range yang mungkin dari variabel.
Statistik Chi square dihitung sebagai berikut :
χ2=∑i=1
n {O (i )−E (i)}2
E(i)
dimana O(i) adalah frekuensi yang diamati pada histogram kelas ke-i atau bar dan E(i) adalah frekuensi yang diharapkan dari distribusi yang sesuai pada nilai x yang jatuh dengan range-x pada bar histogram ke-i. E(i) dihitung dengan :
E (i )={F (imaks )−F (imin )}∗n
Dimana F (x) = Fungsi distribusi dari fitted distribution
imaks = nilai x batas atas pada histogram bar ke-i
imin = nilai x batas bawah pada histogram bar ke-i
Karena statistic χ2 menjumlahkan kuadrat dari semua error {O ( i )−E ( i ) }, maka statistic χ2 dapat secara tidak sebanding, sensitive ke nilai error apapun yang besar misalnya, jika error dari 1 bar adalah 3 kali dari bar yang lain, sehingga akan menambah 9 kali lebih pada statistic (asumsikan E(i) sama untuk keduanya).
χ2 adalah yang paling umum digunakan pada statistic goodness of fit yang digambarkan di
sini dan sangat bergantung pada jumlah bar N yang digunakan. Dengan mengganti nilai dari N, salah satunya dapat dengan mudah mengganti tingkatan antara 2 tipe distribusi. Sayangnya, tidak ada cara cepat untuk memilih nilai dari N. Sebagai panduan, bagaimanapun, aproksimasi Scott Normal, digunakan dengan memakai software BestFit yang biasanya
tampak untuk bekerja sangat baik: N=(4 n)2/5
Di mana n adalah jumlah titik data. Panduan lain yang berguna adalah memastikan bahwa tidak ada bar yang memiliki frekuensi harapan yang lebih kecil dari sekitar 1, yakni E(i)≥ 1
untuk semua i. Catatan bahwa statistic χ2 tidak membutuhkan semua atau bar histogram apapun yang memiliki lebar sama.
Statistic χ2 paling berguna untuk fitting distribution untuk data diskrit dan hanya satu-satunya statistic yang digambarkan di sini yang dapat digunakan untuk data nominal (yakni non-numeric).
Contoh 7.4: Penggunaan χ2 untuk data kontinu
Susunan data dari 156 titik memiliki distribusi Normal(70,20). Pertama-tama, datanya ditempatkan dalam bentuk histogram dengan 14 bar sebagai usulan menggunakan aproksimasi normal Scott’s (Tabel 7.1(a)). 4 bar ekstrim memiliki frekuensi harapan di bawah 1 untuk distribusi normal (70,20) dengan 156 pengamatan. Bar ini kemudian dikombinasikan untuk menghasilkan revisi set dari jarak bar. Bar ekstrim sekarang memiliki frekuensi harapan 1.02HipotesisH 0 : Data datang dari distribusi Normal (70,20)
H 1: Data tidak datang dari distribusi Normal (70,20)
KesimpulanTest statistic χ2 memiliki nilai 21.0 dari tabel 7.1(b). Terdapat v=N−1=12−1=11 derajat bebas ¿ ketika tidak ada parameter distribusi yang ditentukan dari data). Perhatikan pada distribusi χ2(11), peluang yang akan kita miliki nilai χ2 yang tinggi ketika H 0 benar adalah di bawah 2%. Kemudian kita menyimpulkan bahwa data tidak datang dari distribusi Normal (70,20).
Contoh 7.5: Penggunaan χ2 untuk data diskrit
Kumpulan dari 136 titik data dipercayai berasal dari distribusi Poisson. MLE untuk parameter λ untuk Poisson diestimasikan dengan mengambil mean dari titik data: λ=4.4559 . Data ditabulasikan pada bentuk frekuensi pada tabel 7.2 dan kemudian pada data tersebut frekuensi harapan dari distribusi Poisson(4.4559) yakni E ( i )=f (x )∗136, di mana
f ( x )= e−4.4559 4.4559x
x !Tabel 7.1 Perhitungan statistik χ2 untuk data kontinu: (a) menentukan jarak bar yang
digunakan; (b) Perhitungan χ2 dengan merevisi jarak barHistogram BarDari A Ke B
Frekuensi Harapan dari Normal (70,20)
Revisi BarDari A ke B
E(i) dariNormal (70,20)
O(i) Perhitungan χ2
{O ( i )−E ( i ) }2/ E(i)−∞ 10 0.22 −∞ 20 1.02 3 3.84352910 20 0.80 20 30 2.73 5 1.88750920 30 2.73 30 40 7.27 6 0.22185730 40 7.27 40 50 15.15 10 1.7506640 50 15.15 50 60 24.73 21 0.56259250 60 24.73 60 70 31.59 25 1.37474260 70 31.59 70 80 31.59 37 0.92649970 80 31.59 80 90 24.73 21 0.56259280 90 24.73 90 100 15.15 17 0.22590890 100 15.15 100 110 7.27 11 1.913741
100 110 7.27 110 120 2.73 6 3.916813110 120 2.73 120 −∞ 1.02 3 3.843529120 130 0.80130 −∞ 0.22 Chi squared 20.96755
Tabel 7.2 Perhitungan statistik χ2 untuk data diskrit : (a) Tabulasi data; (b) Perhitungan χ2
Nilai xFrekuensi
Pengamatan O(i)Frekuensi E(i) dari
Poisson(4.456)Nilai
xFrekuensi
Pengamatan O(i)3Frekuensi E(i) dari Poisson(4.456)4
Perhitungan
χ2 {O(i)-E(i)}2-E(i)
0 0 1.579 0 0 1.579 1.5791 8 7.036 1 8 7.036 0.13212 18 15.675 2 18 15.675 0.34493 20 23.282 3 20 23.282 0.46274 29 25.936 4 29 25.936 0.36205 21 23.113 5 21 23.113 0.19326 18 17.165 6 18 17.165 0.0406
7 10 10.926 7 10 10.926 0.07858 8 6.086 8 8 6.086 0.60199 2 3.013 9 2 3.013 0.3406
10 1 1.343 10+ 2 2.189 0.016311+ 1 0.846
Total 136 Chi squared: 4.152
Frekuensi harapan dari nilai 11+, dihitung sebagai 136- (jumlah dari semua frekuensi harapan lainnya), adalah kurang dari 1. Jumlah bar kemudian berkurang ditunjukkan pada tabel 7.2(b), untuk memastikan bahwa semua frekuensi harapan lebih besar dari 1.
Hipotesis
H 0 : Data berasal dari distribusi Poisson
H 1: Data tidak berasal dari ditribusi Poisson
Kesimpulan
Uji statistic χ2 memiliki nilai 4.152 pada tabel 7.2(b). Terdapat nilai v=N−a−1=11−1−1=9 derajat kebebasan (a=1ketika 1 parameter distribusi, mean,
ditentukan dari data). Perhatikan distribusi χ2(9), peluang bahwa kita akan mendapatkan
nilai χ2 yang tinggi ketika H 0 benar di atas 90%. Ketika ini adalah peluang yang besar, kita
tidak layak menolak H 0 dan kemudian menyimpulkan bahwa data sesuai untuk ditribusi Poisson (4.4559).
Contoh 7.6: Penggunaan χ2 dengan data nonnumeric
Permainan baru telah ditemukan dan, sehubungan dengan itu, perlengkapan yang secara acak memilih bola dari drum berputar. Terdapat jumlah yang sama dari bola hitam, biru, merah, hijau dan putih pada drum. Bola apapun yang dipilih, digantikan sebelum seleksi berikutnya. Bola berwarna yang berbeda berasal dari pabrik yang berbeda sehingga perancang permainan ingin memastikan bahwa pemilihan benar-benar acak. Mesin diuji 200 kali, ditunjukkan pada tabel 7.3. Apakah peluang bahwa bola menjadi dipilih secara acak?
Tabel 7.3 Perhitungan statistik χ2 untuk data nonnumerik
Warna Bola Frekuensi Pengamatan O(i)
Frekuensi Harapan E(i)
Perhitungan Chi Square
{O(i)-E(i)}2/E(i)Hitam 51 40 3.0250Biru 44 40 0.4000
Merah 35 40 0.6250Hijau 40 40 0.0000Putih 30 40 2.5000
200 6.5500
Ini adalah pertanyaan yang ekuivalen: apakah peluang bahwa frekuensi bola berdistribusi seragam? Uji χ2 dapat dihitung pada frekuensi pengamatan dan memakai frekuensi harapan dari n /N , ditunjukkan pada tabel.
Hipotesis
H 0 : Bola berdistribusi secara acak
H 1: Bola tidak berdistribusi secara acak
Keputusan
Uji statistic χ2 memiliki nilai 6.44 pada tabel 7.3. Terdapat n=N−a−1=5−0−1=4 derajat bebas (a=0ketika tidak ada parameter distribusi yang dibutuhkan untuk ditentukan dari data).
Perhatikan pada distribusi χ2(4), peluang bahwa kita akan memiliki nilai yang tinggi untuk
χ2 ketika H 0 benar kurang dari 20%, sehingga kita dapat layak menolak H 0 dan kemudian
simpulkan bahwa bola tidak dipilih secara acak.
7.4.3 Statistik Kolmogorov-Smirnov(K-S)K-S statistic Dn didefinisikan sebagai berikut
Dn=max [|Fn (x )−F ( x )|]Dimana Dn diketahui sebagai jarak K-S
N = jumlah total titik dataF(x) = Fungsi distribusi dari fitted distributionFn(x)= Percentil kumulatif dari tiap titik data
i = Tingkat kumulatif dari titik dataJadi, Statistik K-S hanya terkait dengan jarak vertical antara fungsi distribusi kumulatif pada fitted distribution dan distribusi kumulatif dari data. Gambar 7.6 mengilustrasikan konsep dari fitted data untuk distribusi seragam(0,1).
Gambar 7.6 Perhitungan Jarak Dn Kolmogorov-Smirnov untuk data fit pada distribusi Seragam (0,1)
Data diatur dalam urutan menaik
Persentil kumulatif bagian atas FU (i) dan bagian bawah FL (i) dihitung sebagai
berikut:
FL ( i )= i−1n
FU (i )= in
Di mana i = tingkatan dari titik data dan n = jumlah total titik data F (x) dihitung untuk distribusi seragam (dalam hal ini F ( x )=x ¿ .
Jarak maksimum Di antara F (i) dan F (x) dihitung untuk tiap i:
Di=MAX (|(F ( x )−FL (i ) )|,|(F ( x )−FU (i ) )|)Di mana |(…)| mendapatkan nilai absolut
Nilai maksimum dari jarak Di selanjutnya adalah jarak Di K-S :Dn=MAX ({Di })
Statistik K-S biasanya lebih beguna dibandingkan statistic χ2 di mana data ditaksir pada semua titik data dan menghindari masalah untuk menentukan ikatan-ikatan untuk membagi data. Bagaimanapun nilainya hanya ditentukan oleh salah satu nilai yang memiliki ketidakcocokan yang terbesar dan tidak mengambil laporan dari lack(kekurangan) dari fit melewati ditribusi sisa. Dengan demikian, pada gambar 7.7, akan memberikan fit terburuk pada distribusi pada (a) yang memiliki satu ketidakcocokan terbesar disbanding distribusi pada (b) yang memiliki general fit yang buruk di atas jarak-x keseluruhan.
Jarak vertical antara distribusi Fn(x) yang diamati dan teoritis ditribusi fitted F (x) pada semua titik, katakanlah x0, itu sendiri memiliki distribusi dengan rataan dari nol dan
standar deviasi σ K −S yang diberikan dengan
σ K −S=√ F ( x0 )[1−F ( x0 )]n
Gambar 7.7 Bagaimana jarak Dn K-S dapat memberikan ukuran fit yang salah karena
kepercayaannya pada jarak tunggal paling besar antara 2 distribusi kumulatif dibanding melihat jarak di luar range yang mungkin: (a) distribusi umumnya good fit kecuali di salah satu area tertentu;
(b) distribusi umumnya poor fit tetapi dengan tidak satupun ketidakcocokan yang besar
Ukuran dari standar deviasi σ K −S di luar jarak x ditunjukkan pada gambar 7.8 untuk sejumlah
tipe distribusi dengan n=100. Posisi Dn sepanjang sumbu-x lebih mungkin terjadi di mana σ K −S paling besar yang, gambar 7.8 tunjukkan, akan biasanya keluar dari dasar pangkal
probabilitas. Ketidaksensitifan dari statistic K-S ini pada lack(kekurangan) fit pada ekstrim dan distribusi adalah benar untuk statistic Darling-Anderson.
Contoh 7.7: Penggunaan Statistik K-S
Tabel 7.4 mengilustrasikan perhitungan jarak Dn dari statistic K-S untuk 12 ukuran dari persentase oksigen yang dihancurkan pada eksperimen biokimia. Data diuji pada distribusi Beta(16,45) yang mana analisis sebelumnya menyatakan bahwa, seharusnya good fit. Proses perhitungannya sebagai berikut.
Gambar 7.8 Variasi standar deviasi dari Statistik K-S Dn di luar range dari berbagai distribusi. Standar
deviasi lebih besar, kesempatan lebih bahwa Dn akan jatuh pada bagian range, yang menunjukkan bahwa
statistic K-S akan cenderung focus pada derajat fit pada nilai x keluar dari ujung distribusi
Tabel 7.4 Perhitungan Jarak K-S Dn untuk contoh 7.7
i Data Pengamatan Batas Bawah F(i) Batas Atas F(i) F(x) untuk Beta (16,45)
Di
1 16.60% 0.000 0.083 0.033 0.0512 19.75% 0.083 0.167 0.120 0.0463 23.26% 0.167 0.250 0.311 0.1454 25.17% 0.250 0.333 0.443 0.1935 25.85% 0.333 0.417 0.491 0.1586 27.38% 0.417 0.500 0.598 0.1817 27.95% 0.500 0.583 0.636 0.1368 29.49% 0.583 0.667 0.728 0.1459 29.83% 0.667 0.750 0.747 0.081
10 31.20% 0.750 0.833 0.814 0.06411 34.57% 0.833 0.917 0.925 0.09212 39.87% 0.917 1.000 0.988 0.072
Dn 0.193
Data diurutkan menaik (ascending)
Persentil kumulatif batas atas FU (i) dan batas bawah FL (i) dihitung sebagai berikut:
Di=MAX (|(F ( x )−FL (i ) )|,|(F ( x )−FU (i ) )|)Di mana ABS(…) adalah nilai absolute.
F (x) dihitung untuk distribusi Beta menggunakan fungsi Excel BETADIST().
Nilai maksimum dari jarak Di adalah jarak Dn selanjutnya dari K-S Dn=MAX ({Di })
Pada contoh ini, Dn=0,193 pada titik data ke-4, ditandai dengan persegi hitam pada grafik pada gambar 7.9.
Gambar 7.9 Menghitung jarak K-S Dn untuk contoh 7.7
7.4.4 Statistik Anderson-Darling (A-D)
Statistik A-D An2 didefinisikan sebagai :
An2=∫
−∞
∞
|Fn ( x ) . F ( x )|2Ψ ( x ) f ( x ) dx
Di mana Ψ ( x )= nF ( x ){1−F ( x ) }
n = jumlah banyaknya titik data
F(x) = fungsi ditribusi dari fitted distribution
f(x) = fungsi kepadatan dari fitted distribution
Fn ( x )=i /n
i = tingkatan kumulatif dari titik data
Statistik Darling-Anderson adalah versi canggih dari statstik K-S dan lebih kuat dengan alas an berikut :
Ψ (x ) mengganti kerugian untuk peningkatan variansi dari jarak vertical antara
distribusi σ K −S2, yang digambarkan pada bagian 7.4.3 dan gambar 7.8
Jarak vertical antara distribusi adalah kuadratik, mengganti kerugian dari perubahan pada variansi (variansi menjadi kuadrat dari standar deviasi).
f (x) menimbang jarank pengamatan menggunakan peluang nilainya akan
menghasilkan nilai-x Jarak vertical diintegrasikan di atas semua nilai dari x untuk membuat penggunaan
maksimum pada data pengamatan (statistic K-S terlihat hanya pada jarak vertical maksimum).
Oleh karena itu statistik A-D biasanya lebih berguna mengukur fit dari pada statistik K-S khususnya ketika sangat penting untuk menempatkan penekanan yang sama dalam menyesuaikan distribusi. Selain itu, statistic A-D sangat praktikal untuk menghitung manual. Bagaimanapun, paket software seperto BestFit akan menampilkan perhitungan secara automatic.
7.4.5 Menggunakan statistik Godness-fit untuk mengoptimalkan Distribution Fitting
Godness-of-fit statistic dapat digunakan dengan solusi linear untuk menemukan parameter yang menghasilkan fit terdekat dari sebuah distribusi dengan data pengamatan. Gambar 7.10 mengilustrasikan hasil dari contoh sederhana pada Microsoft Excel.
Gambar 7.10 Menemukan parameter fit terbaik untuk distribusi dengan mengoptimalkan statistik goodness-of-fit (dalam hal ini X2)
Prosesnya sebagai berikut :
Para MLE dari distribusi dilengkapi (atau kira wajar untuk parameter paling cocok)
ditetapkan. MLE p untuk distribusi geometrik diberikan oleh
p= 11+x
(¿0,5988untuk dataini)
Dimana x adalah rata-rata dari titik data.
spreadsheet adalah tertulis yang menghitung statistik kebaikan-of-fit yang relevan
(dalam hal ini kasus X2)Dengan MLE (menggunakan gambar memberikan atas)
diplayed di sel terpisah (dalam C12 kasus) bahwa E(i) perhitungan nilai merujuk
pada statistik X yang juga ditampilkan di sel terpisah (E11 pada contoh ini).
7.5 PLOT GOODNESS-OF-FIT
Plot Goodness-of-fit memberikan analisis perbandingan visual antara data dan distribusi
fit yang dilengkapi gambaran keseluruhan kesalahan dengan cara bahwa statistik
goodness-of-fit tidak dapat dan memungkinkan analis untuk memilih distribusi yang
paling cocok yang lebih kualitatif dan intuitif.
7.5.1 Perbandingan kepadatan probabilitas
Overlay plot histogram dari data dengan fungsi kepadatan dari distribusi dipasang
biasanya perbandingan paling informatif (lihat Gambar 7.11 (a)) Sangat mudah untuk
melihat di mana perbedaan utama dan apakah bentuk umum dari data yang digunakan.
membandingkan distribusi skala yang sama baiknya.The dan jumlah bar histogram harus
digunakan untuk semua plot jika perbandingan langsung dari beberapa distribusi cocok
akan dilakukan untuk data yang sama.
Gambar 7.11(a) Contoh plot goodness-of-fit: Perbandingan kepadatan peluang untuk Input dan Distribusi
Normal;
7.5.2 Perbandingan Distribusi Probabillity
Sebuah overlay plot frekuensi kumulatif data dan distribusi dipasang kadang-kadang
digunakan (lihat gambar 7.11 (b). Namun plot ini memiliki skala yang sangat sensitif dan
frekuensi kumulatif jenis distribusi yang paling mengikuti jenis yang sangat mirip kurva-
S.This dari plot karena itu hanya akan muncul perbedaan yang sangat besar antara data
theb dan distribotions dipasang dan umumnya tidak direkomendasikan sebagai ukuran
visual kebaikan fit.
Gambar 7.11(b) Perbandingan Peluang kumulatif untuk input dan distribusi Normal;
7.5.3 Perbedaan antara Densitas probabilitas
Plot ini berasal dari perbandingan kepadatan probabilitas, di atas, menggambarkan
perbedaan antara kerapatan probabilitas (lihat Gambar 7.11(c)).
Ini memiliki skala jauh lebih sensitif dibandingkan dengan plot lain dijelaskan ukuran
here.The dari penyimpangan juga merupakan fungsi dari jumlah kelas (bar) gunakan
untuk plot urutan histogram.In untuk membuat perbandingan langsung antara fungsi
distribusi yang lain cocok menggunakan jenis plot, analis harus memastikan bahwa
jumlah yang sama dari kelas Histogram digunakan untuk plots.
Gambar 7.11(c) Perbandingan kepadatan peluang untuk Input dan Distribusi Normal;
7.5.4 Probabilitas-probabilitas (P-P)
Ini adalah plot dari distribusi kumulatif F kurva dipasang (x) terhadap frekuensi kumulatif
Fn ( x )= in
untuk semua nilai x i (lihat gambar 7.11 (d)). Pencocokan terbaik, semakin dekat
dengan plot ini yang menyerupai garis lurus lurus dan dapat berguna jika salah satu
tertarik pada pencocokan erat persentil kumulatif dan ia akan menampilkan perbedaan
yang signifikan antara Pertengahan dari distribusi. Bagaimanapun, plot yang jauh lebih
peka terhadap perbedaan dalam fit daripada perbandingan probabilitas kepadatan plot dan
karena itu tidak sering digunakan dan juga bisa agak membingungkan bila digunakan
untuk memeriksa data diskrit yang cocok dan cukup baik dapat dengan mudah ditutupi,
terutama jika hanya ada beberapa diijinkan nilai-x.
Gambar 7.11(d) Plot P-P membandingkan Input dan distribusi Normal;
7.5.5 Kuantil-Kuantil (Q - Q) Plot
Ini adalah plot dari data yang diamati x i terhadap nilai-nilai x dimana
F ( x )=Fn ( x ) , i , e=i /n (lihat gambar 7.11 (e)). Seperti plot P-P, pencocokan yang lebih
baik, yang lebih dekat dengan plot ini menyerupai garis lurus. Plot ini dapat bermanfaat
jika ada yang cukup tertarik pada pencocokan persentil kumulatif dan ia akan
menampilkan perbedaan yang signifikan antara ujung dari distribusi. Bagaimanapun, plot
ini memberikan masalah insensitivitas sama dengan petak P-P plot.
. Gambar 7.11(e) Plot Q-Q membandingkan Input dan Distribusi Normal;