distribusi dari data

Tugas IIRiset Pemasaran dan Manajemen Resiko

BAB 7

MENDAPATKAN DISTRIBUSI DARI DATA

OLEH :

KELOMPOK V

RISWANDI H12107001

FADLI LANTERA H12107003

HADIJAH H12107005

SITI ZUHURIA H12107007

KHALILAH NURFADILAH H12107014

A. RANUWIRAWAN R. H12107026

JURUSAN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS HASANUDDIN

MAKASSAR

2010

BAB 7

MENDAPATKAN DISTRIBUSI DARI DATA

Bab ini dimulai dengan mendorong analis untuk meninjau data yang telah

tersedia dan karakteristik dari variabel yang akan dimodelkan. Beberapa teknik tersebut

kemudian dibahas yang memungkinkan analisis untuk menggunakan data yang tersedia untuk

menentukan distribusi dipasang secara empiris. Kelebihan utama dari pendekatan intuitif ini

adalah kesederhanaan penggunaan dan penghilangan distribusi teoritis yang tidak tepat atau

membingungkan.

Teknik ini kemudian dijelaskan untuk distribusi teoritis dipasang pada data yang

diamati, termasuk penggunaan penduga maksimum likelihood, tingkat kebaikan statistika dan

plot. Akhirnya, beberapa teknik yang dibahas untuk membantu model probabilitas.

7.1 Menganalisis Sifat Data Yang Diamati

Sebelum mencoba untuk menyesuaikan distribusi probabilitas untuk satu set data

yang diamati, ada baiknya pertama mempertimbangkan sifat dari variabel yang bersangkutan.

Sifat-sifat distribusi atau distribusi yang dipilih untuk dipasang dengan data harus sesuai

dengan variabel yang dimodelkan. Perangkat lunak seperti best fit telah membuat distribusi

yang tepat untuk data yang sangat mudah dan dihapus perlu untuk setiap pengetahuan

statistik yang mendalam. Produk-produk ini umumnya sangat berguna tetapi, melalui

otomatisasi dan kemudahan penggunaan, sengaja mendorong pengguna untuk mencoba

cocok untuk distribusi sepenuhnya tidak pantas. Sementara saya sangat mendukung

penggunaan perangkat lunak pas distribusi tersebut, perlu mempertimbangkan hal-hal berikut

sebelum mencoba cocok dengan:

Sebuah variabel diskrit hanya dapat mengambil satu nilai yang spesifik, misalnya

jumlah jembatan di sepanjang jalan raya, tapi pengukuran seperti volume aspal, misalnya,

terus menerus. Sebuah variabel yang diskrit di alam biasanya, namun tidak selalu, paling

sesuai untuk suatu distribusi diskrit. Sebuah pengecualian yang sangat umum adalah di mana

selisih antara nilai-nilai yang diijinkan bersebelahan tidak signifikan dibandingkan dengan

rentang bahwa variabel dapat berlangsung.

Dalam keadaan tertentu, distribusi diskrit bisa sangat erat didekati dengan

distribusi kontinu untuk nilai x yang besar.Jika sebuah variabel diskrit telah dimodelkan

dengan distribusi kontinu untuk kenyamanan, sifat diskrit dengan mudah bisa dimasukkan

kembali ke dalam model analisis risiko.

Distribusi harus dilengkapi, dalam alasan, mencakup rentang di mana variabel

yang dimodelkan secara teoritis dapat diperpanjang. Jika distribusi dipasang mungkin

melampaui jangkauan variabel, sebuah model analisis risiko akan menghasilkan skenario

mustahil. Jika distribusi gagal untuk memperpanjang selama rentang mungkin seluruh

variabel, analisa resiko tidak akan mencerminkan ketidakpastian yang benar dari masalah.

Variabel mungkin berkorelasi dengan, atau fungsi, variabel lain dalam model dan

juga mungkin terkait dengan variabel lain di luar model yang, pada gilirannya,

mempengaruhi variabel ketiga dalam model analisis resiko. Gambar 7.1 mengilustrasikan

beberapa contoh.

Gambar 7.1 Contoh dari keterikatan antara variabel-variabel model: a. Langsung b. Tidak langsung

Dalam contoh (a), sebuah bank, pendapatannya dimodelkan sebagai fungsi dari

bunga dan nilai hipotek, antara lain. Tingkat KPR berkorelasi dengan tingkat bunga karena

tingkat suku bunga sebagian besar mendefinisikan bagaimana suku bunga KPR seharusnya.

Hubungan ini harus disertakan dalam model simulasi untuk memastikan bahwa hanya akan

menghasilkan skenario yang berarti. Ada dua pendekatan untuk ini:

1. Tentukan distribusi untuk tingkat hipotek dan bunga berdasarkan data historis dan

kemudian mengkorelasikan sampling dari distribusi selama simulasi.

2. Tentukan distribusi suku bunga dari data historis dan hubungan (stokastik)

fungsional dengan tingkat hipotek.

Pada contoh (b) gambar 7.1, adalah menghitung harga tawaran untuk memasok

tenaga kerja untuk pekerjaan atap. Pemilihan bahan atap belum diputuskan dan

ketidakpastian ini memiliki implikasi untuk jam orang-yang akan dibutuhkan untuk

membangun atap dan kayu untuk meletakkan atap. Ada karena itu merupakan hubungan tidak

langsung antara kedua variabel yang dengan mudah bisa saja terlewatkan, dia tidak melihat di

luar komponen langsung dari perhitungan biaya nya. Hilang korelasi ini akan menghasilkan

meremehkan penyebaran biaya subkontraktor dan berpotensi menyebabkan dia untuk

penawaran harga yang terkena dia untuk kerugian yang signifikan. Hal ini dapat dilihat

bahwa korelasi merupakan bagian penting dari analisis risiko banyak. Bab 10 menjelaskan

beberapa teknik untuk model korelasi antar variabel.

Jika distribusi diketahui cocok dekat dengan jenis variabel yang dimodelkan,

biasanya sebagai hasil karya akademis diterbitkan, semua yang tersisa adalah untuk

menemukan parameter fitting terbaik, seperti yang dijelaskan dalam bagian 7.3.

7.2 PENERAPAN DISTRIBUSI EMPIRIS PADA DATA YANG DIAMATI

7.2.1 Pemodelan Variabel kontinu

Jika data yang diamati kontinu dan cukup luas, biasanya cukup untuk menggunakan plot

frekuensi kumulatif titik data untuk menentukan distribusi probabilitasnya

Gambar 7.2 Menyesuaikan distribusi empiris kontinu pada data menggunakan distribusi

kumulatif

Gambar 7.2 menggambarkan sebuah contoh dengan 18 titik data. diamati F(x)

dihitung sebagai nilai-nilai yang diharapkan F (x) yang akan sesuai dengan sampling acak

dari distribusi, yaitu F (x i)=i

(n+1) dimana i adalah peringkat titik data yang teramati dan n

adalah jumlah titik data.

minimum dan maksimum untuk distribusi empiris subyektif ditentukan

berdasarkan pengetahuan analis dari variabel. Untuk variabel kontinu, nilai-nilai

ini umumnya di luar jangkauan dari data yang diamati. Nilai minimum dan

maksimum yang dipilih adalah nol dan 45.

Data titik adalah peringkat dalam urutan antara nilai minimum dan maksimum.

Probabilitas kumulatif F (x) untuk setiap nilai x dihitung sebagai berikut:

Ini formula untuk F (x) digunakan karena tempat semua x i s terhadap persentil

kumulatif diharapkan yang akan diamati jika titik data dipilih secara acak dari

distribusi. Karena itu memaksimalkan kesempatan mereplikasi distribusi yang

benar.

Kedua array, {x i } dan {F (x i)}, bersama dengan nilai minimum dan maksimum,

maka dapat digunakan sebagai masukan langsung ke dalam distribusi kumulatif.

Jika ada jumlah data yang sangat besar, menjadi tidak praktis untuk menggunakan

semua titik data untuk menentukan distribusi Kumulatif. Dalam kasus seperti itu,

lebih mudah untuk mengkonversi data ke dalam distribusi Histogram pertama.

Jumlah pita harus ditetapkan dengan maksimum praktis yang menyeimbangkan

kehalusan detail (jumlah besar bar) dengan sering memiliki mendefinisikan besar

array distribusi (angka yang lebih rendah dari bar).

Gambar 7.3 menggambarkan sebuah contoh di mana 221 titik data diplot dalam

bentuk histogram selama rentang dari data yang diamati. Analis menganggap bahwa variabel

dibayangkan bisa berkisar dari nol sampai 300. Karena tidak ada data yang diamati dengan

nilai di bawah 20 dan di atas 280, berkisar histogram bar perlu diubah untuk mengakomodasi

minimal subjektif dan maksimal. Cara termudah untuk mencapai tujuan ini adalah untuk

memperluas jangkauan dari bar pertama dan terakhir dengan non-probabilitas nol untuk

mencakup rentang diperlukan, tetapi tanpa mengubah probabilitasnya. Dalam contoh ini, bar

histogram dengan kisaran 20-40 diperluas ke berbagai 0-40 dan bar dengan kisaran 260-280

diperluas untuk kisaran 260-300. Kami mungkin akan memiliki sedikit membesar-besarkan

taiis distribusi. Namun, jika jumlah bar pada awalnya dipilih cukup besar, akan ada sedikit

pengaruh yang nyata pada model. {x i } array input ke dalam distribusi Kumulatif kemudian

{40, 60, ..., 420260}, maka {x i } array {0.018,0.131, ..., 0.986,0.995} dan minimum dan

maksimum, tentu saja 0 dan 300 masing-masing.

Mengubah distribusi Histogram menjadi distribusi kumulatif mungkin tampak

sedikit berguna ketika Histogram dapat digunakan dalam suatu model analisis risiko. Namun,

teknik ini memungkinkan analisis untuk memilih berbagai lebar bar sesuai kebutuhannya,

seperti dalam contoh di atas, dan oleh karena itu untuk memaksimalkan rincian dalam

distribusi tempat yang membutuhkan.

7.2.2 Pemodelan Variabel Diskrit

Data dari variabel diskrit dapat digunakan untuk menentukan distribusi empiris

dalam dua cara:

Gambar 7.3 Menyesuaikan distribusi empirik dengan data histogram menggunakan distribusi

kumulatif

Jika jumlah nilai x ini tidak berbeda besar, frekuensi data pada setiap nilai x dapat

digunakan langsung untuk menentukan Disribution Diskrit.

Jika jumlah nilai x yang sangat besar, biasanya lebih mudah untuk mengatur data

ke dalam bentuk histogram dan kemudian menentukan distribusi kumulatif, seperti di atas.

Sifat diskrit variabel dapat diperkenalkan kembali oleh embedding distribusi kumulatif di

dalam fungsi (...) standar spreadsheet ROUND.

Opsi yang diuraikan di atas memiliki keunggulan bahwa distribusi berasal dari

data yang diamati akan sangat terpengaruh oleh subjektivitas apapun dan bahwa penggunaan

maksimal data yang telah dibuat dalam mendefinisikan distribusi. Kerugian yang jelas adalah

bahwa proses ini cukup sulit. Namun, data Distribusi fasilitas di Lotus 1-2-3, fasilitas

Histogram di Excel dan laporan statistik BestFit semua bisa membuat menyortir data dan

menghitung frekuensi kumulatif sangat mudah.

7.3 PEMASANGAN SEBUAH DISTRIBUSI TEORITIS ATAS DATA DITINJAU

Bagian ini menjelaskan metode untuk menemukan distribusi teoritis yang paling

sesuai dengan data yang diamati. Sebuah jenis distribusi teoritis dapat dipilih sebagai yang

paling tepat agar sesuai dengan data untuk tiga alasan:

matematika Distribusi adalah sebuah model yang akurat ketidakpastian dalam variabel

yang dipertimbangkan (lihat bagian 7.1)

Distribusi akan cocok dengan data apabila variabel dari type kecocokan ini diketahui

dengan jelas. (lihat bagian 7.1 lagi)

Analisis sederhana harus menemukan teori distribusi dari kecocokan terbaik dari data,

apapun yang mungkin.

Parameter distribusi yang membuat jenis distribusi yang terbaik sesuai dengan data

yang tersedia dapat ditentukan dengan beberapa cara. Teknik yang paling umum adalah

dengan menggunakan estimator maksimum likelihood (MLEs). Parameter (MLEs) dari

distribusi ditemukan bahwa memaksimalkan kepadatan probabilitas gabungan untuk data

yang diamati. MLEs sangat berguna karena, untuk distribusi banyak, mereka menyediakan

cara cepat untuk parameter terbaik. Sebagai contoh, distribusi Normal didefinisikan oleh

mean dan deviasi standar dan MLEs perusahaan mean dan deviasi standar dari data yang

diamati.

7.3.1 Estimator Maksimum Likelihood(MLEs)

Estimator maksimum likelihood dari suatu distribusi adalah nilai-nilai parameter yang

menghasilkan kepadatan maksimum probabilitas gabungan untuk data yang diamati. Dalam

kasus distribusi diskrit, MLEs memaksimalkan probabilitas aktual dari distribusi yang dapat

menghasilkan data yang diamati. Pertimbangkan jenis distribusi probabilitas yang

didefinisikan oleh sebuah parameter tunggal, α. Fungsi likelihood L(α) adalah sebanding

dengan probabilitas bahwa satu set poin n data (x i) dapat dihasilkan dari distribusi dengan

kepadatan probabilitas f(x) atau, dalam kasus distribusi diskrit, massa probabilitas diberikan

oleh

L(α) = ∏ i (x i,α) sehingga L(α) = f(x1 ,α) * f(x2,α)*….*f(xn−1 ,α)*f(xn, α)

Selanjutnya mencari nilai α yang memaksimalkan L(α). Hal ini ditentukan dengan melakukan

diferensial parsial L(α) terhadap α dan menuju ke nol:

δ L(α )δα

= 0

Untuk beberapa jenis distribusi, ini merupakan masalah aljabar relatif yang sederhana, untuk

orang lain persamaan diferensial sangat rumit dan diselesaikan secara numerik sebagai

gantinya. Software seperti BestFit telah membuat proses ini sangat mudah untuk melakukan

secara otomatis, tetapi ada contoh sederhana secara rinci dalam Bagian 7.3.2 untuk tujuan

ilustrasi.

7.3.2 Contoh Derivasi MLEs

Contoh 7.1: Menentukan MLE untuk distribusi eksponensial

Distribusi eksponensial memiliki satu parameter, β. Probabilitas fungsi kepadatan f(x)

diberikan oleh

f(x) =1β

exp(−xβ

)

fungsi likelihoo L(β) adalah,

L(β) =∏i=1

n1β

exp(−xi

β ) =

1

βn exp(−∑

i=1

n

x i

βn

)

Untuk mempermudah perhitungan, kita mendefinisikan I(β) = ln L(β):

I(β) = -n In (β)- 1β∑i=1

n

x i

Nilai maksimum I(β), dan juga L(β), terjadi ketika derivatif parsial terhadap β sama dengan

nol, yaitu

δI (β )δβ

= −nβ

+1β2 ∑

i=1

n

xi = 0

Diberikan

β= 1n∑i=1

n

x i

yaitu β MLE dari distribusi eksponensial adalah mean dari data yang diamati.

Contoh 7.2: Menentukan MLEs untuk distribusi Normal,

distribusi Normal meiliki dua parameter, μ mean dan deviasi standar σ. Probabilitas fungsi

kepadatan f(x) diberikan oleh

f(x) =1

√2 π σ2 exp(-¿¿)

Fungsi likelihood L(μ, σ) = (1

√2 π σ2 )exp (- ∑i=1

n ( xi−µ)2

2σ 2 )

Untuk mempermudah perhitungan, kita kembali definisikan I(β) = ln L(β):

I(µ, σ) = -n2

ln(2 π ) – n ln σ - ∑i=1

n ( xi−µ)2

2 σ 2

Nilai maksimum I(μ, σ), dan karena itu L(μ, σ), terjadi derivatif parsial ketika engkau

sehubungan dengan μ dan σ sama dengan nol, yaitu

δI (µ, σ )δ µ

= -2 ∑i=1

n

x i + 2 µn = 0

Diberikan µ= 1n∑i=1

n

x i=x

Dimana x adalah mean dari data, dan

δI (µ,σ )LP

= −nσ

+ ∑i=1

n ( xi−µ)2

σ 3 = 0

Diberikan

Σ= √∑i=1

n

(x i−µ)2

σ 3

=s

Dimana s standar deviasi dari data yaitu μ dan σ MLEs dari distribusi normal adalah mean

dan deviasi standar dari data yang diamati.

7.3.3 Menemukan Parameter Fitting terbaik menggunakan pemecahan Linear

Gambar 7.4 mengilustrasikan spreadsheet Microsoft Excel dibentuk untuk menemukan parameter dari suatu

distribusi Rayleigh terbaik yang akan cocok dengan 18 poin data yang diamati.

Fungsi distribusi kumulatif untuk distribusi Rayleigh F(x) adalah

F(x) = 1- exp(-x2/2b2)

Dimana b adalah parameter distribusi itu. Microsoft Solver di Excel diatur untuk menemukan

nilai minimum untuk sel F21 (jumlah perbedaan absolut antara di F diamati dan Rayleigh (x)

s) dengan mengubah nilai b di sel C23. Solusi solver untuk b adalah 4.51195, sesuai dengan

cocok ditampilkan dalam bagan Gambar 7.4.

7.3.4 Formalisme Entropi Maksimum

Formalisme entropi maksimum adalah teknik untuk menentukan distribusi dari variabel yang

mewakili ketidakpastian maksimum data yang diamati untuk variabel yang mungkin.

Untuk distribusi kontinu, H(x) ditulis sebagai:

H(x) = ∫−∞

∞

f ( x ) . log f ( x ) .dx

Dimana f(x) adalah probabilitas dari distribusi.Teknik ini dapat diterapkan di mana kita hanya

memiliki pengetahuan yang sangat terbatas dari variabel.

7.4 STATISTIK GOODNESS-OF-FIT

Goodness-of-fit statistic telah banyak dikembangkan tapi hanya 2 yang biasa digunakan.

Yang paling umum adalah chi kuadra (x2¿dan statistik kolmogorov-Smirnoff (K-S) umumnya

digunakan untuk diskrit dan kontinu.

Data yang akan dianalisis bisa masuk dalam salah satu bentuk goodness-of-fit statistic.

Goodness-of-fit statistic tidak mudah untuk dipahami atau ditafsirkan.Tidak memberikan

ukuran propability untuk data sebenarnya berasal dari distribution. Malah, statistik goodness-

of-fit memberikan peluang bahwa data acak yang dihasilkan dari distribusi akan

menghasilkan nilai goodness-of-fit statistic serendah yang dihitung untuk data yang diamati.

Setara dengan probabilitas bahwa data itu, pada kenyataannya, berasal dari pasangan

distribusi, karena mungkin ada distribusi yang memiliki bentuk yang sama dan lebih baik

menghasilkan data ini dan diamati sangat teliti untuk data distribusi normal, karena banyak

distribusi cenderung ke bentuk normal dalam kondisi tertentu.

Nilai-nilai kritis ditentukan oleh tingkat kepercayaan yang diperlukanαyang merupakan

nilai-nilai dari goodness-of-fit statistic yang memiliki probabilitas melebihi yang sama

dengan keyakinan tertentu nilai-nilai level kritis untuk x2 tes ditemukan langsung darix2

distribusi, bentuk dan berbagai distribusix2didefinisikan oleh derajat fredomx2

v=N−a−1

Dimana N = jumlah atau kelas histogram batang

a = sejumlah parameter yang diestimasi untuk menentukan distribusi yang paling

sesuai

7.4.1 Nilai Kritis dan Interval Keyakinan untuk Statistika Goodnesss-of-fit

Bentuk dan jangkauan distribusi didefinisikan oleh derajat kebebasan v:

v =N-a -1.

Dimana jumlah N= Jumlah bar histogram atau kelas

a = parameter yang diperkirakan untuk menentukan distribusi yang paling pas

Gambar 7.5 menunjukkan plot kumulatif turun untuk x2(11), yakni para x2 distribusi dengan

11 derajat kebebasan. Ini plot sebuah kesempatan α 80% (= interval keyakinan) bahwa nilai

akan terjadi yang lebih tinggi dari 6,988 (nilai kritis pada tingkat kepercayaan 80%) untuk

data yang sebenarnya diambil dari distribusi dipasang, yaitu hanya ada 20% kemungkinan

bahwa x2 nilai bisa jadi ini kecil. Jika analis konservatif dan menerima kesempatan ini 80%

dari palsu menolak sesuai dengan, α keyakinannya interval = 80% dan nilai kritis yang terkait

6,988.

Nilai-nilai kritis untuk statistik KS dan AD telah ditemukan oleh simulasi Monte Carlo

(Stephens. 1974, 1977; Chandra et al, 1981). Tabel nilai kritis untuk statistik KS juga sangat

sering ditemukan dalam buku- buku teks statistik. Sayangnya, KS standar dan nilai-nilai AD

penggunaan terbatas untuk membandingkan nilai kritis jika lebih sedikit dari sekitar 30 titik

data. Masalah muncul karena statistik ini dirancang untuk menguji cuaca distribusi dengan

parameter yang dikenal bisa menghasilkan data yang diamati. Jika parameter dari distribusi

dipasang telah diperkirakan dari data tersebut, KS dan statistik AD akan menghasilkan hasil

tes konservatif, yaitu ada kemungkinan lebih kecil dari suatu distribusi baik pas diterima.

Ukuran efek ini bervariasi antara jenis distribusi yang dipasang. Modifikasi statistik KS dan

AD telah ditentukan untuk mengoreksi masalah ini sebagai berikut (lihat manual BestFit

diterbitkan pada tahun 1993) di mana n adalah jumlah titik data dan Dn An2 dimodifikasi KS

dan statistik AD masing-masing:

Kolmogorov-Smirnoff Statistics

Distribution Modified test statistic

Normal(√n - 0.01 +

0.85

√n).Dn

Esponential(Dn –

0.2n

)( √n+ 0.26 + 0.5

√n)

Weibull and extreme Value √n Dn

Lainnya√n+0.12+

0.11

√n).Dn

Anderson-Darling Statistics

Distribution Modified test statistic

Normal(1 +

4n−25

n2 ).An2

Esponential(1+

0.6n

).An2

Weibull and extreme Value ¿)An2

Lainnya An2

7.4.2 Statistik Goodness of fit Chi Square

Statistik Chi Square ( χ2) mengukur sebaik mana memperkirakan frekuensi distribusi yang sesuai dibandingkan dengan frekuensi dari histogram data yang diamati. Tes Chi Square membuat asumsi berikut :

1. Data yang diamati berisi sampel acak dari n titik data independent.2. Ukuran skala bias nominal (yakni numeric) atau menurut angka (numerical)3. n titik data dapat diurut ke dalam bentuk histogram dengan N kelas non-overlapping

atau bar yang menutup keseluruhan range yang mungkin dari variabel.

Statistik Chi square dihitung sebagai berikut :

χ2=∑i=1

n {O (i )−E (i)}2

E(i)

dimana O(i) adalah frekuensi yang diamati pada histogram kelas ke-i atau bar dan E(i) adalah frekuensi yang diharapkan dari distribusi yang sesuai pada nilai x yang jatuh dengan range-x pada bar histogram ke-i. E(i) dihitung dengan :

E (i )={F (imaks )−F (imin )}∗n

Dimana F (x) = Fungsi distribusi dari fitted distribution

imaks = nilai x batas atas pada histogram bar ke-i

imin = nilai x batas bawah pada histogram bar ke-i

Karena statistic χ2 menjumlahkan kuadrat dari semua error {O ( i )−E ( i ) }, maka statistic χ2 dapat secara tidak sebanding, sensitive ke nilai error apapun yang besar misalnya, jika error dari 1 bar adalah 3 kali dari bar yang lain, sehingga akan menambah 9 kali lebih pada statistic (asumsikan E(i) sama untuk keduanya).

χ2 adalah yang paling umum digunakan pada statistic goodness of fit yang digambarkan di

sini dan sangat bergantung pada jumlah bar N yang digunakan. Dengan mengganti nilai dari N, salah satunya dapat dengan mudah mengganti tingkatan antara 2 tipe distribusi. Sayangnya, tidak ada cara cepat untuk memilih nilai dari N. Sebagai panduan, bagaimanapun, aproksimasi Scott Normal, digunakan dengan memakai software BestFit yang biasanya

tampak untuk bekerja sangat baik: N=(4 n)2/5

Di mana n adalah jumlah titik data. Panduan lain yang berguna adalah memastikan bahwa tidak ada bar yang memiliki frekuensi harapan yang lebih kecil dari sekitar 1, yakni E(i)≥ 1

untuk semua i. Catatan bahwa statistic χ2 tidak membutuhkan semua atau bar histogram apapun yang memiliki lebar sama.

Statistic χ2 paling berguna untuk fitting distribution untuk data diskrit dan hanya satu-satunya statistic yang digambarkan di sini yang dapat digunakan untuk data nominal (yakni non-numeric).

Contoh 7.4: Penggunaan χ2 untuk data kontinu

Susunan data dari 156 titik memiliki distribusi Normal(70,20). Pertama-tama, datanya ditempatkan dalam bentuk histogram dengan 14 bar sebagai usulan menggunakan aproksimasi normal Scott’s (Tabel 7.1(a)). 4 bar ekstrim memiliki frekuensi harapan di bawah 1 untuk distribusi normal (70,20) dengan 156 pengamatan. Bar ini kemudian dikombinasikan untuk menghasilkan revisi set dari jarak bar. Bar ekstrim sekarang memiliki frekuensi harapan 1.02HipotesisH 0 : Data datang dari distribusi Normal (70,20)

H 1: Data tidak datang dari distribusi Normal (70,20)

KesimpulanTest statistic χ2 memiliki nilai 21.0 dari tabel 7.1(b). Terdapat v=N−1=12−1=11 derajat bebas ¿ ketika tidak ada parameter distribusi yang ditentukan dari data). Perhatikan pada distribusi χ2(11), peluang yang akan kita miliki nilai χ2 yang tinggi ketika H 0 benar adalah di bawah 2%. Kemudian kita menyimpulkan bahwa data tidak datang dari distribusi Normal (70,20).

Contoh 7.5: Penggunaan χ2 untuk data diskrit

Kumpulan dari 136 titik data dipercayai berasal dari distribusi Poisson. MLE untuk parameter λ untuk Poisson diestimasikan dengan mengambil mean dari titik data: λ=4.4559 . Data ditabulasikan pada bentuk frekuensi pada tabel 7.2 dan kemudian pada data tersebut frekuensi harapan dari distribusi Poisson(4.4559) yakni E ( i )=f (x )∗136, di mana

f ( x )= e−4.4559 4.4559x

x !Tabel 7.1 Perhitungan statistik χ2 untuk data kontinu: (a) menentukan jarak bar yang

digunakan; (b) Perhitungan χ2 dengan merevisi jarak barHistogram BarDari A Ke B

Frekuensi Harapan dari Normal (70,20)

Revisi BarDari A ke B

E(i) dariNormal (70,20)

O(i) Perhitungan χ2

{O ( i )−E ( i ) }2/ E(i)−∞ 10 0.22 −∞ 20 1.02 3 3.84352910 20 0.80 20 30 2.73 5 1.88750920 30 2.73 30 40 7.27 6 0.22185730 40 7.27 40 50 15.15 10 1.7506640 50 15.15 50 60 24.73 21 0.56259250 60 24.73 60 70 31.59 25 1.37474260 70 31.59 70 80 31.59 37 0.92649970 80 31.59 80 90 24.73 21 0.56259280 90 24.73 90 100 15.15 17 0.22590890 100 15.15 100 110 7.27 11 1.913741

100 110 7.27 110 120 2.73 6 3.916813110 120 2.73 120 −∞ 1.02 3 3.843529120 130 0.80130 −∞ 0.22 Chi squared 20.96755

Tabel 7.2 Perhitungan statistik χ2 untuk data diskrit : (a) Tabulasi data; (b) Perhitungan χ2

Nilai xFrekuensi

Pengamatan O(i)Frekuensi E(i) dari

Poisson(4.456)Nilai

xFrekuensi

Pengamatan O(i)3Frekuensi E(i) dari Poisson(4.456)4

Perhitungan

χ2 {O(i)-E(i)}2-E(i)

0 0 1.579 0 0 1.579 1.5791 8 7.036 1 8 7.036 0.13212 18 15.675 2 18 15.675 0.34493 20 23.282 3 20 23.282 0.46274 29 25.936 4 29 25.936 0.36205 21 23.113 5 21 23.113 0.19326 18 17.165 6 18 17.165 0.0406

7 10 10.926 7 10 10.926 0.07858 8 6.086 8 8 6.086 0.60199 2 3.013 9 2 3.013 0.3406

10 1 1.343 10+ 2 2.189 0.016311+ 1 0.846

Total 136 Chi squared: 4.152

Frekuensi harapan dari nilai 11+, dihitung sebagai 136- (jumlah dari semua frekuensi harapan lainnya), adalah kurang dari 1. Jumlah bar kemudian berkurang ditunjukkan pada tabel 7.2(b), untuk memastikan bahwa semua frekuensi harapan lebih besar dari 1.

Hipotesis

H 0 : Data berasal dari distribusi Poisson

H 1: Data tidak berasal dari ditribusi Poisson

Kesimpulan

Uji statistic χ2 memiliki nilai 4.152 pada tabel 7.2(b). Terdapat nilai v=N−a−1=11−1−1=9 derajat kebebasan (a=1ketika 1 parameter distribusi, mean,

ditentukan dari data). Perhatikan distribusi χ2(9), peluang bahwa kita akan mendapatkan

nilai χ2 yang tinggi ketika H 0 benar di atas 90%. Ketika ini adalah peluang yang besar, kita

tidak layak menolak H 0 dan kemudian menyimpulkan bahwa data sesuai untuk ditribusi Poisson (4.4559).

Contoh 7.6: Penggunaan χ2 dengan data nonnumeric

Permainan baru telah ditemukan dan, sehubungan dengan itu, perlengkapan yang secara acak memilih bola dari drum berputar. Terdapat jumlah yang sama dari bola hitam, biru, merah, hijau dan putih pada drum. Bola apapun yang dipilih, digantikan sebelum seleksi berikutnya. Bola berwarna yang berbeda berasal dari pabrik yang berbeda sehingga perancang permainan ingin memastikan bahwa pemilihan benar-benar acak. Mesin diuji 200 kali, ditunjukkan pada tabel 7.3. Apakah peluang bahwa bola menjadi dipilih secara acak?

Tabel 7.3 Perhitungan statistik χ2 untuk data nonnumerik

Warna Bola Frekuensi Pengamatan O(i)

Frekuensi Harapan E(i)

Perhitungan Chi Square

{O(i)-E(i)}2/E(i)Hitam 51 40 3.0250Biru 44 40 0.4000

Merah 35 40 0.6250Hijau 40 40 0.0000Putih 30 40 2.5000

200 6.5500

Ini adalah pertanyaan yang ekuivalen: apakah peluang bahwa frekuensi bola berdistribusi seragam? Uji χ2 dapat dihitung pada frekuensi pengamatan dan memakai frekuensi harapan dari n /N , ditunjukkan pada tabel.

Hipotesis

H 0 : Bola berdistribusi secara acak

H 1: Bola tidak berdistribusi secara acak

Keputusan

Uji statistic χ2 memiliki nilai 6.44 pada tabel 7.3. Terdapat n=N−a−1=5−0−1=4 derajat bebas (a=0ketika tidak ada parameter distribusi yang dibutuhkan untuk ditentukan dari data).

Perhatikan pada distribusi χ2(4), peluang bahwa kita akan memiliki nilai yang tinggi untuk

χ2 ketika H 0 benar kurang dari 20%, sehingga kita dapat layak menolak H 0 dan kemudian

simpulkan bahwa bola tidak dipilih secara acak.

7.4.3 Statistik Kolmogorov-Smirnov(K-S)K-S statistic Dn didefinisikan sebagai berikut

Dn=max [|Fn (x )−F ( x )|]Dimana Dn diketahui sebagai jarak K-S

N = jumlah total titik dataF(x) = Fungsi distribusi dari fitted distributionFn(x)= Percentil kumulatif dari tiap titik data

i = Tingkat kumulatif dari titik dataJadi, Statistik K-S hanya terkait dengan jarak vertical antara fungsi distribusi kumulatif pada fitted distribution dan distribusi kumulatif dari data. Gambar 7.6 mengilustrasikan konsep dari fitted data untuk distribusi seragam(0,1).

Gambar 7.6 Perhitungan Jarak Dn Kolmogorov-Smirnov untuk data fit pada distribusi Seragam (0,1)

Data diatur dalam urutan menaik

Persentil kumulatif bagian atas FU (i) dan bagian bawah FL (i) dihitung sebagai

berikut:

FL ( i )= i−1n

FU (i )= in

Di mana i = tingkatan dari titik data dan n = jumlah total titik data F (x) dihitung untuk distribusi seragam (dalam hal ini F ( x )=x ¿ .

Jarak maksimum Di antara F (i) dan F (x) dihitung untuk tiap i:

Di=MAX (|(F ( x )−FL (i ) )|,|(F ( x )−FU (i ) )|)Di mana |(…)| mendapatkan nilai absolut

Nilai maksimum dari jarak Di selanjutnya adalah jarak Di K-S :Dn=MAX ({Di })

Statistik K-S biasanya lebih beguna dibandingkan statistic χ2 di mana data ditaksir pada semua titik data dan menghindari masalah untuk menentukan ikatan-ikatan untuk membagi data. Bagaimanapun nilainya hanya ditentukan oleh salah satu nilai yang memiliki ketidakcocokan yang terbesar dan tidak mengambil laporan dari lack(kekurangan) dari fit melewati ditribusi sisa. Dengan demikian, pada gambar 7.7, akan memberikan fit terburuk pada distribusi pada (a) yang memiliki satu ketidakcocokan terbesar disbanding distribusi pada (b) yang memiliki general fit yang buruk di atas jarak-x keseluruhan.

Jarak vertical antara distribusi Fn(x) yang diamati dan teoritis ditribusi fitted F (x) pada semua titik, katakanlah x0, itu sendiri memiliki distribusi dengan rataan dari nol dan

standar deviasi σ K −S yang diberikan dengan

σ K −S=√ F ( x0 )[1−F ( x0 )]n

Gambar 7.7 Bagaimana jarak Dn K-S dapat memberikan ukuran fit yang salah karena

kepercayaannya pada jarak tunggal paling besar antara 2 distribusi kumulatif dibanding melihat jarak di luar range yang mungkin: (a) distribusi umumnya good fit kecuali di salah satu area tertentu;

(b) distribusi umumnya poor fit tetapi dengan tidak satupun ketidakcocokan yang besar

Ukuran dari standar deviasi σ K −S di luar jarak x ditunjukkan pada gambar 7.8 untuk sejumlah

tipe distribusi dengan n=100. Posisi Dn sepanjang sumbu-x lebih mungkin terjadi di mana σ K −S paling besar yang, gambar 7.8 tunjukkan, akan biasanya keluar dari dasar pangkal

probabilitas. Ketidaksensitifan dari statistic K-S ini pada lack(kekurangan) fit pada ekstrim dan distribusi adalah benar untuk statistic Darling-Anderson.

Contoh 7.7: Penggunaan Statistik K-S

Tabel 7.4 mengilustrasikan perhitungan jarak Dn dari statistic K-S untuk 12 ukuran dari persentase oksigen yang dihancurkan pada eksperimen biokimia. Data diuji pada distribusi Beta(16,45) yang mana analisis sebelumnya menyatakan bahwa, seharusnya good fit. Proses perhitungannya sebagai berikut.

Gambar 7.8 Variasi standar deviasi dari Statistik K-S Dn di luar range dari berbagai distribusi. Standar

deviasi lebih besar, kesempatan lebih bahwa Dn akan jatuh pada bagian range, yang menunjukkan bahwa

statistic K-S akan cenderung focus pada derajat fit pada nilai x keluar dari ujung distribusi

Tabel 7.4 Perhitungan Jarak K-S Dn untuk contoh 7.7

i Data Pengamatan Batas Bawah F(i) Batas Atas F(i) F(x) untuk Beta (16,45)

Di

1 16.60% 0.000 0.083 0.033 0.0512 19.75% 0.083 0.167 0.120 0.0463 23.26% 0.167 0.250 0.311 0.1454 25.17% 0.250 0.333 0.443 0.1935 25.85% 0.333 0.417 0.491 0.1586 27.38% 0.417 0.500 0.598 0.1817 27.95% 0.500 0.583 0.636 0.1368 29.49% 0.583 0.667 0.728 0.1459 29.83% 0.667 0.750 0.747 0.081

10 31.20% 0.750 0.833 0.814 0.06411 34.57% 0.833 0.917 0.925 0.09212 39.87% 0.917 1.000 0.988 0.072

Dn 0.193

Data diurutkan menaik (ascending)

Persentil kumulatif batas atas FU (i) dan batas bawah FL (i) dihitung sebagai berikut:

Di=MAX (|(F ( x )−FL (i ) )|,|(F ( x )−FU (i ) )|)Di mana ABS(…) adalah nilai absolute.

F (x) dihitung untuk distribusi Beta menggunakan fungsi Excel BETADIST().

Nilai maksimum dari jarak Di adalah jarak Dn selanjutnya dari K-S Dn=MAX ({Di })

Pada contoh ini, Dn=0,193 pada titik data ke-4, ditandai dengan persegi hitam pada grafik pada gambar 7.9.

Gambar 7.9 Menghitung jarak K-S Dn untuk contoh 7.7

7.4.4 Statistik Anderson-Darling (A-D)

Statistik A-D An2 didefinisikan sebagai :

An2=∫

−∞

∞

|Fn ( x ) . F ( x )|2Ψ ( x ) f ( x ) dx

Di mana Ψ ( x )= nF ( x ){1−F ( x ) }

n = jumlah banyaknya titik data

F(x) = fungsi ditribusi dari fitted distribution

f(x) = fungsi kepadatan dari fitted distribution

Fn ( x )=i /n

i = tingkatan kumulatif dari titik data

Statistik Darling-Anderson adalah versi canggih dari statstik K-S dan lebih kuat dengan alas an berikut :

Ψ (x ) mengganti kerugian untuk peningkatan variansi dari jarak vertical antara

distribusi σ K −S2, yang digambarkan pada bagian 7.4.3 dan gambar 7.8

Jarak vertical antara distribusi adalah kuadratik, mengganti kerugian dari perubahan pada variansi (variansi menjadi kuadrat dari standar deviasi).

f (x) menimbang jarank pengamatan menggunakan peluang nilainya akan

menghasilkan nilai-x Jarak vertical diintegrasikan di atas semua nilai dari x untuk membuat penggunaan

maksimum pada data pengamatan (statistic K-S terlihat hanya pada jarak vertical maksimum).

Oleh karena itu statistik A-D biasanya lebih berguna mengukur fit dari pada statistik K-S khususnya ketika sangat penting untuk menempatkan penekanan yang sama dalam menyesuaikan distribusi. Selain itu, statistic A-D sangat praktikal untuk menghitung manual. Bagaimanapun, paket software seperto BestFit akan menampilkan perhitungan secara automatic.

7.4.5 Menggunakan statistik Godness-fit untuk mengoptimalkan Distribution Fitting

Godness-of-fit statistic dapat digunakan dengan solusi linear untuk menemukan parameter yang menghasilkan fit terdekat dari sebuah distribusi dengan data pengamatan. Gambar 7.10 mengilustrasikan hasil dari contoh sederhana pada Microsoft Excel.

Gambar 7.10 Menemukan parameter fit terbaik untuk distribusi dengan mengoptimalkan statistik goodness-of-fit (dalam hal ini X2)

Prosesnya sebagai berikut :

Para MLE dari distribusi dilengkapi (atau kira wajar untuk parameter paling cocok)

ditetapkan. MLE p untuk distribusi geometrik diberikan oleh

p= 11+x

(¿0,5988untuk dataini)

Dimana x adalah rata-rata dari titik data.

spreadsheet adalah tertulis yang menghitung statistik kebaikan-of-fit yang relevan

(dalam hal ini kasus X2)Dengan MLE (menggunakan gambar memberikan atas)

diplayed di sel terpisah (dalam C12 kasus) bahwa E(i) perhitungan nilai merujuk

pada statistik X yang juga ditampilkan di sel terpisah (E11 pada contoh ini).

7.5 PLOT GOODNESS-OF-FIT

Plot Goodness-of-fit memberikan analisis perbandingan visual antara data dan distribusi

fit yang dilengkapi gambaran keseluruhan kesalahan dengan cara bahwa statistik

goodness-of-fit tidak dapat dan memungkinkan analis untuk memilih distribusi yang

paling cocok yang lebih kualitatif dan intuitif.

7.5.1 Perbandingan kepadatan probabilitas

Overlay plot histogram dari data dengan fungsi kepadatan dari distribusi dipasang

biasanya perbandingan paling informatif (lihat Gambar 7.11 (a)) Sangat mudah untuk

melihat di mana perbedaan utama dan apakah bentuk umum dari data yang digunakan.

membandingkan distribusi skala yang sama baiknya.The dan jumlah bar histogram harus

digunakan untuk semua plot jika perbandingan langsung dari beberapa distribusi cocok

akan dilakukan untuk data yang sama.

Gambar 7.11(a) Contoh plot goodness-of-fit: Perbandingan kepadatan peluang untuk Input dan Distribusi

Normal;

7.5.2 Perbandingan Distribusi Probabillity

Sebuah overlay plot frekuensi kumulatif data dan distribusi dipasang kadang-kadang

digunakan (lihat gambar 7.11 (b). Namun plot ini memiliki skala yang sangat sensitif dan

frekuensi kumulatif jenis distribusi yang paling mengikuti jenis yang sangat mirip kurva-

S.This dari plot karena itu hanya akan muncul perbedaan yang sangat besar antara data

theb dan distribotions dipasang dan umumnya tidak direkomendasikan sebagai ukuran

visual kebaikan fit.

Gambar 7.11(b) Perbandingan Peluang kumulatif untuk input dan distribusi Normal;

7.5.3 Perbedaan antara Densitas probabilitas

Plot ini berasal dari perbandingan kepadatan probabilitas, di atas, menggambarkan

perbedaan antara kerapatan probabilitas (lihat Gambar 7.11(c)).

Ini memiliki skala jauh lebih sensitif dibandingkan dengan plot lain dijelaskan ukuran

here.The dari penyimpangan juga merupakan fungsi dari jumlah kelas (bar) gunakan

untuk plot urutan histogram.In untuk membuat perbandingan langsung antara fungsi

distribusi yang lain cocok menggunakan jenis plot, analis harus memastikan bahwa

jumlah yang sama dari kelas Histogram digunakan untuk plots.

Gambar 7.11(c) Perbandingan kepadatan peluang untuk Input dan Distribusi Normal;

7.5.4 Probabilitas-probabilitas (P-P)

Ini adalah plot dari distribusi kumulatif F kurva dipasang (x) terhadap frekuensi kumulatif

Fn ( x )= in

untuk semua nilai x i (lihat gambar 7.11 (d)). Pencocokan terbaik, semakin dekat

dengan plot ini yang menyerupai garis lurus lurus dan dapat berguna jika salah satu

tertarik pada pencocokan erat persentil kumulatif dan ia akan menampilkan perbedaan

yang signifikan antara Pertengahan dari distribusi. Bagaimanapun, plot yang jauh lebih

peka terhadap perbedaan dalam fit daripada perbandingan probabilitas kepadatan plot dan

karena itu tidak sering digunakan dan juga bisa agak membingungkan bila digunakan

untuk memeriksa data diskrit yang cocok dan cukup baik dapat dengan mudah ditutupi,

terutama jika hanya ada beberapa diijinkan nilai-x.

Gambar 7.11(d) Plot P-P membandingkan Input dan distribusi Normal;

7.5.5 Kuantil-Kuantil (Q - Q) Plot

Ini adalah plot dari data yang diamati x i terhadap nilai-nilai x dimana

F ( x )=Fn ( x ) , i , e=i /n (lihat gambar 7.11 (e)). Seperti plot P-P, pencocokan yang lebih

baik, yang lebih dekat dengan plot ini menyerupai garis lurus. Plot ini dapat bermanfaat

jika ada yang cukup tertarik pada pencocokan persentil kumulatif dan ia akan

menampilkan perbedaan yang signifikan antara ujung dari distribusi. Bagaimanapun, plot

ini memberikan masalah insensitivitas sama dengan petak P-P plot.

. Gambar 7.11(e) Plot Q-Q membandingkan Input dan Distribusi Normal;

distribusi dari data

Documents