topik dalam analisis data statistik: mengungkap fakta dari data

146
Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data Situs ini menawarkan informasi tentang analisis data statistik. Ini menggambarkan analisis time series, distribusi populer, dan topik lainnya. Mengkaji penggunaan komputer dalam analisis data statistik. Ini juga daftar buku terkait dan link ke situs Web terkait. Profesor Hossein Arsham (http://home.ubalt.edu/ntsbarsh/Business- stat/home.html) Pengantar Perkembangan di bidang analisis data statistik seringkali paralel atau mengikuti kemajuan di bidang lain yang metode statistik yang fruitfully diterapkan. Karena praktisi dari analisis statistik sering mengatasi masalah keputusan terapan tertentu, perkembangan metode akibatnya dimotivasi oleh pencarian untuk keputusan yang lebih baik membuat bawah ketidakpastian. Proses pengambilan keputusan di bawah ketidakpastian sebagian besar didasarkan pada penerapan analisis data statistik untuk penilaian risiko probabilistik dari keputusan Anda. Manajer perlu memahami variasi untuk dua alasan utama. Pertama, sehingga mereka dapat memimpin orang lain untuk menerapkan pemikiran statistik dalam kegiatan sehari-hari dan kedua, untuk menerapkan konsep untuk tujuan perbaikan terus-menerus. Kursus ini akan memberikan Anda dengan pengalaman untuk mempromosikan penggunaan pemikiran statistik dan teknik untuk menerapkan mereka untuk membuat keputusan yang berpendidikan setiap kali ada variasi

Upload: nguyencong

Post on 08-Dec-2016

235 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Topik dalam Analisis Datastatistik:

Mengungkap Fakta Dari data

Situs ini menawarkan informasi tentang analisis datastatistik. Ini menggambarkan analisis time series,distribusi populer, dan topik lainnya. Mengkajipenggunaan komputer dalam analisis data statistik. Inijuga daftar buku terkait dan link ke situs Web terkait.

Profesor Hossein Arsham(http://home.ubalt.edu/ntsbarsh/Business-stat/home.html)

PengantarPerkembangan di bidang analisis data statistikseringkali paralel atau mengikuti kemajuan di bidanglain yang metode statistik yang fruitfullyditerapkan. Karena praktisi dari analisis statistik seringmengatasi masalah keputusan terapan tertentu,perkembangan metode akibatnya dimotivasi olehpencarian untuk keputusan yang lebih baik membuatbawah ketidakpastian.

Proses pengambilan keputusan di bawahketidakpastian sebagian besar didasarkan padapenerapan analisis data statistik untuk penilaian risikoprobabilistik dari keputusan Anda. Manajer perlumemahami variasi untuk dua alasan utama. Pertama,sehingga mereka dapat memimpin orang lain untukmenerapkan pemikiran statistik dalam kegiatansehari-hari dan kedua, untuk menerapkan konsepuntuk tujuan perbaikan terus-menerus. Kursus iniakan memberikan Anda dengan pengalaman untukmempromosikan penggunaan pemikiran statistik danteknik untuk menerapkan mereka untuk membuatkeputusan yang berpendidikan setiap kali ada variasi

Page 2: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

dalam data bisnis. Oleh karena itu, kursus dalampemikiran statistik melalui pendekatan berorientasidata.

Model statistik yang saat ini digunakan di berbagaibidang usaha dan ilmupengetahuan. Namun, terminologi berbeda darilapangan ke lapangan . Misalnya, pas model data,yang disebut kalibrasi, pencocokan sejarah, danasimilasi data, semua identik dengan parameter(http://home.ubalt.edu/ntsbarsh/Business-stat/stat-data/Topics.htm#rparamerts) estimasi.

Database organisasi Anda berisi banyak informasi,namun anggota kelompok teknologi keputusan ketuksebagian kecil dari itu. Karyawan buang waktumenjelajahi berbagai sumber untuk database. Parapengambil keputusan frustasi karena mereka tidakbisa mendapatkan data bisnis penting persis ketikamereka membutuhkannya. Oleh karena itu,terlalubanyak keputusan didasarkan pada dugaan, bukanfakta . Banyak peluang juga terjawab, jika merekabahkan melihat sama sekali.

Pengetahuan adalah apa yang kita kenalbaik. Informasi adalah komunikasipengetahuan. Dalam setiap pertukaran pengetahuan,ada pengirim dan penerima. Pengirim membuatumum yang bersifat pribadi, apakahmenginformasikan, berkomunikasi dengan. Informasidapat diklasifikasikan sebagai eksplisit dantacit bentuk. Informasi eksplisit dapat dijelaskandalam bentuk terstruktur, sedangkan informasi tacittidak konsisten dan kabur untukmenjelaskan. Ketahuilah bahwa data hanya informasimentah dan tidak pengetahuan sendiri.

Data dikenal informasi mentah dan tidak pengetahuandengan sendirinya. Urutan dari data pengetahuanadalah: dari Data Informasi, dari Informasi Fakta,dan akhirnya, dari Fakta Pengetahuan. Datamenjadi informasi, ketika menjadi relevan denganmasalah keputusan Anda. Informasi menjadikenyataan, bila data dapat mendukungnya.Faktaadalah data apa yang mengungkapkan. Namun

Page 3: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

instrumental (yaitu, diterapkan) pengetahuan yangmenentukan dinyatakan bersama-sama denganbeberapa derajat statistik kepercayaan .

Bahkan menjadi pengetahuan, bila digunakan dalamberhasil menyelesaikan proses keputusan. SetelahAnda memiliki jumlah besar fakta terintegrasi sebagaipengetahuan, maka pikiran Anda akan menjadimanusia super dalam arti yang sama bahwa manusiadengan menulis adalah manusia super dibandingkandengan umat manusia sebelum menulis. Gambarberikut mengilustrasikan proses pemikiran statistikberdasarkan data dalam membangun model statistikuntuk pengambilan keputusan di bawahketidakpastian.

Gambar di atas menggambarkan fakta bahwa sebagaiketepatan model statistik meningkat, tingkat perbaikandalam pengambilan keputusan meningkat. Itusebabnya kita perlu analisis data statistik. Analisisdata statistik muncul dari kebutuhan untukmenempatkan pengetahuan tentang dasar bukti yangsistematis. Ini diperlukan studi tentang hukum-hukumprobabilitas, pengembangan langkah-langkah darisifat data dan hubungan, dan sebagainya.

inferensi statistik bertujuan untuk mengetahui apakahada signifikansi statistik dapat dilampirkan bahwahasil setelah penyisihan karena dibuat untuk setiapvariasi acak sebagai sumber kesalahan. Cerdas dankritis kesimpulan tidak dapat dibuat oleh orang-orangyang tidak memahami tujuan, kondisi, dan penerapanberbagai teknik untuk menilai signifikansi.

Page 4: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Mengingat lingkungan yang tidak pasti, kemungkinanbahwa "keputusan yang baik" yang dibuat meningkatdengan ketersediaan "informasi yangbaik." Kesempatan bahwa "informasi yang baik"tersedia meningkat dengan tingkat penataanproses Knowledge Management . Gambar di atasjuga menggambarkan fakta bahwa sebagai ketepatanmodel statistik meningkat, tingkat perbaikan dalampengambilan keputusan meningkat.

Pengetahuan adalah lebih dari mengetahui sesuatuyang teknis. Pengetahuan membutuhkankebijaksanaan. Kebijaksanaan adalah kekuatan untukmenempatkan waktu dan pengetahuan kita untukpenggunaan yang tepat. Kebijaksanaan datangdengan usia dan pengalaman. Kebijaksanaan adalahaplikasi akurat dari pengetahuan yang akurat dankomponen kunci adalah untuk mengetahui batas-batas pengetahuan Anda . Kebijaksanaan adalahtentang mengetahui bagaimana sesuatu teknis dapatbaik digunakan untuk memenuhi kebutuhan pembuatkeputusan. Kebijaksanaan, misalnya, menciptakansoftware statistik yang berguna, bukan secara teknisbrilian. Misalnya, sejak Web memasuki kesadaranpopuler, pengamat mencatat bahwa menempatkaninformasi di ujung jari Anda, tetapi cenderung untukmenjaga kearifan dari jangkauan.

Hampir setiap profesional perlu toolkitstatistik. keterampilan statistik memungkinkan Andauntuk cerdas mengumpulkan, menganalisis danmenginterpretasikan data yang relevan denganpengambilan keputusan mereka. konsep-konsepstatistik memungkinkan kita untuk memecahkanmasalah dalam keragaman konteks. pemikiranstatistik memungkinkan Anda untuk menambahkansubstansi untuk keputusan Anda.

Munculnya perangkat lunak komputer, JavaScriptApplet (http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/Descriptive.htm) , Demonstrasistatistik Applet(http://www.ruf.rice.edu/~lane/stat_sim/index.html) ,dan online Komputasi(http://www.physics.csbsju.edu/stats/Index.html) adalahperistiwa yang paling penting dalam proses konsepbelajar mengajar dalam membuat keputusan statistik

Page 5: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

model berbasis program. Alat-alat ini memungkinkanAnda untuk membangun contoh numerik untukmemahami konsep-konsep, dan untuk menemukansignifikansi mereka sendiri.

Kami akan menerapkan konsep dasar dan metodestatistik yang telah Anda pelajari dalam kursusstatistik sebelumnya untuk masalah dunianyata. Program ini dirancang untuk memenuhikebutuhan Anda dalam analisis bisnis-data statistikmenggunakan banyak tersedia komersial paketkomputer statistik seperti SAS dan SPSS. Denganmelakukan ini, Anda pasti akan menemukan diri Andamengajukan pertanyaan tentang data dan metodeyang diusulkan, dan Anda akan memiliki sarana yangdapat Anda gunakan untuk menyelesaikanpertanyaan-pertanyaan ini untuk kepuasan Andasendiri. Dengan demikian, semua masalah aplikasiyang dipinjam dari bisnis dan ekonomi. Pada akhirkursus ini anda akan dapat berpikir secara statistiksaat melakukan setiap analisis data.

Ada dua pandangan umum statistik mengajar /belajar: lebih besar dan Statistik Lesser. Statistik lebihbesar adalah segala sesuatu yang berhubungandengan belajar dari data, dari perencanaan pertamaatau koleksi, untuk presentasi terakhir ataulaporan. Statistik lebih rendah adalah tubuhmetodologi statistik. Ini adalah kursus Besar Statistik .

Pada dasarnya ada dua jenis program"statistik". Jenis nyata menunjukkan Anda bagaimanauntuk masuk akal dari data. Kursus ini akanmencakup semua perkembangan terakhir dan semuaberbagi rasa hormat yang mendalam untuk data dankebenaran. Jenis imitasi melibatkan memasukkanangka ke dalam statistik formula. Penekanannyaadalah pada melakukan aritmatika denganbenar. Kursus-kursus ini umumnya tidak tertarik padadata atau kebenaran, dan masalah umumnya latihanaritmatika. Jika asumsi tertentu diperlukan untukmembenarkan prosedur, mereka hanya akanmemberitahu Anda untuk "menganggap ... biasanyadidistribusikan" - tidak peduli seberapa mungkinbahwa mungkin. Sepertinya semua menderitaoverdosis yang terakhir. Kursus ini akan membawakeluar sukacita statistik dalam Anda.

Page 6: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Statistik adalah ilmu membantu Anda untukmembuat keputusan di bawahketidakpastian (berdasarkan beberapa skala numerikdan terukur). Proses pengambilan keputusan harusdidasarkan pada data bukan di pendapat pribadi ataukeyakinan.

Hal ini sudah fakta yang diterima bahwa "pemikiranstatistik suatu hari akan diperlukan untukkewarganegaraan efisien sebagai kemampuan untukmembaca dan menulis."Jadi, mari kita berada didepan waktu kita.

Distribusi populer dan Aplikasi Khasmereka

BinomiumAplikasi: Memberikan probabilitas tepat keberhasilandalam uji independen n, ketika probabilitaskeberhasilan p pada percobaan tunggal adalahkonstan. Sering digunakan dalam kontrol kualitas,kehandalan, pengambilan sampel survei, danmasalah industri lainnya.

Contoh: Berapa probabilitas dari 7 atau lebih "kepala"di 10 kali pelemparan koin yang adil?

Komentar: Bisa terkadang didekati dengan normalatau dengan distribusi Poisson.

MultinomialAplikasi: Memberikan probabilitas tepat n hasil dariacara i, untuk i = 1, 2, ..., k dalam n percobaanindependen ketika probabilitas p dari acara idalam satu percobaan adalah konstan. Seringdigunakan dalam kontrol kualitas dan masalah industrilainnya.

Contoh: Empat perusahaan penawaran untuk masing-masing tiga kontrak, dengan probabilitas keberhasilantertentu. Berapa probabilitas bahwa sebuahperusahaan tunggal akan menerima semua perintah?

i

i

Page 7: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Komentar: Generalisasi distribusi binomial untuk bijihdari 2 hasil.

HipergeometrikAplikasi: Memberikan probabilitas memilih persis xunit baik dalam sampel n unit dari populasi unit Nketika ada k unit buruk dalam populasi. Digunakandalam kontrol kualitas dan aplikasi yang terkait.

Contoh: Mengingat banyak dengan 21 unit yang baikdan empat rusak. Berapa probabilitas bahwa sampellima akan menghasilkan tidak lebih dari satu cacat?

Komentar: Semoga didekati dengan distribusibinomial bila n kecil terkait dengan N.

GeometrisAplikasi: Memberikan kemungkinan membutuhkanpersis x percobaan binomial sebelum keberhasilanpertama dicapai. Digunakan dalam kontrol kualitas,kehandalan, dan situasi industri lainnya.

Contoh: Penentuan probabilitas membutuhkan tepatlima tes pemecatan sebelum sukses pertama dicapai.

PascalAplikasi: Memberikan probabilitas tepat x kegagalansebelumnya sukses STh.

Contoh: Berapa probabilitas bahwa keberhasilanketiga berlangsung pada sidang 10?

Negatif BinomialAplikasi: Memberikan probabilitas mirip dengandistribusi Poisson ketika peristiwa tidak terjadi padatingkat yang konstan dan tingkat kejadian adalahvariabel acak yang mengikuti distribusi gamma.

Contoh: Distribusi jumlah rongga untuk sekelompokpasien gigi.

Page 8: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Komentar: Generalisasi distribusi Pascal ketika sbukan integer. Banyak penulis tidak membedakanantara Pascal dan distribusi binomial negatif.

PoissonAplikasi: Memberikan probabilitas tepat x kejadianindependen selama periode waktu tertentu jikaperistiwa berlangsung secara independen dan denganlaju yang konstan.Mungkin juga mewakili jumlahkejadian di daerah yang konstan atau volume. Seringdigunakan dalam kontrol kualitas, kehandalan, teoriantrian, dan sebagainya.

Contoh: Digunakan untuk mewakili distribusi jumlahcacat dalam sepotong kain, kedatangan pelanggan,klaim asuransi, panggilan telepon masuk, partikelalpha yang dipancarkan, dan sebagainya.

Komentar: sering digunakan sebagai pendekatanuntuk distribusi binomial.

NormalAplikasi: Sebuah distribusi dasar statistik. Banyakaplikasi muncul dari teorema limit sentral (rata-ratanilai dari pengamatan n mendekati distribusi normal,terlepas dari bentuk distribusi asli dalam kondisi cukupumum). Akibatnya, model yang tepat bagi banyakorang, tapi tidak semua, fenomena fisik.

Contoh: Distribusi pengukuran fisik pada organismehidup, skor tes kecerdasan, dimensi produk, suhurata-rata, dan sebagainya.

Komentar: Banyak metode analisis statistikmenganggap distribusi normal.

Sebuah distribusi Generalized Gaussian disebutmemiliki pdf berikut:

A.exp [-B | x | ], di mana A, B, n adalahkonstanta. Untuk n = 1 dan 2 itu adalah Laplacian dandistribusi Gaussian masing-masing. Distribusi inimendekati data yang cukup baik dalam beberapagambar aplikasi coding.

n

Page 9: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Distribusi Slash adalah distribusi rasio variabel acaknormal seragam variabel acak independen, lihatHutchinson T., berkelanjutan bivariat Distribusi ,Rumsby Sci. Publikasi, 1990.

GammaAplikasi: Sebuah distribusi dasar statistik untukvariabel dibatasi pada satu sisi - misalnya x lebihbesar dari atau sama dengan nol. Memberikandistribusi waktu yang dibutuhkan untuk tepat kperistiwa independen terjadi, dengan asumsi acaraberlangsung dengan laju yang konstan. Seringdigunakan dalam teori antrian, kehandalan, danaplikasi industri lainnya.

Contoh: Distribusi waktu antara ulang kalibrasiinstrumen yang perlu re kalibrasi setelah kmenggunakan; waktu antara restocking persediaan,waktu untuk kegagalan untuk sistem dengankomponen siaga.

Komentar: Erlangian, eksponensial, dan chi distribusipersegi adalah kasus khusus. The Dirichlet adalahekstensi multidimensi distribusi Beta.

Distribusi produk seragam iid (0, 1) random? Sepertibanyak masalah dengan produk, ini menjadi masalahyang akrab ketika berubah menjadi masalah tentangjumlah. Jika X adalah seragam (untuk kesederhanaannotasi membuatnya U (0,1)), Y = -log (X) secaraeksponensial didistribusikan, sehingga log dari produkX1, X2, ... Xn adalah jumlah dari Y1 , Y2, ... Yn yang

Page 10: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

memiliki gamma (skala chi-square) distribusi. Olehkarena itu, kepadatan gamma dengan parameterbentuk n dan skala 1.

EksponensialAplikasi: Memberikan distribusi waktu antara peristiwaindependen terjadi dengan laju yangkonstan. Ekuivalen, distribusi probabilitas hidup,menganggap konstan kegagalan bersyarat (ataubahaya) tingkat. Akibatnya, berlaku di banyak, tapitidak semua situasi kehandalan.

Contoh: Distribusi waktu antara kedatangan partikel dicounter. Juga distribusi hidup sistem nonredundankompleks, dan kehidupan penggunaan beberapakomponen - khususnya, pada saat terkena paraf burn-in, dan pemeliharaan preventif menghilangkan bagiansebelum wear-out.

Komentar: Kasus khusus dari kedua Weibull dandistribusi gamma.

Beta

Aplikasi: Sebuah distribusi dasar statistik untukvariabel dibatasi di kedua sisi - misalnya x antara odan 1. Berguna untuk kedua masalah teoritis danditerapkan di banyak daerah.

Contoh: Distribusi proporsi penduduk yang terletakantara nilai terendah dan tertinggi dalamsampel; distribusi harian hasil persen dalam proses

Page 11: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

manufaktur; deskripsi kali berlalu untuk penyelesaiantugas (PERT).

Komentar: Seragam, segitiga kanan, dan distribusiparabola adalah kasus khusus. Untuk menghasilkanbeta, menghasilkan dua nilai acak dari gamma a, g ,g . Rasio g / (g + g ) didistribusikan sepertidistribusi beta. Distribusi beta juga dapat dianggapsebagai distribusi X1 keterberian (X1 + X2), ketika X1dan X2 independen variabel acak gamma.

Ada juga hubungan antara Beta dan distribusinormal. Perhitungan konvensional yang diberi PERTBeta dengan nilai tertinggi sebagai b terendahsebagai dan kemungkinan besar sebagai m, distribusinormal setara memiliki mean dan modus dari (a + 4M+ b) / 6 dan standar deviasi (b - a) / 6.

Lihat Bagian 4.2 dari, Pengantar Probabilitas oleh J.Laurie Snell (New York, Random House, 1987) untukhubungan antara beta dan distribusi F (dengankeuntungan yang tabel mudah untuk menemukan).

SeragamAplikasi: Memberikan kemungkinan bahwapengamatan akan terjadi dalam interval tertentu ketikaprobabilitas terjadinya dalam interval yang berbandinglurus dengan panjang interval.

Contoh: Digunakan untuk menghasilkan acakdihargai.

Komentar: Kasus khusus dari distribusi beta.

Kepadatan rata-rata geometris dari seragamindependen n (0,1) adalah:

P (X = x) = nx (Log [1 / x ]) / (n-1) !.

z = [U - (1-U) ] / L dikatakan memiliki Tukeysimetris l -Distribusi.

Log normalAplikasi: Izin representasi dari variabel acak yanglogaritma mengikuti distribusi normal. Model prosesyang timbul dari banyak kesalahan perkalian

1

2 1 1 2

(n-1) n (n-1)

LL L

Page 12: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

kecil. Tepat ketika nilai variabel yang diamati adalahproporsi random dari nilai diamati sebelumnya.

Dalam kasus di mana data didistribusikan lognormally,mean geometrik bertindak sebagai deskriptor datayang lebih baik dari rata-rata. Semakin erat datamengikuti distribusi lognormal, semakin dekat meangeometrik adalah untuk median, sejak log re-ekspresimenghasilkan distribusi simetris.

Contoh: Distribusi ukuran dari proseskerusakan; distribusi ukuran pendapatan, warisan dandeposito bank; distribusi berbagai fenomenabiologis; distribusi kehidupan beberapa jenistransistor. Rasio dua variabel log-terdistribusi normal adalah log-normal.

RayleighAplikasi: Memberikan distribusi kesalahan radialketika kesalahan dalam dua sumbu yang saling tegaklurus adalah independen dan terdistribusi normalsekitar nol dengan varian yang sama.

Contoh: masalah Bom-penampakan; amplitudoamplop kebisingan ketika detektor linear digunakan.

Komentar: Kasus khusus dari distribusi Weibull.

Cauchy

Page 13: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Aplikasi: Memberikan distribusi rasio dua variatesyang normal standar independen.

Contoh: Distribusi rasio pembacaan kebisinganstandar; distribusi tan (x) ketika x didistribusikansecara merata.

Chi-squareKurva kepadatan probabilitas dari distribusi chi-kuadrat adalah kurva asimetris peregangan di sisipositif dari garis dan memiliki ekor yang tepatpanjang. Bentuk kurva tergantung pada nilai derajatkebebasan.

Aplikasi: Yang paling banyak aplikasi distribusi Chi-square adalah:

Uji chi-square untuk Association adalah (non-parametrik, karena itu dapat digunakan untukdata nominal) uji signifikansi statistik banyakdigunakan bivariat analisis asosiasitabular. Biasanya, hipotesis adalah apakah atautidak dua populasi yang berbeda cukupberbeda dalam beberapa karakteristik atauaspek perilaku mereka berdasarkan pada duasampel acak. Prosedur Tes ini juga dikenalsebagai uji chi-square Pearson.Chi-square Goodness-of-fit Uji ini digunakanuntuk menguji apakah distribusi diamati sesuaidengan distribusi tertentu. Perhitungankebaikan ini uji fit adalah dengan perbandingandata yang diamati dengan data yangdiharapkan berdasarkan distribusi tertentu.

WeibullAplikasi: Umum time-to-kegagalan distribusi karenakeanekaragaman kurva bahaya-tingkat, dan distribusiekstrim-nilai minimum dari nilai N dari distribusidibatasi di sebelah kiri.

Distribusi Weibull sering digunakan untuk model"waktu sampai kegagalan." Dengan cara ini, ituditerapkan dalam ilmu aktuaria dan dalam pekerjaanengineering.

Page 14: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Ini juga merupakan distribusi yang tepat untukmendeskripsikan data sesuai dengan perilakuresonansi, seperti variasi dengan energi daripenampang reaksi nuklir atau variasi dengankecepatan penyerapan radiasi di efek Mössbauer.

Contoh: distribusi Hidup untuk beberapa kapasitor,bantalan bola, relay, dan sebagainya.

Komentar: Rayleigh dan distribusi eksponensialadalah kasus khusus.

Ekstrim nilaiAplikasi: Membatasi model untuk distribusi maksimumatau minimum dari nilai N yang dipilih dari"eksponensial-jenis" distribusi, seperti biasa, gamma,atau eksponensial.

Contoh: Distribusi melanggar kekuatan beberapabahan, kapasitor tegangan rusaknya, kecepatanhembusan dihadapi oleh pesawat terbang, bakterikepunahan kali.

distribusi tDistribusi t ditemukan pada tahun 1908 oleh WilliamGosset (http://www-history.mcs.st-and.ac.uk/~history//Mathematicians/Gosset.html) yangadalah seorang ahli kimia dan ahli statistik yangdigunakan oleh perusahaan bir Guinness. Diamenganggap dirinya seorang mahasiswa statistikmasih belajar, jadi itu adalah bagaimana iamenandatangani surat-surat sebagai nama samaran"Student". Atau mungkin ia menggunakan namasamaran karena "rahasia dagang" pembatasan olehGuinness.

Perhatikan bahwa ada distribusi t yang berbeda, ituadalah kelas distribusi. Ketika kita berbicara tentangdistribusi t tertentu, kita harus menentukan derajatkebebasan. Kurva kepadatan t yang simetris danberbentuk lonceng seperti distribusi normal danmemiliki puncak mereka di 0. Namun, penyebaran

Page 15: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

lebih dari itu dari distribusi normal standar.Semakinbesar derajat kebebasan, semakin dekat t-densityadalah untuk kepadatan normal.

Mengapa setiap hal Dibanderol SatuSen Mati Dollar?Berikut jawaban psikologis. Karena kemampuanpengolahan data yang sangat terbatas kita manusiasangat bergantung pada kategorisasi (misalnya,melihat hal-hal seperti "hitam atau putih" hanyamemerlukan skema kode biner, yang bertentangandengan melihat banyaknya warna abu-abu). sistemnomor kami memiliki kategori utama dari 100(misalnya, 100 sen, 200 sen, 300 sen) dan adarespon afektif yang terkait dengan kelompok-kelompok ini - lebih banyak lebih baik jika Andamendapatkan mereka; lebih buruk jika Anda memberimereka. Iklan dan harga mengambil keuntungan daripengolahan data yang terbatas ini dengan $ 2,99, $3,95, dll Sehingga $ 2,99 membawa respon afektifyang terkait dengan kelompok 200 sen. Memang, jikaAnda meminta orang untuk menanggapi "seberapadekat bersama-sama" adalah 271 & 283 versus"seberapa dekat bersama-sama" yang 291 & 303,mantan dipandang sebagai lebih dekat (ada banyakmetodologi dibentuk untuk mencegah mata pelajaranuntuk hanya kurangi yang lebih kecil dari yang lebihbesar). Demikian pula, prasangka, promosi pekerjaan,olahraga kompetitif, dan sejumlah mengaktivasilainnya mencoba untuk mengaitkan perbedaankualitatif besar dengan apa yang sering perbedaankuantitatif kecil, misalnya, logam emas di Olimpiadeacara berenang mungkin milidetik perbedaan daritidak ada logam.

Namun motivasi lain: psikologis $ 9,99 mungkinterlihat lebih baik dari $ 10.00, tetapi ada alasan yanglebih mendasar juga. Asisten harus memberikan Andamengubah dari sepuluh Anda dolar, dan memilikicincin penjualan melalui / nya kasir untukmendapatkan satu sen. Hal ini akan memaksatransaksi melalui buku-buku, Anda mendapatkantanda terima, dan asisten tidak bisa hanyamengantongi $ 10 dia / dirinya sendiri. Pikiran Anda,

Page 16: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

tidak ada yang menghentikan karyawan khususnyadipercaya akan menjadi pekerjaan dengan sekantongsen ...

Ada pajak penjualan untuk itu. Baik untuk harga(setidaknya di AS), Anda akan harus membayar pajakpenjualan juga. Sehingga memecahkan masalahmembuka kasir. Itu, ditambah kamera keamanan;).

Ada beberapa penelitian dalam teori pemasaranpada perilaku konsumen pada titik hargatertentu. Pada dasarnya, ini diikat dengan harapanpembeli berdasarkan pengalamansebelumnya. Sebuah studi kasus penting di Inggrispada harga menunjuk stoking (celana ketat)menunjukkan bahwa ada puncak permintaan yangberbeda pada pembeli diantisipasi poin harga 59p,79p, 99p, £ 1,29 dan sebagainya. Permintaan padatitik harga menengah secara dramatis di bawah titik-titik diantisipasi untuk barang kualitas yang sama. DiInggris, misalnya, harga anggur biasanya ditetapkanpada titik harga kunci. Pengecer anggur jugamengkonfirmasi bahwa penjualan pada harga yangberbeda (bahkan sen atau lebih yang berbeda) tidakmenghasilkan volume penjualan yang berbeda secaradramatis.

Studi lain menunjukkan sebaliknya di manapenurunan harga menunjukkan penurunan volumepenjualan, konsumen menganggap kualitas sesuaidengan harga. Namun, itu tidak sepenuhnya diujiuntuk menentukan apakah volume penjualan terusmeningkat dengan harga.

Penelitian serupa lainnya ternyata pada perilakukonsumen untuk variasi dalam harga. Isu kunci di siniadalah bahwa ada perbedaan Hanya Terlihat (JND) dibawah ini yang konsumen tidak akan bertindak padakenaikan harga. Ini memiliki aplikasi praktis ketikameningkatkan tingkat biaya dan sejenisnya. The JNDbiasanya 5% dan ini memberikan kesempatan bagikonsultan dll untuk meningkatkan harga di atas tarifsebelumnya oleh kurang dari JND tanpa keluhanpelanggan. Sebagai percobaan empiris, mencobapengisian yang berlebihan klien dengan 1, 2, .., 5, 6%dan menonton reaksi. Sampai 5% tampaknya adatidak ada dampak negatif.

Page 17: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Sebaliknya, tidak ada gunanya dalam menawarkanpengurangan biaya kurang dari 5% sebagai klien tidakakan mengenali konsesi yang telah Anda buat. Sama,dalam periode inflasi harga, kenaikan harga harusdipentaskan sehingga kenaikan harga individudisimpan di bawah 5%, mungkin dengan menaikkanharga sebesar 4% dua kali per tahun daripadakenaikan satu dari 8%.

Sejarah Singkat Probabilitas dan Statistik

Ide asli dari "statistik" adalah pengumpulan informasitentang dan untuk "negara". Statistik Kata drivelangsung tidak dari akar Yunani atau Latin klasik,tetapi dari kata Italia untuk negara .

Kelahiran statistik terjadi di pertengahan17 abad. Sebuah biasa, bernama John Graunt,yang adalah penduduk asli London, mulai meninjaupublikasi gereja mingguan yang diterbitkan olehpetugas paroki lokal yang tercantum jumlah kelahiran,pembaptisan, dan kematian di setiap paroki. Inidisebut Bills of Mortality juga tercantum penyebabkematian. Graunt yang penjaga toko yangdiselenggarakan data ini dalam bentuk yang kita sebutstatistik deskriptif, yang diterbitkan sebagai Alam danPengamatan Politik Dibuat pada Bills of Mortality . Taklama kemudian, ia terpilih sebagai anggota RoyalSociety. Dengan demikian, statistik harus meminjambeberapa konsep dari sosiologi, seperti konsep"Penduduk". Telah berpendapat bahwa karenastatistik biasanya melibatkan studi tentang perilakumanusia, itu tidak bisa mengklaim ketepatan ilmu-ilmufisik.

Probabilitas memiliki sejarah lebihlama. Probabilitas berasal dari kata kerja untukmenyelidiki arti "mencari tahu" apa tidak terlalu mudahdiakses atau dimengerti. Kata "bukti" memiliki asal-usul yang sama yang menyediakan rincian yangdiperlukan untuk memahami apa yang diklaim menjadikenyataan.

Probabilitas berasal dari studi tentang permainankesempatan dan perjudian selama abad keenambelas. Teori probabilitas adalah cabang matematikadipelajari oleh Blaise Pascal dan Pierre de Fermat

th

st

Page 18: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

pada abad ketujuh belas. saat ini; di 21 abad,pemodelan probabilistik digunakan untuk mengontrolarus lalu lintas melalui sistem jalan raya, pertukarantelepon, atau prosesor komputer; menemukan genetikdari individu atau populasi; kontrolkualitas; asuransi; investasi; dan sektor lain bisnis danindustri.

Bidang baru dan pernah berkembang beragamaktivitas manusia menggunakan statistik; Namun,tampaknya bahwa bidang ini sendiri masih tidak jelaskepada publik. Profesor Bradley Efronmengungkapkan fakta ini dengan baik:

Selama 20 Century pemikiran statistik danmetodologi telah menjadi kerangka ilmiah untuklusinan bidang termasuk pendidikan, pertanian,ekonomi, biologi, dan kedokteran, dan denganmeningkatnya pengaruh baru dari ilmu-ilmu kerasseperti astronomi, geologi, dan fisika. Dengan katalain, kami telah berkembang dari sebuah lapanganjelas kecil ke lapangan jelas besar.

Bacaan lebih lanjut: Daston L., Probabilitas Klasik di Pencerahan , PrincetonUniversity Press, 1988. Buku ini menunjukkan bahwa awal pemikir Pencerahan tidakbisa menghadapi ketidakpastian. Sebuah mekanistik, mesindeterministik, adalah Pencerahan pandangan dunia. Gillies D., Teori filosofis dari Probabilitas , Routledge, 2000.Meliputi klasik, logis, subjektif, frekuensi, dan pandangankecenderungan. Hacking I., The Emergence of Probabilitas , CambridgeUniversity Press, London, 1975. Sebuah studi filosofisgagasan awal tentang probabilitas, induksi dan inferensistatistik. Peters W., Menghitung untuk Sesuatu: prinsip dan Kepribadianstatistik , Springer, New York, 1987. Ini mengajarkan prinsip-prinsip terapan ekonomi dan statistik sosial dalam kontekshistoris. Topik Pilihan termasuk jajak pendapat publik,pengendalian kualitas industri, analisis faktor, metodeBayesian, evaluasi program, non-parametrik dan metodeyang kuat, dan analisis data eksplorasi. Porter T., The Rise of Thinking statistik , 1820-1900, PrincetonUniversity Press, 1986. penulis menyatakan bahwa statistiktelah menjadi dikenal pada abad kedua puluh sebagai alatmatematika untuk menganalisis data eksperimen danpengamatan. Diabadikan oleh kebijakan publik sebagai satu-satunya dasar yang dapat diandalkan untuk penilaiansebagai kemanjuran prosedur medis atau keamanan bahankimia, dan diadopsi oleh bisnisuntuk keperluan sepertipengendalian kualitas industri, itu adalah jelas di antaraproduk-produk ilmu pengetahuan yang pengaruhnya padakehidupan publik dan swasta telah paling meresap. Analisisstatistik juga datang untuk dilihat di banyak disiplin ilmusangat diperlukan untuk menarik kesimpulan yang dapatdiandalkan dari results.This empiris bidang baru matematikaditemukan begitu luas domain aplikasi. Stigler S., Sejarah Statistik: Pengukuran Ketidakpastian

st

th

Page 19: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Sebelum 1900 , U. of Chicago Press, 1990. ini mencakuporang-orang, ide-ide, dan acara yang mendasari kelahirandan perkembangan statistik awal. Tankard J., The statistik Perintis , Schenkman Books, NewYork, 1984. karya ini memberikan kehidupan rinci dan kali dari teori yangbekerja terus membentuk banyak statistik modern.

Sekolah yang berbeda Pemikiran Statistik

Ada beberapa sekolah yang berbeda pemikiran dalamstatistik. Mereka diperkenalkan secara berurutandalam waktu dengan kebutuhan.

Kelahiran Proses dari Sekolah Baru Pemikiran

Proses merancang sekolah baru pemikiran dalambidang apapun selalu mengambil jaluralami. Kelahiran sekolah baru pemikiran dalamstatistik tidak terkecuali. Proses kelahiran diuraikan dibawah:

Mengingat sekolah yang sudah mapan, salah satuharus bekerja dalam kerangka yang ditetapkan.

Sebuah krisis muncul, yaitu, beberapa inkonsistensidalam rangka hasil dari hukum-hukumnya sendiri.

Perilaku respon:

1. Keengganan untuk mempertimbangkan krisis.2. Cobalah untuk mengakomodasi dan

menjelaskan krisis dalam kerangka yang ada.3. Konversi dari beberapa ilmuwan terkenal

menarik pengikut di sekolah baru.

Persepsi krisis di masyarakat statistik panggilan baliktuntutan untuk "yayasan-Perkuat". Setelah krisisberakhir, hal yang mungkin terlihat berbeda dansejarawan dari statistik dapat cor acara sebagai salahsatu dalam serangkaian langkah-langkah dalam"membangun di atas fondasi". Jadi kita bisa membacasejarah statistik, seperti kisah piramida dibangun lapisdemi lapis pada basis yang kuat dari waktu ke waktu.

sekolah lain pemikiran muncul untuk memperpanjangdan "melunakkan" teori yang ada probabilitas danstatistik. Beberapa "pelunakan" pendekatanmemanfaatkan konsep dan teknik yangdikembangkan dalam teori himpunan fuzzy, teorikemungkinan, dan teori Dempster-Shafer.

Page 20: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Gambar berikut menggambarkan tiga sekolah utamapemikiran; yaitu, Klasik (dikaitkan dengan Laplace(http://www-history.mcs.st-and.ac.uk/~history//Mathematicians/Laplace.html) ),relatif Frekuensi (dikaitkan dengan Fisher (http://www-history.mcs.st-and.ac.uk/~history//Mathematicians/Fisher.html) ), danBayesian (dikaitkan dengan Savage (http://www-history.mcs.st-and.ac.uk/~history//Mathematicians/Savage.html) ). Panahdalam gambar ini mewakili beberapa kritik utamaantara sekolah Objective, Frequentist, dan subyektifpemikiran. Untuk sekolah mana yang Andamilik? Baca kesimpulan dalam gambar ini.

(http://home.ubalt.edu/ntsbarsh/Business-stat/stat-data/classical.gif)

Apa Jenis Statistician Apakah Anda? Klik pada gambar untuk memperbesar

Bacaan lebih lanjut : Plato, Jan von, Menciptakan Peluang modern , CambridgeUniversity Press, 1994. Buku ini memberikan sudut pandangsejarah pada subyektif dan sekolah probabilitas objektivisdari pengalaman. Tekan S., dan J. Tanur, The Subyektivitas dari ilmuwan danBayesian pendekatan , Wiley, 2001. Membandingkan danmengkontraskan realitas subjektivitas dalam karya ilmuwanbesar sejarah dan pendekatan Bayesian modern untukanalisis statistik.

Page 21: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Weatherson B., Mengemis pertanyaan dan pendukungBayesian, Studi sejarah dan Filsafat Ilmu , 30 ( 4), 687-6971999.

Bayesian, Frequentist, dan Metode Klasik

Masalah dengan Pendekatan klasik adalah bahwaapa yang merupakan hasil tidak ditentukan secaraobjektif. Acara sederhana satu orang adalah acarakompleks orang lain.Salah satu peneliti mungkinbertanya, dari planet yang baru ditemukan, "apaprobabilitas bahwa ada kehidupan di planetbaru?" sementara yang lain mungkin bertanya "apaprobabilitas bahwa kehidupan berbasis karbon ada diatasnya?"

Bruno de Finetti, dalam pengantar nya risalah duavolume pada ide-ide Bayesian, jelas menyatakanbahwa "Probabilitas Jangan Exist". Dengan ini iaberarti bahwa probabilitas tidak terletak di koin ataudadu; mereka tidak karakteristik dari hal-hal sepertimassa, kepadatan, dll

Beberapa pendekatan Bayesian menganggap teoriprobabilitas sebagai perpanjangan dari logika deduktif(termasuk logika dialog, logika interogatif, logikaformal, dan kecerdasan buatan) untuk menanganiketidakpastian. Ini dimaksudkan untuk menyimpulkandari prinsip-prinsip pertama cara unik yang benarmewakili keyakinan Anda tentang keadaan hal, danmemperbarui mereka dalam terang bukti. Hukumprobabilitas memiliki status yang sama seperti hukumlogika. Pendekatan Bayesian secara eksplisit"subjektif" dalam arti bahwa mereka berurusandengan masuk akal yang mana agen rasional harusmelampirkan proposisi ia / dia menganggap,"mengingat / nya negara nya saat ini pengetahuandan pengalaman." Sebaliknya, setidaknya beberapapendekatan non-Bayesian mempertimbangkanprobabilitas sebagai "tujuan" atribut hal (atau situasi)yang benar-benar di luar sana (ketersediaan data).

A Bayesian dan statistik klasik menganalisis data yangsama umumnya akan mencapai kesimpulan yangsama. Namun, Bayesian lebih mampu mengukurketidakpastian benar dalam analisisnya, terutamaketika informasi sebelum substansial

Page 22: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

tersedia. Pendukung Bayesian bersedia untukmenetapkan fungsi distribusi probabilitas (s) untukparameter populasi (s) sementara frequentist tidak .

Dari perspektif seorang ilmuwan, ada alasan yangbaik untuk menolak penalaran Bayesian. Masalahnyaadalah bahwa penalaran Bayesian Penawaran tidakdengan tujuan, tetapi probabilitas subjektif. Hasilnyaadalah bahwa setiap penalaran menggunakanpendekatan Bayesian tidak dapat diperiksa publik -sesuatu yang membuatnya, pada dasarnya, tidakberharga untuk ilmu pengetahuan, seperti eksperimennon replikatif.

perspektif Bayesian sering meneteskan cahayamembantu pada prosedur klasik. Hal ini diperlukanuntuk masuk ke suatu kerangka Bayesian untukmemberikan interval kepercayaan interpretasiprobabilistik yang praktisi sering ingin menempatkanpada mereka. wawasan ini sangat membantu dalammenarik perhatian ke titik bahwa distribusi sebelumlain akan menyebabkan interval yang berbeda.

Sebuah Bayesian mungkin menipu denganmendasarkan distribusi sebelumnya pada data; aFrequentist dapat mendasarkan hipotesis yang akandiuji pada data. Misalnya, peran protokol dalam ujiklinis adalah untuk mencegah hal ini terjadi denganmeminta hipotesis yang akan ditentukan sebelum datadikumpulkan. Dengan cara yang sama, sebuahBayesian bisa diwajibkan untuk menentukansebelumnya dalam protokol umum sebelum memulaistudi. Dalam sebuah penelitian ilmiah kolektif, ini akanmenjadi agak lebih kompleks daripada hipotesisFrequentist karena prior harus pribadi untuk koherensiuntuk menahan.

Sebuah jumlah yang cocok yang telah diusulkan untukmengukur ketidakpastian disimpulkan; yaitu, untukmenangani apriori tak terduga, adalah fungsikemungkinan itu sendiri.

Jika Anda melakukan serangkaian percobaan acakyang identik (misalnya, lemparan koin), distribusiprobabilitas yang mendasari yang memaksimalkanprobabilitas hasil yang Anda diamati adalah distribusiprobabilitas sebanding dengan hasil percobaan.

Page 23: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Ini memiliki interpretasi langsung menceritakanbagaimana (relatif) baik setiap penjelasan yangmungkin (model), apakah yang diperoleh dari dataatau tidak, memprediksi data yang diamati. Jika datakebetulan menjadi ekstrim ( "atipikal") dalambeberapa cara, sehingga kemungkinan poin ke satuset miskin model, ini akan segera dijemput di putaranberikutnya penyelidikan ilmiah oleh komunitasilmiah. Tidak lama menjalankan jaminan frekuensiatau pendapat pribadi yang diperlukan.

Ada rasa di mana pendekatan Bayesian berorientasipada pengambilan keputusan dan frequentistpendekatan pengujian hipotesis berorientasi padailmu pengetahuan. Sebagai contoh, mungkin tidak adacukup bukti untuk menunjukkan secara ilmiah bahwaagen X berbahaya bagi manusia, tapi satu dapatdibenarkan dalam memutuskan untuk menghindarinyadalam diet seseorang.

Dalam hampir semua kasus, estimasi titik adalahvariabel acak kontinu. Oleh karena itu, probabilitasbahwa probabilitas adalah setiap estimasi titik tertentuadalah benar-benar nol. Ini berarti bahwa dalamkekosongan informasi, kita dapat membuat tidakmenebak tentang probabilitas. Bahkan jika kitamemiliki informasi, kita benar-benar dapat hanyamenebak pada kisaran untuk probabilitas.

Oleh karena itu, dalam mengestimasi parameterpopulasi tertentu, perlu bahwa estimasi titik disertaidengan beberapa ukuran yang mungkin kesalahandari estimasi.Pendekatan secara luas diterima adalahbahwa estimasi titik harus disertai dengan beberapainterval tentang perkiraan dengan beberapa ukuranjaminan bahwa interval ini mengandung nilaisebenarnya dari parameter populasi. Misalnya, prosespenjaminan kehandalan dalam industri manufakturberdasarkan data didorong informasi untuk membuatkeputusan desain produk.

Bayesian Tujuan: Ada hubungan yang jelas antaraprobabilitas dan logika: berdua muncul untukmemberitahu kami bagaimana kita harus alasan. Tapibagaimana, tepatnya, adalah dua konsepterkait? Tujuan pendukung Bayesian menawarkansatu jawaban untuk pertanyaan ini. Menurut

Page 24: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

pendukung Bayesian obyektif, probabilitasgeneralisasi logika deduktif: logika deduktifmemberitahu kita yang kesimpulan yakin, diberi satuset tempat, sementara probabilitas mengatakansejauh mana yang harus percaya kesimpulan,mengingat tempat kesimpulan tertentu yang diberikangelar penuh keyakinan . Menurut pendukungBayesian obyektif, tempat obyektif (yaitu unik)menentukan sejauh mana seseorang harus percayakesimpulan.

Bacaan lebih lanjut : Bernardo J., dan A. Smith, Bayesian Theory, Wiley, 2000. Congdon P., Bayesian statistik Modelling, Wiley, 2001. Corfield D., dan J. Williamson, Yayasan Bayesianism , KluwerAcademic Publishers, 2001. berisi Logic, Matematika, TeoriKeputusan, dan Kritik dari Bayesianism. Tanah F., metode statistik Operasional subyektif , Wiley, 1996.Menyajikan pengobatan sistematis metode subyektifbersama dengan diskusi yang baik dari latar belakanghistoris dan filosofis dari pendekatan utama untukprobabilitas . dan statistik Tekan S., subyektif dan obyektif Bayesian statistik: Prinsip,Model, dan Aplikasi , Wiley, 2002. Zimmerman H., Teori Set Fuzzy , Kluwer AcademicPublishers, 1991. logika Fuzzy pendekatan probabilitas(berdasarkan LA Zadeh dan nya pengikut) menyajikanperbedaan antara "teori kemungkinan" dan teoriprobabilitas.

Isu, Kepercayaan, Opini, dan Fakta

Statistik adalah ilmu pengambilan keputusan di bawahketidakpastian, yang harus berdasarkan fakta bukanpada rumor, opini pribadi, maupun pada keyakinan.

Sebagai suatu kebutuhan pemikiran strategis rasionalmanusia telah berevolusi untuk mengatasi / nyalingkungannya. Pemikiran strategis rasional yang kitasebut penalaran adalah cara lain untuk membuatdunia dihitung, diprediksi, dan lebih mudah dikelolauntuk tujuan utilitarian . Dalam membangun modelrealitas, informasi faktual karena itu diperlukan untukmemulai setiap pemikiran strategis rasional dalambentuk penalaran. Namun, kita tidak harus bingungfakta dengan keyakinan, pendapat, atau rumor. Tabelberikut membantu untuk memperjelas perbedaan:

Isi, Kepercayaan, Opini, dan Fakta

Isu Kepercayaan Pendapat Fakta

Satu

Page 25: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

katauntukdirisendiri

Saya harusmenggunakannyapula

Ini adalahkebenarannya. akubenar

Ini adalahpandangansaya

Ini adalah fakta

Satukatauntukoranglain

Ini bisa menjadikenyataan. Kamutahu!

Anda salahItu adalahmilikmu

Aku bisamenjelaskannyakepada Anda

Keyakinan didefinisikan sebagai pemahamanseseorang sendiri. Dalam keyakinan, "Saya" selalubenar dan "Anda" adalah salah. . Tidak ada yang bisadilakukan untuk meyakinkan orang bahwa apa yangmereka yakini salah Sehubungan dengan keyakinan, Henri Poincaré(http://www-history.mcs.st-and.ac.uk/~history//Mathematicians/Poincare.html) mengatakan,"Keraguan segala sesuatu atau percaya semua. Iniadalah dua strategi sama-sama nyaman Dengan baik,kita membuang kebutuhan untuk berpikir. " percayaberarti tidak ingin tahu apa yang sebenarnya. Manusiayang paling tepat untuk percaya apa yang palingmereka mengerti. Oleh karena itu, Anda mungkinlebih suka memiliki pikiran dibuka oleh keajaiban darisatu tertutup oleh keyakinan. The kekacauan terbesardari pikiran adalah untuk percaya pada sesuatukarena seseorang ingin hal itu terjadi.

Sejarah umat manusia penuh dengan perspektifnormatif meresahkan tercermin dalam, misalnya,inquisitions, perburuan penyihir, pembatalan, danteknik cuci otak. The "keyakinan suci" tidak hanyadalam agama, tetapi juga dalam ideologi, dan bahkandapat mencakup ilmu. Dalam banyak cara yang samabanyak ilmuwan mencoba untuk "menyelamatkanteori." Misalnya, pengobatan Freudian adalahsemacam cuci otak oleh terapis di mana pasienberada dalam suasana hati yang sugestif benar danagama percaya apapun terapis membuat dia / dirinyadan menyalahkan dirinya / dirinya dalam semuakasus. Ada ini momentum lamban besar dari Perang

Page 26: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Dingin di mana pemikiran masih tidak dihargai. Tidakada yang begitu tegas dipercaya sebagai yang yangpaling dikenal.

Sejarah kemanusiaan juga penuh dengan keyakinan-model dibuang. Namun, ini tidak berarti bahwaseseorang yang tidak mengerti apa yang sedangterjadi diciptakan model atau tidak memiliki utilitasatau nilai praktis. Ide utama adalah nilai-nilaibudaya dari setiap model yang salah. Kepalsuan darikeyakinan belum tentu keberatan untukkeyakinan. Pertanyaannya adalah, sejauh mana ituhidup-mempromosikan, dan meningkatkan kehidupanbagi orang percaya?

Pendapat (atau perasaan) yang sedikit kurang ekstrimdari keyakinan Namun, mereka dogmatis. Pendapatberarti bahwa seseorang memiliki pandangan tertentuyang mereka anggap benar. Juga, mereka tahubahwa orang lain berhak untuk pendapat merekasendiri. Orang menghormati pendapat orang lain danpada gilirannya mengharapkan hal yang sama. Dalammembentuk opini seseorang, pengamatan empirisjelas sangat dipengaruhi oleh sikap danpersepsi. Namun, pendapat yang berakar baik harustumbuh dan berubah seperti pohon yang sehat. Faktaadalah satu-satunya bahan instruksional yang dapatdisajikan dalam cara yang sama sekali non-dogmatis. Setiap orang memiliki hak untuk / opini nyasendiri, tapi tidak ada yang memiliki hak untuk salahdalam / fakta nya.

Opini publik sering merupakan semacam agama,dengan mayoritas sebagai nabi nya. Selain itu,keuntungan memiliki memori pendek dan tidakmemberikan pendapat konsisten dari waktu ke waktu.

Rumor dan gosip bahkan lebih lemah dariopini. Sekarang pertanyaannya adalah siapa yangakan percaya ini? Misalnya, rumor dan gosip tentangseseorang adalah mereka ketika Anda mendengarsesuatu yang Anda sukai, tentang seseorang yangtidak. Berikut adalah contoh Anda mungkin akrabdengan: Mengapa tidak ada Hadiah Nobel untukmatematika? Ini adalah pendapat dari banyak yangAlfred Nobel tertangkap istrinya dalam situasi asmaradengan Mittag-Leffler, matematikawan Swedia

Page 27: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

terkemuka pada saat itu. Oleh karena itu, Nobel takutjika ia mendirikan sebuah hadiah matematika, yangpertama untuk mendapatkan itu akan ML. Ceritaberlanjut, tidak peduli seberapa sering salahmengulangi dataran fakta bahwa Nobel belummenikah.

Untuk memahami perbedaan antara perasaan danpemikiran strategis , pertimbangkan dengan seksamapernyataan yang benar berikut: Dia yang berpikirdirinya orang paling bahagia benar-benar sangat; tapidia yang berpikir dirinya paling bijaksana umumnyabodoh terbesar. Kebanyakan orang tidak memintafakta dalam membuat keputusan mereka. Merekalebih suka memiliki satu yang baik, emosi jiwamemuaskan dari selusin fakta. Ini tidak berarti bahwaAnda tidak harus merasakan apa-apa. Perhatikanperasaan Anda. Tapi jangan berpikir dengan mereka.

Fakta yang berbeda dari keyakinan, rumor, danopini. Fakta adalah dasar keputusan. Fakta adalahsesuatu yang benar dan salah bisa menjadi benarberdasarkan bukti dan argumen yang logis. Faktadapat digunakan untuk meyakinkan diri sendiri,teman, dan musuh Anda. Fakta selalu berubah. Datamenjadi informasi ketika menjadi relevan denganmasalah keputusan Anda. Informasi menjadikenyataan ketika data dapat mendukungnya. Bahkanmenjadi pengetahuan bila digunakan dalam berhasilmenyelesaikan proses keputusan terstruktur. Namun,fakta menjadi pendapat jika hal itu memungkinkanuntuk interpretasi yang berbeda, yaitu, perspektif yangberbeda. Perhatikan bahwa apa yang terjadi di masalalu adalah kenyataan, bukan kebenaran. Kebenaranadalah apa yang kita pikirkan, apa yang terjadi (yaitu,model).

Statistik Bisnis dibangun dengan fakta-fakta, sebagaisebuah rumah dengan batu. Tapi kumpulan fakta tidaklebih merupakan ilmu yang bermanfaat dan berperanuntuk manajer dari tumpukan batu adalah sebuahrumah.

Sains dan agama yang sangat berbeda. Agamameminta kita untuk percaya tanpa pertanyaan, bahkan(atau terutama) jika tidak ada bukti kuat. Memang, inisangat penting untuk memiliki iman. Ilmu meminta kita

Page 28: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

untuk mengambil apa-apa pada iman, untuk waspadaterhadap kecenderungan untuk menipu diri sendiri,untuk menolak bukti anekdotal. Ilmu menganggapskeptisisme yang mendalam, tetapi sehat fiturutama. Salah satu alasan keberhasilannya adalahbahwa ilmu pengetahuan telah built-in, mengoreksikesalahan-mesin di hati yang sangat.

Pelajari cara untuk mendekati informasi kritis dandiskriminasi dalam cara berprinsip antara keyakinan,opini, dan fakta-fakta. Berpikir kritis diperlukan untukmenghasilkan representasi yang beralasan realitasdalam proses pemodelan Anda. Berpikir analitismenuntut kejelasan, konsistensi, bukti, dan di atassemua, berturut-turut, fokus pemikiran .

Bacaan lebih lanjut: Boudon R., The Origin of Values: Sosiologi dan FilsafatKetuhanan , Transaksi Penerbit, London, 2001. Castaneda C., The Side aktif Infinity , HarperperennialPerpustakaan, 2000. Goodwin P., dan G. Wright, Keputusan analisis untukPenghakiman Manajemen , Wiley, 1998. Jurjevich R., The Hoax dari Freudism: A Study of Cuci OtakProfessionals Amerika dan orang awam , Philadelphia,Dorrance, 1974. Kaufmann W., Agama di Empat Dimensi: Eksistensial danEstetika, Sejarah dan Perbandingan , Readers Digest Press,1976.

Apa Analisis Statistik Data? Data tidakInformasi!Data tidak informasi! Untuk menentukan apa analisisdata statistik adalah, yang pertama harus menentukanstatistik. Statistik adalah seperangkat metode yangdigunakan untuk mengumpulkan, menganalisis, hadir,dan menafsirkan data. metode statistik yangdigunakan dalam berbagai macam pekerjaan danmembantu orang mengidentifikasi, studi, danmemecahkan banyak masalah yang kompleks. Dalamdunia bisnis dan ekonomi, metode ini memungkinkanpengambil keputusan dan manajer untuk membuatkeputusan dan lebih baik tentang situasi yang tidakpasti.

Sejumlah besar informasi statistik yang tersedia dilingkungan global dan ekonomi saat ini karenaperbaikan secara terus menerus dalam teknologikomputer. Untuk bersaing dengan sukses secaraglobal, manajer dan pengambil keputusan harus dapat

Page 29: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

memahami informasi dan menggunakannya secaraefektif. analisis data statistik memberikan pengalamantangan untuk mempromosikan penggunaan pemikiranstatistik dan teknik untuk diterapkan dalam rangkauntuk membuat keputusan yang berpendidikan didunia bisnis.

Komputer memainkan peran yang sangat pentingdalam analisis data statistik. Paket statistik software,SPSS, yang digunakan dalam kursus ini, menawarkankemampuan data-penanganan yang luas dan banyakrutinitas analisis statistik yang dapat menganalisiskecil untuk statistik data yang sangat besar. Komputerakan membantu dalam summarization data, tetapianalisis data statistik berfokus pada interpretasi outputuntuk membuat kesimpulan dan prediksi.

Mempelajari masalah melalui penggunaan analisisdata statistik biasanya melibatkan empat langkahdasar.

1. Mendefinisikan masalah 2. Mengumpulkan data 3. Menganalisis data 4. Melaporkan hasil

Mendefinisikan Masalah

Sebuah definisi yang tepat dari masalah adalahpenting untuk mendapatkan data yang akurat tentanghal itu. Hal ini sangat sulit untuk mengumpulkan datatanpa definisi yang jelas tentang masalah.

Mengumpulkan Data

Kita hidup dan bekerja pada saat pengumpulan datadan perhitungan statistik telah menjadi mudah hampirke titik kesia. Paradoksnya, desain pengumpulandata, tidak pernah cukup ditekankan dalam bukuanalisis data statistik, telah dilemahkan olehkeyakinan jelas bahwa perhitungan luas dapatmembuat untuk setiap kekurangan dalam desainpengumpulan data. Satu harus dimulai denganpenekanan pada pentingnya mendefinisikan populasisekitar yang kita berusaha untuk membuatkesimpulan, semua persyaratan sampling dan desaineksperimen harus dipenuhi.

Page 30: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Merancang cara untuk mengumpulkan data adalahpekerjaan penting dalam analisis data statistik. Duaaspek penting dari studi statistik adalah: Populasi - satu set semua elemen yang menarikdalam studi Contoh - subset dari populasi inferensi statistik yang mengacu memperluaspengetahuan Anda mendapatkan dari sampel acakdari suatu populasi untuk seluruh penduduk. Inidikenal dalam matematika sebagai Penalaraninduktif. Artinya, pengetahuan tentang seluruh daritertentu. Aplikasi utamanya adalah dalam pengujianhipotesis tentang populasi tertentu. Tujuan dari inferensi statistik adalah untukmemperoleh informasi tentang informasi berupapopulasi yang terkandung dalam sampel. Hal inihanya tidak layak untuk menguji seluruh penduduk,sehingga sampel adalah satu-satunya cara yangrealistis untuk memperoleh data karena kendalawaktu dan biaya. Data bisa bersifat kuantitatif ataukualitatif. Data kualitatif adalah label atau nama yangdigunakan untuk mengidentifikasi atribut dari setiapelemen. Data kuantitatif selalu numerik danmenunjukkan baik berapa banyak atau berapabanyak.

Untuk tujuan analisis data statistik, membedakanantara cross-sectional dan data time series adalahpenting. data cross-sectional ulang data yangdikumpulkan pada saat yang sama atau sekitar titikyang sama dalam waktu. Data time series adalah datayang dikumpulkan selama beberapa periode waktu.

Data dapat dikumpulkan dari sumber-sumber yangada atau diperoleh melalui studi observasi daneksperimen yang dirancang untuk memperoleh databaru. Dalam sebuah studi eksperimental, variabelkepentingan diidentifikasi. Kemudian satu atau lebihfaktor dalam penelitian ini dikendalikan sehingga datadapat diperoleh tentang bagaimana faktor-faktormempengaruhi variabel. Dalam studi observasional,tidak ada usaha untuk mengendalikan ataumempengaruhi variabel bunga. Sebuah surveimungkin merupakan jenis yang paling umum daristudi observasional.

Menganalisis Data

Page 31: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Analisis data statistik membagi metode untukmenganalisis data ke dalam dua kategori: metodeeksplorasi dan metode konfirmasi. Metode eksplorasiyang digunakan untuk menemukan apa datatampaknya mengatakan dengan menggunakanaritmatika sederhana dan gambar yang mudahmenarik untuk meringkas data. metode konfirmasimenggunakan ide dari teori probabilitas dalam upayauntuk menjawab pertanyaan spesifik. Probabilitasadalah penting dalam pengambilan keputusan karenamenyediakan mekanisme untuk mengukur,mengungkapkan, dan menganalisis ketidakpastianterkait dengan kejadian di masa depan. Sebagianbesar topik dibahas dalam kursus ini jatuh di bawahjudul ini.

Pelaporan Hasil

Melalui kesimpulan, perkiraan atau tes klaim tentangkarakteristik suatu populasi dapat diperoleh darisampel. Hasil dapat dilaporkan dalam bentuk tabel,grafik atau satu set persentase. Karena hanya koleksikecil (sampel) telah diperiksa dan tidak seluruhpopulasi, hasil yang dilaporkan harus mencerminkanketidakpastian melalui penggunaan pernyataanprobabilitas dan interval nilai-nilai.

Untuk menyimpulkan, aspek penting dari mengelolaorganisasi berencana untuk masa depan. Penilaianyang baik, intuisi, dan kesadaran akan keadaanekonomi dapat memberikan manajer gambaran kasaratau "perasaan" dari apa yang mungkin terjadi dimasa depan. Namun, mengubah perasaan bahwamenjadi nomor yang dapat digunakan secara efektifadalah sulit. analisis data statistik membantu manajermeramalkan dan memprediksi aspek masa depan darioperasi bisnis. Manajer paling sukses dan pengambilkeputusan adalah orang-orang yang dapat memahamiinformasi dan menggunakannya secara efektif.

kunjungi juga Pendekatan Berbeda dengan Berpikirstatistik (http://home.ubalt.edu/ntsbarsh/Business-stat/opre504.htm#rbosim)

Pengolahan Data: Coding, Mengetik,dan Editing

Page 32: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Data sering disimpan secara manual pada lembardata. Kecuali jumlah observasi dan variabel kecil dataharus dianalisis pada komputer. Data kemudian akanmelalui tiga tahap:

Coding: data yang ditransfer, jika perlu untuk lembarkode.

Mengetik: data yang diketik dan disimpan olehsetidaknya dua orang entri dataindependen. Misalnya, ketika Survei Penduduk Lancardan survei bulanan lainnya diambil menggunakankuesioner kertas, Biro Sensus Amerika Serikatdigunakan ganda entri data kunci.

Editing: data diperiksa dengan membandingkan duadata diketik independen. Praktek standar untuk datakunci-masuk dari kuesioner kertas adalah untukmemasukkan semua data dua kali. Idealnya, keduakalinya harus dilakukan oleh operator entri kunci yangberbeda yang tugasnya khusus mencakup verifikasiketidaksesuaian antara entri asli dan kedua. Hal inidiyakini bahwa ini "double-key / verifikasi" metodemenghasilkan tingkat akurasi 99,8% total keystrokes.

Jenis kesalahan: Rekaman error, mengetikkesalahan, kesalahan transkripsi (salah menyalin),Inversi (misalnya, 123,45 diketik sebagai 123,54),Pengulangan (ketika sejumlah diulang), disengajakesalahan.

Jenis Data dan Tingkat Pengukuran

Informasi dapat dikumpulkan dalam statistikmenggunakan data kualitatif atau kuantitatif.

Data kualitatif, seperti warna mata dari sekelompokindividu, tidak dihitung oleh hubunganaritmatika. Mereka adalah label yang menyarankan dimana kategori atau kelas individu, objek, atau prosesjatuh. Mereka disebut variabel kategori.

Kuantitatif Data set terdiri dari langkah-langkah yangmengambil nilai-nilai numerik yang deskripsi sepertisarana dan standar deviasi yang bermakna. Merekadapat dimasukkan ke dalam pesanan dan selanjutnyadibagi menjadi dua kelompok: data diskrit atau datakontinu. Data diskrit adalah data dihitung, misalnya,

Page 33: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

jumlah barang cacat yang dihasilkan selama produksisatu hari. data kontinu, ketika parameter (variabel)yang terukur, disajikan pada skala kontinyu. Misalnya,mengukur tinggi seseorang.

Kegiatan pertama dalam statistik adalah untukmengukur atau menghitung. Pengukuran teori /penghitungan berkaitan dengan hubungan antara datadan kenyataan. Sebuah set data adalah representasi(yaitu, model) dari realitas berdasarkan skala numerikdan yg dpt diukur. Data disebut Data "Jenis utama"jika analis telah terlibat dalam mengumpulkan datayang relevan dengan / nya investigasi nya. Jika tidak,hal itu disebut "Jenis sekunder" data.

Data datang dalam bentuk nominal, ordinal, intervaldan rasio (ingat NOIR kata Perancis untuk warnahitam). Data dapat berupa kontinyu atau diskrit.

Kedua nol dan satuan pengukuran yang sewenang-wenang dalam skala Interval. Sedangkan unitpengukuran adalah sewenang-wenang dalam skalaRatio, titik nol adalah atribut alami. Variabel kategorisdiukur dalam skala ordinal atau nominal.

Teori Pengukuran berkaitan dengan hubungan antaradata dan kenyataan. Kedua teori statistik dan teoripengukuran yang diperlukan untuk membuatkesimpulan tentang realitas.

Sejak statistik hidup untuk presisi, mereka lebihmemilih Interval tingkat / Rasio pengukuran.

Masalah dengan Seleksi Variabel

Page 34: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

StepwiseBerikut adalah beberapa masalah umum denganvariabel pilihan bertahap dalam analisis regresi.

1. Ini menghasilkan R-squared nilai-nilai yangburuk bias tinggi.

2. F dan uji chi-squared dikutip sebelah masing-masing variabel pada hasil cetak tidak memilikidistribusi diklaim.

3. Metode ini menghasilkan interval kepercayaanuntuk efek dan nilai prediksi yang palsu sempit.

4. Ini menghasilkan P-nilai yang tidak memiliki artiyang tepat dan koreksi yang tepat bagi merekaadalah masalah yang sangat sulit

5. Ini memberi koefisien regresi bias yang perlupenyusutan, yaitu, koefisien untuk variabelyang tersisa terlalu besar.

6. Ini memiliki masalah berat di hadapancollinearity.

7. Hal ini didasarkan pada metode (misalnya F-tesuntuk model bersarang) yang dimaksudkanuntuk digunakan untuk menguji hipotesis pra-ditentukan.

8. Meningkatkan ukuran sampel tidak membantusangat banyak.

Perhatikan juga bahwa pendekatan semua-mungkin-subset tidak menghapus salah satu masalah di atas.

Bacaan lebih lanjut: Derksen, S. dan H. Keselman, Backward, maju dan bertahapotomatis algoritma seleksi bagian, British Journal ofMatematika dan Psikologi statistik , 45, 265-282, 1992.

Sebuah Pendekatan Alternatif untukMemperkirakan Line RegresiPendekatan berikut adalah apa yang disebut "metodedistribusi bebas" untuk memperkirakan parameterdalam y regresi sederhana = mx + b:

1. Menulis ulang y = mx + b sebagai b = -xm + y.2. Setiap titik data (x , y ) sesuai dengan garis b

= -x m + y di Cartesian koordinat pesawat (m,b), dan perkiraan m dan b dapat diperoleh daripersimpangan pasang garis tersebut. Adapaling n (n + 1) / 2 perkiraan tersebut.

3. Ambil median untuk mendapatkan perkiraan

i i

i i

Page 35: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

akhir.

Bacaan lebih lanjut: Cornish-Bowden A., Analisis Enzim Kinetic data , Oxford UnivPress, 1995. Hald A., A History of Statistics Matematika: Dari 1750-1930 ,Wiley, New York, 1998. Antara lain, penulis menunjukkanyang di awal penelitian Century 18-th memiliki empatmetode yang berbeda untuk memecahkan masalah pas: TheMayer-Laplace metode rata-rata, The Boscovich-Laplacemetode penyimpangan paling mutlak, metode Laplacememinimalkan sisa terbesar mutlak dan metode Legendredari meminimalkan jumlah residual kuadrat.Satu-satunyacara tunggal memilih antara metode ini adalah: untukmembandingkan hasil estimasi dan residual.

Analisis multivariat dataData mudah untuk mengumpulkan; apa yang kitabenar-benar butuhkan dalam pemecahan masalahyang kompleks adalah informasi. Kita mungkin melihatdata base sebagai domain yang memerlukan probedan alat-alat untuk mengekstrak informasi yangrelevan. Seperti dalam proses pengukuran itu sendiri,instrumen yang tepat dari penalaran harus diterapkanuntuk tugas interpretasi data. alat yang efektifmelayani dalam dua kapasitas: untuk merangkumdata dan untuk membantu dalam interpretasi. Tujuandari bantuan penafsiran adalah untukmengungkapkan data di beberapa tingkat detail.

Menjelajahi gambar Data kabur kadang-kadangmembutuhkan lensa wide-angle untuk melihattotalitasnya. Di lain waktu membutuhkan lensacloseup untuk fokus pada detail halus. Alat grafisberdasarkan yang kita gunakan memberikanfleksibilitas ini. Kebanyakan sistem kimia yangkompleks karena melibatkan banyak variabel dan adabanyak interaksi antara variabel-variabel. Oleh karenaitu, teknik chemometric mengandalkan alat statistikdan matematika multivariat untuk mengungkapinteraksi dan mengurangi dimensi dari data.

Analisis multivariat merupakan cabang dari statistikyang melibatkan pertimbangan objek pada masing-masing yang diamati nilai dari sejumlahvariabel. teknik multivariat yang digunakan di seluruhberbagai bidang aplikasi statistik: dalam kedokteran,ilmu fisika dan biologi, ekonomi dan ilmu sosial, dantentu saja dalam banyak aplikasi industri dankomersial.

Page 36: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Analisis komponen utama yang digunakan untukmenjelajahi data untuk mengurangidimensi. Umumnya, PCA berusaha untuk mewakili nberkorelasi variabel acak oleh satu set mengurangivariabel berkorelasi, yang diperoleh dengantransformasi set asli ke sebuah ruang bagian yangtepat. Variabel tidak berkorelasi dipilih untuk menjadikombinasi linear baik dari variabel asli, dalam halmenjelaskan varian maksimal, arah orthogonal dalamdata. Dua teknik yang berkaitan erat, analisiskomponen utama dan analisis faktor, digunakan untukmengurangi dimensi data multivariat. Dalam teknik inikorelasi dan interaksi antara variabel dirangkumdalam hal sejumlah kecil faktor yangmendasari.Metode cepat mengidentifikasi variabelkunci atau kelompok variabel yang mengontrol sistemyang diteliti. Reduksi dimensi yang dihasilkan jugamemungkinkan representasi grafis dari data sehinggahubungan yang signifikan antara pengamatan atausampel dapat diidentifikasi.

Teknik lainnya termasuk Multidimensional Scaling,Analisis Cluster, dan analisis korespondensi.

Bacaan lebih lanjut: Chatfield C., dan A. Collins, Pengantar Analisis multivariat ,Chapman dan Hall, 1980. Hoyle R., Strategi statistik Penelitian Sampel kecil, ThousandOaks, CA, Sage, 1999. Krzanowski W., Prinsip multivariat analisis: Perspektif APengguna , Clarendon Press, 1988. Mardia K., J. Kent dan J. Bibby, analisis multivariat ,Academic Press, 1979.

Arti dan Interpretasi P-nilai (apa yangdikatakan data?)P-nilai, yang secara langsung tergantung padasampel yang diberikan, mencoba untuk memberikanukuran kekuatan hasil tes, berbeda dengansederhana menolak atau tidak menolak. Jika hipotesisnol benar dan kemungkinan variasi acak adalah satu-satunya alasan untuk perbedaan sampel, maka P-nilaiadalah ukuran kuantitatif untuk memberi makan kedalam proses pengambilan keputusan sebagaibukti. Tabel berikut memberikan interpretasi yangwajar dari P-nilai:

P-value Interpretasi

Page 37: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

P < 0,01 bukti yang sangat kuat terhadapH0

0.01 £ P < 0,05 bukti moderat terhadap H0

0,05 £ P < 0,10 bukti sugestif terhadap H0

0.10 £ P sedikit atau tidak ada buktinyata terhadap H0

Penafsiran ini diterima secara luas, dan banyak jurnalilmiah secara rutin mempublikasikan makalahmenggunakan interpretasi ini untuk hasil uji hipotesis.

Untuk ukuran fixed-sampel, ketika jumlah realisasidiputuskan di muka, distribusi p seragam (denganasumsi hipotesis nol). Kami akan mengungkapkan inisebagai P (p £ x) = x. Itu berarti kriteria p < 0,05mencapai sebuah 0,05.

Ketika p-nilai dikaitkan dengan satu set data, ituadalah ukuran dari probabilitas bahwa data bisamuncul sebagai sampel acak dari beberapa populasiyang dijelaskan oleh statistik (uji) model.

Sebuah p-value adalah ukuran dari berapa banyakbukti yang Anda miliki terhadap hipotesisnol. Semakin kecil nilai p, semakin banyak yang Andamiliki. Satu dapat menggabungkan p-value dengantingkat signifikansi untuk membuat keputusan padates yang diberikan hipotesis. Dalam kasus seperti itu,jika p-value kurang dari ambang batas (biasanya 0,05,kadang-kadang sedikit lebih besar seperti 0,1 atausedikit lebih kecil seperti 0,01) maka Anda menolakhipotesis nol.

Memahami bahwa distribusi p-nilai di bawah hipotesisnol H0 adalah seragam, dan dengan demikian tidaktergantung pada bentuk tertentu dari ujistatistik. Dalam uji hipotesis statistik, nilai P adalahprobabilitas mengamati statistik uji setidaknyaseekstrim nilai benar-benar diamati, dengan asumsibahwa hipotesis nol benar. Nilai p didefinisikansehubungan dengan distribusi. Oleh karena itu, kitabisa menyebutnya "model-distribusi hipotesis"daripada "hipotesis nol".

Page 38: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Singkatnya, itu hanya berarti bahwa jika nol telahbenar, nilai p adalah probabilitas terhadap nol dalamkasus itu. P-nilai ditentukan oleh nilai yang diamati,namun, ini membuat sulit untuk bahkan menyatakankebalikan dari p.

Anda mungkin ingin menggunakan P-nilai untukPopuler Distribusi(http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/pvalues.htm) applet Java.

Bacaan lebih lanjut: Arsham H., P-nilai Kuiper sebagai Alat Pengukuran danProsedur Keputusan untuk Goodness-of-fit Test, JurnalStatistik Terapan , Vol. 15, No.3, 131-135, 1988.

Akurasi, Presisi, Robustness, danKualitasAkurasi mengacu pada kedekatan pengukuran ke"sebenarnya" atau nilai "nyata" dari kuantitas fisik,sedangkan presisi istilah digunakan untukmenunjukkan kedekatan dengan yang pengukuransetuju dengan satu sama lain cukup independen darisetiap kesalahan sistematik yang terlibat. Oleh karenaitu, "akurat" estimasi memiliki bias yang kecil.Sebuah"tepat" estimasi memiliki baik Bias kecil danvarians. Kualitas adalah proporsi dengan kebalikandari varians.

Kekokohan prosedur adalah sejauh mana sifat-sifatnya tidak tergantung pada asumsi-asumsi yangAnda tidak ingin membuat. Ini merupakan modifikasidari versi asli Box, dan ini termasuk pertimbanganBayesian, kerugian serta sebelumnya. Teorema limitpusat (CLT) dan Gauss-Markov Teorema memenuhisyarat sebagai teorema ketahanan, tetapi definisiHuber-Hempel tidak memenuhi syarat sebagaiteorema ketahanan.

Kita harus selalu membedakan antara Bias ketahanandan efisiensi ketahanan. Tampaknya jelas bagi sayabahwa tidak ada prosedur statistik dapat kuat disemua indra. Salah satu kebutuhan untuk lebihspesifik tentang apa yang harus dilindungi prosedurterhadap. Jika mean sampel kadang-kadang dilihatsebagai estimator kuat, itu karena CLT menjamin 0bias untuk sampel besar terlepas dari distribusi yang

Page 39: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

mendasarinya. estimator ini bias kuat, tapi jelas tidakefisiensi kuat sebagai varian yang dapatmeningkatkan tanpa henti. varian yang bahkan bisatak terbatas jika distribusi yang mendasari adalahCauchy atau Pareto dengan parameter skalabesar. Ini adalah alasan yang mean sampel tidakmemiliki ketahanan menurut definisi Huber-Hampel. Masalahnya adalah bahwa M-estimatordianjurkan oleh Huber, Hampel dan beberapa oranglain bias kuat hanya jika distribusi yang mendasarisimetris.

Dalam konteks pengambilan sampel survei, dua jeniskesimpulan statistik yang tersedia: inferensi berbasismodel dan inferensi berdasarkan desain-yangmengeksploitasi hanya pengacakan emban olehproses sampling (tidak ada asumsi yang diperlukantentang model). estimator berdasarkan desain-berisibiasanya disebut estimator sebagai kuat karenaunbiasedness yang berlaku untuk semua distromungkin. Tampak jelas bagaimanapun, bahwaestimator tersebut masih bisa berkualitas buruksebagai varian yang dapat menjadi terlalu besar.

Namun, lain orang akan menggunakan kata dalam(tidak tepat) lainnya cara. Vol Kendall. 2, AdvancedTeori Statistik, juga mengutip Box 1953; dan iamembuat pernyataan yang kurang berguna tentangasumsi. Selain itu, Kendall menyatakan dalam satutempat yang ketahanan berarti (hanya) bahwa ukurantes, sebuah , tetap konstan di bawah kondisi yangberbeda. Ini adalah apa yang orang gunakan,ternyata, ketika mereka mengklaim bahwa dua-tailedt-tes yang "kuat" bahkan ketika varians dan ukuransampel yang tidak sama. Saya, secara pribadi, tidaksuka menyebutnya tes kuat ketika dua versi dari t-tes,yang sekitar sama kuat, mungkin memiliki 90% hasilyang berbeda ketika Anda membandingkan manasampel jatuh ke interval penolakan (atau wilayah).

Saya merasa lebih mudah untuk menggunakan frase,"Ada perbedaan yang kuat", yang berarti bahwatemuan yang sama muncul tidak peduli bagaimanaAnda melakukan tes, apa transformasi (dibenarkan)yang Anda gunakan, di mana Anda membagi skoruntuk menguji pada dikotomi , dll, atau apa pengaruhluar yang Anda pegang konstan sebagai kovariat.

Page 40: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Pengaruh Fungsi dan Aplikasi ItsPengaruh fungsi perkiraan pada titik x pada dasarnyaperubahan estimasi saat observasi sangat kecilditambahkan pada titik x, dibagi dengan massapengamatan. Pengaruh fungsi memberikansensitivitas kecil dari solusi untuk penambahan datumbaru.

Ini adalah aplikasi potensial utama fungsipengaruhnya dibandingkan metode estimasi untukperingkat ketahanan. Suatu bentuk akal sehat fungsipengaruh adalah prosedur kuat ketika nilai-nilaiekstrim dijatuhkan, yaitu, data yang pemangkasan.

Ada beberapa uji statistik dasar seperti tes untukkeacakan, uji homogenitas populasi, tes untukmendeteksi outliner (s), dan kemudian mengujinormalitas. Untuk semua tes ini diperlukan adaprosedur yang kuat dalam literatur analisis datastatistik. Apalagi sejak penulis membatasi presentasimereka untuk uji berarti, mereka dapat memohon CLTuntuk, mengatakan setiap sampel berukuran lebih dari30.

Konsep pengaruh adalah studi tentang dampak padakesimpulan dan kesimpulan dari berbagai bidang studitermasuk analisis data statistik. Hal ini dimungkinkandengan analisis gangguan. Misalnya, pengaruh fungsiperkiraan adalah perubahan estimasi ketikaperubahan kecil dalam satu pengamatan dibagidengan jumlah perubahan. Ini bertindak sebagaianalisis sensitivitas estimasi.

Pengaruh fungsi telah diperpanjang ke "apa-jika"analisis, ketahanan, dan analisis skenario, sepertimenambahkan atau menghapus observasi, outliners(s) dampak, dan sebagainya. Misalnya, untukdistribusi diberikan baik normal atau sebaliknya, yangparameter populasi telah diperkirakan dari sampel,interval kepercayaan untuk estimasi median atauberarti lebih kecil dibandingkan nilai-nilai yangcenderung ke arah ekstremitas seperti 90% atau 10Data%. Sementara dalam memperkirakan rata-ratapada dapat memanggil teorema limit sentral untuksetiap sampel berukuran lebih dari, katakanlah 30.Namun, kita tidak bisa memastikan bahwa varians

Page 41: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

dihitung adalah varians sebenarnya dari populasi dankarena ketidakpastian yang lebih besar merayap didan satu kebutuhan untuk menuntut pengaruh fungsisebagai alat ukur prosedur keputusan.

Bacaan lebih lanjut: Melnikov Y., Fungsi Pengaruh dan Matriks , Dekker, 1999.

Apa Probabilitas yang tidak tepat?probabilitas tepat adalah istilah generik untuk banyakmodel matematika yang mengukur kebetulan atauketidakpastian tanpa probabilitas numerik yangtajam. Model ini meliputi fungsi keyakinan, teorikapasitas ', orderings probabilitas perbandingan, setcembung kemungkinan langkah-langkah, langkah-langkah fuzzy, probabilitas interval dihargai, tindakankemungkinan, langkah-langkah masuk akal, danharapan atas dan bawah atau previsions. modelseperti yang diperlukan dalam masalah inferensimana informasi yang relevan langka, samar-samaratau bertentangan, dan dalam masalah keputusanmana preferensi juga mungkin tidak lengkap.

Apa itu Meta-Analisis?Sebuah penawaran Meta-analisis dengan satu sethasil untuk memberikan HASIL keseluruhan yangkomprehensif dan valid.

a) Terutama ketika Effect-ukuran yang agak kecil,harapan adalah bahwa seseorang dapat memperolehkekuatan yang baik dengan dasarnya berpura-puramemiliki lebih besar N sebagai, sampel gabunganvalid.

b) Ketika efek ukuran agak besar, maka DAYAtambahan tidak diperlukan untuk efek utama daridesain: Sebaliknya, secara teoritis bisa mungkin untukmelihat kontras antara sedikit variasi dalam studi itusendiri.

Misalnya, untuk membandingkan dua efek ukuran (r)yang diperoleh oleh dua studi terpisah, Anda dapatmenggunakan:

Z = (z - z ) / [(1 / n -3) + (1 / n -3)] 1 2 1 21/2

Page 42: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

mana z dan z adalah Fisher transformasi dari r,dan dua n 's di denominator mewakili ukuran sampeluntuk setiap studi.

Jika Anda benar-benar percaya bahwa "segalasesuatu yang sama" akan tahan. Khas "meta" studitidak melakukan tes homogenitas yang seharusnyadibutuhkan

Dengan kata lain:

1. ada badan penelitian literatur / data yang inginAnda meringkas

2. satu mengumpulkan bersama-sama semua contohditerima sastra ini (catatan: beberapa mungkindibuang karena berbagai alasan)

3. rincian tertentu dari setiap penyelidikan yangdiuraikan ... paling penting yang akan menjadi efekyang memiliki atau belum ditemukan, yaitu, berapabanyak yang lebih besar di unit sd adalah kinerjakelompok perlakuan dibandingkan dengan satu ataulebih kontrol.

4. memanggil nilai-nilai dalam setiap penyelidikan di #3 .. efek ukuran Mini.

5. di semua set data diterima, Anda mencoba untukmeringkas ukuran efek keseluruhan denganmembentuk satu set efek individu ... danmenggunakan sd keseluruhan sebagai pembagi ..sehingga menghasilkan dasarnya efek ukuran rata-rata.

6. dalam literatur analisis meta ... kadang-kadang efekukuran ini selanjutnya diberi label sebagai kecil,menengah, maupun besar ....

Anda dapat melihat efek ukuran dalam berbagai cara.. di faktor yang berbeda dan variabel. namun,singkatnya, ini adalah apa yang dilakukan.

Saya ingat kasus dalam fisika, di mana, setelahfenomena telah diamati di udara, Data emulsidiperiksa. Teori ini akan memiliki sekitar efek 9%dalam emulsi, dan lihatlah, data yang dipublikasikanmemberi 15%. Seperti yang terjadi, tidak adaperbedaan yang signifikan (praktis, tidak statistik)dalam teori, dan juga tidak ada kesalahan dalam

1 2

i

Page 43: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

data.Itu hanya bahwa hasil eksperimen di mana tidakada yang signifikan secara statistik ditemukan tidakdilaporkan.

Ini non-pelaporan percobaan tersebut, dan seringhasil tertentu yang tidak signifikan secara statistik,yang memperkenalkan bias utama. Ini jugadikombinasikan dengan sikap yang sama sekali kelirudari peneliti bahwa hasil yang signifikan secarastatistik adalah orang-orang penting, dan daripada jikatidak ada makna, efeknya tidak penting. Kami benar-benar perlu untuk membedakan antara istilah "statistiksignifikan", dan kata yang biasa signifikan.

Meta-analisis adalah jenis kontroversial tinjauanpustaka di mana hasil penelitian acak terkontrolindividu dikumpulkan bersama-sama untuk mencobauntuk mendapatkan perkiraan efek intervensi yangsedang dipelajari. Ini meningkatkan kekuatan statistikdan digunakan untuk menyelesaikan masalah laporanyang tidak setuju dengan satu sama lain. Ini tidakmudah untuk melakukannya dengan baik dan adabanyak masalah yang melekat.

Bacaan lebih lanjut: Lipsey M., dan D. Wilson, Praktis Meta-Analisis , SagePublications, 2000.

Apa Apakah Ukuran EffectEfek ukuran (ES) adalah rasio perbedaan berartidengan standar deviasi, yaitu merupakan bentuk z-skor. Misalkan suatu kelompok perlakuaneksperimental memiliki skor rata-rata Xe dankelompok kontrol memiliki skor rata-rata Xc dandeviasi standar Sc, maka efek ukuran sama dengan(Xe - Xc) / Sc

Ukuran efek memungkinkan efek komparatifperawatan yang berbeda untuk dibandingkan, bahkanketika didasarkan pada sampel yang berbeda dan alatpengukur yang berbeda.

Oleh karena itu, ES adalah perbedaan berarti antarakelompok kontrol dan kelompok perlakuan. Howevere,dengan metode Glass, ES adalah (mean1 - mean2) /SD dari kelompok kontrol sementara dengan metodeHunter-Schmit ini, ES adalah (mean1 - mean2) /

Page 44: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

dikumpulkan SD dan kemudian disesuaikan dengankoefisien reliabilitas instrumen. ES umumnyadigunakan dalam meta-analisis dan daya analisis.

Bacaan lebih lanjut: Cooper H., dan L. Hedges, The Handbook of SintesisPenelitian , NY, Russell Sage, 1994. Lipsey M., dan D. Wilson, Praktis Meta-Analisis , SagePublications, 2000.

Apa Hukum Benford ini? Apa TentangHukum Zipf?Apa Hukum Benford ini: Hukum Benford menyatakanbahwa jika kita secara acak memilih nomor dari tabelkonstanta fisik atau data statistik, probabilitas bahwadigit pertama akan menjadi "1" adalah tentang 0.301,daripada 0,1 seperti yang kita harapkan jika semuaangka memiliki kemungkinan yang sama. Secaraumum, "hukum" mengatakan bahwa probabilitas digitpertama menjadi "d" adalah:

Ini berarti bahwa angka dalam tabel konstanta fisiklebih mungkin untuk memulai dengan digit lebih kecildari angka yang lebih besar. Hal ini dapat diamati,misalnya, dengan memeriksa tabel Logaritma danmencatat bahwa halaman pertama jauh lebih usangdan kotor dari halaman kemudian.

Teknik Pengurangan BiasEstimator alat yang paling efektif untuk mengurangibias non-bias adalah Bootstrap dan Jackknifing.

Menurut legenda, Baron Munchausen menyelamatkandiri dari tenggelam di pasir hisap dengan menarik dirihanya menggunakan bootstraps nya. The bootstrapstatistik, yang menggunakan resampling darihimpunan data untuk meniru variabilitas yangmenghasilkan data di tempat pertama, memiliki dasarteori yang agak lebih diandalkan dan dapat menjadiprosedur yang sangat efektif untuk estimasi jumlahkesalahan dalam masalah statistik.

Page 45: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Bootstrap adalah untuk menciptakan populasi virtualdengan menduplikasi sampel yang sama berulang-ulang, dan kemudian kembali sampel dari populasivirtual untuk membentuk satu set referensi. MakaAnda membandingkan sampel asli Anda denganreferensi yang ditetapkan untuk mendapatkan yangtepat p-value. Sangat sering, struktur tertentu"diasumsikan" sehingga sisa dihitung untuk setiapkasus. Apa yang kemudian kembali sampel adalahdari set residual, yang kemudian ditambahkan kestruktur-struktur diasumsikan, sebelum beberapastatistik dievaluasi. Tujuannya adalah sering untukmemperkirakan P-tingkat.

Pisau lipat adalah untuk kembali menghitung-datadengan meninggalkan pengamatan keluar setiapkali. Tinggalkan-satu-out replikasi memberikan yangsama Kasus-perkiraan, saya pikir, sebagai estimasijack-pisau yang tepat. Jackknifing tidak sedikit lipatlogis (mana, 'pisau lipat' - mencarinya) untukmemberikan estimator koefisien dan kesalahan yang(Anda berharap) akan mengurangi prasangka.

Teknik pengurangan Bias memiliki aplikasi luas dalamantropologi, kimia, klimatologi, uji klinis, cybernetics,dan ekologi.

Bacaan lebih lanjut: Efron B., The Jackknife, The Bootstrap dan RencanaResampling lain , SIAM, Philadelphia, 1982. Efron B., dan R. Tibshirani, Sebuah Pengantar Bootstrap ,Chapman & Hall (sekarang CRC Press), 1994. Shao J., dan D. Tu, Jackknife The dan Bootstrap , SpringerVerlag, 1995.

Area Under Curve Normal StandardPerkiraan area di bawah kurva normal standar dari 0sampai Z adalah

Page 46: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Z (4,4-Z) / 10 untuk 0 £ Z £ 2.2

0.49 untuk 2,2 < Z < 2,6

0,50 untuk Z £ 2,6

mutlak kesalahan maksimum untuk pendekatan di atas adalah kira-kira setengah persen (tepatnya, 0,0052).

Jumlah Kelas Interval di HistogramSebelum kita dapat membangun distribusi frekuensikita harus menentukan berapa banyak kelas kitaharus menggunakan. Ini adalah murni sewenang-wenang, tapi terlalu sedikit kelas atau terlalu banyakkelas tidak akan memberikan sejelas gambar sebagaibisa diperoleh dengan beberapa nomor lebih hampiroptimal. Hubungan empiris (dikenal sebagai aturanSturges ') yang tampaknya terus dan yang dapatdigunakan sebagai panduan untuk jumlah kelas (k)diberikan oleh

k = bilangan bulat terkecil yang lebih besar dari atausama dengan 1 + Log (n) / Log (2) = 1 + 3.332Log (n)

Untuk memiliki 'optimal' Anda perlu beberapa ukurankualitas - mungkin dalam hal ini, 'terbaik' cara untukmenampilkan informasi apa pun yang tersedia dalamdata. Ukuran sampel kontribusi untuk ini, jadipedoman yang biasa digunakan antara 5 dan 15kelas, satu membutuhkan kelas yang lebih jika Andasalah satu memiliki sampel yang sangat besar. Andamemperhitungkan preferensi untuk lebar kelas rapi,sebaiknya kelipatan 5 atau 10, karena ini membuatlebih mudah untuk menghargai skala.

Di luar ini menjadi masalah pertimbangan - mencobaberbagai lebar kelas dan memilih satu yangterbaik. (Ini mengasumsikan Anda memiliki komputerdan dapat menghasilkan histogram alternatif cukupmudah).

Sering ada isu-isu manajemen yang datang kedalamnya juga. Misalnya, jika data Anda akandibandingkan dengan data yang sama - seperti

Page 47: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

penelitian sebelumnya, atau dari negara-negara lain -Anda dibatasi untuk interval yang digunakan didalamnya.

Jika histogram sangat miring, maka kelas yang tidaksama harus dipertimbangkan. Menggunakan kelasyang sempit di mana frekuensi kelas tinggi, kelasyang luas di mana mereka rendah.

Pendekatan berikut yang umum:

Biarkan n menjadi ukuran sampel, maka jumlahinterval kelas bisa

MIN {n , 10Log (n)}.

Jadi untuk 200 pengamatan Anda akan menggunakan14 interval tetapi untuk tahun 2000 Anda akanmenggunakan 33.

Atau,

1. Cari rentang (nilai tertinggi - nilai terendah).

2. Bagilah kisaran oleh ukuran interval yang wajar: 2,3, 5, 10 atau = kelipatan 10.

3. Tujuan untuk tidak kurang dari 5 interval dan tidaklebih dari 15.

Modeling Persamaan StrukturalTeknik pemodelan persamaan struktural digunakanuntuk mempelajari hubungan antaravariabel. Hubungan biasanya diasumsikanlinear. Dalam penelitian sosial dan perilaku yangpaling fenomena dipengaruhi oleh sejumlah besardeterminan yang biasanya memiliki pola komplekshubungan timbal balik. Untuk memahami pentingnyarelatif dari faktor penentu hubungan mereka harusterwakili secara memadai dalam model, yang dapatdilakukan dengan pemodelan persamaan struktural.

Sebuah model persamaan struktural mungkin berlakuuntuk satu kelompok kasus atau beberapa kelompokkasus. Ketika beberapa kelompok dianalisisparameter dapat dibatasi harus sama di dua atau

½

Page 48: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

lebih kelompok. Ketika dua atau lebih kelompokdianalisis, berarti pada variabel yang diamati dan latenjuga dapat dimasukkan dalam model.

Sebagai aplikasi, bagaimana Anda mengujikesetaraan lereng regresi yang berasal dari sampelyang sama dengan menggunakan 3 metodepengukuran yang berbeda? Anda bisa menggunakanpendekatan pemodelan struktural.

1 - Standarisasi ketiga Data set sebelum analisiskarena b bobot juga merupakan fungsi dari variansdari variabel prediktor dan dengan standarisasi, Andamenghapus sumber ini.

2 - Model variabel dependen sebagai efek dari ketigalangkah dan mendapatkan koefisien jalur ( b berat)untuk masing-masing.

3 - Kemudian cocok dengan model di mana tigakoefisien jalur dibatasi harus sama. Jika penurunanyang signifikan dalam fit terjadi, jalur tidak sama.

Bacaan lebih lanjut: Schumacker R., dan R. Lomax, Panduan Pemula untukStructural Equation Modeling , Lawrence Erlbaum, NewJersey, 1996.

Ekonometri dan Model Waktu SeriEkonometrik model set model regresi simultan denganaplikasi untuk bidang-bidang seperti Ekonomi Industri,Ekonomi Pertanian, dan Strategi Perusahaan danPeraturan.Time Series Model memerlukan sejumlahbesar pengamatan (mengatakan lebih dari 50). Keduamodel yang berhasil digunakan untuk aplikasi bisnismulai dari mikro studi makro, termasuk keuangan danpertumbuhan endogen. pendekatan model lainnyatermasuk model struktural dan klasik seperti Harvey,dan pendekatan Box-Jenkins, analisis co-integrasidan ekonometrik mikro umum dalam modelprobabilistik, misalnya, Logit, Probit dan Tobit, datapanel dan bagian lintas. Ekonometrik sebagian besarmempelajari masalah kausalitas, yaitu isumengidentifikasi hubungan kausal antara hasil danserangkaian faktor yang mungkin telah ditentukanhasil ini. Secara khusus, ti membuat konsep iniberoperasi pada time series, dan pemodelanexogeneity.

Page 49: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Bacaan lebih lanjut: Ericsson N., dan J. Irons, Pengujian Exogeneity, OxfordUniversity Press, 1994. Granger C., dan P. Newbold, Peramalan Bisnis dan Ekonomi,Academic Press, 1989. Hamouda O., dan J. Rowley, (Eds.), Time Series Model,Kausalitas dan Exogeneity, Edward Elgar Pub., 1999.

Tri-linear Segitiga KoordinatSebuah "terner diagram" biasanya digunakan untukmenunjukkan perubahan pendapat (FOR - MELAWAN- ragu-ragu). diagram segitiga digunakan pertamaoleh kimiawan Willard Gibbs dalam studinya padafase transisi. Hal ini didasarkan pada proposisi darigeometri bahwa dalam segitiga sama sisi, jumlah darijarak dari titik ke tiga sisi adalah konstan. Ini berartibahwa komposisi persen campuran tiga substansidapat direpresentasikan sebagai titik di diagramtersebut, karena jumlah dari persentase konstan(100).Tiga simpul adalah poin dari zat murni.

Hal yang sama berlaku untuk "komposisi" daripendapat dalam suatu populasi. Ketika persen untuk,melawan dan jumlah bimbang untuk 100, teknik yangsama untuk presentasi dapat digunakan. Lihatdiagram di bawah, yang harus dilihat dengan suratnon-proporsional. Benar sama sisi mungkin tidakdapat dipertahankan dalam transmisi.Misalnyamembiarkan komposisi awal pendapat diberikan oleh1. Artinya, beberapa ragu-ragu, kira-kira sama sepertibanyak untuk saat melawan. Mari komposisi laindiberikan oleh titik 2. Hal ini merupakan persentaseyang lebih tinggi bimbang dan, di antara yangmemutuskan itu, mayoritas "untuk".

Page 50: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Internal dan Inter-rater Keandalan"Keandalan internal" dari skala sering diukur dengankoefisien Cronbach a . Hal ini relevan ketika Andaakan menghitung skor total dan Anda ingin tahukehandalan, berdasarkan ada rating lainnya. The"keandalan" adalah * diperkirakan * dari korelasi rata-rata, dan dari jumlah item, karena skala lagi akan(mungkin) lebih dapat diandalkan.Apakah item-itemmemiliki sarana yang sama biasanya tidak penting.

Tau-setara: Skor benar pada item diasumsikanberbeda satu sama lain dengan tidak lebih darisebuah konstanta. Untuk sebuah menyamaikeandalan ukuran, item yang terdiri dari itu harusberada pada setidaknya tau-setara, jika asumsi initidak dipenuhi, suatu lebih rendah estimasi terikatkehandalan.

Tindakan congeneric: Model membatasi setidaknyadalam kerangka teori tes klasik hanya membutuhkanbahwa skor yang benar pada langkah-langkahdikatakan mengukur fenomena yang sama akanberkorelasi sempurna. Akibatnya, pada langkah-langkah congeneric, kesalahan varians, benar-skorberarti, dan varians benar-skor mungkin tidak sama

Untuk "inter-rater" kehandalan, satu perbedaanadalah bahwa pentingnya terletak pada keandalanrating tunggal. Misalkan kita memiliki data sebagaiberikut

Peserta Waktu Q1 Q2 Q3 untuk Q17 001 1 4 5 4 4 002 1 3 4 3 3 001 2 4 4 5 3 dll

Dengan memeriksa data, saya pikir salah satu tidakbisa lebih baik dari melihat t-tes berpasangan dankorelasi Pearson antara setiap pasangan penilai - t-test memberitahu Anda apakah sarana yang berbeda,sedangkan korelasi memberitahu Anda apakahpenilaian sebaliknya konsisten.

Page 51: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Tidak seperti Pearson, "intra-kelas" korelasimengasumsikan bahwa penilai yang memiliki rata-ratayang sama. Hal ini tidak buruk sebagai ringkasankeseluruhan, dan itu adalah tepat apa yang beberapaeditor ingin melihat disajikan untuk keandalan seluruhpenilai. Ini adalah kedua plus dan minus, bahwa adaformula yang berbeda untuk korelasi intra-kelas,tergantung pada yang keandalannya sedangdiperkirakan.

Untuk tujuan seperti perencanaan Power untuk studiyang diusulkan, itu masalah apakah penilai yang akandigunakan akan persis individu yang sama. Sebuahmetodologi yang baik untuk diterapkan dalam kasustersebut, adalah Bland & Altman analisis.

SPSS Perintah:

Keandalan (Alpha, KR-20) RELIABILITAS

SAS Perintah:

Keandalan (Alpha, KR-20) CORR ALPHA

Ketika Menggunakan TeknikNonparametrik?Teknik parametrik lebih berguna semakin Anda tahutentang subjek Anda, karena pengetahuan tentangmateri pelajaran Anda dapat dibangun ke dalammodel parametrik.metode nonparametrik, termasukkedua indera istilah, tes bebas distribusi dan bentukfungsional yang fleksibel, lebih berguna semakinsedikit Anda tahu tentang subjek Anda.Satu harusmenggunakan teknik statistik yang disebutnonparametrik jika memenuhi setidaknya pada limajenis berikut kriteria:

1. Data yang masuk analisis yang enumerative - yaitu,menghitung data yang mewakili jumlah pengamatan dimasing-masing kategori atau lintas-kategori.

2. Data yang diukur dan / atau dianalisismenggunakan skala nominal pengukuran.

3. Data diukur dan / atau dianalisis menggunakanskala ordinal pengukuran.

Page 52: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

4. Kesimpulannya tidak menyangkut parameter dalamdistribusi populasi - seperti, misalnya, hipotesis bahwawaktu yang ditetapkan-memerintahkan pengamatanmenunjukkan pola acak.

5. Distribusi probabilitas dari statistik di mana analisisdidasarkan tidak tergantung pada informasi tertentuatau asumsi tentang populasi (s) yang sampel (s)ditarik, tetapi hanya pada asumsi umum, seperti terus-menerus dan / atau distribusi penduduk simetris.

Dengan definisi ini, perbedaan nonparametrik yangdiberikan baik karena tingkat pengukuran yangdigunakan atau diperlukan untuk analisis, seperti padajenis 1 sampai 3;jenis inferensi, seperti pada tipe 4atau umum dari asumsi yang dibuat tentang distribusipenduduk, seperti di tipe 5.

Sebagai contoh salah satu dapat menggunakanMann-Whitney Rank Test sebagai alternatifnonparametrik untuk Siswa T-test ketika seseorangtidak memiliki data terdistribusi normal.

Mann-Whitney: Untuk digunakan dengan duakelompok independen (analog dengan kelompokindependen-uji t) Wilcoxon: Untuk digunakan dengan dua kelompok(yaitu, cocok atau berulang) terkait (analog dengansampel terkait t-test) Kruskall-Wallis : untuk digunakan dengan dua ataulebih mandiri kelompok (analog dengan faktor tunggalantara-subyek ANOVA) Friedman: untuk digunakan dengan dua atau lebihterkait kelompok (analog dengan faktor tunggaldalam-pelajaran ANOVA)

Analisis data yang tidak lengkapMetode berurusan dengan analisis data dengan nilai-nilai yang hilang dapat diklasifikasikan menjadi:

- Analisis kasus lengkap, termasuk penyesuaianbobot, - metode imputasi, dan ekstensi ke beberapaimputasi, dan - Metode yang menganalisis data yang tidak lengkap

Page 53: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

langsung tanpa memerlukan kumpulan data persegipanjang, seperti kemungkinan maksimum dan metodeBayesian.

Beberapa imputasi (MI) adalah paradigma umumuntuk analisis data yang tidak lengkap. Setiap datumhilang diganti dengan m > 1 nilai simulasi,memproduksi versi m simulasi dari data yanglengkap. Setiap versi dianalisis dengan metodelengkap-data standar, dan hasilnya digabungkanmenggunakan aturan sederhana untuk menghasilkanlaporan disimpulkan bahwa menggabungkan hilangketidakpastian data. Fokusnya adalah pada praktekMI untuk masalah statistik nyata dalam lingkungankomputasi modern.

Bacaan lebih lanjut: Rubin D., Beberapa Imputasi untuk nonresponse di Survei ,New York, Wiley, 1987. Schafer J., Analisis Data Multivariate lengkap , London,Chapman dan Hall, 1997. Sedikit R., dan D. Rubin, Analisis Statistik dengan Hilangdata , New York, Wiley, 1987.

Interaksi di ANOVA dan AnalisisRegresiInteraksi diabaikan hanya jika Anda mengizinkanitu. Untuk alasan historis, program ANOVA umumnyamenghasilkan semua interaksi yang mungkin,sementara program (multiple) regresi umumnya tidakmenghasilkan interaksi apapun - setidaknya, tidakbegitu rutin. Jadi terserah kepada pengguna untukmembangun hubungan interaksi ketika menggunakanregresi untuk menganalisis masalah di mana interaksiyang, atau mungkin, kepentingan. (Dengan "istilahinteraksi" Maksudku variabel yang membawainformasi interaksi, termasuk sebagai prediktor dalammodel regresi.)

Regresi adalah estimasi dari ekspektasi bersyarat darivariabel acak diberi lain (mungkin vektor-dihargai)variabel acak.

Pembangunan termudah adalah denganmemperbanyak bersama-sama prediktor yanginteraksi untuk dimasukkan. Bila ada lebih dari sekitartiga prediktor, dan terutama jika variabel bakumengambil nilai-nilai yang jauh dari nol (seperti jumlah

Page 54: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

item yang tepat), berbagai produk (untuk berbagaiinteraksi yang dapat dihasilkan) cenderung sangatberkorelasi dengan masing-masing lainnya, dandengan prediktor asli. Hal ini kadang-kadang disebut"masalah multikolinearitas", meskipun itu akan lebihakurat digambarkan sebagai multikolinearitaspalsu. Hal ini dimungkinkan, dan sering untukdirekomendasikan, untuk menyesuaikan produkmentah sehingga membuat mereka ortogonal kevariabel asli (dan istilah interaksi-order menurunkanjuga).

Apa artinya jika istilah error standartinggi? Multikolinieritas bukan satu-satunya faktoryang dapat menyebabkan besar SE untuk estimatordari "kemiringan" koefisien setiap model regresi. SEadalah berbanding terbalik dengan kisaran variabilitasvariabel prediktor. Misalnya, jika Anda memperkirakanhubungan linear antara berat (x) dan beberapa hasildikotomis dan x = (50,50,50,50,51,51,53,55,60,62) SEakan jauh lebih besar dari jika x =(10,20,30,40,50,60,70,80,90,100) semuasederajat. Ada pelajaran di sini untuk perencanaaneksperimen. Untuk meningkatkan ketepatan penduga,meningkatkan jangkauan input. Penyebab lain besarSE adalah sejumlah kecil pengamatan "acara" atausejumlah kecil pengamatan "non-event" (analogdengan varians kecil dalam variabel hasil). Hal initidak sepenuhnya dikontrol tetapi akan meningkatkansemua estimator SE (bukan hanya individu SE). Adajuga penyebab lain dari kesalahan standar yangtinggi, itu disebut korelasi serial. Masalah ini seringterjadi, jika tidak khas, bila menggunakan time-series,karena dalam kasus bahwa istilah gangguanstochastic sering akan mencerminkan variabel, tidaktermasuk eksplisit dalam model, yang dapat berubahsecara perlahan dengan berjalannya waktu oleh.

Dalam model linear mewakili variasi dalam variabeldependen Y sebagai fungsi linear dari beberapavariabel penjelas, interaksi antara dua jelas variabel Xdan W dapat diwakili oleh produk mereka: yaitudengan variabel dibuat dengan mengalikan merekabersama-sama. Aljabar model seperti itu diwakili oleh:

Y = a + B1X + b2 W + b3 XW + e.

Page 55: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Ketika X dan W adalah sistem kategori. Persamaan inimenggambarkan analisis dua arah varians (ANOV)Model; ketika X dan W adalah (kuasi) variabel kontinu,persamaan ini menggambarkan model regresi linier(MLR).

Dalam konteks ANOV, keberadaan interaksi dapatdigambarkan sebagai perbedaan antara perbedaan:perbedaan berarti antara dua tingkat X di salah satunilai W tidak sama dengan perbedaan dalam carayang sesuai dengan nilai lain dari W, dan ini tidak-the-sama-ness merupakan interaksi antara X dan W; itudiukur dengan nilai b3.

Dalam konteks MLR, interaksi menyiratkan perubahandi lereng (dari regresi Y atas X) dari salah satu nilai Wke nilai lain dari W (atau, sama, perubahankemiringan regresi Y pada W untuk berbeda nilai-nilaiX): dalam regresi dua prediktor dengan interaksi,permukaan respon bukan pesawat namun permukaanbengkok (seperti "cookie timah membungkuk", padatahun 1990 Darlington () frase). Perubahankemiringan yang diukur oleh nilai b3. Untuk mengatasimasalah multi-collinearity.

Varians Fungsi Nonlinier AcakVariasi dalam fungsi nonlinear dari beberapa variabelacak dapat didekati dengan "metode delta". Sebuahvarian perkiraan untuk fungsi halus f (X, Y) dari duavariabel acak (X, Y) diperoleh oleh f aproksimasi (X,Y) dengan syarat linear ekspansi Taylor di lingkungansekitar sarana sampel X dan Y. Sebagai contoh, varians dari XY dan X / Y didasarkanpada ukuran sampel yang besar yang didekatidengan:

[E (Y)] Var (X) + [E (X)] Var (Y) + 2 E (X) E (Y) Cov(X, Y)

dan

Var (X) / ([E (Y)] ) + var (Y) ([E (X)] ) / ([E (Y)] ) - 2Cov (X, Y) E (X) / ([E (Y)] )

masing-masing.

2 2

2 2 4

3

Page 56: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Visualisasi Statistik: Analytic-Geometri& StatistikPengantar Visualisasi Statistik

Kebanyakan pengolahan data statistik melibatkanoperasi aljabar pada dataset. Namun, jika datasetberisi lebih dari 3 angka, itu tidak mungkin untukmemvisualisasikan dengan representasi geometris,terutama karena keterbatasan inderamanusia. Geometri memiliki sejarah lebih lama darialjabar. Yunani kuno diterapkan geometriuntukmengukur tanah , dan mengembangkan geo-metrik model. The analitik-geometri adalah untukmenemukan persamaan antara aljabar dangeometri . Tujuannya adalah pemahaman yang lebihbaik dengan visualisasi di 2-atau-3 dimensi ruang, danuntuk menggeneralisasi ide untuk dimensi yang lebihtinggi oleh pemikiran analitik.

Tanpa kehilangan umum, dan ruang konservasi,presentasi berikut adalah dalam konteks ukuransampel yang kecil, memungkinkan kita untuk melihatstatistik di 1, atau ruang 2-dimensi.

Berarti dan Median yang

Misalkan empat orang ingin untuk bersama-samauntuk bermain poker. Mereka tinggal di 1 Street,3 Street, 7 Street, dan 15 Street. Mereka inginmemilih sebuah rumah yang melibatkan jumlahminimum mengemudi untuk semua pihak yang terkait.

Mari kita mengira bahwa mereka memutuskan untukmeminimalkan jumlah absolut mengemudi. Jikamereka bertemu pada 1 Street, jumlah mengemudiakan 0 + 2 + 6 + 14 = 22 blok. Jika mereka bertemu di3 Street, jumlah mengemudi akan 2 + 0 + 4 + 12 =18 blok. Jika mereka bertemu di 7 Street, 6 + 4 + 0+ 8 = 18 blok. Akhirnya, pada 15 Street, 14 + 12 + 8+ 0 = 34 blok.

Jadi dua rumah yang akan meminimalkan jumlahmengemudi akan menjadi 3 atau7 Street. Sebenarnya, jika mereka ingin situs netral,setiap tempat di 4 , 5 , atau 6 Street juga akanbekerja.

st

rd th th

st

rd

th

th

rd

th

th th th

Page 57: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Perhatikan bahwa setiap nilai antara 3 dan 7 dapatdidefinisikan sebagai median dari 1, 3, 7, dan 15. Jadimedian adalah nilai yang meminimalkan jarak mutlakuntuk titik data.

Sekarang, orang di 15 yang marah pada selaluharus melakukan lebih mengemudi. Jadi kelompoksetuju untuk mempertimbangkan aturan yangberbeda. Dalam memutuskan untuk meminimalkankuadrat dari jarak mengemudi, kita menggunakanprinsip kuadrat terkecil. Dengan mengkuadratkan,kami memberikan bobot yang lebih bolak-balik yangsangat panjang tunggal daripada sekelompokkemacetan lebih pendek. Dengan aturan ini, 7 Jalanhouse (36 + 16 + 0 + 64 = 116 blok persegi) lebihdisukai untuk 3 jalan rumah (4 + 0 + 16 + 144 = 164blok persegi). Jika Anda mempertimbangkan lokasimanapun, dan bukan hanya rumah sendiri, maka9 Street adalah lokasi yang meminimalkan kuadratdari jarak didorong.

Menemukan nilai x yang meminimalkan:

(1 - x) + (3 - x) + (7 - x) + (15 - x) .

Nilai yang meminimalkan jumlah yang nilai-nilaikuadrat adalah 6.5, yang juga sama dengan meanaritmetik dari 1, 3, 7, dan 15. Dengan kalkulus, mudahuntuk menunjukkan bahwa ini berlaku secara umum.

Pertimbangkan contoh kecil dari nilai bahkan denganjumlah kasus; misalnya, 1, 2, 4, 7, 10, dan 12. medianadalah 5,5, titik tengah interval antara skor 4 dan 7.

Seperti yang kita bahas di atas, memang benarbahwa median adalah titik sekitar yang jumlah deviasiabsolut diminimalkan. Dalam contoh ini jumlah deviasiabsolut adalah 22. Namun, itu bukan titik unik . Setiaptitik dalam 4 sampai 7 wilayah akan memiliki nilai yangsama dari 22 untuk jumlah deviasi absolut.

Memang, median yang rumit. 50% di atas - 50% dibawah tidak cukup benar. Misalnya, 1, 1, 1, 1, 1, 1, 8tidak memiliki median. konvensi mengatakan bahwa,median adalah 1; Namun, sekitar 14% dari databerbohong ketat di atasnya; 100% dari data yanglebih besar dari atau sama dengan median.

th

th

rd

th

2 2 2 2

Page 58: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Kami akan memanfaatkan ide ini dalam analisisregresi. Dalam argumen analog, garis regresi adalahgaris yang unik, yang meminimalkan jumlah deviasikuadrat dari itu.Tidak ada garis unik yangmeminimalkan jumlah deviasi absolut dari itu.

Aritmatika dan Sarana Geometric

Aritmatika Berarti: Misalkan Anda memiliki dua titik xdata dan y, pada sumbu baris nomor-nyata:

Mean aritmetik (a) adalah titik seperti yangberikut hubungan vectorial memegang: lembu - oa =oa - oy.

Berarti geometris: Misalkan Anda memiliki dua titikdata x positif dan y, pada sumbu garis nomor-nyata diatas, maka Geometric mean(http://home.ubalt.edu/ntsbarsh/Business-stat/stat-data/Topics.htm#rspecialmean) (g) dari angka-angkaini adalah titik g sehingga | sapi | / | Og | = | Og | / | Oy|, di mana | sapi | berarti panjang ruas garis sapi,misalnya.

Varians, Kovarian, dan Koefisien Korelasi

Mempertimbangkan serangkaian data yang berisi n =2 pengamatan (5, 1). Setelah sentralisasi data,diperoleh vektor V1 = (5-3 = 2, 1-3 = -2), seperti yangditunjukkan dalam n berikut = 2 dimensi sistemkoordinat:

Perhatikan bahwa panjang vektor V1 adalah:

2 2 ½ ½

Page 59: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

| V1 | = [(2) + (-2) ] = 8

Varians dari V1 adalah:

Var (V1) = S X / n = | V1 | / n = 4

Deviasi standar:

| OS1 | = | V1 | / N = 8 / 2 = 2.

Sekarang, pertimbangkan pengamatan kedua (2,4). Demikian pula, dapat diwakili oleh vektor V2 = (-1,1).

kovarians adalah,

Cov (V1, V2) = dot produk / n = [(2) (- 1) + (-2) (1)] / 2= -4/2 = -2

Karena itu:

n Cov (V1, V2) = dot product dari dua vektor V1, danV2

Perhatikan bahwa titik-produk perkalian dari duapanjang kali cosinus dari sudut antara duavektor. Karena itu,

Cov (V1, V2) = | OS1 | ' | OS2 | ' Cos (V1, V2) = (2) (1)Cos (180 ) = -2

Oleh karena koefisien korelasi adalah:

r = Cos (V1, V2)

Ini mungkin adalah bukti yang paling sederhanabahwa koefisien korelasi selalu dibatasi oleh interval[-1, 1]. Koefisien korelasi misalnya numerik kamiadalah Cos (V1, V2) = Cos (180 ) = -1, seperti yangdiharapkan dari gambar di atas.

Jarak antara data dua poin set V1, dan V2 juga titik-produk:

| V1 - V2 | = (V1-V2) . (V1-V2) = | V1 | + | V2 | - 2 |V1 | ' | V2 | = n [Var (V1) + VarV2 - 2Cov (V1, V2)]

Sekarang, membangun sebuah matriks yang kolom-kolomnya koordinat V1 dua vektor dan V2 masing-masing. Mengalikan transpos dari matriks ini dengansendirinya memberikan matriks simetris baru yangberisi n kali varians dari V1 dan varians dari V2

2 2 ½ ½

i 2 2

½ ½ ½

°

°

2 2

Page 60: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

sebagai elemen diagonal utamanya (yaitu, 8, 2), dan nkali Cov (V1, V2) sebagai yang off diagonal elemen(yaitu, -4).

Anda mungkin ingin menggunakan kertas grafik(http://search.officeupdate.microsoft.com/TemplateGallery/ct146.asp) ,dan kalkulator ilmiah(http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/scientificCal.htm) untuk memeriksahasil ini contoh numerik dan untuk melakukanbeberapa eksperimen numerik tambahan untukpemahaman yang lebih dalam konsep.

Bacaan lebih lanjut: Wickens T., The Geometri multivariat Statistik ., Erlbaum Pub,1995.

Apa itu Mean GeometrikMean geometrik dari n nilai-nilai numerik non-negatifadalah akar n dari produk dari nilai n. Penyebut darikoefisien korelasi Pearson adalah mean geometrikdari dua varians.Hal ini berguna untuk rata-rata"product moment" nilai-nilai.

Misalkan Anda memiliki dua titik data x positif dan y,maka rata-rata geometrik dari angka-angka ini adalahangka (g) sehingga x / g = y / b, dan mean aritmetik(a) adalah angka sehingga x - a = ay.

Sarana geometris yang digunakan secara luas olehBiro Statistik Tenaga Kerja AS [ "Geomeans" yangmereka sebut] dalam perhitungan Indeks HargaKonsumen AS. The geomeans juga digunakan dalamindeks harga. Penggunaan statistik mean geometrikuntuk nomor indeks seperti indeks ideal Fisher.

Jika beberapa nilai yang sangat besar dalambesarnya dan lain-lain yang kecil, maka meangeometrik adalah rata-rata yang lebih baik. Dalamserangkaian geometris, yang paling berarti rata-rataadalah rata-rata geometris. Mean aritmetik sangatbias terhadap jumlah yang lebih besar dalam seri.

Sebagai contoh, penjualan anggaplah dari barangtertentu meningkat menjadi 110% pada tahun pertamadan 150% dari yang di tahun kedua. Untukmempermudah, menganggap Anda menjual 100 itemawalnya. Kemudian jumlah yang terjual pada tahun

Page 61: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

pertama adalah 110 dan jumlah yang terjual di keduaadalah 150% x 110 = 165. Perhitungan rata-rata 110%dan 150% adalah 130% sehingga kita akan salahmemperkirakan bahwa jumlah yang dijual di pertamatahun adalah 130 dan jumlah pada tahun keduaadalah 169. rata geometris dari 110% dan 150%adalah r = (1,65) sehingga kita benar akanmemperkirakan bahwa kami akan menjual 100 (r) =165 item dalam tahun kedua.

Sebagai contoh lain yang serupa, jika reksa dana naiksebesar 50% satu tahun dan turun 50% tahun depan,dan Anda memegang unit di seluruh kedua tahun,Anda telah kehilangan uang di akhir. Untuk setiapdolar yang Anda mulai dengan, Anda sekarang punya75 c. Dengan demikian, kinerja yang berbeda darimendapatkan (50% -50%) / 2 (= 0%). Hal ini samaseperti mengubah dengan faktor perkalian (1,5 x0,5) = 0,866 setiap tahun. Dalam proses perkalian,satu nilai yang dapat diganti untuk masing-masingsatu set nilai-nilai untuk memberikan "efekkeseluruhan" yang sama adalah mean geometrik,bukan mean aritmetik. Sebagai uang cenderungmultiplicatively ( "dibutuhkan uang untukmenghasilkan uang"), data keuangan sering lebih baikdikombinasikan dengan cara ini.

Sebagai contoh analisis survei, memberikan sampeldari orang daftar, mengatakan 10, kejahatan mulaiserius:

Pencurian ... Assault ... Pembakaran .. Pemerkosaan... Pembunuhan

Meminta setiap responden untuk memberikan nilainumerik mereka merasa untuk setiap kejahatan dalamdaftar (misalnya seseorang mungkin memutuskanuntuk memanggil pembakaran 100). Kemudianmeminta mereka untuk menilai setiap kejahatandalam daftar pada skala rasio. Jika responden berpikirperkosaan lima kali seburuk pembakaran, maka nilai500 akan ditugaskan, pencurian seperempat seburuk,25. Misalkan sekarang kita ingin "rata-rata" diresponden diberikan kepada setiap kejahatan. Sejakresponden menggunakan nilai dasar mereka sendiri,mean aritmetik akan sia-sia: orang-orang yangmenggunakan jumlah besar sebagai nilai dasar

1/2

2

½

Page 62: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

mereka akan "rawa" orang-orang yang telah memilihnomor kecil. Namun, rata-rata geometrik - akar n dariproduk dari peringkat untuk setiap kejahatan nresponden - memberikan bobot yang sama untuksemua tanggapan. Saya telah menggunakan inidalam latihan kelas dan bekerja dengan baik.

Hal ini sering baik untuk log-transform data tersebutsebelum regresi, ANOVA, dll teknik statistik inimemberikan kesimpulan tentang mean aritmetik (yangerat dengan kuadrat-kesalahan ukuran); Namun,mean aritmetik dari data log-transformasi adalah logdari mean geometrik data. Jadi, misalnya, pada ujipada data log-berubah adalah benar-benar tes untuklokasi mean geometrik.

Bacaan lebih lanjut: Langley R., Statistik Praktis Cukup Dijelaskan , tahun 1970,Dover Press.

Apa Central Teorema Limit?Untuk tujuan praktis, gagasan utama dari teoremalimit pusat (CLT) adalah bahwa rata-rata sampelpengamatan yang diambil dari beberapa populasidengan bentuk-distribusi sekitar didistribusikansebagai distribusi normal jika kondisi tertentuterpenuhi. Dalam statistik teoritis ada beberapa versidari teorema limit sentral tergantung pada bagaimanakondisi ini ditetapkan. Ini prihatin dengan jenis asumsiyang dibuat tentang distribusi populasi induk (populasidari mana sampel diambil) dan prosedur pengambilansampel yang sebenarnya.

Salah satu versi sederhana dari teorema mengatakanbahwa jika adalah sampel acak berukuran n(katakanlah, n > 30) dari populasi yang tak terbatasterbatas deviasi standar, maka sampel rata standarkonvergen ke distribusi normal standar atau,ekuivalen, sampel berarti mendekati distribusi normaldengan rata-rata sama dengan rata-rata populasi danstandar deviasi sama dengan standar deviasi daripopulasi dibagi dengan akar kuadrat dari ukuransampel n. Dalam aplikasi dari teorema limit sentraluntuk masalah praktis dalam inferensi statistik,bagaimanapun, statistik lebih tertarik pada seberapadekat distribusi perkiraan dari mean sampel mengikuti

Page 63: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

distribusi normal untuk ukuran sampel yang terbatas,daripada distribusi membatasi diri. Perjanjian cukupdekat dengan distribusi normal memungkinkan ahlistatistik untuk menggunakan teori normal untukmembuat kesimpulan tentang parameter populasi(seperti mean) menggunakan mean sampel, terlepasdari bentuk yang sebenarnya dari populasi induk.

Hal ini juga diketahui bahwa apapun populasi induk,variabel standar akan memiliki distribusi dengan mean0 dan standar deviasi 1 di bawah randomsampling. Selain itu, jika populasi induk normal, makadidistribusikan tepat sebagai variabel normal standaruntuk setiap bilangan bulat positif n. Teorema limitsentral menyatakan hasil yang luar biasa itu, bahkanketika populasi induk non-normal, variabel standaradalah mendekati normal jika ukuran sampel cukupbesar (katakanlah, > 30). Hal ini umumnya tidakmungkin untuk kondisi negara di mana pendekatanyang diberikan oleh teorema limit sentral bekerja danapa ukuran sampel yang diperlukan sebelumpendekatan menjadi cukup baik.Sebagai pedomanumum, statistik telah menggunakan resep yang jikadistribusi induk simetris dan relatif berekor pendek,maka rata-rata sampel mencapai normalitas perkiraanuntuk sampel lebih kecil daripada jika populasi indukmiring atau ekor panjang.

Pada e harus mempelajari perilaku mean dari sampelyang berbeda ukuran diambil dari berbagai populasiinduk. Memeriksa distribusi sampling dari sampelberarti dihitung dari sampel yang berbeda ukurandiambil dari berbagai distribusi, memungkinkan kitauntuk mendapatkan beberapa wawasan ke dalamperilaku mean sampel di bawah kondisi-kondisitertentu serta memeriksa keabsahan pedoman yangdisebutkan di atas untuk menggunakan central limittheorem dalam praktek.

Dalam kondisi tertentu, dalam sampel besar, distribusisampling dari mean sampel dapat didekati dengandistribusi normal. Ukuran sampel yang dibutuhkanuntuk pendekatan untuk menjadi yang memadaisangat bergantung pada bentuk distribusiinduk. Simetri (atau ketiadaan) sangat penting. Untukdistribusi induk simetris, bahkan jika sangat berbedadari bentuk distribusi normal, perkiraan yang memadai

Page 64: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

dapat diperoleh dengan sampel kecil (misalnya, 10atau 12 untuk distribusi seragam). Untuk distribusiorangtua berekor pendek simetris, mean sampelmencapai normalitas perkiraan untuk sampel lebihkecil daripada jika populasi induk miring dan ekorpanjang. Dalam beberapa kasus yang ekstrim(misalnya binomial dengan) sampel ukuran jauhmelebihi pedoman khas (katakanlah, 30) yangdiperlukan untuk sebuah pendekatan yangmemadai. Untuk beberapa distribusi tanpa pertamadan kedua saat (misalnya, Cauchy), batas teoremapusat tidak tahan.

Apa yang dimaksud dengan DistribusiContoh?Ide utama inferensi statistik adalah untuk mengambilsampel acak dari suatu populasi dan kemudianmenggunakan informasi dari sampel untuk membuatkesimpulan tentang karakteristik populasi tertentuseperti mean (ukuran tendensi sentral), standardeviasi (ukuran spread) atau proporsi unit dalampopulasi yang memiliki karakteristik tertentu.Samplingmenghemat uang, waktu, dan usaha. Selain itu,sampel dapat, dalam beberapa kasus, menyediakansebanyak atau lebih akurasi dari sebuah studi yangsesuai yang akan berusaha untuk menyelidiki koleksipopulasi-hati seluruh data dari sampel akan seringmemberikan informasi yang lebih baik dari sebuahstudi kurang hati-hati yang mencoba untuk melihatdalam segala hal.

Kami akan mempelajari perilaku mean dari nilaisampel dari populasi tertentu yang berbeda. Karenasampel memeriksa hanya sebagian dari populasi,sampel berarti tidak akan persis sama sesuai rata-ratapenduduk. Dengan demikian, pertimbangan pentingbagi mereka perencanaan dan menafsirkan hasilsampling, adalah sejauh mana perkiraan sampel,seperti mean sampel, akan setuju dengankarakteristik populasi yang sesuai.

Dalam prakteknya, hanya satu sampel biasanyadiambil (dalam beberapa kasus kecil `` percontohansampel '' digunakan untuk menguji mekanismepengumpulan data dan untuk mendapatkan informasi

Page 65: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

awal untuk merencanakan skema pengambilansampel utama). Namun, untuk tujuan memahamisejauh mana berarti sampel akan setuju denganpopulasi yang sesuai berarti, hal ini berguna untukmempertimbangkan apa yang akan terjadi jika 10,atau 50, atau 100 studi sampel terpisah, dari jenisyang sama, dilakukan.Bagaimana konsisten hasilnyaakan di studi-studi yang berbeda? Jika kita bisamelihat bahwa hasil dari masing-masing sampel akanhampir sama (dan hampir benar!), Maka kita akanmemiliki keyakinan dalam sampel tunggal yang benar-benar akan digunakan. Di sisi lain, melihat bahwajawaban dari sampel diulang terlalu variabel untukakurasi yang dibutuhkan akan menyarankan bahwarencana sampling yang berbeda (mungkin denganukuran sampel yang lebih besar) harus digunakan.

Sebuah distribusi sampling digunakan untukmenggambarkan distribusi hasil yang satu akanmengamati dari replikasi dari rencana pengambilansampel tertentu.

Tahu bahwa untuk memperkirakan sarana untukharga (untuk memberikan nilai).

Ketahuilah bahwa perkiraan dihitung dari satu sampelakan berbeda dari perkiraan yang akan dihitung darisampel lain.

Memahami bahwa perkiraan diharapkan berbeda darikarakteristik populasi (parameter) yang kita berusahauntuk memperkirakan, tapi itu sifat dari distribusisampling memungkinkan kita untuk mengukur,probabilistically, bagaimana mereka akan berbeda.

Memahami bahwa statistik yang berbeda memilikidistribusi sampling yang berbeda dengan bentukdistribusi tergantung pada (a) statistik tertentu, (b)ukuran sampel, dan (c) distribusi induk.

Memahami hubungan antara ukuran sampel dandistribusi perkiraan sampel.

Memahami bahwa variabilitas dalam distribusisampling dapat dikurangi dengan meningkatkanukuran sampel.

Page 66: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Perhatikan bahwa dalam sampel besar, banyakdistribusi sampling dapat didekati dengan distribusinormal.

Penghapusan outlierOutliers adalah beberapa pengamatan yang tidak baikdilengkapi dengan "terbaik" model yangtersedia. Dalam prakteknya setiap pengamatandengan lebih residual standar dari 2,5 di nilai absolutadalah calon untuk menjadi outlier. Dalam kasusseperti yang pertama harus menyelidiki sumber data,jika tidak ada keraguan tentang keakuratan ataukebenaran pengamatan, maka harus dihapus danmodel harus dipasang kembali.

Teknik statistik yang kuat diperlukan untuk mengatasisetiap outlier tidak terdeteksi; jika tidak hasilnya akanmenyesatkan. Misalnya, regresi bertahap biasa seringdigunakan untuk pemilihan subset sesuai variabelpenjelas untuk digunakan dalam model; Namun, itubisa batal bahkan oleh kehadiran beberapa outlier.

Karena varians berpotensi besar, outlier bisa menjadihasil dari sampling. Ini sangat benar untuk memilikipengamatan seperti yang sah milik kelompok studioleh definisi. data terdistribusi Lognormally (sepertinilai tukar internasional), misalnya, akan seringmenunjukkan nilai-nilai tersebut.

Oleh karena itu, Anda harus sangat berhati-hati danhati-hati: sebelum menyatakan pengamatan "outlier,"mencari tahu mengapa dan bagaimana observasitersebut terjadi.Bahkan bisa menjadi kesalahan padatahap data yang masuk.

Pertama, membangun boxplot data Anda. Bentuk poinQ1, Q2, dan Q3 yang membagi sampel ke dalamempat kelompok berukuran sama. (Q2 = median) MariIQR = Q3 - Q1.Outlier didefinisikan sebagai titik-titik diluar nilai-nilai Q3 + k * IQR dan Q1-k * IQR. Bagikebanyakan kasus satu set k = 1,5.

Alternatif lain adalah algoritma berikut

a) Hitunglah s . dari seluruh sampel b) Tentukan satu set batas off mean: mean + k s , rata- k s sigma (Izinkan pengguna untuk memasukkan k

Page 67: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Nilai khas untuk k adalah 2.). c) Hapus semua sampel nilai-nilai di luar batas.

Sekarang, iterate N kali melalui algoritma, setiap kalimengganti sampel ditetapkan dengan sampelberkurang setelah menerapkan langkah (c).

Biasanya kita perlu iterate melalui algoritma ini 4 kali.

Seperti disebutkan sebelumnya, "standar" umumadalah setiap pengamatan jatuh di luar 1,5 (kisaraninterkuartil) yaitu, (1,5 IQRs) berkisar di atas kuartilketiga atau di bawah kuartil pertama. mengikutiprogram SPSS, membantu Anda dalam menentukanoutlier.

$SPSS/OUTPUT=LIER.OUT TITLE 'DETERMINING IF OUTLIERS EXIST' DATA LIST FREE FILE='A' / X1 VAR LABLE X1 'INPUT DATA' LIST CASE CASE=10/VARIABLE=X1/ CONDESCRIPTIVE X1(ZX1) LIST CASE CASE=10/VARIABLES=X1,ZX1/ SORT CASES BY ZX1(A) LIST CASE CASE=10/VARIABLES=X1,ZX1/ FINISH

Deteksi outlier dalam pengaturan populasi tunggaltelah diperlakukan secara rinci dalam literatur. Cukupsering, bagaimanapun, seseorang dapat berpendapatbahwa outlier yang terdeteksi tidak benar-benaroutlier, tapi membentuk populasi kedua. Jika hal initerjadi, pendekatan klaster perlu diambil. Ini akanmenjadi daerah aktif penelitian untuk mempelajarimasalah bagaimana outlier dapat timbul dandiidentifikasi, ketika pendekatan klaster harus diambil.

Bacaan lebih lanjut: Hawkins D., Identifikasi Outliers , Chapman & Hall, 1980. Rothamsted V., V. Barnett, dan T. Lewis, Outliers dalam Datastatistik , Wiley, 1994.

Setidaknya Kuadrat Model

Page 68: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Banyak masalah dalam menganalisis data yangmelibatkan menggambarkan bagaimana variabel yangterkait. Yang paling sederhana dari semua modelyang menggambarkan hubungan antara dua variabeladalah linier, atau garis lurus, Model. Metode palingsederhana dari pas model linear adalah untuk `` mata-bola '' garis melalui data pada plot, tapi lebih elegan,dan metode konvensional adalah bahwa kuadrat,yang menemukan garis meminimalkan jumlah jarakantara poin diamati dan garis dipasang.

Sadarilah bahwa pas `` terbaik '' line dengan matasulit, terutama ketika ada banyak variabilitas sisadalam data.

Ketahuilah bahwa ada hubungan sederhana antaraangka koefisien dalam persamaan regresi dan lerengdan intercept dari garis regresi.

Ketahuilah bahwa statistik ringkasan tunggal sepertikoefisien korelasi atau tidak menceritakankeseluruhan cerita. Sebuah plot pencar merupakanpelengkap penting untuk meneliti hubungan antaradua variabel.

Ketahuilah bahwa pemeriksaan Model merupakanbagian penting dari proses pemodelanstatistik. Setelah semua, kesimpulan berdasarkanmodel yang tidak benar menggambarkan set diamatidata akan valid.

Mengetahui dampak dari pelanggaran asumsi modelregresi (yaitu, kondisi) dan kemungkinan solusidengan menganalisis residual.

Median paling Kuadrat ModelStandar kotak teknik setidaknya untuk estimasi dalammodel linear tidak kuat dalam arti bahwa outlier ataudata yang terkontaminasi dapat sangatmempengaruhi perkiraan.Sebuah teknik yang kuat,yang melindungi terhadap kontaminasi paling mediandari kuadrat (LMS) estimasi. Perpanjangan estimasiLMS untuk model linear umum, sehinggamenimbulkan median setidaknya penyimpangan(LMD) estimator.

Page 69: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Apa Kecukupan?Sebuah estimator yang cukup berdasarkan statistikberisi semua informasi yang hadir dalam datamentah. Misalnya, jumlah data Anda cukup untukmemperkirakan rata-rata penduduk. Anda tidak perlutahu data set itu sendiri. Ini menghemat banyak uangjika data harus ditransmisikan oleh jaringantelekomunikasi. Cukup, mengirimkan total, dan ukuransampel.

Sebuah statistik yang cukup t untukparameter q adalah fungsi dari data sampel x1, ..., xn,yang berisi semua informasi dalam sampel tentangparameter q . Lebih formal, kecukupan didefinisikandalam hal fungsi kemungkinan untuk q . Untuk tstatistik yang cukup, Kemungkinan L (x1, ..., xn | q )dapat ditulis sebagai

g (t | q ) * k (x1, ..., xn)

Karena jabatan kedua tidak tergantung pada q , tdikatakan statistik cukup untuk q .

Cara lain untuk menyatakan ini untuk masalah yangbiasa adalah bahwa orang bisa membangun prosesacak mulai dari statistik yang cukup, yang akanmemiliki persis distribusi yang sama dengan sampelpenuh untuk semua negara alam.

Untuk menggambarkan, biarkan pengamatan menjadipercobaan Bernoulli independen dengan probabilitaskeberhasilan yang sama. Misalkan ada n uji coba, danorang itu A mengamati yang observasi yang sukses,dan orang B hanya tahu jumlahkeberhasilan. Kemudian jika B menempatkankeberhasilan ini pada titik-titik acak tanpa replikasi,probabilitas bahwa B sekarang akan mendapatkanhimpunan keberhasilan adalah persis sama denganprobabilitas bahwa A akan melihat set itu, tidak peduliapa probabilitas kesuksesan yang sesungguhnyaterjadi menjadi.

Anda Harus Lihatlah ScattergramsAnda!

Page 70: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Belajar yang diberikan data set garis regresi adalahunik. Namun, kebalikan dari pernyataan ini tidakbenar. Berikut ini contoh yang menarik adalah dari, D.Moore (1997) buku, halaman 349:

Data set A:

x 10 8 13 9 11 14 y 8.04 6.95 7.58 8.81 8.33 9.96

x 6 4 12 7 5 y 7.24 4.26 10.84 4.82 5.68

Data set B:

x 10 8 13 9 11 14 y 9.14 8.14 8.74 8.77 9.26 8.10

x 6 4 12 7 5 y 6.13 3.10 9.13 7.26 4.74

data set C:

x 8 8 8 8 8 8 y 6.58 5.76 7.71 8.84 8.47 7.04

x 8 8 8 8 19 y 5.25 5.56 7.91 6.89 12.50

Semua tiga set memiliki korelasi dan regresi yangsama line. Moral penting adalah melihatscattergrams Anda .

Bagaimana menghasilkan contoh numerik di manadua scatterplots menunjukkan jelas berbedahubungan (kekuatan) tapimenghasilkan sama kovarians? Lakukan langkah-langkah berikut:

1. Menghasilkan dua set (X, Y) nilai-nilai yangmemiliki perbedaan korelasi ini; 2. Menghitung dua covariances, mengatakan C1 danC2; 3. Misalkan Anda ingin membuat C2 sama denganC1. Maka Anda ingin melipatgandakan C2 oleh (C1 / C2); 4. Sejak C = rS .S , Anda ingin dua nomor (salahsatu dari mereka mungkin 1), a dan b sehingga ab = (C1 / C2);

x y

Page 71: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

5. Mengalikan semua nilai-nilai X di set 2 oleh, dansemua nilai-nilai Y oleh b: untuk variabel baru, C = rabS .S = C2 (C1 / C2) = C1..

Contoh numerik yang menarik yang menunjukkan duascatterplots identik tetapi dengan berbeda kovariansadalah sebagai berikut: Pertimbangkan satu set data(X, Y) nilai-nilai, dengan kovarians C1. Sekarang mariV = 2X, dan W = 3Y. Kovarians dari V dan W akan 2(3) = 6 kali C1, tetapi korelasi antara V dan W adalahsama dengan korelasi antara X dan Y.

Kekuatan TestTes signifikansi didasarkan pada asumsi tertentu:Data harus sampel acak dari populasi dasardidefinisikan dengan baik dan kita harus berasumsibahwa beberapa variabel mengikuti distribusi tertentu- dalam banyak kasus distribusi normal diasumsikan.

Kekuatan tes adalah probabilitas benar menolakhipotesis nol palsu. Probabilitas ini adalah salah satuminus probabilitas melakukan kesalahan tipe II( b ). Ingat juga bahwa kita memilih probabilitasmembuat kesalahan Tipe I ketika kitamenetapkan suatu dan bahwa jika kita mengurangikemungkinan membuat Ketik Saya kesalahan kitameningkatkan kemungkinan membuat kesalahan TipeII.

Power dan Alpha:Oleh karena itu, kemungkinan benarmempertahankan nol benar memiliki hubungan yangsama untuk Tipe I kesalahan sebagai probabilitasbenar menolak null benar tidak ke Tipe kesalahanII. Namun, seperti yang saya sebutkan jika kitamengurangi kemungkinan membuat satu jeniskesalahan kita meningkatkan kemungkinan membuatjenis lain dari kesalahan. Apa hubungan antara Tipe Idan Tipe kesalahan II?

Power dan Perbedaan Benar antara MeanPopulasi: Kapan saja kita menguji apakah sampelberbeda dari populasi atau apakah dua sampelberasal dari 2 populasi yang terpisah, ada asumsibahwa masing-masing dari populasi kita

x y

Page 72: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

membandingkan telah itu berarti sendiri dan standardeviasi (bahkan jika kita tidak tahu itu). Jarak antaradua mean populasi akan mempengaruhi kekuatanpengujian kami.

Kekuasaan sebagai Fungsi Sampel Ukuran danVariance: Anda harus menyadari bahwa apa yangbenar-benar membuat perbedaan dalamukuran b adalah berapa banyak tumpang tindih ada didua distribusi. Ketika sarana yang berdekatan dengandua distribusi tumpang tindih banyak dibandingkanketika sarana yang jauh terpisah. Dengan demikian,apa pun yang berpengaruh sejauh dua distribusiberbagi nilai-nilai umum akanmeningkatkan b (kemungkinan membuat kesalahanTipe II).

Ukuran sampel memiliki efek tidak langsung padadaya karena mempengaruhi ukuran varians yang kitagunakan untuk menghitung statistik t-test. Karena kitamenghitung kekuatan tes yang melibatkanperbandingan mean sampel, kita akan lebih tertarikpada standard error (perbedaan rata-rata nilai sampel)dari standar deviasi atau varians dengansendirinya. Dengan demikian, ukuran sampel yangmenarik karena memodifikasi perkiraan kami daristandar deviasi. Ketika n besar kita akan memilikikesalahan standar yang lebih rendah daripada ketikan kecil. Pada gilirannya, ketika N besar juga memilikilebih kecil b daerah daripada ketika n kecil.

Studi Percontohan: Ketika perkiraan diperlukanuntuk perhitungan ukuran sampel tidak tersedia daridatabase yang ada, studi percontohan diperlukanuntuk estimasi yang memadai dengan presisi yangdiberikan.

Bacaan lebih lanjut: Cohen J., statistik Analisis Power untuk Ilmu Perilaku , L.Erlbaum Associates, 1988. Kraemer H., dan S. Thiemann, Berapa BanyakSubyek? Menyediakan dasar tabel ukuran sampel,penjelasan, dan daya analisis. Murphy K. , dan B. Myors, Analisis statistik Tenaga , L.Erlbaum Associates, 1998. Menyediakan ukuran sampeltekad sederhana dan umum untuk tes hipotesis.

ANOVA: Analisis Perbedaan

Page 73: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Tes yang telah kita pelajari sampai saat inimemungkinkan kita untuk menguji hipotesis yangmeneliti perbedaan antara dua cara. Analisis Varianceatau ANOVA akan memungkinkan kita untuk mengujiperbedaan antara 2 atau lebih berarti. ANOVAmelakukan ini dengan memeriksa rasio variabilitasantara dua kondisi dan variabilitas dalam setiapkondisi. Misalnya, kita memberikan obat yang kamipercaya akan meningkatkan memori untuksekelompok orang dan memberikan plasebo untukkelompok orang lain.Kita mungkin mengukur kinerjamemori dengan jumlah kata-kata mengingat daridaftar kami meminta semua orang untukmenghafal. Sebuah t-test akan membandingkankemungkinan mengamati perbedaan jumlah rata-ratakata ingat untuk setiap kelompok. Tes ANOVA, di sisilain, akan membandingkan variabilitas yang kita amatiantara dua kondisi variabilitas diamati dalam setiapkondisi. Ingat bahwa kita mengukur variabilitassebagai jumlah dari perbedaan masing-masingmencetak gol dari mean. Ketika kita benar-benarmenghitung ANOVA kita akan menggunakan formulapintas.

Jadi, ketika variabilitas yang kami memprediksi(antara dua kelompok) jauh lebih besar daripadavariabilitas kita tidak memprediksi (masing-masingkelompok) maka kita akan menyimpulkan bahwaperawatan kami menghasilkan hasil yang berbeda.

Uji Levene: Misalkan data sampel tidak mendukunghomogenitas asumsi varians, namun, ada alasanyang baik bahwa variasi dalam populasi yang hampirsama, maka dalam situasi seperti ini Anda mungkiningin menggunakan tes memodifikasi Levene: dalamsetiap kelompok pertama menghitung deviasi absolutdari nilai-nilai individu dari median dalam kelompokitu. Terapkan biasa salah satu cara ANOVA pada setnilai-nilai penyimpangan dan kemudianmenginterpretasikan hasil.

Page 74: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

(http://home.ubalt.edu/ntsbarsh/Business-stat/stat-data/P2.gif)

Prosedur untuk Dua Populasi Sarana Independent Uji Klik pada gambar untuk memperbesar danKEMUDIAN mencetaknya

Anda dapat menggunakan JavaScript berikut untuk UjiHipotesis untuk Dua Populasi(http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/TwoPopTest.htm)

(http://home.ubalt.edu/ntsbarsh/Business-stat/stat-data/P3.gif)

Prosedur untuk Dua Dependent Sarana Uji Klik pada gambar untuk memperbesar danKEMUDIAN mencetaknya

Anda dapat menggunakan JavaScript berikutuntuk Dua Populasi Dependent Testing(http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/Paired.htm) .

Page 75: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

(http://home.ubalt.edu/ntsbarsh/Business-stat/stat-data/P4.gif)

Prosedur untuk Lebih dari Dua Independent MeansUji Klik pada gambar untuk memperbesar danKEMUDIAN mencetaknya

Anda dapat menggunakan JavaScript berikutuntuk Tiga Sarana Perbandingan(http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/ANOVA.htm) , Kesetaraan UjiBeberapa Means '(http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/SeveralMeans.htm)

(http://home.ubalt.edu/ntsbarsh/Business-stat/stat-data/P5.gif)

Prosedur untuk Lebih dari Dua Dependent PopulasiUji Klik pada gambar untuk memperbesar danKEMUDIAN mencetaknya

Anda dapat menggunakan JavaScript berikutuntuk Tiga Dependent Sarana Perbandingan(http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/ANOVADep.htm) .

Page 76: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Orthogonal Kontras Sarana di ANOVADalam pengukuran berulang dari analisis variansketika hipotesis nol ditolak, kita mungkin akan tertarikbeberapa perbandingan sarana oleh kombinasi darisarana, ini dikenal sebagai orthogonal kontrassarana. Sebuah kontras sarana dikatakan ortogonaljika bobot berarti jumlah nol. Misalnya, kontras (mean1 + mean2) / 2 - mean3 adalahorthogonal. Oleh karena itu, untuk menentukanapakah dua kontras yang berbeda dari cara daripercobaan yang sama ortogonal, menambahkanproduk dari bobot untuk melihat apakah merekaberjumlah nol. Jika mereka tidak berjumlah nol, makadua kontras tidak ortogonal dan hanya satu darimereka bisa diuji. The kontras orthogonalmemungkinkan kita untuk membandingkan setiap rataterhadap semua sarana lainnya. Ada beberapametode yang efektif kontras orthogonal untuk aplikasidalam pengujian, interval keyakinan membangun, danF-uji parsial sebagai pasca-analisis kegiatan statistikdari ANOVA biasa.

Bacaan lebih lanjut: Kachigan S., Analisis Statistik: Sebuah PengantarInterdisciplinary ke univariat & multivariat Metode , RadiusPress, 1986. Kachigan S., multivariat Analisis Statistik: A ConceptualPendahuluan , Radius Press, 1991.

Enam-Sigma KualitasTotal pendekatan kualitas sangat penting untukbersaing di pasar dunia. Kemampuan perusahaanuntuk memberikan pelanggan apa yang merekainginkan di total biaya terendah memberikanperusahaan keuntungan lebih dari pesaing nya.

Sigma adalah simbol Yunani, yang digunakan dalamstatistik untuk mewakili standar deviasi daripopulasi. Ketika data sampel acak yang cukup besaryang dekat dengan rata-rata mereka (yaitu, rata-rata),maka populasi memiliki penyimpangan kecil. Jika datayang bervariasi secara signifikan dari rata-rata, datamemiliki penyimpangan besar. Dalam hal pengukurankontrol kualitas, Anda ingin melihat bahwa sampelsedekat mungkin untuk mean dan yang berartimemenuhi atau melebihi spesifikasi. Sebuah sigma

Page 77: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

besar berarti bahwa ada sejumlah besar variasi dalamdata. Nilai sigma yang lebih rendah sesuai denganvariasi kecil, dan karena itu proses yang dikendalikandengan kualitas yang baik.

The Enam-Sigma berarti ukuran kualitas yangberusaha untuk dekat kesempurnaan. Enam-Sigmaadalah pendekatan data-driven dan metodologi untukmenghilangkan cacat untuk mencapai enam sigmasantara batas spesifikasi bawah dan atas. Dengandemikian, untuk mencapai Enam-Sigma, misalnya,dalam proses manufaktur tidak harus menghasilkanlebih dari 3,4 cacat per juta kesempatan. Oleh karenaitu, cacat Enam-Sigma didefinisikan karena tidakmemenuhi spesifikasi pelanggan. Sebuahkesempatan Enam-Sigma adalah maka jumlah totalpeluang untuk cacat.

Enam-Sigma adalah ukuran statistik mengungkapkanseberapa dekat produk datang ke tujuankualitas. Satu sigma berarti hanya 68% dari produkyang diterima; tiga sigma berarti 99,7% dapatditerima. Six-Sigma adalah 99,9997% sempurna atau3,4 cacat per juta bagian atau peluang. Penyebaranalami adalah 6 kali standar deviasisampel.Penyebaran alami berpusat pada meansampel, dan semua beban dalam sampel jatuh dalampenyebaran alami, berarti proses akan menghasilkanrelatif sedikit out-of-spesifikasi produk. Enam-Sigmatidak selalu berarti 3 unit yang rusak per jutadibuat; itu juga menandakan 3 cacat per juta peluangketika digunakan untuk menggambarkanproses. Beberapa produk mungkin memiliki puluhanribu kesempatan untuk cacat per item selesai,sehingga proporsi peluang yang rusak sebenarnyabisa cukup besar.

Enam-Sigma Kualitas adalah pendekatanfundamental untuk memberikan tingkat yang sangattinggi kepuasan pelanggan melalui penggunaandisiplin data dan analisis statistik untukmemaksimalkan dan mempertahankan kesuksesanbisnis. Apa itu artinya bahwa semua keputusan bisnisyang dibuat berdasarkan analisis statistik, tidak instingatau masa lalu sejarah. Menggunakan pendekatanEnam-Sigma akan menghasilkan signifikan,peningkatan kuantitatif.

Page 78: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Apakah itu benar-benar perlu untuk pergi untuk nolcacat? Mengapa tidak 99,9% (sekitar 4,6 sigma)bebas cacat cukup baik? Berikut adalah beberapacontoh dari apa hidup akan seperti jika 99,9% cukupbaik:

1 jam air minum yang tidak aman setiap bulan2 pendaratan panjang atau pendek di setiapkota Amerika bandara setiap hari400 huruf per jam yang tidak pernah tiba ditempat tujuan3.000 bayi baru lahir tidak sengaja jatuh daritangan perawat atau dokter setiap tahun4.000 resep obat yang salah per tahun22.000 cek dipotong dari bank yang salahrekening setiap jam

Seperti yang Anda lihat, kadang-kadang 99,9% yangbaik saja tidak cukup baik.

Berikut adalah beberapa contoh dari apa yang hidupakan tetap seperti di Six-Sigma, 99,9997% bebascacat:

13 resep obat yang salah per tahun10 bayi yang baru lahir tidak sengaja jatuh daritangan perawat atau dokter setiap tahun1 hilang artikel surat per jam

Sekarang kita melihat mengapa pencarian untukkualitas Six-Sigma diperlukan.

Six-Sigma adalah penerapan metode statistik untukproses bisnis untuk meningkatkan efisiensi operasi. Inimemberikan perusahaan dengan serangkaianintervensi dan alat statistik yang dapat menyebabkanterobosan profitabilitas dan kuantum keuntungandalam kualitas. Six-Sigma memungkinkan kita untukmengambil masalah dunia nyata dengan banyakjawaban potensial, dan menerjemahkannya ke soalmatematika, yang akan memiliki hanya satujawaban. Kami kemudian dikonversi bahwa salah satusolusi matematika kembali ke solusi dunia nyata.

Six-Sigma melampaui pengurangan cacat untukmenekankan perbaikan proses bisnis pada umumnya,yang mencakup pengurangan total biaya, peningkatansiklus waktu, meningkatkan kepuasan pelanggan, danmetrik penting lainnya untuk pelanggan dan

Page 79: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

perusahaan. Tujuan dari Six-Sigma adalah untukmenghilangkan limbah dalam proses organisasidengan membuat peta jalan untuk mengubah datamenjadi pengetahuan, mengurangi jumlahpengalaman perusahaan stres ketika merekakewalahan dengan kegiatan sehari-hari dan secaraproaktif mengungkap peluang yang berdampakpelanggan dan perusahaan itu sendiri.

Kunci untuk proses Six-Sigma adalah menghilangkancacat. Organisasi sering buang waktu menciptakanmetrik yang tidak sesuai untuk output yangdiukur. Eksekutif bisa mendapatkan hasil menipu jikamereka memaksa semua proyek untuk menentukansatu ukuran cocok untuk semua metrik untukmembandingkan kualitas produk dan layanan dariberbagai departemen. Dari sudut pandang manajerial,memiliki satu alat universal tampaknyamenguntungkan; Namun, itu tidak selalu layak. Dibawah ini adalah contoh dari deceptiveness metrik.

Dalam industri penerbangan, AS Air Traffic ControlSystem Command Center mengukur perusahaanpada tingkat mereka pada waktu keberangkatan. Halini jelas akan menjadi ukuran penting untukpelanggan-masyarakat terbang. Setiap kali sebuahpesawat berangkat 15 menit atau lebih lambat dariyang dijadwalkan, acara yang dianggap sebagaicacat. Sayangnya, pemerintah mengukurpenerbangan pada apakah pesawat menarik diri darigerbang bandara dalam waktu 15 menit dari jadwalkeberangkatan, bukan ketika itu benar-benar lepaslandas. Maskapai tahu ini, sehingga mereka menarikdiri dari gerbang pada waktu tetapi membiarkanpesawat duduk di landasan pacu selama diperlukansebelum lepas landas. Hasil kepada pelangganmasih keberangkatan akhir . Oleh karena itu metrikcacat ini bukan representasi akurat dari keinginanpelanggan yang terkena dampak proses. Jika inimetrik deskriptif yang baik, penerbangan akan diukurdengan penundaan yang sebenarnya dialami olehpenumpang.

Contoh ini menunjukkan pentingnya memiliki metrikyang tepat untuk setiap proses. metode di atas tidakmenciptakan insentif untuk mengurangi penundaanyang sebenarnya, sehingga pelanggan (dan akhirnya

Page 80: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

industri) masih menderita. Dengan strategi bisnis Six-Sigma, kami ingin melihat gambar yangmenggambarkan output yang benar dari suatu prosesdari waktu ke waktu, bersama dengan metriktambahan, untuk memberikan wawasan ke manamanajemen harus fokus pada upaya perbaikan untukpelanggan.

Enam Langkah Proses Six-Sigma Loop: Proses inidiidentifikasi sebagai berikut lima kegiatan utamauntuk setiap proyek:

1. Mengidentifikasi produk atau jasa yang Andasediakan-Apa yang Anda lakukan?

2. Mengidentifikasi basis pelanggan Anda, danmenentukan apa yang mereka pedulikan-Siapayang menggunakan produk dan jasaAnda? Apa yang benar-benar penting bagimereka?

3. Mengidentifikasi Anda kebutuhan-Apa yangAnda butuhkan untuk melakukan pekerjaanAnda?

4. Tentukan proses untuk melakukan pekerjaan-Bagaimana Anda Anda melakukan pekerjaanAnda?

5. Menghilangkan terbuang upaya-BagaimanaAnda melakukan pekerjaan Anda lebih baik?

6. Pastikan perbaikan terus-menerus denganmengukur, menganalisis, dan mengendalikanpeningkatan proses-Bagaimana sempurnayang kau lakukan pekerjaan yang berfokuspada pelanggan Anda?

Seringkali setiap langkah dapat membuat puluhanproyek perbaikan individu dan dapat berlangsungselama beberapa bulan. Hal ini penting untuk kembalike setiap langkah dari waktu ke waktu untukmenentukan data aktual mungkin dengan sistempengukuran ditingkatkan.

Setelah kita tahu jawaban atas pertanyaan di atas,kita dapat mulai untuk meningkatkan proses. Studikasus berikut selanjutnya akan menjelaskan langkah-langkah yang diterapkan di Six-Sigma untukMengukur, Analyze, Improve, dan Kontrol prosesuntuk memastikan kepuasan pelanggan.

Page 81: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Six Sigma Umum Proses danImplementasinya: The Six-Sigma berarti ukurankualitas yang berusaha untuk dekatkesempurnaan. Six-Sigma adalah pendekatan data-driven dan metodologi untuk menghilangkan cacatuntuk mencapai enam-sigma antara batas spesifikasibawah dan atas. Dengan demikian, untuk mencapaiSix-Sigma, misalnya, dalam proses manufaktur tidakharus menghasilkan lebih dari 3,4 cacat per jutakesempatan. Oleh karena itu, cacat Six-Sigmadidefinisikan karena tidak memenuhi spesifikasipelanggan. Sebuah kesempatan Six-Sigma adalahmaka jumlah total peluang untuk cacat. Pelaksanaansistem Six Sigma mulai normal dengan lokakaryabeberapa hari dari manajemen tingkat atas organisasi.

Hanya jika keuntungan dari Six Sigma dapatdinyatakan dengan jelas dan didukung seluruhManajemen, maka masuk akal untuk menentukanbersama-sama proyek pertama bidang sekitarnya dantim proyek percontohan.

Proyek percontohan anggota tim berpartisipasi adalahbeberapa hari Six Sigma lokakarya untuk mempelajaripelaku sistem, proses, alat dan metodologi.

Tim proyek bertemu untuk mengkompilasi keputusanutama dan mengidentifikasi pemangku kepentinganutama di bidang sekitarnya percontohan. Dalam hariberikutnya persyaratan stakeholder dikumpulkanuntuk proses pengambilan keputusan utama dengantatap muka wawancara.

Sekarang, lokakarya manajemen puncak harus siapuntuk langkah berikutnya. Langkah berikutnya untuktim proyek adalah untuk memutuskan mana danbagaimana prestasi harus diukur dan kemudian mulaidengan pengumpulan data dan analisis. Setiap kalihasil dipahami dengan baik maka saran untukperbaikan akan dikumpulkan, dianalisis, dandiprioritaskan berdasarkan urgensi dan antar-dependensi.

Sebagai hasil utama, anggota tim proyek akanmenentukan perbaikan harus direalisasikanpertama. Dalam fase ini adalah penting bahwakeberhasilan yang cepat diperoleh, untuk meratakantanah untuk proyek-proyek Six Sigma di organisasi.

Page 82: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Kegiatan harus dilakukan secara paralel bilamemungkinkan oleh grafik aktivitas jaringan. Grafikaktivitas akan menjadi lebih dan lebih realistis denganloop-proses sementara menyebarkan perbaikan diseluruh organisasi. proses yang lebih dan lebih akandimasukkan dan karyawan terlatih termasuk BlackBelt yang enam master sigma, dan ketergantunganpenasehat eksternal akan berkurang.

Tujuan utama dari pendekatan Six-Sigma adalahimplementasi dari strategi pengukuran berbasis yangberfokus pada perbaikan proses. Tujuannya adalahpengurangan variasi, yang dapat dicapai denganmetodologi Six-Sigma.

The Six-Sigma adalah strategi bisnis yang bertujuanuntuk dekat-penghapusan cacat dari setiapmanufaktur, layanan dan prosestransaksional. Konsep Six-Sigma diperkenalkan dandipopulerkan untuk mengurangi tingkat cacat papanelektronik diproduksi. Meskipun tujuan awal dari Six-Sigma adalah untuk fokus pada proses manufaktur,hari ini fungsi pemasaran, pembelian, pesananpelanggan, pengolahan keuangan dan kesehatan jugamemulai program Six Sigma.

Motorola Inc.Case: Motorola adalah model peranbagi produsen modern. Pembuat produk komunikasinirkabel, semikonduktor, dan peralatan elektronikmenikmati reputasi bintang untuk teknologi tinggi,produk berkualitas tinggi. Ada alasan untuk reputasiini. Sebuah proses partisipatif-manajemenmenekankan keterlibatan karyawan merupakan faktorkunci dalam Motorola push kualitas. Pada tahun 1987,Motorola menginvestasikan $ 44.000.000 dalampelatihan dan pendidikan karyawan dalam programkualitas baru yang disebut Six-Sigma. Motorolamengukur kualitas internal berdasarkan jumlah cacatpada produk dan proses. Motorola dikonsep Six-Sigma sebagai tujuan kualitas pada pertengahan-1980. Target mereka adalah Six-Sigma kualitas, atau99,9997% cacat produk-yang bebas setara dengan3,4 cacat atau kurang per 1 juta bagian. Kualitasadalah keunggulan kompetitif karena reputasiMotorola membuka pasar. Ketika Motorola Incmemenangkan Malcolm Baldridge National QualityAward pada 1988; itu pada tahap awal dari rencana

Page 83: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

itu, pada tahun 1992, akan mencapai Six-SigmaKualitas. Diperkirakan bahwa $ 9.2 miliar pada 1989penjualan, $ 480,000,000 disimpan sebagai hasil dariprogram Six-Sigma Motorola. Tak lama kemudian,banyak perusahaan AS mengikuti jejak Motorola.

Kontrol Grafik, dan CUSUM yangKontrol grafik untuk variabel disebut X dan R-chart. The X-chart digunakan untuk memantauvariabilitas rata-rata dan R-chart digunakan untukmemantau berbagai variasi.

Mengembangkan diagram kontrol kualitas untukvariabel (X-Chart): Langkah-langkah berikut inidiperlukan untuk mengembangkan diagram kontrolkualitas untuk variabel:

1. Memutuskan apa yang harus diukur.2. Menentukan ukuran sampel.3. Kumpulkan sampel acak dan merekam

pengukuran / jumlah.4. Menghitung rata-rata untuk masing-masing

sampel.5. Menghitung rata-rata keseluruhan. Ini adalah

rata-rata semua rata-rata sampel (X-gandabar).

6. Menentukan rentang untuk setiap sampel.7. Hitung kisaran rata-rata (R-bar).8. Menentukan batas atas kontrol (UCL) dan

batas kendali bawah (LCL) untuk rata-rata danuntuk rentang.

9. Plot grafik.10. Menentukan apakah rata-rata dan kisaran nilai-

nilai berada dalam kendali statistik.11. Mengambil tindakan yang diperlukan

berdasarkan penafsiran Anda dari grafik.

Mengembangkan diagram kontrol untuk atribut (P-Chart): Kontrol grafik untuk atribut disebut P-chart. Langkah-langkah berikut ini diperlukan untukmengatur P-chart:

1. Tentukan apa yang harus diukur.2. Tentukan ukuran sampel yang dibutuhkan.3. Mengumpulkan data sampel dan merekam

data.

Page 84: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

4. Menghitung rata-rata persen cacat untukproses (p).

5. Tentukan batas kontrol dengan menentukanbatas kendali atas (UCL) dan nilai-nilai bataskendali bawah (LCL) untuk grafik.

6. Plot data.7. Menentukan apakah persen barang cacat

berada dalam kendali.

Kontrol grafik juga digunakan dalam industri untukmemantau proses yang jauh dari Zero-Defect. Namun, di antara teknik yang kuat adalahpenghitungan item penurut kumulatif antara dua tidaksesuai dan teknik gabungan berdasarkan jumlahkumulatif dan eksponensial bergerak tertimbangmetode smoothing rata.

The CUSUM umum adalah kontrol proses statistikketika pengukuran multivariat. Ini adalah alat yangefektif dalam mendeteksi pergeseran vektor rata-ratadari pengukuran, yang didasarkan pada antirankscross-sectional dari pengukuran: Pada setiap titikwaktu, pengukuran, setelah tepat berubah, yangdiperintahkan dan antiranks mereka dicatat .Ketikaproses ini di-kontrol di bawah beberapa kondisiketeraturan ringan vektor antirank pada setiap titikwaktu memiliki distribusi yang diberikan, yangmengubah beberapa distribusi lain ketika proses iniout-of-control dan komponen dari vektor mean prosesyang tidak semua sama. Oleh karena itu mendeteksipergeseran ke segala arah kecuali satu yangkomponen vektor berarti semua sama tapi tidaknol. Pergeseran terakhir ini, bagaimanapun, dapatdengan mudah dideteksi oleh CUSUM univariat.

Bacaan lebih lanjut: Breyfogle F., Pelaksana Six Sigma: Solusi SmarterMenggunakan Metode Statistik, Wiley, 1999. del Castillo E., Proses Statistik dan Metode Penyesuaian untukQuality Control , Wiley, 2002. Juran J, dan A. Godfreym, Juran Quality Handbook ,McGraw-Hill, 1999. Xie M., T. Goh, dan V. Kuralmani, Model statistik danPengendalian Charts untuk Proses Kualitas Tinggi , Kluwer,2002.

Pengulangan dan Reproduktifitas

Page 85: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

The Repeatability merujuk pada peralatan atauinstrumen sementara Reprodusibilitas mengacu padaoperator peralatan. Kedua Pengulangan danReproducibility melibatkan studi statistik sepertievaluasi ringkasan statistik, dan perbandingan darivarians dalam pengukuran ulang, sebagian besaruntuk masalah pengambilan keputusan industri.Dalamaplikasi ini, misalnya nilai-nilai yang ditunjukkan olehalat ukur bervariasi dari pengukuranpengukuran. Pertanyaan utama adalah berapabanyak yang built-in variasi mempengaruhi kegiatanlain, seperti dalam proses pengukuran, pemeriksaankualitas, proses proyek perbaikan, dll

Bacaan lebih lanjut: Barrentine L., Konsep untuk R & R Studi , ASQ Kualitas Press,1991. Wheeler D., dan R. Lyday, Mengevaluasi Proses Pengukuran ,Kontrol Proses Statistik Press, 1990.

Statistik Instrumen, Grab Contoh, danTeknik Contoh PasifApa adalah alat statistik? Sebuah instrumen statistikadalah setiap proses yang bertujuan menggambarkanfenomena dengan menggunakan instrumen atauperangkat, namun hasil dapat digunakan sebagai alatkontrol. Contoh instrumen statistik yang kuesioner dansurvei sampling.

Apa teknik sampling ambil? Teknik ambil samplinguntuk mengambil sampel yang relatif kecil selamaperiode yang sangat singkat, hasil yang diperolehbiasanya seketika.Namun, Pasif Sampling adalahteknik di mana perangkat sampling digunakan untukwaktu yang panjang di bawah kondisi yangsama. Tergantung pada penyelidikan statistik yangdiinginkan, Pasif Sampling mungkin menjadi alternatifyang berguna atau bahkan lebih tepat daripada ambilsampling. Namun, teknik sampling pasif perludikembangkan dan diuji di lapangan.

Jarak ContohIstilah 'jarak pengambilan sampel' mencakup berbagaimetode untuk menilai satwa liar berlimpah:

Page 86: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

transek garis sampling, dimana jarak sampel yangjarak dari objek yang terdeteksi (biasanya hewan) darigaris sepanjang yang perjalanan pengamat

titik pengambilan sampel transek, dimana jaraksampel yang jarak dari objek yang terdeteksi(biasanya burung) dari titik di mana berdiri pengamat

isyarat penghitungan, di mana jarak sampel yangjarak dari pengamat bergerak ke setiap isyaratterdeteksi diberikan oleh obyek yang menarik(biasanya paus)

menjebak jaring, dimana jarak sampel berasal daripusat web ke obyek terperangkap (biasanyainvertebrata atau vertebrata darat kecil)

jumlah migrasi, di mana 'jarak' sampel sebenarnyakali deteksi selama migrasi benda (biasanya paus)melewati suatu titik menonton

Banyak model mark-recapture telah dikembangkanselama 40 tahun terakhir. Pemantauan populasibiologi menerima meningkatnya penekanan di banyaknegara. Data dari populasi ditandai dapat digunakanuntuk estimasi probabilitas kelangsungan hidup,bagaimana ini bervariasi berdasarkan usia, jeniskelamin dan waktu, dan bagaimana merekaberkorelasi dengan variabel eksternal. Estimasiimigrasi dan emigrasi tarif, ukuran populasi danproporsi kelas umur yang masuk populasi pemuliaansering penting dan sulit untuk memperkirakan denganpresisi untuk populasi bebas mulai. Estimasi tingkatyang terbatas perubahan penduduk dan kebugaranmasih lebih sulit untuk mengatasi dengan cara yangketat.

Bacaan lebih lanjut: Buckland S., D. Anderson, K. Burnham, dan J. Laake, JarakSampling: Memperkirakan Kelimpahan Populasi Biologi ,Chapman dan Hall, London, 1993. Buckland S., D. Anderson, K. Burnham, J . Laake, D.Borchers, dan L. Thomas, Pengantar Jarak Sampling , OxfordUniversity Press, 2001.

Data Pertambangan danPengetahuan Penemuan

Page 87: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Bagaimana menemukan nilai dalam gunungdata? Data mining menggunakan analisis danpemodelan teknik statistik yang canggih untukmengungkap pola dan hubungan yang tersembunyidalam database organisasi. Data mining danpengetahuan penemuan tujuan di alat dan teknikuntuk memproses informasi terstruktur dari databaseke gudang data ke data mining, dan untuk penemuanpengetahuan. aplikasi data warehouse telah menjadibisnis penting. Data mining dapat memampatkan nilailebih dari ini repositori besar informasi.

The melanjutkan pertumbuhan yang cepat data on-line dan meluasnya penggunaan databasememerlukan pengembangan teknik untukmengekstraksi pengetahuan yang bermanfaat danuntuk memfasilitasi akses database. Tantanganpenggalian pengetahuan dari data adalahkepentingan umum untuk beberapa bidang, termasukstatistik, database, pengenalan pola, pembelajaranmesin, visualisasi data, optimasi, dan komputasikinerja tinggi.

Proses data mining melibatkan identifikasi data yangsesuai diatur ke "tambang" atau menyaring untukmenemukan hubungan isi data. alat pertambangandata meliputi teknik seperti penalaran berbasis kasus,analisis cluster, visualisasi data, query kabur dananalisis, dan jaringan saraf. Data mining kadang-kadang menyerupai metode ilmiah tradisionalmengidentifikasi hipotesis dan kemudian mengujinyamenggunakan set data yang sesuai. Namun kadang-kadang data mining adalah mengingatkan apa yangterjadi ketika data telah dikumpulkan dan tidak adahasil signifikan yang ditemukan dan karenanya adhoc, analisis eksplorasi dilakukan untuk menemukanhubungan yang signifikan.

Data mining adalah proses penggalian pengetahuandari data. Kombinasi komputer cepat, penyimpananmurah, dan komunikasi yang lebih baik membuat lebihmudah dari hari ke hari untuk menggoda informasiyang berguna dari segala sesuatu dari polasupermarket beli untuk sejarah kredit. Untuk pemasarcerdas, pengetahuan yang dapat bernilai sebanyak-hal penambang nyata menggali dari tanah.

Page 88: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Data mining sebagai proses analitik dirancang untukmengeksplorasi sejumlah besar (biasanya bisnis ataupasar terkait) Data dalam mencari pola yangkonsisten dan / atau hubungan sistematis antaravariabel, dan kemudian untuk memvalidasi temuandengan menerapkan pola terdeteksi subset databaru. Proses demikian terdiri dari tiga tahap dasar:eksplorasi, Model bangunan atau definisi pola, danvalidasi / verifikasi.

Yang membedakan data mining dari analisis datastatistik konvensional adalah bahwa data miningbiasanya dilakukan untuk tujuan "analisis sekunder"yang bertujuan untuk menemukan hubungan takterduga yang tidak terkait dengan tujuan untuk manadata awalnya dikumpulkan.

Data pergudangan sebagai proses pengorganisasianpenyimpanan yang besar, set data multivariat dengancara yang memfasilitasi pengambilan informasi untuktujuan analisis.

Data mining saat ini merupakan istilah yang agakkabur, tapi unsur yang umum bagi kebanyakan definisiadalah "pemodelan prediktif dengan set data yangbesar seperti yang digunakan oleh perusahaanbesar". Oleh karena itu, data mining adalah ekstraksitersembunyi informasi prediksi dari databasebesar. Ini adalah teknologi baru yang kuat denganpotensi besar, misalnya, untuk membantu manajerpemasaran "Terlebih Dahulu mendefinisikan pasarinformasi besok." alat data mining memprediksi trendan perilaku masa depan, yang memungkinkanperusahaan untuk membuat proaktif, keputusanberbasis pengetahuan. otomatis, calon analisis yangditawarkan oleh langkah data mining di luar analisisperistiwa masa lalu yang disediakan oleh alatretrospektif. Data mining menjawab pertanyaan bisnisyang secara tradisional terlalu memakan waktu untukmenyelesaikan. alat data mining menjelajahi databaseuntuk pola yang tersembunyi, mencari informasiprediktif yang ahli mungkin kehilangan karena terletakdi luar ekspektasi mereka.

Teknik data mining dapat diimplementasikan dengancepat pada platform perangkat lunak dan perangkatkeras yang ada di perusahaan besar untuk

Page 89: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

meningkatkan nilai sumber daya yang ada, dan dapatdiintegrasikan dengan produk-produk baru dan sistemseperti yang dibawa on-line. Ketika diterapkan padakinerja tinggi client-server atau pemrosesan paralelkomputer, alat data mining dapat menganalisisdatabase besar sementara pelanggan atau analismengambil istirahat kopi, kemudian memberikanjawaban atas pertanyaan-pertanyaan seperti, "Yangklien yang paling mungkin untuk menanggapi promosiberikutnya mailing, dan mengapa? "

Penemuan pengetahuan dalam database bertujuanmeruntuhkan penghalang terakhir di arus informasiperusahaan ', langkah analisis data. Ini adalah labeluntuk suatu kegiatan yang dilakukan di berbagaiaplikasi domain dalam ilmu pengetahuan dan bisnismasyarakat, serta untuk kesenangan. Kegiatan inimenggunakan data-set besar dan heterogen sebagaidasar untuk mensintesis pengetahuan baru danrelevan. pengetahuan baru karena hubungan yangtersembunyi dalam data explicated, dan / atau datadikombinasikan dengan pengetahuan sebelumnyauntuk menjelaskan masalah yang diberikan. Istilahyang relevan digunakan untuk menekankan bahwapenemuan pengetahuan adalah proses tujuan-drivendi mana pengetahuan dibangun untuk memfasilitasisolusi untuk masalah.

Penemuan pengetahuan mungkin dipandang sebagaisuatu proses yang mengandung banyaktugas. Beberapa tugas-tugas ini dipahami denganbaik, sementara yang lain tergantung pada penilaianmanusia dalam hal implisit. Selanjutnya, proses iniditandai dengan iterasi berat antara tugas-tugas. Halini sangat mirip dengan banyak proses rekayasakreatif, misalnya, pengembangan modeldinamis. Dalam mekanistik referensi ini, atau prinsip-prinsip pertama berdasarkan, model ditekankan, dantugas-tugas yang terlibat dalam pengembanganmodel didefinisikan oleh:

1. Initialize pengumpulan data dan perumusanmasalah. Data awal yang dikumpulkan, danbeberapa lebih atau kurang tepat rumusanmasalah pemodelan dikembangkan.

2. Alat seleksi. Alat perangkat lunak untukmendukung pemodelan dan memungkinkan

Page 90: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

simulasi yang dipilih.3. Pemodelan konseptual. sistem yang akan

dimodelkan, misalnya, reaktor kimia, generatorlistrik, atau kapal laut, disarikan padaawalnya. Kompartemen penting dan fenomenayang dominan terjadi diidentifikasi dandidokumentasikan untuk kemudian digunakankembali.

4. Model representasi. Sebuah representasi darimodel sistem yang dihasilkan. Seringkali,persamaan yang digunakan; Namun, blokdiagram grafis (atau formalisme lainnya)alternatif dapat digunakan, tergantung pada alatpemodelan yang dipilih di atas.

5. Implementasi komputer. Representasi modeldiimplementasikan dengan menggunakansarana yang disediakan oleh sistem pemodelanperangkat lunak yang digunakan.Ini bisaberkisar dari bahasa pemrograman umumuntuk persamaan berbasis bahasa pemodelanatau grafis blok berorientasi antarmuka.

6. Verifikasi. Implementasi Model diverifikasi untukbenar-benar menangkap maksud daripemodel. Tidak ada simulasi untuk masalahyang sebenarnya harus dipecahkan dilakukanuntuk tujuan ini.

7. Inisialisasi. nilai awal yang wajar disediakanatau dihitung, proses numerik debugged.

8. Validasi. Hasil simulasi divalidasi terhadapbeberapa referensi, idealnya terhadap dataeksperimental.

9. Dokumentasi. Proses pemodelan, model, danhasil simulasi selama validasi dan penerapanmodel didokumentasikan.

10. model aplikasi. Model ini digunakan dalambeberapa model berbasis masalah prosesrekayasa tugas pemecahan.

Untuk jenis model yang lain, seperti model jaringansaraf di mana pengetahuan data-driven digunakan,proses pemodelan akan sedikit berbeda. Beberapatugas seperti tahap pemodelan konseptual, akanlenyap.

Page 91: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Area aplikasi khas untuk model dinamis kontrol,prediksi, perencanaan, dan deteksi kesalahan dandiagnosis. Kekurangan utama dari metode saat iniadalah kurangnya kemampuan untuk memanfaatkanberbagai pengetahuan. Sebagai contoh, sebuahstruktur model kotak hitam telah sangat kemampuanterbatas untuk memanfaatkan prinsip-prinsip pertamapengetahuan tentang masalah. ini telah memberikandasar untuk mengembangkan skema hybrid yangberbeda. Dua skema hybrid akan menyorotidiskusi.Pertama, akan ditunjukkan bagaimana modelmekanistik dapat dikombinasikan dengan model kotakhitam untuk mewakili sistem netralisasi pHefisien. Kedua, kombinasi dari input kontrol terusmenerus dan diskrit dianggap, memanfaatkan contohdua-tank sebagai kasus. pendekatan yang berbedauntuk menangani kasus yang heterogen ini dianggap.

Pendekatan hybrid dapat dilihat sebagai alat untukmengintegrasikan berbagai jenis pengetahuan, yaitu,mampu memanfaatkan basis pengetahuan heterogenuntuk mendapatkan model. praktek standar saat iniadalah bahwa hampir semua metode dan perangkatlunak dapat mengobati besar homogen data-set. Sebuah contoh khas dari data-set homogenadalah data time-series dari beberapa sistem,misalnya, suhu, tekanan, dan komposisi pengukuranatas beberapa kerangka waktu yang disediakan olehinstrumentasi dan sistem kontrol dari reaktorkimia. Jika informasi tekstual yang bersifat kualitatifdisediakan oleh personil pabrik, data menjadiheterogen.

Diskusi di atas akan membentuk dasar untukmenganalisis interaksi antara penemuanpengetahuan, dan pemodelan dan identifikasi modeldinamis. Secara khusus, kita akan tertarik dalammengidentifikasi bagaimana konsep dari penemuanpengetahuan dapat memperkaya state-of-the-artdalam kendali, prediksi, perencanaan, dan deteksikesalahan dan diagnosis sistem dinamis.

Bacaan lebih lanjut: Marco D., Bangunan dan Mengelola Meta Data Repository:Sebuah penuh Lifecycle Panduan , John Wiley, 2000. Thuraisingham B., Data Mining: Teknologi, Teknik, Alat, danTren , CRC Press, 1998. . Westphal Ch, T. Blaxton, data Mining Solutions: Metode danAlat untuk Memecahkan Dunia Nyata Masalah , John Wiley,

Page 92: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

1998.

Jaringan saraf Aplikasijaringan saraf tiruan memberikan mapan, alat yangampuh untuk menyimpulkan pola dari databasebesar. Mereka telah terbukti sangat berguna untukmemecahkan masalah interpolasi, klasifikasi danprediksi, dan telah digunakan dalam sejumlah besarbisnis dan keuangan aplikasi.

Pendekatan klasik adalah jaringan feedforward neural,dilatih menggunakan back-propagasi, yang tetapteknik yang paling luas dan efisien untukmelaksanakan pembelajaran diawasi. Langkah-langkah utama adalah: preprocess data, pilihan yangtepat dari variabel, postprocessing hasil, dan validasiakhir dari strategi global. Aplikasi termasuk datamining, dan prediksi pasar saham.

Bacaan lebih lanjut: Schurmann J., Klasifikasi Pola: Sebuah Bersatu View daristatistik dan Neural Pendekatan , John Wiley & Sons, 1996.

Bayes dan Metode Bayes EmpirisBayes dan empiris Bayes (EB) struktur metode yangmenggabungkan informasi dari komponen yang samainformasi dan menghasilkan kesimpulan efisien untukkedua komponen individu dan karakteristik modelyang dibagikan. Banyak penyelidikan terapankompleks pengaturan yang ideal untuk jenissintesis. Misalnya, tingkat insiden penyakit county-tertentu dapat menjadi tidak stabil karena populasikecil atau tingkat rendah. 'Meminjam informasi' darikabupaten yang berdekatan secara parsial poolingmenghasilkan perkiraan yang lebih baik untuk setiapkabupaten, dan Bayes / empiris Bayes metodestruktur pendekatan. Yang penting, kemajuan terbarudalam komputasi dan kemampuan konsekuen untukmengevaluasi model yang kompleks, memilikimeningkatkan popularitas dan penerapan metodeBayesian.

Bayes dan EB metode dapat diimplementasikandengan menggunakan rantai Markov yang modernMonte Carlo (MCMC) metode komputasi. Terstruktur

Page 93: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Bayes dan EB prosedur biasanya memiliki frekuentisbaik dan kinerja Bayesian, baik dalam teori danpraktek. Hal ini pada gilirannya memotivasipenggunaannya dalam pengaturan lanjutan tinggi-dimensi Model (misalnya, data longitudinal atau modelpemetaan spatio-temporal), di mana model Bayesiandilaksanakan melalui MCMC sering memberikan satu-satunya pendekatan yang layak yangmenggabungkan semua fitur model yang relevan.

Bacaan lebih lanjut: Bernardo J., dan A. Smith, Bayesian Theory , Wiley, 2000. Carlin B., dan T. Louis, Bayes dan empiris Metode Bayesuntuk Analisis Data , Chapman dan Hall, 1996. Congdon P., Modelling statistik Bayesian , Wiley, 2001. Tekan S., dan J. Tanur, The subyektivitas dari ilmuwan danpendekatan Bayesian , Wiley, 2001. Membandingkan danmengkontraskan realitas subjektivitas dalam karya ilmuwanbesar sejarah dan pendekatan Bayesian modern untukanalisis statistik.

Markov & Memory TeoriMenurut Memory Teori (M), dalam pemodelanperistiwa memori, peristiwa yang bergantung padadua atau lebih masa lalu kali, bukan hanya 1 seperti dirantai Markov / proses, atau tidak seperti padaperistiwa waktu-independen, yang terbaik adalahuntuk mengubah rasio perbedaan (ditambah konstan -1 sangat bagus, tapi konstanta lainnya termasuk 0sering digunakan). Rasio dan produk bekerja terbaikdalam rantai dan proses Bayesian Markov. Perbedaan(pengurangan) dan jumlah bekerja terbaik di M Teoridan M Events. Peristiwa terakhir berkisar dari bahanviskoelastik melalui memori manusia untuk prosesekonomi / keuangan / biologis memori. Penambahandan pengurangan memiliki penyederhanaan sendiri(misalnya, geometris seri sum sangat mudah), danpada tingkat lanjutan khusus jenis perkaliangeneralisasi pengurangan, yaitu produk lilit yangsudah diakui secara luas sebagai terlibat dalammemori (melalui Volterra integral dan tidakterpisahkan persamaan -differential, dll). persamaanVolterra, dengan cara, relatif mudah untukmemecahkan, dan bahkan numerik perangkat lunakanalisis / pendekatan sama tersedia sebagaiperangkat lunak utama jika Anda tahu di manamencarinya (biasanya dalam ilmu fisika software /engineering). Penyederhanaan karena produk

Page 94: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

konvolusi setidaknya sama besar sebagaipenyederhanaan yang terlibat dalam perkalian biasaperkalian, dan memungkinkan Fourier canggihmengubah dan Transformasi Laplace metode yangakan digunakan.

Teori memori dan time series saham properti aditif dandalam istilah tunggal bisa ada perkalian, tapi sepertimetode regresi umum ini tidak selalu berarti bahwamereka semua menggunakan Teori M. Satu dapatmenggunakan metode time series standar dalamtahap awal pemodelan hal, tetapi lakukan sebagaiberikut menggunakan M Teori Cross-Term DimensiAnalisis (CTDA). Misalkan Anda mendalilkan model y= af (x) - bg (z) + ch (u) di mana f, g, h adalahbeberapa fungsi dan x, z, u adalah apa yang biasanyadisebut sebagai variabel independen. Perhatikantanda minus (-) di sebelah kiri b dan tanda + disebelah kiri c dan (secara implisit) di sebelah kiri dari,di mana a, b, c adalah konstanta positif. Variabel ybiasanya disebut sebagai variabel dependen. MenurutM Theory, tidak hanya f, g, dan h pengaruh /penyebab y, tapi g pengaruh / menyebabkan f dan hsetidaknya sampai batas tertentu. Bahkan, M Theorydapat merumuskan ini dalam hal pengaruhkemungkinan serta pengaruh deterministik. Semua inigeneralizes dengan kasus di mana f, g, h fungsibergantung pada dua atau lebih variabel, misalnya, f(x, w), g (z, t, r), dll

Satu dapat membalikkan proses ini. Jika orangberpikir bahwa f pengaruh g dan h dan y tapi itu h dang hanya mempengaruhi y dan tidak f, makamengungkapkan persamaan y dalam bentuk diatas. Jika berhasil, satu telah menemukan sesuatuyang regresi utama dan time series mungkin gagaluntuk mendeteksi. Tentu saja, analisis jalur dan Lisreldan parsial kuadrat terkecil juga mengklaim memilikikemampuan 'kausal', tetapi hanya dalam arti regresistandar 'pembekuan' yang disebut-variabelindependen sebagai 'kodrat' dan bukan dalam arti MTeori yang memungkinkan mereka bervariasi dengany. Bahkan, Bayesian probabilitas / statistik metodedan metode M Teori menggunakan masing-masingrasio seperti y / x dan perbedaan seperti y - x + 1dalam persamaan mereka, dan dalam model

Page 95: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Bayesian x adalah tetap tetapi dalam M Teori Model xdapat bervariasi.Jika kita melihat dengan hati-hati,salah satu akan melihat bahwa model Bayesianmeledak di x = 0 (karena pembagian dengan 0 adalahtidak mungkin, kunjungi Saga Zero(http://home.ubalt.edu/ntsbarsh/zero/ZERO.HTM)halaman),tetapi juga dekat x = 0 karena peningkatan artifisialbesar diperkenalkan - tepatnya dekat peristiwalangka. Itulah salah satu alasan mengapa M Teori inilebih sukses untuk langka dan / atau sangatdipengaruhi / mempengaruhi peristiwa, sedangkanmetode Bayesian dan utama bekerja cukup baik untuksering / umum dan / atau pengaruh yang rendah(bahkan independen) dan / atau peristiwaketergantungan rendah .

Bacaan lebih lanjut: Kursunuglu B., S. Mintz, dan A. Perlmutter, Quantum Gravity,Generalized Teori Gravitasi, dan Superstring Unifikasi Teori-Based , Kluwer Academic / Pleno, New York 2000.

Metode Kemungkinan

Direct Inverse _______________________________________________ Neyman-Pearson Bayesian (decision analysis)Decision Wald (H. Rubin, e.g.) --------------------------------------------------------------Hybrid "Standard" practice Bayesian (subjective) ------------------------------------------------------------------ fiducial (Fisher)Inference Early Fisher likelihood (Edwards) Bayesian (modern) belief functions (Shafer)

Page 96: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Di sekolah-sekolah langsung, satu menggunakan Pr(data | hipotesis), biasanya dari beberapa modelberbasis distribusi sampling, tapi tidak berusaha untukmemberikan probabilitas inverse, Pr (hipotesis | data),maupun evaluasi kuantitatif lainnyahipotesis. Sekolah-sekolah Inverse melakukan nilai-nilai asosiasi numerik dengan hipotesis, baikprobabilitas (sekolah Bayesian) atau sesuatu yanglain (Fisher, Edwards, Shafer).

Metode berorientasi keputusan memperlakukanstatistik sebagai masalah tindakan, bukan inferensi,dan berusaha untuk mengambil utilitas sertaprobabilitas memperhitungkan dalam memilihtindakan; metode inferensi berorientasi mengobatikesimpulan sebagai tujuan selain dari tindakan yangakan diambil.

The "hybrid" baris bisa lebih tepat diberi label sebagai"munafik" - metode ini berbicara beberapapembicaraan Keputusan tetapi berjalan Inferenceberjalan.

Metode acuan Fisher disertakan karena sangatterkenal, tetapi konsensus modern adalah bahwa iatidak memiliki pembenaran.

Sekarang memang benar, di bawah asumsi tertentu,beberapa sekolah yang berbeda menganjurkanperhitungan yang sangat mirip, dan hanya berbicaratentang mereka atau membenarkan merekaberbeda. Beberapa tampaknya berpikir ini adalahmelelahkan atau tidak praktis. Satu mungkin tidaksetuju, karena tiga alasan:

Pertama, bagaimana seseorang membenarkanperhitungan pergi ke jantung apa perhitungansebenarnya BERARTI; kedua, lebih mudah untukmengajarkan hal-hal yang benar-benar masuk akal(yang merupakan salah satu alasan bahwa praktikstandar sulit untuk mengajar); dan ketiga, metodeyang bertepatan atau hampir jadi untuk beberapamasalah mungkin berbeda tajam bagi orang lain.

Kesulitan dengan pendekatan Bayesian subjektifadalah bahwa pengetahuan diwakili oleh distribusiprobabilitas, dan ini lebih dari komitmen dari dijamindalam kondisi ketidaktahuan parsial. (Uniform atau

Page 97: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

prior tidak benar sama buruknya dalam beberapa halsebagai sesuatu semacam lain dari sebelumnya.)Metode dalam (Inference, Inverse) sel semua upayauntuk melarikan diri kesulitan ini denganmenghadirkan representasi alternatif kebodohanparsial.

Edwards, khususnya, menggunakan logaritma darikemungkinan dinormalisasi sebagai ukuran dukunganuntuk hipotesis. informasi sebelum dapat dimasukkandalam bentuk dukungan sebelum (log kemungkinan)fungsi; dukungan datar merupakan kebodohansebelum selesai.

Satu tempat di mana metode kemungkinan akanmenyimpang tajam dari praktek "standar" adalahdalam perbandingan antara tajam dan hipotesisdifus. Pertimbangkan H0: X ~ N (0, 100) [berdifusi]dan H1: X ~ N (1, 1) [standar deviasi 10 kali lebihkecil]. Dalam metode standar, mengamati X = 2 akanundiagnostic, karena tidak dalam masuk akal selangekor penolakan (atau wilayah) untuk baikhipotesis. Tapi sementara X = 2 tidak konsistendengan H0, itu jauh lebih baik dijelaskan oleh H1 -rasio kemungkinan adalah sekitar 6,2 mendukungH1. Dalam metode Edwards ', H1 akan memilikidukungan lebih tinggi dari H0, dengan jumlah log (6,2)= 1,8. (Jika ini adalah satu-satunya dua hipotesis,yang Neyman-Pearson lemma juga akan membawakita untuk tes berdasarkan rasio kemungkinan, tetapimetode Edwards 'lebih luas berlaku.)

Saya tidak ingin muncul untuk mendukung metodekemungkinan. Saya bisa memberikan diskusi panjangketerbatasan mereka dan alternatif yang berbagibeberapa keuntungan mereka tapi menghindariketerbatasan mereka. Tapi pasti kesalahan untukmengabaikan metode tersebut ringan. Mereka praktis(saat ini banyak digunakan dalam genetika) dandidasarkan pada analisis yang cermat dan mendalamdari inferensi.

Apa itu Meta-Analisis?

Page 98: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

penawaran meta-analisis dengan senimenggabungkan informasi dari data dari sumber-sumber independen yang berbeda yang ditargetkanpada tujuan bersama. Ada banyak aplikasi Meta-Analisis dalam berbagai disiplin ilmu sepertiAstronomi, Pertanian, Ilmu Lingkungan Biologi danIlmu Sosial, dan. Topik ini khusus statistik telahberkembang cukup selama dua puluh tahun terakhirdengan diterapkan serta perkembangan teoritis.

Sebuah penawaran Meta-analisis dengan satu sethasil untuk memberikan HASIL keseluruhan yang(mungkin) yang komprehensif dan valid.

a) Terutama ketika Effect-ukuran yang agak kecil,harapan adalah bahwa seseorang dapat memperolehkekuatan yang baik dengan dasarnya berpura-puramemiliki lebih besar N sebagai, sampel gabunganvalid.

b) Ketika efek ukuran agak besar, maka DAYAtambahan tidak diperlukan untuk efek utama daridesain: Sebaliknya, secara teoritis bisa mungkin untukmelihat kontras antara sedikit variasi dalam studi itusendiri.

Jika Anda benar-benar percaya bahwa "segalasesuatu yang sama" akan tahan. Khas "meta" studitidak melakukan tes homogenitas yang seharusnyadibutuhkan

Dengan kata lain:

1. ada badan penelitian literatur / data yang inginAnda meringkas

2. satu mengumpulkan bersama-sama semua contohditerima sastra ini (catatan: beberapa mungkindibuang karena berbagai alasan)

3. rincian tertentu dari setiap penyelidikan yangdiuraikan ... paling penting yang akan menjadi efekyang memiliki atau belum ditemukan, yaitu, berapabanyak yang lebih besar di unit sd adalah kinerjakelompok perlakuan dibandingkan dengan satu ataulebih kontrol.

4. memanggil nilai-nilai dalam setiap penyelidikan di #3 .. efek ukuran Mini.

Page 99: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

5. di semua set data diterima, Anda mencoba untukmeringkas ukuran efek keseluruhan denganmembentuk satu set efek individu ... danmenggunakan sd keseluruhan sebagai pembagi ..sehingga menghasilkan dasarnya efek ukuran rata-rata.

6. dalam literatur analisis meta ... kadang-kadang efekukuran ini selanjutnya diberi label sebagai kecil,menengah, maupun besar ....

Anda dapat melihat efek ukuran dalam berbagai cara.. di faktor yang berbeda dan variabel. namun,singkatnya, ini adalah apa yang dilakukan.

Saya ingat kasus dalam fisika, di mana, setelahfenomena telah diamati di udara, emulsi data yangdiperiksa. Teori ini akan memiliki sekitar efek 9%dalam emulsi, dan lihatlah, data yang dipublikasikanmemberi 15%. Seperti yang terjadi, tidak ada yangsignifikan (praktis, tidak statistik) dalam teori, dan jugatidak ada kesalahan dalam data.Itu hanya bahwa hasileksperimen di mana tidak ada yang signifikan secarastatistik ditemukan tidak dilaporkan.

Ini non-pelaporan percobaan tersebut, dan seringhasil tertentu yang tidak signifikan secara statistik,yang memperkenalkan bias utama. Ini jugadikombinasikan dengan sikap yang sama sekali kelirudari peneliti bahwa hasil yang signifikan secarastatistik adalah orang-orang penting, dan daripada jikatidak ada makna, efeknya tidak penting. Kami benar-benar perlu antara istilah "statistik signifikan", dankata yang biasa signifikan.

Hal ini sangat penting untuk membedakan antarastatistik signifikan dan umumnya signifikan, melihatpilihan Magazine (Juli 1987), The Case of FallingNightwatchmen, oleh Sapolsky. Pada artikel ini,Sapolsky menggunakan contoh untuk menunjukkanperbedaan yang sangat penting antara statistiksignifikan dan umumnya signifikan: Sebuahpenurunan kecepatan pada dampak mungkinsignifikan secara statistik, namun tidak penting kenightwatchman jatuh.

Page 100: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Hati-hati tentang kata "signifikan". Ini memiliki artiteknis, tidak satu akal sehat. Hal ini tidak otomatisidentik dengan "penting". Seseorang atau kelompokdapat secara statistik signifikan lebih tinggi dari rata-rata untuk penduduk, tapi masih tidak menjadi calonuntuk tim basket Anda. Apakah perbedaannya adalahsubstantif (bukan hanya secara statistik) yangsignifikan tergantung pada masalah yang sedangdipelajari.

Meta-analisis adalah jenis kontroversial tinjauanpustaka di mana hasil penelitian acak terkontrolindividu dikumpulkan bersama-sama untuk mencobauntuk mendapatkan perkiraan efek intervensi yangsedang dipelajari. Ini meningkatkan kekuatan statistikdan digunakan untuk menyelesaikan masalah laporanyang tidak setuju dengan satu sama lain. Ini tidakmudah untuk melakukannya dengan baik dan adabanyak masalah yang melekat.

Ada juga teknik grafis untuk menilai kekokohan hasilmeta-analisis. Kita harus melaksanakan meta-analisismenjatuhkan berturut-turut satu studi, yaitu jika kitamemiliki studi N kita harus melakukan N meta-analisismenggunakan N-1 studi di masing-masing. Setelah itukita plot perkiraan N ini pada sumbu y danmembandingkan mereka dengan garis lurus yangmewakili estimasi keseluruhan menggunakan semuastudi.

Topik dalam Meta-analisis meliputi: rasio Odds; risikorelatif; Perbedaan risiko; efek ukuran; Insidensi tingkatperbedaan dan rasio; Plot dan interval kepercayaanyang tepat.

Bacaan lebih lanjut: Kaca, . Et al , Meta-Analisis dalam Penelitian Sosial , McGrawHill, 1987 Cooper H., dan L. Hedges, (Eds.), Handbook of SintesisPenelitian , Russell Sage Foundation, New York, 1994

Pemodelan data industriData Modeling industri adalah aplikasi statistik,matematika dan komputasi teknik untuk masalahindustri. aplikasi yang ditujukan untuk sains dan teknikpraktisi dan manajer dalam industri, menganggappemodelan, analisis dan interpretasi data di industri

Page 101: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

yang berhubungan dengan ilmu pengetahuan, teknikdan biomedis. Teknik-teknik berhubungan erat denganorang-orang dari kemometrika, technometrics danbiometrik.

Bacaan lebih lanjut: Montgomery D., dan G. Runger, Statistik Terapan danProbabilitas untuk Engineers , Wiley, 1998. Ross Sh,. Pengantar Probabilitas dan Statistik untuk Insinyurdan ilmuwan , Academic Press, 1999.

Prediksi IntervalIdenya adalah bahwa jika adalah mean dari sampelacak berukuran n dari populasi normal, dan Y adalahpengamatan tambahan tunggal, maka uji statistik - Ynormal dengan mean 0 dan varians (1 + 1 / n) s .

Karena kita tidak benar-benar tahu s , kita perlumenggunakan t dalam mengevaluasi ujistatistik. Prediksi Interval tepat untuk Y adalah

± t .S. (1 + 1 / n) .

Hal ini mirip dengan konstruksi interval untuk prediksiindividu dalam analisis regresi.

Data yang pas untuk Line PatahData pas untuk patah, bagaimana menentukanparameter, a, b, c, dan d sehingga

y = a + bx, untuk x kurang dari atau sama c y = a - dc + (d + b) x, untuk x lebih besar dari atausama dengan c

Solusi sederhana adalah pencarian brute forceseluruh nilai-nilai c. Setelah c diketahui,memperkirakan a, b, dan d adalah sepele melaluipenggunaan variabel indikator. Satu dapatmenggunakan (xc) sebagai variabel bebas Anda,bukan x, untuk kenyamanan komputasi.

Sekarang, hanya memperbaiki c di grid denda nilai xdalam kisaran data Anda, memperkirakan a, b, dan d,dan kemudian perhatikan apa mean kuadratkesalahan. Pilih nilai c yang meminimalkan meansquared error.

2

2

a/ 21/2

Page 102: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Sayangnya, Anda tidak akan bisa mendapatkaninterval kepercayaan yang melibatkan c, dan intervalkepercayaan untuk parameter yang tersisa akantergantung pada nilai c.

Bacaan lebih lanjut: Untuk lebih jelasnya, lihat Terapan Analisis Regresi , olehDraper dan Smith, Wiley 1981, Bab 5, Bagian 5.4 padapenggunaan variabel dummy. Contoh 6.

Cara Menentukan jika Dua RegresiGaris Apakah Paralel?Ingin menentukan apakah dua garis regresisejajar? Membangun model regresi linier bergandasebagai berikut:

E(y) = b + b X + b X + b X

where X = interval predictor variable, X = 1 if group1, 0 if group 0, and X = X .X Then, E(y|group=0) =b + b X and E(y|group=1) = b + b X + b .1 +b .X .1 = b + b .X + b + b X = (b + b ) + (b +b )X

Artinya, E (y | kelompok = 1) adalah regresisederhana dengan kemiringan berpotensi berbedadan mencegat dibandingkan dengan kelompok = 0.

Ho: slope (kelompok 1) = slope (kelompok 0) adalahsetara dengan Ho: b = 0

Gunakan t-test dari variabel-in-tabel persamaan untukmenguji hipotesis ini.

Dibatasi Regresi ModelJika Anda cocok regresi memaksa mencegat menjadinol, standard error dari lereng kurang. Yangtampaknya kontra-intuitif. mencegat harus disertakandalam model karena signifikan, jadi mengapa adalahstandard error untuk kemiringan dalam model yanglebih buruk pas sebenarnya lebih kecil?

Saya setuju bahwa itu awalnya kontra-intuitif (lihat dibawah), tapi di sini ada dua alasan mengapa itubenar. Varians dari perkiraan kemiringan untuk modeldibatasi adalah s / S X ), di mana X adalah nilai-

0 1 1 2 2 3 3

1 2

3 1 2

0 1 1 0 1 1 2

3 1 0 1 1 2 3 1 0 2 1

3 1

3

2i 2

i

2

Page 103: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

nilai X yang sebenarnya dan s diperkirakan dariresidual. Varians dari perkiraan kemiringan untukmodel dibatasi (dengan intercept) adalah s / S x ),di mana x adalah penyimpangan dari mean,dan s masih diperkirakan dari residual). Jadi, modeldibatasi dapat memiliki lebih besar s (berartikesalahan / "residual" dan standard error persegiperkiraan) tetapi kesalahan standar lebih kecil darilereng karena penyebut lebih besar.

r juga berperilaku sangat aneh dalam modeldibatasi; dengan rumus konvensional, bisanegatif; dengan rumus yang digunakan oleh sebagianbesar paket komputer, umumnya lebih besar daripadayang tanpa r karena berurusan denganpenyimpangan dari 0, bukan penyimpangan darimean. Hal ini karena, pada dasarnya, membatasimencegat dengan 0 pasukan kita untuk bertindakseolah-olah mean dari X dan mean dari Y keduanya0.

Setelah Anda menyadari bahwa se lereng tidak benar-benar ukuran keseluruhan fit, hasilnya mulai membuatbanyak akal. Asumsikan bahwa semua X dan Ypositif. Jika anda terpaksa harus sesuai dengan garisregresi melalui asal (atau titik lain) akan ada sedikit"wiggle" bagaimana Anda dapat cocok garis untukdata daripada akan ada jika kedua "berakhir" bisabergerak.

Pertimbangkan sekelompok poin yang SEMUA jalankeluar, jauh dari nol, maka jika Anda Memaksa regresimelalui nol, garis yang akan sangat dekat dengansemua poin, dan melewati asal, dengan ERRORLITTLE. Dan kecil presisi, dan sedikit validitas. Olehkarena itu, tidak ada-intercept model hampir tidakpernah tepat.

Pemodelan semiparametrik dan Non-parametrikBanyak model regresi parametrik dalam ilmu terapanmemiliki bentuk seperti respon = function (X , ...,X , pengaruh yang tidak diketahui). "Respons"mungkin menjadi keputusan (untuk membeli produk

2

2i 2

i2

2

2

2

1

p

Page 104: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

tertentu), yang tergantung pada p variabel terukur danjangka pengingat yang tidak diketahui. Dalam statistik,model ini biasanya ditulis sebagai

Y = m (X , ..., X ) + e

dan tidak diketahui e ditafsirkan sebagai istilah error.

Model yang paling sederhana untuk masalah iniadalah model regresi linear, generalisasi seringdigunakan adalah Model Generalized Linear (GLM)

Y = G (X b + ... + X b ) + e

di mana G disebut fungsi link. Semua model inimenyebabkan masalah memperkirakan regresimultivariat. estimasi regresi parametrik memilikikelemahan, yang dengan "bentuk" parametrik sifattertentu dari estimasi yang dihasilkan sudah tersirat.

Teknik nonparametrik memungkinkan diagnosa daridata tanpa pembatasan ini. Namun, ini membutuhkanukuran sampel yang besar dan menyebabkanmasalah dalam visualisasi grafis. Metodesemiparametrik adalah kompromi antara kedua:mereka mendukung pemodelan nonparametrik fiturtertentu dan keuntungan dari kesederhanaan metodeparametrik.

Bacaan lebih lanjut: Härdle W., S. Klinke, dan B. Turlach, Xplore: Sebuah Interaktifstatistik Computing Environment , Springer, New York, 1995.

Moderasi dan Mediasi"Moderasi" adalah sebuah konsepinteraksional. Artinya, variabel moderator"memodifikasi" hubungan antara dua variabellainnya. Sementara "Mediasi" adalah "kausalmodeling" konsep. "Efek" dari satu variabel yang lainadalah "dimediasi" melalui variabel lain. Artinya, tidakada "efek langsung", melainkan "efek tidak langsung."

Diskriminan dan KlasifikasiKlasifikasi atau diskriminasi melibatkan belajar aturandimana pengamatan baru dapat diklasifikasikan kedalam kelas yang telah ditentukan. pendekatan saatini dapat dikelompokkan menjadi tiga helai sejarah:

1 p

1 1 p p

Page 105: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

statistik, pembelajaran mesin dan jaringansaraf. Metode statistik klasik membuat asumsidistribusi. Ada banyak orang lain yang distribusibebas, dan yang membutuhkan beberapa regularisasisehingga aturan berkinerja baik pada data yang takterlihat. bunga baru-baru ini telah difokuskan padakemampuan metode klasifikasi untuk digeneralisasi.

Kita sering perlu untuk mengklasifikasikan individu kedalam dua atau lebih populasi berdasarkan satu setdiamati "diskriminatif" variabel. Metode klasifikasiyang digunakan ketika variabel diskriminatif adalah:

1. kuantitatif dan sekitar terdistribusi normal;2. kuantitatif tapi mungkin tidak normal;3. kategoris; atau4. kombinasi kuantitatif dan kategoris.

Hal ini penting untuk mengetahui kapan danbagaimana menerapkan linear dan analisisdiskriminan kuadratik, analisis tetangga diskriminanterdekat, regresi logistik, pemodelan kategoris,klasifikasi dan regresi pohon, dan analisis clusteruntuk memecahkan masalah klasifikasi. SAS memilikisemua rutinitas Anda perlu untuk penggunaan yangtepat dari klasifikasi ini. topik yang relevan adalah:operasi Matrix, Fisher Discriminant Analysis, Tetanggaterdekat Analisis Diskriminan, Regresi Logistik dankategoris Modeling untuk klasifikasi, dan AnalisisCluster.

Misalnya, dua metode terkait yang distribusi bebasadalah k-tetangga terdekat classifier dan pendekatanestimasi densitas kernel. Dalam kedua metode, adabeberapa masalah penting: pilihan parametersmoothing (s) atau k, dan pilihan metrik ataupemilihan variabel yang tepat. Masalah-masalah inidapat diatasi dengan metode cross-validasi, tapi iniadalah komputasi lambat. Analisis hubungan denganpendekatan jaringan syaraf (LVQ) harusmenghasilkan metode yang lebih cepat.

Bacaan lebih lanjut: Cherkassky V, dan F. Mulier, Belajar dari Data: Konsep, Teori,dan Metode , John Wiley & Sons, 1998. Denison, D., C. Holmes, B. Mallick, dan A.Smith, MetodeBayesian untuk nonlinear Klasifikasi dan Regresi , Wiley, 2002.

Page 106: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Indeks Kesamaan di KlasifikasiDalam banyak ilmu alam, seperti ekologi yang tertarikdalam pengertian kesamaan. Indeks kesamaan inidirancang untuk membandingkan, misalnya,keragaman spesies antara dua sampel ataukomunitas yang berbeda. Membiarkan menjadi jumlahspesies di sample1, b adalah jumlah spesies disample2, dan j adalah jumlah spesies yang umumbaik sampel, kemudian indeks kesamaan banyakdigunakan adalah Indeks Mountford didefinisikansebagai:

I = 2J / [2ab - j (a + b)]

Sebuah agak komputasi yang terlibat untukmenentukan indeks kesamaan (I) adalah karenaFisher, di mana saya adalah solusi untuk persamaanberikut:

e + e = 1 + e

Indeks kesamaan dapat digunakan sebagai "jarak"sehingga jarak minimum sesuai dengan kesamaanmaksimal.

Bacaan lebih lanjut: Hayek L., dan M. Buzas, Survei Alam Populasi , ColumbiaUniversity Press, NY, 1996.

Generalized Linear dan Model LogistikLinear model umum (GLM) mungkin merupakanperkembangan yang paling penting dalam metodologistatistik praktis dalam dua puluh tahunterakhir. Generalized linear model memberikankerangka pemodelan serbaguna di mana fungsi darirespon berarti adalah "terkait" dengan kovariat melaluiprediktor linear dan di mana variabilitas digambarkanoleh distribusi dalam keluarga dispersieksponensial. Model ini meliputi regresi logistik danlog-linear model untuk binomial dan Poissonmenghitung bersama-sama dengan normal, gammadan model Gaussian inverse untuk respon terusmenerus. teknik standar untuk menganalisis datasurvival disensor, seperti regresi Cox, juga dapatditangani dalam kerangka GLM. topik yang relevanadalah: teori normal linear model, Inference dan

aI bI (a + bj) I

Page 107: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

diagnostik untuk GLMS, regresi Binomial, regresiPoisson, Metode untuk menangani overdispersion,Generalized memperkirakan persamaan (Gees).

Hre adalah bagaimana untuk mendapatkan gelar darinomor kebebasan untuk 2 log-kemungkinan, dalamregresi logistik. Derajat kebebasan berhubungandengan dimensi dari vektor parameter untuk modeltertentu. Misalkan kita tahu bahwa ln Model (p / (1-p))= Bo + B1X + B2Y + B3w cocok satu set data. Dalamhal ini vektor B = (Bo, B1, B2, B3) adalah elemen dari4 ruang Euclidean dimensi, atau R .

Misalkan kita ingin menguji hipotesis: Ho: B3 =0. Kami memaksakan pembatasan pada ruangparameter kami. Vektor parameter harus dari bentuk:B '= B = (Bo, B1, B2, 0).Vektor ini merupakan elemendari ruang bagian dari R . Yakni, B4 = 0 atau X-axis. Kemungkinan jatah statistik memiliki bentuk:

2 log-likelihood = 2 log (maksimum dibatasikemungkinan / maksimum dibatasi kemungkinan) = 2 log (maksimum kemungkinan tak terbatas) -2 log(maksimum kemungkinan terbatas)

Yang tidak dibatasi B vektor 4-dimensi atau derajatkebebasan - vektor B dibatasi 3 dimensi atau derajatkebebasan = 1 derajat kebebasan yang merupakanvektor perbedaan: B '' = B-B '= (0,0,0, B4 ) [salah saturuang bagian dimensi R .

Buku teks standar Generalized Linear Models olehMcCullagh dan Nelder (Chapman & Hall, 1989).

LOGISTIC REGRESSION VAR=x /METHOD=ENTER y x1 x2 f1ros f1ach f1grade bylocus byses /CONTRAST (y)=Indicator /contrast (x1)=indicator /contrast (x2)=indicator /CLASSPLOT /CASEWISE OUTLIER(2) /PRINT=GOODFIT /CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .

Lainnya SPSS Perintah:

4

4

4

Page 108: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Loglinear LOGLINEAR,HILOGLINEARLogistic Regression LOGLINEAR,PROBIT

SAS Perintah:

Loglinear CATMOD Logistic Regression LOGISTIC, CATMOD,PROBIT

Bacaan lebih lanjut: Harrell F, Regresi Modeling Strategi: Dengan Aplikasi untukModel Linear, Regresi Logistik, Analisis dan kelangsunganhidup , Springer Verlag, 2001. Hosmer D. Jr, dan S. Lemeshow, Terapan Regresi Logistik ,Wiley, 2000. Katz M. , Analisis multivariabel: Sebuah Panduan Praktis untukDokter , Cambridge University Press, 1999. Kleinbaum D., Regresi Logistik: A Text Self-Learning , SpringerVerlag, 1994. Pampel F., Regresi Logistik: A Primer , Sage, 2000.

Analisis Bertahan HidupAnalisis survival cocok untuk pemeriksaan data dimana hasil dari bunga 'waktu sampai peristiwatertentu terjadi', dan di mana tidak semua individutelah ditindaklanjuti sampai peristiwa itu terjadi. Datasurvival muncul dalam bentuk literal dari percobaanmengenai kondisi yang mengancam jiwa, tetapimetodologi juga dapat diterapkan untuk waktu tunggulain seperti durasi nyeri.

Metode analisis survival berlaku tidak hanya dalamstudi kelangsungan hidup pasien, tetapi jugamempelajari meneliti efek samping dalam uji klinis,waktu untuk penghentian pengobatan, durasi dalamperawatan masyarakat sebelum kembali rawat inap,kontrasepsi dan kesuburan studi dll

Jika Anda pernah menggunakan analisis regresi dataacara longitudinal, Anda mungkin datang melawandua masalah keras:

Sensor : Hampir setiap sampel mengandungbeberapa kasus yang tidak mengalami suatuperistiwa. Jika variabel dependen adalah waktu acara,apa yang Anda lakukan dengan "disensor" kasus?

Page 109: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Tergantung waktu kovariat : Banyak variabelpenjelas (seperti pendapatan atau tekanan darah)perubahan nilai dari waktu ke waktu. Bagaimana Andamenempatkan variabel seperti dalam analisis regresi?

Solusi darurat untuk pertanyaan-pertanyaan ini dapatmenyebabkan bias parah. metode bertahan hidupsecara eksplisit dirancang untuk menanganimenyensor dan kovariat tergantung waktu dengancara statistik yang benar. Awalnya dikembangkan olehbiostatistik, metode ini telah menjadi populer dalamsosiologi, demografi, psikologi, ekonomi, ilmu politik,dan pemasaran.

Pendek, Analisis survival adalah sekelompok metodestatistik untuk analisis dan interpretasi datasurvival. Meskipun analisis survival dapat digunakandalam berbagai macam aplikasi (misalnya asuransi,teknik, dan sosiologi), aplikasi utama adalah untukmenganalisis data uji klinis. Kelangsungan hidup danbahaya fungsi, metode memperkirakan parameter danpengujian hipotesis yang merupakan bagian utamadari analisis data survival. topik utama yang relevandengan analisis data survival adalah: KelangsunganHidup dan bahaya fungsi, Jenis menyensor, Estimasikelangsungan hidup dan bahaya fungsi: Kaplan-Meierdan estimator tabel kehidupan, tabel hidup sederhana,Peto Logrank dengan uji dan bahaya rasio tren dan ujiWilcoxon, (bisa stratified), Wei-Lachin, Perbandinganfungsi survival: logrank The dan Mantel-Haenszel tes,The proporsional bahaya Model: waktu independendan tergantung waktu kovariat, Model regresi logistik,dan Metode untuk menentukan ukuran sampel.

Dalam beberapa tahun terakhir kelangsungan hidupanalisis perangkat lunak yang tersedia di beberapapaket statistik standar telah mengalami peningkatanbesar dalam fungsi, dan tidak lagi terbatas pada triadkurva Kaplan-Meier, tes logrank, dan model Coxsederhana.

Bacaan lebih lanjut: Hosmer D., dan S. Lemeshow, Analisis Kelangsungan HidupTerapan: Regresi Modeling of Time Data Kegiatan , Wiley,1999. Janssen P., J. Swanepoel, dan N. Veraverbeke, prosesKesalahan dimodifikasi bootstrap untuk Kaplan-Meierquantiles, Statistik & Probabilitas Surat , 58, 31-39, 2002. Kleinbaum D., et al. , Analisis Kelangsungan Hidup: A Self-Learning Text , Springer-Verlag, New York, 1996. Lee E., Metode Statistik data Kelangsungan Hidup analisis ,

Page 110: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Wiley, 1992. Therneau T., dan P. Grambsch, Modeling kelangsungan hidupdata: Memperluas Model Cox , Springer 2000. buku inimemberikan pembahasan menyeluruh pada model PHCox. Karena penulis pertama juga penulis dari paketkelangsungan hidup di S-PLUS / R, buku dapat digunakanerat dengan paket selain SAS.

Asosiasi antara Variabel NominalAda banyak langkah-langkah dari hubungan antaradua variabel dikotomis, seperti rasio odds (AD / BC),Yule Q = (AD-BC / AD + BC) yang merupakanpemetaan sederhana dari rasio odds ke [-1,1] ,perbedaan proporsional (memerlukan mengobatisalah satu variabel sebagai "independen" dan yanglain "tergantung"), Cramer V, koefisien kontingensi C,koefisien ragu-ragu, dan risiko relatif. Beberapalangkah-langkah mungkin lebih tepat daripada yanglain untuk situasi tertentu, bagaimanapun, yangdidasarkan pada rasio odds lebih mudah untukmenafsirkan. Odds rasio dapat dianggap sebagai efekdari satu hasil yang lain. Jika kondisi 1 benar, apaefek memiliki pada kemungkinan kondisi 2 menjadibenar? Hampir semua statistik ini dijelaskan dalamResep numerik, Press et al.

Korelasi Spearman, dan Aplikasi tauKendallBagaimana Anda membandingkan nilai dua variabeluntuk menentukan apakah mereka memerintahkansama? Sebagai contoh:

Var1 Var2Obs 1 x xObs 2 y zObs 3 z y

Apakah var1 memerintahkan sama dengan var2? Dualangkah-langkah yang rank agar korelasi Spearman,dan tau Kendall.

Bacaan lebih lanjut: Untuk lebih jelasnya lihat, misalnya, Statistik Fundamentaluntuk Ilmu Perilaku , oleh David C. Howell, Duxbury Pr, 1995..

Page 111: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Tindakan berulang dan DataLongitudinaltindakan berulang dan data longitudinal memerlukanperhatian khusus karena mereka melibatkan datayang biasa muncul ketika unit sampling primer diukurberulang dari waktu ke waktu atau di bawah kondisiyang berbeda berkorelasi. model teori normal untukpercobaan split-plot dan tindakan berulang ANOVAdapat digunakan untuk memperkenalkan konsep databerkorelasi. PROC GLM dan PROC CAMPURANdalam sistem SAS dapat digunakan. model linearcampuran memberikan kerangka umum untukpemodelan struktur kovarians, langkah pertama yangpenting yang mempengaruhi estimasi parameter danuji hipotesis. Tujuan utama adalah untuk menyelidikitren dari waktu ke waktu dan bagaimana merekaberhubungan dengan kelompok perlakuan ataukovariat lainnya. Teknik yang berlaku untuk data non-normal, seperti Uji McNemar untuk data biner,tertimbang kuadrat terkecil untuk data kategorikal, danumum persamaan memperkirakan (GEE) adalah topikutama. Metode GEE dapat digunakan untukmenampung korelasi ketika sarana pada setiap titikwaktu yang dimodelkan menggunakan model linierumum. topik yang relevan adalah: Seimbang split-plotdan pengukuran berulang desain, Pemodelan strukturkovarians dari tindakan berulang, berulang langkah-langkah dengan kali merata spasi dan data yanghilang, tertimbang kuadrat pendekatan untuk datakategorikal diulang, Generalized memperkirakanmetode persamaan (Gee) untuk model marginal,subjek khusus terhadap penduduk rata-ratainterpretasi koefisien regresi, dan pelaksanaanKomputer menggunakan S-plus dan sistemSAS. Berikut ini menjelaskan tes McNemar untuk databiner.

McNemar Perubahan Test: Untuk pertanyaan ya /tidak di bawah dua kondisi, mengatur meja 2x2kontingensi:

f11 f10 F01 F00

Uji McNemar proporsi berkorelasi adalah z = (F01 -f10) / (F01 + f10) .½

Page 112: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Untuk item-item menghasilkan skor pada skala, t-testkonvensional untuk sampel berkorelasi akan sesuai,atau Wilcoxon signed-jajaran tes.

Apa Ulasan Systematic?Pengambil keputusan perawatan kesehatan perlumengakses bukti penelitian untuk membuat keputusanmengenai diagnosis, pengobatan dan manajemenpelayanan kesehatan bagi pasien individu danpopulasi. tinjauan sistematis diakui sebagai salah satualat yang paling berguna dan dapat diandalkan untukmembantu praktek ini perawatan kesehatan berbasisbukti. Kursus ini bertujuan untuk melatih paraprofesional perawatan kesehatan dan peneliti dalamilmu dan metode tinjauan sistematis.

Ada beberapa pertanyaan penting dalam perawatankesehatan yang dapat diinformasikan oleh konsultasihasil dari studi empiris tunggal. ulasan sistematisberusaha untuk memberikan jawaban atas masalahtersebut dengan mengidentifikasi dan menilai semuastudi yang tersedia dalam fokus relevan danmensintesis hasil mereka, semua sesuai denganmetodologi yang eksplisit. Proses peninjauanmenempatkan penekanan khusus pada penilaian danmemaksimalkan nilai data, baik dalam masalahmengurangi bias dan meminimalkan kesalahanacak. Metode review sistematis yang paling cocokditerapkan untuk pertanyaan pengobatan danmanajemen pasien, meskipun juga telah diterapkanuntuk menjawab pertanyaan mengenai nilai dari hasiltes diagnostik, prognosis kemungkinan dan efektivitasbiaya perawatan kesehatan.

Teori informasiteori informasi adalah probabilitas cabang matematikadan statistik yang berhubungan dengan sistemkomunikasi, transmisi data, kriptografi, sinyal untukrasio kebisingan, kompresi data, dll Claude Shannonadalah ayah dari teori informasi. Teorinya dianggaptransmisi informasi sebagai fenomena statistik dan

Page 113: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

memberi insinyur komunikasi cara untuk menentukankapasitas saluran komunikasi tentang mata uangumum bit

Shannon didefinisikan ukuran entropi sebagai:

H = - S p log p ,

bahwa, bila diterapkan ke sumber informasi, bisamenentukan kapasitas saluran yang dibutuhkan untukmengirimkan sumber sebagai angka binerdikodekan. ukuran Shannon entropi diambil sebagaiukuran informasi yang terkandung dalam pesan. Initidak seperti dengan porsi pesan yang ketatditentukan (maka diprediksi) oleh struktur yangmelekat.

Entropi seperti yang didefinisikan oleh Shannonberkaitan erat dengan entropi seperti yangdidefinisikan oleh fisikawan dalam termodinamikastatistik. pekerjaan ini adalah inspirasi untukmengadopsi entropi istilah dalam teoriinformasi. Langkah-langkah lain yang berguna dariinformasi termasuk informasi timbal balik yangmerupakan ukuran korelasi antara dua acaraset. Informasi Reksa didefinisikan untuk dua acara Xdan Y sebagai:

M (X, Y) = H (X, Y) - H (X) - H (Y)

dimana H (X, Y) adalah bergabung entropididefinisikan sebagai:

H (X, Y) = - S p (x , y ) log p (x , y ),

Informasi Reksa adalah terkait erat dengan uji rasiolog-kemungkinan untuk distribusi multinomial, dan ujiChi-square Pearson.

Bidang Ilmu Informasi sejak telah diperluas untukmencakup rentang penuh dari teknik dan deskripsiabstrak untuk penyimpanan, pengambilan danpengiriman informasi.

Insiden dan Prevalensi TarifTingkat kejadian (IR) adalah tingkat di mana peristiwabaru terjadi dalam suatu populasi. Hal ini didefinisikansebagai: Jumlah peristiwa baru dalam jangka waktu

i i

i i i i

Page 114: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

tertentu dibagi dengan Jumlah orang yang terkenarisiko selama periode ini

Tingkat prevalensi (PR) mengukur jumlah kasus yanghadir pada jangka waktu tertentu. Hal ini didefinisikansebagai: Jumlah kasus hadir pada jangka waktutertentu membagi oleh Jumlah orang yang beresikopada waktu yang ditentukan.

Kedua langkah terkait ketika mempertimbangkan rata-rata durasi (D). Artinya, PR = IR. D

Perhatikan bahwa, misalnya, tingkat insiden penyakitcounty-tertentu dapat menjadi tidak stabil karenapopulasi kecil atau tingkat rendah. Dalamepidemiologi dapat dikatakan bahwa IRmencerminkan probabilitas Menjadi tebal di usiatertentu, sedangkan PR mencerminkan probabilitasuntuk Jadilah tebal di usia tertentu.

Topik lainnya dalam epidemiologi klinis termasukpenggunaan kurva Operator penerima, dansensitivitas, spesifisitas, nilai prediktif tes.

Bacaan lebih lanjut: Kleinbaum D., L. Kupper, dan K. Muller, Terapan AnalisisRegresi dan Metode multivariabel lain , Wadsworth PublishingCompany, 1988. Kleinbaum D., et al. , Analisis Kelangsungan Hidup: A TextSelf-Learning , Springer-Verlag , New York, 1996. Miettinen O., Teoritis Epidemiologi , Delmar Publishers, 1986.

Seleksi softwareKetersediaan komputer pribadi, perangkat lunakkomputasi, dan representasi visual data yangmemungkinkan manajer untuk berkonsentrasi padafakta-fakta yang berguna mengungkapkan dariangka. Karena beban komputasi telah dieliminasi,manajer sekarang dapat fokus pada isu-isu probingdan mencari kreatif pengambilan keputusan di bawahketidakpastian. Namun, Anda harus berhati-hati ketikamemilih perangkat lunak statistik. Sebuah daftarpendek item untuk perbandingan adalah:

1) Kemudahan pembelajaran, 2) Jumlah bantuan yang tergabung bagi pengguna, 3) Tingkat pengguna, 4) Jumlah tes dan rutinitas yang terlibat, 5) Kemudahan entri data,

Page 115: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

6) Data validasi (dan jika perlu, penguncian Data dankeamanan), 7) Akurasi dari tes dan rutinitas, 8) analisis data Terpadu (grafik dan pelaporanprogresif pada analisis dalam satu layar), 9) Biaya

Tidak ada perangkat lunak yang memenuhi kebutuhansemua orang. Menentukan kebutuhan pertama dankemudian mengajukan pertanyaan yang relevandengan di atas tujuh kriteria.

Analisis Data SpasialData yang secara geografis atau spasialdireferensikan ditemui dalam berbagai sangat luaskonteks praktis. Dengan cara yang sama bahwa datayang dikumpulkan pada titik-titik yang berbeda dalamwaktu mungkin memerlukan teknik analisis khusus,ada berbagai metode statistik yang ditujukan untukpemodelan dan analisis data yang dikumpulkan diberbagai titik dalam ruang. Peningkatan sektor publikdan pencatatan komersial dan penggunaan data yangbereferensi geografis, kemajuan terbaru dalamhardware dan software komputer yang mampumemanipulasi dan menampilkan hubungan spasialdalam bentuk peta digital, dan kesadaran potensipentingnya hubungan spasial di berbagai bidangpenelitian, telah semua dikombinasikan untukmenghasilkan peningkatan minat dalam analisisspasial. Spasial Analisis Data berkaitan dengan studiteknik seperti --- jenis masalah yang merekadirancang untuk mengatasi, pembenaran teoritismereka, kapan dan bagaimana menggunakannyadalam praktek.

Banyak fenomena alam melibatkan distribusi acakdari titik dalam ruang. Ahli biologi yang mengamatilokasi sel dari jenis tertentu di organ, astronom yangplot posisi bintang-bintang, ahli botani yang mencatatposisi tanaman dari spesies tertentu dan ahli geologimendeteksi distribusi mineral langka di batu semuamengamati spasial pola titik dalam dua atau tigadimensi. Fenomena tersebut dapat dimodelkandengan proses titik spasial.

Page 116: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Model linear spasial merupakan dasar untuk sejumlahteknik yang digunakan dalam pengolahan gambar,misalnya, untuk mencari deposito emas / bijih, ataumembuat peta.Ada banyak masalah yang belumterselesaikan di daerah ini seperti perilaku estimatormaksimum likelihood dan prediktor, dan alatdiagnostik. Ada hubungan yang kuat antara prediktorkriging untuk model dan spline linear metode spasialinterpolasi dan smoothing. Versi dua dimensi darisplines / kriging dapat digunakan untuk membangundeformasi dari pesawat, yang penting kunci dalamanalisis bentuk.

Untuk analisis data auto-berkorelasi spasial di regresilogistik misalnya, salah satu dapat menggunakan satuKoefisien Moran yang tersedia beberapa paketstatistik seperti Spacestat. statistik ini cenderungantara -1 dan +1, meskipun tidak terbatas padakisaran ini. Nilai dekat 1 menunjukkan nilai yang samacenderung mengelompok; nilai dekat -1 menunjukkannilai-nilai yang berbeda cenderungmengelompok; nilai dekat -1 / (n-1) menunjukkan nilai-nilai cenderung tersebar secara acak.

Analisis Jalur batasAnalisis garis batas berurusan denganmengembangkan sintesis analitis hukum real properti,survei tanah prosedur, pengembangan skenario yangmembantu dengan keputusan untuk pengembanganskenario yang paling mungkin dari lokasi batas.

Aplikasi utama dari analisis ini berada di konduktivitaslistrik tanah (EC) yang berasal dari kenyataan bahwapasir memiliki konduktivitas yang rendah, silts memilikikonduktivitas menengah dan tanah liat memilikikonduktivitas yang tinggi. Akibatnya, konduktivitas(diukur pada frekuensi rendah) berkorelasi kuat untukukuran butir tanah dan tekstur.

Analisis garis batas, karena itu, adalah metodemenganalisis hasil dengan data tanah konduktivitaslistrik. Metode ini mengisolasi poin unggul atas untuksetiap tanah rentang EC dan cocok garis non-linearatau persamaan untuk mewakili hasil berkinerja dalamsetiap tanah kisaran EC. Metode ini pisau melalui

Page 117: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

awan data EC / Yield dan menggambarkan hubunganmereka ketika faktor-faktor lainnya dihilangkan ataudikurangi. Batas atas merupakan respon maksimumyang mungkin untuk itu faktor pembatas, (misalnyaEC), dan poin di bawah garis batas mewakili kondisi dimana faktor-faktor lain telah membatasi variabelrespon. Oleh karena itu, kita juga dapat menggunakananalisis garis batas untuk membandingkan tanggapandi antara spesies.

Bacaan lebih lanjut: Kitchen N., K Sudduth, dan S. Drummond, Tanah ListrikKonduktivitas sebagai Tanaman Produktivitas Ukur untukClaypan Tanah, Jurnal Produksi Pertanian , 12 (4), 607-6171999.

Pemodelan GeostatistikThe geostatistik pemodelan menggabungkan teknikberbasis statistik klasik dengan ruang / waktupencitraan. Proses pemodelan mencakup sekelompokkonsep spatiotemporal dan metode yang didasarkanpada analisis data stochastic. Tujuan dari pendekatanpemodelan tersebut adalah untuk memberikanpemahaman yang lebih dalam teori pengetahuansebelum pengembangan model matematikapemetaan ilmiah dan pencitraan melintasi ruang danwaktu. Salah satu pendekatan yang efektif adalahuntuk memberikan wawasan mendasar ke dalampemetaan masalah di mana pengetahuan tentangvariabel alami, bukan variabel itu sendiri, adalah objeklangsung dari studi.Beberapa model terkenal dalamkategori ini meliputi bidang acak spatiotemporalseperti ruang / fraktal waktu dan wavelet yang kasuskhusus dari pemodelan lapangan acak umum.

Bacaan lebih lanjut: Christakos G., modern Spatiotemporal geostatistik , OxfordUniversity Press, 2000.

Box-Cox Daya TransformasiDalam kasus-kasus tertentu distribusi data yang tidaknormal (Gaussian), dan kami berharap untukmenemukan transformasi terbaik dari variabel untukmendapatkan data distribusi Gaussian untukpengolahan statistik lebih lanjut.

Page 118: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Antara lain kekuatan transformasi Box-Cox seringdigunakan untuk tujuan ini.

y = (x - 1) / p, untuk p tidak nol y = log x, untuk p = 0

mencoba nilai yang berbeda dari p antara -3 dan 3biasanya cukup tetapi ada metode MLE untukmemperkirakan terbaik p. Sebuah sumber yang baikdari ini dan metode transformasi lainnya adalah Madansky A., Resep untuk bekerja Statistik ,Springer-Verlag, 1988.

Untuk persentase atau proporsi (seperti untukproporsi binomial), transformasi arcsine akan bekerjalebih baik. Ide asli dari arcsin (p ) adalah untukmembangun varians sebagai sama untuk semuakelompok. Arcsin transformasi berasal analitis menjadivarian-menstabilkan dan normalisasitransformasi. Teorema limit yang sama juga mengarahke akar kuadrat transformasi untuk variabel Poisson(seperti jumlah) dan busur tangen hiperbolik (yaitu,Fisher Z) transform untuk korelasi. The arcsin Ujimenghasilkan az dan tes 2x2 kontingensimenghasilkan chi-sq. Tapi z = chi-sq, untuk ukuransampel yang besar. Sebuah sumber yang baik adalah Rao C., Linear statistik Inference dan Aplikasi Its ,Wiley, 1973.

Cara menormalkan satu set data yang terdiri dari nilai-nilai negatif dan positif, dan membuat mereka positifantara kisaran 0,0-1,0? Mendefinisikan XNew = (X-min) / (max-min).

Box & Cox kekuatan transformasi ini juga sangatefektif untuk berbagai nonnormality:

y (berubah) = y

di mana l rentang (dalam praktek) dari -3,0 ke3,0. Dengan demikian itu termasuk, terbalik, akarkuadrat, logaritma, dll Perhatikan bahwasebagai l mendekati 0, satu mendapatkantransformasi log.

Beberapa Tes Perbandingan

p

½

2

l

Page 119: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Beberapa tes-range Duncan: Ini adalah salah satudari banyak prosedur perbandingan beberapa. Hal inididasarkan pada kisaran statistik standar denganmembandingkan semua pasangan sarana sambilmengontrol kesalahan Tipe I keseluruhan pada tingkatyang diinginkan. Meskipun tidak memberikanperkiraan interval perbedaan antara masing-masingpasangan sarana, namun, itu tidak menunjukkan yangberarti secara signifikan berbeda dari yang lain. Untukmenentukan perbedaan yang signifikanantara kelompok kontrol tunggal berarti dan cara lain,salah satu dapat menggunakan beberapa tes-perbandingan Dunnett ini.

Beberapa prosedur perbandingan mencakup topik-topik seperti Pengendalian tingkat kesalahankeluarga-Wise, Penutupan Prinsip, Keluarga HirarkisHipotesis, Single-Langkah dan Prosedur bertahap,dan Penyesuaian P-nilai. Bidang aplikasi termasukbeberapa perbandingan antara cara pengobatan,beberapa endpoint dalam uji klinis, beberapaperbandingan sub-kelompok, dll

Uji perbandingan berganda Nemenyi adalah analogdengan uji Tukey, menggunakan peringkat jumlah ditempat sarana dan menggunakan [n k (nk + 1) /12] sebagai estimasi standar error (SE), di mana nadalah ukuran masing-masing sampel dan k adalahjumlah sampel (berarti). Demikian pula untuk tesTukey, Anda membandingkan (rank sum A - rank sumB) / SE ke kisaran studentized untuk k. Hal ini jugasetara dengan tes Dunn / Miller yang menggunakanjajaran mean dan standard error [k (nk + 1) / 12] .

Multilevel statistik Modeling: Dua paket perangkatlunak banyak digunakan adalah MLwiN danwinBUGS. Mereka melakukan analisis pemodelanmultilevel dan analisis dataset hirarkis, rantai MarkovMonte Carlo (MCMC) metodologi dan pendekatanBayesian.

Bacaan lebih lanjut: Liao T., statistik Grup Perbandingan , Wiley, 2002.

Modeling Antedependent untukPengukuran Berulang

2

½

½

Page 120: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

tindakan berulang Data timbul ketika pengamatandiambil pada setiap unit percobaan pada sejumlahkesempatan, dan waktu merupakan faktor yangmenarik.

Banyak teknik dapat digunakan untuk menganalisisdata tersebut. pemodelan Antedependence adalahmetode baru dikembangkan yang model korelasiantara observasi pada waktu yang berbeda.

Split-setengah AnalisisApa split-setengah analisis? Membagi sampel Andadalam setengah. Faktor menganalisa setiapsetengah. Apakah mereka keluar sama (atau serupa)sebagai satu sama lain?Atau (atau juga), mengambillebih dari dua 2 sub-sampel acak dari sampel danmelakukan hal yang sama.

Perhatikan bahwa ini adalah (seperti analisis faktor itusendiri) merupakan "eksplorasi", bukan teknikinferensial, yaitu pengujian hipotesis, intervalkepercayaan dll hanya tidak berlaku.

Atau, secara acak membagi sampel dua dankemudian melakukan analisis faktor eksplorasi diContoh 1. Gunakan hasil tersebut untuk melakukananalisis faktor konfirmatori dengan Contoh 2.

Sequential Penerimaan ContohSampling penerimaan adalah prosedur kontrolkualitas yang digunakan saat keputusan tentangpenerimaan batch harus dibuat dari tes dilakukanpada sampel item dari batch.

Sequential sampling penerimaan meminimalkanjumlah item diuji ketika hasil awal menunjukkanbahwa batch jelas memenuhi, atau gagal memenuhi,standar yang dibutuhkan.

Prosedur memiliki keuntungan yang membutuhkanpengamatan lebih sedikit, rata-rata, dari tes sampeltetap untuk tingkat yang sama akurasi.

Pengaruh Lokal

Page 121: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Jarak juru masak mengukur efek menghilangkan satupengamatan pada perkiraan regresi. Hal ini dapatdilihat sebagai memberikan sebuah pengamatan beratbaik nol atau satu: pengaruh lokal memungkinkanberat badan ini menjadi kecil tetapi non-nol.

Masak didefinisikan pengaruh lokal pada tahun 1986,dan membuat beberapa saran tentang caramenggunakan atau menafsirkannya; berbagai sedikitvariasi sudah ditetapkan sejak saat itu. Tapi masalahyang terkait dengan penggunaannya telah ditunjukkanoleh sejumlah pekerja sejak awal.

Analisis VariogramVariabel sering diukur pada lokasi yang berbeda. Poladi variabel-variabel spasial dapat diekstrapolasidengan analisis variogram.

Sebuah variogram merangkum hubungan antaravarians dari perbedaan pasang pengukuran dan jarakyang sesuai poin dari satu sama lain.

Kredit Scoring: Penilaian KreditKonsumenScoring kredit sekarang digunakan secara luas diseluruh industri kredit ritel. Pada sederhana, sebuahscorecard kredit adalah model biasanya statistik,tetapi dalam itu tertanam dalam komputer dan atauproses manusia.

Penilaian yang akurat dari paparan keuangan sangatpenting bagi keberhasilan bisnis terus. Informasi yangakurat, dan dapat digunakan sangat penting untukpenilaian kredit yang baik dalam pengambilankeputusan komersial. Lingkungan kredit konsumendalam keadaan perubahan besar, didorong olehperkembangan teknologi komputer, pelanggan lebihmenuntut, ketersediaan produk baru danmeningkatnya persaingan. Bank dan lembagakeuangan lainnya yang datang untuk mengandalkanlebih banyak dan lebih pada alat matematika danstatistik yang semakin canggih. Alat-alat ini digunakandalam berbagai situasi, termasuk risiko memprediksidefault, memperkirakan kemungkinan profitabilitas,

Page 122: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

deteksi penipuan, segmentasi pasar, dan analisisportofolio. Pasar kartu kredit sebagai contoh, telahmengubah industri perbankan ritel, dan kreditkonsumsi.

Kedua alat, skor perilaku, dan karakteristik data kreditkonsumen biasanya dasar untuk keputusan yangbaik. Alat statistik meliputi regresi linier dan logistik,pemrograman matematika, pohon, metode tetanggaterdekat, model proses stokastik, segmentasi pasarstatistik, dan jaringan saraf. Teknik ini digunakanuntuk menilai dan memprediksi konsumen creditscoring.

Bacaan lebih lanjut: Lewis E., Pengantar Credit Scoring , Adil, Ishak & Co, 1994.Menyediakan pengenalan umum untuk isu-isu membangunsebuah model credit scoring.

Komponen Suku BungaSuku bunga seperti dikutip di surat kabar dan olehbank terdiri dari beberapa komponen. Yang palingpenting Ketiganya adalah:

Tingkat murni: ini adalah nilai waktu dariuang. Sebuah janji 100 unit tahun depan tidak layak100 unit tahun ini.

Faktor harga-premium: Jika harga naik 5% setiaptahun, suku bunga naik minimal 5%. Misalnya, dibawah Administrasi Carter, harga naik sekitar 15% pertahun selama beberapa tahun, bunga sekitar25%. Hal yang sama selama Perang Saudara. Dalamperiode deflasi, harga bisa turun sehingga istilah inibisa negatif.

Faktor risiko: Sebuah obligasi sampah dapatmembayar tarif lebih besar dari catatan treasurykarena kemungkinan kehilangan kepalasekolah. Bank dalam kondisi keuangan yang burukharus membayar tarif lebih tinggi untuk menarikdeposan untuk alasan yang sama. Ancamanpenyitaan oleh pemerintah menyebabkan tingginya dibeberapa negara.

Faktor-faktor lain umumnya kecil. Tentu saja,pelanggan hanya melihat jumlah istilah-istilahini. Komponen-komponen ini berfluktuasi pada tingkat

Page 123: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

yang berbeda sendiri. Hal ini membuat sulit untukmembandingkan suku bunga di seluruh periode waktuyang berbeda atau kondisi ekonomi. Pertanyaanutama adalah: bagaimana komponen ini digabungkanuntuk membentuk indeks? Sebesarsederhana? Sebuah jumlah tertimbang? Dalamkebanyakan kasus indeks adalah membentuk baiksecara empiris dan ditugaskan atas dasar beberapakriteria penting. Hal yang sama berlaku untuk angkaindeks lainnya.

Sebagian Paling Sedikit KotakParsial Least Squares (PLS) regresi adalah teknikanalisis data multivariat yang dapat digunakan untukberhubungan beberapa respon (Y) variabel untukbeberapa penjelas (X) variabel.

Metode ini bertujuan untuk mengidentifikasi faktor-faktor yang mendasari, atau kombinasi linear darivariabel X, model yang terbaik Y variabel tergantung.

Modeling Melengkung PertumbuhanPertumbuhan adalah properti fundamental dari sistembiologi, terjadi pada tingkat populasi, individu hewandan tumbuhan, dan dalam organisme. Banyakpenelitian telah dikhususkan untuk prosespertumbuhan modeling, dan ada banyak cara untukmelakukan hal ini: model mekanistik, time series,persamaan diferensial stokastik dll

Kadang-kadang kita hanya ingin merangkumpengamatan pertumbuhan dalam hal beberapaparameter, mungkin untuk membandingkan individuatau kelompok. Banyak fenomena pertumbuhan dialam menunjukkan "S" berbentuk pola, denganpertumbuhan awalnya lambat mempercepat sebelummelambat mendekati batas.

Pola-pola ini dapat dimodelkan menggunakanbeberapa fungsi matematika seperti logistik umumdan kurva Gompertz.

Jenuh Model & Jenuh Log

Page 124: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

KemungkinanSebuah model jenuh biasanya salah satu yang tidakmemiliki df residual. Apa yang dimaksud dengan"jenuh" log kemungkinan? Jadi "LL jenuh" adalah LLuntuk model jenuh.Hal ini sering digunakan ketikaperbandingan dibuat antara kemungkinan log denganmencegat saja dan log kemungkinan untuk spesifikasimodel khusus.

Pengenalan pola dan KlasifikasiPengenalan pola dan klasifikasi adalah konsep dasaruntuk memahami sistem kehidupan dan penting untukmewujudkan sistem kecerdasan buatan. Aplikasitermasuk 3D modeling, analisis gerak, ekstraksi fitur,perangkat positioning dan kalibrasi, pengakuan fitur,solusi untuk masalah klasifikasi untuk aplikasi industridan medis.

Apa biostatistik?Biostatistik adalah subdiscipline Statistik yangberfokus pada dukungan statistik untuk bidangkedokteran, ilmu lingkungan, kesehatan masyarakat,dan bidang terkait. Praktisi span rentang dari sangatditerapkan untuk sangat teoritis. Informasi yangberguna untuk biostatistician bentang berkisar dariyang dibutuhkan oleh seorang ahli statistik umum,lebih khusus subjek rincian ilmiah, untuk informasibiasa yang akan meningkatkan komunikasi antarabiostatistician dan lainnya ilmuwan dan peneliti.

Kemajuan baru dalam genom manusia menandailangkah besar dalam kemajuan memahamibagaimana tubuh manusia bekerja pada tingkatmolekul. Statistik biomedis mengidentifikasikebutuhan alat statistik komputasi untuk memenuhitantangan penting dalam studi biomedis. Daerah aktifadalah:

Clustering data dimensi yang sangat besarseperti mikro-array.algoritma clustering yang mendukung maknabiologis.model jaringan dan simulasi jalur biologis.

Page 125: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

estimasi jalur dari data.Integrasi multi-format dan multi-tipe data daridatabase heterogen.Informasi dan visualisasi pengetahuan teknikuntuk sistem biologis.

Bacaan lebih lanjut: Kleopas T., A. Zwinderman, dan T. Klopas, Statistik Terapanuntuk Clinical Trials , Kluwer Publishers Akademik, 2002. Zhang W., dan I. Shmulevich, Komputasi dan statistikPendekatan untuk Genomics , Kluwer Academic Publishers,2002.

Statistik BuktiMetode statistik bertujuan untuk menjawab berbagaipertanyaan tentang pengamatan. Contoh sederhanaterjadi ketika tes yang cukup handal untuk kondisi C,telah memberikan hasil yang positif. Tiga jenis pentingdari pertanyaan adalah:

1. Jika pengamatan ini menyebabkan saya untukpercaya bahwa kondisi C hadir? 2. Apakah pengamatan ini membenarkan akting sayasebagai jika kondisi C hadir? 3. Apakah bukti pengamatan ini bahwa kondisi Chadir?

Kita harus membedakan antara tiga pertanyaan inidalam hal variabel dan prinsip-prinsip yangmenentukan jawaban mereka. Pertanyaan dari jenisketiga, tentang "interpretasi bukti" dari data statistik,adalah pusat untuk banyak aplikasi statistik diberbagai bidang.

Hal ini sudah diakui bahwa untuk menjawabpertanyaan bukti metode statistik saat ini cacat seriusyang bisa diperbaiki oleh menerapkan HukumKemungkinan. Hukum ini menunjukkan bagaimanaparadigma statistik yang dominan dapat diubahsehingga menghasilkan metode yang tepat untuktujuan, representasi kuantitatif bukti diwujudkan dalamsatu set khusus dari pengamatan, serta pengukurandan pengendalian probabilitas bahwa penelitian akanmenghasilkan lemah atau menyesatkan bukti.

Bacaan lebih lanjut: Royall R., Bukti statistik: Sebuah Kemungkinan Paradigma ,Chapman & Hall, 1997.

Page 126: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Aplikasi Forensik StatistikKasus berlimpah tentang peran jika bukti dankesimpulan dalam membangun dan mengujiargumentasi dan ini dapat dilihat terbaik di polisi danpelatihan pengacara di mana ada sedikit jika adainstruksi resmi dari elemen struktur dan temporalpenalaran bukti. Namun, sedikit tanda adapendekatan metodologis untuk mengorganisir buktidan berpikir serta kurangnya kesadaran akan manfaatpendekatan tersebut dapat membawa. Selain itu, adasedikit hal untuk cara di mana bukti harus ditemukan,dianalisis dan disajikan sebagai bagian dari rantaiberalasan atau argumen.

Salah satu konsekuensi dari kegagalan untukmengakui keunggulan bahwa pendekatan terorganisirdapat membawa adalah kegagalan kita untukbergerak bukti sebagai suatu disiplin ilmu ke volumeanalisis kasus. Pandangan sepintas dari literaturmengungkapkan bahwa pekerjaan telah berpusatpada berpikir tentang kasus tunggal denganmenggunakan didefinisikan secara sempit pandangandari apa yang melibatkan penalaran bukti. Telah adalebih menekankan pada aturan formal diterimanyadaripada aturan dan prinsip-prinsip pendekatan ilmiahmetodologis.

Sebagai popularitas menggunakan bukti DNAmeningkat, baik masyarakat dan profesional semakinmenganggap itu sebagai kata terakhir pada rasabersalah tersangka atau tidak bersalah. Sebagaiwarga pergi tentang kehidupan sehari-hari mereka,potongan-potongan identitas mereka tersebar dibelakang mereka. Itu bisa karena beberapa kritikusmemperingatkan, satu hari menempatkan orang yangtidak bersalah di tempat kejahatan.

Metode tradisional forensik statistik, misalnya, untuktanggal rekonstruksi wajah kembali ke EraVictoria. kedalaman jaringan data yang dikumpulkandari mayat di sejumlah kecil situs tengara padawajah. Sampel yang kecil, umumnya berjumlahkurang dari sepuluh. Meskipun data ini set telahdiganti baru-baru ini oleh kedalaman jaringandikumpulkan dari hidup menggunakan ultrasound,landmark yang sama dua puluh atau-jadi digunakan

Page 127: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

dan sampel yang masih kecil dan di bawah-perwakilan dari populasi umum. Sejumlah aspekidentitas - seperti usia, tinggi badan, keturunangeografis dan bahkan seks - hanya dapat diperkirakandari tengkorak. Penelitian saat ini diarahkan padapemulihan data kedalaman jaringan Volume dari scanMRI kepala individu yang hidup; dan pengembanganmodel sederhana simulasi interpolasi obesitas,penuaan dan keturunan geografis dalam rekonstruksiwajah.

Bacaan lebih lanjut: Gastwirth J., (Ed.), Statistik Ilmu di Ruang Sidang , SpringerVerlag, 2000.

Statistik SpasialBanyak fenomena alam melibatkan distribusi acakdari titik dalam ruang. Ahli biologi yang mengamatilokasi sel dari jenis tertentu di organ, astronom yangplot posisi bintang-bintang, ahli botani yang mencatatposisi tanaman dari spesies tertentu dan ahli geologimendeteksi distribusi mineral langka di batu semuamengamati spasial pola titik dalam dua atau tigadimensi. Fenomena tersebut dapat dimodelkandengan proses titik spasial.

Bacaan lebih lanjut: Diggle P., Analisis Statistik Spasial Titik Pola , Academic Press,1983. Ripley B., Statistik Tata Ruang , Wiley, 1981.

Apa Apakah Model Black-Sholes?Teori patokan model statistik untuk penentuan hargaopsi derivatif dan evaluasi adalah teori Black-Sholes-Merton (model Black-Sholes adalah kasus khususyang merupakan distribusi membatasi modelbinomial), berdasarkan gerak Brown sebagai proseskebisingan mengemudi untuk harga saham. Dalammodel ini distribusi pengembalian keuangan darisaham dalam portofolio yang multivariat normal. Adaketerbatasan tertentu dalam model ini, yang,misalnya, simetri dan ekor tipis, yang bukanmerupakan karakteristik dari data real. Satu dapatmenggunakan keluarga hiperbolik Barndorff-Nielsenumum, yang meliputi campuran varians-rata normaldaripada normal multivariate murni.

Page 128: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Bacaan lebih lanjut: Clewlow L., dan C. Strickland, Pelaksana Derivatif Model ,John Wiley & Sons, 1998.

Apa Pohon KlasifikasiPada dasarnya untuk setiap variabel, semua nilaidiperiksa dan ukuran kemurnian dihitung, yaitu,longgar jumlah kesalahan klasifikasi diukur. Nilai danvariabel dengan perpecahan termurah dipilih sebagainode. Proses ini kemudian dapat diulang sampaisemua kombinasi yang berbeda dari nilai nilaiindependen telah ditemukan. Sayangnya pohon yangdihasilkan lebih-cocok dengan data, dan tidak akanbervariasi baik untuk set data baru.

Ada beberapa metode untuk memutuskan kapanharus berhenti. Metode yang paling sederhana adalahdengan membagi data menjadi dua sampel. Sebuahpohon dikembangkan dengan satu sampel dan diujidengan yang lain. Tingkat mis-klasifikasi dihitungdengan pas pohon untuk set data uji danmeningkatkan jumlah cabang satu per satu. Sebagaijumlah node yang digunakan mengubah tingkatperubahan mis-klasifikasi. Jumlah node yangmeminimalkan tingkat mis-klasifikasi dipilih.

Alat grafis untuk Klasifikasi Tinggi Dimensi : statistikmetode klasifikasi algoritmik mencakup teknik sepertipohon, hutan, dan jaring saraf. Metode tersebutcenderung untuk berbagi dua ciri-ciri umum. Merekasering dapat memiliki daya prediksi yang jauh lebihbesar daripada metode berbasis model klasik. Danmereka sering begitu rumit untuk membuat penafsiranyang sangat sulit, sering mengakibatkan "kotak hitam"penampilan. Pendekatan alternatif adalahmenggunakan alat bantu grafis untuk memfasilitasiinvestigasi inner pengklasifikasi tersebut. Ageneralisasi dari ide-ide seperti gambar data, danhistogram warna memungkinkan pemeriksaansimultan dari puluhan hingga ratusan variabel dinomor yang sama dari pengamatan. Informasitambahan dapat visual dimasukkan sebagai kelasyang benar, kelas diprediksi, dan casewise variabelpenting.Pilihan hati-hati orderings seberang kasus danvariabel dapat dengan jelas menunjukkan cluster,

Page 129: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

variabel yang tidak relevan atau berlebihan, dan fiturlain dari classifier, yang mengarah ke perbaikansubstansial dalam classifier interpretability.

Berbagai program bervariasi dalam cara merekaberoperasi. Untuk membuat perpecahan, sebagianbesar program menggunakan definisikemurnian. metode yang lebih canggih untukmenemukan aturan berhenti telah dikembangkan dantergantung pada paket perangkat lunak.

Apa Pohon RegresiSebuah pohon regresi adalah seperti pohonklasifikasi, hanya dengan target terus menerusvariabel (dependent). Prediksi nilai target untuk kasustertentu dibuat dengan menetapkan hal untuk node(berdasarkan nilai-nilai untuk variabel prediktor) dankemudian memprediksi nilai kasus sebagai mean darisimpul (kadang-kadang disesuaikan dengan prior,biaya, dll ).

Model berbasis Pohon dikenal juga sebagai partisirekursif telah digunakan di kedua statistik dan mesinbelajar. Sebagian besar aplikasi mereka sampai saatini, bagaimanapun, telah di bidang regresi, klasifikasi,dan estimasi kepadatan.

S-PLUS paket statistik mencakup beberapa fiturbagus seperti regresi non-parametrik dan modelberbasis pohon-.

Bacaan lebih lanjut: Breiman L., J. Friedman, R. Olshen dan C. Stone, Klasifikasidan Pohon Regresi , CRC Press, Inc., Boca Raton, Florida,1984.

Analisis Cluster untuk Variabel KorelasiTujuan dari Cluster sampling biasanya untuk:

ciri kelompok tertentu yang menarik,membandingkan dua atau lebih spesifikkelompok,menemukan pola antara beberapa variabel.

Analisis cluster digunakan untuk mengklasifikasikanpengamatan terhadap satu set variabel. Metode yangdigunakan secara luas Ward cenderung untuk

Page 130: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

menemukan cluster bola dan dapat melakukan burukdengan cluster yang sangat elips yang dihasilkan olehvariabel yang sangat berkorelasi (dalam cluster).

Untuk menghadapi korelasi yang tinggi, beberapametode model berbasis diimplementasikan dalampaket S-Plus. Namun, keterbatasan pendekatanmereka adalah kebutuhan untuk menganggap clustermemiliki distribusi normal multivariat, serta kebutuhanuntuk memutuskan terlebih dahulu apa strukturkovarians kemungkinan dari kelompok ini.

Pilihan lain adalah dengan menggabungkan analisiskomponen utama dengan analisis cluster.

Bacaan lebih lanjut: Baxter M., Analisis Multivariat eksplorasi di Arkeologi , pp 167-170, Edinburgh University Press, Edinburgh, 1994.. Manly F., Metode statistik multivariat: A Primer , Chapman danHall, London, 1986.

Metode penangkapan-RecaptureMetode capture-recapture awalnya dikembangkan dibiologi satwa liar untuk memperkirakan ukuranpopulasi beberapa spesies binatang liar.

Tchebysheff Ketimpangan danPerbaikan ItsKetidaksamaan Tchebysheff ini sering digunakanuntuk menempatkan batas pada probabilitas bahwaproporsi variabel acak X akan berada dalam k > 1standar deviasi dari mu berarti untuk setiap distribusiprobabilitas. Dengan kata lain:

P [| X - m | ³ k s ] £ 1 / k , untuk setiap k > 1

Properti simetris ketimpangan Tchebysheff iniberguna, misalnya, dalam membangun batas kontroladalah proses kontrol kualitas. Namun batas sangatkonservatif karena kurangnya pengetahuan tentangdistribusi yang mendasari. batas ini dapat ditingkatkan(yaitu, menjadi ketat) jika kita memiliki pengetahuantentang distribusi penduduk.Sebagai contoh, jikapopulasi adalah homogen, yang distribusinya adalahunimodal, maka,

P [| X - m | ³ k s ] £ 1 / (2.25k ), untuk k setiap > 1

2

2

Page 131: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Ketimpangan di atas dikenal sebagai ketimpanganCamp-Meidell.

Bacaan lebih lanjut:Efron B., dan R. Tibshirani, SebuahPengantar Bootstrap , Chapman & Hall (sekarang CRC Press),1994. Berisi tes untuk multimodality yang didasarkan padaperkiraan kepadatan kernel Gaussian dan kemudian mengujimultimodality dengan menggunakan jendela ukuranpendekatan. Hibah E., dan R. Leavenworth, statistik Quality Control ,McGraw-Hill, 1996. Ryan T., Metode statistik untuk Peningkatan Mutu , John Wiley& Sons, 2000. sebuah buku yang sangat bagus untukpemula.

Frechet Bounds untuk Variabel AcakDependentBentuk paling sederhana dari batas Frechet untuk duatergantung random variabel A dan B dengan diketahuiprobabilitas marginal P (A), dan P (B), masing-masingadalah:

max [0, P (A) + P (B) - 1] £ P (A dan B) £ min [P (A), P(B)]

Frechet Bounds sering digunakan dalam prosesstokastik dengan efek dependensi, sepertimemperkirakan bagian atas dan / atau batas bawahpada panjang antrian dalam sistem antrian dengandua berbeda tetapi dikenal marginal antar-kedatangankali distribusi dari dua jenis pelanggan.

Analisis Data statistik dalam PeradilanPidanaTopik ini biasanya mengacu pada berbagai statistikyang digunakan dalam sistem peradilanpidana. Misalnya, analisis statistik dari masalahberapa banyak kejahatan narkoba terkait denganmenggunakan database peradilan pidana yangtersedia, dan sumber data lainnya. Masalah utamauntuk statistik adalah untuk mengakses file catatanunit khusus untuk analisis sekunder dan implikasijangka panjang untuk pembuatan kebijakan berbasisbukti. Analisis ini harus dilakukan biasanya dalamsistem peradilan pidana tertentu mempertimbangkankeberadaan keterbatasan seperti norma-norma etikapada rilis data dan undang-undang tentang privasidan kerahasiaan.

Page 132: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Bacaan lebih lanjut: McKean J., dan Bryan Byers, Analisis Data untuk KeadilanPidana dan Kriminologi , Allyn & Bacon, 2000. Walker J., Statistik dalam Peradilan Pidana: Analisis danInterpretasi , Aspen Publishers, Inc., 1999.

Apa Cerdas numerik Komputasi?Ada ada aljabar komputer program perangkat lunakbeberapa di pasar yang memecahkan beberapa jenismasalah numerik, yang tidak dapat diselesaikandengan menggunakan metode numerik biasa. Teknikbanyak digunakan adalah mengubah masalah yangsulit untuk dipecahkan melalui metode biasa, untukmasalah setara tetapi mudah untuk dipecahkan,dengan mendefinisikan fungsi ukuran yang menilaimetode yang cocok untuk setiap jenismasalah. Tujuan dari software ini adalah untukmembuat siswa mampu menggunakan paket ini,daripada menulis program mereka sendiri dalambahasa pemrograman lain.

Rekayasa Perangkat Lunak olehManajemen ProyekSoftware Engineering oleh Teknik Manajemen proyekbertujuan ibukota risiko pada proyek yang akandievaluasi, dan menghitung contingency keuangandiperlukan untuk menutupi risiko-risiko dengan carayang rasional dan dapat dipertahankan untukmembuat perangkat lunak bebas bug dalampendekatan sistematis. Terlalu sering kontingensiproyek guesstimated sebagai "insting" jumlah, tanpabanyak pertimbangan untuk risiko nyata yangterlibat. Teknik ini memungkinkan memperkirakandisiplin, dan menghitung contingency yang dibutuhkandengan metode statistik terbukti terkenal sepertiMonte Carlo eksperimen.

Penjadwalan proyek perangkat lunak dan pelacakanadalah untuk menciptakan jaringan tugas rekayasaperangkat lunak yang akan memungkinkan Andauntuk mendapatkan pekerjaan yang dilakukan tepatwaktu. Setelah jaringan dibuat, Anda harus

Page 133: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

menetapkan tanggung jawab untuk setiap tugas,pastikan itu akan dilakukan, dan beradaptasi jaringansebagai risiko menjadi kenyataan.

Bacaan lebih lanjut: Ricketts I., Mengelola Proyek Anda Software: Panduan AStudent , London, Springer, 1998.

Analisis chi-Square untuk kategorisDikelompokkan dataMisalkan Anda memiliki data ringkasan untuk masing-masing kategori daripada data mentah, dan Andaingin melakukan uji Chi-Square, yaitu ketikaseseorang hanya memiliki data sel, bukan data darimasing-masing individu. Sebagai contoh numerik,pertimbangkan hal berikut kumpulan data:

Kelompok iya nih tak menentu Tidak

1 10 21 23

2 12 15 18

Pertama mungkin membangun sebuah meja kategorisalternatif setara sebagai berikut:

Kelompok Balasan Menghitung

1 Y 10

1 U 21

1 N 23

2 Y 12

2 U 15

2 N 18

Sekarang, berat data dengan jumlah dan kemudianmelakukan analisis Chi-Square.

Bacaan lebih lanjut: Agresti A., kategoris Analisis Data , Wiley, 2002.

Page 134: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Kish R., G. Kalton, S. Heeringa, C. O'Muircheartaigh, dan J.Lepkowski, Makalah Dikumpulkan dari Leslie Kish , Wiley,2002.

Cohen Kappa: Sebuah Tindakan DataKonsistensiCohen kappa mengukur kesepakatan konsistensiinternal didasarkan pada tabel kontingensi. Dalamkonteks ini ukuran perjanjian menilai sejauh mana duapenilai memberikan peringkat yang sama denganobjek yang sama. Himpunan nilai yang mungkin untuksatu penilai membentuk kolom dan set yang samanilai yang mungkin untuk beberapa penilai keduamembentuk baris.

Kappa k = [diamati konkordansi - konkordansi secarakebetulan] / [1- konkordansi secara kebetulan]

Mana "kebetulan" dihitung seperti dalam chi-square:kalikan baris kali marjinal kolom marginal dan dibagidengan n.

Satu dapat menggunakan ukuran ini sebagai alatpengambilan keputusan:

Kappa k Interpretasi

k < 0.00 Miskin

0.00 £ k < 0,20 Sedikit

0,20 £ k < 0,40 Adil

0.40 £ k < 0,60 Moderat

0.60 £ k < 0,80 Besar

0.80 £ k Hampir sempurna

Penafsiran ini diterima secara luas, dan banyak jurnalilmiah secara rutin mempublikasikan makalahmenggunakan interpretasi ini untuk hasil uji hipotesis.

Bacaan lebih lanjut: Looney S., biostatistik Metode ,, Humana Press, 2002. (ed.) Rust R., dan B. Cooil, langkah-langkah Keandalan datakualitatif: Teori dan implikasi, Journal of Marketing Research ,31 (1), 1 -14 1994.

Page 135: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Pemodelan Dependent data kategorisSatu mungkin berlaku model regresi untuk variabeldependen kategori. Namun, karena non-linearities darimodel ini analisis statistik dan interpretasi model inibukanlah tugas yang mudah. masih sulit Pendekatanyang paling premising adalah melalui metode estimasikemungkinan maksimum dalam mengembangkanlogit dan probit model untuk data biner danordinal. Model logit multinomial sering digunakanuntuk data nominal. Sebuah ekstensi pemodelanuntuk data count, termasuk proses pemodelan untukregresi Poisson, regresi binomial negatif, dan nolmodel dimodifikasi.

Bacaan lebih lanjut: Agresti A., Pengantar kategoris Analisis Data , Wiley, 1996.

Deming ParadigmaSementara praktek umum Quality Assurancebertujuan untuk mencegah unit buruk dari yang dikirimmelampaui beberapa proporsi yang diijinkan,Statistical Process Control (SPC) memastikan bahwaunit buruk tidak diciptakan di tempat pertama. filosofipeningkatan kualitas terus menerus, untuk sebagianbesar bertanggung jawab untuk keberhasilanmanufaktur Jepang, berakar pada paradigma sebagaiproses yang berorientasi sebagai fisika, belummenghasilkan lingkungan kerja yang ramah danmemuaskan.

Bacaan lebih lanjut: Thompson J., dan J. Koronacki, Statistical Process Control:The Deming Paradigma and Beyond , CRC Press, 2001.

Keandalan & Diperbaiki SistemKeandalan pemodelan menggunakan penilaiansubjektif untuk membangun model di berbagaitingkatan. Salah satu daerah adalah dalampembangunan distribusi probabilitas gabungan untukseumur hidup dari beberapa potong peralatan, atauuntuk kali gagal karena mode kegagalan yangberbeda dari satu bagian dari peralatan. Ketika adaalasan yang baik untuk percaya distribusi marginal

Page 136: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

diberikan untuk kali kegagalan, masalah memilihdistribusi marjinal adalah setara dengan memilih katakerja penghubung. Dalam situasi lain identifikasi katakerja penghubung saja penting, misalnya dalambersaing risiko di mana kerja penghubung bersama-sama dengan data risiko bersaing memungkinkanidentifikasi distribusi gabungan penuh.

Maksud utama dari rekayasa keandalan adalah untukmeningkatkan kehandalan, dan hampir semua sistemyang menarik bagi insinyur kehandalan dirancanguntuk menjadi diperbaiki, ini adalah konsep keandalanyang paling penting. Hal ini juga yang palingsederhana, kontras, jarak antara statistik urutan kalikegagalan item non-diperbaiki (yaitu, bagian) akhirnyamenjadi stokastik yang lebih besar. Bahkan di bawahsetiap model yang masuk akal secara fisik dariwearout. Apalagi jika bagian diletakkan pada tessecara bersamaan dan dioperasikan terus menerus,jarak antara statistik order, yang kali antarakegagalan, terjadi tepatnya di waktu kalender. Karenawaktu perbaikan non-nol, ini tidak pernah sepenuhnyabenar untuk sistem diperbaiki. Selama sistem adalahnon-diperbaiki, fokus biasanya harus pada fungsibahaya distribusi yang mendasari. Sejalan dengan itu,jika diperbaiki, fokus biasanya harus pada fungsiintensitas proses yang mendasari. Namun, meskipunbahaya dan intensitas fungsi dapat - dan kadang-kadang harus - diwakili oleh fungsi matematika yangsama, perbedaan dalam penafsiran berbeda secarasignifikan.

Bacaan lebih lanjut: Ascher H., dan H. Feingold, diperbaiki Sistem Keandalan:Modeling, Inference, Kesalahpahaman dan Penyebab mereka ,Marcel Dekker, 1984.

Perhitungan Standard SkorDi banyak daerah seperti pendidikan dan psikologi,sering diinginkan untuk mengkonversi nilai tes(disebut skor mentah ) ke nilai standar (nilai dalamsatuan standar) dengan rata-rata yang telahditentukan dan standar deviasi. Hal ini dapat dicapaisebagai berikut:

Page 137: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

di mana m = skor baku berarti

s = skor baku standar deviasi

X = skor baku

m ¢ = rata-rata baru

s ¢ = standar deviasi baru

Misalkan populasi nilai tes psikologis memiliki mean70 dan deviasi standar 8 dan diinginkan untukmengkonversi skor tersebut dengan skor standardengan rata-rata 100 dan deviasi standar 20. Jika 40adalah salah satu nilai baku di populasi, kita dapatmenerapkan persamaan di atas untuk mengubah iniuntuk skor standar dengan mengganti

m = 70, s = 8, X = 40, m ¢ = 100, s ¢ = 20 untukmendapatkan

Quality Function Deployment (QFD)Sejumlah kegiatan harus dilakukan ketika melakukanQFD. Beberapa kegiatan khas terdaftar sebagaiberikut:

1. Menganalisis kebutuhan pelanggan.2. Mengidentifikasi fitur desain.3. Membangun interaksi antara kebutuhan

pelanggan dan fitur desain.4. Melaksanakan benchmarking kompetitif dalam

hal teknis dan / atau pasar.5. Menganalisis hasil dan berasal implikasi.

Sebuah roadmap dengan format dan prosedur yangsering digunakan untuk memandu analis melaluilangkah-langkah dan mencatat hasil yangdiperoleh. roadmap ini disebut worksheet QFD.

Bacaan lebih lanjut: Franceschini F., Kualitas Advanced Function Deployment , StLucie Press, 2002.

Acara Analisis Sejarah

Page 138: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Kadang-kadang data pada waktu yang tepat dariperistiwa tertentu (atau peristiwa) yang tersedia,misalnya pada sekelompok pasien. Contoh peristiwadapat mencakup asma melampirkan; Seranganepilepsi; infeksi miokard; penerimaan rumahsakit. Seringkali, kejadian (dan tidak terjadinya) suatuperistiwa tersedia secara teratur (misalnya, setiaphari) dan data kemudian dapat dianggap sebagaimemiliki struktur pengukuran ulang. Tujuan mungkinuntuk menentukan apakah peristiwa bersamaan ataupengukuran telah mempengaruhi terjadinya peristiwayang menarik. Misalnya, jumlah serbuk sari setiap haridapat mempengaruhi risiko serangan asma; Tekanandarah tinggi dapat melanjutkan infark miokard. Satudapat menggunakan PROC GENMOD tersedia diSAS untuk analisis sejarah acara.

Bacaan lebih lanjut: Brown H., dan R. Prescott, Diterapkan Model Mixed diMedicine , Wiley, 1999.

Analisis FaktorAnalisis faktor adalah teknik untuk reduksi data yaitu,menjelaskan variasi dalam koleksi variabel kontinuoleh sejumlah kecil dari dimensi yang mendasari(disebut faktor).analisis faktor umum juga dapatdigunakan untuk membentuk angka indeks atau nilaifaktor dengan menggunakan korelasi atau matrikskovarians. Masalah utama dengan konsep analisisfaktor adalah bahwa sangat subjektif dalaminterpretasinya hasil.

Bacaan lebih lanjut: Reyment R., dan K. Joreskog, Analisis Faktor Terapan di IlmuPengetahuan Alam , Cambridge University Press, 1996. Inimencakup analisis multivariat dan aplikasi untuk bidanglingkungan seperti kimia, paleoecology, sedimentologi,geologi dan ekologi laut. Tabachick B ., dan L. Fidell, Menggunakan multivariatStatistik , Harper Collins, New York, 1996.

Jenis Kebohongan: Kebohongan, KebohonganDamned dan Statistik

"Ada tiga jenis kebohongan -. Kebohongan,kebohongan, dan statistik" dikutip dalamotobiografinya Mark Twain.

Page 139: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Hal ini sudah fakta yang diterima bahwa "pemikiranstatistik suatu hari akan diperlukan untukkewarganegaraan efisien sebagai kemampuan untukmembaca dan menulis."Namun sering terjadi bahwaorang memanipulasi statistik dalam keuntunganmereka sendiri atau dalam keuntungan dari atasanatau teman mereka.

Berikut ini adalah beberapa contoh bagaimanastatistik bisa disalahgunakan dalam iklan, yang dapatdigambarkan sebagai ilmu menangkap unintelligencemanusia cukup lama untuk mendapatkan uang dariitu. Pendiri Revlon mengatakan "Di pabrik kamimembuat kosmetik;. Di toko kami menjual harapan"

Dalam kebanyakan kasus, penipuan iklan dicapaidengan kelalaian:

1. Luar biasa Ekspansi Toyota: "Bagaimana bisabahwa sebuah mobil yang hanya sembilan incilebih panjang di luar memberikan Anda lebihdari kamar dua kaki lebih di dalam Mungkin ituadalah matematika yang baru?!" Toyota CamryIklan.Dimana kesalahan dalam pernyataanini? Mengambil Volume sebagaipanjang! Sebagai contoh: 3x6x4 = 72 kaki(kubik), 3x6x4.75 = 85,5 kaki (kubik). Ini bisamenjadi lebih dari 2 kaki!

2. Pepsi Cola Iklan .: "Di sisi-by-side tes buta rasabaru-baru ini, secara nasional, banyak oranglebih suka Pepsi lebih Coca-Cola".Pertanyaan adalah, Apakah itu hanya beberapates rasa, apa yang ukuran sampel? Ia tidakmengatakan "Dalam semua terbaru ..."

3. Korelasi? Konsorsium Listrik PerusahaanIklan. "96% dari jalan-jalan di AS di bawah-litdan, apalagi, 88% dari kejahatan berlangsungdi jalan-jalan di bawah-lit".

4. Dependent atau Independent Events? "Jikaprobabilitas seseorang membawa bom dipesawat adalah 001, maka peluang dua orangyang membawa bom adalah 0,000001. Olehkarena itu, saya harus mulai membawa bom disetiap penerbangan."

5. Kekhawatiran karton Kemasan Dewan: "Studi

Page 140: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

University membuktikan kertas karton susumemberi Anda lebih banyak vitamin per galon."Bagaimana desain eksperimen? Dewandisponsori penelitian! penjualan kertas kartonmenurun!

6. Semua vitamin atau hanya satu? "Anda harusmakan empat mangkuk Raisin Bran untukmendapatkan vitamin gizi dalam satu mangkukTotal".

7. Enam Times sebagai Aman: ".. Tahun lalu 35orang tenggelam dalam kecelakaan berperahuHanya 5 mengenakan jaket Sisanya tidakSelalu memakai jaket pelampung saatberperahu.".Berapa persentase pelaut memakaijaket? Apakah probabilitas bersyarat.

8. Sebuah Pajak Akuntan Iklan .: "Salah satupetugas kami akan menemani Anda dalamkasus Audit".Ini terdengar seperti proposisi penjualan yangunik, tetapi menyembunyikan fakta bahwapernyataan itu adalah Hukum AS.

9. Iklan Dunkin Donuts .: "Gratis 3 Muffin ketikaAnda membeli tiga di reguler 1/2 harga lusin."

Ada banyak penyalahgunaan lainnya biasa statistik:metode survei tidak jujur dan / atau bodoh,pertanyaan survei dimuat, grafik dan Picto-gram yangmenekan bahwa yang tidak di "Program bukti," danresponden survei yang autos pilih karena merekamemiliki kapak untuk menggiling tentang masalahini; hal yang sangat menarik, dan, tentu saja, merekamemperkuat bahwa yang data benar-benarmeminimalkan.

Bacaan lebih lanjut: Adams W., Slippery Matematika di PublicAffairs: Harga Tag dan Pertahanan , Dekker. 2002. Memeriksapenggunaan cacat matematika dalam urusan publik melaluikasus aktual bagaimana data matematika dan kesimpulandapat terdistorsi dan disalahpahami untuk mempengaruhiopini publik. Menyoroti bagaimana licin nomor danconlusions matematika dipertanyakan muncul dan apa yangdapat dilakukan untuk melindungi terhadap mereka. Dewdney A., 200% dari Nothing , John Wiley, 1993.Berdasarkan artikel tentang penyalahgunaan matematika diScientific American, Dewdney daftar banyak cara kitadimanipulasi dengan gerak kaki matematika mewah danpemikiran yang salah dalam iklan cetak, berita, laporanperusahaan dan label produk. Dia menunjukkan bagaimanauntuk mendeteksi berbagai pelanggaran matematika dan

Page 141: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

membela terhadap mereka. Baik Ph, dan J. Hardin,. Kesalahan umum dalam Statistik ,Wiley, 2003. Schindley W., The Informed Citizen: Argumen dan Analisis Hariini , Harcourt Brace 1996. retorika ini / pembacamengeksplorasi studi dan praktek menulis prosaargumentatif. Fokusnya adalah pada mengeksplorasi isu-isudi masyarakat, dari ruang kelas ke dunia maya. The"berinteraksi dalam komunitas" tema dan bacaan-bungatinggi melibatkan siswa, sambil membantu merekamengembangkan opini informasi, argumen yang efektif, danmenulis dipoles. Spirer H., L. Spirer, dan A. Jaffe, Statistik disalahgunakan ,Dekker, 1998. menggambarkan statistik disalahgunakandengan terdokumentasi dengan baik, contoh-contoh nyatayang diambil dari berbagai daerah, kebijakan publik, danbisnis dan ekonomi.

Entropi UkurKoefisien ketidaksetaraan digunakan dalam bisnis,ekonomi, dan pengolahan informasi yang dianalisisuntuk menjelaskan kesenjangan ekonomi di seluruhdunia. Variabilitas dari data kategori diukur denganfungsi Shannon-entropi:E = - S p Ln (p )

mana, jumlah lebih dari semua kategori dan p adalahfrekuensi relatif dari i kategori. Ini merupakanukuran kuantitatif ketidakpastian terkait denganp. Sangat menarik untuk dicatat bahwa jumlah inidimaksimalkan ketika semua p 's, adalah sama.

Untuk tabel kontingensi RXC itu adalah E = S S p ln(p ) - S ( S p ) ln ( S (p ) - S ( S p ) ln ( S (p )

Jumlah yang lebih semua i dan j, dan j dan i.

Langkah lainnya adalah jarak Kullback-Liebler (terkaitdengan teori informasi):

S ((P - Q ) * log (P / Q )) = S (P * log (P / Q )) + S (Q * log (Q / P ))

atau jarak variasi

S (| P - Q |) / 2

dimana P dan Q adalah probabilitas untuk kategorike-i untuk dua populasi.

Bacaan lebih lanjut: Kesavan H., dan J. Kapur, Entropi Optimization Prinsip denganAplikasi , Academic Press, New York, 1992.

i i

ith

i

ij

ij ij ij ij ij

i i i i

i i i i i i

i i

i i

Page 142: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Jaminan: Perencanaan statistik danAnalisisDi hari ini pasar global, garansi telah menjadikomponen yang semakin penting dari paket produkdan paling konsumen dan industri produk yang dijualdengan garansi. garansi melayani berbagai tujuan. Inimemberikan perlindungan untuk kedua pembeli danprodusen. Untuk produsen, garansi juga berfungsiuntuk menyampaikan informasi tentang kualitasproduk, dan, dengan demikian, dapat digunakansebagai alat pemasaran yang sangat efektif.Keputusan garansi melibatkan kedua pertimbanganteknis dan komersial. Karena konsekuensi keuanganyang mungkin timbul dari keputusan ini, manajemengaransi efektif adalah penting untuk keberhasilankeuangan perusahaan manufaktur. Ini mengharuskanmanajemen di semua tingkat menyadari konsep,peran, penggunaan dan biaya dan desain implikasigaransi. Tujuannya adalah untuk memahami konsepgaransi dan penggunaannya; alternatif kebijakangaransi; perspektif konsumen / produsen dengansalam jaminan; aspek komersial / teknis garansi daninteraksi mereka; manajemen garansistrategis; metode untuk biaya garansiprediksi; administrasi garansi.

Bacaan lebih lanjut: Brennan J., Jaminan: Perencanaan, Analisis, danImplementasi , McGraw Hill, 1994.

Pengujian NormalitasTes standar untuk normalitas adalah Kolmogrov-Smirinov-Lilliefors(http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/Normality.htm) statistik. Sebuahhistogram dan normal probability plot yang juga akanmembantu Anda membedakan antara keberangkatansistematis dari normalitas ketika itu muncul sebagaikurva.Kolmogrov-Smirinov-Lilliefors Test: Tes ini merupakankasus khusus dari Kolmogorov-Smirnov tes kebaikan-of-fit normalitas distribusi penduduk. Dalammenerapkan Lilliefors menguji perbandingan dibuatantara fungsi distribusi kumulatif normal baku, danfungsi distribusi kumulatif sampel dengan variabel

Page 143: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

acak standar. Jika ada kesepakatan erat antara keduadistribusi kumulatif, hipotesis bahwa sampel yangdiambil dari populasi dengan fungsi distribusi normaldidukung. Namun, jika ada perbedaan antara duafungsi distribusi kumulatif terlalu besar untuk dikaitkandengan kebetulan saja, maka hipotesis ditolak.

Perbedaan antara dua fungsi distribusi kumulatifdiukur dengan statistik D, yang merupakan jarakvertikal terbesar antara dua fungsi.

Tes lain yang banyak digunakan untuk normalitasadalah statistik Jarque-Bera, yang didasarkan padanilai-nilai skewness dan kurtosis data sampel. Untuk nbesar, (katakanlah, lebih dari 30) di bawah kondisinormal yang Jarque-Bera statistik:

n {Skewness /6 + ((Kurtosis - 3) ) / 24)}

n {S / (6S ) + [S / (S -3)] /24}

mengikuti distribusi chi-square dengan df = 2, dimana:

S = S (x - ) / (n - 1),

S = S (x - ) / (n - 1), dan

S = S (x - ) / (n - 1).

Tes di atas didasarkan pada kedua skewness dankurtosis statistik, uji alternatif berikut ini menggunakanstatistik kurtosis hanya:

Membiarkan

C = {Kurtosis - 3 (n-1) / (n + 1)} / {24n (n-2) (n-3) / [(n+ 1) (n + 3) (n + 5) ]}

C = {6 (n - 5n + 2) / [(n + 7) (n + 9)]} {6 (n + 3) (n +5) / [n (n-2) (n 3)]}

C = 6 + (8 / C ) {2 / C + (1 + 4 / C ) }

Kemudian statistik:

Z = [1-2 / 9C - {(1-2 / C ) / (1 + C {2 /(C -4)} } ] / [2 / 9C ] ,

mengikuti distribusi normal standar.

2 2

3 2

2 3

4 2 2 2

2 i2

3 i3

4 i4

32 1/2

22

1/2

1 2 2 21/2

1 1 3

11/2 1/3

11/2

Page 144: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

Sebagai metode lain, satu dapat menggunakanstatistik:

Z = (n + 2) ( F -3) /3.54

yang memiliki densitas normal standar di bawahhipotesis nol. Dimana

F = 13,29 Ln (s / t )

di mana s adalah standar deviasi dan / t adalah berartipenyimpangan absolut dari .

Anda mungkin ingin menggunakan terkenal Lillieforsuji normalitas(http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/Normality.htm) untuk menilaikebaikan-of-fit.

Bacaan lebih lanjut Bonett D., dan E. Seierb, A uji normalitas dengan kekuatanseragam tinggi, Komputasi Statistik & Analisis Data , 40, 435-445, 2002. Chen G., et al, inferensi statistik pada membandingkan duafungsi distribusi dengan mungkin titikpersimpangan, Statistik & Probabilitas Surat , 60, 329-341,2002. Gujarati D., Dasar Ekonometrika , McGraw Hill, 2002. Thode T., Pengujian untuk Normalitas , Marcel Dekker, Inc.,2001. Berisi tes utama untuk univariat dan multivariatnormalitas.

Directional (yaitu, melingkar) AnalisisDataAnalisis data directional juga disebut data melingkar,adalah data yang diukur pada skala berulang,misalnya kompas atau jam. Mereka digunakan dalamberbagai bidang - lingkungan dan geo-science, biologidan kedokteran, analisis militer, untuk menyebutkanbeberapa. alat statistik standar tidak berguna untukdata seperti - misalnya, "jarak" antara 340 dan 20derajat sudut lebih sering dianggap sebagai 40derajat, yang bertentangan dengan 320 derajatperhitungan standar akan menghasilkan. Inimencakup alat eksplorasi dan inferensial untukmenganalisa data tersebut menggunakanpengalaman software statistik. aplikasi utamanyaadalah dalam ilmu Lingkungan untuk menganalisisdata directional, propagasi dan homing pola, sudutmenghilang, arah angin, peneliti industri dan insinyurberkualitas, ketidakseimbangan roda, merancang dan

F1/2

Page 145: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data

© 2016 Electrim Technologies Corp. All rights reserved.ChameleonJohn is a registered trademark of Electrim Technologies Corp.

(http://www.dmca.com/Protection/Status.aspx?ID=b70138a9-74b3-40de-9d9c-062bae9df8f5)

About (http://www.chameleonjohn.com/about) Hiring (http://www.chameleonjohn.com/we-are-hiring)Donations (http://www.chameleonjohn.com/donations) Black Friday 2016 (http://www.chameleonjohn.com/black-friday)Blog (http://www.chameleonjohn.com/blog) Terms & Conditions (http://www.chameleonjohn.com/terms-and-conditions)Privacy Policy (http://www.chameleonjohn.com/privacy-policy) Contact Us

menilai kurva di jalan dan rel, analis militer, pelacakanarah pesawat, arah homing sinyal, menargetkankinerja, ahli biologi dan peneliti medis, data yang ritmesirkadian.

Bacaan lebih lanjut Arsham H., p-value Kuiper sebagai alat ukur dan prosedurkeputusan untuk kebaikan-of-fit tes, Journal of AppliedStatistics , 15 (3), 131-135, 1988.

Hak Cipta Pernyataan: The adil digunakan, menurut1996 Pedoman Fair Use untuk Pendidikan Multimedia(http://www.adec.edu/admin/papers/fair10-17.html) ,dari materi yang disampaikan di situs Web inidiperbolehkan untuk tujuan non-komersial dan kelassaja. Situs ini mungkin mencerminkan utuh (termasukpemberitahuan ini), pada server dengan aksespublik. Semua file yang tersediadi http://home.ubalt.edu/ntsbarsh/Business-stat(http://home.ubalt.edu/ntsbarsh/Business-stat) untukmirroring.

Mohon kirim email kepada(mailto:[email protected]) saya komentar, saran,dan kekhawatiran. Terima kasih.

Source: http://home.ubalt.edu/ntsbarsh/Business-stat/stat-data/Topics.htm(http://home.ubalt.edu/ntsbarsh/Business-stat/stat-data/Topics.htm)

Page 146: Topik dalam Analisis Data statistik: Mengungkap Fakta Dari data