l1_0_3_stat_analiza_podataka

Upload: mirnes-mesic

Post on 08-Mar-2016

221 views

Category:

Documents


0 download

DESCRIPTION

tre

TRANSCRIPT

  • Statistika analiza eksperimentalnih podatakaSrednja vrijednost, Standardna devijacijaHistogram podatakaCL-Teorem -Greka srednje vrijednosti Intervali pouzdanosti

  • *To je najpopularnija i korisna mjera centra. Aritmetika Sredina

  • *Aritmetika sredinauzorkaAritmetika sredinapopulacije

    Veliina uzorkaVeliina populacije Aritmetika Sredina

  • *Deset studenata su od 20 moguih na ispitu ostvarili sljedei rezultat: 9,10,12,13,15,15,15,16,18,19. Rjeenje

    Primjer 1 Aritmetika Sredina

  • *Osobine Aritmetike Sredine, Aritmetika sredina - je vrlo osjetljiva na ekstremne vrijednosti, stoga, ne bi trebala biti koritena kada vie ekstremnih vrijednosti stri van veine prisutnih vrijednosti. Aritmetika sredina se koristi u veini statistikih analiza.

  • *Mjere VarijacijeMjere centra ne opisuju u potpunosti set podataka.Neka pitanja ostaju nerazjanjena:Koliko se vrijednosti datog seta podataka rasturaju u odnosu na aritmetiku sredinu?

  • *Razmotrimo dva seta eksperimentalnihpodataka:Aritmetika sredina dobro reprezentuje vrijednosti seta podataka.Set 1: Mala VarijacijaZato trebamo mjere Varijacije?

  • *Zato trebamo mjere Varijacije?Set 1: Mala varijacijaSet 2: Vea VarijacijaAritmetika sredina ista kao prije ali ne reprezentuje set podataka dobro kao ranije.

    Aritmetika sredina dobro reprezentuje vrijednosti seta podataka.

    Razmotrimo dva seta eksperimentalnihpodataka:

  • *Razmotrimo dvije male populacije:1098741011121316 8-10= -2 9-10= -111-10= +112-10= +2 4-10 = - 6 7-10 = -313-10 = +316-10 = +6Aritmetika sredina obje populacije je 10...mjerenja u B su vie rasprena nego ona u A.Mjera rasprenosti bi se trebala slagati sa navedenim zapaanjem.Moe li suma odstupanja od aritmetike sredine biti dobra mjera rasprenosti?AB Suma odstupanja

  • *131325ABSumaA > SumaB.? Suma kvadratnih odstupanjaset B je vie raspren

  • *131325ABKada se u mjeru uzme i broj podataka, rezultat je saglasan zapaanjusA2 = SumaA/N = 10/10 = 1sB2 = SumaB/N = 8/2 = 4 Varijansa

  • *Standardna devijacija seta eksperimentalnih mjerenja je kvadratni korijen od varijanse. Standardna Devijacija

  • Central Limit TeoremAko se eksperiment ponoviti vie puta pod istim uslovima dobija se niz mjernih rezultata: x1, x2, ... , xn jedne te iste veliine, ija stvarna vrednost nije poznata. Prilikom svakog merenja uinjena je GREKA:

    Ako se sve greke sumiraju stavarna vrijednost moe se zapisati kao:Prvi lan jednaine je aritmetika sredina x svih mjerenja, a drugi lan je greka srednje vrijednosti.

    *

  • Central Limit Teorem

    Greka srednje vrijednosti moe dovesti u vezu sa standarnom devijacijom populacije i prethodna jednaina * postaje:

    Greka srednje vrednosti daje nam interval oko srednje vrijednosti mjerenja u kojem lei stvarna vrijednost mjerene veliine sa odreenom verovatnoom.Greka srednje vrednosti za s =10 u funkciji broja mjerenja

  • Koliko puta eksperiment treba ponoviti da bi rezultat bio taniji ?

    Idealno bi bilo eksperiment ponoviti beskonaan broj puta. Greka srednje vrijednosti tei nuli za beskonaan broj mjerenja. Iz praktinih razloga broj mjerenja je ogranien pa su:

    Pokazatelji kao to su Srednja vrijednost i Standardna devijacija izraunate na bazi uzorka su samo PROCJENE srednje vrijednosti i standardne devijacije populacije () i ()Postavlja se pitanje: Koja je pouzdanost procjene stvarne (tane) vrijednosti mjerenja?

  • Relativna frekvencijaAko se u toku eksperimenta rezultat xi pojavio fi puta, gde je i = 1, 2, ... , n , tada je:Gdje je fi/n relativna frekvencija pojave rezultata xiAko se, dalje, pretpostavi da se sve vrijednosti veliine x u intervalugdje je x proizvoljno odabrani i dovoljno mali interval, javljaju sa frekvencijom fi, odnosno relativnom frekvencijom fi /n, dobija sehistogram:

  • HistogramPrema teoriji vjerovatnoe, relativna frekvencija fi /n rezultata xi interpretira se kao vjerovatnoa njegove pojave na intervalu x,Gdje je:Gustoa vjerovatnoe

  • Kontinuirana kriva f-e gustoe raspodjeleZa poveani broj mjernih rezultata, tj. za n , interval x 0, te seumjesto histograma dobija kontinualna kriva raspodele gustine verovatnoe (x).

    VJEROVATNOA da e stvarna vrijednost x biti u intervalu x1 do x2 jednaka je povrini ispod krive (x) na tom intervalu:

  • Normalna RaspodjelaJedna od kljunih osobina normalne raspodjele je VEZA oblika krive i standardne devijacije ().Ako uzorak mjerenja ima normalnu raspodjelu vrijedi empirijsko pravilo za standardnu devijaciju gdje interval:

  • Pouzdanost procjene tane vrijenosti vezana za koncept Vjerovatnoe

    Rezultat mjerenja sa grekom srednje vrijednsti:

    Gore navedena jednakost vrijedi za P=68,3% (vjerovatnoca da ce se stvarna vrijednost mjerenja x nalaziti u podrucju pouzdanosti P=0,683) te uz pretpostavke: da se raspodjela slucajnih gresaka pokorava normalnoj raspodjeli i da je broj ponovljenih mjerenja n dovoljno velik (n = 25-30 i vie).

    Pouzdanost procjene zavisi od broja mjerenja, i kvantificira se koristei statistike INTERVALE POUZDANOSTI

  • Dobijeni rezultat je definitivan jedino u slucaju odsustva sistemskih gresaka?Potpuna eliminacija sistematskih gresaka u mjernoj tehnici je tesko izvodiva jer koliko god pazljivo bile otkrivane, gotovo uvijek preostaju takve sistematske greske koje se ne mogu utvrditi. Te neobuhvacene (preostale, nepoznate) sistemske greske uzrokuju da je konacan rezultat ponovljenih mjerenja nesigurniji nego sto to izrazava prethodna jednaina. Prosirenje granica pouzdanosti srednje vrijednosti procjenjuje se velicinom E, pa je:

  • Izmjerena, Stvarna vrijednost i Greka mjerenja

  • Interval PouzdanostiProcjena granica grekeStatistika Uzorka [ ___ X ___ ]FaktorPouzdanostiMjera VarijacijeNajee se izraunavaju 95% CI za parametre (a rijetko 90 ili 99%)Tehniki: Postoji 95% Vjerovatnoe da metod izraunavanja koji smo koristili za CI daje taan rezultat (rezultat - interval koji ukljuuje tanu vrijednost mjerenja)

  • Faktor pouzdanostiFaktor pouzdanosti zavisi od:- zahtijevane vjerovatnoe (obino 95%) i - broja mjerenja

    Definisan je studentovom (t) raspodjelom:

    Interval pouzdanosti za arimetiku sredinu u tom sluaju je definisan:

    ili

  • Interval pouzdanosti za Srednju Vrijednost( Nepoznato najei sluaj)U veini sluajeva Standardna devijacija Populacije nije poznata, pa se koristi procjena na bazi standardne devijacije uzorka (s) i CLT. Faktor pouzdanosti zavisi od zahtijevane vjerovatnoe (obino 95%) i od broja mjerenja i definisan je studentovom (t) raspodjelom:

    Interval pouzdanosti u tom sluaju je:

    ili

  • dodatakStudentova Raspodjela

  • ta je t-raspodjela?t-raspodjela je familija raspodjela sa jednim parametrom (Stepenom slobode ili df, gdje je df=VELIINA UZORKA -1)Slina je po obliku Normalnoj raspodjeli (simetrina i zvonasta) premda je ira i ravnija.to je manja veliina uzorka to je raspodjela ravnijata e se desiti sa C Intervalom kako se poveava broj mjerenja (uzoraka) ?

  • Izabrane t-vrijednostiHere are values from the t-distribution for various sample sizes (for 95% confidence intervals)

    ta se deava sa t vrijednou kako raste broj uzoraka?t-raspodjelasa 4 d.f.(n=5)

    Sample Size

    t-value (.025)

    5

    2.78

    10

    2.26

    20

    2.09

    30

    2.05

    100

    1.98

    1000

    1.96

  • Pitanja????

    Aritmetika srednia se koristi u kombinaciji sa standardnom devijacijomDijagram na slici gore prikazuje i to koliko u praksi nema smisla povecavati broj mjerenja. Uz pretpostavku da je s=const, pomocu izraza (10.9) moze se pokazati da povecanje n od n=l do n=10 daje odnos C /C =3,16. Za isti odnos smanji se nepouzdanost i u slucaju ako se n poveca od 10 na 100, tj. C10 /C100 =3,16. Ovo je jedan od razloga zasto se u praksi rijetko izvodi vise od 10 mjerenja (izuzetak su najpreciznija mjerenja vrhunske metrologije). Drugi razlog je taj sto se povecanjem broja n preko odredene granice ne moze bitno smanjiti mjerna nesigurnost srednje vrijednosti, jer se ne mogu izbjeci preostale sistematske greske.

    Refer back to the combination of distributions (additive nature of) from Earl example, Where does the variation really exist???Sigma is the average spread around the meanIt can also be considered the average distance of the data from the mean??This is what we mean by a x sigma process,Rezultat ponovljenih mjerenja neke fizikalne vclicine moze sc izraziti pomocu nepouzdanosti srednje vrijednosti C jedino u slucaju ako je sigurno da su pri obradi mjernih rezultata uzete u obzir sve sistematske greske. Drugim rijecima, primjena pojma nepouzdanost pretpostavlja da na rasipanje izmjerenih vrijednosti oko srednje vrijednosti uticu iskljuivo slucajne greske koje se pokoravaju zakonu normalne raspodjele. Jedino se uz tu pretpostavku konacan rezultat mjerenja moze izraziti u obliku xsr+-C

    C+E mjerna nesigurnostRezultati mjerenja (i u mainstvu) ukoliko nema specijalnih uzroka sistemskog odstupanja su NORMALNO RASPOREENIMore technical nits (instructor FYI):We use probabilities to calculate the confidence intervals, however once weve collected our sample of data, the interval either does contain the true parameter or it does not. In reality, well never know whether our sample was one of the 95% that actually contained the true parameter, or one of the unlucky 5% that did not. It is NOT technically correct to say there is a .95 probability that a particular interval contains the true parameter. We say were 95% confident because CONFIDENCE is tied to the strategy we used to calculate the interval. The method we use for calculating the interval will yield correct results 95% of the time. You might put the card you drew back into the deck, without ever showing it to the class, and ask them Now how confident are you? Did your confidence change? (no, we are still 75% confident that the card was not a heart, however in reality, well never really know. Just like real life. It either was a heart or it wasnt)

    The margin of error gives bounds on how accurate we believe our estimate is, based on variability.This is the most common case.This is the most common case.What happens to the confidence interval? (gets wider)Why do you think this happens? (to account for more uncertainty because we are estimating the standard deviation from our sample data)

    Have the class look at a t-table.What do you notice as the sample size increases? What is the t-value for an infinite sample size? (the t-value approaches the z-value; i.e., the bigger the sample size, the less uncertainty.)