programy hodowlane i pakiety statystyczne
DESCRIPTION
Programy hodowlane i pakiety statystyczne. dr Tomasz Strabel /programy/ dr Maciej Szydłowski /pakiety/. regulamin + program. http://jay.au.poznan.pl/~strabel. Plan na dziś. Przypomnienie paru terminów i metod statystycznych Podstawy pracy z pakietem Statistica Zadania ćwiczeniowe. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/1.jpg)
Programy hodowlane i pakiety statystyczne
dr Tomasz Strabel /programy/dr Maciej Szydłowski /pakiety/
http://jay.au.poznan.pl/~strabelregulamin + program
![Page 2: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/2.jpg)
Plan na dziś
1. Przypomnienie paru terminów i metod statystycznych
2. Podstawy pracy z pakietem Statistica
3. Zadania ćwiczeniowe
![Page 3: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/3.jpg)
Gdzie szukać danych?
•http://lib.stat.cmu.edu/datasets
•http/support.sas.com/training/forms/hecftp1.html
•http://www.amstat.org/publications/jse/datasets/moore/
•dane w pakiecie R
![Page 4: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/4.jpg)
Relacje między zmiennymi
• Niezależnie od tego, jakiego są typu, dwie lub więcej zmiennych pozostaje w relacji, jeśli wartości tych zmiennych w mierzonej próbie rozłożone są w określony sposób.
• Np. rasa może być powiązana z przyrostami, jeżeli większość osobników pbz przyrosta szybciej niż w rasie wpb.
![Page 5: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/5.jpg)
Dwie podstawowe cechy relacji
• Siła – np. jeśli każdy osobnik w rasie pbz ma większy przyrost niż osobnik wbp, siła relacji jest bardzo duża.
• Wiarygodność - reprezentatywność relacji obserwowanej w pobranej próbce w odniesieniu do całej badanej populacji (wyrażana poziomem istotności).
![Page 6: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/6.jpg)
Wspólna postać większości testów statystycznych.
• Najczęściej jest to stosunek tej części zmienności, którą można przypisać testowanemu czynnikowi do zmienności ogólnej (lub pozostałej)
• Np. wariancja spowodowana wpływem rasy do pozostałej wariancji.
• Jak duży to musi stosunek, żeby uznać go za istotny?
![Page 7: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/7.jpg)
Czy 40% wyjaśnionej zmienności jest
wystarczające do uznania relacji za istotną?
• Na podstawie bardzo licznej próbki nawet bardzo słaba zależność może być uznana za istotną.
• Małe próbki nie pozwalają na ocenę wiarygodności nawet bardzo silnych zależności.
• Czy coś jest istotne czy nie, zależy od poziomu istotności.
![Page 8: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/8.jpg)
Poziom istotności
• Prawdopodobieństwo popełnienia błędu polegającego na tym, że przyjmujemy uzyskany rezultat jako prawdziwy, tj. reprezentatywny dla populacji.
• Malejący wskaźnik wiarygodności rezultatu.
• Im wyższy poziom-p, tym mniej możemy być pewni, że relacja obserwowana w próbce jest wiarygodnym wskaźnikiem relacji w całej populacji.
![Page 9: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/9.jpg)
Jaki wynik jest istotny?
• Graniczny poziom istotności jest sprawą umowną
• Utrwalona tradycja:– p Ł 0.05 – wynik statystycznie istotny– p Ł 0.01 – wynik wysoce istotny
![Page 10: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/10.jpg)
Jak wyliczyć poziom istotności?
• Obliczenia są złożone i różne w różnych przypadkach.
• Na szczęście wiele statystyk testowych jest związana z funkcją rozkładu normalnego.
• Testy oparte na rozkładzie normalnym to t, F i Chi-kwadrat. Zazwyczaj wymagają, żeby same badane zmienne (lub reszty) miały rozkład normalny (założenie o normalności).
![Page 11: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/11.jpg)
Rozkład normalny
• Ma kształt dzwonu i zależy od średniej i odch. stand.
• 68% przypadków trafia do przedziału odejmującego ±1 odch. stand. od średniej
• 95% przypadków w przedziale ±2 odch. stand.
![Page 12: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/12.jpg)
Jak stwierdzić czy rozkład jest normalny?
• Wykresy normalności• Testy normalności
![Page 13: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/13.jpg)
Wykres normalności
• Przedstawia reszty obserwowane (oś x) oraz reszty oczekiwane przy normalności rozkładu (oś y).
• W przypadku normalności rozkładu zmiennej wykres ma formę linii prostej.
![Page 14: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/14.jpg)
Testy normalności
• Test Kołmogorowa-Smirnowa (znana średnia i wariancja)
• Prawdpodobieńswo Lillieforsa (gdy średnie i wariancja są estymowane z danych – najczęstszy przypadek)
• Test W Shapiro Wilka – najlepszy test (w Statistica do 5000 obserwacji)
![Page 15: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/15.jpg)
Co, jeżeli zmienna nie ma rozkładu normalnego?
• Transformacja danych
• Testy niezależne od rozkładu (nie parametryczne) – mają małą moc!
• Mimo wszystko stosujemy test wymagający normalności, pod warunkiem, że dysponujemy dostatecznie liczną próbką. Dlaczego?
![Page 16: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/16.jpg)
Centralne twierdzenie graniczne
Im większa próba, tym bardziej rozkład statystyki testowej z próby zbliża się do rozkładu normalnego, nawet jeśli zmienna, którą mierzymy, nie posiada rozkładu normalnego.
![Page 17: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/17.jpg)
Jeszcze jeden powód popularności testów opartch
na rozkładzie normalnym
Na ogół, konsekwencje złamania założenia o normalności nie są takie poważne, jak sądzono wcześniej.
Co nie znaczy, że można ignorować całkowity brak zgodności z rozkładem normalnym.
![Page 18: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/18.jpg)
Istotność statystyczna a liczba przeprowadzonych
analiz• Im więcej analiz przeprowadzimy, tym
większa liczba wyników przekracza ustalony poziom istotności przez przypadek (wyniki fałszywie pozytywne)
• 10 zmiennych to 45 korelacji i ok. 2 korelacji z p Ł 0,05
• Przy testach wielokrotnych należy przyjmować inny graniczny poziom istotności – jaki?
![Page 19: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/19.jpg)
test t
• Testowanie pojedynczej średniej
• Porównanie średnich w dwóch grupach:
– Grupy niezależne, np. zwierzęta żywione mieszanką treściwą contra grupa żywiona paszą objętościową
– Grupy zależne (obserwacje sparowane), np. zachorowalność w tej samej populacji przed i po wprowadzeniu szczepień
![Page 20: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/20.jpg)
Testowanie pojedynczej średniej
Np. Czy przyrost dzienny w rasie wbp odbiega od średniej dla wszystkich ras (832 gramy)?
Założenie: rozład normalny
![Page 21: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/21.jpg)
Testowanie różnic między dwiema grupami – grupy
niezależne• Czy rasa wbp i pbz mają różne tempo
przyrostu? (Statistica: Test t dla prób niezależnych w grupach)
• Próby nie muszą być duże, np. po 10 obserwacji.
• Założenia: normalność rozkładu zmiennych oraz brak istotnych różnic między wariancjami. Jednorodność wariancji sprawdzamy za pomocą testu F .
![Page 22: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/22.jpg)
Testowanie różnic między dwiema grupami – c.d.
• Jeśli znak różnicy średnich jest zgodny z przewidywaniami, to można do testowania używać jedynie połowy (jednego ogona) rozkładu prawdopodobieństwa i dzielić podawany poziom p (prawdopodobieństwo wyznaczone przez obydwa "ogony" rozkładu) przez dwa
• Nie wszyscy się z tym zgadzają!
![Page 23: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/23.jpg)
Pakiet Statistica
![Page 24: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/24.jpg)
Import danych tekstowych
1 2
3
![Page 25: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/25.jpg)
4
5
Pamiętaj! Zamień kropki na przecinki
![Page 26: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/26.jpg)
![Page 27: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/27.jpg)
Podstawowe statystyki opisowe
![Page 28: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/28.jpg)
Podstawowe statystyki opisowe
![Page 29: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/29.jpg)
Podstawowe statystyki opisowe
![Page 30: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/30.jpg)
Wykres ramka-wąsyWy kres ramka-wąsy
Średnia = 832,4433 Średnia±Odch.std = (723,5168, 941,3698) Średnia±1,96*Odch.std = (618,9474, 1045,9392)
przy rost600
650
700
750
800
850
900
950
1000
1050
1100
![Page 31: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/31.jpg)
Wykresy rozkładu
histogram - słupek proporcjonalny do liczby obserwacji w przedziale
wykres łodyga-liść – słupek zawiera prawdziwe wartości w danym przedziale w formie np.:
7° 000038
4 wartości = 7,0
1 wartość = 7,3
1 wartość = 7,8
![Page 32: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/32.jpg)
Histogram – 2 cechy
![Page 33: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/33.jpg)
Wykres łodyga-liść
![Page 34: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/34.jpg)
Rozkład normalny
![Page 35: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/35.jpg)
Cecha o rozkładzie normalnymWy kres normalności: cecha2
48 50 52 54 56 58 60 62 64 66 68 70
Wartość
-4
-3
-2
-1
0
1
2
3
4
Warto
ść
no
rmaln
a
![Page 36: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/36.jpg)
Cecha o innym rozkładzieWy kres normalności: cecha_f izjo
0 2 4 6 8 10 12 14 16
Wartość
-4
-2
0
2
4
6
8
Warto
ść
no
rma
lna
![Page 37: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/37.jpg)
Testy normalności
![Page 38: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/38.jpg)
Wykresy skategoryzowane
Tworzone są przez podzielenie danych na podzbiory, a następnie odwzorowanie wszystkich podzbiorów na oddzielnych, małych wykresach składowych, rozmieszczonych na jednym obrazie.
Na przykład jeden wykres może reprezentować rasę świń pbz, inny rasę świń wbp, itd.
![Page 39: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/39.jpg)
![Page 40: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/40.jpg)
Histogram skategor.: cecha_f izjo
rasa: wbp cecha_f izjo = 128*2*normal(x; 2,4297; 1,8177)rasa: pbz cecha_f izjo = 109*2*normal(x; 2,4778; 1,2432)
rasa: L990 cecha_f izjo = 151*2*normal(x; 2,1383; 1,0369)
cecha_f izjo
Lic
zba
ob
s.
rasa: wbp
-2 0 2 4 6 8 10 12 14 16 180
20
40
60
80
100
120
140
rasa: pbz
-2 0 2 4 6 8 10 12 14 16 18
rasa: L990
-2 0 2 4 6 8 10 12 14 16 180
20
40
60
80
100
120
140
![Page 41: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/41.jpg)
Wy kres ramka-wąsy :
Średnia Średnia±Odch.std Średnia±1,96*Odch.std
wbp pbz L990
rasa
500
600
700
800
900
1000
1100
1200
prz
yro
st
![Page 42: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/42.jpg)
Wykresy powierzchniowe 3W
![Page 43: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/43.jpg)
Wykresy powierzchniowe 3W- funkcje wygładzania
powierzchni• Liniowa. Do punktów na wykresie
rozrzutu 3W dopasowana będzie powierzchnia płaska (o równaniu: Z = a + bX + cY).
• Kwadratowa. Do punktów na wykresie rozrzutu 3W dopasowana będzie powierzchnia drugiego stopnia.
• Najmniejszych kwadratów ważona odległością. wpływ punktów maleje z odległością w poziomie od aktualnie obliczanego punktu powierzchni
![Page 44: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/44.jpg)
Wykres macierzowyKorelacje (dane 9v *388c)
przyrost dzienny
% mięsa w tuszy
stężenie leptyny
![Page 45: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/45.jpg)
Porównanie średnich
![Page 46: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/46.jpg)
AGE: Age (years)SEX: Sex (1=Male, 2=Female).SMOKSTAT: Smoking status (1=Never, 2=Former, 3=Current Smoker)QUETELET: Quetelet (weight/(height^2))VITUSE: Vitamin Use (1=Yes, fairly often, 2=Yes, not often, 3=No)CALORIES: Number of calories consumed per day.FAT: Grams of fat consumed per day.FIBER: Grams of fiber consumed per day.ALCOHOL: Number of alcoholic drinks consumed per week.CHOLESTEROL: Cholesterol consumed (mg per day).BETADIET: Dietary beta-carotene consumed (mcg per day).RETDIET: Dietary retinol consumed (mcg per day)BETAPLASMA: Plasma beta-carotene (ng/ml)RETPLASMA: Plasma Retinol (ng/ml)
Plasma-Retinolhttp://lib.stat.cmu.edu/datasets
![Page 47: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/47.jpg)
Zadania
1. Oblicz średnie2. Utwórz skategoryzowane (względem
nawyku palenia) wykresy ramka-wąsy dla spożycia kalorii i cholesterolu
3. Narysuj histogramy spożycia kalorii i cholesterolu
4. Przetestuj normalność spożycia kalorii i cholesterolu
5. Czy płeć różnicuje spożycie alkoholu lub cholesterolu?
![Page 48: Programy hodowlane i pakiety statystyczne](https://reader035.vdocuments.net/reader035/viewer/2022062809/568157bc550346895dc53f30/html5/thumbnails/48.jpg)
Dla chętnychCPS_85_Wages
http://lib.stat.cmu.edu/datasets
1. Czy zarobki mają rozkład normalny?2. Jakie są średnie zarobki i ich zróżnicowanie w
grupie mężczyzn i kobiet?3. Czy zarobki zależą od płci?4. Czy zawarcie związku małżeńskiego może się
przełożyć na zwiększone zarobki?5. Czy przynależność do związku zawodowego
zwiększa zarobki?