statistik: 14.10.04 erheben von daten kategoriale merkmale

Post on 06-Apr-2015

107 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Statistik: 14.10.04

Erheben von Daten Kategoriale Merkmale

11.10.04 PI Statistik, WS 2004/05 2

Datenquellen

Primäre Daten, aus Vollerhebung Stichprobenerhebung

Sekundäre Daten Volkszählungsdaten Daten von Statistik Austria, von der

OeNB Daten aus der Hörerevidenz der WU Personal-, Lagerkartei

11.10.04 PI Statistik, WS 2004/05 3

Messen

Messen: Ist Ergebnis eines Messprozesses mit Messinstrumenten Messverfahren messenden Personen

Beispiele: gemessen werden (1) die Länge eines Tisches, (2) die Länge eines Eies, (3) die Härte von Stahl, (4) die Zufriedenheit des Käufers eines PKW

11.10.04 PI Statistik, WS 2004/05 4

Qualität von Messungen

Kriterien für die Qualität von Messungen Genauigkeit (accuracy): bezieht sich auf einzelnen Messvorgang systematischer Fehler (Bias) Präzision, Variabilität

Reproduzierbarkeit: bezieht sich auf MesssystemStabilität: zeitlicher Aspekt des Messsystems

11.10.04 PI Statistik, WS 2004/05 5

Prozesse: Messen - Variabilität

Beobachten (Messen) ist zentrales Element für Qualität von Produktions- und DienstleistungsprozessenProzessvariabilität Messvariabilität

Beispiele: Qualität des Kaffees Wartezeit im Call-Center

11.10.04 PI Statistik, WS 2004/05 6

Datenerhebungen (surveys)

Vollerhebung (census) und Stichprobe Grundgesamtheit (Umfang N; N meist sehr groß)Statistische Einheiten, ElementeStichprobenrahmen (Liste aller Elemente der Grundgesamtheit) Stichprobe (Umfang n; n meist klein)

11.10.04 PI Statistik, WS 2004/05 7

Auswahl der Stichprobe Auswahl ohne Zufallsmechanismus (non-probability sample survey) Bequemlichkeits-Stichprobe (convenience

sampling) Systematische StichprobeAuswahl nach Zufallsprinzip (probability sample survey) Einfache Zufallsstichprobe (simple random

sample) Geschichtete Zufallsstichprobe (stratified

random sample) Systematische Zufallsstichprobe Klumpen- (Cluster)stichprobe

11.10.04 PI Statistik, WS 2004/05 8

Einfache Zufallsstichprobe

jede mögliche Stichprobe vom Umfang n hat die gleiche Wahrscheinlichkeit, gezogen zu werden

11.10.04 PI Statistik, WS 2004/05 9

Beispiel: Einfache Zufalls-SP

G = {a,b,c,d,e}, n=2: es gibt 10 mögliche Stichproben: (a,b), (a,c), ..., (a,e), ..., (d,e) Urne enthält 10 Zettel mit den 10 Paaren; wir wählen zufällig einen ausUrne enthält 5 Zettel mit den 5 Buchstaben; wir wählen zufällig zwei (ohne Zurücklegen) ausZufallszahlen

11.10.04 PI Statistik, WS 2004/05 10

Zufallszahlen

In Büchern; z.B. in Hackl & Katzenbeisser, S. 434 Statistik-Software kann Pseudozufallszahlen erzeugen, z.B. EXCEL: Analyse-Funktionen >> Zufallszahlengenerierung >> Diskrete Verteilung

11.10.04 PI Statistik, WS 2004/05 11

Einfache ZSP: Vor-/Nachteile

Vorteile Ergebnisse haben keinen

systematischen Fehler (Bias); sie sind "unverzerrt"

kontrollierter Stichprobenfehler

Nachteil in Praxis nicht leicht realisierbar, oft

aufwendig

11.10.04 PI Statistik, WS 2004/05 12

Geschichtete Zufallsstichprobe

Zerlegung der Grundgesamtheit in Schichten Innerhalb jeder Schicht: einfache ZufallsstichprobeVorteil: reduzierter Stichprobenfehler

11.10.04 PI Statistik, WS 2004/05 13

Beispiel: Einkommen

Reine ZSP Geschichtete ZSPa=2, b=3,

MW=2.5nicht möglich

a=2, c=6, MW=4.0

a=2, c=6, MW=4.0

a=2, d=7, MW=4.5

a=2, d=7, MW=4.5

b=3, c=6, MW=4.5

b=3, c=6, MW=4.5

b=3, d=7, MW=5.0

b=3, d=7, MW=5.0

c=6, d=7, MW=6.5

nicht möglich

11.10.04 PI Statistik, WS 2004/05 14

Klumpenstichprobe

Vollerhebung in zufällig ausgewählten Teilmengen (Klumpen; Teilmengen, die die Grundgesamtheit gut repräsentieren)

Geschichtete und Klumpenstichprobe: sind Beispiele für zweistufige Stichprobenverfahren

11.10.04 PI Statistik, WS 2004/05 15

ErhebungsfehlerReiner Stichprobenfehler (pure sampling error) Variation des Ergebnisses dadurch, dass bestimmte

Elemente ausgewählt werden; quantifizierbar Stichprobenverfälschungen, z.B. Fehler im

Stichprobenrahmen

Nicht-Stichprobenfehler (non-sampling error): Fehlende Antwort (non-response), Fehler der beteiligten Personen (Interviewer, Interviewter), Fehler bei Verarbeitung; schlechte Fehlerkontrolle, etc.; kaum messbar

11.10.04 PI Statistik, WS 2004/05 16

Kategoriale Merkmale

Auch qualitative und kategorielle Merkmale genannt Ordnet der Beobachtungs- oder Untersuchungseinheit eine von endlich vielen Klassen (Kategorien) zu; Dazu gehören nominale und ordinale Merkmale Ist immer diskret (die Menge der Merkmalsausprägungen ist endlich oder abzählbar)

Population Merkmal M-Ausprägungen

WU-Studierende

Geschlecht m, w

Note 1, 2, 3, 4, 5

Produktion Qualität gut, schlecht

11.10.04 PI Statistik, WS 2004/05 17

Kreisdiagramm

Häufigkeiten der Augenfarbe

blau

grün

braun

grau

schwarz

blau

grün

braun

grau

schwarz

Augenfarbe Häuf'kt

blau 15

grün 12

braun 19

grau 2

schwarz 1

Beispiel: Augenfarbe von Studierenden

11.10.04 PI Statistik, WS 2004/05 18

Kreisdiagramm

Häufigkeiten der Augenfarbe

blau grün braun grau schwarz

Explodierter 3D-Kreis

Augenfarbe Häuf'kt

blau 15

grün 12

braun 19

grau 2

schwarz 1

11.10.04 PI Statistik, WS 2004/05 19

Säulen-, Stabdiagramm

Augenfarbe Häuf'kt

blau 15

grün 12

braun 19

grau 2

schwarz 1

Häufigkeit der Augenfarbe

0

5

10

15

20

blau grün braun grau schwarz

11.10.04 PI Statistik, WS 2004/05 20

Absolute & relative Häufigkeit

(absolute) Häufigkeit: gibt an, wie oft eine bestimmte Kategorie in der Datenmenge vorkommt; typisches Symbol: H i

z.B.: 15 Studierenden haben blaue Augenrelative Häufigkeit (Anteil) h i

n: Umfang der Datenmenge Oft als Prozente (Prozentanteil) angegeben

n

Hh ii

11.10.04 PI Statistik, WS 2004/05 21

Kumulierte (relative) Häufigkeiten

Summe der relativen Häufigkeiten aller vorhergehenden Kategorien, einschließlich der aktuellen Nur für ordinale Merkmale sinnvoll

1 1

,i i

i j i jj j

C H c h

11.10.04 PI Statistik, WS 2004/05 22

abs H'kt rel H'kt

kum rel H'kt

1 7 13,5% 13,5%

2 22 42,3% 55,8%

3 15 28,8% 84,6%

4 6 11,5% 96,2%

5 2 3,8% 100,0%

52

Noten von 52 Studierenden Noten: absolute Häufigkeiten

0

5

10

15

20

25

1 2 3 4 5

Abs. und Rel. Häufigkeiten

0,0%

20,0%

40,0%

60,0%

80,0%

100,0%

120,0%

1 2 3 4 5

Noten

11.10.04 PI Statistik, WS 2004/05 23

Pivot Table-Bericht

„Ein PivotTable-Bericht ist eine interaktive Tabelle, die große Datenmengen rasch kombinieren und vergleichen kann.“ Wichtige Hilfe zum Auszählen von Datenmengen

11.10.04 PI Statistik, WS 2004/05 24

Fragestellungen

Kommen alle Kategorien gleich häufig vor ?Entsprechen die Häufigkeiten in den Kategorien einer bestimmten Vorgabe ?Entspricht die Häufigkeit (Prozentsatz, Anteil) in einer bestimmten Kategorie einem bestimmten Wert?In welchem Bereich kann man den Anteil einer Kategorie in der Grundgesamtheit erwarten ?

top related