statistische auswertungsverfahren mit spss saspss_skript_final.pdf · statistische...
TRANSCRIPT
Statistische Auswertungsverfahren mit SPSSProf. Dr. Andrea RaabFachhochschule Ingolstadt
Statistische Auswertungsverfahren mit SPSS
2
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Inhaltliche Übersicht
• Informationen zum Programm SPSS
• Grundlagen der Programmbedienung in SPSS
• Befragung und Datenerstellung
• Daten und Variablen
• Deskriptive Analysemethoden
Statistische Auswertungsverfahren mit SPSS
3
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Das Programmpaket SPSS für Windows
• SPSS
– früher: Statistical Package for Social Sciences
– heute: Statistical Product and Service Solution
• Marktführendes Produkt im Bereich der programmgestützten statistischen Analyse
• Ab Version 5.0 grafische Benutzeroberfläche (GUI) sowie Menüsystem undintegrierte Grafik
• Derzeit aktuellste Version:
– SPSS Version 14.0 für Windows
– SPSS Version 13.0 (englisch) für Apple Macintosh (nur PowerPC, nicht Intel)
• 32.768 Variablen (2 hoch 15) pro Datendatei nutzbar.
• SPSS-Paket bestehend aus einem Basismodul und verschiedensten Zusatzmodulen
• Die SPSS-Studentenversion ist ausschließlich in englischer Sprache und unterWindows verfügbar. (Inhalt: SPSS Base System; Beschränkt auf Verarbeitung von 1500 Fällen und 50 Variablen)
Statistische Auswertungsverfahren mit SPSS
4
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Das Programmpaket SPSS für Windows
SPSS Advanced ModelsSPSS CategoriesSPSS ConjointSPSS Data Entry BuilderSPSS Exact TestsSPSS MapsSPSS Missing Value AnalysisSPSS Regression ModelsSPSS TablesSPSS Trends...
grundlegende Funktionen, einfacheund fortgeschrittene Methoden zurDatenanalyse und umfangreiche
Grafikmöglichkeiten
ZusatzmoduleBasismodul
Statistische Auswertungsverfahren mit SPSS
5
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Warum SPSS und nicht Excel?
Arbeiten mit großen Datensätzen möglich
(32.768 Variablen (2 hoch 15) pro Datei benutzbar)
Umfangreiche Datentransformationen und -funktionen
Dokumentation und Automatisierung über SYNTAX-Sprache
Großer Umfang an statistischen Funktionen und Prozeduren
Deskriptive Statistik
(Mittelwerte, Standardabweichungen , Häufigkeiten, Kreuztabellen)
Inferenzstatistik
(Chi-Quadrat, t-Test, Einfaktorielle Varianzanalyse)
Multivariate Verfahren
(Clusteranalyse, Faktorenanalyse, Diskriminanzanalyse, Conjointanalyse,
Multidimensionale Skalierung etc.)
Statistische Auswertungsverfahren mit SPSS
6
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Statistische Methoden
Statistik
beschreibende (deskriptive)Statistik
schließende (induktive)Statistik
- Daten sammeln- Daten präsentieren- Daten charakterisieren
- Schätzen- Hypothesen testen
Statistische Auswertungsverfahren mit SPSS
7
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Statistische Methoden
• Deskriptive (beschreibende) Statistik– Messwerte ordnen– Anschauliche und übersichtliche Darstellung von Daten in
• Tabellen• Diagrammen
– Säulen– Balken– Linien– Punkt– Flächen– Netz– Stengel/Blatt– Hoch-Tief– Box– Streu– Histogramme
• Induktive (schließende) Statistik– Ermittlung von Vertrauensbereichen– Überprüfung von Hypothesen
Statistische Auswertungsverfahren mit SPSS
8
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Statistische MethodenVorgehen bei analytischer Statistik (nach Petersen, 1991)
Grundgesamtheit
Formulierung des zuprüfenden Sachverhaltes
Formulierung der Nullhypothesen und AlternativhypothesenAufbereitung der Daten• tabellarisch• rechnerisch• graphisch
Entnahme einer Stichprobe
Erzeugen der Analysendaten VerteilungshypothesenParameterhypothesen
Prüfung der HypothesenParametertests
Prüfung der HypothesenVerteilungstests
Ermittlung von Schätzgrößen für die Kenngrößen
Schluss von der bekannten Stichprobe auf die unbekannteGrundgesamtheit
Statistische Auswertungsverfahren mit SPSS
9
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Begriffsdefinitionen
• Variablen/Merkmale und Merkmalsausprägungen
– In SPSS werden die Ausprägungen bestimmter Merkmale/Variablen betrachtet. JedesMerkmal hat mindestens zwei Merkmalsausprägungen (konkreter Wert des Merkmals= Analysenergebnis)
– Bsp.: Geschlecht - männlich / weiblich
• Unabhängige (Faktor) und abhängige Variablen
– unabhängige Variablen können die Merkmalsausprägungen von abhängigenVariablen beeinflussen (z.B. Alter beeinflusst die Konsumgewohnheiten)
• Qualitative und quantitative Variablen
– ein Merkmal/Variable kann in seiner Ausprägung qualitativ beschreibend sein(z.B. Weinsorte, Freundlichkeit)
– ein Merkmal/Variable kann in seiner Ausprägung quantitativ vermessen worden sein(z.B. Gehalt, Semesteranzahl)
Statistische Auswertungsverfahren mit SPSS
10
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Begriffsdefinitionen
• uni-, bi- und multivariate Daten– univariat
• nur ein Merkmal/Variable wird für jeden Fall gemessen/beschrieben
– bivariat
• Jeweils 2 Variablen werden für jeden Fall in Beziehung gesetzt (xi,yi)
– multivariat
• Mehr als 2 Variablen werden für jeden Fall in Beziehung gesetzt (xi,yi,zi, ....ki)Beispiel: Beschreibung einer Kundengruppe
– Alter
– Einkommen
– Geschlecht
– Konsumgewohnheiten
– Lifestyle
Statistische Auswertungsverfahren mit SPSS
11
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Starten von SPSS
Dialogfenster
Durch „Abbrechen“ kann dieses Fenster geschlossen werden
v
Dialogfenster in Zukunft nicht mehr anzeigen
Statistische Auswertungsverfahren mit SPSS
12
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Die SPSS Fenster
SPSS Syntax Fenster
SPSS Daten Editor
SPSS Viewer
Statistische Auswertungsverfahren mit SPSS
13
Fachhochschule IngolstadtProf. Dr. Andrea Raab
SPSS Daten-Editor
• Arbeitsfläche von SPSS
• Sämtliche mit SPSS durchführbare Analysen
• Variablenansicht– zeigt alle Variablen und zugehörige Attribute (z.B. Name, Typ, etc.)
• Datenansicht– zeigt die Beobachtungswerte aller in der
aktuellen Datendatei enthaltenen Variablen.
• Dateityp: *.sav
Statistische Auswertungsverfahren mit SPSS
14
Fachhochschule IngolstadtProf. Dr. Andrea Raab
SPSS Syntax Fenster
• Befehlseingabe für einzelne Prozeduren– ermöglicht beispielsweise Berechnen von Variablen, Transformieren
von Daten, Ausführen statistischer Prozeduren u.v.m.
• SPSS-Befehlssprache wird im Zuge der Vorlesung noch genauerbearbeitet werden
• Dateityp: *.sps
Statistische Auswertungsverfahren mit SPSS
15
Fachhochschule IngolstadtProf. Dr. Andrea Raab
SPSS Viewer
• Ausgabe für Ergebnisse von Analysen oder Prozeduren
• Wird bei jeder Analyse oder Prozedur automatisch geöffnet
• Navigationsbereich– Anzeige aller Ergebnisse als ein- und ausblendbare Gliederungspunkte
• Dateityp: *.spo
Statistische Auswertungsverfahren mit SPSS
16
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Definition der Variablen
• Variablentypen
– String-Variablen (Zeichenketten)• Verwendung bei offener Fragestellung
– Numerische Variablen• Vercodung von möglichen Antworten (Bsp.: Bundesland)• Relative Ordnung von Merkmalen• Exakte Messung eines Merkmals
Statistische Auswertungsverfahren mit SPSS
17
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Qualität der Daten, Skala und Skalenniveau
Qualität der Daten wird u.a. bestimmt durch die Art und Weise der Messung
Gut messbare Daten schlecht messbare Daten
z.B. Körpergröße eines Menschen z.B. Motivation, Gesundheitszustand
Skala „Meßlatte“, auf der die Ausprägungen einer Eigenschaft abgetragenwerden können
Skalenniveau Art und Weise, in der eine Eigenschaft eines Objektes in Zahlenausgedrückt werden kann
Statistische Auswertungsverfahren mit SPSS
18
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Skalenniveau
Variablen
QualitativeVariablen
QuantitativeVariablen
metrisch skaliert ordinal skaliert nominal skaliert
Statistische Auswertungsverfahren mit SPSS
19
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Skalenniveau - Nominalskala
• Ausprägungen einer Variablen bilden nur Kategorien• Keinerlei Ordnungsvorschrift• Dient lediglich zur Unterscheidung der einzelnen Kategorien• Auswertungsmöglichkeiten eingeschränkt
(z.B. Häufigkeitsauszählung; Berechnung eines Mittelwertes ist sinnlos!)• Beispiele
– Geschlecht– Familienstand– Herkunft
Kategorie
1
2
3
4…
Statistische Auswertungsverfahren mit SPSS
20
Fachhochschule IngolstadtProf. Dr. Andrea Raab
• Für die einzelnen Ausprägungen existiert eine Relation („größer“, „kleiner“)• Es kann eine Rangordnung erstellt werden• Auswertungsmöglichkeiten:
(z.B. Ranglisten; Median als Mittelwert ist sinnvoll!)• Beispiel:
– Platzierungen– Schulnoten
(streng genommen ordinal)
• Keine Aussage über die Abstände zwischen den Rängen möglich!
Skalenniveau - Ordinalskala
Statistische Auswertungsverfahren mit SPSS
21
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Skalenniveau – Intervallskala
– Eigenschaften der Nominal - und Ordinalskala
– die Differenzen, nicht jedoch die Quotienten sind interpretierbar
– Ausprägungen werden als Vielfaches einer elementaren Maßeinheit
angegeben
– Beispiel
• Temperatur (hat keinen natürlichen Nullpunkt)
• Schulnoten (werden oft als quasi intervallskaliert behandelt)
Statistische Auswertungsverfahren mit SPSS
22
Fachhochschule IngolstadtProf. Dr. Andrea Raab
– Angabe von Differenzen und Quotienten ist sinnvoll
– Beispiele
• Umsatz eines Unternehmens
• Alter
• Einwohnerzahlen
Skalenniveau – Verhältnisskala
Intervall – und Verhältnisskalen heißenmetrisch skaliert, Nominal- und Ordinalskalenheißen nicht metrisch skaliert(eine Unterscheidung der beiden metrischen Niveaus kommtbei den meisten statistischen Verfahren keine Bedeutung zu)
Statistische Auswertungsverfahren mit SPSS
23
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Skalenniveau - Überblick
Multiplikation, Division
Skala mit konstantenAbständen, Addition,Subtraktion, Mittelwert
A=B, A≠B; A<B<CRangordnung
A=B, A≠B
InformationKenngrößen
•relative Häufigkeiten•Modus•Median (x) ̃•arithmetisches Mittel•geometrisches Mittel
•relative Häufigkeiten•Modus•Median (x) ̃,•arithmetisches Mittel
•relative Häufigkeiten•Modus•Median (x̃),
•relative Häufigkeiten•Modus
Lagemaß
•Standardabweichung (s)•Varianz (s2)
relative und absoluteDifferenzen vonquantitativen Merkmalen
Länge, FlächeVerhältnis
•Standardabweichung (s)•Varianz (s2)
absolute Differenzenvon quantitativenMerkmalen
Kalenderdatum, Punkte imIntelligenztestIntervall
•Quantile (Q)•Spannweite (R)
Einstufung beiqualitativen Merkmalen(kleiner / größer)
kalt < lau < warm < heiß,Schulnoten, GüteklasseOrdinal
Klassifizierung beiqualitativen Merkmalen(gleich, ungleich)
Geschlecht:männlich/weiblichNominal
StreumaßDifferenzierungBeispielSkala
Statistische Auswertungsverfahren mit SPSS
24
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Skalenniveau - Metrische Variablen
– Diskrete Variablen• Ein Merkmal/Variable kann nur endlich viele Ausprägungen annehmen
• Anzahl der möglichen Ausprägungen ist abzählbar
• Bsp.: Kinderzahl, Einwohneranzahl, Digitaluhr
– Stetige Variablen• Ein Merkmal/Variable kann unendlich viele Ausprägungen annehmen• Mehr als abzählbare Ausprägungen eines Merkmals• Aus messtechnischen Gründen oft nicht beliebig genau bestimmbar• Bsp.: Umsatz, Alter, Einkommen, BMI = kg/m², Sanduhr
Statistische Auswertungsverfahren mit SPSS
25
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Praxisbeispiel: Befragung der Studenten
Ziele: 1. Erstellen eines praxisrelevanten Datensatzes
2. Auswertungen basierend auf diesen Datensatz
Praxisbeispiel: Befragung der Studenten
Statistische Auswertungsverfahren mit SPSS
26
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Näheres zur Variablenansicht
Bezeichnungder Variable
Bezeichnung der Variablenund Werte in Datenansicht und
Ausgaben
Anzahlder
Zeichen
Ausschlaggebendfür die
Verarbeitung derVariable in SPSS
Benutzerdefiniertfehlende Werte
Unterscheidung zwischennominal, ordinal und metrisch(Bisher irrelevant für SPSS)
Optionen für die Anzeigein der Datenansicht
Statistische Auswertungsverfahren mit SPSS
27
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Definition von Variablen
Datentypen• Numerisch• Komma• Punkt• Wissenschaftliche
Notation• Datum• Dollar• Andere Währung• String
Messniveau• Nominal• Ordinal• Metrisch
Variablenname• muss mit Buchstaben
beginnen; restliche Zeichensind Buchstaben, Ziffern,Punkte oder folgendeSonderzeichen @, #, _, $;keine Leerzeichen!
• darf nicht mit Punkt enden• soll nicht mit Unterstrich
enden• auf 64 Zeichen beschränkt• Name muss eindeutig sein• Groß- und Kleinschreibung
wird unterschieden• Bestimmte Namen sind
reserviert z.B. ALL, AND,NOT, WITH, OR
Statistische Auswertungsverfahren mit SPSS
28
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Deklaration von Variablen am Bsp. A1
• Den einzelnen Werten werden Zahlen zugewiesen– Um den von uns benutzerdefiniert fehlenden Wert „weiß nicht“ von
den anderen Nennungen zu trennen, geben wir ihm eine erhöhteZahl (und trage diesen anschließend bei Fehlende Werte ein)
1 2 3 4 8
Statistische Auswertungsverfahren mit SPSS
29
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Deklaration von Variablen am Bsp. A1
Typ: Numerisch
Ein Zeichen lang
Keine Dezimalstellen
Bezeichnung der Variable
Wertelabels:1 = sehr gut…4 = nicht gut8 = weiß nicht
Benutzerdefiniert fehlender Wert:8 (Weiß nicht)
String-Variablen bedürfen weniger Aufwand bei der Deklaration (am Bsp. A3).Jedoch erzeugen diese offenen Fragen meist viel Arbeit bei der Auswertung.
Anzahl der Zeichen sinnvoll wählen
Statistische Auswertungsverfahren mit SPSS
30
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Datenansicht am Bsp. A1
• In der Datenansicht werden die einzelnenInterviews in Zeilen dargestellt.
• Die Spalte a1 repräsentiert unsere neuerzeugte Variable
• Wie man sieht, wurden die Zahlen durchdas jeweilige Wertelabel ersetzt.
• Man kann jene mit Hilfe des folgendenButtons ein und ausblenden:
Statistische Auswertungsverfahren mit SPSS
31
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Praxisbeispiel: Befragung der Kursteilnehmer
S112
x
1
Statistische Auswertungsverfahren mit SPSS
32
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Praxisbeispiel: Befragung der Kursteilnehmer
A11 2 3 4 8
A2
128
Statistische Auswertungsverfahren mit SPSS
33
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Praxisbeispiel: Befragung der Kursteilnehmer
A3
A4_1 1. Nennung
A4_2 2. Nennung
A4_3 3. Nennung
Statistische Auswertungsverfahren mit SPSS
34
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Praxisbeispiel: Befragung der Kursteilnehmer
1 2 3 4 5 8 9
M1_1M1_2M1_3M1_4M1_5
Statistische Auswertungsverfahren mit SPSS
35
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Praxisbeispiel: Befragung der Kursteilnehmer
M2
M3123
12
Statistische Auswertungsverfahren mit SPSS
36
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Praxisbeispiel: Befragung der Kursteilnehmer
B1
12
B21 2 3 4 8
B3128
Statistische Auswertungsverfahren mit SPSS
37
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Praxisbeispiel: Befragung der Kursteilnehmer
F1
F1_1
F1_2
F1_3
x
F1_8 = 1
Statistische Auswertungsverfahren mit SPSS
38
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Praxisbeispiel: Befragung der Kursteilnehmer
1 2 3 4 5 8 9
F2_1
F2_2
F2_3
F2_4
F2_5
Statistische Auswertungsverfahren mit SPSS
39
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Praxisbeispiel: Befragung der Kursteilnehmer
Bsp.: Befragter nutzt Fitness und Volleyball, d.h. die Variablen F3_5 und F3_8nehmen den Wert “1” an.
F3_ 123
456
78
Jeweils mit 1 vercoden
98 F3_s
Statistische Auswertungsverfahren mit SPSS
40
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Praxisbeispiel: Befragung der Kursteilnehmer
ST_P ST_O
ST2
ST3
ST41 2 9
Statistische Auswertungsverfahren mit SPSS
41
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Praxisbeispiel: Befragung der Kursteilnehmer
ST512345
6789
Statistische Auswertungsverfahren mit SPSS
42
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Praxisbeispiel: Befragung der Kursteilnehmer
ST6123
ST7
ST8
ST9
1 2
Statistische Auswertungsverfahren mit SPSSProf. Dr. Andrea RaabFachhochschule Ingolstadt
V2
2
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Überblick
• Häufigkeiten
• Lage- und Streuparameter
• Explorative Datenanalyse
• Datenmodifikation
3
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Dateneingabe
Dateneingabe und -konsolidierung
• SPSS- Definition der Datenmatrix
Variablennamen, Typ, Label, Missing Values- Keine Fehlerprüfung möglich
• Einlesen von Textdateien- Variablennamen in 1. Zeile
- keine Leerzeilen oder -spalten, Überschriften, Texte o.ä.
- Daten mit dem Assistenten für Textimport einlesen
• Einlesen von fremden Dateiformaten (z.B. Excel, Datenbanken)- Variablennamen in 1. Zeile
- keine Leerzeilen oder -spalten, Überschriften, Texte o.ä.
- Daten in SPSS einlesen mit Dateityp Excel (.xls)→ Option „Read Variable Names“ aktivieren
• Data Entry- Definition der Datenmatrix
- Eingabe mit Fehlerprüfung
- Nur bei großen Datenmengen sinnvoll
4
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Statistik Prozeduren in SPSS
Variablenliste zu analysierende Variablen
Übertragung der Variablen in Analyse
prozedurspezifischeSteuerungsmöglichkeiten
Übergabe in den Syntax Editor
Analyse durchführen
Einstellungen zurücksetzen
Mit der rechten Maustaste kann diewissensbasierte Datenbank von SPSSkonsultiert werden.
5
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Häufigkeiten
Häufigkeiten:– „Analysieren –> Deskriptive Statistik -> Häufigkeiten“
– Die Werte können absolut oder prozentual dargestellt werden.
– Das Ergebnis wird in tabellarischer Form im Viewer ausgegeben.
6
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Häufigkeiten
Häufigkeiten:– In der Variablenliste werden alle numerischen und String-Variablen angezeigt.
– Die Variable, für welche die statistische Maßzahlen berechnet werden sollen, wird aus der
Variablenliste ausgewählt und mit der Pfeil-Schaltfläche in die Liste „Variable(n)“ verschoben.
7
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Häufigkeiten
Häufigkeiten: M2. Besuchst du regelmäßig die Cafeteria der Mensa?
(Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten)
8
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Häufigkeiten
Auswertung des Fragebogens zum Kurs M2. Besuchst du regelmäßig die Cafeteria der Mensa?
(Ausgabe eines Kuchendiagramms mit prozentualen Diagrammwerten)
• Nahezu 3/4 der befragten Studenten besuchenregelmäßig die Mensa der FH Ingolstadt.
Regelmäßige r Be such der Cafete ria
92 71,3 72,4 72,4
35 27,1 27,6 100,0
127 98,4 100,0
2 1,6
129 100,0
ja
nein
Gesamt
Gültig
SystemFehlend
Gesamt
Häuf igkeit Prozent
Gültige
Prozente
Kumulierte
Prozente
9
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Häufigkeiten
Auswertung des Fragebogens zum Kurs M3. Was würdest du zu einem Rauchverbot in der Cafeteria sagen?
(Ausgabe eines Kuchendiagramms mit prozentualen Diagrammwerten)
Me inung zu Rauchve rbot in der Cafete ria
37 28,7 33,0 33,0
39 30,2 34,8 67,9
23 17,8 20,5 88,4
13 10,1 11,6 100,0
112 86,8 100,0
17 13,2
129 100,0
Ja, f inde ich gut
Nein, lehne ich ab
Ist mir im Prinzip egal
8
Gesamt
Gültig
SystemFehlend
Gesamt
Häuf igkeit Prozent
Gültige
Prozente
Kumulierte
Prozente
10
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Häufigkeiten
Auswertung des Fragebogens zum Kurs A1. Wie gefällt es Dir in Ingolstadt?
(Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten)
• Der Mehrzahl der Befragten gefällt Ingolstadtgut oder sogar sehr gut.
Bewe rtung de r Stadt Ingols tadt
33 25,6 25,8 25,8
82 63,6 64,1 89,8
8 6,2 6,3 96,1
4 3,1 3,1 99,2
1 ,8 ,8 100,0
128 99,2 100,0
1 ,8
129 100,0
Sehr gut
Gut
Weniger gut
Nicht gut
Weiß nicht
Gesamt
Gültig
SystemFehlend
Gesamt
Häuf igkeit Prozent
Gültige
Prozente
Kumulierte
Prozente
11
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Häufigkeiten
• 30% der Probanden geben fürs Weggehen mehr als100 € pro Abend aus.
Auswertung des Fragebogens zum Kurs ST5. Wie viel Geld verwendest Du etwa im Monat für Abends zum Weggehen?
(Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten)
Aus gabe n fürs Wegge he n
16 12,4 13,3 13,3
17 13,2 14,2 27,5
27 20,9 22,5 50,0
23 17,8 19,2 69,2
8 6,2 6,7 75,8
7 5,4 5,8 81,7
7 5,4 5,8 87,5
15 11,6 12,5 100,0
120 93,0 100,0
9 7,0
129 100,0
10 ! bis unter 30 !
30 ! bis unter 50 !
50 ! bis unter 70 !
70 ! bis unter 100!
100 ! bis unter 130 !
130 ! bis unter 150 !
150 ! bis unter 200 !
mehr als 200 !
Gesamt
Gültig
SystemFehlend
Gesamt
Häuf igkeit Prozent
Gültige
Prozente
Kumulierte
Prozente
12
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Häufigkeiten
Auswertung des Fragebogens zum Kurs ST6. Rauchst Du?
(Ausgabe eines Kreisdiagramms mit prozentualen Diagrammwerten)
• Über 50% der befragten Betriebswirtschafts-studenten rauchen nicht.
Raucher
65 50,4 52,0 52,0
20 15,5 16,0 68,0
40 31,0 32,0 100,0
125 96,9 100,0
4 3,1
129 100,0
Nein, ich rauche nicht
Ja, hin und w ieder
Ja, regelmäßig
Gesamt
Gültig
SystemFehlend
Gesamt
Häuf igkeit Prozent
Gültige
Prozente
Kumulierte
Prozente
13
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Häufigkeiten
Auswertung des Fragebogens zum Kurs ST7. Wie alt bist du?
(Ausgabe eines Säulendiagramm mit absoluten Diagrammwerten)
• Die Mehrzahl der Teilnehmer geben .....
Alte r
2 1,6 1,6 1,6
13 10,1 10,6 12,2
12 9,3 9,8 22,0
24 18,6 19,5 41,5
13 10,1 10,6 52,0
13 10,1 10,6 62,6
12 9,3 9,8 72,4
14 10,9 11,4 83,7
7 5,4 5,7 89,4
2 1,6 1,6 91,1
4 3,1 3,3 94,3
3 2,3 2,4 96,7
1 ,8 ,8 97,6
1 ,8 ,8 98,4
1 ,8 ,8 99,2
1 ,8 ,8 100,0
123 95,3 100,0
6 4,7
129 100,0
18
19
20
21
22
23
24
25
26
27
28
29
30
31
33
224
Gesamt
Gültig
SystemFehlend
Gesamt
Häuf igkeit Prozent
Gültige
Prozente
Kumulierte
Prozente
14
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Übungsblatt 2
Bitte bearbeiten Sie die
Aufgabe 1 des Übungsblattes.
15
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Überblick
• Häufigkeiten
• Lage- und Streuparameter
• Explorative Datenanalyse
• Datenmodifikation
16
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Lage und Streuungsparameter
Lageparameter• die meist eingesetzten Maßzahlen sind Mittelwerte und Streuungswerte• Anwendung i.d.R. nur bei metrischen Variablen• wenn sinnvoll, sollten zu Mittelwerten immer geeignete Streuungsparameter angegeben werden,
um die Häufigkeitsverteilung zu charakterisieren.
Median• Wert, der eine nach Größe sortierte Reihe von Merkmalsausprägungen in
zwei gleich große Hälften teilt• 50% der Fälle liegen oberhalb und 50% liegen unterhalb des Median• Daten mindestens ordinalskaliert (Ordnung nach Größe zwingend)• Anwendung: Bildung von Extremgruppen z.B. oberstes/unterstes Viertel der
Einkommensvariable (Berechnung von Quartilen)
Modalwert (Modus)• Messwert, der in einem Datensatz am häufigsten vorkommt• Gibt an, wo die größte Dichte einer Verteilung liegt• nominale, ordinale und metrische Daten
17
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Lage und Streuungsparameter
Arithmetisches Mittel • Maßzahl zur zentralen Tendenz von Daten• Ermittlung der durchschnittlichen Merkmalsausprägung• Daten mindestens intervallskaliert (in manchen Fällen auch ordinal)• Alle Messwerte gehen mit vollem Gewicht in die Berechnung ein, so dass
Extremwerte stark verzerren können → prüfen ob es Ausreißer gibt• Befragte, die mit „weiß nicht“ oder die gar nicht geantwortet haben (und dafür z.B.
die Codes 8, 9, oder 99 bekommen) müssen von der Mittelwertberechnungausgeschlossen werden, indem sie als fehlende Werte definiert werden
• Das arithmetische Mittel ist nur dann ein wirklich guter mittlerer Kennwert einerVerteilung, wenn diese symmetrisch ist
Lageparameter
18
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Lage und Streuungsparameter
LageparameterAus der Reihenfolge der drei Mittelwert arithmetisches Mitte, Modus und Median kann manAussagen über die Form der Häufigkeitsverteilung von Variablen ableiten:
1. Linkssteile VerteilungDie Verteilung steigt links schnell an, erreicht ihrenGipfel und fällt dann langsam ab.Modus < Median < arithmetisches Mittel
2. Rechtssteile VerteilungDie Verteilung steigt links langsam an, erreicht ihrenGipfel und fällt rechts steil ab.arithmetisches Mittel < Median < Modus
3. Symmetrische VerteilungAlle drei Mittelwerte fallen auf einen Punkt.arithmetisches Mittel = Median = Modalwert
• Die Form der Verteilung kann mittels SPSS festgestelltwerden. Die Funktionen heißen „Schiefe“ (Welche Seite derVerteilung ist länger?) und „Kurtosis“ (Wölbung; je größer dieWölbung, desto stärker konzentrieren sich die Werte an einerbestimmten Stelle).
• Schiefe: rechtssteil < 0 < linkssteil• Kurtosis: flachgipflig < 0 < hochgipflig
19
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Lage und Streuungsparameter
20
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Lage- und Streuungsparameter
Streuungsparameter• Messung der Verteilung der Häufigkeitsverteilung um den Mittelwert• Präzisiert die Aussage der Lageparameter• Einfachste Streuungsparameter sind das Minimum (kleinste vorkommende
Merkmalsausprägung) und das Maximum (größte vorkommende Merkmalsausprägung).
Varianz• Nur metrische Daten• Bestimmung einer Art durchschnittliche Abweichung vom Mittelwert• Je dichter die einzelnen Werte an dem Mittelwert liegen, desto kleiner ist die Varianz• Die Varianz wird nicht in der Einheit der Variablenwerte gemessen
Standardabweichung• Nur metrische Daten• Ermöglicht Vergleichbarkeit mit Mittelwerten• Vergleichbarkeit bei Varianz nicht gegeben, da Einheit zum Quadrat• Die Standardabweichung wird in der Einheit der Variablenwerte gemessen
Spannweite• Mindestens ordinalskalierte Daten• Differenz zwischen dem größten und dem kleinsten Wert der Stichprobe• Kann durch Ausreißer stark beeinflusst werden
Standardfehler• Nur metrische Daten• Maß für die Streuung des Mittelwertes der Stichprobe bzw. verschiedener (potenzieller) Stichproben
um den Mittelwert der Grundgesamtheit
21
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Lage- und Streuungsparameter
22
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Übungsblatt 2
Bitte bearbeiten Sie die
Aufgabe 2 des Übungsblattes.
23
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Überblick
• Häufigkeiten
• Lage- und Streuparameter
• Explorative Datenanalyse
• Datenmodifikation
24
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Explorative Datenanalyse• Fehlerhaft erhobene oder eingegebene Daten bedeuten die
Verzerrung der Ergebnisse, deshalb sollten Daten vor Beginnder Datenanalyse zunächst einer Plausibiltätsprüfungunterzogen werden
• Untersuchung und Begutachtung von Daten, von denen mannur geringes Wissen über deren Zusammenhänge hat
• Ziele der explorativen Datenanalyse
1. Überprüfung der Rohdaten und ggf. der Originalbelege
2. Prüfung der Verteilung der Werte und Identifikation vonAusreißern
3. Bildung von Hypothesen über Gründe undZusammenhänge, die vorher nicht erkennbar waren
4. Hilfe zur Wahl des passenden statistischen Werkzeuges
• Stängel-Blatt-Diagramm
• Histogramm
• Perzentile
• M-Schätzer
• Ausreißer
• Schachtel-Diagramm
• Normalverteilungstest
25
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Explorative Datenanalyse
1. Grafische Darstellung der Werteverteilung
• Stängel-Blatt-Diagramm (Stem-and-Leaf)
• Histogramm
2. Lage der Werte beschreiben
• Perzentile
• Ausreißer-Analyse
• M-Schätzer
3. Test auf Normalverteilung
• Stängel-Blatt-Diagramm
• Histogramm
• Perzentile
• Ausreißer
• Schachtel-Diagramm
• M-Schätzer
• Normalverteilungstest
26
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Frequency Stem & Leaf3,00 10 . 1353,00 11 . 1220,00 12 .1,00 13 . 4
Stem width: 10,00Each leaf: 1 case(s)
Stem-and-Leaf Plot (Stängel-Blatt-Diagramm)• Übersichtliche Darstellung von Variablen mit vielen unterschiedlichen Werten• Liefert einen grafischen Eindruck von der Verteilung der Werte• Erstellung per Hand
– Die n Beobachtungswerte werden der Größe nach geordnet• 101, 103, 105, 111, 112, 112, 134
– Wahl der Blatteinheit (stem width) (Zahl mit der multipliziert werden muss, um zum ursprünglichen Wert zurückzukehren)
• Üblicherweise … 0,1 bzw. 1 bzw. 10 bzw. 100 …• So wählen, dass beim Teilen eine Nachkommastelle stehen bleibt. Hier: 10
– Beobachtungswerte durch die Blatteinheit teilen• 10,1 ; 10,3 ; 10,5 ; 11,1 ; 11,2 ; 11,2 ; 13,4
– Den Modulus der Zahl (ohne Komma) bezeichnen wir als Stamm– Den Wert hinter dem Komma als Blatt
27
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Stem-and-Leaf Plot (Stängel-Blatt-Diagramm) ST8. Wie groß bist Du? (in cm)
Gibt den ganzzahligen Teilder Werte wieder
Gibt den Dezimalteil derWerte wieder
Gibt an, um welchen Faktor dieUrsprungswerte von den imDiagramm angegebenenWerten abweichen
Gibt die Anzahl der Werte an,die durch ein Blatt repräsentiertwerden
Größe Stem-and-Leaf Plot
Frequency Stem & Leaf
1,00 15 . 8 15,00 16 . 000000233344444 20,00 16 . 55555556677888888999 29,00 17 . 00000000000011222222333333344 23,00 17 . 55555666666777888889999 19,00 18 . 0000000112222233444 10,00 18 . 5556667889 3,00 19 . 034 2,00 19 . 56
Stem width: 10 Each leaf: 1 case(s)
28
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Histogramm• Das Histogramm vermittelt den gleichen Eindruck von der Werteverteilung wie das Stängel-Blatt-
Diagramm, gibt aber keine Auskunft über die Verteilung der Werte innerhalb der einzelnen Klassen• Werte werden in gruppierter Form (Werteklassen) betrachtet und durch Säulen dargestellt (Bereiche
haben gleiche Breite). Die Werteklassen werden von SPSS automatisch gebildet.• Nur metrische Daten
* SPSS benötigt metrische Daten für die Darstellung eines Histogramms, in der Statistik gibt es Histogramme für ordinalskalierte Daten
Wenigaussagekräftig, weilsich jeder einzelneBalken auf eineeinzelne Kategoriebezieht.
29
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Explorative Datenanalyse
1. Grafische Darstellung der Werteverteilung
• Stängel-Blatt-Diagramm (Stem-and-Leaf)
• Histogramm
2. Lage der Werte beschreiben
• Perzentile
• Ausreißer-Analyse
• M-Schätzer
3. Test auf Normalverteilung
• Stängel-Blatt-Diagramm
• Histogramm
• Perzentile
• Ausreißer
• Schachtel-Diagramm
• M-Schätzer
• Normalverteilungstest
30
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
3
7
4
8
5
9
6
10
6
11
261387322211Ausprägung
15141312654321Fallnummer
Das 40%-Perzentil dieser Verteilunghat den Wert 3 (0,4*15 = 6)
Das 50%-Perzentil (Median) dieserVerteilung hat den Wert 4(0,5*15 = 7,5 → 8)
Perzentile (auch Quantile, Fraktile)• Ordnet man die Beobachtungswerte eines Merkmals der Reihe nach, so bestimmt sich der Wert
eines x%-Perzentils durch die Ausprägung des Falles an der x%ten Stelle.
31
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Perzentile (auch Quantile, Fraktile)
32
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Perzentile (auch Quantile, Fraktile)• Die Explorative Datenanalyse gibt eine vorgegebene Auswahl an Perzentilen aus.
• Mit Hilfe der Funktion „Häufigkeiten“ lassen sich benutzerdefinierte Perzentile ausgeben(Analysieren > Deskriptive Statistik > Häufigkeiten > Statistik)
Perzentile
19,00 19,00 21,00 22,00 25,00 27,00 29,00
21,00 22,00 25,00
A lter
A lter
Gew ichtetes Mittel
(Def inition 1)
Tukey-Angelpunkte
5 10 25 50 75 90 95
Perzentile
Statistiken
Alter123
6
19,00
20,00
21,00
21,00
22,00
23,00
24,00
25,00
27,00
Gültig
Fehlend
N
10
20
30
40
50
60
70
80
90
Perzentile
33
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Ausreißeranalyse (Extremwerte)• Durch das Anzeigen der Extremwerte (kleinste und größte Werte) können Ausreißer entdeckt
werden.Extremw erte
96 **
71 33
77 31
51 30
50 29a
106 18
104 18
124 19
119 19
114 19b
1
2
3
4
5
1
2
3
4
5
Größte Werte
Kleinste Werte
A lterFallnummer Wert
Nur eine partielle Liste von Fällen mit dem Wert 29
w ird in der Tabelle der oberen Extremw erte angezeigt.
a.
Nur eine partielle Liste von Fällen mit dem Wert 19
w ird in der Tabelle der unteren Extremw erte angezeigt.
b.
34
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Schachtel-Diagramm (Box Plot)• Stellt die Lage der Werte und deren Streuung im Definitionsbereich dar
• Ausreißer und Extremwerte werden sichtbar gemacht
Ausreißer (°): Werte, die mehr als 1,5 Box-Längen vom 25%- oder75%-Perzentil entfernt sind
Extremwerte (*): Werte, die mehr als 3 Box-Längen vom 25%- oder75%-Perzentil entfernt sind
35
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Schachtel-Diagramm (Box Plot)• Stellt die Lage der Werte und deren Streuung im Definitionsbereich dar
• Ausreißer und Extremwerte werden sichtbar gemacht
Median
Ausreißer
75% Perzentil
25% Perzentil
50% derFälle
Ausreißer (°): Werte, die mehr als 1,5 Box-Längen vom 25%- oder75%-Perzentil entfernt sind
Extremwerte (*): Werte, die mehr als 3 Box-Längen vom 25%- oder75%-Perzentil entfernt sind
niedrigster Wert, derkein Ausreißer ist
höchster Wert, derkein Ausreißer ist
36
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
M-Schätzer (Maximum-Likelihood-Schätzer)• Mittelwertberechnung unter Berücksichtigung von Extremwerten
• Werte werden bei der Berechnung unterschiedlich stark gewichtet (je stärker ein Wert von denübrigen Werten abweicht, desto geringer ist das Gewicht)
Statistiken
Alter123
6
24,41
Gültig
Fehlend
N
Mittelwert
M-Schätzer
22,48 22,30 22,47 22,29Alter
M-Schätzer
nach Hubera
Tukey-
Biweightb
M-Schätzer
nach Hampelc
Andrews-
Welled
Die Gewichtungskonstante ist 1,339.a.
Die Gewichtungskonstante ist 4,685.b.
Die Gewichtungskonstanten sind 1,700, 3,400 und 8,500c.
Die Gewichtungskonstante ist 1,340*pi.d.
Statistiken
Alter123
6
22,79
Gültig
Fehlend
N
Mittelwert
Datenbasis mit Fehleingaben Berichtigte Datenbasis
37
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Explorative Datenanalyse
1. Grafische Darstellung der Werteverteilung
• Stängel-Blatt-Diagramm (Stem-and-Leaf)
• Histogramm
2. Lage der Werte beschreiben
• Perzentile
• Ausreißer-Analyse
• M-Schätzer
3. Test auf Normalverteilung
• Stängel-Blatt-Diagramm
• Histogramm
• Perzentile
• Ausreißer
• Schachtel-Diagramm
• M-Schätzer
• Normalverteilungstest
38
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Test auf Normalverteilung
• Zahlreiche statistische Verfahren setzen voraus, dass die zu untersuchenden Daten annäherndnormalverteilt sind
• SPSS bietet mit der Prozedur „Explorative Datenanalyse“ folgende Möglichkeiten Daten aufNormalverteilung zu prüfen
• NormalverteilungsplotsEmpirisch beobachtete Werte werden den erwarteten Werten bei einer Normalverteilunggegenübergestellt
• SignifikanztestsErrechnung einer Wahrscheinlichkeit, mit der das Zurückweisen der Hypothese, die Werte seiennormalverteilt, fehlerhaft ist
39
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Normalverteilungsplots
Theoretische Werteeiner Normalverteilung
• Sind die empirischen Werte normalverteilt,müssen die einzelnen Punkte weitgehend demVerlauf der Geraden folgen.
• Gravierender ist die Stärke der Abweichung inderen Form. Folgen die Werte einem klarenMuster, weichen die Werte systematisch vonder Normalverteilung ab.
• Diese Grafik ist geeignet um ein Muster in denAbweichungen zu erkennen
• Wären die Stichprobenwerte normalverteilt,müssten die Punkte in der Grafik zufällig undnicht einem Muster folgend um die horizontaleLinie streuen.
• das Alter ist in der Grundgesamtheit nicht normalverteilt
40
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Explorative Datenanalyse
Signifikanztests• Der Kolmogorov-Smirnov- und der Shapiro-Wilk-Test überprüfen beide die Nullhypothese, die Werte
der untersuchten Variablen seien in der Grundgesamtheit normalverteilt
• Es wird eine Wahrscheinlichkeit errechnet, mit der das Zurückweisen dieser Hypothese falsch ist
• Je größer die Irrtumswahrscheinlichkeit, desto eher kann davon ausgegangen werden, dass die Wertenormalverteilt sind.
• Kolmogorov-Smirnov: für große Stichproben geeignet
• Shapiro-Wilk-Test: ergänzend für kleine Stichproben (etwa weniger als 50)
• Annahme einer Normalverteilung ist zurückzuweisen
Tests auf Normalv erteilung
,143 123 ,000 ,942 123 ,000AlterStatistik df Signifikanz Statistik df Signifikanz
Kolmogorov-Smirnova
Shapiro-Wilk
Signifikanzkorrektur nach Lil l ieforsa.
Irrtumswahrscheinlichkeit
41
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Übungsblatt 2
Bitte bearbeiten Sie die
Aufgabe 3 des Übungsblattes.
42
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Überblick
• Häufigkeiten
• Lage- und Streuparameter
• Explorative Datenanalyse
• Datenmodifikation
43
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Datenmodifikation und -filterung
Datenmodifikation und -filterung
Umkodieren(Befehl: Transformieren → Umkodieren)
Veränderung der Werte einer schon vorhandenen Variablen
• in dieselbe Variable (alte Werte werden überschrieben)
• in eine neue Variable (die alte Variable bleibt erhalten)
• Sonderfall: Umkodierung in aufeinander folgende Zahlen
Berechnen(Befehl: Transformieren → Berechnen)
Ausführung von mathematischen Operationen mit den vorhandenen Datenwerten
(z.B. Merkmalsausprägungen addieren, Index bilden)
44
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Datenmodifikation und -filterung
Datenmodifikation und -filterung
Untersuchungen anhand einer kategorialen (Gruppierungs-) Variablen(Befehl: Daten → Datei aufteilen)Analyse von unterschiedlichen Teildatenmengen
Untersuchungen anhand von kontinuierlichen Variablen(Befehl: Daten → Fälle auswählen)Analyse von Daten, die anhand der Werte ihrer Variablen ausgewählt werden
Gewichtung von Fällen(Befehl: Daten → Fälle gewichten)Zuweisung von Gewichten auf die unterschiedlichen Fälle der Datendatei, um dieRepräsentativität der Ergebnisse zu gewährleisten (manche Daten sind über- oderunterrepräsentiert). Die Gewichtungsfaktoren werden bei den nachfolgenden statistischenAnalysen berücksichtigt.
45
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Datenmodifikation und -filterung
Datenmodifikation und -filterung• Umkodieren
46
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Datenmodifikation und -filterung
Datenmodifikation und -filterung• Berechnen
47
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Datenmodifikation und -filterung
Datenmodifikation und -filterung• Untersuchungen anhand einer kategorialen (Gruppierungs-) Variablen
48
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Datenmodifikation und -filterung
Datenmodifikation und -filterung• Untersuchungen anhand von kontinuierlichen Variablen
49
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Datenmodifikation und -filterung
Datenmodifikation und -filterung• Gewichtung von Fällen
50
Statistische Auswertungsverfahren mit SPSS
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Übungsblatt 2
Bitte bearbeiten Sie die
restlichen Fragen des
Übungsblattes.
Statistische Auswertungsverfahren mit SPSSProf. Dr. Andrea RaabFachhochschule Ingolstadt
V3
Statistische Auswertungsverfahren mit SPSS
2
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Überblick
• Analyse von Mehrfachantworten
• Kreuztabellen
• Korrelationen
• Regression
Statistische Auswertungsverfahren mit SPSS
3
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Analyse von Mehrfachantworten
Mehrfachantworten• Fragen, auf die Probanden mehrere Antworten gleichzeitig gegeben können
• Beispiel:
• Unabhängig davon, wie viele Kreuze der Befragte setzt, gibt es jedoch in jedem Fall neunAntwortkategorien
• Die Antworten können nicht in einer Variable gespeichert werden → die Gruppe von Antworten sollaber so ausgewertet werden, als wären die Informationen nur in einer Variablen gespeichert
• SPSS bietet zwei verschiedene Methoden an: Methode multipler Kategorien
Methode multipler Dichotomien
x
x
x
Statistische Auswertungsverfahren mit SPSS
4
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Analyse von Mehrfachantworten
Mehrfachantworten zur Analyse aufbereiten
• Methode multipler Kategorien:• Anzahl der zu ankreuzenden Antworten wurde beschränkt
(z.B.: Bitte kreuzen Sie maximal 3 Antworten an)→ Anzahl der Variablen entspricht der maximalen Anzahl an Antworten
• Falls nicht angegeben wurde, wie viele Antworten angekreuzt werden sollen, kann die Anzahlder maximalen Antworten durch Schätzung oder Durchsicht der Fragebögen ermittelt werden
• Die Kodierung erfolgt wie bei Einfachantworten
F3_1
F3_2
F3_3
F3_99 F3_s
123
456
78
9
→ 1,2,3,4,5,6,7,8,9→ 1,2,3,4,5,6,7,8,9
→ 1,2,3,4,5,6,7,8,9
Statistische Auswertungsverfahren mit SPSS
5
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Analyse von Mehrfachantworten
Mehrfachantworten zur Analyse aufbereiten
• Methode multipler Dichotomien:• Keine Beschränkung bei der Anzahl der zu
ankreuzenden Antworten→ für jede Antwortmöglichkeit wird eine Variable erstellt
• Häufig verwendete Codierung:„1 = wurde gewählt“, „0 = wurde nicht gewählt“
• Vorteil: klare Struktur der Kodierung• Nachteil: hohe Anzahl an Variablen
F3_1F3_2F3_3
F3_4F3_5F3_6
F3_7F3_8
F3_9F3_99 F3_9s
umkodieren
1/01/0
1/0 1/01/01/0 1/0
1/0
1/01/0
Um diese Frage noch eindeutiger zu stellen, müssten eigentlich zweiFragen formuliert werden. (1. Treibst du Sport; 2. WelchesSportangebot an der Fachhochschule Ingolstadt nutzt Du?)
Statistische Auswertungsverfahren mit SPSS
6
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Analyse von Mehrfachantworten
Häufigkeitsauswertung von Mehrfachantworten• Multiple Dichotomien
• Häufigkeitsauswertung über jede einzelne Variable und Vergleich der einzelnen Analysen→ sehr umständlich und weniger anschaulich
• Multiple Kategorien• Häufigkeitsauswertung über jede Antwortvariable→ wenig aussagekräftig, da eine bestimmte Antwort in jeder der in Frage kommenden Variablen gespeichert sein könnte
Lösung: Variablen zu Sets zusammenfassen
• Zusammengehörende Variablen in Sets zusammenfassen
• Analyse der Daten mit Prozeduren, die speziell für Mehrfachantworten entwickelt wurden
• „Analysieren > Mehrfachantworten > Sets definieren“
• Sets für multiple DichotomienAlle Variablen der Mehrfachantworten werden zu einer Gruppe zusammengefasst, dabei muss angegebenwerden, welche Kodierung bei späteren Analysen von Interesse ist (z.B. 1 = wurde gewählt)→ Analyse über alle Variablen, mit welcher Häufigkeit die angegebene Kodierung auftritt
• Sets für multiple KategorienAlle Antwortvariablen werden zu einer Gruppe zusammengefasst, dabei müssen alle Kodierungen angegebensein, die bei der Analyse ausgezählt werden sollen (1 = Aerobic, 2 = Badminton etc.)→ Analyse, mit welcher Häufigkeit die einzelnen Kodierungen im Set enthalten sind
• Mehrfachantworten-Sets werdennicht mit der Datendatei gespeichert→ Syntax (kein „Einfügen“ Button)
Statistische Auswertungsverfahren mit SPSS
7
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Analyse von Mehrfachantworten
Variablen zu Setz zusammenfassen F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du?
(Mehrfachnennungen möglich)
Statistische Auswertungsverfahren mit SPSS
8
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Analyse von Mehrfachantworten
Häufigkeitsauswertung von Mehrfachantworten F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich)
Statistische Auswertungsverfahren mit SPSS
9
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Analyse von Mehrfachantworten
• Von 129 Probanden nutzen 46% das Sportangebotan der FHI
• Von allen angebotenen Sportarten wird Aerobic ammeisten besucht (17%)
• 25% der Studenten, die das Sportangebot an derFHI nutzen, nehmen an der Sportart Aerobic teil.
• Die Kategorie „mache keinen Sport“ sowie dieSpezifizierung der Kategorie „Sonstige“ müssenseparat ausgewertet werden. Es kann jedoch dieSchlussfolgerung gezogen werden, dass die 70fehlenden Fälle keinen Sport treiben.
Häufigkeitsauswertung von Mehrfachantworten F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich)
• Fälle, bei denen keine Set-Variable den angegebenen Wert(1) annimmt, werden als fehlend bezeichnet
Fallzusammenfassung
59 45,7% 70 54,3% 129 100,0%$Sportangebot_set aN Prozent N Prozent N Prozent
Gültig Fehlend Gesamt
Fälle
Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1.a.
Häufigkeiten v on $Sportangebot_set
15 17,0% 25,4%
6 6,8% 10,2%
8 9,1% 13,6%
3 3,4% 5,1%
11 12,5% 18,6%
11 12,5% 18,6%
6 6,8% 10,2%
10 11,4% 16,9%
18 20,5% 30,5%
88 100,0% 149,2%
Aerobic
Badminton
Basketball
Fechten
Fitness
Fußball
Lauftreff
Volleyball
Sonstiges
Sportangebota
Gesamt
N Prozent
Antworten Prozent
der Fälle
Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1.a.
Statistische Auswertungsverfahren mit SPSS
10
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Übungsblatt 3
Bitte bearbeiten Sie die
Aufgabe 1 des Übungsblattes.
Statistische Auswertungsverfahren mit SPSS
11
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Überblick
• Analyse von Mehrfachantworten
• Kreuztabellen
• Korrelationen
• Regression
Statistische Auswertungsverfahren mit SPSS
12
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Kreuztabellen
Kreuztabellen• Kreuztabellen dienen dazu, die gemeinsame Häufigkeitsverteilung zweier Variablen darzustellen.
Es handelt sich um das Pendant zu einer Häufigkeitstabelle für den 2-Variablen-Fall.
• Es werden Fallgruppen betrachtet, die sich durch die Kombination aus zwei Variablen zusammensetzen
• Kreuztabellen sind zur Betrachtung nominal- oder ordinalskalierten Variablen geeignet
• Die Prozedur Kreuztabellen beschränkt sich nicht nur auf die Verteilung von zwei Variablen, sondernbietet auch statistische Zusammenhangstests und Zusammenhangsmaße an
Analysemöglichkeiten mit der Prozedur Kreuztabellen
• Kreuztabellen (nominal- und ordinalskalierte Variablen)
• Chi-Quadrat-Test (nominal- und ordinalskalierte Variablen)Untersucht, z.B. ob aus den Stichprobenbeobachtungen geschlossen werden kann, dasszwischen zwei kategorialen Variablen in der Grundgesamtheit ein Zusammenhang besteht
• Zusammenhangsmaße (nominal-, ordinal- und intervallskalierte Variablen)Bringen durch eine Maßzahl die Stärke eines Zusammenhangs zwischen zwei Variablen zumAusdruck
Statistische Auswertungsverfahren mit SPSS
13
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Kreuztabellen
Kreuztabellen auswertenST2. Im wievielten Semester studierst Du?ST6. Rauchst Du?(Erstellung einer Kreuztabelle und eines Balkendiagramms)
Statistische Auswertungsverfahren mit SPSS
14
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Kreuztabellen
Raucher * Semester Kreuztabelle
Anzahl
20 14 14 13 4 65
3 2 5 7 3 20
7 9 11 11 1 39
30 25 30 31 8 124
Nein, ich rauche nicht
Ja, hin und wieder
Ja, regelmäßig
Raucher
Gesamt
1 3 5 7 9
Semester
Gesamt
Kreuztabellen auswertenST2. Im wievielten Semester studierst Du?ST6. Rauchst Du?(Erstellung einer Kreuztabelle und eines Balkendiagramms)
Statistische Auswertungsverfahren mit SPSS
15
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Kreuztabellen
Kreuztabellen auswerten• Erwartete Häufigkeit: Häufigkeit, die vorliegen müsste, wenn kein statistischer Zusammenhang
vorliegen würde (Zeilensumme * Spaltensumme / Gesamtsumme der Häufigkeit)
• Relative Häufigkeit: absolute Häufigkeit dargestellt in Prozent
• prozentuale Zeilenhäufigkeit: Prozentuierung auf den jeweiligen Zeilensummenwert
• prozentuale Spaltenhäufigkeit: Prozentuierung auf den jeweiligen Spaltensummenwert
• prozentuale Gesamthäufigkeit: Prozentuierung auf die Gesamtzahl der gültigen Fälle
Statistische Auswertungsverfahren mit SPSS
16
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Kreuztabellen
Raucher * Semester Kreuztabelle
20 14 14 13 4 65
15,7 13,1 15,7 16,3 4,2 65,0
30,8% 21,5% 21,5% 20,0% 6,2% 100,0%
66,7% 56,0% 46,7% 41,9% 50,0% 52,4%
16,1% 11,3% 11,3% 10,5% 3,2% 52,4%
3 2 5 7 3 20
4,8 4,0 4,8 5,0 1,3 20,0
15,0% 10,0% 25,0% 35,0% 15,0% 100,0%
10,0% 8,0% 16,7% 22,6% 37,5% 16,1%
2,4% 1,6% 4,0% 5,6% 2,4% 16,1%
7 9 11 11 1 39
9,4 7,9 9,4 9,8 2,5 39,0
17,9% 23,1% 28,2% 28,2% 2,6% 100,0%
23,3% 36,0% 36,7% 35,5% 12,5% 31,5%
5,6% 7,3% 8,9% 8,9% ,8% 31,5%
30 25 30 31 8 124
30,0 25,0 30,0 31,0 8,0 124,0
24,2% 20,2% 24,2% 25,0% 6,5% 100,0%
100,0% 100,0% 100,0% 100,0% 100,0% 100,0%
24,2% 20,2% 24,2% 25,0% 6,5% 100,0%
Anzahl
Erwartete Anzahl
% von Raucher
% von Semester
% der Gesamtzahl
Anzahl
Erwartete Anzahl
% von Raucher
% von Semester
% der Gesamtzahl
Anzahl
Erwartete Anzahl
% von Raucher
% von Semester
% der Gesamtzahl
Anzahl
Erwartete Anzahl
% von Raucher
% von Semester
% der Gesamtzahl
Nein, ich rauche nicht
Ja, hin und wieder
Ja, regelmäßig
Raucher
Gesamt
1 3 5 7 9
Semester
Gesamt
bei Normalverteilung beider Merkmale
Statistische Auswertungsverfahren mit SPSS
17
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Kreuztabellen
• Durch Schichtungsvariablen lassen sich mehrdimensionale Häufigkeitstabellen erstellen.ST2. Im wievielten Semester studierst Du?ST6. Rauchst Du?(Erstellung einer Kreuztabelle und eines Balkendiagramms mit der Schichtungsvariable Geschlecht.)
Einsatz von Gruppen – und Schichtenvariablen
Statistische Auswertungsverfahren mit SPSS
18
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Kreuztabellen
Raucher * Semester * Geschlecht Kreuztabelle
Anzahl
10 5 3 4 2 24
1 1 0 5 3 10
2 4 5 7 0 18
13 10 8 16 5 52
10 9 11 9 2 41
2 1 5 2 0 10
5 5 6 4 1 21
17 15 22 15 3 72
Nein, ich rauche nicht
Ja, hin und wieder
Ja, regelmäßig
Raucher
Gesamt
Nein, ich rauche nicht
Ja, hin und wieder
Ja, regelmäßig
Raucher
Gesamt
Geschlechtmännlich
weiblich
1 3 5 7 9
Semester
Gesamt
ST2. Im wievielten Semester studierst Du?ST6. Rauchst Du?(Erstellung einer Kreuztabelle und eines Balkendiagramms mit der Schichtungsvariable Geschlecht.)
Einsatz von Gruppen – und Schichtenvariablen
Statistische Auswertungsverfahren mit SPSS
19
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Kreuztabellen
Chi-Quadrat-Test (Signifikanztest für mindestens nominalskalierte Daten)
• Zwei Variablen sind voneinander unabhängig (Annahme der Nullhypothese), wenn diebeobachteten Häufigkeiten mit den erwarteten Häufigkeiten übereinstimmen→ Beispielfragestellung: Besteht zwischen zwei Variablen ein Zusammenhang?
• Nullhypothese: In der Grundgesamtheit liegt kein Zusammenhang zwischen den Variablen vor.• Alternativhypothese: In der Grundgesamtheit liegt ein Zusammenhang zwischen den Variablen vor.
• Drei verschiedenen Modelle:• Pearson-Test
am häufigsten verwendeter Test• Likelihood-Test
liefert bei großen Stichproben das gleicheErgebnis wie der Person-Test
• Linear mit linearmisst den linearen Zusammenhang zwischenden Variablen (min. Ordinalskalierung)
• Voraussetzung für Zuverlässigkeit des Tests• erwartete Häufigkeit von mindestens 5 in jeder Zelle• nach Möglichkeit Kreuztabelle mit mehr als 5 Felder• nominal- und ordinalskalierte Daten
• Ein Signifikanzwert von „0,000“ sagt aus, dass man, wenn man die Nullhypothese ablehnt (es bestehtkein Zusammenhang), mit einer Wahrscheinlichkeit von 0,0% einen Fehler begeht.
Statistische Auswertungsverfahren mit SPSS
20
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Kreuztabellen
Chi-Quadrat-Test (Signifikanztest für mindestens nominalskalierte Daten)
höchst signifikant
sehr signifikant
signifikant
nicht signifikant
Bedeutung
Unter oder gleich 0,001
Über 0,001 bis 0,01
Über 0,01 bis 0,05
Über 0,05
Irrtumswahr-scheinlichkeit*
• Es besteht kein signifikanter Zusammenhangzwischen dem Rauchverhalten und der Anzahl derSemesteranzahl, da p = 0,343.
• Die Nullhypothese wird angenommen und dieAlternativhypothese verworfen.
ST2. Im wievielten Semester studierst Du?ST6. Rauchst Du?(Prüfung, ob ein Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semester besteht)
*die mit einem Zurückweisen der Nullhypothese verbunden ist.
Chi-Quadrat-Tests
8,991a
8 ,343
8,895 8 ,351
1,436 1 ,231
124
Chi-Quadrat nach
Pearson
Likelihood-Quotient
Zusammenhang
linear-mit-l inear
Anzahl der gültigen Fälle
Wert df
Asymptotisch
e Signifikanz
(2-seitig)
6 Zellen (40,0%) haben eine erwartete Häufigkeit kleiner 5.
Die minimale erwartete Häufigkeit ist 1,29.
a.
Statistische Auswertungsverfahren mit SPSS
21
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Kreuztabellen
Zusammenhangsmaße• Einschätzung der Stärke eines Zusammenhangs und Quantifizierung anhand einer Maßzahl. Eine präzise Aussage
über die Stärke ist anhand der Zusammenhangsmaße nicht möglich.• Die Anwendbarkeit eines Zusammenhangsmaßes ist vom Skalenniveau der betrachteten Variablen abhängig• Ein Wert von 0 bedeutet völlige Unabhängigkeit und ein Wert von 1 bedeutet größte Abhängigkeit
(für Zusammenhangsmaße, deren Ausgabe zwischen 0 und 1 liegt)
Wert zwischen -1 und +1Abhängige und unabhängige Variable müssen min.intervallskaliert sein; Normalverteilung der VariablenPearsons Korrelationskoeffizient
Wert zwischen 0 und 1Abhängige Variable ist intervall- und unabhängige nominal- oderordinalskaliertEta
Intervallskalierte VariablenUnempfindlich gegen unterschiedliche TabellenformateKendalls Tau-c
Nur für quadratische TabellenKendalls Tau-b Wert zwischen -1 und +1
Betrachtet eine der beiden Variablen als abhängig und eine alsunabhängigGamma, Somers d
Ordinalskalierte Variablen
Lambda ist ein eher grobes Maß und kann auch 0 annehmen,wenn eine Abhängigkeit gegeben istLambda, Unsicherheitskoeffizient
Wert zwischen 0 und 1
Werte für Tabellen mit unterschiedlicher Feldanzahl sind nurbedingt vergleichbarKontingenzkoeffizient
Unempfindlich gegen unterschiedliche Tabellenformate undFallzahlenCramers V
AusgabeBesonderheitenZusammenhangsmaß
Liefert nur für 2x2 Tabellen (Vierfeldertafel) verlässlicheErgebnisse und ist stark abhängig von der Anzahl der FällePhi
Nominalskalierte Variablen
BESTE WAHL!
Statistische Auswertungsverfahren mit SPSS
22
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Kreuztabellen
ZusammenhangsmaßeST2. Im wievielten Semester studierst Du?ST6. Rauchst Du?(Prüfung, wie stark der Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semester ist)
Symmetrische Maße
,269 ,343
,190 ,343
,260 ,343
124
Phi
Cramer-V
Kontingenzkoeffizient
Nominal- bzgl.
Nominalmaß
Anzahl der gültigen Fälle
Wert
Näherung
sweise
Signifikanz
Die Null-Hyphothese wird nicht angenommen.a.
Unter Annahme der Null-Hyphothese wird der asymptotische
Standardfehler verwendet.
b.
Perfekter Zusammenhang1Sehr starker Zusammenhang0,8 bis unter 1Starker Zusammenhang0,6 bis 0,8Mittlerer Zusammenhang0,4 bis 0,6Schwacher Zusammenhang0,2 bis 0,4Sehr schwacher Zusammenhangüber 0 bis 0,2Kein Zusammenhang0
Mögliche InterpretationZusammenhangsmaß
Orientierungshilfe; Brosius 2004, 525
Statistische Auswertungsverfahren mit SPSS
23
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Übungsblatt 3
Bitte bearbeiten Sie die
Aufgabe 2, 3, 4 und 5 des
Übungsblattes.
Statistische Auswertungsverfahren mit SPSS
24
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Überblick
• Analyse von Mehrfachantworten
• Kreuztabellen
• Korrelationen
• Regression
Statistische Auswertungsverfahren mit SPSS
25
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Korrelationen
Korrelationen
• Zielsetzung: Zusammenhänge zwischen zwei Variablen aufdecken, quantifizieren (und testen)
• Beide Variablen sind „gleichberechtigt“ (keine abhängige und unabhängige Variable)
• Der Korrelationskoeffizient (R) ist ein Maß für die Stärke und die Richtung des linearenZusammenhangs zweier Variablen
– Der Betrag ist umso größer, je stärker der lineare Zusammenhang zwischen den Variablen ist
– Wird ein Korrelationskoeffizient von „0“ berechnet, kann dennoch ein perfekter nicht linearerZusammenhang zwischen den Variablen bestehen→ Streudiagramm
+1 → perfekt positiver Zusammenhang 0 → kein linearer Zusammenhang-1 → perfekt negativer Zusammenhang
Perfekte Korrelation1Sehr starke Korrelation0,8 bis unter 1Starke Korrelation0,6 bis 0,8Mittlere Korrelation0,4 bis 0,6Schwache Korrelation0,2 bis 0,4Sehr schwache Korrelationüber 0 bis 0,2Keine Korrelation0
Mögliche InterpretationKorrelationskoeffizient
Orientierungshilfe; Brosius 2004, 525
Statistische Auswertungsverfahren mit SPSS
26
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Korrelationen
Korrelationen ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)
Statistische Auswertungsverfahren mit SPSS
27
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Korrelationen
Korrelationen• In einem Streudiagramm werden die Werte von zwei Variablen gegeneinander abgetragen• Jeder Fall wird durch einen Punkt im Diagramm dargestellt ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)
-20000,00 -15000,00 -10000,00 -5000,00 0,00
Variable 2
0
5000
10000
15000
20000
Vari
ab
le 1
-10,00 -5,00 0,00 5,00 10,00
Variable 2
0
200
400
600
800
1000
Vari
ab
le 1
Statistische Auswertungsverfahren mit SPSS
28
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Korrelationen
Korrelationen
• Wahl der Korrelationskoeffizienten hängt vom Skalenniveau der betreffenden Variablen ab
Pearsons Korrelationskoeffizient
– Die Variablen müssen mindestens intervallskaliert sein
– Die Variablen müssen in der Grundgesamtheit annähernd normalverteilt sein
Kendalls Tau-b, Spearmans Rho
– Die Variablen müssen mindestens ordinalskaliert sein
– Die Variablen müssen nicht normalverteilt sein
Signifikanztest• Rückschlüsse über die Signifikanz eines linearen Zusammenhangs der Variablen von der
Stichprobe auf die Grundgesamtheit können über einen Signifikanztest gezogen werden
• Wahl des Signifikanztests hängt vom Skalenniveau der betreffenden Variablen ab(SPSS wählt auf Basis des Korrelationskoeffizienten den richtigen Signifikanztest)
– Nominalskalenniveau, z.B. Chi-Quadrat Test
– Ordinalskalenniveau, z.B. Mann-Whitney Test
– Metrisches Skalenniveau, z.B. T-Test(Voraussetzung: Variablen normalverteilt)
höchst signifikantsehr signifikantsignifikantnicht signifikant
Bedeutung
Unter oder gleich 0,001Über 0,001 bis 0,01Über 0,01 bis 0,05
Über 0,05
Irrtumswahr-scheinlichkeit*
*die mit einem Zurückweisen der Nullhypothese verbunden ist.
Statistische Auswertungsverfahren mit SPSS
29
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Korrelationen
Korrelationen• Analysieren > Korrelation > Bivariat ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)
Statistische Auswertungsverfahren mit SPSS
30
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Korrelationen
1 ,583**
,000
123 123
,583** 1
,000
123 125
Korrelation nach Pearson
Signifikanz (2-seitig)
N
Korrelation nach Pearson
Signifikanz (2-seitig)
N
Alter
Semester
Alter Semester
Die Korrelation ist auf dem Niveau von 0,01 (2-seitig)
signifikant.
**.
Korrelationen
1 ,583**
,000
123 123
,583** 1
,000
123 125
Korrelation nach Pearson
Signifikanz (1-seitig)
N
Korrelation nach Pearson
Signifikanz (1-seitig)
N
Alter
Semester
Alter Semester
Die Korrelation ist auf dem Niveau von 0,01 (1-seitig)
signifikant.
**.
Korrelationen
Korrelationsmaße• Pearsons Korrelationskoeffizient ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)
• Es liegt eine mittlere Korrelation der beiden Variablen vor. LautSignifikanztest kann der errechnete Korrelationskoeffizient mit einerIrrtumswahrscheinlichkeit von 0% auf die Grundgesamtheitübertragen werden (signifikant).
Tests auf Normalverteilung
,164 123 ,000 ,890 123 ,000
,143 123 ,000 ,942 123 ,000
Semester
Alter
Statistik df Signifikanz Statistik df Signifikanz
Kolmogorov-Smirnova
Shapiro-Wilk
Signifikanzkorrektur nach Lillieforsa.
Zweiseitiger Signifikanztest Einseitiger Signifikanztest
Da die Variablen nicht normalverteilt sind, kann PearsonsKorrelationskoeffizient nicht berechnet werden. In einemnächsten Schritt könnte man sich überlegen, ob trotz Testnicht doch eine Normalverteilung angenommen werden kann.
redundan
t
Statistische Auswertungsverfahren mit SPSS
31
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Korrelationen
Korrelationsmaße• Pearsons Korrelationskoeffizient ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)
• Es liegt eine mittlere Korrelation der beiden Variablen vor. LautSignifikanztest kann der errechnete Korrelationskoeffizient mit einerIrrtumswahrscheinlichkeit von 0% auf die Grundgesamtheitübertragen werden (höchst signifikant).
Korrelationen
1,000 ,517**
. ,000
125 123
,517** 1,000
,000 .
123 123
1,000 ,643**
. ,000
125 123
,643** 1,000
,000 .
123 123
Korrelationskoeffizient
Sig. (2-seitig)
N
Korrelationskoeffizient
Sig. (2-seitig)
N
Korrelationskoeffizient
Sig. (2-seitig)
N
Korrelationskoeffizient
Sig. (2-seitig)
N
Semester
Alter
Semester
Alter
Kendall-Tau-b
Spearman-Rho
Semester Alter
Die Korrelation ist auf dem 0,01 Niveau signifikant (zweiseitig).**.
Statistische Auswertungsverfahren mit SPSS
32
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Übungsblatt 3
Bitte bearbeiten Sie die
Aufgabe 6 des Übungsblattes.
Statistische Auswertungsverfahren mit SPSS
33
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Überblick
• Analyse von Mehrfachantworten
• Kreuztabellen
• Korrelationen
• Regression
Statistische Auswertungsverfahren mit SPSS
34
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Regressionsanalyse
Regressionsanalyse• Die Regressionsanalyse ist ein häufig verwendetes multivariates Analyseverfahren, da es
vielseitig und flexibel eingesetzt werden kann– Beschreibung und Erklärung von Zusammenhängen
– Durchführung von Prognosen
• Bestimmung der Parameter (a und b) einer Regressionsgeraden, sodass die Summe derquadrierten Abstände zwischen den Schätzwerten (Regressionsgerade) und den realen Wertenminimiert wird
• Einfache lineare Regression– Untersuchung der Abhängigkeit einer Variablen von einer Zweiten
– Voraussetzung: intervallskalierte, normalverteilte Variablen zwischen denen ein linearer Zusammenhangbesteht
– Beispiel: Wie verändert sich die Absatzmenge, wenn sich der Preis um 1€ erhöht?
• Multiple Regression– Untersuchung der Abhängigkeit einer Variablen von einer Kombination mehrerer anderer Variablen
– Beispiel: Wie beeinflussen Qualität, Preis, Design und Verpackung eines Produktes dieKundenzufriedenheit?
Statistische Auswertungsverfahren mit SPSS
35
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Regressionsanalyse
Regressionsgerade
y = abhängige Variable (Abiturnote)
a = Konstante (Schnittpunkt mit der Y-Achse)
b = Steigungsparameter
x = unabhängige Variable (Alter)
Y = Abiturnote
X = Alter AlterbaAbiturnote !+=
XbaY !+=
Einfache lineare Regression
Statistische Auswertungsverfahren mit SPSS
36
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Regressionsanalyse
Y = Abiturnote
X = Alter XY !+= 073,0449,0
Erklärte Abweichung
Nicht erklärte Abweichung
Gesamtabweichung
Einfache lineare Regression
Schätzgerade für die Abiturnote
Statistische Auswertungsverfahren mit SPSS
37
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Regressionsanalyse
Einfache lineare Regression
Statistische Auswertungsverfahren mit SPSS
38
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Regressionsanalyse
Einfache lineare RegressionAufgenommene/Entfernte Variablen b
Altera . EingebenModell1
Aufgenomme
ne Variablen
Entfernte
Variablen Methode
Alle gewünschten Variablen wurden aufgenommen.a.
Abhängige Variable: Abiturnoteb.
Modellzusammenfassung
,491a ,241 ,234 ,3878Modell1
R R-Quadrat
Korrigiertes
R-Quadrat
Standardf
ehler des
Schätzers
Einflußvariablen : (Konstante), Altera.
ANOVAb
5,532 1 5,532 36,781 ,000a
17,445 116 ,150
22,977 117
Regression
Residuen
Gesamt
Modell1
Quadrats
umme df
Mittel der
Quadrate F Signifikanz
Einflußvariablen : (Konstante), Altera.
Abhängige Variable: Abiturnoteb.
Koeffizientena
,449 ,275 1,632 ,105
,073 ,012 ,491 6,065 ,000
(Konstante)
Alter
Modell1
B
Standardf
ehler
Nicht standardisierte
Koeffizienten
Beta
Standardisie
rte
Koeffizienten
T Signifikanz
Abhängige Variable: Abiturnotea.
← benutzte Variablen
Statistische Auswertungsverfahren mit SPSS
39
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Modellzusammenfassung
,491a ,241 ,234 ,3878Modell1
R R-Quadrat
Korrigiertes
R-Quadrat
Standardf
ehler des
Schätzers
Einflußvariablen : (Konstante), Altera.
↑
Korrigiertes R-Quadrat
• Misst, wie viel Varianz derabhängigen Variable sich durchdie unabhängige Variableerklären lässt
• Je größer der Wert, desto besser(Wert: 0 – 1)
23,4% der Varianz in derAbiturnote lassen sich durch das„Alter“ erklären (schlechtesErgebnis)
Regressionsanalyse
Einfache lineare Regression
← Standardfehler des Schätzers
• Misst, wie nahe die durch dieRegressionsgleichungprognostizierten Werte an denwahren Werten liegen
Residuen
RegressionR =
• Misst den Anteil der erklärtenStreuung an der gesamtenStreuung (Fit desRegressionsmodells)
Statistische Auswertungsverfahren mit SPSS
40
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Regressionsanalyse
Einfache lineare Regression• Varianzanalyse für das Regressionsmodell
ANOVAb
5,532 1 5,532 36,781 ,000a
17,445 116 ,150
22,977 117
Regression
Residuen
Gesamt
Modell1
Quadrats
umme df
Mittel der
Quadrate F Signifikanz
Einflußvariablen : (Konstante), Altera.
Abhängige Variable: Abiturnoteb.
Gesamtabweichung = nicht erklärte Abweichung + erklärteAbweichung
• Das Regressionsmodell wird so geschätzt, dass die nicht erklärteAbweichung, die als aggregiertes Fehlermaß interpretiert werdenkann, minimiert wird.
Signifikanzwert sagt aus,ob die Variable Alter dazugeeignet ist, die Abiturnotevorherzusagen. Modellwäre geeignet, um dieAbiturnote vorherzusagen(siehe auch korrigiertes RQuadrat)
Residuen
RegressionR = Misst den Anteil der erklärten Streuung an der
gesamten Streuung (Fit des Regressionsmodells)
Statistische Auswertungsverfahren mit SPSS
41
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Regressionsanalyse
Einfache lineare Regression• Schätzfunktion in der Koeffizienten-Tabelle
Koeffizientena
,449 ,275 1,632 ,105
,073 ,012 ,491 6,065 ,000
(Konstante)
Alter
Modell1
B
Standardf
ehler
Nicht standardisierte
Koeffizienten
Beta
Standardisie
rte
Koeffizienten
T Signifikanz
Abhängige Variable: Abiturnotea.
Y = Abiturnote
X = Alter XY !+= 073,0449,0
Signifikanzwert sagt aus,ob die Variable „Alter“einen signifikantenZusammenhang mit der„Abiturnote“ aufweist.
Weist die Stärke undRichtung desZusammenhangs aus
Steigung derGerade
Achsen-abschnitt
Statistische Auswertungsverfahren mit SPSS
42
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Übungsblatt 3
Bitte bearbeiten Sie die
Aufgabe 7 des Übungsblattes.
Statistische Auswertungsverfahren mit SPSSProf. Dr. Andrea RaabFachhochschule Ingolstadt
V4
Statistische Auswertungsverfahren mit SPSS
2
Fachhochschule IngolstadtProf. Dr. Andrea Raab
• Arbeiten mit dem Syntaxeditor
• Mittelwertvergleiche
• Nichtparametrische und parametrische Tests
Inhaltliche Übersicht
Statistische Auswertungsverfahren mit SPSS
3
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Der Syntaxeditor• Syntax ist eine Programmiersprache, die nicht nur Befehle zur Ausführung von Berechnungen,
sondern auch Anweisungen zum Programmablauf enthält
• Der Syntaxeditor wird verwendet, um SPSS Prozeduren mit Hilfe von Befehlscode zu speichern,um sie zu einem späteren Zeitpunkt wieder abrufen zu können
• Er öffnet sich entweder automatisch indem man die Schaltfläche Einfügen in den jeweiligenAnalysedialogfeldern betätigt oder manuell über das Menü Datei > Neu > Syntax
• SPSS-Syntax kann im Syntaxeditor über das Menü Datei > Speichern unter der Dateiendung*.sps gespeichert werden
Vorteile:
• Zeitersparnis bei wiederkehrendenBerechnungen
• Schnellere Modifikationen von einzelnenBefehlen beim Testen von geeignetenAnalyseverfahren
• Verarbeitet Befehle, die über diegrafische Benutzeroberfläche nichterreichbar sind
Arbeiten mit dem Syntaxeditor
Statistische Auswertungsverfahren mit SPSS
4
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Formulieren eines Syntax Befehls
1. Ein Befehlsschlüsselwort (z.B. FREQUENCIES) leitet den Syntax Befehl ein Ein neuer Befehl beginnt in einer neuen Zeile, sprich unmittelbar am Zeilenanfang ohne Leerzeichen und wird
durch ein Befehlsschlüsselwort eingeleitet
Jeder Befehl muss mit einem Punkt abgeschlossen werden
Eine Befehlszeile darf maximal 80 Zeichen (einschließlich Leerräume) enthalten
Befehle dürfen auf beliebig vielen Befehlszeilen fortgesetzt werden, jede neue Zeile muss aber mit mindestenseinem Leerraum eingerückt sein
2. Der Befehl wird durch ein oder mehrere Unterbefehle gesteuert(den Befehl spezifizierende Unterbefehle)
Unterbefehle werden in der Regel mit einem Schrägstrich („/“) eingeleitet
3. Spezifikationen sind die Parameter von Befehlen bzw. Unterbefehlen(z.B. Variablennamen, Zahlen, Operatoren)
Variablennamen dürfen nicht abgekürzt werden
Zahlenangaben in den Spezifikationen dürfen nur den Punkt als Dezimaltrennzeichen benutzen
Zeichenketten, die mit Apostrophen notiert werden können, müssen auf der Zeile enden, auf der sie begonnenwurden (kein Zeilenumbruch)
Arbeiten mit dem Syntaxeditor
Statistische Auswertungsverfahren mit SPSS
5
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Arbeiten mit dem Syntaxeditor
Beispiele für Syntax Befehle
FREQUENCIES VARIABLES= st7 /PERCENTILES=25 50 75 /BARCHART .
*Bereichseinteiler.*st7.RECODE st7 ( MISSING = COPY ) ( LO THRU 21 =1 ) ( LO THRU 24 =2 ) ( LO THRU 27 =3 ) ( LO THRU 30 =4 ) ( LO THRU HI =5 ) ( ELSE = SYSMIS ) INTO st7kl.VARIABLE LABELS st7kl 'Alter (In Bereiche eingeteilt)'.FORMAT st7kl (F5.0).VALUE LABELS st7kl 1 '18 - 21' 2 '22 - 24' 3 '25 - 27' 4 '28 - 30' 5 '31+'.MISSING VALUES st7kl ( ).VARIABLE LEVEL st7kl ( ORDINAL ).EXECUTE.
Häufigkeitsauswertung über die Variable st7 (Alter) mitAngabe der 25, 50 und 75% Perzentile und einesSäulendiagramms.
Automatische Kategoriebildung über dieVariable st7 (Alter) mit der FunktionBereichseinteiler.
• Im Syntaxeditor können Kommentareeingeflochten werden, die jedoch bei derAuswertung nicht berücksichtigt werden.
• Sie beginnen mit einem „*“ und enden miteinem Punkt.
Statistische Auswertungsverfahren mit SPSS
6
Fachhochschule IngolstadtProf. Dr. Andrea Raab
• Erstellt bestimmt Maßzahlen für eine Variable (z.B. Mittelwert, Spannweite)DESCRIPTIVES
• Erstellt eine Kreuztabelle über zwei VariablenCROSSTABS
• Führt eine explorative Datenanalyse über eine Variable durchEXAMINE
• Variable berechnenCOMPUTE
• Definiert für die Zielvariable ein VariablenlabelVARIABLE LABELS
• Wenn bestimmte Transformationen nur für eine bestimmte Auswahl an Fällendurchgeführt werden sollDO IF
• Erstellt Häufigkeitstabellen für eine VariableFREQUENCIES
• Definiert für die Zielvariable WertelabelsVALUE LABELS
• Eine Reihe von SPSS Befehlen, z.B. das Einlesen von Daten, Datendefinitionen,Umkodieren, werden nicht sofort ausgeführt, sondern werden in der Schwebegehalten, bis eine explizite Anweisung deren Ausführung erzwingt
EXECUTE
• Kodiert die Werte von Variablen um und schreibt die resultierenden Wert in dieZielvariable
• Existierende gleichnamige Variablen werden automatisch überschriebenRECODE
Arbeiten mit dem Syntaxeditor
Wichtige Befehle (verwendet im Syntaxeditor)
Statistische Auswertungsverfahren mit SPSS
7
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Ausführen von Syntaxbefehlen
• Eine Syntaxdatei kann beliebig viele Syntaxbefehle enthalten
• Folgende Möglichkeiten zur Ausführung stehen zur Verfügung:• Ausführen eines einzelnen Befehls
Cursor an einer beliebigen Stelle im Syntaxbefehl positionierenAusführen > Aktuellen Befehl
• Ausführen mehrerer aufeinander folgender Befehle
Auswahl markieren, von jedem auszuführenden Befehl muss mind. ein Zeichen markiert seinAusführen > Auswahl
• Alle Befehl bis zum Ende der Syntaxdatei ausführen
Cursor an einer beliebigen stelle im Syntaxbefehl positionierenAusführen > Bis Ende
• Alle Befehle aus der Syntaxdatei ausführen
Cursor an einer beliebigen Stelle innerhalb der Syntaxdatei positionierenAusführen > Alles
Arbeiten mit dem Syntaxeditor
Statistische Auswertungsverfahren mit SPSS
8
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Daten Transformieren• die Größe der Studenten soll von cm in Zoll umgerechnet werden, dabei sind 2,54 cm ein Zoll
COMPUTE st8_inch = st8 / 2.54 .VARIABLE LABELS st8_inch 'Größe in Inch umgerechnet' .EXECUTE.
Daten Umkodieren• Die fünfstelligen Postleitzahlen sollen in die Postleitzahlengebiete 0 bis 9 eingeteilt werden
RECODE st_p (Lowest thru 09999=0) (10000 thru 19999=1) (20000 thru 29999=2) (30000 thru 39999=3) (40000 thru 49999=4) (50000 thru 59999=5) (60000 thru 69999=6) (70000 thru 79999=7) (80000 thru 89999=8) (90000 thru Highest=9) INTO st_p1zahlig .
VARIABLE LABELS st_p1zahlig 'Postleitzahlengebiete einzahlig'.EXECUTE .
Arbeiten mit dem Syntaxeditor
Datenmodifikation mit dem Syntaxeditor
Statistische Auswertungsverfahren mit SPSS
9
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Bedingte Berechnungen mit If
• Möchte man eine bestimmte Transformation nur für eine bestimmte Auswahl an Fällendurchführen kann man mithilfe von IF (…) Kriterien festlegen
Einfache Berechnung einer Variablen
IF (st7<=21) st7_kl=1 .EXECUTE .
Folge von Anweisungen
DO IF (st7>=18 AND st7<21) .COMPUTE st7=1 .ELSE IF (st7>=22 AND st7<25) .COMPUTE st7=2 .ELSE IF (st7>26) .COMPUTE st7=3 .END IF .EXECUTE .
Arbeiten mit dem Syntaxeditor
Statistische Auswertungsverfahren mit SPSS
10
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Übungsblatt 4
Bitte bearbeiten Sie dieAufgaben 1 und 2 desÜbungsblattes 4.
Statistische Auswertungsverfahren mit SPSS
11
Fachhochschule IngolstadtProf. Dr. Andrea Raab
• Arbeiten mit dem Syntaxeditor
• Mittelwertvergleiche
• Nichtparametrische und parametrische Tests
Überblick
Statistische Auswertungsverfahren mit SPSS
12
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Mittelwertvergleich• Berechnung statistischer Maßzahlen (z.B. Mittelwerte) getrennt für verschiedene Fallgruppen
• Geben erste Anhaltspunkte über mögliche Zusammenhänge der betrachteten Fallgruppen
• Fallgruppen können durch jede beliebige Merkmalskombination definiert werden
• Weichen die Mittelwerte der einzelnen Fallgruppen ab, lässt dies zunächst nur Aussagen über diebetrachtete Stichprobe zu, nicht aber über die Grundgesamtheit→ Signifikanztest (z.B. T-Test, Varianzanalyse (ANOVA))
Grundvoraussetzungen für den einfachen Mittelwertvergleich:
• Abhängige Variable
– metrisch skalierte Daten
– Normalverteilung der Variablen in der Grundgesamtheit
• Unabhängige Variable
– Nominal- oder ordinalskaliert (nicht metrisch)
Mittelwertvergleiche
Statistische Auswertungsverfahren mit SPSS
13
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Mittelwertvergleiche
Mittelwertvergleich Mittelwertvergleich über die Variablen Geschlecht (unabhängig) und Körpergröße in cm (abhängig)
Statistische Auswertungsverfahren mit SPSS
14
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Mittelwertvergleiche
Mittelwertvergleich Mittelwertvergleich über die Variablen Geschlecht (st9) und Körpergröße in cm (st8)
Verarbeitete Fälle
122 94,6% 7 5,4% 129 100,0%Größe * GeschlechtN Prozent N Prozent N Prozent
Eingeschlossen Ausgeschlossen Insgesamt
Fälle
Bericht
Größe
180,9615 52 6,72415
169,1286 70 5,60518
174,1721 122 8,45571
Geschlechtmännlich
weiblich
Insgesamt
Mittelwert N
Standardab
weichung
Vergleicht man die Männer mit den Frauen, kann manerkennen, dass Männer im Durchschnitt größer sind alsFrauen.
Wären die Standardabweichungenum ein Vielfaches größer als dieUnterschiede zwischen den beidenMittelwerten, würde das daraufhindeuten, dass aus denbeobachteten Mittelwertunter-schieden nicht auf entsprechendeUnterschiede in der Grundgesamt-heit geschlossen werden kann→ Validierung durch den T-Test
Statistische Auswertungsverfahren mit SPSS
15
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Übungsblatt 4
Bitte bearbeiten Sie dieAufgabe 3 desÜbungsblattes 4.
Statistische Auswertungsverfahren mit SPSS
16
Fachhochschule IngolstadtProf. Dr. Andrea Raab
• Arbeiten mit dem Syntaxeditor
• Mittelwertvergleiche
• Nichtparametrische und parametrische Tests
Überblick
Statistische Auswertungsverfahren mit SPSS
17
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Signifikanztests• Signifikanztests werden eingesetzt, um bestimmte Hypothesen oder Unterschiede über die
Grundgesamtheit anhand einer Stichprobe zu validieren• Sie können in parametrische und nicht parametrische Signifikanztests eingeteilt werden
Nichtparametrische und parametrische Tests
Ausgangsfrage:„Sind beobachtete Zusammenhänge oder Unterschiede in der Stichprobe möglicherweise nurdurch die Zufälligkeiten der Stichprobenziehung zustande gekommen oder sind andereerklärbare Umstände in der Grundgesamtheit dafür verantwortlich?“
1. Aufstellung der Hypothesen (Nullhypothese/Alternativhypothese)
2. Welche Merkmale sollen untersucht werden?
3. Welche statistische Kennzahl soll/kann dafür verwendet werden?
4. Wie hoch soll das Signifikanzniveau sein?
Statistische Auswertungsverfahren mit SPSS
18
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Unterschiede in den Anforderungen an die beobachteten Variablen
Anhand der Stichprobe wird geprüft, obkonkrete Werte wie z.B. Varianzen oder
Mittelwerte auch so für die Grundgesamtheitangenommen werden können.
Anhand der Stichprobe wird der Typ derZufallsverteilung überprüft, sprich wie Werte in
der Grundgesamtheit verteilt sind.
• Variablen müssen metrisch skaliert sein• Variablen können auch nominal skaliert sein
• Grundgesamtheit sollte annähern nomalverteilt sein• keine Annahmen über die Form der zugrundeliegenden Verteilung
Parametrische TestsNichtparametrische Tests
Klassifizierung von Signifikanztests
Nichtparametrische und parametrische Tests
Parametrische Tests sind den nichtparametrischen Test generellvorzuziehen, weil diese eine höhere Aussagekraft besitzen.
Nichtparametrische Tests können auch mit metrischen Variablendurchgeführt werden, allerdings nimmt man durch die Herab-stufung Einbußen in der Aussagekraft in Kauf
Statistische Auswertungsverfahren mit SPSS
19
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Nichtparametrische und parametrische Tests
Signifikanztests für eine Stichprobe
• Parametrischer Test• Prüft, ob sich der Mittelwert in der Stichprobe von dem
Mittelwert in der Grundgesamtheit signifikant unterscheidet(z.B. beträgt das durchschnittliche Alter in derGrundgesamtheit 35 Jahre?)
Normal-verteilungMetrischT-Test bei einer Stichprobe
• Nichtparametrischer Test• Prüft, ob die Werte in der Grundgesamtheit einer bestimmten
Verteilung folgen (z.B. die Bewertung eines Produktes folgtin der Grundgesamtheit einer Standardnormalverteilung)
Keine VorgabeOrdinalKolmogorov-Smirnov-Test
• Nichtparametrischer Test• Prüft die Verteilung der Merkmalsausprägungen in der
Grundgesamtheit (z.B. Familienstand [ledig, verheiratet,geschieden, verwitwet])
Keine VorgabeNominalChi-Quadrat Anpassungstest
• Nichtparametrischer Test• Prüft eine vorgegebene Eintrittswahrscheinlichkeit in der
Grundgesamtheit (z.B. Männer und Frauen sind in derGrundgesamtheit zu gleichen Teilen vertreten)
Keine VorgabeDichotomBinomialtest
BeschreibungVoraus-setzungenSkalenniveauTest
Statistische Auswertungsverfahren mit SPSS
20
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Chi-Quadrat Anpassungstest• Testet, ob die empirisch gemessenen Häufigkeiten in der Stichprobe genauso auch in der
Grundgesamtheit erwartet werden können
Sind die Antworten über das Rauchverhalten (st6) in der Grundgesamtheit gleichverteilt?
Nichtparametrische und parametrische Tests
Statistische Auswertungsverfahren mit SPSS
21
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Chi-Quadrat Anpassungstest Sind die Antworten über das Rauchverhalten (st6) in der Grundgesamtheit gleichverteilt?
Nichtparametrische und parametrische Tests
Raucher
65 41,7 23,3
20 41,7 -21,7
40 41,7 -1,7
125
Nein, ich rauche nicht
Ja, hin und wieder
Ja, regelmäßig
Gesamt
Beobachtetes
N
Erwartete
Anzahl Residuum
Statistik für Test
24,400
2
,000
Chi-Quadrat a
df
Asymptotische Signifikanz
Raucher
Bei 0 Zellen (,0%) werden weniger als
5 Häufigkeiten erwartet. Die kleinste
erwartete Zellenhäufigkeit ist 41,7.
a.
Mit einer Irrtumswahrscheinlichkeit von 0,0% muss dieNullhypothese (Gleichverteilung) abgelehnt werden.
Die Antworten über das Rauchverhalten sind in derGrundgesamtheit nicht gleichverteilt.
Statistische Auswertungsverfahren mit SPSS
22
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Übungsblatt 4
Bitte bearbeiten Sie dieAufgaben 4 und 5 desÜbungsblattes 4.
Statistische Auswertungsverfahren mit SPSSProf. Dr. Andrea RaabFachhochschule Ingolstadt
V5
Statistische Auswertungsverfahren mit SPSS
2
Fachhochschule IngolstadtProf. Dr. Andrea Raab
• Faktorenanalyse
• Clusteranalyse
Inhaltliche Übersicht
Statistische Auswertungsverfahren mit SPSS
3
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Die Faktorenanalyse• Dimensionsreduzierendes oder strukturentdeckendes Verfahren
• Reduzierung einer großen Anzahl von Variablen (hohe Komplexität) auf wenige „Faktoren“anhand deren Korrelationen untereinander
• Ziel: Extraktion von möglichst wenigen Faktoren, die einen möglichst hohen Anteilder Beziehungen der gemessenen Variablen untereinander erklären sollen
• Skalenniveau: metrisch
• Vier Schritte:1. Berechnung der Korrelationsmatrizen
Korrelationsanalyse für jede Variablenkombination
2. Extraktion der FaktorenBestimmung der Anzahl und Bildungder Faktoren
3. Rotation der FaktorladungenVerbesserung der Interpretationsfähigkeitder Faktoren (Faktorladungen)
4. Erstellung der FaktorwerteBerechnung eines Wertes, der dieAusprägung eines Faktors für einenProbanden ausdrückt.
Faktorenanalyse
Da jede Variable auch einen spezifischenAnteil enthält, kann immer nur ein Teil derVarianz aufgeklärt werden. Je größer dieserTeil ist, desto besser die Faktorenanalyse.
Statistische Auswertungsverfahren mit SPSS
4
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Beispiel• PKW Nutzungsgewohnheiten (Wie nutzen Sie ihren aktuellen Pkw? – Pro Zeile eine Angabe)
Faktorenanalyse
• 2437 Datensätze• Kodierung von 1 – 6 (entsprechend der Frage)• keine Kodierung der fehlenden Werte• Skalenniveau: ordinal / quasi metrisch
Statistiken
2373 2237 2301 2327 2357 2360 2355 2357
64 200 136 110 80 77 82 80
Gültig
Fehlend
N
Ich fahre
meistens
alleine.
Ich fahre
meistens
mit Kindern.
Ich befahre
meistens mir
unbekannte
Strecken.
Ich telefoniere
viel im
Fahrzeug.
Ich fahre mitmeinem Pkw
regelmäig
zum
Arbeitsplatz.
Ich fahre mit
meinem Pkw
häufig auf der
Autobahn.
Ich fahre
mehrmalsim Jahr mit
meinem
Fahrzeug
ins Ausland.
Ich fahre
meistens mit
meinem Pkw
in den Urlaub.
Statistische Auswertungsverfahren mit SPSS
5
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Faktorenanalyse
Faktorenanalyse
Statistische Auswertungsverfahren mit SPSS
6
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Faktorenanalyse
Einstellungen der Faktorenanalyse
Statistische Auswertungsverfahren mit SPSS
7
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Korrelationsmatrix
1,000 -,201 ,144 ,237 ,232 ,197 ,069 -,039
-,201 1,000 ,024 ,033 -,001 -,056 ,073 ,109
,144 ,024 1,000 ,395 ,009 ,278 ,219 ,070
,237 ,033 ,395 1,000 ,174 ,415 ,315 ,065
,232 -,001 ,009 ,174 1,000 ,226 ,074 ,011
,197 -,056 ,278 ,415 ,226 1,000 ,327 ,117
,069 ,073 ,219 ,315 ,074 ,327 1,000 ,378
-,039 ,109 ,070 ,065 ,011 ,117 ,378 1,000
,000 ,000 ,000 ,000 ,000 ,001 ,035
,000 ,138 ,065 ,488 ,005 ,000 ,000
,000 ,138 ,000 ,334 ,000 ,000 ,001
,000 ,065 ,000 ,000 ,000 ,000 ,001
,000 ,488 ,334 ,000 ,000 ,000 ,312
,000 ,005 ,000 ,000 ,000 ,000 ,000
,001 ,000 ,000 ,000 ,000 ,000 ,000
,035 ,000 ,001 ,001 ,312 ,000 ,000
Ich fahre meistens
alleine.
Ich fahre meistens mit
Kindern.
Ich befahre meistens mir
unbekannte Strecken.
Ich telefoniere viel im
Fahrzeug.
Ich fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
Ich fahre mit meinem Pkw
häufig auf der Autobahn.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
Ich fahre meistens mit
meinem Pkw in den
Urlaub.
Ich fahre meistens
alleine.
Ich fahre meistens mit
Kindern.
Ich befahre meistens mir
unbekannte Strecken.
Ich telefoniere viel im
Fahrzeug.
Ich fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
Ich fahre mit meinem Pkw
häufig auf der Autobahn.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
Ich fahre meistens mit
meinem Pkw in den
Urlaub.
Korrelation
Signifikanz (1-seitig)
Ich fahre
meistens
alleine.
Ich fahre
meistens
mit Kindern.
Ich befahre
meistens mir
unbekannte
Strecken.
Ich telefoniere
viel im
Fahrzeug.
Ich fahre mit
meinem Pkw
regelmäig
zum
Arbeitsplatz.
Ich fahre mit
meinem Pkw
häufig auf der
Autobahn.
Ich fahre
mehrmals
im Jahr mit
meinem
Fahrzeug
ins Ausland.
Ich fahre
meistens mit
meinem Pkw
in den Urlaub.
1. Berechnung der Korrelationsmatrizen
Faktorenanalyse
Statistische Auswertungsverfahren mit SPSS
8
Fachhochschule IngolstadtProf. Dr. Andrea Raab1. Berechnung der Korrelationsmatrizen
• Können die errechneten Korrelationen auch für die Grundgesamtheit angenommen werden?
• Zwei Möglichkeiten:
– Signifikanztest für alle Variablen gesammelt (Bartlett Test)
– Signifikanztest für jede Variablenkombination einzeln (siehe Korrelationsmatrix)
Bartlett Test auf Sphärizität• Deckt die Korrelation aller Variablen mit einer Maßzahl ab
• Nullhypothese: Es besteht kein Zusammenhang zwischen den beobachteten Variablen inder Grundgesamtheit
Faktorenanalyse
KMO- und Bartlett-Test
,674
2020,697
28
,000
Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin.
Ungefähres Chi-Quadrat
df
Signifikanz nach Bartlett
Bartlett-Test auf
Sphärizität
• Mit einer Irrtumswahrscheinlichkeit von 0,0% liegt die identifizierteKorrelation in der Stichprobe, zumindest bei einem Teil derbeobachteten Variablen, auch in der Grundgesamtheit vor.
Statistische Auswertungsverfahren mit SPSS
9
Fachhochschule IngolstadtProf. Dr. Andrea Raab1. Berechnung der Korrelationsmatrizen
• Prüfung der Güte des Faktormodells
– Anti-Image-KorrelationsmatrixBerechnet für jedes Variablenpaar den Teil der Varianz einer Variablen, der sich nicht durch die jeweilsandere Variable erklären lässt (Residuum / Anti-Image)→ je niedriger die Werte in der Matrix, desto stärker korrelieren die Variablen miteinander
– Kaiser-Mayer-Olkin-Maß (KMO)Drückt die Ergebnisse der Anti-Image-Korrelationsmatrix in einer Maßzahl aus.→ je näher der KMO-Wert an dem Wert 1 liegt, desto valider ist das Faktormodell
Faktorenanalyse
KMO- und Bartlett-Test
,674
2020,697
28
,000
Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin.
Ungefähres Chi-Quadrat
df
Signifikanz nach Bartlett
Bartlett-Test auf
Sphärizität
inakzeptabelunter 0,5
schlecht0,5 bis unter 0,6
mäßig0,6 bis unter 0,7
mittelprächtig0,7 bis unter 0,8
recht gut0,8 bis unter 0,9
fabelhaft0,9 – 1,0
BeurteilungWertKMO-Test Richtwerte
• Der KMO-Test schätzt die Güte des Faktormodells für mäßig ein.
Statistische Auswertungsverfahren mit SPSS
10
Fachhochschule IngolstadtProf. Dr. Andrea Raab1. Berechnung der Korrelationsmatrizen
• Anti-Image-Korrelationsmatrix und MSA-Werte (Measure of Sampling Adequacy)
– MSA-WerteÄhnliches Maß wie der KMO-Test mit dem Unterschied, dass für jede Variable ein eigener Testwert in derHauptdiagonalen der Anti-Image-Korrelationsmatrix angezeigt wird → Richtwertetabelle KMO-Test
Anti-Image-Matrizen
,854 ,187 -,057 -,111 -,170 -,047 ,001 ,035
,187 ,935 -,026 -,055 -,047 ,068 -,037 -,071
-,057 -,026 ,812 -,219 ,087 -,097 -,055 -,005
-,111 -,055 -,219 ,693 -,065 -,185 -,128 ,043
-,170 -,047 ,087 -,065 ,898 -,135 ,005 ,004
-,047 ,068 -,097 -,185 -,135 ,739 -,145 -,022
,001 -,037 -,055 -,128 ,005 -,145 ,735 -,282
,035 -,071 -,005 ,043 ,004 -,022 -,282 ,845
,659a
,209 -,068 -,144 -,194 -,059 ,001 ,042
,209 ,481a
-,030 -,069 -,051 ,082 -,044 -,080
-,068 -,030 ,716a
-,293 ,102 -,126 -,071 -,007
-,144 -,069 -,293 ,702a
-,082 -,258 -,179 ,056
-,194 -,051 ,102 -,082 ,623a
-,166 ,007 ,004
-,059 ,082 -,126 -,258 -,166 ,744a
-,197 -,027
,001 -,044 -,071 -,179 ,007 -,197 ,667a
-,358
,042 -,080 -,007 ,056 ,004 -,027 -,358 ,561a
Ich fahre meistens
alleine.
Ich fahre meistens mit
Kindern.
Ich befahre meistens mir
unbekannte Strecken.
Ich telefoniere viel im
Fahrzeug.
Ich fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
Ich fahre mit meinem Pkw
häufig auf der Autobahn.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
Ich fahre meistens mit
meinem Pkw in den
Urlaub.
Ich fahre meistens
alleine.
Ich fahre meistens mit
Kindern.
Ich befahre meistens mir
unbekannte Strecken.
Ich telefoniere viel im
Fahrzeug.
Ich fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
Ich fahre mit meinem Pkw
häufig auf der Autobahn.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
Ich fahre meistens mit
meinem Pkw in den
Urlaub.
Anti-Image-Kovarianz
Ich fahre
meistens
alleine.
Ich fahre
meistens
mit Kindern.
Ich befahre
meistens mir
unbekannte
Strecken.
Ich telefoniere
viel im
Fahrzeug.
Ich fahre mit
meinem Pkw
regelmäig
zum
Arbeitsplatz.
Ich fahre mit
meinem Pkw
häufig auf der
Autobahn.
Ich fahre
mehrmals
im Jahr mit
meinem
Fahrzeug
ins Ausland.
Ich fahre
meistens mit
meinem Pkw
in den Urlaub.
Maß der Stichprobeneignunga.
Anti-Image-Matrizen
,854 ,187 -,057 -,111 -,170 -,047 ,001 ,035
,187 ,935 -,026 -,055 -,047 ,068 -,037 -,071
-,057 -,026 ,812 -,219 ,087 -,097 -,055 -,005
-,111 -,055 -,219 ,693 -,065 -,185 -,128 ,043
-,170 -,047 ,087 -,065 ,898 -,135 ,005 ,004
-,047 ,068 -,097 -,185 -,135 ,739 -,145 -,022
,001 -,037 -,055 -,128 ,005 -,145 ,735 -,282
,035 -,071 -,005 ,043 ,004 -,022 -,282 ,845
,659a
,209 -,068 -,144 -,194 -,059 ,001 ,042
,209 ,481a
-,030 -,069 -,051 ,082 -,044 -,080
-,068 -,030 ,716a
-,293 ,102 -,126 -,071 -,007
-,144 -,069 -,293 ,702a
-,082 -,258 -,179 ,056
-,194 -,051 ,102 -,082 ,623a
-,166 ,007 ,004
-,059 ,082 -,126 -,258 -,166 ,744a
-,197 -,027
,001 -,044 -,071 -,179 ,007 -,197 ,667a
-,358
,042 -,080 -,007 ,056 ,004 -,027 -,358 ,561a
Ich fahre meistens
alleine.
Ich fahre meistens mit
Kindern.
Ich befahre meistens mir
unbekannte Strecken.
Ich telefoniere viel im
Fahrzeug.
Ich fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
Ich fahre mit meinem Pkw
häufig auf der Autobahn.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
Ich fahre meistens mit
meinem Pkw in den
Urlaub.
Ich fahre meistens
alleine.
Ich fahre meistens mit
Kindern.
Ich befahre meistens mir
unbekannte Strecken.
Ich telefoniere viel im
Fahrzeug.
Ich fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
Ich fahre mit meinem Pkw
häufig auf der Autobahn.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
Ich fahre meistens mit
meinem Pkw in den
Urlaub.
Anti-Image-Kovarianz
Ich fahre
meistens
alleine.
Ich fahre
meistens
mit Kindern.
Ich befahre
meistens mir
unbekannte
Strecken.
Ich telefoniere
viel im
Fahrzeug.
Ich fahre mit
meinem Pkw
regelmäig
zum
Arbeitsplatz.
Ich fahre mit
meinem Pkw
häufig auf der
Autobahn.
Ich fahre
mehrmals
im Jahr mit
meinem
Fahrzeug
ins Ausland.
Ich fahre
meistens mit
meinem Pkw
in den Urlaub.
Maß der Stichprobeneignunga.
inakzeptabelunter 0,5
schlecht0,5 bis unter 0,6
mäßig0,6 bis unter 0,7
mittelprächtig0,7 bis unter 0,8
recht gut0,8 bis unter 0,9
fabelhaft0,9 – 1,0
BeurteilungWertMSA Richtwerte
• Die Residualwerte der Anti-Image-Korrelationsmatrix sinddurchweg gering, was für eine hohe Korrelation steht→ das Ergebnis des KMO-Tests wird bestätigt.
• Lediglich die Variable „Ich fahre meistens mit Kindern“ enthälteinen inakzeptablen MSA-Wert, weshalb ein Ausschluss dieserVariable aus dem Faktormodell überlegt werden sollte.
Faktorenanalyse
Statistische Auswertungsverfahren mit SPSS
11
Fachhochschule IngolstadtProf. Dr. Andrea Raab2. Extraktion der Faktoren
• Verschiedene Modelle zur Faktorextraktion
• In der Praxis am häufigsten verwendetes Modell: Hauptkomponentenanalyse
• Ziel: Extrahierte Faktoren sollen einen möglichst großen Teil der Gesamtstreuung abdecken(für einen Erklärungsgehalt von 100% müssten genauso viele Faktoren extrahiert werden, wie Variablen
in der Faktorenanalyse → jeder Faktor erklärt die die Streuung der zughörigen Variable perfekt)
• Tradeoff zwischen Quantität (Wie viele Faktoren?) und Qualität (Erklärungsgehalt?) der Faktoren
Faktorenanalyse
Statistische Auswertungsverfahren mit SPSS
12
Fachhochschule IngolstadtProf. Dr. Andrea Raab
• Nach dem Kaiser Kriterium(alle Faktoren mit einem Eigenwert > 1).
• Eigenwert < 1 bedeutet, dass der Faktor einen geringeren Betragder Gesamtstreuung erklärt als jede einzelne Variable selbst
Erklärte Gesamtvarianz
2,228 27,847 27,847 2,228 27,847 27,847 1,953
1,378 17,223 45,070 1,378 17,223 45,070 1,465
1,010 12,624 57,694 1,010 12,624 57,694 1,467
,963 12,040 69,734
,730 9,121 78,855
,623 7,792 86,647
,553 6,907 93,554
,516 6,446 100,000
Komponente1
2
3
4
5
6
7
8
Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % Gesamt
Anfängliche Eigenwerte
Summen von quadrierten Faktorladungen
für Extraktion
Rotierte
Summe
der
quadriert
en
Ladunge
na
Extraktionsmethode: Hauptkomponentenanalyse.
Wenn Komponenten korreliert sind, können die Summen der quadrierten Ladungen nicht addiert werden, um
eine Gesamtvarianz zu erhalten.
a.
2. Extraktion der Faktoren• Faktoren mit dem geringsten Erklärungsgehalt werden ausgeschlossen und die mit dem größten
Erklärungsgehalt extrahiert
Faktorenanalyse
Faktoren
EigenwertGibt an, welcher Betrag der
Gesamtstreuung allerbeobachteten Variablen
durch den jeweiligen Faktorerklärt wird
GesamtstreuungDa die Variablen im Zuge derFaktorenanalyse standardisiert wurden, hatjede Variable nun ein Standardabweichungvon 1 und einen Mittelwert von 0→ Gesamtstreuung = Anzahl der Variablen (8)
Faktor 1erklärt 27,8% derGesamtstreuung
Extraktionsvorschlag
Statistische Auswertungsverfahren mit SPSS
13
Fachhochschule IngolstadtProf. Dr. Andrea Raab2. Extraktion der Faktoren
• Kommunalitäten zeigen an, in wieweit die Streuung der einzelnen Variablen durch die extrahiertenVariablen erklärt wird
• Das Screeplot stellt die Faktoren und deren Eigenwerte absteigend sortiert in einer Funktion dar
Faktorenanalyse
Kommunalitäten
1,000 ,544
1,000 ,338
1,000 ,690
1,000 ,626
1,000 ,638
1,000 ,524
1,000 ,613
1,000 ,643
Ich fahre meistens
alleine.
Ich fahre meistens mit
Kindern.
Ich befahre meistens mir
unbekannte Strecken.
Ich telefoniere viel im
Fahrzeug.
Ich fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
Ich fahre mit meinem Pkw
häufig auf der Autobahn.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
Ich fahre meistens mit
meinem Pkw in den
Urlaub.
Anfänglich Extraktion
Extraktionsmethode: Hauptkomponentenanalyse.
Bei Extraktion aller Faktoren wirddie Streuung der einzelnen
Variablen vollständig erklärt
Durch Extraktion der drei Faktorenwird nur noch ein Teil derStreuung der einzelnen Variablenerklärt
Statistische Auswertungsverfahren mit SPSS
14
Fachhochschule IngolstadtProf. Dr. Andrea Raab3. Faktorladungen
• Faktorladungen beschreiben die Beziehung der Faktoren zu den beobachteten Variablen undwerden bei der Interpretation der Faktoren verwendet
• Sie beschreiben den Zusammenhang zwischen der Variable und dem Faktor – je höher dieFaktorladung, desto stärker der Zusammenhang zwischen der Variable und dem Faktor
• Faktorladungen können Werte von -1 bis +1 annehmen, es werden allerdings nur Werte zurInterpretation herangezogen, die mindestens +/- 0,5 oder sogar +/-0,7 überschreiten
• Positive und negative Werte beschreiben die Richtung des Zusammenhangs
Faktorenanalyse
• Faktoren sind leicht zu interpretieren, wenn einige Variablen, dieuntereinander eine ähnliche homogene Bedeutung haben, hochauf ihn laden und gleichzeitig die Ladungen der anderen Variablenauf diesen Faktor gering sind.
Komponentenmatrix a
,743
,718
,632
,616
-,585
,581
,624
,586 -,588
Ich telefoniere viel im
Fahrzeug.
Ich fahre mit meinem Pkw
häufig auf der Autobahn.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
Ich fahre meistens mit
meinem Pkw in den
Urlaub.
Ich fahre meistens
alleine.
Ich fahre meistens mit
Kindern.
Ich fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
Ich befahre meistens mir
unbekannte Strecken.
1 2 3
Komponente
Extraktionsmethode: Hauptkomponentenanalyse.
3 Komponenten extrahierta.
Statistische Auswertungsverfahren mit SPSS
15
Fachhochschule IngolstadtProf. Dr. Andrea Raab3. Rotation der Faktorladungen
• Ziel: Interpretationsfähigkeit der Faktoren erleichtern
• Zwei unterschiedliche Gruppen von Rotationsverfahren
– Orthogonale Rotation (rechtwinklig)Unterstellt, dass die extrahierten Faktoren nicht miteinander korreliert sind (z.B. VARIMAX, EQUAMAX)
– Oblique Rotation (schiefwinklig)Unterstellt, dass die extrahierten Faktoren miteinander korrelieren (z.B. Oblimin)
Faktorenanalyse
Rotierte Komponentenmatrix a
,818
,756
,570
,801
,667
,779
,645
Ich befahre meistens mir
unbekannte Strecken.
Ich telefoniere viel im
Fahrzeug.
Ich fahre mit meinem Pkw
häufig auf der Autobahn.
Ich fahre meistens mit
meinem Pkw in den
Urlaub.
Ich fahre mehrmals im
Jahr mit meinem
Fahrzeug ins Ausland.
Ich fahre meistens mit
Kindern.
Ich fahre mit meinem Pkw
regelmäig zum
Arbeitsplatz.
Ich fahre meistens
alleine.
1 2 3
Komponente
Extraktionsmethode: Hauptkomponentenanalyse.
Rotationsmethode: Equamax mit Kaiser-Normalisierung.
Die Rotation ist in 5 Iterationen konvergiert.a.
Statistische Auswertungsverfahren mit SPSS
16
Fachhochschule IngolstadtProf. Dr. Andrea Raab3. Rotation der Faktorladungen
Faktorenanalyse
Allein fahrender Berufspendler(fac3_1)
Berufsfahrer / Außendienst(fac1_1)
Auslandsfahrer(fac2_1)
• [+] Ich fahre mit meinem Pkwregelmäßig zumArbeitsplatz.
• [+] Ich fahre meistensalleine.
• [+] Ich befahre meistens mirunbekannte Strecken.
• [+] Ich telefoniere viel imFahrzeug.
• [+] Ich fahre mit meinem Pkwhäufig auf der Autobahn.
• [+] Ich fahre meistens mitmeinem PKW in den Urlaub.
• [+] Ich fahre mehrmals imJahr mit meinem Fahrzeugins Ausland.
Statistische Auswertungsverfahren mit SPSS
17
Fachhochschule IngolstadtProf. Dr. Andrea Raab4. Erstellung der Faktorwerte
• Faktorwerte drücken die Ausprägung eines Faktors für einen konkreten Fall aus– hoher positiver Wert = Faktor überdurchschnittlich hoch ausgeprägt
– hoher negativer Wert = Faktor unterdurchschnittlich niedrig ausgeprägt
• Werden verwendet um die Ergebnisse der Faktoranalyse in weiterführenden Analyen (z.B.Clusteranalyse) zu nutzen
• SPSS bietet drei unterschiedliche Methoden, deren Unterscheidung bei Verwendung derHauptkomponentenmethode nicht relevant ist, weil sie jeweils das gleiche Ergebnis liefern
• Zur Interpretation von Faktorwerten werden die Faktorwerte (gedanklich) in Kategorien eingeteilt:– Zwei Kategorien: -9999 bis 0 / 0 bis 9999
– Drei Kategorien: -9999 bis -1 / -1 bis +1 / +1 bis 9999
– Vier Kategorien: -9999 bis -1 / -1 bis 0 / 0 bis +1 / +1 bis 9999
– etc.
• Interpretationsalternative:Runden der Faktorwerte in der Variablenansicht
– 0 → durchschnittlich
– <= -1 → unterdurchschnittlich
– >= +1 → überdurchschnittlich
Faktorenanalyse
Statistische Auswertungsverfahren mit SPSS
18
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Übungsblatt 5
Bitte bearbeiten Sie dieAufgaben 1 des 5.Übungsblattes.
Statistische Auswertungsverfahren mit SPSS
19
Fachhochschule IngolstadtProf. Dr. Andrea Raab
• Faktorenanalyse
• Clusteranalyse
Inhaltliche Übersicht
Statistische Auswertungsverfahren mit SPSS
20
Fachhochschule IngolstadtProf. Dr. Andrea RaabClusteranalyse
• Dimensionsreduzierendes oder strukturentdeckendes Verfahren
• Objekte werden aufgrund ihrer Ähnlichkeit bezüglich der beobachteten Variablen zu Gruppen(Cluster) zusammengefasst
• Ziel: Bildung von Clustern, die in sich sehr homogene Merkmalsausprägungen aufweisen, aber zueinander möglichst heterogen sind
• Skalenniveau: abhängig von dem verwendeten Clusterungsverfahren
• Vier Schritte:
1. Auswahl der MerkmaleAnhand welcher Merkmale soll die Gruppen-bildung durchgeführt werden
2. Aufbereitung der DatenDaten müssen den Konventionen desjeweiligen Clusterungsverfahrens entsprechen
3. Durchführung der ClusteranalyseUmsetzung in SPSS
4. Interpretation der ErgebnisseBeschreibung der Cluster und Erstellungvon Clusterprofilen
Clusteranalyse
Statistische Auswertungsverfahren mit SPSS
21
Fachhochschule IngolstadtProf. Dr. Andrea RaabClusteranalyse
• Hierarchische ClusteranalyseEinzelne Objekte werden schrittweise zu Clustern zusammengefasst. Zunächst wird jedes Objekt als eineigener Cluster aufgefasst, welche im weitern Verlauf immer stärker komprimiert werden.
– Datenmenge: klein und groß– Skalierung: metrische und nicht-metrische Variablen– Vorteil: sehr differenzierte Steuerung möglich– Nachteil: rechenintensives Verfahren
• Clusterzentrenanalyse (Quick-Cluster)Clusterzuordnung ist bereits vorgegeben und optimale Zuordnung der Objekte soll ermittelt werden.
– Datenmenge: groß– Skalierung: metrische Variablen– Vorteil: vertretbarer Rechenaufwand bei großen Datenmengen → schneller– Nachteil: Clusteranzahl muss bekannt sein; Anpassung des Verfahrens nur begrenzt möglich;
Transparenz bei der Berechnung fehlt
• Two-Step-ClusteranalyseSymbiose aus den oben genannten Verfahren; 2-Schritt-Vorgehensweise: grobe Einteilung der Cluster imersten Schritt und endgültige Clusterzuordnung mit einem hierarchischen Verfahren im zweiten Schritt
– Datenmenge: klein und groß– Skalierung: metrisch und nicht metrische Variablen– Vorteil: automatische Berechnung der Clusteranzahl; spezielle Behandlung von Ausreißern– Nachteil: Anpassung des Verfahrens nur begrenzt möglich; Clusterbildung weniger präzise
Clusteranalyse
Statistische Auswertungsverfahren mit SPSS
22
Fachhochschule IngolstadtProf. Dr. Andrea Raab1. Auswahl der Merkmale (Two-Step-Clusteranalyse)
• Anhand welcher Merkmale/Variablen soll die Gruppenbildung vorgenommen werden?
• Abhängig von der Problemstellung und den zur Verfügung stehenden Daten
Problemstellung:
• Analyse der Nutzung des Sportangebots an der Fachhochschule Ingolstadt→ Gibt es Unterschiede im Nutzungsverhalten?
Ausgewählte Merkmale:
• Nutzung des Sportangebots an der Fachhochschule Ingolstadt (F3)
• Geschlecht (ST9)
• Alter (ST7)
• Anzahl der in Anspruch genommenen Sportangebote *NEU* (Sport)
Clusteranalyse
• Eine Variable (Sport), welche die Anzahl der in Anspruchgenommenen Sportangebote enthält, muss noch errechnetwerden.
Statistische Auswertungsverfahren mit SPSS
23
Fachhochschule IngolstadtProf. Dr. Andrea Raab2. Aufbereitung der Daten (Two-Step-Clusteranalyse)
• Variablen müssen den Konventionen des Clusterungsverfahrens entsprechen
• Die Two-Step-Clusteranalyse stellt folgende Anforderungen an die Variablen
– Standardisierte WerteStandardisierung mit Z-Transformation wird von SPSS automatisch durchgeführt→ Mittelwert = 0; Standardabweichung = 1
– Zufällige Sortierung der DatendateiSortierung nach einem bestimmten Muster hat Auswirkung auf das Ergebnis der Clusteranalyse, weil dieFälle sequenziell in die Clusterzuordnung einbezogen werdenSyntax: SET SEED 1069800
COMPUTE zufall = UNIFORM (1) .SORT CASES BY zufall .DELETE VARIABLES zufall .
– Bei der Verwendung des Distanzmaßes Log-Likelihood (metrische und nicht metrische Variablen)• Normalverteilung der stetigen Variablen (Kolmogorov-Smirnov-Test)
• Multinomiale Verteilung der kategorialen Variablen (nichtparametrischer Chi-Quadrat Anpassungstest)
• Unabhängigkeit der Variablen (Korrelation bzw. Kreuztabellenanalyse)
Clusteranalyse
• Die Two-Step-Clusteranalyse reagiert relativ robust gegenüberVerletzungen der Verteilungsanforderungen und derUnabhängigkeitsbedingung
• Fehlende Werte bewirken, dass der betroffene Fall von derClusteranalyse ausgeschlossen wird → F3_1 – F3_8
Statistische Auswertungsverfahren mit SPSS
24
Fachhochschule IngolstadtProf. Dr. Andrea Raab3. Durchführung der Clusteranalyse (Two-Step-Clusteranalyse)
Clusteranalyse
nur stetige Variablen → euklidische DistanzDistanzmaße
stetige und kategoriale Variablen → Log-Likelihood
Statistische Auswertungsverfahren mit SPSS
25
Fachhochschule IngolstadtProf. Dr. Andrea Raab3. Durchführung der Clusteranalyse (Two-Step-Clusteranalyse)
Clusteranalyse
Sondert Ausreißer in der ersten Clusterstufe aus
Je höher die Anzahl der Knoten desto sorgfältiger wird die Clusterbildung durchgeführt,aber desto rechenaufwändiger wird das Verfahren
Gruppiertes Balkendiagramm für jede kategorialeVariable und ein Fehlerbalkendiagramm für jedestetige Variable
Kreisdiagramm mit prozentualer Verteilung derFälle auf die Cluster
Diagramme, welche die Bedeutung der einzelnenVariablen für die Cluster zum Ausdruck bringen.• Kategoriale Variablen: Prüft, ob sich die Häufigkeits-
verteilung einer Variable signifikant von derHäufigkeitsverteilung aller Fälle unterscheidet
• Stetige Variablen: Prüft, ob sich der Mittelwert derVariable für ein Cluster vom Mittelwert allerProbanden unterscheidet.
• Die senkrechte Linie zeigt den kritischenSignifikanzwert
Maßzahlen für die Cluster
Statistische Auswertungsverfahren mit SPSS
26
Fachhochschule IngolstadtProf. Dr. Andrea Raab4. Interpretation der Ergebnisse (Two-Step-Clusteranalyse)
Clusteranalyse
Clusterverteilung
65 52,8% 50,4%
58 47,2% 45,0%
123 100,0% 95,3%
6 4,7%
129 100,0%
1
2
Kombiniert
Cluster
Ausgeschlossene Fälle
Gesamtwert
N
% der
Kombination
% der
Gesamts
umme
Zentroide
24,38 2,827 ,4769 ,68711
21,00 1,835 ,9138 1,41774
22,79 2,940 ,6829 1,11117
1
2
Kombiniert
ClusterMittelwert
Standardab
weichung Mittelwert
Standardab
weichung
Alter
Anzahl der in Anspruch
genommenen
Sportangebote
Semester
1 3,3% 0 ,0% 27 90,0% 31 100,0% 6 85,7%
29 96,7% 25 100,0% 3 10,0% 0 ,0% 1 14,3%
30 100,0% 25 100,0% 30 100,0% 31 100,0% 7 100,0%
1
2
Kombiniert
ClusterHäufigkeit Prozent Häufigkeit Prozent Häufigkeit Prozent Häufigkeit Prozent Häufigkeit Prozent
1 3 5 7 9
Statistische Auswertungsverfahren mit SPSS
27
Fachhochschule IngolstadtProf. Dr. Andrea Raab4. Interpretation der Ergebnisse (Two-Step-Clusteranalyse)
Clusteranalyse
Mit einer Wahrschein-lichkeit von 95% liegt
der Mittelwert derGrundgesamtheit in
diesem Intervall
Statistische Auswertungsverfahren mit SPSS
28
Fachhochschule IngolstadtProf. Dr. Andrea Raab4. Interpretation der Ergebnisse (Two-Step-Clusteranalyse)
Clusteranalyse
16%2%Volleyball
5%3%Lauftreff
17%2%Fußball
5%11%Fitness
3%0%Fechten
12%0%Basketball
10%0%Badminton
9%15%Aerobic
Prozent der Probanden im Cluster, die an der jeweiligen Sportart teilnehmen
ø 0,9 pro Probandø 0,5 pro ProbandAnzahl der in Anspruchgenommenen Sportangebote
überwiegendGrundstudium
(1. und 3. Semester)
überwiegendHauptstudium
(5., 7. und 9. Semester)Semesteranzahl
ca. gleichverteiltca. gleichverteiltGeschlecht
ø 21 Jahreø 24 JahreAlter
Cluster 2Cluster 1
Statistische Auswertungsverfahren mit SPSS
29
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Übungsblatt 5
Bitte bearbeiten Sie dieAufgaben 2 des 5.Übungsblattes.
Statistische Auswertungsverfahren mit SPSSProf. Dr. Andrea RaabFachhochschule Ingolstadt
V6
Statistische Auswertungsverfahren mit SPSS
2
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Nennen und erklären Sie die 3 in SPSS einstellbaren Skalenniveaus und nennen Sie jeweils ein Beispiel!
Review
Skalenniveaus
Statistische Auswertungsverfahren mit SPSS
3
Fachhochschule IngolstadtProf. Dr. Andrea Raab
• Nominal: Merkmalsausprägungen bilden nur Kategorien und können nicht in
eine Rangordnung gebracht werden (z.B. Geschlecht)
• Ordinal: Merkmalsausprägungen können in Relation interpretiert werden und
stellen eine Rangfolge dar (z.B. Platzierung bei einem Wettkampf)
• Metrisch: (Intervall- oder Verhältnisskaliert) Differenzen bzw. Quotienten der
Merkmalsausprägungen sind interpretierbar. Mittelwerte können
gebildet werden (z.B. Alter)
Nennen und erklären Sie die 3 in SPSS einstellbaren Skalenniveaus und nennen Sie jeweils ein Beispiel!
Review
Skalenniveaus
Statistische Auswertungsverfahren mit SPSS
4
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Datenkodierung, Variablendefinition
Kodieren Sie die folgenden Fragen sinnvoll und erstellen Sie Variablendefinitionen:
Statistische Auswertungsverfahren mit SPSS
5
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Datenkodierung, Variablendefinition
Kodieren Sie die folgenden Fragen sinnvoll und erstellen Sie Variablendefinitionen:
109
Statistische Auswertungsverfahren mit SPSS
6
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
HäufigkeitsauswertungErstellen Sie eine Häufigkeitsauswertung über die Frage M3: „Was würdest du zu einem Rauchverbot inder Cafeteria sagen?“ Beachten Sie dabei offensichtliche Eingabefehler und korrigieren Sie diese imVorfeld mit Hilfe von passenden SPSS Funktionen.
Erstellen Sie zusätzlich ein Kreisdiagramm über die Häufigkeitsauswertung mit prozentualen Angaben.
Statistische Auswertungsverfahren mit SPSS
7
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
HäufigkeitsauswertungErstellen Sie eine Häufigkeitsauswertung über die Frage M3: „Was würdest du zu einem Rauchverbot inder Cafeteria sagen?“ Beachten Sie dabei offensichtliche Eingabefehler und korrigieren Sie diese imVorfeld mit Hilfe von passenden SPSS Funktionen.
Erstellen Sie zusätzlich ein Kreisdiagramm über die Häufigkeitsauswertung mit prozentualen Angaben.
Meinung zu Rauchverbot in der Cafeteria
37 28,7 37,4 37,4
39 30,2 39,4 76,8
23 17,8 23,2 100,0
99 76,7 100,0
30 23,3
129 100,0
Ja, finde ich gut
Nein, lehne ich ab
Ist mir im Prinzip egal
Gesamt
Gültig
SystemFehlend
Gesamt
Häufigkeit Prozent
Gültige
Prozente
Kumulierte
Prozente
Ja, finde ich gut
Nein, lehne ich ab
Ist mir im Prinzip egal
Meinung zu Rauchverbot in der Cafeteria
37,40%
39,40%
23,20%
Statistische Auswertungsverfahren mit SPSS
8
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Lage- und Streuparameter
Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, dieKurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnenMaße.
Statistische Auswertungsverfahren mit SPSS
9
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Lage- und Streuparameter
Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, dieKurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnenMaße.
Statistiken
Alter123
6
22,79
21
2,940
8,643
,821
,218
,611
,433
15
Gültig
Fehlend
N
Mittelwert
Modus
Standardabweichung
Varianz
Schiefe
Standardfehler der Schiefe
Kurtosis
Standardfehler der Kurtosis
Spannweite
Statistische Auswertungsverfahren mit SPSS
10
Fachhochschule IngolstadtProf. Dr. Andrea Raab
• Mittelwert Maßzahl zur zentralen Tendenz der Daten; ermittelt die durchschnittliche MerkmalsausprägungInterpretation Ergebnis
• Modalwert Messwert, der in einem Datensatz am häufigsten vorkommtInterpretation Ergebnis
• Varianz/ Ermitteln die (quadrierten) Abweichungen jedes Einzelwertes vom Mittelwert; ihr Ausmaß verringertStandardabw. sich, je näher die Werte um den Mittelwert liegen
Interpretation Ergebnis
• Schiefe Maß für die Abweichung einer Zufallsvariablen von einer zum Mittelwert symmetrischen VerteilungSchiefe > 0: rechtsschief (linkssteil); < 0: linksschief (rechtssteil)In terpretation Ergebnis
• Kurtosis Maß für die Abweichung des Verlaufs einer gegebenen Wahrscheinlichkeitsverteilung vom Verlaufeiner NormalverteilungKurtosis > 0: hochgipflig; < 0: flachgipfligIn terpretation Ergebnis
• Spannweite Differenz zwischen dem größten und dem kleinsten Wert der StichprobeInterpretation Ergebnis
Review
Lage- und Streuparameter
Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, dieKurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnenMaße.
Statistische Auswertungsverfahren mit SPSS
11
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Explorative Datenanalyse
Erstellen Sie ein Histogramm und ein Stängel-Blatt-Diagramm über die Variable „Größe.“Welchen Vorteil haben die beiden Diagramme im Vergleich zur Darstellung in einem normalenBalkendiagramm?
Statistische Auswertungsverfahren mit SPSS
12
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Explorative Datenanalyse
Erstellen Sie ein Histogramm und ein Stängel-Blatt-Diagramm über die Variable „Größe.“Welchen Vorteil haben die beiden Diagramme im Vergleich zur Darstellung in einem normalenBalkendiagramm?
Größe Stem-and-Leaf Plot
Frequency Stem & Leaf
1,00 15 . 8 15,00 16 . 000000233344444 20,00 16 . 55555556677888888999 29,00 17 . 00000000000011222222333333344 23,00 17 . 55555666666777888889999 19,00 18 . 0000000112222233444 10,00 18 . 5556667889 3,00 19 . 034 2,00 19 . 56
Stem width: 10 Each leaf: 1 case(s)
Statistische Auswertungsverfahren mit SPSS
13
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Explorative Datenanalyse
Prüfen Sie die Variable „Körpergröße“ mit Hilfe eines Signifikanztests auf Normalverteilung undinterpretieren Sie das Ergebnis.
Statistische Auswertungsverfahren mit SPSS
14
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Explorative Datenanalyse
Prüfen Sie die Variable „Körpergröße“ mit Hilfe eines Signifikanztests auf Normalverteilung undinterpretieren Sie das Ergebnis.
Tests auf Normalverteilung
,083 122 ,040 ,981 122 ,083GrößeStatistik df Signifikanz Statistik df Signifikanz
Kolmogorov-Smirnova
Shapiro-Wilk
Signifikanzkorrektur nach Lillieforsa.
Statistische Auswertungsverfahren mit SPSS
15
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Datenmodifikation
Erstellen Sie eine Häufigkeitsauswertung über die Variable „Größe“, jedoch nur über die weiblichenTeilnehmer der Untersuchung. Berechnen Sie zudem den Mittelwert.
Statistische Auswertungsverfahren mit SPSS
16
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Datenmodifikation
Erstellen Sie eine Häufigkeitsauswertung über die Variable „Größe“, jedoch nur über die weiblichenTeilnehmer der Untersuchung. Berechnen Sie zudem den Mittelwert.
Größe
1 1,4 1,4 1,4
6 8,3 8,6 10,0
1 1,4 1,4 11,4
2 2,8 2,9 14,3
5 6,9 7,1 21,4
7 9,7 10,0 31,4
2 2,8 2,9 34,3
2 2,8 2,9 37,1
6 8,3 8,6 45,7
3 4,2 4,3 50,0
11 15,3 15,7 65,7
2 2,8 2,9 68,6
2 2,8 2,9 71,4
5 6,9 7,1 78,6
2 2,8 2,9 81,4
2 2,8 2,9 84,3
4 5,6 5,7 90,0
1 1,4 1,4 91,4
2 2,8 2,9 94,3
1 1,4 1,4 95,7
2 2,8 2,9 98,6
1 1,4 1,4 100,0
70 97,2 100,0
2 2,8
72 100,0
158,00
160,00
162,00
163,00
164,00
165,00
166,00
167,00
168,00
169,00
170,00
171,00
172,00
173,00
174,00
175,00
176,00
177,00
178,00
179,00
180,00
182,00
Gesamt
Gültig
SystemFehlend
Gesamt
Häufigkeit Prozent
Gültige
Prozente
Kumulierte
Prozente
Statistiken
Größe70
2
169,1286
Gültig
Fehlend
N
Mittelwert
Statistische Auswertungsverfahren mit SPSS
17
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Kreuztabelle
Wie viel Prozent der befragten Studenten, die Nichtraucher sind, befinden das Rauchverbot in derCafeteria für gut?
Gibt es einen signifikanten Zusammenhang zwischen dem Rauchverhalten und der Meinung gegenüberdem Rauchverbot in der Cafeteria? Formulieren Sie die Null- und Alternativhypothese und legen Sie eingeeignetes Signifikanzniveau fest.
Mit welcher Irrtumswahrscheinlichkeit kann von einem Zusammenhang gesprochen werden?
Statistische Auswertungsverfahren mit SPSS
18
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Meinung zu Rauchverbot in der Cafeteria * Raucher Kreuztabelle
30 5 1 36
83,3% 13,9% 2,8% 100,0%
69,8% 29,4% 2,8% 37,5%
3 8 28 39
7,7% 20,5% 71,8% 100,0%
7,0% 47,1% 77,8% 40,6%
10 4 7 21
47,6% 19,0% 33,3% 100,0%
23,3% 23,5% 19,4% 21,9%
43 17 36 96
44,8% 17,7% 37,5% 100,0%
100,0% 100,0% 100,0% 100,0%
Anzahl
% von Meinung
zu Rauchverbot
in der Cafeteria
% von Raucher
Anzahl
% von Meinung
zu Rauchverbot
in der Cafeteria
% von Raucher
Anzahl
% von Meinung
zu Rauchverbot
in der Cafeteria
% von Raucher
Anzahl
% von Meinung
zu Rauchverbot
in der Cafeteria
% von Raucher
Ja, finde ich gut
Nein, lehne ich ab
Ist mir im Prinzip egal
Meinung zu Rauchverbot
in der Cafeteria
Gesamt
Nein, ich
rauche nicht
Ja, hin und
wieder
Ja,
regelmäßig
Raucher
Gesamt
Review
Kreuztabelle
Wie viel Prozent der befragten Studenten, die Nichtraucher sind, beurteilen das Rauchverbot in derCafeteria für gut?
Gibt es einen signifikanten Zusammenhang zwischen dem Rauchverhalten und der Meinung gegenüberdem Rauchverbot in der Cafeteria? Formulieren Sie die Null- und Alternativhypothese und legen Sie eingeeignetes Signifikanzniveau fest.
Mit welcher Irrtumswahrscheinlichkeit kann von einem Zusammenhang gesprochen werden?
Chi-Quadrat-Tests
48,355a
4 ,000
57,925 4 ,000
13,737 1 ,000
96
Chi-Quadrat nach
Pearson
Likelihood-Quotient
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotisch
e Signifikanz
(2-seitig)
1 Zellen (11,1%) haben eine erwartete Häufigkeit kleiner 5.
Die minimale erwartete Häufigkeit ist 3,72.
a.
Statistische Auswertungsverfahren mit SPSS
19
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Zusammenhangsmaße
Nennen Sie je ein Zusammenhangsmaß für jedes Skalenniveau (nominal, ordinal, metrisch).
Berechnen Sie ein passendes Zusammenhangsmaß für die Variablen „Geschlecht“ und „Meinung zumRauchverbot in der Cafeteria“ und interpretieren Sie das Ergebnis.
Statistische Auswertungsverfahren mit SPSS
20
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Zusammenhangsmaße
Nennen Sie je ein Zusammenhangsmaß für jedes Skalenniveau (nominal, ordinal, metrisch).– Nominal: Cramers V
– Ordinal: Kendalls Tau-b
– Metrisch: Pearsons Korrelationskoeffizient
Berechnen Sie ein passendes Zusammenhangsmaß für die Variablen „Geschlecht“ und „Meinung zumRauchverbot in der Cafeteria“ und interpretieren Sie das Ergebnis.
Symmetrische Maße
,117 ,428
,117 ,428
125
Phi
Cramer-V
Nominal- bzgl.
Nominalmaß
Anzahl der gültigen Fälle
Wert
Näherung
sweise
Signifikanz
Die Null-Hyphothese wird nicht angenommen.a.
Unter Annahme der Null-Hyphothese wird der asymptotische
Standardfehler verwendet.
b.
Statistische Auswertungsverfahren mit SPSS
21
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Zusammenhangsmaße
Erstellen Sie per Hand ein Streudiagramm, das eine perfekte positive Korrelation darstellt.
Statistische Auswertungsverfahren mit SPSS
22
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Syntax Editor
Der Präsident der Fachhochschule möchte eine separate Auswertung des Fragebogens über die
Studenten im Hauptstudium (ab 5. Semester) veranlassen. Um die Studenten herauszufiltern, die bereits
im Hauptstudium sind, soll eine Filtervariable erstellt werden, die für alle Studenten im Hauptstudium eine
1 beinhaltet und alle Studenten im Grundstudium (einschließlich 4. Semester) eine 2. Die fehlenden Werte
sollen mit einer 9 gekennzeichnet werden.
Führen Sie die Transformationen in SPSS durch und notieren Sie die SPSS Syntax. Markieren Sie das/die
Befehlsschlüsselwort/-wörter.
Statistische Auswertungsverfahren mit SPSS
23
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Syntax Editor
Der Präsident der Fachhochschule möchte eine separate Auswertung des Fragebogens über die
Studenten im Hauptstudium (ab 5. Semester) veranlassen. Um die Studenten herauszufiltern, die bereits
im Hauptstudium sind, soll eine Filtervariable erstellt werden, die für alle Studenten im Hauptstudium eine
1 beinhaltet und alle Studenten im Grundstudium (einschließlich 4. Semester) eine 2. Die fehlenden Werte
sollen mit einer 9 gekennzeichnet werden.
Führen Sie die Transformationen in SPSS durch und notieren Sie die SPSS Syntax. Markieren Sie das/die
Befehlsschlüsselwort/-wörter.
RECODE
st2
(MISSING=9) (Lowest thru 4=2) (5 thru Highest=1) INTO Filter .
VARIABLE LABELS Filter 'Filtervariable'.
EXECUTE .
Statistische Auswertungsverfahren mit SPSS
24
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Mittelwertvergleich
Untersuchen Sie über die SPSS Funktion Mittelwertvergleich, ob sich die Körpergröße von Männern und
Frauen unterscheidet. Was wäre der passende Signifikanztest um zu prüfen, ob der untersuchte
Zusammenhang signifikant ist?
Statistische Auswertungsverfahren mit SPSS
25
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Mittelwertvergleich
Untersuchen Sie über die SPSS Funktion Mittelwertvergleich, ob sich die Körpergröße von Männern und
Frauen unterscheidet. Was wäre der passende Signifikanztest um zu prüfen, ob der untersuchte
Zusammenhang signifikant ist?
Bericht
Größe
180,9615 52 6,72415
169,1286 70 5,60518
174,1721 122 8,45571
Geschlechtmännlich
weiblich
Insgesamt
Mittelwert N
Standardab
weichung
Test bei unabhängigen Stichproben
1,170 ,281 10,586 120 ,000 11,83297 1,11783 9,61974 14,04619
10,306 97,950 ,000 11,83297 1,14819 9,55441 14,11152
Varianzen sind gleich
Varianzen sind nicht
gleich
GrößeF Signifikanz
Levene-Test der
Varianzgleichheit
T df Sig. (2-seitig)
Mittlere
Differenz
Standardfehle
r der Differenz Untere Obere
95% Konfidenzintervall
der Differenz
T-Test für die Mittelwertgleichheit
Statistische Auswertungsverfahren mit SPSS
26
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Parametrische und nicht-parametrische Tests
Nennen Sie einen nicht-parametrischen und einen parametrischen Test und definieren Sie, für welches
Skalenniveau der Test eingesetzt werden kann, welche Voraussetzungen dafür nötig sind und was der
Test untersucht.
Statistische Auswertungsverfahren mit SPSS
27
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Parametrische und nicht-parametrische Tests
Nennen Sie einen nicht-parametrischen und einen parametrischen Test und definieren Sie, für welches
Skalenniveau der Test eingesetzt werden kann, welche Voraussetzungen dafür nötig sind und was der
Test untersucht.
• Parametrischer Test• Prüft, ob sich der Mittelwert in der Stichprobe von dem
Mittelwert in der Grundgesamtheit signifikant unterscheidet(z.B. beträgt das durchschnittliche Alter in derGrundgesamtheit 35 Jahre?)
Normal-verteilungMetrischT-Test bei einer Stichprobe
• Nichtparametrischer Test• Prüft, ob die Werte in der Grundgesamtheit einer bestimmten
Verteilung folgen (z.B. die Bewertung eines Produktes folgtin der Grundgesamtheit einer Standardnormalverteilung)
Keine VorgabeOrdinalKolmogorov-Smirnov-Test
• Nichtparametrischer Test• Prüft die Verteilung der Merkmalsausprägungen in der
Grundgesamtheit (z.B. Familienstand [ledig, verheiratet,geschieden, verwitwet])
Keine VorgabeNominalChi-Quadrat Anpassungstest
• Nichtparametrischer Test• Prüft eine vorgegebene Eintrittswahrscheinlichkeit in der
Grundgesamtheit (z.B. Männer und Frauen sind in derGrundgesamtheit zu gleichen Teilen vertreten)
Keine VorgabeDichotomBinomialtest
BeschreibungVoraus-setzungenSkalenniveauTest
Statistische Auswertungsverfahren mit SPSS
28
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Parametrische und nicht-parametrische Tests
Mit welchem Test können nominale Variablen auf eine Gleichverteilung hin überprüft werden?
Führen Sie diesen Test über die Variable „Rauchverhalten“ durch und interpretieren Sie das Ergebnis.
Statistische Auswertungsverfahren mit SPSS
29
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Parametrische und nicht-parametrische Tests
Mit welchem Test können nominale Variablen auf eine Gleichverteilung hin überprüft werden?
• Chi-Quadrat-Verteilungstest
Führen Sie diesen Test über die Variable „Rauchverhalten“ durch und interpretieren Sie das Ergebnis.
Raucher
65 41,7 23,3
20 41,7 -21,7
40 41,7 -1,7
125
Nein, ich rauche nicht
Ja, hin und wieder
Ja, regelmäßig
Gesamt
Beobachtetes
N
Erwartete
Anzahl Residuum
Statistik für Test
24,400
2
,000
Chi-Quadrat a
df
Asymptotische Signifikanz
Raucher
Bei 0 Zellen (,0%) werden weniger als
5 Häufigkeiten erwartet. Die kleinste
erwartete Zellenhäufigkeit ist 41,7.
a.
Statistische Auswertungsverfahren mit SPSS
30
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Faktoren- und Clusteranalyse
Beschreiben Sie in kurzen Zügen den Ablauf einer Faktorenanalyse und erklären Sie den Zusammenhang
zwischen Faktorladungen, Faktorwerten und Faktoren.
Statistische Auswertungsverfahren mit SPSS
31
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Faktoren- und Clusteranalyse
Beschreiben Sie in kurzen Zügen den Ablauf einer Faktorenanalyse und erklären Sie den Zusammenhang
zwischen Faktorladungen, Faktorwerten und Faktoren.
1. Berechnung der KorrelationsmatrizenKorrelationsanalyse für jede Variablenkombination
2. Extraktion der FaktorenBestimmung der Anzahl und Bildung der Faktoren
3. Rotation der FaktorladungenVerbesserung der Interpretationsfähigkeitder Faktoren (Faktorladungen)
4. Erstellung der FaktorwerteBerechnung eines Wertes, der dieAusprägung eines Faktors für einenProbanden ausdrückt.
Statistische Auswertungsverfahren mit SPSS
32
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Faktoren- und Clusteranalyse
Welche Faktoren werden bei der Faktorenanalyse nach dem Kaiser-Kriterium extrahiert?
Wie viele Faktoren würden nach diesem Kriterium in der folgenden Auswertung extrahiert werden?
Statistische Auswertungsverfahren mit SPSS
33
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Faktoren- und Clusteranalyse
Welche Faktoren werden bei der Faktorenanalyse nach dem Kaiser-Kriterium extrahiert?
Wie viele Faktoren würden nach diesem Kriterium in der folgenden Auswertung extrahiert werden?
Erklärte Gesamtvarianz
2,228 27,847 27,847 2,228 27,847 27,847 1,953
1,378 17,223 45,070 1,378 17,223 45,070 1,465
1,010 12,624 57,694 1,010 12,624 57,694 1,467
,963 12,040 69,734
,730 9,121 78,855
,623 7,792 86,647
,553 6,907 93,554
,516 6,446 100,000
Komponente1
2
3
4
5
6
7
8
Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % Gesamt
Anfängliche Eigenwerte
Summen von quadrierten Faktorladungen
für Extraktion
Rotierte
Summe
der
quadriert
en
Ladunge
na
Extraktionsmethode: Hauptkomponentenanalyse.
Wenn Komponenten korreliert sind, können die Summen der quadrierten Ladungen nicht addiert werden, um
eine Gesamtvarianz zu erhalten.
a.
Statistische Auswertungsverfahren mit SPSS
34
Fachhochschule IngolstadtProf. Dr. Andrea Raab
Review
Skript: V1• Statistische Methoden / Begrifflichkeiten• Skalenniveaus• Datenkodierung• Variablendefinition in SPSS
Skript: V2• Häufigkeitsauswertungen• Erstellung von Diagrammen (Kreisdiagramm, Säulendiagramm)• Lageparameter (Median, Modus, Mittelwert, Schiefe, Kurtosis)• Streuparameter (Varianz, Standardabweichung, Spannweite, Standardfehler)• Explorative Datenanalyse (Stem-and-Leaf, Histogramm, Boxplot, Test auf Normalverteilung)• Datenmodifikation (umkodieren, automatisch umkodieren, berechnen, filtern)
Skript: V3• Kodierung von Mehrfachantworten (2 Methoden)• Kreuztabellen (Chi-Quadrat-Unabhängigkeitstest)• Zusammenhangs- bzw. Korrelationsmaße (Streudiagramm)
Skript: V4• Syntax Editor• Mittelwertvergleiche• Unterscheidung parametrische und nicht-parametrische Tests (Chi-Quadrat-Anpassungstest)
Skript: V5• Grundkenntnisse Faktorenanalyse• Grundkenntnisse Clusteranalyse