statistische auswertungsverfahren mit spss saspss_skript_final.pdf · statistische...

Statistische Auswertungsverfahren mit SPSSProf. Dr. Andrea RaabFachhochschule Ingolstadt

Statistische Auswertungsverfahren mit SPSS

2

Fachhochschule IngolstadtProf. Dr. Andrea Raab

Inhaltliche Übersicht

• Informationen zum Programm SPSS

• Grundlagen der Programmbedienung in SPSS

• Befragung und Datenerstellung

• Daten und Variablen

• Deskriptive Analysemethoden


3


Das Programmpaket SPSS für Windows

• SPSS

– früher: Statistical Package for Social Sciences

– heute: Statistical Product and Service Solution

• Marktführendes Produkt im Bereich der programmgestützten statistischen Analyse

• Ab Version 5.0 grafische Benutzeroberfläche (GUI) sowie Menüsystem undintegrierte Grafik

• Derzeit aktuellste Version:

– SPSS Version 14.0 für Windows

– SPSS Version 13.0 (englisch) für Apple Macintosh (nur PowerPC, nicht Intel)

• 32.768 Variablen (2 hoch 15) pro Datendatei nutzbar.

• SPSS-Paket bestehend aus einem Basismodul und verschiedensten Zusatzmodulen

• Die SPSS-Studentenversion ist ausschließlich in englischer Sprache und unterWindows verfügbar. (Inhalt: SPSS Base System; Beschränkt auf Verarbeitung von 1500 Fällen und 50 Variablen)


4


Das Programmpaket SPSS für Windows

SPSS Advanced ModelsSPSS CategoriesSPSS ConjointSPSS Data Entry BuilderSPSS Exact TestsSPSS MapsSPSS Missing Value AnalysisSPSS Regression ModelsSPSS TablesSPSS Trends...

grundlegende Funktionen, einfacheund fortgeschrittene Methoden zurDatenanalyse und umfangreiche

Grafikmöglichkeiten

ZusatzmoduleBasismodul


5


Warum SPSS und nicht Excel?

Arbeiten mit großen Datensätzen möglich

(32.768 Variablen (2 hoch 15) pro Datei benutzbar)

Umfangreiche Datentransformationen und -funktionen

Dokumentation und Automatisierung über SYNTAX-Sprache

Großer Umfang an statistischen Funktionen und Prozeduren

Deskriptive Statistik

(Mittelwerte, Standardabweichungen , Häufigkeiten, Kreuztabellen)

Inferenzstatistik

(Chi-Quadrat, t-Test, Einfaktorielle Varianzanalyse)

Multivariate Verfahren

(Clusteranalyse, Faktorenanalyse, Diskriminanzanalyse, Conjointanalyse,

Multidimensionale Skalierung etc.)


6


Statistische Methoden

Statistik

beschreibende (deskriptive)Statistik

schließende (induktive)Statistik

- Daten sammeln- Daten präsentieren- Daten charakterisieren

- Schätzen- Hypothesen testen


7


Statistische Methoden

• Deskriptive (beschreibende) Statistik– Messwerte ordnen– Anschauliche und übersichtliche Darstellung von Daten in

• Tabellen• Diagrammen

– Säulen– Balken– Linien– Punkt– Flächen– Netz– Stengel/Blatt– Hoch-Tief– Box– Streu– Histogramme

• Induktive (schließende) Statistik– Ermittlung von Vertrauensbereichen– Überprüfung von Hypothesen


8


Statistische MethodenVorgehen bei analytischer Statistik (nach Petersen, 1991)

Grundgesamtheit

Formulierung des zuprüfenden Sachverhaltes

Formulierung der Nullhypothesen und AlternativhypothesenAufbereitung der Daten• tabellarisch• rechnerisch• graphisch

Entnahme einer Stichprobe

Erzeugen der Analysendaten VerteilungshypothesenParameterhypothesen

Prüfung der HypothesenParametertests

Prüfung der HypothesenVerteilungstests

Ermittlung von Schätzgrößen für die Kenngrößen

Schluss von der bekannten Stichprobe auf die unbekannteGrundgesamtheit


9


Begriffsdefinitionen

• Variablen/Merkmale und Merkmalsausprägungen

– In SPSS werden die Ausprägungen bestimmter Merkmale/Variablen betrachtet. JedesMerkmal hat mindestens zwei Merkmalsausprägungen (konkreter Wert des Merkmals= Analysenergebnis)

– Bsp.: Geschlecht - männlich / weiblich

• Unabhängige (Faktor) und abhängige Variablen

– unabhängige Variablen können die Merkmalsausprägungen von abhängigenVariablen beeinflussen (z.B. Alter beeinflusst die Konsumgewohnheiten)

• Qualitative und quantitative Variablen

– ein Merkmal/Variable kann in seiner Ausprägung qualitativ beschreibend sein(z.B. Weinsorte, Freundlichkeit)

– ein Merkmal/Variable kann in seiner Ausprägung quantitativ vermessen worden sein(z.B. Gehalt, Semesteranzahl)


10


Begriffsdefinitionen

• uni-, bi- und multivariate Daten– univariat

• nur ein Merkmal/Variable wird für jeden Fall gemessen/beschrieben

– bivariat

• Jeweils 2 Variablen werden für jeden Fall in Beziehung gesetzt (xi,yi)

– multivariat

• Mehr als 2 Variablen werden für jeden Fall in Beziehung gesetzt (xi,yi,zi, ....ki)Beispiel: Beschreibung einer Kundengruppe

– Alter

– Einkommen

– Geschlecht

– Konsumgewohnheiten

– Lifestyle


11


Starten von SPSS

Dialogfenster

Durch „Abbrechen“ kann dieses Fenster geschlossen werden

v

Dialogfenster in Zukunft nicht mehr anzeigen


12


Die SPSS Fenster

SPSS Syntax Fenster

SPSS Daten Editor

SPSS Viewer


13


SPSS Daten-Editor

• Arbeitsfläche von SPSS

• Sämtliche mit SPSS durchführbare Analysen

• Variablenansicht– zeigt alle Variablen und zugehörige Attribute (z.B. Name, Typ, etc.)

• Datenansicht– zeigt die Beobachtungswerte aller in der

aktuellen Datendatei enthaltenen Variablen.

• Dateityp: *.sav


14


SPSS Syntax Fenster

• Befehlseingabe für einzelne Prozeduren– ermöglicht beispielsweise Berechnen von Variablen, Transformieren

von Daten, Ausführen statistischer Prozeduren u.v.m.

• SPSS-Befehlssprache wird im Zuge der Vorlesung noch genauerbearbeitet werden

• Dateityp: *.sps


15


SPSS Viewer

• Ausgabe für Ergebnisse von Analysen oder Prozeduren

• Wird bei jeder Analyse oder Prozedur automatisch geöffnet

• Navigationsbereich– Anzeige aller Ergebnisse als ein- und ausblendbare Gliederungspunkte

• Dateityp: *.spo


16


Definition der Variablen

• Variablentypen

– String-Variablen (Zeichenketten)• Verwendung bei offener Fragestellung

– Numerische Variablen• Vercodung von möglichen Antworten (Bsp.: Bundesland)• Relative Ordnung von Merkmalen• Exakte Messung eines Merkmals


17


Qualität der Daten, Skala und Skalenniveau

Qualität der Daten wird u.a. bestimmt durch die Art und Weise der Messung

Gut messbare Daten schlecht messbare Daten

z.B. Körpergröße eines Menschen z.B. Motivation, Gesundheitszustand

Skala „Meßlatte“, auf der die Ausprägungen einer Eigenschaft abgetragenwerden können

Skalenniveau Art und Weise, in der eine Eigenschaft eines Objektes in Zahlenausgedrückt werden kann


18


Skalenniveau

Variablen

QualitativeVariablen

QuantitativeVariablen

metrisch skaliert ordinal skaliert nominal skaliert


19


Skalenniveau - Nominalskala

• Ausprägungen einer Variablen bilden nur Kategorien• Keinerlei Ordnungsvorschrift• Dient lediglich zur Unterscheidung der einzelnen Kategorien• Auswertungsmöglichkeiten eingeschränkt

(z.B. Häufigkeitsauszählung; Berechnung eines Mittelwertes ist sinnlos!)• Beispiele

– Geschlecht– Familienstand– Herkunft

Kategorie

1

2

3

4…


20


• Für die einzelnen Ausprägungen existiert eine Relation („größer“, „kleiner“)• Es kann eine Rangordnung erstellt werden• Auswertungsmöglichkeiten:

(z.B. Ranglisten; Median als Mittelwert ist sinnvoll!)• Beispiel:

– Platzierungen– Schulnoten

(streng genommen ordinal)

• Keine Aussage über die Abstände zwischen den Rängen möglich!

Skalenniveau - Ordinalskala


21


Skalenniveau – Intervallskala

– Eigenschaften der Nominal - und Ordinalskala

– die Differenzen, nicht jedoch die Quotienten sind interpretierbar

– Ausprägungen werden als Vielfaches einer elementaren Maßeinheit

angegeben

– Beispiel

• Temperatur (hat keinen natürlichen Nullpunkt)

• Schulnoten (werden oft als quasi intervallskaliert behandelt)


22


– Angabe von Differenzen und Quotienten ist sinnvoll

– Beispiele

• Umsatz eines Unternehmens

• Alter

• Einwohnerzahlen

Skalenniveau – Verhältnisskala

Intervall – und Verhältnisskalen heißenmetrisch skaliert, Nominal- und Ordinalskalenheißen nicht metrisch skaliert(eine Unterscheidung der beiden metrischen Niveaus kommtbei den meisten statistischen Verfahren keine Bedeutung zu)


23


Skalenniveau - Überblick

Multiplikation, Division

Skala mit konstantenAbständen, Addition,Subtraktion, Mittelwert

A=B, A≠B; A<B<CRangordnung

A=B, A≠B

InformationKenngrößen

•relative Häufigkeiten•Modus•Median (x) ̃•arithmetisches Mittel•geometrisches Mittel

•relative Häufigkeiten•Modus•Median (x) ̃,•arithmetisches Mittel

•relative Häufigkeiten•Modus•Median (x̃),

•relative Häufigkeiten•Modus

Lagemaß

•Standardabweichung (s)•Varianz (s2)

relative und absoluteDifferenzen vonquantitativen Merkmalen

Länge, FlächeVerhältnis

•Standardabweichung (s)•Varianz (s2)

absolute Differenzenvon quantitativenMerkmalen

Kalenderdatum, Punkte imIntelligenztestIntervall

•Quantile (Q)•Spannweite (R)

Einstufung beiqualitativen Merkmalen(kleiner / größer)

kalt < lau < warm < heiß,Schulnoten, GüteklasseOrdinal

Klassifizierung beiqualitativen Merkmalen(gleich, ungleich)

Geschlecht:männlich/weiblichNominal

StreumaßDifferenzierungBeispielSkala


24


Skalenniveau - Metrische Variablen

– Diskrete Variablen• Ein Merkmal/Variable kann nur endlich viele Ausprägungen annehmen

• Anzahl der möglichen Ausprägungen ist abzählbar

• Bsp.: Kinderzahl, Einwohneranzahl, Digitaluhr

– Stetige Variablen• Ein Merkmal/Variable kann unendlich viele Ausprägungen annehmen• Mehr als abzählbare Ausprägungen eines Merkmals• Aus messtechnischen Gründen oft nicht beliebig genau bestimmbar• Bsp.: Umsatz, Alter, Einkommen, BMI = kg/m², Sanduhr


25


Praxisbeispiel: Befragung der Studenten

Ziele: 1. Erstellen eines praxisrelevanten Datensatzes

2. Auswertungen basierend auf diesen Datensatz

Praxisbeispiel: Befragung der Studenten


26


Näheres zur Variablenansicht

Bezeichnungder Variable

Bezeichnung der Variablenund Werte in Datenansicht und

Ausgaben

Anzahlder

Zeichen

Ausschlaggebendfür die

Verarbeitung derVariable in SPSS

Benutzerdefiniertfehlende Werte

Unterscheidung zwischennominal, ordinal und metrisch(Bisher irrelevant für SPSS)

Optionen für die Anzeigein der Datenansicht


27


Definition von Variablen

Datentypen• Numerisch• Komma• Punkt• Wissenschaftliche

Notation• Datum• Dollar• Andere Währung• String

Messniveau• Nominal• Ordinal• Metrisch

Variablenname• muss mit Buchstaben

beginnen; restliche Zeichensind Buchstaben, Ziffern,Punkte oder folgendeSonderzeichen @, #, _, $;keine Leerzeichen!

• darf nicht mit Punkt enden• soll nicht mit Unterstrich

enden• auf 64 Zeichen beschränkt• Name muss eindeutig sein• Groß- und Kleinschreibung

wird unterschieden• Bestimmte Namen sind

reserviert z.B. ALL, AND,NOT, WITH, OR


28


Deklaration von Variablen am Bsp. A1

• Den einzelnen Werten werden Zahlen zugewiesen– Um den von uns benutzerdefiniert fehlenden Wert „weiß nicht“ von

den anderen Nennungen zu trennen, geben wir ihm eine erhöhteZahl (und trage diesen anschließend bei Fehlende Werte ein)

1 2 3 4 8


29


Deklaration von Variablen am Bsp. A1

Typ: Numerisch

Ein Zeichen lang

Keine Dezimalstellen

Bezeichnung der Variable

Wertelabels:1 = sehr gut…4 = nicht gut8 = weiß nicht

Benutzerdefiniert fehlender Wert:8 (Weiß nicht)

String-Variablen bedürfen weniger Aufwand bei der Deklaration (am Bsp. A3).Jedoch erzeugen diese offenen Fragen meist viel Arbeit bei der Auswertung.

Anzahl der Zeichen sinnvoll wählen


30


Datenansicht am Bsp. A1

• In der Datenansicht werden die einzelnenInterviews in Zeilen dargestellt.

• Die Spalte a1 repräsentiert unsere neuerzeugte Variable

• Wie man sieht, wurden die Zahlen durchdas jeweilige Wertelabel ersetzt.

• Man kann jene mit Hilfe des folgendenButtons ein und ausblenden:


31


Praxisbeispiel: Befragung der Kursteilnehmer

S112

x

1


32



A11 2 3 4 8

A2

128


33



A3

A4_1 1. Nennung

A4_2 2. Nennung

A4_3 3. Nennung


34



1 2 3 4 5 8 9

M1_1M1_2M1_3M1_4M1_5


35



M2

M3123

12


36



B1

12

B21 2 3 4 8

B3128


37



F1

F1_1

F1_2

F1_3

x

F1_8 = 1


38



1 2 3 4 5 8 9

F2_1

F2_2

F2_3

F2_4

F2_5


39



Bsp.: Befragter nutzt Fitness und Volleyball, d.h. die Variablen F3_5 und F3_8nehmen den Wert “1” an.

F3_ 123

456

78

Jeweils mit 1 vercoden

98 F3_s


40



ST_P ST_O

ST2

ST3

ST41 2 9


41



ST512345

6789


42



ST6123

ST7

ST8

ST9

1 2


V2

2



Überblick

• Häufigkeiten

• Lage- und Streuparameter

• Explorative Datenanalyse

• Datenmodifikation

3



Dateneingabe

Dateneingabe und -konsolidierung

• SPSS- Definition der Datenmatrix

Variablennamen, Typ, Label, Missing Values- Keine Fehlerprüfung möglich

• Einlesen von Textdateien- Variablennamen in 1. Zeile

- keine Leerzeilen oder -spalten, Überschriften, Texte o.ä.

- Daten mit dem Assistenten für Textimport einlesen

• Einlesen von fremden Dateiformaten (z.B. Excel, Datenbanken)- Variablennamen in 1. Zeile

- keine Leerzeilen oder -spalten, Überschriften, Texte o.ä.

- Daten in SPSS einlesen mit Dateityp Excel (.xls)→ Option „Read Variable Names“ aktivieren

• Data Entry- Definition der Datenmatrix

- Eingabe mit Fehlerprüfung

- Nur bei großen Datenmengen sinnvoll

4



Statistik Prozeduren in SPSS

Variablenliste zu analysierende Variablen

Übertragung der Variablen in Analyse

prozedurspezifischeSteuerungsmöglichkeiten

Übergabe in den Syntax Editor

Analyse durchführen

Einstellungen zurücksetzen

Mit der rechten Maustaste kann diewissensbasierte Datenbank von SPSSkonsultiert werden.

5



Häufigkeiten

Häufigkeiten:– „Analysieren –> Deskriptive Statistik -> Häufigkeiten“

– Die Werte können absolut oder prozentual dargestellt werden.

– Das Ergebnis wird in tabellarischer Form im Viewer ausgegeben.

6



Häufigkeiten

Häufigkeiten:– In der Variablenliste werden alle numerischen und String-Variablen angezeigt.

– Die Variable, für welche die statistische Maßzahlen berechnet werden sollen, wird aus der

Variablenliste ausgewählt und mit der Pfeil-Schaltfläche in die Liste „Variable(n)“ verschoben.

7



Häufigkeiten

Häufigkeiten: M2. Besuchst du regelmäßig die Cafeteria der Mensa?

(Ausgabe eines Balkendiagramms mit absoluten Diagrammwerten)

8



Häufigkeiten

Auswertung des Fragebogens zum Kurs M2. Besuchst du regelmäßig die Cafeteria der Mensa?

(Ausgabe eines Kuchendiagramms mit prozentualen Diagrammwerten)

• Nahezu 3/4 der befragten Studenten besuchenregelmäßig die Mensa der FH Ingolstadt.

Regelmäßige r Be such der Cafete ria

92 71,3 72,4 72,4

35 27,1 27,6 100,0

127 98,4 100,0

2 1,6

129 100,0

ja

nein

Gesamt

Gültig

SystemFehlend

Gesamt

Häuf igkeit Prozent

Gültige

Prozente

Kumulierte

Prozente

9



Häufigkeiten

Auswertung des Fragebogens zum Kurs M3. Was würdest du zu einem Rauchverbot in der Cafeteria sagen?

(Ausgabe eines Kuchendiagramms mit prozentualen Diagrammwerten)

Me inung zu Rauchve rbot in der Cafete ria

37 28,7 33,0 33,0

39 30,2 34,8 67,9

23 17,8 20,5 88,4

13 10,1 11,6 100,0

112 86,8 100,0

17 13,2

129 100,0

Ja, f inde ich gut

Nein, lehne ich ab

Ist mir im Prinzip egal

8

Gesamt

Gültig

SystemFehlend

Gesamt


Gültige

Prozente

Kumulierte

Prozente

10



Häufigkeiten

Auswertung des Fragebogens zum Kurs A1. Wie gefällt es Dir in Ingolstadt?


• Der Mehrzahl der Befragten gefällt Ingolstadtgut oder sogar sehr gut.

Bewe rtung de r Stadt Ingols tadt

33 25,6 25,8 25,8

82 63,6 64,1 89,8

8 6,2 6,3 96,1

4 3,1 3,1 99,2

1 ,8 ,8 100,0

128 99,2 100,0

1 ,8

129 100,0

Sehr gut

Gut

Weniger gut

Nicht gut

Weiß nicht

Gesamt

Gültig

SystemFehlend

Gesamt


Gültige

Prozente

Kumulierte

Prozente

11



Häufigkeiten

• 30% der Probanden geben fürs Weggehen mehr als100 € pro Abend aus.

Auswertung des Fragebogens zum Kurs ST5. Wie viel Geld verwendest Du etwa im Monat für Abends zum Weggehen?


Aus gabe n fürs Wegge he n

16 12,4 13,3 13,3

17 13,2 14,2 27,5

27 20,9 22,5 50,0

23 17,8 19,2 69,2

8 6,2 6,7 75,8

7 5,4 5,8 81,7

7 5,4 5,8 87,5

15 11,6 12,5 100,0

120 93,0 100,0

9 7,0

129 100,0

10 ! bis unter 30 !

30 ! bis unter 50 !

50 ! bis unter 70 !

70 ! bis unter 100!

100 ! bis unter 130 !

130 ! bis unter 150 !

150 ! bis unter 200 !

mehr als 200 !

Gesamt

Gültig

SystemFehlend

Gesamt


Gültige

Prozente

Kumulierte

Prozente

12



Häufigkeiten

Auswertung des Fragebogens zum Kurs ST6. Rauchst Du?

(Ausgabe eines Kreisdiagramms mit prozentualen Diagrammwerten)

• Über 50% der befragten Betriebswirtschafts-studenten rauchen nicht.

Raucher

65 50,4 52,0 52,0

20 15,5 16,0 68,0

40 31,0 32,0 100,0

125 96,9 100,0

4 3,1

129 100,0

Nein, ich rauche nicht

Ja, hin und w ieder

Ja, regelmäßig

Gesamt

Gültig

SystemFehlend

Gesamt


Gültige

Prozente

Kumulierte

Prozente

13



Häufigkeiten

Auswertung des Fragebogens zum Kurs ST7. Wie alt bist du?

(Ausgabe eines Säulendiagramm mit absoluten Diagrammwerten)

• Die Mehrzahl der Teilnehmer geben .....

Alte r

2 1,6 1,6 1,6

13 10,1 10,6 12,2

12 9,3 9,8 22,0

24 18,6 19,5 41,5

13 10,1 10,6 52,0

13 10,1 10,6 62,6

12 9,3 9,8 72,4

14 10,9 11,4 83,7

7 5,4 5,7 89,4

2 1,6 1,6 91,1

4 3,1 3,3 94,3

3 2,3 2,4 96,7

1 ,8 ,8 97,6

1 ,8 ,8 98,4

1 ,8 ,8 99,2

1 ,8 ,8 100,0

123 95,3 100,0

6 4,7

129 100,0

18

19

20

21

22

23

24

25

26

27

28

29

30

31

33

224

Gesamt

Gültig

SystemFehlend

Gesamt


Gültige

Prozente

Kumulierte

Prozente

14



Übungsblatt 2

Bitte bearbeiten Sie die

Aufgabe 1 des Übungsblattes.

15



Überblick

• Häufigkeiten




16



Lage und Streuungsparameter

Lageparameter• die meist eingesetzten Maßzahlen sind Mittelwerte und Streuungswerte• Anwendung i.d.R. nur bei metrischen Variablen• wenn sinnvoll, sollten zu Mittelwerten immer geeignete Streuungsparameter angegeben werden,

um die Häufigkeitsverteilung zu charakterisieren.

Median• Wert, der eine nach Größe sortierte Reihe von Merkmalsausprägungen in

zwei gleich große Hälften teilt• 50% der Fälle liegen oberhalb und 50% liegen unterhalb des Median• Daten mindestens ordinalskaliert (Ordnung nach Größe zwingend)• Anwendung: Bildung von Extremgruppen z.B. oberstes/unterstes Viertel der

Einkommensvariable (Berechnung von Quartilen)

Modalwert (Modus)• Messwert, der in einem Datensatz am häufigsten vorkommt• Gibt an, wo die größte Dichte einer Verteilung liegt• nominale, ordinale und metrische Daten

17




Arithmetisches Mittel • Maßzahl zur zentralen Tendenz von Daten• Ermittlung der durchschnittlichen Merkmalsausprägung• Daten mindestens intervallskaliert (in manchen Fällen auch ordinal)• Alle Messwerte gehen mit vollem Gewicht in die Berechnung ein, so dass

Extremwerte stark verzerren können → prüfen ob es Ausreißer gibt• Befragte, die mit „weiß nicht“ oder die gar nicht geantwortet haben (und dafür z.B.

die Codes 8, 9, oder 99 bekommen) müssen von der Mittelwertberechnungausgeschlossen werden, indem sie als fehlende Werte definiert werden

• Das arithmetische Mittel ist nur dann ein wirklich guter mittlerer Kennwert einerVerteilung, wenn diese symmetrisch ist

Lageparameter

18




LageparameterAus der Reihenfolge der drei Mittelwert arithmetisches Mitte, Modus und Median kann manAussagen über die Form der Häufigkeitsverteilung von Variablen ableiten:

1. Linkssteile VerteilungDie Verteilung steigt links schnell an, erreicht ihrenGipfel und fällt dann langsam ab.Modus < Median < arithmetisches Mittel

2. Rechtssteile VerteilungDie Verteilung steigt links langsam an, erreicht ihrenGipfel und fällt rechts steil ab.arithmetisches Mittel < Median < Modus

3. Symmetrische VerteilungAlle drei Mittelwerte fallen auf einen Punkt.arithmetisches Mittel = Median = Modalwert

• Die Form der Verteilung kann mittels SPSS festgestelltwerden. Die Funktionen heißen „Schiefe“ (Welche Seite derVerteilung ist länger?) und „Kurtosis“ (Wölbung; je größer dieWölbung, desto stärker konzentrieren sich die Werte an einerbestimmten Stelle).

• Schiefe: rechtssteil < 0 < linkssteil• Kurtosis: flachgipflig < 0 < hochgipflig

19




20



Lage- und Streuungsparameter

Streuungsparameter• Messung der Verteilung der Häufigkeitsverteilung um den Mittelwert• Präzisiert die Aussage der Lageparameter• Einfachste Streuungsparameter sind das Minimum (kleinste vorkommende

Merkmalsausprägung) und das Maximum (größte vorkommende Merkmalsausprägung).

Varianz• Nur metrische Daten• Bestimmung einer Art durchschnittliche Abweichung vom Mittelwert• Je dichter die einzelnen Werte an dem Mittelwert liegen, desto kleiner ist die Varianz• Die Varianz wird nicht in der Einheit der Variablenwerte gemessen

Standardabweichung• Nur metrische Daten• Ermöglicht Vergleichbarkeit mit Mittelwerten• Vergleichbarkeit bei Varianz nicht gegeben, da Einheit zum Quadrat• Die Standardabweichung wird in der Einheit der Variablenwerte gemessen

Spannweite• Mindestens ordinalskalierte Daten• Differenz zwischen dem größten und dem kleinsten Wert der Stichprobe• Kann durch Ausreißer stark beeinflusst werden

Standardfehler• Nur metrische Daten• Maß für die Streuung des Mittelwertes der Stichprobe bzw. verschiedener (potenzieller) Stichproben

um den Mittelwert der Grundgesamtheit

21



Lage- und Streuungsparameter

22



Übungsblatt 2



23



Überblick

• Häufigkeiten




24



Explorative Datenanalyse

Explorative Datenanalyse• Fehlerhaft erhobene oder eingegebene Daten bedeuten die

Verzerrung der Ergebnisse, deshalb sollten Daten vor Beginnder Datenanalyse zunächst einer Plausibiltätsprüfungunterzogen werden

• Untersuchung und Begutachtung von Daten, von denen mannur geringes Wissen über deren Zusammenhänge hat

• Ziele der explorativen Datenanalyse

1. Überprüfung der Rohdaten und ggf. der Originalbelege

2. Prüfung der Verteilung der Werte und Identifikation vonAusreißern

3. Bildung von Hypothesen über Gründe undZusammenhänge, die vorher nicht erkennbar waren

4. Hilfe zur Wahl des passenden statistischen Werkzeuges

• Stängel-Blatt-Diagramm

• Histogramm

• Perzentile

• M-Schätzer

• Ausreißer

• Schachtel-Diagramm

• Normalverteilungstest

25





1. Grafische Darstellung der Werteverteilung

• Stängel-Blatt-Diagramm (Stem-and-Leaf)

• Histogramm

2. Lage der Werte beschreiben

• Perzentile

• Ausreißer-Analyse

• M-Schätzer

3. Test auf Normalverteilung


• Histogramm

• Perzentile

• Ausreißer


• M-Schätzer


26




Frequency Stem & Leaf3,00 10 . 1353,00 11 . 1220,00 12 .1,00 13 . 4

Stem width: 10,00Each leaf: 1 case(s)

Stem-and-Leaf Plot (Stängel-Blatt-Diagramm)• Übersichtliche Darstellung von Variablen mit vielen unterschiedlichen Werten• Liefert einen grafischen Eindruck von der Verteilung der Werte• Erstellung per Hand

– Die n Beobachtungswerte werden der Größe nach geordnet• 101, 103, 105, 111, 112, 112, 134

– Wahl der Blatteinheit (stem width) (Zahl mit der multipliziert werden muss, um zum ursprünglichen Wert zurückzukehren)

• Üblicherweise … 0,1 bzw. 1 bzw. 10 bzw. 100 …• So wählen, dass beim Teilen eine Nachkommastelle stehen bleibt. Hier: 10

– Beobachtungswerte durch die Blatteinheit teilen• 10,1 ; 10,3 ; 10,5 ; 11,1 ; 11,2 ; 11,2 ; 13,4

– Den Modulus der Zahl (ohne Komma) bezeichnen wir als Stamm– Den Wert hinter dem Komma als Blatt

27




Stem-and-Leaf Plot (Stängel-Blatt-Diagramm) ST8. Wie groß bist Du? (in cm)

Gibt den ganzzahligen Teilder Werte wieder

Gibt den Dezimalteil derWerte wieder

Gibt an, um welchen Faktor dieUrsprungswerte von den imDiagramm angegebenenWerten abweichen

Gibt die Anzahl der Werte an,die durch ein Blatt repräsentiertwerden

Größe Stem-and-Leaf Plot

Frequency Stem & Leaf

1,00 15 . 8 15,00 16 . 000000233344444 20,00 16 . 55555556677888888999 29,00 17 . 00000000000011222222333333344 23,00 17 . 55555666666777888889999 19,00 18 . 0000000112222233444 10,00 18 . 5556667889 3,00 19 . 034 2,00 19 . 56

Stem width: 10 Each leaf: 1 case(s)

28




Histogramm• Das Histogramm vermittelt den gleichen Eindruck von der Werteverteilung wie das Stängel-Blatt-

Diagramm, gibt aber keine Auskunft über die Verteilung der Werte innerhalb der einzelnen Klassen• Werte werden in gruppierter Form (Werteklassen) betrachtet und durch Säulen dargestellt (Bereiche

haben gleiche Breite). Die Werteklassen werden von SPSS automatisch gebildet.• Nur metrische Daten

* SPSS benötigt metrische Daten für die Darstellung eines Histogramms, in der Statistik gibt es Histogramme für ordinalskalierte Daten

Wenigaussagekräftig, weilsich jeder einzelneBalken auf eineeinzelne Kategoriebezieht.

29







• Histogramm


• Perzentile


• M-Schätzer



• Histogramm

• Perzentile

• Ausreißer


• M-Schätzer


30




3

7

4

8

5

9

6

10

6

11

261387322211Ausprägung

15141312654321Fallnummer

Das 40%-Perzentil dieser Verteilunghat den Wert 3 (0,4*15 = 6)

Das 50%-Perzentil (Median) dieserVerteilung hat den Wert 4(0,5*15 = 7,5 → 8)

Perzentile (auch Quantile, Fraktile)• Ordnet man die Beobachtungswerte eines Merkmals der Reihe nach, so bestimmt sich der Wert

eines x%-Perzentils durch die Ausprägung des Falles an der x%ten Stelle.

31




Perzentile (auch Quantile, Fraktile)

32




Perzentile (auch Quantile, Fraktile)• Die Explorative Datenanalyse gibt eine vorgegebene Auswahl an Perzentilen aus.

• Mit Hilfe der Funktion „Häufigkeiten“ lassen sich benutzerdefinierte Perzentile ausgeben(Analysieren > Deskriptive Statistik > Häufigkeiten > Statistik)

Perzentile

19,00 19,00 21,00 22,00 25,00 27,00 29,00

21,00 22,00 25,00

A lter

A lter

Gew ichtetes Mittel

(Def inition 1)

Tukey-Angelpunkte

5 10 25 50 75 90 95

Perzentile

Statistiken

Alter123

6

19,00

20,00

21,00

21,00

22,00

23,00

24,00

25,00

27,00

Gültig

Fehlend

N

10

20

30

40

50

60

70

80

90

Perzentile

33




Ausreißeranalyse (Extremwerte)• Durch das Anzeigen der Extremwerte (kleinste und größte Werte) können Ausreißer entdeckt

werden.Extremw erte

96 **

71 33

77 31

51 30

50 29a

106 18

104 18

124 19

119 19

114 19b

1

2

3

4

5

1

2

3

4

5

Größte Werte

Kleinste Werte

A lterFallnummer Wert

Nur eine partielle Liste von Fällen mit dem Wert 29

w ird in der Tabelle der oberen Extremw erte angezeigt.

a.

Nur eine partielle Liste von Fällen mit dem Wert 19

w ird in der Tabelle der unteren Extremw erte angezeigt.

b.

34




Schachtel-Diagramm (Box Plot)• Stellt die Lage der Werte und deren Streuung im Definitionsbereich dar

• Ausreißer und Extremwerte werden sichtbar gemacht

Ausreißer (°): Werte, die mehr als 1,5 Box-Längen vom 25%- oder75%-Perzentil entfernt sind

Extremwerte (*): Werte, die mehr als 3 Box-Längen vom 25%- oder75%-Perzentil entfernt sind

35




Schachtel-Diagramm (Box Plot)• Stellt die Lage der Werte und deren Streuung im Definitionsbereich dar

• Ausreißer und Extremwerte werden sichtbar gemacht

Median

Ausreißer

75% Perzentil

25% Perzentil

50% derFälle

Ausreißer (°): Werte, die mehr als 1,5 Box-Längen vom 25%- oder75%-Perzentil entfernt sind

Extremwerte (*): Werte, die mehr als 3 Box-Längen vom 25%- oder75%-Perzentil entfernt sind

niedrigster Wert, derkein Ausreißer ist

höchster Wert, derkein Ausreißer ist

36




M-Schätzer (Maximum-Likelihood-Schätzer)• Mittelwertberechnung unter Berücksichtigung von Extremwerten

• Werte werden bei der Berechnung unterschiedlich stark gewichtet (je stärker ein Wert von denübrigen Werten abweicht, desto geringer ist das Gewicht)

Statistiken

Alter123

6

24,41

Gültig

Fehlend

N

Mittelwert

M-Schätzer

22,48 22,30 22,47 22,29Alter

M-Schätzer

nach Hubera

Tukey-

Biweightb

M-Schätzer

nach Hampelc

Andrews-

Welled

Die Gewichtungskonstante ist 1,339.a.

Die Gewichtungskonstante ist 4,685.b.

Die Gewichtungskonstanten sind 1,700, 3,400 und 8,500c.

Die Gewichtungskonstante ist 1,340*pi.d.

Statistiken

Alter123

6

22,79

Gültig

Fehlend

N

Mittelwert

Datenbasis mit Fehleingaben Berichtigte Datenbasis

37







• Histogramm


• Perzentile


• M-Schätzer



• Histogramm

• Perzentile

• Ausreißer


• M-Schätzer


38




Test auf Normalverteilung

• Zahlreiche statistische Verfahren setzen voraus, dass die zu untersuchenden Daten annäherndnormalverteilt sind

• SPSS bietet mit der Prozedur „Explorative Datenanalyse“ folgende Möglichkeiten Daten aufNormalverteilung zu prüfen

• NormalverteilungsplotsEmpirisch beobachtete Werte werden den erwarteten Werten bei einer Normalverteilunggegenübergestellt

• SignifikanztestsErrechnung einer Wahrscheinlichkeit, mit der das Zurückweisen der Hypothese, die Werte seiennormalverteilt, fehlerhaft ist

39




Normalverteilungsplots

Theoretische Werteeiner Normalverteilung

• Sind die empirischen Werte normalverteilt,müssen die einzelnen Punkte weitgehend demVerlauf der Geraden folgen.

• Gravierender ist die Stärke der Abweichung inderen Form. Folgen die Werte einem klarenMuster, weichen die Werte systematisch vonder Normalverteilung ab.

• Diese Grafik ist geeignet um ein Muster in denAbweichungen zu erkennen

• Wären die Stichprobenwerte normalverteilt,müssten die Punkte in der Grafik zufällig undnicht einem Muster folgend um die horizontaleLinie streuen.

• das Alter ist in der Grundgesamtheit nicht normalverteilt

40




Signifikanztests• Der Kolmogorov-Smirnov- und der Shapiro-Wilk-Test überprüfen beide die Nullhypothese, die Werte

der untersuchten Variablen seien in der Grundgesamtheit normalverteilt

• Es wird eine Wahrscheinlichkeit errechnet, mit der das Zurückweisen dieser Hypothese falsch ist

• Je größer die Irrtumswahrscheinlichkeit, desto eher kann davon ausgegangen werden, dass die Wertenormalverteilt sind.

• Kolmogorov-Smirnov: für große Stichproben geeignet

• Shapiro-Wilk-Test: ergänzend für kleine Stichproben (etwa weniger als 50)

• Annahme einer Normalverteilung ist zurückzuweisen

Tests auf Normalv erteilung

,143 123 ,000 ,942 123 ,000AlterStatistik df Signifikanz Statistik df Signifikanz

Kolmogorov-Smirnova

Shapiro-Wilk

Signifikanzkorrektur nach Lil l ieforsa.

Irrtumswahrscheinlichkeit

41



Übungsblatt 2



42



Überblick

• Häufigkeiten




43



Datenmodifikation und -filterung


Umkodieren(Befehl: Transformieren → Umkodieren)

Veränderung der Werte einer schon vorhandenen Variablen

• in dieselbe Variable (alte Werte werden überschrieben)

• in eine neue Variable (die alte Variable bleibt erhalten)

• Sonderfall: Umkodierung in aufeinander folgende Zahlen

Berechnen(Befehl: Transformieren → Berechnen)

Ausführung von mathematischen Operationen mit den vorhandenen Datenwerten

(z.B. Merkmalsausprägungen addieren, Index bilden)

44





Untersuchungen anhand einer kategorialen (Gruppierungs-) Variablen(Befehl: Daten → Datei aufteilen)Analyse von unterschiedlichen Teildatenmengen

Untersuchungen anhand von kontinuierlichen Variablen(Befehl: Daten → Fälle auswählen)Analyse von Daten, die anhand der Werte ihrer Variablen ausgewählt werden

Gewichtung von Fällen(Befehl: Daten → Fälle gewichten)Zuweisung von Gewichten auf die unterschiedlichen Fälle der Datendatei, um dieRepräsentativität der Ergebnisse zu gewährleisten (manche Daten sind über- oderunterrepräsentiert). Die Gewichtungsfaktoren werden bei den nachfolgenden statistischenAnalysen berücksichtigt.

45




Datenmodifikation und -filterung• Umkodieren

46




Datenmodifikation und -filterung• Berechnen

47




Datenmodifikation und -filterung• Untersuchungen anhand einer kategorialen (Gruppierungs-) Variablen

48




Datenmodifikation und -filterung• Untersuchungen anhand von kontinuierlichen Variablen

49




Datenmodifikation und -filterung• Gewichtung von Fällen

50



Übungsblatt 2


restlichen Fragen des

Übungsblattes.


V3


2


Überblick

• Analyse von Mehrfachantworten

• Kreuztabellen

• Korrelationen

• Regression


3


Analyse von Mehrfachantworten

Mehrfachantworten• Fragen, auf die Probanden mehrere Antworten gleichzeitig gegeben können

• Beispiel:

• Unabhängig davon, wie viele Kreuze der Befragte setzt, gibt es jedoch in jedem Fall neunAntwortkategorien

• Die Antworten können nicht in einer Variable gespeichert werden → die Gruppe von Antworten sollaber so ausgewertet werden, als wären die Informationen nur in einer Variablen gespeichert

• SPSS bietet zwei verschiedene Methoden an: Methode multipler Kategorien

Methode multipler Dichotomien

x

x

x


4



Mehrfachantworten zur Analyse aufbereiten

• Methode multipler Kategorien:• Anzahl der zu ankreuzenden Antworten wurde beschränkt

(z.B.: Bitte kreuzen Sie maximal 3 Antworten an)→ Anzahl der Variablen entspricht der maximalen Anzahl an Antworten

• Falls nicht angegeben wurde, wie viele Antworten angekreuzt werden sollen, kann die Anzahlder maximalen Antworten durch Schätzung oder Durchsicht der Fragebögen ermittelt werden

• Die Kodierung erfolgt wie bei Einfachantworten

F3_1

F3_2

F3_3

F3_99 F3_s

123

456

78

9

→ 1,2,3,4,5,6,7,8,9→ 1,2,3,4,5,6,7,8,9

→ 1,2,3,4,5,6,7,8,9


5



Mehrfachantworten zur Analyse aufbereiten

• Methode multipler Dichotomien:• Keine Beschränkung bei der Anzahl der zu

ankreuzenden Antworten→ für jede Antwortmöglichkeit wird eine Variable erstellt

• Häufig verwendete Codierung:„1 = wurde gewählt“, „0 = wurde nicht gewählt“

• Vorteil: klare Struktur der Kodierung• Nachteil: hohe Anzahl an Variablen

F3_1F3_2F3_3

F3_4F3_5F3_6

F3_7F3_8

F3_9F3_99 F3_9s

umkodieren

1/01/0

1/0 1/01/01/0 1/0

1/0

1/01/0

Um diese Frage noch eindeutiger zu stellen, müssten eigentlich zweiFragen formuliert werden. (1. Treibst du Sport; 2. WelchesSportangebot an der Fachhochschule Ingolstadt nutzt Du?)


6



Häufigkeitsauswertung von Mehrfachantworten• Multiple Dichotomien

• Häufigkeitsauswertung über jede einzelne Variable und Vergleich der einzelnen Analysen→ sehr umständlich und weniger anschaulich

• Multiple Kategorien• Häufigkeitsauswertung über jede Antwortvariable→ wenig aussagekräftig, da eine bestimmte Antwort in jeder der in Frage kommenden Variablen gespeichert sein könnte

Lösung: Variablen zu Sets zusammenfassen

• Zusammengehörende Variablen in Sets zusammenfassen

• Analyse der Daten mit Prozeduren, die speziell für Mehrfachantworten entwickelt wurden

• „Analysieren > Mehrfachantworten > Sets definieren“

• Sets für multiple DichotomienAlle Variablen der Mehrfachantworten werden zu einer Gruppe zusammengefasst, dabei muss angegebenwerden, welche Kodierung bei späteren Analysen von Interesse ist (z.B. 1 = wurde gewählt)→ Analyse über alle Variablen, mit welcher Häufigkeit die angegebene Kodierung auftritt

• Sets für multiple KategorienAlle Antwortvariablen werden zu einer Gruppe zusammengefasst, dabei müssen alle Kodierungen angegebensein, die bei der Analyse ausgezählt werden sollen (1 = Aerobic, 2 = Badminton etc.)→ Analyse, mit welcher Häufigkeit die einzelnen Kodierungen im Set enthalten sind

• Mehrfachantworten-Sets werdennicht mit der Datendatei gespeichert→ Syntax (kein „Einfügen“ Button)


7



Variablen zu Setz zusammenfassen F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du?

(Mehrfachnennungen möglich)


8



Häufigkeitsauswertung von Mehrfachantworten F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich)


9



• Von 129 Probanden nutzen 46% das Sportangebotan der FHI

• Von allen angebotenen Sportarten wird Aerobic ammeisten besucht (17%)

• 25% der Studenten, die das Sportangebot an derFHI nutzen, nehmen an der Sportart Aerobic teil.

• Die Kategorie „mache keinen Sport“ sowie dieSpezifizierung der Kategorie „Sonstige“ müssenseparat ausgewertet werden. Es kann jedoch dieSchlussfolgerung gezogen werden, dass die 70fehlenden Fälle keinen Sport treiben.

Häufigkeitsauswertung von Mehrfachantworten F3. Welches Sportangebot der Fachhochschule Ingolstadt nutzt Du? (Mehrfachnennungen möglich)

• Fälle, bei denen keine Set-Variable den angegebenen Wert(1) annimmt, werden als fehlend bezeichnet

Fallzusammenfassung

59 45,7% 70 54,3% 129 100,0%$Sportangebot_set aN Prozent N Prozent N Prozent

Gültig Fehlend Gesamt

Fälle

Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1.a.

Häufigkeiten v on $Sportangebot_set

15 17,0% 25,4%

6 6,8% 10,2%

8 9,1% 13,6%

3 3,4% 5,1%

11 12,5% 18,6%

11 12,5% 18,6%

6 6,8% 10,2%

10 11,4% 16,9%

18 20,5% 30,5%

88 100,0% 149,2%

Aerobic

Badminton

Basketball

Fechten

Fitness

Fußball

Lauftreff

Volleyball

Sonstiges

Sportangebota

Gesamt

N Prozent

Antworten Prozent

der Fälle

Dichotomie-Gruppe tabellarisch dargestellt bei Wert 1.a.


10


Übungsblatt 3




11


Überblick


• Kreuztabellen

• Korrelationen

• Regression


12


Kreuztabellen

Kreuztabellen• Kreuztabellen dienen dazu, die gemeinsame Häufigkeitsverteilung zweier Variablen darzustellen.

Es handelt sich um das Pendant zu einer Häufigkeitstabelle für den 2-Variablen-Fall.

• Es werden Fallgruppen betrachtet, die sich durch die Kombination aus zwei Variablen zusammensetzen

• Kreuztabellen sind zur Betrachtung nominal- oder ordinalskalierten Variablen geeignet

• Die Prozedur Kreuztabellen beschränkt sich nicht nur auf die Verteilung von zwei Variablen, sondernbietet auch statistische Zusammenhangstests und Zusammenhangsmaße an

Analysemöglichkeiten mit der Prozedur Kreuztabellen

• Kreuztabellen (nominal- und ordinalskalierte Variablen)

• Chi-Quadrat-Test (nominal- und ordinalskalierte Variablen)Untersucht, z.B. ob aus den Stichprobenbeobachtungen geschlossen werden kann, dasszwischen zwei kategorialen Variablen in der Grundgesamtheit ein Zusammenhang besteht

• Zusammenhangsmaße (nominal-, ordinal- und intervallskalierte Variablen)Bringen durch eine Maßzahl die Stärke eines Zusammenhangs zwischen zwei Variablen zumAusdruck


13


Kreuztabellen

Kreuztabellen auswertenST2. Im wievielten Semester studierst Du?ST6. Rauchst Du?(Erstellung einer Kreuztabelle und eines Balkendiagramms)


14


Kreuztabellen

Raucher * Semester Kreuztabelle

Anzahl

20 14 14 13 4 65

3 2 5 7 3 20

7 9 11 11 1 39

30 25 30 31 8 124


Ja, hin und wieder

Ja, regelmäßig

Raucher

Gesamt

1 3 5 7 9

Semester

Gesamt

Kreuztabellen auswertenST2. Im wievielten Semester studierst Du?ST6. Rauchst Du?(Erstellung einer Kreuztabelle und eines Balkendiagramms)


15


Kreuztabellen

Kreuztabellen auswerten• Erwartete Häufigkeit: Häufigkeit, die vorliegen müsste, wenn kein statistischer Zusammenhang

vorliegen würde (Zeilensumme * Spaltensumme / Gesamtsumme der Häufigkeit)

• Relative Häufigkeit: absolute Häufigkeit dargestellt in Prozent

• prozentuale Zeilenhäufigkeit: Prozentuierung auf den jeweiligen Zeilensummenwert

• prozentuale Spaltenhäufigkeit: Prozentuierung auf den jeweiligen Spaltensummenwert

• prozentuale Gesamthäufigkeit: Prozentuierung auf die Gesamtzahl der gültigen Fälle


16


Kreuztabellen

Raucher * Semester Kreuztabelle

20 14 14 13 4 65

15,7 13,1 15,7 16,3 4,2 65,0

30,8% 21,5% 21,5% 20,0% 6,2% 100,0%

66,7% 56,0% 46,7% 41,9% 50,0% 52,4%

16,1% 11,3% 11,3% 10,5% 3,2% 52,4%

3 2 5 7 3 20

4,8 4,0 4,8 5,0 1,3 20,0

15,0% 10,0% 25,0% 35,0% 15,0% 100,0%

10,0% 8,0% 16,7% 22,6% 37,5% 16,1%

2,4% 1,6% 4,0% 5,6% 2,4% 16,1%

7 9 11 11 1 39

9,4 7,9 9,4 9,8 2,5 39,0

17,9% 23,1% 28,2% 28,2% 2,6% 100,0%

23,3% 36,0% 36,7% 35,5% 12,5% 31,5%

5,6% 7,3% 8,9% 8,9% ,8% 31,5%

30 25 30 31 8 124

30,0 25,0 30,0 31,0 8,0 124,0

24,2% 20,2% 24,2% 25,0% 6,5% 100,0%

100,0% 100,0% 100,0% 100,0% 100,0% 100,0%

24,2% 20,2% 24,2% 25,0% 6,5% 100,0%

Anzahl

Erwartete Anzahl

% von Raucher

% von Semester

% der Gesamtzahl

Anzahl

Erwartete Anzahl

% von Raucher

% von Semester

% der Gesamtzahl

Anzahl

Erwartete Anzahl

% von Raucher

% von Semester

% der Gesamtzahl

Anzahl

Erwartete Anzahl

% von Raucher

% von Semester

% der Gesamtzahl


Ja, hin und wieder

Ja, regelmäßig

Raucher

Gesamt

1 3 5 7 9

Semester

Gesamt

bei Normalverteilung beider Merkmale


17


Kreuztabellen

• Durch Schichtungsvariablen lassen sich mehrdimensionale Häufigkeitstabellen erstellen.ST2. Im wievielten Semester studierst Du?ST6. Rauchst Du?(Erstellung einer Kreuztabelle und eines Balkendiagramms mit der Schichtungsvariable Geschlecht.)

Einsatz von Gruppen – und Schichtenvariablen


18


Kreuztabellen

Raucher * Semester * Geschlecht Kreuztabelle

Anzahl

10 5 3 4 2 24

1 1 0 5 3 10

2 4 5 7 0 18

13 10 8 16 5 52

10 9 11 9 2 41

2 1 5 2 0 10

5 5 6 4 1 21

17 15 22 15 3 72


Ja, hin und wieder

Ja, regelmäßig

Raucher

Gesamt


Ja, hin und wieder

Ja, regelmäßig

Raucher

Gesamt

Geschlechtmännlich

weiblich

1 3 5 7 9

Semester

Gesamt

ST2. Im wievielten Semester studierst Du?ST6. Rauchst Du?(Erstellung einer Kreuztabelle und eines Balkendiagramms mit der Schichtungsvariable Geschlecht.)

Einsatz von Gruppen – und Schichtenvariablen


19


Kreuztabellen

Chi-Quadrat-Test (Signifikanztest für mindestens nominalskalierte Daten)

• Zwei Variablen sind voneinander unabhängig (Annahme der Nullhypothese), wenn diebeobachteten Häufigkeiten mit den erwarteten Häufigkeiten übereinstimmen→ Beispielfragestellung: Besteht zwischen zwei Variablen ein Zusammenhang?

• Nullhypothese: In der Grundgesamtheit liegt kein Zusammenhang zwischen den Variablen vor.• Alternativhypothese: In der Grundgesamtheit liegt ein Zusammenhang zwischen den Variablen vor.

• Drei verschiedenen Modelle:• Pearson-Test

am häufigsten verwendeter Test• Likelihood-Test

liefert bei großen Stichproben das gleicheErgebnis wie der Person-Test

• Linear mit linearmisst den linearen Zusammenhang zwischenden Variablen (min. Ordinalskalierung)

• Voraussetzung für Zuverlässigkeit des Tests• erwartete Häufigkeit von mindestens 5 in jeder Zelle• nach Möglichkeit Kreuztabelle mit mehr als 5 Felder• nominal- und ordinalskalierte Daten

• Ein Signifikanzwert von „0,000“ sagt aus, dass man, wenn man die Nullhypothese ablehnt (es bestehtkein Zusammenhang), mit einer Wahrscheinlichkeit von 0,0% einen Fehler begeht.


20


Kreuztabellen

Chi-Quadrat-Test (Signifikanztest für mindestens nominalskalierte Daten)

höchst signifikant

sehr signifikant

signifikant

nicht signifikant

Bedeutung

Unter oder gleich 0,001

Über 0,001 bis 0,01

Über 0,01 bis 0,05

Über 0,05

Irrtumswahr-scheinlichkeit*

• Es besteht kein signifikanter Zusammenhangzwischen dem Rauchverhalten und der Anzahl derSemesteranzahl, da p = 0,343.

• Die Nullhypothese wird angenommen und dieAlternativhypothese verworfen.

ST2. Im wievielten Semester studierst Du?ST6. Rauchst Du?(Prüfung, ob ein Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semester besteht)

*die mit einem Zurückweisen der Nullhypothese verbunden ist.

Chi-Quadrat-Tests

8,991a

8 ,343

8,895 8 ,351

1,436 1 ,231

124

Chi-Quadrat nach

Pearson

Likelihood-Quotient

Zusammenhang

linear-mit-l inear

Anzahl der gültigen Fälle

Wert df

Asymptotisch

e Signifikanz

(2-seitig)

6 Zellen (40,0%) haben eine erwartete Häufigkeit kleiner 5.

Die minimale erwartete Häufigkeit ist 1,29.

a.


21


Kreuztabellen

Zusammenhangsmaße• Einschätzung der Stärke eines Zusammenhangs und Quantifizierung anhand einer Maßzahl. Eine präzise Aussage

über die Stärke ist anhand der Zusammenhangsmaße nicht möglich.• Die Anwendbarkeit eines Zusammenhangsmaßes ist vom Skalenniveau der betrachteten Variablen abhängig• Ein Wert von 0 bedeutet völlige Unabhängigkeit und ein Wert von 1 bedeutet größte Abhängigkeit

(für Zusammenhangsmaße, deren Ausgabe zwischen 0 und 1 liegt)

Wert zwischen -1 und +1Abhängige und unabhängige Variable müssen min.intervallskaliert sein; Normalverteilung der VariablenPearsons Korrelationskoeffizient

Wert zwischen 0 und 1Abhängige Variable ist intervall- und unabhängige nominal- oderordinalskaliertEta

Intervallskalierte VariablenUnempfindlich gegen unterschiedliche TabellenformateKendalls Tau-c

Nur für quadratische TabellenKendalls Tau-b Wert zwischen -1 und +1

Betrachtet eine der beiden Variablen als abhängig und eine alsunabhängigGamma, Somers d

Ordinalskalierte Variablen

Lambda ist ein eher grobes Maß und kann auch 0 annehmen,wenn eine Abhängigkeit gegeben istLambda, Unsicherheitskoeffizient

Wert zwischen 0 und 1

Werte für Tabellen mit unterschiedlicher Feldanzahl sind nurbedingt vergleichbarKontingenzkoeffizient

Unempfindlich gegen unterschiedliche Tabellenformate undFallzahlenCramers V

AusgabeBesonderheitenZusammenhangsmaß

Liefert nur für 2x2 Tabellen (Vierfeldertafel) verlässlicheErgebnisse und ist stark abhängig von der Anzahl der FällePhi

Nominalskalierte Variablen

BESTE WAHL!


22


Kreuztabellen

ZusammenhangsmaßeST2. Im wievielten Semester studierst Du?ST6. Rauchst Du?(Prüfung, wie stark der Zusammenhang zwischen dem Rauchverhalten und der Anzahl der Semester ist)

Symmetrische Maße

,269 ,343

,190 ,343

,260 ,343

124

Phi

Cramer-V

Kontingenzkoeffizient

Nominal- bzgl.

Nominalmaß


Wert

Näherung

sweise

Signifikanz

Die Null-Hyphothese wird nicht angenommen.a.

Unter Annahme der Null-Hyphothese wird der asymptotische

Standardfehler verwendet.

b.

Perfekter Zusammenhang1Sehr starker Zusammenhang0,8 bis unter 1Starker Zusammenhang0,6 bis 0,8Mittlerer Zusammenhang0,4 bis 0,6Schwacher Zusammenhang0,2 bis 0,4Sehr schwacher Zusammenhangüber 0 bis 0,2Kein Zusammenhang0

Mögliche InterpretationZusammenhangsmaß

Orientierungshilfe; Brosius 2004, 525


23


Übungsblatt 3


Aufgabe 2, 3, 4 und 5 des

Übungsblattes.


24


Überblick


• Kreuztabellen

• Korrelationen

• Regression


25


Korrelationen

Korrelationen

• Zielsetzung: Zusammenhänge zwischen zwei Variablen aufdecken, quantifizieren (und testen)

• Beide Variablen sind „gleichberechtigt“ (keine abhängige und unabhängige Variable)

• Der Korrelationskoeffizient (R) ist ein Maß für die Stärke und die Richtung des linearenZusammenhangs zweier Variablen

– Der Betrag ist umso größer, je stärker der lineare Zusammenhang zwischen den Variablen ist

– Wird ein Korrelationskoeffizient von „0“ berechnet, kann dennoch ein perfekter nicht linearerZusammenhang zwischen den Variablen bestehen→ Streudiagramm

+1 → perfekt positiver Zusammenhang 0 → kein linearer Zusammenhang-1 → perfekt negativer Zusammenhang

Perfekte Korrelation1Sehr starke Korrelation0,8 bis unter 1Starke Korrelation0,6 bis 0,8Mittlere Korrelation0,4 bis 0,6Schwache Korrelation0,2 bis 0,4Sehr schwache Korrelationüber 0 bis 0,2Keine Korrelation0

Mögliche InterpretationKorrelationskoeffizient

Orientierungshilfe; Brosius 2004, 525


26


Korrelationen

Korrelationen ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)


27


Korrelationen

Korrelationen• In einem Streudiagramm werden die Werte von zwei Variablen gegeneinander abgetragen• Jeder Fall wird durch einen Punkt im Diagramm dargestellt ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)

-20000,00 -15000,00 -10000,00 -5000,00 0,00

Variable 2

0

5000

10000

15000

20000

Vari

ab

le 1

-10,00 -5,00 0,00 5,00 10,00

Variable 2

0

200

400

600

800

1000

Vari

ab

le 1


28


Korrelationen

Korrelationen

• Wahl der Korrelationskoeffizienten hängt vom Skalenniveau der betreffenden Variablen ab

Pearsons Korrelationskoeffizient

– Die Variablen müssen mindestens intervallskaliert sein

– Die Variablen müssen in der Grundgesamtheit annähernd normalverteilt sein

Kendalls Tau-b, Spearmans Rho

– Die Variablen müssen mindestens ordinalskaliert sein

– Die Variablen müssen nicht normalverteilt sein

Signifikanztest• Rückschlüsse über die Signifikanz eines linearen Zusammenhangs der Variablen von der

Stichprobe auf die Grundgesamtheit können über einen Signifikanztest gezogen werden

• Wahl des Signifikanztests hängt vom Skalenniveau der betreffenden Variablen ab(SPSS wählt auf Basis des Korrelationskoeffizienten den richtigen Signifikanztest)

– Nominalskalenniveau, z.B. Chi-Quadrat Test

– Ordinalskalenniveau, z.B. Mann-Whitney Test

– Metrisches Skalenniveau, z.B. T-Test(Voraussetzung: Variablen normalverteilt)

höchst signifikantsehr signifikantsignifikantnicht signifikant

Bedeutung

Unter oder gleich 0,001Über 0,001 bis 0,01Über 0,01 bis 0,05

Über 0,05

Irrtumswahr-scheinlichkeit*

*die mit einem Zurückweisen der Nullhypothese verbunden ist.


29


Korrelationen

Korrelationen• Analysieren > Korrelation > Bivariat ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)


30


Korrelationen

1 ,583**

,000

123 123

,583** 1

,000

123 125

Korrelation nach Pearson

Signifikanz (2-seitig)

N



N

Alter

Semester

Alter Semester

Die Korrelation ist auf dem Niveau von 0,01 (2-seitig)

signifikant.

**.

Korrelationen

1 ,583**

,000

123 123

,583** 1

,000

123 125



N



N

Alter

Semester

Alter Semester

Die Korrelation ist auf dem Niveau von 0,01 (1-seitig)

signifikant.

**.

Korrelationen

Korrelationsmaße• Pearsons Korrelationskoeffizient ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)

• Es liegt eine mittlere Korrelation der beiden Variablen vor. LautSignifikanztest kann der errechnete Korrelationskoeffizient mit einerIrrtumswahrscheinlichkeit von 0% auf die Grundgesamtheitübertragen werden (signifikant).

Tests auf Normalverteilung

,164 123 ,000 ,890 123 ,000

,143 123 ,000 ,942 123 ,000

Semester

Alter

Statistik df Signifikanz Statistik df Signifikanz

Kolmogorov-Smirnova

Shapiro-Wilk

Signifikanzkorrektur nach Lillieforsa.

Zweiseitiger Signifikanztest Einseitiger Signifikanztest

Da die Variablen nicht normalverteilt sind, kann PearsonsKorrelationskoeffizient nicht berechnet werden. In einemnächsten Schritt könnte man sich überlegen, ob trotz Testnicht doch eine Normalverteilung angenommen werden kann.

redundan

t


31


Korrelationen

Korrelationsmaße• Pearsons Korrelationskoeffizient ST7. Wie alt bist Du? (in Jahren) ST2. Im wievielten Semester studiert Du? (Hochschulsemester)

• Es liegt eine mittlere Korrelation der beiden Variablen vor. LautSignifikanztest kann der errechnete Korrelationskoeffizient mit einerIrrtumswahrscheinlichkeit von 0% auf die Grundgesamtheitübertragen werden (höchst signifikant).

Korrelationen

1,000 ,517**

. ,000

125 123

,517** 1,000

,000 .

123 123

1,000 ,643**

. ,000

125 123

,643** 1,000

,000 .

123 123

Korrelationskoeffizient

Sig. (2-seitig)

N


Sig. (2-seitig)

N


Sig. (2-seitig)

N


Sig. (2-seitig)

N

Semester

Alter

Semester

Alter

Kendall-Tau-b

Spearman-Rho

Semester Alter

Die Korrelation ist auf dem 0,01 Niveau signifikant (zweiseitig).**.


32


Übungsblatt 3




33


Überblick


• Kreuztabellen

• Korrelationen

• Regression


34


Regressionsanalyse

Regressionsanalyse• Die Regressionsanalyse ist ein häufig verwendetes multivariates Analyseverfahren, da es

vielseitig und flexibel eingesetzt werden kann– Beschreibung und Erklärung von Zusammenhängen

– Durchführung von Prognosen

• Bestimmung der Parameter (a und b) einer Regressionsgeraden, sodass die Summe derquadrierten Abstände zwischen den Schätzwerten (Regressionsgerade) und den realen Wertenminimiert wird

• Einfache lineare Regression– Untersuchung der Abhängigkeit einer Variablen von einer Zweiten

– Voraussetzung: intervallskalierte, normalverteilte Variablen zwischen denen ein linearer Zusammenhangbesteht

– Beispiel: Wie verändert sich die Absatzmenge, wenn sich der Preis um 1€ erhöht?

• Multiple Regression– Untersuchung der Abhängigkeit einer Variablen von einer Kombination mehrerer anderer Variablen

– Beispiel: Wie beeinflussen Qualität, Preis, Design und Verpackung eines Produktes dieKundenzufriedenheit?


35


Regressionsanalyse

Regressionsgerade

y = abhängige Variable (Abiturnote)

a = Konstante (Schnittpunkt mit der Y-Achse)

b = Steigungsparameter

x = unabhängige Variable (Alter)

Y = Abiturnote

X = Alter AlterbaAbiturnote !+=

XbaY !+=

Einfache lineare Regression


36


Regressionsanalyse

Y = Abiturnote

X = Alter XY !+= 073,0449,0

Erklärte Abweichung

Nicht erklärte Abweichung

Gesamtabweichung


Schätzgerade für die Abiturnote


37


Regressionsanalyse



38


Regressionsanalyse

Einfache lineare RegressionAufgenommene/Entfernte Variablen b

Altera . EingebenModell1

Aufgenomme

ne Variablen

Entfernte

Variablen Methode

Alle gewünschten Variablen wurden aufgenommen.a.

Abhängige Variable: Abiturnoteb.

Modellzusammenfassung

,491a ,241 ,234 ,3878Modell1

R R-Quadrat

Korrigiertes

R-Quadrat

Standardf

ehler des

Schätzers

Einflußvariablen : (Konstante), Altera.

ANOVAb

5,532 1 5,532 36,781 ,000a

17,445 116 ,150

22,977 117

Regression

Residuen

Gesamt

Modell1

Quadrats

umme df

Mittel der

Quadrate F Signifikanz



Koeffizientena

,449 ,275 1,632 ,105

,073 ,012 ,491 6,065 ,000

(Konstante)

Alter

Modell1

B

Standardf

ehler

Nicht standardisierte

Koeffizienten

Beta

Standardisie

rte

Koeffizienten

T Signifikanz

Abhängige Variable: Abiturnotea.

← benutzte Variablen


39


Modellzusammenfassung

,491a ,241 ,234 ,3878Modell1

R R-Quadrat

Korrigiertes

R-Quadrat

Standardf

ehler des

Schätzers


↑

Korrigiertes R-Quadrat

• Misst, wie viel Varianz derabhängigen Variable sich durchdie unabhängige Variableerklären lässt

• Je größer der Wert, desto besser(Wert: 0 – 1)

23,4% der Varianz in derAbiturnote lassen sich durch das„Alter“ erklären (schlechtesErgebnis)

Regressionsanalyse


← Standardfehler des Schätzers

• Misst, wie nahe die durch dieRegressionsgleichungprognostizierten Werte an denwahren Werten liegen

Residuen

RegressionR =

• Misst den Anteil der erklärtenStreuung an der gesamtenStreuung (Fit desRegressionsmodells)


40


Regressionsanalyse

Einfache lineare Regression• Varianzanalyse für das Regressionsmodell

ANOVAb

5,532 1 5,532 36,781 ,000a

17,445 116 ,150

22,977 117

Regression

Residuen

Gesamt

Modell1

Quadrats

umme df

Mittel der

Quadrate F Signifikanz



Gesamtabweichung = nicht erklärte Abweichung + erklärteAbweichung

• Das Regressionsmodell wird so geschätzt, dass die nicht erklärteAbweichung, die als aggregiertes Fehlermaß interpretiert werdenkann, minimiert wird.

Signifikanzwert sagt aus,ob die Variable Alter dazugeeignet ist, die Abiturnotevorherzusagen. Modellwäre geeignet, um dieAbiturnote vorherzusagen(siehe auch korrigiertes RQuadrat)

Residuen

RegressionR = Misst den Anteil der erklärten Streuung an der

gesamten Streuung (Fit des Regressionsmodells)


41


Regressionsanalyse

Einfache lineare Regression• Schätzfunktion in der Koeffizienten-Tabelle

Koeffizientena

,449 ,275 1,632 ,105

,073 ,012 ,491 6,065 ,000

(Konstante)

Alter

Modell1

B

Standardf

ehler

Nicht standardisierte

Koeffizienten

Beta

Standardisie

rte

Koeffizienten

T Signifikanz

Abhängige Variable: Abiturnotea.

Y = Abiturnote

X = Alter XY !+= 073,0449,0

Signifikanzwert sagt aus,ob die Variable „Alter“einen signifikantenZusammenhang mit der„Abiturnote“ aufweist.

Weist die Stärke undRichtung desZusammenhangs aus

Steigung derGerade

Achsen-abschnitt


42


Übungsblatt 3




V4


2


• Arbeiten mit dem Syntaxeditor

• Mittelwertvergleiche

• Nichtparametrische und parametrische Tests



3


Der Syntaxeditor• Syntax ist eine Programmiersprache, die nicht nur Befehle zur Ausführung von Berechnungen,

sondern auch Anweisungen zum Programmablauf enthält

• Der Syntaxeditor wird verwendet, um SPSS Prozeduren mit Hilfe von Befehlscode zu speichern,um sie zu einem späteren Zeitpunkt wieder abrufen zu können

• Er öffnet sich entweder automatisch indem man die Schaltfläche Einfügen in den jeweiligenAnalysedialogfeldern betätigt oder manuell über das Menü Datei > Neu > Syntax

• SPSS-Syntax kann im Syntaxeditor über das Menü Datei > Speichern unter der Dateiendung*.sps gespeichert werden

Vorteile:

• Zeitersparnis bei wiederkehrendenBerechnungen

• Schnellere Modifikationen von einzelnenBefehlen beim Testen von geeignetenAnalyseverfahren

• Verarbeitet Befehle, die über diegrafische Benutzeroberfläche nichterreichbar sind

Arbeiten mit dem Syntaxeditor


4


Formulieren eines Syntax Befehls

1. Ein Befehlsschlüsselwort (z.B. FREQUENCIES) leitet den Syntax Befehl ein Ein neuer Befehl beginnt in einer neuen Zeile, sprich unmittelbar am Zeilenanfang ohne Leerzeichen und wird

durch ein Befehlsschlüsselwort eingeleitet

Jeder Befehl muss mit einem Punkt abgeschlossen werden

Eine Befehlszeile darf maximal 80 Zeichen (einschließlich Leerräume) enthalten

Befehle dürfen auf beliebig vielen Befehlszeilen fortgesetzt werden, jede neue Zeile muss aber mit mindestenseinem Leerraum eingerückt sein

2. Der Befehl wird durch ein oder mehrere Unterbefehle gesteuert(den Befehl spezifizierende Unterbefehle)

Unterbefehle werden in der Regel mit einem Schrägstrich („/“) eingeleitet

3. Spezifikationen sind die Parameter von Befehlen bzw. Unterbefehlen(z.B. Variablennamen, Zahlen, Operatoren)

Variablennamen dürfen nicht abgekürzt werden

Zahlenangaben in den Spezifikationen dürfen nur den Punkt als Dezimaltrennzeichen benutzen

Zeichenketten, die mit Apostrophen notiert werden können, müssen auf der Zeile enden, auf der sie begonnenwurden (kein Zeilenumbruch)



5



Beispiele für Syntax Befehle

FREQUENCIES VARIABLES= st7 /PERCENTILES=25 50 75 /BARCHART .

*Bereichseinteiler.*st7.RECODE st7 ( MISSING = COPY ) ( LO THRU 21 =1 ) ( LO THRU 24 =2 ) ( LO THRU 27 =3 ) ( LO THRU 30 =4 ) ( LO THRU HI =5 ) ( ELSE = SYSMIS ) INTO st7kl.VARIABLE LABELS st7kl 'Alter (In Bereiche eingeteilt)'.FORMAT st7kl (F5.0).VALUE LABELS st7kl 1 '18 - 21' 2 '22 - 24' 3 '25 - 27' 4 '28 - 30' 5 '31+'.MISSING VALUES st7kl ( ).VARIABLE LEVEL st7kl ( ORDINAL ).EXECUTE.

Häufigkeitsauswertung über die Variable st7 (Alter) mitAngabe der 25, 50 und 75% Perzentile und einesSäulendiagramms.

Automatische Kategoriebildung über dieVariable st7 (Alter) mit der FunktionBereichseinteiler.

• Im Syntaxeditor können Kommentareeingeflochten werden, die jedoch bei derAuswertung nicht berücksichtigt werden.

• Sie beginnen mit einem „*“ und enden miteinem Punkt.


6


• Erstellt bestimmt Maßzahlen für eine Variable (z.B. Mittelwert, Spannweite)DESCRIPTIVES

• Erstellt eine Kreuztabelle über zwei VariablenCROSSTABS

• Führt eine explorative Datenanalyse über eine Variable durchEXAMINE

• Variable berechnenCOMPUTE

• Definiert für die Zielvariable ein VariablenlabelVARIABLE LABELS

• Wenn bestimmte Transformationen nur für eine bestimmte Auswahl an Fällendurchgeführt werden sollDO IF

• Erstellt Häufigkeitstabellen für eine VariableFREQUENCIES

• Definiert für die Zielvariable WertelabelsVALUE LABELS

• Eine Reihe von SPSS Befehlen, z.B. das Einlesen von Daten, Datendefinitionen,Umkodieren, werden nicht sofort ausgeführt, sondern werden in der Schwebegehalten, bis eine explizite Anweisung deren Ausführung erzwingt

EXECUTE

• Kodiert die Werte von Variablen um und schreibt die resultierenden Wert in dieZielvariable

• Existierende gleichnamige Variablen werden automatisch überschriebenRECODE


Wichtige Befehle (verwendet im Syntaxeditor)


7


Ausführen von Syntaxbefehlen

• Eine Syntaxdatei kann beliebig viele Syntaxbefehle enthalten

• Folgende Möglichkeiten zur Ausführung stehen zur Verfügung:• Ausführen eines einzelnen Befehls

Cursor an einer beliebigen Stelle im Syntaxbefehl positionierenAusführen > Aktuellen Befehl

• Ausführen mehrerer aufeinander folgender Befehle

Auswahl markieren, von jedem auszuführenden Befehl muss mind. ein Zeichen markiert seinAusführen > Auswahl

• Alle Befehl bis zum Ende der Syntaxdatei ausführen

Cursor an einer beliebigen stelle im Syntaxbefehl positionierenAusführen > Bis Ende

• Alle Befehle aus der Syntaxdatei ausführen

Cursor an einer beliebigen Stelle innerhalb der Syntaxdatei positionierenAusführen > Alles



8


Daten Transformieren• die Größe der Studenten soll von cm in Zoll umgerechnet werden, dabei sind 2,54 cm ein Zoll

COMPUTE st8_inch = st8 / 2.54 .VARIABLE LABELS st8_inch 'Größe in Inch umgerechnet' .EXECUTE.

Daten Umkodieren• Die fünfstelligen Postleitzahlen sollen in die Postleitzahlengebiete 0 bis 9 eingeteilt werden

RECODE st_p (Lowest thru 09999=0) (10000 thru 19999=1) (20000 thru 29999=2) (30000 thru 39999=3) (40000 thru 49999=4) (50000 thru 59999=5) (60000 thru 69999=6) (70000 thru 79999=7) (80000 thru 89999=8) (90000 thru Highest=9) INTO st_p1zahlig .

VARIABLE LABELS st_p1zahlig 'Postleitzahlengebiete einzahlig'.EXECUTE .


Datenmodifikation mit dem Syntaxeditor


9


Bedingte Berechnungen mit If

• Möchte man eine bestimmte Transformation nur für eine bestimmte Auswahl an Fällendurchführen kann man mithilfe von IF (…) Kriterien festlegen

Einfache Berechnung einer Variablen

IF (st7<=21) st7_kl=1 .EXECUTE .

Folge von Anweisungen

DO IF (st7>=18 AND st7<21) .COMPUTE st7=1 .ELSE IF (st7>=22 AND st7<25) .COMPUTE st7=2 .ELSE IF (st7>26) .COMPUTE st7=3 .END IF .EXECUTE .



10


Übungsblatt 4

Bitte bearbeiten Sie dieAufgaben 1 und 2 desÜbungsblattes 4.


11





Überblick


12


Mittelwertvergleich• Berechnung statistischer Maßzahlen (z.B. Mittelwerte) getrennt für verschiedene Fallgruppen

• Geben erste Anhaltspunkte über mögliche Zusammenhänge der betrachteten Fallgruppen

• Fallgruppen können durch jede beliebige Merkmalskombination definiert werden

• Weichen die Mittelwerte der einzelnen Fallgruppen ab, lässt dies zunächst nur Aussagen über diebetrachtete Stichprobe zu, nicht aber über die Grundgesamtheit→ Signifikanztest (z.B. T-Test, Varianzanalyse (ANOVA))

Grundvoraussetzungen für den einfachen Mittelwertvergleich:

• Abhängige Variable

– metrisch skalierte Daten

– Normalverteilung der Variablen in der Grundgesamtheit

• Unabhängige Variable

– Nominal- oder ordinalskaliert (nicht metrisch)

Mittelwertvergleiche


13



Mittelwertvergleich Mittelwertvergleich über die Variablen Geschlecht (unabhängig) und Körpergröße in cm (abhängig)


14



Mittelwertvergleich Mittelwertvergleich über die Variablen Geschlecht (st9) und Körpergröße in cm (st8)

Verarbeitete Fälle

122 94,6% 7 5,4% 129 100,0%Größe * GeschlechtN Prozent N Prozent N Prozent

Eingeschlossen Ausgeschlossen Insgesamt

Fälle

Bericht

Größe

180,9615 52 6,72415

169,1286 70 5,60518

174,1721 122 8,45571

Geschlechtmännlich

weiblich

Insgesamt

Mittelwert N

Standardab

weichung

Vergleicht man die Männer mit den Frauen, kann manerkennen, dass Männer im Durchschnitt größer sind alsFrauen.

Wären die Standardabweichungenum ein Vielfaches größer als dieUnterschiede zwischen den beidenMittelwerten, würde das daraufhindeuten, dass aus denbeobachteten Mittelwertunter-schieden nicht auf entsprechendeUnterschiede in der Grundgesamt-heit geschlossen werden kann→ Validierung durch den T-Test


15


Übungsblatt 4

Bitte bearbeiten Sie dieAufgabe 3 desÜbungsblattes 4.


16





Überblick


17


Signifikanztests• Signifikanztests werden eingesetzt, um bestimmte Hypothesen oder Unterschiede über die

Grundgesamtheit anhand einer Stichprobe zu validieren• Sie können in parametrische und nicht parametrische Signifikanztests eingeteilt werden

Nichtparametrische und parametrische Tests

Ausgangsfrage:„Sind beobachtete Zusammenhänge oder Unterschiede in der Stichprobe möglicherweise nurdurch die Zufälligkeiten der Stichprobenziehung zustande gekommen oder sind andereerklärbare Umstände in der Grundgesamtheit dafür verantwortlich?“

1. Aufstellung der Hypothesen (Nullhypothese/Alternativhypothese)

2. Welche Merkmale sollen untersucht werden?

3. Welche statistische Kennzahl soll/kann dafür verwendet werden?

4. Wie hoch soll das Signifikanzniveau sein?


18


Unterschiede in den Anforderungen an die beobachteten Variablen

Anhand der Stichprobe wird geprüft, obkonkrete Werte wie z.B. Varianzen oder

Mittelwerte auch so für die Grundgesamtheitangenommen werden können.

Anhand der Stichprobe wird der Typ derZufallsverteilung überprüft, sprich wie Werte in

der Grundgesamtheit verteilt sind.

• Variablen müssen metrisch skaliert sein• Variablen können auch nominal skaliert sein

• Grundgesamtheit sollte annähern nomalverteilt sein• keine Annahmen über die Form der zugrundeliegenden Verteilung

Parametrische TestsNichtparametrische Tests

Klassifizierung von Signifikanztests


Parametrische Tests sind den nichtparametrischen Test generellvorzuziehen, weil diese eine höhere Aussagekraft besitzen.

Nichtparametrische Tests können auch mit metrischen Variablendurchgeführt werden, allerdings nimmt man durch die Herab-stufung Einbußen in der Aussagekraft in Kauf


19



Signifikanztests für eine Stichprobe

• Parametrischer Test• Prüft, ob sich der Mittelwert in der Stichprobe von dem

Mittelwert in der Grundgesamtheit signifikant unterscheidet(z.B. beträgt das durchschnittliche Alter in derGrundgesamtheit 35 Jahre?)

Normal-verteilungMetrischT-Test bei einer Stichprobe

• Nichtparametrischer Test• Prüft, ob die Werte in der Grundgesamtheit einer bestimmten

Verteilung folgen (z.B. die Bewertung eines Produktes folgtin der Grundgesamtheit einer Standardnormalverteilung)

Keine VorgabeOrdinalKolmogorov-Smirnov-Test

• Nichtparametrischer Test• Prüft die Verteilung der Merkmalsausprägungen in der

Grundgesamtheit (z.B. Familienstand [ledig, verheiratet,geschieden, verwitwet])

Keine VorgabeNominalChi-Quadrat Anpassungstest

• Nichtparametrischer Test• Prüft eine vorgegebene Eintrittswahrscheinlichkeit in der

Grundgesamtheit (z.B. Männer und Frauen sind in derGrundgesamtheit zu gleichen Teilen vertreten)

Keine VorgabeDichotomBinomialtest

BeschreibungVoraus-setzungenSkalenniveauTest


20


Chi-Quadrat Anpassungstest• Testet, ob die empirisch gemessenen Häufigkeiten in der Stichprobe genauso auch in der

Grundgesamtheit erwartet werden können

Sind die Antworten über das Rauchverhalten (st6) in der Grundgesamtheit gleichverteilt?



21


Chi-Quadrat Anpassungstest Sind die Antworten über das Rauchverhalten (st6) in der Grundgesamtheit gleichverteilt?


Raucher

65 41,7 23,3

20 41,7 -21,7

40 41,7 -1,7

125


Ja, hin und wieder

Ja, regelmäßig

Gesamt

Beobachtetes

N

Erwartete

Anzahl Residuum

Statistik für Test

24,400

2

,000

Chi-Quadrat a

df

Asymptotische Signifikanz

Raucher

Bei 0 Zellen (,0%) werden weniger als

5 Häufigkeiten erwartet. Die kleinste

erwartete Zellenhäufigkeit ist 41,7.

a.

Mit einer Irrtumswahrscheinlichkeit von 0,0% muss dieNullhypothese (Gleichverteilung) abgelehnt werden.

Die Antworten über das Rauchverhalten sind in derGrundgesamtheit nicht gleichverteilt.


22


Übungsblatt 4

Bitte bearbeiten Sie dieAufgaben 4 und 5 desÜbungsblattes 4.


V5


2


• Faktorenanalyse

• Clusteranalyse



3


Die Faktorenanalyse• Dimensionsreduzierendes oder strukturentdeckendes Verfahren

• Reduzierung einer großen Anzahl von Variablen (hohe Komplexität) auf wenige „Faktoren“anhand deren Korrelationen untereinander

• Ziel: Extraktion von möglichst wenigen Faktoren, die einen möglichst hohen Anteilder Beziehungen der gemessenen Variablen untereinander erklären sollen

• Skalenniveau: metrisch

• Vier Schritte:1. Berechnung der Korrelationsmatrizen

Korrelationsanalyse für jede Variablenkombination

2. Extraktion der FaktorenBestimmung der Anzahl und Bildungder Faktoren

3. Rotation der FaktorladungenVerbesserung der Interpretationsfähigkeitder Faktoren (Faktorladungen)

4. Erstellung der FaktorwerteBerechnung eines Wertes, der dieAusprägung eines Faktors für einenProbanden ausdrückt.

Faktorenanalyse

Da jede Variable auch einen spezifischenAnteil enthält, kann immer nur ein Teil derVarianz aufgeklärt werden. Je größer dieserTeil ist, desto besser die Faktorenanalyse.


4


Beispiel• PKW Nutzungsgewohnheiten (Wie nutzen Sie ihren aktuellen Pkw? – Pro Zeile eine Angabe)

Faktorenanalyse

• 2437 Datensätze• Kodierung von 1 – 6 (entsprechend der Frage)• keine Kodierung der fehlenden Werte• Skalenniveau: ordinal / quasi metrisch

Statistiken

2373 2237 2301 2327 2357 2360 2355 2357

64 200 136 110 80 77 82 80

Gültig

Fehlend

N

Ich fahre

meistens

alleine.

Ich fahre

meistens

mit Kindern.

Ich befahre

meistens mir

unbekannte

Strecken.

Ich telefoniere

viel im

Fahrzeug.

Ich fahre mitmeinem Pkw

regelmäig

zum

Arbeitsplatz.

Ich fahre mit

meinem Pkw

häufig auf der

Autobahn.

Ich fahre

mehrmalsim Jahr mit

meinem

Fahrzeug

ins Ausland.

Ich fahre

meistens mit

meinem Pkw

in den Urlaub.


5


Faktorenanalyse

Faktorenanalyse


6


Faktorenanalyse

Einstellungen der Faktorenanalyse


7


Korrelationsmatrix

1,000 -,201 ,144 ,237 ,232 ,197 ,069 -,039

-,201 1,000 ,024 ,033 -,001 -,056 ,073 ,109

,144 ,024 1,000 ,395 ,009 ,278 ,219 ,070

,237 ,033 ,395 1,000 ,174 ,415 ,315 ,065

,232 -,001 ,009 ,174 1,000 ,226 ,074 ,011

,197 -,056 ,278 ,415 ,226 1,000 ,327 ,117

,069 ,073 ,219 ,315 ,074 ,327 1,000 ,378

-,039 ,109 ,070 ,065 ,011 ,117 ,378 1,000

,000 ,000 ,000 ,000 ,000 ,001 ,035

,000 ,138 ,065 ,488 ,005 ,000 ,000

,000 ,138 ,000 ,334 ,000 ,000 ,001

,000 ,065 ,000 ,000 ,000 ,000 ,001

,000 ,488 ,334 ,000 ,000 ,000 ,312

,000 ,005 ,000 ,000 ,000 ,000 ,000

,001 ,000 ,000 ,000 ,000 ,000 ,000

,035 ,000 ,001 ,001 ,312 ,000 ,000

Ich fahre meistens

alleine.

Ich fahre meistens mit

Kindern.

Ich befahre meistens mir

unbekannte Strecken.

Ich telefoniere viel im

Fahrzeug.

Ich fahre mit meinem Pkw

regelmäig zum

Arbeitsplatz.


häufig auf der Autobahn.

Ich fahre mehrmals im

Jahr mit meinem

Fahrzeug ins Ausland.


meinem Pkw in den

Urlaub.

Ich fahre meistens

alleine.


Kindern.




Fahrzeug.


regelmäig zum

Arbeitsplatz.




Jahr mit meinem



meinem Pkw in den

Urlaub.

Korrelation


Ich fahre

meistens

alleine.

Ich fahre

meistens

mit Kindern.

Ich befahre

meistens mir

unbekannte

Strecken.

Ich telefoniere

viel im

Fahrzeug.

Ich fahre mit

meinem Pkw

regelmäig

zum

Arbeitsplatz.

Ich fahre mit

meinem Pkw

häufig auf der

Autobahn.

Ich fahre

mehrmals

im Jahr mit

meinem

Fahrzeug

ins Ausland.

Ich fahre

meistens mit

meinem Pkw

in den Urlaub.

1. Berechnung der Korrelationsmatrizen

Faktorenanalyse


8

Fachhochschule IngolstadtProf. Dr. Andrea Raab1. Berechnung der Korrelationsmatrizen

• Können die errechneten Korrelationen auch für die Grundgesamtheit angenommen werden?

• Zwei Möglichkeiten:

– Signifikanztest für alle Variablen gesammelt (Bartlett Test)

– Signifikanztest für jede Variablenkombination einzeln (siehe Korrelationsmatrix)

Bartlett Test auf Sphärizität• Deckt die Korrelation aller Variablen mit einer Maßzahl ab

• Nullhypothese: Es besteht kein Zusammenhang zwischen den beobachteten Variablen inder Grundgesamtheit

Faktorenanalyse

KMO- und Bartlett-Test

,674

2020,697

28

,000

Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin.

Ungefähres Chi-Quadrat

df

Signifikanz nach Bartlett

Bartlett-Test auf

Sphärizität

• Mit einer Irrtumswahrscheinlichkeit von 0,0% liegt die identifizierteKorrelation in der Stichprobe, zumindest bei einem Teil derbeobachteten Variablen, auch in der Grundgesamtheit vor.


9


• Prüfung der Güte des Faktormodells

– Anti-Image-KorrelationsmatrixBerechnet für jedes Variablenpaar den Teil der Varianz einer Variablen, der sich nicht durch die jeweilsandere Variable erklären lässt (Residuum / Anti-Image)→ je niedriger die Werte in der Matrix, desto stärker korrelieren die Variablen miteinander

– Kaiser-Mayer-Olkin-Maß (KMO)Drückt die Ergebnisse der Anti-Image-Korrelationsmatrix in einer Maßzahl aus.→ je näher der KMO-Wert an dem Wert 1 liegt, desto valider ist das Faktormodell

Faktorenanalyse

KMO- und Bartlett-Test

,674

2020,697

28

,000

Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin.

Ungefähres Chi-Quadrat

df

Signifikanz nach Bartlett

Bartlett-Test auf

Sphärizität

inakzeptabelunter 0,5

schlecht0,5 bis unter 0,6

mäßig0,6 bis unter 0,7

mittelprächtig0,7 bis unter 0,8

recht gut0,8 bis unter 0,9

fabelhaft0,9 – 1,0

BeurteilungWertKMO-Test Richtwerte

• Der KMO-Test schätzt die Güte des Faktormodells für mäßig ein.


10


• Anti-Image-Korrelationsmatrix und MSA-Werte (Measure of Sampling Adequacy)

– MSA-WerteÄhnliches Maß wie der KMO-Test mit dem Unterschied, dass für jede Variable ein eigener Testwert in derHauptdiagonalen der Anti-Image-Korrelationsmatrix angezeigt wird → Richtwertetabelle KMO-Test

Anti-Image-Matrizen

,854 ,187 -,057 -,111 -,170 -,047 ,001 ,035

,187 ,935 -,026 -,055 -,047 ,068 -,037 -,071

-,057 -,026 ,812 -,219 ,087 -,097 -,055 -,005

-,111 -,055 -,219 ,693 -,065 -,185 -,128 ,043

-,170 -,047 ,087 -,065 ,898 -,135 ,005 ,004

-,047 ,068 -,097 -,185 -,135 ,739 -,145 -,022

,001 -,037 -,055 -,128 ,005 -,145 ,735 -,282

,035 -,071 -,005 ,043 ,004 -,022 -,282 ,845

,659a

,209 -,068 -,144 -,194 -,059 ,001 ,042

,209 ,481a

-,030 -,069 -,051 ,082 -,044 -,080

-,068 -,030 ,716a

-,293 ,102 -,126 -,071 -,007

-,144 -,069 -,293 ,702a

-,082 -,258 -,179 ,056

-,194 -,051 ,102 -,082 ,623a

-,166 ,007 ,004

-,059 ,082 -,126 -,258 -,166 ,744a

-,197 -,027

,001 -,044 -,071 -,179 ,007 -,197 ,667a

-,358

,042 -,080 -,007 ,056 ,004 -,027 -,358 ,561a

Ich fahre meistens

alleine.


Kindern.




Fahrzeug.


regelmäig zum

Arbeitsplatz.




Jahr mit meinem



meinem Pkw in den

Urlaub.

Ich fahre meistens

alleine.


Kindern.




Fahrzeug.


regelmäig zum

Arbeitsplatz.




Jahr mit meinem



meinem Pkw in den

Urlaub.

Anti-Image-Kovarianz

Ich fahre

meistens

alleine.

Ich fahre

meistens

mit Kindern.

Ich befahre

meistens mir

unbekannte

Strecken.

Ich telefoniere

viel im

Fahrzeug.

Ich fahre mit

meinem Pkw

regelmäig

zum

Arbeitsplatz.

Ich fahre mit

meinem Pkw

häufig auf der

Autobahn.

Ich fahre

mehrmals

im Jahr mit

meinem

Fahrzeug

ins Ausland.

Ich fahre

meistens mit

meinem Pkw

in den Urlaub.

Maß der Stichprobeneignunga.

Anti-Image-Matrizen

,854 ,187 -,057 -,111 -,170 -,047 ,001 ,035

,187 ,935 -,026 -,055 -,047 ,068 -,037 -,071

-,057 -,026 ,812 -,219 ,087 -,097 -,055 -,005

-,111 -,055 -,219 ,693 -,065 -,185 -,128 ,043

-,170 -,047 ,087 -,065 ,898 -,135 ,005 ,004

-,047 ,068 -,097 -,185 -,135 ,739 -,145 -,022

,001 -,037 -,055 -,128 ,005 -,145 ,735 -,282

,035 -,071 -,005 ,043 ,004 -,022 -,282 ,845

,659a

,209 -,068 -,144 -,194 -,059 ,001 ,042

,209 ,481a

-,030 -,069 -,051 ,082 -,044 -,080

-,068 -,030 ,716a

-,293 ,102 -,126 -,071 -,007

-,144 -,069 -,293 ,702a

-,082 -,258 -,179 ,056

-,194 -,051 ,102 -,082 ,623a

-,166 ,007 ,004

-,059 ,082 -,126 -,258 -,166 ,744a

-,197 -,027

,001 -,044 -,071 -,179 ,007 -,197 ,667a

-,358

,042 -,080 -,007 ,056 ,004 -,027 -,358 ,561a

Ich fahre meistens

alleine.


Kindern.




Fahrzeug.


regelmäig zum

Arbeitsplatz.




Jahr mit meinem



meinem Pkw in den

Urlaub.

Ich fahre meistens

alleine.


Kindern.




Fahrzeug.


regelmäig zum

Arbeitsplatz.




Jahr mit meinem



meinem Pkw in den

Urlaub.

Anti-Image-Kovarianz

Ich fahre

meistens

alleine.

Ich fahre

meistens

mit Kindern.

Ich befahre

meistens mir

unbekannte

Strecken.

Ich telefoniere

viel im

Fahrzeug.

Ich fahre mit

meinem Pkw

regelmäig

zum

Arbeitsplatz.

Ich fahre mit

meinem Pkw

häufig auf der

Autobahn.

Ich fahre

mehrmals

im Jahr mit

meinem

Fahrzeug

ins Ausland.

Ich fahre

meistens mit

meinem Pkw

in den Urlaub.

Maß der Stichprobeneignunga.

inakzeptabelunter 0,5

schlecht0,5 bis unter 0,6

mäßig0,6 bis unter 0,7

mittelprächtig0,7 bis unter 0,8

recht gut0,8 bis unter 0,9

fabelhaft0,9 – 1,0

BeurteilungWertMSA Richtwerte

• Die Residualwerte der Anti-Image-Korrelationsmatrix sinddurchweg gering, was für eine hohe Korrelation steht→ das Ergebnis des KMO-Tests wird bestätigt.

• Lediglich die Variable „Ich fahre meistens mit Kindern“ enthälteinen inakzeptablen MSA-Wert, weshalb ein Ausschluss dieserVariable aus dem Faktormodell überlegt werden sollte.

Faktorenanalyse


11

Fachhochschule IngolstadtProf. Dr. Andrea Raab2. Extraktion der Faktoren

• Verschiedene Modelle zur Faktorextraktion

• In der Praxis am häufigsten verwendetes Modell: Hauptkomponentenanalyse

• Ziel: Extrahierte Faktoren sollen einen möglichst großen Teil der Gesamtstreuung abdecken(für einen Erklärungsgehalt von 100% müssten genauso viele Faktoren extrahiert werden, wie Variablen

in der Faktorenanalyse → jeder Faktor erklärt die die Streuung der zughörigen Variable perfekt)

• Tradeoff zwischen Quantität (Wie viele Faktoren?) und Qualität (Erklärungsgehalt?) der Faktoren

Faktorenanalyse


12


• Nach dem Kaiser Kriterium(alle Faktoren mit einem Eigenwert > 1).

• Eigenwert < 1 bedeutet, dass der Faktor einen geringeren Betragder Gesamtstreuung erklärt als jede einzelne Variable selbst

Erklärte Gesamtvarianz

2,228 27,847 27,847 2,228 27,847 27,847 1,953

1,378 17,223 45,070 1,378 17,223 45,070 1,465

1,010 12,624 57,694 1,010 12,624 57,694 1,467

,963 12,040 69,734

,730 9,121 78,855

,623 7,792 86,647

,553 6,907 93,554

,516 6,446 100,000

Komponente1

2

3

4

5

6

7

8

Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % Gesamt

Anfängliche Eigenwerte

Summen von quadrierten Faktorladungen

für Extraktion

Rotierte

Summe

der

quadriert

en

Ladunge

na

Extraktionsmethode: Hauptkomponentenanalyse.

Wenn Komponenten korreliert sind, können die Summen der quadrierten Ladungen nicht addiert werden, um

eine Gesamtvarianz zu erhalten.

a.

2. Extraktion der Faktoren• Faktoren mit dem geringsten Erklärungsgehalt werden ausgeschlossen und die mit dem größten

Erklärungsgehalt extrahiert

Faktorenanalyse

Faktoren

EigenwertGibt an, welcher Betrag der

Gesamtstreuung allerbeobachteten Variablen

durch den jeweiligen Faktorerklärt wird

GesamtstreuungDa die Variablen im Zuge derFaktorenanalyse standardisiert wurden, hatjede Variable nun ein Standardabweichungvon 1 und einen Mittelwert von 0→ Gesamtstreuung = Anzahl der Variablen (8)

Faktor 1erklärt 27,8% derGesamtstreuung

Extraktionsvorschlag


13

Fachhochschule IngolstadtProf. Dr. Andrea Raab2. Extraktion der Faktoren

• Kommunalitäten zeigen an, in wieweit die Streuung der einzelnen Variablen durch die extrahiertenVariablen erklärt wird

• Das Screeplot stellt die Faktoren und deren Eigenwerte absteigend sortiert in einer Funktion dar

Faktorenanalyse

Kommunalitäten

1,000 ,544

1,000 ,338

1,000 ,690

1,000 ,626

1,000 ,638

1,000 ,524

1,000 ,613

1,000 ,643

Ich fahre meistens

alleine.


Kindern.




Fahrzeug.


regelmäig zum

Arbeitsplatz.




Jahr mit meinem



meinem Pkw in den

Urlaub.

Anfänglich Extraktion


Bei Extraktion aller Faktoren wirddie Streuung der einzelnen

Variablen vollständig erklärt

Durch Extraktion der drei Faktorenwird nur noch ein Teil derStreuung der einzelnen Variablenerklärt


14

Fachhochschule IngolstadtProf. Dr. Andrea Raab3. Faktorladungen

• Faktorladungen beschreiben die Beziehung der Faktoren zu den beobachteten Variablen undwerden bei der Interpretation der Faktoren verwendet

• Sie beschreiben den Zusammenhang zwischen der Variable und dem Faktor – je höher dieFaktorladung, desto stärker der Zusammenhang zwischen der Variable und dem Faktor

• Faktorladungen können Werte von -1 bis +1 annehmen, es werden allerdings nur Werte zurInterpretation herangezogen, die mindestens +/- 0,5 oder sogar +/-0,7 überschreiten

• Positive und negative Werte beschreiben die Richtung des Zusammenhangs

Faktorenanalyse

• Faktoren sind leicht zu interpretieren, wenn einige Variablen, dieuntereinander eine ähnliche homogene Bedeutung haben, hochauf ihn laden und gleichzeitig die Ladungen der anderen Variablenauf diesen Faktor gering sind.

Komponentenmatrix a

,743

,718

,632

,616

-,585

,581

,624

,586 -,588


Fahrzeug.




Jahr mit meinem



meinem Pkw in den

Urlaub.

Ich fahre meistens

alleine.


Kindern.


regelmäig zum

Arbeitsplatz.



1 2 3

Komponente


3 Komponenten extrahierta.


15

Fachhochschule IngolstadtProf. Dr. Andrea Raab3. Rotation der Faktorladungen

• Ziel: Interpretationsfähigkeit der Faktoren erleichtern

• Zwei unterschiedliche Gruppen von Rotationsverfahren

– Orthogonale Rotation (rechtwinklig)Unterstellt, dass die extrahierten Faktoren nicht miteinander korreliert sind (z.B. VARIMAX, EQUAMAX)

– Oblique Rotation (schiefwinklig)Unterstellt, dass die extrahierten Faktoren miteinander korrelieren (z.B. Oblimin)

Faktorenanalyse

Rotierte Komponentenmatrix a

,818

,756

,570

,801

,667

,779

,645




Fahrzeug.




meinem Pkw in den

Urlaub.


Jahr mit meinem



Kindern.


regelmäig zum

Arbeitsplatz.

Ich fahre meistens

alleine.

1 2 3

Komponente


Rotationsmethode: Equamax mit Kaiser-Normalisierung.

Die Rotation ist in 5 Iterationen konvergiert.a.


16

Fachhochschule IngolstadtProf. Dr. Andrea Raab3. Rotation der Faktorladungen

Faktorenanalyse

Allein fahrender Berufspendler(fac3_1)

Berufsfahrer / Außendienst(fac1_1)

Auslandsfahrer(fac2_1)

• [+] Ich fahre mit meinem Pkwregelmäßig zumArbeitsplatz.

• [+] Ich fahre meistensalleine.

• [+] Ich befahre meistens mirunbekannte Strecken.

• [+] Ich telefoniere viel imFahrzeug.

• [+] Ich fahre mit meinem Pkwhäufig auf der Autobahn.

• [+] Ich fahre meistens mitmeinem PKW in den Urlaub.

• [+] Ich fahre mehrmals imJahr mit meinem Fahrzeugins Ausland.


17

Fachhochschule IngolstadtProf. Dr. Andrea Raab4. Erstellung der Faktorwerte

• Faktorwerte drücken die Ausprägung eines Faktors für einen konkreten Fall aus– hoher positiver Wert = Faktor überdurchschnittlich hoch ausgeprägt

– hoher negativer Wert = Faktor unterdurchschnittlich niedrig ausgeprägt

• Werden verwendet um die Ergebnisse der Faktoranalyse in weiterführenden Analyen (z.B.Clusteranalyse) zu nutzen

• SPSS bietet drei unterschiedliche Methoden, deren Unterscheidung bei Verwendung derHauptkomponentenmethode nicht relevant ist, weil sie jeweils das gleiche Ergebnis liefern

• Zur Interpretation von Faktorwerten werden die Faktorwerte (gedanklich) in Kategorien eingeteilt:– Zwei Kategorien: -9999 bis 0 / 0 bis 9999

– Drei Kategorien: -9999 bis -1 / -1 bis +1 / +1 bis 9999

– Vier Kategorien: -9999 bis -1 / -1 bis 0 / 0 bis +1 / +1 bis 9999

– etc.

• Interpretationsalternative:Runden der Faktorwerte in der Variablenansicht

– 0 → durchschnittlich

– <= -1 → unterdurchschnittlich

– >= +1 → überdurchschnittlich

Faktorenanalyse


18


Übungsblatt 5

Bitte bearbeiten Sie dieAufgaben 1 des 5.Übungsblattes.


19


• Faktorenanalyse

• Clusteranalyse



20

Fachhochschule IngolstadtProf. Dr. Andrea RaabClusteranalyse

• Dimensionsreduzierendes oder strukturentdeckendes Verfahren

• Objekte werden aufgrund ihrer Ähnlichkeit bezüglich der beobachteten Variablen zu Gruppen(Cluster) zusammengefasst

• Ziel: Bildung von Clustern, die in sich sehr homogene Merkmalsausprägungen aufweisen, aber zueinander möglichst heterogen sind

• Skalenniveau: abhängig von dem verwendeten Clusterungsverfahren

• Vier Schritte:

1. Auswahl der MerkmaleAnhand welcher Merkmale soll die Gruppen-bildung durchgeführt werden

2. Aufbereitung der DatenDaten müssen den Konventionen desjeweiligen Clusterungsverfahrens entsprechen

3. Durchführung der ClusteranalyseUmsetzung in SPSS

4. Interpretation der ErgebnisseBeschreibung der Cluster und Erstellungvon Clusterprofilen

Clusteranalyse


21

Fachhochschule IngolstadtProf. Dr. Andrea RaabClusteranalyse

• Hierarchische ClusteranalyseEinzelne Objekte werden schrittweise zu Clustern zusammengefasst. Zunächst wird jedes Objekt als eineigener Cluster aufgefasst, welche im weitern Verlauf immer stärker komprimiert werden.

– Datenmenge: klein und groß– Skalierung: metrische und nicht-metrische Variablen– Vorteil: sehr differenzierte Steuerung möglich– Nachteil: rechenintensives Verfahren

• Clusterzentrenanalyse (Quick-Cluster)Clusterzuordnung ist bereits vorgegeben und optimale Zuordnung der Objekte soll ermittelt werden.

– Datenmenge: groß– Skalierung: metrische Variablen– Vorteil: vertretbarer Rechenaufwand bei großen Datenmengen → schneller– Nachteil: Clusteranzahl muss bekannt sein; Anpassung des Verfahrens nur begrenzt möglich;

Transparenz bei der Berechnung fehlt

• Two-Step-ClusteranalyseSymbiose aus den oben genannten Verfahren; 2-Schritt-Vorgehensweise: grobe Einteilung der Cluster imersten Schritt und endgültige Clusterzuordnung mit einem hierarchischen Verfahren im zweiten Schritt

– Datenmenge: klein und groß– Skalierung: metrisch und nicht metrische Variablen– Vorteil: automatische Berechnung der Clusteranzahl; spezielle Behandlung von Ausreißern– Nachteil: Anpassung des Verfahrens nur begrenzt möglich; Clusterbildung weniger präzise

Clusteranalyse


22

Fachhochschule IngolstadtProf. Dr. Andrea Raab1. Auswahl der Merkmale (Two-Step-Clusteranalyse)

• Anhand welcher Merkmale/Variablen soll die Gruppenbildung vorgenommen werden?

• Abhängig von der Problemstellung und den zur Verfügung stehenden Daten

Problemstellung:

• Analyse der Nutzung des Sportangebots an der Fachhochschule Ingolstadt→ Gibt es Unterschiede im Nutzungsverhalten?

Ausgewählte Merkmale:

• Nutzung des Sportangebots an der Fachhochschule Ingolstadt (F3)

• Geschlecht (ST9)

• Alter (ST7)

• Anzahl der in Anspruch genommenen Sportangebote *NEU* (Sport)

Clusteranalyse

• Eine Variable (Sport), welche die Anzahl der in Anspruchgenommenen Sportangebote enthält, muss noch errechnetwerden.


23

Fachhochschule IngolstadtProf. Dr. Andrea Raab2. Aufbereitung der Daten (Two-Step-Clusteranalyse)

• Variablen müssen den Konventionen des Clusterungsverfahrens entsprechen

• Die Two-Step-Clusteranalyse stellt folgende Anforderungen an die Variablen

– Standardisierte WerteStandardisierung mit Z-Transformation wird von SPSS automatisch durchgeführt→ Mittelwert = 0; Standardabweichung = 1

– Zufällige Sortierung der DatendateiSortierung nach einem bestimmten Muster hat Auswirkung auf das Ergebnis der Clusteranalyse, weil dieFälle sequenziell in die Clusterzuordnung einbezogen werdenSyntax: SET SEED 1069800

COMPUTE zufall = UNIFORM (1) .SORT CASES BY zufall .DELETE VARIABLES zufall .

– Bei der Verwendung des Distanzmaßes Log-Likelihood (metrische und nicht metrische Variablen)• Normalverteilung der stetigen Variablen (Kolmogorov-Smirnov-Test)

• Multinomiale Verteilung der kategorialen Variablen (nichtparametrischer Chi-Quadrat Anpassungstest)

• Unabhängigkeit der Variablen (Korrelation bzw. Kreuztabellenanalyse)

Clusteranalyse

• Die Two-Step-Clusteranalyse reagiert relativ robust gegenüberVerletzungen der Verteilungsanforderungen und derUnabhängigkeitsbedingung

• Fehlende Werte bewirken, dass der betroffene Fall von derClusteranalyse ausgeschlossen wird → F3_1 – F3_8


24

Fachhochschule IngolstadtProf. Dr. Andrea Raab3. Durchführung der Clusteranalyse (Two-Step-Clusteranalyse)

Clusteranalyse

nur stetige Variablen → euklidische DistanzDistanzmaße

stetige und kategoriale Variablen → Log-Likelihood


25

Fachhochschule IngolstadtProf. Dr. Andrea Raab3. Durchführung der Clusteranalyse (Two-Step-Clusteranalyse)

Clusteranalyse

Sondert Ausreißer in der ersten Clusterstufe aus

Je höher die Anzahl der Knoten desto sorgfältiger wird die Clusterbildung durchgeführt,aber desto rechenaufwändiger wird das Verfahren

Gruppiertes Balkendiagramm für jede kategorialeVariable und ein Fehlerbalkendiagramm für jedestetige Variable

Kreisdiagramm mit prozentualer Verteilung derFälle auf die Cluster

Diagramme, welche die Bedeutung der einzelnenVariablen für die Cluster zum Ausdruck bringen.• Kategoriale Variablen: Prüft, ob sich die Häufigkeits-

verteilung einer Variable signifikant von derHäufigkeitsverteilung aller Fälle unterscheidet

• Stetige Variablen: Prüft, ob sich der Mittelwert derVariable für ein Cluster vom Mittelwert allerProbanden unterscheidet.

• Die senkrechte Linie zeigt den kritischenSignifikanzwert

Maßzahlen für die Cluster


26

Fachhochschule IngolstadtProf. Dr. Andrea Raab4. Interpretation der Ergebnisse (Two-Step-Clusteranalyse)

Clusteranalyse

Clusterverteilung

65 52,8% 50,4%

58 47,2% 45,0%

123 100,0% 95,3%

6 4,7%

129 100,0%

1

2

Kombiniert

Cluster

Ausgeschlossene Fälle

Gesamtwert

N

% der

Kombination

% der

Gesamts

umme

Zentroide

24,38 2,827 ,4769 ,68711

21,00 1,835 ,9138 1,41774

22,79 2,940 ,6829 1,11117

1

2

Kombiniert

ClusterMittelwert

Standardab

weichung Mittelwert

Standardab

weichung

Alter

Anzahl der in Anspruch

genommenen

Sportangebote

Semester

1 3,3% 0 ,0% 27 90,0% 31 100,0% 6 85,7%

29 96,7% 25 100,0% 3 10,0% 0 ,0% 1 14,3%

30 100,0% 25 100,0% 30 100,0% 31 100,0% 7 100,0%

1

2

Kombiniert

ClusterHäufigkeit Prozent Häufigkeit Prozent Häufigkeit Prozent Häufigkeit Prozent Häufigkeit Prozent

1 3 5 7 9


27


Clusteranalyse

Mit einer Wahrschein-lichkeit von 95% liegt

der Mittelwert derGrundgesamtheit in

diesem Intervall


28


Clusteranalyse

16%2%Volleyball

5%3%Lauftreff

17%2%Fußball

5%11%Fitness

3%0%Fechten

12%0%Basketball

10%0%Badminton

9%15%Aerobic

Prozent der Probanden im Cluster, die an der jeweiligen Sportart teilnehmen

ø 0,9 pro Probandø 0,5 pro ProbandAnzahl der in Anspruchgenommenen Sportangebote

überwiegendGrundstudium

(1. und 3. Semester)

überwiegendHauptstudium

(5., 7. und 9. Semester)Semesteranzahl

ca. gleichverteiltca. gleichverteiltGeschlecht

ø 21 Jahreø 24 JahreAlter

Cluster 2Cluster 1


29


Übungsblatt 5

Bitte bearbeiten Sie dieAufgaben 2 des 5.Übungsblattes.


V6


2


Nennen und erklären Sie die 3 in SPSS einstellbaren Skalenniveaus und nennen Sie jeweils ein Beispiel!

Review

Skalenniveaus


3


• Nominal: Merkmalsausprägungen bilden nur Kategorien und können nicht in

eine Rangordnung gebracht werden (z.B. Geschlecht)

• Ordinal: Merkmalsausprägungen können in Relation interpretiert werden und

stellen eine Rangfolge dar (z.B. Platzierung bei einem Wettkampf)

• Metrisch: (Intervall- oder Verhältnisskaliert) Differenzen bzw. Quotienten der

Merkmalsausprägungen sind interpretierbar. Mittelwerte können

gebildet werden (z.B. Alter)

Nennen und erklären Sie die 3 in SPSS einstellbaren Skalenniveaus und nennen Sie jeweils ein Beispiel!

Review

Skalenniveaus


4


Review

Datenkodierung, Variablendefinition

Kodieren Sie die folgenden Fragen sinnvoll und erstellen Sie Variablendefinitionen:


5


Review

Datenkodierung, Variablendefinition

Kodieren Sie die folgenden Fragen sinnvoll und erstellen Sie Variablendefinitionen:

109


6


Review

HäufigkeitsauswertungErstellen Sie eine Häufigkeitsauswertung über die Frage M3: „Was würdest du zu einem Rauchverbot inder Cafeteria sagen?“ Beachten Sie dabei offensichtliche Eingabefehler und korrigieren Sie diese imVorfeld mit Hilfe von passenden SPSS Funktionen.

Erstellen Sie zusätzlich ein Kreisdiagramm über die Häufigkeitsauswertung mit prozentualen Angaben.


7


Review

HäufigkeitsauswertungErstellen Sie eine Häufigkeitsauswertung über die Frage M3: „Was würdest du zu einem Rauchverbot inder Cafeteria sagen?“ Beachten Sie dabei offensichtliche Eingabefehler und korrigieren Sie diese imVorfeld mit Hilfe von passenden SPSS Funktionen.

Erstellen Sie zusätzlich ein Kreisdiagramm über die Häufigkeitsauswertung mit prozentualen Angaben.

Meinung zu Rauchverbot in der Cafeteria

37 28,7 37,4 37,4

39 30,2 39,4 76,8

23 17,8 23,2 100,0

99 76,7 100,0

30 23,3

129 100,0

Ja, finde ich gut

Nein, lehne ich ab


Gesamt

Gültig

SystemFehlend

Gesamt

Häufigkeit Prozent

Gültige

Prozente

Kumulierte

Prozente

Ja, finde ich gut

Nein, lehne ich ab


Meinung zu Rauchverbot in der Cafeteria

37,40%

39,40%

23,20%


8


Review

Lage- und Streuparameter

Lassen Sie sich den Mittelwert, den Modalwert, die Varianz, die Standardabweichung, die Schiefe, dieKurtosis, sowie die Spannweite über die Variable „Alter“ ausgeben und erläutern Sie kurz die einzelnenMaße.


9


Review



Statistiken

Alter123

6

22,79

21

2,940

8,643

,821

,218

,611

,433

15

Gültig

Fehlend

N

Mittelwert

Modus

Standardabweichung

Varianz

Schiefe

Standardfehler der Schiefe

Kurtosis

Standardfehler der Kurtosis

Spannweite


10


• Mittelwert Maßzahl zur zentralen Tendenz der Daten; ermittelt die durchschnittliche MerkmalsausprägungInterpretation Ergebnis

• Modalwert Messwert, der in einem Datensatz am häufigsten vorkommtInterpretation Ergebnis

• Varianz/ Ermitteln die (quadrierten) Abweichungen jedes Einzelwertes vom Mittelwert; ihr Ausmaß verringertStandardabw. sich, je näher die Werte um den Mittelwert liegen

Interpretation Ergebnis

• Schiefe Maß für die Abweichung einer Zufallsvariablen von einer zum Mittelwert symmetrischen VerteilungSchiefe > 0: rechtsschief (linkssteil); < 0: linksschief (rechtssteil)In terpretation Ergebnis

• Kurtosis Maß für die Abweichung des Verlaufs einer gegebenen Wahrscheinlichkeitsverteilung vom Verlaufeiner NormalverteilungKurtosis > 0: hochgipflig; < 0: flachgipfligIn terpretation Ergebnis

• Spannweite Differenz zwischen dem größten und dem kleinsten Wert der StichprobeInterpretation Ergebnis

Review




11


Review


Erstellen Sie ein Histogramm und ein Stängel-Blatt-Diagramm über die Variable „Größe.“Welchen Vorteil haben die beiden Diagramme im Vergleich zur Darstellung in einem normalenBalkendiagramm?


12


Review


Erstellen Sie ein Histogramm und ein Stängel-Blatt-Diagramm über die Variable „Größe.“Welchen Vorteil haben die beiden Diagramme im Vergleich zur Darstellung in einem normalenBalkendiagramm?

Größe Stem-and-Leaf Plot

Frequency Stem & Leaf

1,00 15 . 8 15,00 16 . 000000233344444 20,00 16 . 55555556677888888999 29,00 17 . 00000000000011222222333333344 23,00 17 . 55555666666777888889999 19,00 18 . 0000000112222233444 10,00 18 . 5556667889 3,00 19 . 034 2,00 19 . 56

Stem width: 10 Each leaf: 1 case(s)


13


Review


Prüfen Sie die Variable „Körpergröße“ mit Hilfe eines Signifikanztests auf Normalverteilung undinterpretieren Sie das Ergebnis.


14


Review


Prüfen Sie die Variable „Körpergröße“ mit Hilfe eines Signifikanztests auf Normalverteilung undinterpretieren Sie das Ergebnis.

Tests auf Normalverteilung

,083 122 ,040 ,981 122 ,083GrößeStatistik df Signifikanz Statistik df Signifikanz

Kolmogorov-Smirnova

Shapiro-Wilk

Signifikanzkorrektur nach Lillieforsa.


15


Review

Datenmodifikation

Erstellen Sie eine Häufigkeitsauswertung über die Variable „Größe“, jedoch nur über die weiblichenTeilnehmer der Untersuchung. Berechnen Sie zudem den Mittelwert.


16


Review

Datenmodifikation

Erstellen Sie eine Häufigkeitsauswertung über die Variable „Größe“, jedoch nur über die weiblichenTeilnehmer der Untersuchung. Berechnen Sie zudem den Mittelwert.

Größe

1 1,4 1,4 1,4

6 8,3 8,6 10,0

1 1,4 1,4 11,4

2 2,8 2,9 14,3

5 6,9 7,1 21,4

7 9,7 10,0 31,4

2 2,8 2,9 34,3

2 2,8 2,9 37,1

6 8,3 8,6 45,7

3 4,2 4,3 50,0

11 15,3 15,7 65,7

2 2,8 2,9 68,6

2 2,8 2,9 71,4

5 6,9 7,1 78,6

2 2,8 2,9 81,4

2 2,8 2,9 84,3

4 5,6 5,7 90,0

1 1,4 1,4 91,4

2 2,8 2,9 94,3

1 1,4 1,4 95,7

2 2,8 2,9 98,6

1 1,4 1,4 100,0

70 97,2 100,0

2 2,8

72 100,0

158,00

160,00

162,00

163,00

164,00

165,00

166,00

167,00

168,00

169,00

170,00

171,00

172,00

173,00

174,00

175,00

176,00

177,00

178,00

179,00

180,00

182,00

Gesamt

Gültig

SystemFehlend

Gesamt

Häufigkeit Prozent

Gültige

Prozente

Kumulierte

Prozente

Statistiken

Größe70

2

169,1286

Gültig

Fehlend

N

Mittelwert


17


Review

Kreuztabelle

Wie viel Prozent der befragten Studenten, die Nichtraucher sind, befinden das Rauchverbot in derCafeteria für gut?

Gibt es einen signifikanten Zusammenhang zwischen dem Rauchverhalten und der Meinung gegenüberdem Rauchverbot in der Cafeteria? Formulieren Sie die Null- und Alternativhypothese und legen Sie eingeeignetes Signifikanzniveau fest.

Mit welcher Irrtumswahrscheinlichkeit kann von einem Zusammenhang gesprochen werden?


18


Meinung zu Rauchverbot in der Cafeteria * Raucher Kreuztabelle

30 5 1 36

83,3% 13,9% 2,8% 100,0%

69,8% 29,4% 2,8% 37,5%

3 8 28 39

7,7% 20,5% 71,8% 100,0%

7,0% 47,1% 77,8% 40,6%

10 4 7 21

47,6% 19,0% 33,3% 100,0%

23,3% 23,5% 19,4% 21,9%

43 17 36 96

44,8% 17,7% 37,5% 100,0%

100,0% 100,0% 100,0% 100,0%

Anzahl

% von Meinung

zu Rauchverbot

in der Cafeteria

% von Raucher

Anzahl

% von Meinung

zu Rauchverbot

in der Cafeteria

% von Raucher

Anzahl

% von Meinung

zu Rauchverbot

in der Cafeteria

% von Raucher

Anzahl

% von Meinung

zu Rauchverbot

in der Cafeteria

% von Raucher

Ja, finde ich gut

Nein, lehne ich ab


Meinung zu Rauchverbot

in der Cafeteria

Gesamt

Nein, ich

rauche nicht

Ja, hin und

wieder

Ja,

regelmäßig

Raucher

Gesamt

Review

Kreuztabelle

Wie viel Prozent der befragten Studenten, die Nichtraucher sind, beurteilen das Rauchverbot in derCafeteria für gut?

Gibt es einen signifikanten Zusammenhang zwischen dem Rauchverhalten und der Meinung gegenüberdem Rauchverbot in der Cafeteria? Formulieren Sie die Null- und Alternativhypothese und legen Sie eingeeignetes Signifikanzniveau fest.

Mit welcher Irrtumswahrscheinlichkeit kann von einem Zusammenhang gesprochen werden?

Chi-Quadrat-Tests

48,355a

4 ,000

57,925 4 ,000

13,737 1 ,000

96

Chi-Quadrat nach

Pearson

Likelihood-Quotient

Zusammenhang

linear-mit-linear


Wert df

Asymptotisch

e Signifikanz

(2-seitig)

1 Zellen (11,1%) haben eine erwartete Häufigkeit kleiner 5.

Die minimale erwartete Häufigkeit ist 3,72.

a.


19


Review

Zusammenhangsmaße

Nennen Sie je ein Zusammenhangsmaß für jedes Skalenniveau (nominal, ordinal, metrisch).

Berechnen Sie ein passendes Zusammenhangsmaß für die Variablen „Geschlecht“ und „Meinung zumRauchverbot in der Cafeteria“ und interpretieren Sie das Ergebnis.


20


Review

Zusammenhangsmaße

Nennen Sie je ein Zusammenhangsmaß für jedes Skalenniveau (nominal, ordinal, metrisch).– Nominal: Cramers V

– Ordinal: Kendalls Tau-b

– Metrisch: Pearsons Korrelationskoeffizient

Berechnen Sie ein passendes Zusammenhangsmaß für die Variablen „Geschlecht“ und „Meinung zumRauchverbot in der Cafeteria“ und interpretieren Sie das Ergebnis.

Symmetrische Maße

,117 ,428

,117 ,428

125

Phi

Cramer-V

Nominal- bzgl.

Nominalmaß


Wert

Näherung

sweise

Signifikanz

Die Null-Hyphothese wird nicht angenommen.a.

Unter Annahme der Null-Hyphothese wird der asymptotische

Standardfehler verwendet.

b.


21


Review

Zusammenhangsmaße

Erstellen Sie per Hand ein Streudiagramm, das eine perfekte positive Korrelation darstellt.


22


Review

Syntax Editor

Der Präsident der Fachhochschule möchte eine separate Auswertung des Fragebogens über die

Studenten im Hauptstudium (ab 5. Semester) veranlassen. Um die Studenten herauszufiltern, die bereits

im Hauptstudium sind, soll eine Filtervariable erstellt werden, die für alle Studenten im Hauptstudium eine

1 beinhaltet und alle Studenten im Grundstudium (einschließlich 4. Semester) eine 2. Die fehlenden Werte

sollen mit einer 9 gekennzeichnet werden.

Führen Sie die Transformationen in SPSS durch und notieren Sie die SPSS Syntax. Markieren Sie das/die

Befehlsschlüsselwort/-wörter.


23


Review

Syntax Editor

Der Präsident der Fachhochschule möchte eine separate Auswertung des Fragebogens über die

Studenten im Hauptstudium (ab 5. Semester) veranlassen. Um die Studenten herauszufiltern, die bereits

im Hauptstudium sind, soll eine Filtervariable erstellt werden, die für alle Studenten im Hauptstudium eine

1 beinhaltet und alle Studenten im Grundstudium (einschließlich 4. Semester) eine 2. Die fehlenden Werte

sollen mit einer 9 gekennzeichnet werden.

Führen Sie die Transformationen in SPSS durch und notieren Sie die SPSS Syntax. Markieren Sie das/die

Befehlsschlüsselwort/-wörter.

RECODE

st2

(MISSING=9) (Lowest thru 4=2) (5 thru Highest=1) INTO Filter .

VARIABLE LABELS Filter 'Filtervariable'.

EXECUTE .


24


Review

Mittelwertvergleich

Untersuchen Sie über die SPSS Funktion Mittelwertvergleich, ob sich die Körpergröße von Männern und

Frauen unterscheidet. Was wäre der passende Signifikanztest um zu prüfen, ob der untersuchte

Zusammenhang signifikant ist?


25


Review

Mittelwertvergleich

Untersuchen Sie über die SPSS Funktion Mittelwertvergleich, ob sich die Körpergröße von Männern und

Frauen unterscheidet. Was wäre der passende Signifikanztest um zu prüfen, ob der untersuchte

Zusammenhang signifikant ist?

Bericht

Größe

180,9615 52 6,72415

169,1286 70 5,60518

174,1721 122 8,45571

Geschlechtmännlich

weiblich

Insgesamt

Mittelwert N

Standardab

weichung

Test bei unabhängigen Stichproben

1,170 ,281 10,586 120 ,000 11,83297 1,11783 9,61974 14,04619

10,306 97,950 ,000 11,83297 1,14819 9,55441 14,11152

Varianzen sind gleich

Varianzen sind nicht

gleich

GrößeF Signifikanz

Levene-Test der

Varianzgleichheit

T df Sig. (2-seitig)

Mittlere

Differenz

Standardfehle

r der Differenz Untere Obere

95% Konfidenzintervall

der Differenz

T-Test für die Mittelwertgleichheit


26


Review

Parametrische und nicht-parametrische Tests

Nennen Sie einen nicht-parametrischen und einen parametrischen Test und definieren Sie, für welches

Skalenniveau der Test eingesetzt werden kann, welche Voraussetzungen dafür nötig sind und was der

Test untersucht.


27


Review


Nennen Sie einen nicht-parametrischen und einen parametrischen Test und definieren Sie, für welches

Skalenniveau der Test eingesetzt werden kann, welche Voraussetzungen dafür nötig sind und was der

Test untersucht.

• Parametrischer Test• Prüft, ob sich der Mittelwert in der Stichprobe von dem

Mittelwert in der Grundgesamtheit signifikant unterscheidet(z.B. beträgt das durchschnittliche Alter in derGrundgesamtheit 35 Jahre?)

Normal-verteilungMetrischT-Test bei einer Stichprobe

• Nichtparametrischer Test• Prüft, ob die Werte in der Grundgesamtheit einer bestimmten

Verteilung folgen (z.B. die Bewertung eines Produktes folgtin der Grundgesamtheit einer Standardnormalverteilung)

Keine VorgabeOrdinalKolmogorov-Smirnov-Test

• Nichtparametrischer Test• Prüft die Verteilung der Merkmalsausprägungen in der

Grundgesamtheit (z.B. Familienstand [ledig, verheiratet,geschieden, verwitwet])

Keine VorgabeNominalChi-Quadrat Anpassungstest

• Nichtparametrischer Test• Prüft eine vorgegebene Eintrittswahrscheinlichkeit in der

Grundgesamtheit (z.B. Männer und Frauen sind in derGrundgesamtheit zu gleichen Teilen vertreten)

Keine VorgabeDichotomBinomialtest

BeschreibungVoraus-setzungenSkalenniveauTest


28


Review


Mit welchem Test können nominale Variablen auf eine Gleichverteilung hin überprüft werden?

Führen Sie diesen Test über die Variable „Rauchverhalten“ durch und interpretieren Sie das Ergebnis.


29


Review


Mit welchem Test können nominale Variablen auf eine Gleichverteilung hin überprüft werden?

• Chi-Quadrat-Verteilungstest

Führen Sie diesen Test über die Variable „Rauchverhalten“ durch und interpretieren Sie das Ergebnis.

Raucher

65 41,7 23,3

20 41,7 -21,7

40 41,7 -1,7

125


Ja, hin und wieder

Ja, regelmäßig

Gesamt

Beobachtetes

N

Erwartete

Anzahl Residuum

Statistik für Test

24,400

2

,000

Chi-Quadrat a

df

Asymptotische Signifikanz

Raucher

Bei 0 Zellen (,0%) werden weniger als

5 Häufigkeiten erwartet. Die kleinste

erwartete Zellenhäufigkeit ist 41,7.

a.


30


Review

Faktoren- und Clusteranalyse

Beschreiben Sie in kurzen Zügen den Ablauf einer Faktorenanalyse und erklären Sie den Zusammenhang

zwischen Faktorladungen, Faktorwerten und Faktoren.


31


Review


Beschreiben Sie in kurzen Zügen den Ablauf einer Faktorenanalyse und erklären Sie den Zusammenhang

zwischen Faktorladungen, Faktorwerten und Faktoren.

1. Berechnung der KorrelationsmatrizenKorrelationsanalyse für jede Variablenkombination

2. Extraktion der FaktorenBestimmung der Anzahl und Bildung der Faktoren

3. Rotation der FaktorladungenVerbesserung der Interpretationsfähigkeitder Faktoren (Faktorladungen)

4. Erstellung der FaktorwerteBerechnung eines Wertes, der dieAusprägung eines Faktors für einenProbanden ausdrückt.


32


Review


Welche Faktoren werden bei der Faktorenanalyse nach dem Kaiser-Kriterium extrahiert?

Wie viele Faktoren würden nach diesem Kriterium in der folgenden Auswertung extrahiert werden?


33


Review


Welche Faktoren werden bei der Faktorenanalyse nach dem Kaiser-Kriterium extrahiert?

Wie viele Faktoren würden nach diesem Kriterium in der folgenden Auswertung extrahiert werden?

Erklärte Gesamtvarianz

2,228 27,847 27,847 2,228 27,847 27,847 1,953

1,378 17,223 45,070 1,378 17,223 45,070 1,465

1,010 12,624 57,694 1,010 12,624 57,694 1,467

,963 12,040 69,734

,730 9,121 78,855

,623 7,792 86,647

,553 6,907 93,554

,516 6,446 100,000

Komponente1

2

3

4

5

6

7

8

Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % Gesamt

Anfängliche Eigenwerte

Summen von quadrierten Faktorladungen

für Extraktion

Rotierte

Summe

der

quadriert

en

Ladunge

na


Wenn Komponenten korreliert sind, können die Summen der quadrierten Ladungen nicht addiert werden, um

eine Gesamtvarianz zu erhalten.

a.


34


Review

Skript: V1• Statistische Methoden / Begrifflichkeiten• Skalenniveaus• Datenkodierung• Variablendefinition in SPSS

Skript: V2• Häufigkeitsauswertungen• Erstellung von Diagrammen (Kreisdiagramm, Säulendiagramm)• Lageparameter (Median, Modus, Mittelwert, Schiefe, Kurtosis)• Streuparameter (Varianz, Standardabweichung, Spannweite, Standardfehler)• Explorative Datenanalyse (Stem-and-Leaf, Histogramm, Boxplot, Test auf Normalverteilung)• Datenmodifikation (umkodieren, automatisch umkodieren, berechnen, filtern)

Skript: V3• Kodierung von Mehrfachantworten (2 Methoden)• Kreuztabellen (Chi-Quadrat-Unabhängigkeitstest)• Zusammenhangs- bzw. Korrelationsmaße (Streudiagramm)

Skript: V4• Syntax Editor• Mittelwertvergleiche• Unterscheidung parametrische und nicht-parametrische Tests (Chi-Quadrat-Anpassungstest)

Skript: V5• Grundkenntnisse Faktorenanalyse• Grundkenntnisse Clusteranalyse

statistische auswertungsverfahren mit spss saspss_skript_final.pdf · statistische...

Documents