vorlesungen 7-10 methoden der empirischen...

75
Methoden der empirischen Sozialforschung I Annelies Blom, PhD TU Kaiserslautern Wintersemester 2011/12

Upload: phamkhanh

Post on 27-Apr-2018

219 views

Category:

Documents


5 download

TRANSCRIPT

Methoden der empirischen Sozialforschung I

Annelies Blom, PhD

TU Kaiserslautern

Wintersemester 2011/12

Quantitative Methoden

der empirischen Sozialforschung

Methoden 1, Vorlesungen 7-10 2

Übersicht

• Wiederholung: Qualitative und quantitative Methoden

• Operationalisieren und Messen

• Welche quantitative Methoden nutzen wir wann?

• Die standardisierte Befragung

• Datengenerierung und Datenqualität

• Die Datenmatrix

3Methoden 1, Vorlesungen 7-10

Ziele

Qualitative Methoden

• Erkundung völlig neuer Phänomene (Anthropologie)

• Erfassung tiefgehender Zusammenhänge(qualitative Sozialforschung)

• Schwierig erreichbare Zielgruppen(z.B. Obdachlose, illegale Immigranten, Alkoholabhängige)

Quantitative Methoden

• Theoriegeleitete Forschung

• Große Zufallsstichprobe(statistische Analysen)

• Messung der gleichen Merkmale über alle Einheiten hinweg

• Bekannte und erreichbare Grundgesamtheit(z.B. Studenten der TUKL, deutschsprachige Bevölkerung)

4Methoden 1, Vorlesungen 7-10

Methoden

Qualitative Methoden

• Teilnehmende Beobachtung (v.a. Anthropologie)

• Tiefeninterviews

• Fokusgruppen

• Qualitative Inhaltsanalyse

Quantitative Methoden

• Administrative Daten (amtliche Statistik)

• Umfrageforschung und ähnliche Datenerhebungen

• Quantitative Experimente

5Methoden 1, Vorlesungen 7-10

Daten

Qualitative Daten

• Textdateien (auch transkribierte Interviews)

• Viel Information über wenige Untersuchungs-einheiten

• Semi-strukturierte Informationen

• Vergleichbarkeit der Informationen zweitrangig

Quantitative Daten

• Numerische Datensätze (auch kodierte Antworten)

• Limitierte Information über viele Untersuchungs-einheiten

• Strukturierte und codierte Informationen

• Vergleichbarkeit der Informationen essentiell

6Methoden 1, Vorlesungen 7-10

Operationalisieren und Messen

7Methoden 1, Vorlesungen 7-10

OperationalisierenBeim Messen sozialer Gegebenheiten unterscheiden wir

• Beobachtungsbegriffe, d.h. Gegebenheiten die wir direkt erfassen können (z.B. Geschlecht, Alter). Beobachtungsbegriffe sind uni-dimensional.

• Theoretischen Begriffe, die wir nur indirekt über theoretische Konstrukte erfassen können (z.B. soziale Schicht). Theoretische Konstrukte sind meist multi-dimensional und werden daher über mehrere Indikatoren gemessen.

Das Umsetzen eines theoretischen Konstrukts in ein Messinstrument nennt man Operationalisierung.

Methoden 1, Vorlesungen 7-10 8

Operationalisieren und Messen

Das Messinstrument muss

• valide sein, d.h. es muss das Konstrukt korrekt abbilden.

• reliabel sein, d.h. eine wiederholte Messung mit dem Instrument muss zum gleichen Ergebnis führen.

Methoden 1, Vorlesungen 7-10 9

Begriff

↓ Definition und Konzeptspezifikation(Begriffsexplikation)

Dimensionen

↓ Festlegung der Indikatoren(Operationalisierung)

Indikatoren

↓ Konstruktion Messinstrumente(Operationalisierung)

Messinstrument

Beispiel: Operationalisierung von soziale Schicht

Methoden 1, Vorlesungen 7-10 10

Begriff Dimensionen Indikatoren Messinstrument

sozialeSchicht

Einkommen

Lohn„Wie hoch ist Ihr monatliches Nettoeinkommen?“

Zinsen„Wie hoch ist Ihr jährliches Zinseinkommen?“

Bildung

Schulbildung„Welchen Schulabschluss haben Sie?“

Berufsbildung„Welchen Berufsabschluss haben Sie?“

Beispiel: Operationalisierung von Armut

Methoden 1, Vorlesungen 7-10 11

• Definition

EU (1984): Menschen sind arm, die über so geringe materielle, kulturelle und soziale Mittel verfügen, dass sie von der Lebensweise ausgeschlossen sind, die in dem Mitgliedsstaat, in dem sie leben, annehmbar ist“

• Erfordert eine komplexe Indexbildung

EinkommenWohnistuationAusstattung

materielle

soziale Kontakte

soziale

chronischeKrankheiten

Gesundheit

Ausbildungsniveau

Bildung

Armut

Messen

• Beim Messen bilden wir empirische Gegebenheiten numerisch ab.

• Problem: Gibt es eine Skala die die empirische Gegebenheit korrekt abbildet?

Methoden 1, Vorlesungen 7-10 12

Skalenniveaus

• Nominalskala (gleich, ungleich)

Geschlecht, Familienstand, Beruf, Partei

• Ordinalskala (geordnet; größer, kleiner)

Schulnoten, Psycho-Skalen, Temperatur, Schicht (?)

• Intervallskala (zusätzlich Abstände definiert)

Geburtsjahr, Schulnoten (?), Psycho-Skalen (?)

• Ratioskala (zusätzlich Nullpunkt definiert)

Alter, Einkommen, Schuldbildung

Methoden 1, Vorlesungen 7-10 13

Übung: Skalenniveaus

Überlegen Sie: Um welches Messniveau handelt es sich?

• Familienstand

• Wohnfläche in Quadratmetern

• Anzahl Kinder im Haushalt

• Note in der letzten Klausur

• Zufriedenheit mit der zur Verfügung stehenden Wohnfläche

• Bruttoinlandsprodukt eines Landes in Mrd. Euro

• Konfession

Ratio

Ratio

Ratio

Intervall

Nominal

Nominal

Ordinal

Methoden 1, Vorlesungen 7-10 14

Welche quantitative Methoden

nutzen wir wann?

15Methoden 1, Vorlesungen 7-10

Administrative Daten

Methoden 1, Vorlesungen 7-10 16

Administrative Daten in der Sozialforschung

• Administrative Daten entstammen einem Verwaltungsapparat, z.B.

– Bundes- und Länderbehörden (Agentur für Arbeit, Deutsche Rentenversicherung)

– Universitätsverwaltung

• In einigen Fällen ist es möglich einen reduzierten und anonymisierten Datensatz (einen sog. Scientific Use File) für wissenschaftliche Forschung zu Nutzen.

• Seit 2001 eingerichtete Forschungsdatenzentren bereiten die Daten auf und stellen sie zur Verfügung.

Methoden 1, Vorlesungen 7-10 17

Administrative Daten in der Sozialforschung

Vorteile

• Meist große Fallzahlen (d.h. große Anzahl an erhobenen Einheiten) und lange Zeitreihen

• Oft (aber nicht immer) große Genauigkeit der Daten

• Niedrige Kosten für den Forscher, da die Daten bereits erhoben sind

Nachteile

• Daten oft nicht deckungs-gleich mit Forschungsfragen (und manchmal lückenhaft), da für administrative Zwecke erhoben

• Hauptsächlich ökonomische Daten

• Nutzung der Daten oft hoher bürokratischer Aufwand

Methoden 1, Vorlesungen 7-10 18

Quantitative Experimente

Methoden 1, Vorlesungen 7-10 19

Quantitative Experimente in der Sozialforschung

• Hauptsächlich in der Psychologie verwendet, da in anderen Bereichen oft schwer durchführbar.

• Das Experiment ist das Forschungsdesign zur Überprüfung von Kausalhypothesen

– Im Experiment ist der Kausalschluss am sichersten (Ausschluss möglicher Störfaktoren)

• Im Standarddesign eine Kontrollgruppe und eine Versuchsgruppe (treatment group).

• Die Probanden werden randomisiert auf Kontroll- und Versuchsgruppen verteilt (manchmal Abstimmung von Kernprobandenmerkmalen, „matching“)

Methoden 1, Vorlesungen 7-10 20

Quantitative Experimente in der Sozialforschung

Vorteile

• Kausalanalysen möglich!

• Durch Randomisierung und Matching der Probanden meist recht hohe Verlässlichkeit bei kleinem Stichprobenumfang

Nachteile

• Praktische Probleme bei der Probandenteilnahme, daher häufig Studentenstichproben

• Bevölkerungsrepräsentative Studien theoretisch zwar möglich aber noch nie durchgeführt

Methoden 1, Vorlesungen 7-10 21

Umfragen und ähnliche Erhebungen

Methoden 1, Vorlesungen 7-10 22

Umfragen in der Sozialforschung• Wichtiges und beliebtes Instrument der Sozialforschung (v.a. in der

Soziologie, Politikwissenschaft und Bildungsforschung)

• Daten werden meist mit Hilfen von standardisierten Befragungen erhoben, aber auch andere Messungen (z.B. kognitive Fähigkeiten, objektiver Gesundheitszustand) sind möglich.

• Große Bandbreite an Umfragestudien von spezifischen Studien mit kleinen, selektiven Stichproben zu großen internationalen Erhebungen.

• Die Daten vieler Erhebungen sind im „Datenarchiv für Sozialwissenschaften“ der GESIS oder direkt bei der jeweiligen Studie erhältlich für Sekundäranalysen.

• Die größten deutschen Umfragestudien haben eigene Forschungsdatenzentren.

Methoden 1, Vorlesungen 7-10 23

Umfragen in der Sozialforschung

Wichtige Umfragestudien in Deutschland (und international):

• Sozio-ökonomisches Panel (SOEP)

• European Social Survey (ESS)

• Survey of Health, Ageing and Retirement in Europe (SHARE)

• Beziehungs-und Familienpanel (pairfam)

• Nationales Bildungspanel (NEPS)

• Programme for International Student Assessment (PISA)

Methoden 1, Vorlesungen 7-10 24

Formen der Befragung• Art der Kommunikation

– Persönlich-mündlich

– Telefonisch

– Schriftlich

• Mit oder ohne Computer

• Mit oder ohne Interviewer

• Hauptbefragungsformen

– Computer Assisted Personal Interview (CAPI)

– Computer Assisted Telephone Interview (CATI)

– Paper Assisted Personal Interview (PAPI)

– Selbstausfüller (z.B. Briefumfrage)

– Online-UmfrageMethoden 1, Vorlesungen 7-10 25

Umfragedaten in der Sozialforschung

Vorteile

• Möglichkeit zur Umsetzung spezifischer Forschungs-fragen

• Möglichkeit zusätzliche Daten (z.B. kognitive Fähigkeiten, objektiver Gesundheitszustand) zu erheben.

Nachteile

• Hohe Qualität und große Fallzahlen sind teuer

• Trotz inzwischen hoher Professionalisierung in der Datenerhebung viele mögliche Fehlerquellen welche die Datenqualität beeinträchtigen könnten

Methoden 1, Vorlesungen 7-10 26

Die standardisierte Befragung

Methoden 1, Vorlesungen 7-10 27

Die standardisierte Befragung• Allgemeine Prinzipien:

– Konstanthaltung der Situation (Gleichheit der Stimuli)Alle Fragen werden allen Befragten in der gleichen Formulierung mit den gleichen Antwortalternativen vorgelegt

– Neutralität des InterviewersDer Interviewer sollte die Antworten nicht sanktionieren, soll nicht argumentieren. Auch auf nonverbales Verhalten achten.

• Vorteil: objektive und verlässliche Datenerhebung

• Nachteil: Datenerhebung nur zu von vorneherein festgelegten thematischen Aspekten möglich, selbst Antwortkategorien bereits festgelegt

– Erfordert beträchtliches inhaltliches Vorwissen

– Deshalb oft qualitative Interviews zur ExplorationMethoden 1, Vorlesungen 7-10 28

Fragetypen• Einstellungs- und Meinungsfragen

Sollten Ausländer, die länger als 10 Jahre in D leben, wählen können?□ Ja □ Nein

• Überzeugungsfragen: subjektive Aussagen über FaktenIm letzten Jahr wurden in D mehr ausländische als deutsche Kinder geboren.

□ richtig □ falsch

• Verhaltensfragen: retrospektiv berichtetes VerhaltenWie häufig waren Sie in den letzten 12 Monaten beim Arzt?

□ nie □ 1-3 mal □ 4-5 mal □ häufiger □ weiß nicht

• Eigenschaftsfragen: soziodemographische MerkmaleStandarddemographie (Bsp. Alter, Geschlecht, Bildung, Familienstand etc.)

Methoden 1, Vorlesungen 7-10 29

Frageformen

• Geschlossene Fragen: vorgegebene Antwortkategorien

Warum haben Sie sich für Ihr Studium entschieden?

□ Interesse am Fach □ Arbeitsmarktchancen

• Offene Fragen: Protokollierung der freien Antwort

Warum haben Sie sich für Ihr Studium entschieden?__________________________________

• Halboffene/Hybridfragen

Warum haben Sie sich für Ihr Studium entschieden?

□ Interesse am Fach □ Arbeitsmarktchancen □ Sonstiges: __________

Methoden 1, Vorlesungen 7-10 30

Geschlossene Fragen

• Bei geschlossenen Fragen gibt es eine begrenzte und definierte Anzahl möglicher Antwortkategorien, in welche die Befragungsperson ihre Antwort einpassen („formatieren“) muss.

• Dabei ist zu unterscheiden zwischen Fragen mit nur einer zulässigen Antwort (Einfachnennung) und Fragen mit mehr als einer zulässigen Antwort (Mehrfachnennungen).

Methoden 1, Vorlesungen 7-10 31

Geschlossene Fragen (Einfachnennung)

Wie stark interessieren Sie sich für Politik, sehr stark, stark, mittel, wenig oder überhaupt nicht?

• sehr stark.............................�

• stark.....................................�

• mittel............. ……............... �

• wenig...............................….�

• überhaupt nicht............ .…..�

Methoden 1, Vorlesungen 7-10 32

Geschlossene Fragen (Mehrfachnennung)

Welche der folgende Geräte befinden sich in Ihrem Haushalt?

Interviewer: Mehrfachnennungen möglich

• Waschmaschine.............................. �

• Spülmaschine..................................�

• Küchenmaschine............................ �

• Espressomaschine.......................... �

• Staubsauger.....................................�

• Kühlschrank.....................................�

Methoden 1, Vorlesungen 7-10 33

Geschlossene Fragen

Vorteil:

Sowohl bei der Befragung selbst als auch bei der späteren Datenaufnahme und Datenauswertung schnell abzuarbeiten.

Nachteil:

Befragungspersonen finden sich häufig nicht in den vorgegebenen Antwortkategorien wieder (mit den möglichen Konsequenzen item nonresponse, bewusst falsche Angaben, oder man gibt „halt irgendwas“ an).

Methoden 1, Vorlesungen 7-10 34

Offene Fragen

Bei offenen Fragen wird nur die Frage selbst vorgelesen.

Es gibt keine Antwortkategorien, die Befragungsperson antwortet in ihren eigenen Worten.

Der Interviewer (sofern es ihn gibt) protokolliert die Aussagen der befragten Person möglichst wörtlich.

Methoden 1, Vorlesungen 7-10 35

Offene Fragen

Welche berufliche Tätigkeit üben Sie in Ihrem Hauptberuf aus? Bitte beschreiben Sie mir Ihre berufliche Tätigkeit genau.

____________________________________________________

____________________________________________________

____________________________________________________

Methoden 1, Vorlesungen 7-10 36

Offene Fragen

Vorteil:

• Die Befragungsperson kann so antworten, wie ihr „der Schnabel gewachsen“ ist.

Nachteile:

• Ganz allgemein: Die Ergebnisse hängen sehr stark von der verbalen bzw. schriftlichen Artikulationsfähigkeit der Befragungspersonen ab

• Probleme des Befragten mit offener Sprache oder offenen Texten

• Probleme des Interviewers beim vollständigen und korrekten Erfassen offener Antworten

• Und natürlich: immenser Aufwand bei der Auswertung!Methoden 1, Vorlesungen 7-10 37

Halb-offene Fragen

Halboffene Fragen sind eher ein Ergebnis von Entscheidungsschwierigkeiten des Fragebogenentwicklers, kommen aber in der Praxis sehr häufig vor.

Einer an sich geschlossenen Frage wird eine zusätzliche Kategorie („anderes“/„weiteres“) angehängt, die wie eine offene Frage beantwortet werden kann.

Eine halboffene Frage bietet sich immer dann an, wenn das Universum möglicher Antworten auf eine Frage zwar gut abgeschätzt (geschlossene Frage), aber nicht definitiv bestimmt werden kann (offene Frage).

Aber zusätzlicher Kodierungsaufwand!

Methoden 1, Vorlesungen 7-10 38

Offene oder geschlossene Fragen?

Aufgrund kognitionspsychologischer Forschung wissen wir heute, dass die Entscheidung für eine offene oder für eine geschlossene Frage nicht alleine das Registrieren der Antwort und den Aufwand bei der Auswertung beeinflusst, sondern bedeutende Auswirkungen auf das Ergebnis zu dieser Frage haben kann.

Offene und geschlossene Fragen stellen unterschiedliche kognitive Anforderungen an die Befragungsperson.

Vor allem muss die Befragungsperson bei der offenen Frage den Rahmen für ihre Antwort selbst abstecken.

Methoden 1, Vorlesungen 7-10 39

SkalenWie viele Stunden sehen Sie an einem normalen Werktag fern?

bis 1/2 Stunde

1/2 bis 1 Stunde

1 bis 1 1/2 Stunden

1 1/2 bis 2 Stunden

2 bis 2 1/2 Stunden

mehr als 2 1/2 Stunden

bis 2 1/2 Stunden

2 1/2 bis 3 Stunden

3 bis 3 1/2 Stunden

3 1/2 bis 4 Stunden

4 bis 4 1/2 Stunden

mehr als 4 1/2 Stunden

Mehr als 2 1/2 Stunden: 16,2 % Mehr als 2 1/2 Stunden: 37,5%

Hohe Häufigkeitsskalen legen nahe, dass der Forscher häufige hohe Nennungen erwartet. Deshalb berichten Befragte bei der Skala auf der linken Seite weniger Stunden als auf der rechten Seite (Schwarz et al. 1985)

Methoden 1, Vorlesungen 7-10 40

Skalentypen

Verbalisierte Skalen:

Trifft voll trifft eher trifft eher trifft überhauptund ganz zu zu nicht zu nicht zu

� � � �

Numerische (endpunktbenannte) Skalen:

trifft überhaupt trifft vollnicht zu ������� und ganz zu

Methoden 1, Vorlesungen 7-10 41

Skalentypen

„Gerade“ Skalen:

unwichtig � � � � � � sehr wichtig

„Ungerade“ Skalen:

unwichtig ������� sehr wichtig

Methoden 1, Vorlesungen 7-10 42

Skalentypen

In der Praxis haben sich unter dem Gesichtspunkt der Diskriminierungsfähigkeit numerische (endpunktbenannte) Skalen mit sieben plus/minus zwei Skalenpunkten bewährt.

Methoden 1, Vorlesungen 7-10 43

Frageformulierung: 10 Gebote (Porst 2000)

1. Du sollst einfache, unzweideutige Begriffe verwenden, die von allen Befragten in gleicher Weise verstanden werden!

2. Du sollst lange und komplexe Fragen vermeiden!

3. Du sollst hypothetische Fragen vermeiden!

4. Du sollst doppelte Stimuli und doppelte Verneinungen vermeiden!

5. Du sollst Unterstellungen und suggestive Fragen vermeiden!

6. Du sollst Fragen vermeiden, die auf Informationen abzielen, über die viele Befragte mutmaßlich nicht verfügen!

7. Du sollst Fragen mit eindeutigem zeitlichen Bezug verwenden!

8. Du sollst Antwortkategorien verwenden, die erschöpfend und disjunkt(überschneidungsfrei) sind!

9. Du sollst sicherstellen, dass der Kontext einer Frage sich nicht auf deren Beantwortung auswirkt!

10. Du sollst unklare Begriffe definieren!Methoden 1, Vorlesungen 7-10 44

Datengenerierung und Datenqualität

Methoden 1, Vorlesungen 7-10 45

Datengenerierung

(Angelehnt an Groves et al. 2009, S.48)46

Datenqualität

(Angelehnt an Groves et al. 2009, S.48)

Konstrukt Validität

Die Diskrepanz zwischen Konstrukt und Messinstrument

47

Datenqualität

(Angelehnt an Groves et al. 2009, S.48)

Messfehler

Die Diskrepanz zwischen idealer Messung und tatsächlicher Antwort, z.B. durch:

• Missverständnisse

• „Soziale Erwünschtheit“

• „Satisficing“

48

Fragen und Antworten

„Die richtige Antwort,

mein lieber Watson,

erhalten Sie nur,

wenn Sie die richtige Frage stellen.“

Methoden 1, Vorlesungen 7-10 49

Kognitive Schritte beim Antworten

1. Den Inhalt der Frage verstehen

2. Im Gedächtnis nach der Antwort suchen

3. Eine Einschätzung abgeben

4. Die Einschätzung in eine der Antwortkategorien übersetzen

Methoden 1, Vorlesungen 7-10 50

Satisfycing

Wenn Befragte die Schritte 2 und 3 nur teilweise oder gar nicht ausführen.

Warum? Das Beantworten von Fragen ist kognitiv anstrengend.

Methoden 1, Vorlesungen 7-10 51

Arten von Satisfycing

• Die erste sinnvolle Antwortkategorie auswählen

• Bejahungen zustimmen

• Die mittlere Kategorie wählen

• “Weiß nicht” antworten

Methoden 1, Vorlesungen 7-10 52

Ursachen von Satisfycing

• Schwierigkeitsgrad der Aufgabe

• Fähigkeiten der Befragten

• Motivation der Befragten

Methoden 1, Vorlesungen 7-10 53

Datenqualität

(Angelehnt an Groves et al. 2009, S.48)

Messfehler

Die Diskrepanz zwischen idealer Messung und tatsächlicher Antwort, z.B. durch:

• Missverständnisse

• „Soziale Erwünschtheit“

• „Satisficing“

54

Datenqualität

(Angelehnt an Groves et al. 2009, S.48)

Aufbereitungsfehler

Die Diskrepanz zwischen der in der Schätzung verwendeten Variablen und der Antwort der Befragten, z.B. durch nachträglichen Kodierungen.

55

Datenqualität

(Angelehnt an Groves et al. 2009, S.48)

Deckungsfehler

Die Diskrepanz zwischen Grundgesamtheit und verfügbarem Stichprobenframe

56

Datenqualität

(Angelehnt an Groves et al. 2009, S.48)

Stichprobenfehler

Dieser Fehler entsteht weil man normalerweise nicht alle Einheiten im Frame beobachtet sondern nur eine Zufallsstichprobe dieser Einheiten.

57

Beispiel: Mathenote im Abitur

• Grundgesamtheit: Studenten an deutschen Universitäten

• Stichprobenframe: Liste aller Studenten an Universitäten die

bei der Studie teilnehmen

• Stichprobe: Für 5 verschiedene Zufallsstichproben mit jeweils

5 Studenten wird die mittlere Mathenote berechnet.

Methoden 1, Vorlesungen 7-10 58

Mittelwerte bei 5 Zufallsstichproben

Stichprobe

1

Stichprobe

2

Stichprobe

3

Stichprobe

4

Stichprobe

5

Student 1 1,0 2,0 2,0 2,0 2,0

Student 2 2,0 2,7 2,0 2,3 2,0

Student 3 2,5 3,0 2,7 3,0 2,7

Student 4 3,0 3,0 3,0 3,0 3,0

Student 5 3,0 4,0 3,3 4,0 3,0

Mittelwert 2,30 2,94 2,60 2,86 2,54

Methoden 1, Vorlesungen 7-10 59

Datengenerierung

(Angelehnt an Groves et al. 2009, S.48)

Stichprobenfehler

Dieser Fehler entsteht weil man normalerweise nicht alle Einheiten im Frame beobachtet sondern nur eine Zufalls-stichprobe dieser Einheiten;in der induktiven Statistik berücksichtigen Konfidenzintervalledie Stichprobenfehler

60

Datengenerierung

(Angelehnt an Groves et al. 2009, S.48)

Nonresponse-Fehler

Die Diskrepanz zwischen Brutto-Stichprobe (die Zufallsstichprobe die man gezogen hat) und Netto-Stichprobe (die tatsächlich erhobenen Einheiten, z.B. die Befragten)

61

Datengenerierung

(Angelehnt an Groves et al. 2009, S.48)

Anpassungsfehler

Mit nachträglichen Anpassungen versucht man Deckungs-, Stichproben- und Nonresponse-Fehler auszugleichen (z.B. Gewichtungen)

62

Datengenerierung und Datenqualität

(Angelehnt an Groves et al. 2009, S.48)63

Aus den Medien

Am 9.1.2012 melden die Medien:

„Jedes 2. Huhn ist mit antibiotika-resistenten Keimen verseucht. Dies zeigt eine nicht-repräsentative Stichprobe“

Was können wir aus dieser Meldung schließen?

Methoden 1, Vorlesungen 7-10 64

Die Datenmatrix

Methoden 1, Vorlesungen 7-10 65

Datenmatrix / Datensatz

Variable 1 Variable 2 …

Fall 1Wert von Fall 1 auf Variable 1

Wert von Fall 1 auf Variable 2

Wert von Fall 1 auf Variable 3

Fall 2Wert von Fall 2 auf Variable 1

Wert von Fall 2 auf Variable 2

Wert von Fall 2 auf Variable x

Fall 3Wert von Fall 3 auf Variable 1

Wert von Fall 3 auf Variable 2

Wert von Fall 3 auf Variable x

…Wert von Fall i auf Variable 1

Wert von Fall i auf Variable 2

Wert von Fall i auf Variable x

Methoden 1, Vorlesungen 7-10 66

Datenmatrix / Datensatz

Fall ID Geschlecht Geburtsgewicht …

1019Wert von Fall 1 auf Variable 1

Wert von Fall 1 auf Variable 2

Wert von Fall 1 auf Variable 3

1020Wert von Fall 2 auf Variable 1

Wert von Fall 2 auf Variable 2

Wert von Fall 2 auf Variable x

1021Wert von Fall 3 auf Variable 1

Wert von Fall 3 auf Variable 2

Wert von Fall 3 auf Variable x

…Wert von Fall i auf Variable 1

Wert von Fall i auf Variable 2

Wert von Fall i auf Variable x

Methoden 1, Vorlesungen 7-10 67

Datenmatrix / Datensatz

Fall ID Geschlecht Geburtsgewicht …

1019 1 (männlich) 2856 …

1020 2 (weiblich) 4012 …

1021 2 (weiblich) 3261 …

… … ……

Methoden 1, Vorlesungen 7-10 68

Datenstrukturen

Methoden 1, Vorlesungen 7-10 69

Datenstrukturen• Querschnittdaten

– Information über den Zustand zu einem Zeitpunkt

• Trenddaten– Informationen zu mehreren Zeitpunkt

bei verschiedenen Personen– Veränderungen auf Aggregatebene

(Entwicklung der Armutsquote)

• Paneldaten– Informationen zu mehreren Zeitpunkt bei denselben Personen

Individuelle Veränderung (z.B. individuelle Armutsdynamik)

• Ereignisdaten– Vollständiger Verlauf einer Variable ohne „Lücken“

• Längsschnittdaten: Panel- und Ereignisdaten– Longitudinal Data Analysis (Ereignisdaten- und Paneldatenanalyse)

zu

neh

men

der I

nfo

rm

atio

nsg

eh

alt

Methoden 1, Vorlesungen 7-10 70

Erhebungsdesign und Datenstruktur• Querschnittdaten

– Einmalige Erhebung der abhängigen und unabhängigen Variablen einer Untersuchung an einer Stichprobe von N Beobachtungseinheiten (Querschnittdesign)

• Trenddaten– Mehrmalige Erhebung der Merkmale an mehreren unabhängigen

Stichproben von jeweils N Beobachtungseinheiten (Trenddesign)

• Paneldaten– Wiederholte Erhebung der Beobachtungsgrößen an einer Stichprobe

von N Beobachtungseinheiten (Paneldesign)– ODER: Einmalige Retrospektivbefragung (Retrospektivdesign)

• Ereignisdaten– Paneldesign, kombiniert mit Retrospektivbefragung – ODER: Einmalige Retrospektivbefragung (Retrospektivdesign)

Methoden 1, Vorlesungen 7-10 71

Die Millenium Cohort Study

72Methoden 1, Vorlesungen 7-10

Beispiel: „Millenniumkinder“Zwei empirische Großstudien aus England

Child of Our Time

• Studie der Open University und der BBC

• 25 Kinder mit dem gleichen vorhergesagten Geburts-datum (Anfang 2000)

• Die Kinder bilden eine Bandbreite an genetischen, sozialen, geografischen und ethnischen Hintergründen ab.

Millenium Cohort Study (MCS)

• Studie der University ofLondon (IoE)

• 19.000 Kinder geboren innerhalb von 12 Monaten in 2000/2001

• Zufallsstichprobe aller in Großbritannien in diesem Zeitraum geborenen Kinder

Methoden 1, Vorlesungen 7-10 73

Millenium Cohort Study

• Umfassende persönliche Befragungen (CAPI mit Selbstausfüller; ca. 1 Stunde)

• Erhebungen in 2001/2, 2004/5, 2006, 2008 und 2012

• Grundstichprobe im Paneldesign– Informationen zu den Kindern über die Eltern erhoben– Informationen zu den sozialen Hintergründen durch

Interviews der Eltern

• Zusätzliche Informationen zu Schulen

• Bis jetzt mehr als 11.000 Variablen (spezielle online „Data Dictionairy“ um Variablen in den verschiedenen Datensätzen aufzufinden)

Methoden 1, Vorlesungen 7-10 74

Ergebnisse der MCS

• Unzählige Publikationen in referierten Fachzeitschriften, Büchern und zitiert in Zeitungen.

• Zwei MCS Bücher:

Methoden 1, Vorlesungen 7-10 75