chapitre 2 echantillonnage - wordpress.com · 2019. 7. 10. · chapitre 2 delphine boutin...

104
Echantillonnage Chapitre 2 Delphine Boutin [email protected]

Upload: others

Post on 06-Mar-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Echantillonnage

Chapitre 2

Delphine Boutin [email protected]

Page 2: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 2

Deux grandes étapes lorsqu’on réalise un plan de sondage:

La méthode d’échantillonnage: processus choisi pour tirer l’échantillon.

• Les infos les plus fondamentales (car utilisées pour les estimateurs) concernent les valeurs

des probabilités de tirage de chaque individu.

• Selon la méthode utilisée, ces probabilités sont calculables pour chaque individu.

L’expression de l’estimateur: formule d’estimation de 𝜃.

• Pour une même méthode d’échantillonnage, il existe de nombreuses formules d’estimateur, et

inversement.

Le plan de sondage dépend:

• Du biais/ De la variance

• Du budget

• De la disponibilité des informations adéquates

Introduction

Page 3: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 3

Deux classes de sondages:

Méthode aléatoire ou probabiliste: chaque individu de la population a une probabilité donnée,

connue d’avance, d’appartenir à l’échantillon, dite probabilité d’inclusion ou de sélection.

• Le sondage aléatoire simple

• La stratification

• Le sondage par grappes

• Le sondage à plusieurs degrés

Avantages:

• calcul des probabilités et de la précision des estimateurs.

• Rigueur de la formalisation mathématique

Méthodes empiriques ou « à choix raisonné », qui ne permettent pas de calculer ces probabilités

d’inclusion.

• Méthode des unités types

• Méthode des quotas

Avantages:

• Absence de base de sondage.

• Aspect qualitatif

• Moins de budget

Introduction Typologie des classes de sondages

Page 4: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 4

Estimateurs:

Forme de l’estimateur:

𝜃 = 𝑊𝑖 𝑠 . 𝑌𝑖𝑖𝜖𝑠

Avec 𝑊𝑖 𝑠 le poids de sondage attaché à l’individu i pour le sondage s.

Propriétés des estimateurs 𝜃:

Soit une moyenne, soit une proportion, soit un total

Les pondérations utilisées dépendent de l’échantillon

Introduction

Propriétés des estimateurs

Page 5: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 5

Probabilité d’inclusion/de sélection :

Pour tout sondage de taille fixe n, d’une population N:

𝑝𝑖 = 𝑝(𝑠)

𝑖∈𝑠

𝑝𝑖 : probabilité de sélectionner l’individu 𝑖

𝑝(𝑠): probabilité de sélectionner l’échantillon 𝑠 contenant l’individu 𝑖

probabilité de tirer un échantillon contenant i parmi tout les échantillons possibles

On vérifie que:

𝑝𝑖 = 𝑛

𝑁

𝑖=1

Introduction Probabilité d’inclusion/de sélection pi

Page 6: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 6

Exemple:

On tire 2 individus dans une population de 4 personnes sans remise (→ n=2 et N=4).

s1={1,2} s3={1,4} s5={2,4}

s2={1,3} s4={2,3} s6={3,4}

Parce qu’on juge que l’individu 1 est particulièrement coopératif, on veut lui donner une probabilité de

tirage supérieure. Les probabilités de tirage sont les suivantes:

p(s1)=0,25 p(s3)=0,2 p(s5)=0,1

p(s2)=0,25 p(s4)=0,1 p(s6)=0,1

𝑝1 = 𝑝 𝑠1 + 𝑝 𝑠2 + 𝑝 𝑠3 = 0,7

𝑝2 = 𝑝 𝑠1 + 𝑝 𝑠4 + 𝑝 𝑠5 = 0,45

𝑝3 = 𝑝 𝑠2 + 𝑝 𝑠4 + 𝑝 𝑠6 = 0,45

𝑝4 = 𝑝 𝑠3 + 𝑝 𝑠5 + 𝑝 𝑠6 = 0,4

On vérifie bien que 𝑝1+ 𝑝2+ 𝑝3+ 𝑝4=n=2

Introduction Probabilité d’inclusion/de sélection Pi -suite

Page 7: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 7

Tirages équiprobables:

Consiste à tirer dans une population de taille N un échantillon de taille fixée n, de façon à ce que

chaque individu ait la même probabilité d’inclusion.

Pi est constant et vaut:

𝑃𝑖 =𝑛𝑁 𝑎𝑣𝑒𝑐 𝑝𝑖 = 𝑛

𝑛𝑖=1 et 𝑝𝑖 > 0

𝑛𝑁 représentant le taux de sondage.

Tirages à probabilité inégale:

Tirage où les individus ont une probabilité inégale d’être tiré (ex: un individu 𝑖 a 4 fois plus de

probabilité d’être tiré qu’un individu 𝑗).

Tenir compte de cette dissymétrie au niveau de l’estimateur: si on donne plus d’importance à

l’individu i dans le tirage, on lui en donne moins dans l’expression de l’estimateur de façon à

rétablir l’équilibre

• très concrètement on pondère chaque individu par l’inverse de sa probabilité d’inclusion.

Pi sera un nombre quelconque, strictement compris entre 0 et 1 (strictement supérieur à 0) choisi

par le sondeur de façon à respecter 𝑝𝑖 = 𝑛𝑛𝑖=1 pour un échantillon de taille fixe n

Introduction Types de tirages

Page 8: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 8

Propriétés de l’espérance:

𝐸 𝑎𝑋 = 𝑎 × 𝐸 𝑋

𝐸 𝑋 + 𝑌 = 𝐸 𝑋 + 𝐸(𝑌)

Propriétés de la variance:

𝑉 𝑎𝑋 = 𝑎2 𝑉 𝑋

𝑉 𝑋 + 𝑌 = 𝑉 𝑋 + 𝑉 𝑌 + 2𝐶𝑜𝑣 𝑋, 𝑌

𝐶𝑜𝑣 𝑋, 𝑌 = 𝐸 𝑋 − 𝐸 𝑋 × (𝑌 − 𝐸 𝑌 )

Introduction Rappels statistiques

Page 9: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Taille de l’échantillon

Partie 1

Page 10: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 10

La question la plus fondamentale et la plus importante!

Le choix de la taille d’échantillon doit établir un équilibre entre:

Ce qui est exigé du point de vue de la précision de l’échantillonnage,

Ce qui est réalisable du point de vue de l’application pratique (ex.: budget, personnel de terrain et

administratif, ressources techniques, contrôle de qualité, contraintes temporelles, pérennité).

Taille de l’échantillon

Page 11: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 11

Taille de l’échantillon Echantillonnage et estimateurs

Page 12: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 12

Des deux échantillons, on préfère le plus représentatif (justesse de l’estimateur)

Taille de l’échantillon Echantillonnage et estimateurs

Page 13: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 13

Des deux, le premier est le plus large (mais pas forcément le plus représentatif)

Taille de l’échantillon Echantillonnage et estimateurs

Page 14: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 14

Randomisation: permet de déterminer l’effet causal

i.e. élimine les biais d’endogénéité et définit la justesse de l’estimateur

mais elle n’élimine pas le bruit dans les données

Taille d’échantillon: permet alors d’ajuster le degré de précision

Les deux sont utiles, comme le montrent les dessins suivants:

un estimateur peut mesurer l’effet juste ...sans précision, et donc le manquer

un estimateur peut être précis ...mais faux

Taille de l’échantillon Justesse et précision

Page 15: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 15

Taille de l’échantillon Justesse et précision

Page 16: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 16

Taille d’échantillonnage et précision: une illustration

Valeur espérée du tirage d’un dé: 1

6× 1 +

1

6× 2… .= 3,5

Empiriquement: si on tire un dé, distribution uniforme

• 1/6 chance pour chaque valeur

Si on tire deux dés, 36 permutations et la moyenne des deux dés vaut:

• 1 (dés:1+1) avec une proba de 1/36

• 1.5 (dés: 1+2 ou 2+1) avec une proba de 2/36

• …

• 3.5 (1+6, 2+5…etc) avec une proba de 6/36=1/6

Regardons les graphs de cette distribution empirique (distribution des moyennes empiriques)

Taille de l’échantillon La loi des grands nombres

Page 17: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 17

Taille de l’échantillon La loi des grands nombres

Page 18: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 18

Taille de l’échantillon La loi des grands nombres

Page 19: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 19

Taille de l’échantillon La loi des grands nombres

Page 20: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 20

Plus on tire les dés un nombre important de fois, plus on a de moyennes empiriques proches de la

moyenne théorique

la distribution des moyennes empiriques est plus resserrée, moins dispersée autour de la vraie valeur

quand on augmente, on tend vers la vrai valeur: c’est la loi des grands nombres

Plus on tire les dés un nombre important de fois et plus la distribution empirique suit une loi normale

c’est le théorème central limite

il permet de faire des tests statistiques basés sur les propriétés de la loi gaussienne

Taille de l’échantillon Loi des grands nombres et théorème central limite

Page 21: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 21

Etape importante: déterminer le nombre d’entretien à passer.

Si forte contrainte de coût (= si on ne dispose pas d’un budget illimité):

Si C est le budget total de l’enquête dont on dispose, et c le coût unitaire total attaché à un

questionnaire ou une interview (formation de l’enquêteur, passage de l’enquête, saisie des données

etc), alors la taille de l’échantillon est donnée par : 𝑛 = 𝐶 𝑐 .

Par précaution, on tire toujours un nombre d’unités supplémentaires qui constituent une réserve.

• Il est en général quasi-impossible de recueillir les réponses de l’ensemble des personnes faisant

partie de la liste d’enquête:

– zones difficiles à enquêter du fait de refus massifs et de la baisse du taux de réponse

– remplacements liés à des causes diverses (déménagement récent, décès récent, impossible

à joindre etc).

• Il est nécessaire de prévoir un échantillon plus large en prévision de ces “ manques ”.

Taille de l’échantillon Forte contrainte de coûts

Page 22: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 22

Si faible contrainte de coût (= si on dispose d’un budget illimité):

Si prêt à faire un effort (budgétaire) pour obtenir une précision souhaitée à priori avec une certaine

marge d’erreur.

Dans ce cas, la requête est connaître θ à une certaine marge d’erreur près et avec 95 chances sur 100

de ne pas faire d’erreur d’encadrement.

On trouve

𝑛 = 𝑁.1

1 + 𝑁𝐿2

4𝑆2

Avec n : taille de l’échantillon; N : taille de la population mère; L : marge d’erreur (de 0,1 à 0,005) et S2 :

Variance de Y dans la population mère.

Malheureusement, S2 est un paramètre inconnu. On peut estimer S2 à partir

d’une autre enquête concernant le même sujet

d’une autre enquête portant sur une variable Z corrélée à Y

de conseils « d’experts »

d’un premier petit échantillon qui permette de calculer S2 que l’on complète ensuite en fonction de

la valeur n à atteindre.

Taille de l’échantillon Faible contrainte de coûts

Page 23: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 23

Une autre façon de procéder est de partir de la proportion (connue ou supposée, estimée) des éléments

de la population-mère qui présentent une propriété donnée.

On obtient la formule suivante :

𝑛 =𝑡2 × 𝑝(1 − 𝑝)

𝐿2

Avec:

n = taille de l'échantillon attendu.

t = Seuil de confiance (ou Niveau de confiance ou encore Taux de confiance) que l’on souhaite

garantir sur la mesure (t=1,96 pour un taux de confiance de 95%).

p= proportion estimée de la population présentant la caractéristique étudiée

L = marge d'erreur (traditionnellement fixée à 5%).

Malheureusement, on ne connaît pas p. La seule solution dans ce cas est d’en donner une estimation « à

priori »

soit à partir d’une enquête portant sur le même sujet mais réalisée dans le passé,

soit à partir de conseils d’experts,

soit réaliser une pré-étude.

Taille de l’échantillon Faible contrainte de coûts-suite

Page 24: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Sondage aléatoire simple

Partie 2

Page 25: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 25

Modèle de référence, modèle le plus simple

Procédure de tirage aléatoire d’une fraction de la population:

Dans un échantillon aléatoire simple, on extrait n individus d'une population de taille N.

La taille n est fixée et le tirage est sans remise à partir des seuls identifiants.

Tous les individus ont la même chance d’être sélectionnés, et ce sans information auxiliaire.

Attribue à chaque échantillon s de taille n susceptible d’être formé, la même probabilité de sélection p(s).

Cette p(s) est égale à l’inverse du nombre d’échantillons distincts que l’on peut constituer dans la

population

Le sondage aléatoire simple (SAS) Présentation

Page 26: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 26

Calcul de la probabilité d’inclusion/Taux de sondage:

Le SAS est un sondage particulier puisque les Pi sont constantes:

𝑃𝑖 = 𝑛/𝑁

Cette grandeur s’appelle un taux de sondage

Peut se retrouver avec les dénombrements 𝑃𝑖 = 𝑝 𝑠 =𝑠∋𝑖 𝐶𝑛−1𝑁−1

=n/N

Toutes les combinaisons de n éléments parmi les N de la population sont réalisables avec la même

probabilité.

Chaque élément a la même chance que les autres d’être sélectionné.

• Les pondérations équivalent à l’inverse du taux de sondage:

𝑊𝑖 𝑠 =1

𝑃𝑖=𝑁

𝑛

• Elles ne dépendent ni de i, ni de s : chaque individu de l’échantillon représente N/n individus de la

population.

• Ces résultats sont intuitifs:

• si on sonde avec un taux de sondage de 5% (un individu sur 20), le SAS par construction doit

donner un échantillon 20 fois plus petit avec à peu près les mêmes caractéristiques.

Le sondage aléatoire simple (SAS) Probabilité d’inclusion et pondération

Page 27: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 27

En pratique, on ne s'intéresse qu'à l'estimation de paramètres ayant la forme d'une moyenne, d'une

proportion ou d'un total.

On note 𝑦 la moyenne simple des yi calculée sur l’échantillon tiré.

On peut montrer que l’estimateur 𝑦 est un estimateur sans biais de 𝑦 , autrement dit que la moyenne de Y

calculée sur l’échantillon est une bonne mesure de la vraie moyenne:

𝑦 =1

𝑛 𝑝 𝑠 × 𝑦𝑠

𝑛

𝑖=1

Cet estimateur est donc sans biais puisque E(𝑦 ) = 𝑦 , car 𝑝 𝑠 = 1𝑛𝑖=1

Le sondage aléatoire simple (SAS) Expression des estimateurs

Page 28: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 28

Un biais nul n'est pas un critère infaillible de qualité.

Ce qui compte, c'est la précision.

Dans un sondage aléatoire simple, la variance de l’estimateur 𝑦 s’écrit:

𝑉 𝑦 = 1 − 𝑓 .𝑆2

𝑛

Avec :

n le nombre d'individus dans l'échantillon

f le taux de sondage (n/N)

S2 la vraie variance de la variable Y dans la population mère. C’est une mesure de dissimilarité entre

les individus.

𝑆2 =1

𝑁 𝑝(𝑠) 𝑌𝑠 − 𝑌

2

𝑁

𝑖=1

𝑦 l’estimation de la moyenne de Y à partir de l’échantillon.

Le sondage aléatoire simple (SAS) Précision des estimateurs

Page 29: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 29

On ne connaît pas S2. On peut l’estimer à partir des données de l’échantillon que l’on notera 𝑠2 (petit s):

𝑠2 =1

𝑛 − 1 𝑝(𝑠)(𝑦𝑠 − 𝑦 )

2

𝑛

𝑖=1

On peut montrer que s2 est la variance de l’échantillon qui estime sans biais S2 (revient à dire que la

dispersion de Y dans l'échantillon est proche de la vraie dispersion de Y dans la population mère).

On peut alors écrire la variance estimée:

𝑉 𝑦 = 1 − 𝑓 .𝑠2

𝑛

Le sondage aléatoire simple (SAS) Précision des estimateurs

Page 30: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 30

Pour obtenir une estimation précise de la moyenne, cad que 𝑉 𝑦 soit petit, , il faut que

le numérateur soit petit

et/ou que le dénominateur soit grand,

et/ou que (1-f) qui est le facteur multiplicatif soit petit c'est-à-dire f grand.

On peut donc jouer théoriquement sur 3 grands paramètres:

1. une taille de l'échantillon grande: plus l’échantillon est grand, plus on peut avoir confiance dans

l’estimation qui en résulte. Intuitivement, on sent bien que plus on se rapproche du recensement et plus

l’erreur d’échantillonnage sera faible.

On peut noter que la variance est proportionnelle à 1/n donc l’écart type sera proportionnel à 1𝑛 .

Ceci veut dire qu’une précision 2 fois meilleure (pour diviser l’écart-type par 2) il faut 4 fois plus de

questionnaires, et pour une précision 10 fois meilleure il faut un échantillon 100 fois plus grand.

En général la taille de l'échantillon est fixée par le budget.

2. Le taux de sondage f (=n/N): On ne peut que très rarement agir, en pratique, sur cette

condition. Le taux de sondage est toujours compris entre 0 et 1.

• S’il se rapproche de 1 on se rapproche du recensement et il y a de moins en moins

d’imprécision.

Le sondage aléatoire simple (SAS) Précision des estimateurs: taille de l’échantillon

Page 31: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 31

3. La dispersion de la population:

Dans une population peu dispersée, toutes les valeurs de la variable Y seront proches de la moyenne. Si

tous les individus sont identiques en Y cad si Yi = constante = 𝑌 alors S2=0 et 𝑉 𝑦 = 0.

Il suffirait d’interroger un seul individu pour avoir toute l’information et la précision est maximale.

Dans la réalité les populations sont hétérogènes= plus les individus sont différents les uns des autres en

Y, plus les valeurs de la variable Y sont éloignées de la vraie moyenne, et 𝑉 𝑦 est grande.

Dans ce cas, l’estimateur est très sensible à l’échantillon tiré et si le hasard fait mal les choses, le

risque est grand que la moyenne de l'échantillon s'écarte fortement de celle de la population.

Le sondage aléatoire simple (SAS) Précision des estimateurs: dispersion de la population

Page 32: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 32

En principe on connaît pas la loi de 𝑦 lorsque le tirage est sans remise.

Néanmoins, on peut supposer que si

• n est très grand (>50)

• les individus sont plutôt homogènes (il n’y a pas d’individus aux caractéristiques trop

atypiques),

alors 𝑦 suit une loi de Gauss.

Ainsi, avec une marge d’erreur de 5%, on peut calculer des intervalles de confiance:

𝐼𝐶 = 𝑦 − 1.96 × 1 − 𝑓𝑠2

𝑛 ; 𝑦 + 1.96 × 1 − 𝑓

𝑠2

𝑛

Le sondage aléatoire simple (SAS) Intervalles de confiance

Page 33: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 33

Dans le cas des proportions; la variance de l’estimateur est alors:

𝑉 𝑝 = 1 − 𝑓 .𝑝 (1 − 𝑝 )

𝑛 − 1

Lorsque l’on calcule une proportion P, on néglige le taux f (si n est grand),

l’intervalle de confiance d’une proportion devient:

𝐼𝐶 = 𝑝 − 1,96 ×𝑝 1 − 𝑝

𝑛 − 1 ; 𝑝 + 1,96 ×

𝑝 1 − 𝑝

𝑛 − 1

Le sondage aléatoire simple (SAS) Cas des proportions

Page 34: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 34

Sur les 500 élèves de M1 de l’Université d’Auvergne, on veut connaître la proportion P qui souhaitent

faire un Master à Clermont-Ferrand. Parmi les 150 élèves interrogés, 63 voudraient poursuivre.

1. Quel est l’estimateur de P?

2. Quel est sa précision? Quel est le nombre d’élèves souhaitant poursuivre en master avec un degré de

confiance de 95% estimé à partir de l’échantillon ?

Le sondage aléatoire simple (SAS) Exo 1

Page 35: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 35

On cherche à connaître la proportion de filles nées en 2012.

1. Quelle taille d’échantillon doit-on l’adopter à trois points près (et à 95% de degré de confiance),

dans le cas d’un sondage aléatoire simple ?

Le sondage aléatoire simple (SAS) Exo 2

Page 36: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 36

Le sondage aléatoire simple (SAS) Exo 3

Cinq salariés dans l’entreprise et on veut connaître leur salaire horaire moyen 𝑅 en interrogeant

que 2 individus au hasard. La situation (inconnue de l’enquêteur) est la suivante:

1. Compléter le tableau suivant :

2. L’estimateur est-il biaisé?

3. Quelle est la précision des estimateurs?

i Rj (en euros)

1 10

2 50

3 15

4 20

5 10

s p(s)𝑅 (𝑠) 𝑅 𝑠 − 𝑅 2

Page 37: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 37

Le sondage aléatoire simple ne nécessite aucune information auxiliaire.

Pas de problème si la population est homogène.

Si les valeurs d’une variable auxiliaire sont connues, nous pouvons presque toujours utiliser un plan

de sondage plus judicieux qu’un plan simple (ex: stratification)

Le sondage aléatoire simple (SAS) Problème du SAS

37

Page 38: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Le sondage stratifié

Partie 3

Page 39: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 39

Dans un SAS, toutes les combinaisons de n unités de l’échantillon parmi N éléments de la population U

ont la même probabilité.

Mais certains échantillons peuvent être indésirables

Exemple: Soit une population de 5 éléments, représentant la surface des appart en m2 des étudiants

de Master 1.

18, 20, 28, 50, 60

Parmi les échantillons à 2 unités, nous avons deux cas extrêmes:

(18,20) et (50,60)

qui se révèlent « mauvais » s’il s’agit d’estimer la moyenne: 𝑌 =18+20+28+50+60

5= 35,2

Il y a clairement un clivage entre « en coloc-seul » [ ou « riches-pauvres » ].

Le tirage « au hasard » peut nous conduire à n’interroger que ces personnes-là.

Enjeu: exclure les échantillons extrêmes pour améliorer la précision des estimateurs du SAS.

à taille égale, un estimateur est plus efficace dans une population homogène

Le sondage stratifié Principe et justification

39

Page 40: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 40

Idée: si les individus sont différents les uns des autres (par rapport à Y), on peut réaliser des groupes

homogènes au sein desquels on réalise des tirages.

Justification: les estimations obtenues au sein de chacun des groupes seront moins susceptibles de

dépendre du hasard.

Exemple: Estimation de la durée moyenne des tâches ménagères. On interroge 6 personnes.

Il est possible d’isoler les femmes des hommes; et de tirer 3 hommes et 3 femmes; plutôt que 6

personnes sans distinction de genre.

Fixer la composition de l’échantillon rend les résultats moins sensibles à l’aléa.

Justification mathématique avec la décomposition de la variance :

Variance Totale= Variance Intra-groupe + Variance Inter-groupe

Le but de la stratification est de constituer des groupes tels que la variance inter-groupe soit la plus

grande possible (=la variance intra-groupe la plus petite possible).

Règle de réalisation des groupes: tels que, vis-à-vis de la variable d’intérêt Y, les comportements

moyens au sein de chaque groupe soient les plus semblables possibles, et que les

comportements à l’extérieur des groupes soient les plus différents possible d’un groupe à

l’autre= les comportements à l’intérieur de chaque groupe soient les plus homogènes possibles, et

le plus hétérogène possible entre chaque groupe.

Le sondage stratifié Principe et justification

Page 41: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 41

On veut estimer le pourcentage d’élèves fumeurs dans un lycée. On a un échantillon de 200 élèves.

N=800, f=1/4 avec le SAS

Fluctuation d’échantillonnage!!

On sait que la consommation est différente selon les âges des lycéens.

Le sondage stratifié Exemple

NF

NF NF

NF

NF

NF

NF

NF

NF

NF F

F

F

F

F

F

F

F F

F

NF

NF NF

NF NF NF

F

NF

NF

NF

F

F

F

Page 42: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 42

n1=120 n2=80 n3=67

f1=33.3% f2=33.3% f3=33.3%

Puisqu’on sait qu’il y a plus de fumeurs en terminale= on peut surreprésenter les terminales

n1=65 n2=53 n3=120

f1=18% f2=22% f3=60%

Le sondage stratifié Exemple-suite

360

seconde 200

Terminale

240

première

Page 43: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 43

Les échantillons de ménages ou d’individus dans les enquêtes usuelles sont stratifiés par région * type

d’habitat (taille des communes).

Les échantillons d’entreprises sont stratifiés par secteur et par taille, exprimée en effectifs salariés ou

chiffre d’affaire,

Les échantillons d’exploitations agricoles sont stratifiés par tranche de surface

Les échantillons de jeunes sortis de l’enseignement supérieur sont stratifiés par discipline,

Indice des prix INSEE (critère géographique+ type de produits+ type de point de vente)

Enquêtes ménages

Région

Type d’aire: urbaine, semi-urbaine, rurale

Diplôme

Enquêtes entreprises:

Secteur d’activité

Taille de l’entreprise

Région

Le sondage stratifié Quelques exemples

Page 44: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 44

Exemple: Soit une population de 5 éléments, représentant la surface des appart en m2 des étudiants

de Master 1.

18, 20, 28, 50, 60

Supposons que l’on sache à priori que les 3 premiers individus vivent seuls et que les deux derniers sont

en coloc.

Nous décidons que l’échantillon de 2 individus doit être constitué d’un représentant de chaque

strate.

Les échantillons possibles dans ce cas sont au nombre de 6 (chacun des 3 individus de la première strate

pouvant être associé à l’un des 2 autres de la seconde strate).

Notons y1 et y2 les valeurs obtenues dans l’échantillon. On ne peut plus faire de moyenne arithmétique

simple car l’unité échantillonnée dans la première strate est désignée pour en représenter 3, celle de la

deuxième strate en vaut 2.

Il convient alors de pondérer chaque valeur yi par le poids de la strate dont la valeur yi est issue.

𝑦 𝑠 =3

5𝑦1 +2

5𝑦2

On vérifie bien que la moyenne des 6 sous-moyenne= 35.2, donc l’estimateur 𝑦 𝑠 a 𝑦 pour espérance = c’est

donc un estimateur sans biais.

Le sondage stratifié Retour à l’exemple

y1 18 18 20 20 28 28

y2 50 60 50 60 50 60

y s 30.8 34.8 32 36 36.8 40.8

Page 45: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 45

On remarque surtout que:

La plage des estimations est beaucoup plus resserrée autour de la cible que dans le cas d’un SAS car

Les valeurs extrêmes sont moins éloignées

L’écart-type est plus petit

Le sondage stratifié Retour à l’exemple

Page 46: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 46

1. La population étudiée N est partitionnée en h sous-populations N1, N2, ... , Nh, appelées

"strates".

2. De chaque strate, nous extrayons un échantillon aléatoire simple (sans remise).

3. L'échantillon est constitué de la réunion de h sous-échantillons choisis au hasard, un par

strate.

Le sondage stratifié Méthode générale

Page 47: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 47

Nous avons H strates de la population numérotées de 1 à H.

Au sein de chaque strate h:

Son effectif est égal à 𝑁ℎ

Son poids dans la population est égale à 𝑊ℎ =𝑁ℎ

𝑁

La moyenne estimée d’une variable d’intérêt Y est notée 𝑦 ℎ

𝑦 ℎ =1

𝑁ℎ 𝑦𝑖

𝑛ℎ

𝑖=1

La variance corrigée de la variable Y est égale à

𝑠ℎ2 =1

𝑁ℎ − 1 (𝑦𝑖 − 𝑦 ℎ)

2

𝑁ℎ

𝑘=1

Le sondage stratifié Notations

Page 48: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 48

On sépare la population en différentes strates, regroupant des individus autour d’une caractéristique

commune (pouvant avoir une influence sur les résultats de l’étude)

Chaque individu doit faire partie d’une seule et même strate

Rappels échantillonnage stratifié

Page 49: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 49

On détermine la proportion de chaque strate dans la population

Ex: N=40, n=8

Rappels échantillonnage stratifié

Page 50: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 50

Puis dans chaque strate, on échantillonne par un SAS:

…..

Rappels échantillonnage stratifié

Page 51: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 51

On s’intéresse à l’estimation de 𝑌 cad la moyenne de Y dans la population mère.

Soit H strates H1, H2, …………..Hh. On peut en donner l'expression suivante :

𝑌 = 𝑁𝐻𝑁𝑌ℎ

𝐻

ℎ=1

Avec N : taille de la population mère; Nh : taille de la strate H; Nh/N : proportion des individus dans la

strate H (leur poids); 𝑌ℎ: Moyenne simple de Y dans la strate H de la population mère

C’est la somme des moyennes pondérées de chaque strate

• le poids représentant l’importance de la strate en termes d’effectif dans la population.

On ne connais pas 𝑌ℎ mais on peux démontrer que 𝑦 ℎ l’estime sans biais. (selon le même principe que

pour l'échantillonnage aléatoire simple).

La moyenne simple issue de l’échantillon tiré dans la strate h donne une bonne estimation de la

vraie moyenne dans la vraie strate de la population mère.

Je peux donc exprimer un estimateur sans biais de 𝑌 noté:

𝑦 = 𝑁𝐻𝑁𝑦 ℎ

𝐻

ℎ=1

Avec 𝑦ℎ: moyenne simple issue de l’échantillon tiré dans la strate h.

Le sondage stratifié Estimateur de la moyenne totale

Page 52: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 52

Il nous reste à exprimer la précision de cet estimateur de la moyenne cad en connaître sa variance. Elle

s'écrit de la façon suivante :

𝑉 𝑦 = 𝑁ℎ𝑁. 1 − 𝑓ℎ .

𝑆ℎ2

𝑛ℎ

𝐻

ℎ=1

Avec 𝑁ℎ

𝑁: proportion des individus dans la « vraie » strate (leur poids) de la population mère,

𝑓ℎ, le taux de sondage dans la strate h (nh/Nh);

nh: taille de l’échantillon dans la strate h;

𝑆ℎ2: vraie valeur de la variance Y au sein de la strate H de la population mère.

On ne connaît pas 𝑆ℎ2, mais on peut l’estimer sur l’échantillon. On sait que 𝑠ℎ

2 estime sans biais 𝑆ℎ2. On peut

donc obtenir un estimateur sans biais de la variance de 𝑦 donné par:

𝑉 𝑦 = 𝑁ℎ𝑁. 1 − 𝑓ℎ .

𝑠ℎ2

𝑛ℎ

𝐻

ℎ=1

Avec 𝑠ℎ2: variance de y dans la strate h calculée dans l’échantillon ou variance intra-classe.

La précision de la moyenne ne dépend que de la variance intra-classe.

Le sondage stratifié Précision de l’estimateur

52

Page 53: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 53

Un société compte 10000 individus répartis en:

8000 agriculteurs

2000 cadres supérieurs

Nous nous intéressons au revenu moyen des membres de cette société.

Un sondage est réalisé portant sur 500 personnes répartis comme ceci:

400 agriculteurs

100 cadres supérieurs

On observe suite au sondage les caractéristiques suivantes:

Le sondage stratifié

Exemple

Strate 1 Strate 2

𝑁ℎ 8000 2000

𝑛ℎ 400 100

𝑦𝑠 124 267

𝑉 𝑦 100 85

Page 54: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 54

Estimation de 𝑌 = 𝑁𝐻

𝑁𝑌ℎ

𝐻ℎ=1 :

𝑌 =8000

10000× 124 +

2000

10000× 267 = 152,6

• Estimation de 𝑉 𝑦 = 𝑁ℎ

𝑁. 1 − 𝑓ℎ .

𝑠ℎ2

𝑛ℎ

𝐻ℎ=1 :

𝑉 𝑦 =8000

10000× 1 −400

8000×100

400+2000

10000× 1 −100

2000×85

100= 0,19 + 0,1615 = 0,3515

Le sondage stratifié

Exemple

Page 55: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 55

Dans cette section on suppose que les strates sont déjà constituées.

Il s’agit ici de savoir comment répartir une taille d’échantillon globale entre les différentes strates.

Allocation proportionnelle (ou sondage stratifié proportionnel):

• Quand on impose un taux de sondage

𝑓 =𝑛

𝑁=𝑛ℎ

𝑁ℎ= 𝑓ℎ pour h=1, .., H

• Identique pour toutes les strates: Le sondage devient alors à probabilité égale puisque la

probabilité de sélection d’un individu quelconque de la strate h vaut f.

On parle aussi d’un sondage auto-pondéré, puisque tous les individus de l’échantillon ont alors un poids

identique (=inverse du taux de sondage f commun à toutes les strates).

ex: dans un échantillon d’individus stratifié par genre, les hommes et les femmes figurent au prorata

de leur effectif dans la population étudiée.

ex2: dans la section précédente, nous avons considéré un échantillon proportionnel de la population

des « colocs » et des « solitaires».

Le sondage stratifié Allocation proportionnelle

Page 56: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 56

L’estimateur de la moyenne 𝑦 d’une population U est alors :

𝑦 =1

𝑛 𝑌𝑖

𝑛ℎ

𝑖=1

𝐻

ℎ=1

C’est donc la moyenne calculée sur l’échantillon qui estime la moyenne de la population.

Nous montrons, par calcul, que cet estimateur est sans biais.

La variance de l’estimateur 𝑉 𝑦 , dans le cas d’un sondage stratifié proportionnel devient alors :

𝑉 𝑦 = (1 − 𝑓)1

𝑛 𝑁ℎ𝑁𝑠²ℎ

𝐻

ℎ=1

idem: plus les strates sont homogènes (variance intra-strate faible), plus la stratification est efficace.

Avantage de l’allocation proportionnelle: ne dépend pas des Yi. On doit juste connaître le nh. Les gains

de précision par rapport au SAS sont donc assuré quelles que soient les Y.

Le sondage stratifié Allocation proportionnelle -Propriétés

Page 57: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 57

La répartition de Neyman, ou encore appelée la répartition optimale, consiste à respecter l’égalité :

𝑛ℎ = 𝑛 ×𝑁ℎ𝑆ℎ 𝑁ℎ𝑆ℎ𝐻ℎ=1

Plus une strate est hétérogène vis-à-vis de Y , plus nous utilisons un taux de sondage f faible= il faut

concentrer l’effort là où la diversité est la moins forte.

La théorie montre que cette répartition est celle qui fournit la variance la plus faible une fois les strates

déterminées.

Allocation proportionnelle versus optimale:

Perd en simplicité mais gains en précision.

L’application de la formule pour calculer la répartition de Neyman suppose connues a priori les

valeurs 𝑆ℎ . Ce peut être le cas à partir d’études antérieures au sondage, mais en général il n’en est pas

ainsi.

Le gain entre allocation proportionnelle et allocation optimale n’est substantiel (que si les dispersions

varient énormément d’une strate à l’autre). En pratique, utilisé quand le phénomène étudié a une

distribution très asymétrique.

Par contre, si ce phénomène a une distribution symétrique par rapport à sa moyenne, une allocation

proportionnelle fournit des résultats d’une qualité suffisante.

Le sondage stratifié Allocation optimale (ou de Neyman)

Page 58: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 58

Soit une population de 4 personnes pour lesquelles le caractère Y prend les valeurs suivantes :

y1=2 ; y2=3 ; y3=1, y4=6.

On tire des échantillons de taille 2.

1. Calculer la variance de l’estimateur de la moyenne dans le cas d’un sondage aléatoire simple (sans remise).

2. Une étude précédente affirme que les deux premiers individus font partis d’un même groupe. Calculer la

variance de l’estimateur de la moyenne dans le cas d’un sondage stratifié pour avec les strates U1={y1,y2}

et U2={y3,y4}

Quelle méthode vaut-il mieux préconiser ? Justifiez.

Le sondage stratifié

Exercice 1

Page 59: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 59

On cherche à estimer le poids moyen de la population européenne.

On possède des informations sur la proportion de personnes selon leur indice de masse corporelle

(IMC). La population est divisée en trois strates IMC faible, normal et élevé. On tire un échantillon par

SAS pour chacune des strates et on obtient les résultats suivants :

1. Calculez l’estimateur stratifié de la moyenne dans la population européenne de la variable « poids

moyen ».

2. Cet estimateur peut-il être différent de celui d’une moyenne simple ?

3. Cinq ans plus tard, on suppose que la dispersion dans le poids moyen n’a pas bougé. On se propose de

vérifier cela en tirant un échantillon de 100 personnes sans remise. Quelle est la variance de l’estimateur

du poids moyen avec un sondage stratifié proportionnel?

4. Même question avec un sondage stratifié optimal pour lequel n1=50, n2=35 et n3=15

Le sondage stratifié

Exercice 2

IMC faible

IMC normale

IMC élevé

Pondération de la strate 0,3 0,5 0,2

Moyenne de l'échantillon en strate h 60 87 113

Vraie dispersion des poids en strate h 10 17 35

Page 60: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 60

Utilisation justifiée si

la population est très hétérogène

L’objet d’étude est une partie de cette population

• Plutôt que de considérer cette sous-population comme un simple domaine sur lequel on ne

peut pas contrôler la taille de l’échantillon, on peut la faire coïncider avec une strate, et

procéder dans cette strate à un SAS avec une taille d’échantillon importante.

• L'existence d'une stratification de fait, soit pour des raisons géographiques, soit pour des

raisons administratives.

Pas de coûts supplémentaires, à l’exception de coûts d’étude pour constituer les strates (négligeable). Cela

conduit même souvent une réduction des coûts d’enquête ou une optimisation de la gestion de l’enquête:

ex: découpage selon la région

critère sectoriel qui permet de spécialiser les enquêteurs

Le sondage stratifié Comparaison avec le SAS

Page 61: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 61

On a 3 problèmes difficiles à résoudre :

1. Quelles variables de stratification utiliser ?

La meilleure variable est la plus discriminante cad celle qui permet de constituer des groupes

homogènes en intra, du point de vue de Y.

En pratique, on cherche une variable X (âge, sexe), très corrélée à Y, de façon à ce que des groupes

homogènes par rapport à X soient également homogènes par rapport à Y. Sinon résultats à peine

meilleurs (voire pires) que dans l'échantillon aléatoire simple

2. Nombre de strates

Intuitivement, on peut penser que le nombre de strate doit être le + grand possible parce qu'il est +

facile de constituer des groupes homogènes.

En réalité on est vite limité car l’augmentation trop grande du nombre de strates fait diminuer la

précision des estimateurs (cad fait augmenter 𝑉 𝑦 car la taille de l’échantillon dans chaque strate

sera petit et les estimations des 𝑠ℎ2 seront peu précises (en pratique il faut au moins 20 observations

par strate).

Le sondage stratifié Le problème de la constitution des strates

Page 62: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 62

3. Les limites des strates (pour les variables quantitatives)

C’est la question la plus délicate. Le traitement mathématique est très compliqué et la solution est le

+ souvent qualitative, dictée par des considérations et connaissances sur le domaine étudié.

Dans la pratique, ce sont souvent des variables qualitatives qui servent à la stratification : sexe, CSP,

diplôme etc.

Deux types de considérations vont conduire au choix des critères de stratification :

1. disponibilité des critères dans la base de sondage ;

2. pertinence des différents critères pour créer des strates homogènes. Ceci nécessite une

connaissance soit intuitive, soit venant d’études réalisées antérieurement.

Le sondage stratifié Le problème de la constitution des strates-suite

Page 63: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 63

Le sondage stratifié est basé sur le principe de :

forcer le hasard

imposer à l’échantillon de représenter la population strate par strate.

Une stratification peut être :

très efficace pour l’étude d’un phénomène, par exemple la mortalité,

très peu efficace pour l’étude d’autres phénomènes, par exemple l’activité économique.

Cette situation se présente avec une acuité particulière lorsqu’un échantillon est destiné à des études

à objectifs multiples.

Plus nous multiplions les strates, plus le gain d’efficacité devient faible.

De plus, les résultats calculés au niveau de chaque strate ne sont plus significatifs en raison de la petite

taille de l’échantillon

Le sondage stratifié En résumé

Page 64: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Sondages à plusieurs degrés

Partie 4

Page 65: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 65

Le sondage aléatoire simple présente 2 inconvénients majeurs :

lorsque chaque individu tiré est associé à un coût de déplacement pour pouvoir réaliser l’interview,

la dispersion géographique des individus amène à un coût prohibitif de l’enquête.

implique l'utilisation de bases de sondage étendues (par ex toute la population française) pas

forcément disponibles et lourdes à gérer.

Pour contourner ces difficultés on utilise le sondage à plusieurs degrés qui fonctionne ainsi :

On constitue une partition de la population en groupes d’individus disjoints (ex: population de

chaque département) et dont la réunion constitue la population entière. Chaque groupe est une

« unité d’échantillonnage » ou encore « unités primaires » notées UP.

On effectue un premier tirage aléatoire simple dans ces UP.

Chaque unité primaire sélectionnée est divisée en unités secondaires US. On peut effectuer un

second tirage au hasard dans chaque unité primaire, pour obtenir les unités secondaires, etc… On

peut renouveler le processus autant de fois que nécessaire.

Il s’agit donc d’une succession de regroupements des unités statistiques pour tirer l’échantillon.

Exemple d’échantillons à deux degrés:

On tire un échantillon de villes.

Puis on tire, parmi les villes sondées, un échantillon de ménages.

On peut bien sûr généraliser à 3 degrés, à 4 degrés, . . .

Sondage à plusieurs degrés Justification et principes

Page 66: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 66

1er degré

Unités premières

2ème degré

Unités secondaires

Individus

Sondage à plusieurs degrés Principes

Page 67: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 67

Attention à l’utilisation du nom “sondage par grappes”. Cette expression doit être réservée au cas

particulier du sondage à plusieurs degrés où l’ensemble des unités au dernier degré de tirage est enquêté.

Quand utiliser ce type de sondage?

Exemple:

On veut étudier 2 000 ménages en France (27 millions de ménages, 36000 communes).

Même si on dispose d’une bonne base de sondage (liste des villes avec une estimation de leur

population), élaborer une liste des ménages au niveau national en visitant chaque ville serait une

tâche gigantesque.

En plus, les ménages de l’échantillon seraient géographiquement extrêmement dispersés.

D’où un temps énorme perdu en déplacements. (coûts de l’enquête prohibitifs).

Sondage à plusieurs degrés Justifications

Page 68: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 68

Cette méthode a 3 grands avantages :

permet une exécution rapide et moins coûteuse de l'enquête car le principe du tirage en cascade

focalise les interviews sur une zone géographique.

on peut plus facilement constituer une bonne base de sondage sur des unités géographiques

restreintes (par ex, recenser le nombre de ménages dans les communes plutôt que sur toute la

France)=base de sondage partielle.

Permet de constituer un réseau fixe d’enquêteurs sur place

Globalement, on réalise des économies de temps, de frais de déplacement (au niveau du travail des

enquêteurs).

Sondage à plusieurs degrés Avantages

Page 69: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 69

La contrepartie est que ce type de sondage est moins précis que le sondage aléatoire simple.

Le mécanisme qui forme le cœur de cette imprécision est le suivant :

• dans la grande majorité des cas, les individus qui forment les UP ont de fortes chances d’être

semblables par rapport à la variable d’intérêt Y: on parle alors d’effet de grappe.

• Le tirage au second degré perd de sa « représentativité » car il consiste, en caricaturant, à

recueillir plusieurs fois la même information auprès des individus de l’unité primaire.

– Il y a une sorte de redondance d’information au sein des unités constituées à chaque

degré.

• On montre que la majeure partie de la variance des estimateurs dans le cas des tirages à

plusieurs degrés provient souvent du premier degré de tirage.

Sondage à plusieurs degrés Inconvénients

Page 70: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 70

Sondage à plusieurs degrés

Les limites

Page 71: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 71

Sondage à plusieurs degrés

Les limites

Page 72: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 72

La pratique des sondages à plusieurs degrés est très largement répandue.

Elle est motivée par

la nature des données à recueillir,

des considérations de coût ou de faisabilité,

la mauvaise qualité ou l’inexistence des bases de sondage.

Premier exemple : Études médicales.

Certaines études sont réalisées auprès d’échantillons de médecins qui sont considérés, pour

l’enquête, comme des grappes de patients (donnent tout ou une partie de leur patientèle, effet de

grappe médecin) ou de prescriptions.

Des recherches effectuées pour analyser l’évolution du SIDA et, plus généralement, des MST, ont

été basées sur des laboratoires d’analyses médicales, grappes d’actes et analyses.

Autre exemple : Sondages électoraux.

On connaît les estimations établies par les instituts de sondage, les soirs de consultations électorales.

Il s’agit généralement de sondages “sortie des urnes” réalisés auprès d’électeurs à la sortie de

bureaux de vote.

Il s’agit de sondages à deux degrés, le premier degré consistant à choisir les bureaux de vote où

opéreront les enquêteurs.

Sondage à plusieurs degrés Exemples

Page 73: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 73

Pour simplifier, on se place essentiellement dans le cas du sondage à 2 degrés, et de tirage aléatoire

simple au sein de chaque degré.

On utilisera les notations suivantes :

Les N unités de la population sont réparties en M sous-ensembles, appelés Unités primaires (UP) :

N dans la population ( = 1, . . . , N)

M dans l’unité primaire ( = 1, . . . , M)

Chaque UPi contient Ni unités de la population, appelées Unités secondaires (US) :

m dans l’échantillon pour l’unité secondaire (j = 1, . . . , m).

Lors d’un sondage par grappes, on prend un échantillon de m UP, l’USi de l’échantillon étant

totalement enquêtée (cas particulier).

n tirées dans l’échantillon (i = 1, . . . , n).

Sondage à plusieurs degrés Notations

Page 74: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 74

• N= taille pop mère

• M=taille unités primaires

• m=taille échantillon unité primaire

• ni=taille échantillon unité secondaire

Estimateurs de la moyenne:

𝑌𝜋 =1

𝑁 𝑛𝑖𝑌𝑖

𝑚𝑀 =𝑀

𝑁𝑚 𝑛𝑖𝑌𝑖

𝑖𝜖𝑠𝑖𝜖𝑠

Il s’agit de la moyenne des échantillons, pondérées par le taux de sondage des unités primaires =(m/M) et

secondaires (ni/N)

Précision de la moyenne:

𝑣𝑎𝑟 𝑌𝜋 =𝑀 −𝑚

𝑚 − 1.𝑀

𝑚. 𝑌𝑖 𝑛𝑖𝑁−𝑌𝜋

𝑀

2

𝑖∈𝑠

On a une expression

qui fait apparaître des termes du type (1-taux de sondage) dans les unités primaires et (1-taux de

sondage) dans les unités secondaires (ni/Ni).

Une dispersion des totaux au niveau considéré divisé par les tailles d’échantillon

Sondage à plusieurs degrés Estimateurs de la moyenne (Horvitz-Thompson)

Page 75: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 75

Sur les bords de plages de Bali on compte 45 villages, chacun de taille variable.

On cherche à estimer le nombre moyen de chambre d’hôtels sur l’île. Pour cela, on sélectionne 3 villages

par sondage aléatoire simple sans remise, et on interroge tous les hôtels qui y résident. On sait, en outre

que 10000 chambres sont disponible dans l’île. Les résultats de l’enquête sont les suivants :

1. Estimer le nombre moyen de chambres dans l’île.

2. Estimer la variance de l’estimateur de la moyenne.

Sondage à plusieurs degrés Exercice 1

Numéro du village Nombre d'hôtels dans le village Nombre total de chambres dans le village

1 160 1500

2 80 3000

3 40 1200

Page 76: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 76

1. Estimer le nombre moyen de chambres dans l’île.

Il s’agit d’un sondage par grappes où les grappes sont sélectionnées à probabilités égales avec M=45,

m=3 et N=10000

On note s l’échantillon par grappes tirées.

L’estimateur retenu :

𝑌𝜋 =𝑀

𝑁𝑚 𝑛𝑖𝑌𝑖

𝑖𝜖𝑠

𝑌𝜋 =

45

10000 × 31500 + 3000 + 1200 = 8.55

Sondage à plusieurs degrés Exercice 1 - correction

Page 77: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 77

2. Estimer la variance de l’estimateur de la moyenne.

𝑣𝑎𝑟 𝑌𝜋 =𝑀 −𝑚

𝑚 − 1.𝑀

𝑚. 𝑌𝑖 𝑛𝑖𝑁−𝑌𝜋

𝑀

2

𝑖∈𝑠

𝑣𝑎𝑟 𝑌𝜋 =45 − 3

3 − 1×45

3×1500

10000−8.55

45

2

+3000

10000−8.55

45

2

+1200

10000−8.55

45

2

= 5.859

Sondage à plusieurs degrés Exercice 1 - correction

Page 78: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 78

Rappelons que l'objectif est d'obtenir une petite valeur de la variance de 𝑡 .

Première règle pour l’échantillonnage que permet l’analyse de la variance :

si on augmente m (taille de l'échantillon des UP) sans toucher aux ni (taille de l'échantillon des US)

on diminue à la fois A (numérateur) et B (dénominateur).

Si on augmente que ni sans toucher à m, on ne diminue que B.

• Autrement dit, à taille d’échantillon globale fixée il est presque toujours préférable de choisir m

maximum et ni minimum.

• Toutefois, la marge de manœuvre peut se trouver réduite par les contraintes budgétaires (il est

plus coûteux d’enquêter un nombre élevé d’UP).

Sondage à plusieurs degrés Précision

Page 79: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 79

Second élément que l'on peut considérer : 𝑠12 et 𝑠22.

On sait que la variance totale d’une variable donnée est égale à la somme de 2 variances 𝑠 = 𝑠12 + 𝑠22

𝑠12 : dispersion entre les UPi (variance inter-classe)

𝑠22: dispersion à l’intérieur des UPi (variance intra-classe)

s est une grandeur fixe, si 1 élément est petit, l’autre est grand. Il me faut donc choisir laquelle de ces 2

variances est la plus explosive et que je dois impérativement minimiser pour avoir une variance totale

faible.

Dans la plupart des populations courantes et pour la plupart des variables traitées la dispersion des

totaux 𝑠12 entre les différentes UP est le terme qui peut facilement prendre des valeurs numériques

élevées. Elle doit être contrôlée en priorité.

Pour que cette valeur soit petite il faut que les totaux de la variable Y dans les différentes UP soient

proches.

Trois règles d'échantillonnage pour cela :

Des UP de taille faible

Des UP de taille voisine. Par exemple vous pouvez avoir des tailles de population très différentes

dans les départements.

Des UP de comportement moyen semblable.

Sondage à plusieurs degrés Précision

Page 80: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 80

L’échantillon aréolaire n’est pas issu directement d’un tirage d’individus ou de ménages dans une liste

mais d’un tirage d’aires géographiques dans lesquelles on interrogera tous les individus ou ménages

présents.

Il faut donc fabriquer des « unités de tirage » destinées à être échantillonnées.

Pour ce faire il faudrait découper l’ensemble du territoire en aires de taille équivalente.

Sondage aréolaire : un cas particulier de l’échantillon à plusieurs degrés Principe

Page 81: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 81

Sondage aréolaire : un cas particulier de l’échantillon à plusieurs degrés

Principe

Page 82: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 82

Etape 1: constitution de l’échantillon des UP

à partir de découpages géographiques existants (régions, départements, communes, etc).

Caractéristiques à respecter :

• ne pas être trop grandes, pour que la charge de découpage à l’intérieur de ces unités ne soit pas

trop lourde ;

• à l’inverse, ne pas être trop petites, pour que l’on puisse y trouver au moins autant d’aires

secondaires que l’on en a besoin.

Etape 2: Découpage des unités primaires en unités secondaires et tirage des US

Une US est délimitée par des éléments facilement repérables visuellement : des rues, des routes, des

voies ferrées, des cours d’eau, etc. L'US correspond non pas à des critères administratifs mais à un

critère physique (bâtiment, rue, pâté de maison, quartier).

Une fois le découpage en US réalisé, un tirage des US est effectué

A l’intérieur des US, toutes les unités d’échantillonnage de base (logements, écoles, entreprises etc)

font partie de l’échantillon et sont donc interviewées.

Type de sondage très utilisé dans les PVD et par les démographes notamment

Sondage aréolaire : un cas particulier de l’échantillon à plusieurs degrés

Etapes

Page 83: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 83

L’échantillon aréolaire présente les mêmes avantages que l’échantillon à plusieurs degrés:

L’absence de base de sondage complète et à jour y compris au dernier niveau.

la plus grande concentration géographique des interviews permet un gain de temps et de coût pour

la collecte, qui rend possible la réalisation d’une enquête de grande ampleur ;

Il a des avantages spécifiques

l’obtention d’un meilleur taux de réponse que dans les enquêtes où les unités d’échantillonnage ne

sont pas tirées par grappes. On observe en général un effet d’entraînement positif entre les ménages

d’une même aire. L’effet d’entraînement négatif est beaucoup plus rare ;

le ratissage du territoire exhaustif de l’aire facilite le repérage des unités « marginales » et devrait

éviter la sous-estimation de certaines catégories de personnes.

En contrepartie, l'échantillon aréolaire présente quelques inconvénients :

La construction de la base de sondage aréolaire demande un long travail de préparation. Le

découpage représente un travail lourd et coûteux s’il ne suit pas des divisions administratives

existantes.

il faut être sûr de pouvoir découper des aires ayant des densités de population (ménage, écoles,

entreprises) équivalentes pour éviter la sur-représentation de certaines zones.

Sondage aréolaire Avantages et inconvénients

Page 84: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 84

Le phénomène d’effet de grappe fait qu’à nombre d’individus égal, un sondage à plusieurs degrés est

moins précis qu’un SAS.

Il reste que la concentration des observations est un facteur de réduction des coûts (ex: déplacement des

enquêteurs).

Enfin, il n’y a souvent pas d’autres solutions lorsque la base de sondage est défaillante.

C’est la situation la plus fréquente dans le domaine d’études auprès des ménages ou d’individus:

Etudes de comportement,

Etudes de marché

Etudes d’opinion,

Mesures d’audience, etc

Exemples: Etudes de satisfaction des passagers de compagnies aérienne : stratification selon le type de

vol (les périodes, les horaires sont plus ou moins loisir vs business) et les faisceaux (Asie, Europe, …)

Une fois cette stratification opérée, les vols sont des grappes de passagers.

Etudes de marché: en général, stratification région x catégorie d’agglomération puis tirage des unités

secondaires (iris/ilot, …) proportionnel à la taille. Les instituts privés font à la différence de l’INSEE (du

fait de l’absence de base de sondage) la dernière étape par quotas : de 10 personnes par ‘point de chute’

À partir d’une feuille de quotas.

Combinaison de plans de sondage Grappes + Stratification

Page 85: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 85

Pour avoir une dispersion inter-grappes la plus petite possible:

il faut un grand nombre de grappes dont les moyennes sont peu différentes les unes des autres

= on voudrait que chaque grappe constitue une ‘mini population’

contredit la notion même de grappe!

Utilisation des strates pour approcher cette condition:

les strates doivent être les plus contrastées possible pour bien prendre en compte la variabilité du

phénomène étudié.

Mais à l’intérieur d’une strate, les grappes doivent se ressembler le plus possible.

• La répartition de l’échantillon dans les strates doit aussi intégrer la variabilité interne aux strates

: si dans une strate, les grappes sont très ressemblantes, on pourra en sélectionner moins que

dans les strates où les grappes sont plus différentes les unes des autres

Combinaison de plans de sondage Grappes + Stratification

Page 86: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Méthodes empiriques

Partie 5

Page 87: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 87

Le point de départ :

toutes les méthodes d’échantillonnage aléatoire supposent l’existence d’une base de sondage à

partir de laquelle on tire aléatoirement (mais avec probabilité connue) un échantillon sans

biais dont la taille a été déterminée à la suite de considérations sur le niveau de précision souhaité.

Or, pour la majorité des enquêtes d’opinion comme des études de marché on ne dispose pas de

base de sondage.

Le but recherché : il s’agit de se rapprocher le plus possible d’un tirage rigoureusement

aléatoire.

Méthodes empiriques

Introduction

Page 88: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 88

Les sondages empiriques s’opposent aux sondages probabilistes en ce sens qu’il n’est plus possible de

déterminer a priori quelle est la probabilité qu’a chaque individu d’appartenir à l’échantillon.

Utilisés lorsqu’il y a par exemple une absence de base de sondage.

La consigne: laisser à l’enquêteur le choix des personnes interrogées.

Les p(s) sont donc inconnues du statisticien.

Le but: se rapprocher au maximum d’un tirage rigoureusement aléatoire.

Mais plus rapide et moins cher.

Les sondages probabilistes sont par nature « objectifs » (en moyenne) dans leur mode de sélection.

Deux types de sondage empiriques:

La méthode des unités-types

La méthode des quotas

Méthodes empiriques Introduction

Page 89: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 89

C’est la plus empirique des méthodes. Elle consiste à choisir un individu « moyen » que l’on déclare

représentatif d’un groupe d’individus possédant les mêmes caractéristiques.

On fait en sorte que la structure de l’échantillon soit exactement la structure de la population entière

selon certains critères préalablement établis.

On divise la population en un certain nombre de sous-ensembles relativement homogènes sur une

caractéristique, (âge, niveau de revenu, taille de l'exploitation) et on représente chacun d'eux par une

unité-type: individus-types, exploitations agricoles-types, cantons-types, bureau de vote pilotes.

L'observation des unités types est censée donner une bonne image de chaque sous-ensemble ainsi que de

l'ensemble de la population.

Sa validité repose sur un pari audacieux. Un individu semblable à l’individu moyen selon le caractère qui a

servi à définir cet individu moyen (par ex., l’âge) sera également semblable à l’individu moyen pour tous

les autres caractères (tous les individus du même âge se comportent de la même façon) = on a une

photo-représentation de la réalité.

Méthodes des unités-types Présentation

Page 90: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 90

Inconvénient:

Aucun calcul de biais ou de précision n’est possible ici: l’échantillon est choisi, on ne peut donc plus

concevoir la notion de variabilité d’un estimateur que l’on calculerait avec d’autres échantillons.

Avantage:

Simplicité de détermination de l’échantillon

Digne d’intérêt lorsqu’il s’agit de sélectionner de tout petits échantillons (quelques unités).

• Avec une méthode aléatoire on va risqué d’obtenir un échantillon très déséquilibré, autrement

dit une estimation très éloignée de la vraie valeur.

• Dans ces circonstances, effectuer un choix raisonné d’individus permet d’éviter les

catastrophes si on prend soin de préjuger correctement des relations entre variables d’intérêt et

variables auxiliaires.

Méthodes des unités types

Avantages et inconvénients

Page 91: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 91

La plus fréquemment utilisée.

On fait en sorte que la structure de l’échantillon soit exactement la structure de la population entière

selon certains critères préalablement choisis.

Ex: on sait que la population est constituée de 45% d’hommes et de 55% de femmes.

Elle consiste à établir des quotas de personnes à enquêter selon les mêmes caractéristiques et les mêmes

proportions que l’ensemble de la population à étudier.

Une fois les quotas déterminés, l'enquêteur prélève librement son échantillon, à condition de respecter la

composition donnée à l'avance.

Le principe de l’inférence statistique est remplacé par l’hypothèse que l’échantillon constitue une photo

réduction de la population.

L’estimateur d’une moyenne 𝑌 est égale à la moyenne de l’échantillon 𝑦 .

Méthodes des quotas Présentation

Page 92: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 92

Méthodes des quotas Exemple

Page 93: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 93

La recherche peut être d’autant plus longue que l’on approche de la fin de la feuille : la dernière personne

est déterminée de manière unique par les modalités restantes

Tout le métier de l’enquêteur consiste à ne pas se faire piéger et réaliser correctement ses «fin de

quotas»

Définir des quotas revient à définir une stratification multiple sur la population. La différence

avec l’échantillon probabiliste est qu’au lieu de tirer les unités de sondage on laisse à l’enquêteur le

soin de les trouver lui-même au hasard de ses pérégrinations (cela prend un sens un peu différent en

face à face et au téléphone).

Le biais est créé par les conditions mêmes du travail de l’enquêteur

Aux différentes heures de la journée, les différentes catégories de population présentent des

probabilités différentes et inconnues d’être touchées par l’enquêteur

La probabilité d’être touché varie également avec l’accessibilité des personnes à interroger :

digicodes à l’entrée des immeubles en face à face, numéros sur liste rouge au téléphone …

Méthodes des quotas Biais

Page 94: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 94

1. La première difficulté vient de l’absence fréquente d’information concernant les effectifs

correspondant au croisement des variables de quota:

Les variables de quotas doivent satisfaire un certain nombre de conditions

• avoir une distribution statistique connue dans l’ensemble de la population (puisqu'on définit les

quotas en fonction de cette distribution).

• Avoir une distribution connue au niveau géographique le plus fin possible (problème

éparpillement spatial des interviews)

• Etre aisément identifiables en termes de recherche sur le terrain et de validation en début

d’interview : pour savoir dans quelle « case » on doit compter l’individu interrogé, il faut

connaître la valeur des variables de quota pour cet individu.

• Pas trop nombreuses: il existe certaines limites au-delà desquelles les catégories détaillées ne

reçoivent plus que quelques rares individus. Le traitement statistique devient alors non

significatif.

2. les quotas doivent être choisis judicieusement (bais de sélection):

• Pertinents et fortement corrélé avec la variable d’intérêt. La méthode n'est acceptable que si on

a tenu compte dans les critères de quota de toutes les variables explicatives du comportement

Y.

• On doit donc supposer que les valeurs de la variable d'intérêt ne sont expliquées que par les

variables de quotas, et qu'il n'y a plus de "critère caché" non pris en compte qui pourrait les

influencer.

Méthodes des quotas Conditions de fiabilité

Page 95: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 95

3. L’inconvénient majeur de la méthode des quotas est de ne pas permettre de calculer

scientifiquement l'erreur d'échantillonnage.

La probabilité qu’a un individu de la population d’appartenir à l’échantillon est inconnue : il est alors

impossible d’évaluer la variance d’échantillonnage et donc de mesurer la précision des estimations

Deux réactions possibles :

• De nombreux auteurs considèrent que cette méthode est inutilisable.

• D’autres auteurs, faute de mieux, adoptent l’hypothèse d’un tirage à probabilités égales;

hypothèse qui n’est, vraisemblablement, jamais vérifiée.

Mais de toutes les manières:

• les estimateurs employés sont biaisés;

• les calculs de taille d’échantillon que l’on réalise en employant les formules du sondage à

probabilités égales ne peuvent être que des approximations plus ou moins grossières;

• le plan de sondage doit être accompagné d’une série de consignes données à l’enquêteur visant

à la fois à :

– réduire le biais d’observation;

– se rapprocher le plus possible des conditions de tirage à probabilités égales

Méthodes des quotas Conditions de fiabilité

Page 96: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 96

4. Le contrôle du processus d'enquête est plus difficile.

Pas de coordonnées précises des personnes interrogées. On ne peut pas retrouver les interviewés

comme avec une méthode probabiliste (où on connaît d'avance, par définition les identifiants

complets des unités à sonder).

II est donc plus difficile de s'assurer du bon travail de l'enquêteur par un contrôle a posteriori

auprès des enquêtés.

Impossible de corriger les non réponses.

Méthodes des quotas Conditions de fiabilité

Page 97: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 97

Plus facile et plus rapide que les méthodes aléatoires

L'enquêteur demeure relativement libre de ses choix. En cas de refus ou d’impossibilité de contacter

une personne, il est possible de la remplacer par une autre qui a les mêmes caractéristiques socio-

démographiques. Cela permet de réaliser un sondage dans des délais plus courts avec des économies

de recherche et de déplacement souvent très importantes.

Avec l’aléatoire, les sondés ne sont pas ' interchangeables '. Cela signifie que la personne tirée au sort

doit être recontactée autant de fois que nécessaire.

"Supprime" en apparence le problème des non-réponses.

En première apparence, la non-réponse disparaît puisqu'on peut substituer les individus. Si un

individu refuse de participer ou s’il est absent de son domicile, l’interviewer ira voir un autre

individu car il a à combler son quota (si dupont ne veut pas répondre, j'interroge durand).

II ne s'agit évidemment que d'un leurre, car le biais dû à la non-réponse subsiste toujours. Ce biais

est dû au fait qu'il existe bien une sous-population à laquelle on n’a pas accès. Ainsi, il y a un sérieux

risque de ne jamais rejoindre certaines catégories de la population ayant de la réticence à répondre

ou difficile à joindre. Or ces personnes ont des caractéristiques particulières (niveau d'étude

notamment). Biais de non réponse caché.

Argument pour: Ce n’est pas parce que l’on ne connaît pas la précision d’une estimation que cette

estimation est mauvaise

de façon empirique nous avons d’innombrables exemples de résultats issus d’échantillons par quotas

fort comparables à ceux fournis par des échantillons aléatoires

Méthodes des quotas Avantages

Page 98: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Quelle procédure d’échantillonnage choisir?

Conclusion

Page 99: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 99

But: sélectionner un échantillonnage optimal qui représente la population cible et autorise les chercheurs

à effectuer de bonnes inférences .

1. Analyse transversale (cross-section) ou en panel?

Suivant l’objet d’étude, la décision entre les deux n’est pas si évidente que ça.

Cette décision affectera tous les éléments de l’enquête (coût, degré d’effort, rapidité de l’analyse).

Analyse transversale:

Avantages:

puisque les données sont collectées à seulement un point dans le temps, la recherche d’un

échantillonnage optimal est facilité.

Les changements dans la population cible sont plus faciles à gérer.

Les taux de non-réponses sont plus faibles (plus facile de convaincre les gens de se faire interroger

qu’une seule fois).

Inconvénient:

Les développements ou changements temporels au niveau individuel ne peut pas être mesurés.

Choisir un échantillonnage Cross-section versus panel

Page 100: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 100

Panel (fixed panel, fixed panel plus borth, repeated panel, rotating panel, plit panel)

Avantages:

capture les changements: améliore les statistiques

Inconvénients:

L’échantillonnage adapté en t peut devenir obsolète en t+1

Changements dans la population cible

Coût initial (analyses préparatoires, effort de planification)

Difficultés pour convaincre les participants.

A chaque nouvelle vague, l’attrition augmente. Sauf s’il y a un rafraichissement de la population

La formulation des questions (et les options de réponses) doit être comparable à travers le temps.

Exemple de panel réussi: DHS, European Social Survey

Choisir un échantillonnage Cross-section versus panel

Page 101: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 101

Définir la population cible aussi clairement que possible

Exemple: toutes les personnes ayant plus de 18 ans qui dorment la plupart du temps dans des unités

de ménages en Afrique du Sud, au Zimbabwe au cours d’Avril 2007.

Cette définition suppose encore de définir clairement les termes « ménages » et « la plupart du

temps ».

Potentiel du critère d’inclusion/exclusion:

Exclure les personnes:

• au-delà d’une certaine tranche d’âge

• Personnes dans les institutions

• Personnes vivant dans des régions isolées

• Non-citoyens, les minorités ethniques, les SDF, les populations nomades, etc…

Cette définition doit également prendre en compte le budget, la sécurité ou les restrictions d’accès à

certains éléments de la population cible.

Si l’enquête doit se dérouler sur plusieurs pays: s’assurer que la définition de la population cible soit

comparable et applicable à tous les pays.

Choisir un échantillonnage Définir la population cible

Page 102: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 102

The Afrobarometer:

Research project that measures the social, political, and economic atmosphere in Africa.

Conducted in more than a dozen African countries and are repeated on a regular cycle.

Participants had to be citizens of their country and of voting age the day of the survey.

Areas of armed conflict or natural disasters, national parks and game reserves, and people living in

institutionalized settings were excluded. Special cases, like areas of political unrest, were reviewed on

a case-by-case basis

The Survey of Health, Ageing and Retirement in Europe (SHARE)

Health, socio-economic status and social and family networks of individuals, aged 50 or over, in

countries ranging from Scandinavia (Denmark, Sweden) through Central Europe (Austria, France,

Germany, Switzerland, Belgium, the Netherlands, the Czech Republic, Poland) to the Mediterranean

(Spain, Italy, Greece, Israel), as well as Ireland.

In addition to the age requirement, respondents are residents and their partners (independent of

partner age) who speak the official language.

The study excludes seasonal or vacationing residents, persons physically or mentally unable to

participate, those who died before the start of the field period, or who are unable to speak the

specific language of the national questionnaire. It also excludes residents of institutions, except

facilities for the elderly

Choisir un échantillonnage Définir la population cible-Exemple

Page 103: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 103

Idéalement le plan de sondage permet de couvrir tous les éléments de la population cible.

Dans la pratique, on choisit le plan qui permet d’inclure le plus d’éléments possible (ou dans exclure le

moins possibles) compte tenu des contraintes de budget.

Procédure:

1. Identifier une liste préexistante d’éléments ou de cluster afin de constituer une bonne base de sondage:

Souvent moins cher d’acheter une base de données déjà existantes

Même après deux ans, considérée comme obsolète

Choisir un échantillonnage Quel plan de sondage?

Page 104: Chapitre 2 Echantillonnage - WordPress.com · 2019. 7. 10. · Chapitre 2 Delphine Boutin delphine.boutin@udamail.fr . Techniques d’enquêtes 2Echantillonnage Deux grandes étapes

Techniques d’enquêtes Echantillonnage 104

Choisir un échantillonnage Quel plan de sondage? Résumé sur les plans de sondages, par rapport au SAS (Cf Ardilly p.257)

Plan de sondageRéalisation du tirage

et estimationPrécision coût terrrain

SAS = = =

Sondage stratifié/ allocation optimale - - + + + =

Sondage stratifié/ allocation proportionnelles - + =

Sondage à plusieurs de grés - - - +

Sondage en grappe - - - + +

Sondage par quotas - ? + +

2. « Tester » les différentes méthodes

3. Documenter chaque étape