les mÉthodes quantitatives

67
LES MÉTHODES QUANTITATIVES Séance 3

Upload: others

Post on 18-Jun-2022

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: LES MÉTHODES QUANTITATIVES

LES MÉTHODES QUANTITATIVESSéance 3

Page 2: LES MÉTHODES QUANTITATIVES

1. PEUT-ON FAIRE DES MATHEMATIQUES SUR TOUT ?

• Quand on sort du cercle du certain, précis et exact, on arrive dans une complexité. On ne peut plus faire des mathématiques et on doit faire de l’analyse sociale qualitative, ... .

• Mais on peut aussi utiliser les mathématiques pour mesurer le sentiment du temps qui passe.

Page 3: LES MÉTHODES QUANTITATIVES

1. PEUT-ON FAIRE DES MATHÉMATIQUES SUR TOUT ?

• Une analyse se fait en 4 étapes : • 1. Positionnement philosophique :

• Exemple : Qu’est-ce qui fait qu’on a le sentiment que le temps passe de plus en plus vite ?

• La première année de notre vie semble la plus longue car cela valait 100% de notre vie. Alors que notre 5ème année vaut 20% de notre vie, etc.

• 2. Lien avec un outil mathématique : On a une formule mathématique logarithmique avec k qui correspond à une constante pour la référence

• 3.Fabrication d’un modèle qui traduit les idées des points 1 ou 2 : Formule• 4. Philosophie sur le modèle : La moitié de la durée de vie ressentie déjà

écoulée à 10 ans.

Page 4: LES MÉTHODES QUANTITATIVES

1. PEUT-ON FAIRE DES MATHEMATIQUES SUR TOUT ?

• Moralité : C’est faux de dire qu’il y a un territoire pour les mathématiques et un autre pour le reste. Mais on peut aussi modéliser quelque chose en mathématiques alors que ce n’est pas modélisable mais cela peut donner n’importe quoi.

• Les méthodes quantitatives reposent sur le principe que tant que personne ne nous a contredits, notre théorie est correcte.

• On peut manipuler du qualitatif avec du quantitatif. • But de l’analyse multivariée : Trouver une organisation dans une masse

d’information.

Page 5: LES MÉTHODES QUANTITATIVES

2. RÉGRESSION SIMPLE

• La statistique peut prendre plusieurs formes. • 1. Fréquentielle : Statitisque connue avec échantillonnage et Loi des grands

nombres (min 30 individus) • 2. Bayésienne (probabilités conditionnelles) : Permet de traiter une probabilité.

Plutôt que de dire « j'ai observé x fois le phénomène donc cela va continuer », on va regarder le contexte. • Exemple : Si on traverse la route, on regarde le fait que l'on est en Suisse, que l'on

n’est jamais mort écrasé, qu'il y a des garages pour réparer les voitures, ... .• 3. Non linéaire (réseaux de neurones) : On essaie de créer de l'intelligence

artificielle. On cherche à faire réfléchir l'ordinateur et non à reproduire des actions prévues.

Page 6: LES MÉTHODES QUANTITATIVES

2. RÉGRESSION SIMPLE

• Statistique fréquentielle : • Population initiale => loi des grands nombres => échantillons => moyenne et

écart-type, ... . • Statistique descriptive : valeurs centrales (moyenne, mode, médiane) et de

dispersion (écart-type, quantiles) • Population et caractères : Il faut connaître la nature (qualitative ou

quantitative) des données

Page 7: LES MÉTHODES QUANTITATIVES

2. RÉGRESSION SIMPLE

• Régression linéaire : • Outil pour expliquer les données : On cherche une équation qui fait un lien entre

les variables • On a d’autres outils pour décrire les données : AFC, classification, ... • Recherche de droite qui s’ajuste le mieux possible au nuage de points sans

privilégier un caractère • Outil pour étudier la relation entre 2 caractères quantitatifs continus

Page 8: LES MÉTHODES QUANTITATIVES

2. RÉGRESSION SIMPLE

- D’abord on étudie la relation Y expliqué par X, puis on regarde l’inverse si cela a du sens.

Si les deux ont du sens, il faut regarder lequel en a le plus et tirer des conclusions de là.

Page 9: LES MÉTHODES QUANTITATIVES

2. RÉGRESSION SIMPLE

Page 10: LES MÉTHODES QUANTITATIVES

2. RÉGRESSION SIMPLE

•Moindrescarrés:Minimiserlasommedespluscourtesdistancesdetouslespointsàladroite.•Covariance:TendancegénéralequandXetYvarientensemble

•Pentea=COV(XY)/Variance(X):•Sia>0=>XetYonttendanceàvarierdanslemêmesens•Sia<0=>XetYonttendanceàvarierdanslesensopposé•Siaestprochede0,XetYsontindépendants

•Placerladroite:Ilfaut2points:(Moy(X);Moy(Y))et(0;b)

Page 11: LES MÉTHODES QUANTITATIVES

2. RÉGRESSION SIMPLE

Résidus : - Résidu : Différence entre un point de données en (Xi, Yi) et sa position estimée sur la droite en Xi. o Si X est expliqué par Y, on renverse le processus.

Page 12: LES MÉTHODES QUANTITATIVES

2. RÉGRESSION SIMPLERésidus : - L’étude de résidu permet de voir l’intervention d’autres

facteurs non pris en compte dans le modèle mais qui influencent la variable expliquée. Il faut donc essayer d’expliquer ces résidus. - Exemple : PIB en fonction du secteur tertiaire. Résidu

négatif pour la GB à cause du marché du travail libéral.

Résidu positif pour l’Allemagne à cause de l’industrie et résidu proche de 0 pour la France à cause d’une forte productivité mêlée à un fort taux de chômage. o On peut aussi cartographier les résidus pour mieux les comprendre.

Page 13: LES MÉTHODES QUANTITATIVES

2. RÉGRESSION SIMPLEIndicateur R2 : Indicateur de résidu entre 0 et 1. Cet indicateur permet de confirmer la tendance indiquée par la droite de régression linéaire.Quand pour une période donnée de régression linéaire, le R-carré est inférieur à un seuil critique, (voir la table ci-dessous) cela signifie qu'il n'y a aucune corrélation entre les cours et la droite de régression linéaire.

Méthode de Calcul

Un bon modèle est un modèle avec au moins R2 > 0.6

Page 14: LES MÉTHODES QUANTITATIVES

3-4-5. DÉCRIRE : ACP ET AFC

• Le but des analyses factorielles est de résumer de grands tableaux numériques en diminuant leur nombre de colonnes.

• ACP = Analyse en Composantes Principales : Résumé et synthèse de variables quantitatives

• AFC = Analyse Factorielle des Correspondances : Synthèse de variables qualitatives.

Page 15: LES MÉTHODES QUANTITATIVES

3-4-5. DÉCRIRE : ACP ET AFC

• Mécanique générale de l’AF : On peut transformer un tableau en nuage de points => Espace vectoriel • Une matrice d’information à n lignes et p colonnes devient un

nuage de n points sur p axes. • AF = résumé du nuage de points = projection dans un espace le

plus souvent à 2 dimensions. • On projette perpendiculairement sur une droite (moindres carrés)

sans privilégier de variables - On a deux écoles pour l’analyse factorielle : • Ecole américaine qui regarde surtout les chiffres(en terme algébrique)• Ecole française : regarde surtout la structure géométrique (en termes

géométrique)

Page 16: LES MÉTHODES QUANTITATIVES

3-4-5. DÉCRIRE : ACP ET AFC

• Les axes factoriels :• Axe factoriel : Axe de plus grand allongement du nuage de point sur

lequel on projette les points. • L’analyse factorielle fait passer un deuxième axe factoriel dans le sens des

résidus et ainsi de suite jusqu’à ce que toute l’information soit comprise dans les axes factoriels.

• Moindres carrés : Recherche de la droite qui minimise la somme des distances entre un point du nuage A et sa projection A’ sur l’axe factoriel.

• Utilité de l’AF : Exploration en réduisant la complexité, la résumant à ses principales dimensions et les hiérarchisant.

Page 17: LES MÉTHODES QUANTITATIVES

3-4-5. DéCRIRE : ACP ET AFC

Page 18: LES MÉTHODES QUANTITATIVES
Page 19: LES MÉTHODES QUANTITATIVES

MARCHE À SUIVRE DE L’AF (LA MÉCANIQUE MATHÉMATIQUE)

• 1. Transformation des variables et calcul d’une matrice d’inertie (nombre variables X nombre variables) • 2. Extraction des valeurs propres à partir de la matrice

d’inertie • 3. Extraction des vecteurs propres à partir de la matrice

d’inertie et des valeurs propres • 4. Calcul d’indicateurs pour aider à l’interprétation • 5. Productions graphiques

Page 20: LES MÉTHODES QUANTITATIVES

L’ANALYSE EN COMPOSANTE PRINCIPALE :

• On a plusieurs types de tableaux possibles :• Matrice d’informations variées• Matrice d’informations spatio-chronologique (Individus =

lieu, même variable à des dates différentes)

Page 21: LES MÉTHODES QUANTITATIVES

ETAPES D’ANALYSE DE L’ACP

• 1. Calcul d’une matrice de relation entre les variables (Etapes 1 et 2 de la marche à suivre de l’AF)

• a. Matrice de variance covariance : Matrice centrée X sa transposée • La matrice centrée garde les unités mais on garde la

force d’une variable => pas clair • Covariance = mesure de la force du lien entre deux

variables aléatoires • Traitement 2 à 2 des variables du tableau centré

Page 22: LES MÉTHODES QUANTITATIVES

ETAPES D’ANALYSE DE L’ACP

• b. Matrice des corrélations : M centrée réduite X sa transposée • Une matrice centrée réduite => courbe de Gauss standardisée

avec des variables • sans unités => Plus clair mais on risque de donner trop

d’importance à une valeur. • Aussi une mesure de l’intensité de la relation entre des variables

prises 2 à 2 • L’indicateur varie cette fois entre 1 (relation forte positive) et -1

(relation forte négative). • On peut ensuite faire des graphiques de corrélation avec les

valeurs élevées.

Page 23: LES MÉTHODES QUANTITATIVES

ETAPES D’ANALYSE DE L’ACP

• c. En résumé : • on transforme le tableau en tableau centré ou centré réduit,• puis on calcule les matrices en multipliant le résultat par sa

transposée.

Page 24: LES MÉTHODES QUANTITATIVES

ETAPES D’ANALYSE DE L’ACP

• 2. Calcul des axes factoriels et de leurs variances (Etape 3 de la marche à suivre de l’AF) • a. Valeur propre : Calcul de la quantité d’information prise en

compte par l’axe factoriel • b. Vecteur propre : Direction de l’axe factoriel

Page 25: LES MÉTHODES QUANTITATIVES

ETAPES D’ANALYSE DE L’ACP

• 3. Calcul d’aides à l’interprétation des résultats et production graphiques (Etapes 4-5 de l’AF) • a. Plus une variable est loin du centre, plus elle a de l’importance

et elle apporte quelque chose à l’étude. • b. Les variables à valeurs élevées sur le même axe sont corrélées. • c. Si deux variables sont très proches, on peut en enlever une.• d. Le cercle est un cercle de corrélation de rayon 1.• e. On peut ensuite placer les individus dans ce cercle et les

regrouper manuellement selon les résultats. • 4. Interprétation des résultats

Page 26: LES MÉTHODES QUANTITATIVES

ETAPES D’ANALYSE DE L’ACP

• Par exemple, la Suisse va se trouver tout à droite. D’autre pays seront mal représentés par les deux axes comme la Grande-Bretagne.

Page 27: LES MÉTHODES QUANTITATIVES

L’ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC)

• L’AFC est une analyse factorielle adaptée à d’autres formes de tableaux que l’ACP : • Elle permet de résumer des caractères qualitatifs

(mais pas seulement), c’est à dire des propriétés (on l’est ou on ne l’est pas, sans moyenne)

Page 28: LES MÉTHODES QUANTITATIVES

L’ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC)

• Les objectifs sont les mêmes (Passer d’un tableau à un nuage de point)• Résumer l’information contenue dans de grands

tableaux numériques• Faire une représentation multidimensionnelle avec des

résumés descriptifs (axes factorielles) • Donner une signification à cette information grâce à des

aides à l’interprétation. • Différence : L’AFC porte sur un autre type de tableau : le

tableau de contingence.

Page 29: LES MÉTHODES QUANTITATIVES

LE TABLEAU DE CONTINGENCE

Page 30: LES MÉTHODES QUANTITATIVES

LE TABLEAU DE CONTINGENCE

• Expression d’une distribution bi-variée par classes, croisant des modalités qualitatives ou des classes.

• A l’intersection des modalités, on des comptages d’individus qui possèdent ces deux caractéristiques.

• On peut parfois additionner les effectifs des colonnes si cela a du sens.

• Définition étendue : tout tableau symétrique croisant 2 caractères jouant un rôle équivalent, ou un tableau pour le croisement de caractères où sommes en ligne et en colonnes ont un sens.

• La procédure générale est la même que pour le ACP mais la transformation du tableau est différente

Page 31: LES MÉTHODES QUANTITATIVES

TRANSFORMATION DU TABLEAU DE DONNÉES

• On définit d’abord le poids d’un élément è• fréquence = valeur de l’élément / total.

• Ex : fi=Ni/N • L’élément peut être une case du tableau, mais aussi une

ligne ou une colonne entière.• On a 2 autres fréquences possibles (fréquences

conditionnelles): on peut aussi diviser par la somme de la colonne ou de la ligne au lieu du total du tableau entier. Exemple : fij=Nij / Ni

Page 32: LES MÉTHODES QUANTITATIVES

TRANSFORMATION DU TABLEAU DE DONNÉES

• On transforme les valeurs de chaque ligne en proportion de leur totale de ligne : • D’ij = fij/i = Dij / Di. • Avec fij/i = Nij / Ni (fréquence conditionnelle)• => Les totaux en ligne = 1.

• Moyenne d’une colonne :

Page 33: LES MÉTHODES QUANTITATIVES

TRANSFORMATION DU TABLEAU DE DONNEÉES

• Centre de gravité : Point de coordonnées (m1, m2, ..., mp) si D a p colonnes et n lignes) • On peut également calculer la variance mais la vraie distance

correspond à la mesure de distances • En AFC, on utilise la distance du Khi^2 alors qu’en ACP on utilise

une distance euclidienne. • La distance euclidienne est sensible aux effets de taille => Pas aisé

pour comparer 2 profils • Equivalence distributionnelle : Distribution de A = Distribution de B =

Distribution de A+B • La pondération par 1/fréquence de la somme en colonne pour

khi^2 valorise les « différences rares » • Calcul de la matrice de covariance : COV=Fij/i * Fij/j.

Page 34: LES MÉTHODES QUANTITATIVES

INTERPRÉTER UNE AFC

• En ACP, on a que les vecteurs et valeurs propres et il faut calculer le reste soi-me me

• En AFC c’est le contraire. On a que les valeurs propres, des coordonnées, contributions et qualité.

• Valeur propre : Tient compte des poids relatifs des effectifs des lignes et des colonnes • Valeur absolue de la valeur propre : Si > 0.6 contraste marqué entre les individus

• Poids : Le poids de chaque modalité est sa fréquence relative. Il a servi de pondération avant.

• Inertie associée à chaque modalité = khi2. • Somme des inerties = inertie totale du tableau

• Coordonnées des lignes / colonnes sur les axes : la proximité des modalités a un sens è On a des coordonnées extrêmes si les modalités ont un faible effectif.

Page 35: LES MÉTHODES QUANTITATIVES

TABLEAU DE BURT ET AFCM

• Tableau de Burt : Super tableau de contingence avec toutes les caractéristiques en ligne et colonne. On peut lancer une AFC sur ce tableau avec un résultat sur N variables cette fois.

• Problèmes : Une AFC sur un tableau de Burt (càd un tableau partant d’effectifs pour le croisement de modalités identiques en ligne et en colonne) ne fournit aucune info sur les individus enquêtés. • Or c’est souvent le but d’une enquête d’avoir une typologie d’enquêtés.

Page 36: LES MÉTHODES QUANTITATIVES

TABLEAU DE BURT ET AFCM

• => Il faut un autre tableau : Le codage disjonctif complet pour faire ensuite une AFCM • Il y a autant de lignes que d’individus dans le tableau de base• Il y a autant de colonnes qu’il y a de modalités en tout (=> autant de colonne

que pour Burt) • Code binaire pour chaque case :

• 1 = individu présente la modalité • 0 pas la modalité

Page 37: LES MÉTHODES QUANTITATIVES

TABLEAU DE BURT ET AFCM

• Ressemblances Burt et Disjonctif : AFCM = AFC sur tableau binaire => même procédure : • Calcul des profils-ligne et profils-colonne• Ajustement avec pondération par les poids des lignes et des colonnes• Métrique du Khi2 pour déterminer les axes. • Sur-représentation dans les axes des modalités les plus rares.

Page 38: LES MÉTHODES QUANTITATIVES

TABLEAU DE BURT ET AFCM

• Différences Burt et Disjonctif : Si seulement 2 modalités, les résultats sont les mêmes. Sinon : • L’information prise en compte est plus faible dans les tableaux disjonctifs • Variances Disjonctif sont égales au carré des Variances• Burt => Variances Disjonctif plus pessimistes.

• !! Il ne faut pas oublier de retourner dans le tableau initial à la fin pour voir si nos résultats sont bons.

Page 39: LES MÉTHODES QUANTITATIVES

CONCLUSION

• Avec l’ACP, on peut traiter que du quantitatif• L’AFCM permet de transformer le quantitatif en qualitatif et non l’inverse. De

plus, l’AFCM conserve l’individualité de chaque entité. • Le plan factoriel nous sert à naviguer dans le tableau et c'est tout. C'est à

nous d'expliquer le pourquoi du comment.

Page 40: LES MÉTHODES QUANTITATIVES

6. DÉCRIRE, CLASSIFICATION

• Les analyses factorielles résument, dans les grands tableaux numériques, l’information en colonnes.

• Les méthodes de classification, elles, ont pour but de résumer celle de leurs lignes.

• La classification sert à créer des typologies, = ensemble de classes homogènes mais différentes par leurs caractéristiques.

Page 41: LES MÉTHODES QUANTITATIVES

LES METHODES GRAPHIQUES : • Les graphiques cartésiens : à utiliser pour des points peu nombreux. • Classification par arborescence « raisonnée » : Risque rapide d’explosion

combinatoire

Page 42: LES MÉTHODES QUANTITATIVES

LES METHODES GRAPHIQUES : • Diagramme triangulaire : Il faut 3 caractères qui vont de 0 à 100% et dont le

total fait 100% • Exemple : Secteurs de travail dans un pays (primaire, secondaire, tertiaire)

• Les méthodes graphiques sont didactiques mais ont souvent des faiblesses opératoires.

Page 43: LES MÉTHODES QUANTITATIVES

LES MÉTHODES STATISTIQUES

• Il faut aussi un nuage de n points par rapport à p variables comme pour l’ACP/AFC.

• Elles fonctionnent sur des éléments quantitatifs. Donc souvent on fait une AFC puis on classifie les résultats

• Il existe de nombreuses méthodes, mais deux grandes familles sont très populaires : • Les méthodes hiérarchiques • Les méthodes convergentes : Partitions à priori, puis réaffectation des mal

classés.

Page 44: LES MÉTHODES QUANTITATIVES

LA CLASSIFICATION ASCENDANTE HIÉRARCHIQUE :

• Choix d’une mesure de la distance entre les individus (Soit euclidienne, rectilinéaire, Pearson)

• - Choix d’une méthode de liaison entre groupes : • Simple : Cf. schéma --->

• Complète : Cf. schéma --->

Page 45: LES MÉTHODES QUANTITATIVES

LA CLASSIFICATION ASCENDANTE HIÉRARCHIQUE :

• Choix d’une méthode de liaison entre groupes (suite) : • Moyenne: Plus courte distance moyenne• Centrée: Plus courte distance des centres• Liaison de Ward : Fusion pour les groupes pour lesquels la différence

entre la variance du couple et la somme des variances des deux groupes est la plus petite.

Page 46: LES MÉTHODES QUANTITATIVES

LA CLASSIFICATION ASCENDANTE HIERARCHIQUE• Dendogramme : Arbre des fusions pour voir à combien de classes on en est. • Choix du nombre de classes : Observation de la hausse de la distance pour

repérer les sauts.

Page 47: LES MÉTHODES QUANTITATIVES

LA CLASSIFICATION ASCENDANTE HIÉRARCHIQUE :

• Le poids d’une variable est proportionnel à sa variance => Normalisation préférable comme pour l’ACP, sauf si on travaille sur des axes factoriels car la variance explique alors la variable d’origine.

• Défaut de la CAH : Liaison définitive, même si le groupe ressemble de moins en moins à l’individu • => Risque d’un individu mal classé que l’on peut limiter avec une liaison de

Ward.

Page 48: LES MÉTHODES QUANTITATIVES

LES CENTRES MOBILES OU K-MOYENNES (MÉTHODE

CONVERGENTE) • On fixe un nombre k de classes a priori, on choisit k individus pour être les centres

puis on affecte chaque individu au centre le plus proche, puis on calcule les centres réels des classes obtenues.

• On relance le processus car certains individus se retrouvent plus proches d’un autre centre.

• Défauts : Nombre de classes à priori, dépend du tirage initial, construction peu claire des classes

• Avantages : individus rarement mal classés, Algorithme moins que la CAH. • Variante : La nuée dynamique : On compare les itérations de chaque groupe. Cela

met en évidence des classes fortes (classes avec des éléments qui n’ont jamais changé de groupes) et faibles.

• Mixage des méthodes : Si données pas trop lourdes :CAH puis CM. Sinon : CM puis CAH

Page 49: LES MÉTHODES QUANTITATIVES

7. MODÉLISATION

•Analyse (exploratoire) de données : Les AF (ACP, AFC, AFCM) et les classifications (convergentes, hiérarchiques, segmentation) •Modélisation statistique : Régression lin. Multiple (Xs

et Y quant.), Modèle lin. Généralisé (Xs quantitatif et qualitatif et Y quantitatif) et Régression logistique (Xsquantitatif et qualitatif et Y binaire)

Page 50: LES MÉTHODES QUANTITATIVES

LA RÉGRESSION MULTIPLE

• Définition :

• Régression où plusieurs variables explicatives (X1, X2, ...) rendent compte de la variabilité de Y • Y et Xj : Variables quantitatives continues connues par

individu.

Page 51: LES MÉTHODES QUANTITATIVES

LA REGRESSION MULTIPLE

• Dissymétrie : Contrairement à la régression simple, on peut que expliquer Y avec les Xj mais pas l’inverse. • Hyperplan : Projection du nuage de points à l’aide des

moindres carrés : Y’=a1 X1+...+ap Xp+b • Equation : b=ordonnée à l’origine (=0 si standardisation) et les

aj = coefficient de régression

Page 52: LES MÉTHODES QUANTITATIVES

LA REGRESSION MULTIPLE

• Indépendance: Les variables Xj doivent être indépendantes (pas de corrélation entre elles) => Test R2 • Si (et seulement si) elles sont indépendantes, alors aj

s’interprète comme en régression simple • Les variables Xj doivent par contre être bien corrélées avec Y,

sinon elles sont inutiles• Redondance : Corrélation indirecte (Ex : Si X1=>X2 et X1=>Y,

alors X2=>Y mais en fait c’est faux)

Page 53: LES MÉTHODES QUANTITATIVES

LA RÉGRESSION MULTIPLE

• Résidus : On contrôle si la régression est bonne càd si les résidus sont proches de 0.• Il faut regarder de près, cartographier et interpréter les résidus

les plus forts.• Examen : La distribution doit être normale=>loi de Gauss pour

extrapoler, Pas de croissance en fonction de Y’ • Importants pour : Nécessité d’ajouter une variable Xj, erreur

aléatoire, particularités locales.

Page 54: LES MÉTHODES QUANTITATIVES

LA RÉGRESSION MULTIPLE

• Conditions de validité: relation X-Y linéaire, Xj non-colinéaires (Ex: Supprimer un secteur d’emploi) et indépendantes. • Contrôles d’erreur aléatoire sur Y : Normalité des résidus,

homoscédasticité des résidus (variance à peu près égale, peu importe l’intervalle de valeurs des résidus)

Page 55: LES MÉTHODES QUANTITATIVES

DATA MINING

• - Définition : Recherche de la meilleure combinaison des Xj dispo pour expliquer Y =>Régression pas à pas

• Procédure itérative : Régression simple Y et Xk avec le + fort R2. Ajout de variables pour un R2 max. • Précautions : n > 10xnbre de variables, choix d’une condition d’arrêt, grand gain

de variance • Procédure ascendante : Ajout progressif de variable. S’oppose à une procédure

descendante • Généralisation : Uniquement si l’échantillon est représentatif et si les tests de

significativité sont bons. • Etude de significativité : Sur les variables explicatives : Analyse de variance et

test F de Fisher • Si F calculé > F lu => généralisation possible

Page 56: LES MÉTHODES QUANTITATIVES

ANCOVA

• ANalyse de COVAriance : Permet l’ajout d’une variable catégorielle à une régression multiple. • Ex : Ajout de la variable « Europe occidentale/ centrale » à la relation Esp(vie) en

fonction du PNB • Idée directrice : Calculer la régression simple entre Esp(vie) et PNB, puis faire

une ANCOVA entre les résidus Y-Y’ et la variable qualitative à k modalités => Même commentaire qu’en Analyse de variance

• Conditions de validité : Variable explicatives Xj sans erreur aléatoire, linéairement liées à Y et pas colinéaires, pas de donnée exclu (càd dont le résidu est très grand).

Page 57: LES MÉTHODES QUANTITATIVES

8.9.10. MODELISATION EN ENVIRONNEMENT INCERTAIN

• Déterminisme Laplacien : Lois causales qui permettent de décrire l’état du monde à partir de son état juste antérieur. Tout est calculable, il faut juste trouver la bonne Loi. Déterminisme total sans hasard

• Déterminisme de Claude Bernard : Tout système naturel est strictement déterminé par un ensemble de conditions, ce qui n’empêche pas des systèmes bio d’avoir leurs propres lois=>Déterminisme local

• Prigogine : Les systèmes dynamiques avec solutions sont chaotiques n’obéissent pas aux lois classiques • Principe du chaos : On a une info finie alors qu’il faut une connaissance infinie =>

physique statistique • Théorème d’indétermination : Impossible de connaître la position et la vitesse

de la lumière en même temps

Page 58: LES MÉTHODES QUANTITATIVES

8. RAPPELS DE STATISTIQUES• Variable aléatoire : Variable qui peut prendre n’importe quelle valeur d’un

intervalle • En statistique : Une variable aléatoire est une suite de tirages indépendants avec

moyenne et écart type possibles• Loi des grands nombres (minimum de 30 valeurs) : Moyenne de l’échantillon

converge vers la moyenne de la population• Théorème central limite : Si la variable aléatoire X a un écart type fini => Loi

normale possible • Loi normale : Elle ne fonctionne que si les distributions sont égalitaires

• Loi de Pareto : loi du 20/80 : • Ex : 20% des produits d’IKEA produisent 80% du chiffre d’affaires.

• Dans ce cas, la moyenne et l’écart-type ne peuvent pas bien rendre compte de la distribution

• La loi normale ne fonctionne pas ici car les évènements rares influencent trop la moyenne.

Page 59: LES MÉTHODES QUANTITATIVES

HASARD SAUVAGE OU HASARD SAGE

• Hasard sauvage : la moyenne et l’écart-type ne peuvent pas bien rendre compte de la distribution • À mesure que l’on fait des prédictions statistiques, le

hasard continue de diverger • Hasard sage : la moyenne et l’écart-type peuvent rendre

compte de la distribution • Hasard lent : Hasard sage pour lequel il faut longtemps pour

trouver la solution.

Page 60: LES MÉTHODES QUANTITATIVES

THEORIE DES VALEURS EXTRÊMES

• Situations de bon sens où la moyenne et l’écart-type ne sont pas adaptés au problème (Ex : Digues) • Théorème de Fischer-Tippet-Gnedenko : Quelle que soit la

variable étudiée, la valeur maximale obéit soit : • Fréchet (hasard sauvage), Gumbel (hasard sage) ou

Weibull (variables bornées)• Malédiction du cygne noir : Les facteurs humains

augmentent l’incertitude • Solution : Théorie des graphes et probabilités

Page 61: LES MÉTHODES QUANTITATIVES

9. PROBABILITÉS

• Théorie des probabilités : Etude mathématique des phénomènes caractérisés par le hasard et l’incertitude. • Les probabilités étudient quelque chose non encore produit

alors que les statistiques étudient quelque chose déja produit. • Axiomes : Pour tout évènement A, • on a 0<P(A)<1 // P(U)=1 // P( A1 U A2 U ...) = Somme(PAi) • si Ai sont incompatibles càd si l’intersection des évènements

est vide (réalisation simultanée impossible)

Page 62: LES MÉTHODES QUANTITATIVES

9. PROBABILITÉS

• Indépendance : Deux évènements qui ne s’influent pas (multiplication des probabilités possible) • Probabilités discrètes :

• Soit nombre de cas favorables / nombre de cas possibles • Soit par univers (Kolmogorov)

• Probabilités continues : Définition classique impossible car la probabilité dépend du protocole de choix • Définition moderne :

• Probabilité avec une fonction f(x) dérivable => densité de probabilité.• On peut toujours associer une fonction de répartition à une

distribution de variables aléatoires• Fonctions possibles : Uniforme discrète, Bernoulli, Poisson

Page 63: LES MÉTHODES QUANTITATIVES

9. PROBABILITÉS

• Interprétation des probabilités (2 interprétations physiques et 3 épistémiques: • Ecole fréquentiste : Fréquence relative dans un grand nombre

de situations identiques. Approche statistique • Propensionnisme : Attribution d’une tendance. Ex : Un verre à

une propension à se casser => probabilité • Bayésianisme : Lien entre des degrés de croyance et une

probabilité • Bayésianisme subjectif : Les degrés de croyance doivent

respecter uniquement les probabilités (probabilité d’un dragon) • Bayésianisme objectif : Donne un statut objectif au degré de

croyance => conformité aux informations disponibles

Page 64: LES MÉTHODES QUANTITATIVES

10. STATISTIQUES BAYÉSIENNES

• Loi de Bayes : = Probabilité de réalisation de B sachant que A est réalisé (Probabilité conditionnelle)

Page 65: LES MÉTHODES QUANTITATIVES

10. STATISTIQUES BAYÉSIENNES

• Théorème de Bayes :• Où A’ est A barre donc (1-A)

• Principe des statistiques bayésiennes : les gens révisent leurs croyances selon ce qu’ils ont autour d’eux

Page 66: LES MÉTHODES QUANTITATIVES

10. STATISTIQUES BAYÉSIENNES

• Marche à suivre pour une analyse bayésienne :

• 1. Construction d’un espace probabilisé : on définit des évènements et des probabilités pour certains• a. Partie délicate car on a des degrés de croyance. On

favorise ou non un cas selon nos croyances • 2. Utiliser et traduire en probabilité la connaissance

certaine.• 3. Exprimer les questions en terme de de probabilités :

• Valeur de P(A=V|B=F) , ... ?

Page 67: LES MÉTHODES QUANTITATIVES

FIN DES OUTILS QUANTITATIFS