statistique univariée - université de...
Embed Size (px)
TRANSCRIPT
-
Statistique Univarie
Marie Beurton-Aimar
-
Plan
1 Objectifs
2 Le langage en statistique
3 Les tableaux
4 Reprsentations Graphiques
5 Paramtres de distribution
6 Prise en main de R
7 Distribution de probabilits
-
ObjectifsControler/Vrifier les informations.Interagir avec les statisticiens.
Maitriser le langage de base en statistiqueOrganiser les donnes sous forme de tableaux, de graphes.Calculer les paramtres de statistique descriptiveRaliser lanalyse statistique descriptive avec le logiciel R.
-
Le langage en statistique
VariableNotion fondamentale, cest la caractristique observe/mesure.
Variable quantitativeUne variable quantitative est mesurable.Quantitative continue : un nombre infini de valeurs.Quantitative discrte: un nomber fini (dnombrable) de valeurs .Exemple la taille des souris est continue, le nombre de sourisdans lexprience est discret.
-
Le langage en statistique
Variable qualitativeUne variable qualitative est discrte.Elle peut prendre plusieurs valeurs appeles modalits.Ordinale si ses modalits prsentent une hirarchie.Sinon variable nominale.Exemple : la variable sexe des souris vaut F ou M - cest unevariable nominale.Exemple : la couleur du pelage, plus ou moins fonc.
-
Le langage en statistique
ComplmentsX dpend de Y si la distribution de X dpend de celle de Y.X - Variable dpendante - explique.Y - Variable indpendante explicative.Exemple : expliquer la croissance bactrienne par la tempraturedincubation.
-
Le langage en statistique
ObservationLindividu ou observation: cest lunit statistique sur laquelle lesvariables observes seront mesures.La population : ensemble dont sont issus les individus observs.En gnral, impossible tudier dans sa totalit.Lchantillon : sous-ensemble de la population. Constitu partirage alatoire, si son effectif n est 30 on considre que lonpourra saffranchir des fluctuations dchantillonage.
-
Le langage en statistique
Question poseLanalyse statistique est ralise dans le cadre dune Hypothsethorique de travail (problmatique pose).Lhypothse oprationnelle dtermine : la population teudieret les variables prendre en compte : variable dpendante,variables indpendantes
-
Plan dexprienceLe plan dexprience dtermine les outils statistiques choisis :choix de leffectif en fonction du nombre de facteurs, de leurnature, des variables tudies ....
Statistique descriptive ou statistique exploratoirePermet dorganiser, de visualiser et de rsumer linformationcontenue dans de volumineux jeux de donnes.
-
Les tableaux
Tableau deffectifsPour un effectif n, on note ni le nombre dindividus que prsente lavaleur xi .Pour une vision plus claire de la distribution dune variablequantitative continue, on regroupe par classes les valeursvoisines.Une classe est dfinie par :
ses bornes incluses ou excluses [ei ,ei+1[son amplitude h = ei+1 eison centre Ci = ei +
ei+1ei2
-
Les tableaux
Tableau de frquencesPrincipe : on peut utiliser les frquences la place des effectifs.Pour chaque valeur xi de la variable on note sa frquencefi = ni/n.Remarque : on peut sintresser aux frquences cumulescroissantes ou dcroissantes.
Valeur de variable (Xi ) Effectif(ni ) Frquence (fi )X1 n1 f1X2 n2 f2. . .. . .
Xn nn fs
Tableau de contingence : vu au TD3.
-
Les tableaux
UtilisationRangement des donnes dans un tableau.Classement des valeurs par ordre croissant (ou dcroissant).Dfinition du nombre dindividus par valeur/modalit ou par classe.Calcul de frquences.
-
Reprsentation graphique
ObjectifVisualiser les donnes collectes dans un tableau.
Les reprsentations utilisesHistogrammes.Diagrammes en boites.Diagrammes en batons.Diagrammes pour variables quantitatives.
-
Reprsentation graphique
HistogrammeDistribution des effectifs dune variable quantitative continue.Aire des rectangles proportionnelle leffectif de chaque classe.Une ligne brise, appele le polygone des frquences relie lescentres de classes par des segments de droite.La courbe limite sappelle densit de probabilit.
-
Reprsentation graphique
Diagramme en boitesBoite moustaches : reprsentation horizontaleCots de la boite : quartiles Q1 et Q3, le centre Q2Extensions ( moustaches ) : 1,5 fois l cart interquartile (Q3-Q1)En dehors des extensions : valeurs aberrantes (outliers)Comparaison de plusieurs sries statistiques de mme nature
-
Reprsentation graphique
Diagramme en batonsDdi aux variables quantitatives discrtes
-
Reprsentation graphique
Diagramme pour les variables qualitativesCirculaires, bandes ou en barres.Chaque modalit est reprsente par un secteur ou un rectangledont laire est proportionnelle son effectif.
-
Paramtres de distribution
Les paramtres de position :Moyenne arithmtique : sensible aux valeurs extrmesMdiane : valeur qui partage leffectif en deux.Mode : valeur ayant leffectif maximumQuartiles : partage la srie statistique ordonne en 4sous-ensembles deffectifs identiques.
-
Paramtres de distribution
Les paramtres de dispersion :Variance : moyenne des carrs des carts la moyenne.Lcart type (standard deviation) : racine carre de la variance.Coefficient de variation : rapport entre lcart type et la moyennedune srie - souvent exprim en pourcentage.Ecart interquartile (Q3-Q1) permet dvaluer la dispertion desvaleurs qui entourent la mdiane.
-
Prise en main de R
PrsentationR est un langage interprt.Cest une implmentation du langage S. Dvelopp lorigine parRobert Gentleman and Ross Ihaka. Cest un projet GNU maintenuprincipalement en Nouvelle Zlande par luniversit dAuckland.Utilisation relativement simple et intuitive.Utilisation souple :
Saisie interactive ou scriptsCration de donnes manuelle (nombreux outils) / chargement dedonnes (fichier).
-
Premier Pas
Cration et Modification de donnesExemples :> x x[1] 10> x x[1] 27> x x[1] 39
-
Cration et Modification de donnes> x x[1]12 3 2 11 23 3 21> x[3] x[1] 12 3 42 11 23 3 21> x x[1] 24 15 54 23 35 15 33
-
Gnration de donnesOprateur :> x x[1]1 2 3 4 5 6> x x[1] 6 5 4 3 2 1
-
Gnration de donnesOprateur seq> x x[1] 1 2 3 4 5 6 7 8 9 10> x x[1] 1 3 5 7 9> x x[1] 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40[10] 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85[19]0.90 0.95 1.00
-
Premier pas
Chargement de donnesSe placer dans le bon rpertoire de travail : setwd(path)Importer des donnes :read.table(nomDuFichier, header=TRUE/FALSE)
Obtenir de laideAide gnrale : help.start()Aide sur une fonction connue : help(nomFonction) ou?(nomFonction).Exemple ?(cos)
-
Distribution de probabilits
Loi binomiale.Loi de Poisson.Loi de Gauss ou normale.Distribution multimodale.Distribution uniforme.
-
Distribution de probabilits
Loi binomialePour les variables discretesBase sur lexprience de Bernouilli.
Exprience de BernouilliExprience alatoire discrte avec 2 rsultats possibles : Succsou chec.p + q = 1, p probabilit de succs, q probabilit dchec.Expriences indpendantes : rptes linfini.Chaine de Bernouilli : preuve de Bernouilli rpte n fois.Coefficient binomial : nombre de chaines de Bernouilli (n).La variable alatoire X comptabilisant le nombre de succs surles n preuves suit une loi binomiale de paramtre n et p noteB(n,p).
-
Loi binomiale
Commande Rrbinom(N,n,p)
Moments dune loi binomiale B(n,p)E(X ) = n pV (X ) = n p q
RemarquesOn peut reprsenter une distribution soit :
par sa fonction de densit : renvoie la probabilit dappartenance un segment. La somme sous toute la courbe de densit est 1.par sa fonction de rpartition : renvoie la probabilit que lavariable soit infrieure labscisse. Tend assymptotiquement vers1.
-
Distribution de probabilits
Loi de PoissonVariable alatoire discrte.Modle probabiliste des situations de flux dvnementssuccessifs et alatoires.Lissue dpend de l tat linstant t et pas de t 1.Loi des vnements rares.
Moments dune loi de PoissonX variable discrte suit une loi de Poisson de paramtre > 0E(X ) = V (X ) =
Commande Rrpois(N,)
-
Loi de Poisson
RemarquesSi < 1 la fonction de densit est dissymtrique.Plus est grand, plus la fonction de densit est symtrique.
-
Distribution de probabilits
Loi de Gauss ou loi normalePour les Variables alatoires continues.
Questions fondamentales :Les valeurs mesures dans une exprience sont-elles celles dune grandeur alatoire qui suit une loi normale ?La distribution de probabilits continue (fonction de densit) peuttre utilise pour de nombreux phnomnes que l on rencontredans la nature.Une variable alatoire X de moyenne et dcart type suit une
loi normale si sa densit de probabilit est : f (x) = 1
2e
(x)2
22
Commande Rrnorm(N, , )
-
Loi de Gauss ou loi normale
Moments de la loi de GaussE(X ) = 0V (X ) = 1
RemarquesPour valider lhypothse dune distribution normale on peut utiliserdiffrents tests (Kolmogorov-Smirnov, Shapiro & Wilk ....)
-
Distribution multimodale (variable continue)
Une variable alatoire continue suit une loi multimodale lorsque ladensit de probabilits montre un ou plusieurs maximum locaux.
-
Distribution uniforme (variable discrte ou continue)
Une distribution est uniforme lorsque la variable alatoire X peutprendre nimporte quelle valeur entre une borne minimale et une bornemaximale avec la mme probabilit.Par exemple, le jet de d non truqu prsente une distribution uniformecar la probabilit dapparition de lune des six faces est quiprobable.
Commande Rrunif (N,min,max)
ObjectifsLe langage en statistiqueLes tableauxReprsentations GraphiquesParamtres de distributionPrise en main de RDistribution de probabilits