statistiques mathématiques : cours .4/54 aujourd’hui organisation du cours echantillonnage et

Download Statistiques mathématiques : cours .4/54 Aujourd’hui Organisation du cours Echantillonnage et

Post on 16-Sep-2018

212 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • 1/54

    Statistiques mathematiques : cours 1

    Guillaume Lecue

    28 aout 2018

    1/54

  • 2/54

    Organisation9 cours de 2h (18h) Guillaume Lecue

    guillaume.lecue@ensae.fr

    I mardi 28 a 10h15 ; mercredi 29 a 13h30 et 15h45 ; jeudi 30 a 10h15I lundi 3 a 17h ; mercredi 5 a 10h15 ; jeudi 6 a 10h15I mercredi 12 a 10h15I lundi 17 a 17h

    Slides du cours et recueil dexos et annales telechargeables a

    http://lecueguillaume.github.io/2015/10/05/rappels-stats/

    6 TD (12h) Lucas Gerin

    vendredi 31 a 13h30 ; mercredi 5 et 12 a 8h30 ; mercredi 26 a 8h30 ; jeudi27 a 17h.

    Examen

    Fin octobre/ debut novembre

    2/54

    http://lecueguillaume.github.io/2015/10/05/rappels-stats/

  • 3/54

    Presentation (succinte) du cours de stats math

    I Echantillonnage et modelisation statistique. Fonction de repartitionempirique (2 cours)

    I Methodes destimation classiques (2 cours)

    I Information statistique, theorie asymptotique pour lestimation (1cours)

    I Decision statistique et tests (2 cours)

    I Modele de regression (1 cours)

    I Statistiques Bayesiennes(1 cours)

    3/54

  • 4/54

    Aujourdhui

    Organisation du cours

    Echantillonnage et modelisation statistiqueDonnees daujourdhuiExperience statistiqueModele statistique

    Fonction de repartition empirique et theoreme fondamentale de lastatistique

    Loi dune variable aleatoireFonction de repartition empiriqueApproche non-asymptotique

    4/54

  • 5/54

    Les donnees daujourdhui : fichiers (en local) .csv ou .txt

    Les chiffres du travailTaux dactivite par tranche dage hommes vs. femmes

    http://www.insee.fr/

    https://www.data.gouv.fr/

    5/54

  • 6/54

    Les donnees daujourdhui : series temporelles

    Le monde de la finance

    http://fr.finance.yahoo.com/

    http://www.bloomberg.com/enterprise/data/

    6/54

  • 7/54

    Les donnees daujourdhui : grandes matrices

    Biopuces et analyse dADN

    7/54

  • 8/54

    Les donnees daujourdhui : graphesacteurs de series

    8/54

  • 9/54

    Les donnees daujourdhui : le metier en data science

    Problematique :

    I stockage, requettage : expertise en base de donnees

    I data jujitsu, data massage

    I data-vizualization (Gephi, Tulip, widget python, power BI, etc.)

    I mathematiques :

    ? modelisation (statistiques)? construction destimateurs

    implementation dalgorithmes

    I Python, R, H2O, TensorFlow, vowpal wabbit, spark,..., github,...

    Pour sentrainer aux metiers en data science :

    https://www.kaggle.com, https://www.datascience.net/ notebooks python Coursera

    9/54

  • 10/54

    Objectif du cours statistiques mathematiques

    1. Construire des modeles statistiques pour des donnees classiques

    2. Construire des estimateurs / tests classiques

    3. Connatre leurs proprietes statistiques et les outils mathematiquesqui permettent de les obtenir

    10/54

  • 11/54

    Problematique statistique

    1) Point de depart : donnees (ex. : des nombres reels)

    x1, . . . , xn

    2) Modelisation statistique :I les donnees sont des realisations

    X1(), . . . ,Xn() de variable aleatoires reelles (v.a.r.) X1, . . . ,Xn.

    (autrement dit, pour un certain , X1() = x1, . . . ,Xn() = xn)I La loi P(X1,...,Xn) de (X1, . . . ,Xn) est inconnue, mais appartient a une

    famille donnee (a priori){Pn,

    }: le modele

    On pense quil existe tel que P(X1,...,Xn) = Pn.3) Problematiques : a partir de lobservation (X1, . . . ,Xn), peut-on

    estimer ? tester des proprietes de ?

    11/54

  • 12/54

    Problematique statistique (suite)

    I est le parametre et lensemble des parametres.

    I Estimation : a partir de X1, . . . ,Xn, construire n(X1, . . . ,Xn) quiapproche au mieux .

    I Test : a partir des donnees X1, . . . ,Xn, etablir une decisionTn(X1, . . . ,Xn) {ensemble de decisions} concernant unehypothese sur .

    DefinitionUne statistique est une fonction mesurable des donnees

    !ATTENTION ! Une statistique ne peut pas dependre du parametreinconnu : une statistique se construit uniquement a partir des donnees !

    12/54

  • 13/54

    Exemple du pile ou face

    I On lance une piece de monnaie 18 fois et on observe (P = 0, F = 1)

    0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0

    I Modele statistique : on observe n = 18 variables aleatoires (Xi )18i=1

    independantes, de Bernoulli de parametre inconnu = [0, 1].I Estimation. Estimateur X18 =

    118

    18i=1 Xi

    ici= 8/18 = 0.44. Quelle

    precision ?I Test. Decision a prendre : la piece est-elle equilibree ? . Par

    exemple : on compare X18 a 0.5. Si |X18 0.5| est petit , onaccepte lhypothese la piece est equilibree . Sinon, on rejette.Quel seuil choisir ? et avec quelles consequences (ex. probabilite dese tromper) ?

    13/54

  • 14/54

    Echantillonnage = repetition dune meme experience

    I Lexperience statistique la plus centrale : on observe la realisation deX1, . . . ,Xn, v.a. ou les Xi sont independantes, identiquementdistribuees (i.i.d.), de meme loi commune PX {P : }.

    I probleme : a partir des donnees X1, . . . ,Xn que dire de la loi PXcommune aux Xi ? (moyenne, moments, symetrie, densite, etc.)

    14/54

  • 15/54

    Experience statistique

    Consiste a determiner :

    I lespace des observations

    Z (ex. : Z = {0, 1}18)

    Cest lespace ou vivent les observations

    I Une tribu : Z (ex. : Z = P(Z) = tous les sous-ensembles de Z)I Une famille de lois = modele

    {P, } (ex. :P = Pn = (1 + (1 )0)18)

    15/54

  • 16/54

    Experience statistique

    DefinitionUne experience statistique E est un triplet

    E =(Z,Z,

    {P,

    })ou

    I(Z,Z

    )espace mesurable (ex. : (Rn,B(Rn))),

    I {P, } famille de probabilites definies simultanement sur lememe espace

    (Z,Z

    ).

    16/54

  • 17/54

    Modeles statistiques (jargon)

    I {P, } est appele modeleI quand il existe k tel que Rk , on parle de modele parametriqueI quand est un parametre infini dimensionnel, on parle de modele

    non-parametrique (ex. : densite)

    I quand = (f , 0) ou f est infini dimensionnel (souvent, parametrede nuisance) et 0 Rk (parametre dinteret), on parle de modelesemi-parametrique

    I quand 7 P est injectif, on dit que le modele est identifiable

    17/54

  • 18/54

    Modeles statistiques

    Question centrale en statistiques : Quel modele estle plus adapte a ces donnees ?

    Il existe deux manieres equivalentes de definir un modele :

    1. soit en se donnant une famille de loi {P, }2. soit en se donnant une equation

    18/54

  • 19/54

    Exemple de modele/modelisation (1)

    On observe un n-uplet de variables aleatoires reelles :

    Z = (X1, . . . ,Xn)

    On peut modeliser ces observations de deux manieres (equivalentes) :

    I par une famille de lois : {P : R} ; par exemple,

    P =(N (, 1)

    )nI par une equation ; par exemple, pour tout i 1, . . . , n,

    Xi = + gi

    ou g1, . . . , gn sont n variables aleatoires Gaussiennes centreesreduites independantes.

    19/54

  • 20/54

    Exemple de modele/modelisation (2)On observe un n-uplet de variables aleatoires reelles :

    Z = (X1, . . . ,Xn).

    On peut modeliser ces observations de deux manieres (equivalentes) :

    I Par une equation : X1 = g1 et pour tout i 1, . . . , n 1,

    Xi+1 = Xi + gi

    ou g1, . . . , gn sont iid N (0, 1).I Famille de lois : {P : R} ou

    P = f.n

    ou n est la mesure de Lebesgue sur Rn et

    f(x1, . . . , xn) = f (x1)f (x2 x1) f (xn xn1)

    et f (x) = exp(x2/2)

    2.

    20/54

  • 21/54

    Pourquoi modeliser ?

    Donnees

    Probleme concret

    Processus stochastique

    Probleme mathematique

    Modelisation

    Pourquoi modeliser ? :

    1) Outils mathematiques

    2) Resultats mathematiques

    3) Algorithmes

    21/54

  • 22/54

    3 modeles (non-parametriques) classiques

    1. Modele de densite : on observe un n-echantillon

    X1, . . . ,Xn de v.a.r. de densite f tel que f C

    ou C est une classe de densites sur R (Lebesgue).2. Modele de regression : on observe un n-echantillon de couples

    (Xi ,Yi )ni=1 tel que Yi R, Xi R

    d et

    Yi = f (Xi ) + i

    ou i sont des v.a.r.i.i.d. independantes des Xi et f C.I quand f (Xi ) =

    ,Xi

    : modele de regression lineaire,

    I et quand i N (0, 2) : modele lineaire Gaussien3. modele de classification : on observe un n-echantillon (Xi ,Yi )

    ni=1 tel

    que Yi {0, 1} et Xi X . Par ex. :

    P[Yi = 1|Xi = x ] = (x , ) ou (x) = (1 + ex)

    22/54

  • 23/54

    Partie 2

    Fonction de repartition empirique et theoremefondamentale de la statistique

    23/54

  • 24/54

    Question fondamentale

    Considerons le modele dechantillonnage sur R : on observe

    X1, . . . ,Xn

    qui sont i.i.d. de loi commune PX .Rem. : Comme la loi de lobservation (X1, . . . ,Xn) est PnX , se donner unmodele est ici (pour le modele dechantillonnage) equivalent a se donnerun modele sur PX .Par exemple : PX {N (, 1) : R}

    Question fondamentaleOn considere le modele total = PX { toutes les lois sur R}. Est-ilpossible de connatre exactement PX quand le nombre n de donneestends vers ?

    24/54

  • 25/54

    Rappel : loi dune variable aleatoire reelle

    Definition

    X :(,A,P

    )

    (R,B

    )Loi de X : mesure de probabilite sur (R,B), notee PX , definie par

    PX[A]

    = P[X A], A B.

    Formule dintegration

Recommended

View more >