using extreme value theory to test for outliers · 2018-07-10 · using extreme value theory to...
TRANSCRIPT
Using Extreme Value Theory to test for Outliers
Using Extreme Value Theory to test for Outliers
Nathaniel GBENROJMS - 2018, Paris, France
28 mai 2018
Using Extreme Value Theory to test for Outliers
Plan de la presentationIntroduction
DefinitionsRevue de litterature
Motivation pour un nouveau testTest de Pearson and Sekar [1936] et Grubbs [1950]Limite pour distributions non normale
Theorie sur la loi des extremes (EVT)Generalite sur EVTEstimateur EVI et du seuil
Hypothesis Test and Test’s procedureHypothesis Test and propertiesProcedure de Test
ApplicationComparaison avec GrubbsProcedure de test sous la non normalite
ConclusionBibliographie
Using Extreme Value Theory to test for Outliers
Introduction
Introduction
I DefinitionLes valeurs extremes sont des observations qui s’ecartent ducomportement d’ensemble d’un echantillon de donnees.
I ImportanceI Biais d’analyse (calcul indicateurs, analyse econometrique)
Houfi and El Montasser [2009]I Modification de politiques (evaluation d’impacts, analyse
economique, medicale, etc)
Using Extreme Value Theory to test for Outliers
Introduction
Definitions
Nuance de definitions
Figure – Planchon viviane (2005)VE : valeurs extremes - VS : valeurs suspectes - VA : valeurs aberrante -CTM : contaminations
Using Extreme Value Theory to test for Outliers
Introduction
Revue de litterature
Revue de litterature
I statistiques liees exces / volatilite [Dixon, 1950] ;
I statistiques liees amplitude / volatilite [Dixon, 1950] ;
I statistiques liees gap / volatilite, [Thompson, 1935] [Pearsonand Sekar, 1936] [Grubbs, 1950] ;
I statistiques liees extreme / position report [Dixon, 1950] ;
I statistiques liees Somme de carre [Dixon, 1950] ;
I statistiques liees aux moments ;
I Shapiro-Wilks W statistic (Shapiro et al, 1968 ; Royston.1982).
Using Extreme Value Theory to test for Outliers
Motivation pour un nouveau test
Test de Pearson and Sekar [1936] et Grubbs [1950]
Pearson and Sekar [1936] and Grubbs [1950]
Considerions un echantillon de taille n x1, x2, . . . , xn genere d’uneloi normale de moyenne µi et d’ecart type σ2. Test de valeursabberantes equivaut a un test d’echantillon de meme loi :
H0 : µ1 = µ2 = . . . = µm−1 = µm+1 = . . . = µn = µ, µm = µ+ d
Ha1 = d 6= 0, Ha2 = d < 0, Ha3 = d > 0.
τ =δ
s(1)
δ = x(n) − x and s =
√√√√ N∑i=1
(xi − x)2 (2)
Using Extreme Value Theory to test for Outliers
Motivation pour un nouveau test
Limite pour distributions non normale
Test de Pearson and Sekar [1936] et Grubbs [1950]
(a) Group 1 (b) Group 2
Figure – Application du test de Grubbs sous plusieurs distributions
Using Extreme Value Theory to test for Outliers
Theorie sur la loi des extremes (EVT)
Generalite sur EVT
Generalite
Considerions un echantillon de taille n x1, x2, . . . , xn genere d’uneloi de moyenne µi et d’ecart type σ2.
Statistique Naıve de test : U+ = max xi
Loi de la statistique :
P(U+ ≤ x) = F n(x)
Loi degeneree :
P(U+ ≤ x) −→n→+∞
∈ {0, 1} (3)
Using Extreme Value Theory to test for Outliers
Theorie sur la loi des extremes (EVT)
Generalite sur EVT
Generalite
EVT indique ∃an et bns.t :
P(x(n) − an
bn≤ y) = F (n)(ybn + an) −→
n→+∞Gε(y) (4)
ou
Gε(x) =
{exp[−(1 + ε x−µσ )
− 1ε
+ ] si ε 6= 0
exp[−exp(− x−µσ )] si ε = 0
(5)
La loi de X ∈ au domaine d’attraction de Gε.
Using Extreme Value Theory to test for Outliers
Theorie sur la loi des extremes (EVT)
Generalite sur EVT
Generalite
Nous avions l’equivalence suivante :
I X suit un Frechet d’indice ε
I ε−1ln(X ) suit un Gumbel
I −X−1 suit un Weibull
Using Extreme Value Theory to test for Outliers
Theorie sur la loi des extremes (EVT)
Estimateur EVI et du seuil
Estimateur Extrem Value Index( EVI)Il existe plusieurs estimateurs dans la litterature [Embrechts et al.,2013]. Un estimateur general est celui de Dekkers-Einmahl-deHaan. Il est defini par :
εDEHn = 1 + H
(1)n +
1
2
((H
(1)n )2
H(2)n
− 1
)−1
(6)
ou
H(1)n =
1
k
k−1∑i=0
(ln(x(n−i))− ln(x(n−k))
)et
H(2)n =
1
k
k−1∑i=0
(ln(x(n−i))− ln(x(n−k))
)2
Using Extreme Value Theory to test for Outliers
Theorie sur la loi des extremes (EVT)
Estimateur EVI et du seuil
Methodes d’estimation du seuil
I Mean Excess Function
e[i ] =1
n − i
n−i−1∑j=0
x(n−j) − x(i) (7)
I Estimateur de [Pickands III, 1975]
Argmin1≤j≤b n
4csup0≤x<∞|Sj(x)− Gj(x)| (8)
I Estimateur de [Neves and Alves, 2004]
Argmin2≤k≤n
1
k − 1
k∑i=1
iδ(εi − εk) (9)
Using Extreme Value Theory to test for Outliers
Hypothesis Test and Test’s procedure
Hypothesis Test and properties
Hypothesis Test and propertiesNotons x(n) (resp. x(1)) le max (resp. le min) d’un echantillon detaille n, avec Xi ∼ Fi . Le test d’hypothese vise a verifier si x(n) oux(1) est un outlier, Nous avons :{
H0 : Fi = F ∀ i ∈ 1 : nHa : ∃ m s.t Fm 6= F
. (10)
1. x(n) est un outlier, version unilateral a droite :{H0 : Fi = F ∀ i ∈ 1 : nHa : ∃ m and x* s.t ∀y ≥ x∗ Fm(y) < F (y)
(11)
2. x(1) est un outlier, version unilateral a gauche :{H0 : Fi = F ∀ i ∈ 1 : nHa : ∃ m and x* s.t ∀y ≤ x∗ F (y) < Fm(y)
(12)
Using Extreme Value Theory to test for Outliers
Hypothesis Test and Test’s procedure
Hypothesis Test and properties
Statistique et proprietes
γ0n =
x(n) − an
bnpour ε = 0 (13)
γεn = ln
(x(n) − an
bn
) 1ε
pour ε > 0 (14)
γεn = ln
(−x(n) − an
bn
)− 1ε
pour ε < 0 (15)
Using Extreme Value Theory to test for Outliers
Hypothesis Test and Test’s procedure
Procedure de Test
Test unilateral
Les coefficients de normalisation sont donnes par [Embrechts et al.,2013] :
Max-Domain an bnGumbel F−1(1− 1
n ) γ(an)Frechet 0 F−1(1− 1
n )Weibull xF xF − F−1(1− 1
n )
Table – Norming constants
Using Extreme Value Theory to test for Outliers
Hypothesis Test and Test’s procedure
Procedure de Test
Estimateur des quantiles
1. F ∈ Domaine d’attraction de Gumbel :
F−1(1− 1
n) = un + γ(un)ln(nun) (16)
2. F ∈ Domaine d’attraction de Frechet :
F−1(1− 1
n) = nεunun (17)
3. F ∈ Domaine d’attraction de Weibull :
F−1(1− 1
n) = xF − n−εun (xF − un) (18)
Using Extreme Value Theory to test for Outliers
Hypothesis Test and Test’s procedure
Procedure de Test
Estimateur du EndPoint
Estimateur de Alves and Neves [2014] :
xF = x(n) +k−1∑i=0
aik(x(n−k) − x(n−k−i)) (19)
ou
aik =1
log2log(
k + i + 1
k + i)
Using Extreme Value Theory to test for Outliers
Hypothesis Test and Test’s procedure
Procedure de Test
Algorithm Start
1. Use the excess function plot
2. Use DEH estimator.
Algorithm B’(ε = 0)
1. j, k ← n ; b1, b2, iter, tol0 ← 0 ;t ; m.iter ← iter + 1 ;
2. While (iter ≤ m and b1=0) do
3. Compute x(j) = Max(x(1), x(2), . . . , x(j))
4. kj = j − min (kP , kRT ) where kP is given by (8)
and kRT bu (9)tol0 ← tol0 + 1
5. While (tol0 ≤ t and b2=0) doun = x(k−kj )
6. Compute γ0j given by (??) with
nun = n − k + kj
7. If γ0j > Λα then
Report ”x(j) as outlier”
tol0 ← 1b2 ← 1
8. Otherwise (i.e γ0j ≤ Λα)
tol0 ← tol0 + 1k ← k − 1End Do ;If tol0 = t − 1 then b1 = 1iter ← iter + 1 ;j ← j − 1 ; k ← j ;tol0 ← 1 ;b2 ← 0 ;End Do ;
Algorithm A’(ε 6= 0)
1. j, k ← n ; b1, b2, iter, tol0 ← 0 ;t ; m.iter ← iter + 1 ;
2. While (iter ≤ m and b1=0) do
3. Compute x(j) = Max(x(1), x(2), . . . , x(j))
4. kj = j − min (kP , kRT ) where kP is given by (8)
and kRT bu (9)tol0 ← tol0 + 1
5. While (tol0 ≤ t and b2=0) doun = x(k−kj )
6. Compute εj given by (6) or (??) withx(k−kj +1), . . . , x(k)
7. Compute γεjj or γ
εjj given by (??) and (??) with
nun = n − k + kj according to the sign of εj
8. If γεjj (resp.γ
εjj ) > Λα then
Report ”x(j) as outlier”
tol0 ← 1b2 ← 1
9. Otherwise (i.e γεjj (resp.γ
εjj ) ≤ Λα)
tol0 ← tol0 + 1k ← k − 1End Do ;If tol0 = t − 1 then b1 = 1iter ← iter + 1 ;j ← j − 1 ; k ← j ;tol0 ← 1 ;b2 ← 0 ;End Do ;
Using Extreme Value Theory to test for Outliers
Application
Comparaison avec Grubbs
Comparaison avec Grubbs
Donnees simulees
Yi ∼ 11≤i≤T−pN(a, σ) + 1T−p<i≤TN(a + d , σ) (20)
I p : nombre de contaminations (0, 1, 2 et 3) ;
I T : taille echantillon (50, 100, 500 et 1000) ;
I a, d, σ : resp. moyennes des PGD (0 et 5), et 1 ;
Pour ces paramtres fixes, 1 000 bootstraps puis taux de rejet del’hypothese nulle.
Using Extreme Value Theory to test for Outliers
Application
Comparaison avec Grubbs
Application 1
N α (en %)1-Specificie (p=0) Sensibilite (p=1) Sensibilite (p=2) Sensibilite (p=3)Grubs EVT Grubs EVT Grubs EVT Grubs EVT
50 1 0.006 0.003 0.81 0.893 0.796 0.991 0.608 0.99950 5 0.024 0.041 0.919 0.972 0.955 0.997 0.919 1.00050 10 0.036 0.077 0.939 0.99 0.987 0.999 0.972 1.000
100 1 0.014 0.01 0.807 0.866 0.915 0.975 0.903 0.997100 5 0.025 0.038 0.923 0.951 0.974 1.000 0.99 0.998100 10 0.046 0.076 0.935 0.977 0.99 0.999 0.999 1.000500 1 0.007 0.007 0.768 0.801 0.928 0.951 0.974 0.99500 5 0.018 0.041 0.859 0.895 0.973 0.987 0.996 1.000500 10 0.039 0.088 0.903 0.935 0.985 0.994 0.994 1.000
1000 1 0.008 0.011 0.687 0.713 0.913 0.941 0.965 0.981000 5 0.019 0.035 0.819 0.865 0.967 0.981 0.992 0.9951000 10 0.066 0.108 0.875 0.912 0.979 0.993 0.993 0.999
Table – Sensibilite et Specificite
Using Extreme Value Theory to test for Outliers
Application
Procedure de test sous la non normalite
Rappel des resultats du test de Grubbs ...
(a) Group 1 (b) Group 2
Figure – Test de Grubbs’s sous des distributions non normales
Using Extreme Value Theory to test for Outliers
Application
Procedure de test sous la non normalite
... maintenant avec la nouvelle procedure de tes
(a) Gumbel MD. (b) Frechet and Weibull MD
Figure – Application du test base sur EVT.
Using Extreme Value Theory to test for Outliers
Conclusion
Conclusion
I Obj : Identification des valeurs aberrantes
I Echec du test de Grubbs sous la non normalite
I Meilleurs performances sous la normalite et la non normalite
I Resultat robust a la taille de l’echantillon
Using Extreme Value Theory to test for Outliers
Bibliographie
Bibliographie I
Isabel Fraga Alves and Claudia Neves. A general estimator for theright endpoint. arXiv preprint arXiv :1412.3972, 2014.
Jan Beirlant, Yuri Goegebeur, Jozef Teugels, and Johan Segers.Front matter. Statistics of Extremes : Theory and Applications,pages i–xiii, 2004.
Noureddine Benlagha, Michel Grun-Rehomme, et al. Applicationde la theorie des valeurs extremes en assurance automobile.Technical report, ERMES, University Paris 2, 2007.
JACQUES Bernier. Sur l’application des diverses lois limites desvaleurs extremes au probleme des debits de crue. HouilleBlanche, 11(5), 1956.
Using Extreme Value Theory to test for Outliers
Bibliographie
Bibliographie II
Peter Burridge and AM Robert Taylor. Additive outlier detectionvia extreme-value theory. Journal of Time Series Analysis, 27(5) :685–701, 2006.
Frederico Caeiro and M Ivette Gomes. On the bootstrapmethodology for the estimation of the tail sample fraction. InProceedings of COMPSTAT, pages 545–552, 2014.
Frederico Caeiro and M Ivette Gomes. Threshold selection inextreme value analysis. Extreme Value Modeling and RiskAnalysis : Methods and Applications, page 69, 2016.
Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomalydetection : A survey. ACM computing surveys (CSUR), 41(3) :15, 2009.
Using Extreme Value Theory to test for Outliers
Bibliographie
Bibliographie III
Denis Cousineau and Sylvain Chartier. Outliers detection andtreatment : a review. International Journal of PsychologicalResearch, 3(1) :58–67, 2015.
Dipak Dey, Dooti Roy, and Jun Yan. Extreme Value Modeling andRisk Analysis : Methods and Applications. CRC Press, 2016.
Wilfred J Dixon. Analysis of extreme values. The Annals ofMathematical Statistics, 21(4) :488–506, 1950.
Paul Embrechts, Claudia Kluppelberg, and Thomas Mikosch.Modelling extremal events : for insurance and finance,volume 33. Springer Science & Business Media, 2013.
B Everitt. The Cambridge dictionary of statistics/BS Everitt.Cambridge University Press, Cambridge, UK New York :, 2002.
Using Extreme Value Theory to test for Outliers
Bibliographie
Bibliographie IVRonald Aylmer Fisher and Leonard Henry Caleb Tippett. Limiting
forms of the frequency distribution of the largest or smallestmember of a sample. In Mathematical Proceedings of theCambridge Philosophical Society, volume 24, pages 180–190.Cambridge Univ Press, 1928.
Jesus Gonzalo and Jose Olmo. Which extreme values are reallyextreme ? Journal of Financial Econometrics, 2(3) :349–369,2004.
Frank E Grubbs. Sample criteria for testing outlying observations.The Annals of Mathematical Statistics, pages 27–58, 1950.
Mohamed Ali Houfi and Ghassen El Montasser. Effets des pointsaberrants sur les tests de normalite et de linearite. applications ala bourse de tokyo. Revue Congolaise Economie, 5(21) :2–38,2009.
Using Extreme Value Theory to test for Outliers
Bibliographie
Bibliographie VMalcolm R Leadbetter. Extremes and local dependence in
stationary sequences. Probability Theory and Related Fields, 65(2) :291–306, 1983.
Claudia Neves and MI Fraga Alves. Reiss and thomas, automaticselection of the number of extremes. Computational statistics &data analysis, 47(4) :689–704, 2004.
M Nikulin and A Zerbet. Detection des observations aberrantespar des methodes statistiques. Revue de statistique appliquee,50(3) :25–51, 2002.
Jose Olmo. Extreme value theory filtering techniques for outlierdetection. 2009.
ERWIN S Pearson and C Chandra Sekar. The efficiency ofstatistical tools and a criterion for the rejection of outlyingobservations. Biometrika, 28(3/4) :308–320, 1936.
Using Extreme Value Theory to test for Outliers
Bibliographie
Bibliographie VI
James Pickands III. Statistical inference using extreme orderstatistics. the Annals of Statistics, pages 119–131, 1975.
Viviane Planchon. Traitement des valeurs aberrantes : conceptsactuels et tendances generales. Biotechnologie, agronomie,societe et environnement, 9(1) :19–34, 2005.
Saad Rais. Outlier detection for the consumer price index.Statistical Society of Canada Proceedings, IndustrialOrganization, Finance, and Prices Section, BSMD, 2008.
N RANGER. R. cleroux j.-m. helbling. Revue de statistiqueappliquee, 38(1) :5–21, 1990.
Carl Scarrott and Anna MacDonald. A review of extreme valuethreshold es-timation and uncertainty quantification.REVSTAT–Statistical Journal, 10(1) :33–60, 2012.
Using Extreme Value Theory to test for Outliers
Bibliographie
Bibliographie VII
William R Thompson. On a criterion for the rejection ofobservations and the distribution of the ratio of deviation tosample standard deviation. The Annals of MathematicalStatistics, 6(4) :214–219, 1935.