outliers

13
Métodos de detección de valores desviados (outliers) en datos univariados Es una observación que se desvía del resto de observaciones, por lo que se sospecha que fue generada por un mecanismo diferente (Hawkins, 1980) Es una observación (o un grupo de observaciones) que aparecen como inconsistentes considerando el resto de la base de datos (Barnet & Lewis, 1994) Una observación que se sitúa fuera de un patrón general de comportamiento en una distribcuión (Moore & McCabe, 1999) Son aquellos registros que no siguen un patrón de aplicación (Chen et al., 2003)

Upload: eduardo-mejorado

Post on 02-Jan-2016

17 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Outliers

Métodos de detección de valores desviados (outliers) en datos univariados

Es una observación que se desvía del resto de observaciones, por lo que se sospecha que fue generada por un mecanismo diferente (Hawkins, 1980) Es una observación (o un grupo de observaciones) que aparecen como inconsistentes considerando el resto de la base de datos (Barnet & Lewis, 1994) Una observación que se sitúa fuera de un patrón general de comportamiento en una distribcuión (Moore & McCabe, 1999) Son aquellos registros que no siguen un patrón de aplicación (Chen et al., 2003)

Page 2: Outliers

La presencia de valores erróneos se atribuye a las siguientes causas:

Error: la medición es observada, registrada o incorporada incorrectamente

Contaminación: la medición proviene de una diferente población

Variabilidad inherente: la medición es correcta, pero representa un evento raro

Page 3: Outliers

La noción de “outlier” es altamente dependiente del sistema a estudiar

Valores desviados en una distribución que tiende a la normalidad

Valores desviados en un patrón lineal

Page 4: Outliers

Valores desviados en datos obtenidos con monitoreo temporal/ series de tiempo

Page 5: Outliers

Aplicaciones de la detección de “outliers”

Eliminación de datos erróneos (Control de Calidad) Detección de fraudes (Manejo financiero en Bolsa de Valores ; Manejo de Tarjeta de Crédito ; Votaciones) Análisis de alto rendimiento (proceso de “scouting” en empresas o atletas de alto rendimiento) Predicción climática (protección ambiental, riesgo) Detección de anomalías en tiempo real (sistemas de salud, transporte)

Page 6: Outliers

1900 1925 1950 1975 2000

0

200

400

600

800

Precip

itación

(mm

)

Sep1904

425 mm

Ago1909

791 mm

Sep1923

438 mm

Sep1932

538 mm

Ago1938

454 mm

Monterrey, N.L.

Sep2004

438 mm

Sep1988

427 mm

Ago1967

489 mm

Tormenta # 5

Huracán # 3

Huracán Beulah

Huracán Gilberto

Huracán Emily

Page 7: Outliers
Page 8: Outliers

Dificultades de la detección de “outliers”

1er. Problema : El proceso de detección es cíclico

El modelo propuesto

representa el sistema

Por ejemplo: “Los datos pertenecen a una distribución

normal”

Identificación correcta de “outliers”

Selección de pruebas

estadísticas

Falacia de círculo vicioso: ¿Qué fue primero el huevo o la gallina?

Page 9: Outliers

2do. Problema : Enmascaramiento (Masking) o Desbordamiento (Swamping)

Si el sistema contiene un valor desviado el problema es simple. Sin embargo, la presencia de más de un “outlier” puede complicar se debido a estos efectos

Enmascaramiento (5) La prueba de detección falla en detectar los valores desviados (falso negativo)

Desbordamiento (3, 7, 8) La prueba de detección falla señalando incorrectamente valores desviados (falso positivo)

Page 10: Outliers

Pruebas de detección de “outliers”

(Velasco y Verma, 2000)

Page 11: Outliers

Pruebas de detección de “outliers”

(Velasco y Verma, 2000)

Page 12: Outliers

Considerar la serie de datos: 4 , 4 , 4 , 5 , 5 , 5 , 6 , 6 , 7 , 50

-5 0 5 10 15 20 25 30 35 40 45 50 550

1

2

3

4

5

6

7

mero

de o

bserva

cion

es

n = 10 x = 9.6 s = 14.22

Page 13: Outliers

Detección de valores desviados: Prueba N1(u) = (50 – 9.6) / 14.22 = 2.84 Valor crítico N1 n = 10 / 2.41 a 99%

N1(u) > VcN1 a 99%

El valor 50 es detectado como desviado por N1