series de tiempo - capitulo 1
TRANSCRIPT
Exploración de patrones de datos y selección de la técnica de pronóstico Series de tiempo
Mgr. José Luis Morales Rocha
Mgr. José Luis Morales Rocha
1
Exploración de patrones de datos y
selección de la técnica de
pronóstico
Series de tiempo
La generación de un pronóstico preciso y útil implica dos consideraciones básicas:
La primera consiste en reunir datos que sean aplicables para la tarea de
pronóstico y que contengan información que pueda producir pronósticos precisos.
El segundo factor es seleccionar una técnica de pronostico que utilice al máximo
la información contenida en los datos y los patrones que estos presentan.
Componentes de las series de tiempo
Una serie de tiempo consta de datos que reúnen, registran u observan sobre
incrementos sucesivos de tiempo.
Tendencia de una serie de tiempo
Es el componente de largo plazo que representa el crecimiento o disminución en la
serie sobre un periodo amplio.
Componente cíclico
Es la fluctuación en forma de onda alrededor de la tendencia.
Componente estacional
Es un patrón de cambio que se repite así mismo año tras año.
Componente aleatorio
Mide la variabilidad de las series de tiempo después de retirar los otros componentes.
Exploración de patrones mediante el análisis de correlación
Cuando se mide una variable a través del tiempo, con frecuencia esta correlacionada
consiga misma cuando se desfasa uno o más periodos. Esta correlación se mide
mediante e coeficiente de auto correlación.
Mgr. José Luis Morales Rocha
2
Autocorrelación
Es la correlación existente entre una variable que es desfasada uno o más periodos y
la misma variable de la serie de tiempo.
Los patrones de datos que incluyen componentes como tendencia, estacionalidad e
irregularidad se pueden estudiar usando el enfoque de análisis de correlación.
Para el cálculo del coeficiente de autocorrelación de primer orden (r1) o la
correlación entre Yt y Yt-1 está dado por:
∑ ( )( )
∑ ( )
Dónde:
: Coeficiente de autocorrelación de primer orden
: Media de los valores de la serie
: Observación en el periodo t
: Observación en el periodo anterior o en el periodo t-1
Para el cálculo del coeficiente de autocorrelación de orden k; (rk) entre Yt y Yt-1,
está dado por:
∑ ( )( )
∑ ( )
Por ejemplo, Harry Vilca reunió datos sobre el número de videocaseteras que
vendió el año pasado. Los datos se presentan en la siguiente tabla:
Periodo t
Mes Datos
originales Yt
Y desfasada un periodo
Yt-1
Y desfasada dos periodos
Yt-1 1 2 3 4 5 6 7 8 9 10 11 12
Enero Febrero Marzo Abril Mayo Junio Julio Agosto Setiembre Octubre Noviembre Diciembre
123 130 125 138 145 142 141 146 147 157 150 160
123 130 125 138 145 142 141 146 147 157 150
123 130 125 138 145 142 141 146 147 157
Mgr. José Luis Morales Rocha
3
Calcular el coeficiente de autocorrelación de primer y segundo orden.
Solución
Periodo t
Yt Yt-1 Yt - Yt-1 - (Yt - )2 (Yt - ) (Yt-1 - )
1 2 3 4 5 6 7 8 9 10 11 12
123 130 125 138 145 142 141 146 147 157 150 160
- 123 130 125 138 145 142 141 146 147 157 150
-19 -12 -17 -4 3 0 -1 4 5 15 8 18
-19 -12 -17 -4 3 0 -1 4 5 15 8
361 144 289 16 9 0 1
16 25
225 64
324
- 228 204 68 -12 0 0 -4 20 75
120 144
1704 0 -18 1474 843
Existe alguna correlación en esta serie de tiempo desfasada un periodo. Esto significa
que las ventas sucesivas de videocasetes están de alguna manera relacionadas una
con otra.
∑ ( )( )
∑ ( )
Existe una autocorrelación moderada en esta serie de tiempo desfasada en dos
periodos.
Por consiguiente, utilizaremos el programa Eviews para poder visualizar las
autocorrelaciones en varias desfases de tiempo.
Correlograma
Es una herramienta grafica que se emplea, para exhibir las autocorrelaciones para
varios desfases en una serie de tiempo. Para nuestro ejemplo se muestran en el
siguiente esquema:
Mgr. José Luis Morales Rocha
4
Los coeficientes de autocorrelación para diferentes periodos desfasados de una
variable se pueden utilizar en una serie de tiempo de datos para identificar lo
siguiente:
¿Los datos son aleatorios?
¿Los datos tienen una tendencia (no estacionaria)?
¿Los datos son estacionarios?
Los datos son estacionales?
1. Si una serie es aleatoria; la correlación entre Yt y Yt-1 es cercana a cero y los
valores sucesivos de la serie de tiempo no guardan relación entre sí.
2. Si una serie tiene tendencia, Yt y Yt-1 están altamente correlacionados y es
típico que los coeficientes de autocorrelación sean diferentes de cero de manera
significativa para varios de los primeros periodos de desfasamiento y caigan
gradualmente hacia cero al incrementarse el número de periodos.
3. Si una serie tiene un patrón estacional, se presentara un coeficiente de
autocorrelación significativo en el periodo de desfasamiento correspondiente:
cuatro en los datos trimestrales o doce en los mensuales.
4. Si una series es estacionaria, es aquella cuyas propiedades estadísticas
básicas, como la media y la varianza permanecen constantes en el tiempo. Se dice
que una serie que no presenta crecimiento o declinaron es estacionaria. Los
coeficientes de autocorrelación de datos estacionarios caen a cero después del
segundo o tercer periodo de desfasamiento.
Cuando la serie es aleatoria
A un nivel de confianza, se puede considerar aleatoria una muestra, si los coeficientes
de autocorrelación calculados se encuentran todos dentro del intervalo producido por
la siguiente ecuación:
√ (1)
Mgr. José Luis Morales Rocha
5
Dónde:
Z: Es el valor normal estándar para un novel de confianza dado.
n: Número de observaciones en la serie.
Prueba de hipótesis para determinar si una serie es aleatoria
El estadístico de prueba está dado por:
√
Ejemplo, Se tiene una serie con 30 observaciones:
Periodo t Yt Periodo t Yt Periodo t Yt
1 646 11 707 21 173
2 477 12 709 22 145
3 560 13 39 23 674
4 688 14 164 24 533
5 892 15 30 25 67
6 386 16 708 26 296
7 747 17 379 27 838
8 533 18 458 28 242
9 127 19 590 29 717
10 54 20 766 30 196
Al graficar las observaciones, observamos que los datos son aleatorios.
0
100
200
300
400
500
600
700
800
900
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
NUM
Mgr. José Luis Morales Rocha
6
Por lo tanto, podemos observar que las muestras son aleatorias, entonces hallamos
los valores de la ecuación (1).
√ {
Podemos concluir que si un coeficiente de autocorrelación es menor que -0.353 ó
mayor que 0.353, entonces se rechaza la hipótesis nula, en caso contrario no
rechazarla (rechazar H0 si rk <-0.353 ó rk >0.353). Para ello hallamos el Correlograma
como se muestra a continuación:
Las dos líneas de los puntos paralelas al eje vertical son los límites de confianza al
95% (<-0.353 y 0.353), se verifican 16 periodos de desfase y todos los coeficientes de
autocorrelación se ubican dentro de estos límites. Por consiguiente se determinar
que la serie es aleatoria.
Cuando la serie tiene tendencia
Si una serie tiene tendencia, existe una relación significativa entre los valores
sucesivos de la serie de tiempo. Es típico que los coeficientes de autocorrelación sean
significativamente diferentes de cero para varios de los primeros periodos de
desfasamiento y caigan después gradualmente hacia cero al incrementarse el número
de periodos.
Una serie estacionaria es aquella cuyas propiedades estadísticas básicas, como la
media, la varianza, permanecen constantes en el tiempo. Se dice que una serie que no
presenta crecimiento o declinación es estacionaria. Una serie que tiene una tendencia
se dice que es no estacionaria.
Mgr. José Luis Morales Rocha
7
En estas series se deben quitar la tendencia antes de realizar cualquier análisis
posterior, como su uso en los procedimientos de Box-Jenkins.
Por ejemplo, A Alberto Mendoza un analisite se le asigna la tarea de pronosticas las
ventas del 2010. Alberto reúne los datos de 1974 a 2009, como se muestra en la tabla
siguiente:
AÑO VENTAS DE
ROPA Yt
AÑO VENTAS DE
ROPA Yt
1974 3307
1992 12306
1975 3556
1993 13101
1976 3601
1994 13639
1977 3721
1995 14950
1978 4036
1996 17224
1979 4134
1997 17946
1980 4268
1998 17514
1981 4578
1999 25195
1982 4093
2000 27357
1983 5716
2001 30020
1984 6357
2002 35883
1985 6769
2003 38828
1986 7296
2004 40715
1987 8178
2005 44282
1988 8844
2006 48440
1989 9251
2007 52251
1990 10006
2008 53794
1991 10991
2009 55972
2010 57242
Estos datos se grafican en la serie de tiempo siguiente:
Mgr. José Luis Morales Rocha
8
Luego determina el Correlograma utilizando el software Eviews.
Al examinarlo nota que las autocorrelaciones para los primeros 7 periodos de
desfasamiento son significativamente diferentes de cero y que estos valores
gradualmente caen a cero. Por lo tanto Alberto determina que los datos tienen
tendencia.
0
10,000
20,000
30,000
40,000
50,000
60,000
1975 1980 1985 1990 1995 2000 2005 2010
VENTAS
Mgr. José Luis Morales Rocha
9
Alberto sabe que la serie debe diferenciarse para quitar la tendencia y crear una serie
estacionaria. Primero realiza la diferenciación de los datos mediante el Eviews y
desarrolla un Correlograma similar al siguiente:
En este Correlograma se aprecia que el coeficiente de autocorrelación para el periodo
de desfasamiento 3, es significativamente diferente de cero y que los dos primeros
coeficientes y el cuarto están cerca de ser significativos. Después del tercer desfase el
patrón decae gradualmente a cero.
Cuando la serie es estacional
Si una serie es estacional, un patrón se repite a si mismo en forma regular durante un
intervalo particular (por lo regular un año), y se presentaran coeficientes de
autocorrelación significativos en el periodo de desfasamiento correspondiente. Si se
analizan datos trimestrales, aparecerá un coeficiente de autocorrelación significativo
en el periodo de desfasamiento 4. Si los datos se analizan mensualmente, aparecerá
un coeficiente de autocorrelación significativo en el periodo 12. Es decir Enero se
correlacionada con otros eneros, febrero con otros febreros, etc. Por ejemplo
mostramos a continuación una serie estacional.
VENTAS POR TRIMESTRES (2001 – 2010)
AÑO FISCAL
DICIEMBRE 31
MARZO 31
JUNIO 31
SETIEMBRE 31
2001 147.60 251.80 273.10 249.10
2002 139.30 221.20 260.20 259.50
2003 140.50 245.50 298.80 287.00
2004 168.80 322.60 393.50 404.30
2005 259.70 401.10 464.60 479.70
Mgr. José Luis Morales Rocha
10
2006 264.40 402.60 411.30 385.90
2007 232.70 309.20 310.70 293.00
2008 205.10 234.40 285.40 258.70
2009 193.20 263.70 292.50 315.20
2010 178.30 274.50 295.40 311.80
Graficando la serie:
El Correlograma es el siguiente:
100
150
200
250
300
350
400
450
500
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
VENTAS
Mgr. José Luis Morales Rocha
11
Se observa que en periodo 4 de desfasamiento, los coeficientes de autocorrelación son
significativamente diferentes de cero (0.733 > 0.31), por lo que se concluye que las
ventas son estacionales en una base trimestral.
Selección de una técnica de pronóstico
Se deben de considerar algunas preguntas antes de decidir sobre la técnica de
pronóstico más adecuada para un problema en particular:
1. ¿Por qué se requiere un pronóstico?
2. ¿Quién utilizará el pronóstico?
3. ¿Cuáles son las características de los datos disponibles?
4. ¿Qué espacio de tiempo se pronosticará?
5. ¿Cuáles son los requerimientos mínimos de datos?
6. ¿Cuál es la precisión deseada?
7. ¿Cuál será el costo del pronóstico?
Para una buena selección de la técnica de pronóstico adecuada, el pronosticador
deberá hacer lo siguiente:
1. Definir la naturaleza del problema
2. Explicar la naturaleza de los datos bajo investigación
3. Describir las capacidades y limitaciones de las técnicas de pronósticos
potencialmente útiles.
4. Desarrollar algunos criterios predeterminados sobre los cuales se pueda tomar la
decisión de selección.
Un factor importante que influye en la selección de una técnica de pronostico consiste
en la identificación y comprensión de patrones históricos en los datos. Si se pueden
reconocer patrones de tendencia, cíclicos o estacionales, entonces se pueden
seleccionar las técnicas con la capacidad de utilizar eficazmente estos patrones.
Técnicas de pronóstico para datos estacionales
Varias técnicas que se podrían considerar al pronosticar en series estacionales son los
métodos no formales, los métodos de promedio simple y los métodos móviles,
atenuación exponencial y de Box-Jenkins.
Técnicas de pronóstico para datos con una tendencia
Las técnicas a considerar al pronosticar series con tendencia son promedio móvil
lineal, atenuación exponencial lineal de Brown, atenuación exponencial lineal de
Holt, atenuación exponencial cuadrática de Brown, regresión simple, modelo de
Gompertz, curvas de crecimiento y modelos exponenciales.
Técnicas de pronóstico para datos con estacionalidad
Mgr. José Luis Morales Rocha
12
Las técnicas a considerar al pronosticar series estacionales son descomposición
clásica, Census II, atenuación exponencial de Winter, regresión múltiple de series de
tiempo y métodos de Box-Jenkins.
Técnicas de pronóstico para series cíclicas
Las técnicas a considerar al pronosticar series cíclicas son descomposición clásica, los
indicadores económicos, los modelos econométricos, la regresión múltiple y métodos
de Box-Jenkins.
Medición del error en el pronóstico
Existen diferentes métodos para medir los errores generados por una técnica
particular de pronóstico, que consiste en determinar la diferencia entre los valores
observados y los valores de pronósticos, que a menudo son llamados residuales.
Residual
Un residual es la diferencia entre un valor real y su valor de pronóstico. Para
determinar el error residual de cada periodo de pronóstico, se utiliza la siguiente
formula:
En donde:
: Error del pronóstico en el periodo t
: Valor real en el periodo t
: Valor del pronóstico en el periodo t
Métodos para calcular el error de pronóstico
1. Desviación absoluta media (DAM) Mide la precisión de un pronóstico mediante el promedio de la magnitud de los
errores de pronóstico (valores absolutos de cada error). La DAM es de gran
utilidad cuando se desea medir el error de pronóstico en las mismas unidades de
la serie original. Se calcula de la siguiente manera:
∑ | |
2. Error medio cuadrado (EMC) Este enfoque penaliza los errores mayores de pronóstico ya que eleva cada uno al
cuadrado. En ocasiones es preferible una técnica que produzca errores moderados
a otra que por lo regular tenga errores pequeños, pero que ocasionalmente arroje
algunos en extremos grandes. La ecuación muestra el cálculo del EMC:
Mgr. José Luis Morales Rocha
13
∑ ( )
3. Porcentaje de error medio absoluto (PEMA) En ocasiones resulta más útil calcular los errores de pronóstico en términos de
porcentaje y no en cantidades. El PEMA proporciona una indicación de que tan
grandes son los errores de pronóstico comparados con los valores reales de la
serie. La ecuación muestra el cálculo de la PEMA.
∑
| |
4. Porcentaje medio de error (PME) A veces resulta necesario determinar si un método de pronostico está sesgado
(pronostico consistente alto o bajo). Si un enfoque de pronóstico no está sesgado
el PME producirá un porcentaje cercano a cero. Si el resultado es un porcentaje
negativo grande, el método de pronóstico está sobrestimado de manera
consistente. Si el resultado es un porcentaje positivo grande, el método de
pronóstico está subestimado en forma consistente. Está dado por:
∑
( )
En el siguiente ejemplo se presenta datos del número de clientes diarios que
requieren trabajos de reparación Yt y un pronóstico de estos datos. La técnica de
pronóstico utiliza el número de clientes atendidos en el periodo anterior, como
pronostico del periodo actual.
Periodos t
Datos Yt
Clientes
Pronostico del error
| | (| | ⁄ ) ( ⁄ )
1 2 3 4 5 6 7 8 9
58 54 60 55 62 62 65 63 70
- 58 54 60 55 62 62 65 63
- -4 6 -5 7 0 3 -2 7
- 4 6 5 7 0 3 2 7
- 16 36 25 49 0 9 4
49
- 7.4
10.0 9.1 11.3 0.0 4.6 3.2
10.0
- -7.4 10.0 -9.1 11.3 0.0 4.6 -3.2 10.0
12 34 188 55.6 16.2
Los cálculos para evaluar este modelo mediante DAM, EMC, PEMA y PME se
muestran en la tabla y en las siguientes formulas:
Mgr. José Luis Morales Rocha
14
∑ | |
∑ ( )
∑
| |
∑
( )
En conclusión tenemos que:
La DAM indica que cada pronostico esta desviado en un promedio de 4.3 clientes.
El EMC indica de 23.5 y el PEMA de 6.95% se compararan con el EMC y PEMA de
cualquier otro modelo empleado para pronosticar estos datos. Por último, un bajo
PME de 2.03% indica que la técnica no está desviada; ya que su valor es cercano a
cero, la técnica no sobrestima ni subestima en forma consistente el numero diario
de clientes atendidos.