análisis estadístico de datos climáticos
DESCRIPTION
Análisis Estadístico de Datos Climáticos. Análisis de espectro singular. Facultad de Ciencias – Facultad de Ingeniería 2009. M. Barreiro – M. Bidegain – A. Díaz. Análisis de Espectro Singular. Motivación. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/1.jpg)
Análisis Estadístico de
Datos Climáticos
Análisis Estadístico de
Datos Climáticos
Facultad de Ciencias – Facultad de Ingeniería2009
M. Barreiro – M. Bidegain – A. Díaz
Análisis de espectro singular
![Page 2: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/2.jpg)
Análisis de Espectro Singular
El análisis de espectro singular (SSA en inglés) está diseñado para extraer información de series temporales cortas y “ruidosas”.
Se destaca de métodos espectrales clásicos en que construye auto-elementos “adaptados a los datos”.
Motivación
![Page 3: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/3.jpg)
Anomalías Salto Grande OND 1909-2007
Indice de Oscilación Sur (mensual)1942-1999
![Page 4: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/4.jpg)
Dominio temporal vs. Dominio espectral
La función de autocorrelación (que se calcula en el dominio temporal) y el espectro de potencia (o densidad espectral) están vinculados a través de la transformada de Fourier.
El dominio espectral está motivado por el hecho de que el comportamiento más regular (y por tanto más predecible) de una serie temporal, es periódico. En el dominio espectral, se destacan las contribucionesde frecuencias predominantes y de sus períodos asociados.
T
1 f
T período (se mide en segundos, meses, años, etc)f frecuencia (ciclos por segundo, o por mes, etc.)
![Page 5: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/5.jpg)
Dominio temporal Dominio espectral
![Page 6: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/6.jpg)
La variabilidad del sistema climático está caracterizada por un espectro de potencia que presenta:
1) una componente de banda ancha de “color cálido”, con potencias creciendo de las altas a las bajas frecuencias.
2) una componente de línea asociada con forzantes puramente periódicos, (anual y diario).
3) varios picos anchos que podrían surgir de forzantes menos periódicos (ej., variabilidad solar), oscilaciones internas, o una combinación de ambas.
![Page 7: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/7.jpg)
Series de tiempo y dinámica no lineal
Aun cuando una serie provenga de un sistema determinístico caótico, su comportamiento, para escalas de tiempo relativamente grandes, no es completamente irregular.
Algunas regularidades, p. ej. cuasi-periodicidades, pueden contribuir a una parte importante de su variabilidad.
El sistema climático tiene un límite de predictibilidad de un par de semanas para el tiempo meteorológico, debido a sus inestabilidades y no linealidades.
![Page 8: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/8.jpg)
Series de tiempo y dinámica no lineal
Al mismo tiempo, el sistema climático presenta algunas cuasi-periodicidades, como:
•El Niño -Oscilación Sur (en océano- atmósfera) (~ 2 a 5 años).
•Las oscilaciones de 40 a 50 días en la atmósfera tropical.
Estas cuasi-periodicidades pueden, en principio, facilitar la predicción basada en el análisis de series temporales.
![Page 9: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/9.jpg)
Aumento de la relación señal-ruido
• El SSA permite extraer información de la serie dada, descomponiéndola en patrones elementales aditivos, usando filtros adaptados a los datos.
• Esos patrones pueden ser: tendencias, patrones oscilatorios, y ruido.
• Algunas cuasi-periodicidades pueden contribuir a una parte importante de su variabilidad.
• Las tendencias no tienen por qué ser lineales, y los patrones oscilatorios (no necesariamente armónicos) pueden estar modulados en amplitud y fase.
![Page 10: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/10.jpg)
Anomalías Salto Grande OND (1909-2007)
![Page 11: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/11.jpg)
Para los cálculos, utilizamos el SSA-toolkit de la Universidad de California Los Angeles disponible en: www.atmos.ucla.edu/tcd/ssa/
![Page 12: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/12.jpg)
Etapas del SSA
• Se construye la secuencia de vectores desfasados:
(t = 1,...,N´=N - M + 1)
Dada una serie de tiempo X(t):
Tiene bastante en común con el ACP, pero tiene diferenciasimportantes.
![Page 13: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/13.jpg)
¿Cómo se elige M (longitud de “ventana”)?
No hay una respuesta única.
Surge de un compromiso: cantidad de información a extraer (mayor M) vs. grado de confianza estadística en esa información (N/M mayor ==> M menor).
Aquí elegimos M = 20 porque los seudo-períodos que aparecen son bastante menores, como veremos.
Es recomendable experimentar con más de un valor de M.
![Page 14: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/14.jpg)
Matriz de covarianza
Una estimación de la matriz de covarianza CMxM es:
(Hay otras estimaciones posibles)Los autovalores y autovectores
(matriz de Toeplitz)
son la solución de:
![Page 15: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/15.jpg)
Se construye la matriz de covarianza y se hace un análisis de componentes principales, obteniendo valores propios y funciones empíricas ortogonales (EOFs).
Valores propios
![Page 16: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/16.jpg)
Ejemplo de EOFs
(M=60)
![Page 17: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/17.jpg)
Funciones empíricas ortogonales
• Este método construye funciones empíricas ortogonales (EOFs, de longitud M) que son la contraparte de los senos y cosenos del análisis espectral clásico de Fourier.
• La ventaja sobre senos y cosenos es que los EOFs no son necesariamente funciones armónicas y, al ser adaptados a los datos, pueden capturar formas de oscilación altamente anarmónicas.
• Estas EOFs suelen presentarse en pares, con frecuencias y valores propios muy similares.
![Page 18: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/18.jpg)
M
1 jkk (j) ρ 1)- j X(t (t) PC
Los componentes principales se calculan proyectandoadecuadamente la serie temporal sobre los EOFs:
Los PCs tienen longitud N-M+1
![Page 19: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/19.jpg)
Método de Monte Carlo para SSA
En las señales climáticas, típicamente el ruido de fondo no es “blanco”, sino más bien “rojo”, es decir que presenta potencias mayores en frecuencias más bajas.
Utilizamos aquí el término “ruido rojo” en el sentido restrictivo de un proceso autoregresivo de orden 1, AR(1).
La idea es evaluar si, con algún nivel de significancia estadística, la serie original se distingue de un AR(1).
Para ello, se puede hacer una simulación por el método de Monte Carlo.
![Page 20: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/20.jpg)
Método de Monte Carlo para SSA
Se ajusta un proceso AR(1) (“ruido rojo”) a la serie X(t) :
donde a1, y X0 se estiman a partir de la serie original.
Se genera un ensemble de muchos datos simulados de ruido rojo y, para cada realización se calcula una matriz de covarianza .
Se proyectan las matrices de covarianzas sobre la base de autovectores:
y se compara con:
![Page 21: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/21.jpg)
•A partir de los EOFs y las componentes principales asociadas (p. ej. las que explican más varianza), se calculan series cuya suma aproxima a la serie original, llamados reconstruidos (RCs).
Reconstrucción parcial de la serie
Rec 1 + 2 1980-2007 Rec 3 + 4 1980-2007 Rec 5 + 6 1980-2007
![Page 22: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/22.jpg)
Salto Grande OND: Espectro de serie reconstruida con 6 componentes 1909-2007 (estimado por el método de máxima entropía).
6.1 años 3.6 años 2.4 años
Los reconstruidos suelen tener la propiedad de presentar un espectro de banda angosta (es decir que hay una frecuencia predominante).
![Page 23: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/23.jpg)
4 pasos para establecer confianza creciente en un resultado espectral (como, p. ej., la existencia de un modo oscilatorio)
• 1) Aplicar tests para un método espectral dado
• 2) Utilizar otros métodos espectrales y sus tests.
• 3) Encontrar el mismo modo en otras series de interés
• 4) Dar una explicación física convincente (el desafío mayor)
![Page 24: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/24.jpg)
Salto Grande: Serie original vs reconstruido 1 a 6 (1909 - 2007)
Varianza explicada: 46%
![Page 25: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/25.jpg)
Consecuencias para la predicción de fenómenos climáticos
• La naturaleza cuasi-cíclica de los RCs implica predictibilidad.
• Se puede hacer una predicción robusta de cada RC, ajustando un proceso autoregresivo de bajo orden a cada uno, y extendiéndolo hasta el instante deseado.
• Para elegir los RCs hay un compromiso entre la cantidad de varianza que uno espera predecir, y la confiabilidad de la predicción. Esta última indicaría elegir sólo los RCs oscilatorios.
• La exactitud de la predicción dependerá en cada caso de cuán bien representan los datos de la serie al comportamiento regular del sistema.
![Page 26: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/26.jpg)
Ejercicio de predicción lineal para 2008-2013
Dada la naturaleza oscilatoria de cada reconstruido,se ajusta un proceso auto-regresivo de orden K (AR(K)) a cada uno de ellos y se extrapola al futuro.
j)K -(t Xa 1)(t X K
1 jj
No hay una forma única de determinar el orden K del AR, siendo conveniente que no sea demasiado grande pues puede provocar inestabilidades numéricas.
![Page 27: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/27.jpg)
Hicimos pruebas con valores de K entre 1 y 15 para el período 1909-2002, y realizamos “predicciones” de los reconstruidos para 2003 a 2007.
Así obtuvimos un 80% de coincidencias en los signos de anomalías entre la suma de reconstruidos “pronosticados” y observados para K entre 2 y 15.
Finalmente, elegimos K = 5.
![Page 28: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/28.jpg)
Salto Grande OND: Reconstruido y su predicción 2008-2013
![Page 29: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/29.jpg)
Pero queremos predecir la serie de anomalías que tiene mucho más varianza…
![Page 30: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/30.jpg)
Ajuste lineal entre reconstruidos y anomalías
![Page 31: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/31.jpg)
Salto Grande OND: Anomalías 1980-2008 y predicción 2008-2013
![Page 32: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/32.jpg)
![Page 33: Análisis Estadístico de Datos Climáticos](https://reader035.vdocuments.net/reader035/viewer/2022062517/568135e7550346895d9d5c4b/html5/thumbnails/33.jpg)
ConclusionesEl SSA es una herramienta útil de diagnóstico para identificar señales cuasi-periódicas en series relativamente cortas y “ruidosas”.
La naturaleza oscilatoria de esas señales implica la existencia de predictibilidad potencial. La realización de pronósticos útiles usando esta técnica parece promisoria y, a la vez, presenta limitaciones a superar.