graduación no-paramétrica, con suavidad y estructura impuestas por el analista: aplicaciones...
TRANSCRIPT
Graduación no-paramétrica, con suavidad y estructura impuestas por
el analista: aplicaciones demográficas para México
Víctor M. GuerreroDepartamento de Estadística – ITAM y Eliud SilvaUNAM y U. Anáhuac
Trabajo ganador del 3er lugar del Premio Gustavo Cabrera 2010, en la categoría de Mejor Investigación en Demografía.
Las técnicas estadísticas pueden aplicarse para la comprensión y solución de problemas en diversas áreas. En particular, en el análisis demográfico se tiene una veta de oportunidad para su aplicación.
Introducción
Entre muchos otros, existen los siguientes trabajos de pronóstico de población: Lee y Carter (1992), Lee y Tuljapurkar (1994), Keilman et al. (2002), Girosi y King (2004), Tuljapurkar et al. (2004), Hyndman y Booth (2008), Alonso et al. (2009) y Okita et al. (2009).
Desde la década de los 80´s se ha usado la óptica del análisis de series
de tiempo para abordar problemas de fecundidad, mortalidad y migración. El denominador común ha sido el análisis y pronóstico estadístico.
2/30
Land y Cantor (1983) usaron modelos ARIMA para las variacionesestacionales de nacimiento y muerte en Estados Unidos; Carter y Lee(1986) realizaron pronósticos conjuntos para fecundidad, nupcialidad y
matrimonios; Thompson et al. (1989) proyectaron la fecundidad en forma multivariadas; McNown y Rogers (1992) también pronosticaron mortalidad.
Introducción
Y en México, González y Guerrero (2007) ganaron el Premio de Pensiones de ese año al pronosticar mortalidad y analizar su impacto sobre las pensiones para el año 2050.
McNown y Rajbhandary (2003) analizaron el comportamiento del mercado laboral femenino y la fecundidad; Laporte y Ferguson (2003) estudiaron la desigualdad del ingreso y la mortalidad en Canadá; Brücker et al. (2003) discutieron la migración internacional en
Alemania; Jeon y Shields (2008) analizaron el impacto del tamaño de las cohortes en Estados Unidos; Goldstein (2009) reconstruyó la incidencia de Influenza usando series de mortalidad.
3/30
Graduación no-paramétrica y estructurada de tasas de mortalidad
Los censos de población, encuestas y estadísticas vitales pueden tener anomalías o defectos en su registro.
Su origen puede ser atribuido a la presencia de eventos extraordinarios (sismos, inundaciones, etc.) o a errores humanos de diversos tipos.
El registro erróneo de las muertes puede conducir a un aumento (o disminución) de la intensidad en una cierta edad, en detrimento de otra, lo que afecta la toma de decisiones.
La graduación (suavizado) de datos surge como una alternativa para resolver este problema.
La graduación es el conjunto de principios y métodos a través de los cuales se ajustan los datos observados para obtener una base suavizada, que permite hacer mejores inferencias y, en particular, realizar cálculos actuariales (Haberman y Renshaw, 1996). 4/30
Graduación no-paramétrica y estructurada de tasas de mortalidad
Aquí se utiliza un método para estimar tendencias en tasas de mortalidad, que conjuga la bondad del ajuste y la suavidad del enfoque no-paramétrico, con la información proveniente de una estructura de mortalidad dada, según se propuso en Guerrero y Silva (2010).
El usuario es capaz de controlar, tanto un porcentaje suavidad, como otro de estructura, lo que propicia la comparabilidad entre tendencias estimadas.
La graduación de datos de mortalidad puede realizarse mediante el uso de métodos paramétricos o no-paramétricos.
En el primer grupo, se busca ajustar una función paramétrica a las probabilidades que surgen directamente de los datos. En el segundo grupo, se suavizan los datos observados, que corresponden a probabilidades de muerte, mediante técnicas de suavizamiento.
5/30
Se busca disminuir la variabilidad y facilitar el análisis de los datos observados. Estos se modifican y se convierten en estimados, una vez que se les excluyen las fluctuaciones indeseadas.
vvu-vu-v dd K'K' ))'W(( 'uu n ),...,( 1u 'vv n ),...,( 1v
),...,1 nwdiag(wW dKndn )(
])!()!/[(!)1(),( ijdijdjiK jidd
0),( jiKd
Modelos no-paramétricos
Una técnica muy empleada para ello es el método de Whittaker y Henderson, que resulta de resolver el problema de minimizar
donde es el vector de valores observados y es
el vector de valores graduados.
es una matriz de ponderaciones y es una matriz de diferencias de tamaño cuyo ij-ésimo elemento está dado por
para i=1,…,n-d y j =1,…,n, con
para j < i o j > d + i. 6/30
Modelos no-paramétricos
En el contexto de tasas de mortalidad, el mejor estimador lineal e
insesgado de las tasas suavizadas, tiene la forma de la solución de
Whittaker y Henderson al problema de graduación (Guerrero, Juárez
y Poncela, 2001).
En el ámbito económico, al método de Whittaker y Henderson con
d = 2, se le llama filtro de Hodrick y Prescott (HP) (Hodrick y
Prescott, 1997).
Sirve para estimar tendencias y realizar análisis de ciclos
económicos.
7/30
Modelos no-paramétricos
El filtro de HP proporciona una estimación de la variable no observable a través de la solución del problema de minimización
donde es la variable observada, es el valor de la tendencia (no observable) por estimar, es la varianza del componente cíclico, que se define como y es la varianza de la tasa de crecimiento de la tendencia.
2221
220
**
1*
1min )Y()Y(Y ttt
Yt
-
tY *tY20
*tt YY 21
21
201 / El parámetro permite establecer un equilibrio entre la
suavidad de la tendencia y la magnitud de las fluctuaciones cíclicas.
8/30
Laxton y Tetlow (1992) propusieron el filtro de Hodrick y Prescott multivariado (HPMV) para estimar variables no observables. Con este filtro se agrega información económica relevante al modelo, que incluye la suavidad.
Modelos no-paramétricos
tttt )Y()Y(Y 222
12 **min -
*tY 21
t Esta expresión es semejante a la del filtro HP, pero está aumentada
con los errores que provienen de la estimación de alguna relación económica (Boone, 2000).
El filtro de HPMV permite estimar la variable no observable como solución del problema
con respecto a para y dados.
9/30
Método de componentes con el que se estudia, por separado, el
comportamiento futuro de los componentes demográficos: fecundidad,
mortalidad y migración (George et al., 2004).
Técnicas demográficas para proyectar mortalidad
Para la mortalidad, se cuenta con:
(a) Técnicas de extrapolación.
(b) Técnicas que suponen alguna estructura de mortalidad en otras.
(c) Modelos estructurales que consideran cambios en las tasas de
mortalidad, a partir de cambios en variables socioeconómicas.
Para (a) y (b) se tienen también: método de Lee y Carter (1992); leyes
de Makeham, Gompertz, Helligman y Pollard; tablas de mortalidad
límite, etcétera.10/30
Se sugiere usar el filtro HPMV para estimar tendencias de mortalidad mediante la incorporación de suavidad de los datos. Para ello se usa
donde denota la mortalidad observada, representa la tendencia de mortalidad suavizada y es el ruido.
Metodología propuesta
tS
tt ηYY
tS
td
n
t
Stt
YYYY
St
22
11
2 )()(min
StY
tη
StY
tδ
StY
tY
Cuando se penaliza por falta de suavidad y se minimiza con respecto a , surge el problema
con el error aleatorio de un modelo demográfico estructural.
Se tiene un problema como el de Boone (2000), para estimar la
tendencia de mortalidad no-observada, . 11/30
Se considera el modelo
.
Metodología propuesta
tS
2tS
1tS
t εY2YY
(3) 0',0' ),,( ,
y
(2) 0' ),,( ,
(1) ),( ,
2
)E()E(Iσ
)E(IσK
Iσ
n2
n2
2
n2η
δεδη0δδYU
εη0εεY
0ηηYY
S
S
S
SY
~
~
~ La ecuación (1) expresa el vector de mortalidad como una tendencia
más un error aleatorio.
En (2) se induce suavidad en al suponer el polinomio de grado
uno, para t = 3, ..., n, con un error aleatorio.
En (3) se usa una experiencia de mortalidad (estructura límite), i. e.
otra fuente de información, para combinar con los datos observados.
tε
12/30
Se usa Mínimos Cuadrados Generalizados para estimar , así que
donde y , cuya matriz de varianza-covarianza está dada por
Metodología propuesta
)λ ()IλKK' λ(I 2-1
n2221nS UYY ˆ
2ε
2η1 /σσλ 2
δ2η2 /σσλ
12
-1221n
S )λ(1α)α)(1 α()KK' α(I con ˆ UYY
SY
α
SY
2η
-1n2221n
S σ)IλKK' λ(I)Var(Γ Y
SY
Otra forma de expresar es como
así que puede interpretarse como la combinación de dos fuentes de información, cuyas credibilidades pueden ser decididas por el analista al elegir el valor de .
13/30
Desde el punto de vista de cálculo numérico, el vector se
obtiene por medio del Filtro de Kalman con suavidad.
Metodología propuesta
SY
Se propone el índice de suavidad
donde tr(.) denota la traza de una matriz y las matrices
son positivas definidas de tamaño .
]/n)KK'σIσI(σItr[σ)KK'σIσI;σI(σ 122
-2εn
2δn
2ηn
2η22
-2εn
2δn
2ηn
2η
Λ
22-2εn
2δn
2η KK'σI, σIσ y
nn
14/30
Esta medida satisface: (i) es aditiva a la unidad; (ii) toma valores en
(0,1); (iii) es invariante bajo transformaciones lineales no singulares;
y (iv) se comporta en forma lineal.
El índice de suavidad es
con .
Índice de suavidad y su uso para elegir los parámetros de suavizamiento
/n ]Kλ K' [Itr;n,λλ -122n21 1)S(
11
212
ε12
δ2
η αλ)λ(1λσ)σ(σλ
Para suavizar los datos observados con el filtro HPMV,
usando una estructura conocida de datos , se sugiere
usar el siguiente procedimiento:
,..., 1 NYY
,..., 1 NUU
15/30
1. Suavizar los datos sin considerar la existencia de . Fijar un
porcentaje deseado de suavidad y aplicar el procedimiento de Guerrero (2008). Deducir el valor de y obtener la correspondiente curva suavizada con 100S( ; n)% de suavidad (por ejemplo 80%).
Índice de suavidad y su uso para elegir los parámetros de suavizamiento
1λ1λ
, n, λλ 21 1) (0,α
tt UY )1( , n, λλ 21 , n, λλ 21, nλ1
U
U
2. Decidir el grado de suavidad a intercambiar por estructura, de manera que el porcentaje de suavidad se reduzca (digamos de 80% a 75%). Fijar el valor de 100S( )% y deducir o bien, elegir este valor a priori.
3. Ejecutar el proceso de suavizamiento con estructura, aplicando el filtro de Kalman a los datos , con lo que se obtiene 100S( )% de suavidad y 100[S( ) – S( )]% de estructura (es decir, proximidad a ).
16/30
Ejemplo 1
Figura 1. Mortalidad en la Ciudad de México del siglo XVIII, con base en restos óseos encontrados en la Catedral Metropolitana en 1976 y 1982.
Fuente: Logaritmos de tasas de mortalidad de Hernández, P. (1999) Los estudios paleodemográficos en México. Revista Argentina de Antropología Biológica, 2: 335-355.
Figura 1. Mortalidad en la Ciudad de México en el siglo XVIII con CMT76 y CMT82
17/30
Figura 2. Tendencia estimada con ambas fuentes de información: 1976 y 1982
Fuente: Cálculos propios y logaritmos de tasas de mortalidad Ibid.
Ejemplo 1
18/30
Figura 3. Tendencia estimada con mayor credibilidad en los datos de 1976
Fuente: Cálculos propios y logaritmos de tasas de mortalidad Ibid.
Ejemplo 1
19/30
Figura 4. Tendencia estimada con mayor credibilidad en los datos de 1982
Fuente: Cálculos propios y logaritmos de tasas de mortalidad Ibid.
Ejemplo 1
20/30
Figura 5. Tasas específicas de fecundidad
Fuente: Tasas específicas de fecundidad de Suecia de 2006 disponible en http://www.humanfertility.org/ y CONAPO (2006) Indicadores demográficos básicos, Consejo Nacional de Población, disponible en http://www.conapo.gob.mx/ (11/marzo/2006).
Ejemplo 2
21/30
Figura 6. Tendencia inicial con datos de México 2006
Fuente: Cálculos propios e Ibid.
Ejemplo 2
22/30
Figura 7. Tendencia estimada con estructuras de fecundidad de México y Suecia
Fuente: Cálculos propios e Ibid.
Ejemplo 2
23/30
Figura 8. Tasas de mortalidad infantil en México con tres fuentes distintas
Fuente: Aguirre, A. (2009) La mortalidad infantil y la mortalidad materna en el siglo XXI. Papeles de población, 15: 75-99; CONAPO (2010) Indicadores demográficos básicos, Consejo Nacional de Población disponible en http://www.conapo.gob.mx/ (11 de agosto de 2010) y datos de la Secretaría de Salud de 2000-2008, disponible en http://www.sinais.salud.gob.mx/mortalidad/ (11 de agosto de 2010)
Ejemplo 3
24/30
Figura 9. Tendencia inicial con datos de Aguirre
Fuente: Cálculos propios e Ibid.
Ejemplo 3
25/30
Figura 10. Tendencia estimada con información de Aguirre y CONAPO
Fuente: Cálculos propios e Ibid.
Ejemplo 3
26/30
Figura 11. Tasas específicas de mortalidad masculina. México2010, Japón2008
Fuente: CONAPO (2010) Indicadores demográficos básicos, http://www.conapo.gob.mx/ (11/agosto/2010) y para Japón disponible en http://www.mortality.org (11/ agosto/2010).
Ejemplo 4
27/30
Figura 12. Tendencia inicial para las tasas específicas de mortalidad en México
Fuente: Cálculos propios e Ibid.
Ejemplo 4
28/30
Figura 13. Tendencia estimada con ambas fuentes de información: mexicana y japonesa
Fuente: Cálculos propios e Ibid.
Ejemplo 4
29/30
Referencias
Alonso, A. M., Peña, D. y Rodríguez, J. (2009) A Methodology for Population Projections: An Application to Spain, Preprint submitted to CSDA.
Boone, L. (2000) Comparing semi-structural methods to estimate unobserved variables: the HPMV and Kalman Filters approaches, Economics Department Working
Papers, No. 240, OCDE.Brücker, H., Siliverstovs, B. y Trübswetter, P. (2003) International Migration to Germany:
Estimation of a Time-Series Model and Inference in Panel Cointegration, Discussion Papers of DIW Berlin 391, DIW Berlin, German Institute for Economic Research.Carter, L. y Lee. R. (1986) Joint forecasts of US marital fertility, nuptiality, births and marriages using time series models, Journal of the American Statistical Association.CONAPO (2006, 2010) Indicadores demográficos básicos, Consejo Nacional de Población
disponible en http://www.conapo.gob.mx/ (11 de agosto de 2010).George, V., Smith, S., Swason, D. y Tayman, J.(2004) “The Methods and Materials of Demography” in chapter 21, Population Projections, edited by J. Siegel and Swanson, D., ElsevierAcademic Press.Girosi, F. y King, G. (2004) Demographic forecasting, unpublished book. Manuscript downloadable at http://gking. harvard. edu/files/smooth. pdf. Goldsteina, E., Dushoffb, J., Mad, J., Plotkine, J., Earnc, D. y Lipsitcha, M. (2009) Reconstructing influenza incidence by deconvolution of daily mortality time series, Edited by Burton H. Singer, Princeton University, Princeton, NJ.
30/30
30/30
González, C. Y. y Guerrero, V. M. (2007) Pronósticos estadísticos de mortalidad y su impacto sobre el Sistema de Pensiones en México. Trabajo ganador del 1er. Lugar en el Premio de Pensiones 2007. http://www.consar.gob.mx/premio_pensiones/pdf2007/Guerrero, V. M. (2008) Estimating Trends with Percentage of Smoothness Chosen by the
User. International Statistical Review, 76, 187–202.Guerrero, V. M. y Silva, E. (2010) Non-parametric and Structured Graduation of Mortality
Rates. Population Review Volume 49, Number 2, 13-26.Guerrero, V. M., Juárez, R. y Poncela, P. (2001) Data graduation based on statistical time
series methods, Statistics and Probability Letters, 52, 169-175.Haberman, S. y Renshaw, A. (1996) Generalized linear models and actuarial science, TheStatistician, 45, 407-436.Hodrick, R. y Prescott, E. (1997) Post-war U.S. business cycles: an empirical investigation,
Journal of Money, Credit and Banking, 29, 1-16.Hyndman, R. J. y H. Booth (2008) Stochastic Population Forecasts Using Function Data
Models for Mortality, Fertility, and Migration, International Journal of Forecasting, 24, 323-342.Jeon, Y. y Shields, M. (2008) The Impact of Relative Cohort Size on U.S. Fertility, 1913-2001,IZA Discussion Papers 3587, Institute for the Study of Labor (IZA).Keilman, N., Pham, D. y A. Hetland (2002) Why Population Forecasts Should be Probabilistic – Illustrated by the Case of Norway, Demographic Research, 6, 409-454.Land, K. y Cantor, D. (1983) ARIMA Models of Seasonal Variation in U.S. Birth and Death
Rates, Demography, 20, 541-568.
Referencias
30/30
Laporte, A. y Ferguson, B. (2003) Income inequality and mortality: time series evidence from Canada, Journal of Infection and Public Health, 66, 107-117.
Laxton, D. y Tetlow, R. (1992) A simple multivariate filter for the measurement of potential output, Bank of Canada Technical Report 59, Bank of Canada.
Lee, R. y Carter, L. (1992) Modeling and Forecasting U.S. Mortality, Journal of the American Statistical Association, 87, 659-675.
Lee, R. y Tuljapurkar, S. (1994) Stochastic population projections for the United States: Beyond high, medium and low, Journal of the American Statistical Association, 89, 1175–1189.
McNown, R. y Rajbhandary, S. (2003) Time series analysis of fertility and female labor market behavior, Journal of Population Economics, Springer, 16, 501-
523.McNown, R. y Rogers, A. (1992) Forecasting Cause-Specific Mortality Using Time
Series Methods. International Journal of Forecasting, 8, 413-432.Okita, Y., Pfau, W. y Thanh, G (2009) A Stochastic Forecast Model For Japan’s
Population, Discussion Paper:09-06.Thompson, P., Bell, W., Long, J. y Miller R. (1989) Multivariate time series projections of parametrized age-specific fertility rates, Journal of the American
Statistical Association, 84, 689-699.Tuljapurkar, Shripad, Ronald Lee, y Qi Li. (2004) Random scenario forecasts versus
stochastic forecasts, International Statistical Review, 72, 185–199.
Referencias