graduación no-paramétrica, con suavidad y estructura impuestas por el analista: aplicaciones...

Graduación no-paramétrica, con suavidad y estructura impuestas por

el analista: aplicaciones demográficas para México

Víctor M. GuerreroDepartamento de Estadística – ITAM y Eliud SilvaUNAM y U. Anáhuac

Trabajo ganador del 3er lugar del Premio Gustavo Cabrera 2010, en la categoría de Mejor Investigación en Demografía.

Las técnicas estadísticas pueden aplicarse para la comprensión y solución de problemas en diversas áreas. En particular, en el análisis demográfico se tiene una veta de oportunidad para su aplicación.

Introducción

Entre muchos otros, existen los siguientes trabajos de pronóstico de población: Lee y Carter (1992), Lee y Tuljapurkar (1994), Keilman et al. (2002), Girosi y King (2004), Tuljapurkar et al. (2004), Hyndman y Booth (2008), Alonso et al. (2009) y Okita et al. (2009).

Desde la década de los 80´s se ha usado la óptica del análisis de series

de tiempo para abordar problemas de fecundidad, mortalidad y migración. El denominador común ha sido el análisis y pronóstico estadístico.

2/30

Land y Cantor (1983) usaron modelos ARIMA para las variacionesestacionales de nacimiento y muerte en Estados Unidos; Carter y Lee(1986) realizaron pronósticos conjuntos para fecundidad, nupcialidad y

matrimonios; Thompson et al. (1989) proyectaron la fecundidad en forma multivariadas; McNown y Rogers (1992) también pronosticaron mortalidad.

Introducción

Y en México, González y Guerrero (2007) ganaron el Premio de Pensiones de ese año al pronosticar mortalidad y analizar su impacto sobre las pensiones para el año 2050.

McNown y Rajbhandary (2003) analizaron el comportamiento del mercado laboral femenino y la fecundidad; Laporte y Ferguson (2003) estudiaron la desigualdad del ingreso y la mortalidad en Canadá; Brücker et al. (2003) discutieron la migración internacional en

Alemania; Jeon y Shields (2008) analizaron el impacto del tamaño de las cohortes en Estados Unidos; Goldstein (2009) reconstruyó la incidencia de Influenza usando series de mortalidad.

3/30

Graduación no-paramétrica y estructurada de tasas de mortalidad

Los censos de población, encuestas y estadísticas vitales pueden tener anomalías o defectos en su registro.

Su origen puede ser atribuido a la presencia de eventos extraordinarios (sismos, inundaciones, etc.) o a errores humanos de diversos tipos.

El registro erróneo de las muertes puede conducir a un aumento (o disminución) de la intensidad en una cierta edad, en detrimento de otra, lo que afecta la toma de decisiones.

La graduación (suavizado) de datos surge como una alternativa para resolver este problema.

La graduación es el conjunto de principios y métodos a través de los cuales se ajustan los datos observados para obtener una base suavizada, que permite hacer mejores inferencias y, en particular, realizar cálculos actuariales (Haberman y Renshaw, 1996). 4/30

Graduación no-paramétrica y estructurada de tasas de mortalidad

Aquí se utiliza un método para estimar tendencias en tasas de mortalidad, que conjuga la bondad del ajuste y la suavidad del enfoque no-paramétrico, con la información proveniente de una estructura de mortalidad dada, según se propuso en Guerrero y Silva (2010).

El usuario es capaz de controlar, tanto un porcentaje suavidad, como otro de estructura, lo que propicia la comparabilidad entre tendencias estimadas.

La graduación de datos de mortalidad puede realizarse mediante el uso de métodos paramétricos o no-paramétricos.

En el primer grupo, se busca ajustar una función paramétrica a las probabilidades que surgen directamente de los datos. En el segundo grupo, se suavizan los datos observados, que corresponden a probabilidades de muerte, mediante técnicas de suavizamiento.

5/30

Se busca disminuir la variabilidad y facilitar el análisis de los datos observados. Estos se modifican y se convierten en estimados, una vez que se les excluyen las fluctuaciones indeseadas.

vvu-vu-v dd K'K' ))'W(( 'uu n ),...,( 1u 'vv n ),...,( 1v

),...,1 nwdiag(wW dKndn )(

])!()!/[(!)1(),( ijdijdjiK jidd

0),( jiKd

Modelos no-paramétricos

Una técnica muy empleada para ello es el método de Whittaker y Henderson, que resulta de resolver el problema de minimizar

donde es el vector de valores observados y es

el vector de valores graduados.

es una matriz de ponderaciones y es una matriz de diferencias de tamaño cuyo ij-ésimo elemento está dado por

para i=1,…,n-d y j =1,…,n, con

para j < i o j > d + i. 6/30


En el contexto de tasas de mortalidad, el mejor estimador lineal e

insesgado de las tasas suavizadas, tiene la forma de la solución de

Whittaker y Henderson al problema de graduación (Guerrero, Juárez

y Poncela, 2001).

En el ámbito económico, al método de Whittaker y Henderson con

d = 2, se le llama filtro de Hodrick y Prescott (HP) (Hodrick y

Prescott, 1997).

Sirve para estimar tendencias y realizar análisis de ciclos

económicos.

7/30


El filtro de HP proporciona una estimación de la variable no observable a través de la solución del problema de minimización

donde es la variable observada, es el valor de la tendencia (no observable) por estimar, es la varianza del componente cíclico, que se define como y es la varianza de la tasa de crecimiento de la tendencia.

2221

220

**

1*

1min )Y()Y(Y ttt

Yt

-

tY *tY20

*tt YY 21

21

201 / El parámetro permite establecer un equilibrio entre la

suavidad de la tendencia y la magnitud de las fluctuaciones cíclicas.

8/30

Laxton y Tetlow (1992) propusieron el filtro de Hodrick y Prescott multivariado (HPMV) para estimar variables no observables. Con este filtro se agrega información económica relevante al modelo, que incluye la suavidad.


tttt )Y()Y(Y 222

12 **min -

*tY 21

t Esta expresión es semejante a la del filtro HP, pero está aumentada

con los errores que provienen de la estimación de alguna relación económica (Boone, 2000).

El filtro de HPMV permite estimar la variable no observable como solución del problema

con respecto a para y dados.

9/30

Método de componentes con el que se estudia, por separado, el

comportamiento futuro de los componentes demográficos: fecundidad,

mortalidad y migración (George et al., 2004).

Técnicas demográficas para proyectar mortalidad

Para la mortalidad, se cuenta con:

(a) Técnicas de extrapolación.

(b) Técnicas que suponen alguna estructura de mortalidad en otras.

(c) Modelos estructurales que consideran cambios en las tasas de

mortalidad, a partir de cambios en variables socioeconómicas.

Para (a) y (b) se tienen también: método de Lee y Carter (1992); leyes

de Makeham, Gompertz, Helligman y Pollard; tablas de mortalidad

límite, etcétera.10/30

Se sugiere usar el filtro HPMV para estimar tendencias de mortalidad mediante la incorporación de suavidad de los datos. Para ello se usa

donde denota la mortalidad observada, representa la tendencia de mortalidad suavizada y es el ruido.

Metodología propuesta

tS

tt ηYY

tS

td

n

t

Stt

YYYY

St

22

11

2 )()(min

StY

tη

StY

tδ

StY

tY

Cuando se penaliza por falta de suavidad y se minimiza con respecto a , surge el problema

con el error aleatorio de un modelo demográfico estructural.

Se tiene un problema como el de Boone (2000), para estimar la

tendencia de mortalidad no-observada, . 11/30

Se considera el modelo

.


tS

2tS

1tS

t εY2YY

(3) 0',0' ),,( ,

y

(2) 0' ),,( ,

(1) ),( ,

2

)E()E(Iσ

)E(IσK

Iσ

n2

n2

2

n2η

δεδη0δδYU

εη0εεY

0ηηYY

S

S

S

SY

~

~

~ La ecuación (1) expresa el vector de mortalidad como una tendencia

más un error aleatorio.

En (2) se induce suavidad en al suponer el polinomio de grado

uno, para t = 3, ..., n, con un error aleatorio.

En (3) se usa una experiencia de mortalidad (estructura límite), i. e.

otra fuente de información, para combinar con los datos observados.

tε

12/30

Se usa Mínimos Cuadrados Generalizados para estimar , así que

donde y , cuya matriz de varianza-covarianza está dada por


)λ ()IλKK' λ(I 2-1

n2221nS UYY ˆ

2ε

2η1 /σσλ 2

δ2η2 /σσλ

12

-1221n

S )λ(1α)α)(1 α()KK' α(I con ˆ UYY

SY

α

SY

2η

-1n2221n

S σ)IλKK' λ(I)Var(Γ Y

SY

Otra forma de expresar es como

así que puede interpretarse como la combinación de dos fuentes de información, cuyas credibilidades pueden ser decididas por el analista al elegir el valor de .

13/30

Desde el punto de vista de cálculo numérico, el vector se

obtiene por medio del Filtro de Kalman con suavidad.


SY

Se propone el índice de suavidad

donde tr(.) denota la traza de una matriz y las matrices

son positivas definidas de tamaño .

]/n)KK'σIσI(σItr[σ)KK'σIσI;σI(σ 122

-2εn

2δn

2ηn

2η22

-2εn

2δn

2ηn

2η

Λ

22-2εn

2δn

2η KK'σI, σIσ y

nn

14/30

Esta medida satisface: (i) es aditiva a la unidad; (ii) toma valores en

(0,1); (iii) es invariante bajo transformaciones lineales no singulares;

y (iv) se comporta en forma lineal.

El índice de suavidad es

con .

Índice de suavidad y su uso para elegir los parámetros de suavizamiento

/n ]Kλ K' [Itr;n,λλ -122n21 1)S(

11

212

ε12

δ2

η αλ)λ(1λσ)σ(σλ

Para suavizar los datos observados con el filtro HPMV,

usando una estructura conocida de datos , se sugiere

usar el siguiente procedimiento:

,..., 1 NYY

,..., 1 NUU

15/30

1. Suavizar los datos sin considerar la existencia de . Fijar un

porcentaje deseado de suavidad y aplicar el procedimiento de Guerrero (2008). Deducir el valor de y obtener la correspondiente curva suavizada con 100S( ; n)% de suavidad (por ejemplo 80%).

Índice de suavidad y su uso para elegir los parámetros de suavizamiento

1λ1λ

, n, λλ 21 1) (0,α

tt UY )1( , n, λλ 21 , n, λλ 21, nλ1

U

U

2. Decidir el grado de suavidad a intercambiar por estructura, de manera que el porcentaje de suavidad se reduzca (digamos de 80% a 75%). Fijar el valor de 100S( )% y deducir o bien, elegir este valor a priori.

3. Ejecutar el proceso de suavizamiento con estructura, aplicando el filtro de Kalman a los datos , con lo que se obtiene 100S( )% de suavidad y 100[S( ) – S( )]% de estructura (es decir, proximidad a ).

16/30

Ejemplo 1

Figura 1. Mortalidad en la Ciudad de México del siglo XVIII, con base en restos óseos encontrados en la Catedral Metropolitana en 1976 y 1982.

Fuente: Logaritmos de tasas de mortalidad de Hernández, P. (1999) Los estudios paleodemográficos en México. Revista Argentina de Antropología Biológica, 2: 335-355.

Figura 1. Mortalidad en la Ciudad de México en el siglo XVIII con CMT76 y CMT82

17/30

Figura 2. Tendencia estimada con ambas fuentes de información: 1976 y 1982

Fuente: Cálculos propios y logaritmos de tasas de mortalidad Ibid.

Ejemplo 1

18/30

Figura 3. Tendencia estimada con mayor credibilidad en los datos de 1976


Ejemplo 1

19/30

Figura 4. Tendencia estimada con mayor credibilidad en los datos de 1982


Ejemplo 1

20/30

Figura 5. Tasas específicas de fecundidad

Fuente: Tasas específicas de fecundidad de Suecia de 2006 disponible en http://www.humanfertility.org/ y CONAPO (2006) Indicadores demográficos básicos, Consejo Nacional de Población, disponible en http://www.conapo.gob.mx/ (11/marzo/2006).

Ejemplo 2

21/30

Figura 6. Tendencia inicial con datos de México 2006

Fuente: Cálculos propios e Ibid.

Ejemplo 2

22/30

Figura 7. Tendencia estimada con estructuras de fecundidad de México y Suecia


Ejemplo 2

23/30

Figura 8. Tasas de mortalidad infantil en México con tres fuentes distintas

Fuente: Aguirre, A. (2009) La mortalidad infantil y la mortalidad materna en el siglo XXI. Papeles de población, 15: 75-99; CONAPO (2010) Indicadores demográficos básicos, Consejo Nacional de Población disponible en http://www.conapo.gob.mx/ (11 de agosto de 2010) y datos de la Secretaría de Salud de 2000-2008, disponible en http://www.sinais.salud.gob.mx/mortalidad/ (11 de agosto de 2010)

Ejemplo 3

24/30

Figura 9. Tendencia inicial con datos de Aguirre


Ejemplo 3

25/30

Figura 10. Tendencia estimada con información de Aguirre y CONAPO


Ejemplo 3

26/30

Figura 11. Tasas específicas de mortalidad masculina. México2010, Japón2008

Fuente: CONAPO (2010) Indicadores demográficos básicos, http://www.conapo.gob.mx/ (11/agosto/2010) y para Japón disponible en http://www.mortality.org (11/ agosto/2010).

Ejemplo 4

27/30

Figura 12. Tendencia inicial para las tasas específicas de mortalidad en México


Ejemplo 4

28/30

Figura 13. Tendencia estimada con ambas fuentes de información: mexicana y japonesa


Ejemplo 4

29/30

Referencias

Alonso, A. M., Peña, D. y Rodríguez, J. (2009) A Methodology for Population Projections: An Application to Spain, Preprint submitted to CSDA.

Boone, L. (2000) Comparing semi-structural methods to estimate unobserved variables: the HPMV and Kalman Filters approaches, Economics Department Working

Papers, No. 240, OCDE.Brücker, H., Siliverstovs, B. y Trübswetter, P. (2003) International Migration to Germany:

Estimation of a Time-Series Model and Inference in Panel Cointegration, Discussion Papers of DIW Berlin 391, DIW Berlin, German Institute for Economic Research.Carter, L. y Lee. R. (1986) Joint forecasts of US marital fertility, nuptiality, births and marriages using time series models, Journal of the American Statistical Association.CONAPO (2006, 2010) Indicadores demográficos básicos, Consejo Nacional de Población

disponible en http://www.conapo.gob.mx/ (11 de agosto de 2010).George, V., Smith, S., Swason, D. y Tayman, J.(2004) “The Methods and Materials of Demography” in chapter 21, Population Projections, edited by J. Siegel and Swanson, D., ElsevierAcademic Press.Girosi, F. y King, G. (2004) Demographic forecasting, unpublished book. Manuscript downloadable at http://gking. harvard. edu/files/smooth. pdf. Goldsteina, E., Dushoffb, J., Mad, J., Plotkine, J., Earnc, D. y Lipsitcha, M. (2009) Reconstructing influenza incidence by deconvolution of daily mortality time series, Edited by Burton H. Singer, Princeton University, Princeton, NJ.

30/30

30/30

González, C. Y. y Guerrero, V. M. (2007) Pronósticos estadísticos de mortalidad y su impacto sobre el Sistema de Pensiones en México. Trabajo ganador del 1er. Lugar en el Premio de Pensiones 2007. http://www.consar.gob.mx/premio_pensiones/pdf2007/Guerrero, V. M. (2008) Estimating Trends with Percentage of Smoothness Chosen by the

User. International Statistical Review, 76, 187–202.Guerrero, V. M. y Silva, E. (2010) Non-parametric and Structured Graduation of Mortality

Rates. Population Review Volume 49, Number 2, 13-26.Guerrero, V. M., Juárez, R. y Poncela, P. (2001) Data graduation based on statistical time

series methods, Statistics and Probability Letters, 52, 169-175.Haberman, S. y Renshaw, A. (1996) Generalized linear models and actuarial science, TheStatistician, 45, 407-436.Hodrick, R. y Prescott, E. (1997) Post-war U.S. business cycles: an empirical investigation,

Journal of Money, Credit and Banking, 29, 1-16.Hyndman, R. J. y H. Booth (2008) Stochastic Population Forecasts Using Function Data

Models for Mortality, Fertility, and Migration, International Journal of Forecasting, 24, 323-342.Jeon, Y. y Shields, M. (2008) The Impact of Relative Cohort Size on U.S. Fertility, 1913-2001,IZA Discussion Papers 3587, Institute for the Study of Labor (IZA).Keilman, N., Pham, D. y A. Hetland (2002) Why Population Forecasts Should be Probabilistic – Illustrated by the Case of Norway, Demographic Research, 6, 409-454.Land, K. y Cantor, D. (1983) ARIMA Models of Seasonal Variation in U.S. Birth and Death

Rates, Demography, 20, 541-568.

Referencias

30/30

Laporte, A. y Ferguson, B. (2003) Income inequality and mortality: time series evidence from Canada, Journal of Infection and Public Health, 66, 107-117.

Laxton, D. y Tetlow, R. (1992) A simple multivariate filter for the measurement of potential output, Bank of Canada Technical Report 59, Bank of Canada.

Lee, R. y Carter, L. (1992) Modeling and Forecasting U.S. Mortality, Journal of the American Statistical Association, 87, 659-675.

Lee, R. y Tuljapurkar, S. (1994) Stochastic population projections for the United States: Beyond high, medium and low, Journal of the American Statistical Association, 89, 1175–1189.

McNown, R. y Rajbhandary, S. (2003) Time series analysis of fertility and female labor market behavior, Journal of Population Economics, Springer, 16, 501-

523.McNown, R. y Rogers, A. (1992) Forecasting Cause-Specific Mortality Using Time

Series Methods. International Journal of Forecasting, 8, 413-432.Okita, Y., Pfau, W. y Thanh, G (2009) A Stochastic Forecast Model For Japan’s

Population, Discussion Paper:09-06.Thompson, P., Bell, W., Long, J. y Miller R. (1989) Multivariate time series projections of parametrized age-specific fertility rates, Journal of the American

Statistical Association, 84, 689-699.Tuljapurkar, Shripad, Ronald Lee, y Qi Li. (2004) Random scenario forecasts versus

stochastic forecasts, International Statistical Review, 72, 185–199.

Referencias

graduación no-paramétrica, con suavidad y estructura impuestas por el analista: aplicaciones...

Documents