suavizando los histogramas

2
GACETA SANITARIA/MARZO-ABRIL, 1998, VOL. 12, NÚM. 2 93 Sr. Director: Hemos leído con interés la excelente revisión de Sánchez- Cantalejo y Ocaña-Riola 1 . Los autores presentan de una mane- ra clara y comprensible los métodos de regresión no para- métrica y su utilización como métodos de diagnóstico en los modelos de regresión paramétrica. Tal y como indican los auto- res, debido a la amplia disponibilidad del software actual, las técnicas de alisamiento están siendo cada vez más utiliza- das en la actualidad para estudiar los problemas relaciona- dos con la salud. Nuestro objetivo es ampliar, en la medida de lo posible, la revisión Sánchez-Cantalejo y Ocaña-Riola 1 presentando la técnica de alisamiento, o suavizado, para representaciones gráficas univariantes. Dentro de estos gráficos, el histograma el más utilizado para representar distribuciones univariantes con la finalidad de estimar la función de densidad de la varia- ble a estudiar. Por ejemplo, consideremos una cierta varia- ble aleatoria X con función de densidad f y supongamos que disponemos de una muestra aleatoria, x1,......,x,, (de valores 1,5, 2,5, 3,2, 3,3, 3,7, 3,9, 5, 5,5, 6,5 y 7), extraída de la fun- ción de densidad desconocida f . La utilización del histogra- ma como estimador de funciones de densidad presenta algu- nas limitaciones dependiendo del contexto en que se utiliza, por ejemplo en el análisis discriminante las discontinuidades que se dan en el histograma causan muchas dificultades si se necesitan calcular las derivadas de los estimadores 2 . Por otro lado, la representación gráfica del histograma tradicional depende en gran medida del punto x 0 que se considera como origen, así como del número y la amplitud de los intervalos de clase 3 , tal y como presentamos con los datos del ejemplo (figuras 1a, 1b y 1c). La alternativa al histograma es utilizar el estimador naive. Podemos deducir la expresión de este estimador a partir de la definición de densidad de probabilidad. Si la variable alea- toria X tiene por función de densidad f, entonces 1 f (x) = lim P (x – h < X < x + h) h 0 2h Así, un estimador ˆ f para nuestra función desconocida f, será 1 ˆ f (x) = * k 2hn (donde k es el número de observaciones generadas en el inter- valo (x – h, x + h), eligiendo un valor pequeño para h (que normalmente varía entre 0 y 1). Este estimador es lo que se CARTA AL DIRECTOR Suavizando los histogramas Gac Sanit 1998;12:93-94 Figura 1. Histograma tradicional (según el número de intervalos de clase, j), e histograma suavizado con una función kernel Gaussiana (según el parámetro de alisamiento, h) 1.5 x x 7 1.5 Fraction Fraction Fraction 1a.j = 5 1b.j = 7 1c.j = 9 1d.h = 3 572 Midpoints 8.14 –6 Midpoints 9.6 –2.16 Midpoints 11.7 1e.h = 6 1f.h = 9 x 7 1.5 7 2 0 388454 0 283546 0 207045 0 3 0 2 0 Density Density Density

Upload: hadang

Post on 02-Jan-2017

216 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Suavizando los histogramas

CARTA AL DIRECTOR

Gac Sanit 1998;12:93-94

Suavizando los histogramas

Sr. Director:Hemos leído con interés la excelente revisión de Sánchez-

Cantalejo y Ocaña-Riola1. Los autores presentan de una mane-ra clara y comprensible los métodos de regresión no para-métrica y su utilización como métodos de diagnóstico en losmodelos de regresión paramétrica. Tal y como indican los auto-res, debido a la amplia disponibilidad del software actual, lastécnicas de alisamiento están siendo cada vez más utiliza-das en la actualidad para estudiar los problemas relaciona-dos con la salud.

Nuestro objetivo es ampliar, en la medida de lo posible,la revisión Sánchez-Cantalejo y Ocaña-Riola1 presentando latécnica de alisamiento, o suavizado, para representacionesgráficas univariantes. Dentro de estos gráficos, el histogramael más utilizado para representar distribuciones univariantescon la finalidad de estimar la función de densidad de la varia-ble a estudiar. Por ejemplo, consideremos una cierta varia-ble aleatoria X con función de densidad f y supongamos quedisponemos de una muestra aleatoria, x1,......,x,, (de valores1,5, 2,5, 3,2, 3,3, 3,7, 3,9, 5, 5,5, 6,5 y 7), extraída de la fun-ción de densidad desconocida f . La utilización del histogra-ma como estimador de funciones de densidad presenta algu-nas limitaciones dependiendo del contexto en que se utiliza,

GACETA SANITARIA/MARZO

9

por ejemplo en el análisis discriminante las discontinuidadesque se dan en el histograma causan muchas dificultades sise necesitan calcular las derivadas de los estimadores2. Porotro lado, la representación gráfica del histograma tradicionaldepende en gran medida del punto x0 que se considera comoorigen, así como del número y la amplitud de los intervalosde clase3, tal y como presentamos con los datos del ejemplo(figuras 1a, 1b y 1c).

La alternativa al histograma es utilizar el estimador naive.Podemos deducir la expresión de este estimador a partir dela definición de densidad de probabilidad. Si la variable alea-toria X tiene por función de densidad f, entonces

1f (x) = lim — P (x – h < X < x + h)

h → 0 2h

Así, un estimador f̂ para nuestra función desconocida f,será

1f̂ (x) = —* k

2hn

(donde k es el número de observaciones generadas en el inter-valo (x – h, x + h), eligiendo un valor pequeño para h (quenormalmente varía entre 0 y 1). Este estimador es lo que se

Figura 1. Histograma tradicional (según el número de intervalos de clase, j), e histograma suavizado con una función kernelGaussiana (según el parámetro de alisamiento, h)

1.5 x x71.5

Frac

tion

Frac

tion

Frac

tion

1a.j = 5 1b.j = 7 1c.j = 9

1d.h = 3

572 Midpoints 8.14 –6 Midpoints 9.6 –2.16 Midpoints 11.7

1e.h = 6 1f.h = 9

x 7 1.5 7

2

0

388454

0

283546

0

207045

0

3

0

2

0

Dens

ity

Dens

ity

Dens

ity

-ABRIL, 1998, VOL. 12, NÚM. 2

3

Page 2: Suavizando los histogramas

conoce como estimador naive. La expresión anterior puedeser escrita de la siguiente forma

1 n 1 x – xif̂ (x) = — Σ — w (—) siendo w(x) = n i = 1 h h

Podemos pensar que este estimador es un intento de cons-truir un histograma donde cada punto es el centro de su res-pectiva clase, logrando así que no dependa tanto de la elec-ción del origen. La elección de la amplitud de cada clasedepende del parámetro h, que controla el valor mediante elcual los datos son suavizados. La generalización del estimadornaive es el estimador kernel. Sustituyendo la función w porla función kernel K, el estimador kernel se define como

1 n x – xif̂ (x) = — Σ (—) nh i = 1 h

donde h es el parámetro de alisamiento. La función K determi-na la forma de estas funciones mientras que el parámetro h deter-mina su amplitud. Pero así como la elección de la función K (rec-

1—20

x < 1

c.c{

CARTA A

9

tangular, triangular, Gaussiana o Epanechinkov) no influye demanera sustancial3, la adecuada elección del parámetro h es muyimportante. Si elegimos un valor muy pequeño de h, introduci-mos ruido inherente al sistema (figura 1d) pero si lo elegimos dema-siado grande, entonces el estimador kernel será demasiado sua-vizado y características importantes, como la multimodalidad delos datos, podrían quedar ocultadas (figura 1f). Es por ello quela elección del parámetro h siempre involucra un balance com-parativo entre estas dos consideraciones3, 4 (figura 1e).

Como conclusión, el histograma suavizado evita algunosde los problemas más frecuentes que se encuentran con loshistogramas tradicionales, representando con mayor claridadla naturaleza continua de los datos. Su construcción con elsoftware actual resulta tan sencilla como la del histograma tra-dicional, en especial con el paquete estadístico STATA5, 6. Sinembargo su forma final todavía se ve afectada, aunque enmenor medida respecto al histograma tradicional, por dos deci-siones relativamente arbitrarias, la elección de la función ker-nel y del parámetro de alisamiento.

Bibliografía

1. Sánchez-Cantalejo E, Ocaña Riola R. Actualizaciones en regresión: suavizando las relaciones. Gac Sanit 1997;11:24-32.2. Härdle W. Smoothing Techniques, with Implementation in S. NewYork: Springer-Verlag; 1991.3. Jacoby WG. Statistical Graphics for Univariate and Bivariate Data.CA: Sage; 1997.

4. Salgado-Ugarte IH, Shimizu M, Taniuchi T. snp6.2: Practical rulesfor bandwidth selection in univariate density estimation. Stat Techni-cal Bulletin 1995;25:5-19.5. Salgado-Ugarte IH, Shimizu M, Taniuchi T. snp6: Exploring the shapeof univariate kernel density estimators. Stat Technical Bulletin1993;16:8-19.6. Salgado-Ugarte IH, Shimizu M, Taniuchi T. snp6.1: WARPing andkernel density estimation for univariate data. Stat Technical Bulletin1995;26:23-31.

L DIRECTOR

4