libro de rene de estad no parametrica1

101
MÉTODOS DE INFERENCIA ESTADÍSTICA NO PARAMÉTRICOS Prof. René Armando Peña Aguilar Facultad de Ciencias Naturales y Matemática Escuela de Matemática Departamento de Estadística Universidad de El Salvador Septiembre de 2009 Índice general

Upload: jaimeisaac

Post on 25-Sep-2015

4 views

Category:

Documents


0 download

DESCRIPTION

excelente libro de estadistica no parametrica desde un punto de vista demostrativo

TRANSCRIPT

1

PAGE 27

MTODOS DE INFERENCIA ESTADSTICA NO PARAMTRICOSProf. Ren Armando Pea AguilarFacultad de Ciencias Naturales y Matemtica

Escuela de MatemticaDepartamento de Estadstica

Universidad de El Salvador

Septiembre de 2009

ndice general3Prefacio

5Captulo 1. Estadsticos de orden y los Cuantiles

51.1. Transformaciones de probabilidades continuas.

111.2. Estadsticos Ordenados

131.3. Distribucin conjunta de los estadsticos de orden

161.4. Distribuciones marginales de los estadsticos de orden

201.5. Los cuantiles.

231.6. Prueba de hiptesis para los cuantiles

27Captulo 2. Contrastes no paramtricos Clsicos

272.1. Introduccin

272.2. Contrastes de bondad de ajuste

272.2.1. La funcin de distribucin emprica

312.2.2. La prueba Chi-cuadrada

342.2.3. El contraste de Kolmogorov-Smirnov.

362.2.4. Bondad de ajuste a un modelo paramtrico

362.3. Contrastes de localizacin en una muestra o en dos muestras apareadas

382.4. El test del signo

392.5. Test de Wilcoxon de los rangos signados

422.6. Comparacin de dos muestras independientes

422.7. Test de Kolmogorov-Smirnov para dos muestras

442.8. Test de Mann-Whitney-Wilcoxon

462.9. Ms de dos muestras independientes: Test de Kruskal-Wallis

472.10. Muestras relacionadas: Test de Friedman

482.11. Medida de la dependencia

2.11.1. Coeficiente de Kendall49

502.11.2. Coeficiente de correlacin de rangos de Spearman

522.12. Comentarios finales

54Captulo 3. Estimacin no paramtrica de la densidad

543.1. La estimacin de la densidad

553.2. El histograma como estimador de la densidad

563.2.1. Motivacin del histograma como estimador de la densidad

563.2.2. Caractersticas del histograma

583.2.3. Propiedades locales del estimador histograma

613.2.4. Propiedades globales del estimador histograma

623.2.5. Eleccin del parmetro de suavizado b

643.3. Estimador ncleo de la densidad

683.3.1. Comportamiento asinttico del estimador ncleo de la densidad

753.3.2. Problemas de los estimadores ncleo y algunas soluciones

77Referencias

PrefacioModelos paramtricos versus no paramtricos

Sea X variable aleatoria con distribucin de probabilidad dada por la funcin de distribucin F. Diremos que la v.a. X sigue un MODELO PARAMTRICO si su distribucin de probabilidad F pertenece a una familia de distribuciones indexada por un parmetro de dimensin finita:

La familia de distribuciones recibe el nombre de modelo estadstico parametrico.

Diremos que la v.a. X sigue un modelo estadstico no paramtrico si sobre su distribucin F nicamente se suponen algunas condiciones de regularidad. Algunos ejemplos de estas condiciones son los siguientes:

F es una funcin de distribucin absolutamente continua,

F es simtrica en torno a su mediana,

F tiene funcin de densidad f con dos derivadas continuas.

Las restricciones impuestas sobre F indican por un parmetro de dimensin finita).Mtodos no paramtricos

Son mtodos de inferencia estadstica vlidos cuando no se hacen hiptesis paramtricas sobre la distribucin de los datos. Distinguiremos dos familias de mtodos. La primera fue desarrollada principalmente en las dcadas de los 40 y 50 del siglo XX, y la segunda en el ltimo tercio de ese siglo.

Mtodos no paramtricos clsicos

Tienen por objetivo hacer inferencia sobre la distribucin de probabilidad F de X o sobre alguna caracterstica suya que est bien definida sea cual sea la distribucin F (por ejemplo, la mediana o el rango intercuartlico de F). Como no se conoce la distribucin F los mtodos que se proponen se basan en estadsticos cuya distribucin en el muestreo no depende de F. Por ello se conocen como mtodos libres de la distribucin de los datos, o mtodos de distribucin libre (una mala traduccin del trmino distribution-free en ingls).

Estos son los mtodos que trataremos en los Captulo 1 y Captulo 2. Concretamente nos centraremos en contrastes de hiptesis no paramtricos.

Estimacin no paramtrica de curvas

Son tcnicas que permiten estimar funciones relacionadas con la distribucin de probabilidad de los datos. Por ejemplo se puede tener inters en estimar la funcin de distribucin F(x), la funcin de densidad f(x), la tasa de fallo , la funcin de regresin o la varianza condicional . A estas tcnicas se dedicarn los siguientes 3 captulosCaptulo 1. Estadsticos de orden y los Cuantiles1.1. Transformaciones de probabilidades continuas.

a) Sea una muestra de variables aleatorias continuas con funcin de probabilidad conjunta que no se anula en la regin -dimensional .

Definimos la transformacin

Una transformacin biunvoca de en , es decir, existe la transformacin inversa definida sobre el recorrido de la transformacin,

b) Suponemos que tanto la transformacin como su inversa son continuas.

c) Suponemos que existen las derivadas parciales

,,,; ,,,; ; ,,,y que son continuas

d) Suponemos que el jacobiano de la transformacin

Es distinto de cero en el recorrido de la transformacin.

Pues bien, bajo estas hiptesis, la variable aleatoria dimensional es continua y tiene por funcin de densidad conjunta.

Ejemplo 1.1

Veamos un ejemplo enfocado a las transformaciones de funciones de probabilidades continuas en el caso particular n=2.

Sea una variable aleatoria bidimensional uniformemente distribuida en el crculo unidad. Sea la variable aleatoria

Determinar la funcin de densidad conjunta del vector .

1 Se debe determinar la funcin de densidad conjunta .

Hagamos un bosquejo previo en los reales para tener una idea de la funcin de densidad conjunta en .

La distribucin uniforme esta determinada de la siguiente manera

Grficamente tenemos

Entonces si la imagen de esta funcin es el rea (A) de esa regin se determina base por altura = la distancia de a hasta b por la altura de la imagen de esa funcin ; entonces tenemos . Adems se esta comprobando uno de las condiciones para que sea una funcin de densidad ya que el rea es 1.

Ahora , volvemos al anlisis del ejemplo anterior.

Nos interesa conocer el volumen de la regin del cilindro, que viene dada por:

= , donde R=1 entonces

= Para que el volumen nos de 1 la altura tendr que valer . Determinamos el V as

V= h. V= =1

A su vez demostramos que es una funcin de densidad, ya que su volumen nos da 1 y es una funcin no negativa. Por tanto, determinamos la funcin de densidad bidimensional uniformemente como.

Siguiendo la definicin se debe encontrar las transformaciones inversas, en este caso nos auxiliamos de las transformaciones polares para lograr tal objetivo.

Sea

Ahora, la transformacin inversa, es:

Finalmente quedan determinadas las transformaciones inversas en trminos de .

Evidentemente, estas transformaciones inversas son continuas.

Se determina las derivadas parciales con respecto a la transformacin inversa encontradas anteriormente y se tienen.

Observe que las derivadas parciales encontradas son continuas.

Determinamos el Jacobiano

As, la funcin de densidad del vector ser

O equivalentemente,

Ahora para el caso n = 1

Si es una variable aleatoria continua con funcin de densidad de probabilidad que satisface ( 0 para ( ( , y es una funcin de continua estrictamente creciente o estrictamente decreciente, entonces la variable aleatoria tiene la funcin de densidad.

Con expresada en trminos de y.

Ejemplo 1.2Sea una variable aleatoria con dominio y funcin de densidad

Sea la variable aleatoria transformada.

En esta situacin es una funcin estrictamente creciente sobre el rango y la funcin inversa ser la siguiente

Es continua, y est definida si . As pues, es una variable aleatoria continua con dominio y funcin de densidad

1.2. Estadsticos Ordenados

Sea una muestra aleatoria de una poblacin con funcin de distribucin acumulada continua . Dado que es continua, la probabilidad de que , es igual a cero, para todo . Por lo tanto, existe un nico orden dentro de la muestra. Supongamos es el ms pequeo de estos valores ; es el segundo ms pequeo, etc.; y es el ms grande. Entonces

La muestra aleatoria original esta ordenada en forma creciente, y as se definen en trminos generales los estadsticos de orden de muestras aleatorias . El para, se llama el r-simo estadstico de orden. El asunto de las estadsticas de orden generalmente se trata con las propiedades de o funciones de algn subconjunto de los estadsticos de orden.

Las estadsticas de orden son particularmente tiles en la estadstica no Paramtrica porque la transformacin produce una variable aleatoria que es el r- simo estadstico de orden para una poblacin uniforme en (0,1). Sin tener en cuenta a ya que no se tiene alguna suposicin de , por consiguiente es de distribucin libre. Esta propiedad se debe a la llamada transformacin de probabilidad integral, que se demuestra en el siguiente teorema.

Teorema 1.1. Transformacin de Probabilidad integral

Dado una variable aleatoria tenemos una funcin de distribucin acumulada . Si es continua, entonces la variable aleatoria producida de la transformacin tiene una distribucin de probabilidad uniforme en el intervalo (0,1).

Prueba.

Se tiene que para todo, tenemos para y para . Para , se define como el nmero ms grande satisfaciendo . Entonces si solo si , y se tiene que

que es una distribucin uniforme.

Como consecuencia de este teorema, podemos concluir que si es una muestra aleatoria para una poblacin con distribucin continua , entonces constituye una muestra aleatoria para una poblacin uniforme. De manera similar, si son los estadsticos de orden de la muestra original, entonces.

Son los estadsticos de orden de la distribucin uniforme sobre (0,1).

Una aplicacin prctica importante de las distribuciones de las transformaciones de probabilidad- integral es la generacin de observaciones de distribuciones de probabilidad continua especficas. Por ejemplo, supngase que generamos una observacin para una distribucin exponencial con media 2. Podemos hacer lo siguiente. La funcin de distribucin continua (fcd) de es , y por el Teorema 1.1 la transformacin de la variable aleatoria esta distribuida en , una observacin de la distribucin uniforme en el intervalo (0,1). Haciendo y resolviendo para . Usando un generador de nmeros aleatorios (los paquetes estadsticos o calculadores de bolsillo pueden proporcionarlo), obtenemos y entonces el valor deseado de la transformacin . Otras aplicaciones de la transformacin de probabilidad integral son dados en el tema 1.5.2. Para cada muestra aleatoria queremos generar una o ms de una distribucin de probabilidad continua especfica, podemos generar una muestra aleatoria de la distribucin uniforme (0,1) y aplicar la transformacin apropiada a cada observacin en la muestra.

Algunas aplicaciones conocidas de estadsticos de orden que son obvias se muestran a continuacin:

1. , es el valor mximo en la muestra, es de inters en el estudio de inundaciones y otros fenmenos extremos meteorolgicos.

2. , es el mnimo valor, son usados para fenmenos donde, por ejemplo, la fuerza de una cadena depende del eslabn ms dbil.

3. La mediana muestral, definida como para impar y, cualquier nmero entre y para par, es una medida de localizacin y una estimacin de la tendencia central.

4. El rango medio de la muestra, es definido como , es tambin una medida de tendencia central.

5. El rango muestral es una medida de dispersin.

6. El rango intercuartil de la muestra es tambin una medida de dispersin.

7. En muestras censuradas, el proceso de muestreo algunas veces termina despus de completar las r observaciones de . Por ejemplo, en la prueba de la duracin de un bombillo elctrico, uno puede comenzar con un grupo de bombillas pero detenerse antes de que salga el bombillo quemado. Entonces la informacin slo sta disponible en donde .

8. Los estadsticos de orden son usados para estudiar datos atpicos (outleirs) o valores extremos, es decir, llamados valores contaminados (manipulados) son datos sospechosos.

El estudio de los estadsticos de orden en este tema, esta limitado a sus propiedades matemticas y estadsticas, incluyendo la distribucin de probabilidad conjunta, distribucin de probabilidad marginal, momentos exactos, momentos asintticos y distribuciones marginales asintticos. 1.3. Distribucin conjunta de los estadsticos de orden

Sea una muestra aleatoria independiente e idnticamente distribuida tomada de la poblacin continua con una funcin de densidad de probabilidad , la funcin de probabilidad conjunta es:

La distribucin conjunta de las estadsticas de orden para esta muestra aleatoria no es la misma, dado que las estadsticas de orden, obviamente no son ni independiente ni idnticamente distribuidas. Estas distribuciones son fciles de derivar, usando el mtodo de las transformaciones.

Por ejemplo:

Para , supongamos que la muestra esy se tiene la transformacin:

= mn = mx

Ahora, otra posible transformacin es:

= mn = mx

En general, el nmero de transformaciones posibles sern . Para n=3, se tendran que analizar 3!= 6 transformaciones posibles, as como se hizo en n=2. El objetivo es que los determinantes de todas las transformaciones posibles, siempre sean -1 1.

De manera general, si se tiene una muestra definimos los estadsticos de orden:

= el ms pequeo de ()

= segundo ms pequeo de ()

= r-simo ms pequeo de ()

= el ms grande ()

Estas transformaciones no son de uno a uno. En efecto, ya que es el nmero posible de arreglos de la variable aleatoria original en orden creciente y de magnitud, entonces existen inversos para la transformacin.

Una de estas permutaciones podra ser

Y las correspondientes transformaciones inversas son

Como ya enfatizamos anteriormente, el Jacabiano de esta transformacin puede resultar ser -1 1. As, la funcin de densidad conjunta de las variables aleatorias en estas transformaciones particulares sera: para Esta misma expresin resulta para cada uno los arreglos, puesto que cada Jacobiano tiene valores absolutos 1 y la multiplicacin es conmutativa. Por lo tanto, aplicamos la tcnica general del Jacobiano descrito en el tema anterior, resulta lo siguiente.

=

para , donde n! es el nmero de transformaciones inversas.

En otras palabras, la funcin de densidad conjunta de las estadsticas de orden es de la distribucin conjunta de la muestra original. Por ejemplo, para una muestra aleatoria de tamao para una distribucin normal, tenemos:

para 1.4. Distribuciones marginales de los estadsticos de orden

El mtodo usual para encontrar la distribucin marginal de cualquier variable aleatoria puede ser aplicado al estadstico de orden por integracin entre las restantes variables conjunta encontrada .Para el elemento ms grande de la muestra,, se tiene:

Similarmente, para los pequeos elementos,,

.

Para el estadstico de orden, se tiene: el orden de integracin que son ms fciles de trabajar seguido por , de modo que

.

Teorema 1.2.

Prueba. Comenzamos recordando que

De manera similar:

Si se sigue con la integracin por partes, llegaramos a:

Clculo de la para la -sima estadstica de orden.

Caso 1:

En este caso, de la muestra exactamente de estos valores sern menores o iguales que y sern mayores que , es decir:

el nmero de grupos con elementos que se pueden elegir de entre son:

as,

Caso 2:

En este caso las opciones son:

.

.

.

Las probabilidades respectivas son

As,

Pero, por el Teorema 1.2, se tiene:

De manera particular se tiene:

Para : Para :

Que son las distribuciones de los estadsticos de orden el mnimo y el mximo respectivamente.

1.5. Los cuantiles.

Un cuantil de una funcin de probabilidad continua de la variable aleatoria X es un nmero real que divide el rea bajo la funcin de densidad de probabilidad en dos partes de especficas cantidades de rea. Slo el nmero del rea de la izquierda necesita ser especificado ya que la cantidad de rea por la derecha es el complemento de 1. Denotemos por el -simo cuantil o cuantil de orden para todo . En trminos de la funcin de distribucin acumulativa es el nmero real que es una solucin de la ecuacin

asumiendo que existe una nica solucin para cualquier en . El cuantil es un parmetro de la poblacin . Por ejemplo, es la mediana de la poblacin que es una medida de tendencia central.

Una definicin del -simo cuantil muestral que proporciona un nico nmero que es una estadstica de orden de la muestra para algunos y elegidos, es decir

donde

y denota el entero ms grande que no excede a .. Esta forma de definir los cuantiles maestrales no la nica, muchas veces es costumbre adoptar otras definiciones.

Sin embargo, el punto estimado no nos afecta en lo que sigue aqu.

En la lgica de construccin de los intervalos de confianza los puntos lmites son dos estadsticas de orden de una muestra aleatoria de extracciones de la poblacin . En otras palabras, precisamente encontramos dos nmeros, digamos y , donde , tal que

para algn nmero tal que . Ahora el evento ocurre si y slo si cualquiera de los eventos o se da, esto dos ltimos eventos son claramente mutuamente excluyentes. As, para , se tiene

o, equivalentemente,

Por otro lado, tenemos:

Pero, por definicin , por tanto, sustituyendo este valor en y utilizando la integracin por partes para la tenemos:

Por el Teorema 1.2. se tiene:

Es decir, es expresada como la suma de los ltimos trminos de la binomial de parmetros para la cual las tablas de probabilidades acumuladas son ms comunes.

Por lo tanto tenemos:

Esta expresin es usada para determinar tal que es un mnimo para un nivel de significancia fijo.

1.6. Prueba de hiptesis para los cuantilesDeseamos probar hiptesis como:

, es decir, si el cuantil p-simo de una poblacin con funcin de distribucin acumulativa no especificada es . Donde y son nmeros especficos.

Si la hiptesis alternativa es

una regin apropiada de rechazo sera

As, para un nivel de significancia especfico, debera ser escogido tal que

Sin embargo, si y slo si hay la menos signos positivos entre las diferencias .

La prueba anterior es equivalente a la regin de rechazo de la forma:

donde la variable aleatoria representa el nmero de diferencias positivas para . Estas diferencias son independientes y la probabilidad de un signo positivo bajo es

y por tanto debe ser escogido sobre la satisfaccin de

el cual determina el mismo como la prueba anterior.

Por otro lado, si la hiptesis alternativa es , la apropiada regin de rechazo es don de satisface

Tambin, la hiptesis alternativa puede ser de dos lados , si este es el caso, la apropiada regin de rechazo es donde satisfacen

EMBED Equation.DSMT4 y

Ejemplo 1.3. El Ministerio de Educacin supone que el percentil 75 de las calificaciones de la PAES para el ao 1999 fue de 693. Con la siguiente muestra aleatoria de calificaciones 690, 750, 680, 700, 660, 710, 720, 730, 650, 670, 740, 730, 660, 750,690 contrastar dicha suposicin.

Solucin. Las hiptesis a contrastar son

a un nivel de significancia de se tiene que los valores de y que satisfacen

y

sin llegar a exceder a son y . Las probabilidades sin llegar a exceder son 0.0173 y 0.0134 respectivamente. La apropiada regin critica es entonces

y el nivel exacto es (0.0173 + 0.0134) = 0.0307

Resumiendo, tenemos:

Nmero de diferencias positivas = 8

que est en la regin de rechazo y es rechazada, es decir, el percentil 75 no puede ser 693.

Por otro lado, el intervalo de confianza con al menos 95% de confianza es

en este caso el nivel de confianza exactamente es 97.32%. Obviamente, este intervalo muestra tambin que debe rechazarse y sugiere que el percentil 75 debe ser mayor 693, es decir,, es decir, podra ser .

Para muestras de tamao podemos ocupar la aproximacin normal de la binomial, puesto que para

entonces, si la hiptesis alternativa es

Sabemos que la regin de rechazo es

tal que

Empleando la correccin de continuidad, esta regin es equivalente a la regin

tal que

Pero esta a la ves equivalente a la regin

Por lo tanto

, es decir,

As, la regin de rechazo es siempre para

Si la hiptesis alternativa es

Como antes podemos ver que la regin de rechazo es

Si la hiptesis alternativa es

Las regiones de rechazo son

Captulo 2. Contrastes no paramtricos Clsicos

2.1. Introduccin

En este captulo presentamos algunos de los contrastes de hiptesis no paramtricos clsicos. Todos tienen en comn que no precisan hacer hiptesis paramtricas sobre la distribucin de probabilidad F de los datos, pues se basan en estadsticos cuya distribucin en el muestreo no depende de F.

Son por tanto contrastes libres de la distribucin de los datos (distrbution-free tests).

Veremos en primer lugar contrastes de bondad de ajuste basados en la distribucin emprica de los datos. Despus veremos contrastes de localizacin para una muestra (o para dos muestras apareadas), contrastes que igualdad de dos muestras, versiones no paramtricas de los contrastes ANOVA clsicos

y, por ltimo, medidas no paramtricas de la dependencia entre dos variables.

2.2. Contrastes de bondad de ajuste

Nos planteamos el problema de saber si una variable aleatoria sigue o no una distribucin determinada. Sea X v.a. con funcin de distribucin F desconocida. Sea una funcin de distribucin conocida. Se desea contrastar

Para ello se dispone de una muestra aleatoria simple (m.a.s.) de X. Tambin consideramos las hiptesis alternativas unilaterales , o .

Vamos a estudiar el contraste de Kolmogorov-Smirnov (existen otras formas de realizar contrastes de bondad de ajuste, por ejemplo los contrastes de la , basados en la categorizacin de los datos).

El contraste de Kolmogorov-Smirnov se basa en calcular una distancia entre la funcin de distribucin emprica de los datos, , y la funcin de distribucin postulada bajo . Recordemos la definicin y propiedades de la funcin de distribucin emprica.

2.2.1. La funcin de distribucin emprica

Sea la variable aleatoria X con funcin de distribucin F. Consideramos una muestra aleatoria simple de tamao n de X, es decir, v.a.i.i.d. con distribucin dada por F. Sea una realizacin de esa m.a.s.

Se llama funcin de distribucin emprica a la funcin

donde

que a cada nmero real x le asigna la proporcin de valores observados que son menores o iguales que x. Es inmediato comprobar que la funcin as definida es una funcin de distribucin:

Concretamente, es la funcin de distribucin de una variable aleatoria discreta (que podemos llamar ) que pone masa en cada uno de los n puntos observados:

. . .

1/n 1/n . . . 1/n

A la distribucin de se le llama distribucin emprica asociada al conjunto de valores .

Obsrvese que si fijamos el valor de x y dejamos variar la muestra, lo que obtenemos es una variable aleatoria. En efecto, se tiene entonces que

donde

y, por lo tanto, cada trmino es una variable aleatoria de Bernoulli con probabilidad de xito

De ah se deduce que es es una variable aleatoria y que tiene distribucin binomial con parmetros n y p = F(x).

De lo anterior se sigue que la funcin de distribucin emprica es un proceso estocstico: si consideramos un espacio probabilstico donde estn definidas las sucesiones de variables aleatorias a partir de las cuales defniremos la funcin de distribucin emprica, tenemos que

Fijado es una variable aleatoria. Fijado es una funcin de distribucin (en la notacin usual se omite la dependencia de ). Por lo tanto, la funcin de distribucin emprica es una funcin de distribucin aleatoria.

El siguiente teorema recoge algunas de las propiedades de la funcin de distribucin emprica.

Teorema 2.1. Sea , sucesin de variables aleatorias independientes e idnticamente distribuidas defnidas en el espacio de probabilidad con funcin de distribucin comn F. Se denota por la funcin de distribucin emprica obtenida de las primeras variables aleatorias .

Sea . Se verifica lo siguiente:

donde Z es una variable aleatoria con distribucin normal estndar y la convergencia es convergencia en distribucin.

Demostracin: Los apartados (a) y (b) son consecuencia inmediata del hecho de que . Por otro lado, si definimos , se tiene que , la media aritmtica de las variables aleatorias . As, el apartado (c) es una aplicacin inmediata de la ley fuerte de los grandes nmeros y el apartado (d) es consecuencia del teorema central de lmite.

El siguiente teorema refuerza el resultado (c) anterior, puesto que afirma que la convergencia de a F(x) se da uniformemente.

Teorema 2.2. (Teorema de Glivenko-Cantelli) Sea una sucesin de variables aleatorias independientes e identicamente distribuidas definidas en el espacio de probabilidad con funcin de distribucin comn F. Se denota por la funcin de distribucin emprica obtenida de las n primeras variables aleatorias . Entonces,

.

La demostracin: No la presento en este tecto, pero, puede revisarse en Vlez y Garca

(1993), p. 36. (otras demostraciones pueden encontrarse en Garca-Nogales 1998, p. 88, y en Cristbal 1992, p. 66).

Ejemplo 2.1.En la figura 2.1. siguiente se muestra la funcin de distribucin de una variable aleatoria N(0; 1) y la funcin de distribucin emprica de dos muestras de esa variable aleatoria una de tamaoo n = 10 (la ms alejada de la terica) y la otra de tamao n = 100. Se aprecia que cuando n crece la proximidad entre la funcin de distribucin emprica y la terica es cada vez mayor.

Fig. 2.1. Grfico de las distribuciones empricas y terica.

:2.2.2. La prueba Chi-cuadrada.Muchas veces, tenemos una muestra aleatoria de tamao de una caracterstica de inters que como poblacin tiene una que desconocemos. La escala de medida para es al menos la nominal. Por diferentes razones, como el poder hacer inferencias y otras, necesitamos caracterizar la funcin de distribucin para lo cual es necesario hacer el siguiente contraste.

contra la alternativa

La estadstica de prueba para este tipo de hiptesis es:

que asintticamente tiene una distribucin chi-cuadrada con grados de libertad.

Donde es el nmero de parmetros que se estiman si es necesario para especificar completamente a. Para muestras con grande, se pueden ordenar los datos en categoras o clases observando una frecuencia en cada una de estas categoras. Los representan en este caso las frecuencias esperadas de la categora i-sima bajo el modelo de la hiptesis nula y se calculan por:

En este procedimiento, debe cumplirse lo siguiente:

Adems cada deben ser mayor o igual que 5, si esto no se cumple, deben de unirse cada una de estas categoras a categoras adyacentes a modo de obtener lo requerido.

La regin de rechazo para este tipo de prueba es la cola superior de la chi-cuadrada

Fig. 2.2. Distribucin chi-cuadrada y regiones de aceptacin y de rechazoEjemplo 2.2. En el control de calidad de un proceso de produccin se desea estudiar el nmero de defectuosos que se producen. Para este estudio se tomaron 50 muestras de tamao 13 y el nmero de defectuosos que se obtuvieron es como sigue

Nmero de defectuososNmero de muestras

010

124

210

34

41

51

6 ms0

Probar las hiptesis nulas al nivel 0.05 que el nmero de defectos sigue

(a) La distribucin de Poisson.

(b) La distribucin binomial.

Solucin.

(a) Se ocupar el modelo de Poisson con .Defectuosos

010100.272513.62513.6250.9644

124240.354317.71517.7152.2298

210100.230311.51511.5150.1993

3460.09984.9907.1450.1835

410.03241.620 3.577

5 ms10.01070.535

En este caso , as, los grados de libertad son 2 y el valor crtico de la chi-cuadrada es 5.99. Como, entonces, no podemos rechazar la hiptesis nula y el nmero de defectuosos puede ser modelado con un modelo de Poisson.

(b) Se ocupar el modelo binomial con y .Defectuosos

010100.254212.71012.7100.5778

124240.367118.35518.3551.7360

210100.248812.24012.2400.4099

3460.09774.9856.6950.0721

410.02771.385 2.7958

5 ms10.00650.325

Tambin en este caso y la hiptesis nula no puede ser rechazada.

La realidad es que en estos datos, el nmero de defectuosos, no pueden ser modelados con un modelo de Poisson y un modelo binomial al mismo tiempo y la apropiada conclusin, basada en la prueba de la chi-cuadrada, es que no tenemos la suficiente informacin pata distinguir entre estas dos distribuciones.

2.2.3. El contraste de Kolmogorov-Smirnov.El Teorema de Glivenko-Cantelli da pie a basar el contraste de bondad de ajuste en el estadstico

que se llama estadstico bilateral de Kolmogorov-Smirnov. Tambin sern tiles los estadsticos unilaterales de Kolmogorov-Smirnov:

para los contrastes unilaterales. Bajo se tiene que estos estadsticos convergen a 0 casi seguro cuando . Observar que

La siguiente tabla 2.1. resume la forma de llevar a cabo los contrastes de bondad

de ajuste:

Tabla 2.1. 1Los valores son los valores observados de los estadsticos , respectivamente. Los valores son los que dejan a su derecha una probabilidad en las distribuciones bajo de , respectivamente.

Para encontrar los valores o calcular los p-valores es necesario conocer la distribucin de los estadsticos . Vamos a estudiar estas distribuciones a continuacin.

La siguiente proposicin establece que si es absolutamente continua y estrctamente creciente los contrastes basados en estos estadsticos son de distribucin libre.

Teorema 2.3. Supongamos que es absolutamente continua y estrctamente creciente. Bajo la distribucin de no depende de .

Demostracin: Recordar que si es absolutamente continua y estrctamente creciente, se tienen las siguientes propiedades:

Observar que la funcin de distribucin emprica puede reescribirse as:

donde es una m.a.s. de una U([0; 1]) y es su funcin de distribucin emprica. As,

que es el valor del estadstico de Kolmogorov-Smirnov calculado a partir de una m.a.s. de una U([0,1]). Por lo tanto la distribucin de no depende de . Anlogos argumentos pueden hacerse para .

Distribucin exacta.

La distribucin exacta de puede calcularse para cualquier tamao muestral n utilizando tcnicas estndar de clculos de probabilidades a partir de la funcin de densidad conjunta de la variable aleatoria multivariante . Tambin pueden aproximarse esas distribuciones mediante simulacin. Estas distribuciones estn tabuladas en muchos libros de estadstica (ver Gibbons 1997 o Hollander y Wolfe 1999, por ejemplo).

Obsrvese que la distribucin de coincide con la de para cualquier tamao muestral.

Distribucin asinttica.

Si el tamao muestrral n es grande (en la prctica, es suficiente),la distribucin de los estadsticos bajo puede aproximarse segn indica el sigiente Teorema.

Teorema 2.4.

2.2.4. Bondad de ajuste a un modelo paramtricoSe trata de contrastar para algn , frente a para ningn .

Sea el estimador mximo verosmil de calculado a partir de la muestra observada. El estadstico del contraste de Kolmogorov-Smirnov queda modificado como sigue:

La distribucin de este estadstico no coincide con la de . Adems esa distribucin depende de la familia paramtrica que se especifica en la hiptesis nula. Algunos casos concretos estn tabulados (por ejemplo, en el caso decontrastar normalidad este test se conoce como test de Lilliefors).2.3. Contrastes de localizacin en una muestra o en dos muestras apareadasEn esta seccin nos planteamos contrastar si la mediana de una muestra es un valor dado, y si la diferencia entre los datos de dos muestras tiene mediana igual a 0.

Sea m.a.s. de . Sea M = mediana(F), desconocida, y sea un valor conocido. Se desea contrastar

En el caso de datos apareados, es una m.a.s. de (X, Y )y se desea contrastar la hiptesis nula ,donde es la mediana de la variable diferencia . En este caso el valor que se contrasta usualmente es .

Ejemplo 2.3.Un grupo de 7 pacientes con temor al vmito siguen un tratamiento que consiste en la exposicin repetida a una pelcula de 4 minutos de duracin en la que aparecen escenas de gente vomitando. El efecto que se desea obtener con esta terapia es la reduccin de la ansiedad causada por el vmito o la sensacin de nuseas. Cada paciente pas un test, antes y despus del tratamiento, que evaluaba su sensacin de temor (valores altos indican ms temor). Los resultados de estos tests estn recogidos en la tabla 2.2. siguiente:

Tabla 2.2.A la vista de los datos, puede afirmarse que el tratamiento tuvo los efectos deseados?

Si el tratamiento no tuviese efectos, se esperara que las diferencias entre X e Y fuesen positivas o negativas con igual probabilidad (). Pero vemos que slo hay 1 diferencia negativa, mientras que 6 son positivas. Es sta evidencia suficiente para rechazar ?

Si es cierta, ese resultado es tan probable como sacar 6 caras en 7 lanzamientos de una moneda. De hecho la probabilidad de obtener un resultado tan o menos favorable a es

que ser el p-valor del contraste de basado en el nmero de signos positivos y negativos. Por lo tanto, no podemos rechazar a nivel .

2.4. El test del signo

El ejemplo anterior es una aplicacin de un contraste general conocido

como EL TEST DEL SIGNO, que formalmente es como sigue.

Dada la muestra de , que se supone ABSOLUTAMENTE CONTINUA y con mediana M, y planteada la hiptesis nula , se asigna un signo + a cada observacin , y un signo - si .

Se usa como estadstico del contraste

S = nmero de signos +

Obsrvese que bajo

y que

,

con lo que queda perfectamente determinada la DISTRIBUCIN EXACTA del estadstico del contraste para cualquier tamao muestral. Obsrvese que esta distribucin es independiente de la distribucin F de los datos: el test del signo es de DISTRIBUCIN LIBRE.

Para n grande (n > 20 es suficiente) se puede aproximar la distribucin exacta de S por la distribucin normal de parmetros .

Es recomendable usar una correccin por continuidad en esta aproximacin asinttica:

donde .

La siguiente Tabla 2.3. resume la forma de llevar a cabo el test del signo:

Tabla 2.3. Vale la pena mencionar que el test del signo puede adaptarse trivialmente para contrastar si el cuantil p de la distribucin F, al que llamaremos, es igual a un valor dado frente a que es distinto, mayor o menor que . El caso de la mediana corresponde a .

Por ltimo sealemos que en el caso (muy improbable, al suponerse F absolutamente continua) de que alguna observacin sea igual a , se elimina sta y se reduce el tamao muestral n consecuentemente.

2.5. Test de Wilcoxon de los rangos signadosEl test del signo slo utiliza la informacin de si cada dato es mayor o menor que la mediana propuesta bajo , pero desaprovecha la informacin relativa a la magnitud de la diferencia entre las observaciones y . El test de Wilcoxon de los rangos signados s tiene en cuenta esa informacin.

Para poder aplicarlo se requiere una hiptesis adicional: la distribucin F de X ha de ser simtrica alrededor de su mediana M.

La hiptesis de simetra de X alrededor de su mediana permite reexpresar esta variable como

,donde , y Z y A son variables aleatorias independientes. Observar que toma los valores 1 y -1 con probabilidades 1/2.

Dada la muestra de , que se supone absolutamente continua y simtrica alrededor de su mediana M, y planteada la hiptesis nula, se descompone la informacin contenida en cada en dos partes:

Se asigna un signo + a cada observacin , y un signo si , como en el test del signo. De forma equivalente se puede definir .

Se calcula.

Bajo la hiptesis nula, son independientes y, por lo tanto, es como si los signos + y - se hubiesen asignado aleatoriamente, sin guardar relacin con el tamao de . Por el contrario, si es falsa (para fijar ideas podemos suponer que ) los signos + tendern a acompaar a valores grandes de y los signos - correspondern a valores pequeos de.

As, tiene sentido basar el contraste de en los siguientes estadsticos:

, definido como la suma de los RANGOS de los a los que corresponden signos +.

, definido como la suma de los RANGOS de los a los que corresponden signos -.

En estas definiciones, el RANGO de un valor es el lugarque ocupa este valor en la lista ordenada de los valores . Ms formalmente, sea

la muestra la muestra ordenada. El rango dei es R(i) = j si y slo si

. Diremos tambin que .

Con esta notacin,

Observar que la suma de y es una cantidad fija:

Por lo tanto basta usar uno de ellos ( por ejemplo) como estadstico del contraste.

Por otra parte, si es una m.a.s. de una Bernoulli(p = 1/2), entonces bajo

lo que implica, por un lado, que la distribucin de bajo no depende de la distribucin desconocida F (el contraste basado en es de distribucin libre) y, por el otro, que la distribucin exacta de es perfectamente conocida: es una v.a. discreta que puede tomar los valores naturales del 0 al n(n + 1)/2, y la probabilidad de que tome uno de esos valores t es

donde n(t) es el nmero de formas de asignar 0 y 1 a las variables de tal forma que . El denominador 2n es el nmero de asignaciones equiprobables de 0 y 1 a los . Esta distribucin est tabulada en muchos libros.

Observar que

Para n grande la distribucin de se puede aproximar por una normal con esos valores como esperanza y varianza. Conviene hacer correccin por continuidad.

Si se producen empates en los valores (cosa poco probable, dado que se supone que F es absolutamente continua) se asigna a cada uno de los valores empatados el promedio de los rangos que tendran si no hubiese habido empates.

La siguiente Tabla 2.4 resume la forma de llevar a cabo el test de los rangos signados de Wilcoxon:

Tabla 2.4. Ejemplo 2.4, Continuacin del ejemplo 2.3. En el ejemplo de los pacientes con temor al vmito, contrastaremos

,

donde es la mediana de la diferencia de puntuaciones Antes menos Despus en los tests que miden ansiedad. Hemos visto antes que el test del signo no encontraba evidencia suficiente para rechazar la hiptesis nula en favor de la alternativa. Veamos qu ocurre si aplicamos el test de los rangos signados de Wilcoxon.

La tabla 2.5. siguiente recoge los clculos necesarios:

Tabla 2.5. As, el estadstico del test de Wilcoxon es

mientras que . El p-valor correspondiente a ese valor se determina usando la tabla de la distribucin de . Para n = 7,

por lo que se rechaza a nivel .

Observar que en este caso podemos calcular ese p-valor sin necesidad de recurrir a las tablas:

Hemos usado que n(27) = n(28) = 1 puesto que nicamente las configuraciones

dan lugar a valores del estadstico de 27 y 28, respectivamente.

2.6. Comparacin de dos muestras independientesEn esta seccin nos planteamos contrastar si dos variables aleatorias tienen la misma distribucin. Seam.a.s. dey sea m.a.s. de, muestras independientes una de otra. Se supone que son absolutamente continuas. Se desea contrastar

Veremos en primer lugar un test basado en las funciones de distribucin empricas. Despus, se har la hiptesis adicional de que a lo sumo difieren en su mediana y se presentar un contraste de igualdad de medianas.

2.7. Test de Kolmogorov-Smirnov para dos muestras

Sean las funciones de distribucin empricas de ambas muestras. Los estadsticos del contraste de Kolmogorov-Smirnov para dos muestras son stos:

La siguiente Tabla 2.5. resume la forma de llevar a cabo los contrastes de igualdad de distribuciones:

Tabla 2.5.Para encontrar los valores o calcular los p-valores es necesario conocer la distribucin de los estadsticos .

Veamos que bajo, y con , esas distribuciones no dependen de la verdadera distribucin F desconocida.

Proposicin 1.3. Supongamos que es cierta, es decir que , y que F es absolutamente continua. Entonces las distribuciones de no dependen de F.

Demostracin: El argumento es anlogo al que se sigui en la Proposicin 1.1. Razonando como all, se prueba que

donde es la funcin de distribucin emprica de , una m.a.s. de una U([0; 1]), y n es la funcin de distribucin emprica de otra m.a.s. de la U([0; 1]) independiente de la anterior. As,

que es el valor del estadstico de Kolmogorov-Smirnov para dos muestras calculado a partir de dos m.a.s. independientes de una U([0; 1]). Por lo tanto

la distribucin de no depende de . Anlogos argumentos pueden hacerse para .

Las DISTRIBUCIONES EXACTAS de los estadsticos de Kolmogorov-Smirnov para dos muestras se pueden calcular para cualquier tamao muestral (o pueden aproximarse mediante simulacin) y estn tabuladas en las referencias indicadas

Obsrvese que la distribucin de coincide con la de para cualesquiera tamaos muestrales m y n. Tambin se puede probar que stas coinciden con las distribuciones de

.En cuanto a la DISTRIBUCIN ASINTTICA de los estimadores, sta viene dada en el siguiente Teorema.Teorema 2.5. Para z > 0

2.8. Test de Mann-Whitney-Wilcoxon

Supongamos ahora que las distribuciones de X e Y slo pueden diferir en

su mediana. Es decir,

donde es una distribucin con mediana 0. En este contexto el contraste de igualdad de distribuciones se reduce a contrastar igualdad de medianas:

Sean e dos m.a.s. independientes de X e Y , respectivamente.

Bajo la hiptesis nula, las m+n observaciones forman una m.a.s. de una nica distribucin y su etiquetado como una Xo una Y es totalmente aleatorio. Por tanto, si ordenamos los (m+n) datos y les asignamos el rango (posicin) correspondiente en la muestra conjunta, la suma de los rangos de las observaciones etiquetadas con X (por ejemplo) no ser ni muy grande ni muy pequeo si es cierta, mientras que si realmente entonces

esta suma tender a ser grande, y si entonces ser en general pequeo.

Ese estadstico es el propuesto por Wilcoxon para contrastar la igualdad de medianas. Ms formalmente, es

Donde

El hecho de basarse en los rangos de los datos hace que su distribucin bajo no dependa de la verdadera distribucin, comn a todos los datos en ese caso.

La distribucin exacta puede calcularse para cualesquiera valores m y n y est tabulada en las referencias . Se puede probar que

La distribucin asinttica de es normal con esos parmetros.

Un estadstico alternativo a fue propuesto por Mann y Whitney. Se trata de

Se puede probar que

,

por lo que es equivalente basar el contraste en o en U. Por eso el test recibe el nombre de Mann-Whitney-Wilcoxon.

La siguiente Tabla 2.6. resume la forma de llevar a cabo el contraste:

Tabla 2.62.9. Ms de dos muestras independientes: Test de Kruskal-Wallis

En esta seccin se extiende al caso de ms de dos muestras el test de Mann-Whitney-Wilcoxon para comparar medianas en dos muestras independientes.

Sean k variables aleatorias cuyas distribuciones pertenecen a la familia de localizacin de la distribucin F con mediana 0. Es decir,

,

donde es la mediana de , para . Se desea contrastar

frente a No todas las medianas son iguales.

Para ello se observa una m.a.s. de longitud de cada , para . Bajoobservaciones forman una m.a.s. de una nica distribucin y su pertenencia a una muestra u otra de las k posibles es totalmente aleatoria. Por lo tanto si se asigna a cada observacin el rango (posicin) que tiene en la muestra de los N datos ordenados de menor a mayor, se tiene que bajo estos rangos corresponden a cada una de las k muestras de forma aleatoria. Se espera por tanto que los rangos correspondientes a cada muestra estn situados en torno al valor esperado del rango de una observacin cualquiera, que es .

Sea la suma de los rangos correspondientes a las observaciones de la muestra j-sima, y sea el valor medio de los rangos en esa muestra. Bajo se espera que sea prximo a , para todo j. Por contra, si es falsa, las muestras correspondientes a poblaciones con mediana pequeas (respectivamente, grandes) tendern a concentrar valores bajos (respectivamente, altos) de los rangos. Es decir, si es falsa se situar lejos de para algunas de las muestras (o quizs para todas ellas).

El estadstico del test de Kruskal-Wallis para contrastar frente a es

Su distribucin exacta no depende de la verdadera distribucin F que define las v.a. , porque slo se usa la informacin de las posiciones que ocupan los datos, y stas posiciones sern las mismas si transformsemos los datos mediante F(x) para obtener muestras de la U([0,1]). El clculo de esta distribucin exacta se lleva a cabo teniendo en cuenta que bajo la asignacin de rangos a los N datos es equivalente a asignarles aleatoriamente una de las N! permutaciones de los nmeros 1,,N. LA APROXIMACIN ASINTTICA a esta distribucin es sta:

si es grande.

Obsrvese que el test de Kruskal-Wallis es la versin no paramtrica del contraste de ausencia de efectos en un modelo ANOVA unifactorial.2.10. Muestras relacionadas: Test de FriedmanEn esta seccin se presenta un test no paramtrico que corresponde al contraste ANOVA de ausencia de efectos de un tratamiento en un diseo por bloques completamente aleatorizado. Es decir, se trata de un diseo con dos factores, uno de los cuales es el factor de inters (el tratamiento, con dos o ms niveles) y el otro (el bloque) recoge las diferencias controlables entre los individuos (por ejemplo, diferente instrumental de medida, diferente centro de experimentacin, etc.). Nos centraremos en el caso en que haya una nica observacin por celda (cruce de factores).

Se tienen observaciones independientes, cada una de ellas con distribucin dada por

,

donde las variables son una m.a.s. de una distribucin F absolutamente continua con mediana 0. Se desea contrastar que el tratamiento no tiene efecto:

frente a la alternativa de que no todos los son iguales.

El test de Friedman utiliza los rangos de las observaciones ordenadas dentro de cada bloque. Bajo la ordenacin de los datos en cada bloque es una permutacin aleatoria de los nmeros , y por tanto la suma en toda la tabla de los rangos asignados a cada tratamiento tender a ser similar para todos los tratamientos. El valor esperado de esta suma es

As, el estadstico del contraste es funcin de las diferencias entre las sumas de rangos observadas en los tratamientos y . Concretamente, el estadstico del test de Friedman es

Su distribucin exacta bajo no depende de la distribucin F desconocida, ni de los valores (iguales estos ltimos bajo ). El clculo de la distribucin exacta se realiza teniendo en cuenta que cada asignacin de rangos es una de las equiprobables. ASINTTICAMENTE,

si B es grande.

2.11. Medida de la dependenciaProblema: Sea una m.a.s. de la v.a. bivariante (X,Y ) absolutamente continua, cuya distribucin conjunta es desconocida. Se desea cuantificar el grado de dependencia de las variables X e Y .

Tambin se quiere contrastar : X; Y son independientes, frente a : X; Y no son independientes.

El coeficiente de correlacin usual (tambin denominado de Pearson) es la medida de dependencia ms usada. En el caso de normalidad conjunta, hay independencia si y slo si este coeficiente es igual a 0. No obstante, la distribucin en el muestreo del coeficiente de correlacin de Pearson depende de la verdadera distribucin de los datos y es en general desconocida (incluso para el caso de normalidad), lo que fuerza al uso de aproximaciones asintticas. Por otra parte, el coeficiente de correlacin de Pearson no es invariante frente a transformaciones montonas de los datos.

En esta seccin se presentan dos medidas no paramtricas de asociacin, cuya distribucin bajo la hiptesis de independencia no depende de las distribuciones marginales de X e Y . Adems su distribucin exacta es conocida para todo tamao muestral n.

2.11.1. Coeficiente de KendallSean dos observaciones independientes de (X,Y ), v.a. absolutamente continua. Se definen la probabilidad de concordancia como

y la probabilidad de discrepancia como

Por ser (X; Y ) absolutamente continua se tiene que

En el caso de que X e Y sean independientes se tiene que

Se define el coeficiente de Kendall (poblacional) como

Este coeficiente tiene las siguientes propiedades:

y toma los valores 1 o -1 slo en el caso de relacin funcional perfecta y montona entre X e Y .

Si X e Y son independientes entonces . El recproco no es cierto en general.

Si (X, Y ) es normal bivariante con coeficiente de correlacin de Pearson

, entonces

Por lo tanto, bajo normalidad independencia equivale a que .

Se define el coeficiente de Kendall (muestral) como el siguiente estimador insesgado de :

Propiedades de son las siguientes:

1. y toma los valores 1 o -1 slo en el caso de que las dos muestras estn ordenadas de la misma manera.

2. slo depende de de los rangos de las observaciones, y no de sus magnitudes.

3. .

4. .

5. .

6. Bajo (independencia) la distribucin exacta de es simtrica y no depende de las distribuciones marginales de X e Y .

7. Bajo la distribucin asinttica de es la siguiente: cuando n tiende a infinito

El estadstico sirve para contrastar independencia:

La siguiente Tabla 2.7. recoge cmo llevar a cabo el contraste:

Tabla 2.7. 12.11.2. Coeficiente de correlacin de rangos de Spearman

Sea una m.a.s. de la v.a. bivariante (X,Y ) absolutamente continua. A cada observacin le asignamos su rango en la muestra de las X's ordenadas, y a la le asignamos su rango en la muestra ordenada de las Y 's. A partir de ahora trabajaremos con la muestra bivariante de los rangos: .

El coeficiente de correlacin de rangos de Spearman es el coeficiente de

correlacin usual calculado con las muestras de los rangos:

Es fcil probar que los valores medios valen y que las varianzasdel denominador son

Por su parte el numerador se puede escribir como

As, el coeficiente R tiene esta expresin alternativa:

Algunas de las propiedades de R son las siguientes:

1. y toma los valores 1 o -1 slo en el caso de que las dos muestras estn ordenadas de la misma manera.

2. slo depende de los rangos de las observaciones, y no de sus magnitudes.

3. Bajo (independencia) la distribucin exacta de es simtrica y no depende de las distribuciones marginales de X e Y .

4. Bajo se tiene que E(R) = 0 y .

5. Bajo la DISTRIBUCIN ASINTTICA de R es la siguiente: cuando n tiende a infinito en distribucin.

El estadstico R sirve para contrastar independencia:

: X, Y son independientes, frente a : X,Y no son independientes (o :X,Y estn relacionados positivamente, o : X,Y estn relacionados negativamente.) La siguiente Tabla 2.8. recoge cmo llevar a cabo el contraste:

Tabla 2.8.Sealemos por ltimo que la aproximacin de R (estandarizado) a la distribucin normal estndar es ms lenta que la de (centrado y estandarizado). Por otro lado, es un estimador insesgado de la cantidad , que tiene una interpretacin clara, mientras que no existe ningn parmetro poblacional que sea estimado por el coeficiente de correlacin de Spearman R. Estos motivos hacen ms atractivo el uso del coeficiente que el de R.

2.12. Comentarios finalesEmpates. Los mtodos que hemos visto requieren la hiptesis de continuidad absoluta en la distribucin de las variables aleatorias observadas. Por lo tanto, no contemplan la posibilidad de que haya empates entre datos, lo cual es relevante especialmente en aquellos que se basan en rangos. En la prctica si el nmero de empates es pequeo lo que se suele hacer es asignar a los datos empatados el rango promedio que tendran si no hubiese habido empate (guardando siempre el orden con respecto a las restantes observaciones). De todos modos, existen versiones de los estadsticos que permiten empates entre observaciones y formas de hacer inferencia exacta en estas circunstancias. Ver Gibbons (1993a) y Gibbons (1993b), por ejemplo.

Correccin por continuidad. En las aproximaciones asintticas de las distribuciones de estadsticos que slo toman valores naturales es conveniente hacer siempre la correccin por continuidad.

Intervalos de confianza. Slo hemos visto procedimientos no paramtricos clsicos para contrastar hiptesis. La mayora de ellos pueden modificarse para dar intervalos de confianza para los parmetros de inters:

mediana, diferencia de medianas o coeficiente poblacional.

Comparaciones mltiples de las medianas de ms de dos poblaciones. Cuando se rechaza la hiptesis nula de igualdad de medianas en subpoblaciones, siempre es interesante saber qu pares de medianas pueden considerarse iguales y cules distintas. Se trata pues de hacer simultneamentecontrastes de hiptesis. Estos contrastes individuales se deben hacer a un nivel tal que garantice que la probabilidad de error de Tipo I global (probabilidad de rechazar al menos una hiptesis de igualdad entre dos medianas, cuando la hiptesis nula de igualdad entre todas ellas es cierta) sea igual al nivel deseado. En Gibbons (1993b) puede verse cmo adaptar los contrastes de Kruskal-

Wallis y de Friedman para realizar comparaciones mltiples entre cada par de medianas.

Robustez. Se dice que un procedimiento estadstico es robusto frente a la presencia de observaciones atpicas si el resultado obtenido a partir de una muestra no puede ser modificado arbitrariamente mediante la contaminacin de la muestra con una proporcin pequea de datos atpicos. Por ejemplo, la media muestral no es robusta, porque alterando un nico dato de forma que se le haga tender a infinito, podemos hacer que la media muestral vaya tambin a infinito. Por contra, la mediana es robusta porque aunque se modificase la mitad menos uno de los datos no conseguiramos que el valor de la mediana se alejase infinitamente del valor inicial.

Los procedimientos estadsticos basados en el clculo de momentos (medias, varianza, etc.) suelen presentar problemas de falta de robustez frente a datos atpicos. En cambio, los procedimientos que trabajan con los rangos de las observaciones son robustos. En este sentido los contrastes no paramtricos que hemos estudiado son ms robustos que

los correspondientes contrastes paramtricos.

Eficiencia relativa. La eficiencia relativa asinttica de un procedimiento de contraste A frente a otro B es el cociente del tamao muestral que requiere el test B entre el que requiere el test A para obtener ambos contrastes la misma potencia, cuando ambos trabajan al mismo nivel de significacin, las hiptesis sobre las distribuciones son las mismas y los tamaos muestrales son grandes. Por ejemplo, la eficiencia relativa asinttica del test del signo frente al test basado en la t de Student es de 0.67 para la distribucin normal. Eso significa que el test del signo basado en una muestra de una distribucin normal de tamao 100, por ejemplo, es tan eficiente como el test de la t de Student basado en una de tamao 67.

Captulo 3. Estimacin no paramtrica de la densidad3.1. La estimacin de la densidadSean observaciones independientes de una variable aleatoria X que tiene funcin de densidad f. Sea . Se quiere estimar el valor de la funcin de densidad f en x: f(x). Recordemos algunas propiedades conocidas de la funcin de densidad:

Una funcin de densidad es cualquier funcin que verifica

es funcin de densidad de X si y slo si para todo a ,b reales con se tiene que

Si dx es una longitud pequea,

Sea F(x) la funcin de distribucin de X. Entonces,

Una forma de estimar f(x) es hacer supuestos paramtricos sobre la distribucin de X:

Por ejemplo se podra suponer que , y as ,. Bajo ese supuesto paramtrico, se usa la muestra observada para estimar el parmetro mediante (por ejemplo por mxima verosimilitud) y se toma como estimador de el valor

Este procedimiento, que se conoce como estimacin paramtrica de la densidad, es muy dependiente del modelo elegido. No tiene flexibilidad para detectar desviaciones de esa hiptesis.Aqu vamos a abordar la estimacin no paramtrica de la densidad.

3.2. El histograma como estimador de la densidadEl primer estimador no paramtrico de la densidad y quizs an el ms utilizado es el HISTOGRAMA. Se construye de la siguiente forma.

Se eligen marcas en con

y se definen los intervalos . Sea el nmero de observaciones que caen en , y la frecuencia relativa de este intervalo (la proporcin de observaciones que caen en ):

Sobre cada intervalo se dibuja un rectngulo que tiene por base y cuya altura es tal que el rea es igual a :

Sea el punto donde se quiere estimar la densidad f(x). Si x no est dentro de ningn intervalo el estimador histograma de f(x) es 0. Si , el estimador histograma de f(x) es la altura del histograma en :

Observar que la funcin cumple las propiedades de una funcin de densidad: es no negativa e integra 1.

Usualmente se toman todos los intervalos de la misma anchura: , j = 1,,m. As , lo que tambin podemos escribir como

Observar que esta ltima expresin corresponde a la mixtura de m densidades, cada una de ellas uniforme en , con pesos iguales a las frecuencias relativas de cada intervalo .

3.2.1. Motivacin del histograma como estimador de la densidadRecordemos que

Si dividimos en intervalos de amplitud b, con b pequeo, y llamamos a los extremos de los intervalos , un punto pertenecer a uno de esos intervalos:. Sean

As, si es pequeo,

Si se estima la funcin de distribucin F mediante la funcin de distribucin emprica , se tiene que

Si se sustituye en la expresin anterior de f(x), obtendremos el siguiente estimador:

Es decir, llegamos a la expresin del histograma que ya conocamos.

3.2.2. Caractersticas del histograma1. El histograma es muy simple, tanto de clculo como de interpretacin.

2. Su aspecto depende mucho de la anchura de los intervalos: b.

Ejemplo 3.1.Consideremos el conjunto de datos referido a la vivienda en 506 barrios de Boston (Boston Housing Data),ver por ejemplo:http://lib.stat.cmu.edu/datasets/boston_corrected.txt, o http://www.ailab.si/orange/doc/datasets/housing.htm).

En la Figura 3.1 se muestran tres histogramas de la variable LSTAT (porcentaje de poblacin con estatus social en la categora inferior). Se han usado anchuras de intervalos b distintas, y el aspecto que presentan los histogramas es bastante distinto. Por ejemplo, el segundo de ellos muestra multimodalidad, mientras que esto pasa desapercibido en el primero.

3. El aspecto del histograma depende del ancla del histograma, que es el punto desde donde arranca el primer intervalo.

Ejemplo 3.2.

La Figura 3.2 muestra la importancia del ancla del histograma. Se ha usado el conjunto de datos relativos a tipos de inters en Certificados de Depsito. La variable representada es

CDrate. El conjunto de datos se conoce como CD rate data. El fichero cdrate.dat (ver la pgina web que acompaa al libro Simonof 1996) contiene esos datos junto con una variable binaria que indica si las entidades son bancos (0) o cajas de ahorros (1).

4. El histograma no es un estimador suave de la funcin de densidad: es discontinuo y constante a intervalos.

5. La anchura de las cajas b tiene una influencia importantsima en el comportamiento del histograma como estimador de la funcin de densidad (adems de la ya mencionada influencia en su aspecto), que puede

resumirse como sigue:

Si b es pequeo, el histograma tiene poco sesgo y mucha varianza.

Si b es grande, el histograma tiene mucho sesgo y poca varianza.

Ejemplo 3.3.

La Figura 3.3 muestra los histogramas estimados para muestras de tamao 100 simuladas a partir de una mixtura de normales con densidad

donde es la funcin de densidad de una . Esta funcin aparece como ejemplo en el segundo captulo de Wand y Jones(1995). En el panel de la izquierda se representan, para 30 muestras, sus histogramas construidos con anchura b de intervalos igual a 2 (b grande), mientras que en el de la derecha se usa b = 0.5 (b pequeo) para otras 30 muestras. Se observa que a la izquierda el sesgo es grande y la varianza pequea, mientras que lo contrario ocurre a la derecha.

3.2.3. Propiedades locales del estimador histogramaEn esta seccin nos ocuparemos de las propiedades asintticas del histograma evaluado en un punto , como estimador del valor desconocido f(x).

Como criterio para evaluar localmente un estimador de f(x) usaremos el Error Cuadrtico Medio:

Teorema 3.1. Supongamos que la anchura b = bn de los intervalos del histograma decrece hacia 0 cuando n tiende a infinito (b = o(1)). Si f tienesegunda derivada continua y acotada, entonces

Demostracin: Sea m.a.s. de la muestra a partir de la cual construimos el histograma. Hemos visto que

donde es el nmero de observaciones que caen en . Por lo tanto,

As

Por el Teorema de Taylor

Si restamos esas dos expresiones obtenemos que

As,

Estudiemos ahora la varianza de . Observar que

Como b = o(1) cuando n tiende a infinito . Teniendo en

cuenta adems que , se sigue que

Por otro lado

As se tiene que

El resto del enunciado se sigue por argumentos estndares.

El Teorema anterior muestra que la convergencia del estimador histograma es ms rpida en los puntos centrales de los intervalos que en los restantes puntos: el trmino principal de la expresin asinttica del sesgo

se anula en . As que , mientras que en general ese sesgo es O(b), y

cuando en general

Ese buen comportamiento del histograma en los puntos centrales de las cajas motiva las definiciones del polgono de frecuencias y del estimador ncleo de la densidad.

3.2.4. Propiedades globales del estimador histogramaAhora nos ocuparemos del comportamiento de la funcin histograma como estimador de la funcin de densidad f. Una forma de medir la distancia entre estimador y funcin estimada es integrar el error cuadrtico sobre todo el soporte de f, que supondremos que es un intervalo acotado. Se tiene as lo que se conoce como Error Cuadrtico Integrado (Integrated

Square Error, en ingls):

que es una variable aleatoria porque depende de la muestra de X observada. Su valor esperado (respecto a las muestras ) es el Error Cuadrtico Integrado Medio (Mean Integrated Square Error, en ingls):

Obsevar que

Por lo tanto el MISE, que es un promedio del error global, es igual al IMSE (Error Cuadrtico Medio Integrado, Integrated Mean Square Error, en ingls), que es una medida del error puntual acumulado.

Teorema 3.2. Para el estimador histograma

Demostracin: Tonemos en cuenta que , y para cada llamamos al entero j tal que . As,

3.2.5. Eleccin del parmetro de suavizado b

A los trminos principales de la expresin asinttica del MISE se les llama AMISE (Asymptotic Mean Integrated Square Error, en ingls). En el caso del histograma es

El primer sumando proviene de la integral sobre I de la varianza del histograma, mientras que el segundo se debe a la integral del cuadrado del sesgo. Observar el comportamiento de ambos trminos en funcin del ancho b de las cajas del histograma:

El trmino de la varianza (1/nb) es decreciente en b.

El trmino del sesgo (proporcional a ) crece con b.

Por lo tanto la correcta eleccin del parmetro de suavizado b nos permite buscar un compromiso entre sesgo y varianza del estimador de f. De hecho, podemos buscar el valor de b que minimiza, al que como funcin de b podemos denotar por g(b):

Derivamos g respecto a b,

e igualamos a cero,

Para ese valor ptimo el AMISE toma el valor

El problema con la frmula del parmetro de suavizado ptimo,

es que es desconocido porque depende de la densidad desconocida f que pretendemos estimar.

La forma ms sencilla de superar ese problema es calcular el valor que tendra si f perteneciese a un modelo paramtrico. Concretamente, si f fuese la densidad de una entonces

Tomando ste como verdadero valor de , el valor de es

Esta forma de elegir se conoce como regla de referencia a la normal (normal reference rule, en ingls).

El valor de se estima a partir de los datos observados mediante

donde es la varianza muestral de los datos, y es su rango intercuartlico (recordar que el rango intercuartlico de una es 1.35). Se toma el mnimo de esos dos estimadores naturales de para que el estimador final sea ms robusto frente a la presencia de datos atpicos.

3.3. Estimador ncleo de la densidadEl estimador no paramtrico de la funcin de densidad ms usado, exceptuando el histograma, es el estimador ncleo. Este estimador introduce dos mejoras destacadas respecto al estimador histograma:

Localizacin. En la Seccin 3.2.3 se ha visto que el histograma es mejor estimador en el centro de cada intervalo que en otros puntos. Hagamos pues que x, el punto donde queremos estimar la densidad, sea el centro de uno de los intervalos del histograma: . (Pasar de intervalos semi-abiertos a intervalos cerrados no tiene implicaciones ni tericas ni prcticas). As, el estimador de f(x) sera

Cuando se desea estimar la densidad en otro punto , se sita el intervalo del histograma alrededor de y se aplica la frmula anterior.

Cuando x recorre , la funcin as construida constituye un estimador de f. La Figura 3.4. muestra esta estimacin de la densidad en el caso de una mixtura de normales,

, a partir de una muestra simulada de tamao 100. Se ha usado h = 0.15.

Fig. 3.4. Estimador de la densidad mediante un histograma mvil (h=0.15) o, usando un estimador ncleo con Kernel uniforme.

Suavidad. La funcin anterior no es suave (es discontinua y constante a trozos). La razn es que en su expresin aparece la funcin de densidad de la v.a. U([-1,1]),

que es discontinua y constante a trozos. Si se sustituye esa densidad por otra K(u) ms suave (por ejemplo, derivable unas cuantas veces) se obtiene un estimador de la densidad que hereda esas propiedades de suavidad. El estimador resultante

se denomina estimador ncleo o estimador kernel.

La funcin K se llama funcin ncleo (o kernel) y, en general, es una funcin de densidad continua, unimodal y simtrica alrededor del 0. El parmetro h se conoce como parmetro de suavizado.

Otra forma de interpretar el estimador ncleo es observar que es la densidad de la convolucin de la distribucin emprica y la distribucin con densidad . En efecto, consideremos una v.a. que se construye de la siguiente forma:

1. Generar un ruido de una v.a. con densidad .2. Elegir al azar con equiprobabilidad uno de los n puntos observados Sea el valor elegido.3. Hacer

Entonces la v.a. tiene funcin de densidad igual a . Este estimador distribuye el peso 1/n de cada dato observado en un entorno suyo de forma continua, tal como se ilustra en la Figura 3.5, donde hay cinco observaciones, marcadas en la parte inferior.

Fig.3.5. Estimacin de la funcin de densidad a partir de cinco observaciones meiante un ncleo gaussiano.

Observar que el estimador ncleo puede expresarse como

Es decir, es la mixtura de n densidades (con pesos 1/n) con la misma forma que el ncleo K, reescaladas segn el parmetro h, y centradas cada una en la observacin , como se ve en la Figura 3.5. De todo lo anterior se deduce que el estimador ncleo es una funcin de densidad (siempre que lo sea K).

El parmetro de suavizado h (o ventana o bandwidth) controla la concentracin del peso 1/n alrededor de cada : si h es pequeo nicamente las observaciones ms cercanas a x sern relevantes en la estimacin de f(x), mientras que valores grandes de h permiten que observaciones ms alejadas de x tambin intervengan en la estimacin . La Figura 3.6 ilustra el efecto del parmetro h en la apariencia del estimador ncleo.

Fig.3.6. Efecto del parmetro en la apariencia del estimador ncleo en la estimacin de una mixtura de dos normales los valores de son 0.1, 0.3 y 0.7, de decha a izquierda

La estimacin final se ve notablemente afectada por cambios en la eleccin del parmetro de suavizado, por lo que esta tarea resulta crucial en la estimacin no paramtrica de la densidad (en la seccin 3.4 se tratar en detalle este problema). Valores grandes de h hacen que los estimadores de la densidad sean muy estables de muestra a muestra (poca varianza) pero las estimaciones presentan gran sesgo. Por el contrario, si h es pequeo el estimador vara mucho en muestras diferentes (mucha varianza), pero en promedio estima bien la densidad desconocida (poco sesgo).

Fig.3.7. Influencia de h en el sesgo y varianza del estimador ncleo de la densidad.

Ejemplo 3.4

La Figura 3.7 muestra un grfico de variabilidad de 30 estimadores ncleo(el grfico muestra el promedio de los estimadores y las bandas puntuales situadas a desviaciones tpicas) construidos a partir de muestras de tamao100 simuladas a partir de una mixtura de normales con densidad

donde es la funcin de densidad de una . En el panel de la izquierda se ha utilizado h = 1 (h grande), mientras que en el de la derecha se usa h = 0.25 (h pequeo). Se observa que a la derecha el sesgo es grande y la varianza pequea, mientras que lo contrario ocurre a la izquierda. Se ha usado un ncleo biweight (ver Cuadro 3.1).

Hay una serie de propiedades que hacen que una funcin K que cumpla algunas de ellas sea una funcin ncleo (o kernel) satisfactoria para ser utilizada en la definicin (3.1) del estimador ncleo de la densidad.

1. K es simtrica alrededor de 0. Es una propiedad deseable, pero no imprescindible. Implica que el peso1/n de cada dato observado se reparte de forma simtrica alrededor de la observacin.

2. K es unimodal (con moda en 0, si K es adems simtrica). Es una propiedad deseable, pero no imprescindible. Implica que el peso 1/n de cada dato observado se reparte de forma que queda ms peso en las zonas ms cercanas a la observacin.

3. K es una funcin de densidad: para todo y . Esta propiedad garantiza que el estimador ncleo definido en (3.1) es una funcin de densidad. No es una propiedad necesaria para que el estimador ncleo tenga buenas propiedades asintticas.

4. K es positiva: para todo . No es una propiedad necesaria para que el estimador ncleo tenga buenas propiedades asintticas.5. K integra 1:. sta es una propiedad necesaria para que el sesgo asinttico del estimador sea nulo.

6. K tiene momento de orden 1 nulo:. Se cumple si K es simtrica (y tiene esperanza). Si K no tiene esperanza 0 entonces el sesgo del estimador decrece ms lentamente hacia 0.7. K tiene momento de orden 2 finito:. Que la varianza de K sea finita es necesario para que el estimador tenga sesgo asinttico acotado. Por otra parte, se pueden construir ncleos no positivos con momento de orden 2 nulo que permiten reducir el sesgo asinttico (son los llamados ncleos de alto orden).

8. K es una funcin suave (tiene r derivadas continuas). El estimador ncleo hereda las propiedades de suavidad del ncleo K a partir del que se define. Por tanto, es necesario utilizar ncleos suaves para obtener estimadores suaves.

9. K tiene soporte compacto. Esta propiedad es deseable desde el punto de vista computacional. Si K(u) se anula fuera del intervalo , entonces para evaluar en un punto x slo hay que utilizar los puntos situados en .

3.3.1. Comportamiento asinttico del estimador ncleo de la densidad

Comencemos por recordar la definicin de convolucin de dos densidades.

Definicin 3.1. Sean dos variables aleatorias independientes. La convolucin de las densidades f y g es la funcin de densidad de X + Y y vale

Si son variables aleatorias independientes, con V (X) mucho mayor que , la convolucin de las densidades f y es la funcin de densidad de . La densidad es un suavizado de la densidad f (un difuminado de f) en el que se suavizan picos y valles.

Ejemplo 3.5.

Consideremos f la densidad de la mixtura de 4 normales con medias situadas en -3, -1, 1 y 3, y desviacin tpica 0.5 comn a todas ellas. Sea la densidad de una normal centrada en 0 y con desviacin tpica 0.5. Es fcil comprobar que la convolucin corresponde a la mixtura de 4 normales con medias situadas en -3, -1, 1 y 3, y desviacin tpica comn igual a . Por lo tanto los marcados picos y los valles de f quedan atenuados en la densidad . Vase la figura 3.8.

Fig. 3.8. Convolucin. El grfico de la derecha muestra la convolucin de la densidad de la izquierda con la densidad de un ruido normal con desviacin tpica de 0.5

Consideremos ahora el problema de estimacin no paramtrica de la densidad: son n observaciones independientes de la v.a. X que tiene funcin de densidad desconocida f(x). Sea

el estimador ncleo de

EMBED Equation.DSMT4 Teorema 3.3. (Comportamiento local del estimador ncleo) Se suponen las siguientes hiptesis de regularidad:

El sesgo y la varianza asintticos de son de la siguiente forma:

En estas expresiones, . As, el error cuadrtico medio es

Por lo tanto en probabilidad.Demostracin:

De igual forma se demuestra que:

Comportamiento global: MISE y AMISE

A partir de los resultados anteriores sobre el comportamiento local del estimador ncleo de la densidad, integrando sobre toda la recta real se obtiene lo siguiente:

Derivando en h e igualando a 0, se obtiene que la ventana asinttica ptima (que minimiza el AMISE) es

El AMISE para la ventana ptima es

Eficiencia relativa de distintas funciones ncleo

Analicemos la expresin del AMISE ptimo:

El factor es una medida de la curvatura total de la funcin f(x) que estamos estimando. Cuanto ms curvatura tiene f(x) mayor es el .

Por otra parte, el factor slo depende del ncleo K empleado en la construccin del estimador ncleo. Dado que tenemos libertad para elegir la funcin ncleo K, surge la pregunta de qu ncleo K hace menor esa cantidad. Eso equivale a plantearse el siguiente problema de clculo de variaciones:

En la tercera restriccin se asigna un valor arbitrario. Se puede comprobar que si no se fija un valor de este segundo momento el problema no est bien determinado porque se puede obtener el mismo valor de la funcin objetivo con los ncleos K(u) y

,

que slo difieren en el parmetro de escala.

La solucin del problema anterior para es el ncleo de Epanechnikov:

El valor de la funcin objetivo para este ncleo es

La Figura 3.9 muestra la forma de algunas funciones ncleo usadas en estimacin no paramtrica de la densidad.

Fig.3.9. Algunos de los ncleos usados en la estimacin de la densidad.

El Cuadro 3.1 muestra que la prdida en eficiencia es muy pequea si se usa un ncleo distinto al ptimo (el de Epanechnikov). La eleccin del ncleo debe obedecer ms a cuestiones computacionales (mejor si tiene soporte compacto y si su evaluacin no es muy costosa) o de suavidad (por ejemplo, el ncleo de Epanechnikov no es derivable en , mientras que los ncleos Biweight o Triweight s lo son). Por ltimo, cabe sealar que es mucho ms importante la eleccin del parmetro de suavizado que la eleccin del ncleo.

Cuadro 3.1. Eficiencia relativa de algunas funciones ncleo.

Eleccin de la ventana mediante la regla de referencia a la normalSi se supone que la densidad f(x) corresponde a la de una y se usa un ncleo gaussiano, la frmula de la ventana ptima da este valor:

El valor de se estima a partir de los datos como ya vimos en el

caso del histograma.

Si se usa otro ncleo K distinto al gaussiano la ventana ptima sera

y se tiene que el cociente de la ventanas ptimas no depende de la funcin de densidad desconocida:

Cuadro 3.2. Constante para algunas funciones ncleo.

As,

El Cuadro 3.2. recoge los valores de la constante para distintas funciones ncleo.

Funciones ncleo con ventanas comparables

Algunos programas (por ejemplo la funcin density de R) utilizan versiones ajustadas (reescaladas) de las funciones ncleo usuales de tal modo que la varianza de todas estas versiones reescaladas sea igual a 1. De esta forma el parmetros de suavizado h (la ventana) tiene para todos las funciones ncleo el mismo significado: es la desviacin tpica del ncleo que se utiliza en el suavizado. Es decir, si K(u) es un ncleo ya reescalado para tener varianza 1,

y se tiene que (con el cambio de variable )

Si es un ncleo con varianza el ncleo reescalado para que tenga varianza 1 es .

El Cuadro 3.3 muestra las ecuaciones de los ncleos usuales reescaladas para que el parmetro h sea en todos ellos la desviacin tpica.

Cuadro 3.3. Ecuaciones de los ncleos usuales reescaladas

El cuadro 3.4 recoge los valores de la constante para distintas funciones ncleo ajustadas.

Cuadro 3.4. Constantes para algunas funciones ncleos reescaladasEn cuanto a la eleccin ptima de la ventana, si se trabaja con ncleos ajustados para que tengan varianza 1 se tiene que

Las siguientes instrucciones dibujan en R las grcas de estos ncleos. El resultado se muestra en la figura 3.10. (Nota: El ncleo triweight no est implementado; en su lugar se muestra el ncleo cosine.)

par(mfrow=c(3,2))

nucleo