métodos estadísticos-félix míguez marín [2012]

274
Probabilidades y Estadística Félix Míguez Marín Departamento de Matemática Aplicada y Métodos Informáticos ETSI de Minas de Madrid Septiembre de 2012

Upload: norberto-iglesias

Post on 02-Dec-2015

56 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Métodos Estadísticos-Félix Míguez Marín [2012]

Probabilidades y Estadística

Félix Míguez Marín

Departamento de Matemática Aplicada y

Métodos Informáticos

ETSI de Minas de Madrid

Septiembre de 2012

Page 2: Métodos Estadísticos-Félix Míguez Marín [2012]
Page 3: Métodos Estadísticos-Félix Míguez Marín [2012]

Contenido

1 El concepto de probabilidad 5

1.1 Experimentos aleatorios. Regularidad estadística . . . . . . . . . . . . . . 5

1.2 Espacio muestral. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3 Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.4 Asignación de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4.1 Espacio muestral �nito . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4.2 Espacio muestral acotado . . . . . . . . . . . . . . . . . . . . . . . 13

1.5 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.6 Fórmula de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.7 Sucesos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.8 Experimentos independientes . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.9 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2 Variables Aleatorias 27

2.1 Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.2 Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.3 Variables discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.4 Variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.5 Variables mixtas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.6 Variable aleatoria bidimensional . . . . . . . . . . . . . . . . . . . . . . . . 41

2.6.1 Función de distribución conjunta . . . . . . . . . . . . . . . . . . . 42

2.7 Variable aleatoria bidimensional discreta . . . . . . . . . . . . . . . . . . . 43

2.7.1 Condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.8 Variable aleatoria bidimensional continua . . . . . . . . . . . . . . . . . . 45

2.8.1 Condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.9 Variables independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.10 Generalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

1

Page 4: Métodos Estadísticos-Félix Míguez Marín [2012]

2 CONTENIDO

2.11 Funciones de Variables Aleatorias . . . . . . . . . . . . . . . . . . . . . . . 51

2.11.1 Función de una variable . . . . . . . . . . . . . . . . . . . . . . . . 51

2.11.2 Función de varias Vas . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.11.3 Transformación general de Vas continuas . . . . . . . . . . . . . . 57

2.11.4 Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . . . 59

2.12 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3 Valores Esperados 63

3.1 Esperanza de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . 63

3.2 Interpretación experimental . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3.3 Esperanza de una función de una variable . . . . . . . . . . . . . . . . . . 69

3.4 Esperanza de una función de varias variables . . . . . . . . . . . . . . . . 71

3.5 Varianza de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . 73

3.6 Interpretación experimental . . . . . . . . . . . . . . . . . . . . . . . . . . 76

3.7 Acotación de Tchebychev . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.8 Varianza de una combinación lineal de Vas independientes . . . . . . . . . 77

3.9 La covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

3.10 Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3.11 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4 Modelos principales 87

4.1 Variable aleatoria normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4.2 Cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4.3 Teorema Central del Límite . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.4 Variable aleatoria binomial . . . . . . . . . . . . . . . . . . . . . . . . . . 94

4.5 Variable aleatoria de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.6 Procesos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

4.7 Variables relacionadas con la Normal . . . . . . . . . . . . . . . . . . . . . 102

4.7.1 Lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

4.7.2 Ji-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

4.8 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

5 Estimación 109

5.1 El método estadístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.2 Muestra aleatoria simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

5.3 La media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

5.4 La varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

Page 5: Métodos Estadísticos-Félix Míguez Marín [2012]

CONTENIDO 3

5.4.1 Cálculo de la varianza muestral . . . . . . . . . . . . . . . . . . . . 115

5.4.2 Caso particular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

5.5 Convergencia en Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 115

5.6 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

5.7 Sesgo de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

5.8 Varianza de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

5.9 Estimadores consistentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

5.10 El método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . 123

5.10.1 Generalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

5.11 El método de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . 128

5.12 Muestreo sin reemplazamiento . . . . . . . . . . . . . . . . . . . . . . . . . 130

5.13 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

6 Intervalos 137

6.1 Intervalos de con�anza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

6.2 Intervalos para la normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

6.2.1 Intervalos para � . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

6.2.2 Tamaños de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . 143

6.2.3 Intervalos para � . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

6.3 Intervalos asintóticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

6.4 Intervalos para p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

6.4.1 Aplicación al muestreo de poblaciones �nitas . . . . . . . . . . . . 149

6.5 Intervalos de tolerancia para la normal . . . . . . . . . . . . . . . . . . . . 151

6.6 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

7 Modelo lineal 157

7.1 Modelo lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

7.1.1 Estimación de mínimos cuadrados . . . . . . . . . . . . . . . . . . 159

7.1.2 Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . 164

7.2 Estimación de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . 166

7.3 Intervalos de con�anza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

7.3.1 Para los parámetros �0 y �1 . . . . . . . . . . . . . . . . . . . . . . 167

7.3.2 Para el parámetro � . . . . . . . . . . . . . . . . . . . . . . . . . . 167

7.3.3 Para la recta � (x) = �0 + �1x . . . . . . . . . . . . . . . . . . . . 168

7.4 De tolerancia para Y (x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

7.5 Interpretación geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

Page 6: Métodos Estadísticos-Félix Míguez Marín [2012]

4 CONTENIDO

7.6 Valoración del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

7.7 Regresión lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

7.8 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

8 Modelización 1838.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

8.2 La función de distribución empírica . . . . . . . . . . . . . . . . . . . . . . 184

8.3 La función de masa empírica . . . . . . . . . . . . . . . . . . . . . . . . . 187

8.4 La función de densidad empírica . . . . . . . . . . . . . . . . . . . . . . . 189

8.5 La función de cuantiles empírica . . . . . . . . . . . . . . . . . . . . . . . 193

8.6 Modelización con los cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . 196

8.6.1 Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . 197

8.7 Resumen y comparación de muestras . . . . . . . . . . . . . . . . . . . . . 200

8.7.1 Centro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

8.7.2 Dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

8.7.3 Simetría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

8.7.4 Valores atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

8.7.5 Diagramas de caja (Box-Plot) . . . . . . . . . . . . . . . . . . . . . 202

8.8 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

A Soluciones a los Ejercicios 207A.1 Capítulo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

A.2 Capítulo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

A.3 Capítulo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

A.4 Capítulo 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

A.5 Capítulo 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232

A.6 Capítulo 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

A.7 Capítulo 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247

A.8 Capítulo 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259

B Tablas 267

Page 7: Métodos Estadísticos-Félix Míguez Marín [2012]

1

El concepto de probabilidad

1.1 Experimentos aleatorios. Regularidad estadística

El conocimiento cientí�co se fundamenta en la observación y medida, la elabo-

ración de teorías y el contraste experimental. Este último es su rasgo distintivo, frente a

seudociencias o dogmas, y el que le con�ere utilidad, sin por ello renunciar a la belleza,

y a él nos referimos a continuación.

Cada realización de un experimento proporciona un resultado, y en cada resultadose mide el valor de una o varias propiedades: la regularidad, en la repetición bajoidénticas condiciones experimentales, de estos valores, permite la construcción de mode-

los.

En la Naturaleza encontramos propiedades para las que somos capaces de construir

modelos o explicaciones deterministas, junto con otras que no pueden ser predichas

exactamente, fuera de toda duda. Tales propiedades se denominan aleatorias.

Ejemplo 1 El resultado del lanzamiento de una moneda o un dado. La trayectoria deuna partícula en movimiento browniano. El tiempo de vida de un átomo radioactivo.

La longitud de una cola de clientes o el tiempo de espera de cada uno de ellos. La

pluviometría, caudal de avenidas �uviales, número de terremotos en una región a lo

largo del tiempo, ...

En estas situaciones es posible aún construir modelos experimentalmente contrasta-

bles usando una forma peculiar de regularidad, la regularidad estadística:

De�nición 1 Un experimento es aleatorio si, aunque ninguno de los resultados posi-bles se puede asegurar de antemano, realizado independientemente un gran número

5

Page 8: Métodos Estadísticos-Félix Míguez Marín [2012]

6 1. EL CONCEPTO DE PROBABILIDAD

de veces, la frecuencia relativa con que aparece cada clase de ellos tiende a estabilizarse

alrededor de un valor límite llamado su probabilidad experimental.

Supongamos que cada vez que se realiza el experimento aleatorio sólo nos interesa

si el resultado tiene la propiedad A (y entonces lo anotamos con 1) o no la tiene (y lo

anotamos con 0). Cada sucesión de realizaciones independientes produce una sucesión

experimental particular (x1; x2; :::; xn; :::), donde xi = 0 ó 1. AdemásPni=1 xi representa

el número de veces que resultó A en las n ocasiones yPni=1 xi=n la frecuencia relativa.

Resulta entonces que

limn!1

1

n

nXi=1

xi = pA

cualquiera que sea la sucesión experimental. Aquí las sucesiones, a diferencia de las que

estudia el Análisis Matemático, pueden ser extraordinariamente irregulares y no hay un

término general del que se deduzcan todos. Sin embargo estamos seguros que, en lapráctica, en todas ellas se produce la misma convergencia.

Ejemplo 2 Se lanza repetidamente una moneda equilibrada representando los resultadosdel siguiente modo: en abscisas el número de orden del lanzamiento (n = 1; 2; :::) y

en ordenadas la frecuencia relativa de caras obtenidas (número total de caras en los n

primeros lanzamientos dividido por n). En seguida se observa, a medida que n aumenta,

cómo dicha frecuencia se estabiliza alrededor del valor 1=2.

Page 9: Métodos Estadísticos-Félix Míguez Marín [2012]

1.1. EXPERIMENTOS ALEATORIOS. REGULARIDAD ESTADÍSTICA 7

Ejemplo 3 La radioactividad es la emisión espontánea de energía (partículas alfa, beta yrayos gamma) que producen algunos núcleos atómicos. Cuando un núcleo emite radiación

se dice que decae; después del decaimiento el núcleo se ha transformado en otro diferente.

No es posible predecir si un núcleo determinado decaerá o no en un periodo de

observación �jado (0; t). Sin embargo, un mol de substancia contiene del orden de

n = 6:022 � 1023 átomos, y si nt es el número de decaidos se observa que la propor-ción pt = nt=n es prácticamente constante. Por ejemplo, un átomo de radio 226 decae

en un periodo de t años con probabilidad experimental pt = 1� exp(�4:327� 10�4t).

Ejemplo 4 El número n de moléculas de un gas ideal en un recipiente V de volumen

1 cm3, a 1 atm y 250C, es del orden de 1019. Las moléculas se mueven con distintas

velocidades, pues no todas tienen la misma energía, produciéndose intercambios debidos a

los choques entre ellas. En la práctica es imposible predecir la posición y velocidad de una

molécula en cada instante. Sin embargo sí pueden comprobarse proporciones estables en

el conjunto de las n, es decir, el balance global es de equilibrio estadístico. Por ejemplo,

si nv es el número de ellas en cualquier instante y cualquier parte de volumen v, se

observa que nv=n � v=V, es decir, las moléculas no ocupan ninguna posición preferente.

Ejemplo 5 (el método de Montecarlo) Supongamos una �gura arbitraria situada en elplano. Vamos a medir, aproximadamente, su super�cie s sirviéndonos de un experimento

aleatorio. Construimos un cuadrado de lado ` su�ciente para incluir la �gura, y elegimos

puntos dentro del cuadrado de modo aleatorio. Para ello introducimos bolas numeradas,

por ejemplo de 1 a 1000, en una urna. Se extrae una bola y se anota su número, sea

x. Se introduce de nuevo y se hace otra extracción, sea y. El par (x; y) señala, con

precisión de milésimas de `, un punto del cuadrado. Si de un total de n puntos así

elegidos resultaron ns dentro de la �gura, a la larga cabe esperar que

nsn� s

`2

así que

s � nsn`2

Si, en particular, la �gura es una circunferencia de radio r, s = �r2 y podríamos apro-

ximar � con una lotería:

� � nsn

`2

r2

Disponemos pues de un método físicamente aceptable para medir la incertidumbre en

los experimentos aleatorios: la probabilidad experimental. La Teoría de Probabilidades,

Page 10: Métodos Estadísticos-Félix Míguez Marín [2012]

8 1. EL CONCEPTO DE PROBABILIDAD

que estudiamos a continuación, es una descripción matemática, formal, de los experimen-

tos aleatorios. Un lenguaje descriptivo adecuado para construir modelos, descripciones

idealizadas, de cada sistema aleatorio en estudio, con los que facilitar la realización de

predicciones contrastables.

1.2 Espacio muestral. Sucesos

De�nición 2 Se llama espacio muestral al conjunto de todos los resultadosposibles de un experimento aleatorio.

Ante cada experimento lo primero y fundamental es identi�car su espacio muestral.

Ejemplo 6 En el experimento de lanzar 2 monedas los resultados son los pares (x1; x2)(el subíndice identi�ca cada una de las 2 monedas) donde xi = c ó + (ó 1 y 0, los símbolos

son convencionales). El conjunto de resultados posibles es = f(c; c); (c;+); (+; c); (+;+)g.Observar que (c;+) y (+; c) son resultados diferentes.

Ejemplo 7 El decaimiento o no de un núcleo radioactivo en un intervalo de tiempo�jado (0; t) es aleatorio. En un conjunto de n núcleos los resultados posibles son todas

las n-tuplas (x1; x2; :::; xn) (el subíndice identi�ca a cada núcleo) donde xi = 0 (no

decaido) ó 1 (decaido). En total hay 2n resultados en (2 posibilidades para x1 que hay

que multiplicar por 2 para x2;... etc.).

Ejemplo 8 En el experimento de lanzar una moneda hasta que aparezca cara los resul-tados posibles son = fc;+c;++ c;+++c; ::::g.

Ejemplo 9 En el experimento de observar, desde un instante incial t = 0, el tiempo

que transcurre hasta que decae un núcleo es aleatorio, los resultados posibles son todos

los números del intervalo (0;+1).

De�nición 3 Un suceso es un subconjunto de resultados.

Un subconjunto se puede de�nir señalando cuáles son cada uno de sus elementos, o

mejor, señalando una propiedad que sólo ellos poseen. De esta segunda forma un suceso

es el conjunto de resultados de que tienen cierta propiedad.

�El suceso A�se re�ere a la vez a la propiedad A y al conjunto de resultados que la

tienen.

�Ha sucedido A�a�rma que el resultado ! 2 obtenido en el experimento tiene lapropiedad A, es decir que ! 2 A.

Page 11: Métodos Estadísticos-Félix Míguez Marín [2012]

1.2. ESPACIO MUESTRAL. SUCESOS 9

Ejemplo 10 En el experimento de lanzar un dado, el suceso �se obtiene un númeropar�se representa por A = f2; 4; 6g. Si el resultado obtenido es uno de estos 3 se realizael suceso, y en otro caso no se realiza.

En el experimento de lanzar 2 monedas, el suceso �se obtiene exactamente una cara�

se representa por A = f(c;+); (+; c)g. Si el resultado obtenido es uno de estos 2 serealiza el suceso, y en otro caso no se realiza.

En el sistema de n núcleos radioactivos el suceso �en el intervalo (0; t) han decaido k

núcleos�consta de todas las n-tuplas (x1; x2; :::; xn) (el subíndice identi�ca a cada núcleo,

donde xi = 0 si no decaido y xi = 1 si decaido) con k unos y n� k ceros, cualquiera quesea el modo como se repartan en la enupla (es decir, cualquiera que sean los k núcleos

decaidos). En total hay�nk

�resultados en dicho suceso (número de combinaciones: todas

las elecciones distintas de k posiciones para los decaidos entre las n).

De�nición 4 Cada resultado f!ig de�ne un suceso elemental. El propio es el

suceso seguro. El conjunto vacio � representa un suceso imposible, es decir, cualquierpropiedad que no se realice en ningún resultado.

Si Ai y Aj son sucesos tales que Ai \ Aj = �, o sea, no hay ningún resultado que

tenga a la vez ambas propiedades, se llaman excluyentes o incompatibles.

Las propiedades que de�nen los sucesos se pueden combinar mediante los operadores

�y�, �o� y �no�, según las reglas de la lógica, para producir nuevos sucesos. En larepresentación conjuntista las operaciones correspondientes son, respectivamente, la in-tersección, la unión, y la complementación (respecto de ). Así que al realizar estasoperaciones con los subconjuntos de que representan sucesos, se obtendrán subcon-

juntos que también representarán sucesos.

Si A1; A2; ::: son sucesos, mediante la representación conjuntista es facil denotar

proposiciones interesantes, como las siguientes:

�sucede algún Ai�() [Ai (o sea, el resultado pertenece al menos a uno de losAi)

�suceden todos los Ai�() \Ai

�no sucede ningún Ai�() ([Ai)c = \Aci

Observar que en los ejemplos 6 y 7 el número de resultados posibles es �nito, en el 8

es in�nito numerable y en el 9 in�nito no numerable. Así que las operaciones con sucesos

se tienen que extender incluso a in�nitos sucesos, pues si el número de elementos de

Page 12: Métodos Estadísticos-Félix Míguez Marín [2012]

10 1. EL CONCEPTO DE PROBABILIDAD

(resultados posibles) es in�nito, también puede serlo el número de sucesos (subconjuntos

de ) que nos interesan.

Hay sin embargo algunas di�cultades matemáticas en esta representación conjuntista

que merece la pena comentar. Como cada suceso está representado por un subconjunto

del espacio muestral, pareciera que los sucesos equivaldrían simplemente a la familia

}() de todos los subconjuntos de , lo cual resulta técnicamente aceptable si es

�nito o in�nito numerable, pero no si es in�nito no numerable (en particular R ó Rk).Hay que limitarse aquí a usar una familia más reducida, llamada de Borel (denotada Bó Bk respectivamente), que, por construcción, usa los intervalos (de R; rectángulos deRk) como conjuntos básicos, e incluye a todos los conjuntos que se engendran a partirde aquéllos mediante operaciones de unión, intersección y complementación.

En resumen, siempre que trabajemos con un experimento aleatorio daremos por

sentado que hay seleccionada una clase adecuada de sucesos: una familia F de sub-conjuntos de , incluyendo al propio y a �, cerrada para las operacionesde conjuntos. El par (;F) se denomina espacio probabilizable.

1.3 Probabilidad

El referente son las probabilidades experimentales (los valores a la larga de las

frecuencias relativas, o las proporciones estables en un sistema en equilibrio). Para cada

suceso A su probabilidad es un número de [0; 1] (como las frecuencias relativas), pero la

aplicación no puede ser arbitraria, debiendo respetar las demás propiedades que puedan

descubrirse en las frecuencias. En lugar de un catálogo exhaustivo de propiedades, bastan

2 (axiomas) que implican todas las demás:

De�nición 5 Sea un espacio probabilizable (;F). Una probabilidad es una aplicaciónP : F ! [0; 1] tal que:

(i) (axioma de aditividad) si Ai (en número �nito o numerable) son tales queAi \Aj = � (incompatibles) entonces

P ([Ai) =X

P (Ai)

(ii) P () = 1

Se llama a (;F ; P ) una distribución de probabilidades.

Page 13: Métodos Estadísticos-Félix Míguez Marín [2012]

1.4. ASIGNACIÓN DE PROBABILIDADES 11

Tal aplicación es una medida aditiva, como una masa, y es provechoso ver así la

probabilidad.

Ahora mediante representaciones adecuadas de unos sucesos por medio de otros y

el empleo de estos 2 axiomas, se deducen todas las fórmulas necesarias. Veamos unos

ejemplos.

Ejemplo 11 Demostremos que P (A) = 1 � P (Ac). Como = A [ Ac y A \ Ac = �

aplicando el primer axioma: P () = 1 = P (A [Ac) = P (A) + P (Ac).

Ejemplo 12 Demostremos que P (�) = 0. Como = [ � y \ � = �, aplicando elprimer axioma: P () = P () + P (�).

Ejemplo 13 Demostremos que si A � B (el suceso A implica al B: si sucede A sucede

B) entonces P (A) � P (B). Como B = A [ (B \ Ac) y A \ (B \ Ac) = �, aplicando elprimer axioma P (B) = P (A) + P (B \Ac), de donde resulta lo propuesto.

1.4 Asignación de probabilidades

Los axiomas y las fórmulas que de ellos se deducen sólo relacionan las probabilidades

de unos sucesos con las de otros, pero no determinan sus valores: estos sólo puedenser aproximados mediante la experimentación, o bien postulados a partir derazonamientos físicos.

Un ejemplo particular, muy notable, de esto último es el llamado modelo deequiprobabilidad, o de elección al azar, que examinamos a continuación. Corres-

ponde a un reparto homogeneo, uniforme, no preferencial, sobre , de la masa total

de probabilidad de valor 1, asociando a cada suceso una masa proporcional a su talla,

adecuadamente medida, pero sin importar ninguna otra cualidad de estos conjuntos.

1.4.1 Espacio muestral �nito

De�nición 6 Sea un conjunto �nito, es decir card() < 1 (su cardinal, o número

de elementos). Diremos que P es una distribución equiprobable, o al azar, si paracada suceso A es:

P (A) =card(A)

card()

El cálculo de probabilidades se reduce pues, en este caso, a contar el número de

resultados de cada suceso. En particular, para cada suceso elemental resulta P (!i) =

Page 14: Métodos Estadísticos-Félix Míguez Marín [2012]

12 1. EL CONCEPTO DE PROBABILIDAD

1=card() (lo que también podría haberse elegido como punto de partida para de�nir

la equiprobabilidad). Es evidente que si el card() no es �nito no puede de�nirse la

equiprobabilidad. Los denominados juegos de azar, como el lanzamiento de una moneda

o un dado bien equilibrados, los naipes, las loterias, etc., son situaciones que pueden ser

descritas por este modelo.

Ejemplo 14 Se lanza n veces una moneda. Los resultados son todas las n-tuplas (x1; x2;:::; xn) donde xi es c ó + y card () = 2n. Si la moneda es equiprobable (es decir

P (c) = P (+) = 1=2) cada resultado debería tener la misma probabilidad, no importa

cuantas caras y cruces muestre, y ésta es 1=2n. El suceso �obtener k caras� tiene�n

k

�resultados posibles. Entonces

P (k caras) =1

2n

�n

k

Sin embargo si la moneda no es equiprobable (en general si P (c) = p y P (+) =

1�p) los resultados no tienen la misma probabilidad (depende de cuántas caras y crucesmuestren) y ya no es obvio cómo calcular la probabilidad de cada uno: si la probabilidad

de cara fuese mayor que la de cruz los resultados con más caras serían los más probables.

Esto es así en el experimento análogo de observar el número de núcleos que decaen,

de un total de n, en un intervalo de tiempo �jado. El suceso �decaen k núcleos� tiene�n

k

�resultados, pero estos no son, en general, equiprobables.

Veremos la solución en la Sección 1.8 (ejemplo 24).

Ejemplo 15 ¿qué probabilidad hay de que en un grupo tomado al azar de n personas almenos 2 hayan nacido el mismo día? (suponer todos los años de 365 días y n<365).

Los resultados posibles son todas las n-tuplas (x1; x2; :::; xn) donde cada xi es un

número desde 1 hasta 365, de manera que hay 365n (365 para x1 que hay que multiplicar

por 365 para x2 etc.). Interpretaremos �grupo tomado al azar de n personas� como

que dichos resultados son equiprobables, es decir, la probabilidad de cada uno de ellos

es 1=365n. ¿Cuántos resultados tienen distintas las n fechas?: la primera se puede

elegir de 365 formas, que hay que multiplicar por 364 para la segunda, etc., así que son

365(365� 1)(365� 2):::[365� (n� 1)]. La probabilidad de que todos los cumpleaños sean

Page 15: Métodos Estadísticos-Félix Míguez Marín [2012]

1.5. PROBABILIDAD CONDICIONAL 13

distintos es:

p =365(365� 1)(365� 2):::[365� (n� 1)]

365n

=

�1� 1

365

��1� 2

365

�::

�1� n� 1

365

�:

Y la pedida (suceso complementario) vale 1� p. En particular, con n = 23 es práctica-mente 1=2.

1.4.2 Espacio muestral acotado

De�nición 7 Sea in�nito no numerable (por ejemplo � Rk) y acotado, es decirmed() < 1 (su medida: longitud si k = 1, super�cie si k = 2, etc.). Diremos que P

es una distribución equiprobable, o al azar, si para cada suceso A es:

P (A) =med(A)

med()

Observar la analogía de esta fórmula con la del caso �nito, y que si la med() no es

�nita no es posible la equiprobabilidad.

Ejemplo 16 supongamos una ruleta continua (sin topes para detener la aguja). Se

impulsa y se mide el ángulo que forma la aguja al detenerse con una referencia. =

f0 < ' � 2�g y aceptando el modelo equiprobable para la ruleta, P (el ángulo es menorque �) = 1=2, pues med() = 2� y med[0; �) = �.

Ejemplo 17 (cont. del 5) el mecanismo de elección de los puntos en el cuadrado essin duda al azar. P (el punto está dentro de la �gura) = s=`2, pues med() = `2 y

med(�gura) = s.

1.5 Probabilidad condicional

Notación: de ahora en adelante, para más sencillez, denotaremos AB en lugar de A\B,ABC en lugar de A \B \ C etc.

Mediante el concepto de probabilidad condicional se tiene en cuenta la posible infor-

macion parcial sobre el resultado del experimento: si se sabe que ha sucedido B, ¿cuál

es la probabilidad de que también haya sucedido A? (es decir, sabiendo que el resul-

tado está en B qué probabilidad hay de que en particular esté en AB)? Denotaremos

P (A j B) el número buscado.

Page 16: Métodos Estadísticos-Félix Míguez Marín [2012]

14 1. EL CONCEPTO DE PROBABILIDAD

Las frecuencias relativas nos dan la guía para su cálculo. Si en n realizaciones del

experimento, sucedió B en nB de ellas, y AB en nAB, la frecuencia relativa condicional

(de realizaciones de A entre las de B) es fAjB = nAB=nB , que puede también expresarse

por medio de las frecuencias �incondicionales�:

fAjB = nAB=nB =nAB=n

nB=n=fABfB

y si n es su�cientemente grande, estas últimas se estabilizan en torno a las correspon-

dientes probabilidades experimentales, que en la Teoría corresponden a P (AB) y P (B).

De�nición 8 La probabilidad condicional de A dado B es:

P (A j B) = P (AB)

P (B)

La de�nición exige que P (B) > 0, es decir que B no sea imposible.

Ejemplo 18 Se lanzan 2 dados. Sabiendo que la suma de los puntos obtenidos es menorque 5 calcular la probabilidad de que sea par.

El espacio muestral consta de 36 resultados (x1; x2), donde xi es el punto que muestra

cada dado. Si los dados son equilibrados entonces todos los resultados deben tener la

misma probabilidad que debe valer P (x1; x2) = 1=36 para cada resultado.

La probabilidad que hay que calcular es condicional:

P (S = par j S < 5) =P (S = par y S < 5)

P (S < 5)

=4=36

6=36=2

3

pues:

P (S = par y S < 5) = P (fS = 2g [ fS = 4g)

= P (S = 2) + P (S = 4)

= 1=36 + 3=36 = 4=36

P (S < 5) = P (fS = 2g [ fS = 3g [ fS = 4g)

= P (S = 2) + P (S = 3) + P (S = 4)

= 1=36 + 2=36 + 3=36 = 6=36

Page 17: Métodos Estadísticos-Félix Míguez Marín [2012]

1.5. PROBABILIDAD CONDICIONAL 15

y

P (S = 2) = P (f(1; 1)g) = 1=36

P (S = 3) = P (f(1; 2); (2; 1)g) = 2=36

P (S = 4) = P (f(1; 3); (3; 1); (2; 2)g) = 3=36

Observar que la función P (� j B) de�ne una distribución de probabilidades sobre lossucesos de B (que son las intersecciones de los de con B) considerado como nuevo

espacio muestral. Como tal satisface los axiomas (compruébelo):

1. si Ai son sucesos tales que AiAj = �, entonces

P ([Ai j B) =X

P (Ai j B)

2.

P (B j B) = 1

En la investigación de los experimentos aleatorios muchas veces las probabilidades

condicionales se calculan o aproximan usando este punto de vista, mejor que usando su

de�nición: trabajando en el experimento restringido de espacio muestral B, más simple

que el global de espacio .

También podemos de�nir la de B dado A

P (B j A) = P (AB)

P (A)

y teniendo en cuanta ambas es

P (AB) = P (A j B)P (B) = P (B j A)P (A)

y es usando fórmulas como ésta que puede ser más sencillo calcular las probabilidades

incondicionales sobre los sucesos de a partir de las condicionales (obtenidas, como se

ha dicho, razonando directamente en el experimento restringido).

Ejemplo 19 Sean Ai (i = 1; :::n) sucesos arbitrarios. Compruebe que

P (A1A2 � � �An) = P (A1)P (A2 j A1)P (A3 j A1A2) � � �P (An j A1A2 � � �An�1)

Page 18: Métodos Estadísticos-Félix Míguez Marín [2012]

16 1. EL CONCEPTO DE PROBABILIDAD

Ejemplo 20 una urna contiene r bolas rojas y b blancas. Se extraen sucesivamente ysin reemplazamiento 4 bolas Calculemos la probabilidad de la secuencia (RBRB).

P (R) =r

r + b

P (B j R) =b

r + b� 1

P (R j RB) =r � 1

r + b� 2

P (B j RBR) =b� 1

r + b� 3

y la probabilidad pedida resulta:

P (RBRB) =rb(r � 1)(b� 1)

(r + b)(r + b� 1)(r + b� 2)(r + b� 3)

1.6 Fórmula de Bayes

Proposición 1 (fórmula de la probabilidad total) Sean Ai (i = 1; 2; :::) sucesos

tales que AiAj = � (incompatibles) y [Ai = (es decir, los Ai constituyen una par-

tición de ). Sea un suceso B. Entonces, como B = B = B ([Ai) = [ (BAi) y(BAi) (BAj) = BAiAj = B� = �, aplicando el primer axioma:

P (B) = P ([ (AiB)) =X

P (AiB)

y ahora aplicando la de�nición de probabilidad condicional

P (B) =X

P (B j Ai)P (Ai)

Ejemplo 21 Un lote de piezas mecanizadas ha sido producido por 3 máquinas difer-entes: el 20% por la 1, el 30% por la 2 y el 50% por la 3. El 1% de la producción de

la 1 es defectuosa, así como el 2% de la 2 y el 3% de la 3. ¿Qué proporción de piezas

defectuosas hay en el lote?

Sean M1, M2 y M3 los sucesos una pieza tomada del lote ha sido fabricada por una

u otra máquina. D el suceso una pieza tomada del lote es defectuosa. Estos sucesos

Page 19: Métodos Estadísticos-Félix Míguez Marín [2012]

1.6. FÓRMULA DE BAYES 17

cumplen las condiciones de arriba. Por lo tanto:

P (D) =X

P (D jMi)P (Mi) = 0:01� 0:20 + 0:02� 0:30 + 0:03� 0:50 = 0:023

Proposición 2 (fórmula de Bayes) Para cada uno de los Aj es:

P (Aj j B) =P (AjB)

P (B)

=P (B j Aj)P (Aj)PP (B j Ai)P (Ai)

Observar que si B sucede es porque ha sucedido alguno de los Ai. Si llamamos a

éstos las causas posibles de B, entonces la fórmula de Bayes evalúa la probabilidad de

cada una de ellas.

Ejemplo 22 (cont.) Se ha seleccionado al azar una pieza del lote y ha resultado defec-tuosa, ¿qué probabilidad hay de que haya sido producida por la máquina 1?

P (M1 j D) =P (D jM1)P (M1)

P (D)=0:01� 0:20:023

= 0:08696

Análogamente obtendriamos P (M2 j D) = 0:26087 y P (M3 j D) = 0:65217

En muchas ocasiones se trata de clasi�car un individuo tomado al azar de una

población en una de dos categorías sobre la base de cierto ensayo indirecto. Por ejemplo

el análisis químico de una muestra de un bloque de explotación para estimar si es de

mineral o no, o una prueba médica para estimar si el paciente tiene o no una enfermedad,

o un control de calidad para estimar si el producto es bueno o defectuoso.

Denotemos por ejemplo S (sano), E (enfermo), S� (la prueba dice sano) y E� (la

prueba dice enfermo). Entonces los resultados posibles son:

E S

E� correcto error 1

S� error 2 correcto

Toda ensayo tiene limitaciones: el error 1 son falsos positivos y el 2 falsos negativos.

Una terminología habitual es:

P (E) es la prevalencia de la enfermedad en la población estudiada.

Page 20: Métodos Estadísticos-Félix Míguez Marín [2012]

18 1. EL CONCEPTO DE PROBABILIDAD

P (E� j E) es la sensibilidad del ensayo: proporción de verdaderos positivos (en elámbito médico, capacidad del ensayo para detectar la enfermedad).

P (S� j S) es la especi�cidad del ensayo: proporción de verdaderos negativos (en elámbito médico, capacidad del ensayo para detectar a los sanos).

Sensibilidad y especi�cidad valoran la validez de la prueba pero en la práctica clínica

al médico le interesan más los valores predictivos:

P (E j E�) es valor predictivo positivo o probabilidad de padecer la enfermedad si laprueba es positiva.

P (S j S�) es valor predictivo negativo o probabilidad de estar realmente sano conuna prueba negativa.

Ejemplo 23 Ciertos refuerzos estructurales pueden presentar corrosión (S) o no pre-sentarla (N). Y cierto ensayo señala corrosión (S�) o no la señala (N�). Se someten

al ensayo 1000 refuerzos de los que 10 tienen corrosión y 990 no la tienen. El en-

sayo identi�ca 9 de los 10 correctamente, y de los 990 señala incorrectamente 99 como

corroidos:S N

S� 9 99 108

N� 1 891 892

10 990 1000

Así presentados los resultados, todas las probabilidades se estiman directamente con

las frecuencias relativas:

P (S) = 10=1000 = 0:01

P (S� j S) = 9=10 = 0:9

P (N� j N) = 891=990 = 0:9

P (S j S�) = 9=108

P (N j N�) = 891=892

Ejemplo 24 (cont.) Supongamos que, en cambio, sabemos que la sensibilidad y especi-�cidad del método de análisis de la corrosión son P (S� j S) = 0:9 y P (N� j N) = 0:9 y

Page 21: Métodos Estadísticos-Félix Míguez Marín [2012]

1.7. SUCESOS INDEPENDIENTES 19

que P (S) = 0:01. Entonces con la fórmula de Bayes:

P (S j S�) =P (S� j S)P (S)

P (S� j S)P (S) + P (S� j N)P (N)

=0:9� 0:01

0:9� 0:01 + (1� 0:9)� (1� 0:01) =9

108

1.7 Sucesos independientes

Como

P (A j B) = P (AB)

P (B)

y

P (B j A) = P (AB)

P (A)

siempre es

P (A j B)P (B) = P (B j A)P (A) = P (AB) (1.1)

Si, en un experimento, se encontrase que para los sucesos A y B es P (A j B) =P (A) 1, es natural decir que A es independiente de B. Pero entonces (sustituyendo

en 1.1) también es P (B j A) = P (B), es decir, también B es independiente de A: lainformación de que uno de ellos se ha realizado no modi�ca la probabilidaddel otro. Y también es

P (AB) = P (A)P (B)

que a su vez implica a las anteriores. Tenemos así la siguiente

De�nición 9 Las 3 igualdades numéricas

P (A j B) = P (A)

P (B j A) = P (B)

P (AB) = P (A)P (B)

son equivalentes. Si se veri�can, los sucesos A y B se dice que son independientes.

La interpretación experimental es la siguiente: sean nA, nB y nAB los números

de veces que suceden A, B y AB respectivamente, en el total de n realizaciones del

experimento aleatorio. La independencia quiere decir que, para n su�cientemente grande,

1Esto es una igualdad numérica, no una fórmula.

Page 22: Métodos Estadísticos-Félix Míguez Marín [2012]

20 1. EL CONCEPTO DE PROBABILIDAD

se veri�can las 3 igualdades equivalentes entre las frecuencias relativas:

nABnB

� nAn, nAB

nA� nBn, nAB

n� nAn

nBn

La independencia es muy importante cuando se conoce a priori (más que en su

constatación a posteriori) como veremos en la próxima sección.

Téngase en cuenta que la independencia de los sucesos A y B sólo depende de la

distribución P y no exige ninguna �relación� entre ellos en términos de inclusiones,

intersecciones etc.

Y que no se deben confundir los sucesos independientes con los incompatibles: precísa-

mente si son incompatibles, es decir AB = �, entonces no pueden ser independientes,

pues P (AB) = 0 y entonces P (A j B) = 0 pero P (A) > 0; e igual para la P (B j A).Más simple: la información de que uno de ellos se ha realizado es su�ciente para saber

que el otro no se ha realizado.

Ejemplo 25 se elige una carta de una baraja de 40. Los sucesos A =�rey�y B =�copas�son independientes, pues P (A) = 4=40 = 1=10, P (B) = 10=40 = 1=4, y P (AB) = 1=40.

Ejemplo 26 se lanza un dado equiprobable. Los sucesos �el punto es mayor que 2� y�el punto es par� son independientes.

P (par > 2) = P (4; 6) =1

3

P (par) = P (2; 4; 6) =1

2

P (> 2) = P (3; 4; 5; 6) =2

3

Ejemplo 27 Se lanza un dado dos veces. Sabiendo que la suma de los puntos es 7calculemos la probabilidad de que la primera tirada fuese 1

P (X1 = 1 j X1 +X2 = 7) =P (X1 = 1; X2 = 6)

P (X1 +X2 = 7)

=1=36

6=36=1

6= P (X1 = 1)

y obviamente resulta lo mismo para cualquier otro valor de la primera tirada: el resultado

de la primera tirada es independiente de la suma si ésta es 7. No así para cualquier otro

valor �jado de la suma: en el caso extremo P (X1 = 6 j X1 +X2 = 12) = 1

Page 23: Métodos Estadísticos-Félix Míguez Marín [2012]

1.8. EXPERIMENTOS INDEPENDIENTES 21

De�nición 10 En general n sucesos son independientes si para cada elección de k deellos (k = 2; :::; n) es:

P (Ai1Ai2 :::Aik) = P (Ai1)P (Ai2):::P (Aik)

En particular:

P (A1A2:::An) = P (A1)P (A2):::P (An)

Los sucesos independientes surgen de modo natural en los experimentos independien-

tes, que estudiamos ahora.

1.8 Experimentos independientes

Supongamos, sin pérdida de generalidad, 2 experimentos aleatorios (1;F1; P1) y(2;F2; P2). Nos interesamos ahora en el estudio conjunto de ambos, es decir, seanrealizados simultaneamente o en sucesión, en el experimento conjunto (;F ; P ):

El espacio muestral es = 1 � 2, constituido por todos los pares ordenados(!1; !2) de resultados de uno y otro.

Los sucesos F son los engendrados por los A1 �A2 con A1 2 F1 y A2 2 F2.

La probabilidad P sobre los sucesos de F está determinada por las P (A1 �A2), peroéstas no están en general determinadas por las P1 y P2: dependen de la conexión física

que haya entre los experimentos.

Salvo en el caso especialmente importante en que los experimentos parciales seanfísicamente independientes.

Proposición 3 Si los experimentos (1;F1; P1) y (2;F2; P2) son independientes, ladistribución de probabilidades en el experimento conjunto (;F ; P ) está determinadapor las P1 y P2 y es

P (A1 �A2) = P1(A1)P2(A2)

Demostración. Si los experimentos son independientes los sucesos de F de la forma

A1�2 (que sólo dependen del primer experimento: el suceso se realiza si sucede A1 enel primero no importa cual sea el resultado del segundo) y 1 �A2 (que sólo dependendel segundo experimento: el suceso se realiza si sucede A2 en el segundo no importa cual

sea el resultado del primero) son necesariamente independientes (cf 1.7).

Page 24: Métodos Estadísticos-Félix Míguez Marín [2012]

22 1. EL CONCEPTO DE PROBABILIDAD

Pero es obvio que

A1 �A2 = (A1 � 2) \ (1 �A2)

y si los (A1 � 2) y (1 �A2) son independientes

P (A1 �A2) = P ((A1 � 2) \ (1 �A2))

= P (A1 � 2)P (1 �A2)

Pero P (A1 � 2) = P1 (A1) y P (1 �A2) = P2(A2) así que

P (A1 �A2) = P1(A1)P2(A2)

Proposición 4 En general, en un experimento compuesto de n independientes, si Ai esun suceso del experimento i-ésimo, es

P (A1 �A2 � � � � �An) = P1(A1)P2(A2):::Pn(An):

Ejemplo 28 Se lanza una moneda con probabilidad p de cara n veces. El experimentoestá compuesto por los n (lanzamientos) parciales. En cada experimento parcial es i =

fc;+g con P (c) = p y P (+) = 1� p. Cada resultado del experimento conjunto es de laforma (!1!2:::!n) con !i = c ó +. Como los resultados de las tiradas son físicamente

independientes

P (!1!2:::!n) = P (!1)P (!2) � � �P (!n)

Por ejemplo, la probabilidad de que las k primeras tiradas sean cara y las n � kúltimas cruz es

P (cc(k)� � �c++

(n�k)� � � +) = P (c)P (c)

(k)� � �P (c)P (+)P (+)

(n�k)� � � P (+)

= pk(1� p)n�k

y obviamente es la misma para cada disposición pre�jada de k caras y n � k cruces enlas n tiradas. Igual da si se tiran n monedas iguales y se calcula la probabilidad de que

k seleccionadas muestren cara y las restantes cruz.

Como el número de resultados con k caras es�nk

�y cada uno de ellos tiene la misma

Page 25: Métodos Estadísticos-Félix Míguez Marín [2012]

1.9. EJERCICIOS PROPUESTOS 23

probabilidad anterior, la probabilidad de obtener k caras es

P (k caras) =�n

k

�pk(1� p)n�k 0 � k � n

Ejemplo 29 Como los núcleos radioactivos decaen independientemente unos de otros(excepto cuando se produce una reacción en cadena por �sión), y la probabilidad de

decaimiento en un intervalo de tiempo (0; t) es la misma para cada uno, sea pt, la

probabilidad de que decaigan k seleccionados en dicho intervalo es

pkt (1� pt)n�k

y la probabilidad de que decaigan k núcleos es

P (k núcleos) =�n

k

�pkt (1� pt)n�k 0 � k � n

1.9 Ejercicios propuestos

1. Deducir una formula para P (A[B) en el caso general (es decir cuando AB 6= � yno vale el primer axioma).

2. Tenemos un dado equiprobable (la probabilidad de cada punto es 1=6) y lo tru-

camos para conseguir que la probabilidad de tener 6 sea el doble que la de no

tenerlo, y los demás puntos tengan la misma probabilidad (pero obviamente dis-

tinta a la inicial). Calcular la probabilidad de tener par.

3. En un dado trucado es P (2) = P (4) = P (6) = p y P (1) = P (3) = P (5) = q;

además P (par) = P (impar) + 0:1 Calcular estas probabilidades.

4. Halle el valor de la constante c si tiene n resultados y sus probabilidades fuesen

P (!i) = ic; (i = 1; ::; n). (sugerencia: tenga en cuenta quePnx=1 x = n(n+1)=2 ).

5. Si A y B son independientes, compruebe que también lo son: Ac y B; A y Bc; Ac

y Bc.

6. Un jugador muy experto expresó su sorpresa a Galileo por observar que, al jugar

con 3 dados, la suma 10 aparece con más frecuencia que la 9, y, sin embargo, según

él había igual número de casos favorables: �suma 9�={126, 135, 144, 225, 234,

333}, �suma 10�={136, 145, 226, 235, 244, 334}. Galileo, en sus Considerazione

Sopra il Giuoco dei Dadi mostró que esto no era así. ¿Qué respondió Galileo?

Page 26: Métodos Estadísticos-Félix Míguez Marín [2012]

24 1. EL CONCEPTO DE PROBABILIDAD

7. (vea el ejemplo 25) Se tira una moneda con probabilidad p de cara n veces (ó n

monedas iguales). a) Calcular la probabilidad de obtener menos de k caras. b) deno obtener ninguna cara. c) de obtener por lo menos una cara.

8. En un lote deN piezas hayNp defectuosas (0 < p < 1 es la fracción de defectuosas).

a) Si se elige una pieza al azar ¿probabilidad de que sea defectuosa? b) Si se eligenn con reemplazamiento (cada una elegida se devuelve al lote para la siguiente

extracción) ¿probabilidad de obtener k defectuosas? (0 � k � n).

9. (cont.) Si se eligen n sin reemplazamiento (cada una elegida no se devuelve al lote

para la siguiente extracción; o lo que es igual, se sacan las n a la vez) ¿probabilidad

de obtener k defectuosas? (0 � k � min (n;Np)).

10. ¿Cuál es la probabilidad de que en 6 lanzamientos de un dado equilibrado aparezca

el 3 al menos una vez? ¿Y más de 4 veces?

11. Cierto sistema consta de n componentes montados en serie. El sistema funciona

mientras funcionen todos. Los componentes funcionan independientemente y cada

uno tiene una probabilidad p de fallar. Calcule la �abilidad del sistema, es decir,

la probabilidad de que no falle.

12. Idem si el sistema consta de n componentes montados en paralelo, y entonces el

sistema funciona mientras funcione al menos uno. (sugerencia: calcule la proba-

bilidad del suceso complementario "fallan todos").

13. Asigne probabilidades a cada uno de los resultados del experimento �tirar una

moneda con probabilidad p de cara hasta que salga cara�. Compruebe que la

suma es 1. Calcule la probabilidad de que salga cara en un número par de tiradas.

(sugerencia: los resultados posibles son = fc;+c;++ c; :::g. Tenga en cuenta laindependencia de las tiradas. Además

P1x=k r

x = rk=(1� r) si jrj < 1).

14. Supongamos que en una pregunta de test con m alternativas si el alumno no

sabe la respuesta intenta acertarla eligiendo al azar. Sea p la probabilidad de

que sepa la respuesta, y 1 la de que sabiéndola conteste correctamente. Calcule

la probabilidad de que un alumno que haya contestado correctamente supiese en

realidad la respuesta. (sugerencia: denote S=�sabe la respuesta�, N=�no sabe�,

S�=�responde correctamente�, N�=�no responde correctamente�)

15. En cierto yacimiento se prevé, a partir de un modelo estadístico global, que el

30% de los bloques de explotación son de mineral, pero sin poder asegurar, ante

Page 27: Métodos Estadísticos-Félix Míguez Marín [2012]

1.9. EJERCICIOS PROPUESTOS 25

cada bloque particular, si lo es o no. Para resolver este problema se pone a punto

un método de estimación que, contrastado sobre un cierto número de bloques, da

los siguientes resultados: cuando un bloque es de mineral el método acierta el

80% de las veces, y cuando es de estéril el 75%. a) ¿Qué proporción de bloquesserán clasi�cados como mineral? b) Calcular los valores predictivos del método.(DenoteM=�bloque de mineral�,M�=�bloque estimado como mineral�, E=�blo-

que de estéril�, E�=�bloque estimado como estéril�)

En los 3 ejercicios siguientes use la de�nición de la sección 1.4.2

16. Se elige un punto al azar en un cuadrado de lado `, y con él como centro se dibuja

un círculo de radio r (siendo 2r < `). ¿Probabilidad de que un vértice del cuadrado

quede dentro del círculo?

17. A lo largo de cierta falla se producen terremotos. Los que tienen su epicentro a

menos de 10 km de cierta presa, localizada 1 km fuera de la falla, son peligrosos.

Suponiendo que los epicentros se localizan al azar en cualquier segmento que se

considere de la falla, ¿qué probabilidad hay de que un terremoto peligroso tenga

su epicentro a menos de 5 km de la presa?

18. Sea una circunferencia en el plano z = 0 de R3 con centro en el origen y radio r, ysea el punto (0; 0; d). Desde dicho punto se hace un sondeo para intentar cortar a

la circunferencia, pero toma una inclinación aleatoria respecto al eje z de ángulo

' 2 (0; c) (no importa en qué dirección). ¿Probabilidad de cortar al cuerpo?

Page 28: Métodos Estadísticos-Félix Míguez Marín [2012]
Page 29: Métodos Estadísticos-Félix Míguez Marín [2012]

2

Variables Aleatorias

2.1 Variable aleatoria

Nos interesamos de ahora en adelante en las distribuciones de probabilidadesnuméricas (R;B; P ) (cf. Sección 1.3): el conjunto de resultados es R y los sucesos Bson los engendrados por los intervalos de R.

El modo natural de construirlas es mediante el concepto de variable aleatoria: los

resultados de los experimentos poseen propiedades que se pueden medir y nos interesamos

en sus valores.

De�nición 1 Sea una distribución de probabilidades (;F ; P ). Una variable aleato-ria es una función X : ! R tal que

8B 2 B X�1(B) 2 F

donde X�1(B) = f! 2 j X (!) 2 Bg.

Es decir, todo suceso numérico es la imagen de un suceso del experimento. En todas

las situaciones en que, de ahora en adelante, utilicemos las Vas, nunca será necesario

plantearse si efectivamente la particular función numérica de los resultados satisface

la condición de la de�nición. Para nuestros propósitos basta saber que si es �nito

o numerable cualquier función de�nida sobre es una Va. Y si es no numerable

cualquier función continua, excepto, a lo sumo, en un número �nito o numerable de

puntos, es una Va. En estas condiciones si X e Y son Vas de�nidas sobre el mismo

también lo son, por ejemplo, X2, X + Y , XY , min(X;Y ), etc.

27

Page 30: Métodos Estadísticos-Félix Míguez Marín [2012]

28 2. VARIABLES ALEATORIAS

Ejemplo 1 En 3 lanzamientos de una moneda el espacio muestral es

= f(ccc) ; (cc+) ; (c+ c) ; (+cc) ; (c++) ; (+c+) ; (+ + c) ; (+ + +)g

La función X = �número de caras� toma los valores:

X (ccc) = 3

X (cc+) = X (c+ c) = X (+cc) = 2

X (c++) = X (+c+) = X (+ + c) = 1

X (+ + +) = 0

Algunas preimágenes son

X�1(2) = f(cc+) ; (c+ c) ; (+cc)g

X�1((�1; 1]) = f(c++) ; (+c+) ; (+ + c) ; (+ + +)g

X�1((�1; 1)) = f(+ + +)g

Ejemplo 2 Más general, en n lanzamientos de una moneda el espacio muestral es =f(x1; x2; :::; xn) : xi = c ó +g. La función X = �número de caras� está de�nida sobre

los 2n elementos de y sus valores posibles son f0; 1; 2; :::; ng. Si el número de caras enel resultado particular (x1; x2; :::; xn) es x entonces X(x1; x2; :::; xn) = x.

Ejemplo 3 Un experimento análogo al anterior es �el número de núcleos radioactivos,de un total de n, que decaen en un intervalo de tiempo �jado (0; t).

Ejemplo 4 El número de veces que hay que lanzar una moneda hasta obtener cara.

Ejemplo 5 El ángulo que forma la aguja de una ruleta continua respecto al origen.

Ejemplo 6 El tiempo que transcurre, desde un instante de observación inicial, hastaque decae un núcleo.

El nombre variable aleatoria para una función debe entenderse en el sentido de varia-

ble dependiente (de los resultados del experimento). Denotaremos las variables aleatorias

con letras mayúsculas, como X; Y; Z,... (en seguida veremos que necesitamos la notación

habitual en Análisis para las funciones, como f , g ó F , con otro propósito) y con las

minúsculas correspondientes sus valores, por ejemplo, X (!) = x.

Page 31: Métodos Estadísticos-Félix Míguez Marín [2012]

2.1. VARIABLE ALEATORIA 29

Como se dijo al principio cada variable aleatoria representa1 una distribución de

probabilidades sobre R.

De�nición 2 Sea la Va X de�nida sobre (;F ; P ). Su distribución de probabili-dades es (R;B; PX) de�nida por

PX(B) = P (X�1(B)) 8B 2 B

En las aplicaciones, salvo casos muy simples, esta conexión entre las probabilidades

de los sucesos del experimento (lado derecho de la fórmula anterior) y las probabilidades

de los sucesos de R (lado izquierdo) no se hace explícita y la PX(B) se da directamenteo se trata de modelizar a partir de un conjunto de observaciones experimentales de X.

Para simpli�car la notación escribiremos P (X 2 B) en lugar de PX(B). Con ellarepresentamos la pregunta: cuando se haga el experimento y se mida el valorde X en el resultado ¿cuál es la probabilidad de que el valor medido sea unnúmero del intervalo B?

Más particularmente escribiremos:

P (a < X < b) si B = (a; b)

P (a < X � b) si B = (a; b]P (X � b) si B = �(1; b]P (X > b) si B = (b;+1); etc.

Experimentalmente P (a < X < b), por ejemplo, representa la proporción de veces

que, a larga, el valor medido de X está en (a; b); P (X � b) en (�1; b], etc.

Todas las fórmulas generales de la probabilidad, de�nidas para conjuntos arbitrarios,

se traducen sin di�cultad. Por ejemplo:

P (�1 < X < +1) = 1

P (X � x+ h) = P (X � x) + P (x < X � x+ h) h > 0 (2.1)

pues (�1; x+ h] = (�1; x][ (x; x+ h] y los dos intervalos de la derecha son disjuntos.

P (X > x) = 1� P (X � x) (2.2)

etc.1Con más precisión, equivale : se prueba que para cada distribución de probabilidades numérica es

posible construir una variable aleatoria que tenga esa distribución.

Page 32: Métodos Estadísticos-Félix Míguez Marín [2012]

30 2. VARIABLES ALEATORIAS

De�nición 3 (Variables discretas) Si el conjunto de valores posibles de la función X(el conjunto de imágenes, o recorrido, denotado X ()) es numerable (�nito o in�nito)

la variable se llama discreta.

Ejemplo 7 las variables de los ejemplos 2 y 3 con valores posibles f0; 1; 2; :::ng. La delejemplo 4 con valores posibles f1; 2; 3; :::g.

De�nición 4 (Variables continuas) Si el conjunto de valores posibles de la funciónX es no numerable (un intervalo de R, acotado o no), la variable se llama continua.

Ejemplo 8 la del ejemplo 5 con valores posibles [0; 2�]. La del ejemplo 6 con valoresposibles (0;+1).

2.2 Función de distribución

Nuestro interés en el trabajo con las variables aleatorias es conocer su distribución de

probabilidades, sin que en la mayor parte de las aplicaciones nos importe la forma de

la propia función X. Puede ser además que diferentes variables aleatorias, medidas en

experimento distintos, tengan la misma distribución, o ley de probabilidades. Laventaja de las variables aleatorias es que dicha distribución (que es una función de

conjuntos) se puede especi�car de modo más cómodo por medio de ciertas funciones

reales de variable real (vale decir por una fórmula).

De�nición 5 La función de distribución2 de la variable aleatoria X es

F (x) = P (X � x) 8x 2 R

Se prueba que la distribución de probabilidades P (X 2 B) está determinada por lafunción de distribución F (x), es decir, la probabilidad de cualquier B se puede calcular

a partir de las probabilidades de los intervalos (�1; x].

Ejemplo 9 Para (a; b], de (2:1)

P (a < X � b) = F (b)� F (a) (2.3)

Ejemplo 10 Para (b;+1), de (2:2):

P (X > b) = 1� F (b)2También se suele llamar la función de distribución acumulada

Page 33: Métodos Estadísticos-Félix Míguez Marín [2012]

2.3. VARIABLES DISCRETAS 31

De la de�nición se sigue que F (x) es monótona no decreciente, pues de (2:3)

F (x+ h)� F (x) = P (x < X � x+ h) � 0 h > 0 (2.4)

y tiene límites F (�1) = P (X � �1) = P (�) = 0: y F (+1) = P (X � +1) =P (R) = 1.

Se prueba además que siempre es continua por la derecha:

limh!0+

(F (x+ h)� F (x)) = limh!0+

P (x < X � x+ h) = P (;) = 0

Recíprocamente, cualquier función F : R ! (0; 1) con las propiedades citadas es la

función de distribución de una variable aleatoria.

Por la izquierda, sin embargo, no tiene por qué ser continua:

limh!0�

(F (x)� F (x� h)) = limh!0�

P (x� h < X � x) = P (X = x)

y sólo lo será en cada x tal que P (X = x) = 0.

Si X es discreta se ve fácilmente que F (x) es discontinua en cada uno de sus valores

posibles x 2 X (), en los cuales es P (X = x) > 0, y de valor constante entre cada 2

puntos de discontinuidad.

Si X es continua, en todos los casos que nosotros vamos a estudiar F (x) es continua.

Según que X sea discreta o continua existen otras funciones equivalentes a la F más

cómodas y que estudiamos a continuación.

2.3 Variables discretas

De�nición 6 Si la variable X es discreta, es decir, su conjunto de valores posibles es

numerable, sea S � X (), su función de masa de probabilidades es

f (x) = P (X = x) 8x 2 S

y cero en otro caso.

La P (X 2 B) se calcula sumando los valores de f (x) en los puntos de S que

pertenecen a B:

P (X 2 B) =X

x2B\Sf (x)

Page 34: Métodos Estadísticos-Félix Míguez Marín [2012]

32 2. VARIABLES ALEATORIAS

y se sigue que Xx2S

f (x) = 1

y recíprocamente, cualquier función f (x) > 0 sobre un conjunto numerable S tal quePx2S f (x) = 1 es una función de masa.

En particular la F es

F (x) =X

u2S;u�xf (u) 8x 2 R

Ejemplo 11 La función de masa uniforme, o equiprobable, es

f (x) =1

nx = 1; 2; :::; n

La función de distribución es

F (x) =

8><>:0 x < 1

kn k � x < k + 1 (1 � k < n)

1 x � n

Ejemplo 12 La función de masa de Bernoulli de parámetro p 2 (0; 1) es

f (x) = px (1� p)1�x x = 0; 1

La función de distribución es

F (x) =

8><>:0 x < 0

1� p 0 � x < 11 x � 1

El modelo básico que da lugar a esta clase de variables aleatorias es un experimento

con sólo 2 resultados posibles, digamos cara y cruz, con probabilidades respectivas p y

1� p, que se realiza una vez. La variable aleatoria es X (cara) = 1 y X (cruz) = 0.

Ejemplo 13 La función de masa binomial de parámetros n 2 N y p 2 (0; 1) es

f(x) =

�n

x

�px(1� p)n�x x = 0; 1; :::; n

Page 35: Métodos Estadísticos-Félix Míguez Marín [2012]

2.3. VARIABLES DISCRETAS 33

Efectivamente f (x) > 0 y (fórmula del binomio de Newton):

[p+ (1� p)]n =nXx=0

�n

x

�px(1� p)n�x = 1

El conjunto de valores posibles de una Va con esta función de masa es f0; 1; 2; :::; ng.El modelo básico que da lugar a esta clase de variables aleatorias es un experimento

como el del ejemplo anterior (de Bernoulli) que se realiza n veces independientemente.

La variable aleatoria X =�número de caras en los n lanzamientos�, es binomial.

0 2 4 6 8 100

0.2

0.4

p = 0.2

0 2 4 6 8 100

0.2

0.4

p = 0.5

0 2 4 6 8 100

0.2

0.4

p = 0.8

funciones de masa binomiales con n = 10 y p = 0:2; 0:5 y 0:8

Page 36: Métodos Estadísticos-Félix Míguez Marín [2012]

34 2. VARIABLES ALEATORIAS

Ejemplo 14 La función de masa geométrica de parámetro p 2 (0; 1) es

f(x) = (1� p)x�1p x = 1; 2; 3; :::

Efectivamente f(x) > 0 y

1Xx=1

(1� p)x�1p = p

1� p

1Xx=1

(1� p)x = p

1� p �1� p

1� (1� p) = 1

El modelo básico que da lugar a esta clase de variables aleatorias es el siguiente:

un experimento con sólo 2 resultados posibles, digamos cara y cruz, con probabilidades

respectivas p y 1 � p, se realiza independientemente hasta obtener cara. La variable

aleatoria X =�número de tiradas hasta que aparece cara�es geométrica.

Efectivamente, los valores posibles de X son los enteros f1; 2; 3:::g. El valor X = x

se observa si las primeras x � 1 tiradas son cruz y la tirada x es cara. La probabilidadde esta disposición particular es (por la independencia de los resultados parciales que la

componen) (1� p)x�1p.

Ejemplo 15 La función de masa de Poisson de parámetro � > 0 es

f(x) = e���x

x!x = 0; 1; 2; :::

Efectivamente1Xx=0

e���x

x!= 1

recordando que

e� = 1 + �+�2

2!+�3

3!+ � � �

Las variables aleatorias de Poisson aparecen en muchos sistemas de la naturaleza y

la vida cotidiana en los que nos interesamos en el número de acontecimientos de cierta

clase que aparecen en intervalos de observación �jos, temporales o espaciales: número

de clientes que llegan a una ventanilla en demanda de servicio, o de terremotos de cierta

intensidad, o de accidentes graves, distribución espacial de animales, plantas, galaxias

etc. En el Capítulo IV la estudiaremos con más detalle.

Page 37: Métodos Estadísticos-Félix Míguez Marín [2012]

2.4. VARIABLES CONTINUAS 35

2.4 Variables continuas

De�nición 7 Si la variable aleatoria es continua, es decir, el conjunto de sus valoresposibles X () es no numerable (un intervalo de R, que puede ser acotado o no), en todoslos casos que vamos a estudiar existe una función integrable f (x) � 0 (cero 8x =2 X ()),llamada de densidad de probabilidad, tal que

P (X 2 B) =ZBf (u) du (2.5)

Se sigue que ZRf (u) du = 1

y recíprocamente, cualquier función integrable f (x) � 0 que satisfaga la fórmula anteriores la función de densidad de una variable aleatoria.

La relación con F es (fórmula (2:5) con B � (�1; x])

F (x) = P (X � x) =Z x

�1f (u) du (2.6)

de manera que F es continua (primer teorema fundamental del cálculo integral). Además

en cada x en que f (x) sea continua (como f es Riemann integrable a lo más tiene una

cantidad numerable de discontinuidades)

F 0 (x) = f (x) (2.7)

es decir, F (x) es una función primitiva de f (x).

Ejemplo 16 Se elige un punto al azar en el círculo x2 + y2 � 1 y se de�ne la Va

R=distancia del punto al centro, con recorrido [0; 1]. Hallemos su función de distribu-

ción. Sea r 2 [0; 1] �jado. El suceso R � r se realiza si el punto cae dentro del círculointerior de radio r y su probabilidad es el cociente de las super�cies de dicho círculo y

el total (cf 1.4.2)

FR (r) = P (R � r) =�r2

�= r2 r 2 [0; 1]

así que la densidad de R es

fR (r) = F0R (r) = 2r r 2 [0; 1]

Ejemplo 17 (cont:) En el mismo experimento sea � el ángulo que forma el radio vector

Page 38: Métodos Estadísticos-Félix Míguez Marín [2012]

36 2. VARIABLES ALEATORIAS

del punto con el eje de abscisas, con recorrido [0; 2�]. El suceso � � ' se realiza si

el punto cae dentro del sector, medido desde el eje de abscisas, de amplitud ' y su

probabilidad es el cociente de las super�cies de dicho sector y del círculo

F� (') = P (� � ') ='=2

�='

2�' 2 [0; 2�]

así que la densidad de � es

f� (') = F0R (') =

1

2�' 2 [0; 2�]

De (2:4) y (2:5)

P (x1 < X � x2) =Z x2

x1

f (x) dx = F (x2)� F (x1) (2.8)

De (2:5), en particular, es

P (X = x) =

Z x

xf(u)du = 0 8x

Esto es así formalmente (propiedad de la integral de Riemann), pero también conforme

con la realidad experimental: pues los valores de una X continua sólo se observan a una

precisión dada y la frecuencia relativa de cada uno de ellos tiende a cero a medida que

la precisión aumenta. Así pues, con las variables continuas con las que vamos a trabajar

es

P (x1 < X < x2) = P (x1 � X < x2) = P (x1 < X � x2) = P (x1 � X � x2)

y en particular F (x) = P (X � x) = P (X < x).

Téngase presente que f (x) (a diferencia de la función de masa de una variable dis-

creta) no es una probabilidad, y puede tomar valores arbitrariamente grandes.

Ejemplo 18 la función de densidad f (x) = � ln (x) para x 2 (0; 1). Efectivamente esuna densidad pues f (x) > 0 para x 2 (0; 1) yZ 1

0� ln (x) dx = [�x (lnx� 1)]10 = 1

Page 39: Métodos Estadísticos-Félix Míguez Marín [2012]

2.4. VARIABLES CONTINUAS 37

Además f (x) no está acotada

limx!0+

(� ln (x)) =1

Sin embargo, de (2:7) y (2:8) con h > 0

f (x) = limh!0

F (x+ h)� F (x)h

= limh!0

P (x < X � x+ h)h

la última fracción es el cociente de la masa de probabilidad en el intervalo, P (x < X � x),dividida por la longitud h, es decir la densidad de probabilidad.

Del límite se sigue que

P (x < X � x+ h) = f (x)h+ r (h) (2.9)

con

limh!0

r (h)

h= 0

y puede decirse que, salvo un in�nitésimo de orden superior a h

P (x < X � x+ h) � f (x)h

Ejemplo 19 (cont.) Se elige un punto al azar en el círculo x2+y2 � 1 y se de�ne la VaR distancia del punto al centro, con recorrido [0; 1]. Hallemos su densidad directamente.

Sea r 2 [0; 1] �jado. El suceso r < R � r+ h se realiza si el punto cae entre los círculosde radios r y r + h. Su probabilidad es el cociente de las super�cies de dicha corona y

del círculo

P (r < R � r + h) = � (r + h)2 � �r2�

= 2rh+ h2

así que, de (2.9)

fR (r)h+ r (h) = 2rh+ h2 ! fR (r) +

r (h)

h= 2r + h

y resulta

fR (r) = 2r r 2 [0; 1]

De�nición 8 La función inversa de la F (x) = p, (que existe ya que F es estrictamentecreciente y continua), se llama función de cuantiles:

x = F�1 (p) p 2 (0; 1)

Page 40: Métodos Estadísticos-Félix Míguez Marín [2012]

38 2. VARIABLES ALEATORIAS

y el número x se llama el cuantil de orden p y se denota también como xp.

En particular el cuantil x0:5 se llama la mediana.

Ejemplo 20 la función de densidad uniforme en (a; b) es

f (x) =1

b� a x 2 (a; b)

y cero en otro caso. Es inmediato queZRf (x) dx =

Z a

�10� dx+

Z b

a

1

b� adx+Z +1

b0� dx

=

�x

b� a

�ba

= 1

El conjunto de valores posible de una variable aleatoria con esta densidad es (a; b). Su

función de distribución y de cuantiles son

F (x) =

8>>><>>>:0 x � aZ x

a

1

b� adu =x� ab� a x 2 (a; b)

1 x � b

x = F�1 (p) = a+ p (b� a) p 2 (0; 1)

Ejemplo 21 la función de densidad exponencial (de parámetro � > 0) es

f (x) = � exp (��x) x > 0

y cero en otro caso.ZRf (x) dx =

Z 0

�10� dx+

Z +1

0� exp (��x) dx

= [� exp (��x)]+10 = 1

El conjunto de valores posibles de una variable aleatoria con esta densidad es (0;+1).Su función de distribución y de cuantiles son

F (x) =

8<: 0 x � 0Z x

0� exp (��u) du = 1� exp (��x) x > 0

Page 41: Métodos Estadísticos-Félix Míguez Marín [2012]

2.4. VARIABLES CONTINUAS 39

x = F�1 (p) = � 1�ln (1� p) p 2 (0; 1)

0 2 4 6 8 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

t

f(t)λ=1

λ=1/2

Densidades exponenciales

0 2 4 6 8 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

t

F(t)

λ=1/2

λ=1

Funciones de distribucion exponenciales

Ejemplo 22 la función de densidad de Gauss, o normal, de parámetros � 2 R y

� > 0, es

f (x) =1

�p2�exp

"�12

�x� ��

�2#�1 < x < +1

Page 42: Métodos Estadísticos-Félix Míguez Marín [2012]

40 2. VARIABLES ALEATORIAS

En el Capítulo 4 se hará un estudio detallado.

Ejemplo 23 la función de densidad de Cauchy es

f (x) =1

� (1 + x2)�1 < x < +1

Efectivamente f (x) > 0 yZ +1

�1

dx

� (1 + x2)=1

�[arctan (x)]+1�1 =

1

h�2����2

�i= 1

El conjunto de valores posibles de una variable aleatoria con esta densidad es (�1;+1).Su función de distribución y de cuantiles son

F (x) =

Z x

�1

du

� (1 + u2)=1

�arctan (x) +

1

2x 2 R

x = F�1 (p) = tan�

�p� 1

2

�p 2 (0; 1)

­10 ­5 0 5 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

x

f(x)

densidad de Cauchy

Page 43: Métodos Estadísticos-Félix Míguez Marín [2012]

2.5. VARIABLES MIXTAS 41

2.5 Variables mixtas

Una Va X es mixta si es una mezcla de discreta y continua: su función de distribu-

ción es continua salvo en un conjunto numerable S.

Ejemplo 24 Se elige un punto al azar en el (0; 1) y se de�ne la VA X = �distancia del

punto al origen� si el punto cae en (0; 1=2) y X = 1=2 si el punto cae en [1=2; 1). La

función de distribución de X es:

F (x) =

8><>:0 x � 0x x 2 (0; 1=2)1 x � 1=2

El recorrido de X es (0; 1=2) con densidad f (x) = 1 y el punto 1=2 con masa

P (X = 1=2) = 1=2

Ejemplo 25 En un sistema en el que las llegadas de clientes y los tiempos de servicioson aleatorios, la Va X =�tiempo de espera para el servicio� es mixta. Si al llegar un

cliente el sistema está desocupado el tiempo de espera es cero y P (X = 0) = p (podemos

interpretar el valor de p como la proporción de tiempo que, a la larga, el sistema está

desocupado). Pero si al llegar un cliente el sistema está ocupado su tiempo de espera

toma valores en (0; a) (a es el tiempo máximo de espera) con una densidad f (x) tal queR a0 f (x) dx = 1� p.

2.6 Variable aleatoria bidimensional

De�nición 9 Dos variables aleatorias medidas simultaneamente sobre los resultados delmismo experimento de�nen una variable aleatoria bidimensional, sea (X;Y ) : !R2.

Ejemplo 26 Sea un experimento con 3 resultados posibles, a, b y c, con probabilidadesrespectivas pa, pb y pc, (pa + pb + pc = 1). Se realiza n veces independientemente. Se

de�nen las Vas X =�número de veces que resultó a�; e Y =�número de veces que resultó

b�.

El recorrido de la Va (X;Y ) es el conjunto f(x; y) j x; y 2 f0; 1; 2; :::ng; x+ y � ng.El de X y el de Y es f0; 1; 2; :::ng.

Page 44: Métodos Estadísticos-Félix Míguez Marín [2012]

42 2. VARIABLES ALEATORIAS

Ejemplo 27 En el experimento de elegir un punto al azar en el círculo x2+y2 � 1: Lascoordenadas cartesianas (X;Y ) del punto tienen recorrido f(x; y) j x2 + y2 � 1g. Lascoordenadas polares (R;�) del punto tienen recorrido [0; 1]� [0; 2�].

Como en cada realización del experimento no podemos asegurar el resultado ! 2 que se va a obtener, tampoco podemos asegurar el punto (X (!) ; Y (!)) 2 R2 que va aresultar, y nuestro interés se dirige a calcular la probabilidad de que pertenezca a uno u

otro conjunto del plano numérico.

De�nición 10 Sea la Va (X;Y ) de�nida sobre (;F ; P ). Su distribución de probabi-lidades es (R2;B2; PX;Y ) de�nida por

PX;Y (B) = P ((X;Y )�1 (B)) 8B 2 B2

En las aplicaciones, salvo casos muy simples, esta conexión entre las probabilidades

de los sucesos del experimento (lado derecho de la fórmula anterior) y las probabilidades

de los sucesos de R2 (lado izquierdo) no se hace explícita y la PX;Y (B) se da directamente.

Para simpli�car la notación escribiremos P ((X;Y ) 2 B) en lugar de PX;Y (B). Conella representamos la pregunta: cuando se haga el experimento y se midan losvalores de X y de Y en el resultado ¿cuál es la probabilidad de que el puntoobtenido esté en el conjunto B del plano numérico?

Más particularmente escribiremos:

P (X 2 B1; Y 2 B2) si B = B1 �B2 con B1 2 B y B2 2 BP (a < X < b; c < Y < d) si B = (a; b)� (c; d)P (X � a; Y � b) si B = (�1; a]� (�1; b] etc.

2.6.1 Función de distribución conjunta

Nuestro interés es conocer esta distribución que, como en el caso unidimensional, se puede

especi�car de modo más cómodo por medio de ciertas funciones reales de variables reales

(vale decir por una fórmula).

De�nición 11 La función de distribución conjunta de la variable (X;Y ) es

F (x; y) = P (X � x; Y � y) 8x; y 2 R (2.10)

Es decir, la probabilidad de cualquier B se puede calcular a partir de las probabili-

dades de los intervalos (�1; x]� (�1; y].

Page 45: Métodos Estadísticos-Félix Míguez Marín [2012]

2.7. VARIABLE ALEATORIA BIDIMENSIONAL DISCRETA 43

Por ejemplo, para B = (x; x+h]�(y; y+k] , (h > 0; k > 0) es (compruébelo haciendouna �gura!):

P (x < X � x+h; y < Y � y+ k) = F (x+h; y+ k)�F (x+h; y)�F (x; y+ k)+F (x; y)(2.11)

Se prueba que F (x; y) es continua por la derecha y monótona no decreciente en cada

una de las variables, y que tiene límites F (�1; y) = F (x;�1) = F (�1;�1) = 0

y F (+1;+1) = 1. Sólo estas propiedades no bastan para que una F (x; y) sea una

función de distribución; además ha de ser

42F (x; y) = F (x+ h; y + k)� F (x+ h; y)� F (x; y + k) + F (x; y) � 0 (2.12)

Las funciones de distribución de cada una de las variable X e Y , sean FX (x) y

FY (y), se llaman marginales, y están determinadas por la F (x; y):

F (x;+1) = P (X � x; Y � +1) = P (X � x) = FX (x)

F (+1; y) = P (X � +1; Y � y) = P (Y � y) = FY (y)

Sin embargo, en general, las marginales no determinan la F (x; y).

2.7 Variable aleatoria bidimensional discreta

De�nición 12 Si X e Y son ambas discretas con recorrido conjunto S, la funciónde masa conjunta, equivalente a la F (x; y), es

f (x; y) = P (X = x; Y = y) 8 (x; y) 2 S

y cero en otro caso.

Se sigue que X(x;y)2S

f (x; y) = 1

Cualquier probabilidad se calcula así

P ((X;Y ) 2 B) =X

(x;y)2B\Sf (x; y)

Page 46: Métodos Estadísticos-Félix Míguez Marín [2012]

44 2. VARIABLES ALEATORIAS

Además las funciones de masa, marginales, de X e Y son

fX (x) =Xy

f (x; y) (2.13)

fY (y) =Xx

f (x; y)

Ejemplo 28 Sea (X;Y ) la Va del ejemplo 26. Obtengamos la f(x,y). Para ello hemosde sumar las probabilidades de todos los resultados (n-tuplas) con dicha composición: x

de tipo a e y de tipo b (y naturalmente n� x� y de tipo c) cualquiera que sea el ordenen que hayan aparecido. Pero para cada resultado particular la probabilidad es, por la

independencia de los ensayos, pxapybpn�x�yc , y hay�

n

x

��n� xy

�=

n!

x!y!(n� x� y)!

distintos con dicha composición (primero se eligen, entre los números 1 a n, las x posi-

ciones de las a, que se multiplican por las elecciones para las y entre las n�x restantes).En conclusión:

f(x; y) =n!

x!y!(n� x� y)!pxapybpn�x�yc x; y 2 f0; 1; 2; :::ng; x+ y � n

La Va (X;Y ) se denomina trinomial de parámetros (n; pa; pb; pc). Es claro que tantoX como Y son binomiales de parámetros (n; pa) y (n; pb) respectivamente.

2.7.1 Condicionales

Si y es un valor �jado del recorrido de la Va Y , por lo tanto con P (Y = y) = fY (y) > 0,

recordando la fórmula de la probabilidad condicional (Sección 1.5) es

P (X = x j Y = y) = P (X = x; Y = y)

P (Y = y)=f (x; y)

fY (y)

y se ve que la función de la derecha, de argumento x y parámetro y, es una función de

masa, pues, usando (2:13)

1

fY (y)

Xx

f (x; y) =1

fY (y)� fY (y) = 1

De�nición 13 Sea (X:Y ) discreta con masa f (x; y). Para cada valor Y = y �jado delrecorrido de Y la Va (X j Y = y) se llama condicional y su función de masa es

Page 47: Métodos Estadísticos-Félix Míguez Marín [2012]

2.8. VARIABLE ALEATORIA BIDIMENSIONAL CONTINUA 45

f(x j y) = f(x; y)

fY (y)8x 2 R

Observar que hay tantas Vas condicionales cuantos valores puedan �jarse en el recor-

rido de Y . Naturalmente todo lo dicho puede repetirse cambiando los papeles de X e

Y , obteniéndose las f(y j x).

Ejemplo 29 (cont. del 28) Sea �jado 0 < y < n.La Va (X j Y = y) tiene recorrido

f0; 1; :::; n� yg: Su fm es:

f(x j y) =

�nx

��n�xy

�pxap

ybpc

n�x�y�ny

�pyb (1� pb)n�y

=

�n� yx

��pa

pa + pc

�x�1� pa

pa + pc

�n�y�xResulta que (X j Y = y) es una Va binomial de parámetros (n� y) y pa=(pa + pc).

Efectivamente, �jados los Y = y resultados de tipo b, cada uno de los n� y restantessólo pueden ser de tipo a ó c con probabilidades ahora:

P (! = a j ! 6= b) = P (! = a)

P (! = a) + P (! = c)=

papa + pc

y análogamente para c.

2.8 Variable aleatoria bidimensional continua

De�nición 14 Si X e Y son ambas continuas, en todos los casos que vamos a estu-diar existe una función integrable f (x; y) � 0 (cero en todo (x; y) que no sea del recorridode (X;Y )), llamada de densidad conjunta, tal que

P ((X;Y ) 2 B) =Z Z

Bf (u; v) dudv 8B 2 B2 (2.14)

Se sigue que Z ZR2f (u; v) dudv = 1

En particular tomando B = (�1; x]� (�1; y] resulta que

F (x; y) = P (X � x; Y � y) =Z x

�1

Z y

�1f (u; v) dudv

Page 48: Métodos Estadísticos-Félix Míguez Marín [2012]

46 2. VARIABLES ALEATORIAS

de manera que F es continua. Y en cada (x; y) en que f (x; y) sea continua

@2F (x; y)

@x@y= f (x; y) (2.15)

De (2.11) y (2.15)

limh!0k!0

P (x < X � x+ h; y < Y � y + k)hk

= limh!0k!0

42F (x; y)

hk=@2F (x; y)

@x@y= f(x; y)

la primera fracción de la izquierda es el cociente de la masa de probabilidad en el rec-

tángulo, P (x < X � x + h; y < Y � y + k), dividida por la super�cie hk, es decir la

densidad de probabilidad.

Del límite se sigue que

P (x < X � x+ h; y < Y � y + k) = f (x; y)hk + r (hk) (2.16)

con

limh!0k!0

r (hk)

hk= 0

y puede decirse que, que salvo un in�nitésimo de orden superior a hk, es

P (x < X � x+ h; y < Y � y + k) � f(x; y)hk

La función de densidad, marginal, de X se deduce de

FX (x) = P (X � x; Y � +1) =Z x

�1

�Z +1

�1f (u; v) dv

�du

y es

fX (x) = F0X (x) =

Z +1

�1f (x; v) dv (2.17)

y análogamente

fY (y) =

Z +1

�1f (u; y) du

De (2.14), en particular, resulta (propiedad de la integral de Riemann) que si B es

un conjunto de super�cie nula (un punto o una curva por ejemplo) es

P ((X;Y ) 2 B) =Z Z

Bf (u; v) dudv = 0

Page 49: Métodos Estadísticos-Félix Míguez Marín [2012]

2.8. VARIABLE ALEATORIA BIDIMENSIONAL CONTINUA 47

así que, con las variables continuas con las que vamos a trabajar es

P (a � X � b; c � Y � d) = P (a < X < b; c < Y < d)

P (X � a; Y � b) = P (X < a; Y < b)

etc.

Ejemplo 30 Sean (X;Y ) la coordenadas de un punto elegido al azar en el círculo x2 +y2 � 1: Si (x; y) y (x+ h; y + k) son puntos del círculo

P (x < X � x+ h; y < Y � y + k) = hk

(cociente de super�cies por ser el punto elegido al azar; Sección 1.4.2 ). Se sigue de(2.16) que

f (x; y)hk + r (hk) =hk

es decir

f (x; y) =1

�x2 + y2 � 1

que es una densidad uniforme, o equiprobable, en el círculo.

La densidad marginal de la X se obtiene con

fX (x) =

Z +1

�1f (x; y) dy =

Z +p1�x2

�p1�x2

1

�dy =

2p1� x2�

x 2 [�1; 1]

pues f (x; y) = 0 para x �jado e y =2h�p1� x2;+

p1� x2

i. La de la Y es obviamente

análoga.

2.8.1 Condicionales

Si y es un valor �jado del recorrido de la Va Y tal que fY (y) > 0, la función

f (x; y)

fY (y)

de argumento x y parámetro y, es una función de densidad, pues, usando (2.17)

1

fY (y)

ZRf (x; y) dx =

1

fY (y)� fY (y) = 1

Page 50: Métodos Estadísticos-Félix Míguez Marín [2012]

48 2. VARIABLES ALEATORIAS

De�nición 15 Sea (X:Y ) continua con densidad f (x; y). Para cada valor Y = y �jadotal que fY (y) > 0 la Va (X j Y = y) se llama condicional y su función de densidad es

f(x j y) = f(x; y)

fY (y)8x 2 R

Observar que hay tantas Vas condicionales cuantos valores puedan �jarse en el recor-

rido de Y con fY (y) > 0. Naturalmente todo lo dicho puede repetirse cambiando los

papeles de X e Y , obteniéndose las f(y j x).

Ejemplo 31 Sean (X;Y ) la coordenadas de un punto elegido al azar en el círculo x2 +y2 � 1. La densidad conjunta y la marginal de la X son (ejemplo 30)

f (x; y) =1

�x2 + y2 � 1

fX (x) =2p1� x2�

x 2 [�1; 1]

y las densidades condicionales de (Y j X = x), para cada x 2 (�1; 1) (pues para x = �1es fX (x) = 0) resultan

f(y j x) = f(x; y)

fX(x)=

1�

2p1�x2�

=1

2p1� x2

y 2h�p1� x2;+

p1� x2

ide manera que las (Y j X = x) son uniformes, o equiprobables (y naturalmente lo mismo

sucede para las (X j Y = y)).

2.9 Variables independientes

Vimos en la sección 2.6.1 que la distribución de probabilidades de (X;Y ) determinalas de X e Y por separado (marginales), pero éstas, en general, no determinan aquélla.

Salvo en el caso siguiente:

De�nición 16 Las variables X e Y son independientes si

P (X 2 A; Y 2 B) = P (X 2 A)P (Y 2 B) 8A;B 2 B

Proposición 1 Las siguientes condiciones, todas equivalentes, son necesarias y su�-cientes para la independencia:

Page 51: Métodos Estadísticos-Félix Míguez Marín [2012]

2.9. VARIABLES INDEPENDIENTES 49

(i) con las funciones de distribución:

F (x; y) = FX(x)FY (y)

(ii) con las funciones de masa o densidad:

f(x; y) = fX(x)fY (y)

(iii) con las condicionales:

f(x j y) = fX(x) 8y

que a su vez equivale a:

f(y j x) = fY (y) 8x

Una condición necesaria, pero no su�ciente, para la independencia, es que el recorrido

de (X;Y ) sea el producto cartesiano de los de X e Y (intuitivamente: si el recorrido de

una de las variables, sea la (X j Y = y), depende de cual sea el valor y �jado, hay unaclara dependencia).

Ejemplo 32 Si la Va (X;Y ) tiene densidad f(x; y) = e�(x+y) si x; y > 0, entonces Xe Y son independientes, pues basta observar que f(x; y) se factoriza en el producto de 2

funciones cada una dependiendo de sólo una de las variables (este resultado es de validez

general).

Ejemplo 33 Las coordenadas cartesianas (X;Y ) de un punto elegido al azar en el cír-culo x2 + y2 � 1 no son independientes, pues basta observar que su recorrido no es unrectángulo del plano.

Como en el caso de la independencia de sucesos (cf. secciones 1.7 y 1.8) la devariables aleatorias es muy importante cuando se conoce a priori, más que su constatación

a posteriori.

Ejemplo 34 Se elige un punto al azar en el círculo x2 + y2 � 1. Las coordenadas

polares (R;�) del punto son obviamente independientes: la distancia del punto al centro

es independiente del radio sobre el que se sitúa el punto. Como las densidades marginales,

Page 52: Métodos Estadísticos-Félix Míguez Marín [2012]

50 2. VARIABLES ALEATORIAS

obtenidas en los ejemplos 16 y 17 son

fR (r) =

Z 2�

0

r

�d' = 2r r 2 [0; 1]

f� (') =

Z 1

0

r

�dr =

1

2�' 2 [0; 2�]

la densidad conjunta es

fR;� (r; ') = fR (r) f� (') =r

�(r; ') 2 [0; 1]� [0; 2�]

Véase también el ejemplo 47.

Ejemplo 35 Un modo trivial de construir Vas independientes es a partir de experi-mentos independientes (Sección 1.8). Si (1;F1; P1) y (2;F2; P2) son independientes,entonces sendas variables X e Y de�nidas respectivamente sobre 1 y 2 de�nen a su

vez una conjunta (X;Y ) sobre 1 � 2, así

(X;Y ) (!1; !2) = (X (!1) ; Y (!2))

resultando independientes. Esta construcción será muy importante en Estadística

Proposición 2 Si X e Y son independientes entonces también lo son g (X) y h (Y )

para cualesquiera funciones g y h.

Demostración.

P (g(X) 2 A; h(Y ) 2 B)

= P (X 2 g�1(A); Y 2 h�1(B))

= P (X 2 g�1(A))P (Y 2 h�1(B))

= P (g(X) 2 A)P (h(Y ) 2 B)

2.10 Generalización

La generalización a variables n�dimensionales (X1; X2; :::; Xk) : ! Rn es inmediata.

La distribución de probabilidades de la variable (X1; X2; :::; Xn) se puede especi�car

por la función de distribución F (x1; x2; :::; xn), o por la de masa o densidad conjunta

Page 53: Métodos Estadísticos-Félix Míguez Marín [2012]

2.11. FUNCIONES DE VARIABLES ALEATORIAS 51

f (x1; x2; :::; xn) (según que las componentes Xi sean discretas o continuas). Esta de-

termina todas las marginales, en particular las f1 (x1), f2 (x2), � � � fn (xn), pero no alcontrario en general.

Salvo si las n variables (X1; X2; :::; Xn) son independientes, en cuyo caso

f (x1; x2; :::; xn) = f1 (x1) f2 (x2) � � � fn (xn)

es decir, en este caso las marginales determinan la conjunta.

Se pueba que si las n variables (X1; X2; :::; Xn) son independientes entonces también

lo son g (X1; X2; :::; Xk) y h (Xk+1; Xk+2; :::; Xn). Y en general cualesquiera funciones

de subconjuntos disjuntos de las n.

2.11 Funciones de Variables Aleatorias

Nos interesamos ahora en la deducción de la ley de probabilidades de una Va de�nida

como función de otras, a partir del conocimiento de la ley de probabilidades de éstas y de

la propia relación funcional. Suponemos en todos los casos que las variables implicadas

son continuas.

2.11.1 Función de una variable

Sea la Va X con densidad fX (x) y la Y = g(X). Nos proponemos hallar la densidad de

Y . La función de distribución de Y se obtiene así:

FY (y) = P (g(X) � y) = P (X 2 g�1(�1; y]) =Zg�1(�1;y]

fX(x)dx (2.18)

donde g�1(�1; y] = fx 2 R : g (x) � yg. Y entonces la densidad fY (y) de Y es:

fY (y) = F0Y (y)

Ejemplo 36 Sea X continua con densidad fX (x) y sea Y = X2. Hallemos la densidad

de Y

FY (y) = P�X2 � y

�= P (�py � X � py) =

Z +py

�pyfX (x) dx

Page 54: Métodos Estadísticos-Félix Míguez Marín [2012]

52 2. VARIABLES ALEATORIAS

y la densidad resulta (Regla de Leibnitz: derivación bajo el signo integral):

fY (y) = F 0Y (y) =1

2pyfX (

py)�

��12py

�fX (�

py)

=1

2py[fX (

py) + fX (�

py)]

Ejemplo 37 (cont.) Sea en particular X uniforme, con densidad fX (x) = 1 para

x 2 (0; 1). Entonces Y = X2 tiene recorrido (0; 1) y

fY (y) =1

2py[fX (

py) + fX (�

py)]

=1

2py[1 + 0]

=1

2py

y 2 (0; 1)

Ejemplo 38 Se elige un punto X al azar (es decir, con densidad uniforme) en una

barra de longitud 1 y se rompe por dicho punto. Sea Y la longitud del trozo más grande.

Obtengamos la densidad de Y .

La posición del punto de rotura es una variable aleatoria X con densidad fX (x) = 1

para x 2 (0; 1). La longitud del trozo más grande es la variable aleatoria

Y =

(1�X si 0 < X � 1=2X si 1=2 < X < 1

El recorrido de Y es (1=2; 1). Sea un valor �jado y del recorrido. Entonces

FY (y) = P (Y � y) = P (1� y � X � y) = FX (y)� FX (1� y)

= y � (1� y) = 2y � 1 y 2 (1=2; 1)

fY (y) = F0Y (y) = 2 y 2 (1=2; 1)

Page 55: Métodos Estadísticos-Félix Míguez Marín [2012]

2.11. FUNCIONES DE VARIABLES ALEATORIAS 53

0 0,5 10

0.5

1

X

Y

0 0,5 10

0.5

1

X

y

1­y y

Y=1­X Y=X

Funciones monótonas

En particular, si g es monótona creciente g�1(�1; y] = (�1; g�1 (y)] y (2.18) queda

FY (y) =

Z g�1(y)

�1fX(x)dx

y resulta

fY (y) =�g�1�0(y)fX(g

�1(y))

Y si decreciente g�1(�1; y] = [g�1 (y) ;+1) y

FY (y) =

Z +1

g�1(y)fX(x)dx

y resulta

fY (y) = ��g�1�0(y)fX(g

�1(y))

observar que en este caso al ser g decreciente también lo es g�1 y�g�1�0(y) < 0.

Page 56: Métodos Estadísticos-Félix Míguez Marín [2012]

54 2. VARIABLES ALEATORIAS

Ambos casos se reunen en la fórmula:

fY (y) =����g�1�0 (y)��� fX(g�1(y)) (2.19)

Ejemplo 39 Sea X continua con densidad fX (x) y sea Y = a+ bX (b 6= 0). Hallemosla densidad de Y . Como

g�1 (y) =y � ab

resulta

fY (y) =1

jbjfX�y � ab

�(2.20)

Ejemplo 40 Sea Y = 1=X. La función g es monótona y g�1 (y) = 1=y así que

fY (y) =����g�1�0 (y)��� fX(g�1(y))

=1

y2fX

�1

y

Simulación de Vas

Sea Y = FX (X), es decir, como función g de cambio elegimos la de distribución de X,

que es una función monótona. Obviamente Y toma valores en (0; 1).

Como g�1 (y) = F�1X (y) entonces (derivada de la función inversa)

�F�1X

�0(y) =

1

F 0X(F�1X (y))

=1

fX(F�1X (y))

y resulta

fY (y) =����g�1�0 (y)��� fX(g�1(y)) = 1

fX(F�1X (y))

fX(F�1X (y))

= 1 y 2 (0; 1)

así que Y tiene densidad uniforme en (0; 1).

Recíprocamente, si Y tiene densidad uniforme en (0; 1) entonces X = F�1X (Y ) tiene

función de distribución FX . Este es el algoritmo básico para simular valores deuna variable aleatoria continua con distribución FX usando un generador de números

uniformes en (0; 1).

Ejemplo 41 Para simular valores de una variable aleatoria X exponencial de parámetro

Page 57: Métodos Estadísticos-Félix Míguez Marín [2012]

2.11. FUNCIONES DE VARIABLES ALEATORIAS 55

�, como Y = FX (X) = 1 � exp (��X) se usa X = � (1=�) ln (1� Y ) con Y uniforme

en (0; 1).

2.11.2 Función de varias Vas

Sean la Va (X1; X2; :::; Xn) con densidad f (x1; x2; :::; xn) y la Y = g(X1; X2; :::; Xn).

En algunos casos particulares un simple argumento probabilista da la solución:

Ejemplo 42 Obtengamos la FD de Y = max(X1; X2; :::; Xn).

FY (y) = P (max(X1; X2; :::; Xn) � y)

= P (todas las coordenadas son � y)

= P (X1 � y;X2 � y; :::;Xn � y)

Si en particular las Xi fuesen independientes con la misma función de distribución

FX (x) entonces:

FY (y) = [FX(y)]n

resultado válido sean las variables discretas o continuas.

Si además fuesen continuas con densidad fX (x) la densidad del máximo es

fY (y) = n [FX(y)]n�1 fX (y)

Ejemplo 43 (cont.) Obtengamos ahora la de Y = min(X1; X2; :::; Xn).

FY (y) = P (min(X1; X2; :::; Xn) � y)

= P (al menos una coordenada es � y)

= 1� P (todas son > y)

= 1� P (X1 > y;X2 > y; :::;Xn > y)

Si en particular las Xi fuesen independientes con la misma función de distribución

FX (x) entonces:

FY (y) = 1� [1� FX(y)]n

resultado válido sean las variables discretas o continuas.

Si además fuesen continuas con densidad fX (x) la densidad del mínimo es

fY (y) = n [1� FX(y)]n�1 fX (y)

Page 58: Métodos Estadísticos-Félix Míguez Marín [2012]

56 2. VARIABLES ALEATORIAS

En general la FD de Y se obtiene así:

FY (y) = P (g(X1; X2; :::; Xn) � y)

= P ((X1; X2; :::; Xn) 2 g�1(�1; y])

=

Z� � �Z

g�1(�1;y]

f(x1; x2; :::; xn)dx1dx2:::dxn

donde g�1(�1; y] = f(x1; x2; ::; xn) 2 Rn : g (x1; x2; ::; xn) � yg, y donde f(x1; x2; :::; xn)es la densidad de (X1; X2; :::; Xn)

La densidad fY (y) de Y es

fY (y) = F0Y (y)

Ejemplo 44 (Suma) Sea (X1; X2) con densidad f(x1; x2). Obtengamos la densidad deY = X1 +X2.

g�1(�1; y] = f(x1; x2) 2 R2 : x1 + x2 � yg

FY (y) =

Z +1

�1

�Z y�x1

�1f(x1; x2)dx2

�dx1

fY (y) = F0Y (y) =

Z +1

�1f(x1; y � x1)dx1

En particular, si las Vas son independientes

fY (y) =

Z +1

�1f1(x1)f2(y � x1)dx1

(convolución de las densidades).

Ejemplo 45 (Cociente). Sea (X1; X2) con densidad f(x1; x2). Obtengamos la densi-dad de Y = X1=X2.

g�1(�1; y] = f(x1; x2) 2 R2 : x2 < 0; x1 � x2yg[f(x1; x2) 2 R2 : x2 > 0; x1 � x2yg

FY (y) =

Z 0

�1

�Z +1

x2yf(x1; x2)dx1

�dx2 +

Z +1

0

�Z x2y

�1f(x1; x2)dx1

�dx2

fY (y) =

Z 0

�1�x2f(yx2; x2)dx2 +

Z +1

0x2f(yx2; x2)dx2

=

Z +1

�1jx2j f(yx2; x2)dx2

Page 59: Métodos Estadísticos-Félix Míguez Marín [2012]

2.11. FUNCIONES DE VARIABLES ALEATORIAS 57

2.11.3 Transformación general de Vas continuas

Recordemos que si (X1; X2; :::; Xn) es continua con densidad fX(x1; x2; :::; xn) entonces

P ((X1; X2; :::; Xn) 2 A) =Z� � �ZA

fX(x1; x2; :::; xn)dx1:::dxn 8A 2 Bn

Sean n nuevas variables:

Y1 = g1(X1; X2; :::; Xn)

Y2 = g2(X1; X2; :::; Xn)

� � �Yn = gn(X1; X2; :::; Xn)

9>>>>=>>>>;siendo la transformación g : Rn ! Rn continua, biunívoca y diferenciable. Nos pro-ponemos hallar la densidad fY (y1; y2; :::; yn) de (Y1; Y2; :::; Yn).

Sea la tranformación inversa

X1 = h1(Y1; Y2; :::; Yn)

X2 = h2(Y1; Y2; :::; Yn)

� � �Xn = hn(Y1; Y2; :::; Yn)

9>>>>=>>>>;entonces 8A 2 Bn

P ((X1; X2; :::; Xn) 2 A) =

Z� � �ZA

fX(x1; x2; :::; xn)dx1:::dxn

=

Z� � �

ZT (A)

fX(h1; h2; :::; hn) jJ j dy1dy2:::dyn

(Teorema del cambio de variable en integrales múltiples: hemos cambiado las x por las

y) donde T (A) 2 Bn es el conjunto transformado del A y

J = det

0B@@h1@y1

� � � @h1@yn

� � � � � � � � �@hn@y1

� � � @hn@yn

1CA

Page 60: Métodos Estadísticos-Félix Míguez Marín [2012]

58 2. VARIABLES ALEATORIAS

Pero la correspondencia es biunívoca así que

P ((X1; X2; :::; Xn) 2 A) = P ((Y1; Y2; :::; Yn) 2 T (A))

y como

P ((Y1; Y2; :::; Yn) 2 T (A)) =Z� � �

ZT (A)

fY (y1; y2; :::; yn)dy1dy2:::dyn

resulta

fY (y1; y2; :::; yn) = fX(h1; h2; :::; hn) jJ j

Ejemplo 46 Sea (X;Y ) con densidad uniforme fX;Y (x; y) = 1� en el círculo x

2+y2 � 1,y sean (R;�) (coordenadas polares)

R =pX2 + Y 2

� = arctanY

X

La transformación inversa es

X = R cos�

Y = R sin�

con

J = det

cos' �r sin'sin' r cos'

!= r

y resulta

fR;� (r; ') = fX;Y (r cos'; r sin') r =r

�r 2 [0; 1]; ' 2 [0; 2�]

Las densidades marginales son

fR (r) =

Z 2�

0

r

�d' = 2r r 2 [0; 1]

f� (') =

Z 1

0

r

�dr =

1

2�' 2 [0; 2�]

y las variables R y � son independientes pues fR;� (r; ') = fR (r) f� (').

Page 61: Métodos Estadísticos-Félix Míguez Marín [2012]

2.11. FUNCIONES DE VARIABLES ALEATORIAS 59

2.11.4 Transformaciones lineales

Un caso particular importante del anterior es el de las transformaciones lineales:0BB@Y1...

Yn

1CCA = A

0BB@X1...

Xn

1CCAdonde A es una matriz n � n de constantes. La transformación es biunívoca si, y sólosi, A es no singular. En cuyo caso:

J = detA�1 = (detA)�1

Resultando:

fY (y1; y2; :::; yn) =1

jdetAjfX(Xj

c1jyj ;Xj

c2jyj ; :::;Xj

cnjyj)

donde (cij) = A�1.

Ejemplo 47 Sea la Va (X1; X2) con densidad fX(x1; x2). Sea (Y1; Y2) una rotación deángulo � de las primeras de�nida por:

A =

cos� sen�

� sen� cos�

!

y como

A�1 =

cos� � sen�sen� cos�

!y detA = 1, la densidad de (Y1; Y2) es:

fY (y1; y2) = fX(y1 cos�� y2 sen�; y1 sen�+ y2 cos�)

Page 62: Métodos Estadísticos-Félix Míguez Marín [2012]

60 2. VARIABLES ALEATORIAS

2.12 Ejercicios propuestos

1. Un recipiente de volumen V contiene n moléculas de un gas ideal. El número de

ellas que en un instante cualquiera se hallan en una parte de volumen v �uctúa, es

decir, es una variable aleatoria Z. Halle su función de masa de probabilidades si,

dado el equilibrio, para cada una de las n la probabilidad de estar en v es p = v=V .

2. (muestreo con reemplazamiento) Una urna contiene r bolas rojas y b blancas. Se

extraen n, una tras otra, devolviendo la anterior antes de extraer la siguiente.

Deduzca la función de masa de la variable aleatoria X =�número de bolas rojas

entre las n�. (sugerencia: ejercicio propuesto 1.9.8))

3. (muestreo sin reemplazamiento) Una urna contiene r bolas rojas y b blancas. Se

extraen n a la vez, o una tras otra sin devolver la anterior antes de extraer la

siguiente. Deduzca la función de masa de la variable aleatoria X =�número de

bolas rojas entre las n�. (sugerencia: ejercicio propuesto 1.9.9))

4. Sea X una Va geométrica de parámetro p (ejemplo 14). Compruebe que P (X >

x + y j X > x) = P (X > y) (propiedad de �pérdida de memoria�, que entre las

Vas discretas sólo posée ésta).

5. La ley del decaimiento radioactivo puede deducirse de una única hipótesis física

experimentalmente constrastable: El decaimiento radioactivo es un proceso sin

memoria.

Ello quiere decir que si X es el tiempo de vida de un núcleo radioactivo (tiempo

que transcurre, a partir de un instante inicial cualquiera, hasta que decae) entonces

P (X > x+ y j X > x) = P (X > y) 8x; y > 0

es decir, dado que ha sobrevivido al tiempo x la probabilidad de que aún sobreviva

un tiempo adicional y es independiente de x. Compruebe que la fórmula anterior

se satisface si X tiene densidad exponencial de parámetro � (que entre las Vas

continuas es la única sin memoria).

6. (cont.) Halle el cuantil x0:5 (la mediana), es decir el tiempo x tal que con probabili-

dad 1=2 un átomo decae antes de que transcurra x (el periodo de semidesintegración

o half life)

7. El tiempo de vida del radio Ra226 es una variable aleatoria X exponencial de

parámetro � = 4:327� 10�4 años�1 Calcule su periodo de semidesintegración.

Page 63: Métodos Estadísticos-Félix Míguez Marín [2012]

2.12. EJERCICIOS PROPUESTOS 61

8. Calcule la probabilidad de que el tiempo de vida de un átomo de cualquier sub-

stancia radioactiva supere 1=� (su vida media teórica como se verá en el siguiente

Capítulo)

9. Considere un mol de una substancia radioactiva. Los tiempo de vida de cada uno de

los n = 6:022� 1023 átomos son variables aleatorias exponenciales independientesde parámetro �. ¿Cuál es la función de masa de la variable aleatoria Z =�número

de átomos que decaen en un intervalo de t años�¿Y la de los que sobreviven?

10. Sea la función de densidad f(x) = k sen(x) si x 2�0; �2

�y cero en otro caso. a)

obtenga el valor de k. b) obtenga la función de distribución c) calcule P (�4 < X <�2 ).

11. Se elige un punto al azar en un segmento de longitud a, y se de�ne la VaX =�distancia

del punto elegido al centro del segmento�. a) calcule la función de distribución.b) calcule la función de densidad.

12. Se elige un punto al azar en un cuadrado de lado 2a y se de�ne X =�distancia del

punto al lado más próximo�. a) calcule la función de distribución. b) calcule lafunción de densidad.

13. Desde un foco F del plano se emiten partículas que son detectadas cuando alcanzan

una pantalla situada a distancia 1. Sea O el pie de la perpendicular desde F a la

pantalla. Las trayectorias forman un ángulo aleatorio � con OF , que se supone

equiprobable (en decir, con densidad constante) en (��=2; �=2), y alcanzan lapantalla en un punto de abscisa aleatoria X respecto de O. a) Halle la función dedistribución de X b) halle la función de densidad de X c) ¿Cuál es la probabilidadde que el punto de impacto de una partícula diste de O menos de 1=2? d) ¿Cuál

Page 64: Métodos Estadísticos-Félix Míguez Marín [2012]

62 2. VARIABLES ALEATORIAS

es la distancia x tal que P (jXj < x) = 1=2?

F

O

1

ϕ

x

14. Sea X uniforme en (0; 1). Obtenga la densidad de Y = a + bX con b > 0. (sug-

erencia: vea el ejemplo 39)

15. Sea X uniforme en (0; 1). Obtenga la densidad de Y = 1=X (sugerencia: vea el

ejemplo 40)

16. Si U es una Va normal de parámetros � = 0 y � = 1 (ejemplo 22)

fU (u) =1p2�e�

u2

2 �1 < u < +1

halle la densidad de la Va Z = U2 (sugerencia: use el ejemplo 37).

17. Se eligen n puntos al azar en (0; 1) y se de�ne X =�abscisa del más cercano al

origen�. a) calcule la función de distribución. b) calcule la función de densidad.c) calcule la función de cuantiles. d) hallar el mínimo número de puntos para quex0:5 sea menor que 0:1 (sugerencia: use el ejemplo 43).

18. Se eligen n puntos al azar en (0; 1) y se de�ne X =�abscisa del más lejano al

origen�. a) calcule la función de distribución. b) calcule la función de densidad.c) calcule la función de cuantiles. d) hallar el mínimo número de puntos para quex0:5 sea mayor que 0:9 (sugerencia: use el ejemplo 42)

Page 65: Métodos Estadísticos-Félix Míguez Marín [2012]

3

Valores Esperados

3.1 Esperanza de una variable aleatoria

De�nición 1 La esperanza de una Va X, denotada E (X), es el número 1:

- Si X es discreta con recorrido S y función de masa f (x)

E (X) =Xx2S

xf (x) (3.1)

- Si X es continua con densidad f (x)

E (X) =

ZRxf (x) dx (3.2)

También se llama el valor esperado de X, aunque como se ve en los ejemplos notiene por qué coincidir con ninguno de los valores posibles de X. O lamedia teóricade X en contraposición a la media experimental (ver 3.2). E (X) tiene, en cualquiercaso, las mismas unidades que la magnitud X.

Ejemplo 1 Si X es de Bernoulli de parámetro p, es decir, con función de masa f (x) =px (1� p)1�x si x 2 f0; 1g, entonces:

E (X) =1Xx=0

xf (x) = 0� (1� p) + 1� p = p

1Además la serie, o la integral, deben ser absolutamente convergentes: en otras palabras, E (X)carecería de sentido si su valor dependiera del orden o reagrupamieno de los términos. La mismacuestión incide en la interpretación experimental que se verá en la sección 3.2.

63

Page 66: Métodos Estadísticos-Félix Míguez Marín [2012]

64 3. VALORES ESPERADOS

Ejemplo 2 Si X es binomial de parámetros n y p, es decir, con función de masa

f (x) =

�n

x

�px (1� p)n�x x = 0; 1; ::; n

entonces

E (X) =

nXx=0

x

�n

x

�px (1� p)n�x = np

(ver ejemplo 19).

Ejemplo 3 Si X es geométrica de parámetro p, es decir, con función de masa

f (x) = p (1� p)x�1 x = 1; 2; :::

entonces

E (X) =

1Xx=1

xp (1� p)x�1 = 1

p

(ver ejercicio propuesto 10).

Ejemplo 4 Si X es de Poisson de parámetro �, es decir, con función de masa

f (x) = e���x

x!x = 0; 1; 2; ::

entonces

E (X) =1Xx=0

xe���x

x!= �

(ver ejercicio propuesto 11).

Ejemplo 5 Si X es exponencial, con densidad

f (x) = �e��x x > 0

y cero en otro caso

E (X) =

Z 1

0�xe��xdx

Integrando por partes con

u = x! du = dx

v = �e��x ! dv = �e��xdx

Page 67: Métodos Estadísticos-Félix Míguez Marín [2012]

3.1. ESPERANZA DE UNA VARIABLE ALEATORIA 65

resulta

E (X) =h�xe��x

i10+

Z 1

0e��xdx =

1

pues

limt!1

te��t = 0

y (función de densidad) Z 1

0�e��xdx = 1

Proposición 1 Si X tiene densidad simétrica respecto de c, es decir f(c � x) =f (c+ x), y existe la E (X), entonces E (X) = c

Demostración. Pues (c� x) f (x) en (�1; c) es simétrica a (x� c) f (x) en (c;+1) yentonces Z c

�1(c� x) f (x) dx =

Z +1

c(x� c) f (x) dx

y reordenando queda

c

�Z c

�1f (x) dx+

Z +1

cf (x) dx

�=

Z c

�1xf (x) dx+

Z +1

cxf (x) dx

es decir

c

ZRf (x) dx =

ZRxf (x) dx

pero la primera integral vale 1 y la segunda es E (X) así que

E (X) = c

Ejemplo 6 Si X es normal de parámetros � y �, es decir, con función de densidad

f (x) =1

�p2�e�(x� �)2

2�2 �1 < x < +1

el cálculo directo es sencillo (integrando por partes; ver también ejercicio 13) y resulta

E (X) = �; que es el centro de simetría de la f (x).

Ejemplo 7 Si X tiene densidad de Cauchy

f(x) =2

1

1 + x2�1 < x < +1

Page 68: Métodos Estadísticos-Félix Míguez Marín [2012]

66 3. VALORES ESPERADOS

aunque es simétrica respecto de 0, carece de esperanza, pues:Z +1

0

x

1 + x2dx = lim

t!1

Z t

0

x

1 + x2dx = lim

t!1

1

2ln�1 + t2

�=1

3.2 Interpretación experimental

Para cada suceso A, la tendencia a la estabilidad de la frecuencia experimental,

f(A) = nA=n, a medida que n ! 1 (siendo nA el número de veces que sucedió A

en n realizaciones del experimento), se modeliza mediante la P (A). A su vez, para

cada variable aleatoria X se observa un comportamiento similar para los promedios

experimentales de n valores observados xi.

Si (x1; x2; :::; xn; :::) son observaciones independientes de una variable X, discreta

o continua, con esperanza E (X), es un hecho empírico la convergencia del promedio

experimental al teórico2

limn!1

1

n

nXi=1

xi = E (X)

Ejemplo 8 (cont. del 1) En el experimento de lanzar una vez una moneda con proba-bilidad p de cara, la variable aleatoria X (c) = 1 y X (+) = 0 tiene función de masa de

Bernoulli.

A una sucesión de n tiradas corresponde otra (x1; x2; :::; xn) de observaciones de X

(de ceros y unos).Pni=1 xi es el total de caras en las n tiradas. El promedio experimental

1

n

nXi=1

xi

representa entonces la frecuencia relativa de caras que, como se sabe, converge a la

probabilidad de cara p, es decir, al promedio teórico E (X).

Ejemplo 9 (cont. del 2) En el experimento de lanzar n veces una moneda con proba-bilidad p de cara, la variable aleatoria X =�número de caras� tiene función de masa

binomial.

A una sucesión de m experimentos corresponde otra (x1; x2; :::; xm) de observaciones

de X (de números de caras, entre 0 y n).Pmi=1 xi es el total de caras en los m ex-

2Con más precisión, un Teorema importante de la Probabilidad, la Ley Fuerte de los Grandes Númerosde Borel y Kolmogorov, a�rma que las series (1=n)

Pxi así obtenidas convergen a E (X) con probabilidad

1.

Page 69: Métodos Estadísticos-Félix Míguez Marín [2012]

3.2. INTERPRETACIÓN EXPERIMENTAL 67

perimentos, que equivalen en conjunto a nm lanzamientos de la moneda. El promedio

experimental1

nm

mXi=1

xi

representa entonces la frecuencia relativa de caras que (ejemplo anterior) converge, si

m!1, a la probabilidad de cara p. Por lo tanto

1

m

mXi=1

xi

converge a np, es decir, al promedio teórico E (X).

Ejemplo 10 (cont. del 3) En el experimento de lanzar una moneda, con probabilidad pde cara, hasta que sale cara, la variable aleatoria X =�número de tiradas�tiene función

de masa geométrica.

A una sucesión de n experimentos corresponde otra (x1; x2; :::; xn) de observaciones

de X (de números de lanzamientos).Pni=1 xi es el total de lanzamientos efectuados en

el conjunto de los n experimentos, para obtener en total n caras. La frecuencia relativa

de caras esnPni=1 xi

y converge, si n!1, a la probabilidad de cara p. Por lo tanto 3

1

n

nXi=1

xi

converge a 1=p, es decir, al promedio teórico E (X).

Se suele llamar a la E (X) de una Va geométrica el periodo de retorno del sucesoque se observa (cara en el ejemplo) y a la propia variable el tiempo de espera paraobservar suceso. Si la probabilidad de cara es p = 1=2 el periodo de retorno de cara es

1=p = 2: en promedio cada 2 lanzamientos de obtiene una cara.

Ejemplo 11 (cont. del 5) El tiempo de vida X de un núcleo radioactivo, desde un

instante t = 0, tiene una función de densidad exponencial

f (x) = �e��x x > 0

3Recordar que si g es continua y un ! u, entonces g (un) ! g (u). En particular si un ! E (X)entonces g (un)! g (E (X))

Page 70: Métodos Estadísticos-Félix Míguez Marín [2012]

68 3. VALORES ESPERADOS

y E (X) = 1=� representa la vida media teórica. En una sucesión (x1; x2; :::; xn) de

observaciones de X (tiempos de vida experimentales) la vida total de los n núcleos ha

sidoPni=1 xi y el promedio

1

n

nXi=1

xi

es la vida media experimental, que converge a la teórica 1=� si n ! 1. Y n=Pni=1 xi

converge a � (que es el número promedio teórico de decaimientos por unidad de tiempo).

El nombre de esperanza tiene su origen en los juegos de azar (cuyo análisis, desde

el siglo XVI, contribuyó al desarrollo de la Teoría de Probabilidades), con el sentido de

bene�cio esperado.

Ejemplo 12 En una ruleta con 37 sectores, del 0 al 36, apostamos 1 euro a par. Si salepar recibimos 2 euros (el apostado más 1 de bene�cio). Si sale impar perdemos el euro.

Si sale 0 gana siempre la banca. ¿Qué esperaríamos ganar apostando siempre par?

El bene�cio en cada apuesta es una Va X con P (X = 1) = 1837 y P (X = �1) = 19

37 ,

y por lo tanto

E(X) = (+1)� 1837+ (�1)� 19

37= � 1

37= �0:027

A la larga, jugando muchas veces así, habremos perdido 2.7 céntimos por cada euro

apostado.

Ejemplo 13 (Martingalas) ¿Hay estrategias para ganar? Una clásica sugiere doblarla apuesta cada vez. Si la apuesta inicial es 1 y se pierden n consecutivas la pérdida total

es

1 + 2 + 4 + � � �+ 2n�1 = 2n � 1

En la apuesta n+ 1 la cantidad apostada es 2n y si ahora se gana el bene�cio total es

2n � (2n � 1) = 1

Un inconveniente, al menos, de esta estrategia, es que para poder seguirla necesitamos

un capital a priori in�nito. Estudiemos entonces una alternativa más realista: ¿cuál es

el bene�cio esperado en rondas de n apuestas como máximo (es decir, disponemos deun capital máximo 2n � 1) ?

Si la probabilidad de ganar en cada apuesta es p, la probabilidad de perder n consecu-

tivas es (1� p)n y el bene�cio es � (2n � 1). Y la de no perder n apuestas consecutivas

Page 71: Métodos Estadísticos-Félix Míguez Marín [2012]

3.3. ESPERANZA DE UNA FUNCIÓN DE UNA VARIABLE 69

(es decir, de ganar en alguna de las n � 1 anteriores y retirarnos) es 1 � (1� p)n y elbene�cio es 1. El bene�cio esperado es

1� [1� (1� p)n]� (2n � 1)� (1� p)n

= 1� 2n (1� p)n

8><>:= 0 si p = 1=2

< 0 si p < 1=2

> 0 si p > 1=2

de manera que si p < 0 y el capital es �nito el bene�cio promedio (y el total) de muchas

rondas es negativo.

El lector curioso puede buscar en Internet la paradoja de Parrondo 4: existen

juegos de esperanza negativa (perdedores a la larga) que, sin embargo, jugados alternati-

vamente resultan en uno de esperanza positiva.

3.3 Esperanza de una función de una variable

Notación: Desde ahora y hasta el �nal del Capítulo usamos en las Proposiciones yTeoremas la notación correspondiente al caso continuo; para el discreto se sustituye la

integral por una suma.

Sea Y = g (X) una variable aleatoria de�nida como función de otra X. Según (3:2)

su esperanza se calcula así

E (Y ) =

ZRyfY (y) dy

Sin embargo no es preciso conocer fY (y) para calcularla. Se prueba que

Teorema 1 Si Y = g (X) con densidades fY (y) y fX (x), y existe E (Y ) entoncesZRyfY (y) dy =

ZRg (x) fX (x) dx

es decir

E (Y ) = E (g (X))

en el sentido de que la esperanza en cada lado de la igualdad se toma según la ley

respectiva.

4Profesor de Físicas de la UCM

Page 72: Métodos Estadísticos-Félix Míguez Marín [2012]

70 3. VALORES ESPERADOS

Naturalmente E (g (X)) es el valor al que convergen los promedios experimentales

limn!1

1

n

nXi=1

g (xi)

Ejemplo 14 Se elige un punto X al azar en una barra de longitud 1 (es decir, con

densidad fX (x) = 1 para x 2 (0; 1)) y se rompe por dicho punto. Sea Y la longitud del

trozo más grande. Calculemos E (Y ).

La longitud del trozo más grande es la variable aleatoria

Y =

(1�X si 0 < X � 1=2X si 1=2 < X < 1

y su esperanza se calcula así:

E(Y ) =

Z 1

0g(x)fX(x)dx =

Z 1=2

0(1� x)dx+

Z 1

1=2xdx =

3

4

En el ejemplo 38 del capítulo 2 hallamos que la densidad de Y es fY (y) = 2 para

y 2 (1=2; 1) y entonces

E(Y ) =

Z 1

1=2yfY (y)dy =

Z 1

1=22ydy =

3

4

Ejemplo 15 Sea X uniforme en (a; b); y sea Y = 1=X. Entonces:

E(Y ) =

Z b

a

1

x

1

b� adx =ln b� ln ab� a

de�nido sólo si a > 0. De manera que si, por ejemplo, X es uniforme en (0; 1), no existe

la E�1X

�.

Corolario 1 (Linealidad de la esperanza) En particular si Y = a+ bX:

E (a+ bX) =

ZR(a+ bx) f (x) dx = a

ZRf (x) dx+ b

ZRxf (x) dx = a+ bE (X) (3.3)

Ejemplo 16 Si E (X) = c entonces E (X � c) = 0.

Ejemplo 17 (cont. del 14) la longitud del trozo más pequeño es 1�Y así que su longitudpromedio es 1� E (Y ) = 1=4.

Page 73: Métodos Estadísticos-Félix Míguez Marín [2012]

3.4. ESPERANZA DE UNA FUNCIÓN DE VARIAS VARIABLES 71

3.4 Esperanza de una función de varias variables

La esperanza de la variable aleatoria Z = g (X;Y ) función de la (X;Y ) según (3:2)

es

E (Z) =

ZRzfZ (z) dz

Sin embargo no es preciso conocer fZ para calcularla. Se prueba que

Teorema 2 Sea Z = g (X;Y ) con densidades fZ (z) y f (x; y). Si E (Z) existe, entoncesZRzfZ (z) dz =

Z ZR2g (x; y) f (x; y) dxdy

es decir

E (Z) = E (g (X;Y ))

en el sentido de que la esperanza de cada término se toma según la ley respectiva.

El resultado se generaliza de modo obvio a una función Z = g (X1; X2; :::; Xn).

Ejemplo 18 En el experimento de elegir un punto al azar en el círculo x2 + y2 � 1

la distancia del punto al centro es R =pX2 + Y 2. En el ejemplo 16 del Capítulo 2

hallamos que fR (r) = 2r para r 2 [0; 1], y en el ejemplo 30 hallamos que f (x; y) = 1=�para x2 + y2 � 1: La distancia esperada del punto al centro es

E�p

X2 + Y 2�=1

ZZx2+y2�1

px2 + y2dxdy =

2

3

o también

E (R) =

Z 1

02r2dr =

2

3

Nos interesa en particular el caso g (X1; X2; :::; Xn) = aPXi + c.

Proposición 2 (Esperanza de una combinación lineal)

E�X

aiXi + c�=X

aiE (Xi) + c

Page 74: Métodos Estadísticos-Félix Míguez Marín [2012]

72 3. VALORES ESPERADOS

Demostración. Basta probarlo para 2 variables:

E (aX + bY + c) =

Z ZR2(ax+ by + c) f (x; y) dxdy

= a

ZRx

�ZRf (x; y) dy

�dx+ b

ZRy

�ZRf (x; y) dx

�dy + c

Z ZR2f (x; y) dxdy

= a

ZRxfX (x) dx+ b

ZRyfY (y) dy + c

= aE (X) + bE (Y ) + c

Observar que esto es así sean las Xi dependientes o independientes.

Ejemplo 19 (Esperanza de la binomial) Una Va X binomial de parámetros n y

p cuenta el total de éxitos en n ensayos independientes, en cada uno de los cuales la

probabilidad de éxito es p. Si Xi representa el resultado de cada ensayo, con P (Xi = 1) =

p y P (Xi = 0) = 1� p, entonces X =Pni=1Xi y

E (X) =nXi=1

E (Xi) = np

pues (variables de Bernoulli) E (Xi) = p

Ejemplo 20 (Colección de cromos) Hay N cromos distintos para hacer la colección.

Supongamos que cada vez que compramos uno la probabilidad de que sea cualquiera de

ellos es 1=N . ¿Cuál es el número promedio de cromos que hay que comprar para conseguir

los N?

Sea Xk (1 � k � N) el número de cromos que hay que comprar hasta conseguir unk-ésimo distinto. Entonces el número de cromos que hay que comprar para completar la

colección es

X1 +X2 + � � �+XN

Obviamente X1 = 1

Nos faltan N � 1 cada uno de ellos con probabilidad 1=N . Al comprar uno la prob-abilidad de que sea distinto del que tenemos es p = (N � 1) =N . La Va X2, número decromos que hay que comprar hasta conseguir uno distinto del que tenemos, es geométrica

de parámetro p (ejemplo 3) así que E (X2) = 1=p = N= (N � 1).

Ahora nos faltan N � 2 cada uno de ellos con probabilidad 1=N . Al comprar uno la

Page 75: Métodos Estadísticos-Félix Míguez Marín [2012]

3.5. VARIANZA DE UNA VARIABLE ALEATORIA 73

probabilidad de que sea distinto de los que tenemos es p = (N � 2) =N . La Va X3 esgeométrica de parámetro p así que E (X3) = 1=p = N= (N � 2).

Y así sucesivamente, de manera que

E (X1 +X2 + � � �+XN ) = E (X1) + E (X2) + � � �+ E (XN )

= 1 +N

N � 1 +N

N � 2 + � � �+N

N � (N � 2) +N

N � (N � 1)

= N

�1 +

1

2+1

3+ � � �+ 1

N � 1 +1

N

�Por ejemplo si N = 50 resulta aproximádamente el valor 225, si N = 100 el valor 519 y

si N = 1000 el valor 7485

Naturalmente podemos tener suerte y acabar la colección enseguida, pero si un número

n muy grande de personas hace la colección, el total de cromos que ha vendido la editorial

dividido por n converge a la esperanza (así que si N = 100 y n = 1000 la editorial habrá

vendido aproximádamente 519000 cromos).

3.5 Varianza de una variable aleatoria

De�nición 2 Se llama la varianza de X y se denota V ar (X) a la esperanza de

(X � E (X))2:

V ar (X) = E�(X � E (X))2

�=

ZR(x� E (X))2 f (x) dx (3.4)

La raiz cuadrada positiva de la varianzapV ar (X) se llama la desviación típica de

X.

pV ar (X) tiene, en cualquier caso, las mismas unidades que la magnitud X.

Según la de�nición 2 la varianza es tanto más pequeña cuanto más se concentre f (x)

alrededor de E (X) (en cuyo caso los valores grandes de (x� E (X))2 del integrando,correspondientes a valores de x distantes de E (X), tendrán un peso f (x) despreciable.

Experimentalmente ello se re�ejará en una mayor homogeneidad (menor dispersión) de

los valores experimentales (x1; x2; :::; xn; :::) (ver Sección 3.6).

Obsérvese que V ar (X) � 0 y que V ar (X) = 0 si y sólo si X es una constante, es

decir P (X = a) = 1.

Page 76: Métodos Estadísticos-Félix Míguez Marín [2012]

74 3. VALORES ESPERADOS

Proposición 3 Una expresión alternativa es

V ar (X) = E�X2�� (E (X))2 (3.5)

Demostración. Desarrollando el cuadrado y teniendo en cuenta la Proposición 2:

E�(X � E (X))2

�= E

�X2 + (E (X))2 � 2E (X)X

�= E

�X2�+ (E (X))2 � 2 (E (X))2

= E�X2�� (E (X))2

Corolario 1 Como V ar (X) � 0 siempre es

E�X2�� (E (X))2

Proposición 4 Si a y b son constantes

V ar (aX + b) = a2V ar (X)

Demostración. como

(E (aX + b))2 = (aE (X) + b)2

= a2 (E (X))2 + b2 + 2abE (X)

y

E�(aX + b)2

�= E

�a2X2 + b2 + 2abX

�= a2E

�X2�+ b2 + 2abE (X)

restando miembro a miembro y teniendo en cuenta (3.5)

V ar (aX + b) = a2V ar (X)

Ejemplo 21 (cont. del ejemplo 1) la varianza de una variable aleatoria X de Bernoulli,

Page 77: Métodos Estadísticos-Félix Míguez Marín [2012]

3.5. VARIANZA DE UNA VARIABLE ALEATORIA 75

con función de masa f (x) = px (1� p)1�x si x 2 f0; 1g es:

V ar (X) = E�(X � p)2

�=

1Xx=0

(x� p)2 f (x) = (0� p)2 � (1� p) + (1� p)2 � p

= p (1� p)

o también, como E (X) = p y

E�X2�=

1Xx=0

x2f (x) = 02 � (1� p) + 12 � p = p

resulta de (3:5)

V ar (X) = E�X2�� (E (X))2 = p (1� p)

Ejemplo 22 para hallar la varianza de una variable aleatoria X con función de densidad

exponencial

f (x) = �e��x x > 0

y cero en otro caso, calculamos primero

E�X2�=

Z 1

0x2�e��xdx

por partes, con

u = x2 ! du = 2xdx

dv = �e��xdx! v = �e��x

y queda

E�X2�=h�x2e��x

i10+ 2

Z 1

0xe��xdx =

2

�2

pues limt!1t2e��t = 0 y (ejemplo 5)Z 1

0�xe��xdx =

1

La varianza resulta

V ar (X) = E�X2�� (E (X))2 = 2

�2� 1

�2

=1

�2

Page 78: Métodos Estadísticos-Félix Míguez Marín [2012]

76 3. VALORES ESPERADOS

3.6 Interpretación experimental

Sean (x1; x2; :::; xn; :::) son observaciones experimentales de una variable X, discreta

o continua, con esperanza E (X) y varianza V ar (X). Denotemos

x =1

n

nXi=1

xi

La variabilidad, o dispersión, de la muestra se puede medir por el promedio experi-

mental siguiente1

n

nXi=1

(xi � x)2

y en la medida en que los valores individuales xi sean similares (y por lo tanto poco

distintos de su promedio x) la medida de variabilidad anterior será pequeña. Pero

1

n

nXi=1

(xi � x)2 =1

n

nXi=1

�x2i + (x)

2 � 2xxi�

=1

n

nXi=1

x2i + (x)2 � 2 (x)2

=1

n

nXi=1

x2i � 1

n

nXi=1

xi

!2

y como empíricamente

limn!1

1

n

nXi=1

xi = E (X)

limn!1

1

n

nXi=1

x2i = E�X2�

resulta

limn!1

1

n

nXi=1

(xi � x)2 = E�X2�� (E (X))2 = V ar (X)

Así que cuanto menor sea la varianza V ar (X) menor es la dispersión de la muestra.

Ejemplo 23 (cont. del 21) V ar (X) = p (1� p) es máxima si p = 1=2, y tiende a

cero si p ! 0 ó p ! 1. La homogeneidad de la sucesión de ceros y unos (x1; x2; :::; xn)

correspondiente a los lanzamientos de una moneda es máxima si p ! 0 ó p ! 1 y

mínima si p = 1=2.

Page 79: Métodos Estadísticos-Félix Míguez Marín [2012]

3.7. ACOTACIÓN DE TCHEBYCHEV 77

3.7 Acotación de Tchebychev

Proposición 5 (Acotación de Tchebychev) Sea X una variable aleatoria cualquiera

con esperanza E (X) y varianza V ar (X). Sea " > 0

P (jX � E (X)j � ") � V ar (X)

"2

o también

P (jX � E (X)j < ") � 1� V ar (X)"2

Demostración. Denotemos B = fx 2 R; jx� E (X)j � "g

V ar (X) =

Z 1

�1(x� E (X))2 f (x) dx

=

ZBc(x� E (X))2 f (x) dx+

ZB(x� E (X))2 f (x) dx

�ZB(x� E (X))2 f (x) dx � "2

ZBf (x) dx = "2P (jX � E (X)j � ")

y resulta lo propuesto.

Este resultado aclara el análisis hecho después de la De�nición 2 a propósito de la

varianza. La probabilidad del suceso jX � E (X)j < ", es decir, de que los valores de

X se hallen en un entorno " de su esperanza E (X), es tanto mayor cuanto menor es

V ar (X).

3.8 Varianza de una combinación lineal de Vas independi-

entes

Proposición 6 Si (X1; X2; :::; Xn) son independientes entonces

E�Y

Xi

�=YE (Xi)

Demostración. Basta probarlo para 2 variables X e Y . Por ser independientes es

f (x; y) = fX (x) fY (y) y entonces

E (XY ) =

Z ZR2xyf (x; y) dxdy =

ZRxfX (x) dx

ZRyfY (y) dy

= E (X)E (Y )

Page 80: Métodos Estadísticos-Félix Míguez Marín [2012]

78 3. VALORES ESPERADOS

Téngase en cuenta que para variables X e Y no independientes puede ser

E (XY ) = E (X)E (Y )

tales variables se llaman incorreladas (ver 3.9).

Proposición 7 (Combiación lineal de Vas independientes) Si las n variables(X1; X2; :::; Xn) son independientes (o al menos incorreladas)

V ar�X

aiXi + c�=X

a2iV ar (Xi)

Demostración. Basta probarlo para dos variables X e Y :

V ar (aX + bY ) = E�(aX + bY )2

�� (E (aX + bY ))2

y como

E�(aX + bY )2

�= E

�a2X2 + b2Y 2 + 2abXY

�= a2E

�X2�+ b2E

�Y 2�+ 2abE (XY )

y

(E (aX + bY ))2 = (aE (X) + bE (Y ))2

= a2 (E (X))2 + b2 (E (Y ))2 + 2abE (X)E (Y )

resulta

V ar (aX + bY ) = a2V ar (X) + b2V ar (Y ) + 2ab (E (XY )� E (X)E (Y )) (3.6)

y como E (XY ) = E (X)E (Y ) resulta

V ar (aX + bY ) = a2V ar (X) + b2V ar (Y )

por último, de la Proposición 4

V ar (aX + bY + c) = a2V ar (X) + b2V ar (Y )

Page 81: Métodos Estadísticos-Félix Míguez Marín [2012]

3.9. LA COVARIANZA 79

Ejemplo 24 (cont. del 19) (Varianza de la binomial) como X =Pni=1Xi y las Xi

son independientes

V ar (X) =

nXi=1

V ar (Xi) = np (1� p)

pues (variables de Bernoulli) V ar (Xi) = p (1� p)

3.9 La covarianza

De�nición 3 (La covarianza) La esperanza de la función (X � E (X)) (Y � E (Y ))se llama la covarianza entre X e Y y se denota Cov (X;Y ):

Cov (X;Y ) = E ((X � E (X)) (Y � E (Y )))

Proposición 8 una expresión alternativa es (desarrollando el corchete y tomando laesperanza de cada término):

Cov (X;Y ) = E (XY )� E (X)E (Y )

Corolario 1 Si X e Y son independientes o incorreladas

Cov (X;Y ) = 0

Proposición 9 Las siguientes propiedades son de comprobación inmediata

Cov (aX; bY ) = abCov (Y;X)

Cov (X;Y ) = Cov (Y;X)

Cov (X;X) = V ar (X)

Cov (a;X) = 0

Cov (a; b) = 0

Ahora la fórmula (3.6) se puede escribir

V ar (aX + bY ) = a2V ar (X) + b2V ar (Y ) + 2abCov (X;Y )

y se generaliza fácilmente a (teniendo en cuenta las propiedades anteriores y la proposi-

ción 4):

Page 82: Métodos Estadísticos-Félix Míguez Marín [2012]

80 3. VALORES ESPERADOS

Proposición 10 (Varianza de una combinación lineal de Vas)

V ar�X

aiXi + c�

=XX

aiajCov (Xi; Xj)

=X

a2iV ar (Xi) + 2XX

aiaji<j

Cov (Xi; Xj)

En particular, si la variables son independientes o incorreladas la expresión de la

varianza es la Proposición 7.

Proposición 11 (Desigualdad de Cauchy-Schwarz)

(E (XY ))2 � E�X2�E�Y 2�

Demostración. De

E�(aX + Y )2

�= E

�aX2 + 2aXY + Y 2

�= a2E

�X2�+ 2aE (XY ) + E

�Y 2�� 0 8a 2 R

resulta que la ecuación cuadrática en a tiene una solución real (si = 0) o ninguna (si

> 0) y por ello su discriminante ha de ser

(E (XY ))2 � E�X2�E�Y 2�� 0

resultando lo propuesto.

En calidad de variables X e Y usemos en particular las (X � E (X)) e (Y � E (Y ))la desigualdad queda en la forma

(Cov (X;Y ))2 � V ar (X)V ar (Y )

o también

jCov (X;Y )j �pV ar (X)

pV ar (Y ) (3.7)

Proposición 12 Si Y = aX + b entonces

(Cov (X;Y ))2 = V ar (X)V ar (Y )

Demostración. Resulta inmediatamente de la Proposición 9

Cov (X;Y ) = Cov (X; aX + b) = aCov (X;X) = aV ar (X)

Page 83: Métodos Estadísticos-Félix Míguez Marín [2012]

3.10. ESPERANZA CONDICIONAL 81

y

V ar (Y ) = V ar (aX + b) = a2V ar (X)

De�nición 4 Se llama el coe�ciente de correlación, denotado Corr (X;Y ), de las VasX e Y a

Corr (X;Y ) =Cov (X;Y )p

V ar (X)V ar (Y )

Se sigue de (3.7) que

jCorr (X;Y )j � 1

Además Corr (X;Y ) = �1 si Y = aX + b (el signo es el de a) y Corr (X;Y ) = 0 si

son independientes (o incorreladas).

3.10 Esperanza condicional

Sea la Va condicional (Y j X = x) con densidad o masa f (y j x) (secciones 2.7.1 y2.8.1). Entonces (De�nición 1)

E (Y j x) =ZRyf (y j x) dy

Esta fórmula puede verse también como una función de X, es decir, como una Va.

De�nición 5 Se llama esperanza condicional a la Va E (Y j X) : ! R tal que

! 7�! E (Y j X (!)) =ZRyf (y j X (!)) dy

Proposición 13E (E (Y j X)) = E (Y )

Demostración. Usando el Teorema 1

E (E (Y j X)) =

ZRE (Y j x) fX (x) dx

=

ZR

ZRyf (y j x) fX (x) dxdy

=

ZRy

�ZRf (x; y) dx

�dyZ

RyfY (y) dy

Page 84: Métodos Estadísticos-Félix Míguez Marín [2012]

82 3. VALORES ESPERADOS

Ejemplo 25 (Problema del ladrón de Bagdad) Un ladrón está encerrado en uncalabozo con 3 puertas. Una de las puertas lo devuelve al calabozo después de un día de

viaje. Otra lo devuelve después de tres días de viaje. La última lo lleva a la libertad.

Calcular el número esperado de días de encierro si cada vez elige una puerta de las tres

con igual probabilidad.

Sea N el número de intentos hasta salir (1; 2; :::) y Ti la duración de cadaintento (0; 1 ó 3 días). El total de días preso es

X =

NXi=1

Ti

Observar que esta es una suma de un número aleatorio de sumandos. Para calcular

su esperanza hacemos

E (X j N = n) = E

nXi=1

Ti

!=

nXi=1

E (Ti) =4n

3

pues la duración esperada de cada intento es

E (Ti) = 0�1

3+ (3 + 1)� 1

3=4

3

Aplicando ahora el teorema anterior

E (X) = E (E (X j N)) = 4

3E (N) = 4

pues el número de intentos N es una Va geométrica de parámetro p = 1=3 y E (N) =

1=p = 3.

Page 85: Métodos Estadísticos-Félix Míguez Marín [2012]

3.11. EJERCICIOS PROPUESTOS 83

3.11 Ejercicios propuestos

1. Sea un experimento cualquiera (;F ; P ), un suceso A 2 F de probabilidad P (A)

y la Va IA : ! R tal que IA (!) = 1 si ! 2 A y IA (!) = 0 si ! =2 A (llamadafunción indicatriz del conjunto A). Calcule E (IA).

2. (cont.) suponga que P (A) = 0:1 Si hacemos el experimento 100 veces independi-

entemente ¿Cuál es el número esperado de ellas que sucederá A?

3. (cont.) ¿Cuál es el número esperado de veces que hay que hacer el experimento

para que suceda A? (el periodo de retorno de A).

4. Si los caudales máximos anuales de un rio en años sucesivos son independientes y

si la probabilidad de que el caudal máximo exceda el valor x en un año cualquiera

es 0:01 ¿cuál es el perido de retorno del caudal x? (de otra manera: ¿cada cuántos

años, en promedio, se excede x?)

5. (cont.) Supongamos que para cierto rio su caudal máximo anual es una VA X (en

m3 s�1) con función de distribución

F (x) = 1� e�0:01x x > 0

Hallar el valor de caudal máximo x con periodo de retorno de 100 años

6. Jugamos a la ruleta (ejemplo 12) apostando a par 1 euro de entrada y doblando la

apuesta cada vez en rondas de 10 como máximo (ejemplo 13). A la larga, de cada

mil rondas que juguemos ¿cuántas ganamos y qué cantidad en total? ¿cuántas

perdemos y qué cantidad en total?

7. Demostrar que E�(X � c)2

�es mínimo si c = E (X)

8. SeaX una Va cualquiera con esperanza E (X) = � y desviación típicapV ar(X) =

�: Calcule la esperanza y la varianza de la variable

U =X � ��

9. Calcular la esperanza y la varianza de una variable aleatoriaX con funcion de masa

f(x) = 1=n si x 2 f1; 2; :::; ng y cero en otro caso (discreta uniforme, o equiproba-ble). (sugerencia:

Pnx=1 x = n(n+ 1)=2 y

Pnx=1 x

2 =�2n3 + 3n2 + n

�=6).

Page 86: Métodos Estadísticos-Félix Míguez Marín [2012]

84 3. VALORES ESPERADOS

10. Calcule la esperanza de una Va geométrica de parámetro p usando

1Xx=1

x (1� p)x�1 p = �p ddp

1Xx=1

(1� p)x!

11. Calcule la esperanza de una Va de Poisson de parámetro � derivando respecto a �

en ambos miembros de 1Xx=0

�x

x!= e�

12. Calcule la esperanza y la varianza de una variable aleatoria X con función de

densidad f(x) = 1=(b� a) para x 2 (a; b) y cero en otro caso (continua uniforme,o equiprobable).

13. Calcule la esperanza de una Va normal de parámetros � y � derivando respecto de

� en

1

�p2�

ZRe�(x� �)2

2�2 dx = 1

14. Calcule la varianza de una Va normal de parámetros � y � derivando respecto de

� en

1p2�

ZRe�(x� �)2

2�2 dx = �

15. (Ley del decaimiento) Si inicialmente hay N (0) átomos radiactivos, y si para cada

uno de ellos la probabilidad de decaer en el intervalo (0; t] es F (t) = 1� exp (��t)independientemente unos de otros, halle la esperanza del número N (t) de átomos

que sobreviven al tiempo t (vea el Ejercicio 9 del Capítulo 2).

16. Se desea �nanciar una campaña de n sondeos. El resultado de cada sondeo es una

Va Xi con P (Xi = 1) = p (éxito) y P (Xi = 0) = 1� p (fracaso). El número totalde sondeos con éxito es X =

PXi. Se supone que los resultados de los sondeos

son independientes a) encontrar la esperanza y la varianza del número de sondeoscon éxito. b) si la campaña tiene un coste �jo c0; cada perforación con éxito cuesta2c y cada una fallida c, encontrar la esperanza y la varianza del coste total de la

campaña.

17. Se lanzan 36 dados equiprobables. Calcule el valor esperado y la varianza de la

suma S de los puntos obtenidos. (sugerencia: ejercicio 9)

Page 87: Métodos Estadísticos-Félix Míguez Marín [2012]

3.11. EJERCICIOS PROPUESTOS 85

18. (cont.) La Va S es discreta con valores posibles f36; 37; :::; 216g. El cálculo exactode una probabilidad como

P (jS � 126j < 30) = (96 < S < 156)

exige conocer la función de masa, que no es difícil pero si penoso. Acote la proba-

bilidad anterior mediante la acotación de Tchebychev.

19. Según la teoría cinética de Maxwell y Boltzman las componentes (Vx; Vy; Vz) de

la velocidad de las moléculas de un gas ideal en equilibrio son Vas independi-

entes con densidad normal de parámetros E (Vx) = E (Vy) = E (Vz) = � y

V ar (Vx) = V ar (Vy) = V ar (Vz) = kT=m, donde k es la constante de Boltzman,

T la temperatura y m la masa de una molécula

a) Como las moléculas no tienen una dirección preferente de movimiento ¿cuáldebe ser el valor de � y cuáles sus unidades en el S.I.?

b) Tomando el valor k = 1:38�10�23 JK�1 y el valor 0:028 kgmol�1 para la masamolecular del nitrógeno ¿cuánto vale la desviación típica, con sus unidades, para

el nitrógeno a T = 300K?

c) Calcule la energía cinética esperada de una molécula de un gas ideal a tempe-ratura T

20. Varillas cilíndricas de acero tienen una longitudX con E (X) = 10 cm y V ar (X) =

0:0052 cm2, y una sección de area A con E (A) = 1 cm2 y V ar (A) = 0:012 cm4.

Además X y A son independientes. Hallar la esperanza y desviación típica del

volumen V = XA de una varilla.

21. (cont.) El peso de cada varilla es Z = 8V g. Calcular la esperanza y la desviación

típica del peso de un lote de 100 varillas.

22. Esperanza del mínimo Se eligen n puntos Xi al azar en (0; 1) y se de�ne

Y =�abscisa del más cercano al origen�. Calcular E (Y ) (ver ejercicio propuesto

17 cap 2).

23. Esperanza del mínimo Se eligen 3 puntos al azar en el círculo x2 + y2 � 1 y sede�ne Y =�distancia del más próximo al origen�. Calcular E (Y ) (vea el anterior

y tenga en cuenta ejemplo 34 del cap 2)

24. Esperanza del máximo Se eligen n puntos Xi al azar en (0; 1) y se de�ne

Page 88: Métodos Estadísticos-Félix Míguez Marín [2012]

86 3. VALORES ESPERADOS

Y =�abscisa del más lejano al origen�. Calcular E (Y ) (ver ejercicio propuesto 18

cap 2)

Page 89: Métodos Estadísticos-Félix Míguez Marín [2012]

4

Modelos principales

4.1 Variable aleatoria normal

La función

f(x) =1

�p2�exp

"�12

�x� ��

�2#�1 < x < +1

es la densidad llamada normal o de Gauss de parámetros �1 < � < +1 y � > 0.

(Se prueba que su integral vale 1 en el Apéndice 2).

La función es simétrica alrededor de �, es decir f(��x) = f(�+x). Tiene un únicomáximo en �, de valor f(�) = 1=

��p2��que aumenta cuando � disminuye. Y decrece

asintóticamente hacia el valor 0 para x ! �1, tanto más rápidamente cuanto menorsea �. La probabilidad se concentra entonces alrededor de � cuando � disminuye.

Su esperanza y varianza son E(X) = � y V ar(X) = �2 (Capítulo 3: ejemplo 6 y

ejercicios 13 y 14).

Una variable aleatoria X con esta densidad se indica1 X � N(�; �).

Proposición 1 Si X � N(�; �) entonces U = a+ bX � N(a+ b�; jbj�)

1Y también X � N(�; �2).

87

Page 90: Métodos Estadísticos-Félix Míguez Marín [2012]

88 4. MODELOS PRINCIPALES

Demostración. la densidad de U = a+ bX es (Capítulo 2 ejemplo 39) :

fU (u) =1

jbjf�u� ab

�=

1

jbj�p2�exp

"�12

� u�ab � ��

�2#

=1

jbj�p2�exp

"�12

�u� (a+ b�)

b�

�2#�1 < u < +1

es decir, a+ bX � N(a+ b�; jbj�).

Corolario 1 En particular la densidad de U = (X � �) =� es N (0; 1).

Proposición 2 (reproductividad) Si Xi � N (�i; �i) e independientes entoncesX =

Pni=1Xi � N

�P�i;qP

�2i

�.

Demostración. (ver Apendice 2)

µ

σ = 0.5

σ = 1

σ = 2

Densidades normales con igual � y distintas �

Page 91: Métodos Estadísticos-Félix Míguez Marín [2012]

4.2. CÁLCULO DE PROBABILIDADES 89

4.2 Cálculo de probabilidades

Si X � N(�; �) para calcular la probabilidad2:

P (X < b) =

Z b

�1

1

�p2�exp

"�12

�x� ��

�2#dx

hay que usar aproximaciones numéricas, pues el integrando carece de primitiva simple

(que permitiría usar la regla de Barrow).

Pero si X � N (�; �) entonces (Corolario 1 anterior)

U =X � ��

es N (0; 1). Y como los sucesos X < b y X��� < b��

� son equivalentes (la realización de

uno equivale a la del otro)3

P (X < b) = P

�X � ��

<b� ��

�= P

�U <

b� ��

�y se concluye que para aproximar las probabilidades de una X � N (�; �) basta aproxi-mar las de una U � N (0; 1).

Suele denotarse P (U < u) = � (u). Con ello

P (a < X < b) = �

�b� ��

�� �

�a� ��

En la tabla I se dan los valores de

�(u) =

Z u

�1

1p2�exp

��12u2�du

para u 2 (0:00; 3:4) y los demás se deducen de la simetría de la densidad normal:

�(�u) = 1� �(u)() P (U < �u) = P (U > u)

2Recordar que para una variable continua la probabilidad en cada intervalo vale lo mismo se incluyano no los puntos extremos.

3El suceso X < b representa todos los números x tales que x < b, y si x < b entonces x���

< b���

yrecíprocamente.

Page 92: Métodos Estadísticos-Félix Míguez Marín [2012]

90 4. MODELOS PRINCIPALES

Ejemplo 1 sea X � N(1000; 50). Para calcular la P (900 < X < 1050):

P (900 < X < 1050) = P

�900� 1000

50< U <

1050� 100050

�= �(1)� � (�2)

= 0:8413� (1� 0:9772) = 0:8185

Ejemplo 2 (cont.) encontremos el número x tal que P (jX � 1000j < x) = 0:9

P (jX � 1000j < x) = P (�x < X � 1000 < x) = P�� x50< U <

x

50

�= �

� x50

�� �

�� x50

�= 0:9

�� x50

��h1� �

� x50

�i= 2�

� x50

�� 1 = 0:9

resulta que ��x50

�= 0:95 y con ayuda de la tabla se halla que � (1:64) = 0:94950 (valor

más próximo) así que x = 50� 1:64 = 82.

Obsérvese que, para cada número real k > 0, P (jX � �j < k�) = �(k)� �(�k), demanera que, para cualquier Va normal, la probabilidad en el intervalo (��k�; �+k�)es la misma; en particular, los valores correspondientes a k = 1; 2; 3 y 4, son respectiva-

mente 0:6827, 0:9545, 0:9973 y 0:9999

µ­ σ µ µ+σµ­2 σ µ µ+2 σµ­3 σ µ µ+3 σ

68.27%

95.45%

99.73%

Page 93: Métodos Estadísticos-Félix Míguez Marín [2012]

4.3. TEOREMA CENTRAL DEL LÍMITE 91

4.3 Teorema Central del Límite

La distribución de probabilidades de una variable aleatoria X de�nida como suma

de otras

X =

nXi=1

Xi

depende en general de cuál sea la de las Xi. Sin embargo el siguiente teorema a�rma

que, en condiciones muy generales y si n es su�cientemente grande, la distribución de la

X se puede aproximar con una normal.

Teorema 1 (Teorema Central del Límite) Sean Xi independientes y con la mismadistribución (discretas o continuas); en particular E(Xi) = � y V ar(Xi) = �2. Sea

X =Pni=1Xi. Su esperanza y varianza son E(X) = n� y V ar(X) = n�

2. Entonces

limn!1

P

�X � n��pn

� u�= �(u) 8u 2 R

En la práctica: si n es su�cientemente grande pueden aproximarse las probabili-dades relativas a la variable aleatoria X =

Pni=1Xi como si fuese una normal de

esperanza n� y de varianza n�2, pues:

P (X � x) = P�X � n��pn

� x� n��pn

�� �

�x� n��pn

�(4.1)

Lo anterior se dice así:Pni=1Xi es asintóticamente N (n�; �

pn).

CuandoX es discreta con valores posibles los números enteros la aproximación mejora

notablemente usando la llamada corrección de continuidad

P (X � x) � ��x+ 0:5� n�

�pn

�(4.2)

El Teorema justi�ca también el hecho de que las variables normales resulten ser el

modelo adecuado para las magnitudes cuyos valores son el resultado de la suma de un

número muy grande de factores aleatorios independientes, cada uno de los cuales ejerce

una pequeña contribución al valor �nal. Como en los 3 ejemplos que siguen.

Ejemplo 3 El número de moléculas en 1 cm3 de gas, a 1 atm y 250C, es de 2 � 1019.Debido a la agitación térmica, en un microsegundo se producen (para el oxígeno) 3�1017

impactos por cm2 de pared, de manera que la suma de los impactos individuales resulta en

la presión estacionaria aparente. Sin embargo, no todas las moléculas se mueven con la

Page 94: Métodos Estadísticos-Félix Míguez Marín [2012]

92 4. MODELOS PRINCIPALES

misma velocidad, es decir, no todas tienen la misma energía, produciéndose intercambios

entre ellas y con la pared (aunque el balance global sea aproximadamente de equilibrio).

Maxwell demostró en 1860, postulando un modelo de choques moleculares isótropo y

estacionario que las componentes, Vx; Vy y Vz, de la velocidad de las moléculas de un gas

ideal en equilibrio pueden modelizarse como variables aleatorias normales, físicamente

independientes, y parámetros:

E(Vx) = E(Vy) = E(Vz) = 0

V ar(Vx) = V ar(Vy) = V ar(Vz) = kT=m

donde k es la constante de Boltzman, T la temperatura y m la masa de la molécula.

La identidad de las distribuciones, simétricas alrededor de 0, re�eja la isotropía del

sistema: no hay direcciones preferentes de movimiento. Por su parte, la disminución de

la temperatura disminuiría la varianza, lo que se traduciría en una menor probabilidad

de tener valores grandes de jVxj, jVyj ó jVzj (y por lo tanto de V 2 = V 2x + V 2y + V 2z , y dela energía cinética).

Ejemplo 4 Observando una gota de agua al microscopio el botánico Robert Brown des-cubrió en 1827 el movimiento caótico de pequeñas partículas suspendidas (como granos

de polen, motas de polvo; diámetro del orden de 0:5 � 10�6 m). Einstein postuló en1905 que ello era debido a los impactos (del orden de 1020 s�1) de las moléculas de agua

(diámetro del orden de 0:3�10�9 m), y que �jada la posición de la partícula en cualquierinstante, las componentes X(t), Y (t) y Z(t) del vector posición transcurrido un tiempo

t, pueden modelizarse como variables aleatorias normales, físicamente independientes, y

parámetros:

E(X(t)) = E(Y (t)) = E(Z(t)) = 0

V ar(X(t)) = V ar(Y (t)) = V ar(Z(t)) =

�RT

3NA��r

�t

donde R es la constante universal de los gases, NA el número de Avogadro, T la temper-

atura, � la viscosidad y r el radio de la partícula. La esperanza cero re�eja la isotropía

del sistema: no hay una dirección preferente de impactos. La varianza re�eja la incer-

tidumbre sobre la posición de la partícula respecto a su posición inicial: creciente con el

tiempo t debido a los impactos, y con la temperatura T (la energía de las moléculas que

impactan).

Page 95: Métodos Estadísticos-Félix Míguez Marín [2012]

4.3. TEOREMA CENTRAL DEL LÍMITE 93

Como las esperanzas son cero resulta

E�X2 (t)

�= E

�Y 2 (t)

�= E

�Z2 (t)

�=

�RT

3NA��r

�t

Así que, �jado el tiempo t y conocidos los valores de �, T , r y R, se puede aproximar

estadísticamente el desplazamiento cuadrático esperado por un promedio experimental

de n desplazamientos observados (distancias entre las posiciones inicial y �nal); por

ejemplo según el eje x

E�X2 (t)

�� 1

n

nXi=1

x2i (t)

y de aquí se obtiene una aproximación experimental del valor de NA, hazaña por la que

Perrin recibió en 1926 el premio Nobel de Física.

Ejemplo 5 Sea � el valor de cierta constante que se trata de medir. No es posiblepredecir el valor de cada medida individual, pues se ve afectada por gran número de

perturbaciones inevitables cuyo resultado neto es un error de medida aleatorio. El modelo

que describe la situación es:

Y = �+ U

donde Y es la variable aleatoria �valor medido� y U la variable aleatoria �error de

medida�. Además la densidad de probabilidad de U , en virtud del Teorema Central del

Límite, es normal, con E(U) = 0 (si el aparato está bien calibrado: las medidas son

exactas, no hay error sistemático) y V ar(U) = �2 (mayor precisión del aparato cuanto

menor sea). En consecuencia la densidad de probabilidad de Y es también normal, con

E(Y ) = � y V ar(Y ) = �2.

Page 96: Métodos Estadísticos-Félix Míguez Marín [2012]

94 4. MODELOS PRINCIPALES

4.4 Variable aleatoria binomial

La función de distribución binomial es (Capítulo 2 ejemplo 13 y Capítulo 3 ejemplos

19 y 24):

P (X � k) =x=kXx=0

�n

x

�px(1� p)n�x (4.3)

Hay una di�cultad práctica4 para calcularla para valores grandes de n. Sin embargo

la aproximación de la anterior probabilidad mediante la función de distribución normal,

basada en el Teorema Central del Límite, es sencilla.

Según el modelo básico una Va X binomial de parámetros n y p, representa el número

de éxitos en n ensayos independientes con probabilidad p de éxito en cada uno. Pero X

también se puede representar así:

X =

nXi=1

Xi

donde cada una de las n variables aleatorias independientes Xi representa el resultado

del correspondiente ensayo, con

P (Xi = 1) = p

P (Xi = 0) = 1� p

y como

E(Xi) = p

V ar(Xi) = p(1� p)

entonces (Capítulo 3 Proposiciones 2 y 7)

E(X) =

nXi=1

E (Xi) = np

V ar(X) =

nXi=1

V ar (Xi) = np(1� p)

Ahora, si n es su�cientemente grande se aplica a (4.3) la aproximación (4.2), es decir,

4El cálculo con precisión arbitraria se realiza por medio de la función euleriana beta.

Page 97: Métodos Estadísticos-Félix Míguez Marín [2012]

4.4. VARIABLE ALEATORIA BINOMIAL 95

se pueden aproximar las probabilidades relativas aX como si fuese unaN(np;pnp(1� p)):

P (X � k) =x=kXx=0

�n

x

�px(1� p)n�x � �

k + 0:5� nppnp(1� p)

!

0 2 4 6 8 100

0.1

0.2

0.3

0.4

p = 0.2, n=10

0 10 20 30 40 500

0.05

0.1

0.15

0.2

p = 0.2, n=50

funciones de masa binomial y densidad normal N(np;pnp(1� p))

En la práctica suele aceptarse que la aproximación es su�ciente en cuantominfnp; n(1�p)g > 10, de modo que el caso más favorable se tiene cuanto más próximo sea p a 1=2(con p = 1=2 se prueba que el máximo error que se comete es menor que 1=

pn).

Ejemplo 6 se lanza una moneda equilibrada 900 veces. ¿qué probabilidad hay de obtenermás de 495 caras?. La VA X, número de caras, es B(900; 1=2), con E(X) = 450 y

V ar(X) = 225

P (X > 495) = 1� P (X � 495) = 1�k=495Xk=0

�900

k

��1

2

�900� 1� �

�495 + 0:5� 450p

225

Page 98: Métodos Estadísticos-Félix Míguez Marín [2012]

96 4. MODELOS PRINCIPALES

495+0:5�450p225

= 3:0333 y en la tabla se lee � (3:03) = 0:99878 así que P (X > 495) �1� 0:99878 = 0:00122

4.5 Variable aleatoria de Poisson

La función de masa de Poisson es (Capítulo 2 ejemplo 15)

f(x) = e���x

x!x = 0; 1; 2; :::

Su esperanza y varianza son (Capítulo 3 ejercicio 11) E (X) = � y V ar (X) = �.

Proposición 3 (reproductividad) Si Xi son Poisson de parámetros �i e independien-tes, entonces

PXi es Poisson

P�i.

Demostración. Basta probarlo para dos, sean X e Y de parámetros � y �

P (X + Y = z) =zXj=0

P (X = z � j; Y = j) =zXj=0

P (X = z � j)P (Y = j)

=zXj=0

e���z�j

(z � j)!e���

j

j!=e�(�+�)

z!

zXj=0

�z

j

��z�j�j

= e�(�+�)(�+ �)z

z!

Proposición 4 (Convergencia de la Binomial) Si X es Binomial (n; p) entonces

lim

�n

x

�px(1� p)n�x = e���

x

x!

para n!1; p! 0 y np = �.

Demostración. Efectivamente (si n!1 y p = �=n)

limn!1

�n

x

�px(1� p)n�x = lim

n!1n(n� 1) � � � [n� (x� 1)]

x!

��

n

�x�1� �

n

�n�x=

�x

x!limn!1

n(n� 1) � � � [n� (x� 1)]nx

�1� �

n

�n�x=

�x

x!e��

Page 99: Métodos Estadísticos-Félix Míguez Marín [2012]

4.5. VARIABLE ALEATORIA DE POISSON 97

pues

limn!1

n(n� 1) � � � [n� (x� 1)]nx

= 1

limn!1

�1� �

n

�n= e��

limn!1

�1� �

n

��x= 1

La validez empírica del modelo de Poisson en el número de accidentes de tal o cual

clase se justi�ca en esta convergencia (ley de los sucesos raros): el tamaño n de lapoblación susceptible de accidente es muy grande y la probabilidad p de accidente muy

pequeña.

Esta convergencia tiene gran interés teórico, como veremos en la siguiente sección,

y también ocasionalmente práctico: se acepta una aproximación su�ciente de la función

de masa binomial por la de Poisson si (p < 0:1 , n > 50 , np < 10).

Ejemplo 7 Supóngase que en una población numerosa el tanto por uno de individuosque poseen cierta propiedad es de p = 0:01 . Calculemos la probabilidad de que en una

muestra al azar de 200 individuos, al menos 4 posean la propiedad.

Si suponemos que cada una de las 200 extracciones sucesivas no cambian apreciable-

mente la proporción en la población (o sea, que si es N el tamaño de la población,

Np � n), entonces la VA X, número de individuos en la muestra que poseen la

propiedad, es B(200; 0:01) y:

P (X � 4) = 1� P (X � 3) = 1�3Xx=0

�200

x

�(0:01)x(0:99)200�x

� 1�3Xx=0

e�22x

x!= 1� 0:85712 = 0:14288

(Con 4 cifras exactas la binomial da el valor 0:1420).

Page 100: Métodos Estadísticos-Félix Míguez Marín [2012]

98 4. MODELOS PRINCIPALES

4.6 Procesos de Poisson

Considere sucesos que se producen en instantes de tiempo tales como las llegadas de

los clientes a un servidor, de partículas a un detector, de accidentes, terremotos, averías

... Podemos estudiarlos mediante una función de conteo N (t) � N(0; t] de�nida para

t > 0 y cuyo valor es el número de sucesos que se han producido en el intervalo (0; t].

El tiempo 0 signi�ca el elegido para comenzar las observaciones. Para cada tiempo t

tenemos una Va discreta N (t) cuyos valores posibles son 0; 1; 2; ::: La familia de Vas

fN (t) ; t > 0g es un proceso aleatorio.

Procesos semejantes pueden estudiarse en el plano, o el espacio, y la función de conteo

es ahora N (v) cuyo valor es el número de sucesos (puntos) que se han producido en el

conjunto v.

Cuando somos nosotros los que realizamos un mismo ensayo n veces, nos interesamos

en el número de ellas en que ha ocurrido cierto suceso. Sin embargo, ahora el suceso de

interés ocurre independientemente de cualquier ensayo deliberado, en instantes de tiempo

o puntos del espacio. Construiremos un modelo para esta nueva clase de situaciones como

un límite de la primera más sencilla, imaginando cierta disponibilidad in�nita de ensayos.

Sea V un conjunto acotado (de la recta, del plano,...) de medida (longitud, super�-

cie,...) med(V ), en el cual se situarán al azar (con densidad uniforme) n puntos. Cada

uno de ellos tiene la misma probabilidad med(v)med(V ) de caer dentro de un subconjunto �jado

v � V . Por lo tanto, el número de puntos, de entre los n, que se incluirán en v es unaVa N (v) binomial de parámetros n y p = med(v)

med(V ) .

Ahora, si n!1 ymed(V )!1 de manera que � = nmed(V ) (el número de puntos por

unidad de medida o densidad espacial de puntos) permanezca constante, la distribución

de la Va N (v) converge a la de Poisson de parámetro �med(v), con:

P (N (v) = x) = e��med(v)(�med(v))x

x!x = 0; 1; 2; ::

y es la misma para todos los subconjuntos de la misma medida med(v), cualquiera que

sea su forma y posición dentro de V .

Además, se prueba que para cualquier elección de k � 2 subconjuntos no solapados,las k VAs N (vi) son independientes (intuitivamente: si de un total de n puntos se sabe

que ni están en vi, las oportunidades para vj , no solapado, son n�ni, así que las variablesN (vi) y N (vj) son dependientes. Pero ello deja de ser así si n� ni : hay practicamente

las mismas oportunidades para vj antes de �jar los ni en vi que después).

Page 101: Métodos Estadísticos-Félix Míguez Marín [2012]

4.6. PROCESOS DE POISSON 99

Basándonos en la construcción precedente hacemos la siguiente

De�nición 1 Un proceso aleatorio de puntos N (t) en R es de Poisson de intensidad� (número promedio teórico de puntos por unidad de medida) sí:

1) N (0) = 0 (los sucesos se comienzan a contar a partir del tiempo 0).2) en cualquier intervalo (a; b] el número de puntos N(a; b] = N (b)�N (a) es una

Va de Poisson de parámetro � (b� a) (homogeneidad).3) los números de puntos en intervalos no solapados son Vas independientes.

De este simple par de axiomas se concluye una estructura muy rica.

Proposición 5 Si N(a; b] = 1 la posición del punto en el intervalo es al azar. Esto es,8(a1; b1] � (a; b]

P (N(a1; b1] = 1 j N(a; b] = 1) =b1 � a1b� a

Demostración.

P (N(a1; b1] = 1 j N(a; b] = 1) =P (N(a1; b1] = 1; N(a; b] = 1)

P (N(a; b] = 1)

=P (N(a1; b1] = 1; N(a; a1] = 0; N(b1; b] = 0)

P (N(a; b] = 1)

=P (N(a1; b1] = 1)P (N(a; a1] = 0)P (N(b1; b] = 0)

P (N(a; b] = 1)

=e��(b1�a1)� (b1 � a1)� e��(a1�a) � e��(b�b1)

e��(b�a)� (b� a)=b1 � a1b� a

donde la tercera igualdad es consecuencia de la independencia y la cuarta de la distribu-

ción de Poisson en cada intervalo.

Proposición 6 �jado un origen t arbitrario, la distancia al punto más proximo, otiempo de espera, es una Va exponencial de parámetro �, independiente de dichoorigen.

Demostración. Sea X la distancia (desde t) al punto más próximo (a la derecha).

Obtenemos su función de distribución:

F (x) = P (X � x) = P (N(t; t+ x] � 1)

= 1� P (N(t; t+ x] = 0)

= 1� exp(��x) x > 0

así que X tiene densidad exponencial de parámetro �.

Page 102: Métodos Estadísticos-Félix Míguez Marín [2012]

100 4. MODELOS PRINCIPALES

Corolario 2 Como t es arbitrario, si se elige en particular en un punto del proceso re-sulta que las longitudes de los intervalos entre puntos (los tiempos de espera) X1; X2; :::siguen la misma ley exponencial de parámetro �. Se prueba además que son indepen-

dientes.

Así que desde que se inicia la observación del proceso en t = 0 el tiempo de espera

hasta que se produce el primer punto es una Va X1 exponencial de parámetro �. El

tiempo de espera desde X1 hasta que se produce el siguiente es de nuevo una Va X2exponencial de parámetro � independiente de la anterior, etc.

La esperanza del tiempo de espera es (esperanza de la exponencial) E (Xi) = 1=� y

el número esperado de puntos por unidad de tiempo es (esperanza de la de Poisson) �.

Ejemplo 8 (Paradoja del tiempo de espera) Suponga que los vehículos de una redde transporte urbano llegan a la parada según un proceso de Poisson con una frecuencia

teórica de 1 cada 15min. Si llegamos a la parada en un instante arbitrario ¿cuál es el

tiempo medio de espera hasta que llegue el próximo vehículo?

Como � = 1=15min�1 los tiempos de espera (intervalos entre vehículos) son Vas ex-

ponenciales independientes de parámetro 1=� = 15 min y la respuesta la da la Proposi-

ción 6: el tiempo medio de espera hasta que llegue el próximo vehículo es de 15 min.

Sin embargo la intuición sugiere que deberían ser 7:5min (interpretando instante

arbitrario como al azar en el intervalo medio de 15). La paradoja se deshace si com-

prendemos que no todos los intervalos son indénticos al medio y que es más probable que

nuestro instante se halle en uno largo (que ocupan más tiempo del proceso) que en uno

corto.

La paradoja no es una característica del proceso de Poisson. Se prueba que si Xison tiempos de espera independientes con la misma distribución y se elige un instante

arbitrario, la longitud esperada E (Y ) del intervalo que lo contiene es

E (Y ) = E (X) +V ar (X)

E (X)

Si los Xi son constantes de valor c es E (X) = c, V ar (X) = 0 y E (Y ) = c: el

tiempo de espera medio es c=2.

Si los Xi son exponenciales es E (X) = 1=�, V ar (X) = 1=�2 y E (Y ) = 2=�: el

tiempo de espera medio es 1=�.

Page 103: Métodos Estadísticos-Félix Míguez Marín [2012]

4.6. PROCESOS DE POISSON 101

Proposición 7 Si los tiempos de espera en un proceso de puntos son Vas Xi exponen-ciales independientes de parámetro � entonces el proceso es de Poisson de intensidad

�.

Proposición 8 Si Ni (t) son procesos de Poisson independientes de intensidades �i en-tonces N (t) =

PNi (t) es un proceso de Poisson de intensidad � =

P�i.

Ejemplo 9 (Accidentes nucleares)5 El número de accidentes en el reactor nuclear ia lo largo del tiempo puede modelizarse como un proceso de Poisson Ni (t) con

P (Ni (t) = x) = e��t (�t)

x

x!x = 0; 1; :::

Si tomamos como unidad de medida un año, el parámetro � es el número esperado de

accidentes en un reactor en un año cualquiera

E (Ni (1)) = �

El número de accidentes en un parque de n reactores es N (t) =Pni=1Ni y es Poisson

de parámetro n� (número esperado de accidentes en un año cualquiera en el conjunto

de n reactores).

La estimación de � debe basarse en la experiencia histórica:

Un cálculo del número de años de operación (del total de reactores que han operado

u operan desde 1954) es 15000 años.

Considerando los accidentes de nivel de gravedad 5 o superior (daño en el nucleo),

desde 1954 se han producido 4 accidentes (Chernobil, Three Miles Island, Wind Scale

Pille y Fukushima). Resulta una estimación de � para gravedad 5 o superior

� =4

15000= 2:6667� 10�4 accidentes/año

Actualmente hay n = 442 reactores de distinta antiguedad y suponiendo constante

este número (aunque las previsiones indican que puede crecer hasta los 600):

El número esperado de accidentes graves en los próximos 20 años es

E (N (20)) = n�t = 442� (4=15000)� 20 = 2:35735Thomas Rose. Probability of nuclear accidents. University College, London, 2011

Page 104: Métodos Estadísticos-Félix Míguez Marín [2012]

102 4. MODELOS PRINCIPALES

La probabilidad de al menos un accidente grave en los próximos 20 años es

P (N(20) � 1) = 1� P (N(20) = 0) = 1� e�n�t

= 1� exp (�2:3573) = 0:90532

4.7 Variables relacionadas con la Normal

4.7.1 Lognormal

La Va X es lognormal de parámetros � y �, lo que denotaremos X � LN(�; �), sisu densidad es:

f(x) =1

x�p2�exp

"�12

�lnx� ��

�2#x > 0

y se comprueba fácilmente que entonces Y = ln(X) es N(�; �). Sus esperanza y varianza

son:

E(X) = exp

��+

�2

2

�V ar(X) = exp

�2�+ �2

� �exp(�2)� 1

�Proposición 9 (forma multiplicativa del TCL) Sean Vas Xi cualesquiera, inde-pendientes e idénticamente distribuidas, con E(lnXi) = � y V ar(lnXi) = �2: Entonces

la VaQXi es asintóticamente LN(n�;

pn�):

Demostración. Se sigue de que

lnYXi =

XlnXi

es asintóticamente N(n�;pn�).

Ejemplo 10 Consideremos una cantidad inicial � que se divide aleatoriamente en 2partes eligiendo un número X1 al azar en (0; 1): los tamaños resultantes son �X1 y

� (1�X1) (observe que 1 � X1 también es un número al azar en (0; 1)). Ahora cadauna de ellas vuelve a dividirse de igual modo: por ejemplo la primera resulta en �X1X2y �X1 (1�X2). Después de n divisiones, el tamaño de cualquier fragmento es de laforma �

QXi, con las Xi uniformes en (0; 1). Para n grande la distribución de dichos

tamaños es aproximadamente lognormal. El modelo es de aplicación en la teoría de la

fragmentación de partículas, donde interesa la distribución de las dimensiones de éstas.

Page 105: Métodos Estadísticos-Félix Míguez Marín [2012]

4.7. VARIABLES RELACIONADAS CON LA NORMAL 103

4.7.2 Ji-cuadrado

Si U � N (0; 1) la densidad de U2 se llama ji-cuadrado de parámetro 1 (Capítulo 2ejercicio 16).

Proposición 10 Sean Ui � N(0; 1); i = 1; 2; :::; k, independientes. La densidad de

X =Pki=1 U

2i es:

f(x) =1

2k=2�(k2 )xk2�1 exp

��x2

�x > 0

y se llama ji-cuadrado de parámetro k, denotado X � �2(k):

Demostración. (Apéndice 2).

Su esperanza y varianza son E(X) = k y V ar(X) = 2k.

Corolario 3 (reproductividad) si Xi � �2(ki); i = 1; 2; :::; n y son independientes,

entonces X =PXi � �2(

Pki).

El cálculo de probabilidades con la densidad ji-cuadrado se realiza aproximando

numéricamente las integrales. Para nuestras aplicaciones nos serviremos de la tabla II.

En ella se dan, para algunos valores de � y del parámetro k, los cuantiles x�, es decir

P (X < x�) = �.

Ejemplo 11 (cont. del 3) La rapidez de las moléculas es la Va V =qV 2x + V

2y + V

2z

cuya densidad de probabilidades, llamada de Maxwell, puede deducirse con las técnicas

de la sección 2.11.2 y es

fV (v) =

r2

v2

�3exp

��v2=

�2�2��

v > 0 (� = kT=m)

El cálculo de probabilidades puede hacerse mediante la relación de su función de

distribución con la �2 (3):

P (V < v) = P�q

V 2x + V2y + V

2z < v

�= P

�V 2x + V

2y + V

2z < v

2�

= P

V 2x + V

2y + V

2z

�2<v2

�2

!= P

��2 (3) <

v2

�2

pues Vx=� � N (0; 1) y V 2x =�2 � �2 (1) y análogamente para las otras componentes queademás son independientes.

Page 106: Métodos Estadísticos-Félix Míguez Marín [2012]

104 4. MODELOS PRINCIPALES

0 5 10 15 200

0.05

0.1

0.15

0.2

0.25k=3k=5k=10

densidades ji-cuadrado

4.8 Ejercicios propuestos

1. El voltaje medido en un circuito es una VA X � N(120; 2)V. a) ¿Probabilidadde que 3 medidas independientes estén en el intervalo (119:4; 121:2)? b) ¿Quélímites simétricos deben tomarse alrededor de 120 para que incluyan una medida

cualquiera con probabilidad de 0.8?

2. El peso de cierto empaquetado es una VA X � N(150; 1=4), y el intervalo de

tolerancia admitido es (149:2; 150:4). En lotes de 100, ¿cuál es el número promedio

de aceptables?

3. Según el fabricante cierto tipo de cables tiene un límite de elasticidadX � N (50; 5)N/mm2. a) ¿Cual es la probabilidad de rotura de una cable si se va a cargar con40 N/mm2? (o de otra manera: ¿qué proporción de cables tienen un límite menor

que 40?). b) ¿Cuál es la carga máxima para que dicha probabilidad sea 0:05?

Page 107: Métodos Estadísticos-Félix Míguez Marín [2012]

4.8. EJERCICIOS PROPUESTOS 105

4. La longitud de ciertas piezas mecanizadas esN(0:9; �) y los límites de especi�cación

son 0:9� 0:005; ¿cuál es la desviación típica � con la que se obtendrían a la larga3 defectuosas de 1000?.

En los 3 ejercicios siguientes use la Proposición 2: suma de normales independien-

tes.

5. En una edi�cación la carga total sustentada por los cimientos es la suma de la

carga de la estructura más la de ocupación. Suponiendo que éstas son, para cierta

clase de construcciones, Vas independientes, respectivamente X � N(100; 10) e

Y � N(40; 10) (en Tm), ¿para qué carga han de diseñarse los cimientos, de maneraque la probabilidad de que sea excedida por la carga total sea de 0:01?.

6. Una pala carga camiones. El peso de cada palada es una Va W normal de media

�W = 3 Tm y desviación �W = 0:1 Tm. a) Hallar la proporción de paladas de másde 3:1 Tm b) Cada camión recibe n = 10 paladas, cuyo peso total es

P10i=1Wi.

Calcular el peso w que superan el 1% de los camiones

En los ejercicios siguientes use el Teorema Central del Límite para aproximar las

probabilidades pedidas.

7. Un examen tipo test tiene 30 preguntas, cada una con 5 respuestas posibles. ¿Cuál

debe ser el número de respuestas acertadas para que la probabilidad de que un

ignorante, eligiendo al azar, las obtenga o supere sea del 0:05?

8. (cont. del ejercicio 18 del Capítulo 3) Se lanza 36 veces un dado equiprobable. Sea

S la suma de los puntos obtenidos. Aproxime la probabilidad P (jS � 126j < 30).

9. (cont. de los ejercicios 20 y 21 del Capítulo 3) Hallar aproximadamente la proba-

bilidad de que el pesoP100i=1 Zi de un lote de n = 100 varillas sea mayor que 8016

g.

10. El tiempo de vida de cierta clase de baterías es una Va X con E (X) = 40 h ypV ar (X) = 20 h. Cuando una batería falla se reemplaza. Suponiendo que hay un

stock de 25 baterías, y que sus tiempos de vida Xi son independientes, aproximar

con el TCL la probabilidad de que se consiga superar un tiempo de operación de

1100 h.

11. El tiempo de vida de cierto componente es una Va X con E (X) = 100 h ypV ar(X) = 30 h. El componente es crítico para la operación de un sistema

y debe ser reemplazado inmediatamente cuando falla. ¿cuántos componentes debe

Page 108: Métodos Estadísticos-Félix Míguez Marín [2012]

106 4. MODELOS PRINCIPALES

haber en stock para que la probabilidad de que el sistema esté operativo durante

al menos 10000 h sea del 0:95?

En los ejercicios siguientes use los resultados de la Seccion 4.6

12. Los clientes llegan a una tienda de acuerdo con un proceso de Poisson de tasa 4

por hora. a) Si la tienda abre a las 10 ¿cuál es la probabilidad de que lleguen4 o menos antes de las 11 y 12 o menos antes de las 13? b) ¿Cuál es el tiempoesperado entre llegadas de clientes?

13. (cont. del ejemplo 9) Repita los cálculos para accidentes de nivel 4 o superior

(Chernobil, Three Miles Island, Wind Scale Pille, Fukushima, Kyshtym, Saint

Laurent des Eaux y Tokaimura).

14. Los cristales de cierto mineral aparecen dispersos aleatoriamente en las secciones

de una roca, con una densidad promedio de 7 por dm2: a) ¿probabilidad de que

en una sección de 1 cm2 no se encuentren cristales? b) ¿probabilidad de que enninguna de 10 secciones no solapadas de 1 cm2 se encuentren cristales?

15. Sea un proceso de Poisson en el plano de intensidad �. Situados en un punto arbi-

trario (que podría ser uno del proceso) se mide la distancia X al más próximo del

proceso. Encontrar la densidad de X (obtenga primero la función de distribución:

X � x si en el círculo de radio x hay al menos un punto y tenga en cuenta que elnúmero de puntos N (v) en un conjunto v es de Poisson de parámetros ��area(v)).

En los ejercicios siguientes use la distribución ji-cuadrado

16. (continuación de ejercicio 19 de Capítulo 3) Tomando el valor k = 1:38�10�23 JK�1

y el valor 0:028 kgmol�1 para la masa molecular del nitrógeno la desviación típica

de las componentes de la velocidad de las moléculas de nitrógeno a T = 300K

resultó

� =

�kT

m

�1=2= 298:39m s�1

Ahora (ejemplo 11 de este Capítulo) si V es la rapidez de las moléculas

P (V < v) = P�q

V 2x + V2y + V

2z < v

�= P

�V 2x + V

2y + V

2z < v

2�

= P

V 2x + V

2y + V

2z

�2<v2

�2

!= P

��2 (3) <

v2

�2

Calcule el valor v tal que P (V < v) = 0:95

Page 109: Métodos Estadísticos-Félix Míguez Marín [2012]

4.8. EJERCICIOS PROPUESTOS 107

17. (cont.) ¿Para qué temperatura T es v = 103ms�1?

18. Los errores de posición horizontal X e Y de un GPS son Vas N (0; �) donde �

mide la precisión del GPS. El error radial es Z =pX2 + Y 2 y se prueba que su

distribución (llamada de Rayleigh) es

P (Z < z) = 1� exp��z2=2�2

�z > 0

Si se �jan z y �, para que sea P (Z < z) = � el GPS tiene que tener una precisión

�:

1� exp��z2=2�2

�= �! � =

zp�2 ln (1� �)

En particular el � para queP (Z < 5m) = 0:95 es

P (Z < 5m) = 0:95! � =5p

�2 ln 0:05= 2:0427m

Obtenga el resultado anterior usando la distribución ji-cuadrado de Z2=�2

Page 110: Métodos Estadísticos-Félix Míguez Marín [2012]
Page 111: Métodos Estadísticos-Félix Míguez Marín [2012]

5

Estimación

5.1 El método estadístico

La teoría de probabilidades estudiada en los capítulos anteriores se ha desarrollado

para servir de modelo de las regularidades estadísticas que se pueden observar en las

sucesiones de experimentos aleatorios. Nuestro objetivo ahora es aplicar dicha teoría a

problemas de inferencia estadística.

La ciencia progresa por medio de experimentos. El investigador realiza un experi-

mento y obtiene datos. En base a los datos se extraen conclusiones que se intentan llevar

más allá del experimento particular: a la clase de todos los experimentos similares. Esta

extensión de lo particular a lo general se llama inferencia inductiva, y es como progresa

el conocimiento.

En una inferencia inductiva (concluir sobre el todo desde una parte) nunca puede

haber certeza absoluta. Sin embargo si el experimento se realiza de acuerdo con ciertos

principios es posible medir el grado de incertidumbre en términos de probabilidad. Los

ingredientes que entran en juego son los siguientes:

1. La población es el conjunto de referencia, real o hipotético, que se investiga.

2. Sobre los individuos de la población hay de�nida una función numérica, o variable,y se trata de averiguar cuáles son las proporciones de sus valores, cuál es su valor

medio, ....

3. Para ello se dispondrá de una muestra, es decir, de un subconjunto de individuosde la población elegidos mediante un procedimiento aleatorio determinado.

109

Page 112: Métodos Estadísticos-Félix Míguez Marín [2012]

110 5. ESTIMACIÓN

4. Por medio de los valores de la variable en la muestra se hará una estimación dela magnitud que interesa de la población.

5. Por último, usando argumentos de la teoría de probabilidades será posible medir

el error de la aproximación (lo que se estudiará en el próximo Capítulo).

Ejemplo 1 En un control de calidad la población consiste en el conjunto de las N piezas

de un lote numeroso de las cuales r = Np son defectuosas e interesa averiguar la fracción

desconocida (0 < p < 1) de defectuosas. El procedimiento aleatorio habitual para elegir

la muestra en este caso son n piezas elegidas al azar y sin reemplazamiento y sucomposición es una Va (X1; X2; :::; Xn) donde Xi es la calidad de la i-ésima pieza (1 si

defectuosa y 0 si no). El número de defectuosas que se obtiene es la Va X =Pni=1Xi

con función de masa

P (X = x) =

�r

x

��N � rn� x

��N

n

� 0 � x � min (n; r)

y probaremos más adelante que E (X) = np.

Realizado el experimento resulta la muestra particular (x1; x2; :::; xn) y el total de

defectuosas x =Pni=1 xi. La proporción experimental x=n puede servir para aproximar

la teórica r=N y con mayor seguridad cuanto mayor sea n. El problema será estudiado

con más detalle en 5.12 y veremos en el próximo capítulo cómo es posible medir el errorde la aproximación.

Ejemplo 2 Como se sabe, cada medida de una magnitud física incorpora un erroraleatorio inevitable. La operación de medida se describe por el modelo

X = �+ U

donde � es el valor desconocido que se mide y U es la variable aleatoria error.

Generalmente vale suponer que U � N(0; �) (el error se debe a la adición de un grannúmero de pequeños factores independientes y se aplica el teorema central del límite), de

donde se sigue que X � N(�; �). El que E(U) = 0 indica que las medidas son exactas(no hay error sistemático). Además cuanto menor sea � mayor es la precisión.

En el enfoque estadístico la población en este caso es hipotética e in�nita. Las n

medidas xi (realizadas independientemente en las mismas condiciones experimentales)

Page 113: Métodos Estadísticos-Félix Míguez Marín [2012]

5.2. MUESTRA ALEATORIA SIMPLE 111

son otras tantas observaciones de Vas Xi independientes y con la misma distribución.

Se conviene en una situación como ésta que la población coincide con (o está descrita

por) la variable aleatoria X. La magnitud poblacional a estimar es �, promedio teórico

de X. Y una posible estimación es el promedio experimental de n medidas particulares

independientes (x1; x2; :::; xn):

x =1

n

nXi=1

xi

que converge a E(X) = � si n ! 1. También veremos más adelante cómo acotar elerror de aproximación cualquiera que sea el n utilizado.

En el primer ejemplo la aleatoriedad se introduce deliberadamente, por medio del

muestreo1. En el segundo es intrínseca a la población.

Sea como sea, el resultado es que en cada problema de Estadística tratamos con un

conjunto de variables aleatorias (X1; X2; :::; Xn) que miden el valor de la propiedad de

interés en cada individuo de la población que forma parte de la muestra. Y que con el

valor observado de alguna función adecuada de la muestra realizamos la aproximación.

Es muy importante darse cuenta enseguida de que:

1. en la práctica dispondremos de un n �nito, eventualmente pequeño, lo que hace

imprescindible acotar el error de las aproximaciones.

2. el valor numérico de cada aproximación depende de los valores particulares (x1; x2;

:::xn) y éstos cambian de muestra a muestra (son realizaciones de la variable aleato-

ria (X1; X2; :::; Xn)). Así pues, el valor numérico de cada aproximación es, a su

vez, una realización de una variable aleatoria.

3. estudiando esta variable aleatoria (su esperanza, su varianza, ...) es como se hallará

la solución al problema planteado en el punto 1.

5.2 Muestra aleatoria simple

El problema estadístico más general es el descrito en el ejemplo 2: un experimento

aleatorio en el que se mide una Va X realizado n veces independientemente. La Va

puede ser discreta o continua y su distribución de probabilidades de forma conocida

pero desconocidos sus parámetros, o completamente desconocida.

1Esto es lo que podemos llamar el método estadístico.

Page 114: Métodos Estadísticos-Félix Míguez Marín [2012]

112 5. ESTIMACIÓN

De�nición 1 (muestra aleatoria simple) Sea una variable aleatoria X con densi-

dad, o masa, f(x). Si el experimento en el que se mide X se realiza n veces indepen-

dientemente (o lo que es igual, se realizan n experimentos idénticos e independientes),

se obtienen n variables aleatorias independientes Xi con la misma f (x) que la X. Se

llama muestra aleatoria simple de X a (X1; X2; :::; Xn).

En lo que sigue consideraremos siempre, salvo que se indique lo contrario, este tipo

de muestra. Obsérvese que, en particular, E (Xi) = E (X) y V ar (Xi) = V ar (X).

Una vez realizadas las n observaciones se tienen n números, sea (x1; x2; :::; xn), que

se llaman la muestra, a secas.

Ejemplo 3 En el ejemplo 2 las medidas (X1; X2; :::; Xn) constituyen una muestra aleato-ria de tamaño n de la variable aleatoria X � N(�; �) cuyos parámetros son desconocidos.Cada Xi � N(�; �) y además son independientes.

La muestra (X1; X2; :::; Xn) del ejemplo 1 no es una muestra aleatoria simple, pues

las Vas Xi no son independientes obviamente. Para que lo fuese habría que haber reali-

zado el muestreo con reemplazamiento.

De�nición 2 (estadístico) Sea una muestra aleatoria (X1; X2; :::; Xn) de una Va X:Se llama estadístico a cualquier Va T = g(X1; X2; :::; Xn) de�nida como función de lamuestra y que no incluya ningún parámetro desconocido.

En de�nitiva con cada muestra (x1; x2; :::; xn) se puede calcular el número t =

g(x1; x2; :::; xn): Sin embargo estos números cambian de muestra a muestra: son re-

alizaciones de la Va T , cuya ley de probabilidades depende de la de X, de g y de n.

Ejemplo 4 En el ejemplo 2 cada elemento Xi de la muestra aleatoria (X1; X2; :::; Xn)tiene densidad N (�; �). El estadístico X = 1

n

PXi tiene una densidad también nor-

mal (pues es una combinación lineal de normales independientes; ver proposición 2 del

capítulo 4), de parámetros � y �=pn . Y el número x es el valor del estadístico en la

muestra particular.

Dos estadísticos importantes son la media y la varianza de la muestra, que se de�nen

a continuación.

Page 115: Métodos Estadísticos-Félix Míguez Marín [2012]

5.3. LA MEDIA MUESTRAL 113

5.3 La media muestral

De�nición 3 Sea X cualquiera, con E (X) = � y V ar (X) = �2, y sea (X1; X2; :::; Xn)

una muestra aleatoria. La media muestral es la variable aleatoria

X =1

n

XXi

Proposición 1

E�X�= �

V ar�X�=

�2

n

Demostración. Como la esperanza de una suma es la suma de las esperanzas:

E�X�= E

�1

n

XXi

�=1

n

XE (Xi) = �

Y como la varianza de una suma de variables independientes es la suma de las

varianzas:

V ar�X�= V ar

�1

n

XXi

�=1

n2

XV ar (Xi) =

�2

n

5.4 La varianza muestral

De�nición 4 Sea una muestra (X1; X2; :::Xn) de una variable aleatoria X cualquiera,

con E(X) = � y V ar(X) = �2. La varianza muestral es la variable aleatoria

S2 =1

n� 1

nXi=1

�Xi �X

�2La desviación típica muestral es

S =

vuut 1

n� 1

nXi=1

�Xi �X

�2

Page 116: Métodos Estadísticos-Félix Míguez Marín [2012]

114 5. ESTIMACIÓN

Proposición 2

E�S2�= �2

V ar(S2) =E�(X � �)4

�n

� n� 3n(n� 1)�

4

Demostración. Probaremos sólo la primera. Como la esperanza de una suma es lasuma de las esperanzas

E�S2�=

1

n� 1

nXi=1

E��Xi �X

�2�=

1

n� 1

nXi=1

V ar�Xi �X

�pues

E�Xi �X

�= 0

Ahora (varianza de una combinación lineal de variables independientes):

V ar

�Xi �

1

n

XXj

�= V ar

0@n� 1n

Xi �1

n

Xj 6=i

Xj

1A=

�n� 1n

�2�2 +

n� 1n2

�2

y resulta �nalmente:

E(S2) =n

n� 1

"�n� 1n

�2�2 +

n� 1n2

�2

#= �2

y este resultado aclara la elección del denominador n� 1 en la de�nición de S2.

Page 117: Métodos Estadísticos-Félix Míguez Marín [2012]

5.5. CONVERGENCIA EN PROBABILIDAD 115

5.4.1 Cálculo de la varianza muestral

Una expresión alternativa que puede ser útil para el cálculo de la varianza muestral

es

1

n� 1

nXi=1

�Xi �X

�2=

1

n� 1

"nXi=1

X2i + n

�X�2 � 2X nX

i=1

Xi

#

=1

n� 1

"nXi=1

X2i � n

�X�2#

=1

n� 1

"nXi=1

X2i �

1

n

�XXi

�2#

aunque puede dar lugar a resultados erroneos si los dos números de la última diferencia

son muy grandes y desbordan la precisión del programa que se utiliza.

5.4.2 Caso particular

Si X sólo toma los valores 0 ó 1 con P (X = 1) = p y P (X = 0) = 1 � p, (Xrepresenta la frecuencia relativa de unos en la muestra con E

�X�= E (X) = p), como

en este caso Xi = X2i

nXi=1

X2i =

nXi=1

Xi = nX

la varianza muestral se puede escribir:

S2 =1

n� 1

nXi=1

�Xi �X

�2=

1

n� 1

"nXi=1

X2i � n

�X�2#

=1

n� 1

hnX � n

�X�2i

=n

n� 1X�1�X

5.5 Convergencia en Probabilidad

Para cualquier Va Z con esperanza E (Z) y varianza V ar (Z) la acotación de Tcheby-

chev es (ver 3.7):

P (jZ � E (Z)j < ") � 1� V ar (Z)"2

8" > 0

Page 118: Métodos Estadísticos-Félix Míguez Marín [2012]

116 5. ESTIMACIÓN

Apliquémoslo en particular a la Va X, para la que hemos hallado que

E�X�= �

V ar�X�=

�2

n

donde con � y �2 hemos denotado la esperanza y varianza de la población X muestreada:

P���X � �

�� < "� � 1� �2

n"28" > 0

y entonces

limn!1

P���X � �

�� < "� = 1 8" > 0

resultado que se enuncia: la sucesión de medias muestrales converge en probabilidad2

a �. Aclara el comportamiento empírico de los valores de X y justi�ca su uso en la

aproximación de �.

Ejemplo 5 Si X sde Bernoulli de parámetro p entonces X representa la frecuencia

relativa de unos en la muestra con E�X�= E (X) = p, y V ar

�X�= V ar (X) =n =

p (1� p) =n.

P���X � p

�� < "� � 1� p (1� p)n"2

8" > 0

y por lo tanto

limn!1

P���X � p

�� < "� = 1 8" > 0

que aclara el comportamiento empírico de la frecuencia relativa como aproximación de

una probabilidad.

La clave del resultado anterior es que

limn!1

V ar�X�= limn!1

�2

n= 0

y puede generalizarse a cualquier estadístico cuya varianza tienda a cero cuando el

tamaño de muestra aumenta: entonces el estadístico converge a una constante.

Otro ejemplo es el de la varianza muestral S2, para la cual E�S2�= �2 y V ar

�S2�!

0 si n!1. Así que

limn!1

P���S2 � �2�� < "� = 1 8" > 0

2Como se comentó en 3.2, la Ley fuerte de los grandes números de Borel y Kolmogorov asegura queP�limn!1X = �

�= 1, lo que implica ya la convergencia en probabilidad.

Page 119: Métodos Estadísticos-Félix Míguez Marín [2012]

5.6. ESTIMADORES 117

y la sucesión de varianzas muestrales converge en probabilidad a V ar(X) = �2, lo

que justi�ca el uso de S2 para la aproximación experimental de �2.

Teorema 1 (de la aplicación continua) se prueba que si g es continua y la sucesiónde Vas Zn converge a c en probabilidad, entonces la sucesión g(Zn) converge a g(c) en

probabilidad.

Ejemplo 6 cualquiera que sea X la desviación típica de la muestra

S =

vuut 1

n� 1

nXi=1

�Xi �X

�2converge en probabilidad a la desviación típica teórica de la variable muestreada � =pV ar (X).

Ejemplo 7 El tiempo de vida X de un núcleo radioactivo tiene densidad exponencial

f (x) = � exp(��x) x > 0

y como X = 1n

Pni=1Xi converge en probabilidad a E (X) = 1=� (vida media teórica de

un núcleo), entonces1

X=

nPni=1Xi

converge en probabilidad a � (número promedio de núcleos que decaen en la unidad de

tiempo).

5.6 Estimadores

Sea una Va X en estudio, cuya ley de probabilidades (masa o densidad) suponemos

de forma conocida pero desconocido alguno de sus parámetros � (p si binomial; � y � si

normal,.. etc.) y denotaremos3 f(x j �). Nos interesa hallar, a partir de una muestra deobservaciones de X, un valor aproximado de �.

De�nición 5 Sea (X1; X2; :::; Xn) una muestra aleatoria de X. Un estimador pun-tual de � es un estadístico T = g(X1; X2; :::; Xn) cuyo valor en una muestra se usará

como aproximación de �. La Va T � � es el error de estimación. Cada valor particu-lar t = g(x1; x2; :::; xn) se llama una estimación de � y con ella se cometerá un errort� � de valor desconocido.

3La notación no debe entenderse como condicional: sólo enfatiza que depende del parámetro.

Page 120: Métodos Estadísticos-Félix Míguez Marín [2012]

118 5. ESTIMACIÓN

El problema de la estimación puntual de un parámetro consiste en elegir el estimador

que mejor aproxime, en un sentido a precisar, el valor desconocido de �. En general,cuanto más concentrada esté la ley de probabilidades del error T � � en torno a cero (esdecir, la de T en torno a �) mejor será el estimador. A este propósito estudiamos ahora

algunas propiedades que nos ayuden en la elección. Por último estudiaremos métodos

de construcción de estimadores.

5.7 Sesgo de un estimador

De�nición 6 El estimador T es insesgado para el parámetro � si E (T � �) = 0, lo

que equivale a E(T ) = �.

Cuando E (T � �) = b, es decir E(T ) = �+b, el estimador es sesgado, y la cantidadb se llama el sesgo.

Ejemplo 8 Cualquiera que sea la ley f de X, los estimadores X y S2 son siempre

insesgados para E(X) y V ar(X) respectivamente (interpretando ahora éstos como los

�parámetros�a estimar).

Ejemplo 9 En particular: Si X es de Bernoulli, es decir, con función de masa f (x) =

px (1� p)1�x para x 2 f0; 1g, X es insesgado para E(X) = p. Si X tiene densidad

exponencial de parámetro � entonces X es insesgado para E(X) = 1=�. Si X tiene

densidad normal de parámetros � y �, entonces X es insesgado para E(X) = � y S2

para V ar(X) = �2.

Si el estimador tiene sesgo positivo (negativo) las estimaciones sobreestiman (infraes-

timan) en promedio el valor del parámetro.

No siempre existen estimadores insesgados para un parámetro, y cuando existen no

tienen por qué ser únicos.

Ejemplo 10 Si T1 y T2 son insesgados para �, también lo son T = �T1 + (1 � �)T2,8� 2 R, pues

E (T ) = �E (T1) + (1� �)E (T2)

= �� + (1� �) � = �

En ocasiones se buscará un estimador para una función h (�) de �, por ejemplo �2 óp�. Si T es insesgado para �, en general h(T ) no lo es para h(�).

Page 121: Métodos Estadísticos-Félix Míguez Marín [2012]

5.7. SESGO DE UN ESTIMADOR 119

Ejemplo 11 Cualquiera que sea X con E(X) = � y V ar(X) = �2, aunque X es inses-

gado para � sin embargo�X�2es sesgado para �2, pues

E��X�2�

=�E�X��2

+ V ar�X�

= �2 +�2

n

y el sesgo vale �2=n. Un estimador insesgado de �2 es evidentemente

�X�2 � S2

n

Ejemplo 12 Cualquiera que sea X el estimador S2 es insesgado para V ar(X) = �2.

Pero S (la desviación típica de la muestra) es sesgado para � (la desviación típica de

X). De:

V ar (S) = E�S2�� (E (S))2 > 0

resulta

(E (S))2 < E�S2�

y entonces

E (S) <pE (S2) = �

Ejemplo 13 Si X tiene densidad exponencial de parámetro �

f (x) = � exp (��x) x > 0

entonces X es insesgado para E(X) = 1=�, pero 1=X es sesgado para �. Efectivamente,

se prueba que en este caso

E

�1

X

�=

n

n� 1�

Un estimador insesgado de � es entoncesn� 1n

1

X.

De�nición 7 La sucesión de estimadores Tn es insesgada en el límite para � si:

limn�!1

E(Tn) = �

Ejemplo 14 Cualquiera que sea X con E(X) = � y V ar(X) = �2 el estimador�X�2

Page 122: Métodos Estadísticos-Félix Míguez Marín [2012]

120 5. ESTIMACIÓN

es insesgado en el límite para �2, pues

E��X�2�

= �2 +�2

n! �2 cuando n!1

5.8 Varianza de un estimador

La propiedad de ser insesgado no es determinante, por si sóla, para la elección de

un estimador: expresa la ausencia de errores sistemáticos. Sin embargo, la magnitud de

los valores particulares del error T � � pudiera ser excesiva. Una medida promedio dedicha magnitud es la siguiente.

De�nición 8 Se llama error cuadrático medio del estimador T a:

E�(T � �)2

�= V ar(T � �) + (E(T � �))2

= V ar(T ) + b2

Cuando el estimador es insesgado tal cantidad es V ar(T ).

Ante un estimador insesgado de gran error cuadrático y otro ligeramente sesgado de

pequeño error cuadrático pudiera ser preferible el segundo: a la larga las estimaciones

estarían más concentradas en un entorno de �.

Ante dos estimadores insesgados se preferirá el de menor varianza. Sin embargo, a

tamaño de muestra n �jado, hay una cota inferior para la varianza de los estimadores

insesgados de un parámetro:

Teorema 2 (Cota de Fréchet-Cramér-Rao) Sea X con densidad o masa f(x j �)tal que el conjunto C = fx 2 R : f(x j �) > 0g (es decir, el conjunto de valores posibles,o recorrido, de X) es independiente de �. Sea T cualquier estimador insesgado de m (�),

es decir, E (T ) = m (�). Entonces

V ar (T ) � (m0 (�))2

nI (�)

donde

I(�) = E

�@

@�ln f(X j �)

�2!

Demostración. Ver Complementos.

Page 123: Métodos Estadísticos-Félix Míguez Marín [2012]

5.8. VARIANZA DE UN ESTIMADOR 121

Corolario 1 Si T es insesgado de �, es decir m (�) = �, queda

V ar(T ) � 1

nI(�)

Nota: una expresión alternativa es

I(�) = �E�@2

@�2ln f(X j �)

Observar que f(X j �) es la Va que resulta de transformar la X con la función f . Se

llama a nI (�) la cantidad de información (de Fisher) en la muestra (X1; X2:::; Xn)para el parámetro �.

Proposición 3 Si existe un estimador insesgado cuya varianza alcance la cota se pruebaque es único, y se llama e�ciente.

Demostración. ver Complementos.

Ejemplo 15 Estudiemos la cota para los estimadores insesgados de � cuando X es

N(�; �).

f(x j �) =1

�p2�exp

"�12

�x� ��

�2#

ln f(x j �) = � ln��p2��� 12

�x� ��

�2@

@�ln f(x j �) =

x� ��2

I(�) = E

�X � ��2

�2!=1

�4

�E (X � �)2

�=1

�2

y la varianza de cualquier estimador T insesgado de �, es V ar(T ) � �2=n. Resulta asíque X, insesgado de E(X) = � y cuya varianza es V ar(X)=n = �2=n, alcanza la cota

cuando X es normal.

Ejemplo 16 Estudiemos la cota para los estimadores insesgados de p cuando X es de

Page 124: Métodos Estadísticos-Félix Míguez Marín [2012]

122 5. ESTIMACIÓN

Bernoulli.

f(x j p) = px(1� p)1�x x = 0; 1

ln f(x j p) = x ln p+ (1� x) ln(1� p)@

@pln f(x j p) =

x

p� (1� x)

1� p =x� pp (1� p)

I (p) = E

�@

@pln f(X)

�2!=E�(X � p)2

�[p (1� p)]2

=V ar (X)

[p (1� p)]2=

p (1� p)[p (1� p)]2

=1

p (1� p)

y la varianza de cualquier estimador T insesgado de p es V ar (T ) � p(1� p)=n. Resultaasí que X, insesgado de E (X) = p y cuya varianza es V ar (X) =n = p (1� p) =n, alcanzala cota cuando X es de Bernoulli.

5.9 Estimadores consistentes

De�nición 9 La sucesión de estimadores Tn es consistente para � si converge en pro-babilidad a �, es decir:

limn�!1

P (jTn � �j < ") = 1 8" > 0

Una condición su�ciente para ello es que E(Tn)! � y V ar(Tn)! 0 cuando n!1.

Ejemplo 17 X es consistente para E(X) = � cualquiera que sea X. Pues E�X�= �

y V ar�X�= �2=n! 0

Ejemplo 18 En particular, si X es de Bernoulli entonces X (la frecuencia relativa) es

consistente para la probabilidad p.

Ejemplo 19 S2 es consistente para V ar(X) = �2 cualquiera que sea X. Pues E(S2) =�2 y V ar(S2)! 0 si n!1.

Ejemplo 20 (cont. del 13) Si X tiene densidad exponencial de parámetro � entonces

T =n� 1n

1

Xes insesgado para �. Se prueba que

V ar

�1

X

�=

n2

(n� 1)2 (n� 2)�2

Page 125: Métodos Estadísticos-Félix Míguez Marín [2012]

5.10. EL MÉTODO DE MÁXIMA VEROSIMILITUD 123

y entonces

V ar

�n� 1n

1

X

�=

�2

n� 2

y resulta que el estimador T es consistente para �.

5.10 El método de máxima verosimilitud

Sea una Va X con densidad o masa f(x j �) de forma conocida, que depende de unparámetro desconocido � 2 � � R, y sea x = (x1; x2; :::; xn) la muestra observada. Ladensidad o masa de probabilidad que le corresponde es (por la independencia)

f(x j �) =Yf(xi j �)

aunque no podemos calcular su valor pues desconocemos el de �. Desde el punto de vista

del problema de estimación la consideraremos como una función de � en la que los xi de

la muestra son números �jados.

De�nición 10 Se llama función de verosimilitud a la función

L(� j x) =Yf(xi j �) � 2 �

De�nición 11 El metodo de máxima verosimilitud 4 (abrev. MV) consiste en elegir

como estimación de �, el b� 2 � tal que

L�b� j x� = max

�2�L(� j x1; x2; :::; xn)

Intuitivamente el método elige como estimación el valor del parámetro que da mayor

probabilidad a la muestra observada. Como es natural el valor de la estimación depende

de los números de la muestra b� � b� (x)En el muestreo resulta un estimador b� (X), donde X = (X1; X2; :::; Xn), llamado

de MV y cuyas propiedades estudiaremos en una sección posterior.

Ejemplo 21 Sea una Va de Bernoulli, es decir con función de masa f (x j p) = px (1� p)1�x

para x = f0; 1g y donde p 2 (0; 1). Si se ha obtenido la muestra x =(1110101110),

su probabilidad es L (p j x) = [f (1 j p)]7 [f (0 j p)]3 = p7 (1� p)3, que es máxima parabp = 0:74En inglés maximum likelihood

Page 126: Métodos Estadísticos-Félix Míguez Marín [2012]

124 5. ESTIMACIÓN

0 0.2 0.4 0.6 0.7 0.8 10

0.5

1

1.5

2

2.5x 10­3

p

L(p)

probabilidad del resultado observado para diferentes valores de p

Ejemplo 22 Sea X con densidad uniforme f(x j �) = 1=� (0 < x < �). La verosimilitudes L(� j x) = (1=�)n y alcanza su máximo cuando � es mínimo. Pero � no puede ser

menor que la mayor observación de la muestra, así que b� (x) = max(x1; x2; :::; xn).En la práctica, al estar de�nida L como un producto, suele ser más cómodo maximizar

lnL, ya que al ser el logaritmo una función monótona, alcanza sus valores extremos en

los mismos puntos que L, es decir

L (�1 j x) < L (�2 j x) =) lnL (�1 j x) < lnL (�2 j x)

por lo tanto

lnL�b� j x� = max

�2�lnL(� j x1; x2; :::; xn)

Si L es diferenciable, el máximo, si existe, será una solución b� de@

@�lnL(� j x) = 0

Page 127: Métodos Estadísticos-Félix Míguez Marín [2012]

5.10. EL MÉTODO DE MÁXIMA VEROSIMILITUD 125

si además �@2

@�2lnL(� j x)

��=b� < 0

Ejemplo 23 Si X es de Bernoulli, con función de masa f (x j p) = px (1� p)1�x parax 2 f0; 1g, y p 2 (0; 1)

L(p j x) =Ypxi(1� p)1�xi

= pPxi(1� p)n�

Pxi

lnL(p j x) =X

xi ln p+�n�

Xxi

�ln(1� p)

@

@plnL(p j x) =

1

p

Xxi �

1

1� p

�n�

Xxi

�=

nx

p� n (1� x)

1� p = 0

Si x = 0 ó x = 1 (si todos los xi fuesen iguales a 0 ó a 1, lo que no es imposible) no hay

solución. En otro caso la solución es

bp = x(frecuencia relativa de �éxitos� en la muestra) que corresponde a un máximo, pues

@2

@p2lnL = �nx

p2� n (1� x)(1� p)2

< 0 8p

El estimador es bp (X) = X.Ejemplo 24 Sea X con densidad exponencial f (x j �) = � exp (��x) para x > 0 (con� > 0). Obtengamos el estimador MV de �.

L(� j x) =Y� exp (��xi)

= �n exp���X

xi

�d lnL (� j x)

d�=n

��X

xi = 0

cuya solución es b� = nPxi=1

x

Page 128: Métodos Estadísticos-Félix Míguez Marín [2012]

126 5. ESTIMACIÓN

que corresponde a un máximo pues

d2 lnL (�)

d�2= � n

�2< 0 8�

El estimador es b� (X) = 1=X, que es sesgado (ejemplo 13).Teorema 3 (invariación) Sea una función cualquiera h : � �! R. Si b� (X) es elestimador MV de �, entonces h(b� (X)) lo es de h(�).Ejemplo 25 Si X es de Bernoulli el estimador MV de E (X) = p es X. Entonces el

de V ar(X) = p(1� p) es X(1�X).Mientras que X es insesgado para p, X(1�X) es sesgado para p (1� p):

E�X(1�X)

�=n� 1n

p (1� p)

y el sesgo vale �p (1� p) =n.

Ejemplo 26 Si X tiene densidad exponencial de parámetro �, el estimador MV de �

es 1=X y el de E (X) = 1=� es X.

Mientras que X es insesgado para 1=�, 1=X es sesgado para 1=�.

En los ejemplos se ve que los estimadores MV no tienen por qué ser insesgados ni

e�ciente, aunque se prueba que el estimador e�ciente, si existe, coincide con el de máxima

verosimilitud. Sin embargo tienen buenas propiedades asintóticas (para tamaños de

muestra grandes) que se resumen en el siguiente:

Teorema 4 Sea b� (X) el estimador MV del parámetro � para un tamaño de muestra

n. En condiciones muy generales el estimador es consistente. Además la función de

distribución de b� (X)� �r1

nI(�)

converge, cuando n �!1, a la N(0; 1).El resultado anterior vale aún si se sustituye (estima) I(�) por I(b� (X)).

Ejemplo 27 Si X es de Bernoulli el estimador MV de p es bp (X) = X y I (p) =

[p(1� p)]�1. Entonces:

X � ppp(1� p)=n

�! N(0; 1) si n �!1

Page 129: Métodos Estadísticos-Félix Míguez Marín [2012]

5.10. EL MÉTODO DE MÁXIMA VEROSIMILITUD 127

Y aún, como I(bp (X)) = �X(1�X)��1:X � pq

X(1�X)=n�! N(0; 1) si n �!1

5.10.1 Generalización

Si la densidad o masa f(x j �) de X depende de un número �nito de parámetros

desconocidos � = (�1; �2; :::; �k) 2 � � Rk se ha de hallar el b� 2 � tal queL�b� j x� = max

�2�L(� j x)

Si L es diferenciable, el máximo, si existe, satisfará el sistema de ecuaciones (que

puede no ser lineal y debe resolverse numéricamente):

@

@�jlnL(� j x) = 0 j = 1; 2; :::; k

Una solución b� de dicho sistema corresponderá a un máximo si la matriz hessianaH =

�@2

@�i@�jlnL(� j x)

�k�k

particularizada en � =b� es de�nida negativa.

Ejemplo 28 Sea X normal N(�; �) siendo ambos parámetros desconocidos.

L(�; �) =1�

�p2��n exp �� 1

2�2

X(xi � �)2

�lnL(�; �) = �n ln� � n ln

p2� � 1

2�2

X(xi � �)2

igualando a cero la derivadas primeras resulta el sistema

@

@�lnL =

1

�2

X(xi � �) = 0

@

@�lnL = �n

�+1

�3

X(xi � �)2 = 0

Page 130: Métodos Estadísticos-Félix Míguez Marín [2012]

128 5. ESTIMACIÓN

con solución

b� = x

b� =

r1

n

X(xi � x)2

Para comprobar que corresponde a un máximo formamos la matriz hessiana

H =

0BB@@2

@�2lnL

@2

@�@�lnL

@2

@�@�lnL

@2

@�2lnL

1CCA =

0B@ � n�2

�2P(xi � �)�3

�2P(xi � �)�3

1

�2

�n� 3

�2P(xi � �)2

�1CA

y particularizando (�; �) en (b�; b�):H =

0BB@�n2P(xi � x)2

0

0�2n2P(xi � x)2

1CCAy como h11 < 0 y detH > 0 (una matriz es de�nida negativa si los menores principales

alternan en signo, con signo negativo si la dimensión es impar y positivo si par) la

solución corresponde a un máximo.

Los estimadores son X (insesgado) yq

1n

P(Xi �X)2 (sesgado).

Teorema 5 (invariación) Sea � = (�1; :::; �k) 2 � y una función cualquiera h : � �!Rj (1 � j � k). Si b� (X) es el estimador MV de �, entonces h(b� (X)) lo es de h(�).

Hay una generalización del Teorema 4 que no vamos a estudiar aquí.

5.11 El método de los momentos

Se llama a E�Xi�el momento teórico de orden i de la VaX. Por brevedad usaremos

la notación mi � E�Xi�. En particular m1 � E (X).

Y si (X1; X2; :::; Xn) es una muestra aleatoria de X se llama a

Ai =1

n

nXj=1

(Xj)i

el momento muestral de orden i. En particular A1 = X.

Page 131: Métodos Estadísticos-Félix Míguez Marín [2012]

5.11. EL MÉTODO DE LOS MOMENTOS 129

Los momentos muestrales Ai son insesgados y consistentes para los teóricos mi. Es

decir, E(Ai) = mi y se prueba que V ar(Ai) = (m2i �m2i )=n! 0 si n!1.

El método de los momentos para obtener un estimador b� (X) de un parámetro �es muy simple: el estimador es la solución obtenida (supuesto que exista) igualando

momentos muestrales a poblacionales.

Si sólo hay un parámetro � :

1. se calcula E (X) = g (�)

2. se resuelve � = g�1 (E (X))

3. se hace b� (X) = g�1 �X�Ejemplo 29 Si X tiene densidad f (x) = � exp (��x) entonces E (X) = 1=� y re-

solviendo se obtiene � = 1=E (X) y �nalmente b� (X) = 1=X.Si hay k parámetros � = (�1; �2; ::�k)

1. se calculan k momentos mi = gi (�) (i = 1; 2; ::k)

2. se resuelven (supuesta solución única) �i = hi (m1;m2; :::mk)

3. lo que resulta en b�i (X) = hi(A1; A2; :::; Ak)Puede probarse entonces que si h : Rk �! R es una función continua, entonces b� (X)

es un estimador consistente, con distribución asintóticamente normal.

Ejemplo 30 Sea X cualquiera, con E(X) = � y V ar(X) = �2. Entonces b� (X) = X.Y como �2 = V ar(X) = E(X2) � (E(X))2, entonces c�2 (X) = n�1

P(Xi)

2 � (X)2 =n�1

P(Xi �X)2.

Ejemplo 31 Si X tiene densidad uniforme en (a; b) es E(X) = (a+ b)=2 y V ar(X) =

(b � a)2=12. De aquí resulta que a = E(X) �p3V ar(X) y b = E(X) +

p3V ar(X).

Entonces:

ba (X) = X �r3

n

X(Xi �X)2

bb (X) = X +

r3

n

X(Xi �X)2

Page 132: Métodos Estadísticos-Félix Míguez Marín [2012]

130 5. ESTIMACIÓN

Estos estimadores pueden servir también para tener un valor inicial en la búsqueda del

estimador de máxima verosimilitud cuando el problema de optimización ha de resolverse

por métodos numéricos

5.12 Muestreo sin reemplazamiento

Cuando se muestrea una población �nita de tamaño N el muestreo suele hacerse

sin reemplazamiento lo que resulta en que la muestra (X1; X2; :::; Xn) no es simple: sus

elementos Xi no son independientes y, en general, no tienen igual distribución.

Sea como sea todas las de�niciones y principios de estimación que se han estudiado

antes siguen vigentes y lo único que cambia es el modo de calcularlos, que era muy

sencillo y general cuando las Xi eran independientes y con idéntica distribución, y que

ahora hay que resolver cada vez.

Ejemplo 32 (Control de calidad) Cada una de las N piezas de un lote numeroso

es defectuosa o no (anotado con 1 y 0 respectivamente). En total hay r = Np son

defectuosas e interesa averiguar la fracción desconocida (0 < p < 1) de defectuosas. Se

eligen n piezas al azar y sin reemplazamiento resultando la muestra (X1; X2; :::; Xn)donde Xi es la calidad de la i-ésima pieza.

Obviamente la Xi no son independientes. Sin embargo sus distribuciones marginales

son idénticas.

P (X1 = 1) = p

P (X2 = 1) = P (X2 = 1 j X1 = 0)P (X1 = 0) + P (X2 = 1 j X1 = 1)P (X1 = 1)

=r

N � 1N � rN

+r � 1N � 1

r

N

=Nr � r(N � 1)N =

r

N= p

y por inducción P (Xi = 1) = p.

Consideremos el estadístico X =Pni=1Xi, número total de defectuosas obtenidas.

Entonces

E (X) =X

E (Xi) = np

(como en la binomial), aunque las Xi no son independientes.

Page 133: Métodos Estadísticos-Félix Míguez Marín [2012]

5.12. MUESTREO SIN REEMPLAZAMIENTO 131

Por lo tanto un estimador insesgado de p es la proporción experimental

bp = X

n

y un estimador insesgado de r es br = X

nN

Por su parte la estimación MV de r es el entero br que maximizaP (X = x) =

�r

x

��N � rn� x

��N

n

� 0 � x � min(n; r)

es decir que maximiza �r

x

��N � rn� x

�y se prueba que resulta como estimador el mayor entero menor o igual que

X

n(N + 1)

que es sesgado.

Las varianzas de dichos estimadores se calculan a partir de que

V ar (X) = np (1� p)�1� n� 1

N � 1

�que además si n� N vale aproximadamente np (1� p).

Ejemplo 33 (El problema de los tanques alemanes) Consideremos una poblacióncuyo tamaño N (número de elementos) es desconocido y ha de ser estimado. Suponemos

además que cada individuo está identi�cado por un número, desde el 1 hasta el N . Se

eligen n individuos al azar y sin reemplazamiento (X1; X2; :::; Xn). Cada Xi es el número

de identi�cación del individuo seleccionado.

Como en el anterior ejemplo, obviamente la Xi no son independientes y sin embargo

sus distribuciones marginales son idénticas.

P (X1 = k) =1

Nk = 1; 2; :::N

Page 134: Métodos Estadísticos-Félix Míguez Marín [2012]

132 5. ESTIMACIÓN

P (X2 = k) =

NXj=1

P (X2 = k j X1 = j)P (Y1 = j)

=NXj=1j 6=k

P (X2 = k j X1 = j)P (X1 = j)

=NXj=1j 6=k

1

N � 11

N=1

N

y por inducción P (Xi = k) = 1=N .

Consideremos el estadístico X(n) = max (X1; X2; :::; Xn). Se prueba (ver Comple-

mentos) que

E�X(n)

�= n

N + 1

n+ 1

y entonces un estimador insesgado de N es

bN =n+ 1

nX(n) � 1

Se prueba además que su varianza (mínima) es

V ar� bN� = 1

n

(N � n) (N + 1)

n+ 2

Puede probarse que el estimador MV de n es X(n) y por lo tanto es sesgado.

El problema se conoce en la literatura estadística como el problema de los tanquesalemanes debido a su aplicación para estimar cuántos estaban produciendo durante lasegunda guerra mundial:

Según las informaciones del espionaje aliado los alemanes estaban produciendo unos

1400 tanques al mes entre junio de 1940 y septiembre de 1942. Sin embargo usando el

estimador bN con los números de serie de las cajas de cambio de los tanques capturados

o destruidos el número estimado era 256 al mes. Después de la guerra, cuando se

obtuvieron los datos reales de producción, el número resultó ser 255 (los soviéticos habían

llegado por su parte a una estimación similar).

Page 135: Métodos Estadísticos-Félix Míguez Marín [2012]

5.13. EJERCICIOS PROPUESTOS 133

5.13 Ejercicios propuestos

1. Xm y Xn son las medias de muestras independientes de tamaños m y n de una Va

X. Construya con ellas la media de la muestra total de tamaño m+ n.

2. Calcule la esperanza del estadístico

S20 =1

n

nXi=1

�Xi �X

�23. En la muestra (x1; x2; :::; xn) de la Va discreta X han aparecido los valores distintos

(a1; a2; :::; ak) cada uno repetido (n1; n2; :::; nk) veces respectivamente (obviamentePki=1 ni = n). Expresar x y s

2 por medio de la muestra agrupada.

4. El número de defectos en probetas de 1 cm2 de cierta aleación es una variable

aleatoria X. Se examinan 20 probetas en busca de defectos, con los resultados

defectos 0 1 2 3 4 5 6

probetas 4 3 5 2 4 1 1 = 20

a) calcule la media y la desviación típica de la muestra. b) en otra muestra de 10probetas resultó x = 1:4 defectos/cm2. calcule la media de la muestra total de 30

probetas.

5. Cada medida del radio r de un círculo es de la forma X = r + U , donde U es la

variable aleatoria error de medida, con E(U) = 0 y V ar(U) = �2 desconocida.

Entonces un estimador insesgado de r es X, construido a partir de n medidas

independientes. a) Comprobar que X2es sesgado para r2. b) Construir a partir

de él un estimador insesgado del área del círculo.

6. Sean T1 y T2 estimadores independientes insesgados de �. Entonces (ver ejemplo

10) T = �T1 + (1� �)T2 es también insesgado 8�. Hallar � para que V ar (T )sea mínima si V ar (T1) = �21 y V ar (T2) = �22 (los estimadores tienen diferente

precisión).

7. (cont.) Particularice para el caso en que T1 � Xm y T2 � Xn (medias muestrales

de tamaños m y n de una población X con E (X) = � y V ar (X) = �2.

8. La resistencia a la rotura de cierto tipo de cables de acero, expresada en Kg, se

supone que es una VA X � N(�; �): Una muestra de 5 cables ha dado los valores(533; 552; 539; 564; 541). Obtener las estimaciones de MV de � y �.

Page 136: Métodos Estadísticos-Félix Míguez Marín [2012]

134 5. ESTIMACIÓN

9. Sean Xi variables aleatorias uniformes en (0; �=2). Comprobar que

bI (X) = �

2n

nXi=1

sinXi

es un estimador insesgado de

I =

Z �=2

0sinxdx

10. Sea una Va X geométrica de parámetro p. Su función de masa es

f(x) = (1� p)x�1p x = 1; 2; :::

y se prueba que E(X) = p�1. Hallar los estimadores MV de p y de E(X) a partir

de una muestra de tamaño n.

11. Sea una Va X de Poisson de parámetro �. Su función de masa es

f(x) = e���x

x!x = 0; 1; :::

y se prueba que E(X) = V ar(X) = �. Hallar el estimador MV de � con una

muestra de tamaño n y comprobar que su varianza alcanza la cota FCR.

12. En cierto proceso industrial el número de paradas mensuales por avería es una Va

de Poisson de parámetro �. Si X representa el número de paradas en un mes, el

coste provocado es C = 3X + X2. Hallar el estimador MV del coste promedio

E (C) a partir de n observaciones independientes de X, comprobar que es sesgado

y corregirlo para que sea insesgado.

13. Si X tiene densidad exponencial f(x) = � exp(��x) si x > 0, el estimador MV deE(X) = 1=� con una muestra de tamaño n es X. Obtenga el estimador MV de

V ar(X) = 1=�2, compruebe que es sesgado y corrija su sesgo.

14. La variable X tiene una función de distribución F (x) = 1 � exp�� x2

2�2

�x >

0 (de Rayleigh) y su esperanza es E (X) = �p

�2 . a) Halle la estimación de

máxima verosimilitud de � con una muestra (x1; x2; :::; xn) : b) halle la estimaciónde máxima verosimilitud de E (X) c) halle la estimaciones de � y E (X) por elmétodo de los momentos d) Calcule las estimaciones anteriores con la muestra(2.5, 3.5, 2.1, 5.6, 2.2, 2.6, 3.1, 4.5, 3.5, 1.4).

Page 137: Métodos Estadísticos-Félix Míguez Marín [2012]

5.13. EJERCICIOS PROPUESTOS 135

15. Una Va gamma de parámetros � y � tiene densidad

f(x) =��

�(�)x��1e��x x > 0

y su esperanza y varianza son

E(X) =�

V ar(X) =�

�2

No hay un solución explícita para las estimaciones MV de los parámetros, que

deben obtenerse numéricamente. Estime los parámetros por el método de los

momentos a partir de la muestra (22.60, 8.59, 28.91, 10.96, 10.63, 14.33, 23.06,

12.66, 15.05, 11.14, 19.50, 9.95).

16. Invariación funcional Sea X con densidad f (x j �) y sea Y = g (X) con g

monótona y que no depende de �. Entonces (ver 2.11.1 fórmula (2.19))

fY (y j �) =����g�1�0 (y)��� fX(g�1(y) j �)

y resulta que la función de verosimilitud de Y sólo se diferencia de la de X por el

factor����g�1�0 (y)���: la estimación de MV de � es la misma con la muestra de X que

con la de Y .

Si Y � LN(�; �) (lognormal de parámetros � y �), es decir X = lnY � N(�; �).La densidad de Y es

f(y) =1

y�p2�exp

�(ln y � �)

2

2�2

!y > 0

y se prueba que

E(Y ) = exp(�+ �2=2)

V ar(Y ) = exp(2�+ �2)(exp�2 � 1)

Halle los estimadores MV de E (Y ) y V ar (Y ) a partir de una muestra (Y1; Y2; :::; Yn)

aplicando las propiedades de invariación anterior y teorema 5.

17. El control de recepción de ciertas piezas se realiza clasi�candolas en pequeñas,

normales y grandes, siendo las proporciones aceptables en cada caso p1 = p3 =

Page 138: Métodos Estadísticos-Félix Míguez Marín [2012]

136 5. ESTIMACIÓN

0:025; p2 = 0:95 . Se sospecha que estas proporciones pueden haber cambiado en

la forma p1 = p3 = 0:025 + !, p2 = 0:95 � 2!. Se decide analizar 5000 piezasobteniendose x1 = 278, x2 = 4428 y x3 = 294. Obtener la estimación MV de !.

(sugerencia: maximice la probabilidad de la muestra observada).

18. La duraciónX, en horas, de ciertos componentes sigue una densidad exponencial de

parámetro �. De una muestra aleatoria de 10 componentes se sabe que 6 duraron

menos de 85 h y 4 más. a) Obtener la estimación MV de la vida media. b)

idem para la P (X > 100). (sugerencia: maximice la probabilidad de la muestraobservada).

19. Sea una muestra aleatoria (X1; X2; :::; Xn) de una Va X con f desconocida. Se

desea estimar E(X) y para ello vamos a utilizar deliberadamente un estimador de

la forma T =P�iXi. Halle los �i que hacen el estimador insesgado y de varianza

mínima. (sugerencia: minimice la varianza sujeta a la condición de insesgamiento

usando los multiplicadores de Lagrange).

Page 139: Métodos Estadísticos-Félix Míguez Marín [2012]

6

Intervalos

6.1 Intervalos de con�anza

Un estimador T de un parámetro desconocido � proporciona al calcularlo con la

muestra particular un valor aproximado t, pero no da información sobre el error jt� �j.Una solución a este problema son los intervalos de con�anza.

De�nición 1 Sea una Va X con densidad f(x j �) siendo el parámetro � desconocido.Si T1 y T2 son estadísticos tales que:

P (T1 < � < T2) = 1� �

se llama a (T1; T2) un intervalo aleatorio para � de probabilidad 1 1� �.Cada realización (t1; t2) con una muestra particular se llama un intervalo para �

de con�anza 1� �.

Diferentes muestras producirán diferentes realizaciones (t1; t2) y, a la larga, en el

100 (1� �)% de los intervalos así construidos se realizará el suceso � 2 (T1; T2).

Antes de obtener la muestra y calcular el valor del intervalo hay una probabilidad

1 � � de que incluya a �, pero después de obtener la muestra, (t1; t2) incluirá o no a�, lo que nos será desconocido, y expresaremos nuestra convicción al respecto diciendo

que hay una con�anza 1� � de que lo incluya. Un intervalo será tanto más provechosocuanto mayor sea 1� � y menor longitud tenga.

1Denotar la probabilidad con 1 � � en lugar de con una única letra, como � ó p tiene una ventajaque se apreciará más adelante cuando se presenten las pruebas de hipótesis.

137

Page 140: Métodos Estadísticos-Félix Míguez Marín [2012]

138 6. INTERVALOS

Ejemplo 1 Si X � N (�; �) entonces X � N (�; �=pn) pues es una combinación lineal

de Vas normales independientes (proposición 1 de 4.1) y cuya esperanza y varianza sededujeron en 5.3. Por lo tanto X��

�=pn� N (0; 1) y vale entonces

P

��1:96 < X � �

�=pn< 1:96

�= 0:95

que puede reescribirse (vea el ejemplo 2)

P

�X � 1:96 �p

n< � < X + 1:96

�pn

�= 0:95

Aquí�X � 1:96 �p

n; X + 1:96 �p

n

�es un intervalo aleatorio para �: a la larga el 95%

de sus valores�x� 1:96 �p

n; x+ 1:96 �p

n

�calculados con diferentes muestras realizarán

el suceso (incluirán a �).

Si, por ejemplo, X � N (�; 3) y la muestra es (1:2; 3:4; 0:6; 5:6) entonces

x = 2:7

2:7� 1:96 3p4

= �0:24

2:7 + 1:963p4

= 5:64

y ahora decimos que � 2 (�0:24; 5:64) con una con�anza del 95%:

Si se desea aumentar la con�anza al 99%, de

P

��2:58 < X � �

�=pn< 2:58

�= 0:99

resulta � 2 (�1:17; 6:57) con una con�anza del 99%:

De�nición 2 (Método Pivotal) El método para construir intervalos de con�anza quevamos a usar, llamado pivotal, se basa en una variable aleatoria (llamada pivote) ade-

cuada a cada problema, sea g (T; �), tal que:

1) es una función de un estadístico T y de �.

2) en cuanto función de � es continua y monótona.

3) su distribución de probabilidades es completamente conocida (no depende de �).

Entonces �jado 1�� (generalmente 0:95 ó 0:99) pueden calcularse con dicha distribución

Page 141: Métodos Estadísticos-Félix Míguez Marín [2012]

6.1. INTERVALOS DE CONFIANZA 139

números a y b tales que

P (a < g (T; �) < b) = 1� �

y de aquí, �despejando��, lo que es posible ya que g es biunívoca respecto de �, resultará

un intervalo

P (T1 < � < T2) = 1� �

En general habrá in�nitos (a; b) que contengan probabilidad 1��, y generalmente seelige el que da

P (g (T; �) < a) = P (g (T; �) > b) =�

2

Ejemplo 2 (cont.) Si X � N (�; �) y � es conocida entonces

g�X;�

�=X � ��=pn

es una variable pivote, pues es monótona en � y con distribución N (0; 1). Fijado 1��se conoce el número u1��=2 tal que �

�u1��=2

�= 1� �=2 y �

��u1��=2

�= �=2 y

P

��u1��=2 <

X � ��=pn< u1��=2

�= 1� � (6.1)

y �despejando��

P

�+u1��=2 >

�X + �

�=pn> �u1��=2

�= P

�X + u1��=2

�pn> � > X � u1��=2

�pn

�pues al multiplicar por �1 la desigualdad cambia de sentido. Reescribiendo la última enel orden natural

P

�X � u1��=2

�pn< � < X + u1��=2

�pn

�= 1� �

Ahora, si en la muestra particular se obtiene el valor x de X, un intervalo de con�-

anza 1� � para � es� 2

�x� u1��=2

�pn

También puede interesar calcular un límite inferior ó superior para � (o intervalos

unilaterales, mientras que los anteriores son bilaterales):

Page 142: Métodos Estadísticos-Félix Míguez Marín [2012]

140 6. INTERVALOS

De�nición 3 Si T es un estadístico tal que

P (T < �) = 1� �

T es un límite inferior para � de probabilidad 1 � �. Cada realización t es unlímite inferior para � de con�anza 1� �.

Y si

P (� < T ) = 1� �

T es un límite superior para � de probabilidad 1 � �. Cada realización t es unlímite superior para � de con�anza 1� �.

El cálculo se hará como en el caso bilateral mediante la variable pivote.

Ejemplo 3 (cont.) un límite superior de con�anza 1 � � para � es evidentemente

� < x+ u1���pn. Si se elige 1� � = 0:95, es u0:95 � 1:64 y con la muestra del ejemplo

1 resulta 2:7 + 1:64 3p4= 5:16 concluyéndose que � < 5:16 con una con�anza del 95%.

6.2 Intervalos para la normal

6.2.1 Intervalos para �

Como ya se sabe (ejemplo 2) una variable pivote para � cuando � es conocida es

X � ��=pn� N (0; 1)

y el intervalo de con�anza 1� � resulta

� 2�x� u1��=2

�pn

�Sin embargo, cuando � es desconocida, el intervalo anterior es inutil pues no se

puede calcular su valor. La idea natural es modi�car la variable pivote sustituyendo el

� desconocido por su estimador S (la desviación típica muestral) y la consecuencia es

(ver Complementos) que la nueva variable, que ya no es N (0; 1), sin embargo también

tiene una densidad de probabilidad completamente conocida, llamada t de Student de

parámetro (n� 1)X � �S=pn� t (n� 1)

Page 143: Métodos Estadísticos-Félix Míguez Marín [2012]

6.2. INTERVALOS PARA LA NORMAL 141

Para nuestro propósito basta saber que las densidades de Student dependen de un

parámetro k, sea t (k), y tienen forma simétrica alrededor del origen, con máximo en 0

y decreciendo asintóticamente para t = �1, tanto más rápidamente cuanto mayor seak. Además

limk!1

f(t) =1p2�e�

12t2

es decir, la densidad normal de media 0 y varianza 1. El cálculo de probabilidades

con dicha densidad se realiza aproximando numéricamente las integrales. Para nuestras

aplicaciones nos serviremos de la tabla III en la que se dan, para algunos valores de �

y del parámetro k, los cuantiles t�, es decir P (T < t�) = �; téngase en cuenta además

que, de la simetría respecto al origen, P (T < t) = 1� P (T < �t).

­5 0 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

N(0,1)

Student(5)

Densidades Student(5) y N(0; 1)

Page 144: Métodos Estadísticos-Félix Míguez Marín [2012]

142 6. INTERVALOS

Fijada una probabilidad 1� � se conoce entonces el cuantil t1��=2 tal que

P

��t1��=2 <

X � �S=pn< t1��=2

�= 1� � (6.2)

y �despejando��

P

�t1��=2 >

�X + �

S=pn> �t1��=2

�= P

�X + t1��=2

Spn> � > X � t1��=2

Spn

�pues al multiplicar por �1 la desigualdad cambia de sentido. Reescribiendo la última enel orden natural

P

�X � t1��=2

Spn< � < X + t1��=2

Spn

�= 1� �

Ahora, si en la muestra particular se obtienen los valores x deX y s de S, un intervalo

de con�anza 1� � para � es 2 3

� 2�x� t1��=2

spn

Análogamente se obtienen los límites superior e inferior

� < x+ t1��spn

� > x� t1��spn

Ejemplo 4 Se dispone de la muestra (18; 22; 21; 23; 21; 22; 21; 21; 18; 19) de medidas dela concentración de arsénico en �g/L en un agua para consumo. Aceptando válido un

modelo X � N (�; �), construyamos un intervalo de con�anza 1� � = 0:95 para �.

La estimación del valor medio � es

x =1

n

Xxi =

206

10= 20:6 �g/L

2Muchos de estos intervalos están recogidos en las Normas Industriales. Por ejemplo éste para �corresponde a la UNE 66040:2003 (ISO 2602:1980)

3En Metrología (ver p.e. www.cem.es y The NIST Reference on Constants, Units and Uncertaintywww.nist.gov) la notación habitual es simplemente: (x� s=

pn) U.

Page 145: Métodos Estadísticos-Félix Míguez Marín [2012]

6.2. INTERVALOS PARA LA NORMAL 143

la estimación de �2 es

s2 =1

n� 1X

(xi � x)2 =1

n� 1

�Xx2i �

1

n

�Xxi

�2�=

1

9

�4270� 1

10� 2062

�= 2:9333

y la de �

s =p2:9333 = 1:7127 �g/L

En la distribución de Student de parámetro n � 1 = 9 es t1��=2 = t0:975 = 2:2622, así

que

t1��=2spn= 2:2622� 1:7127p

10= 1:2252

es decir, con una con�anza del 95%

� 2 (20:6� 1:23) �g/L

Ejemplo 5 (cont) Obtengamos ahora un límite superior. Con 1 � � = 0:95 en la dis-tribución de Student de parámetro n� 1 = 9 es t1�� = t0:95 = 1:8331, así que

x+ t1��spn= 20:6 + 1:8331� 1:7127p

10= 21:593

es decir, con una con�anza del 95% es

� < 21:6 �g/L

6.2.2 Tamaños de muestra

En el caso � conocida la fórmula (6.1) puede reescribirse

P

���X � ��� < u1��=2 �pn

�= 1� �

mostrando que

" = u1��=2�pn

es una cota del error de aproximación��X � �

��. Es decir, con con�anza 1 � � el errorcometido al aproximar � por x es inferior a ".

Es sencillo ahora responder a: ¿qué tamaño n de muestra hay que utilizar para, con

Page 146: Métodos Estadísticos-Félix Míguez Marín [2012]

144 6. INTERVALOS

con�anza 1� �, aproximar � con un error menor que " dado?

" = u1��=2�pn

! n =�u1��=2

"

�2Ejemplo 6 (cont. del 1) Con X � N (�; 3) y la muestra de tamaño 4 se estimó � porx = 2:7 con una cota de error " = 1:96 3p

4= 2:94 para la con�anza del 95%, es decir

� 2 (2:7� 2:94) con dicha con�anza. Si se deseamos aproximar con una cota " = 1:5 senecesita utilizar una muestra de tamaño

n =

�1:96

3

1:5

�2= 15:3664

es decir, la media x de una muestra de 16 observaciones aproximará � con un error

menor que 1:5 y con�anza del 95%.

Sin embargo en el caso � desconocida de la fórmula (6.2)

P

���X � ��� < t1��=2 Spn

�= 1� �

y la cota del error de estimación

" = t1��=2Spn

es aleatoria (depende de los valores de la muestra). Sin embargo en la práctica, si setrabaja con muestras relativamente grandes 4, los valores de S serán a su vez

relativamente estables (recuérdese que S converge en probabilidad a �) y, basándose

en la experiencia previa o en una muestra piloto, se tendrá una idea de su orden de

magnitud, digamos un valor aproximado s0. Y como además entonces t1��=2 ! u1��=2

se tiene que el tamaño n de muestra que hay que utilizar para, con con�anza 1 � �,aproximar � con un error menor que " dado es del orden de

n =�u1��=2

s0"

�2

4Este argumento se utiliza en los llamados métodos de Monte-Carlo.

Page 147: Métodos Estadísticos-Félix Míguez Marín [2012]

6.2. INTERVALOS PARA LA NORMAL 145

6.2.3 Intervalos para �

Sea S2 la varianza muestral, estimador de �2. Una variable pivote, con densidad

ji-cuadrado de parámetro (n� 1) es (ver Complementos):

(n� 1)S2�2

� �2 (n� 1)

Fijada una probabilidad 1�� se conocen los cuantiles �2�=2 y �21��=2 (las densidades

ji-cuadrado no son simétricas) tales que

P

��2�=2 <

(n� 1)S2�2

< �21��=2

�= 1� �

y �despejando��

P

1

�2�=2>

�2

(n� 1)S2 >1

�21��=2

!= P

S

sn� 1�2�=2

> � > S

sn� 1�21��=2

!

pues al tomar el recíproco la desigualdad cambia de sentido. Reescribiendo la última en

el orden natural

P

S

sn� 1�21��=2

< � < S

sn� 1�2�=2

!= 1� �

Ahora, si en la muestra particular se obtiene el valor s de S, un intervalo de con�anza

1� � para � es

� 2 s

sn� 1�21��=2

; s

sn� 1�2�=2

!

Ejemplo 7 (cont. del 4) la estimación de � resultó

s = 1:7127 �g=L

Con 1 � � = 0:95 en la distribución ji-cuadrado de parámetro n � 1 = 9 es �2�=2 =

�20:025 = 2:7004 y �21��=2 = �

20:975 = 19:0228

s

sn� 1�21��=2

= 1:7127�r

9

19:0228= 1:1781

s

sn� 1�2�=2

= 1:7127�r

9

2:7004= 3:1267

Page 148: Métodos Estadísticos-Félix Míguez Marín [2012]

146 6. INTERVALOS

es decir, con una con�anza del 95%

� 2 (1:18; 3:13) �g=L

Analogamente se obtienen los límites inferior y superior que resultan ser

� > s

sn� 1�21��

� < s

sn� 1�2�

Ejemplo 8 (cont.) Con 1�� = 0:95 en la distribución ji-cuadrado de parámetro n�1 =9 es �21�� = �

20:95 = 16:9190

s

sn� 1�21��

= 1:7127�r

9

16:9190= 1:2492

es decir, con una con�anza del 95%

� > 1:25 �g=L

6.3 Intervalos asintóticos

Una variable pivote para E (X) = � si el tamaño de muestra es su�ciente-mente grande puede obtenerse por cualquiera de los dos argumentos siguientes:

1 Basada en el Teorema Central del Límite (no paramétrica):

Cualquiera que sea la ley de X, con E(X) = � y V ar (X) = �2, según el teorema de

4.3 es PXi � n��pn

=X � ��=pn! N(0; 1) si n!1

Puede probarse 5 que si la �, generalmente desconocida, se sustituye por cualquier

estimador T que converja en probabilidad a �, la convergencia a la N (0; 1) sigue siendo

cierta. Así queX � �T=pn! N(0; 1) si n!1

es una variable pivote para �. El intervalo de probabilidad 1� � para � tiene la forma5En virtud del llamado lema de Slutsky.

Page 149: Métodos Estadísticos-Félix Míguez Marín [2012]

6.3. INTERVALOS ASINTÓTICOS 147

general:

X � u1��=2Tpn

Ejemplo 9 En particular, cualquiera que sea X, la desviación típica muestral S con-verge en probabilidad a � (ejemplo 6 de 5.5) y

X � u1��=2Spn

es un intervalo de probabilidad 1� � para E (X) = �.

Ejemplo 10 Si X es de Poisson de parámetro � es E (X) = V ar (X) = � (ver 4.5),es decir, con la notación de arriba � � � y � �

p� y por lo tanto

X � �p�=n

! N(0; 1) si n!1

y ahora podemos sustituir el � �p� por cualquier estimador que converja en probabilidad

ap� y el más e�ciente (mejor que S) es

pX de manera que

X � �qX=n

! N(0; 1) si n!1

y

X � u1��=2

sX

n

es un intervalo de probabilidad 1� � para �.

2 Basada en el estimador MV (paramétrica):

Si X tiene densidad o masa f (x j �) y b� (X) es el estimador MV de � construido conuna muestra aleatoria X = (X1; X2; :::; Xn) entonces (Teorema 4 de 5.10):

b� (X)� �r1=�nI�b� (X)�� ! N(0; 1) si n!1

es una variable pivote para �. El intervalo bilateral de probabilidad 1�� tiene la formageneral: b� (X)� u1��=2

vuut 1

nI�b� (X)�

Page 150: Métodos Estadísticos-Félix Míguez Marín [2012]

148 6. INTERVALOS

Ejemplo 11 (cont. del 10) Puede comprobarse (ejercicio 11 del capítulo 5) que el in-tervalo basado en el estimador MV de � es idéntico al obtenido antes.

En la próxima sección tenemos la oportunidad de aplicar ambos argumentos.

6.4 Intervalos para p

Si X � B(1; p), es decir P (X = 1) = p y P (X = 0) = 1 � p, con E (X) = p

y V ar (X) = p (1� p), y (X1; X2; :::; Xn) una muestra aleatoria simple, el estimadorMV de p es X, que además es insesgado y e�ciente. Para construir un intervalo de

con�anza para p, cualquiera que sea el valor de n, no existe en este caso una Va pivote

y es preciso recurrir a un método más general 6. Nosotros nos conformaremos con una

solución aproximada válida para n!1, que sin embargo tiene gran valor práctico comoveremos en la próxima sección.

La variable pivote basada en el Teorema Central del Límite (1 de la sección anterior)es

X � �S=pn� X � pq

X(1�X)=n! N(0; 1) si n!1

ya que (ver 5.4.2)

S =

rn

n� 1X�1�X

��qX�1�X

�si n!1

y además coincide con la del estimador MV (2 de la sección anterior; ver ejemplo 27 de5.10).

El intervalo bilateral de probabilidad 1� � es 7:

X � u1��=2qX(1�X)=n (6.3)

Como ya se dijo en 4.4 en la práctica suele aceptarse que la aproximación es su�cienteen cuanto minfnp; n(1 � p)g > 10, de modo que el caso más favorable se tiene cuanto

más próximo sea p a 1=2.

La longitud del intervalo resultante

" = u1��=2

qX�1�X

�=n (6.4)

6Llamado de Clopper y Pearson.7Es posible aún incluir una corrección de continuidad como se vió en 4.4 restando y sumando 1= (2n)

a los límites inferior y superior respectivamente.

Page 151: Métodos Estadísticos-Félix Míguez Marín [2012]

6.4. INTERVALOS PARA P 149

es aleatoria. Sin embargo el mayor valor que puede tomar X�1�X

�es 0:25 (cuando

X = 0:5) así que, para tener una longitud no mayor que " dada se necesita

n ��u1��=2

"

�20:25

(pero siempre habrá de ser su�cientemente grande como para que valga la aproximación

que justi�ca el intervalo).

Ejemplo 12 con 1 � � = 0:95 es u0:975 = 1:96, si queremos " � 0:02 resulta n =

(1:96=0:02)2 0:25 = 2401 y si " � 0:01 resulta n = (1:96=0:01)2 0:25 = 9604.

6.4.1 Aplicación al muestreo de poblaciones �nitas

Sea una población de N individuos de los cuales Np son de cierta clase (0 < p < 1

es su fracción desconocida). Para estimar p tomaremos una muestra (X1; X2; :::; Xn)

sin reemplazamiento. Cada Xi vale 1 si el individuo seleccionado es de la clase deinterés y 0 en otro caso. Una estimación insesgada de p es (ver ejemplo 32 de 5.12) laproporción experimental X =

PXi=n.

Ahora deseamos construir un intervalo de con�anza para p y veremos que para ello

se puede utilizar, bajo ciertas condiciones, el resultado de la sección precedente 8.

Dicho resultado se aplica a una muestra aleatoria (X1; X2; :::; Xn) en la que P (Xi = 1) =

p y las Xi son independientes (muestra aleatoria simple; la distribución dePXi es

binomial). Estas condiciones se veri�carían si la muestra se hubiese tomado con reem-plazamiento (cada individuo se devuelve a la población para la siguiente extracción).

Sin embargo en la muestra sin reemplazamiento, aunque sigue siendo cierto que

P (Xi = 1) = p, las Xi no son independientes (ahora la distribución dePXi es

hipergeométrica). En particular las probabilidades condicionales no son iguales a la

incondicionales (como exige la independencia):

P

Xk+1 = 1 j

kXi=1

xi

!=Np�

Pki=1 xi

N � k

Sin embargo, con n �ja

Np�Pki=1 xi

N � k =p�

Pki=1 xi=N

1� k=N ! p si N !1

8Un intervalo exacto para p, cualquiera que sean los valores de n y N , puede construirse con el métodode Clopper y Pearson para la hipergeométrica.

Page 152: Métodos Estadísticos-Félix Míguez Marín [2012]

150 6. INTERVALOS

Así que en esas condiciones (n << N ; en la práctica se usa en cuanto n < 0:1N)

las Xi son practicamente independientes 9. Si además n es su�cientemente grande este

argumento justi�ca el uso del intervalo (6.3) para p cuando se muestrea sin reemplaza-

miento una población �nita, sea para estimar la calidad de un lote de piezas, sea para

realizar un sondeo de opinión.

Ejemplo 13 la mayor parte de los sondeos se realizan con 1 � � = 0:95 y entonces

u1��=2 = u0:975 = 1:96, y si se encuestan n = 1000 personas el error es menor que (caso

peor de (6.4) con X = 0:5)

" = 1:96

r0:25

1000= 0:0399

aproximadamente del 4%. Obsérvese que ello es independiente del tamaño N >> n de

la población investigada.

9De otra manera: en estas condiciones la función de masa hipergeométrica converge a la función demasa binomial.

Page 153: Métodos Estadísticos-Félix Míguez Marín [2012]

6.5. INTERVALOS DE TOLERANCIA PARA LA NORMAL 151

6.5 Intervalos de tolerancia para la normal

Consideremos el caso X � N (�; �) donde � y � son desconocidas e intentemos

estimar, a partir de una muestra de X, un intervalo (xL; xU ) tal que P (xL < X < xU ) =

p �jada. Como

P (xL < X < xU ) = P

�xL � ��

< U <xU � ��

�= P

��u(1+p)=2 < U < u(1+p)=2

�= p

donde U � N (0; 1), resulta

xL = �� u(1+p)=2�

xU = �+ u(1+p)=2�

y ahora, como � y � son desconocidos podríamos sustituirlos por sus estimaciones x

y s, resultando el�x� u(1+p)=2s; x+ u(1+p)=2s

�, pero ello no asegura en absoluto el

contenido de probabilidad p a este intervalo (dependiendo de x y s puede ser menor,

igual o mayor que p). Una solución son los llamados intervalos de tolerancia 10 que

de�nimos a continuación.

De�nición 4 Sea una variable aleatoria X y sean 1 � � y p �jados. Un intervalo

(xL; xU ) construido a partir de una muestra de X en el que

P (xL < X < xU ) � p

con con�anza 1� �, se llama intervalo de tolerancia de contenido p.

Para el caso X � N (�; �) donde � y � son desconocidas, el intervalo es de la formaxL = x � ks y xU = x + ks. El valor de k depende del contenido p, de la con�anza

1�� y del tamaño de muestra n. No hay una expresión explícita y debe ser aproximadonuméricamente (ver Complementos).

En la tabla IV se dan los valores de k correspondientes a algunos valores de p, 1��y n.

Ejemplo 14 Se dispone de una muestra de n = 25 obleas de silicio y se mide su re-

sistividad (en cm) resultando x = 97:07 y s = 0:0268. Calculemos un intervalo de

tolerancia con p = 0:95 y 1� � = 0:9910El nombre proviene de las primeras aplicaciones a problemas de control de calidad industrial.

Page 154: Métodos Estadísticos-Félix Míguez Marín [2012]

152 6. INTERVALOS

En la tabla IV se lee k = 2:984 así que

xL = 97:07� 2:984� 0:0268 = 96:99

xU = 97:07 + 2:984� 0:0268 = 97:15

con una seguridad del 99% el 95% de las obleas producidas tienen una resistividad en

(96:99; 97:15) cm.

De�nición 5 Sea una variable aleatoria X y sean 1 � � y p �jados. Un límite xUconstruido a partir de una muestra de X tal que

P (X < xU ) � p

con con�anza 1� �, se llama límite de tolerancia superior de contenido pUn límite xL construido a partir de una muestra de X tal que

P (xL < X) � p

con con�anza 1� �, se llama límite de tolerancia inferior de contenido p.

Para el caso X � N (�; �) donde � y � son desconocidas, el límite superior es de laforma xU = x + ks y el inferior xL = x � ks. El valor de k depende del contenido p,de la con�anza 1� � y del tamaño de muestra n, y es el mismo para ambos límites. Suexpresión explícita se da en los Complementos.

En la tabla V se dan los valores de k correspondientes a algunos valores de p, 1� �y n.

Ejemplo 15 (cont. del 4) hallemos un límite superior de contenido p = 0:95 y con�anza1� � = 0:95

Con n = 10 en la tabla V se lee k = 2:911

x+ ks = 20:6 + 2:911� 1:7127 = 25:586

así que, con una con�anza del 95% el 95% de los valores de X son menores que 25:6�g=L

En estudios de contaminación se determina un límite superior en una población no

contaminada (por ejemplo, el 95% de las medidas en una población no contaminada está

por debajo del valor xS). Después, si una medida de control del contaminante resulta

por encima de xS, ello es una indicación de posible contaminación.

Page 155: Métodos Estadísticos-Félix Míguez Marín [2012]

6.5. INTERVALOS DE TOLERANCIA PARA LA NORMAL 153

Ejemplo 16 (cont. del 14) Hallemos límites superior e inferior de contenido p = 0:95y con�anza 1� � = 0:99

Con n = 25 en la tabla V se lee k = 2:633, así que con una con�anza del 99% el 95%

de las obleas tienen una resistividad por debajo de

x+ ks = 97:07 + 2:633� 0:0268 = 97:141 cm

Y con una seguridad del 99% el 95% de las obleas tienen una resistividad superior a

xL = 97:07� 2:633� 0:0268 = 96:999 cm

Page 156: Métodos Estadísticos-Félix Míguez Marín [2012]

154 6. INTERVALOS

6.6 Ejercicios propuestos

1. La longitud nominal de ciertas piezas mecanizadas es de 10 cm y la de las fabricadas

esX � N (�; �). La varianza del proceso es aproximadamente estable y de los datoshistóricos se puede suponer que � = 0:3 cm. Por otra parte el valor de � cambia

con ajustes en el proceso. Una muestra de 100 piezas tiene una media de 10:2 cm

a) construya un intervalo del 95% para el valor actual de �. b) ¿qué tamaño demuestra hay que usar para tener una cota " = 0:01?

2. En un célebre experimento Cavendish realizó en 1798 (utilizando una balanza de

torsión) 29 medidas de la densidad media de la Tierra �T . La muestra (aquí se da

ordenada en valores crecientes) es (en g=cm3):

4:88 5:07 5:1 5:26 5:27 5:29 5:29 5:3 5:34 5:34

5:36 5:39 5:42 5:44 5:46 5:47 5:5 5:53 5:55 5:57

5:58 5:61 5:62 5:63 5:65 5:68 5:75 5:79 5:85

Suponiendo que corresponden a un modelo X = �T + U con U � N (0; �) estimeel valor de �T y obtenga la cota del error con una con�anza del 95%.

3. Un fabricante de componentes manufacturados, en un proceso estable bien mode-

lado por una distribución normal, tiene unos límites de especi�cación de 0:42�0:02cm. Se inspeccionan n = 20 componentes resultando

x = 0:42328 cm

s = 0:01776 cm

a) construya un intervalo de con�anza 95% para �. b) construya un intervalo detolerancia cubriendo el 99% de la población con con�anza del 95%. c) ¿el procesoes satisfactorio?.

4. La resistencia a la rotura de cierto tipo de cables de acero, expresada en Kg,

se supone que es una VA X � N(�; �): Una muestra de 5 cables ha dado los

valores (533; 552; 539; 564; 541). a) estimar la resistencia media y la variabilidad.

b) construir intervalos del 95% para la resistencia media y la variabilidad. c)

estimar con una con�anza del 99% la tensión que soportan el 95% de los cables,

es decir, el límite inferior de tolerancia para la resistencia.

5. Para comprobar la variabilidad en el tiempo de explosión de cierto tipo de detona-

dor se obtuvo la muestra (en milisegundos por debajo de 2:7 s) (11; 23; 25; 9; 2; 6;

Page 157: Métodos Estadísticos-Félix Míguez Marín [2012]

6.6. EJERCICIOS PROPUESTOS 155

�2; 2;�6; 8; 9; 19; 0; 2). Suponiendo que el tiempo de explosión es una variable

aleatoria N (�; �) hallar un límite superior de con�anza del 90% para �.

6. La proporción p de componentes de calidad aceptable es desconocida. En una

muestra inicial de 30 componentes han resultado 26 aceptables. a) a la vista de esteresultado ¿qué tamaño de muestra hay que tomar para construir un intervalo del

99% para p de longitud aproximada �0:02? b) construya el intervalo si �nalmentese examinan 2000 resultando 1640 aceptables.

7. Para realizar un sondeo de opinión en España (población 45 millones) se entrevista

a 1000 personas obteniendo con una con�anza del 95% un error menor del 3%. a)¿Cuántas personas habría que entrevistar en USA (población 350 millones) para

tener igual error?. b) ¿Cuántas personas habría que entrevistar para tener unerror menor del 2%?.

8. En uno de los primeros experimentos sobre la radioactividad (1910) Rutherford,

Geiger y Bateman observaron una fuente de polonio (recién descubierto por María

Curie) durante 2608 intervalos de 7.5 segundos cada uno, registrándose con un

detector el número x de particulas alfa emitidas cada intervalo, con los resultados

x 0 1 2 3 4 5 6 7 8 9 10 11 12

n (x) 57 203 383 525 532 408 273 139 45 27 10 4 2 2608

Los autores propusieron como modelo plausible para la función de masa descono-

cida del número X de particulas emitidas en el intervalo el de Poisson

f (x) = exp (��) �x

x!x = 0; 1; 2; :::

en el que, como se sabe E (X) = �. Estime el valor de � y obtenga la cota del

error con una con�anza del 95% (sugerencia: ejemplo 10).

9. Sea X con densidad exponencial f(x) = � exp(��x) para x > 0. Una variable

pivote para �, a partir de una muestra de tamaño n, es 2n�X con densidad �2(2n).

Construir un intervalo bilateral de con�anza 1� � para �.

10. El intervalo de tiempo X entre llegadas sucesivas de los vehículos a una parada

tiene densidad exponencial de parámetro �. En una muestra de n = 10 valores de

X ha resultado un tiempo total dePxi = 30:4 minutos. Construir un intervalo

bilateral de con�anza 1� � = 0:95 para E (X).

Page 158: Métodos Estadísticos-Félix Míguez Marín [2012]
Page 159: Métodos Estadísticos-Félix Míguez Marín [2012]

7

Modelo lineal

7.1 Modelo lineal simple

Para explicar la variabilidad experimental de las medidas del valor de una magnitudconstante � hemos considerado el modelo

Y = �+ U

donde Y es la Va valor medido y U es la Va error.

Ahora vamos a estudiar una situación más general en la que lo que se mide es una

función � (x) de una variable independiente x, no aleatoria, cuyo valor se �japara realizar el experimento. Y en particular cuando la función � (x) tiene una forma

especialmente sencilla.

De�nición 1 Se denomina modelo lineal simple a

Y (x) = �0 + �1x+ U

donde la variable aleatoria Y (x) depende de la variable independiente no aleatoria x,

y la variable aleatoria U representa el error de medida o en general el efecto de otros

factores, aparte de x, sobre la Y .

El modelo es lineal en los parámetros �0 y �1 desconocidos (x puede ser cualquierotra f (x) que no incluya ningún parámetro desconocido).

Ejemplo 1 Y (x) = �0 + �1 sin (x) + U es un modelo lineal.

157

Page 160: Métodos Estadísticos-Félix Míguez Marín [2012]

158 7. MODELO LINEAL

Ejemplo 2 Una partícula se mueve en linea recta a velocidad constante v que deseamosconocer. La ecuación del movimiento es s (t) = s (0)+ vt, de manera que conociendo las

posiciones s (t1) y s (t2) en dos tiempos distintos, deduciríamos el valor de v así:

s (t2)� s (t1)t2 � t1

= v

en otras palabras: dos puntos (t1; s (t1)) y (t2; s (t2)) determinan la recta s (t) = s (0)+vt.

Sin embargo si las medidas de s (t) son con error (y las de t sin error), sean y (t1) =

s (t1) + u1 e y (t2) = s (t2) + u2, esto ya no es así, pues entonces

y (t2)� y (t1)t2 � t1

= v +u2 � u1t2 � t1

y ahora la recta s(t) = s(0) + vt está enmascarada por los errores que se han añadido

en cada medida.

La situación corresponde a un modelo lineal simple

Y (t) = �0 + �1t+ U

con �0 = s (0) y �1 = v. Para poder �ltrar lo errores (estimar los parámetros) se precisan

más de 2 medidas (cuantas más mejor). Por ejempo, si se dispone de la muestra

t ( s) 1:0 2:0 3:0 4:0 5:0 6:0

y (mm) 11 19 33 40 49 61

la imagen es

0 1 2 3 4 5 6 70

10

20

30

40

50

60

70

t (s)

y(t) 

(mm

)

Page 161: Métodos Estadísticos-Félix Míguez Marín [2012]

7.1. MODELO LINEAL SIMPLE 159

Ejemplo 3 Para estudiar la variación del rendimiento Y de un proceso con la tempera-tura x, se dispone de la siguiente muestra:

x �C 45 50 55 60 65 70 75 80 85 90

y % 43 45 48 51 55 57 59 63 66 68

cuya imágen es

40 50 60 70 80 9040

45

50

55

60

65

70

x (temperatura ºC)

y (r

endi

mie

nto 

%)

que sugiere como plausible un modelo

Y = �0 + �1x+ U

7.1.1 Estimación de mínimos cuadrados

Según las hipótesis adicionales sobre la Va U la estimación puede hacerse de una u otra

forma. La hipótesis más simple es

E (U) = 0

V ar (U) = �2

que equivale a

E (Y (x)) = � (x) = �0 + �1x (7.1)

V ar (Y (x)) = �2

Page 162: Métodos Estadísticos-Félix Míguez Marín [2012]

160 7. MODELO LINEAL

Para la estimación de los parámetros �0; �1 y � dispondremos de n observaciones

independientes de Y (x) en otros tantos valores �jados de x, muestra que denotaremos

en lo sucesivo ((x1; y1); (x2; y2); :::(xn; yn)).

Denotaremos 1 b0 y b1 las estimaciones con la muestra de �0 y �1.

La función desconocida � (x) = �0+�1x se estimará por la b� (x) = b0+ b1x que hacemínimo el valor de

q (b0; b1) =nXi=1

[yi � (b0 + b1xi)]2

yi� (b0 + b1xi) es la diferencia entre la ordenada observada yi en la abscisa xi y la calcu-

lada con la recta en la misma abscisa: la función buscada (recta de mínimos cuadrados)

es la que ajusta mejor las ordenadas observadas.

Para hallar los números b0 y b1 que hacen mínimo el valor de q se resuelve el sistema:

@q (b0; b1)

@b0= �2

nXi=1

[yi � (b0 + b1xi)] = 0

@q (b0; b1)

@b1= �2

nXi=1

xi [yi � (b0 + b1xi)] = 0

9>>>>=>>>>; (7.2)

es decir

b0n+ b1

nXi=1

xi =

nXi=1

yi

b0

nXi=1

xi + b1

nXi=1

x2i =

nXi=1

xiyi

9>>>>=>>>>;o en forma matricial

nPxiP

xiPx2i

! b0

b1

!=

PyiPxiyi

!(7.3)

El determinante de la matriz del sistema es:

nX

x2i ��X

xi

�2= n

X(xi � �x)2 � 0

Si n � 2 y al menos 2 abscisas xi son distintas, entoncesP(xi � �x)2 > 0: la matriz

tiene inversa y la solución es única, lo que suponemos en todo lo que sigue.

1También se suele denotar con b�0 y b�1 aunque así se hace más pesado después distinguir entre lasestimaciones y los estimadores.

Page 163: Métodos Estadísticos-Félix Míguez Marín [2012]

7.1. MODELO LINEAL SIMPLE 161

La solución corresponde a un mínimo2 pues la matriz hessiana:

H =

0BB@@2q

@b20

@2q

@b0@b1@2q

@b0@b1

@2q

@b21

1CCA =

2n 2nx

2nx 2Px2i

!

es de�nida positiva:

@2q

@b20= 2n > 0

detH = 4nX

x2i � 4n2x2 = 4nX

(xi � x)2 > 0

Compruébese que la solución puede escribirse:

b1 =

P(xi � x) (yi � y)P

(xi � x)2=

Pxiyi � (

Pxi) (

Pyi) =nP

x2i � (Pxi)

2 =n(7.4)

b0 = �y � b1�x

El método de mínimos cuadrados no proporciona una estimación de �2. Veremos

que una adecuada (el estimador correspondiente es insesgado) es

s2 =1

n� 2

nXi=1

[yi � (b0 + b1xi)]2 (7.5)

que también puede escribirse (compruébese, sustituyendo b0 por su valor en (7.4) y

operando)

s2 =1

n� 2

"nXi=1

(yi � y)2 � b21nXi=1

(xi � x)2#

(7.6)

aunque es una fórmula más suceptible a los errores de redondeo.

Ejemplo 4 (cont. del 2)Pti = 21;

Pt2i = 91;

Pyi = 213;

Py2i = 9293;

Ptiyi = 919P�

ti � t�(yi � y) = 919� 21� 213=6P

(yi � y)2 = 9293� 2132=6 = 1731:5

2La función cuadrática z = q (b0; b1) es no negativa. Su grá�ca (es decir, el conjunto de los puntos(b0; b1; z) 2 R3 tales que z = q (b0; b1)) es un paraboloide elíptico. La función tiene por tanto un mínimoglobal, el vértice del paraboloide, cuyas coordenadas (b0; b1) son la solución del problema de mínimoscuadrados.

Page 164: Métodos Estadísticos-Félix Míguez Marín [2012]

162 7. MODELO LINEAL

P�ti � t

�2= 91� 212=6 = 17:5

b1 =919� 21� 213=6

17:5= 9:9143

b0 = y � b1t = 213=6� 9:9143� 21=6 = 0:79995

s2 =1731:5� 9:91432 � 17:5

4= 2:8416

s = 1:6857

0 1 2 3 4 5 6 70

10

20

30

40

50

60

70

t (s)

y(t) 

(mm

)

En conclusión, la estimación de la velocidad es b1 = 9:91 mms�1, la posición inicial

b0 = 0:8 mm y la desviación típica del error U en las medidas de posición s = 1:69 mm

Ejemplo 5 (cont. del 3)Pxi = 675;

Px2i = 47625;

Pyi = 555;

Py2i = 31483;P

xiyi = 38645P(xi � x) (yi � y) = 38645� 675� 555=10P(xi � x)2 = 2062:5;

P(yi � y)2 = 680:5

b1 =38645� 675� 555=10

2062:5=1182:5

2062:5= 0:573b3

b0 = y � b1x = 55:5� 0:573b3� 67:5 = 16:8023

Page 165: Métodos Estadísticos-Félix Míguez Marín [2012]

7.1. MODELO LINEAL SIMPLE 163

s =

s680:5� 0:573b32 � 2062:5

8= 0:5627

40 50 60 70 80 9035

40

45

50

55

60

65

70

75

x (temperatura ºC)

y (re

ndim

ient

o %

)

En conclusión, la estimación de la variación del rendimiento esperado con la tem-

peratura (en el rango de temperaturas entre 40 �C y 100 �C aproximadamente) es

b� (x) = 16:80 + 0:5733x %(por cada incremento de la temperatura en 1 �C el rendimiento esperado aumenta un

0:57 %).

Para una temperatura de 50 �C el rendimiento esperado se estima de

b� (50) = 16:80 + 0:5733� 50 � 45:5 %

La estimación de la variabilidad del rendimiento a cualquier temperatura es s =

0:5627 %.

Page 166: Métodos Estadísticos-Félix Míguez Marín [2012]

164 7. MODELO LINEAL

7.1.2 Propiedades de los estimadores

La muestra ((x1; y1); (x2; y2); :::(xn; yn)) es una realización particular de la muestra

aleatoria ((x1; Y1); (x2; Y2); :::(xn; Yn)), en la que las Yi son independientes, con

E (Yi) = �0 + �1xi

V ar (Yi) = �2

y las estimaciones b0 y b1 (7.4) son realizaciones particulares de los estimadores

B1 =

P(xi � x)

�Yi � Y

�P(xi � x)2

(7.7)

B0 = Y �B1�x

Se prueba (en las hipótesis 7.1) que dichos estimadores son insesgados:

E (B1) = �1

E (B0) = �0

y por lo tanto, en un x arbitrario

E (b� (x)) = E (B0 +B1x) = �0 + �1xSe prueba que sus varianzas son

V ar (B1) =�2P

(xi � x)2(7.8)

V ar (B0) =

� Px2i

nP(xi � x)2

��2

y (téngase en cuenta que B0 y B1 no son independientes):

V ar (B0 +B1x) = �2

1

n+

(x� x)2P(xi � x)2

!(7.9)

Por último, la estimación (7.5) es el valor particular en la muestra del estimador

S2 =1

n� 2

nXi=1

[Yi � (B0 +B1xi)]2 (7.10)

Page 167: Métodos Estadísticos-Félix Míguez Marín [2012]

7.1. MODELO LINEAL SIMPLE 165

que también puede escribirse (ver (7.6))

S2 =1

n� 2

"nXi=1

�Yi � Y

�2 �B21 nXi=1

(xi � x)2#

(7.11)

y se prueba que

E�S2�= �2

Page 168: Métodos Estadísticos-Félix Míguez Marín [2012]

166 7. MODELO LINEAL

7.2 Estimación de máxima verosimilitud

Suponemos ahora que Y (x) � N(�0 + �1x; �) (es decir, además de las hipótesis (7.1)

la distribución de Y (x) en cada x �jado es normal). Podemos entonces estimar los

parámetros mediante Máxima Verosimilitud.

La densidad de probabilidad en cada yi es

f (yi) =1

�p2�exp

�� 1

2�2[yi � (�0 + �1xi)]2

�y la función de verosimilitud resulta

L (�0; �1; �) =

�1

�p2�

�nexp

� 1

2�2

nXi=1

[yi � (�0 + �1xi)]2!

Es evidente que, cualquiera que sea �, los valores b0 y b1 de �0 y �1 que hacen

máximo L son los que hacen mínimo a

nXi=1

[yi � (�0 + �1xi)]2

es decir, coinciden con las estimaciones de mínimos cuadrados obtenidas antes.

En cuanto a la estimación de �2 resulta:

b�2 = 1

n

nXi=1

[yi � (b0 + b1xi)]2

que no coincide con la (7.5) insesgada que vamos a usar (ésta es obviamente sesgada).

7.3 Intervalos de con�anza

En la hipótesis Y (x) � N(�0 + �1x; �) el modelo lineal generaliza el caso estudiado enel capítulo anterior de una variable Y � N (�; �) a una variable Y (x) � N (� (x) ; �).

Como allí, se pueden acotar los errores de estimación (intervalos de con�anza) y realizar

predicciones sobre las observaciones futuras de Y (x) en cada x �jado (intervalos de

tolerancia).

Page 169: Métodos Estadísticos-Félix Míguez Marín [2012]

7.3. INTERVALOS DE CONFIANZA 167

7.3.1 Para los parámetros �0 y �1

Los estimadores B0 y B1 (7.7), funciones lineales de las Yi � N(�0 + �1xi; �) indepen-dientes, son también normales, con esperanzas �0 y �1 y las varianzas dadas en (7.8).

Por lo tantoB1 � �1

s1P

(xi � x)2

� N(0; 1)

y si se sutituye � por su estimador S se prueba que

B1 � �1

S

s1P

(xi � x)2

� t (n� 2)

de donde, con con�anza 1� �

�1 2 b1 � t1��=2 � s

s1P

(xi � x)2

!

y analogamente para �0.

Ejemplo 6 (cont. del 4) La estimación de la velocidad v = �1 de la partícula resultó

9:91mms�1. Hallemos una cota del error de estimación con con�anza 1� � = 0:95 Enla tabla III se lee t0:975 (4) = 2:7764 y con los valores de s = 1:6857 y

P�ti � t

�2= 17:5

allí obtenidos

t1��=2 � ss

1P�ti � t

�2 = 2:7764� 1:6857�r

1

17:5= 1:1188

resulta, con una con�anza del 95%

v = (9:91� 1:12) mms�1

7.3.2 Para el parámetro �

Se prueba que(n� 2)S2

�2� �2 (n� 2)

Page 170: Métodos Estadísticos-Félix Míguez Marín [2012]

168 7. MODELO LINEAL

y entonces, con con�anza 1� �

� 2 s

sn� 2�21��=2

; s

sn� 2�2�=2

!

7.3.3 Para la recta � (x) = �0 + �1x

El estimador B0 + B1x, insesgado de �0 + �1x, como es una función lineal de las Yiindependientes con distribución normal, tiene también una distribución normal, con la

varianza dada en (7.9)

E (B0 +B1x) = �0 + �1x

V ar (B0 +B1x) = �2

"1

n+

(x� �x)2P(xi � �x)2

#

Por tanto la variable aleatoria

(B0 +B1x)� (�0 + �1x)

s1

n+

(x� �x)2P(xi � �x)2

� N(0; 1)

y si se sustituye � por su estimador S se prueba que

(B0 +B1x)� (�0 + �1x)

S

s1

n+

(x� �x)2P(xi � �x)2

� t (n� 2)

Finalmente, con con�anza (1� �) es:

�0 + �1x 2 (b0 + b1x)� t1��=2 � s

s1

n+

(x� �x)2P(xi � �x)2

!

Ejemplo 7 (cont. del 5). Hallemos un intervalo para el rendimiento esperado a la

temperatura de 50 �C con 1� � = 0:99

Para una temperatura de 50 �C el rendimiento esperado se estimó de

b� (50) = 16:80 + 0:5733� 50 � 45:5 %

Page 171: Métodos Estadísticos-Félix Míguez Marín [2012]

7.4. DE TOLERANCIA PARA Y (X) 169

En la tabla III se lee t0:995 (8) = 3:3554 y

t1��=2 � s

s1

n+

(x� �x)2P(xi � �x)2

= 3:3554� 0:5627�

s1

10+(50� 67:5)2

2062:5= 0:9412

resulta, con una con�anza del 95%

� (50) = 45:5� 0:94 %

En la �gura se han dibujado los intervalos de con�anza de �(x) = �0+�1x para x desde

40 hasta 95 �C

40 50 60 70 80 9035

40

45

50

55

60

65

70

75

x (temperatura ºC)

y (re

ndim

ient

o %

)

7.4 De tolerancia para Y (x)

Un intervalo de tolerancia para Y (x) en un x �jado, de contenido p y con�anza 1� �,ambos valores especi�cados, está dado por dos números yL y yS tales que

P (yL < Y (x) < yS) � p

con con�anza 1 � �. Es decir, al menos el 100p% de los valores de Y medidos en el x

�jado se hallarán dentro del intervalo (yL; yS) con dicha con�anza. El intervalo es de la

Page 172: Métodos Estadísticos-Félix Míguez Marín [2012]

170 7. MODELO LINEAL

forma

yL = (b0 + b1x)� ks

yS = (b0 + b1x) + ks

y la solución k debe hallarse numéricamente (ver Complementos). Ademas dependede p; 1��; n; el punto x y las abscisas de la muestra (x1; :::; xn), por lo que no esposible una tabulación como para la variable normal (ver Capítulo 6).

Una solución aproximada es

k = u(1+p)=2

sn� 2�2�

241 + d22�d4�2u2(1+p)=2 � 3

�24

35d2 =

1

n+

(x� x)2P(xi � x)2

donde u(1+p)=2 es el cuantil de la N (0; 1) y �2� el de la ji-cuadrado de parámetro (n� 2)

Ejemplo 8 (cont.) calculemos un intervalo de tolerancia aproximado en x = 50 con

p = 0:95 y 1� � = 0:99

u(1+p)=2 = u0:975 = 1:96, �2� (n� 2) = �20:01 (8) = 1:6465

d2 =1

10+(50� 67:5)2

2062:5= 0:2485

1 +d2

2�d4�2u2(1+p)=2 � 3

�24

= 1 +0:2485

2�0:24852 �

�2� 1:962 � 3

�24

= 1:1122

k = 1:96�r

8

1:6465� 1:1122 = 4:8051

Con una con�anza del 99% al menos el 95% de los valores del rendimiento Y a la

temperatura de x = 50 �C estarán dentro del intervalo

b�(50)� k � s =

45:5� 4:8051� 0:5627 = (42:80; 48:20) %

Page 173: Métodos Estadísticos-Félix Míguez Marín [2012]

7.5. INTERPRETACIÓN GEOMÉTRICA 171

es decir, con dicha con�anza

P (42:80 < Y (50) < 48:20) � 0:95

En la �gura se han dibujado desde x = 40 hasta x = 95

40 50 60 70 80 9035

40

45

50

55

60

65

70

75

x (temperatura ºC)

y (r

endi

mie

nto 

%)

7.5 Interpretación geométrica

Consideremos las matrices

X =

0BBBB@1 x1

1 x2

::: :::

1 xn

1CCCCA=�1 x

�y =

0BBBB@y1

y2

:::

yn

1CCCCA b =

b0

b1

!(7.12)

donde b0 y b1 son números a determinar.

Si los n � 2 puntos (xi; yi) están sobre una recta entonces el sistema y =b01 +

b1x = Xb es compatible y determinado (dos ecuaciones distintas determinan la recta,

Page 174: Métodos Estadísticos-Félix Míguez Marín [2012]

172 7. MODELO LINEAL

las demás son combinaciones lineales de aquellas): geométricamente el vector y pertenece

al subespacio de Rn engendrado por las columnas de X.

Si no están sobre una recta el sistema es incompatible. Hallemos en este caso el

vector by = Xb de dicho subespacio (combinación lineal de las columnas de X) más

próximo al y en el sentido de la norma euclidea, es decir, tal que:

min ky �Xbk2 = minnXi=1

[yi � (b0 + b1xi)]2

Ello equivale a que y �Xb sea ortogonal al subespacio engendrado por las columnas deX:

XT (y �Xb) = 0

(donde 0 es un vector columna con dos ceros). Resulta el sistema (compruebe que es

idéntico al (7.3)):

XTXb = XTy (7.13)

El rango de XTX es el de X y el sistema tiene solución única si, y sólo si, el rango

de X es 2, es decir si al menos hay 2 abscisas xi distintas. En ese caso

b =�XTX

��1XTy (7.14)

Se prueba que el sistema (7.13) es formalmente la solución de mínimos cuadrados del

problema más general modelo lineal múltiple

Y (x) = �0 + �1x1 + �2x2 + � � �+ �kxk + U

donde la variable aleatoria Y es la variable dependiente, las variables no aleatorias xison las variables independientes, �jadas para el experimento, y la variable aleatoria U

representa el error de medida o en general el efecto de otros factores, aparte de las x,

sobre la Y . La matrices correspondientes a una muestra (xi1; xi2; :::; xik; yi) (i = 1; 2; ::n)

son

X =

0BBBB@1 x11 x12 ::: x1k

1 x21 x22 ::: x2k

::: ::: ::: ::: :::

1 xn1 xn2 ::: xnk

1CCCCA y =

0BBBB@y1

y2

:::

yn

1CCCCA b =

0BBBBBB@b0

b1

b2

:::

bk

1CCCCCCA

Page 175: Métodos Estadísticos-Félix Míguez Marín [2012]

7.6. VALORACIÓN DEL AJUSTE 173

7.6 Valoración del ajuste

Usaremos ahora una notación más breve frecuente en los textos: byi = b0 + b1xi.En la identidad

(yi � �y) = (yi � byi) + (byi � y)elevando al cuadrado y sumandoX

(yi � �y)2 =X

(yi � byi)2 +X (byi � y)2 + 2X (yi � byi) (byi � y)Pero X

(yi � byi) (byi � y) = 0pues

byi � y = (b0 + b1xi)� y

= (y � b1x+ b1xi)� y

= b1 (xi � x)

y X(yi � byi) (byi � y) = b1

X(yi � byi) (xi � x)

= b1X

(yi � byi)xi � b1xX (yi � byi)= 0

pues (7.2) X(yi � byi) = 0X

(yi � byi)xi = 0

Así que X(yi � �y)2 =

X(yi � byi)2 +X (byi � y)2

y de aquí X(yi � byi)2 =X (yi � �y)2 �

X(byi � y)2

Se llama suma de cuadrados residual a

SSres =X

(yi � byi)2

Page 176: Métodos Estadísticos-Félix Míguez Marín [2012]

174 7. MODELO LINEAL

suma de cuadrados total aSStot =

X(yi � �y)2

y suma de cuadrados explicada a

SSex =X

(byi � y)2que además puede escribirse (ver fórmula 7.6)

SSex =X

(byi � y)2 = b21X (xi � �x)2

En resumen

SSres = SStot � SSex

Como SSres � 0 es SSex � SStot.

De�nición 2 El coe�ciente de determinación R2 es la proporción de la suma decuadrados total explicada por la recta de mínimos cuadrados

R2 =SSexSStot

= 1� SSresSStot

De la de�ción resulta que 0 � R2 � 1.Además cuanto menor sea SSres, es decir, cuanto mejor se ajusten los puntos a la

recta, mayor es el valor de R2. En el caso extremo, si los puntos están sobre una recta

(ni horizontal ni vertical) SSres = 0 y entonces R2 = 1.

De�nición 3 El coe�ciente de correlación lineal de la muestra es

r =

P(xi � x) (yi � y)qP(xi � x)2

P(yi � �y)2

(7.15)

Observar que su signo es el de la pendiente b1 de la recta. Y que no está de�nido

siP(yi � �y)2 = 0 (en cuyo caso los puntos están sobre una recta horizontal) o siP

(xi � x)2 = 0 (en cuyo caso los puntos están sobre una recta vertical).Con él puede ponerse

SSex = b21X

(xi � �x)2 =(P(xi � x) (yi � y))2P

(xi � x)2= r2SStot

Page 177: Métodos Estadísticos-Félix Míguez Marín [2012]

7.7. REGRESIÓN LINEAL SIMPLE 175

así que

SSres = SStot � SSex = SStot�1� r2

�Como SSres � 0 es claro que jrj � 1 (desigualdad de Schwarz).Los puntos (xi; yi) están sobre una recta (ni horizontal ni vertical) si, y sólo si,

SSres = 0, es decir, si jrj = 1.Además de la de�nición de R2 resulta que

R2 = r2

Ejemplo 9 (cont. del 5)Pxi = 675;

Px2i = 47625;

Pyi = 555;

Py2i = 31483;P

xiyi = 38645P(xi � x) (yi � y) = 38645� 675� 555=10 = 1182:5P(xi � x)2 = 2062:5;

P(yi � y)2 = 680:5

b1 =38645� 675� 555=10

2062:5=1182:5

2062:5= 0:573b3

b0 = y � b1x = 55:5� 0:573b3� 67:5 = 16:8023SSres = 680:5� 0:573b32 � 2062:5 = 2:533

SStotP(yi � �y)2 680:5

SSresP(yi � byi)2 2:533

SSex 677:967

R2 =SSexSStot

=677:967

680:5= 0:996

es decir la recta ajustada explica el 99:6% de la variabilidad en los valores del rendimiento.

Además

r =1182:5p

2062:5� 680:5= 0:9981

7.7 Regresión lineal simple

Supongamos ahora una Va bidimensional (X;Y ). Para estudiar la relación entre ambas

variables se dispone de una muestra de n observaciones (xi; yi) en la que, a diferenciade lo supuesto en el modelo lineal, ninguna de las dos es controlada o �jada.

Ahora nos interesamos en alguna de las dos Vas condicionales (Y j X = x) ó (X j Y = y)y en particular en sus esperanzas E (Y j X = x) ó E (X j Y = y) (ver 3.10).

Consideremos el caso en que la densidad conjunta f (x; y) es normal. Se prueba que

Page 178: Métodos Estadísticos-Félix Míguez Marín [2012]

176 7. MODELO LINEAL

queda determinada por X � N (�X ; �X) e Y � N (�Y ; �Y ) y además por el coe�cientede correlación � entre ambas (en el sentido de la de�nición 4 de 3.9)

� =�XY�X�Y

donde �XY = Cov (X;Y )

Se prueba que la Va condicional (Y j X = x) es normal con

E (Y j X = x) = �Y +�Y�X� (x� �X)

V ar (Y j X = x) = �2Y�1� �2

�y la (X j Y = y) es normal con

E (X j Y = y) = �X +�X�Y� (y � �Y )

V ar (X j Y = y) = �2X�1� �2

�Las dos funciones E (Y j X = x) y E (X j Y = y) se llaman históricamente fun-

ciones de regresión lineal.

Puede verse entonces que la Va (Y j X = x) satisface las hipótesis del modelo lineal

simple con distribución normal (sección 7.2) pues su esperanza es de la forma

E (Y j X = x) = �0 + �1x

con

�0 = �Y � �1�X�1 = �

�Y�X

y su varianza es constante (no depende de x)

V ar (Y j X = x) = �2Y�1� �2

�Y lo mismo puede decirse de la (X j Y = y), cuya esperanza es

E (X j Y = y) = �0 + �1y

Page 179: Métodos Estadísticos-Félix Míguez Marín [2012]

7.7. REGRESIÓN LINEAL SIMPLE 177

con

�0 = �X � �1�Y�1 =

�X�Y�

y varianza constante

V ar (X j Y = y) = �2X�1� �2

�En conclusión, el método de máxima verosimilitud para la estimación con la muestra

de n observaciones (xi; yi) de la función E (Y j X = x) = �0+�1x conduce a una solución

formalmente idéntica a la del modelo lineal simple (7.4). Y otra análoga para la

E (X j Y = y) = �0 + �1x. Todo lo dicho en las secciones 7.3 hasta la 7.6 inclusive esde aplicación al caso.

Además ahora las fórmulas del modelo lineal admiten una reescritura en términos de

estimaciones de los parámetros de la Va (X;Y ):

Las estimaciones de �X y �Y son x e y.

Las estimaciones de �2X y �2Y son s

2X y s

2Y (varianzas muestrales).

Una estimación insesgada de �XY = E ((X � �X) (Y � �Y )) es

sXY =1

n� 1X

(xi � x) (yi � y)

y una estimación (sesgada) de � es el coe�ciente de correlación lineal de la muestra (7.15)

r =sXYsXsY

=

P(xi � x) (yi � y)qP(xi � x)2

P(yi � �y)2

En la regresión de Y sobre X, E (Y j X = x) = �0 + �1x:

La estimación b1 del coe�ciente �1 = ��Y�X

es

b1 =

P(xi � x) (yi � y)P

(xi � x)2= r

sYsX

La estimación b0 del coe�ciente �0 = �Y � �1�X es

b0 = y � b1x

La recta estimada es

b0 + b1x = �y + rXYsYsX(x� �x)

Page 180: Métodos Estadísticos-Félix Míguez Marín [2012]

178 7. MODELO LINEAL

y análogamente en la de X sobre Y .

7.8 Ejercicios propuestos

1. Para estudiar la corrosión de cierta aleación se ha realizado un experimento con-

trolado en el que se mide la ganancia en peso de la muestra Y (en %) (que indíca

la cantidad de oxígeno que ha reaccionado) a distintos tiempos de exposición x (en

h)

x 1 2 2:5 3 3:5 4

y 0:02 0:03 0:035 0:042 0:05 0:054

a) gra�que los puntos, ajuste un modelo lineal y calcule R2: b) Calcule un intervalode con�anza del 95% para la ganancia esperada a x = 3:2 h c) Calcule un intervalode tolerancia de contenido 0:9 con con�anza 95% en x = 3:2 h.

2. Para estudiar la relación entre la longitud (en cm) nominal (x) y real (y) de ciertas

piezas mecanizadas en serie se ha obtenido la siguiente muestra:

x y14 0:262 0:262 0:24512 0:496 0:512 0:49034 0:743 0:744 0:751

1 0:976 1:010 1:004

114 1:265 1:254 1:252

112 1:498 1:518 1:504

134 1:738 1:759 1:750

2 2:005 1:992 1:992

a) gra�que los puntos, ajuste un modelo lineal y calcule R2. b) Calcule un intervalode con�anza 95% para la longitud media fabricada correspondiente a la nominal

de 1 cm: c) calcule un intervalo de tolerancia de contenido 0:99 y con�anza 0:95para las longitudes fabricadas correspondientes a la nominal de 1 cm:

3. Un método para medir g (aceleración de la gravedad) consiste en un electroiman

que sujeta una bola de acero a distancia �jada d del suelo. Cuando se interrumpe

la corriente se libera la bola, que cae, y automáticamente se pone en marcha

un cronómetro. Cuando la bola llega al suelo golpea un sensor que detiene el

cronómetro, obteniéndose el tiempo de caida t.

Page 181: Métodos Estadísticos-Félix Míguez Marín [2012]

7.8. EJERCICIOS PROPUESTOS 179

La ecuación del movimiento es d = 12gt

2, de donde t =p1=g

p2d. Sin embargo,

en la medida de los tiempos t para cada valor de d �jado hay 2 fuentes posibles de

error de valor desconocido: uno sistemático debido a que el campo del electroimán

no se extingue inmediatamente, y otro experimental o aleatorio U . El modelo que

describe el experimento es

Y = �0 + �1p2d+ U

donde Y es el tiempo medido, �0 es el error sistemático, �1 = 1=pg y U es el error

experimental, con E (U) = 0 y V ar (U) = �2.

Se dispone de la muestra

d (m) 0:20 1:00 2:00 3:00 5:00

y ( s) 0:26 0:50 0:68 0:82 1:07

a) Estimar los parámetros �0 y �1. Estimar g a partir de �1. Interpretar el valorestimado de �0. b) dibujar los puntos experimentales y la función ajustada, enejes (d; y) y (

p2d; y). c) estimar la desviación típica � del error experimental, y

la desviación típica del estimador de �1.

4. (cont.) Escribir la matrizX (según (7.12)) correspondiente a una muestra ((d1; y1);

(d2; y2); :::(dn; yn)) para el problema

Y = �0 + �1p2d+ U

5. Recta por el origen: sea el modelo

Y = �x+ U

con E (U) = 0 y V ar (U) = �2 que equivale a E (Y ) = �x y V ar (Y ) = �2. Dada

la muestra ((x1; y1); (x2; y2); :::(xn; yn)) hallar la estimación b de � de modo que

sea mínimo el valor de

q (b) =nXi=1

[yi � bxi]2

6. (cont.) Escribir la matriz X según (7.13) correspondiente a una muestra ((x1; y1);

(x2; y2); :::(xn; yn)) para el problema

Y = �1x+ U

Page 182: Métodos Estadísticos-Félix Míguez Marín [2012]

180 7. MODELO LINEAL

7. De una muestra se conocen los siguientes datos: r = 0:9; sX = 1:2; sY = 2:1;

x = 5; y = 10 A partir de los mismos, obténganse las rectas de regresión mínimo

cuadráticas de X sobre Y y de Y sobre X.

8. A partir de una muestra de valores de las variables X e Y , se ha determinado la

regresión de Y sobre X, obteniéndose

b0 = 10, b1 = 0:45, R2 = 0:9 y x = 20: Calcular la recta de X sobre Y .

9. Demostrar que r es invariante a cambios de origen y escala. Usando este resultado

demostrar que el coe�ciente de correlación de los puntos (xi; yi) es el mismo que

el de los puntos (byi; yi).10. Se dispone de 4 muestras distintas de tamaño n = 11 (las 1,2 y 3 con idénticos

valores de x). Calcule en cada caso la recta de mínimos cuadrados, realizando el

dibujo de los puntos con su recta, y halle el valor de r.

1� 3 1 2 3 4 4

obs x y y y x y

1 10:0 8:04 9:14 7:46 8:0 6:58

2 8:0 6:95 8:14 6:77 8:0 5:76

3 13:0 7:58 8:74 12:74 8:0 7:71

4 9:0 8:81 8:77 7:11 8:0 8:84

5 11:0 8:33 9:26 7:81 8:0 8:47

6 14:0 9:96 8:10 8:84 8:0 7:04

7 6:0 7:24 6:13 6:08 8:0 5:25

8 4:0 4:26 3:10 5:39 19:0 12:50

9 12:0 10:84 9:13 8:15 8:0 5:56

10 7:0 4:82 7:26 6:42 8:0 7:91

11 5:0 5:68 4:74 5:73 8:0 6:89

11. Tomemos la función y = x2. Elijamos n abscisas xi simétricas respecto al origen,

de modo quePxi = 0, y sus correspondientes ordenadas yi = x2i . Así que los n

puntos (xi; yi) están sobre la parábola. Calcule el coe�ciente de correlación lineal.

12. Halle el polinomio Pm(x) =Pmj=0 bjx

j de grado m que aproxima en el sentido de

mínimos cuadrado la muestra (xi; yi) de n observaciones, es decir que hace mínimo

el valor de:

q =

nXi=1

[yi � Pm(xi)]2 =nXi=1

24yi � mXj=0

bjxji

352

Page 183: Métodos Estadísticos-Félix Míguez Marín [2012]

7.8. EJERCICIOS PROPUESTOS 181

(sugerencia: ver (7.13) y forme las matrices X y XTX correspondientes).

13. Ajuste un polinomio a los siguientes datos:

x 1 2 3 4 5 6 7 8 9 10

y 20:6 30:8 55 71:4 97:3 131:8 156:3 197:3 238:7 291:7

14. En 1973 el ingeniero holandés J.R. de Jong propuso el siguiente modelo para el

tiempo T que se tarda en realizar una tarea manual simple en función del número

de veces que se ha practicado: T � ts�n donde T es el tiempo, n el número de

veces y t y s parámetros que dependen de la tarea y el individuo. Estime t y s con

los siguientes datos

T 22:4 21:3 19:7 15:6 15:2 13:9 13:7

n 0 1 2 3 4 5 6

(sugerencia: linearize el modelo).

Page 184: Métodos Estadísticos-Félix Míguez Marín [2012]
Page 185: Métodos Estadísticos-Félix Míguez Marín [2012]

8

Modelización

8.1 Introducción

La ley de probabilidades de la Va con la que se trabaja puede ser de forma conocida

pero desconocidos sus parámetros o completamente desconocida.

Cuando es de forma conocida el problema se reduce a estimar los parámetros a

partir de una muestra como hemos estudiado en los capítulo anteriores. Por ejemplo la

ley binomial corresponde a un experimento muy concreto, o la normal a la que suelen

ajustarse los errores de medida; muchas veces la ley se deduce de un modelo físico que

después ha de ser comprobado experimentalmente, como la exponencial para el tiempo

de vida de los átomos radiactivos, la normal para la velocidad de las moléculas de un

gas ideal, o la de Maxwell para su rapidez.

En muchas ocasiones, sin embargo, la ley es completamente desconocida y se plantea

el problema de la aproximación de alguna de las funciones equivalentes F (x) (distribu-

ción), f (x) (masa o densidad) ó F�1 (p) (cuantiles) que determinan su distribución de

probabilidades, sin recurrir a ninguna forma particular: lo que se llama una estimación

no paramétrica.

Por último una estimación no paramétrica puede servir para elegir un modelo paramé-

trico, comparando el ajuste de aquélla con el candidato paramétrico.

183

Page 186: Métodos Estadísticos-Félix Míguez Marín [2012]

184 8. MODELIZACIÓN

8.2 La función de distribución empírica

Como se sabe, la especi�cación de la distribución de probabilidades de X, sea ésta

discreta o continua, puede hacerse con la función de distribución:

F (x) = P (X � x) 8x 2 R

Una estimación obvia de F (x) a partir de una muestra (x1; x2; :::; xn) de X se obtiene

estimando la probabilidad por la correspondiente frecuencia relativa experimental:

De�nición 1 La función de distribución empírica es

bF (x) = n(� x)n

8x 2 R

donde n(� x) denota el número de elementos de la muestra que son menores o igualesque x.

Para construir con facilidad bF (x) conviene basarse en la muestra ordenada envalores crecientes, que denotamos (x(1); x(2); :::x(n)). Por medio de ella la función de

distribución empírica es:

bF (x) =8><>:

0 x < x(1)

k=n x(k) � x < x(k+1)1 x � x(n)

y se ve que equivale a una asignación de masa de probabilidad 1=n a cada elemento de

la muestra.

Ejemplo 1 supongamos la muestra �cticia (3; 5; 1; 5; 8; 7; 6). La muestra ordenada es(1; 3; 5; 5; 6; 7; 8). La función de distribución empírica es

bF (x) =

8>>>>>>>>>>><>>>>>>>>>>>:

0 x < 1

1=7 1 � x < 32=7 3 � x < 54=7 5 � x < 65=7 6 � x < 76=7 7 � x < 81 x � 8

Page 187: Métodos Estadísticos-Félix Míguez Marín [2012]

8.2. LA FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA 185

0 1 2 3 4 5 6 7 8 90

1/7

2/7

3/7

4/7

5/7

6/7

1

x

F̂(x)

Ejemplo 2 Se dispone de una muestra de 106 observaciones de la variable aleatoria T ,tiempo en minutos entre cada 2 llegadas consecutivas de camiones a un punto de carga

desde un instante de observación inicial:

(8; 30; 17; 65; 8; 38; 35; 4; 19; 7; 14; 12; 4; 5; 4; 2; 7; 5; 12; 50;

33; 10; 15; 3; 10; 1; 5; 30; 41; 21; 31; 1; 18; 12; 5; 24; 7; 6; 31; 0;

4; 2; 20; 1; 30; 2; 1; 3; 12; 12; 9; 28; 6; 50; 63; 5; 17; 11; 24; 0;

47; 90; 13; 21; 55; 43; 5; 19; 47; 24; 4; 6; 27; 4; 6; 37; 16; 41; 68; 11;

5; 28; 42; 3; 42; 8; 52; 2; 11; 41; 4; 35; 21; 3; 17; 10; 16; 0; 69; 105;

45; 23; 5; 10; 12; 17).

El primer camión llegó 8 min después del comienzo de las observaciones; el segundo

30 min después del primero, el tercero 17 después del segundo...

La muestra ordenada es:

(0; 0; 0; 1; 1; 1; 1; 2; 2; 2; 2; 3; 3; 3; 3; 4; 4; 4; 4; 4;

4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 6; 6; 6; 6; 7; 7; 7; 8; 8; 8;

9; 10; 10; 10; 10; 11; 11; 11; 12; 12; 12; 12; 12; 12; 13; 14; 15; 16; 16; 17;

17; 17; 17; 18; 19; 19; 20; 21; 21; 21; 23; 24; 24; 24; 27; 28; 28; 30; 30; 30;

31; 31; 33; 35; 35; 37; 38; 41; 41; 41; 42; 42; 43; 45; 47; 47; 50; 50; 52; 55;

63; 65; 68; 69; 90; 105)

Es decir, t(1) = t(2) = t(3) = 0; t(4) = � � � = t(7) = 1; :::,; t(106) = 105.

Page 188: Métodos Estadísticos-Félix Míguez Marín [2012]

186 8. MODELIZACIÓN

La función de distribución empírica es:

bF (t) =

8>>>>>>>>>>><>>>>>>>>>>>:

0 t < 0

3=106 0 � t < 17=106 1 � t < 211=106 2 � t < 3

:::

105=106 90 � t < 1051 t � 105

0 20 40 60 80 100 1200

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

t (minutos)

F̂(t)

Las propiedades del estimador bF (x) se dan en los Complementos.

Page 189: Métodos Estadísticos-Félix Míguez Marín [2012]

8.3. LA FUNCIÓN DE MASA EMPÍRICA 187

8.3 La función de masa empírica

Sea una Va discreta X cuya función de masa desconocida f (x) = P (X = x) deseamos

aproximar a partir de una muestra (x1; x2; :::; xn). Una estimación no paramétrica de

f(x) a partir de una muestra (x1; x2; :::; xn) de X se obtiene estimando la probabilidad

por la correspondiente frecuencia relativa experimental.

De�nición 2 Si en la muestra hay k valores distintos S = fa1; a2; :::; akg se agrupansegún sus repeticiones. La muestra agrupada es (n (x) ; x 2 S) ; donde n (x) es el númerode elementos de la muestra que son iguales a x, y

Px2S n (x) = n.

La función de masa empírica es

bf (x) = n (x)

nx 2 S

Las propiedades del estimador bf (x) se dan en los Complementos.Ejemplo 3 Rutherford, Geiger y Bateman (Phil. Mag., 1910) observaron una subs-tancia radioactiva durante 2608 intervalos de 7.5 segundos cada uno, registrándose con

un detector el número x de particulas alfa emitidas cada intervalo, con los resultados

x 0 1 2 3 4 5 6 7 8 9 10 11 12

n (x) 57 203 383 525 532 408 273 139 45 27 10 4 2

En la tabla I se calculan las frecuencias relativas (función de masa empírica) de

cada valor x observado, y en la �gura se muestra la grá�ca correspondiente. Los autores

propusieron como modelo plausible para la función de masa desconocida el de Poisson

f (x) = exp (��) �x

x!x = 0; 1; 2; :::

en el cual la estimación MV de � es x (ejercicio 8 del capítulo 6)

x =1

2608

12Xx=0

x� n (x) = 3:87 cuentas/7.5 s

y en la tabla y en la �gura se incluye para comparación dicho modelo

f (x) = exp (�3:87) (3:87)x

x!x = 0; 1; 2; :::

Page 190: Métodos Estadísticos-Félix Míguez Marín [2012]

188 8. MODELIZACIÓN

Tabla I

x n (x) freq. rel. Poisson

0 57 0:0219 0:0209

1 203 0:0778 0:0807

2 383 0:1469 0:1562

3 525 0:2013 0:2015

4 532 0:2040 0:1949

5 408 0:1564 0:1509

6 273 0:1047 0:0973

7 139 0:0533 0:0538

8 45 0:0173 0:0260

9 27 0:0104 0:0112

10 10 0:0038 0:0043

11 4 0:0015 0:0015

12 2 0:0008 0:0005

2608 1 0:9998

0 1 2 3 4 5 6 7 8 9 10 11 120

0.05

0.1

0.15

0.2

0.25

número de cuentas

prob

abilid

ad

        Freq. relativa

        Poisson

Page 191: Métodos Estadísticos-Félix Míguez Marín [2012]

8.4. LA FUNCIÓN DE DENSIDAD EMPÍRICA 189

8.4 La función de densidad empírica

Sea una Va continuaX cuya función de densidad desconocida f (x) deseamos aproximar

a partir de una muestra (x1; x2; :::; xn).

Como

f(x) = F 0(x) = limh!0

F (x+ h)� F (x)h

para aproximar f (x) debemos estimar F (x+h)�F (x) con un valor de h su�cientementepequeño. Una estimación sería entonces

bF (x+ h)� bF (x) = n(x; x+ h]

n

donde n(x; x+h] denota el número de elementos de la muestra que están en el intervalo

(x; x+ h]. Finalmente

bf(x) = bF (x+ h)� bF (x)h

=n(x; x+ h]

n� 1

h

La di�cultad para llevar a la práctica la idea anterior está en que n es �nito con lo

que, si h es demasiado pequeño, en el intervalo (x; x+ h] no habrá ningún elemento de

la muestra o habrá tan sólo uno.

Debemos conformarnos entonces con utilizar un valor de h no demasiado pequeño

que permita estimar la probabilidad F (x + h) � F (x). Ello signi�ca que en lugar deaproximar f (x) estaremos aproximando su valor medio en el intervalo, pues

F (x+ h)� F (x)h

=P (x < X � x+ h)

h=1

h

Z x+h

xf (u) du

El método de trabajo habitual es el siguiente:

1. se elige el valor adecuado de h en función de la muestra disponible. Para ello hay

diversos criterios orientativos. Por ejemplo

h � 3:5s

n1=3

donde s es la desviación típica de la muestra.

2. se elige un origen a0 � min (x1; x2; :::; xn).

3. se consideran a partir del origen intervalos1 de longitud h hasta cubrir la muestra1 se usan intervalos (a; b] para que cada observación xi se incluya en uno solo, pero también podríamos

Page 192: Métodos Estadísticos-Félix Míguez Marín [2012]

190 8. MODELIZACIÓN

(llamados tambien clases; bins en inglés):

I1 = [a0; a0 + h]; I2 = (a0 + h; a0 + 2h]; :::Im = (a0 + (m� 1)h; a0 +mh]

de manera que a0 +mh � max (x1; x2; :::; xn).

4. en cada uno de dichos m intervalos Ij se estima la densidad media de probabilidad

connjnh

(j = 1; :::;m)

donde nj es el número de elementos de la muestra incluidos en el intervalo Ij (así

quePmj=1 nj = n).

Se llama histograma (o función de densidad empírica) a la función

bf (x) =8>>>>>>><>>>>>>>:

0 x < a0

njnh

x 2 Ij

0 x > a0 +mh

que es efectivamente una función de densidad:ZRbf (x) dx = mX

j=1

Z a0+jh

a0+(j�1)hbf (x) dx = mX

j=1

njnh

� h = 1

n

mXj=1

nj = 1

Ejemplo 4 (cont. del 2) Construyamos un histograma de la muestra de 106 intervalosde tiempo entre llegadas sucesivas de camiones a un punto de carga. Tomaremos x0 = 0.

La desviación típica muestral es s = 20:33 min y resulta como valor orientativo

h =3:5� 20:33

3p106

= 15:035

y tomaremos h = 15. Resultan los intervalos: [0; 15]; (15; 30]; (30; 45]; :::(90; 105]. Ahora

los valores nj de observaciones en cada intervalo se hallan con comodidad sobre la mues-

utilizar intervalos [a; b). Teóricamente son equivalentes pues para una variable continua

P (a < X < b) = P (a � X < b) = P (a < X � b) = P (a � X � b)

Page 193: Métodos Estadísticos-Félix Míguez Marín [2012]

8.4. LA FUNCIÓN DE DENSIDAD EMPÍRICA 191

tra ordenada. Los cálculos se resumen en la tabla adjunta

Tabla II

Ij njnjn

njnh

[0; 15] 57 0:5377 0:0358

(15; 30] 23 0:2170 0:0145

(30; 45] 14 0:1321 0:0088

(45; 60] 6 0:0566 0:0038

(60; 75] 4 0:0377 0:0025

(75; 90] 1 0:0094 0:0006

(90; 105] 1 0:0094 0:0006

106 1

0 20 40 60 80 100 1200

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

0.05

tiempo entre llegadas en min

dens

idad

 de 

prob

abili

dad

La forma del histograma sugiere que un modelo plausible para la densidad f (t) puede

ser el exponencial

f (t) = � exp (��t) t > 0

Page 194: Métodos Estadísticos-Félix Míguez Marín [2012]

192 8. MODELIZACIÓN

y como el valor de la media muestral es t = 20:38 min, la estimación MV de � es

1=t = 0:05 camiones/min. En la �gura se ha superpuesto al histograma dicho modelo

f (t) = 0:05 exp (�0:05t) t > 0

Ejemplo 5 (cont.) La función de distribución correspondiente es

F (t) = 1� exp(�0:05t) t > 0

y en la �gura se superpone a la función de distribución empírica calculada en el ejemplo

2.

0 20 40 60 80 100 1200

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

t (minutos)

F(t)

Page 195: Métodos Estadísticos-Félix Míguez Marín [2012]

8.5. LA FUNCIÓN DE CUANTILES EMPÍRICA 193

8.5 La función de cuantiles empírica

Sea ahora X continua. Entonces su función de distribución F (x) es continua y existela función inversa x = F�1(p), p 2 (0; 1), llamada función de cuantiles y que suele

denotarse x = Q(p).

Como una estimación de F (x) es la función de distribución empírica bF (x), entoncesuna estimación de Q(p) debería ser la inversa de bF (x). Pero esta carece de inversa: six(k) 6= x(k+1) y se elige p = k=n, entonces el valor inverso de bF (x) = k=n podría ser

cualquier x de [x(k); x(k+1)).

Ejemplo 6 para la muestra (1; 3; 5; 5; 6; 7; 8) es bF (x) = 4=7 si x 2 [5; 6).La solución más utilizada consiste en suavizar bF (x) sustituyendo los tramos hori-

zontales por otros inclinados que sí permitan la inversión, del siguiente modo:

Se asocia a cada x(k) la probabilidad

x(k) 7�! pk =k � 0:5n

k = 1; 2; :::; n

y, para k = 1; 2; :::; n� 1, se conecta el par de puntos�x(k);

k�0:5n

�y�x(k+1);

(k+1)�0:5n

�mediante un segmento de recta.

Ejemplo 7 En la �gura se muestra la función de distribución empírica y la suavizaciónlineal propuesta para la muestra (1; 3; 5; 5; 6; 7; 8):

0 1 2 3 4 5 6 7 8 90

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

p

función de distribución empírica

suavización lineal

Page 196: Métodos Estadísticos-Félix Míguez Marín [2012]

194 8. MODELIZACIÓN

Ahora si p 2 [k�0:5n ; (k+1)�0:5n ) determinamos la abscisa x = bQ(p) que le correspondeinterpolando: la ecuación de la recta es

x� x(k)x(k+1) � x(k)

=p� k�0:5

n(k+1)�0:5

n � k�0:5n

=p� k�0:5

n1n

= np� k + 0:5

y resulta

x = bQ(p) = x(k) + (np� k + 0:5) �x(k+1) � x(k)�Además si p < 1�0:5

n es bQ(p) = x(1), y si p > n�0:5n es bQ(p) = x(n).

En la práctica, dado p 2 (0; 1) primero hay que averiguar el segmento para interpo-lación, es decir el k tal que

k � 0:5n

� p < (k + 1)� 0:5n

o lo que es igual

k � np+ 0:5 < k + 1

y resulta que k es la parte entera de np+ 0:5. Reunimos todo ello en una de�nición:

De�nición 3 (cuantil empírico) Sea (x(1); x(2); :::; x(n)) una muestra ordenada de tamañon de un variable aleatoria continua X. Para p 2 (0; 1), sea

np+ 0:5 = k + r

donde k es la parte entera y r 2 [0; 1) la fraccionaria. El cuantil empírico de orden p es

bQ(p) = x(k) + r �x(k+1) � x(k)�Además, si k = 0 entonces bQ(p) = x(1) y si k = n entonces bQ(p) = x(n).Ejemplo 8 con la muestra (1; 3; 5; 5; 6; 7; 8) para p = 1=4 es

7� 14+1

2= 2 +

1

4

así que bQ(1=4) = x(2) + 0:25(x(3) � x(2)) = 3 + 0:25(5� 3) = 3:5Y para p = 3=4 es

7� 34+1

2= 5 +

3

4

Page 197: Métodos Estadísticos-Félix Míguez Marín [2012]

8.5. LA FUNCIÓN DE CUANTILES EMPÍRICA 195

así que bQ(3=4) = x(5) + 0:75(x(6) � x(5)) = 6 + 0:75(6� 5) = 6:75

0 1 2 3 4 5 6 7 8 90

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

p

Q̂(p)

Ejemplo 9 (cont. del 5):para p = 1=4 es

106� 14+1

2= 27 + 0

así que bQ(1=4) = x(27) = 5 minpara p = 3=4 es

106� 34+1

2= 80 + 0

así que bQ(3=4) = x(80) = 30 minpara p = 0:8 es

106� 0:8 + 12= 85 + 0:3

así que bQ(0:8) = x(85) + 0:3(x(86) � x(85)) = 35 + 0:9(37� 35) = 36:8 minSe llaman primero, segundo y tercer cuartil a bQ(1=4), bQ(1=2) y bQ(3=4), y se

denotan también q1, q2 y q3.

Se llaman percentiles a los bQ(p) correspondientes a p = 0:01; 0:02; :::; 0:99.Nota: La asociación x(k) ! pk = (k � 0:5) =n signi�ca que por de�nición x(k) es

el cuantil de orden pk. Otros criterios para interpolar el cuantil bQ(p) de una muestrade tamaño n de una magnitud continua se obtienen con otras elecciones de las proba-

bilidades pk. Además de la anterior otra común en ingeniería es pk = k= (n+ 1). Con

Page 198: Métodos Estadísticos-Félix Míguez Marín [2012]

196 8. MODELIZACIÓN

cualquiera de ellas si n ! 1 el cuantil bQ(p) tiende a partir la muestra ordenada enproporciones p y 1� p (es decir, converge en probabilidad a Q(p)).

8.6 Modelización con los cuantiles

Sea la muestra ordenada (x(1); x(2); :::; x(n)), es decir los cuantiles estimados x(k) = bQ(pk)correspondientes a las probabilidades pk (k = 1; 2; :::; n). Si la función de cuantiles teórica

de la variable aleatoriaX de la que proviene la muestra es x = Q(p), los cuantiles teóricos

correspondientes son Q (pk) y tenderán a ser aproximadamente iguales a sus estimaciones

(tanto más cuanto mayor sea n), es decir

x(k) � Q(pk) k = 1; 2; :::n

y resulta que los puntos (Q(pk); x(k)) (teóricos,empíricos) se ajustarán aproximadamente

a una recta de pendiente 450 que pasa por el origen.

Se llama grá�co cuantil-cuantil (qq-plot) al de los puntos (Q(pk); x(k)) para compro-

bar si cierto modelo teórico Q(p) es adecuado a la muestra.

En principio, para calcular los Q(pk) habría que conocer, o estimar, los parámetros

del modelo. Sin embargo muchas veces Q(p) depende linealmente de sólo uno o dos

parámetros desconocidos, sea Q(p) = a+ bQ0(p), donde Q0 (p) no depende ya de ningún

parámetro, de manera que el grá�co de los puntos (Q0(pk); x(k)) se ajustará a una recta.

Si ello es así su pendiente b y su ordenada a pueden estimarse entonces por mínimos

cuadrados, y de sus valores deducir los parámetros del modelo Q (p).

Ejemplo 10 Si X es exponencial de parámetro �

F (x) = 1� exp(��x) = p

x = � 1�ln (1� p)

así que Q0 (p) = � ln (1� p) y los puntos (� ln (1� pk) ; x(k)) deberían ajustarse a unarecta de pendiente b = ��1 y ordenada 0.

Ejemplo 11 Si X es normal de parámetros � y �

F (x) = �

�x� ��

�= p

x = ���1(p) + �

Page 199: Métodos Estadísticos-Félix Míguez Marín [2012]

8.6. MODELIZACIÓN CON LOS CUANTILES 197

así que Q0 (p) = ��1 (p) y los puntos (��1(pk); x(k)) deberían ajustarse a una recta de

pendiente b = � y ordenada a = �.

Nota: hemos construido el grá�co poniendo en abscisas los valores Q(pk) (teóricos) yen ordenadas los x(k) (experimentales) y la recta de mínimos cuadrados es la convencional

(minimizando las desviaciones de las x(k) sobre la recta). En muchos paquetes de software

estadístico los ejes pueden estar al revés, pero la recta de ajuste debe ser siempre en

el mismo sentido (experimentales sobre teóricos). También es frecuente gra�car las

posiciones de los Q (pk) con los valores de pk (grá�cos probabilísticos).

8.6.1 Estimación de los parámetros

Las estimaciones de mínimos cuadrados de los parámetros a y b de Q (p) = a+ bQ0 (p),

a partir de los n puntos (Q0 (pi) ; x(i)) son:

b =

Px(i)Q0 (pi)�

�Px(i)�(PQ0 (pi)) =nP

Q20 (pi)� (PQ0 (pi))

2 =n

a =�X

x(i) � bX

Q0 (pi)�=n

Ejemplo 12 Construyamos como ejercicio el grá�co cuantil-cuantil para la muestra �c-ticia (1; 3; 5; 5; 6; 7; 8) con un modelo gaussiano. Como n = 7 las probabilidades asociadas

a cada elemento de la muestra (cuantiles empíricos) con pk = (k � 0:5)=7 son

pk = (0:0714; 0:2143; 0:3571; 0:5000; 0:6429; 0:7857; 0:9286)

y los cuantiles teóricos con la N(0; 1) correspondientes a estas probabilidades son

��1(pk) = (�1:4652;�0:7916;�0:3661; 0; 0:3661; 0:7916; 1:4652)

A continuación se muestra el grá�co (��1(pk); x(k)) en el que se incluye la recta de ajuste

Page 200: Métodos Estadísticos-Félix Míguez Marín [2012]

198 8. MODELIZACIÓN

de mínimos cuadrados.

­1.5 ­1 ­0.5 0 0.5 1 1.51

2

3

4

5

6

7

8

9

Φ­1 (pk)

x(k)

La recta de ajuste de mínimos cuadrados es (en este caso es Q0 = 0)

b =

Px(i) � ��1 (pi)P(��1 (pi))

2 = 2:3712

a = x =1

n

Xx(i) = 5

Si se considerase que el ajuste es satisfactorio, se modelizaría la variable aleatoria X de

la que proviene la muestra como gaussiana con � estimada 5 y � estimada 2:37

Ejemplo 13 (cont. del 5) En la �gura se muestra el qq-plot de la muestra de 106

intervalos de tiempo entre llegadas sucesivas de camiones a un punto de carga suponiendo

un modelo exponencial.

Como n = 106 las probabilidades asociadas a cada elemento de la muestra (cuantiles

empíricos) con pk = (k � 0:5)=106 son

pk = (0:0047; 0:0142; 0:0236; :::; 0:9858; 0:9953)

y los cuantiles teóricos con la Q0 (p) = � ln (1� p) correspondientes a estas probabili-

Page 201: Métodos Estadísticos-Félix Míguez Marín [2012]

8.6. MODELIZACIÓN CON LOS CUANTILES 199

dades son

Q0(pk) = (0:0047; 0:0143; 0:0239; :::; 4:2580; 5:3566)

0 1 2 3 4 5 6­20

0

20

40

60

80

100

120

140

­log(1­p k))

x(k)

Los parámetros de la recta de mínimos cuadrados son b = 20:5564 y a = �0:1119,que pasa prácticamente por el origen. La pendiente teórica es ��1 así que el parámetro

� estimado por mínimos cuadrados es b� = 1=b = 0:0486 (recordar que la estimación demáxima verosimilitud de ��1 = E (X) para la exponencial es x, que en la muestra vale

20:3774 así que la estimación de máxima verosimilitud de � es 0:0491)

Page 202: Métodos Estadísticos-Félix Míguez Marín [2012]

200 8. MODELIZACIÓN

8.7 Resumen y comparación de muestras

El objetivo es resumir en unos pocos números aspectos relevantes de la muestra. Debe

quedar claro que ningún resumen de este tipo puede sustituir (equivaler) a la muestra.

Sea una muestra ordenada (x(1); x(2); :::; x(n)) de una variable aleatoria X continua.

8.7.1 Centro

El punto central de la muestra ordenada se llama la mediana. Según que n sea par oimpar se calcula así:

xm =x(k) + x(k+1)

2n = 2k

xm = x(k+1) n = 2k + 1

y se comprueba que, tal como se han de�nido los cuantiles empíricos, coincide con q2.

La mediana de una muestra de una variable aleatoria X es también una estimación

de la mediana de la población X, que se de�ne como el número m tal que

P (X < m) = P (X > m) =1

2

Ejemplo 14 en la muestra del ejemplo 9 es xm = (x(53) + x(54))=2 = 12 min

8.7.2 Dispersión

La dispersión total de la muestra es su rango, igual a x(n) � x(1).Una medida más robusta, es decir menos in�uenciada por los valores alejados del

centro es el rango intercuartílico, igual a q3� q1 (es decir, es la amplitud del intervaloque contiene el 50% central).

Ejemplo 15 (cont.) el rango intercuartílico es 30� 5 = 25.min

8.7.3 Simetría

Para medir el grado de simetría de la muestra (más precisamente del 50% central) puede

usarse la posición de la mediana entre los cuartiles. Si q3 � xm = xm � q1 la muestraes simétrica. Si q3 � xm > xm � q1 es asimétrica a la derecha, y en otro caso hacia laizquierda. En resumen un coe�ciente de simetría es

(q3 � xm)� (xm � q1) = q3 + q1 � 2xm

Page 203: Métodos Estadísticos-Félix Míguez Marín [2012]

8.7. RESUMEN Y COMPARACIÓN DE MUESTRAS 201

que será menor, igual o mayor que cero según que la muestra sea asimétrica a la izquierda,

simétrica o asimétrica a la derecha. Para que la medida no dependa de la escala se puede

dividir por el rango intercuartílico, obteniéndose así el coe�ciente de simetría (de Galton):

cg =q3 + q1 � 2xm

q3 � q1

Ejemplo 16 (cont)

cg =30 + 5� 2� 12

30� 5 = 0:44

y es asimétrica a la derecha (los datos a la derecha de la mediana se extienden más lejos

que a la izquierda).

8.7.4 Valores atípicos

Es frecuente que en la muestra aparezcan datos distantes del centro, en las colas de

la distribución. Pueden ser valores extremos legítimos, pero también pueden deberse a

errores de transcripción o medida, o porque se han tomado en circustancias distintas de

los demás.

Un criterio simple es considerar atípicas en principio las observaciones menores que

`i = q1 � 1:5 (q3 � q1)

o mayores que

`s = q3 + 1:5 (q3 � q1)

Ejemplo 17 (cont)

`i = 5� 1:5(30� 5) = �32:5

`s = 30 + 1:5(30� 5) = 67:5

y los valores 68; 69; 90 y 105 son atípicos.

Nota: el siguiente párrafo extraído de http://exploringdata.cqu.edu.au/ozone.htmes aleccionador:

En 1985 tres investigadores (Farman, Gardinar y Shanklin) estaban perplejos porque

datos recogidos por el British Antarctic Survey mostraban que los niveles de ozono en

la Antártida habían caido un 10% por debajo de los normales. La pregunta era por qué

el satélite Nimbus 7, que llevaba instrumentos a bordo para medirlos no lo había detec-

tado. Cuando examinaron los datos del satélite no tardaron en darse cuenta que había

Page 204: Métodos Estadísticos-Félix Míguez Marín [2012]

202 8. MODELIZACIÓN

ya registrado concentraciones tan bajas durante años, pero el ordenador había sido pro-

gramado para desecharlas!. El satélite Nimbus 7 había recogido evidencias de los bajos

niveles de ozono desde 1976. El daño causado a la atmósfera por los cloro�uorcarbonos

no había sido detectado y tratado durante 9 años porque los valores atípicos habían sido

desechados sin ser examinados.

Moraleja: las observaciones atípicas pueden ser las más valiosas de una muestra.

8.7.5 Diagramas de caja (Box-Plot)

Es una representación grá�ca de la muestra en la que se re�ejan simultaneamente su

centro, dispersión, simetría, recorrido y posibles valores atípicos.

Supongamos que la escala de valores de la variable se traza verticalmente:

1. Se dibuja un rectángulo, de anchura horizontal arbitraria, altura vertical q3 � q1,y cuyos lados horizontales se situan según la escala vertical en q1 y q3. Se señala

la posición de xm.

2. Se trazan lineas verticales desde q1 hasta el dato más pequeño no atípico (es decir

en el intervalo [`i; q1] ), y desde q3 hasta el dato más grande no atípico (es decir

en el intervalo [q3; `s] ).

3. Se señala la posición de los datos atípicos.

Ejemplo 18 La muestra ordenada (2:30956; 2:30986; 2:31001; 2:3101; 2:3101; 2:31017;2:31024; 2:31028; 2:31163) corresponde a las medidas hechas por Raleigh en 1895 de la

masa (en gramos) del nitrógeno obtenido de la atmósfera (eliminando el oxígeno, dióxido

de carbono y vapor de agua) contenido en cierto volumen en condiciones especí�cas de

presión y temperatura.

Para p = 1=4

9� 14+1

2= 2 + 0:75

así que q1 = 2:30986 + 0:75� (2:31001� 2:30986) = 2:3099725 gPara p = 3=4

9� 34+1

2= 7 + 0:25

así que q3 = 2:31024 + 0:25� (2:31028� 2:31024) = 2:31025 gY para p = 1=2 la mediana es q2 = x(5) = 2:3101 g

El límite inferior de valores atípicos es

li = 2:3099725� 1:5� (2:31025� 2:3099725) = 2:309556

Page 205: Métodos Estadísticos-Félix Míguez Marín [2012]

8.7. RESUMEN Y COMPARACIÓN DE MUESTRAS 203

y el límite superior

ls = 2:31025 + 1:5� (2:31025� 2:3099725) = 2:310666

resultando que x(9) es atípico.

2.3096

2.3098

2.31

2.3102

2.3104

2.3106

2.3108

2.311

2.3112

2.3114

2.3116

Nitr

ógen

o (g

)

 x(9)

 x(1)

 x(8)

 q1

 q2

 q3

Page 206: Métodos Estadísticos-Félix Míguez Marín [2012]

204 8. MODELIZACIÓN

Los diagramas de caja son de gran utilidad para comparar muestras.

Ejemplo 19 (continuación) La muestra ordenada (2:29816; 2:29849; 2:29869; 2:29889;2:2989; 2:2994; 2:30054; 2:30074; 2:30143; 2:30182) corresponde a las medidas hechas

por Raleigh de la masa (en gramos) del nitrógeno obtenido por medio de una reacción

química (a partir de urea), contenido en el mismo volumen que la muestra anterior

en iguales condiciones de presión y temperatura. Cualquiera que fuese la procedencia

del nitrógeno, a igualdad de volumen, presión y temperatura debería haber, aparte la

variabilidad experimental, la misma masa.

En la �gura se comparan los box-plot de ambas muestras en los que se aprecia clara-

mente la mayor masa de las medidas de procedencia atmosférica, así como su menor

variabilidad experimental. Raleigh (y Ramsay) concluyeron que en la atmósfera había

otro gas, hasta entonces desconocido, lo que les llevó al descubrimiento del argón (0.94

% de Ar en el aire).

Químico Atmosférico

2.298

2.3

2.302

2.304

2.306

2.308

2.31

2.312

Nitr

ógen

o (g

)

Page 207: Métodos Estadísticos-Félix Míguez Marín [2012]

8.7. RESUMEN Y COMPARACIÓN DE MUESTRAS 205

Ejemplo 20 En 1879 Michelson realizó 100 medidas de la velocidad de la luz en elaire usando una modi�cación de un método propuesto por Foucault. El objetivo del

experimento era medir la variación de la velocidad de la luz con el movimiento del sistema

inercial (la Tierra). El experimento (para el que Michelson inventó el interferómetro

óptico) fue negativo, y puso las bases de la Teoría de la Relatividad.

La medidas se realizaron, en fechas sucesivas y con ajustes del sistema experimental,

en cinco grupos de 20 medidas cada uno. Los valores obtenidos se dan a continuación

ordenados. La unidad son 1000 Km=s y se les ha restado 299 (es decir, el número 0:65

corresponde a una medida de 299:65� 103 Km=s).

uno=(0:65; 0:74; 0:76; 0:81; 0:85; 0:85; 0:88; 0:90; 0:93; 0:93;

0:95; 0:96; 0:96; 0:98; 0:98; 0:98; 1:00; 1:00; 1:00; 1:07)

dos=(0:76; 0:79; 0:79; 0:80; 0:80; 0:80; 0:81; 0:83; 0:83; 0:84;

0:85; 0:88; 0:88; 0:88; 0:88; 0:90; 0:94; 0:94; 0:96; 0:96)

tres=(0:62; 0:72; 0:72; 0:84; 0:84; 0:84; 0:84; 0:84; 0:85; 0:85;

0:86; 0:86; 0:87; 0:88; 0:88; 0:88; 0:88; 0:91; 0:95; 0:97)

cuatro=(0:72; 0:74; 0:75; 0:76; 0:76; 0:77; 0:78; 0:80; 0:81; 0:81;

0:82; 0:84; 0:85; 0:85; 0:86; 0:88; 0:89; 0:89; 0:91; 0:92)

cinco=(0:74; 0:76; 0:78; 0:79; 0:80; 0:81; 0:81; 0:81; 0:81; 0:81;

0:81; 0:82; 0:84; 0:85; 0:87; 0:87; 0:87; 0:89; 0:94; 0:95)

1 2 3 4 5299.6

299.65

299.7

299.75

299.8

299.85

299.9

299.95

300

300.05

Vel

ocid

ad d

e la

 luz 

( ×10

3  Km

/s)

Page 208: Métodos Estadísticos-Félix Míguez Marín [2012]

206 8. MODELIZACIÓN

8.8 Ejercicios propuestos

1. La European Agency for Safety and Health at Work �ja un OEL (occupational

exposure limit: límite de exposición profesional) para el plomo en el aire de

150�gm�3. Para controlar los valores X de contaminación en un laboratorio

se han muestreado 15 puntos resultando: 208, 4, 579, 59, 115, 309, 132, 371, 22,

15, 120, 80, 19, 68, 7.

a) Calcule los cuartiles, el coe�ciente de simetría y los valores atípicos.

b) Dibuje el box-plot de la muestra de X.

c) Sea Y = log (X). Calcule los cuartiles, el coe�ciente de simetría y los valores

atípicos.

d) Dibuje el box-plot de la muestra de Y .

e) Dibuje el qq-plot de la muestra de Y suponiendo un modelo normal.

f) Estime los parámetros del modelo normal ajustando una recta al qq-plot anteriory también los de máxima verosimilitud.

2. La muestra ordenada corresponde a las 29 medidas de la densidad media de la

Tierra �T ( g cm3) del experimento de Cavendish (ejercicio propuesto 2 del capítulo

6):

4:88 5:07 5:1 5:26 5:27 5:29 5:29 5:3 5:34 5:34

5:36 5:39 5:42 5:44 5:46 5:47 5:5 5:53 5:55 5:57

5:58 5:61 5:62 5:63 5:65 5:68 5:75 5:79 5:85

a) calcule y dibuje 2 histogramas: ambos con el mismo valor de h pero con origende clases distintos: uno a0 = 4:88 y otro a0 = 4:84.

b) dibuje el qq-plot suponiendo un modelo normal.

Page 209: Métodos Estadísticos-Félix Míguez Marín [2012]

Apéndice A

Soluciones a los Ejercicios

A.1 Capítulo 1

1. A [ B = (ABc) [ (BAc) [ (AB) y los tres sucesos entre paréntesis son disjuntos.Así que, aplicando el axioma 1

P (A [B) = P (ABc) + P (BAc) + P (AB)

Además A = (ABc) [ (AB) y como los 2 sucesos entre paréntesis son disjuntos sededuce que

P (ABc) = P (A)� P (AB)

y análogamente

P (AcB) = P (B)� P (AB)

Finalmente, sustituyendo arriba

P (A [B) = P (A) + P (B)� P (AB)

2.

P (1) = P (2) = � � � = P (5) = p! P (1; 2; 3; 4; 5) = 5p

P (6) = 2P (1; 2; 3; 4; 5)! P (6) = 10p

1 = P (6) + P (1; 2; 3; 4; 5)! 1 = 15p

207

Page 210: Métodos Estadísticos-Félix Míguez Marín [2012]

208 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

y resulta p = 1=15. Entonces

P (2; 4; 6) = 12p = 4=5

3.

P (par) + P (impar) = 1! 3p+ 3q = 1

P (par)� P (impar) = 0:1! 3p� 3q = 0:1

y resulta p = 11=60, q = 3=20

4.

1 =

nXi=1

P (!i) = c

nXi=1

i = cn(n+ 1)

2! c =

2

n(n+ 1)

5. El Ac y el B (tenga en cuenta que A y B son independientes, es decir P (AB) =

P (A)P (B)):

como B = AcB [AB y estos son incompatibles

P (AcB) = P (B)� P (AB)

= P (B)� P (A)P (B)

= (1� P (A))P (B)

= P (Ac)P (B)

El Ac y el Bc:

P (AcBc) = P ((A [B)c) = 1� P (A [B)

= 1� (P (A) + P (B)� P (AB))

= 1� (P (A) + P (B)� P (A)P (B))

= (1� P (A)) (1� P (B))

= P (Ac)P (Bc)

6. Los casos favorables (entre paréntesis) son: �suma 9�={126(6), 135(6), 144(3),

225(3), 234(6), 333(1)}, total 25; �suma 10�={136(6), 145(6), 226(3), 235(6),

244(3), 334(3)}, total 27. Los casos posibles son 63 = 216. Resultan P (�suma 9�) =

25=216 y P (�suma 10�) = 27=216.

Page 211: Métodos Estadísticos-Félix Míguez Marín [2012]

A.1. CAPÍTULO 1 209

7. a) P (menos de k caras) =k�1Xi=0

�ni

�pi(1� p)n�i

b) P (0 caras) = (1� p)n =�n0

�p0(1� p)n�0 = (1� p)n

c) P (al menos 1cara) = 1�P (0 caras) = 1�(1� p)n también igual anXi=1

�ni

�pi(1�

p)n�i

8. a)

P (defectuosa) =Np

N= p

b)

P (k defectuosas) =�n

k

�pk(1� p)n�k k = 0; 1; :::; n

9.

P (k defectuosas) =

�Npk

��N(1�p)n�k

��Nn

� k = 0; 1; :::;min (n;Np)

pues hay�Nn

�muestras distintas de n piezas, equiprobables, y de ellas

�Npk

��N�Npn�k

�con exactamente k piezas defectuosas (de entre las Np) y n� k no defectuosas (deentre las N �Np).

10.

P (al menos un 3) = 1� P (ningún 3) = 1��5

6

�6

P (5 ó 6 veces 3) = P (5 veces) + P (6 veces)

=

�6

5

��1

6

�5�56

�1+

�6

6

��1

6

�6�56

�011. El sistema funciona mientras funcionen todos, cada uno con probabilidad 1 � p e

independientes:

P (funciona) = (1� p)n

12. El sistema funciona mientras funcione al menos uno, cada uno con probabilidad

1� p e independientes:

P (funciona) = P (al menos uno)

= 1� P (ninguno)

= 1� pn

Page 212: Métodos Estadísticos-Félix Míguez Marín [2012]

210 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

13. P (c) = p, P (+c) = P (+)P (c) = (1� p)p, P (+ + c) = P (+)P (+)P (c) = (1� p)2petc. Y en general, la probabilidad de necesitar k tiradas exactamente para que

salga cara es

P (k) = (1� p)k�1p k = 1; 2; :::

1Xk=1

(1� p)k�1p = p1Xk=0

(1� p)k = p 1

1� (1� p) = 1

P (par) =1Xk=1

P (2k) =1Xk=1

(1� p)2k�1p

=p

1� p

1Xk=1

(1� p)2k = p

1� p(1� p)2

1� (1� p)2

=1� p2� p

14.

P (S j S�) =P (S� j S)P (S)

P (S� j S)P (S) + P (S� j N)P (N)=

p

p+ 1m (1� p)

15. a) DenotemosM=�bloque de mineral�, M�=�bloque estimado como de mineral�,

E=�bloque de estéril�, E�=�bloque estimado como de estéril�. Calculemos P (M�)

por medio de la fórmula de la probabilidad total:

P (M�) = P (M� jM)P (M) + P (M� j E)P (E)

= 0:80� 0:30 + 0:25� 0:70

= 0:415

Observar que, aunque la previsón es de un 30% de bloques de mineral, con el

método de estimación se tratarían como mineral un 41:5% . Sólo si fuese P (M� jM) = 1 y P (E� j E) = 1 sería P (M�) = P (M).

b)

P (M j M�) =P (M� jM)P (M)

P (M�)=0:80� 0:300:415

= 0:578

P (E j M�) = 1� P (M jM�) = 1� 0:578

Page 213: Métodos Estadísticos-Félix Míguez Marín [2012]

A.1. CAPÍTULO 1 211

y análogamente tendríamos:

P (E j E�) =P (E� j E)P (E)

P (E�)=0:75� 0:701� 0:415 = 0:897

P (M j E�) = 1� P (E j E�) = 1� 0:897

16. Un vértice queda dentro si el punto dista de él a lo más r, es decir si queda dentro

del cuarto de círculo con centro en el vértice y radio r. El area total de la región

favorable es �r2, así pues la probabilidad es �r2=`2.

La probabilidad es la misma en el siguiente experimento: se deja caer al azar un

disco circular de radio r sobre una malla de puntos, cuadrada de paso `. ¿Proba-

bilidad de que el disco caiga sobre un nodo?.

Y la misma si se supone que el disco está �jo y lo que se elige aleatoriamente es la

malla. En esta forma se puede suponer que el disco es un cuerpo a localizar y la

malla es una de sondeos.

17. Los terremotos peligrosos se producen en un segmento de la falla de longitud

(teorema de Pitágoras) 2�p102 � 12 y de ellos los que tienen su epicentro a menos

de 5 km se producen en un segmento de longitud 2�p52 � 12. Como los epicentros

se localizan al azar la probabilidad es�2�

p52 � 12

�=�2�

p102 � 12

�= 0:49237

18. La distancia, en el plano z = 0, del punto de corte al origen es d tan'

P (corta) = P (d tan' < r) = P (' < arctan(r=d))

=arctan(r=d)

c

Page 214: Métodos Estadísticos-Félix Míguez Marín [2012]

212 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

A.2 Capítulo 2

1. En cada instante cada una de las n moléculas puede estar en v con probabilidad p ó

no estar en v con probabilidad 1�p, independientemente unas de otras. Claramentela variable aleatoria Z es de tipo binomial:

P (Z = z) =

�n

z

�� vV

�z �1� v

V

�n�zz = 0; 1; :::n

2. Para cada una de las bolas extraidas su probabilidad de ser roja es

P (roja) =r

r + b= p

El número X de bolas rojas entre las n es claramente una variable binomial (cf

ejemplo 13) de parámetros n y p, así que la función de masa es

P (X = k) =

�n

k

�pk(1� p)n�k k = 0; 1; :::; n

3. El número total de bolas en la urna es r+ b. En total hay�r+bn

�muestras distintas

de n bolas (imagine que las bolas están numeradas: de la 1 a la r las rojas y de la

r+1 a la r+ b las blancas; dos muestras son distintas si se diferencian en al menos

uno de los números obtenidos). El número de muestras distintas con exactamente

k bolas rojas y n � k blancas es�rk

��b

n�k�. Como todas las muestras tienen igual

probabilidad

P (X = k) =

�rk

��b

n�k��

r+bn

� k = 0; 1; :::;min (n; r)

4.

P (X > a) =p

1� p

1Xa+1

(1� p)x = p

1� p(1� p)a+1

p

= (1� p)a

Page 215: Métodos Estadísticos-Félix Míguez Marín [2012]

A.2. CAPÍTULO 2 213

P (X > x+ y j X > x) =P (X > x+ y)

P (X > x)

=(1� p)x+y

(1� p)x = (1� p)y

= P (X > y)

También vale:

P (X > x+ y j X � x) =P (X > x+ y)

P (X � x)

=(1� p)x+y

(1� p)x�1= (1� p)y�1

= P (X � y)

1. Si X es exponencial su función de distribución es (ejemplo 21)

F (x) = 1� exp (��x)

y por lo tanto

P (X > x) = exp (��x)

Aplicando la fórmula de la probabilidad condicional:

P (X > x+ y j X > x) =P (X > x+ y;X > x)

P (X > x)=P (X > x+ y)

P (X > x)

=exp (�� (x+ y))exp (��x) = exp (��y)

= P (X > y)

2. La función de cuantiles de la exponencial es (ejemplo 21) xp = � 1� ln (1� p) y para

p = 1=2 resulta x0:5 = ln(2)=�. Si inicialmente hay n átomos, al cabo del tiempo

x0:5 hay en promedio n=2.

3. Si � = 4:327� 10�4 años�1 entonces x0:5 = ln (2) =� = 1601:9 años.

4.

P

�X >

1

�= exp

���� 1

�= exp (�1) � 0:37

5. Para cada uno de los n átomos la probabilidad de decaer en (0; t] es F (t) =

P (X � t) = 1 � exp (��t) independientemente unos de otros. El número de los

Page 216: Métodos Estadísticos-Félix Míguez Marín [2012]

214 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

que decaen es una Va discreta Z con valores posibles f0; 1; :::ng. Su función demasa es binomial de parámetros n y F (t).

Para cada uno de los n átomos la probabilidad de sobrevivir a t es P (X > t) =

exp (��t) independientemente unos de otros. El número de los que sobrevivenes una Va discreta n � Z con valores posibles f0; 1; :::ng. Su función de masa esbinomial de parámetros n y 1� F (t).

6. a) k = 1. b)

F (x) =

8><>:264 0 x � 01� cosx 0 < x < �=2

1 x � �=2

375c) cos(�=4) = 0:70711

7. El recorrido de X es [0; a=2]. Para x �jado es X � x si el punto cae en el intervalo[a=2� x; a=2+ x] del segmento y por ser el punto elegido a azar (equiprobable), laprobabilidad es el cociente de longitudes

F (x) =

8>><>>:0 x < 02x

a0 � x � a

2

1 x > a2

f(x) =

8<:2

ax 2 [0; a2 ]

0 x =2 [0; a2 ]

8. El recorrido deX es [0; a]. Para cada x 2 [0; a] la distanciaX es menor o igual que x

si el punto cae en cualquier lugar entre el cuadrado de lado 2a y el cuadrado inscrito

de lado 2(a� x) y por ser el punto elegido a azar (equiprobable), la probabilidades el cociente de super�cies

F (x) =

8>><>>:0 x < 0

(2a� x)xa2

0 � x � a1 x > a

f(x) =

8<:2 (a� x)a2

x 2 [0; a]0 x =2 [0; a]

9. La Va X tiene recorrido (�1;+1). La variable aleatoria � toma valores en

(��=2; �=2) con densidad constante (equiprobable), es decir f� (') = 1=�

a)

F (x) = P (X � x) = P���2< � � arctanx

�=1

�arctanx+

2

Page 217: Métodos Estadísticos-Félix Míguez Marín [2012]

A.2. CAPÍTULO 2 215

b)

f (x) = F 0 (x) =1

� (1 + x2)�1 < x < +1

que es una densidad de Cauchy.

c)

P

�jXj < 1

2

�= P

��12< X <

1

2

�= F

�1

2

�� F

��12

�=

1

�arctan

1

2+�

2

�� 1

�arctan

��12

�+�

2

�=

1

�arctan

1

2� arctan

��12

��� 0:295

d)

P (jXj < x) = P (�x < X < x) = F (x)� F (�x)

=1

�arctanx+

2

�� 1

�arctan (�x) + �

2

�=

1

�(arctanx� arctan (�x)) = 1

2

y ha de ser1

�(arctanx� arctan (�x)) = 1

2

y como (arctanx� arctan (�x)) = 2 arctanx resulta

2

�arctanx =

1

2! arctanx =

4! x = 1

10. La Va X tiene densidad fX (x) = 1 para x 2 (0; 1). La Va Y = a+ bX (con b > 0)

tiene recorrido (a; a+ b) y su densidad es

fY (y) =1

bfX

�y � ab

�=1

by 2 (a; a+ b)

también uniforme.

11. La Va X tiene densidad fX (x) = 1 para x 2 (0; 1). La Y = 1=X tiene valores

posibles (1;1) y su densidad es

fY (y) =1

y2fX

�1

y

�=1

y2y > 1

Page 218: Métodos Estadísticos-Félix Míguez Marín [2012]

216 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

12. La Va U tiene densidad

fU (u) =1p2�e�

u2

2 �1 < u < +1

y la Z = U2 con recorrido (0;+1) tiene densidad

fZ(z) =1

2pz

�fX�pz�+ fX

��pz��=

1p2�z�

12 exp

��z2

�z > 0

13. La posición de cada punto es una Va Xi con distribución F (x) = x y densi-

dad f (x) = 1 para x 2 (0; 1). Además las Xi son independientes. La Va

Y = min (X1; X2; :::; Xn) tiene recorrido (0; 1) y su distribución y densidad son

FY (y) = 1� [1� F (y)]n = 1� [1� y]n y 2 (0; 1)

fY (y) = F0Y (y) = n [1� y]

n�1 y 2 (0; 1)

La función de cuantiles es la inversa de FY (y) = p

1� [1� y]n = p! y = 1� (1� p)1=n

Si p = 1=2 el cuantil correspondiente (la mediana) es

y0:5 = 1� 2�1=n

Es decir, hay probabilidad 1=2 de que el mínimo Y sea menor que y0:5.

Para que y0:5 = 0:1 ha de ser 1� 2�1=n = 0:1, y resulta n = 6:5788

Es decir, si se lanzan 7 puntos hay probabilidad 1=2 de que el mínimo sea menor

que 0:1

14. La posición de cada punto es una Va Xi con distribución F (x) = x y densi-

dad f (x) = 1 para x 2 (0; 1). Además las Xi son independientes. La Va

Y = max (X1; X2; :::; Xn) tiene recorrido (0; 1) y su distribución y densidad son

FY (y) = [F (y)]n = yn y 2 (0; 1)

fY (y) = F0Y (y) = ny

n�1 y 2 (0; 1)

Page 219: Métodos Estadísticos-Félix Míguez Marín [2012]

A.2. CAPÍTULO 2 217

La función de cuantiles es la inversa de FY (y) = p

yn = p! y = p1=n

Si p = 1=2 el cuantil correspondiente (la mediana) es

y0:5 = 2�1=n

Es decir, hay probabilidad 1=2 de que el máximo Y sea menor que y0:5.

Para que y0:5 = 0:9 ha de ser 2�1=n = 0:9, y resulta n = 6:5788

Es decir, si se lanzan 7 puntos hay probabilidad 1=2 de que el máximo sea mayor

que 0:9

Page 220: Métodos Estadísticos-Félix Míguez Marín [2012]

218 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

A.3 Capítulo 3

1. E (IA) = 1� P (A) + 0� P (Ac) = P (A)

2. El número de veces que sucede A es una Va binomial de parámetros n = 100 y

p = 0:1 así que el número esperado de veces que sucederá A es np = 10

3. El número de veces que hay que hacer el experimento hasta que suceda A es una

Va geométrica de parámetro p = 0:1 y su esperanza es 1=p = 10 (a la larga y en

promedio 1 de cada diez veces sucede A).

4. El número de años que han de transcurrir es una Va geométrica de parámetro

p = 0:01 y su esperanza es 1=p = 100, así que, a la larga una vez cada 100 años el

caudal máximo excede el valor x.

5. El periodo de retorno de 100 años corresponde a una probabilidad de excedencia

p = 0:01 así que

P (X > x) = 1� F (x) = e�0:01x = 0:01

x = � 1

0:01ln (0:01) = 460:5m3 s�1

cada 100 años aproximádamente el caudal máximo excede el valor anterior.

6. La probabilidad de par es p = 1837 = 0:48649

La probabilidad de perder las 10 es�1� 18

37

�10= 1:275 � 10�3 y la pérdida es

�(210 � 1) = �1023:0

Es decir, a la larga aproximadamente 1 de cada mil rondas perdemos 1023 euros.

Y 999 de cada 1000 ganamos 1 euro cada una.

7. Como E�(X � c)2

�es una función continua y diferenciable de c y la esperanza es

una operación lineal

d

dcE�(X � c)2

�= �2E (X � c) = 0! E (X)� c = 0

así que el mínimo se tiene para c = E (X)

También así:

Page 221: Métodos Estadísticos-Félix Míguez Marín [2012]

A.3. CAPÍTULO 3 219

Denotando � = E (X)

E�(X � c)2

�= E

�(X � �+ �� c)2

�= E

�(X � �)2 + (�� c)2 + 2 (�� c) (X � �)

�= E

�(X � �)2

�+ (�� c)2

pues

E ((�� c) (X � �)) = (�� c)E (X � �) = 0

y como

E�(X � �)2

�+ (�� c)2 � 0

resulta que es mínimo si c = � y el valor mínimo es V ar (X) = E�(X � �)2

8.

E (U) =1

�E (X � �) = 0

V ar (U) =1

�2V ar (X � �) = 1

�2V ar (X) = 1

9.

E (X) =1

n

nXx=1

x =n (n+ 1)

2n=n+ 1

2

E�X2�=1

n

nXx=1

x2 =

�2n3 + 3n2 + n

�6n

=2n2 + 3n+ 1

6

V ar (X) = E�X2�� (E (X))2 = 2n2 + 3n+ 1

6��n+ 1

2

�2=n2 � 112

10.

E (X) =

1Xx=1

x (1� p)x�1 p = �p ddp

1Xx=1

(1� p)x!

= �p ddp

�1� pp

�=1

p

Derivando otra vez se halla que E�X2�= 2�p

p2y por lo tanto V ar (X) = 1�p

p2

Page 222: Métodos Estadísticos-Félix Míguez Marín [2012]

220 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

11.

1Xx=0

x�x�1

x!= e� !

1Xx=0

xe���x

x!= �

E (X) = �

Derivando otra vez se halla que E�X2�= �2 + � y por lo tanto

V ar (X) =��2 + �

�� �2 = �

12.

E(X) =

Z b

ax

1

b� adx =a+ b

2:

E(X2) =

Z b

a

x2

b� adx =1

3

b3 � a3b� a

y entonces:

V ar(X) =1

3

b3 � a3b� a � (a+ b)

2

4=(b� a)212

13. derivando:

1

�p2�

ZR(x� �) e

�(x� �)2

2�2 dx = 0

reordenando:

1

�p2�

ZRxe�(x� �)2

2�2 dx =�

�p2�

ZRe�(x� �)2

2�2 dx

es decir E (X) = �

14. derivando

1p2�

ZR

(x� �)2

�3e�(x� �)2

2�2 dx = 1! 1

�p2�

ZR(x� �)2 e

�(x� �)2

2�2 dx = �2

es decir V ar (X) = �2

15. Para cada átomo la probabilidad de sobrevivir al tiempo t es 1� F (t) = e��t. Elnúmero N (t) de los que sobreviven es una Va binomial de parámetros n = N (0)

Page 223: Métodos Estadísticos-Félix Míguez Marín [2012]

A.3. CAPÍTULO 3 221

y p = e��t y su esperanza es np:

E (N (t)) = N (0) e��t

16. Sea Xi = 1 si el sondeo i resulta en éxito y Xi = 0 en otro caso. E(Xi) = p, y

V ar(Xi) = p(1� p):

El número total de sondeos con éxito es X =PXi. (y el de sondeos sin éxito es

n�X)

a)

E(X) =X

E(Xi) = np

V ar(X) =X

V ar(Xi) = np(1� p)

b) El coste total es la Va C = c0 + 2cX + c(n�X) = c0 + cX + nc

E(C) = c0 + cnp+ nc

V ar(C) = c2np(1� p)

17. El resultado de cada dado es una Va Xi con masa f (x) = 1=6 para x 2 f1; 2; ::; 6g.Su esperanza y varianza son (ejercicio 9)

E (Xi) =6 + 1

2=7

2

V ar (Xi) =62 � 112

=35

12

La suma de los puntos es

S = X1 +X2 + � � �+X36

E (S) = E (X1 +X2 + � � �+X36) =36Xi=1

E (Xi) = 36�7

2= 126

y como las Xi son independientes

V ar (S) = V ar (X1 +X2 + � � �+X36) =36Xi=1

V ar (Xi) = 36�35

12= 105

Page 224: Métodos Estadísticos-Félix Míguez Marín [2012]

222 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

18.

P (jS � E (S)j < ") � 1� V ar (S)"2

P (jS � 126j < 30) � 1� 105302

= 0:883

En general la acotación de Tchebychev es grosera. Veremos en el próximo Capítulo

que la probabilidad que nos interesa se puede aproximar muy bien de otra manera.

19.

� = 0ms�1

� =

�kT

m

�1=2=

�1:38� 10�23 � 300

0:028� (6:022� 1023)�1

�1=2=

�1:38� 300

0:028� (6:022)�1

�1=2= 298:39m s�1

E

�1

2m�V 2x + V

2y + V

2z

��=m

2

�E�V 2x�+ E

�V 2y�+ E

�V 2z��=3kT

2

20.

E (V ) = E (X)E (A) = 10 cm3

E�V 2�= E

�X2�E�A2�=�V ar (X) + E2 (X)

� �V ar (A) + E2 (A)

�=

�0:0052 + 102

� �0:012 + 12

�= 100:01

V ar (V ) = 100:01� 100 = 0:01pV ar (V ) = 0:1 cm3

21.

E�X

Zi

�= 8000 gr

V ar�X

Zi

�=

p64� 100� 0:01 = 8 g

22. La Va Y = min (X1; X2; :::; Xn) tiene recorrido (0; 1) y densidad

fY (y) = F0Y (y) = n (1� y)

n�1 y 2 (0; 1)

Page 225: Métodos Estadísticos-Félix Míguez Marín [2012]

A.3. CAPÍTULO 3 223

y entonces la esperanza

E (Y ) =

Z 1

0ny(1� y)n�1dy

u = y

dv = n (1� y)n�1 ! v = � (1� y)n

E (Y ) = [�y(1� y)n]10 +Z 1

0(1� y)ndy

E (Y ) =

Z 1

0(1� y)ndy = � 1

n+ 1

�(1� y)n+1

�10=

1

n+ 1

23. La distancia de cada punto al centro del círculo es una Va con distribución

FR (y) = y2 y 2 [0; 1]

La distribución del más próximo al origen (del mínimo) es

FY (y) = 1� [1� FR(y)]3

así que

FY (y) = 1��1� y2

�3La densidad del mínimo es

fY (y) = 6y�1� y2

�2= 6

�y + y5 � 2y3

�y 2 [0; 1]

y su esperanza es

E (Y ) = 6

Z 1

0y�y + y5 � 2y3

�dy = 6

�1

3+1

7� 25

�=16

35� 0:46

24. La Va Y = max (X1; X2; :::; Xn) tiene recorrido (0; 1) y densidad

fY (y) = F0Y (y) = ny

n�1 y 2 (0; 1)

E (Y ) =

Z 1

0nyndy =

n

n+ 1

�yn+1

�10=

n

n+ 1

Page 226: Métodos Estadísticos-Félix Míguez Marín [2012]

224 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

A.4 Capítulo 4

1. a)

P (119:4 < X < 121:2) = P

�119:4� 120

2< U <

121:2� 1202

�= P (�0:3 < U < 0:6) = � (0:6)� � (�0:3)

= 0:72575� (1� 0:61791) = 0:34366

Y la probabilidad de que 3 medidas independientes estén en el intervalo es 0:343663 �0:04

b)

P (120� a < X < 120 + a) = P

��a2< U <

a

2

�= 0:8

por lo tanto

��a2

�� �

��a2

�= �

�a2

��h1� �

�a2

�i= 2�

�a2

�� 1 = 0:8

��a2

�= 0:9 y tomando el valor de la tabla � (1:28) = 0:89973 resulta a = 2:56. Es

decir

P (117:44 < X < 122:56) = 0:8

2. La probabilidad de que un empaquetado se aceptable es

P (149:2 < X < 150:4) = P

�149:2� 150

1=4< U <

150:4� 1501=4

�= P (�3:2 < U < 1:6) = � (1:6)� � (�3:2)

= 0:94520� (1� 0:99931) = 0:94451

Si la cualidad de aceptable de cada uno del lote es independiente de los demás,

con la misma probabilidad anterior, el número Z de aceptables en el lote es una

variable binomial, de parámetros n = 100 y p = 0:94451, y su valor promedio es

np = 100� 0:94451 � 94

3. a)

P (X < 40) = P

�U <

40� 505

= �2�= �(�2) = 1� 0:97725 = 0:02275

Page 227: Métodos Estadísticos-Félix Míguez Marín [2012]

A.4. CAPÍTULO 4 225

b)

P (X < x) = P

�U <

x� 505

�= �

�x� 505

�= 0:05

con ayuda de la tabla (valores de � mayores que 0:5) hay que hallar el número u

tal que � (u) = 0:95, es decir

�x� 505

�= 1� �

��x� 50

5

�= 0:05! �

��x� 50

5

�= 0:95

y el valor más aproximado es � (1:64) = 0:94950 así que

�x� 505

= 1:64! x = 50� 5� 1:64 = 41:8 N/mm2

4.

P (0:9� 0:005 < X < 0:9 + 0:005) = P

��0:005

�< U <

0:005

�= �

�0:005

�� �

��0:005

�= 0:997

por lo tanto (fuera del intervalo queda una probabilidad 0:003 y en cada cola

0:0015)

�0:005

�= 0:9985

y el valor más aproximado, con ayuda de la tabla, es � (2:97) = 0:99851 así que

0:005

�= 2:97! � =

0:005

2:97= 1:6835� 10�3

5. Como X e Y son normales independientes, la carga total Z = X + Y es nor-

mal, con E(Z) = E(X) + E(Y ) y V ar(Z) = V ar(X) + V ar(Y ) resultando

Z � N(140; 10p2). Buscamos el número z tal que

P (Z > z) = P (U >z � 14010p2) = 1� �

�z � 14010p2

�= 0:01

así que ��z�14010p2

�= 0:99 y el valor más aproximado es � (2:33) = 0:99010 así que

z � 14010p2= 2:33

Page 228: Métodos Estadísticos-Félix Míguez Marín [2012]

226 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

y resulta z = 172:95 Tm:

6. a)

P (W > 3:1) = P

�U >

3:1� 30:1

= 1

�= 1� � (1) = 1� 0:84134 = 0:15866

b)

P

nXi=1

Wi > w

!= P

�U >

w � n� �W�Wpn

�= 1� �

�w � n� �W�Wpn

�= 0:01

así que

�w � n� �W�Wpn

�= 0:99

y el valor más aproximado con ayuda de la tabla es � (2:33) = 0:99010 así que

w = n� �W + 2:33�Wpn

= 10� 3 + 2:33� 0:1�p10 = 30:737 Tm

7. Si Xi denota el resultado de cada pregunta, es P (Xi = 1) = 15 y P (Xi = 0) =

45 .

Además E (Xi) = 15 y V ar (Xi) =

15 �

45 . El número de aciertos en 30 preguntas esP30

i=1Xi, con distribución binomial de parámetros 30 y15 . Su esperanza y varianza

son:

E

30Xi=1

Xi

!= 30� 1

5

V ar

30Xi=1

Xi

!= 30� 1

5� 45

Se pide hallar x tal que

P

30Xi=1

Xi � x!= 0:05

o lo que es igual

P

30Xi=1

Xi < x

!= P

30Xi=1

Xi � x� 1!= 0:95

Page 229: Métodos Estadísticos-Félix Míguez Marín [2012]

A.4. CAPÍTULO 4 227

y usando la aproximación normal

P

30Xi=1

Xi � x� 1!

� �

0@x� 1 + 0:5� 30� 15q

30� 15 �

45

1A = 0:95

x� 1 + 0:5� 30� 15q

30� 15 �

45

= 1:64! x = 10:0931

8. S =Pni=1Xi es asintóticamente N

�126;

p105�y

P (S � s) � ��s+ 0:5� 126p

105

P (jS � 126j < 30) = P (96 < S < 156)

= P (96 < S � 155)

= P (S � 155)� P (S � 96)

P (S � 155) � �

�155 + 0:5� 126p

105

�= �(2:879) � 0:99801

leyendo � (2:88) = 0:99801

P (S � 96) � �

�96 + 0:5� 126p

105

�= �(�2:879) � 1� 0:99801

= 0:00199

y resulta

P (jS � 126j < 30) � 0:99801� 0:00199 = 0:99602

(en el Ejercicio 18 del Capítulo 3 se obtuvo mediante la acotación de Tchebychev

P (jS � 126j < 30) � 0:883).

Page 230: Métodos Estadísticos-Félix Míguez Marín [2012]

228 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

9.

E�X

Zi

�= 8000 g

V ar�X

Zi

�= 64 g2r

V ar�X

Zi

�= 8g

P�X

Zi > 8016�

= 1� P�X

Zi � 8016�� 1� �

�8016� 8000

8= 2

�= 1� 0:97725 = 0:02275

Como las Zi y por lo tanto laPZi son variables continuas no hay que usar la

corrección de continuidad para aproximar con el teorema central del límite.

10.

E

25Xi=1

Xi

!=

25Xi=1

E (Xi) = 25� 40

V ar

25Xi=1

Xi

!=

25Xi=1

V ar (Xi) = 25� 202

P

nXi=1

Xi > 1100

!= 1� P

nXi=1

Xi � 1100!� 1� �

�1100� 25� 4020�

p25

= 1

�= 1� 0:84134 = 0:15866

Como las Xi y por lo tanto laPXi son variables continuas no hay que usar la

corrección de continuidad para aproximar con el teorema central del límite.

11. El tiempo que el sistema está operativo esPni=1Xi. Su esperanza y varianza son

E

nXi=1

Xi

!= 100n

V ar

nXi=1

Xi

!= 302n

Page 231: Métodos Estadísticos-Félix Míguez Marín [2012]

A.4. CAPÍTULO 4 229

y se pide n para que

P

nXi=1

Xi � 10000!= 0:05

P

nXi=1

Xi � 10000!� �

�10000� 100n

30pn

�= 0:05

y ha de ser10000� 100n

30pn

= �1:64

Las soluciones de

10000� 100n+ 1:64� 30pn = 0

sonpn = 10:249;�9:757 y sólo vale la primera. Así n = 10:2492 � 105.

12. a)

P (N (1) � 4; N (3) � 12) =

4Xx=0

P (N (1) = x;N (3)�N (1) � 12� x)

=

4Xx=0

P (N (1) = x)P (N (3)�N (1) � 12� x)

=4Xx=0

0@e�4 4xx!�12�xXy=0

e�88y

y!

1A= 0:4575

b) El tiempo de espera entre llegadas es 1=� = 1=4 = 0:25 h

13.

� =7

15000= 4:6667� 10�4 accidentes/año

El número esperado de accidentes de gravedad 4 o superior en los próximos 20

años es

E (N(20)) = n�t = 442� (7=15000)� 20 = 4:1253

La probabilidad de que se produzca al menos un accidente de gravedad 4 o superior

en los próximos 20 años es

P (N(20) � 1) = 1� P (N(20) = 0) = 1� e�n�t

= 1� exp (�4:1253) = 0:9838

Page 232: Métodos Estadísticos-Félix Míguez Marín [2012]

230 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

14. a) el número N (v) de cristales en secciones de 0:01 dm2 es una Va de Poisson deparámetro � = 7 � 0:01 = 0:07 y por lo tanto P (N (v) = 0) = exp (�0:07) =0:93239.

b) como las 10 secciones no se solapan las VAs Ni (v) son independientes, yP (N1 (v) = 0; N2 (v) = 0; :::; N10 (v) = 0) = 0:93239

10 = 0:49656

15. La probababilidad de que en un conjunto v haya al menos un punto es

P (N (v) � 1) = 1� P (N (v) = 0)

= 1� exp����x2

�pues v es en nuestro caso un círculo de area �x2 y N (v) es Poisson de parámetro

��x2. Por lo tanto

F (x) = 1� exp����x2

�x > 0

y derivando resulta la densidad:

f(x) = 2��x exp����x2

�x > 0

16. Para una ji-cuadrado de parámetro 3 se lee en la tabla 2 que

P��2 (3) < 7:8147

�= 0:95

asi puesv2

�2= 7:8147

v = �p7:8147 = 298:39

p7:8147 = 834:14m s�1

17.

�p7:8147 = 103�

1:38� T0:028� (6:022)�1

�1=2=

103p7:8147

! T = 431:15K

18.

P (Z < z) = P�Z2 < z2

�= P

��2 (2) <

z2

�2

�= �

Page 233: Métodos Estadísticos-Félix Míguez Marín [2012]

A.4. CAPÍTULO 4 231

Para una ji-cuadrado de parámetro 3 se lee en la tabla 2 que

P��2 (2) < 5:9915

�= 0:95

y así, con z = 5m

z2

�2=25

�2= 5:9915! � =

5p5:9915

= 2:0427m

Page 234: Métodos Estadísticos-Félix Míguez Marín [2012]

232 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

A.5 Capítulo 5

1. Denotando las muestras (X1; X2; :::; Xm) y (Xm+1; Xm+2; :::; Xm+n) esPmi=1Xi =

mXm yPm+ni=m+1Xi = nXn

X =1

m+ n

m+nXi=1

Xi =mXm + nXn

m+ n

2.

S20 =1

n

nXi=1

�Xi �X

�2=n� 1n

S2

E�S20�=n� 1n

E�S2�=n� 1n

�2

también

V ar�S20�=

�n� 1n

�2V ar

�S2�

y es claro que E�S20�! �2 y V ar

�S20�! 0 si n!1, de manera que S20 también

puede utilizarse para aproximar �2. Sin embargo si n es �nito E�S20�= �2��2=n

y se cometería un error sistemático en la aproximación de valor promedio ��2=n.

3.

x =1

n

nXi=1

xi =1

n

kXi=1

niai

s2 =1

n� 1

nXi=1

(xi � x)2 =1

n� 1

kXi=1

ni (ai � x)2

=1

n� 1

kXi=1

nia2i � nx2

!

4. a)

x =1

20

20Xi=1

xi =1

20

7Xi=1

niai

=4� 0 + 3� 1 + 5� 2 + 2� 3 + 4� 4 + 1� 5 + 1� 6

20

= 2:3 defectos/cm2

Page 235: Métodos Estadísticos-Félix Míguez Marín [2012]

A.5. CAPÍTULO 5 233

7Xi=1

nia2i = 4� 02 + 3� 12 + 5� 22 + 2� 32 + 4� 42 + 1� 52 + 1� 62 = 166

s2 =1

n� 1

kXi=1

nia2i � nx2

!

=1

20� 1�166� 20� 2:32

�= 3:1684

y

s = 1:78 defectos/cm2

b) La media de la muestra total de 30 probetas es la ponderada

20� 2:3 + 10� 1:430

= 2 defectos/cm2

5. a)E�X�= E (X) = r

E�X2�

= V ar�X�+�E�X��2

=V ar (X)

n+ (E (X))2

=�2

n+ r2

así que el sesgo es �2=n

b) un estimador insesgado para �2=n es S2=n. Resulta que un estimador insesgadode área es �

h�X�2 � S2=ni

6.

V ar (T ) = �2V ar (T1) + (1� �)2 V ar (T2)

= �2�21 + (1� �)2 �22

d

d�V ar (T ) = 2��21 � 2 (1� �)�22 = 0

� =�22

�21 + �22

Page 236: Métodos Estadísticos-Félix Míguez Marín [2012]

234 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

que corresponde a un mínimo pues

d2

d�2V ar (T ) = 2�21 + 2�

22 > 0

El estimador de varianza mínima es

T =�22

�21 + �22

T1 +�21

�21 + �22

T2

que se puede escribir también

T =

1�21

1�21+ 1

�22

T1 +

1�22

1�21+ 1

�22

T2

y se ve que el peso que se da a cada estimador, T1 y T2, es tanto mayor cuanto

más preciso es (cuanto menor es su varianza).

7.

V ar (T1) = V ar�Xm

�=�2

m

V ar (T2) = V ar�Xn

�=�2

n

T =m�2

m�2+ n

�2Xm +

n�2

m�2+ n

�2Xn =

m

m+ nXm +

n

m+ nXn

= X

es decir, la media muestral de la muestra total de tamaño m+ n.

8. La estimación de MV de � es

x =1

n

Xxi =

533 + 552 + 539 + 564 + 541

5=2729

5= 545:8 Kg

Para estimar � calculamos

X(xi � x)2 =

nXi=1

x2i �1

n

�Xxi

�2= 1490091� 2729

2

5= 602:8

Page 237: Métodos Estadísticos-Félix Míguez Marín [2012]

A.5. CAPÍTULO 5 235

La estimación de máxima verosimilitud de �2 es

1

n

X(xi � x)2 =

602:8

5= 120:56

que como sabemos es sesgado. La estimación insesgada es

s2 =1

n� 1X

(xi � x)2 =602:8

4= 150:7

y la estimación correspondiente de � es

s = 12:276 Kg

9. El valor a estimar es

I =

Z �=2

0sinxdx = [� cosx]�=20 = 1

Para aproximar el valor de la integral se usarán los valores de n VasXi con densidad

f (x) = 2� para x 2 (0; �=2), y se usará el estimador

bI = �

2n

nXi=1

sinXi

Calculemos su esperanza. Primero

E (sinXi) =2

Z �=2

0sinxdx =

2

�[� cosx]�=20 =

2

y resulta

E�bI� = �

2nE

nXi=1

sinXi

!=�

2n

nXi=1

E (sinXi) = 1

10.

L(p) = (1� p)Pxi�npn

lnL =�X

xi � n�ln(1� p) + n ln p

d lnL

dp= �

Pxi � n1� p +

n

p= 0

bp =nPxi=1

x

Page 238: Métodos Estadísticos-Félix Míguez Marín [2012]

236 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

que es la frecuencia relativa de caras (n) en el total de tiradas (Pxi). El estimador

MV de E(X) = p�1 es X

11.

L(�) =Y�

e���xi

xi!

�= e�n��

Pxi

�Y 1

xi!

�lnL = �n�+

Xxi ln�+ ln

�Y 1

xi!

�d lnL

d�= �n+ nx

�= 0b� = x

que corresponde a un máximo pues

d2 lnL

d�2= �nx

�2< 0 8�

El estimador es X.

Hallemos la cota

ln f (x) = ��+ x ln�� lnx!d ln f (x)

d�= �1 + x

�=x� ��

I(�) = E

�d ln f (X)

d�

�2=E�(X � �)2

��2

=�

�2=1

pues E (X) = � y V ar (X) = E�(X � �)2

�= �. La cota es

1

nI(�)=�

n

y como V ar�X�= V ar (X) =n = �=n resulta que el estimador alcanza la cota.

12.

E(C) = E�3X +X2

�= 3E(X) + E(X2) = 3E(X) + V ar(X) + (E(X))2

= 3�+ �+ �2 = 4�+ �2

y como el estimador MV de � es X el de E(C) es 4X +�X�2. Calculamos su

Page 239: Métodos Estadísticos-Félix Míguez Marín [2012]

A.5. CAPÍTULO 5 237

esperanza

E�4X +

�X�2�

= 4E�X�+ E

��X�2�

= 4E�X�+ V ar

�X�+�E�X��2

= 4E (X) +V ar (X)

n+ (E (X))2

= 4�+�

n+ �2

y el sesgo vale �=n. Entonces 4X +�X�2 �X=n es insesgado.

13. Si el estimador de 1=� es X el de 1=�2 es, por la propiedad de invariación,�X�2.

Calculamos su esperanza

E��X�2�

= V ar(X) +�E(X)

�2=

1

n�2+1

�2=1

�2

�n+ 1

n

�así que un estimador insesgado es

n

n+ 1

�X�2

14. a)

f (x) = F 0 (x) =x

�2exp

�� x2

2�2

�x > 0

L (�) =Yf (xi) =

Y xi�2exp

�� x2i2�2

�=

1

�2nexp

��Px2i

2�2

�Yxi

lnL (�) = �2n ln� �Px2i

2�2+X

lnxi

igualando a cero la derivada

d

d�lnL (�) = �2n

�+

Px2i�3

= 0! b� =r 1

2n

Xx2i

la solución es b� =r 1

2n

Xx2i

Page 240: Métodos Estadísticos-Félix Míguez Marín [2012]

238 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

que corresponde a un máximo pues�d2

d�2lnL (�)

�b� = �

8n2Px2i< 0

b) la estimaciónde MV de E (X) es b�p�2 .

c) la estimación de E (X) por el métodos de los momentos es x. Y como � =q2�E (X) la estimación de � por el método de los momentos es

b� =r 2

�x

d) estimaciones de máxima verosimilitud

b� =

r1

2n

Xx2i =

r109:94

20= 2:3446

bE (X) = b�r�2= 2:9385

estimaciones de momentos

bE (X) = x = 3:1

b� =

r2

�x = 2:4734

15.

� =E (X)

V ar (X)=

E (X)

E (X2)� (E (X))2

� = �E (X)

Las estimaciones son

b� =x

x2 � (x)2=

PxiP

x2i � 1n (Pxi)

2

b� = b�x

Page 241: Métodos Estadísticos-Félix Míguez Marín [2012]

A.5. CAPÍTULO 5 239

Con la muestra es

b� =

PxiP

x2i � 1n (Pxi)

2 =187:38

3380:69740� 187:382

12

= 0:4120

b� = b�x = 6:4340Las estimaciones de MV calculadas con un programa son b� = 0:4576 y b� = 7:1449

16. Si Y � LN(�; �) (lognormal de parámetros � y �), entonces X = lnY � N(�; �).Como la función logaritmo es monótona entonces las estimaciones de � y � son las

mismas. En la normal se obtuvo

b� = x

b� =

r1

n

X(xi � x)2

E (Y ) y V ar (Y ) son funciones de � y �. Aplicando la propiedad de invariación

bE(Y ) = exp(b�+ b�2=2)V ar(Y ) = exp(2b�+ b�2)(exp b�2 � 1)

17. La probabilidad de obtener en n ensayos independientes los valores x1, x2 y x3 de

las 3 clases, con probabilidades p1; p2 y p3 de cada clase es�5000

x1

��5000� x1

x2

�px11 p

x22 p

x23

Como función de !

L (!) =

�5000

x1

��5000� x1

x2

�(0:025 + !)x1+x3 (0:95� 2!)x2

El ! que maximiza se obtiene así

lnL = lnC + (x1 + x3) ln (0:025 + !) + x2 ln (0:95� 2!)d lnL

d!=

(x1 + x3)

(0:025 + !)� 2x2(0:95� 2!) = 0

b! =(x1 + x3) (0:95)� 2x2 � 0:025

2n

Page 242: Métodos Estadísticos-Félix Míguez Marín [2012]

240 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

que corresponde a un máximo pues

d2 lnL

d!2= � (x1 + x3)

(0:025 + !)2� 4x2

(0:95� 2!)2< 0 8!

Con la muestra resulta

b! = 572� 0:95� 2� 4428� 0:0252� 5000 = 0:0322

18. El principio de máxima verosimilitud se basa en maximizar la probabilidad de la

muestra observada. Como la probabilidad de que un componente dure menos de

85 h es [1� exp(�85�)], la probabilidad de la muestra es (binomial)

L(�) =

�10

6

�[1� exp(�85�)]6 [exp(�85�)]4

lnL = lnC + 6 ln [1� exp(�85�)]� 340�d lnL

d�=

510 exp(�85�)1� exp(�85�) = 340

exp(�85�) =340

510 + 340= 0:4

b� = � ln 0:485

� 1:08� 10�2 fallos/hora

y aún más fácil poniendo p = 1� exp(�85�) y hallando el estimador de p del quese deducirá (por la propiedad de invariación) el de �:

L(p) =

�10

6

�p6(1� p)4

d lnL

dp=

6

p� 4

1� p = 0bp = 0:6b� = � 1

85ln (1� bp) = � ln 0:4

85

Las estimaciones de E (X) y de P (X > 100), de nuevo por la invariación, son:

bE(X) = 1b� = 92:8 hbP (X > 100) = exp(�100b�) � 0:34

Page 243: Métodos Estadísticos-Félix Míguez Marín [2012]

A.5. CAPÍTULO 5 241

19. como

E�X

�iXi

�=X

�iE(Xi) = E(X)X

�i

para que el estimador sea insesgado ha de serP�i = 1. Busquemos ahora, en

particular, cuál tiene varianza mínima. Como:

V ar�X

�iXi

�=X

�2iV ar(Xi) = V ar(X)X

�2i

se trata de hallar los �i que minimizanP�2i sujetos a

P�i = 1. Como se sabe

(método de Lagrange) ello equivale a hallar los �i y c que minimizan q =P�2i �

2c (P�i � 1). La solución se obtiene del sistema:

@

@�jq = 2�j � 2c = 0 j = 1; :::; n

@

@cq =

X�i � 1 = 0

resultando �j = 1=n. En conclusión, el estimador lineal insesgado de varianza

mínima es X.

Page 244: Métodos Estadísticos-Félix Míguez Marín [2012]

242 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

A.6 Capítulo 6

1. a)

" = u0:975 ��pn= 1:96� 0:3p

100= 0:0588

� 2 (10:2� 0:0588) = (10:14; 10:26)

b) para tener una cota " = 0:01 con el 95% hay que tomar un n

n =�u0:975 �

"

�2=

�1:96� 0:3

0:01

�2� 3457

2. La muestra corresponde al modelo X � N (�T ; �)

x =1

n

Xxi =

157:99

29= 5:4479

s2 =1

n� 1X

(xi � x)2 =1

n� 1

�Xx2i �

1

n

�Xxi

�2�=

1

28

�862:0855� 157:99

2

29

�= 4:88167� 10�2

s =p4:8817� 10�2 = 0:2209

Con 1� � = 0:95 es t0:975 (28) = 2:0484 y

" = t1��=2spn= 2:0484� 0:22p

29= 8:3683� 10�2

Así que

�T 2 (5:45� 0:084) g cm�3

(El valor aceptado en la actualidad es 5:513 g cm�3)

3. a) El intervalo del 95% para �:

t1��=2 (n� 1) = t0:975 (19) = 2:0930

x� t1��=2s=pn = 0:42328� 2:0930� 0:01776p

20= 0:41497

x+ t1��=2s=pn = 0:42328 + 2:0930� 0:01776p

20= 0:43159

Page 245: Métodos Estadísticos-Félix Míguez Marín [2012]

A.6. CAPÍTULO 6 243

Como el intervalo obtenido (0:4150; 0:4316) queda dentro del de especi�cación

(0:40; 0:44) pareciera que el proceso es aceptable. Sin embargo es crucial notar

que el intervalo obtenido se re�ere al valor medio �, no a los valores individuales.

b) Para hallar el intervalo de tolerancia con p = 0:99, 1� � = 0:95 y n = 20 en latabla IV se lee k = 3:621

xL = 0:42328� 3:621� 0:01776 = 0:358971

xS = 0:42328 + 3:621� 0:01776 = 0:487589

es decir, el 99% de los componentes fabricados están en (0:36; 0:49) cm con una

con�anza del 95%:

c) Los resultados indican que el proceso no es satisfactorio: una alta proporciónde componentes queda fuera de los límites de especi�cación.

4.

x = 545:8 Kg

s = 12:28 Kg

El intervalo del 95% para � es x � t0:975s=pn donde t0:975(4) = 2:7764 y resulta

� 2 (530:55; 561:05) Kg.

El intervalo del 95% para � es�sq

n�1�21��=2

; sq

n�1�2�=2

�donde �20:975(4) = 11:1433 y

�20:025(4) = 0:4844 y resulta � 2 (7:36; 35:29) Kg.

Para hallar el límite inferior de tolerancia con 1 � � = 0:99; p = 0:95 y n = 5, enla tabla V se lee k = 6:578 y el límite inferior es

xL = 545:8� 6:578� 12:28 = 465:022

es decir, con una con�anza del 99%

P (X > 465) � 0:95

es decir, el 95% de los cables tienen una resistencia mayor que 465 Kg

5. De

P

�(n� 1)S2

�2> �2�

�= 1� �

Page 246: Métodos Estadísticos-Félix Míguez Marín [2012]

244 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

resulta

P

� < S

sn� 1�2�

!= 1� �

La media muestral vale

x =1

n

Xxi =

108

14= 7:7143ms

La varianza y desviación típica muestrales valen

s2 =1

n� 1X

(xi � x)2 =1

n� 1

�Xx2i �

1

n

�Xxi

�2�=

1

13

�1950� 1

14(108)2

�= 85:9121

s = 9:2689ms

Con 1� � = 0:90 es �20:10 (13) = 7:0415 y

s

sn� 1�2�

= 9:2689�r

13

7:0415= 12:5941

resultando

� < 12:6 ms

con una con�anza del 90%.

6. La estimación inicial de p es x = 26=30 � 0:87 y la cota del error cometido es, con1� � = 0:99 y u1��=2 = u0:995 � 2:58

" = u1��=2px (1� x) =n = 2:58

r26

30� 4

30� 1

30= 0:160

Queremos reducirla a 0:02 aumentando el tamaño n de muestra. La cota �nal

depende de n y del nuevo valor que resulte para x

" = u1��=2px (1� x) =n

y la más pesimista se obtendría con x = 1=2. Sin embargo, como el nuevo valor de

x no debería estar muy alejado del previo, usaremos éste, y despejaremos n para

Page 247: Métodos Estadísticos-Félix Míguez Marín [2012]

A.6. CAPÍTULO 6 245

que " = 0:02

n =�u1��=2

"

�2x (1� x) =

�2:58

0:02

�2� 2630� 4

30= 1922:96

así que, aproximadamente, habría que usar n = 1923

Si �nalmente se usó n = 2000 y hubo 1640 aceptables la estimación �nal de p es

x = 1640=2000 = 0:82 y la cota del error

" = 2:58

r1640

2000� 360

2000� 1

2000= 0:022

así que, con una con�anza del 99%

p 2 (0:82� 0:022)

7. a) las mismas. b)

n =

�1:96

0:02

�20:25 = 2401

8. La estimación MV de � es x

x =1

2608

12Xx=0

x� n (x) = 3:87 cuentas/7.5 s

Como n es grande formamos el intervalo aproximado del 95% (ejemplo 10):

" = u1��=2

rx

n= 1:96

r3:87

2608= 0:0755

y resulta, con una con�anza del 95%

� 2 (3:87� 0:076) cuentas/7.5 s

Comentario: Téngase en cuenta que E (X) = � equivale al número promedio

teórico de átomos que decaen en el intervalo, y depende del número de átomos

presentes en el experimento: si inicialmente hay N (0) átomos, el número de los

que decaen en un intervalo t es una Va binomial X (t) de parámetros N (0) y

p = 1� e�kt (donde k es la constante de desintegración del polonio). Su promedio

Page 248: Métodos Estadísticos-Félix Míguez Marín [2012]

246 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

es (ver ejercicio 15 del capítulo 3)

E (X (t)) = N (0)�1� e�kt

�y además, si N (0) ! 1 y p ! 0 pero N (0) p = � constante, la Va binomial

converge a una de Poisson de parámetro � (proposición 4 del capítulo 4).

9. De

P (�2�=2 < 2n�X < �21��=2) = 1� �

se sigue un intervalo para el parámetro �

P

�2�=2

2nX< � <

�21��=2

2nX

!= 1� �

y ,tomando el recíproco, para E(X) = 1=�

P

2nX

�21��=2<1

�<2nX

�2�=2

!= 1� �

10. El tiempo medio estimado es x = 3:04min. Con 1�� = 0:95 es �20:025 (20) = 9:5908y �20:975 (20) = 34:1696

2nX

�21��=2=

2� 30:434:1696

= 1:7794

2nX

�2�=2=

2� 30:49:5908

= 6:3394

y resulta un intervalo para E (X) = 1=�

1=� 2 (1:8; 6:3) min

Page 249: Métodos Estadísticos-Félix Míguez Marín [2012]

A.7. CAPÍTULO 7 247

A.7 Capítulo 7

1. a) n = 6,Pxi = 16,

Pyi = 0:231,

Px2i = 48:5,

Py2i = 0:0097,

Pxiyi = 0:6845

b1 = 0:0117, b0 = 0:0072

s = 0:0013

r = 0:9956

R2 = 0:991

0 1 2 3 4 50

0.01

0.02

0.03

0.04

0.05

0.06

0.07

tiempo(h)

gana

ncia

 en 

peso

 (%)

b) Para t = 3:2 h la ganancia esperada estimada es

b� (3:2) = 0:0072 + 0:0117� 3:2 � 0:0445 %En la tabla III se lee t0:975 (4) = 2:7764 y

t1��=2�s

s1

n+

(x� �x)2P(xi � �x)2

= 2:7764�0:0013�

s1

6+(3:2� 16=6)2

5:8333= 1:675�10�3

Page 250: Métodos Estadísticos-Félix Míguez Marín [2012]

248 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

resulta, con una con�anza del 95%

� (3:2) = 0:0445� 0:0017 %

c) p = 0:9; u(1+p)=2 = u0:95 = 1:64

d2 =1

6+(3:2� 16=6)2

5:8333= 0:2154

1 +d2

2�d4�2u2(1+p)=2 � 3

�24

= 1 +0:2154

2�0:21542 �

�2� 1:642 � 3

�24

= 1:1031

�20:05 (4) = 0:7107

k = u(1+p)=2

sn� 2�2�

241 + d22�d4�2u2(1+p)=2 � 3

�24

35= 1:64�

r4

0:7107� 1:1031 = 4:2919

Con una con�anza del 95% al menos el 90% de los valores de la ganancia Y después

de x = 3:2 h estarán dentro del intervalo

b�(3:2)� k � s =

0:0445� 4:2919� 0:0013 = (0:0389; 0:0501) %

es decir, con dicha con�anza

P (0:0389 < Y (3:2) < 0:0501) � 0:90

2. a) n = 24,Pxi = 27,

Pyi = 27:0220,

Px2i = 38:2500,

Py2i = 38:2798,

Pxiyi =

38:2638

b1 = 0:9986; b0 = 0:0025

s = 0:0102

Page 251: Métodos Estadísticos-Félix Míguez Marín [2012]

A.7. CAPÍTULO 7 249

r = 0:9999

0 0.5 1 1.5 2 2.50

0.5

1

1.5

2

2.5

longitud nominal (mm)

long

itud 

actu

al (m

m)

b) Para x = 1 cm la longitud esperada estimada es

b� (1) = 0:0025 + 0:9986� 1 � 1:0011 cmEn la tabla III se lee t0:975 (22) = 2:0739 y

t1��=2�s

s1

n+

(x� �x)2P(xi � �x)2

= 2:0739�0:0102�

s1

24+(1� 27=24)2

7:8750= 4:420�10�3

resulta, con una con�anza del 95%

� (1) = 1:0011� 0:0044 cm

c) p = 0:99; u(1+p)=2 = u0:995 = 2:58

d2 =1

24+(1� 27=24)2

7:8750= 0:043651

Page 252: Métodos Estadísticos-Félix Míguez Marín [2012]

250 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

1+d2

2�d4�2u2(1+p)=2 � 3

�24

= 1+0:043651

2�0:0436512 �

�2� 2:582 � 3

�24

= 1:021

�20:05 (22) = 12:3380

k = u(1+p)=2

sn� 2�2�

241 + d22�d4�2u2(1+p)=2 � 3

�24

35= 2:58�

r22

12:3380� 1:021 = 3:5175

Con una con�anza del 95% al menos el 99% de las longitud Y correspondientes a

la nominal de x = 1 cm estarán dentro del intervalo

b�(1)� k � s =

1:0011� 3:5175� 0:0102 = (0:965; 1:037) cm

es decir, con dicha con�anza

P (0:965 < Y (1) < 1:037) � 0:99

3. poniendo x =p2d

Y = �0 + �1x+ U

la muestra es

x (m) 0:6325 1:4142 2:0000 2:4495 3:1623

y ( s) 0:26 0:50 0:68 0:82 1:07

Pxi = 9:6584; x = 1:9317;

Px2i = 22:4;

P(xi � x)2 =

Px2i � (

Pxi)

2 =n =

3:7429Pyi = 3:3300; y = 0:6660;

Py2i = 2:5973;

P(yi � y)2 =

Py2i � (

Pyi)

2 =n =

0:3795Pxiyi = 7:6238;

Pxiyi � (

Pxi) (

Pyi) =n = 1:1912

y resultan

b1 =1:1912

3:7429= 0:3183m�1=2 s! bg = 1=0:31832 � 9:87m s�2

b0 = 0:6660� 0:3183� 1:9317 � 0:05 s

Page 253: Métodos Estadísticos-Félix Míguez Marín [2012]

A.7. CAPÍTULO 7 251

Desde que se interrumpe la corriente hasta que se libera la bola transcurren 0:05 s

(es decir, el tiempo medido es superior en dicha cantidad al de caida más el error

aleatorio). El error aleatorio está caracterizado por una desviación típica estimada

de valor

s =

r�X(yi � y)2 � b21

X(xi � x)2

�= (n� 2) � 0:01 s

La desviación típica estimada del estimador de �1qdV ar (B1) = sqP(xi � x)2

=0:0114p3:7429

� 0:006m�1=2 s

0 2 4 60

0.2

0.4

0.6

0.8

1

1.2

1.4

d

y

0 1 2 30

0.2

0.4

0.6

0.8

1

1.2

1.4

x

4. X =

0BBBB@1

p2d1

1p2d2

::: :::

1p2dn

1CCCCA

Page 254: Métodos Estadísticos-Félix Míguez Marín [2012]

252 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

5.

q (b) =nXi=1

[yi � bxi]2

Para hallar b que hace mínimo el valor de q:

q0 (b) = �2nXi=1

xi [yi � bxi] = 0

y resulta

b =

nXi=1

xiyi

nXi=1

x2i

que corresponde a un mínimo pues

q00 (b) =nXi=1

x2i > 0

6. X =

0BBBB@x1

x2

:::

xn

1CCCCA7. b�Y (x) = �y + r sYsX (x� �x) = 10 + 0:9� 2:11:2 � (x� 5) = 2:125 + 1:575x

b�X (y) = x+ rsXsY (y � y) = 5 + 0:9� 1:22:1 � (y � 10) = �0:143 + 0:514y8. r =

p0:9 = 0:9487 (mismo signo que b1)

b�Y (x) = 10 + 0:45x = �y + 0:45(x� �x)como b�Y (x) = y es y = 10 + 0:45� 20 = 19:0

b1 = rsYsX

a1 = rsXsY

=r2

b1=0:9

0:45= 2

Page 255: Métodos Estadísticos-Félix Míguez Marín [2012]

A.7. CAPÍTULO 7 253

b�X (y) = x+ a1(y � y) = 20 + 2(y � 19)

= �18 + 2y

9.

rxy =

P(xi � x) (yi � y)qP(xi � x)2

P(yi � y)2

a) Sea u = ax+ b y v = cy + d. Hallemos el coe�ciente de correlación lineal de uy v:

u = ax+ b y v = cy + d

ui � u = axi + b� (ax+ b) = a (xi � x)

vi � v = cyi + d� (cy + d) = c (yi � y)

ruv =

P(ui � u) (vi � v)qP(ui � u)2

P(vi � v)2

=acP(xi � x) (yi � y)q

a2P(xi � x)2 c2

P(yi � y)2

= rxy

b) Como byi = b0 + b1xi se sigue que rxy = rbyy

10. En todas las muestras: x = 9:0, y = 7:5,P(xi � x)2 = 110,

P(yi � y)2 = 41,

y = 3 + 0:5x:2 y r = 0:816

La enseñanza es que nunca debe usarse sólo el valor de r para concluir una relación:

primero hay que estudiar el grá�co de la muestra (diagrama de dispersión):

La (1) sugiere efectivamente una dependencia estadística lineal.

En la (2) hay dependencia funcional no lineal.

La (3) y la (4) ilustran la importancia que puede tener en los valores calculados

un único un dato anómalo (outlier).

Page 256: Métodos Estadísticos-Félix Míguez Marín [2012]

254 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

Una discusión muy clara en: http://en.wikipedia.org/wiki/Anscombe�s_quartet

0 5 10 15 200

5

10

15

x

y

(1)

0 5 10 15 200

5

10

15

x

y

(2)

0 5 10 15 200

5

10

15

x

y

(3)

0 5 10 15 200

5

10

15

x

y

(4)

11. Resulta r = 0 puesP(xi � x) (yi � y) =

Pxiyi � (

Pxi) (

Pyi) =n = 0 ya queP

xiyi =Px3i = 0 (pues para cada xi hay otra xj = �xi) y

Pxi = 0. Pero los

puntos son funcionalmente dependientes. En general la incorrelación (r = 0) sólo

signi�ca ausencia de relación lineal.

12.

X =

0BBBB@1 x1 x21 ::: xm11 x2 x22 ::: xm2::: ::: ::: ::: :::

1 xn x2n ::: xmn

1CCCCA

Page 257: Métodos Estadísticos-Félix Míguez Marín [2012]

A.7. CAPÍTULO 7 255

y el sistema (sistema 7.13) XTXb = XTy queda0BBBB@n

Pxi

Px2i :::

PxmiP

xiPx2i

Px3i :::

Pxm+1i

::: ::: ::: ::: :::Pxmi

Pxm+1i

Pxm+2i :::

Pxm+mi

1CCCCA0BBBB@b0

b1

:::

bm

1CCCCA

=

0BBBB@PyiPyixi

:::Pyix

mi

1CCCCAcon solución única si, y sólo si, el rango de X es m + 1: entre las n � m + 1

coordenadas xi hay al menos m+ 1 distintas.

13. El diagrama de dispersión siguiere que un polinomio de segundo grado puede ajus-

tar satisfactoriamente los puntos. La matrices necesarias (sistema 7.13) son

X =

0BBBBBBBBBBBBBBBBBBB@

1 1 1

1 2 4

1 3 9

1 4 16

1 5 25

1 6 36

1 7 49

1 8 64

1 9 81

1 10 100

1CCCCCCCCCCCCCCCCCCCA

;y =

0BBBBBBBBBBBBBBBBBBB@

20:6

30:8

55

71:4

97:3

131:8

156:3

197:3

238:7

291:7

1CCCCCCCCCCCCCCCCCCCA

;b =

0B@b0b1b2

1CA

y la solución del sistema�XTX

�b = XTy es

b =

0B@ 12:643

6:297

2:125

1CA

Page 258: Métodos Estadísticos-Félix Míguez Marín [2012]

256 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

es decir, el polinomio y = 12:643 + 6:297x+ 2:125x2

0 2 4 6 8 10 120

50

100

150

200

250

300

x

y

En este problema el objetivo es meramente descriptivo (no se ha hecho ninguna

hipótesis estadística). Con ese objetivo el modelo más simple es el adecuado.Sin duda podríamos aumentar el ajuste aumentando el grado del polinomio (au-

mentando hasta el grado 9 obtendríamos una interpolación: el polinomio de La-

grange).

14.

T � ts�n ! lnT = ln t� n ln s

así que poniendo

y = lnT

x = n

b0 = ln t

b1 = � ln s

Page 259: Métodos Estadísticos-Félix Míguez Marín [2012]

A.7. CAPÍTULO 7 257

es

y = b0 + b1x

Las matrices necesarias son (sistema 7.13)

X =

0BBBBBBBBBBB@

1 0

1 1

1 2

1 3

1 4

1 5

1 6

1CCCCCCCCCCCA;y =

0BBBBBBBBBBB@

ln (22:4)

ln (21:3)

ln (19:7)

ln (15:6)

ln (15:2)

ln (13:9)

ln (13:7)

1CCCCCCCCCCCA;b =

b0

b1

!

y la solución del sistema�XTX

�b = XTy es

b =

3:115

�9:243� 10�2

!

0 1 2 3 4 5 6 7

2.5

2.6

2.7

2.8

2.9

3

3.1

3.2

n

log(T)

Page 260: Métodos Estadísticos-Félix Míguez Marín [2012]

258 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

El modelo ajustado es

T = 22:54� 1:097�n

0 1 2 3 4 5 6 710

12

14

16

18

20

22

24

n

T (h)

Page 261: Métodos Estadísticos-Félix Míguez Marín [2012]

A.8. CAPÍTULO 8 259

A.8 Capítulo 8

1. a) La muestra ordenada de valores de X es

(4; 7; 15; 19; 22; 59; 68; 80; 115; 120; 132; 208; 309; 371; 579)

Con p = 0:25 es np+ 0:5 = 15� 0:25 + 0:5 = 4:25 así que k = 4 y r = 0:25

q1 = x(4) + 0:25��x(5) � x(4)

�= 19 + 0:25� (22� 19) = 19:75

q2 = xm = x(8) = 80

Con p = 0:75 es np+ 0:5 = 15� 0:75 + 0:5 = 11:75 así que k = 11 y r = 0:75

q3 = x(11) + 0:75��x(12) � x(11)

�= 132 + 0:75� (208� 132) = 189

El coe�ciente de simetría es

q3 + q1 � 2xmq3 � q1

=189 + 19:75� 2� 80

189� 19:75 = 0:288

la muestra es asimétrica a la derecha (los datos a la derecha de la mediana se

extienden más lejos que a la izquierda).

El límite inferior de valores atípicos es `i = q1 � 1:5 (q3 � q1) = 19:75 � 1:5 �(189� 19:75) = �234:13 < x(1) así que no hay atípicos inferiores.

El límite superior de valores atípicos es `s = q3 + 1:5 (q3 � q1) = 189 + 1:5 �(189� 19:75) = 442:88 < x(15) así que 579 es atípico.

Page 262: Métodos Estadísticos-Félix Míguez Marín [2012]

260 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

b)

0

100

200

300

400

500

600

Pb (

µg / 

m3 )

c) La muestra ordenada de valores de Y = log (X) es

(1:3863; 1:9459; 2:7081; 2:9444; 3:0910; 4:0775; 4:2195; 4:3820;

4:7449; 4:7875; 4:8828; 5:3375; 5:7333; 5:9162; 6:3613)

Los valores de k y r para los cuantiles son los mismos de antes (sólo dependen de

n y p) así que

q1 = y(4) + 0:25��y(5) � y(4)

�= 2:9444 + 0:25� (3:0910� 2:9444) = 2:9811

q2 = ym = y(8) = 4:3820

q3 = y(11) + 0:75��y(12) � y(11)

�= 4:8828 + 0:75� (5:3375� 4:8828) = 5:2238

El coe�ciente de simetría es

q3 + q1 � 2ymq3 � q1

=5:2238 + 2:9811� 2� 4:3820

5:2238� 2:9811 = �0:24930

la muestra es asimétrica a la izquierda (los datos a la izquierda de la mediana se

extienden más lejos que a la derecha). Sin embargo es menos asimétrica que la de

valores de X.

El límite inferior de valores atípicos es `i = q1 � 1:5 (q3 � q1) = 2:9811 � 1:5 �(5:2238� 2:9811) = �0:38 < y(1) así que no hay atípicos inferiores.

Page 263: Métodos Estadísticos-Félix Míguez Marín [2012]

A.8. CAPÍTULO 8 261

El límite superior de valores atípicos es `s = q3 + 1:5 (q3 � q1) = 5:2238 + 1:5 �(5:2238� 2:9811) = 8:58 > y(15) así que no hay atípicos superiores.

d)

1.5

2

2.5

3

3.5

4

4.5

5

5.5

6

6.5

log 

Pb 

( µg 

/ m3 )

e) Como n = 15 las probabilidades asociadas a cada elemento de la muestra

(cuantiles empíricos) con pk = (k � 0:5)=15 son

pk = (0:0333; 0:1000; 0:1667; 0:2333; 0:3000; 0:3667; 0:4333; 0:5000;

0:5667; 0:6333; 0:7000; 0:7667; 0:8333; 0:9000; 0:9667)

y los cuantiles teóricos con la N(0; 1) correspondientes a estas probabilidades son

��1(pk) = (�1:8339;�1:2816;�0:9674;�0:7279;�0:5244;�0:3407;�0:1679; 0;0:1679; 0:3407; 0:5244; 0:7279; 0:9674; 1:2816; 1:8339)

Page 264: Métodos Estadísticos-Félix Míguez Marín [2012]

262 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

­2 ­1.5 ­1 ­0.5 0 0.5 1 1.5 21

2

3

4

5

6

7

8

Φ­1 (pk)

y(k)

f) Si Y = log (X) siguiese una distribución N (�; �) su función de cuantiles Q (p)es y = � + ���1(p). El grá�co cuantil-cuantil (valores experimentales y(k) sobre

teóricos ��1 (pk)) sugiere que dicho modelo puede ser adecuado. Los parámetros

de la recta de mínimos cuadrados son

b =

Py(i)�

�1 (pi)��P

y(i)� �P

��1 (pi)�=nP

(��1 (pi))2 � (

P��1 (pi))

2 =n= 1:4621

a =�X

y(i) � bX

��1 (pi)�=n = 4:1679

y entonces una estimación de � sería 1:4621 y una de � sería 4:1679

Estas estimaciones coinciden apreciablemente con las de máxima verosimilitud en

la normal

b� = y =1

n

Xyi = 4:1679

b� = sy =

r1

n� 1X

(yi � y)2 = 1:4744

Page 265: Métodos Estadísticos-Félix Míguez Marín [2012]

A.8. CAPÍTULO 8 263

2. La desviación típica de la muestra es s = 0:2209 y n = 29; Para elegir la anchura

de clases usamos

h � 3:5s

n1=3=3:5� 0:2209

291=3= 0:2517

y tomaremos h = 0:25

Con el origen en a0 = 4:88

Ij njnjn

njnh

[4:88; 5:13] 3 0:1034 0:4138

(5:13; 5:38] 8 0:2759 1:1034

(5:38; 5:63] 13 0:4483 1:7931

(5:63; 5:88] 5 0:1724 0:6897

29 1

5 5.2 5.4 5.6 5.8 6 6.20

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

x

dens

idad

 de 

prob

abili

dad

origen en 4.88

Page 266: Métodos Estadísticos-Félix Míguez Marín [2012]

264 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

Con el origen en a0 = 4:83

Ij njnjn

njnh

[4:83; 5:08] 2 0:0690 0:2759

(5:08; 5:33] 6 0:2069 0:8276

(5:33; 5:58] 13 0:4483 1:7931

(5:58; 5:83] 7 0:2414 0:9655

(5:83; 6:08] 1 0:0345 0:1379

29 1

5 5.2 5.4 5.6 5.8 6 6.2 6.40

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

x

dens

idad

 de 

prob

abili

dad

origen en 4.83

El ejercicio ilustra claramente la debilidad del histograma: su dependencia de los

valores elegidos para a0 y h. Naturalmente cuanto mayor sea el tamaño de muestra

n más robusta será la imagen (pues se podrá elegir un valor de h pequeño y el

desplazamiento del origen en un intervalo de longitud h tendrá menos importancia).

Page 267: Métodos Estadísticos-Félix Míguez Marín [2012]

A.8. CAPÍTULO 8 265

b) Con n = 29 las probabilidades asociadas a cada elemento de la muestra orde-nada x(k) (cuantiles empíricos) son pk = (k� 0:5)=29 (k = 1; 2; ::29) y los cuantilesteóricos con la N(0; 1) correspondientes a estas probabilidades son ��1(pk).

k 1 2 3 4 5

pk 0:0172 0:0517 0:0862 0:1207 0:1552

��1(pk) �2:1144 �1:6284 �1:3645 �1:1715 �1:0145x(k) 4:88 5:07 5:10 5:26 5:27

k 6 7 8 9 10

pk 0:1897 0:2241 0:2586 0:2931 0:3276

��1(pk) �0:8792 �0:7583 �0:6476 �0:5443 �0:4466x(k) 5:29 5:29 5:30 5:34 5:34

k 11 12 13 14 15

pk 0:3621 0:3966 0:4310 0:4655 0:5000

��1(pk) �0:3529 �0:2623 �0:1737 �0:0865 0

x(k) 5:36 5:39 5:42 5:44 5:46

k 16 17 18 19 20

pk 0:5345 0:5690 0:6034 0:6379 0:6724

��1(pk) 0:0865 0:1737 0:2623 0:3529 0:4466

x(k) 5:47 5:50 5:53 5:55 5:57

k 21 22 23 24 25

pk 0:7069 0:7414 0:7759 0:8103 0:8448

��1(pk) 0:5443 0:6476 0:7583 0:8792 1:0145

x(k) 5:58 5:61 5:62 5:63 5:65

Page 268: Métodos Estadísticos-Félix Míguez Marín [2012]

266 APÉNDICE A. SOLUCIONES A LOS EJERCICIOS

k 26 27 28 29

pk 0:8793 0:9138 0:9483 0:9828

��1(pk) 1:1715 1:3645 1:6284 2:1144

x(k) 5:68 5:75 5:79 5:85

­3 ­2 ­1 0 1 2 3

5

5.2

5.4

5.6

5.8

6

6.2

Cuantiles teóricos

Cua

ntile

s em

píric

os

QQ­Plot modelo normal

Page 269: Métodos Estadísticos-Félix Míguez Marín [2012]

Apéndice B

Tablas

267

Page 270: Métodos Estadísticos-Félix Míguez Marín [2012]

u 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586

0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535

0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409

0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173

0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793

0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240

0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490

0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524

0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327

0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891

1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214

1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298

1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147

1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774

1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189

1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408

1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449

1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327

1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062

1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670

2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169

2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574

2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899

2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158

2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361

2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520

2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643

2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736

2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807

2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861

3.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99896 0.99900

3.1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929

3.2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.99950

3.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.99965

3.4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976

Tabla I

Función de distribución normal F(u)

Page 271: Métodos Estadísticos-Félix Míguez Marín [2012]

k 0.010 0.025 0.050 0.100 0.900 0.950 0.975 0.990 0.999

1 0.0002 0.0010 0.0039 0.0158 2.7055 3.8415 5.0239 6.6349 10.8276

2 0.0201 0.0506 0.1026 0.2107 4.6052 5.9915 7.3778 9.2103 13.8155

3 0.1148 0.2158 0.3518 0.5844 6.2514 7.8147 9.3484 11.3449 16.2662

4 0.2971 0.4844 0.7107 1.0636 7.7794 9.4877 11.1433 13.2767 18.4668

5 0.5543 0.8312 1.1455 1.6103 9.2364 11.0705 12.8325 15.0863 20.5150

6 0.8721 1.2373 1.6354 2.2041 10.6446 12.5916 14.4494 16.8119 22.4577

7 1.2390 1.6899 2.1673 2.8331 12.0170 14.0671 16.0128 18.4753 24.3219

8 1.6465 2.1797 2.7326 3.4895 13.3616 15.5073 17.5345 20.0902 26.1245

9 2.0879 2.7004 3.3251 4.1682 14.6837 16.9190 19.0228 21.6660 27.8772

10 2.5582 3.2470 3.9403 4.8652 15.9872 18.3070 20.4832 23.2093 29.5883

11 3.0535 3.8157 4.5748 5.5778 17.2750 19.6751 21.9200 24.7250 31.2641

12 3.5706 4.4038 5.2260 6.3038 18.5493 21.0261 23.3367 26.2170 32.9095

13 4.1069 5.0088 5.8919 7.0415 19.8119 22.3620 24.7356 27.6882 34.5282

14 4.6604 5.6287 6.5706 7.7895 21.0641 23.6848 26.1189 29.1412 36.1233

15 5.2293 6.2621 7.2609 8.5468 22.3071 24.9958 27.4884 30.5779 37.6973

16 5.8122 6.9077 7.9616 9.3122 23.5418 26.2962 28.8454 31.9999 39.2524

17 6.4078 7.5642 8.6718 10.0852 24.7690 27.5871 30.1910 33.4087 40.7902

18 7.0149 8.2307 9.3905 10.8649 25.9894 28.8693 31.5264 34.8053 42.3124

19 7.6327 8.9065 10.1170 11.6509 27.2036 30.1435 32.8523 36.1909 43.8202

20 8.2604 9.5908 10.8508 12.4426 28.4120 31.4104 34.1696 37.5662 45.3147

21 8.8972 10.2829 11.5913 13.2396 29.6151 32.6706 35.4789 38.9322 46.7970

22 9.5425 10.9823 12.3380 14.0415 30.8133 33.9244 36.7807 40.2894 48.2679

23 10.1957 11.6886 13.0905 14.8480 32.0069 35.1725 38.0756 41.6384 49.7282

24 10.8564 12.4012 13.8484 15.6587 33.1962 36.4150 39.3641 42.9798 51.1786

25 11.5240 13.1197 14.6114 16.4734 34.3816 37.6525 40.6465 44.3141 52.6197

26 12.1981 13.8439 15.3792 17.2919 35.5632 38.8851 41.9232 45.6417 54.0520

27 12.8785 14.5734 16.1514 18.1139 36.7412 40.1133 43.1945 46.9629 55.4760

28 13.5647 15.3079 16.9279 18.9392 37.9159 41.3371 44.4608 48.2782 56.8923

29 14.2565 16.0471 17.7084 19.7677 39.0875 42.5570 45.7223 49.5879 58.3012

30 14.9535 16.7908 18.4927 20.5992 40.2560 43.7730 46.9792 50.8922 59.7031

p

Cuantiles de la distribución c2(k)

Tabla II

Page 272: Métodos Estadísticos-Félix Míguez Marín [2012]

k 0.9 0.95 0.975 0.99 0.995

1 3.0777 6.3138 12.7062 31.8205 63.6567

2 1.8856 2.9200 4.3027 6.9646 9.9248

3 1.6377 2.3534 3.1824 4.5407 5.8409

4 1.5332 2.1318 2.7764 3.7469 4.6041

5 1.4759 2.0150 2.5706 3.3649 4.0321

6 1.4398 1.9432 2.4469 3.1427 3.7074

7 1.4149 1.8946 2.3646 2.9980 3.4995

8 1.3968 1.8595 2.3060 2.8965 3.3554

9 1.3830 1.8331 2.2622 2.8214 3.2498

10 1.3722 1.8125 2.2281 2.7638 3.1693

11 1.3634 1.7959 2.2010 2.7181 3.1058

12 1.3562 1.7823 2.1788 2.6810 3.0545

13 1.3502 1.7709 2.1604 2.6503 3.0123

14 1.3450 1.7613 2.1448 2.6245 2.9768

15 1.3406 1.7531 2.1314 2.6025 2.9467

16 1.3368 1.7459 2.1199 2.5835 2.9208

17 1.3334 1.7396 2.1098 2.5669 2.8982

18 1.3304 1.7341 2.1009 2.5524 2.8784

19 1.3277 1.7291 2.0930 2.5395 2.8609

20 1.3253 1.7247 2.0860 2.5280 2.8453

21 1.3232 1.7207 2.0796 2.5176 2.8314

22 1.3212 1.7171 2.0739 2.5083 2.8188

23 1.3195 1.7139 2.0687 2.4999 2.8073

24 1.3178 1.7109 2.0639 2.4922 2.7969

25 1.3163 1.7081 2.0595 2.4851 2.7874

26 1.3150 1.7056 2.0555 2.4786 2.7787

27 1.3137 1.7033 2.0518 2.4727 2.7707

28 1.3125 1.7011 2.0484 2.4671 2.7633

29 1.3114 1.6991 2.0452 2.4620 2.7564

30 1.3104 1.6973 2.0423 2.4573 2.7500

40 1.3031 1.6839 2.0211 2.4233 2.7045

60 1.2958 1.6706 2.0003 2.3901 2.6603

120 1.2886 1.6577 1.9799 2.3578 2.6174

500 1.2832 1.6479 1.9647 2.3338 2.5857

p

Tabla III

Cuantiles de la distribución t(k)

Page 273: Métodos Estadísticos-Félix Míguez Marín [2012]

n n n n p

0.95 0.99 0.95 0.99 0.95 0.99 0.95 0.99

5 5.077 6.598 51 2.376 3.122 5 7.870 10.22 51 2.572 3.379

6 4.422 5.758 52 2.371 3.115 6 6.373 8.292 52 2.564 3.369

7 4.020 5.241 53 2.366 3.108 7 5.520 7.191 53 2.557 3.359

8 3.746 4.889 54 2.361 3.102 8 4.968 6.479 54 2.549 3.349

9 3.546 4.633 55 2.356 3.096 9 4.581 5.98 55 2.542 3.339

10 3.393 4.437 56 2.352 3.090 10 4.294 5.610 56 2.535 3.330

11 3.273 4.282 57 2.347 3.084 11 4.073 5.324 57 2.528 3.322

12 3.175 4.156 58 2.343 3.079 12 3.896 5.096 58 2.522 3.313

13 3.093 4.051 59 2.339 3.073 13 3.751 4.909 59 2.516 3.305

14 3.024 3.962 60 2.335 3.068 14 3.631 4.753 60 2.509 3.297

15 2.965 3.885 61 2.331 3.063 15 3.529 4.621 61 2.503 3.289

16 2.913 3.819 62 2.327 3.058 16 3.441 4.507 62 2.498 3.282

17 2.868 3.761 63 2.324 3.053 17 3.364 4.408 63 2.492 3.274

18 2.828 3.709 64 2.320 3.048 18 3.297 4.321 64 2.487 3.267

19 2.793 3.663 65 2.317 3.044 19 3.237 4.244 65 2.481 3.260

20 2.760 3.621 66 2.313 3.039 20 3.184 4.175 66 2.476 3.254

21 2.731 3.583 67 2.310 3.035 21 3.136 4.113 67 2.471 3.247

22 2.705 3.549 68 2.307 3.031 22 3.092 4.056 68 2.466 3.241

23 2.681 3.518 69 2.304 3.027 23 3.053 4.005 69 2.462 3.234

24 2.658 3.489 70 2.300 3.023 24 3.017 3.958 70 2.457 3.228

25 2.638 3.462 71 2.297 3.019 25 2.984 3.915 71 2.453 3.222

26 2.619 3.437 72 2.295 3.015 26 2.953 3.875 72 2.448 3.217

27 2.601 3.415 73 2.292 3.011 27 2.925 3.838 73 2.444 3.211

28 2.585 3.393 74 2.289 3.008 28 2.898 3.804 74 2.440 3.206

29 2.569 3.373 75 2.286 3.004 29 2.874 3.772 75 2.436 3.200

30 2.555 3.355 76 2.284 3.001 30 2.851 3.742 76 2.432 3.195

31 2.541 3.337 77 2.281 2.997 31 2.829 3.715 77 2.428 3.190

32 2.529 3.320 78 2.278 2.994 32 2.809 3.688 78 2.424 3.185

33 2.517 3.305 79 2.276 2.991 33 2.790 3.664 79 2.420 3.180

34 2.505 3.290 80 2.274 2.988 34 2.773 3.640 80 2.417 3.175

35 2.495 3.276 81 2.271 2.984 35 2.756 3.618 81 2.413 3.171

36 2.484 3.263 82 2.269 2.981 36 2.740 3.598 82 2.409 3.166

37 2.475 3.250 83 2.267 2.978 37 2.725 3.578 83 2.406 3.162

38 2.466 3.238 84 2.264 2.975 38 2.710 3.559 84 2.403 3.157

39 2.457 3.227 85 2.262 2.973 39 2.697 3.541 85 2.399 3.153

40 2.448 3.216 90 2.252 2.959 40 2.684 3.524 90 2.384 3.133

41 2.440 3.205 95 2.242 2.947 41 2.671 3.508 95 2.370 3.114

42 2.433 3.196 100 2.234 2.936 42 2.659 3.493 100 2.357 3.098

43 2.425 3.186 125 2.200 2.891 43 2.648 3.478 125 2.307 3.031

44 2.418 3.177 150 2.176 2.859 44 2.637 3.464 150 2.271 2.985

45 2.412 3.168 175 2.157 2.835 45 2.627 3.450 175 2.244 2.949

46 2.405 3.160 200 2.143 2.816 46 2.617 3.437 200 2.223 2.921

47 2.399 3.151 300 2.106 2.767 47 2.607 3.425 300 2.169 2.850

48 2.393 3.144 500 2.070 2.721 48 2.598 3.412 500 2.117 2.783

49 2.387 3.136 700 2.052 2.697 49 2.589 3.401 700 2.091 2.748

50 2.382 3.129 1000 2.036 2.676 50 2.580 3.390 1000 2.068 2.718

Tabla IV

1−α=0.951−α=0.951−α=0.951−α=0.95 1−α=0.991−α=0.991−α=0.991−α=0.99

p p p

factores de tolerancia bilateral para la normal

Page 274: Métodos Estadísticos-Félix Míguez Marín [2012]

n n n n

0.95 0.99 0.95 0.99 0.95 0.99 0.95 0.99

5 4.203 5.741 51 2.060 2.856 5 6.578 8.939 51 2.261 3.115

6 3.708 5.062 52 2.055 2.850 6 5.406 7.335 52 2.254 3.105

7 3.399 4.642 53 2.051 2.844 7 4.728 6.412 53 2.247 3.096

8 3.187 4.354 54 2.046 2.838 8 4.285 5.812 54 2.240 3.087

9 3.031 4.143 55 2.042 2.833 9 3.972 5.389 55 2.233 3.078

10 2.911 3.981 56 2.038 2.827 10 3.738 5.074 56 2.226 3.070

11 2.815 3.852 57 2.034 2.822 11 3.556 4.829 57 2.220 3.061

12 2.736 3.747 58 2.030 2.817 12 3.410 4.633 58 2.214 3.053

13 2.671 3.659 59 2.026 2.812 13 3.290 4.472 59 2.208 3.046

14 2.614 3.585 60 2.022 2.807 14 3.189 4.337 60 2.202 3.038

15 2.566 3.520 61 2.019 2.802 15 3.102 4.222 61 2.197 3.031

16 2.524 3.464 62 2.015 2.798 16 3.028 4.123 62 2.191 3.024

17 2.486 3.414 63 2.012 2.793 17 2.963 4.037 63 2.186 3.017

18 2.453 3.370 64 2.008 2.789 18 2.905 3.960 64 2.181 3.010

19 2.423 3.331 65 2.005 2.785 19 2.854 3.892 65 2.176 3.004

20 2.396 3.295 66 2.002 2.781 20 2.808 3.832 66 2.171 2.998

21 2.371 3.263 67 1.999 2.777 21 2.766 3.777 67 2.166 2.991

22 2.349 3.233 68 1.996 2.773 22 2.729 3.727 68 2.162 2.985

23 2.328 3.206 69 1.993 2.769 23 2.694 3.681 69 2.157 2.980

24 2.309 3.181 70 1.990 2.765 24 2.662 3.640 70 2.153 2.974

25 2.292 3.158 71 1.987 2.762 25 2.633 3.601 71 2.148 2.968

26 2.275 3.136 72 1.984 2.758 26 2.606 3.566 72 2.144 2.963

27 2.260 3.116 73 1.982 2.755 27 2.581 3.533 73 2.140 2.958

28 2.246 3.098 74 1.979 2.751 28 2.558 3.502 74 2.136 2.952

29 2.232 3.080 75 1.976 2.748 29 2.536 3.473 75 2.132 2.947

30 2.220 3.064 76 1.974 2.745 30 2.515 3.447 76 2.128 2.942

31 2.208 3.048 77 1.971 2.742 31 2.496 3.421 77 2.125 2.938

32 2.197 3.034 78 1.969 2.739 32 2.478 3.398 78 2.121 2.933

33 2.186 3.020 79 1.967 2.736 33 2.461 3.375 79 2.117 2.928

34 2.176 3.007 80 1.964 2.733 34 2.445 3.354 80 2.114 2.924

35 2.167 2.995 81 1.962 2.730 35 2.430 3.334 81 2.110 2.919

36 2.158 2.983 82 1.960 2.727 36 2.415 3.315 82 2.107 2.915

37 2.149 2.972 83 1.958 2.724 37 2.402 3.297 83 2.104 2.911

38 2.141 2.961 84 1.956 2.721 38 2.389 3.280 84 2.100 2.907

39 2.133 2.951 85 1.954 2.719 39 2.376 3.264 85 2.097 2.902

40 2.125 2.941 90 1.944 2.706 40 2.364 3.249 90 2.082 2.883

41 2.118 2.932 95 1.935 2.695 41 2.353 3.234 95 2.069 2.866

42 2.111 2.923 100 1.927 2.684 42 2.342 3.220 100 2.056 2.850

43 2.105 2.914 125 1.894 2.642 43 2.331 3.206 125 2.007 2.786

44 2.098 2.906 150 1.870 2.611 44 2.321 3.193 150 1.971 2.740

45 2.092 2.898 175 1.852 2.588 45 2.312 3.180 175 1.944 2.706

46 2.086 2.890 200 1.837 2.570 46 2.303 3.168 200 1.923 2.679

47 2.081 2.883 300 1.800 2.522 47 2.294 3.157 300 1.868 2.608

48 2.075 2.876 500 1.763 2.475 48 2.285 3.146 500 1.814 2.540

49 2.070 2.869 700 1.744 2.451 49 2.277 3.135 700 1.787 2.505

50 2.065 2.862 1000 1.727 2.430 50 2.269 3.125 1000 1.762 2.475

factores de tolerancia unilateral para la normal

Tabla V

p p p p

1−α=0.951−α=0.951−α=0.951−α=0.95 1−α=0.991−α=0.991−α=0.991−α=0.99