estadistica y probabilidad
TRANSCRIPT
Índice
1. Estadística Descriptiva.
1.1. Distribuciones de Frecuencias.
1.2. Medidas de Concentración.
1.3. Medidas de Dispersión.
2. Probabilidad.
2.1. Probabilidad Simple.
2.1.1. Teoría de Conjuntos.
2.2. Distribuciones de Probabilidad.
2.2.1. Distribuciones Discretas y Continuas.
Distribución de Bernoulli.
Distribución Binomial.
Distribución de Poisson.
Distribución Geométrica
Distribuciones Hipergeométrica.
Distribución Normal.
Distribución T de Student.
Distribución F de Fisher.
Distribución Gama.
Distribución Beta.
Distribución Chi Cuadrado.
3. Regresión y Correlación.
3.1. Regresión Simple.
3.2. Regresión Múltiple.
Polinomial.
Potencial.
Exponencial.
Logarítmica.
Multinomial.
4. Estadística Inferencial.
4.1. Valores Esperados y Momentos.
4.2. Distribuciones Continuas Especiales.
4.3. Distribución Normal Multivariante.
4.4. Inferencia Estadística.
4.5. Prueba Estadística de una Hipótesis.
4.6. Distribución de la Varianza
4.7. Análisis de la Varianza e Intervalos de Confianza.
4.8. Aplicaciones de Chi Cuadrado.
4.9. Regresión y Correlación Multivariante.
4.10. Distribuciones No Paramétricas.
Mat 282 Página 1
ESTADÍSTICA DESCRIPTIVA
DISTRIBUCIÓN DE FRECUENCIAS.
Definición.-
La Distribución de Frecuencias se trata de organizar cierta información en
clases o categorías donde se determina el número de datos que pertenecen acada
uno de ellos ocomo un arreglo tabular de datos que muestren sus respectivas
frecuencias. Donde se puede generar dos tipos de distribuciones las cuales son:
Distribuciones de frecuencias de Variables Discretas
Distribuciones de frecuencias de Variable Continuas
Distribuciones de Frecuencias de Variables Discretas.
En este tipo de distribuciones es considerado en función al tipo de variable con
el cuál se está trabajando, es decir, se considerará a todas las variables como
variables discretas, por ejemplo:
Cantidad de objetos vendidos
Número de alumnos de la clase.
Numero de clientes en una tienda.
Número de accidentes en una autopista.
Cantidad de libros en una biblioteca.
Piezas defectuosas de un determinado lote recibido.
Al generar la distribución de frecuencias se deberá tomar en cuenta intervalos
determinados, por ejemplo:
la variable discre será: x ique en este caso será el numero de errores que existe
en una cierta cantidad de libros.
Nº de errores x i Nº de páginas
Mat 282 Página 2
0 2
1 4
2 6
3 13
4 20
5 35
Es también posible analizar el numero de clientes que entran a una tienda en un
determinada hora
Nº de clientes Hora de atencion
15 09:00-11:00
18 11:00-13:00
25 13:00-15:00
. .
. .
61 20:00-22:00
Distribución de frecuencias variables continuas
En la distribución de Variables Continuas es en la que se asumen valores reales,
es decir se trabaja con:
Mat 282 Página 3
El peso de alumnos en una clase
La utilidad de las empresas en el ramo metalúrgico
El tiempo de duración de un transformador
El tiempo de duración de una carrera
Este tipo de distribución es el más usual en la estadística
Recomendaciones
Para realizar esta distribución se debe seguir una serie de recomendaciones que
son
Ordenar los datos en forma creciente o decreciente para su respectivo
análisis
Escoger al azar la cantidad de datos
A la diferencia del Valor Maximo menos el Valor Mínimo se le llama
Rango
Determinar el número de intervalos de la clase
Rango
Es la diferencia de entre el máximo valor y el minimo
Rango=Vmax−Vmin
Numero de intervalos de clase
Para hallar el número de intervalos de la clase se siguen tres reglas
fundamentales
Se utiliza la regla de sturges que nos dice que el número de intervalos de clase es
el numero entero más próximo a la relación:
k=1+3.3 log10 n
Donde n es la cantidad de observaciones que hay, por ejemplo si en curso A
hay 20 alumnos, en el curso B hay 34 y en el curso C hay 46 alumnos n tomaría
el valor de n=20+34+46 de modo que n =100.
Mat 282 Página 4
Ya una vez calculado el número de intervalos de clase, el resultado se debe
redondear bajo las normas de redondeo.
Recorrido
El recorrido es la diferencia del valor máximo y el valor mínimo mas uno
I=Vmax−Vmin+1
Se utiliza el uno si se trabaja con número enteros y si se trabaja con variables
continuas no se considera el número 1.
Valor o magnitud de la clase
que es la división del recorrido con el número de intervalos de clase
c= Ik
Se debe redondear el resultado al mismo número de cifras significativas que los
datos observados
Luego de hallar todos los datos anteriores se genera un segmento donde se
determina valores de cada intervalo de clase y se expresa de la siguiente forma
Es importante señalar que si X k+1 es menor a xn´ o si el máximo valor
determina es menor al máximo valor obtendo en forma experimental, se debe
incrementar el valor de la magnitud de la clase c considerando el numero de
cifras significativas dee los datos observados , hasta que el máximo valor
determinado se mayor al máximo valor obtenido en forma experimental
Mat 282 Página 5
Excedente
Una ves que X k+1 cumpla la condición se halla el excedente. El excedente es la
diferencia entre el valor máximo determinado y el valor máximo obtenido se
expresa de la siguiente forma
e=(Xk+1)−(xn ´ )
Luego se analiza el excedente, es decir si el excedente es par, se divide entre 2 y
el segmento se recorrerá hacia la izquierda en una magnitud equivalente a e/2, y
si el excedente es impar, se buscara la simetría y el segmento se recorrerá hacia
la izquierda en el menor número determinado.
De este segmento generado se genera la distribución de frecuencias
Distribución de frecuencias
Son todos los datos experimentales distribuidos simétricamente respecto a los
valores máximo y mínimo de los datos obtenidos en forma experimental
Intervalos de clase Conteo Frecuencia fiY 1 Y 2-i n1 f1Y 2 Y 3-i n2 f2Y 3 Y 4-i n3 f3Y 4 Y 5-i n4 f4Y 5 Y 6-i n5 f5. . . .. . . .Yk Y k+1-i nk fk
Donde i es la unidad.
Mat 282 Página 6
Conteo
Consiste en colocar la cantidad de valores o datos que pertenecen a cada
categoría, clase o intervalo de clase, que corresponderá al valor de la frecuencia
de los intervalos de clase.
Frecuencia fi
Es la cantidad de valores que pertenecen a cada intervalo de clase o categoría.
Para cada caso los datos dentro del intervalo de clase deben ser distribuidos
uniformemente.
Limites verdaderos de clase.
Se determina el valor medio entre el prime y segundo intervalo de clase luego se
determina el valor medio entre el segundo y el tercer intervalo, hasta terminar
con todos los intervalos de modo tal que se los denomina limites verdaderos de
clase se expresa de la siguiente forma:
Limites verdaderos de clase(L.V.C) Frecuencia fi
Y 1”- Y 2” f1
Y2”- Y 3” f2
Y 3”- Y 4” f3
Y 4”- Y 5” f3
. . .
. . .
YK”- YK+1” fk
[) ∑ fi=n
Histograma de frecuencia
Mat 282 Página 7
Es la representación gráfica de la distribución de frecuencias lo cual se lo
realiza utilizando los ejes coordenados, donde en el eje de la” x” o abscisas se
colocan los
limites verdaderos de la clase y al eje de la” y” se colocan las frecuencias
fi
L.V.C
Marcas de clase
Las marcas de clase son los valores representativos de cada intervalo de clase,
osea el valor medio de los Limites Simples de Clase o Limites verdaderos de
clase y se lo denota como Xi
Marcas de Clase Xi frecuencia fi
X1 f1
X2 f2
X3 f3
. .
. .
Xk fk
Polinomio de Frecuencias
Mat 282 Página 8
Es la representación grafica de la frecuencia fi Vs las marcas de clase, tiene las
mismas características que el histograma de frecuencias pero esta vez en el eje
“x” se coloca las marcas de clases Xi y en el eje de la “y” la frecuencia fi
fi
Xi
Distribución de Frecuencias Relativas
Es la cantidad de valores que se encuentra en cada intervalo de clase respecto a
la cantidad total de valores observados como:
Limites Verdaderos de Clase Frecuencia fr %
Y1 Y2 (F1/n)*100=fr1
Y2 Y3 (F2/n)*100=fr2
Y3 Y4 (F3/n)*100=fr3
. . .
. . .
. . .
YK”- YK+1” (Fk/n)*100=frk
[ )
Histograma de Frecuencias Relativas
Mat 282 Página 9
es la representación grafica de los Limites Verdaderos de Clase Vs la
Frecuencia fr% y tiene las mismas características que las anteriores, solo que
esta vez en el eje “y” se coloca la fr% y lo mismo en el eje de la “x” se coloca
los L.V.C
%fr
L.V.C
Distribución de Frecuencias relativas con Marcas de clase
Marcas de Clase Xi Frecuencia fr
X1 fr1
X2 fr2
X3 fr3
. .
. .
Xk fr k
Polinomio de frecuencias relativas
% fr
Xi
Distribución de Frecuencias acumuladas “menor que”
Mat 282 Página 10
La distribución acumulada de frecuencias sirve para conocer el total de las
observaciones que existen desde la primera clase hasta una categoría
determinada, como:
Frecuencia Acumulada
Datos observados menores que Y1” fa1.
Datos observados menores que Y2” fa2.
Datos observados menores que Y3” fa3.
“ . .
“ . .
“ Yk+1” fa k.
Polinomio de Frecuencias Acumuladas “menores que”
fa
L.V.C
Distribucion de Frecuencias Acumuladas “mayor que”
Frecuencia Acumulada
Datos observados mayores que Y1” fa1.
Datos observados mayores que Y2” fa2.
Datos observados mayores que Y3” fa3.
“ . .
“ . .
“ Yk+1” fa k.
Polinomio de Frecuencias Acumuladas “mayor que”
Mat 282 Página 11
fa
L.V.C
Distribución de Frecuencias Acumuladas relativas “mayor que”
Frecuencia Acumulada Relativa
Datos observados mayores que Y1” fa r1.
Datos observados mayores que Y2” fa r2.
Datos observados mayores que Y3” fa r3.
“ . .
“ Yk+1” fark.
Polinomio de Frecuencias Acumuladas relativas “mayor que”
% fa r
L.V.C
Distribución de Frecuencias Acumuladas relativas “menor que”
Mat 282 Página 12
Frecuencia Acumulada Relativa
Datos observados menores que Y1” fa1.
Datos observados menores que Y2” fa2.
Datos observados menores que Y3” fa3.
“ . .
“ . .
“ Yk+1” fa k.
Polinomio de Frecuencias Acumuladas relativa “menor que”
% fa r
L.V.C
MEDIDAS DE CONCENTRACION
Mat 282 Página 13
Las medidas de concentración son valores representativos, se trata de valores
que generan una representación de un conjunto de datos obtenidos en un
determinado experimento.
Las medidas de concentración son las siguientes:
Media Aritmética
La media aritmética de un conjunto de números, x1, x2, x3 ,x4…..xn se denota
por x de modo que la ecuación para hallar la media aritmética es la siguiente:
x=x1+x2+x3+…+xn
n
x=∑
1
n
x i
n
la media aritmética es igual a la suma de todos sus valores entre la cantidad de
valores
n= a la cantidad de valores que se están sumando
si los números están organizados en una distribución de frecuencias la media
aritmética seria la siguiente:
x=f 1∗x1+ f 2∗x2+ f 3∗x3+…+ f k∗xk
f 1+ f 2+ f 3+…+ f k
Donde la suma de las frecuencias es equivalente a la cantidad total de valores
observados, ∑ fi=n
Se puede usar cualquiera de las dos ecuaciones para hallar la media aritmetica
Propiedades
La Suma Algebraica de las Desviaciones de un conjunto de números, respecto de
su
Media Aritmética, es siempre igual a cero.
Mat 282 Página 14
La Mediana.
Es un valor representativo y se lo puede determinar como el valor que se
encuentra en el centro de una serie de valores, siendo estos ordenados en forma
creciento o decreciente.
Si la cantidad que se analiza de los valores es par, la mediana será el valor
medio de los dos valores que se encuentra en el centro de esa serie de valores
Ejemplo:
12, 25 , 34 , 55, 60, 75, 90, 95, 98, 100, 112
La cantidad de valores es =11, es impar de modo que la mediana es el numero
del medio
La mediana = 75
Si se analiza la distribución de frecuencia la mediana se calcula de la siguiente
forma:
X=Lm+( n2−f l
fm )∗c
Lm: Es el límite verdadero de clase inferior de la Clasemediana.
La Clase Mediana es aquel intervalo donde su frecuencia
acumulada es
Equivalente a la mitad de los valores observados.
n/2: La mitad de los datos observados.
fl: Frecuencia acumulada por debajo de la Clase Mediana,
también se podría decir que es igual a la suma de las
frecuencias hasta el limite de fm.
fm: Frecuencia de la Clase Mediana.
c: La magnitud del intervalo de clase
Mat 282 Página 15
La Moda
La Moda es un conjunto de números obtenidos en forma experimental , es aquel
valor que ocurre con mayor frecuencia.
Ejemplo:
el valor mas frecuente de los siguientes números es:
12, 25, 28, 28, 55, 60, 75, 90, 95
Moda = 28
La moda puede no existir o incluso no ser la única en caso de existir.
En una Distribución de Frecuencias La Moda se determina de la siguiente
forma:
moda=Lm+( ∆1
∆1+∆2)∗c
Lm: Limite real inferior o limite verdadero de clase inferior de la
Clase Modal.
Clase Modal. Es aquel intervalo de clase que tiene Mayor
Frecuencia.
∆1: Es la diferencia de la frecuencia de la Clase Modal sobre
la
frecuencia de la clase Contigua Inferior.
∆2: Es la diferencia de la frecuencia de la Clase Modal sobre
la
frecuencia de la clase Contigua Superior.
C: Magnitud del Intervalo de clase
Mat 282 Página 16
La Media Geométrica
La media Geométrica se denota como G, de un conjunto de números x1, x2, x3,
….xn, es la raízenésima del producto de estos numerode modo que la ecuación es
la siguiente:
G= n√x1∗x2∗x3∗…∗xn
Donde se simplifica:
G= n√x i
Cuando la cantidad de valores que se esta analizando son muy grandes y los
valores altos. Entonces se utiliza la propiedad de logaritmos de la siguiente
manera:
log (G )=1n∗¿
Simplificando se llega a:
LogG=1n∗∑
1
n
log x i
La Media Armónica
La media armónica, lo denotamos como H de un conjunto de números x1, x2, x3,
… xn, es la recíproca de la Media Aritmética de los reciproco de esos Números.
de modo que su ecuación es la siguiente
H= n1x1
+1x2
+1x3
+…+1xn
Mat 282 Página 17
H= n
∑1
n1x i
Media Cuadrática
Es un conjunto de números x1, x2 ,x3, x4,… xn, la formula para hallar la Media
Cuadrática se halla de la siguiente forma
xc=√ x12+x2
2+x32+…+ xn
2
n
xc+√∑1
n
x i2
n
Cuartil
Si a una serie de datos se colocasen en orden creciente de acuerdo a su
magnitud, el valor
medio que divide al conjunto de datos en dos partes iguales es la Mediana.
De ese modo los valores que dividen a los datos son cuatro partes iguales, a
estos valores se les denomina Cuartiles y se los escribe como Q1, Q2 y Q3.sus
nombres son Primer Cuartil, Segundo Cuartil y Tercer Cuartil como se dijo al
comienzo el segundo cuartil corresponde al valor de la mediana
Qk=LVDC+
k∗n4
−f a
f Q
Decil
Para los deciles se utiliza el mismo principio de los valores que
dividen a los datos observados en diez partes iguales de modo
Mat 282 Página 18
que se los denomina deciles y se los representa de la siguiente
forma: D1, D2, D3,D4,D5,D6,D7,D8, D9. Como en el caso del Q2
corresponde al valor de la mediana el D5.
Dk=LVDC+
k∗n10
−f a
f D
∗c
Percentil
De la misma forma la cantidad de valores que dividen a este
conjunto de datos son cien partes iguales y son representadas
de la siguiente formar: P1, P2, P3, P4,……P99.
Como se mostró en el cuartil Q2 y en el decil D5, el percentil
P50 corresponderá al valor de la Mediana y los Percentiles P25,
P75 corresponderá al Q1 y ·Q3 respectivamente.
Pk=LVDC+
k∗n100
−f a
f P
∗c
Mat 282 Página 19
MEDIDAS DE DISPERSIÓN
Se trata de las medidas que nos permiten determinar el grado de variación se
tiene con los datos que se están trabajando respecto a una medida referencial
Desviación Media
Es el promedio de desviación de cada valor respecto de la Media Aritmética.
Si se cuenta con una serie de valores como por ejemplo x1, x2, x3,…xn, la
desviación de cada uno de los valores seria |x1−x|,….|xn−x| de modo que el
promedio de todas las desviaciones va a ser:,
DM=∑i=1
n
|xi−x|n
Si se trabaja con una distribuion de frecuencias seria de la siguiente forma
DM=∑i=1
n
f i∗|x i−x|n
Donde n es la suma de las frecuencias
Desviación Estándar
Se determina cuando se tiene un conjunto de números por ejemplo: x1, x2, x3,…
xn, se denota porσy se define como la Media Cuadratica de las deviaciones dee
cada valor respecto a la Media Aritmetica:
Mat 282 Página 20
σ=√∑i=1
n
(x i−x)2
n
Si se trabaja con una distribución de frecuencias la ecuación es de la siguiente
forma:
σ=√∑i=1
n
f i∗(x i−x)2
n
Donde n seria la sumatoria de sus frecuencias.
La Varianza
Es el cuadrado de la DesviacionEstandar y se denota con σ 2, la
ecuación para hallar la Varianza es la siguiente:
σ 2=∑i=1
n
(x i−x)2
n
Si se trabaja con una distribución de frecuencias la ecuación
seria la siguiente:
σ 2=∑i=1
n
f i∗(x i−x )2
n
Como se dijo anteriormente n seria la sumatoria de todas las
frecuencias.
Rango
El rango es una medida de dispersión tomando en cuenta la
diferencia del valor máximo con el valor mínimo
Mat 282 Página 21
Rango=V max−V min
Rango SemiIntercuartilico
Es la diferencia entre el tercer cuartil y el primero entre 2, la
ecuación es la siguiente
RSQ=Q3−Q1
2
Rango SemiPersentil
Es la desviación entre el percentil 10 y el percentil 90 entre dos
se podría hallar el Rango Semi Percentil con otros percentiles
pero con el percentil 10 y 90 nos da una mayor aproximación
que con los otros su ecuación es la siguiente
RSP=P90−P10
2
Se lo llama Rango de Percentiles.
Coeficiente de variación
Desviacio nrelativa=Desviacionabsoluta
Promedio
Donde la desviación absoluta es la desviación estándar σ , y el
promedio es la media x , a la desviación relativa se la denomina
Mat 282 Página 22
como coeficiente de variación y se lo denota por V su ecuación
es la siguiente:
V=σx
Pero se la expresa en forma de porcentaje de modo que la
ecuación seria la siguiente
V=σx∗100 %
PROBABILIDAD.
Es el estudio de experimentos aleatorios o elementos libres de determinación. Es
decir, si se tiene un suceso denotado por E y existe n casos posibles ó n
oportunidades, para todos estos con la misma posibilidad o factibilidad,
entonces puede presentarse solo en h de todos los casos.
PROBABILIDAD SIMPLE.
Teoría de Conjuntos
La Teoría de Conjuntos es una división de las matemáticas que estudia las
propiedades y relaciones de los conjuntos.
El concepto de conjunto es intuitivo y se podría definir como una "agrupación
bien definida de objetos no repetidos y no ordenados"; así, se puede hablar de
un conjunto de personas, ciudades, gafas, lapiceros o del conjunto de objetos
Mat 282 Página 23
que hay en un momento dado encima de una mesa. Un conjunto está bien
definido si se sabe si un determinado elemento pertenece o no al conjunto. El
conjunto de los bolígrafos azules está bien definido, porque a la vista de un
bolígrafo se puede saber si es azul o no. El conjunto de las personas altas no
está bien definido, porque a la vista de una persona, no siempre se podrá decir si
es alta o no, o puede haber distintas personas, que opinen si esa persona es alta
o no lo es.
Se entiende por conjunto a la agrupación en un todo de objetos bien
diferenciados de nuestra intuición o nuestro pensamiento.
Notación
Usualmente los conjuntos se representan con una letra mayúscula:
A , B ,C , K , ….
Se llama elemento a cada uno de los objetos que forman parte de un conjunto,
estos elementos tienen carácter individual, tienen cualidades que nos permiten
diferenciarlos, y cada uno de ellos es único, no habiendo elementos duplicados o
repetidos. Los representaremos con una letra minúscula:
a ,b , c , k …
De esta manera, si es un conjunto, y a,b,c,d,etodos sus elementos, es común
escribir:
A={a , b , c ,d , e }
para definir a tal conjunto A. Esta notación empleada para definir al conjunto A
se llama notación por extensión.
Mat 282 Página 24
Para representar que un elemento xpertenece a un conjunto A, escribimos x∈ A
"xen A", "x pertenece a A" o bien "x es un elemento de A". La negación de
x∈ Ase escribe x∉ A y se lee de la siguiente forma "x no pertenece a A “
El conjunto universal, que representaremos como U(u mayúscula), es el conjunto
de todas las cosas sobre las que estemos tratando. Así, si hablamos de números
enteros entonces Ues el conjunto de los números enteros; si hablamos de
ciudades, U es el conjunto de todas las ciudades. Todos los elementos posibles
están en este conjunto:
∀ x , x∈U
Este conjunto universal puede mencionarse explícitamente, o puede darse por
supuesto según el contexto que estemos tratando.
Existe además, un único conjunto que no tiene elementos, al que se le llama
conjunto vacío y que se denota por ∅ , esto es: ∅={}. La característica
importante de este conjunto es que todos los elementos posibles no están
contenidos en él:
∀ x , x∈∅
Por otro lado, si todos los elementos de un conjunto satisfacen alguna
propiedad, misma que pueda ser expresada como una proposición p(x), con la
indeterminada x, usamos la notación por comprensión, y se puede definir:
A={x∈U : p (x)}
Lo anterior se lee "A es el conjunto de elementos x, que cumplen la propiedad
p(x)". El símbolo ":" se lee "que cumplen la propiedad" o "tal que"; este símbolo
puede ser remplazado por una barra /.
A={x∈U / p(x) }
Por ejemplo, el conjunto:
A={1,2,3,4 }
Mat 282 Página 25
Puede definirse por:
A={n∈N :1≤ n ≤ 4 }
Donde el símbolo N representa al conjunto de los números naturales.
Igualdad de conjuntos
Dos conjuntos A y B se dicen iguales, lo que se escribe A = B si constan de los
mismos elementos. Es decir, si y solo si todo elemento de A está también
contenido en B y todo elemento de B está contenido en A. En símbolos:
A=B=∀ x , x∈ A ↔ x∈B
Subconjuntos
Un subconjunto es un Conjunto que consta de elementos en el cual cada
elemento que posee esta también en otro conjunto como en elgrafico
Diagrama de Venn que muestra A⊆B
Un conjunto A se dice que es subconjunto de otro B, si cada elemento de A es
también elemento de B, y se denota A⊆B.y se lee de la siguiente forma “el
conjunto A es un subconjunto de B” Es decir:
Mat 282 Página 26
A⊆B=∀ x , x∈ A → x∈B
Cabe señalar que, por definición, no se excluye la posibilidad de que si A⊆B, se
cumpla A = B. Si, siendo A un subconjunto de B, B tiene por lo menos un
elemento que no pertenezca al conjunto A, entonces decimos que es un
subconjunto propio de B, lo que se representa por A⊂B. Es decir
A⊂B=A⊆B y A ≠ B
Operaciones con conjuntos
Unión ∪Es la unión de los elementos que tienen esos conjuntos por ejemplos en el
grafico esta pitado de celeste todos los elementos de A y B es la unión de esos
conjuntos
Esto significa que x∈ A∪B si y sólo si x∈ A ó x∈B.
A B
Diagrama de Venn que ilustra A U B
Para cada par de conjuntos A y B existe un conjunto unión de los dos, que se
denota como AUBel cual contiene todos los elementos de A y de B.
A U B={ x : x∈ A o x∈B }
Intersección ∩
Mat 282 Página 27
Son los elementos que se encuentran en un conjunto y a la vez en otro
Esto significa que x∈ A ∩B si y sólo si x∈ A y x∈B
A B
Diagrama de Venn que ilustra A ∩ B
Los elementos comunes a A y B forman un conjunto denominado intersección de
A y B, representado por A ∩ B. Es decir, A ∩ Bes el conjunto que contiene a todos
los elementos de A que al mismo tiempo están en B:
A ∩ B= {x : x∈ A y x∈ B }
Diferencia
Los elementos de un conjunto A que no se encuentran en otro conjunto B, forman
otro conjunto llamado diferencia de A y B, representado por A−B. Es decir:
A−B={ x : x∈ A y x∉B }
Lo que significa que x∈ A−Bsi y sólo si x∈ A y x∉ A .
A B A B
Diagramas de Venn que muestran A − B y B − A respectivamente.
Mat 282 Página 28
Complemento
El complemento de un conjunto A es el conjunto de todos los elementos que no
pertenecen a A.
Ac=U−A
El conjunto complemento siempre lo es respecto al conjunto universal que
estamos tratando, esto es, si hablamos de números enteros, y definimos el
conjunto de los números pares, el conjunto complemento de los números pares es
el formado por los números impares. Si estamos hablando de estudiantes y se
define al conjunto a los estudiantes que han pasado la materia de probabilidad
II, el conjunto complementario es el de los estudiantes que reprobaron la
materia.
A B
U
Diagrama de Venn que ilustra el complemento de A, AC.
Diferencia simétrica
La diferencia simétrica de dos conjuntos A y B viene dada por los elementos que
pertenecen a uno y sólo uno de los dos:
A ∆ B= {x :obien x∈ A obien x∈B }
Mat 282 Página 29
A B
U
Diagrama de Venn que ilustra la diferencia simétrica de A y B, AΔB.
DISTRIBUCIONES DE PROBABILIDADES
En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los eventos rango de valores de la variable aleatoria.
Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.
DISTRIBUCIONES DISCRETAS Y CONTINUAS.
Distribución de Bernoulli.
El experimento de Bernoulli es aquel en el que interesan solamente dos
resultados:
Mat 282 Página 30
El evento A ocurre o no ocurre, algunos ejemplos de esta prueba incluye el
lanzamiento de una moneda, la prueba de un producto sano o defectuoso o
también el sexo de una persona que puede ser hombre o mujer, lo cual se trata
de una misión de éxito o de fracaso. La función indicadora de un evento es una
variable aleatoria de Bernoulli
1 --- éxito (el evento A ocurre)
X(w)=
0 --- fracaso (el evento A no ocurre)
Por lo tanto el espacio muestral de la distribución de Bernoulli (w) es discreto
mostrando solamente dos valores, queda definida conociendo la probabilidad de
A y la probabilidad de A complemento
P(A)=P X(w):1 0
P(Ac)=1-p=q P(w): p q
Donde la variable aleatoria de bernoulli tiene un rango o recorrido de 0 y 1 lo
cual resulta en una bicotomica del espacio muestral original
Por ejemplo
Una urna contiene 4 bolillos blancos y 6 negros. Cuando seleccionamos un
bolillo al azar este puede clasificarse como blanco o negro y la variable
aleatoria será
1 --- si el bolillo es blanco
X(w)=
0 --- si el bolillo es negro
Distribución binomial
Mat 282 Página 31
si definimos una variable aleatoria X en el espacio muestral omega asociada a
un espacio de probabilidad, se dice que X es binomial si y solo si:
i) r(x)=(0,1,2,3…….n) ii) P(x=x) = Cnx PX qn− x
Condiciones para emplear la distribución binomial
a) El experimento aleatorio tiene un carácter dicotómico y puede ser repetido
independientemente mil veces, por tanto si A es el experimento aleatorio
entonces la probabilidad de A es igual a p es decir:
P(A)=p
P(Ac)=1-p=q
b) Las probabilidades(A)=p y P(Ac)=q permanecen constantes para todas y
cada una de las repeticiones
c) La variable aleatoria X denota el número de veces que el evento A ocurre
∑0
1
P ( X=x )=¿∑0
1
Cnx Px qn− x¿
¿∑0
1
[ P+(1−P ) ]n=1n=1
Figura es la gráfica de una distribución binomial(n, 0.5) para n = 20, 40, 60, 80, 100.
Mat 282 Página 32
Se puede ver la aproximación a la distribución normal.
Distribución de Poisson
Se dice que X es una variable aleatoria tipo Poisson si :
i ¿r ( x )= {0,1,2,3 ,… …,n }ii¿ P ( x )= e−¿∗❑x
x !;¿
¿n∗p
En este caso muchos fenómenos aleatorias se explican mediante el manejo de
distribución binomial y Poisson por ejemplo el número de llamadas telefónicas
que reciben cada día, número de accidentes ocurridos
Gráfico de la Distribución de Poisson.
k de eventos ocurriendo en
un tiempo fijo si estos
eventos ocurren con
Mat 282 Página 33
una frecuencia media conocida y son independientes del tiempo discurrido
desde el último evento.
Distribución geométrica.
En este caso estamos interesados en la concurrencia o no de un evento A y como
en el caso de la distribución binomial para cada repetición permanecen
constantes
P(A)=p P(Ac)= q=1-p
Se repite el experimento hasta la ocurrencia de A por primera vez por tanto el
numero de repeticiones constituye una variable aleatoria. Asi determinamos la
variable aleatoria como el numero de repeticiones requeridas hasta la
ocurrencia o primera vez. Entonces la función de distribución de la probabilidad
es:
P ( x )=p∗qx−1 ; x=1 ,2 ,3 …n
Que se denomina distribución geométrica con parámetros P
Grafica de la Distribución Geométrica con diferentes probabilidades
Mat 282 Página 34
Distribución hipergeométrica
Esta distribución se dice que X es una variable aleatoria hipergeometrica si:
i) r(x)={0,1,2,3....n}
ii¿ P(x)=C x
M Cn−xN −m
C NM
Donde las variables M y N son enteros positivos y N es mayor o igual a n y N es
mayor o igual a M si se considera el problema de elegir una muestra de tamaño
n de un lote que contiene N objetos de una clase y N-M de otra clase entonces la
definición establece la probabilidad de obtener exactamente x objetos de la
primera clase en la muestra
Graficos de la Distribucion Hipergeometrica
Distribución Normal
Una variable aleatoria continua X sigue una distribución normal de media µ y
desviación típica σ si su función de densidad es:
f ( x )=N ( µ, σ )= 1σ √2 π
e−( x−µ)2
2σ 2
De esta forma, una vez que se especifican µ y σ la distribución queda
determinada completamente. La distribución de probabilidad normal tienen
forma de campana (llamada campana de gauss, o curva normal), simétrica (por
Mat 282 Página 35
depender de x a través del termino (x−µ)2 centrada en µ y con anchura
proporcional a σ.
Sabemos que la curva de cualquier distribución continua de probabilidad o
función de densidad esta construya de forma que el área bajo la curva limitada
por los puntos x = x1 y x = x2 es igual a la probabilidad de que la variable
aleatoria X asuma un valor entre x = x1 y x = x2. Como la resolución de las
integrales para cada curva normal no es fácil, es aconsejable utilizar tablas.
Para no tener que presentar estas tablas para todos los posibles valores de µ y σ
se utiliza una variable normal tipificada Z definida como Z = (X .µ)/σ con lo que
sustituyendo nos queda la función de densidad de X:
f ( x )= 1√2 π
e−x2
2 =N (0,1)
La distribución normal es la distribución de probabilidad más importante del
Cálculo de probabilidades.
la importancia de la distribución normal queda totalmente consolidada por ser
la distribución límite de numerosas variables aleatorias, discretas y continuas,
como se demuestra a través de los teoremas centrales del límite. Las
consecuencias de estos teoremas implican la casi universal presencia de la
distribución normal en todos los campos de las ciencias empíricas.
La distribución normal queda totalmente definida mediante dos parámetros:
la media (Mu)
la desviación estándar (Sigma).
Gráfico de la distribución Normal
Mat 282 Página 36
Grafico Nª2
Como se puede observar en el 2do grafico la Distribución Normal y la Binomial tienen una
cierta similitud
Distribución T de Student.
En probabilidad y estadística, la distribución t (de Student) es una distribución
de probabilidad que surge del problema de estimar la media de
una población normalmente distribuida cuando el tamaño de la muestra es
pequeño.
Aparece de manera natural al realizar la prueba t de Student para la
determinación de las diferencias entre dos medias muéstrales y para la
construcción del intervalo de confianza para la diferencia entre las medias de
dos poblaciones cuando se desconoce la desviación típica de una población y
ésta debe ser estimada a partir de los datos de una muestra.
Mat 282 Página 37
La distribución t de Student es la distribución de probabilidad del cociente
Z
√V /v
Donde:
Z tiene una distribución normal de media nula y varianza 1
V tiene una distribución chi-cuadrado con ν grados de libertad
Z y V son independientes
Si μ es una constante no nula, el cocientees una variable aleatoria que sigue
la distribución t de Student no central con parámetro de no-centralidad μ.
Supongamos que X1,..., Xnson variables aleatorias independientes distribuidas
normalmente, con media μ y varianzaσ2. Sea
X n ( X 1+…+Xn ) /n
la media muestral. Entonces:
Z=Xn−μ
σ /√n
sigue una distribución normal de media 0 y varianza 1.
Sin embargo, dado que la desviación estándar no siempre es conocida de
antemano, Gosset estudió un cociente relacionado,
T=X n μ
Sn/√n
Donde:
S2 ( x )= 1n−1
∑i=1
n
( xi−x)2
Es la varianza muestral y demostró que la función de densidad de T es
Mat 282 Página 38
T ((v+1)/2)√vπT (v /2)
(1+t 2/v )−(v+1)/2
donde ν es igual a n − 1.
La distribución de T se llama ahora la distribución-t de Student. El
parámetro ν representa el número de grados de libertad. La distribución
depende de ν, pero no de μ o σ, lo cual es muy importante en la práctica.
Función de distribución de probabilidad
Distribución F de Fisher.
Usada en teoría de probabilidad y estadística, la distribución F es
una distribución de probabilidad continua. También se la conoce
comodistribución F de Snedecor (por George Snedecor) o como distribución F
de Fisher-Snedecor. Una variable aleatoria de distribución F se construye como
el siguiente cociente:
Mat 282 Página 39
F=U 1/d1
U 2/d2
Donde:
U1 y U2 siguen una distribución chi-cuadrado con d1 y d2 grados de
libertad respectivamente, y
U1 y U2 son estadísticamente independientes.
La distribución F aparece frecuentemente como la distribución nula de una
prueba estadística, especialmente en el análisis de varianza. Véase el test F.
La función de densidad de una F(d1, d2) viene dada por
g ( x )= 1
B(
d1
2∗d2
2)
( d1 xd1 x+d2
)d1 /2(1−
d1 xd1 x+d2
)d2 /2
x−1
para todo número real x ≥ 0, donde d1 y d2 son enteros positivos, y B es
la función beta.
La función de distribución es:
G ( x )=I d1 xd1 x+d2
(
d1
2∗d2
2)
Donde I es la función beta incompleta regularizada.
Mat 282 Página 40
Distribución Gama.
Los tiempos que tardan en revisar un motor de un automóvil ó avión tienen una
distribución de frecuencias sesgadas. Las poblaciones asociadas a estas
variables aleatorias frecuentemente tienen distribuciones que se pueden modelar
adecuadamente por la función de densidad tipo gamma.
Función de densidad de probabilidad para una variable aleatoria tipo gamma:
α ,β>0 ;0≤ y≤α
f ( y )= yα−1e− y / β¿βα τ ( α ) ¿
0 ¿¿
En donde:
τ (α )=∫0
αyα−1 e− y dy
La cantidad de la de la función alfa se conoce como la función gamma. La
integración directa nos da que la función uno igual a uno. La integración por
partes nos da que la función de alfa menos uno alfa menos uno por la función
alfa menos uno para cualquier intervalo de alfa mayor o igual a uno y que la
función de n sea igual a n menos uno factorial, para un número entero n.
Mat 282 Página 41
En el caso especial cuando alfa es un número entero, se puede expresar la
función de distribución de una variable aleatoria tipo gamma como una suma de
ciertas variables aleatorias de Poisson.
Si alfa no es un número entero, es imposible encontrar la antiderivada del
integrando de la expresión:
0<c<d<α
donde
∫c
d yα−1 e− y / β
βα τ (α )dy
Y por lo tanto es importante obtener las áreas bajo la función de densidad tipo
gamma mediante integración directa.
Hay dos casos especiales de las variables aleatorias tipo gamma que merece
consideración particular:
Una variable aleatoria tipo gamma que tiene una función de densidad con
parámetros alfa igual a v entre dos y beta igual a dos se denomina variable
aleatoria ji - cuadrada.
Ji - cuadrada se presenta con frecuencia en la teoría de la estadística. El
parámetro v se denomina número de grados de libertad asociado a la variable
aleatoria ji - cuadrada.
La función de densidad gamma para el caso especial v = 1 se denomina función
de densidad exponencial.
β>0 ;0≤ y<∞
Mat 282 Página 42
f ( y )=1β
ealignl ¿− y / β ¿¿¿0 ¿¿
En cualquier punto.
La función de densidad exponencial muchas veces es útil en los modelos de
duración de componentes eléctricos.
Un fusible es un ejemplo de un componente para el cual este supuesto suele
cumplirse.
Grafica 1
En función a los parámetros β ,α
Grafica Nº 2
Mat 282 Página 43
Distribución Beta.
La distribución de probabilidad beta es una función de densidad con dos
parámetros definida en el intervalo cerrado 0 <= y <= 1. Se utiliza
frecuentemente como modelo para fracciones, tal como la proporción de
impurezas en un producto químico o la fracción de tiempo que una maquina está
en reparación.
Función de densidad probabilidad:
α ,β>0 ;0≤ y≤1
f ( y )=¿¿
En cualquier otro punto donde
B(α , β )=∫ yα−1 (1− y )β−1dy=τ ( α )τ ( β )τ (α+β )
Nótese que la definición de (y) sobre el intervalo 0<= y <= 1 restringe su
aplicación. Si c<= y <= d, y = (y- c) / (d- c) definirá una nueva variable en el
intervalo 0<= y <= 1. Así la función de densidad beta se puede aplicar a una
variable aleatoria definida en el intervalo c<= y <= d mediante una traslación y
una medición en la escala.
La función de distribución acumulativa para la variable aleatoria beta se llama
comúnmente función beta y esta dada por
Mat 282 Página 44
F ( y )=∫0
y tα−1(1−t )β−1
B (α , β )dt=I y(α , β )
Para valores enteros de alfa y beta, Iy (alfa, beta) está relacionada con la
función de probabilidad binomial. Cuando y = p, se puede demostrar que
F ( p )=∫ yα−1 (1− y )β−1
B( α , β )dy=∑
y=α
n
p y(1−p )n− y
En donde 0< p < 1 y n igual a alfa más beta menos uno.
Grafica de la Distribucion Beta en funfion a la probabilidad
Distribución Chi Cuadrado.
En estadística, la distribución χ² (de Pearson) es una distribución de
probabilidad continua con un parámetro k que representa losgrados de
libertad de la variable aleatoria:
X=Z12+…+Zk
2
Donde Zson variables de distribución normal, de media cero y varianza uno. El
que la variable aleatoria X tenga esta distribución se representa habitualmente
así: X X k2.
Es conveniente tener en cuenta que la letra griega χ se transcribe
al latín como chi1 y se pronuncia en castellano como ji.2 3
Mat 282 Página 45
La distribución χ² tiene muchas aplicaciones en inferencia estadística, por
ejemplo en la denominada prueba χ² utilizada como prueba de independencia y
como prueba de bondad de ajuste y en la estimación de varianzas. También está
involucrada en el problema de estimar la media de una población normalmente
distribuida y en el problema de estimar la pendiente de una recta de regresión
lineal, a través de su papel en la distribución t de Student, y participa en todos
los problemas de análisis de varianza, por su papel en la distribución F de
Snedecor, que es la distribución del cociente de dos variables aleatorias
independientes con distribución χ².
Otra forma de definir la distribución χ² es la siguiente: Supongamos que
tenemos n variables aleatorias normales independientes, X1,..., Xn, con media μi y
varianza α i2(i = 1 ... n), la variable definida como
χ2∑i=1
n
( x i−μi
σ i)
2
=∑i=1
n
Z i2
Grafica de la Distribucion Chi Cuadrado
Cuando son mayores son menos asimétricas.
Mat 282 Página 46
REGRESIÓN Y CORRELACIÓN.
La Regresión y la correlación son dos técnicas estadísticas que se pueden
utilizar para solucionar problemas comunes en los negocios. Muchos estudios se
basan en la creencia de que es posible identificar y cuantificar alguna Relación
Funcional entre dos o más variables, donde una variable depende de la otra
variable. Se puede decir que Y depende de X, en donde Y y X son dos variables
cualquiera en un modelo de Regresión Simple.
"Y es una función de X"
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresión es muy importante identificar cuál es la variable
dependiente y cuál es la variable independiente.
Mat 282 Página 47
REGRESIÓN SIMPLE.
Son cuando se dan dos variables numéricas continuas X e Y, se dice que están
correlacionadas si entre ambas variables hay cierta relación, de modo que
puede predecirse (aproximadamente) el valor de una de ellas conocido el valor
de la otra en este sentido decimos que la correlación es positiva al aumentar una
de las variables aumenta también otra y negativa en caso contrario
Si queremos predecir el valor de Y a partir de X, decimos que X es el regresor, e
Y la variable explicada. Si X e Y no están relacionas en modo alguno se dice que
son incorreladas.
Si X e Y están correlaciones tiene sentido buscar la “formula” que permita
aproximar una de ellas, digamos Y, conocida la otra. Según el tipo de fórmula
que mejor se adapte a los datos, hablamos de correlación lineal(Y=a+bX),
Mat 282 Página 48
REGRESIÓN MÚLTIPLE.
El principio de la regresión multiple, se buscar aislar en una familia de
funciones de varios parámetros, una función f que ''explique'' ypor la relación:
y=f ¿
Como criterio de selección se minimiza sobre todas las funciones de la familia el
error cuadrático definido por:
EQ ( f )=1n∑i=1
n
( yi−f (x i(1 ),…, x i
(k)) )2
En ciertos casos clásicos, sabemos resolver explícitamente este problema de
minimización, y las soluciones están implementadas en los sistemas de cálculo
estadístico. Es el caso de los ejemplos que vamos a dar a continuación. Cuando
una respuesta explícita es imposible, se recurre a algoritmos de minimización,
como el algoritmo del gradiente.
Regresión lineal múltiple.Es la generalización directa de la regresión lineal
simple del párrafo precedente. Las funciones son afines:
f ( x ( 1) ,… ,x (k ) )=a0+a1 x(1)+…+ak x(k)
El error cuadrático a minimizar es una función de los k+1parámetros
desconocidos a0 , a1 ,…,ak :
EQ ( a0 , …, ak )=1n∑i=1
n
¿¿¿
Siempre se puede trazar un hiperplano por puntos en un espacio de dimensión
k+1. Si el tamaño de la población (n) es inferior o igual a k, el error
cuadráticominimal es en consecuencia 0. En la práctica la regresión sólo podrá
ser significativa si es mucho mayor que k.
Mat 282 Página 49
Polinomial.
Es cuando varios caracteres son explicativos se puede aún realizar una
regresión sobre una familia de polinomios en los diferentes caracteres, con
grado fijo. Los términos que hacen intervenir productos del tipox(h) x(h ) serán
interpretados como términos de interacción entre los caracteres explicativos. En
la práctica, uno se limita a polinomios de grado 1o 2. Presentamos para dos
caracteres explicativos x1yx2 , los modelos más frecuentemente utilizados.
Modelo de orden , sin interacción:
y=a0+a1 x(1)+a2 x(2)
Modelo de orden , sin interacción:
y=a0+a1 x(1)+a2 x(2)+a3 ( x(1))2+a4 ( x(2))2
Modelo de orden , con interacción:
y=a0+a1 x(1)+a2 x(2)+a3 x(1) x(2)
Modelo de orden , con interacción:
y=a0+a1 x(1)+a2 x(2)+a3 ( x(1))2+a4 ( x(2))2+a5 x(1)x(2 )
Potencial.
Es aquella en la que la función de ajuste sea una función potencial del tipo:
y = a. xb
También en este caso se resuelve linealizando la función tomando logaritmos ya
que:
log y = log a + b log x
Considerando las nuevas variables v = log y u= log x resolveríamos la regresión
lineal entre ellas de forma que si el resultado fuera: v*= A +B u
La solución final quedaría como a= antilog A y b= B
Mat 282 Página 50
Exponencial.
Es aquella en la que la función de ajuste será una función exponencial del tipo
y = a*bx
La regresión exponencial aunque no es lineal es linealizable tomando logaritmos
ya que haciendo el cambio de variable
v = log y tendremos que la función anterior nos generaría:
v=log y=log(a . bx )=log a+x log b
la solución de nuestro problema vendría de resolver la regresión lineal entre v ý
x, y una vez obtenida supuesta ésta:
v* = A + B x ; obviamente la solución final será:
a = antilog A y b = antilog B.
Logarítmica.
La curva logarítmica es también una recta, pero en lugar de
estar referida a las variables originales e , está referida a y a
Multinomial.
La regresión multinomial analiza datos distribuidos binomial mente de la forma
Y i B ( pi , ni ) , para i=1 , …. , m,
donde los números de ensayos Bernoulli ni son conocidos y las probabilidades de
éxito pi son desconocidas. Un ejemplo de esta distribución es el porcentaje de
semillas (pi) que germinan después de que ni son plantadas.
El modelo es entonces obtenido a base de lo que cada ensayo (valor de i) y el
conjunto de variables explicativas/independientes puedan informar acerca de la
Mat 282 Página 51
probabilidad final. Estas variables explicativas pueden pensarse como un
vector Xi k-dimensional y el modelo toma entonces la forma
pi=E (Y i
ni|X i)
Los logits de las probabilidades binomiales desconocidas (i.e., los logaritmos de
los odds) son modeladas como una función lineal de los Xi.
logit ( pi )=ln ( pi
1+ pi)=β0+ β1 x1 ,i+…+βk xk ,i
Note que un elemento particular de Xi puede ser ajustado a 1 para
todo i obteniéndose un intercepto en el modelo. Los parámetros
desconocidos βj son usualmente estimados a través de máxima verosimilitud.
La interpretación de los estimados del parámetro βj es como los efectos aditivos
en el log odds ratio para una unidad de cambio en la jésima variable explicativa.
En el caso de una variable explicativa dicotómica, por ejemplo género, eβ es la
estimación del odds ratio de tener el resultado para, por decir algo, hombres
comparados con mujeres.
El modelo tiene una formulación equivalente dada por
pi=1
1+e−(β0+β 1 x1, i+…+β k xk,i)
Esta forma funcional es comúnmente identificada como un "perceptrón" de una
capa simple orred neuronal artificial de una sola capa. Una red neuronal de una
sola capa calcula una salida continua en lugar de una función por pedazos. La
derivada de pi con respecto a X = x1...xkes calculada de la forma general:
y= 1
1+e−f ( X )
ESTADÍSTICA INFERENCIAL
Mat 282 Página 52
Valores Esperados y Momentos.
Valores Esperados
El valor esperado es un concepto fundamental en el estudio de las distribuciones
de probabilidad. Desde hace muchos años este concepto ha sido aplicado
ampliamente en el negocio de seguros y en los últimos veinte años ha sido
aplicado por otros profesionales que casi siempre toman decisiones en
condiciones de incertidumbre.
Para obtener el valor esperado de una variable aleatoria discreta, multiplicamos
cada valor que ésta puede asumir por la probabilidad de ocurrencia de ese valor
y luego sumamos los productos. Es un promedio ponderado de los resultados que
se esperan en el futuro. Sea X una Variable Aleatoria que toma valores en un
conjunto discreto (en un conjunto finito de números en uno infinito como: los
naturales, los enteros o los racionales), por ejemplo si la variable aleatoria X
toma los siguientes valores: X = 0, 1, 2, 3, … decimos que es discreta
La probabilidad de que X tome cada uno de sus valores viene dada por la
función de probabilidad:
P(X = i ), para i = 0, 1, 2, 3, … ;
Sea P(X = i ) = pi para i = 0, 1, 2, 3, … Se tiene que p1 + p2 + p3 +…+ pn +…
= 1
13. Valor Esperado, Varianza y Desviación Estándar de Variables Aleatorias
Se define el Valor Esperado de una Variable Aleatoria con distribución discreta
como: μ = E(X) = x xf (x)
Y para una variable aleatoria con distribución continua como
μ = E(X) = ( ) ¥ −¥ xf x dx
Momento
En estadística el momento de orden k de una variable aleatoriaX es la esperanza
matemáticaE[(X − E[X])k] donde E es el operador de la esperanza. Si una
variable aleatoria no tiene media el momento es indefinido.
Mat 282 Página 53
Normalmente la letra griega para el momento central es μ. El primer momento
central es cero y el segundo se llama varianza (σ²) donde σ es la desviación
estándar. El tercer y cuarto momentos centrales sirven para definir los
momentos estándar denominados de asimetría y de curtosis.
Distribuciones Continuas Especiales.
1. Función de distribución acumulada (fda)
La función de distribución acumulada (FDA) de una variable aleatoria continua
X, es el modelo teórico de la curva de frecuencias acumuladas que se espera
obtener para X.
La probabilidad de que una variable aleatoria continua X, asuma un valor
menor o igual a xi, se llama FDA y se representa por:
F (x) = P (X " xi)
Para a < b : P (a " x " b) = F (b) - F (a)
F (-") = P (x " -") = 0
F (+") = P (x " +") =1
Distribución acumulada (FDA)
2. Distribución normal estándar
Mat 282 Página 54
Una distribución de una variable aleatoria normal con media, = 0 y varianza,
= 1, se llama distribución normal estándar y es el miembro más importante de la
familia de distribuciones normales.
Esta distribución se obtiene creando una variable aleatoria Z
Cada valor z es el número de desviaciones estándar separado de la media.
Distribución normal Multivariante
En probabilidad y estadística, una distribución normal Multivariante, también
llamada distribución gaussiana Multivariante, es una generalización de la
distribución normal unidimensional a dimensiones superiores.
Caso general
Un vector aleatorioX=[ X1 , … Xn ]Tsigue una distribución normal multivariante si
satisface las siguientes condiciones equivalentes:
Toda combinación linealY=a1 X1+…+an Xn está normalmente distribuida.
Hay un vector aleatorioZ=[Z1 ,…Zn ]T , cuyas componentes son
independientes son variables aleatorias distribuidas según la normal
estándar, un vector μ= [μ1, … μn ]Ty una matrizn × MA tal que
Mat 282 Página 55
X=AZ+μ.
Hay un vector μ y una matriz semidefinida positiva simétrica tal que la
función característica de X es
ϕx (u ;μ ,∑❑)exp (i μT 12
uT∑ u)
Si es una matriz no singular, entonces la distribución puede describirse por la
siguiente función de densidad:
fx ( x1 ,…, xn)= 1
(2 π )n /2|∑|1/2exp(−1
2( x−μ )T ∑−1(x−μ))
donde|∑|es el determinante de ∑. Nótese como la ecuación de arriba se reduce a
la distribución normal si ∑es un escalar (es decir, una matriz 1x1).
El vector μ en estas circunstancias es la esperanza de X y la matriz ∑❑=A ATes
la matriz de covarianza de las componentes Xi.
Es importante comprender que la matriz de covarianza debe ser singular
(aunque no esté así descrita por la fórmula de arriba, para la cual ∑−11 está
definida).
Este caso aparece con frecuencia en estadística; por ejemplo, en la distribución
del vector de residuos en problemas ordinarios de regresión lineal. Nótese
también que los Xi son en general no independientes; pueden verse como el
resultado de aplicar la transformación lineal Aa una colección de variables
normales Z.
Esta distribución de un vector aleatorio X que sigue una distribución normal
multivariante puede ser descrita con la siguiente notación:
X N (μ , ∑)
o hacer explícito que X es n-dimensional,
Mat 282 Página 56
X Nn(μ ,∑)
Inferencia Estadística.
La inferencia estadística o estadística inferencial es una parte de la Estadística
que comprende los métodos y procedimientos para deducir propiedades
(hacerinferencias) de una población, a partir de una pequeña parte de la misma
(muestra).
La Teoría de muestras.
La estimación de parámetros.
El Contraste de hipótesis.
El Diseño experimental.
La Inferencia bayesiana.
Los métodos no paramétricos
Planteamiento del problema
Suele iniciarse con una fijación de objetivos o algunas preguntas como ¿cuál
será la media de esta población respecto a tal característica?, ¿se parecen estas
dos poblaciones?, ¿hay alguna relación entre..?
En el planteamiento se definen con precisión la población, la característica a
estudiar, las variables, etcétera.
Se analizan también en este punto los medios de los que se dispone y el
procedimiento.la población y características de estudio.
Prueba Estadística de una Hipótesis.
El problema del contraste de hipótesis consiste básicamente en comprobar
cotejar, decidir, en definitiva, sobre la veracidad de una hipótesis prefijada
previamente como supuestamente cierta. En términos estadísticos, la o las
Mat 282 Página 57
hipótesis que formulamos lo serán lógicamente sobre la población. Bien
afectando a algún parámetro de ésta, lo que da origen a los contrastes
paramétricos o bien a otras características de la mismas que no lo sean
estrictamente, lo que origina contrates "no" paramétricos.
La solución estadística del problema de contrastación se basará en los datos
muéstrales y la base estadística (probabilística) de la que arrancará el contraste,
de algún estadístico muestral.
Pasemos a definir los principales conceptos implicados en nuestro problema:
Región crítica: Será aquella región del campo de variación del estadístico tal
que si contiene al valor evaluado del mismo con los datos muéstrales nos llevará
a rechazar la hipótesis. La designaremos por R1
Región de aceptación: Es la región complementaria de la anterior. Si el valor
evaluado del estadístico pertenece a ella No rechazamos la hipótesis (las
hipótesis nunca se aceptan de forma definitiva, sólo se aceptan
provisionalmente, es decir, no se rechazan, a la espera de una nueva
información que eventualmente pueda llevarnos a rechazarla en el futuro). La
designaremos por R0. Evidentemente los conjuntos de puntos que forman ambas
regiones son disjuntos.
Una hipótesis estadística (paramétrica): Es una conjetura sobre el valor
concreto que tiene en realidad. El establecer una hipótesis sobre un parámetro
H0, supone dividir los posibles valores del parámetro en dos grupos disjuntos
tales que unos son hipotéticamente ciertos (H0) y los otros (H1) no lo son. A la
hipótesis que se desea contrastar se la denomina "hipótesis nula", siendo, por
tanto, el valor o valores H0 que hipotéticamente consideramos reales, dicha
hipótesis viene expresada como H0. Alternativamente y consecuentemente se
establece la denominada "hipótesis alternativa" (H1) compuesta ésta por el valor
o valores 1 que en consecuencia de la elección y de la complementariedad de
Mat 282 Página 58
los de la hipótesis nula, son los que, en principio, no consideramos cómo
hipotéticamente reales.
El hecho de que las hipótesis, tanto la nula cómo la alternativa puedan recoger
en sus planteamientos uno o varios valores, da lugar a hipótesis de carácter
simple, si el número de valores plausibles e hipotéticos es de uno en ambas, o
bien a hipótesis compuestas si dicho valor no es único en alguna de ellas.
Teniendo en cuenta lo dicho anteriormente, el problema de rechazar o aceptar
una hipótesis puede plantearse como un problema de decisión, en el que
evidentemente existe la posibilidad de fracasar o acertar en la elección o
decisión a la hora de concluir que la hipótesis, bien nula o bien alternativa, son
rechazables o no.
El problema de decisión: rechazo/no rechazo, vendría expresado en las
siguientes opciones en forma de tabla:
Hipótesis/Acción No Rechazamos Rechazamos
Es cierta Correcto Error Tipo I
Es falsa Error Tipo II Correcto
Si la hipótesis nula (H0) es cierta y nuestra decisión es no rechazarla, la
decisión ha sido correcta.
Si la hipótesis nula (H0) es cierta y nuestra decisión es rechazarla, la
decisión provoca un error. Dicho error se denomina error tipo I.
Si la hipótesis nula (H0) es falsa y nuestra decisión es no rechazarla, la
decisión provoca un error. Dicho error se denomina error tipo II.
Mat 282 Página 59
Si la hipótesis nula (H0) es falsa y nuestra decisión es rechazarla, la
decisión ha sido correcta.
Procedimiento para una prueba de hipótesis
Los pasos a seguir son:
1. Formular la hipótesis nula H0 y la alternativa H1, de acuerdo al
problema.
2. Escoger un nivel de significación o riesgos .
3. Elegir la estadística de prueba apropiada, cuya distribución por muestreo
sea conocida en el supuesto de que Ho es cierta.
4. En base a H0 y H1, determinar el valor (o los valores) críticos y con ello se
establecen las regiones de aceptación o rechazo.
5. Calcular los valores de la prueba estadística a partir de una muestra
aleatoria de tamaño n, Ho y reemplazarlos en la estadística de prueba
elegida en el paso 3, para hallar el valor experimental.
6. Tomar la decisión de aceptar Ho si el valor experimental cae en la región
de aceptación y rechazarla si dicho valor cae en la región crítica o de
rechazo.
7. Opcional: Si se rechaza H0, se puede hallar un intervalo de confianza
para el parámetro de interés.
Así: conocemos quex→ N [u ,σ
√n ] de lo que deducimos quex−u
σ
√n
=N [ 0,1 ] de
forma que la hipótesis nula es H0
De modo que la forma estadística seria:
Z=x−u0
σ√n
:.
Distribución de la Varianza
Mat 282 Página 60
La distribución de la varianza de una distribución se representa mediante σ 2y se
define por
σ 2={ ∑ ( x i−μ )2f ( xi ), Si x esdiscreta
∫ (x−μ )2 f (x ) dx ,Si x es continua
]
donde f(X) representa a la función de probabilidad y a la función densidad de
probabilidad, respectivamente, de la variable aleatoria.
Claramenteσ 2≥0 porque ( x−μ )2 ≥ 0 , para todo X, yf ( x ) ≥ 0 , para todo X.
En palabras, la varianza es una medida de dispersión o variabilidad que no tiene
interpretación física ya que está en unidades cuadradas.
Si en las fórmulas anteriores desarrollamos el cuadrado del binomio y aplicamos
propiedades de las sumatorias (integrales) se llega a una expresión más
conveniente para realizar los cálculos
σ 2={ ∑ x i2 f ( x i)
−μ2 , Si xes discreta
∫ X2 f ( X ) dX−μ2, Si X es continua
Análisis de la Varianza e Intervalos de Confianza.
1. Analisis de la varianza
El análisis de varianza es una prueba que nos permite medir la variación de las
respuestas numéricas como valores de evaluación de diferentes variables
nominales.
La prueba a realizar es de sí existe diferencia en los promedios para la los
diferentes valores de las variables nominales; esta prueba se realiza para
variables donde una tiene valores nominales y la otra tiene valores numéricos.
En el siguiente ejemplo, se tiene la calificación de una prueba a personas con
diferentes grados de escolaridad, lo que se intenta es probar si existe o no
diferencia entre el grado escolar (variable nominal ) y el promedio de la
calificación ( variable numérica ).
Mat 282 Página 61
Para analizar si existe diferencia en los promedios se procede a realizar una
prueba F que se explica posteriormente.
2. Intervalo de confianza
En estadística, se llama intervalo de confianza a un par de números entre los
cuales se estima que estará cierto valor desconocido con una determinada
probabilidad de acierto. Formalmente, estos números determinan un intervalo,
que se calcula a partir de datos de una muestra, y el valor desconocido es un
parámetro poblacional. La probabilidad de éxito en la estimación se representa
con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el
llamado error aleatorio o nivel de significación, esto es, una medida de las
posibilidades de fallar en la estimación mediante tal intervalo
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma
que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de
confianza), mientras que para un intervalo más pequeño, que ofrece una
estimación más precisa, aumentan sus posibilidades de error.
Para la construcción de un determinado intervalo de confianza es necesario
conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual
que el parámetro presente una distribución normal. También pueden construirse
intervalos de confianza con la desigualdad de Chebyshov.
En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de
un parámetro poblacional θ que sigue una determinada distribución de
probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α,
donde P es la función de distribución de probabilidad de θ.
Intervalo de confianza para la media de una población
De una población de media μ y desviación típica σ se pueden tomar muestras de
n elementos. Cada una de estas muestras tiene a su vez una media ( ). Se puede
Mat 282 Página 62
demostrar que la media de todas las medias muestrales coincide con la media
poblacional:[2]
Pero además, si el tamaño de las muestras es lo suficientemente grande,[3] la
distribución de medias muestrales es, prácticamente, una distribución normal (o
gaussiana) con media μ y una desviación típica dada por la siguiente expresión:
σ xσ
√n
. Esto se representa como
X N (μ ,σ
√n ):Si estandarizamos:
X−μσ
√n
=Z N (0,1)
En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro
del cual caigan un determinado porcentaje de las observaciones.
Aplicaciones de chi - cuadrado
La distribución χ² tiene muchas aplicaciones en inferencia estadística. La más
conocida es la de la denominada prueba χ² utilizada como prueba de
independencia y como prueba de bondad de ajuste y en la estimación de
varianzas. Pero también está involucrada en el problema de estimar la media de
una población normalmente distribuida y en el problema de estimar la pendiente
de una recta de regresión lineal, a través de su papel en la distribución t de
Student.
Aparece también en todos los problemas de análisis de varianza por su relación
con la distribución F de Snedecor, que es la distribución del cociente de dos
variables aleatorias independientes con distribución χ².
Mat 282 Página 63
Regresión y Correlación Multivariante.
Con la Regresión Lineal Simple analizamos si puede admitirse o no una relación
de tipo lineal entre la variable independiente X y la dependiente Y . No
obstante, lo habitual es que la variable dependiente trate de expresarse en
función de varias variables independientes X1 , X2 , ... , Xk también de forma
lineal
Y = a + b1 X1+ b2 X2+ ... + bkXk
El propósito ahora de Regresión Lineal Múltiple sigue siendo, por un lado,
determinar cuáles de las covariables independientes X1 , X2 , ... , Xk son
significativas a la hora de explicar a la variable dependiente y, luego, estimar
los parámetros b1 , b2 , ...,bk
Con la Correlación Multivariante estudiaremos el grado o fuerza de esa
relación; primero, con la Correlación Múltiple el grado de la relación existente
entre la variable dependiente y las covariables independientes y, luego, con la
Correlación Parcial, la fuerza de la relación existente entre dos variables
determinadas, una vez eliminada la influencia de las demás.
Ambos análisis están basados, fundamentalmente, en tests de hipótesis en los que
la suposición de normalidad de las variables en estudio, es fundamental, por lo
que, en caso de que no pueda admitirse dicha suposición, la utilización de
Métodos Robustos, se hace imprescindible.
Distribuciones No Paramétricas.
Mat 282 Página 64
Se denominan pruebas no paramétricas aquellas que no presuponen una
distribución de probabilidad para los datos, por ello se conocen también como
de distribución libre.
En la mayor parte de ellas los resultados estadísticos se derivan únicamente a
partir de procedimientos de ordenación y recuento, por lo que su base lógica es
de fácil comprensión.
Cuando trabajamos con muestras pequeñas (n < 10) en las que se desconoce si
es válido suponer la normalidad de los datos, conviene utilizar pruebas no para
métricas.
El parámetro de centralización es la mediana, que es aquel punto para el que el
valor de X está el 50% de las veces por debajo y el 50% por encima.
Mat 282 Página 65