estadistica y probabilidad

Índice

1. Estadística Descriptiva.

1.1. Distribuciones de Frecuencias.

1.2. Medidas de Concentración.

1.3. Medidas de Dispersión.

2. Probabilidad.

2.1. Probabilidad Simple.

2.1.1. Teoría de Conjuntos.

2.2. Distribuciones de Probabilidad.

2.2.1. Distribuciones Discretas y Continuas.

Distribución de Bernoulli.

Distribución Binomial.

Distribución de Poisson.

Distribución Geométrica

Distribuciones Hipergeométrica.

Distribución Normal.

Distribución T de Student.

Distribución F de Fisher.

Distribución Gama.

Distribución Beta.

Distribución Chi Cuadrado.

3. Regresión y Correlación.

3.1. Regresión Simple.

3.2. Regresión Múltiple.

Polinomial.

Potencial.

Exponencial.

Logarítmica.

Multinomial.

4. Estadística Inferencial.

4.1. Valores Esperados y Momentos.

4.2. Distribuciones Continuas Especiales.

4.3. Distribución Normal Multivariante.

4.4. Inferencia Estadística.

4.5. Prueba Estadística de una Hipótesis.

4.6. Distribución de la Varianza

4.7. Análisis de la Varianza e Intervalos de Confianza.

4.8. Aplicaciones de Chi Cuadrado.

4.9. Regresión y Correlación Multivariante.

4.10. Distribuciones No Paramétricas.

Mat 282 Página 1

ESTADÍSTICA DESCRIPTIVA

DISTRIBUCIÓN DE FRECUENCIAS.

Definición.-

La Distribución de Frecuencias se trata de organizar cierta información en

clases o categorías donde se determina el número de datos que pertenecen acada

uno de ellos ocomo un arreglo tabular de datos que muestren sus respectivas

frecuencias. Donde se puede generar dos tipos de distribuciones las cuales son:

Distribuciones de frecuencias de Variables Discretas

Distribuciones de frecuencias de Variable Continuas

Distribuciones de Frecuencias de Variables Discretas.

En este tipo de distribuciones es considerado en función al tipo de variable con

el cuál se está trabajando, es decir, se considerará a todas las variables como

variables discretas, por ejemplo:

Cantidad de objetos vendidos

Número de alumnos de la clase.

Numero de clientes en una tienda.

Número de accidentes en una autopista.

Cantidad de libros en una biblioteca.

Piezas defectuosas de un determinado lote recibido.

Al generar la distribución de frecuencias se deberá tomar en cuenta intervalos

determinados, por ejemplo:

la variable discre será: x ique en este caso será el numero de errores que existe

en una cierta cantidad de libros.

Nº de errores x i Nº de páginas

Mat 282 Página 2

0 2

1 4

2 6

3 13

4 20

5 35

Es también posible analizar el numero de clientes que entran a una tienda en un

determinada hora

Nº de clientes Hora de atencion

15 09:00-11:00

18 11:00-13:00

25 13:00-15:00

. .

. .

61 20:00-22:00

Distribución de frecuencias variables continuas

En la distribución de Variables Continuas es en la que se asumen valores reales,

es decir se trabaja con:

Mat 282 Página 3

El peso de alumnos en una clase

La utilidad de las empresas en el ramo metalúrgico

El tiempo de duración de un transformador

El tiempo de duración de una carrera

Este tipo de distribución es el más usual en la estadística

Recomendaciones

Para realizar esta distribución se debe seguir una serie de recomendaciones que

son

Ordenar los datos en forma creciente o decreciente para su respectivo

análisis

Escoger al azar la cantidad de datos

A la diferencia del Valor Maximo menos el Valor Mínimo se le llama

Rango

Determinar el número de intervalos de la clase

Rango

Es la diferencia de entre el máximo valor y el minimo

Rango=Vmax−Vmin

Numero de intervalos de clase

Para hallar el número de intervalos de la clase se siguen tres reglas

fundamentales

Se utiliza la regla de sturges que nos dice que el número de intervalos de clase es

el numero entero más próximo a la relación:

k=1+3.3 log10 n

Donde n es la cantidad de observaciones que hay, por ejemplo si en curso A

hay 20 alumnos, en el curso B hay 34 y en el curso C hay 46 alumnos n tomaría

el valor de n=20+34+46 de modo que n =100.

Mat 282 Página 4

Ya una vez calculado el número de intervalos de clase, el resultado se debe

redondear bajo las normas de redondeo.

Recorrido

El recorrido es la diferencia del valor máximo y el valor mínimo mas uno

I=Vmax−Vmin+1

Se utiliza el uno si se trabaja con número enteros y si se trabaja con variables

continuas no se considera el número 1.

Valor o magnitud de la clase

que es la división del recorrido con el número de intervalos de clase

c= Ik

Se debe redondear el resultado al mismo número de cifras significativas que los

datos observados

Luego de hallar todos los datos anteriores se genera un segmento donde se

determina valores de cada intervalo de clase y se expresa de la siguiente forma

Es importante señalar que si X k+1 es menor a xn´ o si el máximo valor

determina es menor al máximo valor obtendo en forma experimental, se debe

incrementar el valor de la magnitud de la clase c considerando el numero de

cifras significativas dee los datos observados , hasta que el máximo valor

determinado se mayor al máximo valor obtenido en forma experimental

Mat 282 Página 5

Excedente

Una ves que X k+1 cumpla la condición se halla el excedente. El excedente es la

diferencia entre el valor máximo determinado y el valor máximo obtenido se

expresa de la siguiente forma

e=(Xk+1)−(xn ´ )

Luego se analiza el excedente, es decir si el excedente es par, se divide entre 2 y

el segmento se recorrerá hacia la izquierda en una magnitud equivalente a e/2, y

si el excedente es impar, se buscara la simetría y el segmento se recorrerá hacia

la izquierda en el menor número determinado.

De este segmento generado se genera la distribución de frecuencias

Distribución de frecuencias

Son todos los datos experimentales distribuidos simétricamente respecto a los

valores máximo y mínimo de los datos obtenidos en forma experimental

Intervalos de clase Conteo Frecuencia fiY 1 Y 2-i n1 f1Y 2 Y 3-i n2 f2Y 3 Y 4-i n3 f3Y 4 Y 5-i n4 f4Y 5 Y 6-i n5 f5. . . .. . . .Yk Y k+1-i nk fk

Donde i es la unidad.

Mat 282 Página 6

Conteo

Consiste en colocar la cantidad de valores o datos que pertenecen a cada

categoría, clase o intervalo de clase, que corresponderá al valor de la frecuencia

de los intervalos de clase.

Frecuencia fi

Es la cantidad de valores que pertenecen a cada intervalo de clase o categoría.

Para cada caso los datos dentro del intervalo de clase deben ser distribuidos

uniformemente.

Limites verdaderos de clase.

Se determina el valor medio entre el prime y segundo intervalo de clase luego se

determina el valor medio entre el segundo y el tercer intervalo, hasta terminar

con todos los intervalos de modo tal que se los denomina limites verdaderos de

clase se expresa de la siguiente forma:

Limites verdaderos de clase(L.V.C) Frecuencia fi

Y 1”- Y 2” f1

Y2”- Y 3” f2

Y 3”- Y 4” f3

Y 4”- Y 5” f3

. . .

. . .

YK”- YK+1” fk

[) ∑ fi=n

Histograma de frecuencia

Mat 282 Página 7

Es la representación gráfica de la distribución de frecuencias lo cual se lo

realiza utilizando los ejes coordenados, donde en el eje de la” x” o abscisas se

colocan los

limites verdaderos de la clase y al eje de la” y” se colocan las frecuencias

fi

L.V.C

Marcas de clase

Las marcas de clase son los valores representativos de cada intervalo de clase,

osea el valor medio de los Limites Simples de Clase o Limites verdaderos de

clase y se lo denota como Xi

Marcas de Clase Xi frecuencia fi

X1 f1

X2 f2

X3 f3

. .

. .

Xk fk

Polinomio de Frecuencias

Mat 282 Página 8

Es la representación grafica de la frecuencia fi Vs las marcas de clase, tiene las

mismas características que el histograma de frecuencias pero esta vez en el eje

“x” se coloca las marcas de clases Xi y en el eje de la “y” la frecuencia fi

fi

Xi

Distribución de Frecuencias Relativas

Es la cantidad de valores que se encuentra en cada intervalo de clase respecto a

la cantidad total de valores observados como:

Limites Verdaderos de Clase Frecuencia fr %

Y1 Y2 (F1/n)*100=fr1

Y2 Y3 (F2/n)*100=fr2

Y3 Y4 (F3/n)*100=fr3

. . .

. . .

. . .

YK”- YK+1” (Fk/n)*100=frk

[ )

Histograma de Frecuencias Relativas

Mat 282 Página 9

es la representación grafica de los Limites Verdaderos de Clase Vs la

Frecuencia fr% y tiene las mismas características que las anteriores, solo que

esta vez en el eje “y” se coloca la fr% y lo mismo en el eje de la “x” se coloca

los L.V.C

%fr

L.V.C

Distribución de Frecuencias relativas con Marcas de clase

Marcas de Clase Xi Frecuencia fr

X1 fr1

X2 fr2

X3 fr3

. .

. .

Xk fr k

Polinomio de frecuencias relativas

% fr

Xi

Distribución de Frecuencias acumuladas “menor que”

Mat 282 Página 10

La distribución acumulada de frecuencias sirve para conocer el total de las

observaciones que existen desde la primera clase hasta una categoría

determinada, como:

Frecuencia Acumulada

Datos observados menores que Y1” fa1.



“ . .

“ . .

“ Yk+1” fa k.

Polinomio de Frecuencias Acumuladas “menores que”

fa

L.V.C

Distribucion de Frecuencias Acumuladas “mayor que”

Frecuencia Acumulada

Datos observados mayores que Y1” fa1.



“ . .

“ . .

“ Yk+1” fa k.

Polinomio de Frecuencias Acumuladas “mayor que”

Mat 282 Página 11

fa

L.V.C

Distribución de Frecuencias Acumuladas relativas “mayor que”

Frecuencia Acumulada Relativa

Datos observados mayores que Y1” fa r1.



“ . .

“ Yk+1” fark.

Polinomio de Frecuencias Acumuladas relativas “mayor que”

% fa r

L.V.C

Distribución de Frecuencias Acumuladas relativas “menor que”

Mat 282 Página 12

Frecuencia Acumulada Relativa




“ . .

“ . .

“ Yk+1” fa k.

Polinomio de Frecuencias Acumuladas relativa “menor que”

% fa r

L.V.C

MEDIDAS DE CONCENTRACION

Mat 282 Página 13

Las medidas de concentración son valores representativos, se trata de valores

que generan una representación de un conjunto de datos obtenidos en un

determinado experimento.

Las medidas de concentración son las siguientes:

Media Aritmética

La media aritmética de un conjunto de números, x1, x2, x3 ,x4…..xn se denota

por x de modo que la ecuación para hallar la media aritmética es la siguiente:

x=x1+x2+x3+…+xn

n

x=∑

1

n

x i

n

la media aritmética es igual a la suma de todos sus valores entre la cantidad de

valores

n= a la cantidad de valores que se están sumando

si los números están organizados en una distribución de frecuencias la media

aritmética seria la siguiente:

x=f 1∗x1+ f 2∗x2+ f 3∗x3+…+ f k∗xk

f 1+ f 2+ f 3+…+ f k

Donde la suma de las frecuencias es equivalente a la cantidad total de valores

observados, ∑ fi=n

Se puede usar cualquiera de las dos ecuaciones para hallar la media aritmetica

Propiedades

La Suma Algebraica de las Desviaciones de un conjunto de números, respecto de

su

Media Aritmética, es siempre igual a cero.

Mat 282 Página 14

La Mediana.

Es un valor representativo y se lo puede determinar como el valor que se

encuentra en el centro de una serie de valores, siendo estos ordenados en forma

creciento o decreciente.

Si la cantidad que se analiza de los valores es par, la mediana será el valor

medio de los dos valores que se encuentra en el centro de esa serie de valores

Ejemplo:

12, 25 , 34 , 55, 60, 75, 90, 95, 98, 100, 112

La cantidad de valores es =11, es impar de modo que la mediana es el numero

del medio

La mediana = 75

Si se analiza la distribución de frecuencia la mediana se calcula de la siguiente

forma:

X=Lm+( n2−f l

fm )∗c

Lm: Es el límite verdadero de clase inferior de la Clasemediana.

La Clase Mediana es aquel intervalo donde su frecuencia

acumulada es

Equivalente a la mitad de los valores observados.

n/2: La mitad de los datos observados.

fl: Frecuencia acumulada por debajo de la Clase Mediana,

también se podría decir que es igual a la suma de las

frecuencias hasta el limite de fm.

fm: Frecuencia de la Clase Mediana.

c: La magnitud del intervalo de clase

Mat 282 Página 15

La Moda

La Moda es un conjunto de números obtenidos en forma experimental , es aquel

valor que ocurre con mayor frecuencia.

Ejemplo:

el valor mas frecuente de los siguientes números es:

12, 25, 28, 28, 55, 60, 75, 90, 95

Moda = 28

La moda puede no existir o incluso no ser la única en caso de existir.

En una Distribución de Frecuencias La Moda se determina de la siguiente

forma:

moda=Lm+( ∆1

∆1+∆2)∗c

Lm: Limite real inferior o limite verdadero de clase inferior de la

Clase Modal.

Clase Modal. Es aquel intervalo de clase que tiene Mayor

Frecuencia.

∆1: Es la diferencia de la frecuencia de la Clase Modal sobre

la

frecuencia de la clase Contigua Inferior.

∆2: Es la diferencia de la frecuencia de la Clase Modal sobre

la

frecuencia de la clase Contigua Superior.

C: Magnitud del Intervalo de clase

Mat 282 Página 16

La Media Geométrica

La media Geométrica se denota como G, de un conjunto de números x1, x2, x3,

….xn, es la raízenésima del producto de estos numerode modo que la ecuación es

la siguiente:

G= n√x1∗x2∗x3∗…∗xn

Donde se simplifica:

G= n√x i

Cuando la cantidad de valores que se esta analizando son muy grandes y los

valores altos. Entonces se utiliza la propiedad de logaritmos de la siguiente

manera:

log (G )=1n∗¿

Simplificando se llega a:

LogG=1n∗∑

1

n

log x i

La Media Armónica

La media armónica, lo denotamos como H de un conjunto de números x1, x2, x3,

… xn, es la recíproca de la Media Aritmética de los reciproco de esos Números.

de modo que su ecuación es la siguiente

H= n1x1

+1x2

+1x3

+…+1xn

Mat 282 Página 17

H= n

∑1

n1x i

Media Cuadrática

Es un conjunto de números x1, x2 ,x3, x4,… xn, la formula para hallar la Media

Cuadrática se halla de la siguiente forma

xc=√ x12+x2

2+x32+…+ xn

2

n

xc+√∑1

n

x i2

n

Cuartil

Si a una serie de datos se colocasen en orden creciente de acuerdo a su

magnitud, el valor

medio que divide al conjunto de datos en dos partes iguales es la Mediana.

De ese modo los valores que dividen a los datos son cuatro partes iguales, a

estos valores se les denomina Cuartiles y se los escribe como Q1, Q2 y Q3.sus

nombres son Primer Cuartil, Segundo Cuartil y Tercer Cuartil como se dijo al

comienzo el segundo cuartil corresponde al valor de la mediana

Qk=LVDC+

k∗n4

−f a

f Q

Decil

Para los deciles se utiliza el mismo principio de los valores que

dividen a los datos observados en diez partes iguales de modo

Mat 282 Página 18

que se los denomina deciles y se los representa de la siguiente

forma: D1, D2, D3,D4,D5,D6,D7,D8, D9. Como en el caso del Q2

corresponde al valor de la mediana el D5.

Dk=LVDC+

k∗n10

−f a

f D

∗c

Percentil

De la misma forma la cantidad de valores que dividen a este

conjunto de datos son cien partes iguales y son representadas

de la siguiente formar: P1, P2, P3, P4,……P99.

Como se mostró en el cuartil Q2 y en el decil D5, el percentil

P50 corresponderá al valor de la Mediana y los Percentiles P25,

P75 corresponderá al Q1 y ·Q3 respectivamente.

Pk=LVDC+

k∗n100

−f a

f P

∗c

Mat 282 Página 19

MEDIDAS DE DISPERSIÓN

Se trata de las medidas que nos permiten determinar el grado de variación se

tiene con los datos que se están trabajando respecto a una medida referencial

Desviación Media

Es el promedio de desviación de cada valor respecto de la Media Aritmética.

Si se cuenta con una serie de valores como por ejemplo x1, x2, x3,…xn, la

desviación de cada uno de los valores seria |x1−x|,….|xn−x| de modo que el

promedio de todas las desviaciones va a ser:,

DM=∑i=1

n

|xi−x|n

Si se trabaja con una distribuion de frecuencias seria de la siguiente forma

DM=∑i=1

n

f i∗|x i−x|n

Donde n es la suma de las frecuencias

Desviación Estándar

Se determina cuando se tiene un conjunto de números por ejemplo: x1, x2, x3,…

xn, se denota porσy se define como la Media Cuadratica de las deviaciones dee

cada valor respecto a la Media Aritmetica:

Mat 282 Página 20

σ=√∑i=1

n

(x i−x)2

n

Si se trabaja con una distribución de frecuencias la ecuación es de la siguiente

forma:

σ=√∑i=1

n

f i∗(x i−x)2

n

Donde n seria la sumatoria de sus frecuencias.

La Varianza

Es el cuadrado de la DesviacionEstandar y se denota con σ 2, la

ecuación para hallar la Varianza es la siguiente:

σ 2=∑i=1

n

(x i−x)2

n

Si se trabaja con una distribución de frecuencias la ecuación

seria la siguiente:

σ 2=∑i=1

n

f i∗(x i−x )2

n

Como se dijo anteriormente n seria la sumatoria de todas las

frecuencias.

Rango

El rango es una medida de dispersión tomando en cuenta la

diferencia del valor máximo con el valor mínimo

Mat 282 Página 21

Rango=V max−V min

Rango SemiIntercuartilico

Es la diferencia entre el tercer cuartil y el primero entre 2, la

ecuación es la siguiente

RSQ=Q3−Q1

2

Rango SemiPersentil

Es la desviación entre el percentil 10 y el percentil 90 entre dos

se podría hallar el Rango Semi Percentil con otros percentiles

pero con el percentil 10 y 90 nos da una mayor aproximación

que con los otros su ecuación es la siguiente

RSP=P90−P10

2

Se lo llama Rango de Percentiles.

Coeficiente de variación

Desviacio nrelativa=Desviacionabsoluta

Promedio

Donde la desviación absoluta es la desviación estándar σ , y el

promedio es la media x , a la desviación relativa se la denomina

Mat 282 Página 22

como coeficiente de variación y se lo denota por V su ecuación

es la siguiente:

V=σx

Pero se la expresa en forma de porcentaje de modo que la

ecuación seria la siguiente

V=σx∗100 %

PROBABILIDAD.

Es el estudio de experimentos aleatorios o elementos libres de determinación. Es

decir, si se tiene un suceso denotado por E y existe n casos posibles ó n

oportunidades, para todos estos con la misma posibilidad o factibilidad,

entonces puede presentarse solo en h de todos los casos.

PROBABILIDAD SIMPLE.

Teoría de Conjuntos

La Teoría de Conjuntos es una división de las matemáticas que estudia las

propiedades y relaciones de los conjuntos.

El concepto de conjunto es intuitivo y se podría definir como una "agrupación

bien definida de objetos no repetidos y no ordenados"; así, se puede hablar de

un conjunto de personas, ciudades, gafas, lapiceros o del conjunto de objetos

Mat 282 Página 23

http://es.wikipedia.org/wiki/Conjunto

http://es.wikipedia.org/wiki/Matem%C3%A1tica

que hay en un momento dado encima de una mesa. Un conjunto está bien

definido si se sabe si un determinado elemento pertenece o no al conjunto. El

conjunto de los bolígrafos azules está bien definido, porque a la vista de un

bolígrafo se puede saber si es azul o no. El conjunto de las personas altas no

está bien definido, porque a la vista de una persona, no siempre se podrá decir si

es alta o no, o puede haber distintas personas, que opinen si esa persona es alta

o no lo es.

Se entiende por conjunto a la agrupación en un todo de objetos bien

diferenciados de nuestra intuición o nuestro pensamiento.

Notación

Usualmente los conjuntos se representan con una letra mayúscula:

A , B ,C , K , ….

Se llama elemento a cada uno de los objetos que forman parte de un conjunto,

estos elementos tienen carácter individual, tienen cualidades que nos permiten

diferenciarlos, y cada uno de ellos es único, no habiendo elementos duplicados o

repetidos. Los representaremos con una letra minúscula:

a ,b , c , k …

De esta manera, si es un conjunto, y a,b,c,d,etodos sus elementos, es común

escribir:

A={a , b , c ,d , e }

para definir a tal conjunto A. Esta notación empleada para definir al conjunto A

se llama notación por extensión.

Mat 282 Página 24

Para representar que un elemento xpertenece a un conjunto A, escribimos x∈ A

"xen A", "x pertenece a A" o bien "x es un elemento de A". La negación de

x∈ Ase escribe x∉ A y se lee de la siguiente forma "x no pertenece a A “

El conjunto universal, que representaremos como U(u mayúscula), es el conjunto

de todas las cosas sobre las que estemos tratando. Así, si hablamos de números

enteros entonces Ues el conjunto de los números enteros; si hablamos de

ciudades, U es el conjunto de todas las ciudades. Todos los elementos posibles

están en este conjunto:

∀ x , x∈U

Este conjunto universal puede mencionarse explícitamente, o puede darse por

supuesto según el contexto que estemos tratando.

Existe además, un único conjunto que no tiene elementos, al que se le llama

conjunto vacío y que se denota por ∅ , esto es: ∅={}. La característica

importante de este conjunto es que todos los elementos posibles no están

contenidos en él:

∀ x , x∈∅

Por otro lado, si todos los elementos de un conjunto satisfacen alguna

propiedad, misma que pueda ser expresada como una proposición p(x), con la

indeterminada x, usamos la notación por comprensión, y se puede definir:

A={x∈U : p (x)}

Lo anterior se lee "A es el conjunto de elementos x, que cumplen la propiedad

p(x)". El símbolo ":" se lee "que cumplen la propiedad" o "tal que"; este símbolo

puede ser remplazado por una barra /.

A={x∈U / p(x) }

Por ejemplo, el conjunto:

A={1,2,3,4 }

Mat 282 Página 25

http://es.wikipedia.org/wiki/Conjunto_vac%C3%ADo

http://es.wikipedia.org/wiki/Conjunto_universal

Puede definirse por:

A={n∈N :1≤ n ≤ 4 }

Donde el símbolo N representa al conjunto de los números naturales.

Igualdad de conjuntos

Dos conjuntos A y B se dicen iguales, lo que se escribe A = B si constan de los

mismos elementos. Es decir, si y solo si todo elemento de A está también

contenido en B y todo elemento de B está contenido en A. En símbolos:

A=B=∀ x , x∈ A ↔ x∈B

Subconjuntos

Un subconjunto es un Conjunto que consta de elementos en el cual cada

elemento que posee esta también en otro conjunto como en elgrafico

Diagrama de Venn que muestra A⊆B

Un conjunto A se dice que es subconjunto de otro B, si cada elemento de A es

también elemento de B, y se denota A⊆B.y se lee de la siguiente forma “el

conjunto A es un subconjunto de B” Es decir:

Mat 282 Página 26

http://es.wikipedia.org/wiki/N%C3%BAmeros_naturales

http://es.wikipedia.org/wiki/Archivo:Venn_A_subset_B.png

A⊆B=∀ x , x∈ A → x∈B

Cabe señalar que, por definición, no se excluye la posibilidad de que si A⊆B, se

cumpla A = B. Si, siendo A un subconjunto de B, B tiene por lo menos un

elemento que no pertenezca al conjunto A, entonces decimos que es un

subconjunto propio de B, lo que se representa por A⊂B. Es decir

A⊂B=A⊆B y A ≠ B

Operaciones con conjuntos

Unión ∪Es la unión de los elementos que tienen esos conjuntos por ejemplos en el

grafico esta pitado de celeste todos los elementos de A y B es la unión de esos

conjuntos

Esto significa que x∈ A∪B si y sólo si x∈ A ó x∈B.

A B

Diagrama de Venn que ilustra A U B

Para cada par de conjuntos A y B existe un conjunto unión de los dos, que se

denota como AUBel cual contiene todos los elementos de A y de B.

A U B={ x : x∈ A o x∈B }

Intersección ∩

Mat 282 Página 27

http://es.wikipedia.org/wiki/Uni%C3%B3n_de_conjuntos

http://es.wikipedia.org/wiki/Diagrama_de_Venn

Son los elementos que se encuentran en un conjunto y a la vez en otro

Esto significa que x∈ A ∩B si y sólo si x∈ A y x∈B

A B

Diagrama de Venn que ilustra A ∩ B

Los elementos comunes a A y B forman un conjunto denominado intersección de

A y B, representado por A ∩ B. Es decir, A ∩ Bes el conjunto que contiene a todos

los elementos de A que al mismo tiempo están en B:

A ∩ B= {x : x∈ A y x∈ B }

Diferencia

Los elementos de un conjunto A que no se encuentran en otro conjunto B, forman

otro conjunto llamado diferencia de A y B, representado por A−B. Es decir:

A−B={ x : x∈ A y x∉B }

Lo que significa que x∈ A−Bsi y sólo si x∈ A y x∉ A .

A B A B

Diagramas de Venn que muestran A − B y B − A respectivamente.

Mat 282 Página 28

http://es.wikipedia.org/wiki/Diagramas_de_Venn

http://es.wikipedia.org/wiki/Intersecci%C3%B3n_de_conjuntos


Complemento

El complemento de un conjunto A es el conjunto de todos los elementos que no

pertenecen a A.

Ac=U−A

El conjunto complemento siempre lo es respecto al conjunto universal que

estamos tratando, esto es, si hablamos de números enteros, y definimos el

conjunto de los números pares, el conjunto complemento de los números pares es

el formado por los números impares. Si estamos hablando de estudiantes y se

define al conjunto a los estudiantes que han pasado la materia de probabilidad

II, el conjunto complementario es el de los estudiantes que reprobaron la

materia.

A B

U

Diagrama de Venn que ilustra el complemento de A, AC.

Diferencia simétrica

La diferencia simétrica de dos conjuntos A y B viene dada por los elementos que

pertenecen a uno y sólo uno de los dos:

A ∆ B= {x :obien x∈ A obien x∈B }

Mat 282 Página 29


A B

U

Diagrama de Venn que ilustra la diferencia simétrica de A y B, AΔB.

DISTRIBUCIONES DE PROBABILIDADES

En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los eventos rango de valores de la variable aleatoria.

Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.

DISTRIBUCIONES DISCRETAS Y CONTINUAS.

Distribución de Bernoulli.

El experimento de Bernoulli es aquel en el que interesan solamente dos

resultados:

Mat 282 Página 30


El evento A ocurre o no ocurre, algunos ejemplos de esta prueba incluye el

lanzamiento de una moneda, la prueba de un producto sano o defectuoso o

también el sexo de una persona que puede ser hombre o mujer, lo cual se trata

de una misión de éxito o de fracaso. La función indicadora de un evento es una

variable aleatoria de Bernoulli

1 --- éxito (el evento A ocurre)

X(w)=

0 --- fracaso (el evento A no ocurre)

Por lo tanto el espacio muestral de la distribución de Bernoulli (w) es discreto

mostrando solamente dos valores, queda definida conociendo la probabilidad de

A y la probabilidad de A complemento

P(A)=P X(w):1 0

P(Ac)=1-p=q P(w): p q

Donde la variable aleatoria de bernoulli tiene un rango o recorrido de 0 y 1 lo

cual resulta en una bicotomica del espacio muestral original

Por ejemplo

Una urna contiene 4 bolillos blancos y 6 negros. Cuando seleccionamos un

bolillo al azar este puede clasificarse como blanco o negro y la variable

aleatoria será

1 --- si el bolillo es blanco

X(w)=

0 --- si el bolillo es negro

Distribución binomial

Mat 282 Página 31

si definimos una variable aleatoria X en el espacio muestral omega asociada a

un espacio de probabilidad, se dice que X es binomial si y solo si:

i) r(x)=(0,1,2,3…….n) ii) P(x=x) = Cnx PX qn− x

Condiciones para emplear la distribución binomial

a) El experimento aleatorio tiene un carácter dicotómico y puede ser repetido

independientemente mil veces, por tanto si A es el experimento aleatorio

entonces la probabilidad de A es igual a p es decir:

P(A)=p

P(Ac)=1-p=q

b) Las probabilidades(A)=p y P(Ac)=q permanecen constantes para todas y

cada una de las repeticiones

c) La variable aleatoria X denota el número de veces que el evento A ocurre

∑0

1

P ( X=x )=¿∑0

1

Cnx Px qn− x¿

¿∑0

1

[ P+(1−P ) ]n=1n=1

Figura es la gráfica de una distribución binomial(n, 0.5) para n = 20, 40, 60, 80, 100.

Mat 282 Página 32

Se puede ver la aproximación a la distribución normal.

Distribución de Poisson

Se dice que X es una variable aleatoria tipo Poisson si :

i ¿r ( x )= {0,1,2,3 ,… …,n }ii¿ P ( x )= e−¿∗❑x

x !;¿

¿n∗p

En este caso muchos fenómenos aleatorias se explican mediante el manejo de

distribución binomial y Poisson por ejemplo el número de llamadas telefónicas

que reciben cada día, número de accidentes ocurridos

Gráfico de la Distribución de Poisson.

k de eventos ocurriendo en

un tiempo fijo si estos

eventos ocurren con

Mat 282 Página 33

http://1.bp.blogspot.com/_Dl_q2tMD58M/SwXpXN8597I/AAAAAAAAAA8/XjDpOD_cn0A/s1600/325px-Poisson_distribution_PMF.png

una frecuencia media conocida y son independientes del tiempo discurrido

desde el último evento.

Distribución geométrica.

En este caso estamos interesados en la concurrencia o no de un evento A y como

en el caso de la distribución binomial para cada repetición permanecen

constantes

P(A)=p P(Ac)= q=1-p

Se repite el experimento hasta la ocurrencia de A por primera vez por tanto el

numero de repeticiones constituye una variable aleatoria. Asi determinamos la

variable aleatoria como el numero de repeticiones requeridas hasta la

ocurrencia o primera vez. Entonces la función de distribución de la probabilidad

es:

P ( x )=p∗qx−1 ; x=1 ,2 ,3 …n

Que se denomina distribución geométrica con parámetros P

Grafica de la Distribución Geométrica con diferentes probabilidades

Mat 282 Página 34

Distribución hipergeométrica

Esta distribución se dice que X es una variable aleatoria hipergeometrica si:

i) r(x)={0,1,2,3....n}

ii¿ P(x)=C x

M Cn−xN −m

C NM

Donde las variables M y N son enteros positivos y N es mayor o igual a n y N es

mayor o igual a M si se considera el problema de elegir una muestra de tamaño

n de un lote que contiene N objetos de una clase y N-M de otra clase entonces la

definición establece la probabilidad de obtener exactamente x objetos de la

primera clase en la muestra

Graficos de la Distribucion Hipergeometrica

Distribución Normal

Una variable aleatoria continua X sigue una distribución normal de media µ y

desviación típica σ si su función de densidad es:

f ( x )=N ( µ, σ )= 1σ √2 π

e−( x−µ)2

2σ 2

De esta forma, una vez que se especifican µ y σ la distribución queda

determinada completamente. La distribución de probabilidad normal tienen

forma de campana (llamada campana de gauss, o curva normal), simétrica (por

Mat 282 Página 35

depender de x a través del termino (x−µ)2 centrada en µ y con anchura

proporcional a σ.

Sabemos que la curva de cualquier distribución continua de probabilidad o

función de densidad esta construya de forma que el área bajo la curva limitada

por los puntos x = x1 y x = x2 es igual a la probabilidad de que la variable

aleatoria X asuma un valor entre x = x1 y x = x2. Como la resolución de las

integrales para cada curva normal no es fácil, es aconsejable utilizar tablas.

Para no tener que presentar estas tablas para todos los posibles valores de µ y σ

se utiliza una variable normal tipificada Z definida como Z = (X .µ)/σ con lo que

sustituyendo nos queda la función de densidad de X:

f ( x )= 1√2 π

e−x2

2 =N (0,1)

La distribución normal es la distribución de probabilidad más importante del

Cálculo de probabilidades.

la importancia de la distribución normal queda totalmente consolidada por ser

la distribución límite de numerosas variables aleatorias, discretas y continuas,

como se demuestra a través de los teoremas centrales del límite. Las

consecuencias de estos teoremas implican la casi universal presencia de la

distribución normal en todos los campos de las ciencias empíricas.

La distribución normal queda totalmente definida mediante dos parámetros:

la media (Mu)

la desviación estándar (Sigma).

Gráfico de la distribución Normal

Mat 282 Página 36

Grafico Nª2

Como se puede observar en el 2do grafico la Distribución Normal y la Binomial tienen una

cierta similitud

Distribución T de Student.

En probabilidad y estadística, la distribución t (de Student) es una distribución

de probabilidad que surge del problema de estimar la media de

una población normalmente distribuida cuando el tamaño de la muestra es

pequeño.

Aparece de manera natural al realizar la prueba t de Student para la

determinación de las diferencias entre dos medias muéstrales y para la

construcción del intervalo de confianza para la diferencia entre las medias de

dos poblaciones cuando se desconoce la desviación típica de una población y

ésta debe ser estimada a partir de los datos de una muestra.

Mat 282 Página 37

La distribución t de Student es la distribución de probabilidad del cociente

Z

√V /v

Donde:

Z tiene una distribución normal de media nula y varianza 1

V tiene una distribución chi-cuadrado con ν grados de libertad

Z y V son independientes

Si μ es una constante no nula, el cocientees una variable aleatoria que sigue

la distribución t de Student no central con parámetro de no-centralidad μ.

Supongamos que X1,..., Xnson variables aleatorias independientes distribuidas

normalmente, con media μ y varianzaσ2. Sea

X n ( X 1+…+Xn ) /n

la media muestral. Entonces:

Z=Xn−μ

σ /√n

sigue una distribución normal de media 0 y varianza 1.

Sin embargo, dado que la desviación estándar no siempre es conocida de

antemano, Gosset estudió un cociente relacionado,

T=X n μ

Sn/√n

Donde:

S2 ( x )= 1n−1

∑i=1

n

( xi−x)2

Es la varianza muestral y demostró que la función de densidad de T es

Mat 282 Página 38

T ((v+1)/2)√vπT (v /2)

(1+t 2/v )−(v+1)/2

donde ν es igual a n − 1.

La distribución de T se llama ahora la distribución-t de Student. El

parámetro ν representa el número de grados de libertad. La distribución

depende de ν, pero no de μ o σ, lo cual es muy importante en la práctica.

Función de distribución de probabilidad

Distribución F de Fisher.

Usada en teoría de probabilidad y estadística, la distribución F es

una distribución de probabilidad continua. También se la conoce

comodistribución F de Snedecor (por George Snedecor) o como distribución F

de Fisher-Snedecor. Una variable aleatoria de distribución F se construye como

el siguiente cociente:

Mat 282 Página 39

http://es.wikipedia.org/wiki/Archivo:T_distributionCDF.png

F=U 1/d1

U 2/d2

Donde:

U1 y U2 siguen una distribución chi-cuadrado con d1 y d2 grados de

libertad respectivamente, y

U1 y U2 son estadísticamente independientes.

La distribución F aparece frecuentemente como la distribución nula de una

prueba estadística, especialmente en el análisis de varianza. Véase el test F.

La función de densidad de una F(d1, d2) viene dada por

g ( x )= 1

B(

d1

2∗d2

2)

( d1 xd1 x+d2

)d1 /2(1−

d1 xd1 x+d2

)d2 /2

x−1

para todo número real x ≥ 0, donde d1 y d2 son enteros positivos, y B es

la función beta.

La función de distribución es:

G ( x )=I d1 xd1 x+d2

(

d1

2∗d2

2)

Donde I es la función beta incompleta regularizada.

Mat 282 Página 40

Distribución Gama.

Los tiempos que tardan en revisar un motor de un automóvil ó avión tienen una

distribución de frecuencias sesgadas. Las poblaciones asociadas a estas

variables aleatorias frecuentemente tienen distribuciones que se pueden modelar

adecuadamente por la función de densidad tipo gamma.

Función de densidad de probabilidad para una variable aleatoria tipo gamma:

α ,β>0 ;0≤ y≤α

f ( y )= yα−1e− y / β¿βα τ ( α ) ¿

0 ¿¿

En donde:

τ (α )=∫0

αyα−1 e− y dy

La cantidad de la de la función alfa se conoce como la función gamma. La

integración directa nos da que la función uno igual a uno. La integración por

partes nos da que la función de alfa menos uno alfa menos uno por la función

alfa menos uno para cualquier intervalo de alfa mayor o igual a uno y que la

función de n sea igual a n menos uno factorial, para un número entero n.

Mat 282 Página 41

En el caso especial cuando alfa es un número entero, se puede expresar la

función de distribución de una variable aleatoria tipo gamma como una suma de

ciertas variables aleatorias de Poisson.

Si alfa no es un número entero, es imposible encontrar la antiderivada del

integrando de la expresión:

0<c<d<α

donde

∫c

d yα−1 e− y / β

βα τ (α )dy

Y por lo tanto es importante obtener las áreas bajo la función de densidad tipo

gamma mediante integración directa.

Hay dos casos especiales de las variables aleatorias tipo gamma que merece

consideración particular:

Una variable aleatoria tipo gamma que tiene una función de densidad con

parámetros alfa igual a v entre dos y beta igual a dos se denomina variable

aleatoria ji - cuadrada.

Ji - cuadrada se presenta con frecuencia en la teoría de la estadística. El

parámetro v se denomina número de grados de libertad asociado a la variable

aleatoria ji - cuadrada.

La función de densidad gamma para el caso especial v = 1 se denomina función

de densidad exponencial.

β>0 ;0≤ y<∞

Mat 282 Página 42

f ( y )=1β

ealignl ¿− y / β ¿¿¿0 ¿¿

En cualquier punto.

La función de densidad exponencial muchas veces es útil en los modelos de

duración de componentes eléctricos.

Un fusible es un ejemplo de un componente para el cual este supuesto suele

cumplirse.

Grafica 1

En función a los parámetros β ,α

Grafica Nº 2

Mat 282 Página 43

Distribución Beta.

La distribución de probabilidad beta es una función de densidad con dos

parámetros definida en el intervalo cerrado 0 <= y <= 1. Se utiliza

frecuentemente como modelo para fracciones, tal como la proporción de

impurezas en un producto químico o la fracción de tiempo que una maquina está

en reparación.

Función de densidad probabilidad:

α ,β>0 ;0≤ y≤1

f ( y )=¿¿

En cualquier otro punto donde

B(α , β )=∫ yα−1 (1− y )β−1dy=τ ( α )τ ( β )τ (α+β )

Nótese que la definición de (y) sobre el intervalo 0<= y <= 1 restringe su

aplicación. Si c<= y <= d, y = (y- c) / (d- c) definirá una nueva variable en el

intervalo 0<= y <= 1. Así la función de densidad beta se puede aplicar a una

variable aleatoria definida en el intervalo c<= y <= d mediante una traslación y

una medición en la escala.

La función de distribución acumulativa para la variable aleatoria beta se llama

comúnmente función beta y esta dada por

Mat 282 Página 44

F ( y )=∫0

y tα−1(1−t )β−1

B (α , β )dt=I y(α , β )

Para valores enteros de alfa y beta, Iy (alfa, beta) está relacionada con la

función de probabilidad binomial. Cuando y = p, se puede demostrar que

F ( p )=∫ yα−1 (1− y )β−1

B( α , β )dy=∑

y=α

n

p y(1−p )n− y

En donde 0< p < 1 y n igual a alfa más beta menos uno.

Grafica de la Distribucion Beta en funfion a la probabilidad

Distribución Chi Cuadrado.

En estadística, la distribución χ² (de Pearson) es una distribución de

probabilidad continua con un parámetro k que representa losgrados de

libertad de la variable aleatoria:

X=Z12+…+Zk

2

Donde Zson variables de distribución normal, de media cero y varianza uno. El

que la variable aleatoria X tenga esta distribución se representa habitualmente

así: X X k2.

Es conveniente tener en cuenta que la letra griega χ se transcribe

al latín como chi1 y se pronuncia en castellano como ji.2 3

Mat 282 Página 45

http://es.wikipedia.org/wiki/Archivo:Beta_distribution_cdf.png

La distribución χ² tiene muchas aplicaciones en inferencia estadística, por

ejemplo en la denominada prueba χ² utilizada como prueba de independencia y

como prueba de bondad de ajuste y en la estimación de varianzas. También está

involucrada en el problema de estimar la media de una población normalmente

distribuida y en el problema de estimar la pendiente de una recta de regresión

lineal, a través de su papel en la distribución t de Student, y participa en todos

los problemas de análisis de varianza, por su papel en la distribución F de

Snedecor, que es la distribución del cociente de dos variables aleatorias

independientes con distribución χ².

Otra forma de definir la distribución χ² es la siguiente: Supongamos que

tenemos n variables aleatorias normales independientes, X1,..., Xn, con media μi y

varianza α i2(i = 1 ... n), la variable definida como

χ2∑i=1

n

( x i−μi

σ i)

2

=∑i=1

n

Z i2

Grafica de la Distribucion Chi Cuadrado

Cuando son mayores son menos asimétricas.

Mat 282 Página 46

REGRESIÓN Y CORRELACIÓN.

La Regresión y la correlación son dos técnicas estadísticas que se pueden

utilizar para solucionar problemas comunes en los negocios. Muchos estudios se

basan en la creencia de que es posible identificar y cuantificar alguna Relación

Funcional entre dos o más variables, donde una variable depende de la otra

variable. Se puede decir que Y depende de X, en donde Y y X son dos variables

cualquiera en un modelo de Regresión Simple.

"Y es una función de X"

Y = f(X)

Como Y depende de X,

Y es la variable dependiente, y

X es la variable independiente.

En el Modelo de Regresión es muy importante identificar cuál es la variable

dependiente y cuál es la variable independiente.

Mat 282 Página 47

http://www.monografias.com/trabajos/adolmodin/adolmodin.shtml

http://www.monografias.com/trabajos12/guiainf/guiainf.shtml#HIPOTES

http://www.monografias.com/trabajos15/plan-negocio/plan-negocio.shtml

http://www.monografias.com/trabajos15/calidad-serv/calidad-serv.shtml#PLANT

http://www.monografias.com/trabajos15/estadistica/estadistica.shtml

http://www.monografias.com/trabajos6/juti/juti.shtml

REGRESIÓN SIMPLE.

Son cuando se dan dos variables numéricas continuas X e Y, se dice que están

correlacionadas si entre ambas variables hay cierta relación, de modo que

puede predecirse (aproximadamente) el valor de una de ellas conocido el valor

de la otra en este sentido decimos que la correlación es positiva al aumentar una

de las variables aumenta también otra y negativa en caso contrario

Si queremos predecir el valor de Y a partir de X, decimos que X es el regresor, e

Y la variable explicada. Si X e Y no están relacionas en modo alguno se dice que

son incorreladas.

Si X e Y están correlaciones tiene sentido buscar la “formula” que permita

aproximar una de ellas, digamos Y, conocida la otra. Según el tipo de fórmula

que mejor se adapte a los datos, hablamos de correlación lineal(Y=a+bX),

Mat 282 Página 48

REGRESIÓN MÚLTIPLE.

El principio de la regresión multiple, se buscar aislar en una familia de

funciones de varios parámetros, una función f que ''explique'' ypor la relación:

y=f ¿

Como criterio de selección se minimiza sobre todas las funciones de la familia el

error cuadrático definido por:

EQ ( f )=1n∑i=1

n

( yi−f (x i(1 ),…, x i

(k)) )2

En ciertos casos clásicos, sabemos resolver explícitamente este problema de

minimización, y las soluciones están implementadas en los sistemas de cálculo

estadístico. Es el caso de los ejemplos que vamos a dar a continuación. Cuando

una respuesta explícita es imposible, se recurre a algoritmos de minimización,

como el algoritmo del gradiente.

Regresión lineal múltiple.Es la generalización directa de la regresión lineal

simple del párrafo precedente. Las funciones son afines:

f ( x ( 1) ,… ,x (k ) )=a0+a1 x(1)+…+ak x(k)

El error cuadrático a minimizar es una función de los k+1parámetros

desconocidos a0 , a1 ,…,ak :

EQ ( a0 , …, ak )=1n∑i=1

n

¿¿¿

Siempre se puede trazar un hiperplano por puntos en un espacio de dimensión

k+1. Si el tamaño de la población (n) es inferior o igual a k, el error

cuadráticominimal es en consecuencia 0. En la práctica la regresión sólo podrá

ser significativa si es mucho mayor que k.

Mat 282 Página 49

Polinomial.

Es cuando varios caracteres son explicativos se puede aún realizar una

regresión sobre una familia de polinomios en los diferentes caracteres, con

grado fijo. Los términos que hacen intervenir productos del tipox(h) x(h ) serán

interpretados como términos de interacción entre los caracteres explicativos. En

la práctica, uno se limita a polinomios de grado 1o 2. Presentamos para dos

caracteres explicativos x1yx2 , los modelos más frecuentemente utilizados.

Modelo de orden , sin interacción:

y=a0+a1 x(1)+a2 x(2)

Modelo de orden , sin interacción:

y=a0+a1 x(1)+a2 x(2)+a3 ( x(1))2+a4 ( x(2))2

Modelo de orden , con interacción:

y=a0+a1 x(1)+a2 x(2)+a3 x(1) x(2)

Modelo de orden , con interacción:

y=a0+a1 x(1)+a2 x(2)+a3 ( x(1))2+a4 ( x(2))2+a5 x(1)x(2 )

Potencial.

Es aquella en la que la función de ajuste sea una función potencial del tipo:

y = a. xb

También en este caso se resuelve linealizando la función tomando logaritmos ya

que:

log y = log a + b log x

Considerando las nuevas variables v = log y u= log x resolveríamos la regresión

lineal entre ellas de forma que si el resultado fuera: v*= A +B u

La solución final quedaría como a= antilog A y b= B

Mat 282 Página 50

Exponencial.

Es aquella en la que la función de ajuste será una función exponencial del tipo

y = a*bx

La regresión exponencial aunque no es lineal es linealizable tomando logaritmos

ya que haciendo el cambio de variable

v = log y tendremos que la función anterior nos generaría:

v=log y=log(a . bx )=log a+x log b

la solución de nuestro problema vendría de resolver la regresión lineal entre v ý

x, y una vez obtenida supuesta ésta:

v* = A + B x ; obviamente la solución final será:

a = antilog A y b = antilog B.

Logarítmica.

La curva logarítmica es también una recta, pero en lugar de

estar referida a las variables originales e , está referida a y a

Multinomial.

La regresión multinomial analiza datos distribuidos binomial mente de la forma

Y i B ( pi , ni ) , para i=1 , …. , m,

donde los números de ensayos Bernoulli ni son conocidos y las probabilidades de

éxito pi son desconocidas. Un ejemplo de esta distribución es el porcentaje de

semillas (pi) que germinan después de que ni son plantadas.

El modelo es entonces obtenido a base de lo que cada ensayo (valor de i) y el

conjunto de variables explicativas/independientes puedan informar acerca de la

Mat 282 Página 51

http://es.wikipedia.org/wiki/Ensayo_Bernoulli

probabilidad final. Estas variables explicativas pueden pensarse como un

vector Xi k-dimensional y el modelo toma entonces la forma

pi=E (Y i

ni|X i)

Los logits de las probabilidades binomiales desconocidas (i.e., los logaritmos de

los odds) son modeladas como una función lineal de los Xi.

logit ( pi )=ln ( pi

1+ pi)=β0+ β1 x1 ,i+…+βk xk ,i

Note que un elemento particular de Xi puede ser ajustado a 1 para

todo i obteniéndose un intercepto en el modelo. Los parámetros

desconocidos βj son usualmente estimados a través de máxima verosimilitud.

La interpretación de los estimados del parámetro βj es como los efectos aditivos

en el log odds ratio para una unidad de cambio en la jésima variable explicativa.

En el caso de una variable explicativa dicotómica, por ejemplo género, eβ es la

estimación del odds ratio de tener el resultado para, por decir algo, hombres

comparados con mujeres.

El modelo tiene una formulación equivalente dada por

pi=1

1+e−(β0+β 1 x1, i+…+β k xk,i)

Esta forma funcional es comúnmente identificada como un "perceptrón" de una

capa simple orred neuronal artificial de una sola capa. Una red neuronal de una

sola capa calcula una salida continua en lugar de una función por pedazos. La

derivada de pi con respecto a X = x1...xkes calculada de la forma general:

y= 1

1+e−f ( X )

ESTADÍSTICA INFERENCIAL

Mat 282 Página 52

http://es.wikipedia.org/w/index.php?title=Funci%C3%B3n_por_pedazos&action=edit&redlink=1

http://es.wikipedia.org/wiki/Red_neuronal_artificial

http://es.wikipedia.org/wiki/Odds_ratio

http://es.wikipedia.org/wiki/M%C3%A1xima_verosimilitud

http://es.wikipedia.org/w/index.php?title=Y-_intercepto&action=edit&redlink=1

http://es.wikipedia.org/w/index.php?title=Odds&action=edit&redlink=1

Valores Esperados y Momentos.

Valores Esperados

El valor esperado es un concepto fundamental en el estudio de las distribuciones

de probabilidad. Desde hace muchos años este concepto ha sido aplicado

ampliamente en el negocio de seguros y en los últimos veinte años ha sido

aplicado por otros profesionales que casi siempre toman decisiones en

condiciones de incertidumbre.

Para obtener el valor esperado de una variable aleatoria discreta, multiplicamos

cada valor que ésta puede asumir por la probabilidad de ocurrencia de ese valor

y luego sumamos los productos. Es un promedio ponderado de los resultados que

se esperan en el futuro. Sea X una Variable Aleatoria que toma valores en un

conjunto discreto (en un conjunto finito de números en uno infinito como: los

naturales, los enteros o los racionales), por ejemplo si la variable aleatoria X

toma los siguientes valores: X = 0, 1, 2, 3, … decimos que es discreta

La probabilidad de que X tome cada uno de sus valores viene dada por la

función de probabilidad:

P(X = i ), para i = 0, 1, 2, 3, … ;

Sea P(X = i ) = pi para i = 0, 1, 2, 3, … Se tiene que p1 + p2 + p3 +…+ pn +…

= 1

13. Valor Esperado, Varianza y Desviación Estándar de Variables Aleatorias

Se define el Valor Esperado de una Variable Aleatoria con distribución discreta

como: μ = E(X) = x xf (x)

Y para una variable aleatoria con distribución continua como

μ = E(X) = ( ) ¥ −¥ xf x dx

Momento

En estadística el momento de orden k de una variable aleatoriaX es la esperanza

matemáticaE[(X − E[X])k] donde E es el operador de la esperanza. Si una

variable aleatoria no tiene media el momento es indefinido.

Mat 282 Página 53

http://es.wikipedia.org/wiki/Media_aritm%C3%A9tica

http://es.wikipedia.org/wiki/Esperanza_matem%C3%A1tica


http://es.wikipedia.org/wiki/Variable_aleatoria

http://es.wikipedia.org/wiki/Estad%C3%ADstica

Normalmente la letra griega para el momento central es μ. El primer momento

central es cero y el segundo se llama varianza (σ²) donde σ es la desviación

estándar. El tercer y cuarto momentos centrales sirven para definir los

momentos estándar denominados de asimetría y de curtosis.

Distribuciones Continuas Especiales.

1. Función de distribución acumulada (fda)

La función de distribución acumulada (FDA) de una variable aleatoria continua

X, es el modelo teórico de la curva de frecuencias acumuladas que se espera

obtener para X.

La probabilidad de que una variable aleatoria continua X, asuma un valor

menor o igual a xi, se llama FDA y se representa por:

F (x) = P (X " xi)

Para a < b : P (a " x " b) = F (b) - F (a)

F (-") = P (x " -") = 0

F (+") = P (x " +") =1

Distribución acumulada (FDA)

2. Distribución normal estándar

Mat 282 Página 54

http://es.wikipedia.org/wiki/Curtosis

http://es.wikipedia.org/wiki/Coeficiente_de_asimetr%C3%ADa_de_Fisher

http://es.wikipedia.org/wiki/Momento_est%C3%A1ndar

http://es.wikipedia.org/wiki/Desviaci%C3%B3n_est%C3%A1ndar

http://es.wikipedia.org/wiki/Desviaci%C3%B3n_est%C3%A1ndar

http://es.wikipedia.org/wiki/Varianza

Una distribución de una variable aleatoria normal con media, = 0 y varianza,

= 1, se llama distribución normal estándar y es el miembro más importante de la

familia de distribuciones normales.

Esta distribución se obtiene creando una variable aleatoria Z

Cada valor z es el número de desviaciones estándar separado de la media.

Distribución normal Multivariante

En probabilidad y estadística, una distribución normal Multivariante, también

llamada distribución gaussiana Multivariante, es una generalización de la

distribución normal unidimensional a dimensiones superiores.

Caso general

Un vector aleatorioX=[ X1 , … Xn ]Tsigue una distribución normal multivariante si

satisface las siguientes condiciones equivalentes:

Toda combinación linealY=a1 X1+…+an Xn está normalmente distribuida.

Hay un vector aleatorioZ=[Z1 ,…Zn ]T , cuyas componentes son

independientes son variables aleatorias distribuidas según la normal

estándar, un vector μ= [μ1, … μn ]Ty una matrizn × MA tal que

Mat 282 Página 55

http://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal

http://es.wikipedia.org/w/index.php?title=Vector_aleatorio&action=edit&redlink=1



http://es.wikipedia.org/wiki/Probabilidad

X=AZ+μ.

Hay un vector μ y una matriz semidefinida positiva simétrica tal que la

función característica de X es

ϕx (u ;μ ,∑❑)exp (i μT 12

uT∑ u)

Si es una matriz no singular, entonces la distribución puede describirse por la

siguiente función de densidad:

fx ( x1 ,…, xn)= 1

(2 π )n /2|∑|1/2exp(−1

2( x−μ )T ∑−1(x−μ))

donde|∑|es el determinante de ∑. Nótese como la ecuación de arriba se reduce a

la distribución normal si ∑es un escalar (es decir, una matriz 1x1).

El vector μ en estas circunstancias es la esperanza de X y la matriz ∑❑=A ATes

la matriz de covarianza de las componentes Xi.

Es importante comprender que la matriz de covarianza debe ser singular

(aunque no esté así descrita por la fórmula de arriba, para la cual ∑−11 está

definida).

Este caso aparece con frecuencia en estadística; por ejemplo, en la distribución

del vector de residuos en problemas ordinarios de regresión lineal. Nótese

también que los Xi son en general no independientes; pueden verse como el

resultado de aplicar la transformación lineal Aa una colección de variables

normales Z.

Esta distribución de un vector aleatorio X que sigue una distribución normal

multivariante puede ser descrita con la siguiente notación:

X N (μ , ∑)

o hacer explícito que X es n-dimensional,

Mat 282 Página 56

http://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal

http://es.wikipedia.org/w/index.php?title=Errores_y_residuos_en_estad%C3%ADstica&action=edit&redlink=1


http://es.wikipedia.org/wiki/Matriz_de_covarianza


http://es.wikipedia.org/wiki/Escalar

http://es.wikipedia.org/wiki/Determinante

http://es.wikipedia.org/wiki/Funci%C3%B3n_de_densidad

http://es.wikipedia.org/wiki/Matriz_no_singular

http://es.wikipedia.org/wiki/Funci%C3%B3n_caracter%C3%ADstica

X Nn(μ ,∑)

Inferencia Estadística.

La inferencia estadística o estadística inferencial es una parte de la Estadística

que comprende los métodos y procedimientos para deducir propiedades

(hacerinferencias) de una población, a partir de una pequeña parte de la misma

(muestra).

La Teoría de muestras.

La estimación de parámetros.

El Contraste de hipótesis.

El Diseño experimental.

La Inferencia bayesiana.

Los métodos no paramétricos

Planteamiento del problema

Suele iniciarse con una fijación de objetivos o algunas preguntas como ¿cuál

será la media de esta población respecto a tal característica?, ¿se parecen estas

dos poblaciones?, ¿hay alguna relación entre..?

En el planteamiento se definen con precisión la población, la característica a

estudiar, las variables, etcétera.

Se analizan también en este punto los medios de los que se dispone y el

procedimiento.la población y características de estudio.

Prueba Estadística de una Hipótesis.

El problema del contraste de hipótesis consiste básicamente en comprobar

cotejar, decidir, en definitiva, sobre la veracidad de una hipótesis prefijada

previamente como supuestamente cierta. En términos estadísticos, la o las

Mat 282 Página 57

http://es.wikipedia.org/wiki/Variable_estad%C3%ADstica

http://es.wikipedia.org/wiki/Estad%C3%ADstica_no_param%C3%A9trica

http://es.wikipedia.org/wiki/Inferencia_bayesiana

http://es.wikipedia.org/wiki/Dise%C3%B1o_experimental

http://es.wikipedia.org/wiki/Contraste_de_hip%C3%B3tesis

http://es.wikipedia.org/wiki/Estimaci%C3%B3n_estad%C3%ADstica

http://es.wikipedia.org/wiki/Muestreo_en_estad%C3%ADstica

http://es.wikipedia.org/wiki/Muestra_estad%C3%ADstica

http://es.wikipedia.org/wiki/Poblaci%C3%B3n_estad%C3%ADstica


hipótesis que formulamos lo serán lógicamente sobre la población. Bien

afectando a algún parámetro de ésta, lo que da origen a los contrastes

paramétricos o bien a otras características de la mismas que no lo sean

estrictamente, lo que origina contrates "no" paramétricos.

La solución estadística del problema de contrastación se basará en los datos

muéstrales y la base estadística (probabilística) de la que arrancará el contraste,

de algún estadístico muestral.

Pasemos a definir los principales conceptos implicados en nuestro problema:

Región crítica: Será aquella región del campo de variación del estadístico tal

que si contiene al valor evaluado del mismo con los datos muéstrales nos llevará

a rechazar la hipótesis. La designaremos por R1

Región de aceptación: Es la región complementaria de la anterior. Si el valor

evaluado del estadístico pertenece a ella No rechazamos la hipótesis (las

hipótesis nunca se aceptan de forma definitiva, sólo se aceptan

provisionalmente, es decir, no se rechazan, a la espera de una nueva

información que eventualmente pueda llevarnos a rechazarla en el futuro). La

designaremos por R0. Evidentemente los conjuntos de puntos que forman ambas

regiones son disjuntos.

Una hipótesis estadística (paramétrica): Es una conjetura sobre el valor

concreto que tiene en realidad. El establecer una hipótesis sobre un parámetro

H0, supone dividir los posibles valores del parámetro en dos grupos disjuntos

tales que unos son hipotéticamente ciertos (H0) y los otros (H1) no lo son. A la

hipótesis que se desea contrastar se la denomina "hipótesis nula", siendo, por

tanto, el valor o valores H0 que hipotéticamente consideramos reales, dicha

hipótesis viene expresada como H0. Alternativamente y consecuentemente se

establece la denominada "hipótesis alternativa" (H1) compuesta ésta por el valor

o valores 1 que en consecuencia de la elección y de la complementariedad de

Mat 282 Página 58

los de la hipótesis nula, son los que, en principio, no consideramos cómo

hipotéticamente reales.

El hecho de que las hipótesis, tanto la nula cómo la alternativa puedan recoger

en sus planteamientos uno o varios valores, da lugar a hipótesis de carácter

simple, si el número de valores plausibles e hipotéticos es de uno en ambas, o

bien a hipótesis compuestas si dicho valor no es único en alguna de ellas.

Teniendo en cuenta lo dicho anteriormente, el problema de rechazar o aceptar

una hipótesis puede plantearse como un problema de decisión, en el que

evidentemente existe la posibilidad de fracasar o acertar en la elección o

decisión a la hora de concluir que la hipótesis, bien nula o bien alternativa, son

rechazables o no.

El problema de decisión: rechazo/no rechazo, vendría expresado en las

siguientes opciones en forma de tabla:

Hipótesis/Acción No Rechazamos Rechazamos

Es cierta Correcto Error Tipo I

Es falsa Error Tipo II Correcto

Si la hipótesis nula (H0) es cierta y nuestra decisión es no rechazarla, la

decisión ha sido correcta.

Si la hipótesis nula (H0) es cierta y nuestra decisión es rechazarla, la

decisión provoca un error. Dicho error se denomina error tipo I.

Si la hipótesis nula (H0) es falsa y nuestra decisión es no rechazarla, la

decisión provoca un error. Dicho error se denomina error tipo II.

Mat 282 Página 59

Si la hipótesis nula (H0) es falsa y nuestra decisión es rechazarla, la

decisión ha sido correcta.

Procedimiento para una prueba de hipótesis

Los pasos a seguir son:

1. Formular la hipótesis nula H0 y la alternativa H1, de acuerdo al

problema.

2. Escoger un nivel de significación o riesgos .

3. Elegir la estadística de prueba apropiada, cuya distribución por muestreo

sea conocida en el supuesto de que Ho es cierta.

4. En base a H0 y H1, determinar el valor (o los valores) críticos y con ello se

establecen las regiones de aceptación o rechazo.

5. Calcular los valores de la prueba estadística a partir de una muestra

aleatoria de tamaño n, Ho y reemplazarlos en la estadística de prueba

elegida en el paso 3, para hallar el valor experimental.

6. Tomar la decisión de aceptar Ho si el valor experimental cae en la región

de aceptación y rechazarla si dicho valor cae en la región crítica o de

rechazo.

7. Opcional: Si se rechaza H0, se puede hallar un intervalo de confianza

para el parámetro de interés.

Así: conocemos quex→ N [u ,σ

√n ] de lo que deducimos quex−u

σ

√n

=N [ 0,1 ] de

forma que la hipótesis nula es H0

De modo que la forma estadística seria:

Z=x−u0

σ√n

:.

Distribución de la Varianza

Mat 282 Página 60

La distribución de la varianza de una distribución se representa mediante σ 2y se

define por

σ 2={ ∑ ( x i−μ )2f ( xi ), Si x esdiscreta

∫ (x−μ )2 f (x ) dx ,Si x es continua

]

donde f(X) representa a la función de probabilidad y a la función densidad de

probabilidad, respectivamente, de la variable aleatoria.

Claramenteσ 2≥0 porque ( x−μ )2 ≥ 0 , para todo X, yf ( x ) ≥ 0 , para todo X.

En palabras, la varianza es una medida de dispersión o variabilidad que no tiene

interpretación física ya que está en unidades cuadradas.

Si en las fórmulas anteriores desarrollamos el cuadrado del binomio y aplicamos

propiedades de las sumatorias (integrales) se llega a una expresión más

conveniente para realizar los cálculos

σ 2={ ∑ x i2 f ( x i)

−μ2 , Si xes discreta

∫ X2 f ( X ) dX−μ2, Si X es continua

Análisis de la Varianza e Intervalos de Confianza.

1. Analisis de la varianza

El análisis de varianza es una prueba que nos permite medir la variación de las

respuestas numéricas como valores de evaluación de diferentes variables

nominales.

La prueba a realizar es de sí existe diferencia en los promedios para la los

diferentes valores de las variables nominales; esta prueba se realiza para

variables donde una tiene valores nominales y la otra tiene valores numéricos.

En el siguiente ejemplo, se tiene la calificación de una prueba a personas con

diferentes grados de escolaridad, lo que se intenta es probar si existe o no

diferencia entre el grado escolar (variable nominal ) y el promedio de la

calificación ( variable numérica ).

Mat 282 Página 61

Para analizar si existe diferencia en los promedios se procede a realizar una

prueba F que se explica posteriormente.

2. Intervalo de confianza

En estadística, se llama intervalo de confianza a un par de números entre los

cuales se estima que estará cierto valor desconocido con una determinada

probabilidad de acierto. Formalmente, estos números determinan un intervalo,

que se calcula a partir de datos de una muestra, y el valor desconocido es un

parámetro poblacional. La probabilidad de éxito en la estimación se representa

con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el

llamado error aleatorio o nivel de significación, esto es, una medida de las

posibilidades de fallar en la estimación mediante tal intervalo

El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma

que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de

confianza), mientras que para un intervalo más pequeño, que ofrece una

estimación más precisa, aumentan sus posibilidades de error.

Para la construcción de un determinado intervalo de confianza es necesario

conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual

que el parámetro presente una distribución normal. También pueden construirse

intervalos de confianza con la desigualdad de Chebyshov.

En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de

un parámetro poblacional θ que sigue una determinada distribución de

probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α,

donde P es la función de distribución de probabilidad de θ.

Intervalo de confianza para la media de una población

De una población de media μ y desviación típica σ se pueden tomar muestras de

n elementos. Cada una de estas muestras tiene a su vez una media ( ). Se puede

Mat 282 Página 62

http://es.wikipedia.org/wiki/Muestreo_estad%C3%ADstico

http://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica

http://es.wikipedia.org/wiki/Media_aritm%C3%A9tica

http://es.wikipedia.org/wiki/Poblaci%C3%B3n_estad%C3%ADstica

http://es.wikipedia.org/wiki/Funci%C3%B3n_de_distribuci%C3%B3n

http://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_probabilidad


http://es.wikipedia.org/wiki/Desigualdad_de_Chebyshov



http://es.wikipedia.org/wiki/Error_aleatorio

http://es.wikipedia.org/wiki/Par%C3%A1metro_poblacional

http://es.wikipedia.org/wiki/Muestra_aleatoria

http://es.wikipedia.org/wiki/Intervalo_(matem%C3%A1tica)


demostrar que la media de todas las medias muestrales coincide con la media

poblacional:[2]

Pero además, si el tamaño de las muestras es lo suficientemente grande,[3] la

distribución de medias muestrales es, prácticamente, una distribución normal (o

gaussiana) con media μ y una desviación típica dada por la siguiente expresión:

σ xσ

√n

. Esto se representa como

X N (μ ,σ

√n ):Si estandarizamos:

X−μσ

√n

=Z N (0,1)

En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro

del cual caigan un determinado porcentaje de las observaciones.

Aplicaciones de chi - cuadrado

La distribución χ² tiene muchas aplicaciones en inferencia estadística. La más

conocida es la de la denominada prueba χ² utilizada como prueba de

independencia y como prueba de bondad de ajuste y en la estimación de

varianzas. Pero también está involucrada en el problema de estimar la media de

una población normalmente distribuida y en el problema de estimar la pendiente

de una recta de regresión lineal, a través de su papel en la distribución t de

Student.

Aparece también en todos los problemas de análisis de varianza por su relación

con la distribución F de Snedecor, que es la distribución del cociente de dos

variables aleatorias independientes con distribución χ².

Mat 282 Página 63

http://es.wikipedia.org/wiki/Distribuci%C3%B3n_F

http://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Student

http://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Student

http://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal

http://es.wikipedia.org/wiki/Prueba_%CF%87%C2%B2

http://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal#Estandarizaci.C3.B3n_de_variables_aleatorias_normales

http://es.wikipedia.org/wiki/Gauss


http://es.wikipedia.org/wiki/Intervalo_de_confianza#cite_note-2

http://es.wikipedia.org/wiki/Intervalo_de_confianza#cite_note-1

Regresión y Correlación Multivariante.

Con la Regresión Lineal Simple analizamos si puede admitirse o no una relación

de tipo lineal entre la variable independiente X y la dependiente Y . No

obstante, lo habitual es que la variable dependiente trate de expresarse en

función de varias variables independientes X1 , X2 , ... , Xk también de forma

lineal

Y = a + b1 X1+ b2 X2+ ... + bkXk

El propósito ahora de Regresión Lineal Múltiple sigue siendo, por un lado,

determinar cuáles de las covariables independientes X1 , X2 , ... , Xk son

significativas a la hora de explicar a la variable dependiente y, luego, estimar

los parámetros b1 , b2 , ...,bk

Con la Correlación Multivariante estudiaremos el grado o fuerza de esa

relación; primero, con la Correlación Múltiple el grado de la relación existente

entre la variable dependiente y las covariables independientes y, luego, con la

Correlación Parcial, la fuerza de la relación existente entre dos variables

determinadas, una vez eliminada la influencia de las demás.

Ambos análisis están basados, fundamentalmente, en tests de hipótesis en los que

la suposición de normalidad de las variables en estudio, es fundamental, por lo

que, en caso de que no pueda admitirse dicha suposición, la utilización de

Métodos Robustos, se hace imprescindible.

Distribuciones No Paramétricas.

Mat 282 Página 64

Se denominan pruebas no paramétricas aquellas que no presuponen una

distribución de probabilidad para los datos, por ello se conocen también como

de distribución libre.

En la mayor parte de ellas los resultados estadísticos se derivan únicamente a

partir de procedimientos de ordenación y recuento, por lo que su base lógica es

de fácil comprensión.

Cuando trabajamos con muestras pequeñas (n < 10) en las que se desconoce si

es válido suponer la normalidad de los datos, conviene utilizar pruebas no para

métricas.

El parámetro de centralización es la mediana, que es aquel punto para el que el

valor de X está el 50% de las veces por debajo y el 50% por encima.

Mat 282 Página 65

estadistica y probabilidad

Documents