modulo 100403 vol 1 jeammy sierra
TRANSCRIPT
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERÍA
UNIDAD DE CIENCIAS BÁSICAS
Actualización
JEAMMY JULIETH SIERRA HERNÁNDEZ
(Director Nacional de Curso)
100403 – INFERENCIA ESTADÍSTICA
Vol. 1
Autor Primera Edición JORGE RONDON
DANIS BRITO
Evaluador
EMERSON CHAPARRO
IBAGUÉ
JUNIO 2012
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
2
COMITE DIRECTIVO
Jaime Alberto Leal Afanador
Rector
Constanza Abadía García
Vicerrectora Académica y de Investigación
Gloria Herrera
Vicerrector de Medios y mediaciones Pedagógicos
Maribel Córdoba Guerrero
Secretaria General
Inferencia Estadística
Tercera Versión
Copyright
Universidad Nacional Abierta y a Distancia
ISBN
2012
Unidad de Ciencias Básicas UNAD
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
3
CAMPOS DE
FORMACIÓN
Básica CRÉDITOS: 2 TRABAJO INDEPENDIENTE: 72
Horas TIPO DE CURSO Teórico CÓDIGO:100403 ACOMPAÑAMIENTO TUTORIAL: 24
Horas
OBJETIVO GENERAL:
Que el estudiante comprenda, aplique y desarrolle la teoría y las técnicas de la
inferencia estadística en diversos campos de su saber formativo, y que dicha
aplicación se convierta en una herramienta de uso matemático para la toma de
decisiones sobre hipótesis cuantitativas de datos, basado en la información
extraída de una muestra.
OBJETIVOS ESPECÍFICOS:
Que el estudiante identifique las técnicas y procedimientos que se
deben emplear para que las muestras sean representativas de la población
que se pretende estudiar, de forma que los errores en la determinación de
los parámetros de la población objeto de estudio sean mínimos.
Que el estudiante comprenda el comportamiento de una población a
partir del análisis metódico de una muestra aleatoria de la misma, y que
entienda que la inferencia inductiva de los parámetros estadísticos que
estime sobre dicha muestra, conlleva un error, el cual es posible de ser
cuantificado.
Conocer los criterios técnicos que hay que tener en cuenta antes
de seleccionar un tamaño de muestra.
Identificar el tipo de muestreo de acuerdo a los objetivos del estudio.
Diferenciar y analizar las ventajas y desventajas de la estimación
por intervalos de confianza y las pruebas de hipótesis.
Determinar la prueba o técnica apropiada a aplicar en las diferentes
pruebas de hipótesis paramétricas y No paramétricas.
COMPETENCIA GENERAL DE APRENDIZAJE:
Identificar un procedimiento adecuado para seleccionar de una población una
parte de ella, con el fin de obtener resultados confiables y poder generalizar los
resultados obtenidos a toda la población.
Determinar los estadísticos necesarios para el análisis y solución de situaciones
que implican conjuntos de datos de su disciplina de formación, por medio del
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
4
conocimiento de la teoría elemental del muestreo y de las distribuciones
muestrales.
Plantear y desarrollar el proceso de la inferencia estadística para resolver
problemas concretos de investigación en el ámbito de otras disciplinas.
Aplicar apropiadamente los resultados teóricos y metodológicos de la inferencia
estadística de estimación y prueba de hipótesis en el marco de la modelación.
Habilidad para planear una investigación, diseño de instrumentos, definición de
variables, recolección de la información, resumen y presentación de los datos.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
5
UNIDADES DIDÁCTICAS
INTRODUCCIÓN ................................................................................................................................... 6
UNIDAD UNO: ...................................................................................................................................... 7
MUESTREO, DISTRIBUCIÓN MUESTRAL E INTERVALOS DE CONFIANZA ............................................. 7
CAPITULO UNO: PRINCIPIOS DE MUESTREO ................................................................................... 8
Lección No 1: Conceptos Básicos .............................................................................................. 10
Lección No 2: Tipos de muestreo y selección de muestra ........................................................ 15
Lección No 3: Tipos de Selección de Muestras ......................................................................... 30
Lección No 4: Métodos de Inferencias, Paramétrico y No Paramétrico ................................... 31
Lección No 5: Estimadores y propiedades de los estimadores ................................................. 34
................................................................................................................................................... 36
CAPITULO DOS: DISTRIBUCIONES MUESTRALES ........................................................................... 37
Lección No 6: Distribuciones Muestrales .................................................................................. 38
Lección No 7: Distribución Muestral de la Media y de la Proporción ....................................... 40
Lección No 8: Distribución Muestral de la proporción.............................................................. 58
Lección No 9: Distribución Muestral de Diferencias de Medias y de la Proporciones .............. 63
Lección No 10: Tamaño de la muestra para estimar la media, la proporción y el total de la
Población ................................................................................................................................... 67
CAPITULO TRES: INTERVALOS DE CONFIANZA .............................................................................. 74
Lección No 11: Nociones Fundamentales. ................................................................................ 75
Lección 12. Intervalos de confianza para medias y diferencias de medias con muestras
pequeñas 30n ..................................................................................................................... 80
Lección 13. Intervalos de confianza para la media y diferencias de medias muestras grandes
30n ...................................................................................................................................... 99
Lección 14. Intervalos de confianza para la proporción y diferencias de proporciones (siempre
son muestras grandes) 30n .............................................................................................. 103
Lección 15. Intervalos de confianza para la varianza poblacional. ......................................... 105
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
6
INTRODUCCIÓN
El presente modulo está dirigido a estudiantes de programas de pregrado que
oferta la UNAD, bajo la modalidad de educación superior a distancia.
El material está estructurado en dos unidades que son las temáticas macro del
curso académico.
El contenido de cada una de las partes fue seleccionado, teniendo en cuenta los
saberes mínimos que se esperaría debe alcanzar un estudiante de la
Universidad Nacional Abierta y a Distancia en el campo de la Inferencia
estadística.
La propuesta permite que los estudiantes reconozcan los conocimientos
mínimos del curso en mención, que le permita resolver situaciones propias del
mismo y además, abordar posteriores temáticas que requieran de éstos
conocimientos.
Para el mejor aprovechamiento de este material, se recomienda que el estudiante
posea como conocimientos previos: de estadística descriptiva y de la teoría de
probabilidad.
El modulo se caracteriza porque en cada lección se presentan ejemplos
modelos del tema en estudio, al final de cada capítulo se exponen ejercicios con
respuesta, que permite a los estudiantes contextualizarse en diversas áreas del
conocimiento, con el fin de fortalecer las temáticas propias del curso.
Al final de cada unidad se presenta una Autoevaluación de un nivel medio-alto, las
cuales permiten verificar los alcances de los estudiantes en las temáticas
analizadas y detectar las debilidades y así centrarse en éstas, con el fin de
alcanzar las metas propuestas.
Finalmente, el Material pretende servir como guía de aprendizaje autónomo, se
recomienda apoyar este proceso por medio de lecturas especializadas, ayudas
audiovisuales, visitas a sitios Web y prácticas de laboratorio; entre otros, así
lograr una efectiva comprensión, y aplicación de las temáticas estudiadas.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
7
UNIDAD UNO:
MUESTREO, DISTRIBUCIÓN MUESTRAL E INTERVALOS DE CONFIANZA
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
8
CAPITULO UNO: PRINCIPIOS DE MUESTREO
Introducción
En los estudios de investigación lo primero que se define es el fenómeno a
analizar, luego la población objeto de estudio, la cual puede ser finita cuando
se conocen todos los elementos, o infinita cuando no se conocen todos
los elementos de la misma. Desde estos puntos de vista analizar la población
no es práctico, por tiempo y costos, lo que induce a seleccionar una
muestra, cuya importancia radica en el proceso de consecución de
datos que proporcionan la información suficiente y necesaria a cerca de
la población, además que con la muestra se están utilizando menos recursos,
debido a que sólo una parte de la población se encuentra bajo observación,
lo que resulta significativamente beneficioso sobre todo cuando se trata
de poblaciones grandes y dispersa.
Otro aspecto que justifica la decisión de tomar una muestra es en casos donde
se debe destruir los elementos de ésta, por ejemplo cuando se desea
identificar el grado de vacío de un producto enlatado, la resistencia de un
material y otros.
En las encuestas de opinión sobre la preferencia de un producto se nota más
claramente la utilidad de una muestra en contraste con la población,
para conocer las preferencias de los consumidores y poder acomodar
rápidamente el sistema de producción a dichos cambios.
En desarrollo del presente modulo, se utiliza la coma para indicar la parte decimal
de un número.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
9
Objetivo general
Que los estudiantes identifiquen los principios sobre población y
muestra, métodos de muestreo, distribución de muestreo para medias,
el teorema central del límite, aplicados al cálculo de tamaños de muestras
pertinentes.
Objetivos específicos
Comprender los conceptos de población y muestra.
Identificar los diferentes diseños de muestreo y su utilidad en
diferentes campos del saber.
Conceptuar una distribución muestra y calcular las estimaciones
requeridas, la varianza y el error de estimación para los mismos.
Conocer y comprender los elementos del teorema central de
límite y su utilidad.
Determinar un tamaño de muestra representativo tanto para medias
como para proporciones.
Realizar aplicaciones en Excel y SPSS.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
10
Lección No 1: Conceptos Básicos
Dentro de la inferencia estadística, el proceso de muestreo permite que a
partir de los resultados obtenidos al analizar una muestra, se pueda obtener
conclusiones en cuanto a una o varias de las características o parámetros de una
población. Esta área de la Estadística, ayuda a determinar la confiabilidad de la
inferencia de que los fenómenos observados en la muestra ocurrirán también
en la población de donde se selecciona la muestra. Es decir, sirve para
estimar la eficacia del razonamiento inductivo con el cual se infiere que lo
observado en una parte ser equivalente a lo observado en la población.
Las técnicas de muestreo son importantes en la medida que se utilice en
forma adecuada para la situación que se requiera. De las técnicas más
conocidas y utilizadas se tienen el Muestro Aleatorio Simple (M.A.S), Muestreo
Aleatorio Estratificado (M.A.E), Muestro Sistemático (M.S) y Muestreo por
Conglomerados (M.C). Se tratará de analizar estas técnicas, especialmente el
M.A.S y M.A.E.
El Éxito en el desarrollo del curso en mención está en los buenos
conocimientos previos en Estadística Descriptiva, Probabilidad y, algebra,
Trigonometría y Geometría analítica. Lo anterior debido a que se debe predecir
resultados o tomar decisiones que tienen un grado de incertidumbre o un
grado de error que se debe definir de antemano.
1.1. Población Y Muestra
Existe una serie de términos estadísticos básicos, que son muy utilizados y se
requiere sean comprendidos para avanzar en otros temas o unidades, en
esta sección se tratarán los conceptos de población y muestra.
Población ó Universo: Se considera a todo aquello sobre el que se
desea hacer un estudio estadístico. Según el número de unidades,
elementos o casos que la constituyen, la población puede ser finita o infinita.
Población Finita: Es aquella conformada por un determinado o limitado número
de elementos.
Población Infinita: Es aquella conformada por un determinado o limitado
número de elementos.
Cuando el número de unidades que integra una población es muy grande, se
puede considerar a ésta como una población infinita. El investigador define la
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
11
población objeto de estudio en términos de espacio y tiempo, ya que de esta
manera los resultados serán sobre la población definida en el espacio
demarcado y en el tiempo definido.
Ejemplo
Estudiantes del Programa de Ingeniería de Sistemas
Estudiantes del programa de Ingeniería de sistemas de la UNAD
Estudiantes del programa de Ingeniería de sistemas en la UNAD de los
años
2.010, 2.011 y 2.012
Muestra: Se considera una muestra al subconjunto representativo de la
población, que ha sido seleccionada de manera técnica mediante un
procedimiento denominado diseño de muestreo, para garantizar que dicha
muestra es representativa de la población, es decir, que las unidades
seleccionadas en la muestra mediante un proceso aleatorio, hayan tenido
igual probabilidad de haber sido seleccionadas para el análisis.
Figura 1. Población y muestra
Muestra representativa: Subconjunto de sujetos que pertenecen a una
población determinada. Debería tener las mismas características generales que
la población. En caso contrario, tenemos una muestra sesgada. (M. J. Navas,
2001, p. 19). Ir al referente. Los dos principios que determinan la
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
12
representatividad de una muestra son, la forma de selección, que debe ser
aleatoria y el otro corresponde al tamaño de la muestra.
Parámetros: Según Moore, D. (2000) es un número que describe alguna
característica de la población. En la práctica estadística el valor del parámetro no
es conocido ya que en muchos casos no podemos examinar toda la población.
Pudiendo ser por ejemplo el porcentaje de personas con VIH en Colombia, aquí
el parámetro es la “Proporción” de personas en la población (Colombia) que
tienen dicho virus.
Es conveniente el uso de un símbolo general para designar el parámetro de
interés, entonces éste será:
Entre los parámetros más importantes tenemos:
= Tamaño total de la población
= Promedio Poblacional
= Varianza Poblacional = Desviación estándar Poblacional
= Total Poblacional
=Proporción poblacional
Estadístico: Es un número que se puede calcular a partir de los datos de la
muestra. Moore, D. (pág. 270). Entonces un estadístico mide características,
pero en una parte de la población, es decir, en una muestra; por ejemplo el
porcentaje de personas en Bogotá con VIH; aquí se evidencia que la muestra es
la capital en donde se está analizando una característica, lo que permite sacar
conclusiones de todo el país, por lo cual se dice que la inferencia suministra
conclusiones de la población sirviéndose de los resultados encontrados en las
muestras.
El objetivo fundamental del muestreo es Estimar los parámetros de la
población a partir de algunos elementos cuyas mediciones son los Estadísticos
Los estadísticos más utilizados por su importancia son:
n =Tamaño de la muestra
=Promedio de muestra
S2 =Varianza Muestra
S =Desviación estándar Muestra
=Total Estimado
p =Proporción Muestra
Cuando los dos nuevos términos de arriba son usados, por ejemplo, el proceso
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
13
de estimación en inferencia estadística puede ser descrito como el proceso de
estimar un parámetro a partir del estadístico correspondiente, tal como usar una
media muestra (un estadístico) para estimar la media de la población (un
parámetro).
Error de muestreo (error muestral): En estadística se sabe que existen
diferencias entre lo que se obtuvo en el estudio y lo que se esperaba. En el
proceso de estimación es poco probable que la media Muestra sea idéntica a la
media poblacional, igual para la varianza y la desviación estándar. El error de
muestreo es la diferencia entre el estadístico y el parámetro, es decir diferencia
entre lo encontrado en la muestra con lo esperado en la población.
| | es el Parámetro y es el estadístico.
Recuerde que | | es el símbolo de valor absoluto
A medida que el tamaño de la muestra aumenta el error de muestreo disminuye,
es decir, son inversamente proporcionales.
Error tolerable: Se considera el error tolerable al error máximo que se
está dispuesto a aceptar y aún considerar que el muestreo ha alcanzado
su objetivo. En todo estudio estadístico siempre se considera un error tolerable,
partiendo del principio que a menor error tolerable, mayor será el tamaño de
la muestra. Si es el parámetro y es el estadístico, el error tolerable está
determinado por B, donde:
| |
Error estándar: La desviación estándar de una distribución, en el
muestreo de un estadístico, es frecuentemente llamada el error estándar del
estadístico. Por ejemplo, la desviación estándar de las Medias de todas las
muestras posibles del mismo tamaño, extraídas de una población, es llamada el
error estándar de la media. De la misma manera, la desviación estándar de las
proporciones de todas las muestras posibles del mismo tamaño, extraídas de una
población, es llamada el error estándar de la proporción. La diferencia entre los
términos desviación estándar y error de estándar es que la primera se refiere
a los valores originales, mientras que la segunda está relacionada con valores
calculados.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
14
1.2. Razones para seleccionar una muestra
Entre los motivos que inducen a tomar una muestra aleatoria están:
Naturaleza Destructiva: Existen casos donde se requiere destruir los
elementos de la muestra para medir la característica, como es el caso de
medir la resistencia de un material, el vacío de un producto enlatado, otros. No
es lógico pensar en destruir todos los elementos de la población, de allí que se
tome una muestra.
Imposibilidad Física de Medir Todos los Elementos de la Población:
Se sabe que existen poblaciones muy grandes, consideradas infinitas y es
casi imposible conocer todos los elementos de la misma.
Costos: Estudiar todos los elementos de la población es muy costoso, tanto en
tiempo como en dinero, por lo que es más rentable hacer un estudio Muestra.
Confiabilidad del Estudio Muestra: Esta demostrado con soporte matemático
que una muestra representativa arroja resultados que permiten inferir sobre la
población con una confiabilidad muy alta.
Unidad de observación: Son los elementos que se miden; es decir, sobre los
que se toman los datos de las variables a medir. En el caso de los hogares, la
unidad de observación serán las personas y en el caso de las llantas del
automóvil, cada una serán las unidades de observación.
Marco de muestreo: Se considera el referente para identificar las unidades de
observación, éste NO incluye todos los elementos de la población. Ejemplos de
marcos de muestreo tenemos el directorio telefónico de una ciudad, como
potenciales votantes, el registro de ventas de los últimos 5 años en
una compañía comercializadora y muchos otros.
1.3. Etapas en la Selección de La Muestra
En todo estudio de muestreo se debe definir las etapas que permiten su
desarrollo.
a) Definición de objeto de Estudio: Comprende la identificación del problema y
el establecimiento de las metas que busca el estudio.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
15
b) Marco de Muestreo: Establecimiento de una metodología para identificar los
elementos que estarán en el muestreo, sus características y el modelo que
los identifica.
c) Identificación de Variables: Es pertinente identificar las variables de
estudio, para así definir la forma de medición que se haría.
d) Tamaño de la Muestra: Por medio del modelo de muestreo pertinente
seleccionar la muestra representativa, sobre la que se realizarán las
mediciones.
e) Unidad de Muestreo: Se debe extraer las unidades de muestreo según el
modelo definido que determinan las n unidades maestrales de la población N.
f) Trabajo de Campo: Son todas las acciones necesarias para obtener la
información, definiendo los costos, desplazamientos, herramientas física y
logísticas para su realización.
g) Análisis de Información: La información obtenida, requiere de un proceso
estadístico, el cual puede ser descriptivo o inferencia, para el curso que
nos ocupa se deben hacer los dos.
h) Resultados: Con el proceso desarrollado sobre los datos obtenidos, se
procede a la emisión de los resultados y la confrontación con las metas
propuestas para verificar el grado de eficiencia del trabajo realizado. Es
pertinente saber presentar los resultados, ya que un buen trabajo que no se
presente de la mejor manera, quedaría oscuro en su información.
Lección No 2: Tipos de muestreo y selección de muestra
Tipos de Muestreo
Con los conceptos previos que se han analizado, ahora corresponde
estudiar las clases de muestreo. Los dos grandes grupos están enmarcados en
las siguientes clases:
Muestreo probabilístico
Muestreo No probabilístico
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
16
2.1. Muestreo No Probabilístico
Son aquellos muestreos donde los elementos de la muestra se toman al azar,
siendo imposible determinar el grado de representatividad de la muestra. Para
el caso de una población homogénea, la representatividad de tal muestra puede
considerarse satisfactoria.
Por otra parte, en problemas comerciales diarios y en la toma de decisiones
que a falta de tiempo no permiten disecar métodos de muestreo probabilístico
hay que recurrir a este tipo de muestreo, donde el investigador conoce la
población.
Dentro del muestreo no probabilístico se conoce varios
tipos:
Muestreo por conveniencia.
Muestreo por juicio
Muestreo Causa / Efecto
Muestreo por Cuotas
Muestreo de Poblaciones Móviles
2.1.1. Muestreo por conveniencia
La muestra se determina por conveniencia, incorporando elementos en la muestral
sin probabilidades especificadas o conocida de selección. Por ejemplo un
profesor que se encuentra investigando una causa universitaria, puede usar
alumnos voluntarios para formar la muestra, tan solo porque dispone fácilmente
de ellos y participan como elementos a un costo pequeño o nulo. Tiene la
ventaja de ser de fácil selección y recolección de sus datos. Tiene la
desventaja de no poderse evaluar en su bondad de la muestra en
función de la representatividad de la población, motivo por el cual se hace
imposible inferir a cerca de la población correspondiente.
2.1.2. Muestreo por juicio
En este método la persona por experiencia y capacidad selecciona a los
individuos u otros elementos de la población, que supone son los más
representativos de esa población. Por ejemplo un reportero puede
muestrear uno o dos senadores, por considerar que ellos reflejan la opinión
general de todos.
2.1.3. Muestreo causa / efecto
Se realiza cuando no hay una población definida y se requiere tomar
elementos para el estudio en cuestión, caso por el cual se toman los elementos
disponibles.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
17
2.1.4. Muestreo por cuotas
Cuando es necesario obtener una cantidad dada de elementos que constituyen
una muestra proporcional a la población, se toman elementos hasta cubrir
dicha cuota. El caso de tomar una cantidad de carros en una esquina para
hacer un estudio sobre accidentalidad en dicho sitio.
2.1.5. Muestreo de poblaciones móviles
Método propio de poblaciones móviles como en estudios de migración
ocurridos en un sitio determinado. El caso típico es con animales que migran,
donde se hace captura-marca- recaptura.
2.2. Muestreo Probabilístico
El muestreo aleatorio o muestreo probabilístico, es aquel en que cada uno de
los elementos de la población objeto de estudio, tienen una probabilidad
matemática conocida, y frecuentemente igual, para ser elegido en la muestra.
Muestra probabilística
Una muestra se considera probabilística si cumple con las siguientes
condiciones:
a) Se pueda definir un conjunto de muestras M1, M2, M3... Mi posibles
derivados del proceso de selección propuesta. Así se puede identif icar
que unidades de muestreo pertenecen a la muestra M1, M2, M3... Mi
b) A cada muestra posible le debe corresponder una probabilidad de
selección conocida P(S).
c) El proceso de selección garantiza que todos los elementos de la población
tienen una probabilidad P(yi)>0 de ser elegido en alguna muestra.
d) La selección es un proceso aleatorio que garantiza que cada
muestra S tenga una probabilidad P(S) de ser elegida. Muestreo aleatorio
simple
Dentro del muestreo probabilístico o aleatorio existen cuatro métodos:
1. Muestreo aleatorio simple
2. Muestreo estratificado
3. Muestreo sistemático
4. Muestreo por conglomerados
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
18
2.2.1. Muestreo Aleatorio Simple
El M A S es la forma m á s sencilla de muestreo probabilístico y es la base de
técnicas más complejas. La muestra se puede tomar de una población finita
o infinita, la cantidad de muestras posibles depende del tipo de diseño y la
forma de tomar las muestras. Este tipo de muestreo se utilize cuando se
considera que la población es más o menos homogénea. Como ya sabemos el
muestreo puede ser con y sin reemplazamiento.
El marco de muestreo corresponde a la lista codificada de todas las observaciones
que hacen parte de la población. La muestra se elige de tal manera que cada
observación tiene la misma probabilidad de ser elegida, la elección de una
observación NO tiene influencia sobre la elección de otra. Es de aclarar que en el
M.A.S la unidad de muestreo es igual a la unidad de observación.
Este tipo de muestreo requiere la construcción de un marco de
muestreo, consistente en el listado completo de las unidades de la
población.
Técnicas para Seleccionar la Muestra
a) Tabla de números aleatorios
(Ver tabla siguiente). Se enumeran las unidades que conforman la población
objetivo de estudio, partiendo desde 01 hasta 99, desde 001 hasta 999, y así
sucesivamente, dependiendo del tamaño poblacional. Luego se define el
tamaño de la nuestra y como los elementos de la población están
listados y codificados, entonces se establece un punto de partida:
Columna x Fila y, se van leyendo ya sea horizontal o verticalmente los
números de la tabla hasta completar el tamaño de la muestra.
Ejemplo
Suponga que tenemos N=30 facturas de servicios públicos (unidades en la
población), saque una muestra aleatoria simple de tamaño n=5.
Paso 1: Asigne etiquetas: Dé a cada unidad en la población un número, etiqueta o
identificación. Todas las etiquetas deben tener el mismo número de dígitos. Como
tenemos 30 unidades y el número 30 tiene dos dígitos, todas las unidades tienen
que tener dos dígitos.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
19
Tabla 1.
Facturas de servicios públicos
Paso 2: Use la tabla: Empezando en un lugar escogido al azar lea grupos de
dígitos (dependiendo del número de dígitos en las etiquetas) de izquierda a
derecha, continuando con la línea siguiente cuando se acabe la línea que está
leyendo. Si el grupo de dígitos corresponde a una de las etiquetas, ese número
identifica a una de las unidades que será seleccionada. Si el grupo de dígitos no
corresponde a una de las etiquetas o si ya fue seleccionado, se salta al grupo
siguiente.
Por ejemplo suponga que el lugar de partida escogido al azar fue la fila 05,
columna 1 (la columna 1 es la 12345) y la lectura sera vertical (aunque puede ser
horizontal):
Se toman dos digitos porque la muestra es 30 (que tiene dos digitos)
33850 Este número no se escoge porque está por encima de 30
97340
Este número no se escoge porque solo se escogen numerous entre
01 y 30. Se sigue buscando y se llega hasta un número menor o
igual a 30
Este número si se escoge porque es menor a 30.
14756
Se continúa y si con la primera columna no se han encontrado los 5 números para
la muestra se pasa a la siguiente.
Cabe notar que el número 23913 de la tabla se salta ya que se repite el 23 que se
encontró en 23236
La muestra está conformada por las observaciones que se ubican en la posición:
14, 23, 09, 11 y 06
Recibo No. Valor $ Recibo No. Valor $ Recibo No. Valor $
01 $ 45.661 11 $ 37.798 21 $ 44.901 02 $ 43.629 12 $ 33.672 22 $ 40.155 03 $ 41.502 13 $ 39.607 23 $ 48.082 04 $ 45.069 14 $ 34.904 24 $ 32.825 05 $ 45.813 15 $ 36.701 25 $ 45.915 06 $ 49.687 16 $ 34.001 26 $ 30.382 07 $ 45.960 17 $ 36.302 27 $ 41.835 08 $ 35.001 18 $ 48.728 28 $ 47.227 09 $ 49.553 19 $ 48.706 29 $ 48.485 10 $ 46.976 20 $ 34.881 30 $ 45.159
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
20
Tabla 2.
Números aleatorios
Columna
00000 00001 11111 11112 22222 22223 33333 33334
Renglón 12345 67890 12345 67890 12345 67890 12345 67890
01 49280 88924 35779 00283 81163 07275 89863 02348
02 61870 41657 07468 08612 98083 97349 20775 45091
03 43898 65923 25078 86129 78496 97653 91550 08078
04 62993 93912 30454 84598 56095 20664 12872 64647
05 33850 58555 51438 85507 71865 79488 76783 31708
06 97340 03364 88472 04334 63919 36394 11095 92470
07 70543 29776 10087 10072 55980 64688 68239 20461
08 89382 93809 00796 95945 34101 81277 66090 88872
09 37818 72142 67140 50785 22380 16703 53362 44940
10 60430 22834 14130 96593 23298 56203 92671 15925
11 82975 66158 84731 19436 55790 69229 28661 1367512
39087 71938 40355 54324 08401 26299 49420 59208
13 55700 24586 93247 32596 11865 63397 44251 43189
14 14756 23997 78643 75912 83832 32768 18928 57070
15 32166 53251 70654 92827 63491 04233 33825 69662
16 23236 73751 31888 81718 06546 83246 47651 04877
17 45794 26926 15130 82455 78305 55058 52551 47182
18 09893 20505 14225 68514 46427 56788 96297 78822
19 54382 74598 91499 14523 68479 27686 46162 83554
20 94750 89923 37089 20048 80336 94598 26940 36858
21 70297 34135 53140 33340 42050 82341 44104 82949
22 85157 47954 32979 26575 57600 40881 12250 73742
23 11100 02340 12860 74697 96644 89439 28707 25815
24 36871 50775 30592 57143 17381 68856 25853 35041
25 23913 48357 63308 16090 51690 54607 72407 55538
26 79348 36085 27973 65157 07456 22255 25626 57054
27 92074 54641 53673 54421 18130 60103 69593 49464
28 06873 21440 75593 41373 49502 17972 82578 16364
29 12478 37622 99659 31065 83613 69889 58869 29571
30 57175 55564 65411 42547 70457 03426 72937 83792
31 91616 11075 80103 07831 59309 13276 26710 73000
32 78025 73539 14621 39044 47450 03197 12787 47709
33 27587 67228 80145 10175 12822 86687 65530 49325
34 16690 20427 04251 64477 73709 73945 92396 68263
35 70183 58065 65489 31833 82093 16747 10386 59293
36 90730 35385 15679 99742 50866 78028 75573 67257
37 10934 93242 13431 24590 02770 48582 00906 58595
38 82462 30166 79613 47416 13389 80268 05085 96666
39 27463 10433 07606 16285 93699 60912 94532 95632
40 02979 52997 09079 92709 90110 47506 53693 49892
41 46888 69929 75233 52507 32097 37594 10067 67327
42 53638 83161 08289 12639 08141 12640 28437 09268
43 82433 61427 17239 89160 19666 08814 37841 12847
44 35766 31672 50082 22795 66948 65581 84393 15890
45 10853 42581 08792 13257 61973 24450 52351 16602
46 20341 27398 72906 63955 17276 10646 74692 48438
47 54458 90542 77563 51839 52901 53355 83281 19177
48 26337 66530 16687 35179 46560 00123 44546 79896
49 34314 23729 85264 05575 96855 23820 11091 79821
50 28603 10708 68933 34189 92166 15181 66628 58599
Fuente:Web
Paso 3: Indicar según las posiciones que arroja la tabla de números aleatorios
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
21
cuales elementos se escogerán para la muestra
Tabla 3:
Selección muestra de 5 recibos ejemplo 1
Este método de selección permite que todos los elementos que constituyen la
población tengan la misma posibilidad de ser incluidos en la muestra. Los
elementos se escogen en forma individual y aleatoriamente de la totalidad de
la población. Esta selección puede ser sin reemplazamiento, similar a la que
se realiza en la extracción aleatoria de números en el juego denominado baloto.
Cada elemento que constituye la muestra se selecciona una sola vez,
denominándose extracciones sin reposición.
En otras ocasiones, cada elemento puede ser elegido más s de una vez en
la misma muestra, como por ejemplo, cuando se selecciona aleatoriamente el
número ganador de una lotería, que puede ocurrir ser el mismo número; en
estos casos se dice que las extracciones son realizadas con reposición.
b) Programa de Computador: Utilizando el programa Excel que es el más
común se puede desarrollar números aleatorios de la siguiente manera:
Si la población es de N = 1.000 observaciones y se desea una muestra de 20,
entonces: Sobre una celda se escribe =ALEATORIO ()*N y se da clic, el
sistema genera el primer número aleatorio, se despliega en la parte inferior
derecha de la celda del número hasta el tamaño de la muestra definida.
Sintaxis para obtener números aleatorios de una población de 1000
observaciones
Figura 2. Sintaxis número aleatorio en Excel
No. Recibo Valor $ No. Recibo Valor $ No. Recibo Valor $
01 $ 45.661 11 $ 37.798 21 $ 44.901
02 $ 43.629 12 $ 33.672 22 $ 40.155
03 $ 41.502 13 $ 39.607 23 $ 48.082
04 $ 45.069 14 $ 34.904 24 $ 32.825
05 $ 45.813 15 $ 36.701 25 $ 45.915
06 $ 49.687 16 $ 34.001 26 $ 30.382
07 $ 45.960 17 $ 36.302 27 $ 41.835
08 $ 35.001 18 $ 48.728 28 $ 47.227
09 $ 49.553 19 $ 48.706 29 $ 48.485
10 $ 46.976 20 $ 34.881 30 $ 45.159
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
22
Al dar clic se genera el primer número aleatorio y desplegando se obtiene los
que se desea.
De esta manera se obtiene los números aleatorios que se requieren
para tomar la muestra aleatoria de la población objeto de estudio. Si se
vuelve a hacer el proceso, se obtendrán nuevos números y cada que se realice
un nuevo proceso, se generarán diferentes números; esto por lo de Aleatorio.
VIDEOS
c) Método de Fan Muller:
Para seleccionar una muestra aleatoria simple mediante este método hay que
seguir los siguientes pasos:
1. Para cada elemento de la población se genera un número aleatorio entre 0
y 1. Ese número aleatorio se llamará r.
2. Se hace un recorrido secuencial de la población y se incluye a la muestra
el número aleatorio r si cumple:
Comprobando que no estuviera anteriormente introducida, en el caso de
que esté repetida se pasa a la siguiente unidad. Si se introduce la unidad
se vuelve a empezar en el paso 1.
3. El algoritmo termina cuando
d) Coordinado Negativo: El proceso general es de la siguiente manera:
1. Se adiciona una variable aleatoria U con distribución uniforme U (0, 1)
2. Se ordena el marco muestral según la distribución U.
3. La muestra se forma de los n primeros elementos del marco ordenado
Selección de
muestras a través
de M.A.S
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
23
2.2.2. Muestreo Aleatorio Estratificado
En el diseño de muestreo probabilístico, es pertinente identificar la población
objeto de estudio, ya que no siempre la variable de análisis es más o menos
homogénea. Si se desea analizar la variable peso; por lo general los hombres
pesan más s que las mujeres, en estratos altos se paga más arriendo que
en estratos bajos. En estos y otros muchos casos el M. A. S. no es adecuado.
En casos donde la población es muy heterogénea respecto a la variable
de estudio el muestreo estratificado es mejor que el muestreo aleatorio simple.
La palabra estratificar hace referencia a formar Capias.
DEFINICIÓN: Una muestra aleatoria estratificada se obtiene mediante la
separación de los elementos de la población en subgrupos llamados ESTRATOS,
los cuales son disyuntos.
Obtenidos los estratos, en cada uno se obtiene la muestra por M.A.S para el
estudio de la variable de interés.
Como los elementos de los estratos son disyuntos, entonces cada
unidad de muestreo pertenece solo a un estrato. Las muestras
seleccionadas en los estratos deben ser independientes; es decir, la elegida
en un estrato no debe afectar la elección de otra muestra en otro estrato.
La esencia de la estratificación es que ésta saca provecho de la
homogeneidad conocida de las sus poblaciones, de tal forma sólo se requieran
muestras relativamente pequeñas para estimar las características de cada
sub-población, estas estimaciones individuales pueden entonces ser
fácilmente combinadas para producir una estimación de toda la
población; además, la economía en el tamaño de la muestra, un
valioso sub-producto del esquema del muestreo estratificado es que las
estimaciones obtenidas para diferentes partes de la población se
pueden usar posteriormente para hacer comparaciones.
Para una descripción general del muestreo aleatorio estratificado y los
métodos de inferencia asociados con este procedimiento, suponemos
que la población está dividida en h subpoblaciones o estratos de tamaños
conocidos N1, N2,..Nh tal que las unidades en cada estrato sean
homogéneas respecto a la característica en cuestión.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
24
Figura 3. Población divida en estratos
Ejemplo
Población de tutores del CEAD Ibagué - UNAD (ver figura 3). El tamaño de la
población 18 tutores (N= 18), la cual está dividida en 3 escuelas o subgrupos
(H=3). Cada escuela es un estrato, y se tiene que son diferentes los perfiles de los
tutores de una escuela a otra pero al interior de cada una son similares sus
profesiones, esto significa que los subgrupos son heterogéneos entre sí, pero
homogéneos dentro de cada uno.
VENTAJAS DEL MUESTREO ESTRATIFICADO
1. Evitar la obtención de muestras erróneas, tal es el caso de
escoger elementos que podrían sesgar el muestreo, por consiguiente
se puede perder representatividad de la población.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
25
2. Obtener información precisa de ciertos subgrupos para hacer
comparaciones
3. Producir un límite de error de estimación (B) más pequeño, comparado con
el obtenido en el M.A.S. para un mismo tamaño de muestra.
4. Los costos por observación en las encuestas son más reducidos ya
que se evitan desplazamientos extremos.
5. Las estimaciones se obtienen por subgrupos así los estratos se hacen
identificables.
Notación: Partiendo de la población o universo U cuyo tamaño es N,
ésta se divide en NL estratos.
Figura 4. Tamaño de estratos
N = N1 + N2 +…+NL (Tamaño poblacional)
= Tamaño del estrato i.
= Valor de la observación j en el Estrato i.
= Media poblacional en el estrato i.
= Varianza poblacional en el estrato i.
= Total poblacional en el estrato i.
Proporcion poblacional en el estrato i
La media poblacional del estrato, la varianza poblacional del estrato, el
total poblacional del estrato y el total poblacional, se obtiene de la siguiente
manera:
En cada estrato se obtiene una muestra aleatoria por M.A.S. Si tenemos el
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
26
estrato l, se puede hacer el siguiente análisis.
Tamaño de la muestra en el estrato i
Promedio de la muestra del estrato i
Varianza muestral del estrato i
Proporción estimada del estrato i
∑
Donde son los elementos j del estrato i
Tamaño de la submuestras en los estratos
(
) Ecuación No.1
Dónde:
N = Tamaño de la población
N = Tamaño de la muestra
Ni= Tamaño del estrato i
ni= Tamaño de muestra en el estrato i
N= N1+N2+N3+..+Nh
n = n1 + n2+…+ ni
Ejemplo
La sección operativa de una empresa de confecciones cuenta con 100
empleados, la cual está dividida en operarios de maquina plana, dibujantes y
cortadores, de los que hay 40, 35 y 25 operarios respectivamente; se quiere hacer
un estudio estadístico y se toma una muestra de 20 empleados. ¿Cuántos
operarios de cada línea deben escogerse si la selección se hace a través de un
muestreo estratificado?
N= 100
n = 20
N1= 40
N2= 35
N3= 25
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
27
(
)
(
)
(
)
La muestra de 20 empleados debe estar compuesta por 8 de máquina plana,
7 dibujantes y 5 cortadores.
2.2.3. Muestreo Sistemático
Es utilizado por algunos contadores para revisar sumas, cuentas, inventarios,
etc., por ser un método directo y económico. Consiste en seleccionar uno a
uno, los elementos de la muestra en un orden determinado, dando un inicio
aleatorio. Es decir, la muestra queda ordenada.
La fracción de muestreo se establece por medio de la siguiente relación:
Dónde:
f = Fracción de muestreo
N= Población
n = Tamaño de la muestra
Ejemplo
De una población de 1.000 observaciones, se desea tomar una muestra de 10,
cuáles serían las observaciones que harían parte de la muestra sistemática.
La fracción de muestreo es:
f = Fracción de muestreo
N= Población
n = Tamaño de la muestra
El primer elemento se selecciona aleatoriamente en el intervalo cero a cien,
por ejemplo seleccionando el número 25, el segundo elemento que se
selecciona es 125 (25+100), luego el 225 (125+100) y así sucesivamente, hasta
completar la muestra de diez.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
28
Puede ver un ejemplo de muestreo sistemático en:
https://sites.google.com/site/unadjeammysh/recursos-de-apoyo
Figura 5. Recursos de apoyo
Un problema específico del muestreo sistemático es la existencia de cualquier
factor periódico o cíclico en la lista de la población que pudiera conducir a
un error sistemático en los resultados muestrales.
Ejemplo
Si en un hospital hay un universo de quince mil cien historias clínicas
que están numeradas interrumpidamente y se desea tener una muestra
equivalente al 10%, o sea, mil quinientas diez historias, ello significa que ha
de tomarse una de cada 10, ya que (15100 /1510 = 10). La primera historia
puede seleccionarse del primer grupo de 10. Si la primera historia
seleccionada es la número 8 en la población, teniendo en cuenta que el
ocho es un número cualquiera tomado aleatoriamente; la segunda será la 18=
(8+10) la tercera será la 28 = (18 + 10), la cuarta será la 38 = (28 + 10), y así
sucesivamente.
La estimación y tamaño de muestra tiene un análisis similar al muestreo
aleatorio simple M.A.S.
2.2.4. Muestreo Conglomerados
Este es un método de muestreo aleatorio en el que los elementos de la
población se dividen en forma natural en subgrupos, de tal forma que dentro de
ellos sean lo más heterogéneo posible y entre ellos sean homogéneos, caso
contrario al muestreo estratificado.
Este tipo de muestreo se usa en particular cuando no se dispone de una
Clic allí para descargar archivo
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
29
lista detallada y enumerada de cada una de las unidades que conforman el
universo y resulta muy complejo elaborarla. Se le denomina así debido a
que en la selección de la muestra en lugar de escogerse cada unidad se
procede a tomar los subgrupos o conjuntos de unidades, a los que se llama
"conglomerados". Aunque quizá por ello se tienda a creer que es lo
mismo que el estratificado, ambos se diferencian en que en los
conglomerados los subconjuntos se dan en la vida real o ya están
agrupados de esa manera; por ejemplo: Escuelas, tipos de Industrias,
bloques de casas y otros. En el estratificado el investigador decide las
agrupaciones que utilizar según la posible variabilidad de los fenómenos a
estudiar; otra diferencia es que en este el investigador conoce la distribución
de la variable, todo lo contrario que en el muestreo por conglomerado.
El proceso se indica definiendo los conglomerados, después se seleccionan los
subconjuntos a estudiar (o sea, que se realiza un muestreo de
conglomerados); de estos seleccionados se procede a hacer el listado de las
unidades que componen cada conglomerado, continuando posteriormente con la
selección de las unidades que integrarán la muestra, siguiendo algunos de los
métodos aleatorios indicados.
Si se desea hacer un estudio en las escuelas de educación primaria sobre un
determinado fenómeno, inicialmente se seleccionan las escuelas que se
estudiarán, de esas escuelas seleccionadas se determinan los grados o clases
que deben incluir y posteriormente se escogen los alumnos, que serán las
unidades de observación, utilizando uno de los métodos aleatorios. Se estima
que las inferencias que se hacen en una muestra conglomerada no son tan
confiables como las que se obtienen de un estudio hecho por muestreo aleatorio.
Ejemplo
Si un analista de la Secretaría de Salud necesita hacer un estudio de los
servicios médico-asistenciales que reciben los trabajadores del área
metropolitana, sería difícil obtener una lista de todos los trabajadores de la
población objetivo. Sin embargo podría obtenerse una lista de las empresas y
fábricas del área. Con esta lista, el analista puede tomar una muestra aleatoria
de las empresas o fábricas, que representan conglomerados de
trabajadores, y obtener la información de los servicios médicos que se les
están prestando.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
30
Lección No 3: Tipos de Selección de Muestras
En el diseño Muestra hacemos referencia a la probabilidad de selección, la
cual consiste en definir el valor de probabilidad de que una muestra dada
sea seleccionada. En teoría de probabilidad existen dos tipos de selección:
3.1. Selección con Reemplazamiento:
Consiste en que los elementos seleccionados una vez medidos vuelven a la
muestra, lo que hace que el espacio Muestra permanezca constante. Por lo
anterior la ocurrencia de un evento no afecta la ocurrencia de otro, por lo que
los eventos se consideran independientes.
Ejemplo
Si en una bolsa se tiene 4 bolas blancas y 5 bolas negras. ¿ Cuál será
la probabilidad que al seleccionar dos bolas, estas sean blancas?
La probabilidad de que la primera sea negra es: ( )
La probabilidad de que la segunda sea negra es: ( )
3.2. Selección sin Reemplazamiento:
Los elementos elegidos una vez la medición, estos NO vuelven a la
muestra, lo que hace que el espacio muestral cambie a medida que se van
tomado elementos de la muestra.
Ejemplo
Si en una bolsa se tiene 4 bolas blancas y 5 bolas negras. ¿Cuál será la
probabilidad que al seleccionar dos bolas estas sean blancas, la selección es
sin reemplazamiento?
La probabilidad de que la primera sea negra es: 4/9
La probabilidad de que la segunda sea negra es: 3/8
Recordemos que una vez elegida la primera, ésta no vuelve a la muestra.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
31
Ejemplo
Suponga que tenemos N = 4 unidades 1, 2, 3 y 5 en una población
hipotética y desea seleccionar muestras con reemplazamiento y sin
reemplazamiento de tamaño n=2
Para los propósitos de esta selección, los valores podrían ser el número de
las personas que viven en cada una de cuatro unidades habitacionales que
constituyen una población. Se realizará una comparación entre el muestreo
aleatorio con y sin reemplazamiento para una muestra de tamaño n=2.
Primero se listan todas las posibles muestras no ordenadas de tamaño n= 2.
Para recordar:
Tabla 4:
Técnicas de conteo
Muestreo Con Orden Sin Orden
Con Repetición Regla del exponente (o permutaciones con repetición)
Nn
Multiplicación de opciones: n1 x n2 x n3….
Combinaciones
( ) ( )
( )
Sin Repetición
Permutaciones (de n elementos tomados todos a la vez)
N! = NPn Permutaciones (de N elementos tomados
de r en r. con )
( )
Combinaciones (de N elementos tomados de r en r.
con )
( )
Lección No 4: Métodos de Inferencias, Paramétrico y No
Paramétrico
4. Métodos De Inferencia
Los procedimientos de inferencia permiten establecer conclusiones acerca de
una población, a partir de las propiedades estudiadas en una muestra de ella.
Además, como dichas conclusiones dependen de sucesos aleatorios, se les
asociará un nivel de confianza o de verosimilitud.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
32
Gráfico No.1 Métodos de inferencia
4.1. Métodos Paramétricos
Resuelve objetivos relacionados con parámetros de una población, tales como
media, varianza, proporción etc. Estos modelos se apoyan en el conocimiento
de la distribución de probabilidad asociada a dicha población aunque se
desconozca algún parámetro de dicho modelo. Por ejemplo podemos suponer
que el número de clientes atendidos por hora en una entidad bancaria sigue un
modelo de Poisson pero de parámetro µ desconocido.
Para resolver un problema de inferencia paramétrico se utilizan dos tipos de
procedimientos:
4.1.1. Estimación: Puntual cuando obtenemos valores aproximados del
parámetro desconocido y una medida de error asociado; por Intervalos
cuando obtenemos un rango de valores, que contiene el verdadero valor
del parámetro con una probabilidad o confiabilidad prefijada.
4.1.2. Test de Hipótesis: Cuando aceptamos o rechazamos una hipótesis
relacionada con uno o varios parámetros de una población desconocidos,
con un cierto nivel de error prefijado.
4.2. Métodos no paramétrico
Los métodos no paramétricos se refieren a menudo como distribución
libremente métodos pues no confían encendido asunciones que los datos están
dibujados del dado distribución de la probabilidad. Resuelven situaciones
relacionadas con el tipo de distribución de probabilidad asociada a la población
de estudio u otros objetivos no relacionados directamente con parámetros.
Lo deseable en estos casos será buscar la inferencia en contrastes que sean
válidos bajo un amplio rango de distribuciones de la población. Tales contrastes
se denominan no paramétricos.
Métodos de Inferencia
Parámetrico
Estimación Pruebas de Hipótesis
No Parámetrico
Pruebas No Parámetricas
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
33
El término no paramétrico no se significa implicar que tales modelos carecen
totalmente parámetros, sino que el número y la naturaleza de los parámetros son
flexibles y no fijados por adelantado.
Ventajas y Desventajas
Las pruebas no paramétricas no necesitan suposiciones respecto a la
composición de los datos poblacionales. Las pruebas no paramétricas son de
uso común:
1. Cuando no se cumplen las suposiciones requeridas por otras
técnicas usadas, por lo general llamadas pruebas paramétricas.
2. Cuando es necesario usar un tamaño de muestra pequeño y no es
posible verificar que se cumplan ciertas suposiciones clave.
3. Cuando se necesita convertir datos cualitativos a información útil para
la toma de decisiones.
Existen muchos casos en los que se recogen datos medidos en una escala
nominal u ordinal. Muchas aplicaciones de negocios involucran opiniones o
sentimientos y esos datos se usan de manera cualitativa.
Ventajas
Las pruebas no paramétricas tienen varias ventajas sobre las pruebas
paramétricas:
1. Por lo general, son fáciles de usar y entender.
2. Eliminan la necesidad de suposiciones restrictivas de las pruebas
paramétricas.
3. Se pueden usar con muestras pequeñas.
4. Se pueden usar con datos cualitativos.
Desventajas
También las pruebas no paramétricas tienen desventajas:
1. A veces, ignoran, desperdician o pierden información.
2. No son tan eficientes como las paramétricas.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
34
Lección No 5: Estimadores y propiedades de los estimadores
5. Estimador
En estadística, un estimador es un estadístico (esto es, una función de la
muestra) usado para estimar un parámetro desconocido de la población. Por
ejemplo, si se desea conocer el precio medio de un artículo (el parámetro
desconocido) se recogerán observaciones del precio de dicho artículo en
diversos establecimientos (la muestra) y la media aritmética de las
observaciones puede utilizarse como estimador del precio medio.
Para cada parámetro pueden existir varios estimadores diferentes. En general,
escogeremos el estimador que posea mejores propiedades que los restantes,
como insesgadez, eficiencia, convergencia y robustez (consistencia).
5.1. Propiedades de un estimador
El concepto de estimación de parámetros mediante la especificación de las
propiedades que deben cumplir los estimadores y el desarrollo de técnicas
apropiadas para implementar el proceso de estimación. Se utilizar· el punto
de vista práctico de la teoría del muestreo, que considera un parámetro como
una cantidad fija pero desconocida.
Para evaluar la calidad de un estadígrafo como un estimador este debe
cumplir las siguientes propiedades:
5.1.1. Insesgado
Un estimador insesgado es aquel cuya media o valor esperado de la distribución
de las de las estimaciones es igual al parámetro estimado. En otras palabras,
cuando el promedio de un estimador muestral es igual al parámetro poblacional
que se desea estimar.
5.1.2. Eficiencia:
La eficiencia se refiere al tamaño del error estándar del estadígrafo de la
muestra. Si se comparan dos estadígrafos de una muestra del mismo tamaño y
se desea decidir cuál de los dos es el estimador más eficiente, se escogerá
el estadígrafo que tenga el menor error estándar o desviación de la
distribución muestra. Supóngase que se escoge una muestra de un tamaño
dado y se decide cuando usar la media muestra o la mediana muestra para
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
35
estimar la media de la población. Si se calcula el error estándar de la media
muestra y se encuentra que es igual a 2.15 y luego se calcula el error
estándar de la mediana muestra y se encuentra que es de 2.6, se podrá
decir que la media muestra es un estimador más eficiente de la media de la
población porque su error estándar es menor o con menos variación, tendrá
una mayor oportunidad de producir un estimador más cercano al parámetro de
la población bajo estudio.
5.1.3. Consistencia:
Un estadígrafo es un estimador consistente de un parámetro de la población
si en la medida en que el tamaño de la muestra aumenta se está seguro de
que el valor del estadígrafo se acerca al valor del parámetro de la población.
Cuando un estimador es consistente, se vuelve más confiable tomando
muestras grandes. De esta manera, cuando usted se preocupa por
aumentar el tamaño de la muestra para obtener más información acerca de
un parámetro de la población, debe primero encontrar si su estadígrafo es
un estimador consistente, si no es así, usted desperdiciará dinero y tiempo
al tomar muestras grandes.
5.1.4. Suficiencia:
Estadísticos que, de alguna manera, resumen toda la información de una muestra
relacionada con un parámetro objetivo, se dice que tienen la propiedad de
suficiencia, es decir, utilizan toda la información relevante contenida en una
muestra.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
36
Ejercicios propuestos
En cierta cadena de centros comerciales trabajan 150 personas en el
departamento de personal, 450 en el departamento de ventas, 200 en el de
contabilidad y 100 en el de servicios al cliente. Con el objeto de realizar una
encuesta laboral, se quiere seleccionar una muestra de 180 trabajadores. Qué
número de trabajadores tendríamos que seleccionar en cada departamento
atendiendo a un criterio de proporcionalidad
R/ta: 30, 90, 40, 20
Suponga que se quiere estimar el número de días-hombre perdidos debido
a accidentes de trabajo en un mes particular. Además se sabe que la mayor
parte de dichos accidentes se presentan en los niveles operativo, técnico y
administrativo. ¿Cuál de los siguientes diseños de muestreo es el más
aconsejable?:
R/ta: Estratificado, identificando como estrato los niveles de trabajo
Supongamos que en la ciudad “T” hay 200 barrios. Si elegimos al azar dos
de estos barrios, de manera que la muestra esté compuesta por todos
los individuos de esos dos barrios. Se trata de de:
R/ta: Por conglomerados
Se ha proyectado realizar una encuesta sobre el consumo de leche en
las familias. El número de familias de la población es 6000 y el tamaño de
la muestra 840, con la siguiente clasificación de profesión u oficio:
Profesionales: 100 Comerciantes: 200
Operarios: 2000 Agricultores: 600
Servicios Generales:
1900 Empleados: 1200
Cuántas familias de agricultores deben estar representadas en la muestra.
R/ta: 84
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
37
CAPITULO DOS: DISTRIBUCIONES MUESTRALES
Introducción
Como se ha señalado anteriormente, el propósito del muestreo es averiguar las
características de la población en estudio. Se recuerda de nuevo que para
poder dar conclusiones de los parámetros se usan los estadísticos que son
mediciones obtenidas en la muestra, mientras que los parámetros son
características medibles propias de la población.
El escoger una muestra, es un proceso que inevitablemente puede arrojar
diferentes subconjuntos de la población, por ejemplo de la población de tutores,
se puede escoger como muestra los tutores de la ECBTI o escoger los de
ECEDU. El valor del estadístico es aleatorio porque depende de los elementos
elegidos en la muestra seleccionada- también aleatoria- de tamaño “n” y, por lo
tanto, el estadístico tiene una distribución de probabilidad la cual es llamada la
Distribución Muestral del estadístico.
Objetivo general
Que los estudiantes lleguen a formar, no sólo, una muestra si no un conjunto de
posibles muestras de una población, con las unidades de observación y sean
capaces de reconocer la distribución de ese conjunto de muestras.
Objetivos específicos
Comprender la importancia del teorema del límite central.
Establecer las diferencias entre un parámetro y un estadístico
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
38
Lección No 6: Distribuciones Muestrales
En estadística, la distribución muestral es lo que resulta de considerar todas las
muestras posibles que pueden ser tomadas de una población. Su estudio permite
calcular la probabilidad que se tiene, dada una sola muestra, de acercarse al
parámetro de la población. Mediante la distribución muestral se puede estimar el
error para un tamaño de muestra dado.
Como bien lo afirma Ximenez, C. (S, F.) “La estadística inferencial trata sobre las
inferencias con respecto a las poblaciones (sus parámetros µ y σ2) a partir de la
información contenida en las muestras (los estadísticos y S2).
Para poder llevar a cabo esas inferencias es necesario conocer la relación que se
establece entre estadísticos y parámetros. El concepto que permite poner en
relación ambas cosas es “la distribución muestral de un estadístico”.
Figura 6. Distribución de un estadístico
Algunos estadísticos pueden ser: La media, la proporción y la desviación.
Recuerde que todos son cálculos en las muestras.
A cada una de las muestras se les calcula el respectivo estadístico, es decir, se
tendrá tantos estadísticos como muestras se haya obtenido. Por ejemplo, si el
estadístico que se está estimando es la media, y si se obtuvo 8 muestras,
entonces, serán 8 medias muestrales las que tendrá.
Con todos los resultados del estadístico en todas las muestras, se forma la
distribución muestral del estadístico.
Distribución Muestral: Es la distribución de Probabilidad de un estadístico
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
39
6. Diferentes distribuciones muestrales
Ya que a nivel muestral se pueden calcular diferentes estadísticos, como la
media, desviación y la proporción entre otros, se pueden encontrar sus
respectivas distribuciones muestrales, entre estas:
Distribución muestral de la medias
Distribución muestral de las proporciones
Distribución muestral de la diferencias de medias
Distribución muestral de la diferencias de proporciones
Nota: El muestreo se puede hacer sin o con reemplazamiento.
Ejemplo
En la figura a continuación se tiene que la variable X, es el número de párrafos
digitado por minuto, X: 1, 2, 3, 4.
Figura 7. Distribución de la población
Poblacionalmente se tiene:
Parámetros
E(X)= 2.5
Var (X)= 1.1180
E(x) es el valor esperado de la variable o promedio, y V(x) es la varianza.
( ) ∑
( ) ∑( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
Se sugiere al lector comprobar los cálculos para la varianza con el comando
VAR.P en Excel.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
40
Ejemplo
Si se quiere escoger una muestra de tamaño 3, es decir compuesta por 3
personas y si además las muestras se toman con reposición es decir se puede
volver a incluir el individuo. La distribución muestral será:
Gráfico No.2. Histograma de medias muestrales
El 1,00 que se observa corresponde a la media de la muestra conformada por las
observaciones 1, 1, 1; es decir se tomo una muestra de tres personas pero al ser
con reposición, el primer elemento que se obtuvo fue 1, éste se devuelve la
población y tiene de nuevo la posibilidad de ser escogido, que es lo que vuelve a
suceder, del mismo modo en la tercera extracción. El valor 1,33 es la media de
una muestra que puede ser por ejemplo las observaciones 1, 1, 2. El total de
muestras es 24 conformadas por 3 personas, ya que se aplica el principio de las
permutaciones.
Lección No 7: Distribución Muestral de la Media y de la
Proporción
Los estadísticos obtenidos en una muestra son variables aleatorias, por lo cual
deben tener una distribución de probabilidad, así que la media muestral tiene una
distribución.
Supongamos que se tiene una muestra de tamaño “n” observaciones tomada de
una población normal N (µ; σ2) cada observación X1= 1, 2, 3,…, n tendrá la
misma distribución que la población de donde fue tomada la muestra.
0
2
4
6
8
10
12
14
1,00 1,33 1,67 2,00 2,33 2,67 3,00 3,33 3,67 4,00
Distribución de frecuencias de medias muestrales
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
41
7. Principios y conceptos en la medias muestrales
Teorema: (Población infinita)
-------------------------------------------------------------------------------------------------------
Sea
la media de la muestra aleatoria de tamaño n
proveniente de una población infinita de tamaño N con media µ y varianza σ2.
Entonces:
( )
El valor esperado de la media muestral es la media poblacional
( )
La varianza del estimador es igual a la varianza poblacional dividida por el tamaño
de la muestra.
Teorema: (Población Finita)
-------------------------------------------------------------------------------------------------------
Sea
la media de la muestra aleatoria de tamaño n
proveniente de una población finita de tamaño N con media µ y varianza σ2.
Entonces:
( )
( )
Comentario:
Se conoce como el factor de corrección para poblaciones finitas. Cuando N es
muy grande comparado con n, la diferencia se hace despreciable lo que origina
que para poblaciones infinitas dicho factor de corrección se hace uno.
7.1. Distribución Muestral de la Media
Las muestras aleatorias obtenidas de una población son, por naturaleza propia,
impredecibles. No se esperaría que dos muestras aleatorias del mismo tamaño y
tomadas de la misma población tenga la misma media muestral o que sean
completamente parecidas; puede esperarse que cualquier estadístico, como la
media muestral, calculado a partir de las medias en una muestra aleatoria, cambie
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
42
su valor de una muestra a otra, por ello, se quiere estudiar la distribución de todos
los valores posibles de un estadístico. Tales distribuciones serán muy importantes en
el estudio de la estadística inferencial, porque las inferencias sobre las poblaciones
se harán usando estadísticas muestrales. Como el análisis de las distribuciones
asociadas con los estadísticos muestrales, podremos juzgar la confiabilidad de un
estadístico muestral como un instrumento para hacer inferencias sobre un parámetro
poblacional desconocido.
Como los valores de un estadístico, tal como x, varían de una muestra aleatoria a
otra, se le puede considerar como una variable aleatoria con su correspondiente
distribución de frecuencias.
La distribución de frecuencia de un estadístico muestral se denomina distribución
muestral. En general, la distribución muestral de un estadístico es la de todos sus
valores posibles calculados a partir de muestras del mismo tamaño.
Figura 8. Distribución muestral de medias
Ejemplo Construcción de la distribución de las medias muestrales.
Un Colegio tiene siete profesores, la retribución por hora cátedra es la que se
muestra a continuación:
Tabla 5:
Tabla No. Salario profesores
Profesor Salario $ 1 2 3 4 5 6 7
7000 7000 8000 8000 7000 8000 9000
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
43
Para determinar la distribución muestral de las medias, se seleccionaron todas
las muestras posibles de tamaño 2, sabiendo que son sin sustitución y que
no interesa el orden de selección en la población. Se calculan las medias de
cada muestra y se calcula la media de las medias muestrales.
Para saber cuántas muestras posibles se pueden tomar, se utiliza la combinatoria,
por los preceptos tomados: Sin repetición y no importa el orden
El valor de 21, es el número de muestras tamaño 2 que se pueden formar de
una población de 7 elementos. A continuación se indican las 21 muestras posibles
y el valor de la media para cada una de las muestras:
7 2 =7!
(7 2)! 2!=
7!
(5)! 2!=
5! × 6 × 7
5! 2!=
42
2!=
42
2= 21
Paso 1: Media de la población
𝜇𝑥 9
Paso 2: Varianza de dicha población.
𝜎𝑥
𝑁 (𝑥𝑖 𝜇) 𝑁
𝑖
𝜎𝑥
( ) (9 ) 9 9
𝜎𝑥
∑ 𝑥𝑖
𝑁 𝜇
La varianza poblacional está dada por:
Entonces:
Otra formulación es:
Recuerde que la desviación es la raiz cuadrada de la varianza, entonces la
desviavión en este caso es 𝜎𝑥 9 9 699
Paso 3: Distribución muestral de las medias
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
44
Tabla 6:
Distribución salarios de profesores. Muestreo sin reemplazamiento y las medias
Muestra Prof. Salario Media Muestra Prof. Salario Media
1 1 y 2 7000-7000 7000 12 3 y 4 8000-8000 8000
2 1 y 3 7000-8000 7500 13 3 y 5 8000-7000 7500
3 1 y 4 7000-8000 7500 14 3 y 6 8000-8000 8000
4 1 y 5 7000-7000 7000 15 3 y 7 8000-9000 8500
5 1 y 6 7000-8000 7500 16 4 y 5 8000-7000 7500
6 1 y 7 7000-9000 8000 17 4 y 6 8000-8000 8000
7 2 y 3 7000-8000 7500 18 4 y 7 8000-9000 8500
8 2 y 4 7000-8000 7500 19 5 y 6 7000-8000 7500
9 2 y 5 7000-7000 7000 20 5 y 7 7000-9000 8000
10 2 y 6 7000-8000 7500 21 6 y 7 8000-9000 8500
11 2 y 7 7000-9000 8000
Suma Total 162.000
En el cuadro siguiente se indica la distribución de probabilidad para el
muestreo de medias, donde la sumatoria de todas las probabilidades es igual
a uno:
Tabla 7:
Distribución de probabilidad
Media muestral Número de medias Probabilidad
7000 3 0,1429
7500 9 0,4285
8000 6 0,2857
8500 3 0,1429
Suma 21 1,000
Gráfico No.3. Histograma de medias muestrales salario de los profesores
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
45
La media poblacional es igual a la media de las medias muestrales
La media de la distribución muestral de medias, se determina sumando las
diferentes medias muestrales y dividiendo la suma entre el número de muestras.
La media de todas las medias muestrales en general se expresa:
Ecuación No.2
Primero se obtiene todas las muestras (todos los subconjuntos) y luego a cada
muestra le calcula la media, finalmente obtendrá, tantas medias como muestras
haya, y con esas medias calcula de nuevo un promedio; es decir, se calcula una
media de medias.
6
Vea el valor obtenido en el paso 1 (Media poblacional) y compárelo con el
resultado anterior ¡Son equivalentes!
Note que: es la media de las medias muestrales y es la media poblacional.
Por tanto para nuestro caso:
Paso 4: Media de la distribución muestral de medias
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
46
Paso 5: Construcción de distribución de errores muestrales
�� 𝜇 𝑒
𝜇𝑒
𝜎𝑒
Error Muestral
Cualquier medida conlleva algún error. Si se usa la media para medir, estimar, la
media poblacional 𝜇, entonces la media muestral, como medida, conlleva algún
error. Por ejemplo, supongamos que se ha obtenido una muestra aleatoria de
tamaño 25 de una población con media 𝜇 ; si la media de la muestra es
�� , entonces a la diferencia observada �� 𝜇 se le denomina
el error muestral. Una media muestral x puede pensarse como la suma de dos
cantidades: la media poblacional 𝜇 y el error muestral; si e denota el error
muestral, entonces:
Ecuación No.3
Al calcular la media y desviación estándar de los errores muestrales “e” (última
columna de la tabla 7) se tiene respectivamente:
Se deja como ejercicio al lector calcular 𝜇𝑒 y 𝜎𝑒
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
47
Tabla 8:
Distribución de errores muestrales. Salario promedio de profesores
Muestra No.
�� Media de la muestra
𝜇�� Media de las medias muestrales Error muestral
e
1 7000 7714,3 -714,3 2 7500 7714,3 -214,3 3 7500 7714,3 -214,3 4 7000 7714,3 -714,3 5 7500 7714,3 -214,3 6 8000 7714,3 285,7 7 7500 7714,3 -214,3 8 7500 7714,3 -214,3 9 7000 7714,3 -714,3
10 7500 7714,3 -214,3 11 8000 7714,3 285,7 12 8000 7714,3 285,7 13 7500 7714,3 -214,3 14 8000 7714,3 285,7 15 8500 7714,3 785,7 16 7500 7714,3 -214,3 17 8000 7714,3 285,7 18 8500 7714,3 785,7 19 7500 7714,3 -214,3 20 8000 7714,3 285,7 21 8500 7714,3 785,7
𝝈𝟐𝒙 : 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙𝑒𝑠 �� 𝒙 𝒊 ∶ 𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑖 𝝁𝒙 ∶ 𝑀𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙𝑒𝑠 𝒏 ∶ 𝑁 𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
𝜎��
𝜎��
. . .
𝜎�� 9. . 9. .
𝝈𝟐𝒙 ∑(𝒙 𝒊 𝝁𝒙 )
𝟐
𝒏 Y otra forma es: 𝜎��
∑𝑥𝑖
𝑁 𝜇
��
Dónde:
𝜎�� . 6 Varianza
𝜎�� Desviación
Paso 6: Desviación estándar de las medias muestrales
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
48
Muestreo con reemplazo
Si de una población se eligen muestras de tamaño n con
reemplazo (o la población es No finita), entonces el error estándar
de la media es igual a la desviación estándar de la distribución de
los errores muestrales.
En general se tiene:
Ecuación No.4
Muestreo sin reemplazo
Cuando las muestras se toman de una población pequeña y sin
reemplazo se puede usar la siguiente fórmula para encontrar :
√
Ecuación No.5
Error estándar del estadístico
La desviación estándar de la distribución muestral de un estadístico se conoce
como error estándar del estadístico. Para el ejercicio anterior el error estándar
de la media denotado por 𝜎��, es 451,75.
Aunque, se puede notar que en este caso la desviación de los errores
muestrales y el error estándar, son iguales.
𝜎𝑒 𝜎��,
𝑁 𝑛
𝑁 : Es llamado factor de corrección para poblaciones finitas, o en donde
se muestrea sin reemplazo.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
49
Más adelante se verá que, estas dos concepciones hacen parte de los principios
del teorema del límite central. Para lo cual se desarrollan dos ejemplos, uno de
muestreo con reemplazamiento y otro sin reemplazamiento.
El siguiente es un diagrama de flujo que le permite identificar en que caso debe
usar o no el factor de corrección.
Gráfico No.4. Diagrama de flujo para error estándar de la media
Teorema central del límite.
En el caso de una población con media y varianza 2 , la distribución muestral
de medias de todas las muestras posibles de tamaño n a partir de la población,
tendrá una distribución aproximadamente normal (siendo la media de la
distribución muestral igual a y la varianza igual a n/2 ) considerando que el
tamaño de la muestra es bastante grande.
El teorema central del límite es uno de los teoremas más importantes dentro de
¿Es la población
infinita?
COMIENZO
¿Se muestrea
con sustitución?
¿Es N≥ 20n?
𝜎�� 𝜎
𝑛√𝑁 𝑛
𝑁
𝜎�� 𝜎
𝑛
si
si
si
No
No
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
50
las ciencias estadísticas, ya que su funcionalidad es muy grande.
Hay que destacar tres aspectos importantes del teorema central de límite.
Primer principio:
Si el tamaño de la muestra n es suficientemente grande, la distribución muestral
de las medias será más o menos normal. Esto se cumple ya sea que la población
esté o no distribuida normalmente. Esto es, el teorema se verifica, ya sea que la
población esté distribuida en forma normal, o bien sea sesgada o uniforme.
Segundo principio:
Como se mostró con anterioridad, la media de la población, , y la media de todas
las medias muestrales posibles, x , son iguales. Si la población es grande y se
selecciona un número grande de muestras de la población, la media de las medias
muestrales se aproximará a la media poblacional.
Tercer principio:
La varianza de la distribución de medias muestrales se determina de n/2 .
No existe acuerdo general sobre lo que constituye un tamaño de muestra
“suficientemente grande”. Algunos estadísticos consideran que es 30; otros
piensan que un número pequeño como 12 es adecuado. El ejemplo sobre los
salarios por hora de todos los profesores del colegio funcionó bastante bien con
una muestra de 2. Sin embargo, a menos que la población sea aproximadamente
normal, los tamaños de muestra así de pequeños, por lo general no dan como
resultado una distribución muestral que se distribuya normalmente. A medida que
el tamaño de la muestra se vuelve cada vez más grande, la distribución de la
media muestral se aproxima más a la distribución normal con forma de campana.
TEOREMA CENTRAL DEL LÍMITE:
Sea X1, X2,…, Xn una variable aleatoria independiente e
idénticamente distribuida de una población infinita con media µ y
varianza σ2. Para σ2< ∞, Entonces: Presenta una
distribución Normal estándar.
O sea:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
51
Ejemplo: Muestreo sin Reemplazamiento
Suponga que se tiene una población conformada por 5 empleados de una empresa (N = 5), y la variable de interés es el número de años de experiencia
laboral de cada empleado. Los datos de la población son: 5,4,3,2,1iX
35
543211
1
N
i
ixN
Promedio de años de experiencia por empleado.
999.1)35(...)32()31(5
1)(
1 222
1
22
N
i
ixN
Ahora extraemos la raíz cuadrada a la varianza y obtenemos la desviación
estándar. 414.1
Seleccione ahora todas las muestras posibles de tamaño dos, sin
reemplazamiento (poblaciones finitas):
Recordar que cuando el muestreo es sin reemplazamiento y no interesa el orden,
entonces tenemos una combinatoria.
!!
!
xnnN
NC N
N
Reemplazando:
102!3
!345
!2!3
!5
!2!25
!55
2
x
xx
xC
Se tiene 10 muestras posibles de tamaño dos. Las posibles muestras se indican a
continuación:
Tabla 9:
Distribución de las medias muestrales
Muestra Media Muestral X Muestra Media Muestral X 1 - 2 1 – 3 1 – 4 1 – 5 2 – 3
1.5 2.0 2.5 3.0 2.5
2 – 4 2 – 5 3– 4 3– 5 4 - 5
3.0 3.5 3.5 4.0 4.5
Paso 1: Media de la población
Paso 2: Varianza de dicha población.
Paso 3: Distribución muestral de las medias
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
52
310
5.40.45.35.30.35.20.35.20.25.1
X
Con la información anterior se logra demostrar el primer principio del teorema central del límite, que consiste en que el promedio de la población es igual al
promedio de la distribución muestral de medias: 3X
Observe que dicho principio se ha cumplido, en consideración a que el promedio
de años de experiencia para la población es de tres y el promedio de la
distribución muestral de medias es igual también a tres.
Como siempre primero calculamos la varianza y luego la desviación estándar.
7499.0
10
0.35.430.235.1222
2
2
n
XX
X
Ahora extrayendo raíz cuadrado a la varianza, obtenemos la desviación estándar.
8660.07499.0 X
Observemos que la desviación estándar de la población (1.4142) es diferente a la
desviación estándar de la distribución muestral de medias (0.8660), y una forma
de corregir esta diferencia es mediante la siguiente igualdad:
1
N
nN
nX
Ecuación No.6
Dónde:
X Desviación estándar de la distribución muestral de medias.
Desviación estándar de la población.
n Tamaño de la muestra.
N Tamaño de la población.
1
N
nN Factor de corrección para poblaciones finitas.
Paso 4: Media de la distribución muestral de medias
Paso 6: Desviación estándar de las medias muestrales
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
53
Reemplazando los valores correspondientes se tiene:
8660,015
25
2
4142,1
x
El segundo principio del teorema central del límite para poblaciones finitas se
expresa: La desviación estándar de la distribución muestral de medias es igual al
factor de corrección poblacional multiplicada por la relación entre la desviación
estándar poblacional y la raíz cuadrada del tamaño de la muestra. Dicho principio
queda demostrado con la relación anterior.
Ejemplo: Muestreo con Reemplazamiento
Ahora, cuando el muestreo se realiza para poblaciones finitas, y con reemplazamiento, el
número de muestras posibles está dada por:
nN Para N = Tamaño de la población y n = Tamaño de la muestra
El número de muestras de tamaño dos es: 2552 nN
Tabla 10:
Distribución de las medias muestrales
No. muestra Muestra Media muestral No. muestra Muestra Media muestral
1 2 3 4 5 6 7 8 9
10 11 12 13
1-1 1-2 1-3 1-4 1-5 2-1 2-2 2-3 2-4 2-5 3-1 3-2 3-3
1.0 1.5 2.0 2.5 3.0 1.5 2.0 2.5 3.0 3.5 2.0 2.5 3.0
14 15 16 17 18 19 20 21 22 23 24 25
3-4 3-5 4-1 4-2 4-3 4-4 4-5 5-1 5-2 5-3 5-4 5-5
3.5 4.0 2.5 3.0 3.5 4.0 4.5 3.0 3.5 4.0 4.5 5.0
325
0.55.40.45.20.25.10.1
X
El primer principio se mantiene, en el sentido, que la media poblacional es igual a
la media de la distribución muestral de medias.
Paso 3: Distribución muestral de las medias
Paso 4: Media de la distribución muestral de medias
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
54
0.1
25
0.30.50.35.435.1312222
2
n
XX
X
Observe que la desviación estándar de la población (1.4142) sigue siendo diferente a la desviación estándar de la distribución muestral de medias (1.0) La forma de corregir esta diferencia para poblaciones no finitas es mediante la siguiente igualdad:
nX
Corrección para poblaciones no finitas
Reemplazando en el caso que nos ocupa: 12
41421356.1x
¿Para qué me sirve conocer la distribución muestral de las medias?
Recordemos que se puede calcular la probabilidad de algún
evento relacionado con la variable aleatoria que se distribuye
normal, mediante la siguiente fórmula:
(lo que se conoce como estandarización)
Para transformar una variable normal general en una normal estándar (este
proceso se llama tipificar) se debe:
X ~ N ( , )
~ N(0,1)
Ejemplo
a) Probabilidad acumulada en el valor 0,67: la respuesta es 0,7486
b) Probabilidad acumulada en el valor 1,35: la respuesta es 0,9115
c) Probabilidad acumulada en el valor 2,19: la respuesta es 0,98574
La décima del valor buscado (por ejemplo en 0.67, es 0.6) le indica el valor a
buscar en la primera columna; luego use la centésima para ubicarse en la primera
fila (por el ejemplo en 0.67, es 7); finalmente la intersección de esas dos hileras es
la probabilidad buscada.
Paso 6: Desviación estándar de las medias muestrales
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
55
Gráfico No 5. Ejemplo de uso de la tabla normal
Veamos ahora, como podemos utilizar la tabla de una distribución normal:
Así mismo, las medias muestrales se distribuyen como una normal, por tanto, se
puede calcular la probabilidad del comportamiento del estadístico, en este caso la
media de la muestral, de la siguiente manera:
Poblaciones infinitas (o no se conoce):
Ecuación No.7
Poblaciones finitas y muestreo con reemplazo:
Ecuación No.8
Ejemplo
Cálculo de Probabilidades. Distribución de medias
Poblaciones infinitas (o no se conoce)
La altura media de los alumnos de un plantel de secundaria es de 1,50 mts. Y su desviación típica es de 0,25 mts. Determinar la probabilidad de que en una muestra de 36 alumnos, la media sea superior a 1,60 mts.
P( X > 1,60) = ?
Se estandariza la variable (aplicar ecuación 3):
40,225,0
60,0
6
25,0
10,0
36
25,0
50,160,1
Z
Clic para ver Video:
Uso de la tabla normal
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
56
Ahora la pregunta queda convertida en: P(Z> 2,40)
O su equivalente: 1- P(Z< 2,40) =?
Si se observa en la tabla de la normal, P(Z< 2,40) = 0,9918,
Entonces
1- P(Z< 2,40) = 1 – 0,9918 = 0,0082 = 0,8%
Entonces al tomar una muestra la probabilidad de que la media muestral de la
estatura sea superior a 1,60 es 0,8%, es decir, menos del 1%.
Ejemplo
Cálculo de Probabilidades. Distribución de medias
Poblaciones finitas y muestreo con reemplazo
Una empresa eléctrica fabrica focos que tienen una duración que se distribuye
aproximadamente en forma normal, con media de 800 horas y desviación
estándar de 40 horas. Encuentre la probabilidad de que una muestra aleatoria de
16 focos tenga una vida promedio de menos de 775 horas.
Se estandariza la media muestral (se aplica la ecuación 4):
6
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
57
es equivalente:
Este valor se busca en la tabla de z
La interpretación sería que la probabilidad de que la media de la muestra de 16
focos sea menor a 775 horas es de 0.0062.
7.1.1. Distribución Muestral de Medias: Poblaciones Finitas:
Las poblaciones finitas, tiene la característica de que N es conocido, al hacer la
distribución muestral de las medias y muestreo sin reemplazamiento, se obtiene
una gráfica de la distribución que presenta una forma aproximadamente
acampanada, lo cual se puede observar en la siguiente gráfica.
Figura 9. Distribución Muestral de Medias: Poblaciones Finitas
7.1.2. Distribución Muestral de Medias: Poblaciones No Finitas:
La gráfica de la distribución muestral de medias para poblaciones no finitas y
muestreo con reemplazamiento tiene una distribución normal, tal como se puede
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
58
observar a continuación:
Figura 10. Distribución muestral de medias: Poblaciones No Finitas:
Entonces:
Lección No 8: Distribución Muestral de la proporción
8. Distribución muestral de proporciones
Existen ocasiones en las cuales no estamos interesados en la media de la
muestra, sino que deseamos investigar la proporción de artículos defectuosos o
la proporción de personas con teléfono, etc en la muestra.
La distribución muestral de proporciones es la adecuada para dar respuesta a
estas situaciones.
Esta distribución se genera de igual manera que la distribución muestral de
medias, a excepción de que se calcula la proporción en la población y no la
media (paso 1) ese cálculo corresponde a P = A /N, en donde “A” es el total de
elementos con la característica en la Población y “N” el tamaño de la población.
Así mismo, al extraer las muestras de la población se calcula el estadístico
proporción (p= a / n en donde “a” es el número de éxitos u observaciones de
interés y “n” el tamaño de la muestra, en lugar de la media de cada muestra que
era lo que se calcula antes. (Curso de Estadística 1. Página web, Instituto
Tecnológico De Chihuahua). Ir a la página.
No importa que distribución tenga la población, pero la distribución muestral de
medias a partir de esa población, tiene una distribución normal
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
59
Ahora bien, se debe tener en cuenta que cuando se hace análisis de una
característica cualitativa o atributo, se emplea la proporción de éxitos y no el
número de éxitos como en la distribución binomial.
Una distribución es una distribución total de éxitos en las muestras, mientras que
una distribución de proporciones es la distribución de un promedio (media) de los
éxitos.
Figura 11. Distribución muestral de proporciones
Imagen extraída de: http://www.itch.edu.mx/academic/industrial/estadistica1/img/image802.gif
Ejemplo
Construcción de la distribución de las proporciones muestrales.
Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artículos
defectuosos. Se van a seleccionar 5 artículos al azar de ese lote sin reemplazo.
Genere la distribución muestral de proporciones para el número de piezas
defectuosas.
Paso 1: Proporción Poblacional
𝑃 𝐴
𝑁 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑐𝑜𝑛 𝑙𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑖𝑠𝑡𝑖𝑐𝑎
𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
Por lo que podemos decir que el 33% de las piezas de este lote están defectuosas.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
60
Paso 2: Distribución muestral de proporciones
El número posible de muestras de tamaño 5 a extraer de una población de 12
elementos es 12C5=792, las cuales se pueden desglosar de la siguiente
manera:
Tabla 11:
Distribución de proporciones
Artículos Buenos
Artículos Malos Proporción de artículos
defectuoso
Número de maneras en las que se puede obtener la
muestra 1 4 4/5=0.8 8C1*4C4=8
2 3 3/5=0.6 8C2*4C3=112
3 2 2/5=0.4 8C3*4C2=336
4 1 1/5=0.2 8C4*4C1=280
5 0 0/5=0 8C5*4C0=56 Total 792
Gráfico 6. Frecuencias para las proporciones de las muestras
Paso 3: Media de la distribución muestral de proporciones
𝜇𝑝 ( ) ( 6 ) ( 6) ( ) ( 6)
9
𝜇𝑝
𝜇𝑝 𝑃
Para calcular la media de la distribución muestral de proporciones se tendría
que hacer la sumatoria de la frecuencia por el valor de la proporción muestral y
dividirla entre el número total de muestras. Esto es:
Como podemos observar la media de la distribución muestral de proporciones es igual a la Proporción de la población.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
61
Error estándar del estadístico
La desviación estándar de la distribución muestral de un estadístico se conoce
como error estándar del estadístico. Para el ejercicio anterior el error estándar
de la proporción denotado por , es 0,1681
La varianza de la distribución binomial es , por lo que la varianza de la
distribución muestral de proporciones es
.
Ecuación No.9
Si se sustituyen los valores en esta fórmula tenemos que:
√( ⁄ )( ⁄ )
Este valor no coincide con el de 0.1681, ya que nos falta agregar el factor de
corrección para una población finita y un muestreo sin reemplazo:
√
√
Ecuación No.10
Lo que da como resultado: ( ⁄ )( ⁄ )
6
Paso 4: Desviación estándar de la distribución muestral de proporciones
𝜎𝑝 (
)
( 6 )
( )
6 ( )
( )
6
9
𝜎𝑝 6
También se puede calcular la desviación estándar de la distribución muestral de proporciones, directamente con los datos:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
62
¿Para qué me sirve conocer la distribución muestral de las proporciones?
Recordemos que se puede calcular la probabilidad. La fórmula
que se utilizará para el cálculo de probabilidad en una
distribución muestral de proporciones está basada en la
aproximación de la distribución normal a la binomial. Esta
fórmula nos servirá para calcular la probabilidad del
comportamiento de la proporción en la muestra.
Ecuación No.11
A esta fórmula se le puede agregar el factor de corrección
si se cumple con
las condiciones necesarias.
Ejemplo
Cálculo de Probabilidades. Distribución de proporciones muestrales
Cuarenta y seis por ciento de los sindicatos del país están en contra de comerciar
con la China Continental; ¿Cuál es la probabilidad de que en una encuesta a 100
sindicatos muestre que más del 52% tengan la misma posición?
P = 0,46 p = 0,52 n = 100 P(p>0,52) = ?
21,1
100
2484,0
06,0
100
54,046,0
46,052,0
n
PQ
PpZ
P ( z > 1,21) = 0,1131 P (p > 0,52) = 11,31%
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
63
Lección No 9: Distribución Muestral de Diferencias de Medias y
de la Proporciones
9. Dos poblaciones.
En esta sección es importante destacar que ya no se trabaja con una sola
población sino con dos, de las cuales se extraen muestras respectivamente para
ser analizadas y que permitan inferir y comparar las dos poblaciones.
9.1. Distribución Muestral de Diferencia de Medias
Suponga que se tienen dos poblaciones distintas, la primera con media y
desviación estándar , y la segunda con media y desviación estándar . Más
aún, se elige una muestra aleatoria de tamaño n1 de la primera población y una
muestra independiente aleatoria de tamaño n2 de la segunda población; se calcula
la media muestral para cada muestra y la diferencia entre dichas medias. La
colección de todas esas diferencias se llama distribución muestral de las
diferencias entre medias o la distribución muestral del estadístico
Figura 11. Distribución muestral de diferencia de medias
Imagen tomada de:
http://www.itch.edu.mx/academic/industrial/estadistica1/img/image811.gif
La distribución es aproximadamente normal para n1 30 y n2 30. Si las
poblaciones son normales, entonces la distribución muestral de medias es normal
sin importar los tamaños de las muestras. En ejercicios anteriores se había
demostrado que Y
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
64
Así que:
Ecuación No.12
√
Ecuación No.13
La fórmula que se utilizará para el cálculo de probabilidad del estadístico de
diferencia de medias es:
( ) ( )
√
Ecuación No.14
Ejemplo
Cálculo de Probabilidades. Distribución de diferencia de medias
muestrales
El rendimiento de los autos de la marca A es de 20 kilómetros por galón de
gasolina (k.p.g), con una desviación estándar de 6 k.p.g. las cifras comparables
para los autos B son de 25 y 5,5 k.p.g. se supone que el rendimiento de cada una
de ambas marcas está normalmente distribuido. ¿cuál es la probabilidad de que
en un concurso, el rendimiento medio para 10 autos de la marca A sea mayor que
el de 9 autos de la marca B?
x = 20 y = 25 x = 6
y = 5,5 1n = 10 2n = 9
P( yx > 0) = ?
90,1
96,6
5
36,36,3
50
9
25,30
10
36
25200
Z
P( yx > 0) = 0,5000 - 0,4713 = 0,0287 = 2,87%
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
65
9.2. Distribución muestral de diferencias de dos proporciones
Muchas aplicaciones involucran poblaciones de datos cualitativos que deben
compararse utilizando proporciones o porcentajes. A continuación se citan algunos
ejemplos:
Educación.- ¿Es mayor la proporción de los estudiantes que aprueban
matemáticas que las de los que aprueban inglés?
Medicina.- ¿Es menor el porcentaje de los usuarios del medicamento A que
presentan una reacción adversa que el de los usuarios del fármaco B que
también presentan una reacción de ese tipo?
Administración.- ¿Hay diferencia entre los porcentajes de hombres y
mujeres en posiciones gerenciales.
Ingeniería.- ¿Existe diferencia entre la proporción de artículos defectuosos
que genera la máquina A a los que genera la máquina B?
Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos
proporciones muestrales, la distribución muestral de diferencia de proporciones es
aproximadamente normal para tamaños de muestra grande (n1p1 5, n1q1 5,n2p2
5 y n2q2 5). Entonces p1 y p2 tienen distribuciones muestrales aproximadamente
normales, así que su diferencia p1-p2 también tiene una distribución muestral
aproximadamente normal.
Figura 12. Distribución muestral de diferencia de proporciones
Imagen tomada de:
http://www.itch.edu.mx/academic/industrial/estadistica1/img/image816.gif
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
66
En el caso de dos poblaciones independientes de tamaño 1N y 2N , distribuidas
binomialmente, con parámetros, medias poblacionales 1P y 2P (también se
pueden representar las medias por 1P y
2P ) y desviaciones proporcionales 1P y
2P , siendo: 111QPP y 222
QPP .
El error estándar de las diferencias entre las dos medias proporcionales estará
dada por:
2
22
1
11
21 n
QP
n
QPPP Cuando son valores poblacionales
Cuando 1n y 2n corresponden a muestras grandes, es decir, ambas superiores a
30:
2
22
1
11
21 n
qp
n
qps PP
La media de las diferencias entre dos medias proporcionales, se simboliza por:
212121PPPPPP
La variante estadística Z, estará dada en la misma forma en que fue presentada para diferencias entre dos medias muéstrales:
2
22
1
11
2121
2
22
1
11
21 21
n
qp
n
qp
PPpp
n
QP
n
QP
ppZ
PP
cuando 1n y 2n > 30
Ejemplo
Cálculo de Probabilidades. Distribución de diferencia de proporciones muestrales
Consideremos dos máquinas que producen un determinado artículo, la primera
produce por término medio un 14% de artículos defectuosos, en tanto que otra,
produce el 20% de artículos defectuosos; si se obtienen muestras de 200
unidades en la primera y 100 unidades en la segunda, ¿Cuál es la probabilidad
que difiera A de B en 8% o más?
P( 08,021 PP ) = ? 1n = 200 2n = 100 1P = 0,14 2P = 0,20
21 PP = 0,14 – 0,20 = -0.06
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
67
21 pp = 8% = 0,08
98,2
047,0
14,0
100
8,02,0
200
86,0014
06,008,0
Z
P( 08,021 PP ) = 0,0014 = 0,14%
Lección No 10: Tamaño de la muestra para estimar la media, la
proporción y el total de la Población
10. Tamaño de muestra
En el apartado anterior se analizó la forma de estimar los parámetros de la
población: P 2 Promedio, Varianza, total y proporción poblacional
respectivamente. Pero siempre que se realiza una investigación se debe definir el
tamaño de la muestra. Tomar observaciones para una muestra cuesta dinero, por
lo cual se debe tomar la muestra adecuada, que de la información necesaria y a
costos razonables. Una muestra mal tomada arroja información inadecuada, lo
que hace perder tiempo y dinero.
10.1. Tamaño de la Muestra para estimar µ:
Determinar el número de observaciones que harán parte de la muestra, para
estimar µ, con un límite de estimación B definido, se obtiene a partir de la
ecuación del error de estimación.
10.1.1. Para poblaciones Finitas y Varianza Poblacional Conocida:
1
2
)2/1(N
nN
nZB
Ecuación No.15
Despejando n, se obtiene:
222
22
)2/1(
)1(
ZBN
NZn
Ecuación No.16
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
68
Ejemplo
Un Banco desea identificar el promedio de cuentas por cobrar, estudios previos
han determinado que la variación de las cuentas está en $1.000. El Banco cuenta
con 1.400 clientes activos. Si el límite de error de estimación es de $50 ¿Cuál
debe ser el tamaño de la muestra a un nivel de significancia del 5%?
Se trata de una población finita. Por teoría la amplitud de variación es 4 veces la
desviación típica: A = 4σ entonces: σ = A/4 = 1.000/4 = 250
Z(1-α/2) = Z0,975 = 1,96
222
22
222
22
)2/1(
)250()96,1()50)(11400(
400.1)250()96,1(
)1(
ZBN
NZn
93,89100.240500.497'3
000.140'336
)250()96,1()50)(11400(
400.1)250()96,1(222
22
n
En las condiciones dadas, la muestra debe ser de n = 90 cuentas.
10.1.2. Para Poblaciones Infinitas y Varianza Poblacional Conocida:
Cuando N es muy grande, se asume una población infinita, en estos casos N –
1 se aproxima a N, entonces N – n ~ N, así se puede obtener el tamaño de una
muestra para poblaciones infinitas.
nZB
2
)2/1(
Ecuación No.17
Entonces:
2
22
)2/1(
B
Zn
Ecuación No.18
Ejemplo
En un estudio sobre el tamaño de las manos para el diseño de guantes, se
estableció que la longitud de estas sigue una distribución normal. Por datos
conocidos se sabe que la desviación típica es de 1,5 cm. ¿Cuál será el tamaño de
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
69
la muestra para estimar el promedio de la longitud de los guantes, si se asume un
error de estimación de 0,5 cm. y un nivel de significancia del 5%?
Z(1-α/2)=Z0,975 = 1,96
B = 0,5 y σ = 1,5
Según el problema la población es infinita, entonces:
57,34)5,0(
)5,1()96,1(2
22
2
2
)2/1(
B
Zn
En tamaño requerido para estimar la media de la longitud de los guantes, con un
error de estimación de 0,5 cm. y un nivel de significancia del 5% debe ser de n =
35 observaciones.
10.2. Tamaño de la Muestra para estimar P:
En muchos estudios el Investigador está interesado en estimar la proporción de
población que tienen la característica, como la proporción de dietas preparadas
del total de dietas planeadas, la proporción de aves con un peso definido respecto
al total de aves pesadas, el porcentaje de personas que observan un programa de
televisión respecto al total de la población potencial que puede ver la televisión.
Dichos fenómenos son de tipo binomial.
Se sabe que:
n
i
iyn
p1
1 Para yi = 1.
El número de observaciones necesarias para estimar la proporción poblacional,
con un límite de error de estimación asumido B y un nivel de significancia
definido, está dado a partir de la ecuación del error de estimación.
N
nN
n
qpZB
1
*)2/1(
Ecuación No.19
Despejando n se obtiene:
qpZNB
NBNqpZn
*
*2
)2/1(
2
22
)2/1(
Ecuación No.20
NOTA: Cuando no se conoce o no se puede determinar el valor de p, entonces se
asume como un caso dudoso y en estos casos p = 0,5
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
70
Ejemplo
En una ciudad se desea realizar una encuesta para determinar la proporción de
habitantes que están de acuerdo con el consumo de cigarrillo. La ciudad tiene
7.500 habitantes y por estudios previos se ha determinado que de cada 100
habitantes, 15 están de acuerdo. ¿Cuál debe ser el tamaño de la muestra para
estimar la proporción poblacional P; con un límite de error de estimación de 0,05 y
un nivel de significancia del 5%.
Por los datos:
15,0100
15p
Luego 85,015,01 q
Aplicando la ecuación correspondiente:
)85,0)(15,0()96,1()05,0)(500.7(
)05,0)(500.7()500.7)(85,0)(15,0()96,1(
*
*22
22
2
)2/1(
2
22
)2/1(
qpZNB
NBNqpZn
4898,075,18
75,1853,3673
)85,0)(15,0()96,1()05,0)(500.7(
)05,0)(500.7()500.7)(85,0)(15,0()96,1(22
22
n
908,1912398,19
28,3692
4898,075,18
75,1853,3673
n
Por consiguiente se debe tomar una muestra de 192 habitantes para estimar la
proporción poblacional, con un límite de error de 0,05 y un nivel de confianza de
95%.
Ejemplo
En una compañía de 3.500 empleados, se desea saber la proporción de
empleados que están a favor de la organización de un Sindicato. El investigador
tomo una muestra de 400 empleados fruto del cálculo respectivo; además, asume
un nivel del 5%. Por ser una compañía relativamente nueva, NO hay datos al
respecto. ¿De qué valor fue tomado el error de estimación del muestreo?
Inicialmente por no conocer proporciones anteriores, entonces se asume un
fenómeno dudoso, así p = 0,5 luego q = 0,5. Conocemos el tamaño de la
población y de la muestra. Debemos despejar B de la ecuación del tamaño
muestral.
qpZNB
NBNqpZn
*
*2
)2/1(
2
22
)2/1(
Despejando B:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
71
500.3500.3*400
000.4*5,0*5,0*)96,1(500.3*5,0*5,0*)96,1(** 222
)2/1(
2
)2/1(2
NnN
nqpZNqpZB
002132,0500.396'1
24,977.2
500.3500.3*400
000.4*5,0*5,0*)96,1(500.3*5,0*5,0*)96,1( 222
B
04617,0002132,0 B
El error de estimación tomado fue casi de 0,04617, es decir casi 0,05
Ejemplos
1. El mantenimiento de cuentas puede resultar demasiado costoso, si el promedio de compra por cuenta baja de cierto nivel. El gerente de un gran almacén por departamentos desea estimar el promedio de lo comprado mensualmente por los clientes que usan la cuenta de crédito, con un error de $1.500, y una probabilidad aproximada de 0,95. ¿Cuántas cuentas deberá seleccionar, si sabe que la desviación estándar es de $30.000, la cual fue obtenida de los balances mensuales de la cuenta de crédito?
n = 2
22
E
Z =
2
22
500.1
000.302 = 1.600 cuentas se deben seleccionar
2. un auditor desea tener un nivel de confianza del 95%, para que la verdadera proporción de error no exceda del 2%. Si la población es muy grande, ¿Qué tamaño tendrá la muestra que va a tomarse, si el auditor estima que la proporción de error es del 5%?
n = 2
2
E
PQZ =
2
2
02,0
95,005,02 = 475 cuentas
Calculo de n en poblaciones finitas
La fórmula más utilizada para el tamaño óptimo en el muestreo aleatorio simple, cuando la población es finita, se obtiene:
n =
N
n
n
o
o
1
donde: 2
22
E
Zno
En variables
n =
N
n
n
o
o
1
donde: 2
2
E
PQZno En proporciones
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
72
10.3. Tamaño de la Muestra para estimar Г:
El número de observaciones necesarias para estimar Г, el total poblacional, con
un límite de error de estimación asumido B y un nivel de significancia definido,
está dado a partir de la ecuación del error de estimación, partiendo que se conoce
la varianza poblacional.
1
22
)2/1(N
nN
nNZB
Ecuación No.21
Despejando n se obtiene:
222
)2/1(
2
232
)2/1(
)1( NZBN
NZn
Ecuación No.22
Ejemplo
Una compañía que hace estudios a nivel social, desea estimar el total de ingresos
de una población de 3.000 habitantes que tiene ingresos. Por estudios previos se
sabe que la varianza poblacional para los ingresos es de $40.000 ¿Cuántas
personas se deben tomar como muestra, si se asume un límite de error de
estimación de $100.000 y un nivel de confianza del 95%?
Los datos:
N = 3.000
σ2 = 40.000
B = 100.000
Entonces:
222
)2/1(
2
232
)2/1(
)1( NZBN
NZn
Para Z(1-α/2) = Z0,975 = 1,96 Reemplazando en la ecuación:
000.40)000.3()96,1()000.100)(1000.40(
000.40)000.3()96,1(222
32
n
281,71001372976,4
109225,2
10382976,1109999,3
10148928,414
15
1214
15
X
X
XX
Xn
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
73
Por consiguiente para estimar el promedio de ingresos de la población objeto de
estudio, con un nivel de confianza del 95% y el error de estimación de $40.000, se
debe tomar una muestra aleatoria de 8 personas.
10.4. Tamaño de muestra para la diferencia de dos medias
Para calcular los tamaños de muestras en estos casos, se presentan dos
situaciones:
Tamaños de muestras iguales
Tamaños de muestras diferentes Para el primer caso no se tiene ningún problema porque al ser n1 sería igual n2
Se calcula una sola muestra de tamaño “n”
(
)
Ecuación No.23
Para el segundo caso se calcula una “n” en función de la otra así.
(
)
Ecuación No.24
10.5. Tamaño de muestra para la diferencia de dos proporciones
En este caso se calculan los tamaños con los mismos criterios anteriores, es decir
para muestras de igual tamaño y tamaños desiguales, así:
Tamaños Iguales:
( )
Ecuación No.25
Tamaños Desiguales:
( )
Ecuación No.26
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
74
CAPITULO TRES: INTERVALOS DE CONFIANZA
Introducción
El problema que presenta la estimación puntual de un parámetro reside en que
no garantiza ni mide la precisión de la estimación. Sólo la bondad de ajuste y el
tamaño de la muestra pueden proporcionar una mayor o menor confianza en la
estimación obtenida. Por esta razón es necesario dar, junto a la estimación, una
medida del grado de confianza que se merece, la cual se consigue mediante un
intervalo de confianza que proporcione unos límites dentro de los cuales se
confía esté el valor desconocido del parámetro. Esta confianza de inclusión se
mide mediante un porcentaje.
Con frecuencia se encuentra información como la siguiente:
El peso de un objeto es 104 más o menos 2 gramos.
El diámetro de un tornillo es de 8 más o menos 0.05 milímetros.
El contenido de proteínas de la carne de pollo es de 20.2 más o menos 1%.
En estos casos y otros similares se quiere indicar que la media verdadera se
encuentra en algún lugar entre el intervalo.
Lo anterior indica que existe la probabilidad de error en la medición y además no
se puede estar absolutamente seguro que el verdadero valor se encuentre
dentro del intervalo obtenido. Nótese que si el intervalo se hace más amplio
aumenta la posibilidad que se incluya el verdadero valor de la media.
Objetivo general
Mostrar los diferentes métodos para calcular los intervalos de confianza, a partir
de muestras grandes y pequeñas, para estimar los parámetros poblacionales de
una media y proporción, así como para la diferencia de medias y proporciones.
Objetivos específicos
Calcular el intervalo de confianza para estimar el parámetro poblacional a
partir de muestras pequeñas, para una media y una proporción.
Calcular el intervalo de confianza para estimar el parámetro poblacional a
partir de muestras grandes, para una media y una proporción.
Calcular el intervalo de confianza para la diferencia de dos medias y dos
proporciones.
Exponer el uso de cálculo de intervalos de confianza utilizando paquetes de
Excel y SSPS.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
75
Lección No 11: Nociones Fundamentales.
En estadística muchos problemas exigen construir conjuntos (intervalos) que
contengan el verdadero valor del parámetro en estudio con una probabilidad
dada generalmente alta. Si por ejemplo X representa los grados de grasa de
una margarina se puede estar interesado en encontrar los límites bajos y altos
aceptables para este tipo de producto; pero no se puede asegurar con
probabilidad de uno que el verdadero valor se encuentre entre estos dos límites,
lo máximo que se puede lograr es elegir un número uno menos alfa ( 1 ) que
esté muy próximo a uno (recuerde que alfa es el nivel de significación o error
tipo uno) tal que la probabilidad que el verdadero valor se encuentre entre estos
dos límites inferior y superior sea mayor o igual a uno menos alfa.
En la práctica se elige un alfa fijo generalmente pequeño 0.01 o 0.05. La
probabilidad que la afirmación del intervalo incluya al parámetro sea cierta es
por lo menos (1 ) ; por lo tanto la probabilidad que la afirmación sea falsa es
por lo más un alfa. Un intervalo de confianza dado que incluya o no el verdadero
valor del parámetro, esto nunca se conoce con exactitud al menos que se
conozca el parámetro, pero se sabe que se tendrá éxito en encontrar el valor
verdadero del parámetro dentro de este tipo de intervalos por lo menos en el
(1 ) 100% de las veces.
Los dos tipos de problemas que resuelven las técnicas estadísticas son:
estimación y contraste de hipótesis. En ambos casos se trata de generalizar la
información obtenida en una muestra a una población. Estas técnicas exigen
que la muestra sea aleatoria. En la práctica rara vez se dispone de muestras
aleatorias, por la tanto la situación habitual es la que se esquematiza en la figura
Figura 13. Estimación
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
76
Entre la muestra con la que se trabaja y la población de interés, o población
diana, aparece la denominada población de muestreo: población (la mayor parte
de las veces no definida con precisión) de la cual nuestra muestra es una
muestra aleatoria. En consecuencia la generalización está amenazada por dos
posibles tipos de errores: error aleatorio que es el que las técnicas estadísticas
permiten cuantificar y críticamente dependiente del tamaño muestral, pero
también de la variabilidad de la variable a estudiar y el error sistemático que
tiene que ver con la diferencia entre la población de muestreo y la población
diana y que sólo puede ser controlado por el diseño del estudio.
11. Estimación.
El objetivo principal de la estadística inferencial es la estimación, esto es que
mediante el estudio de una muestra de una población se quiere generalizar las
conclusiones al total de la misma. Como vimos en la sección anterior, los
estadísticos varían mucho dentro de sus distribuciones muestrales, y mientras
menor sea el error estándar de un estadístico, más cercanos serán unos de otros
sus valores.
Gráfico No.7 Estimación
La inferencia estadística está casi siempre concentrada en obtener algún tipo de
conclusión acerca de uno o más parámetros (características poblacionales). Para
hacerlo, se requiere que un investigador obtenga datos muestrales de cada una de
las poblaciones en estudio. Entonces, las conclusiones pueden estar basadas en
los valores calculados de varias cantidades muestrales. Por ejemplo,
representamos con (parámetro) el verdadero promedio de resistencia a la
ruptura de conexiones de alambres utilizados para unir obleas de
ESTIMACION
Puntual:
Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro. El estadístico usado se denomina estimador
Por intervalos:
Una estimación por intervalo es un rango, generalmente de ancho finito, que se espera que contenga el parámetro, de la forma (a, b)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
77
semiconductores. Podría tomarse una muestra aleatoria de 10 conexiones para
determinar la resistencia a la ruptura de cada una, y la media muestral de la
resistencia a la ruptura se podía emplear para sacar una conclusión acerca del
valor de . De forma similar, si es la varianza de la distribución de resistencia a
la ruptura, el valor de la varianza muestral s2 se podría utilizar para inferir algo
acerca de .
11.1. Estimación puntual
Cuando se analizan conceptos generales y métodos de inferencia es conveniente
tener un símbolo genérico para el parámetro de interés. Se utilizará la letra
griega para este propósito. El objetivo de la estimación puntual es seleccionar
sólo un número, basados en datos de la muestra, que represente el valor más
razonable de .
Una estimación puntual de un parámetro es un sólo número que se puede
considerar como el valor más razonable de . La estimación puntual se obtiene al
seleccionar una estadística apropiada y calcular su valor a partir de datos de la
muestra dada. La estadística seleccionada se llama estimador puntual de .
El proceso de estimación conlleva a obtener un estimador que tenga ciertas
condiciones deseables para hacer inferencia sobre el modelo de probabilidad que
ha generado los datos. Entre los métodos de estimación de la estadística
paramétrica, se tiene: Momentos, mínimos cuadrados y máxima verosimilitud.
Gráfico No.8 Estimación puntual
ESTIMACIÓN PUNTUAL
Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro. El estadístico usado se denomina estimador
Media poblacional
Proporción Total
poblacional De
proporciones Diferencias de
medias
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
78
11.2. Intervalos de confianza
Es un conjunto de valores formado a partir de una muestra de datos, de forma que
exista la posibilidad de que el parámetro poblacional se encuentre en dicho
intervalo, cuyos extremos son aleatorios; con una probabilidad especifica que
efectivamente se encuentre allí el parámetro, llamada nivel de confianza (NC).
La estimación por intervalo se calcula al sumar o restar al estimador puntual una
cantidad llamada margen de error. La fórmula general de una estimación por
intervalo es:
Dependiendo del estadístico a usar el margen de error puede ser:
Tabla 12:
Margen de error
MARGEN DE ERROR
Se conoce la varianza
Poblacional
Estadístico
Si No
Media (
) (
)
Gráfico No.9 Intervalos de confianza
Clic acá para ver Recurso: Mapas conceptuales intervalos de confianza
INTERVALOS DE CONFIANZA
UNA POBLACIÓN
MUESTRAS GRANDES n
>=30
Proporción
Media
MUESTRAS PEQUEÑAS
n<30
Media
DOS POBLACIONES
MUESTRAS GRANDES n>=30
Diferencia de medias
Diferencia de proporciones
MUESTRAS PEQUEÑAS n<30
Diferencia de medias
VARIANZA
𝐸𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛 ±𝑀𝑎𝑟𝑔𝑒𝑛 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
79
Tabla 13. Valores de Z y Z más frecuentemente utilizados
Za
Test unilateral Test bilateral
0.200
0.150
0.100
0.050
0.025
0.010
0.842
1.036
1.282
1.645
1.960
2.326
1.282
1.440
1.645
1.960
2.240
2.576
Potencia
(1-) Zb
0.01
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.99
0.95
0.90
0.85
0.80
0.75
0.70
0.65
0.60
0.55
0.50
2.326
1.645
1.282
1.036
0.842
0.674
0.524
0.385
0.253
0.126
0.000
Nivel de Confianza y significancia.
La probabilidad de que el verdadero valor del parámetro se encuentre en el
intervalo construido se denomina nivel de confianza, y se denota . La
probabilidad de equivocarnos se llama nivel de significancia y se simboliza .
Generalmente se construyen intervalos con confianza 9 (o significancia
. Menos frecuentes son los intervalos con o .
VIDEOS
Intervalo de
confianza para la
media
Intervalo de confianza
para la diferencia de
medias
Intervalo de
confianza para la
proporción
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
80
Lección 12. Intervalos de confianza para medias y diferencias de
medias con muestras pequeñas 30n
La inferencia de la distribución muestral de la media en muestras grandes es una
curva normal. Con mucha frecuencia la varianza se desconoce 2σ en los
problemas de la vida real. Cuando se desconoce la varianza el estadígrafo z ya no
puede utilizarse para obtener intervalo de confianza. Parece lógico desarrollar
procedimientos en los cuales se utilice 2S en lugar de 2σ , de esta manera en lugar
del estadígrafo z utilizaremos el para deducir inferencias acerca de la media. Si
la media de la población es μ la distribución muestral de 1-nt es una distribución t,
teniendo en cuenta que las observaciones, x1, x2, x3,… xn son elegidas
aleatoriamente y extraídas de una población normal.
Entonces, queda claro que cuando las muestras son pequeñas la distribución
muestral es la distribución t. Esta se caracteriza porque es más puntual que la
distribución normal, reuniendo mayor proporción de casos en los extremos de la
curva a diferencia de la distribución normal.
La distribución t a medida que el tamaño de la muestra "n" aumenta, tal
distribución t se va pareciendo más a la normal, de tal modo que cuando n > 30
no existen diferencias entre la distribución normal y la distribución t. Entonces,
cuando n < 30 existe una curva diferente para cada valor de "n".
Grados de libertad.
Números de elementos en una muestra que pueden variar después de haber
seleccionado cierto número de ellas. Supóngase que existen dos elementos en
una muestra y se conoce la media. Se tiene libertad para especificar sólo uno de
los dos valores, ya que el otro queda determinado automáticamente; queda claro
que el total de los dos valores es dos veces la media.
Ejemplo
Si la media es de $ 6 pesos es posible elegir sólo un valor. Si se elige $ 4 pesos el
otro valor es $ 8, ya que $ 4 + $ 8 = 12 /2 = $ 6. Así que hay un grado de libertad
en este ejemplo. Se podría haber determinado mediante n - 1 = 2 - 1 = 1 grados
de libertad. Si n=4, entonces hay 3 grados de libertad, lo que se obtiene mediante
n - 1 = 4 – 1 = 3.
1nt
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
81
En general, para la distribución t de Student, se puede decir que el número de
grados de libertad es igual al tamaño de la muestra o número de datos menos
uno, es decir: g.l =
12. Pasos para la construcción de un Intervalo de confianza para la media
μ, muestras pequeñas.
1. Determinar el nivel de confianza al que vamos a trabajar.
2. Obtener los grados de libertad g • L = n – 1
3. Calcular el valor t correspondiente al nivel de confianza fijado con
grados de libertad y con ayuda de la tabla del anexo.
4. La tabla se divide en 10 columnas. La primera indica los grados de
libertad, y las siguientes columnas corresponden a los niveles de
significancía que son 0.5, 0.4, 0.2, 0.1, 0.05, 0.025, 0.010, 0.005 y
0.001
5. De esta manera para un valor t correspondiente a un nivel de
significancía del 10% y 18 grados de libertad hay que buscar la
intersección de la columna del 10% y la fila donde aparezca 18 (grados)
g • 1, obteniendo un valor de t = 1.734
6. Calcular el error típico de la media y determinar el error muestral
7. Determinar el intervalo de confianza para la media de la población,
sumando y restando a la media de la muestra ( x ) el error muestral así:
n
StX
Ecuación No.27
1nt
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
82
con n – 1 grados de libertad y el valor de t depende del nivel de confianza.
Ejemplo Intervalo de confianza para pequeñas muestras
Una muestra de 10 cajas de atún dio un peso neto medio de 184 gramos y una
desviación estándar de 3.0 gramos. Encontrar los límites de confianza con un 95%
para el verdadero peso promedio de todas las latas de atún.
La siguiente grafica nos ayuda a comprender la presente situación:
Gráfico No.10 Distribución t-student con 9 grados de libertad
En la tabla de la distribución t con 9 grados de libertad y un nivel de significancia
del 5% para dos colas, se registra un valor de 2.69 como valor crítico. (Recuerde
que es a dos colas.
El intervalo de confianza para la media de peso de todas las cajas de atún está
dado por:
± (
) ± 6 (
) ± 6 ( 6 )
Se interpreta que las cajas de atún tienen un promedio de peso entre 181.85 y
186.14 gramos con un nivel de confianza del 95% y expresado matemáticamente
es: ( 6 ) 9
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
Pro
bab
ilid
ad
Valor estadístico t
Distribución T-student con V grados de libertad
/2 0,025 1 0,95/2 0,025
1 0,95
-2,69 +2,69
Grados de Libertad n-1 =
10 - 1= 9
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
83
La tabla t-student que se usa en este módulo es a dos colas, por
tanto deben ubicarse en la columna directamente del nivel de
significancia que se esté aplicando, es decir, si el alfa es de 5% se
ubica en la columna del 0,05 y busca los grados de libertad
correspondiente.
Clic acá para descargar tablas
12.1. Intervalos diferencias de medias, varianzas desconocidas pero
iguales ( = = )
Cuando las varianzas son desconocidas, se debe realizar previamente una prueba
estadística para verificar si éstas son iguales o diferentes. Para realizarlo debemos
hacer uso de la distribución F, bien sea mediante el cálculo de la probabilidad de
que la muestra tomada provenga de dos poblaciones con varianzas iguales, o
mediante el uso de un intervalo de confianza para la relación de dos varianzas,
según se estudiará más adelante.
Gráfico No.11 Intervalos de confianza para diferencia de medias
INTERVALO PARA LA
DIFERENCIA DE MEDIAS
(varianza desconocida )
Verificar si las varianzas son iguales usando la prueba F
F
SI.
Aplicar la fórmula:
𝛼 ⁄
El limite inferior se obtiene restandole a la diferencia de medias muestrales lo que da la fórmula y
el limite superior sumando.
NO.
Usar fórmula de intervalo para la diferencia de medias
pero con varianzas desiguales
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
84
Primera fase: Probar varianzas iguales
Gráfico No.12 Distribución F. Prueba varianzas iguales
Ejemplo Prueba para determinar si las varianzas son iguales.
Para encontrar si un nuevo suero detiene la leucemia, se seleccionan nueve
ratones, todos con una etapa avanzada de la enfermedad. Cinco ratones reciben
el tratamiento y cuatro no. Los tiempos de sobrevivencia en años, a partir del
momento en que comienza el experimento son los siguientes:
Con Tratamiento 2.1 5.3 1.4 4.6 0.9
Sin Tratamiento 1.9 0.5 2.8 3.1
Con un nivel de significancia del 0.05 pruebe que las varianzas son iguales.
Datos:
Con tratamiento Sin tratamiento
s= 1.97 s = 1.1672
n = 5 n = 4
Estadístico de prueba: F
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
85
La sugerencia que se hace es que el numerador sea el de valor mayor . En este
caso la desviación más grande corresponde a la muestra “con tratamiento”.
Entonces los grados de libertad se calculan restándole 1 al tamaño de la muestra;
ya que con tratamiento se ubica en el numerador, los grados de libertad de dicho
numerador son 4.
GL1= 5-1 = 4 y GL2 = 4-1=3.
Gráfico No.13 Prueba de varianzas iguales. Tratamiento de leucemia
Regla de decisión:
Si 0.10 Fc 15.1 no hay evidencia para decir que las varianzas NO son iguales,
Si la Fc < 0.10 ó si Fc > 15.1 las varianzas No son iguales.
Cálculo:
F
9
6
Decisión y Justificación:
Como 2.85 esta entre los dos valores de Ho no se rechaza , y se concluye con
un = 0.05 que existe suficiente evidencia para decir que las varianza de las
poblaciones son iguales.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
86
Si mediante el uso de la distribución F se llega a la conclusión de que las
varianzas son iguales, el procedimiento a seguir para el cálculo del intervalo de
confianza para la diferencia de dos medias será el siguiente:
Pasos después de verificar que las varianzas son iguales:
a) El estadístico usado como estimador puntual de la diferencia de medias µ1 - µ2
será T, que es un estimador suficiente.
b) La variable aleatoria asociada con el estimador será la variable T definida como:
Ecuación No.28
Donde es un estimador combinado de , mejor que
o por separado, y
( ) ( )
Ecuación No.29
c) Para calcular el intervalo de confianza se debe tener en cuenta la siguiente
probabilidad:
[
⁄
( )
⁄
]
Ecuación No.30
De nuevo, manipulando la expresión anterior en forma similar a los casos se llega
al siguiente teorema que nos define el intervalo de confianza para la diferencia
entre dos medias µ1 - µ2 con varianzas desconocidas y
, pero iguales:
Segunda fase: intervalo de confianza
𝑻 𝑿𝟏 𝑿𝟐
𝝁𝟏 𝝁𝟐
𝑺𝒑 𝟏𝒏𝟏
𝟏𝒏𝟐
≈ 𝒕𝜶𝟐⁄ 𝒏𝟏 𝒏𝟐 𝟐
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
87
Teorema. Si , , y
son las medias y las varianzas de dos muestras
aleatorias de tamaños n1 y n2, respectivamente, tomadas de dos poblaciones
normales e independientes con varianzas desconocidas pero iguales, entonces un
intervalo de confianza del 100(1- )% para la diferencia entre medias µ1 - µ2 es:
Ecuación No.31
Si el intervalo de confianza que se construye contiene al cero (0) no
existe diferencia significativa entre las medias .
Ejemplo Intervalo de confianza para pequeñas muestras
La siguiente tabla presenta los resultados de dos muestras aleatorias para comparar el
contenido de nicotina de dos marcas de cigarrillos.
Marca A Marca B
10 8
3,1 2,7
0,5 0,7
Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de
poblaciones normales con varianzas desconocidas, construya un intervalo de
confianza del 95% para la diferencia real de nicotina de las dos marcas.
Inicialmente mediante la distribución F debemos verificar si las varianzas son
iguales
( = = )
𝑿𝟏 𝑿𝟐
𝒕𝜶𝟐 𝒏𝟏 𝒏𝟐 𝟐
⁄ 𝑺𝒑√𝟏
𝒏𝟏
𝟏
𝒏𝟐 𝝁𝟏 𝝁𝟐 𝑿𝟏
𝑿𝟐 𝒕𝜶
𝟐 𝒏𝟏 𝒏𝟐 𝟐⁄ 𝑺𝒑√
𝟏
𝒏𝟏
𝟏
𝒏𝟐
Primera fase: Probar varianzas iguales
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
88
Buscando en la tabla de la distribución F para 7 grados de libertad en el
numerador y 9 en el denominador, vemos que los dos valores que acotan la zona
de aceptación son 0.207 y 4,197, entonces el F calculado 1,96 cae en la zona de
aceptación . Se concluye que no hay evidencia para rechazar la hipótesis de que
las varianzas sean iguales.
Como las varianzas son iguales, calculamos que está dado por:
El intervalo de confianza del 95% está dado por (t0.025,16 = 2.12):
Debido a que la diferencia real puede ser nula, ya que el intervalo construido
contiene al cero, no se puede concluir que existe una diferencia en el contenido de
nicotina de las dos marcas de cigarrillos.
Ejercicio propuesto
El gerente de una refinería piensa modificar el proceso para producir gasolina a
partir de petróleo crudo. El gerente hará la modificación sólo si la gasolina
promedio que se obtiene por este nuevo proceso (expresada como un porcentaje
del crudo) aumenta su valor con respecto al proceso en uso. Con base en
experimentos de laboratorio y mediante el empleo de dos muestras aleatorias de
tamaño 12, una para cada proceso, la cantidad de gasolina promedio del proceso
en uso es de 24.6 con una desviación estándar de 2.3, y para el proceso
propuesto fue de 28.2 con una desviación estándar de 2.7. El gerente piensa que
los resultados proporcionados por los dos procesos son variables aleatorias
independientes normalmente distribuidas con varianzas iguales. Con base en esta
evidencia, ¿debe adoptarse el nuevo proceso?
Segunda fase: intervalo de confianza
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
89
12.2. Intervalos para diferencias de medias y varianzas desconocidas y
desiguales
Si mediante el uso de la distribución F se llega a la conclusión de que las
varianzas son diferentes, el procedimiento a seguir para el cálculo del intervalo de
confianza para la diferencia de dos medias será el siguiente:
a) El estadístico usado como estimador puntual de la diferencia de medias µ1 - µ2
será , que es un estimador suficiente
b) La variable aleatoria asociada con el estimador será la variable T definida como:
Estadístico de prueba para la diferencia de medias con varianzas desiguales
V: grados de libertad
Donde V es:
c) El intervalo de confianza está dado por el siguiente teorema, basado en la
distribución t con n grados de libertad.
Teorema. Si
son las medias y las varianzas de dos muestras
aleatorias de tamaños n1 y n2, respectivamente, tomadas de dos poblaciones
normales e independientes con varianzas desconocidas y desiguales, entonces un
intervalo de confianza aproximado del 100( )% para la diferencia entre medias
µ1 - µ2 es:
𝑻𝒄 𝒙𝟏 𝒙𝟐 (𝝁𝟏 𝝁𝟐)
√𝑺𝟏𝟐
𝒏𝟏 𝑺𝟐𝟐
𝒏𝟐
≈ 𝒕𝒗
𝒗
𝑺𝟏𝟐
𝒏𝟏 𝑺𝟐𝟐
𝒏𝟐
𝟐
[ 𝑺𝟏𝟐
𝒏𝟏
𝟐
𝒏𝟏 𝟏
]
[ 𝑺𝟐𝟐
𝒏𝟐
𝟐
𝒏𝟐 𝟏
]
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
90
Ecuación No.32
Ejemplo
Un fabricante de monitores prueba dos diseños de microcircuitos para determinar si
producen un flujo de corriente equivalente. El departamento de ingeniería ha obtenido los
datos siguientes:
Diseño 1 n1 = 16
s12 = 10
Diseño 2 n2 = 10
s22 = 40
Con = 0.05, se desea determinar si existe alguna diferencia significativa en el flujo
de corriente promedio entre los dos diseños, donde se supone que las dos
poblaciones son normales, pero no es posible suponer que las varianzas
desconocidas sean iguales.Tomado de la web del Instituto Tecnológico de
Chihuaha, México)
Estadístico de prueba:
F
La sugerencia que se hace es que el numerador sea el de valor mayor . En este
caso la desviación más grande corresponde a la muestra “Diseño 2”.
Entonces los grados de libertad GL1= 10-1 = 9 y GL2 = 16-1=15.
𝑿𝟏 𝑿𝟐
𝒕𝜶𝟐⁄ 𝒗 √
𝑺𝟏𝟐
𝒏𝟏 𝑺𝟐𝟐
𝒏𝟐 𝝁𝟏 𝝁𝟐 𝑿𝟏
𝑿𝟐 𝒕𝜶
𝟐 𝒗⁄ √𝑺𝟏𝟐
𝒏𝟏 𝑺𝟐𝟐
𝒏𝟐
Primera fase: Probar varianzas iguales
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
91
Gráfico No.14 Prueba de varianzas iguales. Diseño de microcircuitos
Decisión y Justificación:
Como 4 es mayor que 3.12, esta en la zona de rechazo, se concluye con un = 0.05 no existe suficiente evidencia para decir que las varianza de las poblaciones son iguales, por tanto se suponen varianzas diferentes.
⁄ √
Para poder buscar el valor de t en la tabla, se necesita saber el valor de los grados de libertad:
[
]
[
]
(
)
[(
)
] [
(
)
]
Este valor se redondea al próximo menor que sería 11. Entonces los grados de libertad son 11.
Segunda fase: intervalo de confianza
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
92
Ver la tabla t-student en los Contenidos del curso, Anexo: Tablas estadísticas.
Recuerde que si el nivel de significancia es 0,05 debe ubicarse directamente en la columna 0,05 con 11 grados de libertad, ya que siempre un intervalo de confianza supone una distribución a dos colas y el Excel por defecto supone distribución a dos colas con la función =DISTR.T.INV, por tanto, no es necesario dividir el alfa en dos.
En el caso de las pruebas de hipótesis se pueden dar pruebas a una o dos colas, por ello cuando se utilice la tabla t-student del anexo si la prueba tiene un alfa de 0,05 y es a una cola, usted deberá ubicar la columna 0,10 ( es decir multiplica por dos el alfa antes de ver en la tabla).
Estadístico de prueba
Se aplica el estadístico de prueba para la diferencia de medias con varianzas desiguales:
( )
.
Y se compara con los valores encontrados en la tabla t-student con 11 grados de
libertad y un = 0.05
Gráfico No.15 Intervalos de confianza. Diseño de microcircuitos
Justificación y decisión:
Como 0.1395 esta entre –2.201 y 2.201, no se rechaza la hipótesis de que las
diferencia de medias es cero. Se concluye con un = 0.05, que no existe
diferencia significativa en el flujo de corriente promedio entre los dos diseños.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
93
El intervalo de confianza aplicando la ecuación No.32 es:
( . . ) √
( . . ) √
Al realizar los cálculos se tiene que el intervalo de confianza para la diferencia de
las medias del flujo corrientede los diseños es (-4,43; 5,033) el cual contiene al
número cero, por tanto no hay evidencia de diferencias entre los diseños, es decir
que producen un flujo de corriente equivalente y por tanto es indiferente el diseño
que seleccione el fabricante de monitores para los microcircuitos.
En el ejemplo anterior si en el intervalo no estuviera el cero, por ejemplo un
intervalo (0.12 ; 3) se concluiría que la diferencia entre los amperajes
promedios esta entre 0.12 y 3; además que el diseño 2 produce un flujo
promedio de corriente mayor, por lo cual el fabricante de monitores escogería
dicho diseño.
Ejercicio propuesto
Cierto metal se produce, por lo común, mediante un proceso estándar. Se
desarrolla un nuevo proceso en el que se añade una aleación a la producción del
metal. Los fabricantes se encuentran interesados en estimar la verdadera
diferencia entre las tensiones de ruptura de los metales producidos por los dos
procesos. Para cada metal se seleccionan 12 ejemplares y cada uno de éstos se
somete a una tensión hasta que se rompe. La siguiente tabla muestra las
tensiones de ruptura de los ejemplares, en kilogramos por centímetro cuadrado:
Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e
independientes, obtener los intervalos de confianza estimados del 95 y 99% para
la diferencia entre los dos procesos. Interprete los resultados
En el caso de que el intervalo no contenga al cero, se rechaza la
hipótesis de que las medias son iguales, por tanto al ser diferentes se
asume que 𝜇 es mayor que 𝜇
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
94
12.3. Intervalos unilaterales para diferencias de medias y varianzas
desconocidas e iguales
En algunas situaciones prácticas, no es necesario encontrar tanto el limite inferior
como el limite superior para el parámetro de interés, sino solo uno de ellos. Por
esta razón, ahora se contruirán intervalos unilaterales para la diferencia de medias
cuando las varianzas son desconocidas pero iguales.
Ejemplo
Usar los datos del ejemplo del fabricante de monitores que prueba dos diseños de
microcircuitos para determinar si producen un flujo de corriente equivalente, pero en este
caso construir un intervalo unilateral para diferencia de medias con varianzas
desconocidas pero iguales
Población1 Población2
Tamaño de la muestra = 16 10
Cuasi varianza = 10 40
Media muestral = 24,2 23,9
Nivel de confianza = 0,95
Caso de varianzas poblacionales desconocidas pero iguales
Intervalo bilateral Intervalos unilaterales
to = 2,063898562 to = 1,71088208
Radio del intervalo = 3,835257238 Radio = 3,179261327
Límite infer.= -3,535257238 Cota inferior = -2,879261327
Límite super.= 4,135257238 Cota superior = 3,479261327
El procedimiento en el caso unilateral es idéntico al bilateral, en primer lugar se
prueba si las varianzas son iguales y luego se procede a calcular el intervalo de
confianza; pero en el caso unilateral cuando se calcula el estadístico teórico (ó
tabulado) se debe multiplicar por dos (2) el nivel de confianz alfa (); en excel se
obtiene con la función =DISTR.T.INV(2*(1-);n1+n2-2)
Los valores de la table se obtienen así:
Estadístico tabulado
to =DISTR.T.INV(2*(1-0,95);16+10-2)
Radio
Recordar:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
95
√( )
( )
( ) √
( ) √
( ) ( )
√
Cota inferior y superior
12.4. Intervalos unilaterales para diferencias de medias y varianzas
desconocidas y desiguales
Ejemplo
Usar los datos del ejemplo del fabricante de monitores que prueba dos diseños de
microcircuitos para determinar si producen un flujo de corriente equivalente, pero en este
caso construir un intervalo unilateral para diferencia de medias con varianzas
desconocidad pero desiguales.
Caso de varianzas poblacionales desconocidas y desiguales
Intervalo bilateral Intervalos unilaterales
Cuasivarianza1/Cuasivarianza2= 0,25
Grados de libertad= 11
to = 2,20098516 to = 1,795884819
Radio del intervalo = 4,733397564 Radio = 3,862196338
Límite infer.= -4,433397564 Cota inferior = -3,562196338
Límite super.= 5,033397564 Cota superior = 4,162196338
Los valores de la table se obtienen así:
Estadístico tabulado
to =DISTR.T.INV(2*(1-0,95);GL)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
96
Radio
( )√
Cota inferior y superior
12.5. Intervalos de confianzas para diferencias entre dos medias con
muestras relacionadas o dependientes.
Cuando se comparan las medias de dos niveles es deseable que las
observaciones dentro de cada nivel sean lo más homogéneas posibles. Si existe
un efecto debido a factores externos éstos pueden neutralizarse mediante la
aplicación del principio de la aleatoriedad. Esto se logra tomando las
observaciones en pares. Se supone que las condiciones exteriores son las
mismas para cada par, pero pueden variar de un par a otro. Por ejemplo, suponga
que se tiene un grupo de personas que se someten a una dieta para reducción de
peso, y para cada persona se lleva el registro del peso, en kgs, antes de la dieta, y
un tiempo razonable después de haber empezado la dieta. En este caso, el peso
de cada persona después de la dieta no es independiente del peso de la misma
persona antes de la dieta; por lo tanto estas dos variables están correlacionadas, y
si se quiere examinar el efecto de la dieta, se debe llevar el registro del peso para
la misma persona antes y después de la dieta.
Sean (X11, X21), (X12, X22),..., (X1n, X2n) los datos consistentes de n pares;
supondremos que las variables aleatorias X1 y X2 tienen medias µ1 y µ2, y
varianzas y
, respectivamente. Podemos suponer que el conjunto de datos
apareados son observaciones de un conjunto independiente de parejas de
variables aleatorias provenientes de una distribución normal bivariada
(X1 X2) ~ f(X1, X2), y que las diferencias D = X1 - X2 se distribuyen normalmente
con valor esperado ED y varianza .
Sea Dj la diferencia entre las variables aleatorias del j-ésimo par, es decir, Dj =
X1j-X2j. El valor esperado y la varianza de la diferencia entre las variables está
dado por:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
97
Si las variables X1 y X2 se distribuyen normalmente, las diferencias estarán
distribuidas también de manera normal con media y varianza
Para estimar la media y la varianza de la diferencia, se debe tomar una muestra
aleatoria de tamaño n, antes y después, calcular la diferencia, y luego la diferencia
promedio y la varianza muestral de las diferencias, como se ilustra en el siguiente
cuadro.
Dada la muestra aleatoria se calculan los siguientes estadísticos que servirán para
estimar la media y la varianza de la diferencia, y , respectivamente:
Sabemos que la siguiente variable aleatoria sigue una distribución normal
estándar:
Sin embargo, como
, no es conocido, lo podemos estimar mediante la varianza
muestral , en cuyo caso la siguiente variable aleatoria sigue una distribución t
con n-1 grados de libertad.
Usando la distribución t podemos calcular el intervalo de confianza para la media
de observaciones pareadas, el cual está dado por el siguiente teorema.
Teorema. Si y son la media y la desviación estándar muéstrales de la
diferencia de n pares aleatorios de mediciones normalmente distribuidas, entonces
un intervalo de confianza del ( ) para la diferencia de medias
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
98
Es:
𝛼 ⁄
𝛼
⁄
Ecuación No.33
Ejemplo Intervalo de confianza diferencia de medias para pequeñas muestras
Se está investigando la utilidad de dos lenguajes de diseño para mejorar las tareas
de programación. Se le ha pedido a 12 programadores expertos, familiarizados
con los dos lenguajes, que codifiquen una función estándar con ambos lenguajes,
y se registra el tiempo requerido, en minutos, para realizar estas dos tareas. Los
datos obtenidos son los siguientes:
Encuentre un intervalo de confianza para la diferencia en los tiempos medios de
codificación. Use un nivel de confianza del 95%. ¿Existe alguna evidencia que
indique una preferencia por alguno de los dos lenguajes?
Tenemos que:
El intervalo de confianza está dado por:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
99
Dado que la diferencia puede ser cero, se concluye que no hay evidencia para
rechazar la hipótesis de que ambos lenguajes requieren el mismo tiempo de
programación, y por lo tanto no hay preferencia por ninguno de los dos lenguajes.
Lección 13. Intervalos de confianza para la media y diferencias de
medias muestras grandes 30n
13. Recordemos que para obtener un intervalo de confianza se procede
como sigue:
1. Se determina el riesgo de error que se quiere asumir al afirmar que el
parámetro (en este caso la media) se encuentra en el interior del
intervalo.
2. El intervalo de confianza se obtiene separando a izquierda y derecha
de la estimación del parámetro (en este caso la media) un múltiplo de
error estándar ( )n
. El múltiplo está determinado por el valor del
estadístico Z asociado al nivel de confianza escogido.
13.1. Para la construcción del intervalo de confianza para la media
poblacional μ, se han fijado los siguientes pasos:
1. Fijar el nivel de confianza α-1
2. Calcular la estandarización z de acuerdo al nivel de confianza
predeterminado a través de la tabla de la distribución normal N (0,1)
3. Calcular la media x y desviación típica S de la muestra.
4. Calcular el error típico de la media (desviación típica de la distribución
muestral)
5. Calcular el error muestral
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
100
6. Construir el intervalo de confianza, sumando y restando a la media de la
muestra ( x ) el error muestral.
Ecuación No.34
Ejemplo
Suponga por ejemplo que Ud. está dispuesto a aceptar un riesgo de error de
05.0 ; entonces 95.01 , luego se trata de un intervalo de confianza del
nivel 0.95. Dado que esta probabilidad se distribuye simétricamente a los dos
lados de la media, se obtiene 0.475 a cada lado. Ahora bien, el valor de Z
asociado a una probabilidad de 0.475 es de 1.96 (de acuerdo a la tabla de la
distribución normal) a la derecha de la media y de –1.96 a la izquierda, como se
puede apreciar en la siguiente gráfica:
Intervalo de confianza para grandes muestras
Gráfico No.16 Intervalo de confianza para muestras grandes
El intervalo de confianza está dado por la siguiente relación:
nX
nX
96.1;96.1
Expresado en forma generalizada, para poblaciones infinitas o si se muestrea sin
�� ± 𝑧 (𝜎
𝑛)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
101
reemplazamiento una población finita, la relación es:
nX
96.1
Si la población es finita o si se muestrea sin reemplazamiento una población finita,
la relación es la siguiente:
1N
nN
nZX
Ecuación No.35
Recuerde que Z depende del nivel de confianza que se fije y que si la desviación
estándar poblacional es desconocida, se utiliza como estima la desviación
muestral (S).
Podrá darse cuenta las semejanzas con los procedimientos utilizados para las
pruebas de hipótesis, vistas anteriormente para pruebas unilaterales y bilaterales.
Ejemplo
El contenido de proteínas de una muestra de 100 pollos criados en una
determinada granja dio una media de 20.2 gramos con una desviación estándar
de 1.14 gramos. Obtener el intervalo de confianza del 99% para el contenido
medio de proteína de todos los pollos de la granja.
Como el intervalo de confianza se distribuye simétricamente a los dos lados de la
media, en este caso a cada lado le corresponde una probabilidad de 0.495 (0.99/2
= 0.495). El valor de Z asociado a una probabilidad de 0.795 es 2.58.
El intervalo para la media será:
294.02.20100
14.158.22.20
nZX
El contenido medio de proteína de toda la población de pollos de la granja está
dentro de un intervalo de 19.91 y 20.49 gramos con un nivel de confianza del 99%,
y se expresa de la siguiente forma:
99.049.2091.19 P
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
102
Ejemplo
Se toma una muestra al azar de 40 vasos de kumis de un lote de 500, dieron un
promedio de 76 calorías por cada 100 gramos con una desviación estándar 2.9
calorías. Obtener el intervalo de confianza del 95% para el contenido medio de
calorías para todo el lote.
Nótese que se trata de una población finita y muestreo sin reemplazamiento. El
valor de Z asociado a un nivel de confianza del 95% es 1.96 (0.95/2 = 0.475) de
acuerdo a la tabla de la distribución normal.
El intervalo de confianza en este caso está dado por:
87.076499
40500
40
9.276
1
N
nN
nZX
Por tanto el contenido medio de calorías del lote esta dentro del intervalo de 75.13
y 76.87 calorías con un 95% de nivel de confianza, y expresado matemáticamente
es: 95.087.7613.75 P
13.2. Intervalo de confianza para la diferencia entre dos medias.
El intervalo de confianza para la diferencia de medias de poblaciones infinitas está
dado por:
2
2
2
1
2
121
nnZXX
Ecuación No.36
Se analizó el contenido de vitamina A de una muestra de mantequilla y de una
muestra de margarina enriquecida. En la muestra de mantequilla formada por 40
potes de 100 gramos, el contenido medio de vitamina A fue de 4.86 unidades con
una desviación estándar de 0.06. En la muestra de margarina enriquecida formada
por 50 potes de 100 gramos el contenido medio de vitamina A fue de 5.0 unidades
con una desviación estándar de 0.08 unidades. Encontrar el intervalo de confianza
del 95% para la diferencia de contenido medio de vitamina A para el experimento
en mención.
Generalmente el mayor valor de la media se toma como 1X .
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
103
El nivel de confianza del 95% corresponde un Z = 1.96.
Aplicando la fórmula se tiene:
029.014.000009.0000128.096.114.0
40
06.0
50
08.096.186.40.5
22
2
2
2
1
2
121
nn
ZXX
Por lo tanto se puede afirmar con un nivel del 95% que la diferencia de los dos
contenidos de vitamina A de la mantequilla y la margarina enriquecida se
encuentran entre 0.111 y 0.169 unidades.
Lección 14. Intervalos de confianza para la proporción y
diferencias de proporciones (siempre son muestras grandes)
30n
14. Las proporciones.
Siempre que se trabaje con proporciones la muestra debe ser grande.
14.1. Intervalo de confianza para proporciones.
Recuerde las propiedades de la distribución binomial y de las pruebas de hipótesis
vistan anteriormente.
El intervalo de confianza para la proporción de la población infinita y muestreo con
reemplazamiento está dada por:
n
PQZP
Ecuación No.37
En tanto que el intervalo de confianza para la proporción de la población finita y
muestreo con reemplazamiento está dada por:
1
N
nN
n
PQZP
Ecuación No.38
Donde el valor de Z depende del nivel de confianza deseado.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
104
Ejemplo
De un lote de 500 frascos de jugo se extrae una muestra de 50 frascos de los
cuales 43 cumplen con las especificaciones exigidas y 7 fueron rechazados. Hallar
el intervalo de confianza del 95% para la proporción de frascos de jugo aceptados
del lote de estudio.
Para un nivel de confianza de 95% el valor de Z = 1.96 (tabla de distribución
normal)
Aplicando la fórmula se tiene:
09.086.095.0049.096.186.0
499
450
50
)14.0)(86.0(96.186.0
1500
50500
50
50431
5043
96.150
43
1
N
nN
n
PQZP
Con un nivel de confianza del 95% la proporción de frascos aceptados fue de 0.77
y 0.95, es decir el nivel de aceptación está entre 380 y 480 frascos de lujo de un
lote de 500 frascos
14.2. Intervalo de confianza para la diferencia de dos proporciones.
El intervalo de confianza para la diferencia de proporciones de poblaciones
infinitas está dado por:
2
22
1
1121
n
qp
n
qpZPP
Ecuación No.39
En un supermercado se vende queso de dos marcas diferentes. En el mismo
período de tiempo se vende 380 de un total de 500 unidades de la marca A y 333
de un total de 450 unidades de la marca B. Hallar el intervalo de confianza del
99% para la diferencia entre las proporciones de los quesos A y B que salen al
mercado y se venden.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
105
Aplicando la fórmula de la diferencia de proporciones se tiene:
073.002.0450
)26.0)(74.0(
500
24.0)(76.0(58.274.076.0
450
450
117
450
333
500
500
120
500
380
58.2450
333
500
380
2
22
1
1121
n
qp
n
qpZPP
Por lo cual es de esperar con un nivel de confianza del 99% que la verdadera
diferencia de proporción de venta de los quesos A y B se encuentre entre –0.053 y
0.093. La diferencia de proporción negativa del límite inferior del intervalo indica
que en esta región la diferencia está a favor del queso B cuya proporción de venta
es menor en las muestras estudiadas.
Lección 15. Intervalos de confianza para la varianza poblacional.
Para ver cómo se aplica un intervalo de confianza para la varianza poblacional,
suponga que se está interesado en estimar la varianza poblacional para el
mecanismo de llenado de tal modo que la media de la cantidad de llenado sea de
16 onzas y es crítica la varianza de los llenados. Para el efecto se toma una
muestra de 20 envases llenos y se encuentra que la varianza de las cantidades de
llenado es 0025.02 s Sin embargo, no se puede esperar que esa varianza que
procede de una muestra de 20 envases, proporcione el valor exacto de la varianza
de la población de recipientes llenos con dicho producto. En consecuencia el
interés está es determinar un estimado de intervalo de la varianza poblacional.
Se utiliza el símbolo 2
para representar el valor de la distribución ji cuadrado que
da como resultado un área, o probabilidad, de a la derecha del valor ji cuadrado
establecido. Por ejemplo en la siguiente figura, se observa la distribución ji
cuadrado con 8523,322
025.0 que indica que el 2.5% de los valores de ji cuadrado
está a la derecha de 32,8523, y 90655,82
975.0 que indica que el 97.8% de los
valores de ji cuadrado está a la derecha de 8,90655. Consultan con la tabla del
anexo “G” que hace relación a la tabla de distribución de ji cuadrado, los
resultados son iguales.
En la gráfica se puede observar que 0.95 o el 95% de los valores de la ji cuadrada
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
106
están entre 2
975.0 y 2
025.0 . Significa esto que existe una probabilidad del 95% de
obtener un valor de 2 tal que:
2
025.02
22
975.0
1
Sn
Esta ecuación define un estimado de intervalo, porque el 95% de todos los valores
posibles de
2
21
Sn se encuentran en el intervalo de 2
975,0 a 2
025.0 .
Gráfico No.17 Intervalo de confianza. Mecánismo de llenado.
Ahora se requiere llevar a cabo algunas operaciones algebraicas de la ecuación,
para determinar un estimado de intervalo de 2 de la varianza poblacional.
Realizando operaciones del extremo izquierdo de la ecuación se tiene:
2
22
975.0
1
Sn despejando la varianza se tiene:
2
975.0
22 1
Sn
realizando operaciones semejantes con la desigualdad del extremo derecho de la
ecuación se tiene:
0
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,0
01 2 4 6 8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
Distribución Chi-Cuadrado. Función de Densidad Probabilidad con 19 grados de libertad
1 0,95
/2 =0,025 /2= 0,025
2(0,975) =8,90 2(0,025) =32,85
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
107
2
2
025.0
21
Sn despejando la varianza se tiene:
2
025.0
22 1
Sn
Por último combinando los resultados de las operaciones se llega a:
2
975.0
22
2
025.0
2 11
SnSn
Esta relación representa el estimado del intervalo de confianza para la varianza 2 .
Ejemplo
Regresando al problema para determinar un estimado de intervalo de la varianza
poblacional de las cantidades de llenado, recuerde que la muestra es de 20
envases que presenta una varianza de 0025.02 S . Con un tamaño de muestra de
20, los grados de libertad son de 19. En la figura presentada anteriormente, se
determina que 90655,82
975.0 y 8523,322
025.0 . Con dichos valores,
reemplazando en la ecuación del intervalo para la varianza poblacional se tiene:
90655,8
0025.0120
8523,32
0025.0120 2
O sea que el intervalo se encuentra dentro de los límites: 0728.00374.0 2 .
Con lo anterior se ha ilustrado el proceso de aplicar la distribución ji cuadrado para
establecer estimados de intervalo de una varianza y de una desviación estándar
de una población. Específicamente observe que como se usó 2
975,0 y 2
025.0 el
estimativo tiene un coeficiente de confianza de 0.95. Cuando la ecuación se
amplía a un caso general de cualquier coeficiente de confianza, el estimativo del
intervalo de confianza es:
2
21
22
2
2
2 11
SnSn
Ecuación No.40
En donde los valores de 2 se basan en una distribución ji cuadrado con (n-1)
grados de libertad, y en donde 1 es el coeficiente de confianza.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
108
EJERCICIOS COMPLEMENTARIOS
1. Una investigación efectuada a 400 familias de clase medias, reveló que un
62% de sus ingresos anuales son utilizados para servicios de salud.
Determinar los límites de confianza del 99%
2. En una muestra de 14 observaciones que tienen una media de 34.86 y una
desviación estándar de 4.23, encuentre los límites que en el 95% de los casos
permiten acertar al afirmar que la media poblacional queda incluida entre ellos.
3. Un laboratorio químico desea estimar la reacción promedio de mercurio
utilizadas en un medicamento. ¿Qué tamaño de muestra se requiere para
garantizar que habrá un riesgo de solo 0.001 de sobrepasar un error de 5mm o
más en la estimación? La desviación estándar de la reacción se estima en
50mm
4. Un sondeo efectuado a 400 familias de clase media reveló un gasto trimestral
promedio de $ 374.000 en productos de salud, con desviación de $80.000.
a) Determine un intervalo de confianza del 95%
b) ¿Cuál es el máximo error, cuando se afirma que dicha media es de $374.000 con
una confianza del 99%?
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
109
REFERENTES
Cómo crear un gráfico Chi-cuadrado en Excel (S, F). Extraído el 01 de Octubre de
2012 de: http://www.youtube.com/watch?v=eDCZhK7jeYg
Juárez, F., Villatoro, J. A. y López, E. K. (2002). Apuntes de Estadística Inferencial.
México, D. F.: Instituto Nacional de Psiquiatría Ramón de la Fuente. Extraído el 10
de enero de 2012 de: http://rincondepaco.com.mx/Apuntes/Inferencial.pdf.
M. J. Navas, A (2001). Métodos, diseños y técnicas de investigación psicológica,
p.19. Madrid: Editorial: UNED. Extraído el 11 de octubre de 2012 de:
http://www.uv.es/mperea/T1.pdf
Mendoza, H, Bautista, G. (2002). Probabilidad y Estadística. Universidad Nacional
de Colombia, http://www.virtual.unal.edu.co/cursos/ciencias/2001065/. Licencia:
Creative Commons BY-NC-ND.
Salinas, J. (s.f.). Estimación por Intervalos. Extraído el 08 de Junio de 2012 de:
http://www.ugr.es/~jsalinas/apuntes/C12.pdf.
Ximénez, C. (s.f.). Tema 21: Distribución muestral de un estadístico. Extraído el 20
de enero de 2012 de:
http://www.uam.es/personal_pdi/psicologia/carmenx/EsquemaTema21.pdf
CANAVOS, George. Estadística y Probabilidad. Mc Graw Hill. Mexico 1.998
DEVORE, Jay. Probabilidad y estadística. Quinta edición. Thomsom-Learning.
México 2.001
CHRISTENSEN, Howard B. (1999). Estadística Paso a Paso. México: Editorial
Trillas.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
110
HERNÁNDEZ MAHECHA, Carlo Marcelo (2002). Inferencia Estadística. Guía de
Estudio. Santafé de Bogotá: UNAD.
JONHSON, Richard. Probabilidad y Estadística para Ingenieros. Printece mall
México 1.997
MONTGOMERY, Douglas. Estadística y Probabilidad. Segunda edición. Limusa.
México, 2.002
PEÑA, Daniel. Estadística, Modelos y Métodos. Vol. 1. Alianza Editorial. Madrid
1.988
ROSS, Sheldon. Probabilidad y Estadística para Ingenieros. Segunda Edición. Mc
Graw Hill. México 2.001
SPIEGEL, Murria R. (1991). Estadística. Serie de compendios Schaum. México:
McGraw Hill
CASAS, J.M. (1997). Inferencia Estadística. Centro de Estudios Ramón Areces,
Madrid.
SARABIA, J.M. (2000). Curso Práctico de Estadística. Segunda Edición. Civitas,
Madrid.
SARABIA, J.M. (2002). Apuntes de Inferencia Estadística.
SARABIA, J.M., PASCUAL, M. (2002). Prácticas de Inferencia Estadística.
CASAS, J.M., SANTOS, J. (1999). Estadística Empresarial. Centro de Estudios
Ramón Areces, Madrid.
CUADRAS, C.M. (1983). Problemas de Probabilidades y Estadística. Tomo II.
PPU, Barcelona.
MENDENHALL, W., REINMUTH, J.E. (1993). Estadística para Administración y
Economía. Grupo Editorial Iberoamericana, México.
PEÑA, D. (2001). Fundamentos de Estadística. Alianza Editorial, Madrid.
RUIZ-MAYA, L., MARTÍN PLIEGO, F.J. (2001). Estadística II: Inferencia. Segunda
Edición. AC, Madrid.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
111
Sitios Web
http://ice.unizar.es/uzinnova/jornadas/pdf/95.pdf
http://www.fcnym.unlp.edu.ar/catedras/estadistica/programa2002.html#2
http://aprendeenlinea.udea.edu.co/lms/moodle/mod/resource/view.php?inpopup=tr
ue&id=3
http://aprendeenlinea.udea.edu.co/portal/
http://egkafati.bligoo.com/content/view/182409/Del_como_y_porque_ensenar_esta
distica.html
http://metro40.edv.uniovi.es/metroweb/charlas/Estadistica.pdf
http://www.uned.es/experto-metodos-avanzados/
http://aprendeenlinea.udea.edu.co/lms/moodle/course/view.php?id=322
http://server2.southlink.com.ar/vap/PROBABILIDAD.htm
http://es.wikipedia.org/wiki/Probabilidad
http://www.terra.es/personal2/jpb00000/pprobjunio99.htm
http://www.fvet.edu.uy/estadis/probabilidad.htm
http://thales.cica.es/rd/Recursos/rd98/Matematicas/28/matematicas-28.html
http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/Esta
distica/index.html