estadistica i - libro

298
3 ESTADÍSTICA BÁSICA PARA NEGOCIOS Conceptos y aplicaciones Volumen I: Estadística descriptiva y Probabilidad básica. Marco Luiz García

Upload: roger-ben

Post on 10-Aug-2015

114 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: Estadistica i - Libro

3

ESTADÍSTICA BÁSICA

PARA NEGOCIOS

Conceptos y aplicaciones

Volumen I: Estadística descriptiva y Probabilidad básica.

Marco Luiz García

Page 2: Estadistica i - Libro

4

Page 3: Estadistica i - Libro

5

Prefacio

Las generaciones anteriores a la era de las Tecnologías de la Información TI, cre-

cimos con la afirmación de que los cursos de estadística eran complejos, aburridos,

incomprensibles, tanto que eran verdaderas pruebas de resistencia, tenacidad y

frustración. Los catedráticos de la materia se concentraban más en explicar los

modelos matemáticos que en el uso y aplicación de los resultados.

El propósito de esta edición es hacer que la Estadística sea un campo interesante de

aplicación práctica en diversos aspectos de la realidad, especialmente en el área de

negocios. Acorde con el propósito, el libro pretende ser una herramienta de apren-

dizaje y práctica, utilizando los paquetes de software estadísticos que realicen los

complicados y laboriosos cálculos matemáticos. Específicamente se orientará al

uso de la hoja de cálculo de Excel y del paquete estadístico SPSS, es decir, se trata

de combinar los últimos avances de la Estadística y la Tecnología de la informa-

ción.

Se pretende que el aprendizaje de los estudiantes sea a través de diferentes proble-

mas de la vida real, eliminando los ejemplos inventados o acontecidos en otros

contextos que nada tienen que ver con nuestra realidad. En un intento de ser más

pragmáticos, se omiten algunos temas que en el área de negocios raramente se uti-

lizan y que sólo confunden y desesperan al estudiante.

Es tiempo de terminar con la anacrónica manera de enseñar estadística, que enfati-

za sobre el aprendizaje de modelos matemáticos y fórmulas de cálculo que hostigan

a los estudiantes y los distrae del verdadero propósito del uso de la Estadística:

proporcionar información para la toma de decisiones.

Uno de los principales enfoques del libro es preservar y enfatizar sobre la distin-

ción entre los parámetros de la población y los estadísticos de la muestra. La dis-

tinción es básica para el pleno entendimiento del uso de la Estadística como méto-

do para la toma de decisiones.

Page 4: Estadistica i - Libro

6

Acerca del contenido, se considera de suma importancia el aprendizaje de la Es-

tadística descriptiva porque, además de ser una técnica de representación descripti-

va de cualquier fenómeno, se considera como prerrequisito para entender y aplicar

los conceptos y procesos de la Estadística inferencial.

Más que el desarrollo de modelos y fórmulas matemáticas, se considera que la

Estadística es un lenguaje que se puede leer e interpretar, por ello se agrega en la

parte final un apartado de apéndices que contiene: un repaso a las matemáticas

básicas, un glosario de símbolos y términos generalmente aceptados y una lista de

fórmulas.

Los ejercicios al final de cada capítulo son extremadamente importantes para que el

estudiante pueda relacionar el marco teórico con la aplicación práctica, al tiempo

que el estudiante descubre la utilidad del uso del método estadístico en el campo

profesional en el que va a incursionar.

El propósito último del contenido es que el estudiante sepa seleccionar las herra-

mientas estadísticas apropiadas para la obtención y procesamiento de datos y cómo

interpretar y entender los resultados de su esfuerzo.

Page 5: Estadistica i - Libro

7

Presentación

Estadística Básica para Negocios, Conceptos y Aplicaciones, volumen I Estadísti-

ca Descriptiva y Probabilidad Básica del Mtro. Marco Luiz García ve la luz bajo

los mejores auspicios. Se trata de una obra en la que el autor aborda el estudio sis-

temático de la estadística y su aplicación práctica en los negocios en época moder-

na, como lo anuncia el título que es fruto de su larga experiencia como docente,

consultor particular y estudioso de la materia objeto de este libro.

Cuando la teoría y la praxis, además del estudio e investigación se conjugan, nece-

sariamente da el nacimiento a un producto de calidad que cumple diversos objeti-

vos, como lo señala el autor. En primer término, se logra una meta preestablecida

que implica muchas horas de trabajo, investigación, reflexión, manteniendo la

perspectiva hacia un propósito definido. De igual forma, esta obra del Mtro. Luiz

García, está diseñada para utilizarse como libro de texto en la materia de estadística

que imparte desde hace varios años en la Unidad Académica de Derecho y Cien-

cias Sociales “Lic. Francisco Hernández García” de la Universidad Autónoma de

Tamaulipas, atendiendo una necesidad inaplazable de dotar al alumno de un ins-

trumento de estudio integral, didáctico, económico, con ejemplos y sistemas mo-

dernos, que esgrimiendo la informática y el avance tecnológico de nuestros días, lo

convierte en un texto fundamental para aprender los conceptos básicos de la es-

tadística y su utilización en el diagnóstico y planeación de los negocios.

Es de advertirse, sin necesidad de ser un especialista en la materia, que el autor

utiliza un lenguaje técnico preciso, despojado de información innecesaria y que por

lo mismo se traduce en un material sustantivo para la enseñanza de la materia es-

tadística. Contiene el libro diez capítulos en los que abarca el contenido básico que

permite al estudiante entrar en contacto de una manera más clara y directa con la

enseñanza de esta disciplina, y además del basamento teórico le ofrece aplicaciones

prácticas para su debida utilización.

Page 6: Estadistica i - Libro

8

En cualquier área del conocimiento, es bienvenida una publicación como el que

hoy ofrece el Mtro. Luiz García, del que seguramente abrevarán muchas genera-

ciones de estudiantes que lo adoptarán como un referente obligado en la didáctica

de esta importante materia, para sistematizar el análisis y la toma de decisiones en

la marcha de la empresa.

Lic. Ramiro González Sosa

Abogado General de la UAT

Page 7: Estadistica i - Libro

9

Agradecimientos.

De manera muy especial quiero manifestar mi agradecimiento al Lic. Carlos Hino-

josa Cantú por darme la oportunidad de impartir las materias de Estadística Des-

criptiva y Estadística Inferencial que forman parte del pensum de la licenciatura de

Negocios Internacionales, recién creada en la UA de Derecho y Ciencias Sociales

de la Universidad Autónoma de Tamaulipas. Su encargo me motivó a diseñar

apuntes que fueran entendidos por los estudiantes que tienen formación preparato-

ria en las áreas sociales.

De igual manera y con la misma intensidad expreso mi agradecimiento al matemá-

tico y experto en estadística, Cristóbal José Rojas Montoya, actual Delegado Pro-

vincial del Instituto Nacional de Estadística y Delegado Provincial de la Oficina del

Censo Electoral en Salamanca, España, a quien conocí circunstancialmente en un

viaje que realicé a ese maravilloso país. Abusando de su amabilidad le pedí que

revisara el contenido del libro y lo hizo en una forma profesional y diligente. Por

considerar importante sus observaciones, me permito citar textualmente uno de sus

comentarios.

“Digo esto porque da la impresión que has hecho mucho hincapié en

explicar las cosas de una forma muy sencilla y simple, es decir, para

personas con poca preparación matemática. Si esto es así, me parece

estupenda la línea que has utilizado en la elaboración del texto. Si los

alumnos tienen cierta base matemática y/o estadística, el texto les va a

parecer muy simple, porque lo van a entender a la primera. Esto, que

parece algo malo, puede ser justo lo que tú persigues con la creación

de este libro. Así que puede ser estupendo según tus objetivos.”

Este comentario, viniendo de un experto, es bastante halagador para los

propósitos del libro.

Page 8: Estadistica i - Libro

10

Page 9: Estadistica i - Libro

11

Contenido Resumido

CAPÍTULO 1. El método estadístico.

CAPÍTULO 2. Elaboración de estudios estadísticos.

CAPÍTULO 3. Organización y presentación gráfica de datos.

CAPÍTULO 4. Características de la distribución de datos

numéricos.

CAPÍTULO 5. Uso de paquetes estadísticos.

CAPÍTULO 6. Presentación de datos categóricos en tablas y

diagramas.

CAPÍTULO 7. Probabilidad básica.

CAPÍTULO 8. Modelos de distribución de probabilidad para

variables aleatorias discretas.

CAPÍTULO 9. La distribución normal.

CAPÍTULO 10. Análisis de series.

Page 10: Estadistica i - Libro

12

Page 11: Estadistica i - Libro

13

Contenido detallado Prefacio

1. El método estadístico…………………………................... 17 1.1 Introducción.

1.2 Definición del término “Estadística”

1.3 División de la Estadística

1.4 Términos comúnmente usados en Estadística

1.5 Método Estadístico

1.6 La Estadística y el uso de programas de cómputo.

1.7 Resumen.

1.8 Términos clave

1.9 Problemas de repaso del capítulo.

1.10 Mapa conceptual del término Estadística.

2. Elaboración de estudios estadísticos….………….............. 37 2.1 Introducción

2.2 Tipos de estudios.

2.3 La obtención de datos.

2.4 Tipos de datos, niveles de medición y escalas de medición.

2.5 Definición operacional.

2.6 Realización de encuestas.

2.7 Tipo de muestreo

2.8 Uso de una tabla de números aleatorios.

2.9 Errores comunes en la aplicación de una encuesta

2.10 Resumen.

2.11 Términos clave.

2.12 Problemas de repaso del capítulo.

2.12 Mapa conceptual de los estudios estadísticos.

Page 12: Estadistica i - Libro

14

3. Organización y presentación gráfica de datos numéri-

cos…………………………………………………. 81 3.1 Introducción.

3.2 Tabla de datos originales sin orden y ordenados.

3.3 Diagrama de tallo y hojas.

3.4 Tabulación de datos numéricos: distribución de frecuencia.

3.5 Histograma o diagrama de distribución de frecuencias.

3.6 Polígono de frecuencias.

3.7 Tabla y polígono de porcentaje acumulado.

3.8 Diagrama de Pareto.

3.9 Resumen.

3.10 Términos clave.

3.11 Problemas de repaso del capítulo.

3.12 Mapa conceptual de organización y presentación de datos numéri-

cos.

4. Características de la distribución de datos numéricos……. 99 4.1 Introducción

4.2 Medidas de Posición de tendencia central.

4.3 Medidas de dispersión: varianza y desviación estándar.

4.4 Análisis de 5 puntos y gráfica de caja de sesgo.

4.5 Medidas de deformación.

4.6 Cálculo de mediciones descriptivas de la población.

4.7 Uso de la desviación estándar.

4.8 Resumen.

4.9 Términos clave.

4.10 Problemas de repaso del capítulo.

4.11 mapa conceptual de distribución de datos numéricos

5. Uso de paquetes estadísticos………………………………. 131 5.1 Introducción.

5.2 Edición de datos.

5.3 Captura de datos.

5.4 Obtención de resultados.

5.5 Definición de las variables de análisis.

Page 13: Estadistica i - Libro

15

5.6 Tabla de frecuencias.

6. Presentación de datos categóricos en tablas y diagramas… 143 6.1 Introducción.

6.2 Tabulación de datos categóricos.

6.3 Elección de la gráfica apropiada.

6.4 Tabla de contingencia o de datos cruzados.

7. Probabilidad básica……………………………….............. 155 7.1 Introducción. 7.2 Criterios de probabilidad: subjetivo y objetivo.

7.3 Espacio muestral y tipos de eventos.

7.4 Formas de examinar el espacio muestral.

7.5 Probabilidad simple y probabilidad conjunta.

7.6 Teorema de Bayes.

7.7 Principios fundamentales para enumerar.

7.8 Resumen.

7.9 Términos clave.

7.10 Problemas de repaso del capítulo.

7.11 Mapa conceptual de probabilidad.

8. Modelos de distribución de probabilidad para variables

aleatorias discretas…………………………….. 187 8.1 Introducción

8.2 Definición del concepto.

8.3 Valor esperado de una variable discreta.

8.4 Varianza y desviación estándar de una variable discreta.

8.5 Ejemplos:

8.6 Funciones de distribución de probabilidad discreta.

8.7 Distribución Binomial.

8.8 Características de la distribución binomial.

8.9 Distribución de Poisson.

8.10 Características de la función de la distribución de probabilidades

de Poisson.

8.11 Resumen.

Page 14: Estadistica i - Libro

16

8.12 Términos clave.

8.13 Problemas de repaso.

8.14 Mapa conceptual de modelos de distribución

9. La distribución normal……………………………………. 215 9.1 Introducción.

9.2 La función de densidad de probabilidad de una variable aleatoria

continua.

9.3 La distribución normal.

9.4 Propiedades de la distribución normal.

9.5 El modelo matemático.

9.6 Ejemplos.

9.7 Aplicaciones.

9.8 Uso de distribución normal como una aproximación a la distribu-

ción binomial o a la distribución de Poisson.

9.9 Resumen

9.10 Términos clave.

9.11 Problemas de repaso del capítulo.

9.12 Mapa conceptual de la distribución normal

10. Análisis de series…………………………………………... 237 10.1 Introducción

10.2 Construcción de números índice.

10.3 Análisis de patrones básicos

10.4 Métodos de estimación de las tendencias

10.5 Correlación

10.6 Mapa conceptual de análisis de series

Bibliografía 275

APÉNDICES 277

Page 15: Estadistica i - Libro

17

Capítulo 1

El método estadístico

*********************

Objetivo del

Capítulo

Presentar una visión general del con-

cepto de Estadística, su evolución y

aplicación, particularmente en el área

de negocios

Page 16: Estadistica i - Libro

18

Page 17: Estadistica i - Libro

19

1.1 Introducción

Si se le preguntara al hombre de la calle qué significa para él el término Estadística,

en la mayoría de los casos se obtendría respuestas como “Estadística es “hocus

pocus1 con números”. El significado anterior supone que los números manipulados

bajo ciertas normas pueden representar cualquier cosa que tengamos en mente, es

decir, es un lenguaje. O también podríamos escuchar decir que la Estadística es una

simple recolección de datos.

La palabra estadística a menudo nos trae a la mente imágenes de números apilados

en grandes arreglos y tablas, de volúmenes de cifras relativas a nacimientos, muer-

tes, impuestos, poblaciones, ingresos, producción, control de calidad, deudas,

créditos y así, largamente podremos enumerar su aplicación en fenómenos natura-

les y en todas las actividades del hombre.

La Estadística es mucho más que números apilados y gráficas bonitas. Es una cien-

cia con tanta antigüedad como la escritura. La Estadística nos auxilia a construir

indicadores para la toma de decisiones, por lo tanto, se puede considerar como

auxiliar de todas las demás ciencias. La economía, la administración, la medicina,

1 hocus pocus: apócope de Hoc est corpus meum que los paganos, que no entendían latín, a través del tiem-po relacionaron con palabras mágicas que se decían durante la comunión y que se fue reduciendo a hocus pocus.

Page 18: Estadistica i - Libro

20

la biología, la ingeniería, la administración pública, las ciencias sociales, entre

otros, se basan fundamentalmente en la aplicación de la estadística.

En el área de negocios, la ausencia de estadísticas conlleva un caos generalizado,

deja a los administradores y ejecutivos sin información relevante que fundamente

la toma de decisiones en tiempos de incertidumbre.

Cada día de nuestra vida moderna está significado por datos estadísticos relaciona-

dos con el mercado de valores, el desempleo, la inflación, los datos deportivos, los

índices de accidentes, etc. El tema de la estadística moderna abarca la recolección,

presentación y caracterización de la información que contribuya tanto para el análi-

sis como para el proceso de toma de decisiones.

Al término del capítulo, el alumno podrá comprender:

1. El significado de la palabra “Estadística” y la aplicación del método es-

tadístico.

2. Comprender el significado de los diferentes términos estadísticos: pobla-

ción, muestra, dato, variable aleatoria, censo, encuesta, entre otros.

3. Apreciar la utilidad de los estudios enumerativos y analíticos.

4. Sabrá de la existencia de paquetes estadísticos de cómputo disponibles para

el cálculo de medición estadística, lo que facilita su uso sin profundizar el

conocimiento de los modelos matemáticos que los sustentan.

La evolución de la Estadística

La Estadística, como todas las ciencias, no surgió de improviso, sino mediante un

proceso largo de desarrollo y evolución, desde hechos de simple recolección de

datos hasta la diversidad y rigurosa interpretación que se da hoy en día. Así pues, el

origen de la Estadística se remonta a los comienzos de la historia y esto se sabe

tanto a través de crónicas, datos escritos, como de restos arqueológicos. Lo anterior

Page 19: Estadistica i - Libro

21

es explicable porque en ese tiempo se estaba recién formando la sociedad y era

algo inherente a la necesidad de saber cosas elementales como: cuántos habitantes

tiene la tribu, con cuántos bienes cuenta, cuántos esclavos, etc.

Históricamente el desarrollo de la Estadística moderna se debe a dos fenómenos

totalmente separados:

La necesidad del gobierno de conocer las características de su población

(número, edades, ingresos, producción, salud, educación, etc.) y,

el desarrollo de modelos matemáticos que representan la realidad y la pro-

babilidad del acontecer de fenómenos (sucesos).

Así, podemos señalar que en Roma, con su perfecta organización política, jurídica

y administrativa favoreció para el desarrollo de la Estadística. Una muestra es el

Censo que se realizaba cada 5 años y que tenía por objeto, no sólo saber el número

de habitantes, sino también su cantidad de bienes. Bajo el mandato de Servio Tulio,

éstos pasaron a ser base constitucional del gobierno. También en un inicio se lleva-

ba un registro de nacimientos y de fallecimientos; pero fue bajo Antoninos que la

declaración de nacimientos adquirió una verdadera institución legal que era necesa-

ria hacerla ante el "prefecto del erario" en el templo de Saturno y no después de 30

días de nacimiento. Con la caída del Imperio Romano las estadísticas se pierden en

Europa, floreciendo más, bajo la civilización árabe.

A finales del siglo XVII, en su obra Political Arithmetick escrita probablemente en

1672 y publicada en 1690, Sir William Petty expone un punto de vista completa-

mente nuevo para la investigación económica. “En lugar –dice- de usar sólo pala-

bras comparativas y superlativas, y argumentos intelectuales, he tomado el cami-

no…. de expresarme en términos de Número, Peso y Medida; de usar sólo argu-

mentos de sentido y de tomar en cuenta únicamente las causas que tengan funda-

mentos visibles en la naturaleza” (Roll, 1969: 92). Petty no sólo enseñó con su

práctica y preceptos cómo se deben de recopilar y manejar los datos, sino que puso

Page 20: Estadistica i - Libro

22

en su debido lugar la investigación de los hechos en relación con el análisis teórico,

ante esta contundente evidencia de primacía, se puede afirmar que no sólo es el

fundador de la economía política sino también del uso de la estadística como

método de investigación.

Petty es mejor conocido por sus escritos de historia económica y estadística previos

al trabajo de Adam Smith. Sus trabajos más famosos son los de tipo demográfico,

Aritmética política y títulos similares; se trata de los primeros intentos de entender

las relaciones entre la población y la economía. Fue el creador del termino pleno

empleo y formulador de la Ley de Petty, que establece que el progreso de una eco-

nomía se aprecia fundamentalmente a través del creciente volumen de la población

que se dedica a los servicios.

La formulación matemática de la teoría de la probabilidad se da en la investigación

de juegos de azar en la época del Renacimiento. Con las aportaciones del matemá-

tico francés Blaise Pascal y de Chevalier de Mere se dieron las bases para el cálcu-

lo de la probabilidad. Estos y otros matemáticos como Bernoulli, DeMoivre, y

Gauss fueron los precursores de la estadística inferencial. Sin embargo, no fue has-

ta principios del siglo XX que los estudiosos como Pearson, Fisher, Gosset, Ney-

man, Wald y Tukey sentaron las bases de desarrollo de los métodos de la estadísti-

ca inferencial que actualmente se aplica en los diversos campos de la investigación

en nuestra actualidad.

La evolución del uso de la Estadística se puede distinguir en tres etapas:

1.- Primera Fase: Los Censos.

2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Polí-

tica.

3.- Tercera Fase: Estadística y Cálculo de Probabilidades.

Page 21: Estadistica i - Libro

23

La Estadística que conocemos hoy en día debe gran parte de su realización a los

trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las proba-

bilidades, con la cual se adhirió a las ciencias formales como una ciencia aliada.

Fue Godofredo Achenwall, profesor de la Universidad de Gotinga, quien acuñó en

1760 la palabra estadística, que extrajo al parecer del término italiano statista (esta-

dista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado

más eficaz del gobernante consciente. La raíz remota de la palabra se halla, por otra

parte, en el término latino status, que significa estado o situación; esta etimología

aumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido

cuantitativo de las más variadas situaciones.

Los progresos más recientes en el campo de la Estadística se refieren al ulterior

desarrollo del cálculo de probabilidades, particularmente en la rama denominada

indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido

en la Física como resultado de las investigaciones atómicas y que este principio se

juzga aplicable tanto a las ciencias sociales como a las físicas.

Es por esta razón que la estadística se presenta como un poderoso auxiliar de las

distintas ciencias y técnicas; al provocar en éstas, la investigación de las leyes de

comportamiento de ciertas variables que intervienen en un fenómeno cuyo valor,

gracias a la Estadística se han puesto de manifiesto.

Uso de la Estadística en el área de negocios

Contabilidad

Seleccionar muestras de registros contables para fines de auditorías.

Para comprender las tendencias de costos en la contabilidad.

Finanzas

Page 22: Estadistica i - Libro

24

Para analizar las tendencias de las medidas financieras de la empresa, del

mercado financiero y del mercado bursátil.

Para desarrollar modelos de pronóstico de éstas medidas.

Producción

Para controlar y mejorar los estándares de calidad del producto.

Para controlar y mejorar la productividad de la planta.

Para conocer el nivel de desempeño.

Mercadotecnia

Para conocer el mercado potencial del producto y definir el mercado obje-

tivo.

Para conocer las fuerzas demográficas y económicas del entorno de la em-

presa.

Para definir estrategias de mercado: publicidad, precio, diferenciación de

producto, puntos de venta, con el propósito de incrementar las ventas y la

rentabilidad.

Para conocer los gustos, preferencias y demanda del consumidor.

Para segmentar el mercado por área geográfica, tipo de mercado, por tipo

de cliente.

La Estadística y la competitividad empresarial

En los albores del siglo XXI, el predominio de la economía global (producción,

distribución y consumo de bienes y servicios a nivel internacional) obliga a las

empresas a poner mayor énfasis en la competitividad de sus productos servicios.

Page 23: Estadistica i - Libro

25

Se entiende por competitividad a la capacidad de las empresas de producir bienes y

servicios en forma eficiente (con costos decrecientes y calidad creciente) y eficaz,

haciendo que sus productos sean útiles y atractivos, tanto dentro como fuera del

país. Para ello, es necesario lograr niveles elevados de calidad y productividad que

permitan operar con una rentabilidad meritoria.

La competitividad exige que las empresas conozcan toda la información -interna y

externa- relacionada con su negocio, como es la información sobre clientes, pro-

veedores, estándares de calidad, costos, producción, características de la materia

prima, características de los sistemas de logística, características de la competencia,

etc. Parte fundamental de la práctica gerencial que procura la competitividad es la

aplicación de ciertos métodos estadísticos y su adecuada interpretación de resulta-

dos.

La interpretación adecuada de los resultados incluye el reconocimiento de que los

datos son substancialmente variables y que su pertinencia y empleo permiten tomar

decisiones para mejorar un estado actual, sea sobre producción, innovación, mejo-

ramiento de la calidad, diferenciación del producto, mejoramiento de costos, aten-

ción a nuevos clientes, atención a nuevos mercados, mejoramiento de precios, etc.

Datos gubernamentales, publicaciones gremiales o especializadas)

Con el propósito de coordinar los Sistemas Nacionales Estadístico y de Informa-

ción Geográfica, y brindar el servicio público de información estadística y geográ-

fica sobre el territorio, la población y la economía de México, el gobierno federal

cuenta con el Instituto Nacional de Estadística, Geografía e Informática (INEGI),

órgano desconcentrado de la Secretaría de Hacienda y Crédito Público, con auto-

nomía técnica y administrativa. El antecedente más antiguo fue la Dirección Gene-

ral de Estadística (DGE) la cual fue creada en 1882. En 1895 se levantó el primer

Censo de Población.

Page 24: Estadistica i - Libro

26

INEGI genera estadísticas de cobertura nacional, regional, estatal y local de temas

como: estadísticas sociodemográficas, estadísticas económicas, estadísticas de

género, estadísticas ambientales, estadísticas de ciencia y tecnología. Además de su

requerimiento constitucional de realizar los censos de población y vivienda, agro-

pecuarios y económicos, el INEGI tiene que ver con la realización de encuestas

referidas a la población, al gasto familiar, a la vivienda, fabricación, transporte,

entre otros, y cada cierto tiempo realiza estudios sobre el índice de precios.

Además de información estadística creada por las instituciones gubernamentales,

existen varias publicaciones especializadas en datos industriales o comerciales

específicos creadas por organizaciones gremiales, empresas especializadas en el

sector, instituciones de educación o investigación, medios de comunicación.

1.2 Definición del término “Estadística”

Los estudiantes confunden comúnmente los demás términos asociados con las Es-

tadísticas, una confusión que es conveniente aclarar debido a que esta palabra tiene

dos significados:

a) En primer término se usa para referirse a la información procesada

(siete de cada diez personas prefieren comprar jabón de la marca X que

de la marca Z; el 10% de los clientes de supermercados pagan con tarje-

ta de crédito);

b) También se utiliza para referirse al conjunto de técnicas y métodos que

se utilizan para obtener, procesar, analizar y presentar la información

pertinente de un estudio. Esta última es la razón del libro.

Con tantas aplicaciones del término Estadística parece imposible obtener por con-

senso una sola definición, sin embargo, es posible hacer una distinción entre las

definiciones comúnmente aceptadas.

Page 25: Estadistica i - Libro

27

La estadística es considerada como la colección de datos numéricos los cuales son

expresados en términos de cuentas resumidas, sean éstos obtenidos a través de

observaciones directas o a través de otros datos. (Haber y Runyon, 1977: 6). Tal es

el caso de los censos económicos, demográficos, de vivienda, entre otros. También

es considerada como un método de relación con esos datos (Ibíd.). Esta definición

enfatiza la visión de que la estadística es una herramienta relacionada con la colec-

ción, organización y análisis de datos numéricos u observaciones.

La estadística, en general, es la ciencia que trata de la recopilación, organización

presentación, análisis e interpretación de datos numéricos con el fin de realizar una

apropiada toma de decisión (Muñoz, 2004: 3). Para muchos, la Estadística es la

ciencia auxiliar de todas las ciencias.

1.3 División de la Estadística

Para su mejor estudio, la Estadística se ha dividido en dos grandes ramas: la Es-

tadística Descriptiva y la Estadística Inferencial.

Estadística Descriptiva consiste sobre todo, en la presentación de datos en forma

medidas resumen, de tablas y de gráficas. Ésta comprende cualquier actividad rela-

cionada con los datos y está diseñada para resumir o describir las características –

variables- del fenómeno en estudio mediante medidas resumen; esto es, sin intentar

inferir nada que vaya más allá de los datos, como tales.

La estadística descriptiva puede definirse como aquellos métodos que in-

cluyen la recolección, presentación y caracterización de un conjunto de datos

con el fin de describir apropiadamente las diversas características que

distinguen a ese conjunto de datos (Berenson & Levin, 1996: 3).

Estadística Inferencial: se deriva de muestras, de observaciones hechas sólo acerca

de una parte de un conjunto numeroso de elementos y esto implica que su análisis

requiere de generalizaciones que van más allá de los datos. Como consecuencia, la

Page 26: Estadistica i - Libro

28

característica más importante del reciente crecimiento de la estadística ha sido un

cambio en el énfasis de los métodos que describen a métodos que sirven para hacer

generalizaciones. La Estadística inferencial investiga o analiza una población par-

tiendo de una muestra tomada.

La Estadística inferencial puede definirse como aquellos métodos que

hacen posible la estimación de una característica de una población o la toma

de una decisión referente a una población, basándose sólo en los resultados

de la muestra, (Ibíd.)

Para entender ambas definiciones, es necesario conocer el significado de los térmi-

nos utilizados, representados en la figura 1.1.

Fig. 1.1 Funciones del análisis estadístico

Población (total de alumnos

de la UAMFHG)

Muestra (selección

de algunos alumnos

representativos del

total de alumnos de

la UAMFHG)

Datos (observaciones)

Estadística descriptiva

Estadística inferencial

1.4 Términos comúnmente utilizados en estadística

Variable: una característica o fenómeno que puede obtener diferentes valores.

Peso, talla, sexo, ingreso, ventas, costos, temperatura, son ejemplos de variables.

Una variable es diferente a una constante, la cual nunca cambia de valor, que no

puede modificarse, al menos no dentro del contexto o situación para el cual está

previsto.

Page 27: Estadistica i - Libro

29

Variables cualitativas: son las variables que expresan distintas cualidades o carac-

terísticas. Cada modalidad que se presenta se denomina atributo o categoría y la

medición consiste en una clasificación de dichos atributos.

Variables cuantitativas: son las variables que se expresan mediante cantidades

numéricas. Las variables cuantitativas además pueden ser discretas o continuas.

Variables independientes: Es la variable que sola o en compañía de otras inciden

en el valor de otra. Los cambios en los valores de este tipo de variables determinan

cambios en los valores de otra (variable dependiente).

Variables dependientes: son las variables de respuesta que se observan en el estu-

dio y que podrían estar influenciadas por los valores de las variables independien-

tes.

Variable aleatoria: valor de la característica o fenómeno específico de una obser-

vación escogida al azar.

Dato: números o medida que se obtienen a través de obtener la dimensión de la

variable en una observación. Éstos pueden ser enumerados por unidades o acumu-

lación de puntos. Los datos pueden ser de naturaleza numérica o categórica. Por

ejemplo, 25 años de edad, 1.65 metros de altura, 65 kilogramos de peso, son los

datos de las variables de edad, estatura y peso de una persona.

Población o universo: el número total de individuos, objetos o medidas que tienen

características observables comunes, en un espacio común. Todos los mexicanos,

toda la población de Tamaulipas, todas las personas que viven en Cd. Victoria y

que tienen entre 12 y 36 años, todos los estudiantes de la UAT.

Censo: Cuando se estudia la totalidad de las unidades que componen la población

o universo. Desventaja: errores de observación, omisiones, duplicaciones, no-

ubicación (no medibles) del encuestado, enorme volumen de información, requie-

Page 28: Estadistica i - Libro

30

ren enormes recursos para su elaboración (tiempo, dinero, personas, instalaciones).

Los censos de población y vivienda que realiza el INEGI es un buen ejemplo.

Parámetros: los valores de las características observadas (variables) que represen-

tan a la población o universo. Generalmente se utiliza el alfabeto griego para repre-

sentarlas (ejemplo: µ,σ), que significan la media y la desviación estándar de la

población respectivamente.

Muestra: una porción de la población que, bajo ciertas condiciones de confianza,

representa las características de la población o universo.

Estadísticos: son las medidas resumen resultantes, bajo ciertos procedimientos

específicos, de los datos originales obtenidos en una muestra. Los estadísticos se

utilizan para estimar los parámetros de la población a través de una muestra. Para

su representación, generalmente se utilizan letras itálicas (ejemplo: X ,S), que sig-

nifican la media y la desviación estándar de la muestra.

Para relacionar estas definiciones con un ejemplo, suponga que se quiere investi-

gar, mediante una encuesta, la edad y el nivel de ingresos de los alumnos de la

UADYCS. La población o el universo en este caso serían todos los estudiantes

inscritos en el período vigente. La muestra sería sólo aquellos estudiantes que se

seleccionaron para participar en el estudio, misma que tendría que ser representati-

va de todas las licenciaturas y de todos los semestres.

El objetivo de la encuesta sería describir las características (variables: edad e ingre-

so) de toda la población (parámetros). La descripción se obtendría a través del uso

de estadísticos obtenidos de la muestra. Por lo tanto, se puede decir que la estadís-

tica inferencial es el proceso de utilizar la estadística muestral para sacar conclu-

siones acerca de los parámetros de la población.

Page 29: Estadistica i - Libro

31

El uso de estadística inferencial surge de la necesidad de muestrear, sea porque no

se tiene acceso a toda la población, sea porque la población es muy grande y en

consecuencia obtener sus características es muy tardado o muy caro.

1.5 Método estadístico

El conjunto de técnicas que se utilizan para medir las características de la informa-

ción, resumir los valores individuales, y analizar los datos a fin de extraerles el

máximo de información, es lo que se llama métodos estadísticos. Los métodos de

análisis para la información cuantitativa se pueden dividir en los siguientes seis

pasos:

1. Definición del problema.

2. Recopilación de la información existente.

3. Obtención de información original.

4. Clasificación.

5. Presentación.

6. Análisis.

Definición del problema

En el ámbito de los negocios, los problemas tienen que ver con ventas en cantidad

y valor, costos, precios, inventarios, consumo, rendimientos, número de clientes,

oferta, demanda, producción, control de calidad, satisfacción del cliente, análisis de

puntos de venta, y todas las variables del entorno que afecten directa e indirecta-

mente a la empresa, como inflación, paridad monetaria, importaciones, exportacio-

nes, índices de crecimiento, etc.

Recopilación de la información existente

Para conocer la dimensión del problema es necesario consultar la información

histórica interna o externa que esté relacionada con el problema que requiere aten-

Page 30: Estadistica i - Libro

32

ción. Por ejemplo, si hablamos de un problema de ventas, tendremos que consultar

los registros contables, los de inventarios, las ventas por productos, por zona ge-

ográfica, etc. Si el problema es de mercado, tendremos que consultar la informa-

ción existente que produce INEGI, tal como el tamaño de la población, el ingreso,

el gasto familiar, la edad de la población, el nivel de educación, etc.

Obtención de información original.

Siguiendo con el mismo problema de ventas, se requiere de conocer información

que no existe y que hay que generar, como los precios de la competencia, las prefe-

rencias del consumidor, las características de los productos, estos datos, que se

convertirán en información, se obtienen en forma directa a través de la observa-

ción, la experimentación y la encuesta.

Clasificación

La información obtenida, existente y original, se clasifica por estratos, por períodos

o por ubicación geográfica de tal manera que tenga una ponderación adecuada para

su análisis.

Presentación

La información clasificada se presenta a través de tablas y gráficas que pueda in-

terpretarse, por ejemplo, la tabla1.1 que se observa en la próxima página.

Análisis de la información

De los datos clasificados y presentados se pueden derivar una serie de análisis, por

ejemplo: las ventas de huevo disminuyó en un 10% en unidades, pero en precio

aumentó un 20% en precio por lo que resultó un aumento del 8% en el valor de lo

vendido.

Page 31: Estadistica i - Libro

33

Tabla 1.1 Precios y cantidades vendidas en 2005-2006

2005 2006

Artículo Precio Unidades Valor Precio Unidades Valor

Unit. Vendidas ventas Unit Vendidas venta

Huevo

(docena) 10.00 100 1,000.00 12.00 90 1,080.00

Leche (litro) 5.00 120 600.00 7.00 140 980.00

Carne (kilo) 35.00 10 350.00 42.00 15 630.00

1,950.00 2,690.00

1.6 La estadística y el uso de programas de cómputo

El uso de paquetes de cómputo para el cálculo estadístico es cada vez más común

en la comunidad empresarial, académica y de investigación. Bajo esa premisa, el

desarrollo del curso considera, que para realizar los análisis estadísticos de prácti-

ca, el alumno tendrá acceso a los paquetes estadísticos como el STATISTICA, el

SPSS o la hoja de cálculo de Excel. Así, se pondrá mayor atención al uso de méto-

dos estadísticos apropiados y análisis de resultados que a la teoría matemática sub-

yacente a los métodos.

1.7 Resumen

La estadística es una ciencia matemática que se refiere a la colección, estudio e

interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia va-

riedad de disciplinas, desde la física hasta las ciencias sociales, usada también en la

toma de decisiones en áreas de negocios e instituciones gubernamentales. Colo-

quialmente se puede decir que la Estadística es la ciencia auxiliar de las ciencias.

El predominio de la economía global obliga a las empresas a poner mayor énfasis

en la competitividad. Parte fundamental de la competitividad es el pleno conoci-

miento e adecuada interpretación de la información relacionada con el entorno

interno y externo de la empresa.

Page 32: Estadistica i - Libro

34

La aplicación del método estadístico en la realización de estudios estadísticos ac-

tualmente es imprescindible.

La aplicación del método estadístico se utiliza para describir y para inferir las

características del objeto de estudio, de ahí que la estadística se divide en dos áreas

de estudio, la estadística descriptiva y la estadística inferencial.

La estadística descriptiva, que se dedica a los métodos de recolección, descripción,

visualización y resumen de datos originados a partir de los fenómenos en estudio.

Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de

descriptores numéricos son la media y la desviación estándar. Resúmenes gráficos

incluyen varios tipos de figuras y gráficos.

La estadística inferencial, que se dedica a la generación de los modelos, derivacio-

nes y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta lo

aleatorio e incertidumbre en las observaciones. Se usa para modelar patrones en los

datos y extraer inferencias acerca de la población de estudio. Estas inferencias pue-

den tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estima-

ciones de características numéricas (estimación, pronósticos de futuras observacio-

nes, descripciones de asociación (correlación) o modelamiento de relaciones entre

variables (análisis de regresión). Otras técnicas de modelamiento incluyen ANO-

VA, series de tiempo y tendencias de datos.

Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay

también una disciplina llamada estadística matemática, la cual se refiere a las bases

teóricas de la materia. La palabra estadísticas también se refiere al resultado de

aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas

económicas, estadísticas criminales, estadísticas de salud, entre otras.

Actualmente, el uso generalizado de sistemas de cómputo ha simplificado la reali-

zación de estudios estadísticos; las hojas de cálculo y los paquetes estadísticos son

de extraordinaria ayuda; para usarlos correctamente, se requiere utilizar los cono-

Page 33: Estadistica i - Libro

35

cimientos adquiridos en este capítulo, ello ayudaría a reducir los errores de digitali-

zación, cálculo y análisis.

1.8 Términos clave:

Dato

Estadística

Estadística descriptiva

Estadística inferencial

Estadística moderna

Estadístico

Muestra

Parámetro

Población

Universo

Variable

Variable aleatoria

Variable cualitativa

Variable cuantitativa

1.9 Problemas de repaso del capítulo

En los siguientes ejercicios, describa una aplicación específica e identifique la po-

blación y los parámetros que son de interés principal del estudio.

1. Describa una aplicación de la estadística en economía o finanzas.

2. Describa una aplicación de la estadística en los deportes

3. Describa una aplicación de la estadística en la administración de empresas

4. Describa una aplicación de la estadística en el área de publicidad y mercadotec-

nia.

5. Describa una aplicación de la estadística en la investigación médica o en la ad-

ministración de la salud.

6. Describa la diferencia entre la estadística descriptiva y Estadística inferencial.

7. Describa el Método estadístico.

Page 34: Estadistica i - Libro

36

1.10 Mapa conceptual del término Estadística

• Comienzos de la historia

• Siglo XVII

• Siglo XXOrigen

• Necesidades de Gobierno

• Desarrollo de modelos de representación

• Soporte de todas las ciencias

Aplicación

• Información procesada

• Técnicas y métodos para el manejo de datosSignificado

ESTADÍSTICA

Estadística moderna

Descriptiva Inferencial

Método

estadístico:

Definición del problema

Recopilación de información

Clasificación

Presentación

Análisis

Page 35: Estadistica i - Libro

37

Capítulo 2

Elaboración de estudios

estadísticos

*********************

Objetivo del

Capítulo

Mostrar la importancia de diseñar un estu-

dio estadístico, especialmente los que se

requieren elaborar para los negocios y la

importancia de obtener buenos datos

Page 36: Estadistica i - Libro

38

2.1 Introducción

Las organizaciones modernas enfrentan gran complejidad para su buen funciona-

miento. Una de las razones por las cuales las organizaciones modernas son comple-

jas, es que en el mundo globalizado que operan cambia constantemente y presenta

nuevos desafíos y amenazas. Existe la necesidad permanente de adaptarse al cam-

bio, tanto en las entradas como en las salidas y en el proceso de transformación.

Los administradores de las organizaciones modernas tienen la responsabilidad de

conocer cómo, cuándo, dónde se deben realizar los cambios de adaptación a las

nuevas exigencias de mercado. Estos cambios no pueden ser implementados sin el

conocimiento de la información apropiada pertinente, suficiente, oportuna, veraz,

económica y de predicción. Las organizaciones modernas y competitivas, de cual-

quier tamaño o complejidad deben de medir en forma permanente el nivel de des-

empeño a través de conocer información sobre costos, cantidad, calidad, producti-

vidad, eficiencia de productos, servicios y procesos. Pero también debe conocer de

los cambios que ocurren en el medio ambiente en que se desarrolla, tales como

población, ingresos percápita, competencia, gustos, preferencias, necesidades, pre-

cios, etc.

Page 37: Estadistica i - Libro

39

Para que un estudio estadístico sea útil en el proceso de toma de decisiones, los

datos de entrada deben ser de origen fidedigno y cumplir con una serie de carac-

terísticas de codificación que faciliten su captura, agrupación, correlación y análi-

sis. Por ello el proceso de recolección es extremadamente importante en la realiza-

ción de un estudio. Si los datos están distorsionados por sesgos, ambigüedades o

malas interpretaciones, lo más probable es que se elaboren estudios de mala calidad

y por lo tanto, en base a ellos, se toman malas decisiones.

Esta sección pretende introducir al alumno a determinar qué tipo de estudios es-

tadísticos se requieren en las organizaciones, cómo se obtienen los datos, cómo se

clasifican, agrupan y presentan. Cabe señalar que actualmente el uso generalizado

de equipos de cómputo “la edad de la tecnología de la información” ha facilitado

esta tarea de obtención, procesamiento y presentación de información. Aún y cuan-

do cada organización tiene diferentes necesidades de estudios estadísticos, pedagó-

gicamente y metodológicamente se pueden hacer generalizaciones que el profesio-

nal tendrá que adaptar a sus necesidades de aplicación.

Al término del capítulo, el alumno deberá ser capaz de:

1. Conocer los tipos estudios estadísticos que se pueden realizar.

2. Conocer las diferentes fuentes de obtención de datos.

3. Conocer los diferentes tipos de datos, niveles de medición y escalas de me-

dición.

4. Conocer la importancia de diseñar un estudio estadístico, especialmente los

que requieren aplicación de una encuesta.

5. Saber diseñar un cuestionario con preguntas objetivas, plenas de significa-

do y alta relación con el objeto de estudio.

6. Utilizar una tabla de números aleatorios para la definición de los indivi-

duos de la encuesta.

Page 38: Estadistica i - Libro

40

2.2 Tipos de estudios.

Hay dos tipos de estudios “enumerativos” y “analíticos”. Los estudios enumerati-

vos son aquellos que muestran cómo son las cosas pero que no tienen la cualidad

de predecir por ellos mismos. El censo de población y vivienda es un buen ejemplo

de estudio enumerativo. Medir el rendimiento del maíz es un estudio enumerativo.

Las condiciones de producción agrícola del 2004 o 2005 o de cualquier año pasado

se han ido y no se repetirán. En ese sentido no existe un proceso subyacente. Los

estudios analíticos son utilizados para estudiar procesos y pueden predecir, bajo

ciertos cambios en el proceso original, los resultados en un futuro (TRADE, 1995:

84).

Ambos tipos de estudios utilizan el método estadístico para la toma de decisiones.

Ambos utilizan los datos como materia prima para su elaboración.

Los estudios enumerativos involucran la toma de decisiones respecto a una pobla-

ción y/o sus características (Berenson & Levin, 1996: 5). Un ejemplo de estudio

enumerativo sería aquel que se realiza en cierta área geográfica, previo a la opera-

ción comercial de una empresa. El objetivo es el de proporcionar estimaciones de

las características de la población y tomar ciertas decisiones sobre ellas.

El área geográfica definida para el estudio enumerativo se le denomina marco y

proporciona los elementos para la selección de una muestra. De ahí surgen las pre-

guntas de ¿Cuántos son hombres y cuántas mujeres? ¿Cuántos consumen el pro-

ducto? ¿Qué marca de producto prefieren? ¿Qué nivel de ingresos tienen? ¿Cuán-

tos negocios similares existen? ¿Cuál es el aforo vehicular por las principales ave-

nidas?

Page 39: Estadistica i - Libro

41

Fig. 2.1 Mapa base para estudio enumerativo de mercado

Otro ejemplo de un estudio enumerativo es la descripción del contenido de un

tazón de canicas, el tazón completo representa la población, las preguntas del estu-

dio se hacen en relación a saber ¿Qué hay en el tazón? ¿Cuántas canicas son de

color negro, o en qué proporción son negras? ¿Qué probabilidad existe aleatoria-

mente de escoger una canica negra?

Figura 2.2 Estudio enumerativo.

Muestra

Por otro lado, los estudios analíticos involucran realizar alguna actividad sobre un

proceso para mejorar el desempeño en el futuro (Ibíd.)

La técnica Estadística permite dise-ñar una muestra representativa de un área geográfica específica y de-terminar, en forma aproximada, sus características enumerativas en conjunto

Page 40: Estadistica i - Libro

42

El estudio de los resultados de un proceso de producción o de prestación de servi-

cios considerados durante cierto tiempo, es un ejemplo de estudio analítico. El

propósito de un estudio analítico es el de obtener predicciones de comportamientos

futuros y de resultados. Esto es la generación de información anticipada para la

toma de decisiones para la mejora del proceso y en consecuencia, de los resultados.

Un estudio analítico, se refiere al análisis de procesos. Los procesos, utilizando el

enfoque de sistemas, se componen de varias etapas, en forma general: entradas,

procesos de transformación, salidas y retroalimentación.

En un sistema empresarial, las entradas son principalmente materia prima, perso-

nas, maquinaria y equipo e información; los procesos de transformación se refieren

a las actividades propias de la organización, es decir a la transformación de las

entradas en salidas; las salidas son los bienes o servicios que la organización oferta

al medio ambiente (clientes reales y potenciales).

El Dr. Walter Shewhart, un pionero de estudios estadísticos en control de procesos,

dice que un proceso consiste en equipo, métodos, material y personas que son con-

juntados para producir salidas en un medio ambiente. Por ejemplo, en agricultura,

si bien es cierto que las condiciones de clima predominan en los rendimientos agrí-

colas, también influyen los métodos de cultivo, el tipo de suelo, el tipo de semilla,

los mejoradores agrícolas, las plagas, entre otros. (TRADE, 1995: 84)

El análisis de resultados del sistema organizacional se da a través de lo que se co-

noce como retroalimentación, que no es otra cosa que el análisis de la información

de respuesta del medio ambiente a las salidas de la organización, reflejadas, en más

de las veces, en ventas, devoluciones, quejas, pedidos, sugerencias, entre otras.

Page 41: Estadistica i - Libro

43

Figura 2.3 Ámbito de aplicación de estudios analíticos

Administración y Finanzas

Producción

GerenciaGeneral

Mercadotecnia

Entradas Proceso

Retroalimentación

Salidas

CompetidoresProveedoresDistribuidoresClientesEmpleadosAccionistasSociedad

AccionistasSindicatoGobiernoCámarasGrupos de interés

TierraMano de obra

Capital

Productoso

Servicios

Existen cuatro razones básicas para realizar estudios estadísticos (enumerativos o

analíticos):

a) Contar con material imprescindible en un estudio de investigación.

b) Medir el desempeño y tomar medidas correctivas

c) Apoyar la toma de decisiones en la definición de estrategias

d) Para satisfacer nuestra curiosidad.

Los estudios estadísticos más comunes en el área de negocios, tienen que ver con

control de producción, control de calidad, ventas, crédito, cobros, estudios de mer-

cado (mercado potencial, mercado objetivo, precios de mercado, etc.)

Page 42: Estadistica i - Libro

44

La calidad de los estudios estadísticos

La calidad de los estudios estadísticos depende de la calidad de los datos que los

soporten. Los investigadores han adoptado el término GIGO, del inglés garbage

in, garbage out, que se traduce como basura entra, basura sale. Lo que el trata de

significar es que si los datos obtenidos son equivocados o tienen errores, el estudio

será de mala calidad y su uso para el que fue creado, estará equivocado o tendrá

errores: se tomarán malas decisiones.

Para diseñar un estudio estadístico, el estudiante debe comprender las distintas

fuentes de datos, los tipos de datos que existen y los sistemas de medición.

2.3 La obtención de datos

Existen varios métodos de obtención de datos, depende del tipo de estudio que se

quiera realizar. Primero, se puede utilizar datos ya publicados por otras instancias,

sean gubernamentales, gremiales o individuales, a este tipo de información se le

conoce como información de fuente secundaria. La de fuente primaria se obtiene

en forma directa a través de la experimentación, la observación o el levantamiento

de encuesta.

Sin importar la fuente, se hace una distinción entre el recolector original de datos y

la organización o individuo que los compilan. El recolector de datos es la fuente

primaria; el compilador es la fuente secundaria. Los datos generados por el usuario

son de fuente primaria, los datos generados por terceros, son de fuente secundaria.

Los datos primarios se obtienen a través de:

a) diseñar un experimento,

b) realizar observaciones de comportamiento de actitudes u opiniones de los

individuos que son de interés del estudio o

c) realizar una encuesta.

Page 43: Estadistica i - Libro

45

Método de experimentación

La obtención de datos por el método de la experimentación es el más complejo y

eficaz de los métodos empíricos, por lo que a veces se utiliza erróneamente como

sinónimo de método empírico. En este método, el investigador interviene sobre el

objeto de estudio modificándolo directa o indirectamente para crear las condiciones

necesarias que permitan revelar sus características fundamentales y sus relaciones

esenciales bien sea:

-Aislando al objeto y las propiedades que estudia de la influencia de otros

factores

-Reproduciendo el objeto de estudio en condiciones controladas

-Modificando las condiciones bajo las cuales tiene lugar el proceso o fenó-

meno que se estudia.

Así, los datos son sacados de la manipulación sistemática de variables en un expe-

rimento. Una diferencia clara con el método empírico en general es que éste trata

de considerar los errores, de modo que una inferencia pueda ser hecha en cuanto a

la causalidad del cambio observado.

Por ejemplo, para medir los efectos de una bebida vigorizante, a dos grupos de

jugadores después de un partido de futbol, se le pide a uno que tome la bebida en

cierta cantidad y después se le analizan sus signos vitales (presión arterial, pulsa-

ciones, respiración, dilatación de pupila, contenido de glucosa, etc.) al otro indivi-

duo se le pide que tome sólo agua purificada y también se le miden los signos vita-

les. Una vez hecho el experimento se comparan las mediadas de los signos vitales

de ambos. Se llamará a un grupo, el de la condición, experimental y al otro grupo

de control. Pero se podría trabajar con varios grupos con distintas cantidades de

ingesta de vigorizante.

Page 44: Estadistica i - Libro

46

Método de la observación

Fue el primer método utilizado por los científicos y en la actualidad continua sien-

do su instrumento universal. Permite conocer la realidad mediante la percepción

sensorial directa de entes y procesos, para lo cual debe poseer algunas cualidades

que le dan un carácter distintivo. El método de la observación permite obtener da-

tos primarios mediante la observación de la conducta de las personas, acciones y

situaciones pertinentes. Por ejemplo, un investigador de mercados de productos

lácteos podría visitar puntos de venta y observar a los compradores desde que en-

tran a la tienda, caminan por los anaqueles, toman el producto lácteo, leen las eti-

quetas y toman la decisión de compra. O una gasolinera podría evaluar la posibili-

dad de abrir nuevas sucursales mediante la observación de los esquemas de tráfico,

las condiciones del área, la ubicación de la competencia.

La investigación por el método de observación obtiene información que la gente no

puede o no quiere proporcionar. En muchos casos, la observación es la única mane-

ra de obtener información, sin embargo, algunas cosas no pueden observarse, como

las emociones, los motivos, o la conducta privada. A causa de esas restricciones,

los investigadores suelen utilizar como complemento otros métodos de recopila-

ción de datos. En la actualidad muchas empresas utilizan el método de investiga-

ción etnográfica (ciencia que estudia, describe y clasifica las culturas o pueblos)

para observar a individuos en su hábitat natural. Las investigaciones etnográficas

proporcionan a menudo detalles íntimos que no se pueden obtener por la observa-

ción tradicional.

Método de encuesta

El método de obtención más utilizado en los estudios de mercado es la realización

de una encuesta. Una encuesta es un conjunto de preguntas dirigidas a una muestra

representativa de población o de instituciones, con el fin de conocer estados de

opinión o hechos específicos. La realización de una encuesta debe tener un diseño

muestral y un marco de aplicación. La encuesta es una investigación estadística en

Page 45: Estadistica i - Libro

47

que la información se obtiene de una porción representativa de las unidades que

componen el universo. La encuesta es preferible a los censos (o estudio de toda la

población) por las siguientes razones:

- La población es grande y, por tanto, imposible de analizar en su totalidad.

- Las características de la población varían si el estudio se prolonga dema-

siado tiempo.

- Reducción de costes: al estudiar una parte de la población, los gastos de re-

cogida y tratamiento de los datos serán menores que si los obtenemos del

total de la población.

- Rapidez: al reducir el tiempo de acopio y tratamiento de los datos, se con-

sigue mayor rapidez.

- La población es suficientemente homogénea respecto a la característica

medida, resultaría inútil gastar recursos en un análisis exhaustivo.

- El proceso de estudio es destructivo o es necesario consumir un artículo pa-

ra extraer la muestra (ejemplos: vida media de una bombilla, carga sopor-

tada por una cuerda, precisión de un proyectil, etc.).

2.4 Tipos de datos, niveles de medición y escalas de medición

Las variables generan dos tipos de datos: categóricos y numéricos. Los datos ca-

tegóricos representan categorías de la observación. Los datos numéricos represen-

tan dimensión del fenómeno, estos pueden ser discretos o continuos.

Un ejemplo de dato categórico sería la respuesta a la pregunta ¿Pertenece usted a

un club social? si o no, es una respuesta categórica; igualmente sería un dato ca-

tegórico la clasificación de los hoteles de una estrella, dos estrellas, tres estrellas,

Gran Turismo; otro ejemplo sería el grado de satisfacción de un producto o un ser-

vicio: muy satisfecho, satisfecho, no satisfecho.

Page 46: Estadistica i - Libro

48

Los datos numéricos surgen del conteo o de la medición de los fenómenos. Los

datos discretos son respuestas numéricas que surgen de un proceso de conteo, los

datos continuos son respuesta numérica de un proceso de medición. Un ejemplo

de dato numérico discreto sería el número de refrescos que compra al día: 2, 3, 4.

Por otro lado, la altura de un estudiante es el ejemplo de una variable numérica

continua, 1.72 metros, la medición acepta fracciones de la unidad.

Figura 2.14 Tipo de datos.

Tipo de datos Tipo de pregunta Respuesta

Categóricos

Numéricos

Niveles de medición

En el sentido más amplio, todos los datos ha obtener son medibles. Incluso los

datos numéricos discretos pueden considerarse como producto de una medición

mediante el conteo. Todo lo que se observa generalmente es referido como varia-

bles. Por ejemplo, si se estudiara el precio de una taza de café americano en Victo-

ria o en Matamoros, la variable principal sería el precio, seguramente el valor de la

variable será diferente en varios establecimientos, como también es variable la

cantidad servida y las condiciones ambientales del lugar. Cualquier observación en

particular se denomina “valor de la variable”. Los tres niveles de medición en esca-

la reconocidos son: nominal, ordinal y cardinal (intervalo y relación).

1. La escala nominal se utiliza para nombrar.

2. La escala ordinal se utilizan para representar un ordenamiento.

3. La escala cardinal sirven para representar una cantidad (intervalo o de rela-

ción)

Page 47: Estadistica i - Libro

49

Escala de medición

Los datos obtenidos de una variable categórica pueden ser medidos en una escala

nominal u ordinal. Las observaciones no ordenadas constituyen el nivel más bajo

de mediada y son referidas como una escala nominal. Se puede asignar un valor

numérico para representar la variedad de clases en una escala nominal pero este

número no tiene propiedades cuantitativas, sólo sirven para identificar la clase. Es

decir, si los datos observados simplemente se clasifican en diversas categorías, en

las que no implica ningún orden.

La medición de variables categóricas nominales resultan de la aplicación de una

escala de medición que permite solo determinar las relaciones = y ≠. El valor que

toma una variable categórica nominal indica la categoría a la que pertenece; por lo

tanto, permite clasificar a los individuos en grupos. Los grupos pueden ser dicotó-

micos (dos categorías) o politómicos (más de dos categorías). Por ejemplo:

Variable categórica nominal dicotómica: género (femenino / masculino). Variable

categórica nominal politómica: afiliación partidista (cuando se distinguen más de

dos partidos) como PRI, PAN, PRD.

Figura 2.5 Ejemplos de escala nominal.

Variable categórica Categoría

Seguro de automóvil

Tipo de seguro de vida que se tiene

Afiliación política

si no

Temporal Vitalicio

PRIísta PANista PRDísta

El siguiente nivel de medición, de escala ordinal se refiere cuando la medición

representa un orden en una serie. En esta escala las diferencias son expresadas en

términos de inequidades algebraicas: a es menor que b (a<b) o a es mayor que b

Page 48: Estadistica i - Libro

50

(a>b). Las relaciones entre variables serán: más grande, más veloz, más alto, etc.

Los números empleados en la escala ordinal no son cuantitativos, sólo indican una

posición pero no qué tanto es la diferencia entre las diferentes posiciones de la

escala.

Ejemplos de aplicación de la escala ordinal incluye: la designación de clase de un

estudiante en un grupo, la clasificación de las películas, la categoría de los emplea-

dos, etc.

Figura 2.6 Ejemplos de escala ordinal.

Variable categórica Categoría

Clase de estudiante en un grupo

Clasificación de películas

Clasificación hotelera

Primero Segundo Tercero

G PG PG-13 R X

Finalmente el nivel más alto de medición en la ciencia es alcanzado por el uso de

números cardinales (escala de intervalo y de relación). Los valores numéricos

asociados con esta escala son cuantitativos y por ello permite el uso de operaciones

aritméticas como la suma, resta, multiplicación y división.

La diferencia entre estos dos tipos de escala radica en que la escala de intervalo

emplea un punto arbitrario (cero) de comparación mientras que la escala de rela-

ción emplea un cero real.

La medición de temperatura en grados Celsius o Fahrenheit son ejemplos de medi-

ción en escala de intervalos. No podemos decir que 40º C es a 20º C como 20º C es

a 10º C. Lo anterior se debe a que el punto de medición 0º C es arbitrario. En esta

escala de intervalo utilizada existe lo que se conoce como cero absoluto y se supo-

ne que es equivalente a -273º C, por lo que 40º C equivale a 273º C + 40º C de

calor; 20º C representa 273º C + 20º C de calor y 10º C representa 273º C + 10º C.

Page 49: Estadistica i - Libro

51

Cabe señalar que la diferencia entre dos lecturas tiene el mismo significado en

cualquier nivel de la escala, así la diferencia entre 37º C y 39º C es de 2º grados,

igual que en las lecturas de 25º C y 27º C.

La medición de las variables categóricas ordinales resultan de la aplicación de una

escala de medición que permite determinar las cuatro relaciones =, ≠, > y <. Lo que

permite ordenar a los individuos en un orden creciente o decreciente con relación a

una característica medida.

Figura 2.7 ejemplos de escala cardinal (intervalo o relación)

Variable numérica Nivel de medición

Temperatura ( C o F)

Tiempo de calendario (hebreo o islámico)

Altura (en pulgadas o centímetros)

Peso (en libras o kilogramos)

Edad (en años o días)

o o Intervalo

Intervalo

Relación

Relación

Relación

Generalmente los datos obtenidos de una variable numérica han sido medidos en

una escala de intervalo o de relación. Estas escalas constituyen los niveles más

altos de medición, son formas más concretas de medición, que de una de escala

ordinal, porque se puede distinguir no sólo la dimensión sino también la diferencia

con otras observaciones.

En la escala de relación (o de cociente), además de que las diferencias son signifi-

cativas e iguales en cualquier punto de la escala, existe un punto cero verdadero

que pueda ser tomado en cuenta para realizar comparaciones. Una persona mide

1.80 metros, el doble de alta de una que mide .90 metros.

Page 50: Estadistica i - Libro

52

Escala tipo Likert

Frecuentemente se requieren conocer las inclinaciones, sentimientos, prejuicios o

distorsiones, nociones preconcebidas, ideas, temores, amenazas y convicciones de

cierta población acerca de cualquier asunto específico, como las preferencias.

Una manera de realizar este tipo de estudios es aplicando un cuestionario con una

serie de ítems con respuestas alternativas con una escala de medición de actitudes,

como la escala de Likert, que fue desarrollada por el sociólogo Rensis Likert en

1932. La escala Likert, conocida también como escala sumativa está en función de

una serie de ítems que reflejan una actitud positiva o negativa acerca de un estímu-

lo o referente; analiza los pensamientos y sentimientos de la persona hacia los

hechos. Para realizar un estudio de esta naturaleza, se propone seguir los siguientes

pasos:

1. Preparación de los ítems del cuestionario; se elaboran una serie de enun-

ciados afirmativos y negativos sobre el tema o actitud que se pretende me-

dir. El número de enunciados elaborados al principio debe ser mayor al

número final de enunciados incluidos en la versión final.

2. Aplicación del cuestionario en una muestra representativa de la población

cuya actitud deseamos medir. Se le solicita a los sujetos que expresen su

acuerdo o desacuerdo frente a cada ítem mediante una escala.

3. Asignación de puntajes a los ítems; se le asigna un puntaje a cada ítem a

fin de clasificarlos según reflejen actitudes positivas o negativas.

4. Asignación de puntuaciones a los sujetos; la puntuación de cada sujeto se

obtiene mediante la suma de las puntuaciones de los distintos ítems.

5. Análisis y selección de los ítems; mediante la aplicación de pruebas es-

tadísticas se seleccionan los ajustados al momento de efectuar la discrimi-

nación de la actitud en cuestión, rechazando aquellos que no cumplan con

este requisito.

Page 51: Estadistica i - Libro

53

Después de concluir la aplicación del cuestionario, cada elemento se puede analizar

por separado o, en algunos casos, las respuestas a cada elemento se suman para

obtener una puntuación total para un grupo de elementos. Por ello las escalas de

tipo Likert son un tipo de escalas sumativas. Cada ítem está estructurado con cinco

o más alternativas de respuesta. La unidad de análisis que responde a la escala

marcará su grado de aceptación o rechazo hacia la proposición expresada en el

ítem. Los ítems por lo general tienen implícita una dirección positiva o negativa.

Por ejemplo:

“Los menonitas son un grupo étnico con excelentes valores hacia el trabajo”:

( ) Totalmente de acuerdo

( ) De acuerdo

( ) Indiferente

( ) En desacuerdo

( ) Totalmente en desacuerdo

La escala de Likert es un método de escala bipolar que mide tanto el grado positivo

como negativo de cada enunciado. A veces se utilizan 4 niveles de respuesta; de

esta forma se obliga a elegir un lado de la escala, ya que no existe la posibilidad de

neutralidad.

Las respuestas a los elementos se pueden sumar, teniendo en cuenta que todos los

elementos midan el mismo concepto (p.ej., preferencias de consumo). Es recomen-

dable realizar un análisis estadístico de los ítems con el propósito de ser selectivos.

Entre las técnicas de análisis se encuentran la correlación ítem-escala por medio del

coeficiente de correlación de Pearson, el coeficiente gamma, el análisis factorial, el

análisis discriminante, entre otros.

Page 52: Estadistica i - Libro

54

2.5 Definición operacional

En un estudio estadístico generalmente participan diferentes tipos de personas, lo

que hace necesario establecer la definición operacional para obtener la respuesta o

interpretación apropiada. En otras palabras, todas las personas que tengan interés

en un estudio estadístico específico, deberán hablar el mismo lenguaje. Las perso-

nas que participan en un estudio estadístico, se pueden identificar como: responsa-

ble del estudio, colaboradores en el diseño, encuestador, encuestado, capturista,

compilador y tomador de decisiones. Una definición operacional proporciona un

significado a un concepto o variable que puede comunicarse a otros individuos. Es

algo que tiene el mismo significado ayer, hoy y mañana para todos los individuos

(Berenson & Levin, 1996: 18).

En la definición operacional se debe tener en cuenta que lo que se intenta es obte-

ner la mayor información posible de la variable seleccionada, de modo que se capte

su sentido y se adecúe al contexto, y para ello se deberá hacer una cuidadosa revi-

sión de la literatura disponible sobre el tema de investigación.

Por ejemplo, la definición operacional de la variable productividad, podría ser la

siguiente: cantidad de bienes producidos por un trabajador en una jornada laboral

de ocho horas. En el ejemplo se pretende buscar una relación entre motivación y

productividad, la definición operacional de la variable productividad se circunscri-

be al trabajo realizado por un trabajador en determinado lapso de tiempo y con

cierto tipo de incentivos, tales como salarios, premios, beneficios sociales, oportu-

nidades de progreso, estabilidad en el cargo, aumento de sueldo y prolongación de

vacaciones. Si el objeto de estudio hubiese sido otro, por ejemplo, analizar la pro-

ductividad en relación con el uso de ciertos materiales o maquinarias, entonces la

definición operacional hubiese sido otra.

El investigador, al formular la definición operacional, debe considerar las condi-

ciones contribuyentes, contingentes y alternativas al problema que trata. Una con-

dición contribuyente aumenta la posibilidad de que un fenómeno ocurra pero no lo

Page 53: Estadistica i - Libro

55

hace implícito o cierto, ya que por sí misma no causa el fenómeno sino que es uno

entre otros tantos factores que inciden en su ocurrencia. Las condiciones contingen-

tes y alternativas que inciden en la medición de una variable son más proclives a

ser analizadas en las investigaciones sociales.

La operacionalización de las variables está estrechamente vinculada al tipo de

técnica o metodología empleadas para la recolección de datos. Éstas deben ser

compatibles con los objetivos de la investigación, a la vez que responden al enfo-

que empleado, al tipo de investigación que se realiza. Estas técnicas, en líneas ge-

nerales, pueden ser cualitativas o cuantitativas.

Las técnicas cuantitativas se emplean cuando el universo de estudio es amplio y la

complejidad de las variables posibilita una aceptable desagregación en niveles sus-

ceptibles de cuantificarse y ser analizados. En los estudios de tipo social, la encues-

ta es el instrumento de recolección de datos más utilizado en las investigaciones

cuantitativas.

Por su parte, las técnicas cualitativas son más utilizadas en las investigaciones ex-

ploratorias, su flexibilidad permite la construcción de categorías en la búsqueda,

análisis e interpretación de los datos obtenidos. Con esta técnica, empleada por

ejemplo en las entrevistas en profundidad, se produce una interacción permanente

entre la observación y la reflexión, entre lo descriptivo y lo explicativo.

Cuando nos encontramos con variables complejas, donde el pasaje de la definición

conceptual a su operacionalización requiere de instancias intermedias, entonces se

puede hacer una distinción entre variables, dimensiones e indicadores. A modo de

síntesis, puede afirmarse que el pasaje de la dimensión al indicador hace un reco-

rrido de lo general a lo particular, del plano teórico al plano de lo empíricamente

contrastable.

Las dimensiones vendrían a ser subvariables o variables con un nivel más cercano

al indicador. Para el caso de definir a la variable productividad, nos encontramos

Page 54: Estadistica i - Libro

56

con diferentes subdimensiones que forman parte de la variable, como ser: cantidad

de producción, costo de mano de obra, tiempo de producción, maquinaria, materia-

les o energía consumida, desperdicios. Cada una de estas subvariables son las di-

mensiones de la variable productividad.

A su vez, estas dimensiones, para poder ser contrastadas empíricamente por el in-

vestigador, requieren operacionalizarse en indicadores, que no son otra cosa que

parámetros que contribuyen a ubicar la situación en la que se halla la problemática

a estudiar. En un sentido restringido, los indicadores son datos. Para la variable

productividad, por ejemplo, en la dimensión mano de obra, los indicadores podrían

ser cantidad de productos envasados por un trabajador en ocho horas de trabajo.

2.6 Realización de encuestas

Las encuestas es lo más directo y rápido para obtener datos pero puede tener ries-

gos y lagunas. Dada una población, se calcula la dimensión suficiente de una mues-

tra y se genera procedimiento aleatorio, preferentemente con un equipo de cómpu-

to, para determinar los individuos de la población a los que se les aplicará el cues-

tionario. La clasificación de los individuos de la población debe tener la misma

estructura numérica que el procedimiento aleatorio definido.

Hay dos pasos esenciales, para la realización de una encuesta:

a) el diseño de las preguntas y,

b) el análisis final para sacar conclusiones a un nivel de estadística descripti-

va.

El diseño de las preguntas y análisis de respuestas es el tratamiento de datos que se

espera realizar, lo más común es exponer los datos en porcentajes y medidas com-

parativas al interior y exterior de la muestra. Es muy importante definir las relacio-

nes existentes entre un grupo de variables en las que se suponen que algunas de

Page 55: Estadistica i - Libro

57

ellas (denominadas constructos)2 se miden a partir de otras variables observables

denominadas indicadores. Los modelos utilizados constan, por lo tanto, de dos

partes:

a) un modelo estructural que especifica las relaciones de dependencia existen-

te entre las constructos latentes y,

b) un modelo de medida que especifica cómo los indicadores se relacionan

con sus correspondientes constructos.

Una definición operacional de un constructo se refiere a las operaciones mediante

las cuales un investigador determina la presencia, ausencia o magnitud de un

fenómeno. Estas operaciones son mediciones o registros numéricos, por ejemplo: si

se quisiera medir la satisfacción del cliente sería difícil determinarla recabando las

respuestas de que sí está o no satisfecho con tal o cual producto. Para ser más

aproximado al concepto de satisfacción habrá que preguntar si el producto cumplió

con sus expectativas, si estuvo conforme con la atención, con el precio, con los

tiempos de entrega, con el sistema de venta, entre otros. La variable satisfacción

del cliente es una variable dependiente y el resto son variables independientes. En

forma general, se puede expresar como:

f(x)= {a, b, c, …. z}

Donde f(x) es la satisfacción del cliente y a, b, c, son las variables que la determi-

nan.

Para la realización de una encuesta (y cualquier tipo de estudio estadístico), además

de la práctica administrativa inherente, se requiere seguir los siguientes pasos:

Elección del tema de estudio: uso del tiempo libre de los estudiantes

2 Un constructo es, en términos generales, una idea. Más precisamente y según el filósofo argentino Mario Bunge, “Por constructo u objeto conceptual, entendemos una creación mental. Distinguiremos cuatro clases básicas de

constructos: conceptos, proposiciones, contextos y teorías”. En consecuencia, los conceptos, las hipótesis (que son

proposiciones), las teorías y las clasificaciones científicas son constructos.

Page 56: Estadistica i - Libro

58

Marco teórico del tema: teorías en que se fundamenta el estudio y lo que

se desea investigar, a través de formular las preguntas de investigación.

Diseñar del instrumento de recolección de datos (cuestionario): pregun-

tas numéricas o categóricas

Definir el ámbito de aplicación: local

Definición del universo: Estudiantes de la UA Derecho y Ciencias Socia-

les

Definir el tipo de muestreo: Probabilístico, no probabilístico.

Definir el método de aplicación: personal, correo tradicional, teléfono, en

línea.

Obtención y tratamiento de datos: digitalización y análisis estadístico

Elaboración de informe: se refiere a la redacción de lo que se encontró en

la investigación y comparación de los parámetros que se conocen.

Elección del tema

Los temas para realizar estudios estadísticos son prácticamente infinitos. Depen-

derá del área de interés del investigador. En el área de negocios los estudios se

diseñan para estimar los gustos y preferencias del consumidor, los precios de mer-

cado, el mercado objetivo, la disponibilidad de recursos para adquirir el producto,

las cantidades promedio de consumo, la impresión de la imagen de la empresa, la

competencia, etc.

Marco Teórico de la investigación

En todo proceso de investigación, un elemento que direcciona el camino a seguir

en todo trabajo científico es el marco teórico, ya que en base a éste se inicia, con-

tinúa o hace que ésta fracase, posteriormente al planteamiento del problema de

Page 57: Estadistica i - Libro

59

estudio (tema de estudio), es decir, que se han definido los objetivos que se preten-

den lograr y las interrogantes que se quieren despejar con su realización, el siguien-

te paso consiste en sustentar teóricamente el estudio. Este paso implica analizar y

exponer aquellas teorías, enfoques teóricos, investigaciones y antecedentes en ge-

neral que se consideran válidos para un correcto encuadre del estudio. A esta etapa

se le denomina “elaboración del marco teórico”.

El marco teórico no solamente abarca la revisión de conceptos y/o teorías que apo-

yan una investigación. Además debe tomarse en cuenta el marco de referencia y el

marco conceptual en el cual se circunscribe la investigación a realizar.

La observación, descripción y explicación de la realidad a investigarse debe ubicar

en la perspectiva de lineamientos de carácter teórico. Esto exige del investigador la

identificación de un marco de referencia sustentado en el conocimiento científico;

por ello, “cada investigación toma en cuenta el conocimiento previamente cons-

truido, por lo que al realizarla se apropia parcialmente de la estructura teórica ya

existente”. A esta etapa se le denomina “marco referencial” que no es otra cosa que

conocer, hasta donde sea posible, las investigaciones que se han efectuado sobre el

tema. De éstas, se puede obtener una visión completa de las formulaciones teóricas

sobre las cuales se ha de fundamentar el conocimiento científico propuesto en las

fases de observación, descripción y explicación.

Por ejemplo, en el estudio del uso del tiempo libre, que se ha tomado como refe-

rencia, lo primero que se tiene que hacer es definir el concepto “Tiempo libre” que,

según algunos autores, es una situación donde no existe obligación de realizar una

determinada tarea. En el tiempo libre, los individuos pueden realizar actividades

que disfrutan, tales como satisfacer necesidades personales, como el descanso, la

distracción, diversión, el desarrollo personal, la distracción.

El derecho al tiempo libre, no es solo cuestión cuantitativa o temporal, tiene más un

sentido cualitativo, puesto que en él se modifica el estilo de vida del individuo y las

Page 58: Estadistica i - Libro

60

estructuras sociales de su entorno. En el tiempo libre se adoptan los principios y

valores que se incorporan a la calidad de vida.

El marco teórico del uso de tiempo libre inicia con la distribución teórica del tiem-

po disponible. Se sabe que los médicos recomiendan alrededor de 8 horas de sueño

para que el organismo descanse y pueda recuperarse del desgaste cotidiano, esto

quiere decir, en números, que un tercio del día se debe dedicar al abandono total de

cualquier actividad necesaria para el sostenimiento de la vida y la salud, como las

económicas y las que satisfacen las necesidades fisiológicas.

El segundo bloque en cantidad de tiempo consumido durante el día, es el “Tiempo

de Trabajo” el cual en México se limita, por ley a un máximo de 8 horas durante el

horario diurno. Se entiende por trabajo a una actividad física o mental realizada por

un individuo a cambio de un jornal o de un salario. Si bien el trabajo remunerado

es la modalidad laboral más claramente identificable, no es la única, ya que existen

otras formas no remuneradas y que exigen una considerable cuota de tiempo y de

esfuerzo por parte del individuo que se dedica a ellas. Ejemplos de estas formas de

trabajo no remunerado, son los estudios (jornada escolar), así como los trabajos

realizados en el hogar para su funcionamiento y conservación (jornada doméstica).

El tercer tipo es el “tiempo social”, que se consume en actividades tales como el

transporte público o privado, en las charlas y reuniones con compañeros de trabajo

o de estudios y que exigen cierta obligatoriedad. Asimismo, la asistencia a ciertos

actos familiares, sociales, laborales, políticos o públicos que comprometen la asis-

tencia ineludible del individuo. También los actos y ceremonias de índole religiosa.

Por cierto, es en este tiempo en cuando se produce la formación de los grupos so-

ciales más permanentes, en los que surge la amistad y, en etapas más profundas y

avanzadas, las relaciones afectivas de pareja, que como en los casos anteriores,

también exigen una responsabilidad y obligación para con el grupo.

Page 59: Estadistica i - Libro

61

Por último y como consecuencia de la ocupación y la utilización de los otros tiem-

pos para la satisfacción de las necesidades económicas y sociales, queda un resi-

duo, un tiempo restante que queda liberado de toda obligación: el tiempo libre.

Diseño del cuestionario.

El cuestionario es un instrumento considerado clásico en las ciencias sociales para

la obtención y registro de datos. Su versatilidad permite utilizarlo como instrumen-

to de investigación de las características de personas, procesos y programas. Es un

instrumento de recolección de datos que puede abarcar aspectos cuantitativos y

cualitativos, es decir, considerar las variables numéricas y categóricas. Su carac-

terística singular radica en que para registrar la información solicitada a los mismos

sujetos, ésta tiene lugar de una forma menos profunda e impersonal, que el "cara a

cara" de la entrevista. Al mismo tiempo, permite consultar a una parte representati-

va de la población (muestra) de una manera rápida y económica.

Existe una relación inversa entre la amplitud de un cuestionario y la tasa de res-

puesta, en consecuencia, cada pregunta deberá de presentarse claramente, con el

menor número de palabras. Las preguntas deben estar libres de ambigüedades. Si

fuera necesario evitar confusiones debido a la complejidad de las preguntas, deberá

de acompañarse de definiciones operacionales para obtener respuestas apropiadas.

Es muy conveniente procurar que las respuestas sean en su mayoría del tipo numé-

ricas o categóricas, éstas facilitan la codificación. Las preguntas abiertas (aquellas

donde el encuestado exponga su punto de vista) deben de clasificarse u ordenarse

apropiadamente.

Los datos que se pueden obtener con un cuestionario pertenecen a cuatro cate-

gorías:

a) Hechos (datos actuales): datos personales del grupo social estudiado: por

ejemplo, edad, nivel educativo; datos del ambiente que le rodea: por ejem-

plo, vivienda, relaciones familiares, de vecindad, de trabajo, etc. y datos de

Page 60: Estadistica i - Libro

62

su comportamiento con respecto al tema de estudio (compró, vendió,

probó, fue, etc.).

b) Opiniones, a las cuales se suman los niveles de información, de expecta-

ción, todo lo que se podría llamar datos subjetivos.

c) Actitudes y motivaciones, todo lo que empuja a la acción, al comporta-

miento, y ésta a la base de las opiniones.

d) Cogniciones, es decir índices de nivel de conocimiento de los diversos te-

mas estudiados en el cuestionario. Revela el grado de confianza a conceder

a las opiniones sobre juicios subjetivos.

Las preguntas del cuestionario, según el modo de formularse, pueden ser cerradas

y abiertas.

Las cuestiones cerradas ofrecen al usuario que va a ser evaluado todas las alternati-

vas posibles, o al menos todas aquellas que mejor responden a la situación. El suje-

to no tiene sino elegir alguna o algunas, poniendo una señal convenida: una cruz,

rodear con un círculo, subrayar.... Suelen ser preguntas con la opción afirmativa y

negativa, y, a veces, no sé/sin opinión. Ejemplo:

¿Tiene en su domicilio acceso a Internet? Sí ( ) No ( )

En otras ocasiones las preguntas están categorizadas. Al usuario se le da a elegir

entre un abanico de opciones. Ejemplo:

¿Cuántos habitantes tiene la ciudad donde vive?

Menos de 2.000. ( ) De 2.001 a 5.000 ( ) De 5.001 a 10.000 ( )

De 10.001 a 20.000 ( ) De 20.001 a 50.000 ( ) De 50.001 a 100.000 ( )

Las respuestas o categorías que se ofrezcan a este tipo de preguntas han de reunir

dos condiciones esenciales: que sean exhaustivas y excluyentes. Las categorías o

respuestas serán exhaustivas si abarcan todos los casos que pueden darse. En ese

caso, ningún encuestado puede dejar de responder por no encontrar su categoría. Y

Page 61: Estadistica i - Libro

63

serán excluyentes, cuando ningún sujeto al contestar al cuestionario, pueda elegir

válidamente dos respuestas distintas de la misma pregunta.

Algunas preguntas se presentan bajo una escala cuantitativa, correspondiente al

número de veces que se repite una acción determinada. En este caso es conveniente

elegir un número par de opciones, cuatro o seis, con objeto de evitar que el encues-

tado pueda responder a la opción central, sin esforzarse en reflexionar. Así ocurre

por ejemplo:

En las clases teóricas del curso de formación que está haciendo, ¿Toma apuntes o

notas de lo que dice el expositor?

Nunca ( ) Pocas veces ( ) Con frecuencia ( ) Siempre ( )

Por otro lado, las preguntas abiertas no ofrecen ninguna categoría para elegir. Sólo

contienen la pregunta y no ofrecen ningún tipo de respuesta, dejando ésta a la con-

sideración del sujeto que completa el cuestionario.

Posibilidades y limitaciones de las cuestiones abiertas y cerradas.

Las preguntas abiertas son más fáciles de formular, puesto que no hay que prever

ningún tipo de respuesta ni investigar acerca de la exhaustividad y exclusión de las

categorías propuestas. Sin embargo, la dificultad aparece a la hora de tratar la in-

formación recogida. Es muy difícil reducir contestaciones dispares a unas categor-

ías significativas que permitan recoger la información más relevante, con objeto de

poderla cuantificar después.

Siguiendo con la idea de realizar un estudio sobre uso de tiempo libre, a continua-

ción se señalan algunos cuestionamientos, así como sus posibles respuestas.

Actividades de tiempo libre que le gustan y que practica habitualmente: ir de co-

pas; ir a discotecas, bailar; salir a reunirse con amigos; hacer deporte; asistir a

competencias deportivas; ir de excursión; ir al cine; ir al teatro; ir a conciertos;

escuchar música; ir a museos, exposiciones; no hacer nada. Al final del capítulo, a

Page 62: Estadistica i - Libro

64

manera de ejemplo se presenta el cuestionario para investigar el uso de tiempo libre

de los estudiantes de la UADYCS.

Ámbito de aplicación.

El ámbito de aplicación de la encuesta se refiere al espacio comprendido dentro de

límites geográficos determinados. Éste puede ser internacional, nacional, regional,

local, institucional.

Universo.

El universo del estudio es el número total de individuos u objetos que tienen carac-

terísticas observables comunes, en el ámbito de aplicación definido. Todos los

mexicanos, si el ámbito es la República mexicana; Todos los tamaulipecos, si el

ámbito es el estado de Tamaulipas; todas las personas que viven en la colonia

Obrera y que tienen entre 12 y 36 años, si el estudio fuera de esa área geográfica.

2.7 Tipo de muestreo

Un vez conocido el marco de estudio o listas actualizadas del universo y calculado

el tamaño apropiado de la muestra, se procede a definir los candidatos a proporcio-

nar los datos. Existen básicamente dos tipos de muestra: Probabilística y no pro-

babilística.

Muestreo probabilístico

Una muestra probabilística es aquella en que los sujetos de la muestra se eligen

sobre la base de probabilidades. Hay cuatro tipos de muestras de probabilidad más

comunes: aleatoria simple, la muestra sistemática, la muestra estratificada y, la

muestra de agrupación.

Page 63: Estadistica i - Libro

65

a) El muestreo aleatorio simple puede ser de dos tipos:

1. Sin reposición de los elementos: cada elemento extraído se descarta para

la subsiguiente extracción. Por ejemplo, si se extrae una muestra de una

"población" de bombillas para estimar la vida media de las bombillas que

la integran, no será posible medir más que una vez la bombilla selecciona-

da. Al descartar el elemento extraído, aumenta la probabilidad de extrac-

ción de los subsiguientes.

2. Con reposición de los elementos: las observaciones se realizan con reem-

plazo de los individuos, de forma que la población es idéntica en todas las

extracciones. En poblaciones muy grandes, la probabilidad de repetir una

extracción es tan pequeña que el muestreo puede considerarse sin reposi-

ción aunque, realmente, no lo sea.

Para realizar este tipo de muestreo, y en determinadas situaciones, es muy útil la

extracción de números aleatorios mediante equipo de cómputo, calculadoras o ta-

blas construidas para ese propósito.

b) Muestra sistemática

Se utiliza cuando el universo es de gran tamaño o ha de extenderse en el tiempo.

Primero hay que identificar las unidades y relacionarlas con el calendario (cuando

proceda). Luego hay que calcular una constante, que se denomina coeficiente de

elevación, k= N/n; donde N es el tamaño del universo y n el tamaño de la muestra.

Determinar en qué fecha se producirá la primera extracción, para ello hay que ele-

gir al azar un número entre 1 y k; de ahí en adelante tomar uno de cada k intervalos

regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del

fenómeno.

Elegir aleatoriamente un número m, entre 1 y k; tomar como muestra los elementos

de la lista: {em, em+k, em+2k, em+3k….em+(n-1)k}

Page 64: Estadistica i - Libro

66

Esto es lo que se denomina muestreo sistemático. Cuando el criterio de ordenación

de los elementos en la lista es tal que los elementos más parecidos tienden a estar

más cercanos, el muestreo sistemático suele ser más preciso que el aleatorio sim-

ple, ya que recorre la población de un modo más uniforme. Por otro lado, es a me-

nudo menos probable de cometer errores con un muestreo sistemático que con el

aleatorio simple.

c) Muestra estratificada.

Consiste en la división previa de la población de estudio en grupos o clases que se

suponen homogéneos respecto a la característica a estudiar. A cada uno de estos

estratos se le asignaría una cuota que determinaría el número de miembros del

mismo que compondrán la muestra. Dentro de cada estrato el muestreo se realizaría

mediante el método de muestra aleatoria simple. Según la cantidad de elementos de

la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de

muestreo estratificado:

1. Asignación proporcional: El tamaño de cada estrato en la muestra es pro-

porcional a su tamaño en la población.

2. Asignación óptima: la muestra recogerá más individuos de aquellos estra-

tos que tengan más variabilidad. Para ello es necesario un conocimiento

previo de la población.

Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por

separado las opiniones de hombres y mujeres pues se estima que, dentro de cada

uno de estos grupos, puede haber cierta homogeneidad. Así, si la población está

compuesta de un 55% de mujeres y un 45% de hombres, se tomaría una muestra

que contenga también esa misma proporción.

d) Muestra de agrupación o conglomerado

Cuando la población se encuentra dividida, de manera natural, en grupos que se

suponen que contienen toda la variabilidad de la población, es decir, la representan

Page 65: Estadistica i - Libro

67

fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de

estos grupos o conglomerados para la realización del estudio.

Dentro de los grupos seleccionados se ubicarán las unidades elementales, por

ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a

todas las unidades, es decir, los miembros del grupo, o sólo a algunos de ellos,

seleccionados al azar. Este método tiene la ventaja de simplificar la recogida de

información muestral cuando, dentro de cada conglomerado, se extraen los indivi-

duos por el método aleatorio simple, el muestreo se llama bietápico.

Las ideas de estratificación y conglomerados son opuestas. El primero funciona

mejor cuanto más homogénea es la población respecto del estrato, aunque más

diferentes son éstos entre sí. En el segundo, ocurre lo contrario. Los conglomerados

deben presentar toda la variabilidad, aunque deben ser muy parecidos entre sí.

Muestreo no probabilístico

El muestreo no probabilístico se realiza cuando la extracción de la muestra y su

tamaño para ser representativa se valoran de forma subjetiva. Se basa en una buena

estrategia y el buen juicio del investigador. Para muchos estudios sólo se dispone

de una muestra no probabilística como una muestra de juicio, de cuota o de parte

grande.

Figura 2.8 Tipos de muestra

No

ProbabilísticaProbabilística

Tipo de

muestra

De juicio

De cuota

De parte grande

Aleatoria simple

Sistemática

Estratificada

Agrupación

Page 66: Estadistica i - Libro

68

Tamaño de la muestra

Para que la encuesta pueda ser aplicada con alto grado de confiabilidad, la muestra,

del universo debe de cumplir dos requisitos fundamentales: que sea representativa

y que sea adecuada.

Para que la muestra sea representativa, se requiere especificar una serie de carac-

terísticas que determinan la pertenencia de sus miembros y al universo a que perte-

necen. Mientras más específicas sean sus características, más fácil será su estudio.

Si se quisiera hacer un estudio de la vivienda en Cd. Victoria, para un estudio de

mercado de muebles del hogar, se requiere ser más específico del tipo de vivienda

(residencial, de interés social, autoconstrucción, ubicación geográfica, entre otras),

las variables a obtener podrían ser, según el interés del estudio: número de cuartos,

mediada de los mismos, usos, necesidades de muebles, nivel de ingreso de los habi-

tantes, entre otras. La especificación del universo o marco de estudio, reduce los

esfuerzos y recursos requeridos para su realización.

Además de que la muestra debe cumplir el requisito de representatividad, también

se requiere que sea adecuada, y lo es, cuando tiene la magnitud suficiente para que

las características objeto del estudio (variables) sean confiables para inferir las

características del universo.

Para determinar la magnitud de la muestra existen dos formas, la primera es a

través de conocer el error estándar de la población o por lo menos un error estima-

do. El error estándar mide la dispersión en torno a la media de una distribución

hipotética. Los valores que forman esta distribución hipotética son las medidas de

todas las posibles muestras de un universo. Así pues, la media de esta distribución

es la media de las medias de todas las posibles muestras y se puede considerar co-

mo la media verdadera del universo (Goode y Hatt, 1975: 281). La fórmula para

calcular el tamaño de la muestra se deriva de la fórmula de estandarización:

Page 67: Estadistica i - Libro

69

Z = X-µx

σx

n

La diferencia entre la media de la muestra y la media de la población se conoce

como error de muestreo y se denota como Es. Por lo que la ecuación queda como:

Es = Z σ/n½; despejando nos resulta que n = Z

2(σ /Es)

2

Donde Es representa al error estándar, Z es el valor crítico determinado, que co-

rresponde a (1- α)/2 del centro de una distribución normal estandarizada., σ la des-

viación estándar y n el tamaño de la muestra. Lo que significa que si se conoce la

desviación estándar de la población y el error estándar se puede conocer el tamaño

de la muestra.

La otra forma de estimar el tamaño de la muestra es cuando la distribución bino-

mial puede ser aproximada a la distribución normal, esto es cuando np y n(1-p)

adquieren un valor de cuanto menos 5.

Z =

p - p

p(1-p)n

s

La diferencia entre la porción de la muestra y la porción de la población ps - p se

conoce como error de muestreo y se denota como e. Por lo que la ecuación queda

como:

Z p(1-p)

n = e, despejando n se tiene que: n = Z

2 p(1-p)

e2

Por ahora es suficiente saber que existe la manera de calcular el tamaño de la

muestra, la aplicación práctica se realizará en temas posteriores.

Método de aplicación del cuestionario

Existen básicamente cuatro modos mediante el cual se realiza el trabajo de la apli-

cación del cuestionario de una encuesta: la entrevista personal, la entrevista tele-

fónica, la de correo tradicional y últimamente a través de Internet (correo electróni-

co o de página Web). Cada modo tiene ventajas y desventajas de aplicación.

Page 68: Estadistica i - Libro

70

Tabla2.1 Características de los métodos de aplicación del cuestionario

Tratamiento de datos

Una vez que se aplican los cuestionarios, se procede a digitalizarlos, considerando

cada cuestionario como un registro. Un registro es un conjunto de campos que con-

tienen los datos que pertenecen a una misma repetición de entidad. La estructura

implícita de un registro y el significado de los valores de sus campos exige que

dicho registro sea entendido como una sucesión de datos, uno en cada columna de

la tabla.

Elaboración de informe de resultados

El informe es un documento, en el cual quedan plasmados una serie de procedi-

mientos de obtención de datos, cálculos, resultados, gráficas, análisis y conclusio-

nes, que permiten a otras personas conocer y entender sobre lo que se investigó y a

las conclusiones a que se han llegado. Todo informe tiene un carácter muy particu-

lar. Estará definido según sus autores, el tipo de trabajo que se reporta y el tema

estudiado. Sin embargo, existe un mínimo de apartados que debe contener:

Carátula o portada de identificación

Índice de contenido

Fuente: Shiffman & Kanuk: Consumer Behavior, 2002

Page 69: Estadistica i - Libro

71

Introducción o resumen

Objetivos que se persiguen

Marco Teórico en que se fundamenta la investigación

Tratamiento estadístico de datos obtenidos (medidas resumen)

Resultados obtenidos (comparación con la teoría)

Conclusiones y recomendaciones

2.8 Uso de una tabla de números aleatorios

Una tabla de números aleatorios consiste en generar una serie de dígitos aleatorios

y ordenarlo en el orden que se generaron en filas y columnas. La tabla de dígitos se

utiliza en lugar de utilizar un ánfora con códigos de identificación de cada uno de

los miembros de la población. Para usarla es necesario primero asignar un número

de código a cada elemento de la población; el elemento escogido como parte de la

muestra será aquel que coincida con los datos encontrados en la tabla. Para encon-

trar el primer dígito de la tabla, se escoge al azar una casilla y se comienza a agre-

gar un número de dígitos igual a los que se utilizaron para definir los elementos de

la población.

Tabla 2.2 500 números generados aleatoriamente

07100 90373 24960 26488 33661 13259 23749 25534 24894 15189

83910 56611 78253 72888 97998 10168 10017 21426 71997 07445

21710 61976 99909 65107 35231 64810 29109 48093 21129 12329

24202 52068 18888 40414 52187 35963 53734 31101 57979 85458

91421 85578 76917 29831 40572 63702 39652 57484 11609 14730

64858 79534 71939 43688 06496 76212 99004 58751 24902 27438

25927 27277 84748 76738 98954 31559 47986 06848 21507 60155

26152 15619 46603 96551 83952 72504 97556 74224 44859 08726

46286 55571 39459 48329 59223 61955 58590 22680 32722 33059

25868 27581 83049 25989 87956 80005 30420 78024 35990 10565

07100 90373 24960 26488 33661 13259 23749 25534 24894 15189

83910 56611 78253 72888 97998 10168 10017 21426 71997 07445

21710 61976 99909 65107 35231 64810 29109 48093 21129 12329

24202 52068 18888 40414 52187 35963 53734 31101 57979 85458

91421 85578 76917 29831 40572 63702 39652 57484 11609 14730

64858 79534 71939 43688 06496 76212 99004 58751 24902 27438

25927 27277 84748 76738 98954 31559 47986 06848 21507 60155

26152 15619 46603 96551 83952 72504 97556 74224 44859 08726

46286 55571 39459 48329 59223 61955 58590 22680 32722 33059

25868 27581 83049 25989 87956 80005 30420 78024 35990 10565

Page 70: Estadistica i - Libro

72

Por ejemplo, si la población es de 1,000 elementos, cada uno de ellos se identifica

con un número de tres dígitos. Suponiendo que se escogió al azar la casilla de la

columna 5 de la segunda fila, el primer número formado por cuatro dígitos será

979, y los subsiguientes serán: 981, 016, 810, 017, 214, 267, 199, 707, 445,

……….., los números de identificación de los 1,000 elementos estarían entre el

000 y el 999. Al terminarse la tabla, se continúa con el inicio de ésta, Si se llegara a

repetir un número, este se descarta y se continúa formando los necesarios.

2.9 Errores comunes en la aplicación de una encuesta

Al momento de recopilar los datos que serán procesados es susceptible de cometer

errores, así como durante el cómputo de los mismos. Aún y cuando la definición

de la muestra utilice el muestreo probabilístico, ésta está expuesta a errores de apli-

cación. Existen cuatro tipos de errores más comunes: de cobertura o sesgo, de no

respuesta, de muestreo y de medición.

Error de cobertura consiste en la exclusión de ciertos grupos de la población.

Para evitar este tipo de error es necesario contar con un marco apropiado de la po-

blación o una lista actualizada de todos los sujetos de donde se extraerá la muestra.

Error de no-respuesta o sesgo de no-respuesta resulta del fracaso de recolectar

datos sobre el total de los sujetos de la muestra.

Error de Muestreo refleja la variedad o las diferencias de oportunidad de muestra

a muestra basándose en la probabilidad de los sujetos que están siendo selecciona-

dos en las muestras particulares. El error de muestreo puede reducirse tomando

tamaños de muestra mayores, aunque esto incrementará el costo de aplicación.

Error de Medición se refiere a inexactitudes en las respuestas registradas que

ocurren debido a una mala formulación de las preguntas, al influjo del encuestador

sobre el encuestado o a las exageraciones o minimizaciones que hace el encuesta-

do.

Page 71: Estadistica i - Libro

73

Si la muestra se selecciona correctamente, tendrá básicamente las mismas propie-

dades que la población de la cual fue extraída; pero si el muestreo se realiza inco-

rrectamente, entonces puede suceder que los resultados no signifiquen nada. Re-

cuerde el acrónimo GIGO. Existen dos maneras de resolver los problemas deriva-

dos de los errores de aplicación: (1) analizando cuidadosamente los datos y tratar

de recolectar los datos más confiables de aquellos individuos cuyas respuestas son

inusuales y (2) realizar una nueva muestra aleatoria que sustituya las que se descar-

taron.

Existen otros errores que no tienen nada que ver con la digitalización y que no son

tan fácilmente identificables. Algunos de estos errores son:

Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas

antes de comenzar a estudiar un problema, y existen muchas maneras en que una

perspectiva o estado mental pueda influir en la recopilación y en el análisis de la

información. En estos casos se dice que hay un sesgo cuando el individuo da mayor

peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso

extremo de sesgo sería la situación donde primero se toma una decisión y después

se utiliza el análisis estadístico para justificar la decisión ya tomada.

Datos no comparables: el establecer comparaciones es una de las partes más im-

portantes del análisis estadístico, pero es extremadamente importante que tales

comparaciones se hagan entre datos que sean comparables.

Proyección descuidada de tendencias: la proyección simplista de tendencias pa-

sadas hacia el futuro es uno de los errores que más ha desacreditado el uso del aná-

lisis estadístico.

Page 72: Estadistica i - Libro

74

2.10 Resumen.

En forma general, existen dos tipos de estudios estadísticos: estudios enumerativos

y estudios analíticos. Ambos sirven para la toma de decisiones, los primeros sobre

las características de una población y los segundos sobre las características de un

proceso.

El capítulo trató también sobre la recolección y presentación de datos para un estu-

dio estadístico. Lo primero que se definió fue que existen dos tipos de variable:

categórica y numérica, a su vez, las variables categóricas se pueden medir en una

escala nominal u ordinal, mientras que las variables numéricas se miden en una

escala cardinal (de intervalo o de relación). La medición cardinal o escalar son de

tipo discreto o continuo.

Una vez que se define el tipo de variables (datos) que se requieren para realizar el

estudio estadístico, es necesario identificar la fuente que los proporcione. Existen

cuatro fuentes para obtener los datos: uso de datos publicados, diseño de experi-

mento, por observación y realización de encuesta.

En la realización de estudios socio-demográficos, la forma más directa y rápida de

obtener los datos es a través de la realización de una encuesta, entendiendo a esta

como un conjunto de preguntas normalizadas dirigidas a una muestra representati-

va de población o instituciones, con el fin de conocer estados de opinión o hechos

específicos. Para la realización de la encuesta se requiere definir o conocer el

ámbito de estudio, el universo de estudio y definición de la muestra. Para definir

la muestra se utiliza el método no probabilístico y probabilístico, sea cualquiera

de los dos métodos, la definición de la muestra tiene riesgo de errores, los más

comunes son: error de cobertura o sesgo de selección, error de no respuesta o

sesgo de no respuesta, error de muestreo y error de medición.

Page 73: Estadistica i - Libro

75

2.11 Términos clave

Datos

Datos continuos

Datos discretos

Definición operacional

Encuesta

Error de cobertura

Error de medición

Error de muestreo

Error de no respuesta

Est. de Experimentación

Estudio analítico

Estudio de Observación

Estudio enumerativo

Fuente primaria

Fuente secundaria

GIGO

Medición cardinal

Medición de intervalo

Medición de relación

Medición nominal

Medición ordinal

Muestra adecuada

Muestra de agrupación

Muestra estratificada

Muestra sistemática

Muestreo con reemplazo

Muestreo no probabilístico

Muestreo probabilístico

Muestreo sin reemplazo

Números aleatorios

Variable categórica

Variable numérica

2.12 Problemas de repaso del capítulo.

1. Para cada inciso siguiente, indique si el estudio es enumerativo o analítico, ar-

gumente la elección.

a) La universidad requiere conocer el número de estudiantes inscritos en cla-

ses con horario anterior a las 9:00 hs.

b) Una empresa desea reducir el número de errores en el cálculo de pago de

horas extras.

c) La Universidad desea determinar si la asistencia total de alumnos inscritos

en clases que comienzan antes de las 9:00 horas aumenta o disminuye con

relación al tipo de materia impartida a esas horas.

Page 74: Estadistica i - Libro

76

d) La UADYCFHG desea determinar las razones de los estudiantes por las

cuales ha aumentado la cantidad de inscritos en la carrera de Negocios In-

ternacionales.

e) Una empresa desea realizar un estudio sobre cómo reducir el número de

errores en la facturación.

f) Una empresa desea saber el nivel de ingresos de sus clientes

g) Una empresa desea saber si el sistema de producción ha reducido el núme-

ro de piezas defectuosa con las mejoras de proceso instrumentadas.

h) Una empresa desea conocer el nivel de precios de mercado de los produc-

tos que comercializa.

i) Una empresa desea saber las características de preferencia de marca en

pasta dental.

j) La UAT desea conocer las intenciones de ingreso a la Universidad de los

estudiantes de preparatoria.

2. ¿Cuál es la diferencia entre una un estudio estadístico enumerativo y un estudio

estadístico analítico?

3. ¿Cuál es la diferencia entre una variable aleatoria numérica y una categórica?

4. ¿Cuál es la diferencia entre un dato discreto y dato continuo?

5. ¿Cuáles son los niveles de medición?

6. ¿Qué significa una definición operacional?

7. ¿Cuál es la diferencia entre una muestra probabilística y una no probabilística?

8. ¿Cuántos tipos de muestreo probabilístico existen?

9. ¿Cuál es la diferencia entre un muestreo simple con reemplazo y un muestreo

simple sin reemplazo?

10. ¿Qué tipo de errores más comunes se presentan en la definición de la muestra?

Page 75: Estadistica i - Libro

77

11. ¿Qué se requiere realizar para editar los datos en una hoja de cálculo electróni-

ca o en un paquete estadístico?

12. Determine en cada uno de los incisos si la variable es categórica o numérica. Si

es numérica determine si es discreta o continua.

a) Número de credencial de estudiante

b) Tipo de automóvil de la VW.

c) Cargo mensual, en pesos y centavos, del recibo de consumo de energía

eléctrica.

d) Lugar en que llegaron los corredores en la carrera universitaria.

e) Nivel de categoría de la planta docente.

f) Especialidad académica de los catedráticos.

g) Disponibilidad de efectivo para actividades de recreación.

h) Ingresos mensuales de los catedráticos.

13. Suponga que requiere editar la siguiente información estadística de los estu-

diantes de la UADYCFHG después de la segunda semana de clases, señale el

tipo de variable y el nivel y la escala de medición que le corresponde.

a. Matrícula

b. Edad

c. Género

d. Estado civil

e. Lugar de origen antes de ingresar a la Universidad

f. Situación laboral (empleado, desempleado, autoempleo)

g. Dependencia económica familiar (autónomo, paternal, otro)

h. Número de miembros de la familia

i. Ingresos familiares

j. Período de estudio (semestre que impera)

Page 76: Estadistica i - Libro

78

k. Carrera que estudia

l. Turno académico

m. Número de materias que cursa en el período actual

n. ¿Consideras importante contar con libros de texto?

o. Cantidad de dinero gastada en adquirir libros

p. Número de libros de textos con que cuenta (uno por materia)

q. Dispone de computadora personal

r. Número de horas de uso diario de computadora

s. Número de horas de uso diario de Internet

t. Gasto mensual en uso de Internet (conexión o uso de chat)

14. Elabore un cuestionario de aplicación en la UADYCS sobre un tema que sea de

su interés, como ausentismo, tabaquismo, alcoholismo, deportivismo, aprove-

chamiento escolar, métodos de enseñanza, etc.

Page 77: Estadistica i - Libro

79

2.13 Mapa conceptual de los estudios estadísticos.

Enumerativos Analíticos

Método estadístico

•nominal•ordinalCategóricos

•Cardinal (de intervalo –de relación): discretos -continuos

Numéricos

•Gobierno•Industria

•Instancias especializadas

Secundaria

•Experimentación•Observación

•EncuestaPrimaria

Fuente de datosElección del tema

Diseño de cuestionario

Ámbito de aplicación

Definición del universo

Definición de tipo de muestreo

Método de aplicaaciónPreparación de datos

Page 78: Estadistica i - Libro

80

Page 79: Estadistica i - Libro

81

Capítulo 3

Organización y presentación

gráfica de datos numéricos

**********************

Objetivo del

Capítulo

Mostrar como organizar y presentar en

tablas y diagramas los datos numéricos

Page 80: Estadistica i - Libro

82

Page 81: Estadistica i - Libro

83

3.1 Introducción

En los apartados anteriores se ha visto la importancia de aplicación del método

estadístico y la importancia de contar con datos de origen, confiables y suficientes,

a través del muestreo. Puesto que el muestreo ahorra tiempo, dinero y esfuerzo, se

reitera la conveniencia de utilizar la muestra de datos para la realización de estu-

dios estadísticos, sean enumerativos o analíticos (de proceso). Sin importar si los

datos corresponden a una muestra o a una población, cuando estos son en una can-

tidad mayor de 10, la mejor manera de interpretar sus valores es por medio de un

resumen y una representación gráfica.

Este apartado se trata sobre la presentación de datos. En particular se mostrará

cómo grandes series de datos numéricos pueden presentarse de una manera que

facilite su análisis. Las observaciones independientes pueden registrarse en una

forma ordenada o diagrama de tallo de hojas y luego presentarse en forma tabular,

como la distribución de frecuencias o en forma gráfica como histograma, polígono

de frecuencias o diagrama de Pareto.

Al término del capítulo, el alumno podrá comprender:

1. La digitalización de datos

2. Presentar los datos en forma resumida, ordenada e interpretativa.

3. La ventaja de construir el diagrama de Tallo y hojas.

Page 82: Estadistica i - Libro

84

4. La utilidad de agrupar los datos en clases.

5. Construir los diferentes tablas y diagramas de datos: histograma, polígono

de frecuencias o diagrama de Pareto.

3.2 Tabla de datos originales sin orden y ordenados

Cuando se recolecta una serie de datos, habitualmente se hace sin ningún orden, es

decir se capturan tal y como le llegan al capturista. Posterior a la captura, el analis-

ta arreglará los datos de acuerdo a sus necesidades. Generalmente la captura de

datos de una encuesta corresponde a un conjunto de registro que contienen, cada

uno de ellos, los datos que pertenecen a una misma entidad. Se le asigna automáti-

camente un número consecutivo (número de registro) que en ocasiones es usado

como índice, aunque lo normal y práctico es asignarle a cada registro un campo

clave nominal para su búsqueda.

En estadística, y concretamente en el contexto de una base de datos, un registro

representa un ítem único de datos implícitamente estructurados en una tabla (carac-

terísticas de los objetos o sujetos en estudio). En términos simples, una tabla de una

base de datos puede imaginarse formada de filas y columnas o campos. Cada fila

de una tabla representa un conjunto de datos relacionados, y todas las filas de la

misma tabla tienen la misma estructura. La estructura implícita de un registro y el

significado de los valores de sus campos exige que dicho registro sea entendido

como una sucesión de datos, uno en cada columna de la tabla. La fila se interpreta

entonces como una variable relacional compuesta por un conjunto de secuencias

ordenadas, cada una de las cuales consta de dos ítems: el nombre de la columna

relevante (dato) y el valor que esta fila provee para dicha columna.

Supongamos que una empresa está interesada en estudiar las características del

parque vehicular que circuló en los Estados Unidos en el año de 1970. Para ello

recopiló las características de los 30 automóviles más vendidos en ese año. Las

variables a estudiar son: rendimiento de millas por galón (mpg); centímetros cúbi-

Page 83: Estadistica i - Libro

85

cos del motor (engine); caballos de fuerza (horse); peso en libras (weight), tiempo

de aceleración de 0 a 60 millas/hora (accel), año de fabricación (year); origen de

fabricación (origin) y número de cilindros del motor (cylinder). Los datos obteni-

dos sin ordenar se presentan en la tabla 3.1

Tabla 3.1 Hoja de captura de registros sin ordenar

En este ejemplo lo que se trata de mostrar es que en un solo registro existen diver-

sas variables relacionadas y que es difícil realizar cualquier análisis en el orden con

Page 84: Estadistica i - Libro

86

que se capturaron los datos. Un primer análisis estadístico se podría realizar al or-

denar los datos en forma ascendente o descendente, es decir de menor a mayor o de

mayor a menor. En la tabla 3.2 se puede observar el cambio de posición de los

registros tomando en consideración el orden de los valores ascendentes de la varia-

ble mpg.

Tabla 3.2 Hoja de registros ordenada por una variable de interés

En este primer intento de análisis estadístico podemos observar los valores míni-

mos y máximos de la variable mpg. También se puede observar la relación directa

Page 85: Estadistica i - Libro

87

o inversa que existe entre las variables. Por ejemplo, se puede observar que a ma-

yor rendimiento, menor tamaño del motor, menor fuerza en caballos y menor peso

en libras.

Es importante señalar que cuando el número de registros es más grande y sobrepa-

sa más de una hoja de cálculo, este procedimiento es poco útil. Mientras mayor sea

el número de observaciones registradas más difícil es sacar provecho a la clasifica-

ción ordenada. En tales situaciones es útil agrupar los datos en un diagrama de tallo

y hojas, con el fin de estudiar las características de los datos.

3.3 Diagrama de tallo y hojas

Un diagrama de tallo y hojas separa el valor de los datos en un dígito guía y un

dígito gregario, los dos asociados representan el valor del dato. El diagrama de

tallo y hojas se puede construir desde la tabla de datos sin ordenar o desde la tabla

de datos ordenada. Dependiendo del grado de exactitud que requiere el estudio

estadístico, las cifras de los valores, siguiendo la metodología tradicional, es con-

veniente trabajar con dos o tres dígitos. Por ejemplo 2,356 libras se puede represen-

tar por 2.4 miles de libras; 50.726 toneladas por 51 toneladas.

Usando los datos sin ordenar de la tabla 3.1 se construye fácilmente el diagrama de

tallo y hojas. Observe que el primer registro tiene el dato de 18, el segundo de 15,

el tercero de 18…… Registrando todos los valores de la variable mpg sería:

Tallo & hojas

1 85867544454687545548

2 1421765453

El valor del tallo es:10

Cada hoja: 1 caso(s)

Número de casos: 30

Figura 3.1 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles sin ordenar (mpg). Fuente: tabla 3.1

Page 86: Estadistica i - Libro

88

Colocando los dígitos en forma ascendente de acuerdo a la tabla 3.2, el diagrama

arreglado quedaría de la siguiente forma:

Tallo & hojas

1 44444455555566778888

2 1124455667

El valor del tallo es:10

Cada hoja: 1 caso(s)

Número de casos: 30

Tal vez el valor de los datos está muy concentrado y sea conveniente incrementar

el número de tallos. Aquí lo que procede es dividir cada valor de tallo en valores

bajos (0 a 4) y valores altos (5 a 9)

3.4 Tabulación de datos numéricos: distribución de frecuencia

Utilizando los datos originales es posible construir tablas y diagramas que faciliten

el análisis estadístico, así, una tabla de mucha utilidad es la tabla de distribución de

frecuencias, en ella se disponen los datos en forma agrupada por categorías, orde-

nadas en forma ascendente o descendente. Para construir una tabla de frecuencias

debe ponerse atención a 3 conceptos fundamentales:

Figura 3.2 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles (mpg) ordenada Fuente: tabla 3.2

Figura 3.3 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles (mpg) ordenada y ampliando en número de tallos. Fuente: tabla 3.2

Page 87: Estadistica i - Libro

89

1. Seleccionar el número de agrupamientos, o clases.

2. Obtener un intervalo de clase de cada agrupamiento y

3. Establecer los límites de cada intervalo de clase

En forma general, dependiendo el número de observaciones, el número de clases de

intervalo no debe de ser menor de 5 y mayor de 15, ambos extremos dificultan la

interpretación. Cada clase o intervalo tendrá una amplitud igual.

Una manera para determinar la amplitud de cada agrupamiento o intervalo de clase,

es aplicando la relación del rango y el número de intervalos deseado. Considerando

los datos de la tabla 3.2, se observa que el rango de la variable mpg es 27-14 = 13.

Si se quisiera 6 tipos de clase, los valores de cada clase serían de 13/6= 2.16. Para

conveniencia y facilidad de lectura, el intervalo de clase seleccionado se redondea

a 2 mpg. Los límites de los diversos agrupamientos deben de establecerse de mane-

ra que incluyan todas las observaciones. Así, el primer intervalo de clase se esta-

blece desde mayor de 12 hasta menor o igual que 14, el segundo desde mayor de

14 hasta menor o igual que 16 etc. Estableciendo los límites de cada clase, de esta

manera las 30 observaciones se han registrado en 8 clases, como se puede observar

en la tabla 3.3 de distribución de frecuencia y porcentaje de la muestra.

Tabla 3.3 Distribución de frecuencias y porcentaje de la muestra

Clase Frecuencia porcentaje

12<x<=14 6 20.00

14<x<=16 8 26.66

16<x<=18 6 20.00

18<x<=20 0 0.00

20<x<=22 3 10.00

22<x<=24 2 6.66

24<x<=26 4 13.33

26<x<=28 1 3.33

Page 88: Estadistica i - Libro

90

La principal ventaja de utilizar la tabla de distribución de frecuencias es que vi-

sualmente se pueden detectar algunas características de la muestra, tales como el

alcance aproximado de las observaciones, que va desde 12 hasta 28 mpg, tendiendo

a agruparse en los valores de 12 a 18 mpg.

El hecho de agrupar los valores observados en clase, implica transformar una va-

riable de cardinal (de cociente o de intervalo) en una variable categórica ordinal de

orden débil que no se identifica los valores individuales dentro de un intervalo.

Para atenuar un poco esta desventaja, se acostumbra a utilizar el punto medio. El

punto medio de una clase (o marca de clase) es punto de la mitad de los límites de

cada clase y es representativo del valor de la clase. La tabla de distribución de fre-

cuencias sirve para dibujar tres importantes diagramas: el histograma o diagrama

de distribución de frecuencias, el polígono de frecuencias y el diagrama de Pareto.

3.5 Histograma o diagrama de distribución de frecuencias

El histograma es una gráfica de barras que permite describir el comportamiento de

un conjunto de datos en cuanto a su tendencia central, forma y dispersión. El histo-

grama permite que de un vistazo se pueda tener una idea objetiva sobre la calidad

de un producto, el desempeño de un proceso o el impacto de una acción de mejora.

La correcta utilización del histograma permite tomar decisiones no solo con base

en la concentración de valores, sino también con base en la dispersión y formas

especiales de comportamiento de los datos. El histograma se construye a partir de

la tabla de distribución de frecuencias.

Para evitar posibles anormalidades en la construcción del histograma se procede

seguir las siguientes instrucciones:

a. Determinar el rango de datos. La diferencia entre el dato máximo y el dato

mínimo.

Page 89: Estadistica i - Libro

91

b. Obtener el número de clases o barras y la longitud de clase. Se puede utilizar

los definidos en la tabla de frecuencias.

c. Construir los intervalos de clase con relación al paso anterior.

d. Obtener la frecuencia de cada clase. Se cuentan los datos que caen en cada

intervalo de clase.

e. Graficar el histograma: se grafican en barras, en las que su base es el interva-

lo de clase y la altura sean las frecuencias de las clases.

La grafica de frecuencias del ejemplo del rendimiento de los automóviles (mpg),

se observa en la figura 3.4

Figura 3.4 Histograma o gráfica de distribución de frecuencias

1412 16 18 20 22 24 26 28

0

2

4

6

8

Millas por galón

20% 20%

10%

6.66%

13.33%

3.33%

0%

26.66%

Fre

cuencia

Fuente: Tabla 3.3

Polígono de frecuencias

Otro gráfico utilizado para el análisis de datos es el polígono de frecuencias, el cual

se forma con la unión lineal de los puntos medios de cada clase. Dado que la unión

de los puntos medios es a través de rectas, el polígono se muestra a veces en forma

dentada. Sin embargo mientras mayor sea el número de observaciones y los inter-

valos de clase reducidos, este efecto tiende a suavizarse.

Page 90: Estadistica i - Libro

92

Figura 3.5 Polígono de frecuencias

1412 16 18 20 22 24 26 28

0

2

4

6

8

20% 20%

10%

6.66%

13.33%

3.33%

26.66%

Millas por galón

Fre

cue

ncia

Fuente: Tabla 3.3

Tabla y polígono de porcentaje acumulado

Estas herramientas de análisis de datos son de considerable importancia, porque

nos señalan cómo se concentran los valores de las observaciones. En el caso del

ejemplo, se puede observar que las primeras tres clases concentran 20 observacio-

nes, que en conjunto representan el 66.66%. Para construir la tabla de frecuencia y

porcentaje acumulado se parte de la tabla 3.3 de distribución de frecuencias y por-

centajes y se realiza el agregado de cada clase hasta la última, que terminará con el

número total de observaciones y el 100% acumulado.

Tabla 3.4 Distribución de frecuencias y porcentaje acumulado

Frecuencia Porcentaje

Clase Frecuencia acumulada porcentaje acumulado

12<x<=14 6 6 20.00 20.00

14<x<=16 8 14 26.66 46.66

16<x<=18 6 20 20.00 66.66

18<x<=20 0 20 0.00 66.66

20<x<=22 3 23 10.00 76.66

22<x<=24 2 25 6.66 83.33

24<x<=26 4 29 13.33 96.67

26<x<=28 1 30 3.33 100.00

Page 91: Estadistica i - Libro

93

El polígono de porcentajes acumulados, figura 3.6, se construye a partir de los

cálculos de la tabla 3.4, donde en el eje horizontal se registran los puntos medios

del intervalo de clase y en el eje vertical se registran las frecuencias o porcentajes

acumulados partiendo de cero.

Figura 3.6 Polígono de frecuencias y porcentajes acumulados

1412 16 18 20 22 24 26 28

0

20%

40%

60%

80%

100%

20%

66.66%

76.66%

83.33%

96.67%100%

46.66%

Millas por galón

Fre

cuen

cia

Fuente: tabla 3.4

3.8 Diagrama de Pareto

El diagrama de Pareto u 80-20, se construye ordenando en una tabla de frecuencias

desde la clase que mayor número de observaciones tenga hasta la de menor. El

diagrama permite llevar a cabo el principio de Pareto (pocos vitales, muchos trivia-

les) es decir, que hay muchos problemas sin importancia frente a unos pocos gra-

ves. Hay que tener en cuenta que tanto la distribución de los efectos como sus po-

sibles causas no son de carácter lineal sino que el 20% de las causas totales hace

que sean originadas el 80% de lo efectos.

Page 92: Estadistica i - Libro

94

Tabla 3.5 Distribución de frecuencias y porcentaje acumulado de mayor a

menor frecuencia.

Siguiendo con el mismo ejemplo, y derivado de la tabla 3.5 se puede elaborar el

muy útil diagrama de Pareto.

Figura 3.7 diagrama de Pareto

14-16 12-14 16-18 24-26 20-22 22-24 26-28 18-20

0

20%

40%

60%

80%

100%

26.66%

66.66%

79.99%

89.99%

96.65%

100%

100%

46.66%

Millas por galón

Fre

cuencia

porcentaje

Clase Frecuencia porcentaje acumulado

14<x<=16 8 26.66 26.66

12<x<=14 6 20.00 46.66

16<x<=18 6 20.00 66.66

24<x<=26 4 13.33 79.99

20<x<=22 3 10.00 89.99

22<x<=24 2 6.66 96.65

26<x<=28 1 3.33 99.99

18<x<=20 0 0.00 99.99

Page 93: Estadistica i - Libro

95

3.9 Resumen

El capítulo trató sobre el resumen de datos y representación gráfica de los mismos.

Al aplicar estadística a un problema científico, industrial o social, se comienza con

un proceso o una población a ser estudiada. Esta puede ser una población de perso-

nas en un país, de granos cristalizados en una roca o de bienes manufacturados por

una fábrica en particular durante un periodo dado. También podría ser un proceso

observado en varios instantes y los datos recogidos de esta manera constituyen una

serie de tiempo.

Por razones prácticas, en lugar de compilar datos de una población entera, usual-

mente se estudia un subconjunto seleccionado de la población, llamado muestra.

Los datos acerca de la muestra son recogidos por observación o por experimento,

como se pudo observar en el capítulo anterior. Los datos obtenidos ahora son agru-

pados por categorías. Los datos numéricos, dentro de un rango creado por la dife-

rencia longitudinal de los valores mínimo y máximo de la muestra, se agrupan por

clases de intervalo iguales. Con el fin de que no se traslapen los intervalos de clase,

se definen límites inferiores y superiores en cada intervalo de clase. Una vez deci-

dido, en base al rango de la muestra, en número de clases y el tamaño de intervalo,

se procede a realizar las tablas y diagramas de frecuencias simples o acumuladas.

3.10 Términos clave

Datos sin ordenar

Clasificación ordenada

Diagrama de tallo y hojas

Rango

Clase, límite de clase

Intervalo de clase

Tabla de distribución de frecuencias

Diagramas de distribución de fre-

cuencias: histograma, Polígono de

frecuencias, Diagrama de Pareto.

Page 94: Estadistica i - Libro

96

3.11 Problemas de repaso del capítulo

1. Explique la diferencia entre la tabla datos sin ordenar y ordenados

2. ¿Cuándo es más útil utilizar el diagrama de tallo y hojas que una tabla de

datos ordenada?

3. Explique la diferencia entre histograma de frecuencia, polígono de fre-

cuencia y polígono de frecuencia acumulado.

4. ¿Cuál es ventaja principal de uso del diagrama de Pareto.

5. Los datos de la siguiente tabla son los sueldos de una muestra aleatoria de

100 empleados con licenciatura en Negocios Internacionales egresados en-

tre el año 2000 y 2005.

24,300 82,500 22,500 23,550 57,000 30,300 38,850 36,150 35,550 20,100

24,750 54,000 48,000 35,100 40,200 28,350 21,750 110,625 45,150 24,000

22,950 26,400 55,000 23,250 21,450 27,750 24,000 42,000 73,750 25,950

25,050 33,900 53,125 29,250 21,900 35,100 16,950 92,000 25,050 24,600

25,950 24,150 21,900 30,750 45,000 27,300 21,150 81,250 27,000 28,500

31,650 29,250 78,125 22,350 32,100 40,800 31,050 31,350 26,850 30,750

24,150 27,600 46,000 30,000 36,000 46,000 60,375 29,100 33,900 40,200

72,500 22,950 45,250 30,750 21,900 103,750 32,550 31,350 26,400 30,000

68,750 34,800 56,550 34,800 27,900 42,300 135,000 36,000 28,050 22,050

16,200 51,000 41,100 60,000 24,000 26,250 31,200 19,200 30,900 78,250

a) Reduzca los datos a 2 dígitos y elabore un diagrama de tallo y hojas sin or-

denar y ordenado.

b) Forme una tabla de distribución de frecuencias (simple y acumulada) y de

porcentaje (simple y acumulada)

c) Elabore el histograma, el polígono de frecuencias y el diagrama de Pareto.

Page 95: Estadistica i - Libro

97

3.12 Mapa conceptual de organización y presentación de datos numéricos.

Digitalización de datos

(captura)

Orden ascendente

o descendente

Diagrama Tallo y hojas

Tabulación de datos

Histograma

Polígono de frecuencias

Diagrama de Pareto

Page 96: Estadistica i - Libro

98

Page 97: Estadistica i - Libro

99

Capítulo 4

Características de distribución

de datos numéricos

********************** Objetivo del

Capítulo

Comprender las características de los

datos numéricos representativas de la

población o de la muestra: tendencia

central, variación, forma) y sus medi-

ciones descriptivas de resumen

Page 98: Estadistica i - Libro

100

4.1 Introducción

Como se ha visto en los temas anteriores, la fase previa a cualquier estudio estadís-

tico es la recolección, organización y presentación de los datos. Los instrumentos

auxiliares para realizar esta tarea son básicamente las tablas de la base de datos, el

diagrama tallo y hojas, las tablas y diagramas de distribución de frecuencias relati-

vas y acumuladas. De aquí en adelante los temas a desarrollar estarán enfocados a

la elaboración de un resumen, descripción de las características de la distribución y

la interpretación de datos.

La concentración de datos numéricos de una variable de una población o muestra

aleatoria da lugar a tres principales clases de medidas del fenómeno en estudio:

medidas de posición, medidas de dispersión y medidas de deformación. Es necesa-

rio recordar que las características numéricas de la muestra se les denomina “es-

tadísticos” y las características de la población “parámetros”

Al término del capítulo, el alumno deberá ser capaz de:

1. Comprender el significado de la concentración de los datos numéricos a

través de las medidas de posición, medidas de dispersión y medidas de de-

formación.

2. Apreciar el valor de las técnicas de análisis de datos: los cinco puntos, la

gráfica de caja y sesgo.

Page 99: Estadistica i - Libro

101

4.2 Medidas de Posición de tendencia central

Las medidas de posición son unos estadísticos que nos sintetizan la información

sobre los datos que analizamos, facilitando su manejo. En lugar de trabajar con

toda la tabla de frecuencias, las medidas de posición resumen los valores significa-

tivos del conjunto de datos.

El término “promedio” se utiliza comúnmente para describir el valor de la parte

central de una distribución. Sin embargo, existen cinco diferentes medidas de ten-

dencia central que pueden tener diferente valor unas de otras, dependerá del grado

de concentración de los datos la que tenga mayor peso. Las cinco medidas de posi-

ción de tendencia central son: la media, la mediana, la moda, el rango medio y el

eje medio.

La media aritmética

La media aritmética, conocida también como media, es el promedio o medición

de tendencia central más utilizada. Se calcula sumando todos los valores de las

observaciones divididas entre el número de observaciones.

Por lo tanto, una muestra que contiene n observaciones X1, X2, X3, …….Xn, la

media aritmética x se puede calcular sumando todos los valores de X y dividiendo

entre el total de observaciones: x = ( X1 + X2 + X3 + …….Xn )/n, también se pue-

de expresar mediante la fórmula: x

=

Xii = 1

n

n

En donde:

n = tamaño de la muestra o número de observaciones.

Xi = diferentes valores que toma la variable aleatoria de la muestra.

x = media o valor promedio de la variable de interés de la muestra.

Si la distribución de valores en grandes y pequeños de la muestra fueran equivalen-

tes, la media aritmética es un valor representativo de la muestra; pero si hubiera

Page 100: Estadistica i - Libro

102

muchos valores pequeños y pocos grandes, viceversa, el valor de la media aritmé-

tica no sería muy representativo. Cuando existen valores extremos significativos la

media aritmética trasmite una representación distorsionada de los datos; así pues, la

media no sería el mejor promedio para describir las características de la muestra.

Para entender esta posible distorsión, a continuación se presentan dos pequeñas

muestras con la misma media pero características completamente distintas.

Suponga que, dentro de la misma base de datos se tomaron aleatoriamente dos

pequeñas muestras de 6 observaciones cada una, la media en ambas es igual, sin

embargo tienen diferentes características.

Tabla 4.1 Distribución de frecuencias de los valores de la variable mpg de dos

muestras aleatorias de 6 elementos c/u

Xi de A Xi de B

16 14

17 15

18 17

18 18

21 22

22 26

112 112

Considerando la fórmula para calcular la media, la suma del valor de las observa-

ciones entre el número de observaciones, es decir, x = 112/6 = 18.66 para ambas,

sin embargo la diferencia de características se observa en los siguientes gráficos,

denominados Escala de puntos.

Fig. 4.2 Distribución de los valores de la muestra “A”

14 16 18 20 22 24 26

Page 101: Estadistica i - Libro

103

Fig. 4.3 Distribución de los valores de la muestra “B”

14 16 18 20 22 24 26

De hecho los datos de la muestra “A” son bastante parecidos y se agrupan alrede-

dor de la media de la muestra, en este caso, la media es la medida descriptiva pro-

medio apropiada. Por otro lado, los datos de la muestra “B” están muy dispersos y

alejados de la media, por lo que ésta no es representativa de las características de la

muestra. El significado de dispersión se estudiará más adelante.

La mediana

La mediana es el valor que corresponde a la observación que se encuentra en la

mitad del +

forma ascendente o descendente; en seguida, se localiza el punto de posición me-

dio y el valor de ese punto corresponde al valor de la mediana. Si el número de

observaciones es impar, la localización del punto medio se determina utilizando la

fórmula: (n + 1)/2.

Si el número de observaciones es par, el punto de posición se encuentra entre las

dos observaciones medias de la clasificación ordenada. El valor de la mediana co-

rresponde al valor promedio de estas dos observaciones.

Muestra de tamaño impar. Suponga que en la muestra “A” del ejemplo anterior,

en lugar de seis observaciones se realizaron cinco, con los siguientes valores:

16 17 18 21 22

1 2 3 4 5

Aplicando la fórmula (n + 1)/2 = 3; lo que significa que la mediana se localiza en

la observación número 3 y tiene un valor de 18.

Page 102: Estadistica i - Libro

104

Muestra de tamaño par. Para el ejemplo de la muestra “B”, aplicando la fórmula

(n + 1)/2, la mediana se localiza en (6 + 1 )/2 = 3.5, es decir entre las observaciones

3 y 4. El valor de la mediana es igual al promedio de las dos observaciones, (17 +

18)/2 = 17.5

14 15 17 . 18 22 26

1 2 3 . 4 5 6

La moda

La moda es el valor de las observaciones que aparecen con más frecuencia. Se

obtiene fácilmente de una clasificación ordenada. La moda no se ve afectada por la

ocurrencia de valores extremos, sin embargo sólo se utiliza para propósitos descrip-

tivos dado que es el valor más variable de una serie de muestras, que otras medi-

ciones de tendencia central. En el caso de la muestra “A” la moda es 18, es el único

valor que se repite. En el caso de la muestra “B” no hay moda ya que ningún valor

se repite.

El rango medio

El rango medio es una medida de posición de tendencia central que se obtiene al

promediar los valores extremos de las observaciones, es decir la de menor y la de

mayor valor. Rango medio = (Xmenor+Xmayor)/2

Para el caso de la muestra “A”

16 17 18 21 22

1 2 3 4 5

Rango medio “A” (16 + 22)/2 = 19

Para el caso de la muestra “B”

14 15 17 18 22 26

1 2 3 4 5 6

Page 103: Estadistica i - Libro

105

Rango medio “B” (14 + 26)/2= 20

En el ejercicio anterior, el rango medio de la muestra “A” es igual a (16 + 22)/2 =

19, dado que los valores de la muestra “A” son muy homogéneos y cercanos al

valor de la media, el valor del rango medio está muy próximo al valor de la media.

En el caso de la muestra “B” el rango medio es igual a (14 + 26)/2 = 20. El rango

medio se ve afectado significativamente por la existencia de valores muy extremos

dado que sólo se consideran éstos.

Eje medio

Una medida de tendencia central que no se ve afectada por los valores extremos es

el eje medio. Para conocer el valor del eje medio, primero es necesario localizar las

posiciones de los valores del 1er cuartil y 3er cuartil, éstos se localizan al término

de contar el 25% y el 75% del número de observaciones, respectivamente. El eje

medio se obtiene de promediar esos dos valores. Para identificar los valores de los

cuartiles se utilizan las siguientes fórmulas:

Cuartil 1 = Q1 = valor correspondiente a la posición 1/4(n + 1) de las observa-

ciones ordenadas.

Cuartil 3 = Q2 = valor correspondiente a la posición 3/4(n + 1) de las observa-

ciones ordenadas.

Para estimar el valor de las observaciones del 1er y 3er cuartil, se toma el valor

más próximo a la posición calculada, si ésta se encuentra en el punto medio de dos

observaciones, se toma el valor promedio. Las siguientes gráficas, tomando los

datos de la muestra “B” tratarán de facilitar el entendimiento del cálculo del valor

del eje medio.

Q1 = valor correspondiente a la posición 1/4(6 + 1) de las observaciones orde-

nadas, igual a 1.75, el valor más próximo a la posición 1.75 es 15.

Page 104: Estadistica i - Libro

106

Q3 = valor correspondiente a la posición 3/4(6 + 1) de las observaciones orde-

nadas, igual a 5.25, el valor más próximo a la posición 5.25 es 22.

14 15 17 18 22 26

1 . 2 3 4 5 . 6

Número de observaciones = 6

Eje medio = (Q1 + Q3)/2 = (15 + 22)/2 = 18.5

Como se puede observar, los valores extremos (14) y (26) no afectan al cálculo del

valor del eje medio.

4.3 Medidas de dispersión: varianza y desviación estándar.

Otra de las características de la distribución de las observaciones es que tanto se

acercan o se alejan del valor de la media, como se observó en los ejemplos de las

medidas de posición de las muestras “A” y “B”, pueden tener la misma tendencia

central pero diferir en términos de variación. Los valores de la muestra “A” son

mucho menos variables que los de la muestra “B”. Existen cinco mediciones de

variación: el rango, el rango intercuartil, la varianza, la desviación estándar y

el coeficiente de variación.

El rango (alcance)

El rango es la medida de variación más fácil de calcular de un conjunto de datos

ordenados. El rango es recorrido que existe entre la observación de mayor valor y

la de menor valor.

Rango = Xmayor – Xmenor

Usando los datos de la muestra “B”

14 15 17 18 22 26

Page 105: Estadistica i - Libro

107

El rango es 26 -14 = 12 mpg

El rango mide la variación total de las observaciones, se sabe que cualquier valor

de la muestra tendrá un valor dentro de ese rango. Aunque es una medición simple

y fácil cálculo, el rango no consigue describir realmente el grado de variación entre

el valor menor y el mayor.

El rango intercuartil

El rango intercuartil es una medida de variación entre los valores de las observa-

ciones que se encuentran al final del 25% y 75% del número de las observaciones.

Es decir la diferencia de valor entre el 3er cuartil y el 1er cuartil. Siguiendo con la

misma muestra de datos “B”. La manera de calcularlo es igual a:

Rango intercuartil = Q3-Q1

14 15 17 18 22 26

1 . 2 3 4 5 . 6

Número de observaciones = 6

Q1 = valor correspondiente a la posición (6 + 1)/4 de las observaciones ordenadas,

igual a 1.75, el valor más próximo a la posición 1.75 es 15.

Q3 = valor correspondiente a la posición 3(6 + 1)/4 de las observaciones ordenadas,

igual a 5.25, el valor más próximo a la posición 5.25 es 22.

El rango intercuartil es 22-15 = 7

Esta medición considera la dispersión entre los valores extremos que se encuentran

en la parte media de la muestra, por lo tanto, no se ve influenciada por los valores

extremos. El rango intercuartil abarca el 50% de las observaciones más cercanas a

la media.

Page 106: Estadistica i - Libro

108

La varianza y la desviación estándar

Las mediciones de rango y rango intercuartil, aunque son muy fáciles de calcular y

entender su significado no son suficientemente descriptivos ya que no consideran

la mayor parte de las observaciones, sólo consideran dos valores en cada caso. La

varianza y la desviación estándar son medidas que sí consideran al total de los va-

lores de las observaciones.

La varianza de la muestra o varianza muestral es muy aproximada al promedio de

las diferencias de las observaciones con respecto a la media al cuadrado. Así, para

la muestra que tiene n observaciones, X1, X2, X3,…………. Xn, la varianza muestral, S2,

puede calcularse como:

S2 = [(X1 - x

)

2

+ (X2 - x )

2

+ (X3 - x )2…….+ (Xn - x )2

]/n-1

Utilizando la notación matemática de sumatoria de las diferencias de las observa-

ciones con respecto a la media, se puede expresar de la siguiente forma:

S2 =

Donde x = a la media aritmética;

n = el tamaño de la muestra

Xi = valores iterativos de la variable X

El cálculo de la varianza se hace del promedio de las diferencias al cuadrado ya

que, en una distribución de tendencia central, la sumatoria de las diferencias linea-

les se hacen cero o un mínimo, mientras que las diferencias al cuadrado son agre-

gativas. Para ver la diferencia, nuevamente se tomará el conjunto de datos de la

muestra “B” que se ha venido utilizando.

14 15 17 18 22 26

1 . 2 3 4 5 . 6

Page 107: Estadistica i - Libro

109

Utilizando el cuasi promedio de diferencias lineales de la muestra “B” con una

media x = 18.66 mpg

[(14 - x ) + (15 - x ) + (17 - x ) + (18 - x ) + (22 - x ) + (26 - x )]/ n-1 =

[(14–18.66) + (15-18.66) + (17– 8.66) + (18–18.66) + (22 – 18.66)+(26–18.66)]/ 5

= [-10.64 + 10.68] = 0.04/5 = 0.008…casi cero

Mientras que utilizando el casi promedio de las diferencias al cuadrado se obtiene:

S2 = [(14 - x )2

+(15 - x ) 2 + (17 - x )2

+(18 - x ) 2 +(22 - x )2

+(26 - x )2]/ n-1

S2=[(14–18.66)

2+(15-18.66)

2+(17–8.66)

2+(18–18.66)

2+(22-18.66)

2+(26–18.66)

2]/ 5

S2 =

[(-4.66)

2 + (-3.66)

2 + (-1.66)

2 + (-0.66)

2 + (3.34)

2 + 7.34)

2 ]/ 5 =

S2 = [21.72+13.40+2.76+0.44+11.16+53.88]/5 = 103.3/5 = 20.66

Otra manera de apreciar la diferencia de cálculo es a través de la siguiente tabla:

Tabla 4.2 suma de diferencias del valor de las observaciones con respecto a la

media. (simples y elevadas al cuadrado)

14 -18.66 -4.66 21.72

15 -18.66 -3.66 13.40

17 -18.66 -1.66 2.76

18 -18.66 -0.66 0.44

22 -18.66 3.34 11.16

26 -18.66 7.34 53.88

0 103.33

Xi (Xi-X) (Xi-X)2

X

Page 108: Estadistica i - Libro

110

La desviación estándar de la muestra simplemente se calcula sacando la raíz cua-

drada de la varianza, cuyo símbolo es s. Puesto que los cálculos de la varianza se

realizaron elevando al cuadrado las diferencias, ésta no podrá ser nunca negativa.

Mientras que la varianza es casi el promedio de las diferencias cuadradas del valor

de las observaciones con respecto a la media, la desviación estándar es casi el

promedio de los valores absolutos de las diferencias de las observaciones con res-

pecto a la media.

La varianza y la desviación estándar miden la dispersión promedio que existe entre

el valor de la media y el valor de las observaciones. La varianza es útil para ciertos

procesamientos de datos, sin embargo, su cálculo da como resultado unidades cua-

dradas: metros cuadrados, kilogramos cuadrados, pesos cuadrados, etc. unidades

poco prácticas en el análisis de datos. La desviación estándar, dado que su cálculo

arroja unidades lineales, es la medida de dispersión de mayor utilidad,: metros,

kilos, pesos, que son las unidades de medida originales de las observaciones.

S =

En la muestra “B”, con una varianza de 20.66 mpg2, tiene una raíz cuadrada de

5.54 mpg, que es igual a la desviación estándar, lo que significa que el total de las

observaciones distan en promedio ±5.54 mpg del valor de la media. Esto nos dice

que el valor promedio de las observaciones menores se sitúan a -5.54 unidades del

valor de la media y que el valor promedio de los valores mayores se sitúa a +5.54

unidades. Si la media tiene un valor de 18.66 mpg; el promedio de los valores me-

nores se sitúa en (18.66 – 5.54) =13.12 mpg y el valor promedio de los valores

mayores en (18.66 + 5.54) = 24.2 mpg.

Page 109: Estadistica i - Libro

111

Coeficiente de variación

El coeficiente de variación, a diferencia de las anteriores medidas de dispersión, es

una medida relativa y describe la relación del valor del promedio de las desviacio-

nes con respecto a la media, es decir la desviación estándar entre la media:

Coeficiente de variación = CV = S/ x Regresando a los datos de la muestra “B” tenemos que:

Coeficiente de variación = CV = (5 .5 4 )

1 8 .6 6 = .2968

Lo que significa que los valores mayores o menores de la media se desvían

aproximadamente un 30% del valor de la media.

Interpretación de las medidas de dispersión

Las medidas de dispersión: el rango, el rango intercuartil, la varianza y la desvia-

ción estándar miden el grado de esparcimiento de las observaciones entre ellas y

con relación a un valor central, la media. Mientras más propagados o dispersos

estén los valores, mayor será el valor de las medidas de dispersión. Mientras más

homogéneos sean los valores, menor serán estas mediadas. Si todos los valores de

las observaciones fueran iguales, todas las medidas de dispersión serían iguales a

cero.

4.4 Análisis de 5 puntos y gráfica de caja de sesgo

Después de conocer las principales propiedades de distribución de un conjunto de

datos numéricos: tendencia central, forma y medidas de variación, es posible,

para darnos una idea rápida de la forma de distribución, realizar un resumen de

estas características a través de una gráfica que considere a dos medidas de tenden-

cia central (la mediana y el rango medio) y dos medidas de variación (el rango y el

rango intercuartil)

Xmenor Q1 mediana Q3 Xmayor

Page 110: Estadistica i - Libro

112

Para los datos de la muestra “B”

14 15 17 18 22 26

Xmenor = 14; Xmayor = 26

Q1 = al valor de la posición de (n+1)/4= (6+1)/2 = 1.75 casi 2; el valor que corres-

ponde a casi 2 es 15, por lo tanto Q1= 15

Q3 = al valor de la posición de 3(n+1)/4= 3(6+1)/4 = 5.25 casi 5; el valor que

corresponde a casi 5 es 22, por lo tanto Q3= 22

Mediana = al valor que se localiza a la mitad de las observaciones = (n+1)/2 =

(6+1)/2 = 3.5, por lo tanto, el valor que le corresponde es 17.5, es decir el

promedio del valor de las observaciones con valor 17 y 18

14 16 18 20 22 24 26

Se puede observar el sesgo hacia la derecha, es decir, la media es mayor que la

mediana, lo que significa que el mayor peso de las observaciones se encuentra a la

derecha.

Figura 4.4 distribuciones examinadas a través de la gráfica de caja y sesgo

Mmediana Mmediana = media

Distribución equilibrada Distribución sesgada a la derecha Distribución sesgada a la izquierda

mediaMmedia Mediana

Page 111: Estadistica i - Libro

113

Cuando los valores de las observaciones están claramente sesgadas a la derecha o a

la izquierda, como se observa en la figura anterior, las longitudes de los sesgos

pueden variar significativamente y no es posible que la mediana se localice al cen-

tro de la caja.

En la distribución equilibrada, el número y peso de los valores menores y mayores

son iguales. En la distribución sesgada a la derecha, lo que significa es que el ma-

yor número de observaciones se encuentran agrupadas en el extremo inferior; el

75% de las observaciones se encuentran entre el extremo menor y el final de la caja

(3er cuartil). En la distribución sesgada a la izquierda, lo que significa es que el

mayor número de observaciones se encuentran agrupadas en el extremo superior; el

75% de las observaciones se encuentran entre el inicio de la caja (1er cuartil) y el

extremo superior.

4.5 Medidas de deformación

Una vez iniciado el análisis estadístico de resumen de la información, para lo cual

hemos estudiado las medidas de posición y dispersión de la distribución de una

variable, necesitamos conocer más sobre el comportamiento de la distribución de la

misma. No podemos basar nuestras conclusiones únicamente en expresiones que

vengan dadas en términos de medidas de posición y dispersión. Si bien intentamos

generalizar el comportamiento del colectivo que sea objeto de nuestro estudio, para

lo cual las medidas de posición son nuestro mejor instrumento, no debemos proce-

der a una interpretación que implique un comportamiento colectivo uniforme,

constante e igual a la medida de posición en cuestión con un error dado por la co-

rrespondiente medida de dispersión.

Cualquier conjunto de datos tienden a distribuirse de una forma simétrica o asimé-

trica con respecto a la media. Cuando las observaciones se distribuyen en forma

simétrica, significa que el número de observaciones menores es igual al número de

Page 112: Estadistica i - Libro

114

observaciones mayores y la suma de las diferencias de los valores con respecto a la

media es igual a cero, (Xi- x ) = 0

Otra característica es que la media y la mediana son iguales.

La simetría perfecta es una condición teórica difícil de observar en la realidad. Lo

común es que estas observaciones tiendan a acumularse más a un lado del centro de

recorrido, sea a la izquierda o a la derecha. Para describir la simetría de distribu-

ción de los valores de las observaciones, sólo basta comparar la media y la media-

na. Si son iguales, prácticamente se considera una distribución simétrica o normal;

si la media excede a la mediana, los datos pueden describirse como de sesgo posi-

tivo o sesgada a la derecha; cuando la media es excedida por la mediana, los datos

están generalmente sesgados a la izquierda o sesgo negativo. Esto es:

Media = Mediana: simetría o de sesgo cero

Media > mediana: sesgo positivo o derecho

Media < mediana: sesgo negativo o izquierdo

Figura 4.3 Formas de distribución

Mmediana Mmediana = media MmediaMmedia Mediana

La asimetría es más ostensible al analizar la representación gráfica de la distribu-

ción, sin embargo, las medidas de forma de una distribución se basan en su repre-

sentación gráfica, sin llegar a realizar la misma.

Las medidas de forma se clasifican en medidas de asimetría y medidas de curtosis

o apuntamiento.

Page 113: Estadistica i - Libro

115

Medidas de asimetría más comunes.

Las medidas de asimetría tienen como finalidad el elaborar un indicador que permi-

ta establecer el grado de simetría (o asimetría) que presenta una distribución, sin

necesidad de llevar a cabo su representación gráfica.

Coeficiente de asimetría de Fisher: ahora se intenta buscar una medida que recoja

la simetría o asimetría de una distribución. Si la distribución es simétrica, el eje de

simetría de su representación grafica será una recta paralela al eje de ordenadas,

que pasa por el punto cuya abscisa es la media aritmética. Por ello, cuando la dis-

tribución es asimétrica, referiremos los valores de la distribución a este promedio.

Si una distribución es simétrica, existe el mismo número de valores a la derecha

que a la izquierda de la media x , y por tanto el mismo número de desviaciones

con signo positivo que con signo negativo, siendo la suma de desviaciones positi-

vas igual a la suma de las negativas. Podemos partir, de las desviaciones (Xi - x ) elevadas a una potencia impar para no perder los signos de las desviaciones.

Lo más sencillo sería tomar como medida de asimetría el promedio de estas des-

viaciones, elevadas a la potencia impar más simple (que es tres), es decir, tomaría-

mos como medida de asimetría el momento de orden tres centrado en la media.

Pero, de hacer esto, esta medida vendría expresada en las mismas unidades que las

de la variable elevadas al cubo, por lo que no es invariante ante un cambio de esca-

la. Para conseguir un indicador adimensional, debemos dividir la expresión anterior

por una cantidad que venga en sus mismas unidades de medida. Esta cantidad es el

cubo de la desviación estándar, obteniéndose así el coeficiente de asimetría de R.

A. Fisher, cuya expresión es:

Page 114: Estadistica i - Libro

116

Si g1 =0 la distribución es simétrica,

Si g1 >0 la distribución es asimétrica positiva (a derecha), y

Si g1 < 0 la distribución es asimétrica negativa (a izquierda).

Tabla 4.3 Momentos m1, m2 y m3: (Xi- x ), (Xi- x )2, (Xi- x )3

Xi ni x Xi- x (Xi- x )2 (Xi- x )3 (Xi- x )2*ni (Xi- x )3*ni

De la fórmula: (1/30 * 1690.66)/(1/30 * 567.37)2/3

= 56.35/82.25 = 0.6851

La distribución es asimétrica a la derecha, es decir, existe mayor número de datos a

la izquierda.

Coeficiente de asimetría de Pearson: Karl Pearson propuso para distribuciones

campaniformes, unimodales y moderadamente asimétricas el coeficiente definido

como Ap = ( x - Mo) /σ, donde Mo es la moda.

Page 115: Estadistica i - Libro

117

Como en una distribución campaniforme simétrica x = Mo = Me, si la distribución

es asimétrica positiva o a derechas, x se desplaza a la derecha de la moda, y por

tanto, x - Mo > 0. En el caso de distribución asimétrica negativa la media se sitúa

por debajo de Mo, por lo que el valor x - Mo < 0.

La desviación estándar que aparece en el denominador no modifica el signo de la

diferencia x - Mo y sirve para eliminar las unidades de medida de dicha diferencia.

Así tendremos que si Ap = 0 la distribución es simétrica, si Ap > 0 la distribución

es asimétrica positiva y si Ap < 0 la distribución es asimétrica negativa.

Coeficiente de asimetría de Bowley: Está basado en la posición de los cuartiles y

la mediana, y viene dado por la expresión Ab = (Q3 + Q1 - 2Me)/(Q3 + Q1). Se

cumple que si Ab = 0 la distribución es simétrica, si Ab > 0 la distribución es

asimétrica positiva y si Ab < 0 la distribución es asimétrica negativa. Q3 y Q1 son

los cuartiles tres y uno respetivamente.

Coeficiente Curtosis o de apuntamiento

El coeficiente curtosis define la distribución de frecuencias en la zona central de la

misma. La mayor o menor concentración de frecuencias alrededor de la media y en

la zona central de la distribución dará lugar a una distribución más o menos apun-

tada. Por esta razón a las medidas de curtosis se les llama también de apuntamiento

o concentración central.

En la distribución normal se verifica que m4 = 3σ4 siendo m el momento de orden 4

respecto a la media y σ la desviación estándar. Si consideramos la expresión g2=

(m4/σ4) - 3, su valor será cero para la distribución normal. Por ello, como coefi-

ciente de apuntamiento o curtosis se utiliza la expresión:

Page 116: Estadistica i - Libro

118

Del ejemplo anterior:

Tabla 4.4 Momentos m1, m2 y m4: (Xi- x ), (Xi- x )2, (Xi- x )4

Xi ni x Xi- x (Xi- x )2 (Xi- x )4 (Xi- x )2*ni (Xi- x )4*ni

De la fórmula:

[(1/30 * 21,082.58)/ (1/30 * 567.37)2]-3 = -1.03

Tomando la normal como referencia, diremos que una distribución puede ser más

apuntada que la normal (es decir, leptocúrtica) o menos apuntada (es decir, pla-

ticúrtica). A la distribución normal, desde el punto de vista de la curtosis, se le

llama mesocúrtica.

Page 117: Estadistica i - Libro

119

Una distribución es:

mesocúrtica (apuntamiento igual al de la normal) cuando g2 = 0,

leptocúrtica (apuntamiento mayor que el de la normal) si g2 > 0,

platicúrtica (apuntamiento menor que el de la normal) si g2 < 0.

4.6 Cálculo de mediciones descriptivas de la población

Para explicar el cálculo e interpretación de las medidas descriptivas de posición de

tendencia central, forma y dispersión, se han calculado los estadísticos de los datos

de una muestra: “A” y “B”. Si se quisiera hacer un estudio descriptivo con mayor

exactitud, sería a través del cálculo de los parámetros de la población.

La media de la población, con símbolo µ, se calcula con la fórmula:

µ =

Donde

N = tamaño de la población

Xi = diferentes valores que toma la variable aleatoria de la población.

f = frecuencia o repetición de valores de cada Xi.

La moda, el rango medio y el eje medio de la población se calculan igual

como se explicó en los apartados anteriores.

La varianza y la desviación estándar de la población se simboliza con la le-

tra griega σ2 y σ respectivamente. Se calcula mediante la fórmula:

Page 118: Estadistica i - Libro

120

∑ ∑n n

( (X i X iσ

2 = σ =

µ µ

N N- -) )

2 2

i= 1 i= 1

y

El coeficiente de variación, señala el grado de dispersión relativa entre la

desviación estándar y el valor de la media Cv = (σ/μ)

Con los datos de la tabla 3.2, sin agrupar, se obtiene la siguiente tabla de distribu-

ción de frecuencias de la población de 30 vehículos más vendidos en 1970:

Tabla 4.5 Distribución de frecuencias de los valores de la variable mpg

Aplicando las fórmulas tenemos los siguientes resultados:

Media: µ = , µ= 553/30 = 18.43 mpg.

Mediana: punto de posición = (N +1)/2 = (30 +1)/2 = 15.5 El valor de la mediana,

se toma del valor promedio de las posiciones 15 y 16 de la tabla 4.3, que corres-

ponde a los valores de 17 y 17. El promedio de los dos valores es igual a 17.

Page 119: Estadistica i - Libro

121

Moda: el valor que más aparece en las observaciones es el 15 mpg.

Rango medio: rango medio = (Xmenor + Xmayor)/2 = (14 + 27)/2 = 20.5

Q1: punto de posición 1/4(N +1) = 1/4(30 +1)/4 = 7.75, es decir, la posición 8,

cuyo valor es igual a 15 mpg.

Q3: punto de posición 3/4(N +1) = 3/4(30 +1) = 23.25, es decir, la posición 23

cuyo valor es igual a 22 mpg.

Eje medio: eje medio = (Q1 + Q3)/2 = (15 + 22)/2 = 18.5

Rango (alcance): rango = Xmayor – Xmenor = 27 – 14 = 13

Alcance intercuartil; Q3-Q1 = 22 -15 = 7

Varianza:

∑n

(X iσ

2 =

µ

N- )

2

i= 1 = [(14 – 18.43)

2 + (15 – 18.43)

2 + (16 – 18.43)

2 + ...(27 –

18.43)2 ]/30 = 19.56

Desviación estándar:

∑n

(X iσ =

µ

N- )

2

i= 1

= 4.42

Coeficiente de variación: σ/µ = 4.42/18.43 = 23.98

Resumen de cinco puntos y caja y sesgo:

Xmenor Q1 mediana Q3 Xmayor

14 15 17 22 27

14 16 18 20 22 24 26 27

Entre los valores de rendimiento mpg de los 30 automóviles más vendidos en el

año 1970, dado que la media excede a la mediana, 18.43 vs 17, se puede considerar

Page 120: Estadistica i - Libro

122

como sesgada a la derecha. Conclusión similar se obtiene de observar la gráfica de

caja y sesgo.

Tabla 4.4 Comparación de medidas de la muestra “B” y de la población.

Medición muestral población

(n= 6) (N= 30)

Media 18.66 18.43

Mediana 17.5 17

Moda no 14 y 15

Xmenor 14 14

Xmayor 26 27

Rango medio 20 20.5

Eje medio 18.5 18.5

Rango (alcance) 12 13

Rango intercuartil 7 7

Varianza 20.66 19.56

Desviación estándar 5.54 4.42

Coef. de variación 29.68 23.98

Forma sesgo der. sesgo der.

Se observa que los valores de medición descriptivos de la muestra y de la pobla-

ción son bastante similares aún y cuando la muestra es muy pequeña. En la prácti-

ca, es raro realizar estudios con muestras tan pequeñas, aquí lo que se trató es de

hacer un ejercicio que facilitara el entendimiento de la Estadística descriptiva.

Cálculo de mediciones descriptivas de datos agrupados.

Cuando en la realización del estudio estadístico se utiliza fuente secundaria de da-

tos, es decir revistas, censos, periódico o publicaciones especializadas, generalmen-

te no se dispone de datos originales. La mayoría de las veces lo que se obtiene de

las fuentes secundarias son las características de agrupados o estratificados. En esta

Page 121: Estadistica i - Libro

123

situación, donde los datos originales no están disponibles, las medidas descriptivas

pueden estimarse de una manera aproximada.

Aunque existen diversas fórmulas para calcular las diferentes medidas de tendencia

central y de variación cuando se dispone de datos agrupados, dado que son aproxi-

maciones, es más fácil para su estimación utilizar los diagramas de frecuencias

relativas y acumuladas para su cálculo. A manera de ejercicio, se supone que sólo

se cuenta con los datos agrupados de la tabla 3.4.

Tabla 4.5 distribución de frecuencia de datos agrupados

Frecuencia Porcentaje

Clase Frecuencia acumulada porcentaje acumulado

12<x<=14 6 6 20.00 20.00

14<x<=16 8 14 26.66 46.66

16<x<=18 6 20 20.00 66.66

18<x<=20 0 20 0.00 66.66

20<x<=22 3 23 10.00 76.66

22<x<=24 2 25 6.66 83.33

24<x<=26 4 29 13.33 96.67

26<x<=28 1 30 3.33 100.00

Figura 4.5 Polígono de porcentajes

1412 16 18 20 22 24 26 28

0

5

10

15

20

25

30

20%20%

10%

6.66%

13.33%

3.33%

26.66%

Porc

enta

je

Page 122: Estadistica i - Libro

124

Fig. 4.6 Polígono de porcentajes acumulado

14Me

Q1

Q2

12X

menorX

mayor

16 18 20 22 24 26 28

0

20%

30%

40%

50%

60%

70%

90%

80%

100%

20%

66.66%

76.66%

83.33%

96.67%100%

46.66%

Millas por galón

Porc

enta

je

Utilizando visualmente la figura 4.6, diagrama de porcentaje acumulado, fácilmen-

te se puede estimar el valor de la mediana, ésta se localiza aproximadamente tra-

zando una línea horizontal del 50% del eje vertical (porcentaje) hasta que cruce la

curva de porcentaje acumulado, de ahí se traza una línea vertical hasta el eje hori-

zontal de los valores de la variable “millas por galón”. Aproximadamente el valor

de la mediana es 15.5 mpg. De la misma forma se puede aproximar el valor del

primer cuartil y del tercer cuartil; Q1 = 13.2 y Q3 = 20.5 de éstos valores se calcula

el rango intercuartil aproximado a 5.5. El rango se calcula con los valores prome-

dio de la primera clase y de la última, es decir 13 y 27 mpg, utilizando la fórmula

rango = Xmayor – Xmenor resulta 27 – 13 = 14

Desafortunadamente la media, la varianza, la desviación estándar y el coeficiente

de variación no pueden calcularse una vez que los datos se han agrupado, sin em-

bargo en algunas situaciones pueden realizarse aproximaciones útiles. Si los datos

fueran perfectamente simétricos, la media es igual a la mediana, al rango medio y

al eje medio; si fueran aproximadamente simétricos, la mejor aproximación sería

un promedio de las tres. La desviación estándar podría aproximarse como el pro-

medio entre un sexto del rango y tres cuartos del rango intercuartil. Siguiendo con

Page 123: Estadistica i - Libro

125

el mismo ejemplo, se tiene que la mediana es igual a 15.5; el rango medio es igual

a (Xmenor + Xmayor )/2 = (27 +13)/2 = 20; y el eje medio es igual a (Q1 + Q3) = (13.2

+ 20.5)/2 = 16.85; el promedio de estas tres medidas centrales es de (15.5 + 20 +

16.85)/3 = 17.45

La desviación estándar aproximada sería de (rango/6 + 3 rango intercuartil/4)/2 =

(14/6 + 3*7/4) = 3.79; varianza (3.79)2 = 14.36

La tabla 4.6 presenta una comparación entre el resumen de las medidas descripti-

vas reales obtenidas de los datos sin procesar, aplicando las fórmulas explicadas en

los capítulos 3 y 4 y las medidas aproximadas de los datos agrupados obtenidas a

través de distribución de frecuencias y distribución de frecuencias acumulada.

Tabla 4.6 Comparación de medidas descriptivas de la variable mpg de la po-

blación (cálculo exacto) y datos agrupados.

Medición datos datos

población agrupados

Media 18.43 17.45

Mediana 17 15.5

Moda 15 no

Xmenor 14 13

Xmayor 27 27

Rango medio 20.5 20

Eje medio 18.5 16.85

Rango (alcance) 13 14

Rango intercuartil 7 7

Varianza 19.56 14.36

Desviación estándar 4.42 3.79

Coef. de variación 23.98 21.71

Forma sesgo der. sesgo der.

Page 124: Estadistica i - Libro

126

4.7 Uso de la desviación estándar.

Existen muchas variables asociadas a fenómenos naturales que se distribuyen en

forma equilibrada, con respecto a la media. En forma general, basados en los mo-

delos matemáticos de Gauss y Bienaymé & Chebyshev, se estima que dos de cada

tres observaciones se encuentran a una distancia de 1 desviación estándar de la

media (es decir el 67% del total de las observaciones y aproximadamente el 95%

de las observaciones están contenidas en una distancia de 2 desviaciones estándar

alrededor de la media.

A mediados del siglo XIX, en forma separada, los matemáticos Bienaymé y Che-

byshev encontraron, que sin importar cómo se distribuye una serie de datos de una

variable aleatoria, la probabilidad de que las observaciones estén distanciadas de su

media en más de k veces la desviación típica, es menor o igual que 1/k2, por lo que,

la agrupación alrededor de la media está dado por la ecuación (1 - 1/k2), para datos

de cualquier distribución, se tiene que;

• Al menos [1 – (1/22)] *100% = 75.0% de las observaciones están conteni-

das dentro de una distancia ±2 desviaciones estándar alrededor de la media.

• Al menos [1 – (1/32)] *100% = 88.89% de las observaciones están conteni-

das dentro de una distancia ±3 desviaciones estándar alrededor de la media.

• Al menos [1 – (1/42)] *100% = 93.75% de las observaciones están conteni-

das dentro de una distancia ±4 desviaciones estándar alrededor de la media.

Aunque el cálculo Bienaymé-Chebyshev se aplica a cualquier tipo de distribución

de datos, más adelante se estudiará, en teoría de probabilidades, que si los datos

forman la distribución normal, en forma de campana, o campana de Gauss, el

68.26% de todas las observaciones se encuentran alrededor de ± 1 desviación

estándar, mientras que el 95.44%, 99.73% y 99.99% estarán en ±2, ±3 y ±4 desvia-

ciones estándar.

Page 125: Estadistica i - Libro

127

Mientras que en el cálculo de Bienaymé-Chebyshev nos indica, para cualquier tipo

de distribución, al menos qué tan posible es que una observación se encuentre alre-

dedor de la media, la aplicación del modelo de Gauss, para distribuciones norma-

les, nos dice exactamente qué tan probable es que cualquier observación esté lejos

o cerca de la media.

4.8 Resumen

El cálculo de las medidas estadísticas sintetiza la información sobre los datos que

se han recopilado, facilitando su manejo e interpretación. En lugar de trabajar con

toda la tabla de frecuencias, se calcula tres tipos de medidas estadísticas: de posi-

ción, de forma y de dispersión.

Las medidas de posición, como la media, la mediana, la moda, el rango medio y el

eje medio, indican el nivel general del fenómeno, o sea el punto de escala numérica

alrededor del cual se agrupa la mayoría de las observaciones obtenidas al captar el

fenómeno que interesa; las medidas de forma, con sólo comparar el valor de la

media con el de la mediana, muestran el grado en que las observaciones tienden a

acumularse por arriba o por debajo de los valores centrales y tienen por objeto de-

terminar el grado de asimetría de una distribución de frecuencias; y las medidas de

dispersión, como el rango, el rango intercuartil, la varianza, la desviación estándar

y el coeficiente de variación indican el mayor o menor grado en que las observa-

ciones se alejan del valor central dado por las medidas de posición. En conjunto,

las medidas estadísticas resumen los valores significativos del conjunto de datos.

4.9 Términos clave

Análisis de datos

Medidas de posición: media, media-

na, moda, rango medio, eje medio.

Medidas de forma: equilibrada, sesgo

a la derecha, sesgo a la izquierda.

Medidas de dispersión: rango, rango

intercuartil, varianza, desviación

estándar, coeficiente de variación.

Escala de puntos.

Page 126: Estadistica i - Libro

128

4.10 Problemas de repaso del capítulo

1.- Un grupo de estudiantes de la Universidad han decidido llevar a cabo un fo-

notón para recabar fondos para la construcción de un Centro de Artes. Los datos

siguientes representan las cantidades prometidas (en miles de pesos) por todos los

ex alumnos que fueron llamados durante los primeros nueve días: 16, 18, 11, 17,

13, 10, 22, 16

a) Calcule la media, mediana, el rango medio y el rango intercuartil

b) Calcule la varianza y la desviación estándar

c) Describa la forma de esta serie de datos

d) Describa la cantidad ofrecida por los ex-alumnos

e) Escriba un reporte donde estime la cantidad en recaudar si el fonotón dura

30 días

2.- Los siguientes datos representan el precio al menudeo de camisetas de una

muestra de 20 tiendas más frecuentadas de la ciudad.

Precio de camisetas al menudeo

137.4 139.2 141.1 138

140 141.8 139.7 140.9

138.8 137.3 136.7 140.6

139.1 133.5 136.3 136.7

144.4 138.2 135.6 134.1

a) Forme el diagrama de tallo y hojas; elabore las tablas y diagramas de fre-

cuencias absolutas, relativas y acumuladas; elabore el diagrama de Pareto.

b) Calcule la media, mediana, eje medio, rango, rango intercuartil, desviación

estándar y coeficiente de variación; elabore el análisis de 5 puntos y la caja

de sesgo.

Page 127: Estadistica i - Libro

129

3.- Los siguientes datos corresponden al costo por onza en pesos de muestras alea-

torias de 31 champuses etiquetados para cabello normal y 29 para cabello delgado.

Cabello normal Cabello fino

7.9 6.3 1.9 0.9 3.7 6.9 0.9 2.3 2.2 0.8

4.9 2.0 1.6 5.5 6.9 1.2 3.2 1.2 1.8 7.8

2.3 1.4 9.0 8.7 4.4 1.9 6.3 4.9 3.7 5.5

1.3 1.6 2.3 2.0 6.4 8.5 4.4 8.7 1.7 1.1

2.8 1.8 3.2 8.1 8.5 2.3 5.0 6.5 5.1 3.5

4.7 5.0 0.8 1.3 2.1 1.4 2.0 2.8 0.8

9.0

Para cada conjunto de datos (cabello normal y cabello fino) calcule

a) Forme el diagrama de tallo y hojas; elabore las tablas y diagramas de fre-

cuencias absolutas, relativas y acumuladas; elabore el diagrama de Pareto.

b) Calcule la media, mediana, eje medio, rango, rango intercuartil, desviación

estándar y coeficiente de variación; elabore el análisis de 5 puntos y la caja

de sesgo.

Page 128: Estadistica i - Libro

130

4.11 Mapa conceptual de distribución de datos numéricos.

Media

Mediana

Moda

Rango medio

Eje medio

El rango

El rango intercuartil

Varianza

Desviación estándar

• Coeficiente Fisher

• Coeficiente Pearson• Coeficiente Bowley

Medidas de

asimetría

• Coeficiente CurtosisMedida Curtosis

Medidas de posición

Medidas de dispersión

Medidas de deformación

Page 129: Estadistica i - Libro

131

Capítulo 5

Uso de paquetes Estadísticos

*********************

Objetivo del

Capítulo

Mostrar cómo el uso de la computadora

ayuda al análisis estadístico, evitando así

los laboriosos cálculos matemáticos y

dedicar más atención a la interpretación

para la toma de decisiones.

Page 130: Estadistica i - Libro

132

Page 131: Estadistica i - Libro

133

5.1 Introducción

Hasta ahora lo que se ha tratado de explicar es la técnica del manejo de datos para

facilitar su análisis e interpretación. Cuando son cantidades pequeñas de datos, se

pueden realizar manualmente, pero cuando la muestra rebasa las 100 observacio-

nes, el trabajo de ordenar y agrupar y calcular las medidas resumen de los datos se

complica. Afortunadamente, como se ha dicho desde el inicio, existen paquetes

estadísticos que realizan todo este pesado trabajo. Lo que si es cierto, es que en la

mayoría de los estudios estadísticos es inevitable la digitalización manual de datos,

como materia prima del estudio.

Al término del capítulo, el alumno deberá ser capaz de:

1. Obtener las medidas resumen de una muestra a través del uso del paquete

estadístico SPSS.

2. Obtener los diagramas apropiados para el análisis gráfico de la distribución

de datos.

Si el conjunto de registros, denominado “la base de datos” está bien computado, el

paquete estadístico se encarga de realizar todos los cálculos estadísticos. Al analista

sólo le resta saber interpretar los resultados. El programa SPSS (Statistical Package

for Social Sciences) permite, mediante su aplicación, realizar un análisis descripti-

Page 132: Estadistica i - Libro

134

vo de una o varias variables, utilizando gráficos que expliquen su distribución o

calculando sus medidas características. Entre sus muchas prestaciones, también

figuran el cálculo de intervalos de confianza, contrastes de hipótesis, análisis de

regresión o análisis multivariantes.

5.2 Edición de datos

Una vez que se ha accedido al programa (haciendo clic el icono correspondiente) la

interfaz con el usuario se compone de dos ventanas principales:

1. El editor de datos: de aspecto y funcionalidad semejantes a las de cualquier

hoja de cálculo

2. El visor de resultados, donde irán apareciendo los resultados de los aná-

lisis realizados.

Desde ambas ventanas se puede acceder a la barra de menús (desde donde se selec-

ciona el análisis que se quiere realizar) y a la barra de botones rápidos (desde la que

se puede acceder a las opciones de menú más comúnmente solicitadas).

Al ejecutar el programa estadístico SPSS, para capturar los datos es necesario defi-

nir las características de cada variable. En la parte inferior de la página principal

hay una pestaña “vista de variables” que hay que abrir:

Figura 5.1 Página principal del paquete SPSS

Page 133: Estadistica i - Libro

135

Figura 5.2 Página principal de Resultados de SPSS.

Antes de definir las características de las variables, es necesario considerar las si-

guientes indicaciones.

1. Enlistar todas las variables que se van a analizar, en orden que facilite la

captura.

2. Definir el nombre con el que se identifica la variable.

3. Defina si es numérica o categórica, también se puede definir si es de fecha,

si la separación de miles se hace coma, si requiere punto, si representa di-

nero y el número de decimales que se requiere.

4. Se requiere establecer un código de equivalencias para los diferentes valo-

res de las variables. Por ejemplo: 1 = femenino y 2 = masculino

5. Se requiere señalar el significado literal de la variable: género, nivel de

educación, fecha de nacimiento, categoría de empleo, etc.

6. Se requiere establecer la escala de medición: nominal, ordinal o cardinal

(escalar)

A manera de ejemplo, utilizando la misma estructura de datos del estudio estadísti-

co de automóviles que se ha venido utilizando en los ejercicios de los apartados

Page 134: Estadistica i - Libro

136

anteriores, se genera una base de datos de 406 registros. La magnitud de lo datos

dificulta el cálculo manual de las mediciones descriptivas, por lo que se utiliza los

paquetes estadísticos SPSS.

En la siguiente figura se puede observar la forma en que se definen las característi-

cas de las variables en el paquete estadístico SPSS.

Figura 5.3 Características de las variables de estudio

5.3 Captura de datos.

Una vez que se ha diseñado la edición de la presentación de los datos recabados, se

procede a su captura. En la figura 5.4 se puede observar el resultado de estas acti-

vidades. Los datos están listos para su análisis estadístico. La tabla de datos puede

salvarse como archivo de datos con extensión .sav, listo para utilizarse por el pa-

quete estadístico SPSS.

Page 135: Estadistica i - Libro

137

Figura 5.4 Presentación de datos digitados en SPSS

5.4 Obtención de resultados

Habiendo capturado todos los datos de la muestra o de la población, según sea el

caso, a través del comando analizar/estadísticas descriptivas, se obtendrá un

menú de análisis.

Figura 5.4 Análisis de datos

Page 136: Estadistica i - Libro

138

5.5 Definición de variable de análisis

Al escoger el sub-menú aparece un recuadro de definición de variables a analizar y

de estadísticos a visualizar; en el caso del ejemplo se escogerá la variable Miles per

Galon (mpg):

Figura 5.5 Definición de variable a analizar

Figura 5.6 Definición de características de los estadísticos

Page 137: Estadistica i - Libro

139

Figura 5.7 Definición de características de los gráficos

Figura 5.8 Estadísticos obtenidos

Page 138: Estadistica i - Libro

140

Figura 5.9 Gráficos obtenidos: Tallo y hojas y caja y sesgo

5.6 Tabla de frecuencias.

Si desea conocer la tabla de frecuencias, en el sub-menú de estadísticas descripti-

vas, se obtendría lo siguiente:

Figura 5.10 Frecuencias.

Page 139: Estadistica i - Libro

141

Figuera 5.11 Tabla de frecuencias no agrupada obtenida

Miles per Gallon

6 20,0 20,0 20,0

6 20,0 20,0 40,0

2 6,7 6,7 46,7

2 6,7 6,7 53,3

4 13,3 13,3 66,7

2 6,7 6,7 73,3

1 3,3 3,3 76,7

2 6,7 6,7 83,3

2 6,7 6,7 90,0

2 6,7 6,7 96,7

1 3,3 3,3 100,0

30 100,0 100,0

14

15

16

17

18

21

22

24

25

26

27

Total

Válidos

Frecuenc ia Porcentaje

Porcentaje

válido

Porcentaje

acumulado

Figuera 5.12 Histograma y distribución de frecuencias

Page 140: Estadistica i - Libro

142

5.7 Problemas de repaso del capítulo

1. Utilizando el paquete SPSS, obtenga las medidas de posición, dispersión y dis-

torsión y los diagramas de distribución de frecuencias y de Pareto de los datos de la

siguiente tabla, que son los sueldos de una muestra aleatoria de 100 empleados con

licenciatura en Negocios Internacionales egresados entre el año 2000 y 2005.

24,300 82,500 22,500 23,550 57,000 30,300 38,850 36,150 35,550 20,100

24,750 54,000 48,000 35,100 40,200 28,350 21,750 110,625 45,150 24,000

22,950 26,400 55,000 23,250 21,450 27,750 24,000 42,000 73,750 25,950

25,050 33,900 53,125 29,250 21,900 35,100 16,950 92,000 25,050 24,600

25,950 24,150 21,900 30,750 45,000 27,300 21,150 81,250 27,000 28,500

31,650 29,250 78,125 22,350 32,100 40,800 31,050 31,350 26,850 30,750

24,150 27,600 46,000 30,000 36,000 46,000 60,375 29,100 33,900 40,200

72,500 22,950 45,250 30,750 21,900 103,750 32,550 31,350 26,400 30,000

68,750 34,800 56,550 34,800 27,900 42,300 135,000 36,000 28,050 22,050

16,200 51,000 41,100 60,000 24,000 26,250 31,200 19,200 30,900 78,250

Page 141: Estadistica i - Libro

143

Capítulo 6

Presentación de datos

categóricos en tablas y

diagramas.

*********************

Objetivo del

Capítulo

Mostrar cómo organizar y presentar en

tablas y diagramas los datos categóri-

cos

Page 142: Estadistica i - Libro

144

Page 143: Estadistica i - Libro

145

6.1 Introducción

Este capítulo trata sobre la presentación de datos categóricos, estos se pueden pre-

sentar, con el fin de facilitar el análisis y la toma de decisiones, en forma de tablas

y diagramas. Si el interés de análisis es una variable, se realizarán tablas resumen y

diversos diagramas, como el diagrama de pastel, de barras y de puntos. Si el propó-

sito es relacionar dos o más variables categóricas, se realizará una tabla de resulta-

dos cruzados.

Al terminar el capítulo, el alumno podrá:

1. Construir tablas y diagramas que representen un resumen de datos categó-

ricos.

2. Realizar tablas cruzadas o matriciales que relacionen a dos o más variables

categóricas.

3. Utilizar los paquetes estadísticos para presentar resúmenes de datos categó-

ricos.

6.2 Tabulación de datos categóricos

Siguiendo con la misma base de datos de los autos más vendidos en el año 1970, se

quiere saber el porcentaje del origen: americano, europeo o japonés. Para saberlo,

se tendrá que construir una tabla resumen que agrupe los autos por origen.

Page 144: Estadistica i - Libro

146

Tabla 6.1 Resumen de frecuencias y porcentajes por origen 1970

22 73.3 73.3 73.3

6 20.0 20.0 93.3

2 6.7 6.7 100.0

30 100.0 100.0

Americano

Europeo

Japonés

Total

Frecuenc ia Porciento

Porciento

validado

Porciento

acumulado

Figura 6.1 Diagrama de barras en porciento.

Americano

Europeo

Japonés

País

de o

rig

en

0 20 40 60 80

Porcentaje

Figura 6.2 Diagrama de pastel en porciento.

Japonés

Europeo

Americano

73.3%

6.0%

20.0%

Page 145: Estadistica i - Libro

147

Figura 6.3 Diagrama Pareto en cantidades y en porcentaje

País de origen

JaponésEuropeoAmericano

Ca

ntid

ad

40

30

20

10

0

100

50

02

6

22

Porce

nta

j e

Figura 6.4 Gráfica de puntos de cantidades

Pa

ísd

eo

rige

n

Americano

Europeo

Japonés

Cantidad

3020100

6.3 Elección de la gráfica apropiada

La representación gráfica de datos es una técnica muy útil para la presentación de

informes ejecutivos. Sin muchas explicaciones, objetivamente se pueden interpretar

el significado de los datos. Algunas personas confunden el propósito de uso de

gráficas, muchos creen que los adornos y colores será la manera de ser efectivos,

otros prefieren utilizar la sobriedad gráfica en razón de destacar el contenido de las

gráficas. Es importante señalar que, según ciertas investigaciones sobre la percep-

Page 146: Estadistica i - Libro

148

ción humana, las escalas de longitud son más fácil de interpretar que las de área.

De ser así, la gráfica de puntos de cantidades o porcentaje sería más fácil de inter-

pretar que la gráfica de pastel o de barras. Aunque, hay que destacar que la gráfica

de pastel es estéticamente agradable y muestra la proporción y suma total de las

categorías.

La elección del tipo de gráfica para la presentación de datos categóricos sigue sien-

do altamente subjetiva y a menudo depende de las preferencias del analista o del

receptor.

6.4 Tabla de contingencia o tabla de datos cruzados

Muchas de las veces, en los estudios estadísticos, es necesario mostrar la relación

que existe entre dos o más variables de estudio, la tabla de datos cruzados o de

contingencias es una manera de presentar esta situación. Siguiendo con el estudio

de las características de los autos más vendidos en el año 1970, se puede relacionar

dos variables categóricas, por ejemplo, el origen de fabricación y el número de

cilindros.

Tabla 6.2 Datos cruzados: país de origen/número de cilindros

3 Cilindros 4 Cilindros 5 Cilindros 6 Cilindros 8 Cilindros

Recuento Recuento Recuento Recuento Recuento

Americano 0 0 0 3 19

Europeo 0 6 0 0 0

Japonés 0 2 0 0 0

Numero de cilindros

País de origen

6.5 Uso de paquetes estadísticos en la presentación de datos categóricos

Al igual que la tabulación, diagramación y tratamiento de datos numéricos, cuando

el número de observaciones es grande, podemos utilizar la computadora para reali-

zar esta ardua tarea. Existen diversos paquetes de análisis de datos, incluso la hoja

de cálculo de Excel.

Page 147: Estadistica i - Libro

149

En el caso del paquete estadístico SPSS, para el diseño de gráficas existe un co-

mando que se llama Gráficos y se opera de la siguiente manera: se escoge el tipo de

gráfico que se desea, en este caso, el de barras.

Figura 6.5 Menú generador de gráficos

Un gráfico de barras presenta estadísticos de resumen de una o más variables, la

mayor parte de las veces respecto a los grupos definidos por una o dos variables

categóricas. La longitud de las barras representa habitualmente la frecuencia de

casos de cada categoría, un porcentaje del número total de casos o una función de

otra variable (por ejemplo, el valor medio para cada categoría). La función se pue-

de cambiar en la parte inferior del cuadro de diálogo. También se puede mostrar

una clave para identificar la función.

Figura 6.6 Menú para definición de variable

Page 148: Estadistica i - Libro

150

Barras agrupadas y apiladas. Si se asigna una variable categórica a Color o Esti-

lo, las barras de las categorías se podrán agrupar unas junto a otras o apilarse. En

las barras apiladas, las categorías de la variable de la leyenda se apilan unas sobre

otras. La parte superior de un segmento conforma la base del siguiente. Este tipo de

gráficos destaca la suma de las categorías; por tanto, sólo se deberán seleccionar

funciones adecuadas para la apilación en las barras que representan.

Si se ha seleccionado una leyenda de apilado de color o de estilo, podrá cambiar el

eje dependiente para que represente el 100%. En ese caso, los segmentos represen-

tarán el porcentaje con el que cada categoría contribuye al total.

En otras palabras, existe tres opciones: barra simple, donde sólo se grafica la escala

de valores de cada categoría; barra conglomerada, se agrupan por categorías defi-

nidas y barra estratificada, al interior de cada barra se puede estratificar por cate-

gorías existentes. Para que sea más objetivo el resultado, se ilustrará con un ejem-

plo de cada una de ellas.

Figura 6.7 Gráfica de barras de presentación de datos categóricos: simple,

aglomerada y estratificada

Pa

ísde

ori

ge

n

Cantidad

Page 149: Estadistica i - Libro

151

6.6 Generación de tablas

En la pestaña “Tabla” del generador de tablas, se seleccionan las variables y las

medidas de resumen que aparecerán en la tabla.

Lista de variables. En el panel superior izquierdo de la ventana se muestran las

variables del archivo de datos. Tablas personalizadas distingue entre dos niveles de

medida diferentes para las variables y trata de manera distinta las variables en fun-

ción de su nivel de medida:

Categóricas. Datos con un número limitado de valores o categorías distintas (por

ejemplo, sexo o religión). Las variables categóricas pueden ser variables de cadena

(alfanuméricas) o variables numéricas que utilizan códigos numéricos para repre-

sentar a categorías (por ejemplo, 0 = hombre y 1 = mujer). También se hace refe-

rencia a estos datos como datos cualitativos. Las variables categóricas pueden ser

nominales u ordinales:

nominal. Una variable puede ser tratada como nominal cuando sus valores

representan categorías que no obedecen a una ordenación intrínseca. Por

ejemplo, el departamento de la compañía en el que trabaja un empleado.

Son ejemplos de variables nominales: la región, el código postal o la con-

fesión religiosa.

ordinal. Una variable puede ser tratada como ordinal cuando sus valores

representan categorías con alguna ordenación intrínseca. Por ejemplo los

niveles de satisfacción con un servicio, que vayan desde muy insatisfecho

hasta muy satisfecho.

Las variables categóricas definen categorías (filas, columnas y capas) en la tabla y

el estadístico de resumen por defecto es el recuento (número de casos en cada cate-

goría). Por ejemplo, una tabla por defecto de la variable categórica sexo sólo mos-

trará el número de hombres y el número de mujeres.

Page 150: Estadistica i - Libro

152

Las variables de escala se resumen normalmente dentro de las categorías de las

variables categóricas y el estadístico de resumen por defecto es la media. Por ejem-

plo, una tabla por defecto de los ingresos dentro de las categorías de sexo mostrará

los ingresos medios de los hombres y los ingresos medios de las mujeres.

También puede resumir las variables de escala por sí mismas, sin utilizar una va-

riable categórica para definir grupos. Esto resulta especialmente útil para apilar

resúmenes de varias variables de escala.

Figura 6.7 Menú generador de tablas

Figura 6.8 Menú para definir las variables

En la página principal de SPSS se escoge el comando Ta-blas/Tablas personali-zadas

Aparece en pantalla un área de trabajo para definir las variables que se desea colocar en las filas o en las columnas. En el ejemplo, se escogió para las filas la va-riable “origen” y para las columnas la variable “número de cilindros”.

Page 151: Estadistica i - Libro

153

Figura 6.8 Proyecto de presentación

Tabla 6.3 Datos cruzados de las variables “País de origen” y “número de ci-

lindros”

3 Cylinders 4 Cylinders 5 Cylinders 6 Cylinders 8 Cylinders

Recuento Recuento Recuento Recuento Recuento

American 0 0 0 3 19

European 0 6 0 0 0

Japanese 0 2 0 0 0

Total 0 8 0 3 19

Number of Cylinders

Country of Origin

Aparece en pantalla el proyecto de presentación. Al darle click al botón de aceptar, e inmediata-mente aparece la tabla de datos cruzados.

Page 152: Estadistica i - Libro

154

Page 153: Estadistica i - Libro

155

Capítulo 7

Probabilidad básica

*********************

Objetivo del

Capítulo

Comprender los conceptos básicos de probabilidad como base necesaria para el estudio de distribución de probabili-dad e inferencia estadística

Page 154: Estadistica i - Libro

156

Page 155: Estadistica i - Libro

157

7.1 Introducción

El concepto o idea que generalmente se tiene del término probabilidad es adquirido

de forma intuitiva, siendo suficiente para manejarlo en la vida cotidiana. Una defi-

nición rápida del término probabilidad sería “la posibilidad de que suceda un even-

to en particular”.

Cuando un suceso aleatorio se repite un gran número de veces, los posibles resulta-

dos tienden a presentarse un número muy parecido de veces, lo cual indica que la

frecuencia de aparición de cada resultado tiende a estabilizarse, lo que determina la

probabilidad de ocurrencia de cada caso en particular.

La teoría de la probabilidad se usa extensamente en la ciencia y la filosofía para

sacar conclusiones sobre la ocurrencia de sucesos potenciales y la mecánica subya-

cente de sistemas complejos, como los sistemas de producción, distribución y con-

sumo de bienes y servicios.

Al terminar el capítulo el alumno debe de ser capaz de:

1. Utilizar el criterio de probabilidad

2. Utilizar una tabla de contingencia o un diagrama de Venn para determinar

las probabilidades de eventos conjuntos.

Page 156: Estadistica i - Libro

158

3. Comprender las reglas para encontrar las probabilidades simples, conjuntas

y condicionadas de un conjunto de posibles eventos, y aplicar la regla de

adición.

4. Distinguir entre eventos mutuamente excluyentes y colectivamente exhaus-

tivos e independientes.

5. Utilizar el Teorema de Bayes para calcular probabilidades a la luz de nueva

información.

6. Utilizar las diversas reglas de contar el número total de eventos.

7.2 Criterios de probabilidad: subjetivo y objetivo.

Para determinar la posibilidad de ocurrencia de un evento existen dos criterios de

apreciación: la probabilidad subjetiva y la probabilidad objetiva.

La probabilidad subjetiva de un evento es la que se realiza en base al conoci-

miento tácito de una persona. Precisamente por su carácter de subjetividad no se

considera con validez científica, aunque en la vida diaria es de las que más se utili-

zan al no apoyarse más que en el sentido común y los conocimientos previos de la

persona, y no en resultados matemáticos o estadísticos. ¿Cuál es la probabilidad de

que llueva? ¿Cuál es la probabilidad de que tenga éxito un producto nuevo? La

asignación de probabilidad subjetiva se base en una combinación de experiencia

del individuo, estado de ánimo y el análisis de condiciones particulares.

La probabilidad objetiva, aceptada con validez científica, es la que se obtiene por

el conocimiento previo de un proceso o por la observación de resultados. Cuando la

probabilidad objetiva se basa en el conocimiento anticipado del proceso, probabili-

dad a priori. En el caso más simple, cuando cada resultado es igualmente posible,

esta posibilidad de ocurrencia puede definirse como: p(A) = X/T, donde X es igual

al número de resultados en los que ocurre el evento y T es igual al número de resul-

tados posibles.

Page 157: Estadistica i - Libro

159

Un ejemplo clásico es el mazo de barajas o el juego de dados. Si se quiere encon-

trar la probabilidad de sacar del mazo de barajas, sin comodín, una carta negra, la

respuesta correcta sería 26/52 ó ½ ó .50 ó el 50%, puesto que hay 26 cartas negras

de un total de 52. Si se vuelve a incorporar cada carta que se extrae, se mezcla, y se

saca nuevamente al azar, la probabilidad de éxito o de fracaso, sigue siendo la

misma. Inmediatamente no se puede asegurar que salga o no una carta negra, pero

podemos afirmar que a largo plazo, si se repite continuamente este proceso, la pro-

porción de cartas negras extraídas será muy cercana a .50

Existe otro enfoque de probabilidad objetiva, se conoce como probabilidad empíri-

ca o a posteriori, aunque se sigue definiendo como la proporción entre el número

de resultados favorables y el número total de resultados, estos resultados se basan

en datos observados, no del conocimiento anterior a un proceso.

De total de visitantes de domingo a un museo, la probabilidad de que compren

artículos de recuerdo se puede encontrarse seleccionando una muestra aleatoria de

la población, de 400 entrevistados 125 aceptaron haber comprado un recuerdo. Por

consiguiente, la probabilidad de que un visitante de domingo, seleccionado aleato-

riamente, compre un recuerdo es 125/400 = .3125

7.3 Espacio muestral y tipos de eventos

Cuando se realiza un experimento, que es cualquier proceso que produce un resul-

tado o una observación, se van a obtener un conjunto de valores. A este conjunto

de valores que puede tomar una variable se le denomina espacio muestral.

Por ejemplo: Si se tiene un dado cualquiera, el espacio muestral (EM) es

EM={1,2,3,4,5,6}.

En el caso de la baraja, el espacio muestral consiste en las 52 cartas, completado

por varios eventos, dependiendo de la clasificación. Si los eventos se clasifican por

Page 158: Estadistica i - Libro

160

palo, hay cuatro eventos: picas, corazones, tréboles y diamantes; si la clasificación

es por valor de la carta, existen trece eventos: As, Rey, Reyna…….2.

La manera en que se subdivide el espacio muestral será el tipo de probabilidad que

se estime. Tomando esto en cuenta se pueden distinguir tres tipos de evento: evento

simple, evento complemento y evento conjunto.

Si tomamos un subconjunto cualquiera del espacio muestral tenemos lo que se

denomina un evento, y si éste consta de un solo elemento entonces es un evento

simple. Como el de extraer un As del mazo de la baraja; o una espada, o una carta

de color negro. Al evento se le denomina evento A.

Los eventos que no forman parte de A se les denomina evento complemento y está

representado por A’. El evento complemento As son todas las cartas que no sean

As; el evento complemento de carta negra, son todas las cartas rojas.

Si existen más de una variable en el suceso, el espacio muestral está formado por

las combinaciones de valores de cada una de las variables, entonces es un evento

conjunto.

Existen eventos que siempre, no importa el número de experimentos o su situación,

ocurren, y en cambio existen otros que nunca ocurren. Cuando se tiene toda la cer-

teza de que el evento ocurrirá, el evento cierto, tiene una probabilidad de uno;

cuando un evento no tiene posibilidad de ocurrir, tiene una probabilidad de cero, es

decir, el evento nulo.

Page 159: Estadistica i - Libro

161

Figura 7.1 Espacio muestral de un mazo de cartas

En el ejemplo de la muestra de 400 visitantes del domingo al museo, también se les

preguntó si quedaron satisfechos con el material histórico exhibido, 315 visitantes

contestaron que si estaban satisfecho pero 225 de ellos no habían comprado recuer-

dos, lo que significa que de los 315 que contestaron estar satisfechos 90 también

compraron un recuerdo.

7.4 Formas de examinar el espacio muestral

Existen varias formas de examinar el espacio muestral específico, lo más usados

son la tabla de datos cruzados y el diagrama de Venn. La tabla de datos cruzados

o de contingencia, consiste en construir una matriz de relación de las variables de

interés. Siguiendo con los ejemplos de las barajas y de los visitantes al museo, se

construyen las siguientes tablas de datos cruzados.

Posibles eventos en el espacio muestral del mazo de cartas: Evento simple: As Evento simple: Roja Evento complemento: No As = As’ Evento complemento: No roja = Roja’ Evento conjunto: As roja Evento conjunto: No As roja = As roja’

Page 160: Estadistica i - Libro

162

Tabla 7.1 Datos cruzados para analizar el evento As roja

Roja Negra Totales

As 2 2 4

No As 24 24 48

Totales 26 26 52

El valor de las celdas de la tabla 7.1 de datos cruzados se obtuvo de distribuir el

mazo de 52 cartas en cuatro subconjuntos Ases roja y Ases negra, no Ases roja y

no Ases negra. La tabla de contingencia para los 400 visitantes del domingo al

museo se representa en la tabla 7.2

La tabla de datos cruzados o de contingencia, cuando el espacio muestral es gran-

de, se puede construir con ayuda de un paquete estadístico, como el SPSS.

Tabla 7.2 Datos cruzados para analizar compra y satisfacción

Satisfechos

Compraron si No Totales

si 90 35 125

no 225 50 275

Totales 315 85 400

Otra forma de presentar el espacio muestral es utilizando el diagrama de Venn.

Este diagrama muestra gráficamente los diversos eventos como uniones o intersec-

ciones de círculos. La figura 7.2 representa un diagrama de Venn típico para una

situación de dos variables, en donde cada variable sólo presenta dos eventos: A, A’

y B, B’.

En el espacio muestral AB, pueden suceder uniones como AUB, A’UB’, AUB’ y

A’UB; intersecciones como A B, A’ B’, A B’ y A’ B. Tomando los datos de la

tabla 2, A = 4 y B = 26, se construye el siguiente diagrama de Venn.

Page 161: Estadistica i - Libro

163

Figura 7.2 Diagrama de Venn para los eventos A y B

B 24A 2 2

AUB AUB= 28

= 24A’ B’

U

A B

U

A’ B’

U

A B

U

= 2

Espacio muestral de 52 cartas

A = Ases = 4

B = cartas negras = 26

A B = Ases negros = 2

A B = Ases o cartas negras = 28

A’ B’ = Ases y no cartas negras = 24

Figura 7.2(a) Diagrama de Venn para los eventos A y B

B 225A 35 90

AUB AUB= 350

= 50

= 90

A’ B’

U

A’ B’

U

A B

U

A B

U

Page 162: Estadistica i - Libro

164

Espacio muestral de 400 visitantes

A = Compraron = 125

B = satisfechos = 315

A B = Compraron-satisfechos = 90

A Compraron o satisfechos = 350

A’ ’ No compraron- no satisfechos =50

7.5 Probabilidad simple y probabilidad conjunta.

Hasta aquí se ha tratado de explicar el concepto de probabilidad, el espacio mues-

tral y los tipos de eventos. Ahora se verá la forma en que se calculan las probabili-

dades, de acuerdo al tipo de evento que se presente.

Lo que debe quedar claro y se considera como la regla más evidente de la teoría de

probabilidad es que en todos los casos la probabilidad siempre tiene una proporción

cuyo valor varía entre 0 a 1. Un evento imposible de ocurrir, evento nulo, tiene la

probabilidad de cero, y un evento cierto, tiene la probabilidad de 1.

Probabilidad simple

La probabilidad simple se refiere a la probabilidad de ocurrencia de un evento sim-

ple, P(A), como:

La probabilidad de sacar un As de un mazo de barajas

La probabilidad de sacar una carta negra

La probabilidad de compra de los visitantes del domingo al museo

La probabilidad de satisfacción de los visitantes del domingo al museo

Utilizando la fórmula para encontrar la probabilidad de ocurrencia = X/T, se

tiene que:

Page 163: Estadistica i - Libro

165

La probabilidad de sacar un As de un mazo de barajas = 4/52

La probabilidad de sacar una carta negra = 26/52

La probabilidad de compra de los visitantes del domingo al museo =

125/400

La probabilidad de satisfacción de los visitantes del domingo al museo

=315/400

Los datos anteriores, para el cálculo de probabilidad se pueden extraer de la tabla

de datos cruzados o del diagrama de Venn elaborados en el apartado anterior. Aquí

se puede apreciar que la probabilidad simple de un evento se puede calcular a

través de la suma de las probabilidades relativas del espacio muestral:

P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn)

En la tabla 7.1 se puede observar que la probabilidad de A es igual a:

P(A) = P(As negro) + P(As rojo) = 2/52 + 2/52 = 4/52

Probabilidad conjunta

Cuando se habla de varios eventos dentro del mismo experimento, probabilidad

conjunta, se pueden dar varios casos, como la carta As roja o Rey negro de un

mazo de barajas, o que un visitante del domingo al museo que haya comprado un

recuerdo y esté satisfecho con el material histórico exhibido. Para que se dé una

probabilidad conjunta significa que ambos eventos A y B deben ocurrir simultá-

neamente.

Observando las tablas de datos cruzados de la tabla 7.1, las cartas que son As y

negras son las que se encuentran en la celda de la fila As y de la columna Negra,

que son 2, por lo que la probabilidad de escoger un As negro es igual a:

Page 164: Estadistica i - Libro

166

P(As negro) = Número de Ases negros/total de cartas = 2/52

Este resultado también puede observarse en el diagrama de Venn de la figura 7.2,

el evento conjunto A y B (As negro) y corresponde a la intersección A B.

La probabilidad de escoger aleatoriamente un visitante del domingo al museo y que

haya comprado y esté satisfecho con el material histórico exhibido, se obtendrá de

la tabla 7.2 y de la figura 7.2 de la manera siguiente

P(comprar y satisfecho) = 90/400

Ahora que se ha analizado la noción de probabilidad conjunta, debe de recordarse

que la probabilidad simple es igual a la suma de las probabilidades relativas o de

conjunto de un espacio muestral, es decir: P(A) = P(A y B1) + P(A y B2) + P(A y

B3)……+ P(A y Bn), donde cada evento conjunto no pueden ocurrir simultáneamen-

te, por lo que se les denomina, eventos mutuamente excluyentes, pero tienen que

ocurrir, es decir son colectivamente exhaustivos si uno de los eventos debe ocu-

rrir.

Los eventos B1, B2, B3……. Bn son eventos mutuamente excluyentes y colectivamente

exhaustivos.

Por ejemplo, ser hombre y ser mujer son eventos mutuamente excluyentes y colec-

tivamente exhaustivos. Nadie es ambos (mutuamente excluyente) y todos son uno u

otro (colectivamente exhaustivos).

Regresando al ejemplo de la baraja, la probabilidad de sacar un As se puede expre-

sar de dos maneras:

P(As) = 4/52 ó

P(A) = P(As rojo) + P(As negro) = (2/52) + (2/52) = 4/52 = 1/13 = .0769

Page 165: Estadistica i - Libro

167

Por otro lado, en ocasiones un evento o más eventos dependen de otro evento pre-

vio, es decir, un evento A ocurre dado que ocurrió un evento B. Si existe este tipo

de relación entre eventos se dice que son eventos dependientes o condicionados

(el evento A depende del evento B, o el resultado del evento A está condicionado al

resultado del evento B). Por otro lado, si no existe tal relación entre eventos se dice

que son eventos independientes. Los criterios de dependencia o de independencia

se definirán más adelante, en términos de probabilidad condicional.

De lo anterior se puede afirmar que las probabilidades de los eventos de un espacio

muestral tienen las siguientes propiedades:

Las probabilidades relativas son mayores o iguales que cero.

La probabilidad relativa del espacio muestral es igual a la unidad.

Si dos eventos son mutuamente excluyentes, es decir que no ocurren

simultáneamente, entonces la probabilidad relativa de su unión es la

suma de las probabilidades relativas de cada uno.

Cálculo de probabilidad conjunta

Cuando se tienen eventos simples no existe mucho problema en el sentido del

cálculo de las probabilidades, pues basta con una relación o el uso directo del

cálculo combinatorio. Pero en el caso de eventos conjuntos, que son los compues-

tos por más de un evento simple, el proceder de manera análoga resulta muy com-

plejo y las operaciones pueden sobrepasar la capacidad de cálculo existente. Sin

embargo, utilizando las propiedades de la probabilidad, y las siguientes reglas, se

podrán expresar las probabilidades de estos eventos en términos de los eventos

simples que lo componen, siempre y cuando se conozcan las probabilidades de

éstos.

La probabilidad de una unión de eventos, se puede calcular de la siguiente manera:

Page 166: Estadistica i - Libro

168

Regla 1. (Regla de la adición general). Si A y B son dos eventos, la probabilidad

de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y

de B, menos la probabilidad de que ocurran A y B simultáneamente. Es decir,

P(A ) = P(A) + P(B) - P(A B)

La probabilidad de la adición (unión) considera la ocurrencia del evento A o del

evento B o la de ambos A y B. La regla de la adición consiste en tomar la probabi-

lidad de A y sumarla a la probabilidad B; La intersección A y B se resta del total

porque ya ha sido incluida en las probabilidades relativas de A y B. Para los ejem-

plos que se han venido presentando, de las tablas 7.1 y 7.2, los cálculos de la adi-

ción A y B son los siguientes:

De la tabla 7.1, la probabilidad de que sea un As o una carta roja es igual a (4/52

+ 26/52) – 2/52 = 28/52

De la tabla 7.2, la probabilidad de que compren un recuerdo o estén satisfechos

es igual a (125/400 + 315/400) – 90/400 = 350/400

Ahora, si el caso es que los eventos sean mutuamente excluyentes se tiene:

Regla 2. (Regla de exclusión). Si dos eventos, A y B, son mutuamente excluyentes

entonces la probabilidad de que ocurra A o B es igual a la suma de las probabilida-

des de ocurrencia de A y de B dado que la intersección A B (A y B) no existe y

tiene un valor igual a cero. Es decir

P(A ) = P(A) + P(B)

En los ejemplos anteriores, los eventos no son excluyentes porque existe la inter-

sección A y B, pero, por ejemplo, si se desea saber la probabilidad de escoger una

carta de picas o una carta de corazones si se escogiera sólo una carta del mazo de

52. Utilizando la regla de adición se obtendría:

Page 167: Estadistica i - Libro

169

P(picas o corazón) = P(espada) + P(corazón) – P(corazón y espada)

13/52 +13/52 -0/52 = 26/52

Para los eventos colectivamente exhaustivos también se aplica la ecuación anterior,

por ejemplo, la probabilidad de escoger una carta roja o una carta negra, como son

eventos mutuamente excluyentes, pero alguno tiene que suceder, la probabilidad se

calcula de la siguiente manera:

P(roja o negra) = P(roja) + P(negra)

26/52 + 26/52 = 52/52 = 1

Retomando los conceptos de eventos dependientes o condicionales, se va a definir

la probabilidad condicional como sigue:

Regla 3. (Regla condicional). La probabilidad de que ocurra un evento A dado

que ocurrió el evento B (el evento A depende del evento B), y se denota P(A|B), es:

P(A y B)=

Donde P(A y B) es igual a la probabilidad conjunta de A y B, y P(B) es la probabi-

lidad relativa de B.

Regresando a los ejemplos de la tabla 7.1 y 7.2, la probabilidad de que ocurra A

dado que ocurrió B.

De la tabla 7.1, ¿cuál es la probabilidad de sacar un as negro, dado que las cartas

son negras?:

P(As|negro) = P(As y negro)/P(negro) = (2/52)/(26/52) = 2/26

De la tabla 7.2, ¿Cuál es la probabilidad de que los que hayan comprado estén

satisfechos?:

Page 168: Estadistica i - Libro

170

P(compra satisfechos) = P(compra y satisfechos)/P(satisfechos) =

(90/400)/(315/400) = 90/315

Hay que notar que esta propiedad no es conmutativa, situación que sí ocurre con la

probabilidad de unión o la intersección de eventos, por lo que no hay que confundir

P(A|B) y P(B|A).

Regla 4 (Regla de independencia). Dos eventos A y B son independientes si y

sólo si

P(A|B) = P(A) y P(B|A) = P(B)

En la primera igualdad se observa que la probabilidad de elegir una carta que sea

As, dado que se sabe que es negra es 2/26. Ahora recordemos que la probabilidad

de sacar un As es 4/52, lo que se reduce a 2/26. Por lo que se cumple la regla. El

“color de la carta” y “ser un As” son eventos estadísticamente independientes. Lo

mismo sucede con la segunda igualdad, la probabilidad de que sea una carta negra

dado que es un As es igual a 2/4 y la probabilidad de que sea una carta negra es

26/52, lo que se reduce a 2/4.

Regla 5. (Regla de multiplicación).

P(A|B) = P(A y B)/P(B)

Despejando la probabilidad conjunta de P(A y B), tenemos la regla general de la

multiplicación:

P(A y B) = P(A|B) P(B)

Para mostrar el uso de la regla de la multiplicación, considerando el mazo de 52

cartas, ¿cuál es la probabilidad de que dos cartas consecutivas sean rojas.

P(A y B) = P(A|B) P(B)

Page 169: Estadistica i - Libro

171

La probabilidad de que la primera carta sea roja es 26/52, puesto que 26 de las 52

cartas son rojas. La probabilidad de que la segunda carta sea también roja depende

de la primera selección. Si la primera carta no se regresa al mazo (muestreo sin

reemplazo), entonces el número de cartas será 51, Si la primera carta fue roja, la

probabilidad de que la segunda también sea roja es 25/51, puesto que 25 cartas

rojas siguen en el mazo de 51, por lo tanto, al utilizar la ecuación de probabilidad

condicional, tenemos lo siguiente:

P(A y B) = (26/52) (25/51) = 650/2652 = 0.2450

Qué sucede si la primera carta extraída se regresa al mazo (muestreo con reempla-

zo), entonces la probabilidad de elegir una segunda carta roja es igual a la probabi-

lidad de la primera, es decir:

P(A y B) = (26/52) (26/52) = 676/2705 = 0.2499

El ejemplo de muestreo con reemplazo muestra que la segunda selección es inde-

pendiente de la primera, puesto que no tuvo ninguna influencia en su acontecer.

Así pues, la regla de multiplicación para eventos independientes se expresa de la

siguiente manera:

P(A y B) = P(A) P(B)

Si esta condición se cumple para dos eventos, A y B, entonces estadísticamente son

independientes. Por lo que:

1. Los eventos A y B son estadísticamente independientes si sólo si P(A|B)

= P(A)

2. Los eventos A y B son estadísticamente independientes si sólo si P(A y

B) = P(A) P(B).

Page 170: Estadistica i - Libro

172

Conociendo la regla de multiplicación, retomando la ecuación para calcular la pro-

babilidad simple de A, de la siguiente manera:

P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn)

Y utilizando la regla de multiplicación, se obtiene:

P(A) = P(A|B1) P(B1) + P(A|B2)P(B2)……+ P(A|Bn) P(Bn)

Donde B1, B2, B3……. Bn son eventos mutuamente excluyentes y colectivamente ex-

haustivos.

Para ilustrar esa fórmula, utilizando los datos de la tabla 7.1, la probabilidad de

escoger un As se aplica de la siguiente manera:

P(A) = P(A|B1) P(B1) + P(A|B2)P(B2)

P(As) = (2/26)(26/52) + (2/26) + (26/52)

2/52 + 2/52 = 4/52

Otra propiedad que se deriva de todas las anteriores es cuando se busca la probabi-

lidad del complemento de un evento E, que denotaremos como ~E:

Regla 6. (Regla de complemento) Si E es un evento y ~E su complemento, enton-

ces:

P(E) + P(~E) = 1; otra manera de expresar esta regla es P(~E) = 1 - P(E)

7.6 Teorema de Bayes.

El teorema de Bayes, enunciado por Thomas Bayes, en la teoría de la probabilidad,

es el resultado que da la distribución de probabilidad condicional de una variable

aleatoria A dada B en términos de la distribución de probabilidad condicional de la

variable B dada A y la distribución de probabilidad marginal de sólo A. Este con-

cepto puede ampliarse para revisar probabilidades basadas en nueva información y

Page 171: Estadistica i - Libro

173

así determinar la probabilidad de un efecto particular se deba a una causa específi-

ca.

El teorema de Bayes se desarrolla a partir de las definiciones de la probabilidad

condicional y probabilidad simple, de la siguiente manera:

P(A y B) = P(A|B) P(B)

P(A y B) = P(B|A) P(A)

Si se sustituye la igualdad, queda:

P(B|A) P(A) = P(A|B) P(B)

Dividiendo entre P(A), se obtiene:

P(B|A) = P(A|B) P(B)

P(A)

Pero como P(A) es igual a P(A|B1) P(B1) + P(A|B2)P(B2)……+ P(A|Bn) P(Bn),

entonces,

P(A|B = P(B |A)i

P(A|B )P(B )i i

1) P(B 1) + P(A|B 2)P(B 2)……+ P(A|Bn) P(Bn)

donde Bi es cualquier valor que puede tomar, desde B1 hasta Bn.

Para comprender mejor la aplicación del teorema de Bayes, se aplica en el siguien-

te ejemplo:

En una etapa de la producción de un artículo se aplica soldadura y para eso se usan

tres diferentes robots. La probabilidad de que la soldadura sea defectuosa varía

para cada uno de los tres, así como la proporción de artículos que cada uno proce-

sa, de acuerdo a la siguiente tabla.

Page 172: Estadistica i - Libro

174

Tabla 7.3 Producción y defectos por robot empleado

Robot Defectuosos

Porcentaje de

Producción

A 0.002 18%

B 0.005 42%

C 0.001 40%

Ahora surgen un par de preguntas:

•Cuál es la proporción global de defectos producida por las tres máquinas.

•Si se toma un artículo al azar y resulta con defectos en la soldadura, cuál es la

probabilidad de que haya sido soldado por el robot C.

a) La primera pregunta conduce a lo que se conoce con el nombre de fórmula de la

probabilidad total.

Primero es necesario conocer la proporción global de defectos de los tres ro-

bots. Después de reflexionar un momento se ve que si todas las soldaduras las

pusiera el robot C, habría pocos defectos, serían 0.001 o 0.1%. En cambio, si

todas las pone el B, ¡sería un desastre!, tendríamos cinco veces más: 0.005 o

0.5%. De modo que en nuestra respuesta debemos tener en cuenta las diferen-

tes proporciones de lo maquinado en cada robot.

La idea es empezar por descomponer el evento “defectuoso”en “viene del ro-

bot A y es defectuoso'” o “viene del robot B y es defectuoso” o “viene del ro-

bot C y es defectuoso”. En símbolos tendremos:

P(d) = P(A y d) + P(B y d) + P(C y d)

ó

P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)

Page 173: Estadistica i - Libro

175

Antes de ponerle números y resolver nuestro problema fijémonos en la fórmu-

la obtenida.

Hay tres eventos A, B y C que son ajenos y cubren todo el espacio muestral.

Se conoce las probabilidades de cada uno de ellos. Además, se conoce las

probabilidades condicionales de otro evento dado cada uno de ellos.

La fórmula de arriba se llama fórmula de la probabilidad total. Sustituyendo

con los números, se tiene que

P(d) = (0.18)(0.002) + (0.42)(0.005) + (0.40)(0.001) = 0.00286, casi 3 piezas

por cada mil.

Es bueno comparar este resultado con los porcentajes de soldaduras defectuo-

sas de cada robot por separado. Se puede ver que el resultado se encuentra en-

tre todas ellas y se encuentra relativamente cerca de los porcentajes de los ro-

bots más utilizados (el B y el C). Esto es muy razonable.

b) La segunda pregunta es, a la vez más simple y más complicada, conduce a la

aplicación de lo que se conoce con el nombre de teorema de Bayes.

La probabilidad que se busca es un condicional pero al revés de las que se tie-

nen. Se busca P(C|d), para calcularla se utiliza la definición de probabilidad

condicional:

P(C | d) = [P(C y d)] / [P( d )]

El numerador (lo de arriba) se calcula con

P(C y d) = P(C) P(d|C)

y el denominador se calcula con la fórmula de probabilidad total

P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)

Page 174: Estadistica i - Libro

176

juntando las dos se tiene la fórmula de Bayes:

P( C|d) = [P(C) P(d|C)] / [P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)]

Aplicándola al ejemplo se tiene:

P(C|d) = [(0.40)(0.001)]/[(0.18)(0.002) + (0.42)(0.005) + (0.40)(0.001)]

o sea: P(C|d) = [0.0004]/[0.00286] = 0.1399; casi 14%.

O sea que si se toma una pieza al azar, la probabilidad de que haya sido soldada por

el robot C es alta, 40%. Pero, como ese robot produce sólo 1 de cada mil soldadu-

ras defectuosas, al saber que la pieza seleccionada es defectuosa, la probabilidad de

que provenga del robot C disminuye a solamente 14%. Esto quiere decir que, en

este caso el saber que la soldadura es defectuosa, nos provee con una gran cantidad

de información.

Utilizando de nuevo la fórmula de Bayes las probabilidades de los robots A y B, se

tendría: P(B|d) = 0.7343 y P(A|d) = 0.1259

Comparadas con las probabilidades de cada máquina sin saber que la pieza es de-

fectuosa se observa un gran incremento en la probabilidad de B.

Si, por el contrario la pieza no hubiese tenido defectos de soldadura, el mismo teo-

rema de Bayes daría: P(A|no d) = 0.1802, P(B|no d) = 0.4191 y P(C|no d) = 0.4007

Lo anterior se obtiene del siguiente procedimiento:

Como la probabilidad de defectuosos P(|d) = .00286, por lo tanto, su probabilidad

complemento o P(|no d) = .99714, lo mismo para cada robot, la probabilidad de

que sea no defectuoso es igual a la probabilidad complemento de la probabilidad de

defectuosos.

Page 175: Estadistica i - Libro

177

Tabla 7.4 Producción y defectos por robot empleado

Robot

No

Defectuosos

Porcentaje de

Producción

A 0,998 18%

B 0,995 42%

C 0,999 40%

P(A|No d) = P(A y No d)/P (No d)= (.18)(.998)/ .99714 = 0.1802

P(B|no d) = P(B y No d)/P (No d) = (.42)(0.995)/.99714 = 0.4191

P(C|no d) = P(C y No d)/P (No d) = (.42)(0.995)/.99714 = 0.4007

Las probabilidades no son idénticas a las probabilidades no condicionales, pero la

diferencia es muy pequeña.

Para apreciar mejor el cambio, Se ponen en una sola tabla las probabilidades inicia-

les y las condicionales obtenidas bajo el conocimiento de la soldadura de la pieza.

Tabla 7.5 Producción y probabilidad condicional de defectos y no defectos

Robot P( ) P( |d) P( |no d)

A 0,18 0,1259 0,1802

B 0,42 0,7343 0,4191

C 0,40 0,1399 0,4007

Total 1,00 1,00 1,00

Es tan grande el éxito de los tres robots en el soldado correcto que el saber que la

pieza no tiene defectos, prácticamente no altera las probabilidades de producción

en uno u otro.

Por el contrario, el robot C es tan bueno, comparado con el B que, al saber que la

pieza es defectuosa, las probabilidades cambian dramáticamente.

Page 176: Estadistica i - Libro

178

En este ejemplo el cálculo de probabilidades condicionales nos cuantifica algo que

el sentido común nos dice de otra forma. La fórmula de Bayes sirvió para pasar de

las probabilidades no condicionales a las condicionales.

Otra aplicación interesante del Teorema de Bayes se relaciona con el área de dia-

gnóstico médico. Si se considera que la probabilidad que una persona tenga cierta

enfermedad es del .03. Se dispone de pruebas de diagnóstico para comprobar si la

persona realmente tiene la enfermedad, la probabilidad de que la prueba dé positivo

si la enfermedad está presente es del .90; la probabilidad de que dé positivo si la

enfermedad no está presente es de .02; dada la información, se desea saber:

a. Si la prueba de diagnóstico médico ha dado resultado positivo, ¿Cuál es la

probabilidad que la enfermedad esté presente?

b. ¿Qué proporción de todas las pruebas de diagnóstico médico indican resul-

tados positivos

c. Si la prueba de diagnóstico médico ha dado resultado negativo, ¿Cuál es la

probabilidad de que la enfermedad no esté presente?

Probabilidad de enfermedad, P(E) = .03

Probabilidad prueba positivo dada la enfermedad, P(P|E) = .90

Probabilidad de No enfermedad, P(E’) = .97

Probabilidad prueba positivo dada la No enfermedad, P(P|E’) = .02

Page 177: Estadistica i - Libro

179

Figura 7.3 Árbol de decisión para la aplicación del teorema de Bayes

P(E)=.03

P(E’)=.97

P(E y P)=P(P E)P(E)I

P(E’ y P)=P(P E’)P(E’)I

P(E y P’)=P(P’ E)P(E)I

P(E’ y P’)=P(P’ E’)P(E’)I

=(.90)(.03)= .0270

=(.02)(.97)= .0194

=(.10)(.03)= .0030

=(.98)(.97)= .9506

Tabla 7.6 Probabilidad de enfermedad y prob. condicionada.

Probabilidad

de

enfermedad

Probabilidad

condicional

Probabilidad

conjunta

Probabilidad

revisada

Evento Ei P(Ei) P(P|Ei) P(P|Ei)P(Ei) P(Ei|P)

E = tienen una enfermedad 0.03 0.90 0.0270 .0270/.0464 = .582

E' = No tienen enfermedad 0.97 0.02 0.0194 .0194/.0464 = .418

0.0464 1.0000

Respuesta a la primera pregunta. Si la prueba de diagnóstico médico ha dado

resultado positivo, ¿Cuál es la probabilidad que la enfermedad esté presente?:

P(E|P) = [P(P|E) P(E)]/P(P|E)P(E) + P(P|E’)P(E’) = [.03 * .90]/ [(.90) (.03) +

(.02 ) (.97)]= .0270/.0464 = .582

Respuesta a la segunda pregunta. ¿Qué proporción de todas las pruebas de dia-

gnóstico médico indican resultados positivos?

Page 178: Estadistica i - Libro

180

Se refiere a la probabilidad simple del evento P, es decir al numerador de la opera-

ción anterior: P(P|E)P(E) + P(P|E’)P(E’), o sea .0464.

Respuesta a la tercera pregunta. Si la prueba de diagnóstico médico ha dado

resultado negativo, ¿Cuál es la probabilidad de que la enfermedad no esté presente?

P(P’|E) = 1 – P(P|E) = 1 - .90 = .10

P(P’|E’) = 1 – P(P|E’) = 1 - .02 = .98

Utilizando la ecuación del teorema de Bayes se tiene:

P(E’|P’) = [P(P’|E’) P(E’)]/P(P’|E)P(E) + P(P’|E’)P(E’) = [.98 * .97]/ [(.10)

(.03) + (.98 ) (.97)]= .9506/.9536 = .997

7.7 Principios fundamentales para enumerar

En ocasiones el trabajo de enumerar los posibles sucesos que ocurren en una situa-

ción dada se convierte en algo difícil de lograr o simplemente tedioso. El análisis

combinatorio, o cálculo combinatorio, permite enumerar tales casos o sucesos y así

obtener la probabilidad de eventos más complejos.

En el caso de que exista más de un suceso a observar, habría que contar el número

de veces que pueden ocurrir todos los sucesos que se desean observar, para ello se

utiliza el principio fundamental de conteo, aquí se señalan cinco diferentes princi-

pios para enumerar.

Principio 1: Si cualquiera de k eventos mutuamente excluyentes y colectivamente

exhaustivos puede ocurrir en cada uno de n intentos, el número de resultados posi-

ble es igual a kn

Si una moneda se arroja 10 veces, el número de resultados posibles es 210

= 1,024;

Si un dado se lanza dos veces, el número de resultados posibles es 62 = 36.

Page 179: Estadistica i - Libro

181

Principio 2: Si hay k1 eventos del primer intento, k2 eventos del segundo intento y

kn eventos del enésimo intento, entonces el número de resultados posible es:

(k1)(k2)….(kn)

Si el código de una placa de automóvil consistiera en tres letras seguidas de tres

dígitos, el número total de placas posible sería (27) (27) (27) (10) (10) (10) = 19,

683, 000.

Principio 3: El número de formas en que n objetos pueden ordenarse es igual a

n(n-1)(n-2)…(1); conocido en forma abreviada cono n!, o n factorial. 0! = 1.

El número de formas en que siete libros pueden ordenarse es igual a 7! )

7*6*5*4*3*2*1= 5040.

Principio 4: El número de formas de ordenar X objetos seleccionados de n objetos

es = n!/(n-X)!, a esta manera de ordenar los X objetos se le denomina permutacio-

nes.

Si se tienen 6 libros, pero sólo hay espacio para acomodar 4, cuantas maneras dife-

rentes se pueden acomodar los 4 libros: 6!/(6-4)! = 6!/2! = 360

Principio 5: Muchas de las veces no interesa el orden de los resultados, sino, sólo

en el número de formas en que X objetos pueden seleccionarse de n objetos, la

manera de calcular es n!/X!(n-X)!, a este cálculo se le denomina combinaciones y

su expresión matemática es Cxn ó (

n )X .

7.8 Resumen

La probabilidad es la posibilidad u oportunidad de que suceda un evento particular.

La probabilidad involucrada es una porción o fracción cuyo valor varía entre cero y

uno exclusivamente. Observamos un evento que no tiene posibilidad de ocurrir (es

Page 180: Estadistica i - Libro

182

decir, el evento nulo), tiene una probabilidad de cero, mientras que un evento que

seguramente ocurrirá (es decir, el evento cierto), tiene una probabilidad de uno.

Se han definido tres planteamientos de probabilidad.

El primero a menudo se denomina como el planteamiento de la probabilidad clási-

ca a priori. Aquí la probabilidad de éxito se basa en el conocimiento anterior del

proceso involucrado. En el caso más simple, cuando cada resultado es igualmente

posible.

En el segundo ejemplo; llamado probabilidad clásica empírica, aunque la probabi-

lidad se sigue definiendo como la proporción entre el número de resultados favora-

bles y el número total de resultados, estos resultados se basan en datos observados,

no en el conocimiento anterior a un proceso.

El tercer planteamiento de probabilidad se denomina el enfoque de probabilidad

subjetiva.

Los elementos básicos de la teoría de probabilidades son los resultados del proceso

o fenómeno bajo estudio. Cada tipo posible de ocurrencia se denomina un evento.

Un evento simple puede describirse mediante una característica sencilla. La compi-

lación de todos los eventos posibles se llama el espacio muestral.

La manera en que se subdivide el espacio muestral depende de los tipos de probabi-

lidades que se han de determinar. Tomando esto en cuenta, resulta de interés defi-

nir tanto el complemento de un evento como un evento conjunto y su condición de

exclusión y ocurrencia. Definiendo la diversidad de los eventos posibles en un

espacio muestral, se puede determinar la probabilidad simple, probabilidad conjun-

ta, probabilidad condicionada y probabilidad independiente.

Page 181: Estadistica i - Libro

183

7.9 Términos clave:

Criterio de probabilidad

Diagrama de Venn

Espacio muestral

Evento cierto

Evento conjunto

Evento nulo

Eventos colectivamente exhaustivos

Eventos complemento

Eventos dependientes o condiciona-

dos

Eventos independientes

Eventos mutuamente excluyentes

Eventos simples

Principios para enumerar.

Probabilidad a priori

Probabilidad conjunta

Probabilidad empírica o a posteriori

Probabilidad objetiva

Probabilidad simple

Probabilidad subjetiva

Regla condicional

Regla de adición

Regla de complemento

Regla de exclusión

Regla de independencia

Regla de multiplicación

Tabla de datos cruzados

Teorema de Bayes

7.10 Problemas de repaso

1. Para cada uno de los siguientes eventos, indique si el tipo de probabilidad es a

priori, empírica o subjetiva:

a) Que al siguiente lanzamiento de una moneda caiga en águila o en figura

b) Que el equipo del Guadalajara le gane al equipo del América

c) Que el último número de la Lotería Nacional sea un 9

d) Que la suma de dos dados lanzados sea 7

e) Que en el siguiente lote de producción existan 3 piezas defectuosas

2. Dé tres ejemplos de cada uno de los tipos de probabilidad: a priori, empírica o a

posteriori y subjetiva

Page 182: Estadistica i - Libro

184

3. En una gran área metropolitana se seleccionó una muestra de 1000 encuestados

para determinar información diversa respecto al comportamiento de los consumi-

dores. Entre las preguntas estaba ¿Disfruta comprar ropa?, de 480 hombres 272

respondieron que sí. De las 520 mujeres 488 respondieron que sí.

a) Construya una tabla de 2x2 y el diagrama de Venn

b) Dé un ejemplo de un evento simple

c) Dé un ejemplo de evento conjunto

d) ¿Cuál es el complemento de “disfruta de comprar ropa”?

e) ¿Cuál es la probabilidad de que el encuestado sea

a. sea hombre

b. disfrute comprar ropa

c. sea mujer

d. no disfrute comprar ropa

e. sea mujer y disfrute de comprar ropa

f. sea hombre y no disfrute comprar ropa

g. sea un hombre y disfrute comprar ropa

h. sea una mujer o disfrute comprar ropa

i. sea un hombre o no disfrute comprar ropa

j. sea un hombre o una mujer

f. Suponga que el encuestado es mujer. ¿Cuál es entonces la probabilidad que

no disfrute comprar ropa?

g. Suponga que el encuestado elegido disfruta de comprar ropa. ¿Cuál es en-

tonces la probabilidad que sea un hombre?

Page 183: Estadistica i - Libro

185

h. ¿Disfruta de comprar ropa y el género de los encuestados son estadística-

mente independientes? Explique.

4. La cerradura de la bóveda de un banco consiste en tres discos, cada uno con 30

posiciones. Para que la bóveda se abra, cada uno de los tres discos deberá estar en

la posición correcta.

a) ¿Cuántas combinaciones de discos diferentes existen para la cerradura?

b) Cuál es la probabilidad de que si se eligió aleatoriamente una combinación

(una posición de cada disco), sea capaz de abrir la bóveda del banco?

c) Explique por qué las combinaciones de discos no son combinaciones ma-

temáticas expresadas por la ecuación n!/X!(n-X)!

5. Un estudiante tiene 9 libros que desearía acomodar en un portafolios. Sin em-

bargo sólo 4 libros caben en el portafolios. Sin importar el arreglo ¿Cuántas for-

mas hay de colocar 4 libros en un portafolios?

Page 184: Estadistica i - Libro

186

7.11 Mapa conceptual de probabilidad

Probabilidad

Objetiva

Apriori Empirica

Subjetiva

Representación

Diagrama de Venn

Árbol de decisión

Tabla de contingencia

Tipos de probabilidad

Simple Conjunta Condicional

Regla de adición

Regla de multiplicación

Independencia estadística

Teorema de Bayes

Page 185: Estadistica i - Libro

187

Capítulo 8

Modelos de distribución de

probabilidad para variables

aleatorias discretas

*********************

Objetivo del

Capítulo

Propiciar la compresión del concepto de espe-

ranza matemática y su aplicación en la toma de

decisiones, así como los diferentes modelos de

distribución de probabilidad de variables discre-

tas

Page 186: Estadistica i - Libro

188

Page 187: Estadistica i - Libro

189

8.1 Introducción

Utilizando el conocimiento sobre las medidas estadísticas, la teoría de la probabili-

dad y los métodos de conteo, en este capítulo se estudiará el concepto de esperanza

matemática y los modelos de distribución de probabilidad que representen eventos

discretos. Se iniciará definiendo la distribución de probabilidad y se define las dos

características básicas de cualquier distribución de probabilidad: su media o valor

esperado E(X) y su varianza, σ2. Después se explicará dos modelos importantes de

distribución de probabilidad discreta: la distribución binomial y la distribución de

Poisson.

Al terminar el capítulo, el alumno debe ser capaz de:

1. Calcular el valor esperado y la varianza de una distribución de probabili-

dad discreta.

2. Comprender la aplicación de los modelos de probabilidad binomial y de

Poisson

3. Encontrar cualquier probabilidad binomial o de Poisson

4. Saber cuándo y cómo se puede utilizar la distribución de Poisson para

aproximar la distribución de binomial.

Page 188: Estadistica i - Libro

190

8.2 Concepto de distribución de probabilidad discreta

Para definir el concepto de distribución de probabilidad discreta, es necesario re-

cordar que una variable aleatoria es cierto fenómeno de interés cuyo resultado pue-

de expresarse numéricamente. La variable aleatoria puede ser discreta (conteo) o

continua (medición). En este capítulo se tratará ciertos modelos de distribución

discreta, la que se define como: un listado mutuamente excluyente de todos los

resultados posibles para una variable aleatoria, tal que una probabilidad de

ocurrencia está asociada con cada resultado.

La distribución de probabilidad para los resultados de una sola vuelta de rodar un

dado se describe en la tabla 8.1. La tabla incluye todos los resultados posibles y

como son eventos colectivamente exhaustivos, la suma de probabilidades debe de

ser igual a 1. La tabla sirve para calcular diferentes posibilidades de ocurrencia.

Tabla 8.1 Distribución de probabilidades teóricas de los resultados de arrojar

un dado

1/6

1/6

1/6

1/6

1/6

1/6

Resultado

Resultado 1.0

Probabilidad

La probabilidad de que sea cualquier número, pero sólo uno de ellos (1, 2, 3, 4, 5 ó

6) = 1/6:

P(4) = 1/6

Page 189: Estadistica i - Libro

191

Utilizando la regla de adición para eventos mutuamente excluyentes, la probabili-

dad de que sea un par (2, 4 o 6) es igual a:

P(par) = P(2) + P(4) + P(6) = 1/6 +1/6 +1/6 =3/6 = ½,

es decir el 50% de probabilidad de que sea un par.

La probabilidad de que sea igual o menor de 2:

P(≤2) = P(1) + P(2) = 1/6 + 1/6 = 2/6 = 1/3

8.3 Valor esperado de una variable discreta

El valor esperado E(X) de una serie de eventos aleatorios mutuamente excluyentes

y colectivamente exhaustivos es la media (µ). El valor esperado de una variable

aleatoria discreta es la suma de todos los resultados ponderados posibles. La pon-

deración es la probabilidad asociada a cada uno de los resultados.

El E(X) se obtiene de la suma de los productos de cada resultado posible Xi por la

probabilidad de ocurrencia P(Xi), el cual se expresa matemáticamente de la si-

guiente manera:

µx = E(X) = ∑

n

(X i X iP )i= 1

Para la distribución teórica de los resultados de arrojar un dado, el valor esperado

es igual a:

µx = E(X) = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 21/6 = 3.5

Debe considerarse que al arrojar un dado, nunca se podrá obtener una cara con

valor de 3.5, la interpretación que debe darse es de que a la larga, después de mu-

chos tiros, se habrá obtenido el mismo número de unos, doses….seises, y el valor

promedio es 3.5.

Page 190: Estadistica i - Libro

192

Suponiendo que un casino le paga a un jugador en pesos el número que saque por

cada que arroje un dado y le cobra cuatro pesos por cada vez que lo arroja, la pre-

gunta es, a la larga quién sale ganando. Si se considera el valor de cada elemento

de la distribución de probabilidad en pesos, a la larga el jugador obtendría un pro-

medio de 3.5 pesos por jugada, lo que le haría perder 50 centavos por jugada.

8.4 Varianza y desviación estándar de una variable discreta

La varianza de una serie de eventos aleatorios mutuamente excluyentes y colecti-

vamente exhaustivos es el promedio pesado de las diferencias cuadradas entre cada

resultado posible y su media, siendo los pesos las probabilidades de cada uno de

los resultados respectivos. (σ2). La varianza de una variable aleatoria discreta es la

suma de las diferencias entre cada resultado posible y su media al cuadrado ponde-

radas. La ponderación es la probabilidad asociada a cada uno de los resultados.

Esta medición puede obtenerse a través de la suma de los productos de las diferen-

cias entre los resultados posibles y la media al cuadrado (Xi - µx )2 por la probabili-

dad correspondiente P(Xi), el cual se expresa matemáticamente de la siguiente

manera:

∑n

(X -i µ x )2

X iσ2 = P )

i= 1

(((((

Además, como ya se ha visto anteriormente, la desviación estándar es igual a la

raíz cuadrada de la varianza, es decir:

∑n

(X -i µ x ) 2X iσ =

P )i= 1

(((((

Para la distribución de probabilidad teórica de los resultados de arrojar un dado, la

varianza y la desviación estándar se calculan de la siguiente manera:

σ2= (1-3.5)

2 (1/6) + (2-3.5)

2 (1/6) + (3-3.5)

2 (1/6) + (4-3.5)

2 (1/6) + (5-3.5)

2 (1/6) +

(6-3.5)2 (1/6) = 2.9166,

Page 191: Estadistica i - Libro

193

Por lo que la desviación estándar es igual a la raíz cuadrada de 2.9166 = 1.71

8.5 Ejemplos:

1. Dadas las siguientes distribuciones de probabilidad

Distribucción A Distribución B

X P(X) X P(X)

0 0.50 0 0.05

1 0.20 1 0.10

2 0.15 2 0.15

3 0.10 3 0.20

4 0.05 4 0.50

a) Calcule las medias para cada distribución

b) Calcule la desviación estándar para cada distribución

c) Señale la diferencia de cada distribución

La media para la distribución A es igual a 1; para la B es 3

La desviación estándar es igual para ambas distribuciones

La distribución A está sesgada a la derecha; la B a la izquierda

2. En el juego de dados, la variable aleatoria de interés (X) toma los valores del

total de los dos números. La distribución de probabilidad está dada por la si-

guiente tabla:

Page 192: Estadistica i - Libro

194

Número

posible

No de veces

que puede

salir

Probabilidad

de cada

evento

2 1 1/36

3 2 2/36

4 3 3/36

5 4 4/36

6 5 5/36

7 6 6/36

8 5 5/36

9 4 4/36

10 3 3/36

11 2 2/36

12 1 1/36

36 36/36

a) Determine la media o valor esperado al arrojar un par de dados

b) Calcule la varianza y la desviación estándar

Una manera de apostar es que el jugador que apuesta un $1.00 puede perder un

$1.00 si la suma de los números de los dados es 5,6,7 u 8; puede ganar un $1.00 si

la suma es 3, 4, 9, 10 u 11; o puede ganar $2.00 si la suma es 2 o 12.

c) Forme la función de distribución de probabilidades que represente los dife-

rentes resultados en la apuesta

d) Determine la media de esta distribución.

e) A la larga, ¿Cuál es la ganancia o pérdida del jugador y de la casa?

Page 193: Estadistica i - Libro

195

Tabla 8.2 Distribución de probabilidad de valor de arrojar dos dados

La media de la distribución de arrojar dos dados es igual a 7

La varianza es igual a 5.83

La desviación estándar es 2.41

La función de distribución de probabilidad con apuesta está dado por la co-

lumna V*P

La suma para esa función de distribución de probabilidad es igual a -.055

A la larga, el jugador pierde 5.6 centavos por cada peso apostado

A la larga, la casa gana 5.6 centavos por peso apostado

8.6 Funciones de distribución de probabilidad discreta

La distribución de probabilidad de una variable discreta puede especificarse a

través de:

Page 194: Estadistica i - Libro

196

1. Un listado teórico de resultados y probabilidades consecuencia de la apli-

cación de un modelo matemático representativo.

2. Un listado empírico de resultados y sus frecuencias relativas observadas

3. Un listado subjetivo de resultados asociados con sus probabilidades subje-

tivas que representan el grado de convicción del modelador.

Se han desarrollado diferentes modelos matemáticos para representar la distribu-

ción de probabilidad de diversos fenómenos discretos que ocurren en las ciencias

sociales y naturales, a esta expresión matemática se le conoce como función de

distribución de probabilidad. Las más útiles, incluso para los negocios, han sido

la distribución binomial y la distribución de Poisson.

8.7 Distribución Binomial.

Frecuentemente nos enfrentamos con el caso de muchos experimentos que pueden

dar como resultado sólo dos valores posibles éxito o fracaso. Denotamos entonces

p y 1 –p como las probabilidades para cada resultado, que satisfacen la condición

de normalización (p) + (1- p) = 1.

Al cabo de un número n de experimentos, tendremos respectivamente (x) y (n-x).

Si estamos interesados en tener experimentos con el primer resultado en un orden

determinado, la correspondiente probabilidad será (p)x (1- p)

n-x. Si en cambio no

nos interesa el orden, la probabilidad de tener cualquier combinación está dada por

la llamada distribución binomial:

P(X = x|n, p) = (número de posibles secuencias) x (probabilidad de una secuencia

en particular): n! p p

x n-x(1- )

x!(n-x)!

Al utilizar este modelo matemático, los cálculos pueden ser bastante laboriosos,

especialmente al crecer n, sin embargo las probabilidades se consiguen directamen-

Page 195: Estadistica i - Libro

197

te de tablas previamente elaboradas, de un software estadístico o de la hoja de

cálculo de Excel, evitando complicaciones de cálculo.

Un ejemplo sencillo de la aplicación del modelo matemático o función de la distri-

bución de probabilidad binomial es el siguiente: ¿Qué probabilidad existe de que

sean dos cincos en tres tiros de un dado?

P( X = 2|n = 3, p = 1/6) =

3! (1/6) (1-1/6)2 3-2

2!(3-2)!

3! 1/36 (5/6)= 3(5)/216 = 15/216 2!1!

La distribución binomial posee cuatro propiedades esenciales:

Las observaciones posibles pueden obtenerse mediante dos métodos de

muestreo distintos. Cada observación puede considerarse como selecciona-

da de una población infinita sin reemplazo o de una población finita con

reemplazo.

Cada observación puede clasificarse en una de dos categorías mutuamente

excluyentes y colectivamente exhaustivas, usualmente denominadas éxito y

fracaso.

La probabilidad de que una observación se clasifique como éxito, p, es

constante de observación a observación. Por tanto, la probabilidad de que

una observación se clasifique como fracaso, 1 – p, es constante para todas

las observaciones.

El resultado de cualquier observación, es decir el éxito o el fracaso, es in-

dependiente del resultado de cualquier observación.

Aplicaciones de la distribución binomial.

En juegos de azar: en la ruleta americana, ¿Cuál es la probabilidad de que el rojo

salga 15 o más veces en 19 intentos?

Page 196: Estadistica i - Libro

198

En producción: ¿Cuál es la probabilidad de que en una muestra de 20 piezas ningu-

na salga defectuosa si el 8% de tales piezas son defectuosas?

En educación: ¿Cuál es la probabilidad de que un estudiante apruebe un examen de

10 preguntas de respuesta múltiple (cuatro opciones) si escoge aleatoriamente las

respuestas? Aprobar es contestar correctamente 6 o más preguntas.

En cada uno de los ejemplos anteriores se cumplen las cuatro propiedades de la

distribución de probabilidad binomial.

En el juego de azar, la probabilidad de que salga rojo (éxito) es igual a 18/38 y la

probabilidad de que sea negro o verde (fracaso) es igual a 20/38. Como la ruleta no

tiene memoria, cada vez que se gire, el resultado es independiente de los resultados

anteriores o posteriores.

Figura 8.1 juego de ruleta americana

Aplicando el modelo matemático

n! 19!p px n-x(1- ) = (18/38) (1-18/38)

15 19-15

x!(n-x)! 15!(19-15)!

93,024 (6.7*10 /4.9*10 )(1.6*10 /2*10 )18 23 5 6

4!

(4.1*10 /9.8*10 ) =(0.0041)27 29

Page 197: Estadistica i - Libro

199

Un agente de seguros vende pólizas a cinco personas de la misma edad y que dis-

frutan de buena salud. Según las tablas actuales, la probabilidad de que una persona

en estas condiciones viva 30 años o más es 2/3. Hállese la probabilidad de que,

transcurridos 30 años, vivan:

1. Las cinco personas.

2. Al menos tres personas.

3. Exactamente dos personas.

Si en lugar de utilizar el modelo matemático, se consulta directamente la hoja de

cálculo de Excel, utilizando el comando F(x)/Estadísticas/DISTR.BINOM

Figura 8.2 menú de consulta de distribución binomial en Excel

Page 198: Estadistica i - Libro

200

En producción, la probabilidad de que salgan defectuosos es .08; la probabilidad de

fracaso, es decir que no salga ningún defectuoso, utilizando la hoja de cálculo de

Excel: DISTR.BINOM (0,20,0.08,FALSO), la probabilidad es igual a 0.188.

En educación, la probabilidad de éxito es .25, utilizando la hoja de cálculo de Ex-

cel: =DISTR.BINOM(6,40,0.25,FALSO), la probabilidad de pasar con 6 el examen

es de .05

Si quiere utilizar el programa estadístico SPSS, se deberá seguir el siguiente proce-

dimiento.

1. Se abre el programa con un variable disponible y se le da un valor cual-

quiera, por ejemplo 1

2. Se teclea el comando Transformar/calcular variable, como se observa en la

figura 8.3

Figura 8.3 menú Transformar en SPSS

Al teclear Transformar/calcular variable, aparece la siguiente pantalla:

Page 199: Estadistica i - Libro

201

Figura 8.4 menú calcular variables en SPSS

En esta pantalla se tiene que realizar el siguiente procedimiento:

1. En el grupo de funciones (menú superior del lado derecho) se escoge el

comando FDP y FDP centrada, éste corresponde a la función de distribu-

ción de probabilidad no acumulada.

2. Posteriormente se escoge el menú inferior Pdf.Binom, que corresponde a la

función de distribución de probabilidad binomial, se hace doble click y au-

tomáticamente aparece la leyenda explicativa y, en la parte superior, apare-

cen los espacios para colocar los valores de cálculo. En el caso del ejem-

plo, se teclearía 15, 19 y 18/38, que corresponden a la probabilidad de que

15 veces aparezca el rojo en 19 intentos con una probabilidad binomial de

18/38.

3. Para que aparezca el comando aceptar, se deberá de definir la variable des-

tino, esto es poner el nombre de la variable en la que va aparecer el valor

calculado, como se aprecia en la figura 8.5

Page 200: Estadistica i - Libro

202

Figura 8.5 resultados del cálculo de variable en SPSS

Cuando se trata de calcular la probabilidad acumulada, se sigue el mismo procedi-

miento, pero en lugar de escoger el comando FDP y FDP centrada, se escoge FDA

y FDA centrada, que corresponde a función de distribución de probabilidad acumu-

lada. Siguiendo con el mismo ejemplo, cuál es la probabilidad de que en el juego

de la ruleta americana en 19 lanzamientos caiga entre cero y 15 veces.

Figura 8.6 cálculo de probabilidad acumulada en SPSS

El resultado que se obtiene es de 0.99904, como se puede observar en la figura 8.7

Page 201: Estadistica i - Libro

203

Figura 8.7 resultados de cálculo de probabilidad binomial acumulada en SPSS

8.8 Características de la distribución binomial

La distribución de probabilidad binomial puede ser simétrica o sesgada; es simétri-

ca, sin importar el tamaño de n, cuando p = 0.5; es sesgada cuando p es ≠ 0.5

Mientras más cercano sea el valor de p a 0.5 y mayor sea el número de observacio-

nes, menos sesgada será la observación.

La media de la distribución binomial puede obtenerse fácilmente con la multipli-

cación de los valores de n y de p.

µx = E(X) = n* p

Por ejemplo, si se gira 19 veces la ruleta americana, ¿Cuál es el valor esperado del

valor de X?, dicho de otra manera, ¿Con qué frecuencia se espera que salga el color

rojo? En promedio, a la larga, teóricamente se espera: E(X) = 19 (18/38) = 9

Se espera 9 ocurrencias en 19 giros.

La desviación estándar de la distribución binomial se calcula utilizando la ecua-

ción:

σ = n (1 - )p p

Page 202: Estadistica i - Libro

204

En el ejemplo de la ruleta:

σ =

1 9 (1 8 /3 8 ) (2 0 /3 8 )

= 2.18

8.9 Distribución de Poisson

La distribución de Poisson es otra función de distribución que se utiliza mucho, no

sólo representa numerosos fenómenos discretos, sino que también se usa para pro-

porcionar aproximaciones a la distribución binomial.

La distribución de Poisson parte de la distribución binomial: cuando en una distri-

bución binomial se realiza el experimento un número "n" muy elevado de veces y

la probabilidad de éxito "p" en cada ensayo es reducida, entonces se aplica el mo-

delo de distribución de Poisson.

La distribución de Poisson se aplica en eventos discretos que ocurren en un área de

oportunidad de intervalo continuo: tiempo, longitud, área, de tal manera que:

1. La probabilidad de observar exactamente un éxito en el intervalo es inva-

riable.

2. La probabilidad de observar exactamente más de un éxito en el intervalo es

cero.

3. La ocurrencia de un éxito en cualquier intervalo es estadísticamente inde-

pendiente de otra ocurrencia en cualquier otro intervalo.

Algunos ejemplos de aplicación de la distribución de Poisson:

Número de llamadas por hora que se reciben en una estación de bomberos

Número de automóviles que cruzan un puente internacional al día

Número de manchas en un metro cuadrado de tela

Page 203: Estadistica i - Libro

205

Número de chispas de chocolate por galleta

Número de defectos por lote en un proceso de producción

En cada uno de los ejemplos anteriores, la variable aleatoria discreta, número de

“éxitos” por unidad, se ajustan a la aplicación de la función de distribución de

Poisson.

El modelo matemático de la distribución de Poisson para obtener X éxitos, dado

que se esperan λ éxitos es:

e-λ xλP(X = x =|λ) x!

P(X = x|λ) = la probabilidad de que X = x dado que se conoce λ.

e = constante matemática aproximada a 2.71828

λ = número esperado de éxitos E(X) = µx.

X = número de éxitos por unidad.

Para comprender mejor la función de distribución de Poisson, se analiza el número

de clientes que llegan a un banco entre las 12:00 a.m y 1:00 p.m. Cualquier llegada

de cliente es un evento discreto sobre un punto en particular sobre el intervalo con-

tinuo de una hora. Si durante ese intervalo llegaron en promedio 180 clientes,

¿Cuál es la probabilidad que en un minuto lleguen dos clientes?

Primero habrá que hacer la conversión de clientes/hora a clientes/minuto, el pro-

medio de llegadas por minuto es de 180/60 = 3

P(X = x|λ) = PX = 2| λ= 3) = e-3.0

(3.0)2/2! = 9/2.71828

3.0*2 = .2240

El cálculo del modelo matemático de la función de distribución de Poisson es bas-

tante tedioso, Si en lugar de utilizar el modelo matemático y se dispone del uso de

la hoja de cálculo de Excel, se utiliza el comando F(x)/Estadísticas/POISSON para

obtener la probabilidad de éxito.

Page 204: Estadistica i - Libro

206

Figura 8.8 menú de consulta de distribución Poisson en Excel

Otra aplicación

El gerente de control de calidad de Galleta María está inspeccionando un lote de

galletas de chispas de chocolate que se acaban de hornear. Si el proceso de produc-

ción está bajo control, el número promedio de chispas por galleta es 6, utilizando la

tabla de distribución de Poisson, ¿cuál es la probabilidad de que cualquier galleta

inspeccionada

a) se encuentren menos de 5 chispas

b) se encuentre exactamente 5 chispas

c) se encuentre 5 o más chispas

d) se encuentre 4 ó 5 chispas

Utilizando la hoja de cálculo de Excel se calcula de la siguiente manera:

Cuando se dice “menos de 5 chispas”, quiere decir 0, 1, 2, 3, ó 4, chispas,

por lo que se considera una probabilidad acumulada: POIS-

SON(4,6,VERDADERO) = 0.2851

Exactamente 5 chispas: POISSON(5,6,FALSO) = 0.1606

Cuando se dice 5 o más quiere decir 1-P(0, 1, 2, 3 y 4) = 0.7149

Page 205: Estadistica i - Libro

207

Cuando se dice entre 4 ó 5 se refiere a P(4)+P(5)= 0.2945

Si quiere utilizar el programa estadístico SPSS, se deberá seguir el siguiente proce-

dimiento.

3. Se abre el programa con un variable disponible y se le da un valor cual-

quiera, por ejemplo 1

4. Se teclea el comando Transformar/calcular variable, como se observa en la

figura 8.9

Figura 8.9 menú Transformar en SPSS

Al teclear Transformar/calcular variable, aparece la siguiente pantalla:

Figura 8.10 menú calcular variables en SPSS

Page 206: Estadistica i - Libro

208

En esta pantalla se tiene que realizar el siguiente procedimiento:

4. En el grupo de funciones (menú superior del lado derecho) se escoge el

comando FDP y FDP centrada, éste corresponde a la función de distribu-

ción de probabilidad no acumulada.

5. Posteriormente se escoge el menú inferior Pdf.Poisson, que corresponde a

la función de distribución de probabilidad de Poisson, se hace doble click y

automáticamente aparece la leyenda explicativa y, en la parte superior,

aparecen los espacios para colocar los valores de cálculo. En el caso del

ejemplo, se teclearía 2 y 3 que corresponden a la probabilidad de que 2

aparezcan en un minuto dado que λ = 3.

6. Para que aparezca el comando aceptar, se deberá de definir la variable des-

tino, esto es poner el nombre de la variable en la que va aparecer el valor

calculado, como se aprecia en la figura 8.11

Figura 8.11 resultados del cálculo de variable en SPSS

Cuando se trata de calcular la probabilidad acumulada, se sigue el mismo procedi-

miento, pero en lugar de escoger el comando FDP y FDP centrada, se escoge FDA

y FDA centrada, que corresponde a función de distribución de probabilidad acumu-

lada. Siguiendo con el mismo ejemplo, cuál es la probabilidad de que al menos dos

clientes lleguen en un minuto. Cuando se considera al menos dos se refiere a la

probabilidad acumulada de que lleguen 2 y 3.

Page 207: Estadistica i - Libro

209

Figura 8.12 cálculo de probabilidad acumulada en SPSS

El resultado que se obtiene es de 0.99904, como se puede observar en la figura

8.13

Figura 8.13 resultados de cálculo de probabilidad binomial acumulada en

SPSS

8.10 Características de la función de la distribución de probabilidades de Poisson.

Forma. Cada vez que se especifica el parámetro λ, puede generarse una distribu-

ción de probabilidad de Poisson específica. Una distribución de Poisson estará

sesgada a la derecha cuando λ es pequeña, y se aproximará a la simetría al crecer.

Page 208: Estadistica i - Libro

210

Una propiedad de esta distribución es que la media y la varianza son iguales al

parámetro λ, por lo que la desviación estándar es igual a √λ (raíz cuadrada de λ)

Para aquellas situaciones en las que n es grande (mayor o igual a 20) y p es muy

pequeña (menor a 0.05), la distribución de Poisson puede usarse para aproximar la

distribución binomial.

La variable aleatoria de la función de distribución de Poisson puede variar teórica-

mente de 0 a ∞. Sin embargo, cuando se usa como una aproximación a la distribu-

ción binomial, la variable aleatoria de Poisson, el número de éxitos de n observa-

ciones, claramente no puede exceder el tamaño de la muestra n.

8.11 Resumen

Se denomina distribución de variable discreta a aquella cuya función de probabili-

dad sólo toma valores positivos en un conjunto de valores de X finito o numerable.

Existen tres formas de definir una distribución de probabilidad discreta: un listado

teórico, un listado empírico y un listado subjetivo.

El desarrollo del contenido del capítulo se basó en los de primer tipo, es decir en la

obtención de un listado teórico obtenido de un modelo matemático que represente

algunos fenómenos de interés. Como una introducción al conocimiento de la distri-

bución de probabilidad se puso como ejemplo la distribución de probabilidad uni-

forme, como es la de lanzar un dado de 6 caras, donde la distribución de probabili-

dad es de 1/6 para cada cara, la suma de las probabilidades es igual a 1; la media o

valor esperado es igual a la suma de los productos de Xi por la probabilidad de Xi,

donde Xi toma los valores de 1 hasta n: µx = E(X) = ∑

n

(X i X iP )i= 1 ; la varianza de una

variable aleatoria discreta es la suma de las diferencias entre cada resultado posible

y su media al cuadrado ponderadas. La ponderación es la probabilidad asociada a

cada uno de los resultados: ∑

n

(X -i µ x )2

X iσ2 = P )

i= 1

(((((; por lo que la desviación estándar

simplemente es su raíz cuadrada.

Page 209: Estadistica i - Libro

211

Dos modelos matemáticos o función de distribución de variable aleatoria discreta

se estudiaron, la distribución binomial y la distribución de Poisson.

La distribución binomial se utiliza para analizar una población infinita sin reempla-

zo o una población finita con reemplazo. Cada observación puede tomar una de dos

categorías: éxito o fracaso y el resultado de cualquier observación es independiente

del resto de las observaciones anteriores o posteriores. Los estadísticos de la distri-

bución binomial se calculan como la media o E(X) = np; la desviación estándar es

igual a la raíz cuadrada de np (1-p).

La probabilidad de Poisson se aplica en eventos discretos que ocurren en un área de

oportunidad, un intervalo continuo de tiempo, longitud o área. El área de oportuni-

dad debe reducirse de tal forma que la probabilidad de observar exactamente un

éxito es estable, la probabilidad de observar exactamente más de un éxito en el

intervalo es cero y, la ocurrencia de un éxito en cualquier intervalo es estadística-

mente independiente de que ocurra en cualquier otro intervalo. Una propiedad inte-

resante de la distribución de Poisson es que la media y la varianza son iguales al

parámetro λ.

En ambas distribuciones de probabilidad: binomial y Poisson, el cálculo de la pro-

babilidad de ocurrencia se puede obtener de tablas previamente elaboradas, de un

paquete estadístico, o de la hoja de cálculo de Excel.

8.12 Términos clave

Distribución de probabilidad para una

variable aleatoria discreta

Esperanza matemática o valor espe-

rado

Varianza y Desviación estándar de

una variable aleatoria discreta

Valor monetario esperado

Función de distribución de probabili-

dad discreta

Distribución binomial

Distribución de Poisson

Page 210: Estadistica i - Libro

212

8.13 Problemas de repaso del capítulo

1. En el juego de dados de sietes, se arroja una vez un par de dados y la suma resul-

tante determina si el jugador gana o pierde su apuesta. Por ejemplo, el jugador pue-

de apostar $1.00 a que la suma es menor, es decir 2, 3, 4 ,5 o 6. Para esta apuesta,

el jugador perderá $1.00 si el resultado es igual o mayor que siete, es decir 7, 8, 9,

10, 11 y 12.

De manera similar, el jugador puede apostar $1.00 a que la suma es mayor que 7,

es decir, 8, 9, 10, 11 y 12. Aquí el jugador pierde un $1.00 si el resultado es igual a

7 o menor, es decir 7, 6, 5, 4, 3 ó 2.

Un tercer método de juego es apostar $1.00 sobre el resultado de 7. Para esta

apuesta el jugador ganará $4.00 si el resultado es 7 y perderá $1.00 si no lo es.

a) Forme la función de distribución de probabilidad que represente los dife-

rentes resultados que son posibles para cada una de las modalidades seña-

ladas en el párrafo anterior.

b) Pruebe que la ganancia o pérdida esperada a la larga para el jugador es

igual, sin importar el método que se utilice.

2.- Una máquina fabrica una determinada pieza y se sabe que produce un 7 por

1000 de piezas defectuosas. Hallar la probabilidad de que al examinar 50 piezas

sólo haya:

a) una defectuosa

b) cinco defectuosa

3.- La probabilidad de éxito de una determinada vacuna es 0,72. Calcula la proba-

bilidad de a que una vez administrada a 15 pacientes:

Page 211: Estadistica i - Libro

213

a) Ninguno sufra la enfermedad

b) Todos sufran la enfermedad

c) Dos de ellos contraigan la enfermedad

4.- Si se admite que un número de teléfono de cada cinco está comunicando, ¿cuál

es la probabilidad de que, cuando se marquen 10 números de teléfono elegidos al

azar, sólo comuniquen dos?

5.- La probabilidad de que un artículo producido por una fábrica sea defectuoso es

p 0.002. Se envió un cargamento de 10,000 artículos a unos almacenes. Hallar el

número esperado de artículos defectuosos, la varianza y la desviación típica.

6.- Supóngase que estamos investigando la seguridad de un crucero muy peligroso.

Los archivos del departamento de tránsito indican una media de cinco accidentes

por mes en él. El número de accidentes está distribuido conforme a la distribución

de Poisson, el nuevo jefe del departamento quiere calcular la probabilidad de exac-

tamente 0,1,2,3 y 4 accidentes en un mes determinado.

7.- Si un banco recibe en promedio 6 cheques sin fondo por día, ¿Cuáles son las

probabilidades de que reciba, a) cuatro cheques sin fondo en un día dado, b) 10

cheques sin fondos en cualquiera de dos días consecutivos.

8.- En la inspección de hojalata producida por un proceso electrolítico continuo se

identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilida-

des de identificar a) una imperfección en 3 minutos, b) al menos dos imperfeccio-

nes en 5 minutos, c) cuando más una imperfección en 15 minuto.

Page 212: Estadistica i - Libro

214

8.14 Mapa conceptual de modelos de distribución de probabilidad para variables

aleatorias discretas.

Distribuciones de probabilidad

discreta

Definiciones y propiedades

Valor esperado E(X)

Varianza

σ2

Distribución Binomial

Aproximación de Poisson a

Binomial

Distribución de Poisson

N≥ 20

P≤ .05

Page 213: Estadistica i - Libro

215

Capítulo 9

La distribución normal

*********************

Objetivo del

Capítulo

Propiciar la compresión del uso de la

función de distribución de probabilidad

normal de una variable continua y el uso

aproximado para variables discretas.

Page 214: Estadistica i - Libro

216

Page 215: Estadistica i - Libro

217

9.1 Introducción

En este capítulo se estudiará la distribución de probabilidades más importante en

Estadística, la distribución normal. Se hará énfasis en sus características y sus di-

versas aplicaciones.

La distribución normal, también llamada distribución de Gauss o distribución gaus-

siana, es la distribución de probabilidad que con más frecuencia aparece en estadís-

tica y teoría de probabilidades. Esto se debe a dos razones fundamentalmente:

Su función de densidad es simétrica y con forma de campana, lo que favorece su

aplicación como modelo a gran número de variables estadísticas.

Es, además, límite de otras distribuciones y aparece relacionada con multitud de

resultados ligados a la teoría de las probabilidades gracias a sus propiedades ma-

temáticas.

Al concluir el capítulo, el alumno será capaz de:

1. Comprender las propiedades de la distribución normal

2. Encontrar el valor porcentual que corresponde a cualquier punto debajo de

la curva

Page 216: Estadistica i - Libro

218

3. Saber cuándo y cómo utilizar una distribución normal como aproximación

a las distribuciones de variable aleatoria discreta como la binomial y la de

Poisson.

9.2 La función de densidad de probabilidad de una variable aleatoria continua

Las funciones de densidad de probabilidades continuas surgen de la medición de

diversos fenómenos de interés como la estatura, el peso, el tiempo. La obtención de

probabilidades para fenómenos continuos requiere del conocimiento matemático de

cálculo integral, fuera del alcance de este curso. No obstante, dada la importancia

de aplicación, se han construido tablas de probabilidad especial y se han creado

programas de cómputo con el fin de eliminar los laboriosos cálculos matemáticos.

La función de densidad de probabilidad de una variable continua más utilizado se

le conoce como distribución normal o gaussiana.

9.3 La distribución normal

La distribución normal se caracteriza porque los valores se distribuyen en forma de

campana, en torno a un valor central que coincide con el valor medio de la distri-

bución: un 50% de los valores están a la derecha de este valor central y otro 50% a

la izquierda.

9.4 Propiedades de la distribución normal

La distribución normal tiene varias propiedades teóricas importantes, entre las que

se encuentran las siguientes:

1. La distribución de los eventos gráficamente se asemeja a una campana

simétrica.

2. Las mediciones de tendencia central (media, mediana, moda, alcance me-

dio y eje medio) son idénticas.

3. La dispersión media es igual a 1.33 desviaciones estándar.

Page 217: Estadistica i - Libro

219

4. La variable aleatoria tiene un alcance teórico de ± ∞, aunque en la práctica

caerá entre los valores de ± 3 desviaciones estándar.

5. La probabilidad de ocurrencia de un evento es igual a la frecuencia relativa

9.5 El modelo matemático

El modelo matemático que representa la función de densidad de probabilidad se

denota mediante

f (X)= σ

x

e-(½)[(x- )/ ]

2µx σx

1

Dado que e y π son números constantes, cada que se modifique la media de la po-

blación µ o la desviación estándar σ se generará una distribución de probabilidad

diferente, lo que propicia que exista un número infinito de combinaciones y se

requerirá, para el cálculo de probabilidades, un número infinito de tablas. Para

hacer práctico el uso del modelo matemático se requiere estandarizar los datos

originales.

Para estandarizar el modelo matemático (reducir el modelo) se consideran 3 condi-

ciones:

1. transformar los valores de cualquier variable aleatoria de X a una variable

aleatoria normal estandarizada mediante la fórmula:

Z = X-µx

σx

2. La distribución normal estandarizada siempre tiene una µz = 0 y

3. Una desviación estándar σz = 1.

Bajo estas condiciones siempre se puede convertir cualquier conjunto de datos

normalmente distribuidos a su forma estandarizada y determinar cualquier probabi-

lidad deseada a partir de la distribución normal estandarizada.

Page 218: Estadistica i - Libro

220

9.6 Ejemplo:

En el montado de una pieza de un proceso de producción, un analista de tiempos y

movimientos de producción determinó que el tiempo promedio, después de un

entrenamiento, un obrero tarda 150 segundos en realizarlo, con una desviación

estándar de 12 segundos.

Considerando, que para efectos prácticos el total de las observaciones se distribu-

yen en ± 3 σ (desviaciones estándar) los valores posibles en segundos que los tra-

bajadores tardarían en realizarlo serían: (150-3σ), (150-2σ), (150-1σ), (150-0σ),

(150+1σ), (150+2σ) y (150+3σ), es decir entre los siguientes: 114, 126, 138, 150,

162, 174 y 186.

Con el propósito de realizar un análisis de probabilidades, el analista estandarizó

los datos normales –convirtió los valores reales a valores Z-, como se puede obser-

var en la tabla 9.1.

Tabla 9.1 Estandarización de una variable aleatoria X

La interpretación gráfica de la distribución normal estandarizada se puede apreciar

en la figura 9.1

Page 219: Estadistica i - Libro

221

Figura 9.1 Transformación de escalas de normal a normal estandarizada

114

-3

126

-2

138

-1

150

0

162

1

174

2

186

3

X escala

Z escala

Uso de las tablas de probabilidad normal.

El diagrama en forma de campana de la figura 9.1 ilustra el polígono de frecuen-

cias relativas para la distribución normal que representa el tiempo (en segundos) de

montaje de todos los obreros. Los datos representan la población entera de la plana

y por lo tanto, las probabilidades o proporciones totales bajo el área de la curva es

igual a 1.

Siguiendo con el ejemplo, el analista desea determinar la probabilidad de que un

obrero seleccionado aleatoriamente requiera entre 150 y 162 segundos para montar

la pieza. Utilizando los datos estandarizados, la pregunta sería ¿Cuál es la probabi-

lidad de que el tiempo del obrero esté entre la media y una desviación estándar?

La tabla 9.2 representa las probabilidades, para los valores de Z, es decir, para los

valores de X estandarizados. Al usar la tabla se puede observar que todos los valo-

res de Z deben de registrarse hasta con dos decimales. Por lo tanto, el valor de in-

terés del ejemplo será Z = 1.00. El valor de Z = 1 se localiza en la intersección de

la fila con valor de 1.0 y la columna con valor de .0, la cual indica .3413. La inter-

pretación se ilustra en la figura 9.2 y representa el 34.13% del área total debajo de

la curva, equivalente al 34.13% de probabilidad de que el obrero escogido aleato-

Page 220: Estadistica i - Libro

222

riamente caiga en ese rango. Cada valor representa el área bajo la curva desde la

media o Z= 0 hasta +3Z.

Figura 9.2 Distribución normal estandarizada, área de interés: P (150 ≤X≤162

-3 -2 -1 0 1 2 3

X escala

Z escala

Área = .3413

Z = X-µx =1σx 12

114 126 138 150 162 174 186

Utilizando la hoja de cálculo de Excel, se utiliza el comando F(x)/Estadísticas

/DISTR.NORM.ESTAND(1), se introduce el valor de Z y se obtiene el valor de la

probabilidad acumulada, por lo que es necesario restarle el .50 que corresponde a la

primera mitad de la curva. A .8413 se le resta .50, se obtiene el área de .3413, que

corresponde al área entre 0 y 1Z.

Figura 9.3 Comando de cálculo del valor Z en la hoja de cálculo Excel

Page 221: Estadistica i - Libro

223

Tabla 9.2 Distribución normal estandarizada: valores de área desde la media

hasta Z

Z/ 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0 0 0.004 0.008 0.012 0.016 0.0199 0.0239 0.0279 0.0319 0.03590.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.07530.2 0.0793 0.0832 0.0871 0.091 0.0948 0.0987 0.1026 0.1064 0.1103 0.11410.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.148 0.15170.4 0.1554 0.1591 0.1628 0.1664 0.17 0.1736 0.1772 0.1808 0.1844 0.18790.5 0.1915 0.195 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.219 0.22240.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.25490.7 0.258 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.28520.8 0.2881 0.291 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.31330.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.334 0.3365 0.3389

1 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.36211.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.377 0.379 0.381 0.3831.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.398 0.3997 0.40151.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.41771.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.43191.5 0.4332 0.4345 0.4357 0.437 0.4382 0.4394 0.4406 0.4418 0.4429 0.44411.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.45451.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.46331.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.47061.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.475 0.4756 0.4761 0.4767

2 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.48172.1 0.4821 0.4826 0.483 0.4834 0.4838 0.4842 0.4846 0.485 0.4854 0.48572.2 0.4861 0.4864 0.4868 0.4871 0.4875 -0.0122 0.4881 0.4884 0.4887 0.4892.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.49162.4 0.4918 0.492 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.49362.5 0.4938 0.494 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.49522.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.496 0.4961 0.4962 0.4963 0.49642.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.497 0.4971 0.4972 0.4973 0.49742.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.498 0.49812.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986

3 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.499 0.4993.1 0.499 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.49933.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.49953.3 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.49973.4 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998

Page 222: Estadistica i - Libro

224

Tabla 9.3 Distribución normal estandarizada: valores de área desde la media

hasta –Z

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

-4 0.00003 0.00003 0.00003 0.00003 0.00003 0.00003 0.00002 0.00002 0.00002 0.00002

-3.9 0.00005 0.00005 0.00004 0.00004 0.00004 0.00004 0.00004 0.00004 0.00003 0.00003

-3.8 0.00007 0.00007 0.00007 0.00006 0.00006 0.00006 0.00006 0.00005 0.00005 0.00005

-3.7 0.00011 0.0001 0.0001 0.0001 0.00009 0.00009 0.00008 0.00008 0.00008 0.00008

-3.6 0.00016 0.00015 0.00015 0.00014 0.00014 0.00013 0.00013 0.00012 0.00012 0.00011

-3.5 0.00023 0.00022 0.00022 0.00021 0.0002 0.00019 0.00019 0.00018 0.00017 0.00017

-3.4 0.00034 0.00032 0.00031 0.0003 0.00029 0.00028 0.00027 0.00026 0.00025 0.00024

-3.3 0.00048 0.00047 0.00045 0.00043 0.00042 0.0004 0.00039 0.00038 0.00036 0.00035

-3.2 0.00069 0.00066 0.00064 0.00062 0.0006 0.00058 0.00056 0.00054 0.00052 0.0005

-3.1 0.00097 0.00094 0.0009 0.00087 0.00084 0.00082 0.00079 0.00076 0.00074 0.00071

-3 0.00135 0.00131 0.00126 0.00122 0.00118 0.00114 0.00111 0.00107 0.00103 0.001

-2.9 0.00187 0.00181 0.00175 0.00169 0.00164 0.00159 0.00154 0.00149 0.00144 0.00139

-2.8 0.00256 0.00248 0.0024 0.00233 0.00226 0.00219 0.00212 0.00205 0.00199 0.00193

-2.7 0.00347 0.00336 0.00326 0.00317 0.00307 0.00298 0.00289 0.0028 0.00272 0.00264

-2.6 0.00466 0.00453 0.0044 0.00427 0.00415 0.00402 0.00391 0.00379 0.00368 0.00357

-2.5 0.00621 0.00604 0.00587 0.0057 0.00554 0.00539 0.00523 0.00508 0.00494 0.0048

-2.4 0.0082 0.00798 0.00776 0.00755 0.00734 0.00714 0.00695 0.00676 0.00657 0.00639

-2.3 0.01072 0.01044 0.01017 0.0099 0.00964 0.00939 0.00914 0.00889 0.00866 0.00842

-2.2 0.0139 0.01355 0.01321 0.01287 0.01255 0.01222 0.01191 0.0116 0.0113 0.01101

-2.1 0.01786 0.01743 0.017 0.01659 0.01618 0.01578 0.01539 0.015 0.01463 0.01426

-2 0.02275 0.02222 0.02169 0.02118 0.02067 0.02018 0.0197 0.01923 0.01876 0.01831

-1.9 0.02872 0.02807 0.02743 0.0268 0.02619 0.02559 0.025 0.02442 0.02385 0.0233

-1.8 0.03593 0.03515 0.03438 0.03362 0.03288 0.03216 0.03144 0.03074 0.03005 0.02938

-1.7 0.04456 0.04363 0.04272 0.04181 0.04093 0.04006 0.0392 0.03836 0.03754 0.03673

-1.6 0.0548 0.0537 0.05262 0.05155 0.0505 0.04947 0.04846 0.04746 0.04648 0.04551

-1.5 0.06681 0.06552 0.06425 0.06301 0.06178 0.06057 0.05938 0.05821 0.05705 0.05592

-1.4 0.08076 0.07927 0.0778 0.07636 0.07493 0.07353 0.07214 0.07078 0.06944 0.06811

-1.3 0.0968 0.0951 0.09342 0.09176 0.09012 0.08851 0.08691 0.08534 0.08379 0.08226

-1.2 0.11507 0.11314 0.11123 0.10935 0.10749 0.10565 0.10383 0.10204 0.10027 0.09852

-1.1 0.13566 0.1335 0.13136 0.12924 0.12714 0.12507 0.12302 0.121 0.119 0.11702

-1 0.15865 0.15625 0.15386 0.1515 0.14917 0.14686 0.14457 0.14231 0.14007 0.13786

-0.9 0.18406 0.18141 0.17878 0.17618 0.17361 0.17105 0.16853 0.16602 0.16354 0.16109

-0.8 0.21185 0.20897 0.20611 0.20327 0.20045 0.19766 0.19489 0.19215 0.18943 0.18673

-0.7 0.24196 0.23885 0.23576 0.23269 0.22965 0.22663 0.22363 0.22065 0.21769 0.21476

-0.6 0.27425 0.27093 0.26763 0.26434 0.26108 0.25784 0.25462 0.25143 0.24825 0.24509

-0.5 0.30853 0.30502 0.30153 0.29805 0.2946 0.29116 0.28774 0.28434 0.28095 0.27759

-0.4 0.34457 0.3409 0.33724 0.33359 0.32997 0.32635 0.32276 0.31917 0.31561 0.31206

-0.3 0.38209 0.37828 0.37448 0.3707 0.36692 0.36317 0.35942 0.35569 0.35197 0.34826

-0.2 0.42074 0.41683 0.41293 0.40904 0.40516 0.40129 0.39743 0.39358 0.38974 0.3859

-0.1 0.46017 0.4562 0.45224 0.44828 0.44433 0.44038 0.43644 0.4325 0.42857 0.42465

0 0.5 0.49601 0.49202 0.48803 0.48404 0.48006 0.47607 0.47209 0.46811 0.46414

Page 223: Estadistica i - Libro

225

9.7 Aplicaciones

Una vez conociendo el procedimiento y uso de la estandarización de una densidad

de distribución normal se pueden resolver distintos cuestionamientos de probabili-

dad referentes a la distribución normal, tales como:

1. ¿Cuál es la probabilidad de que un obrero seleccionado aleatoriamente

pueda montar la pieza en menos de 150 segundos o en más de 162?

2. ¿Cuál es la probabilidad de que lo haga entre 136 y 162 segundos?

3. ¿Cuál es la probabilidad de que lo haga en menos de 124 segundos?

4. ¿Cuál es la probabilidad de que lo haga entre 114 y 138 segundos?

5. ¿Cuántos segundos deben de transcurrir antes de que el 50% de los obreros

monten la pieza?

6. ¿Cuántos segundos deben de transcurrir antes de que el 10% de los obreros

monten la pieza?

7. ¿Cuál es el alcance intercuartil (rango en segundos) esperado para que los

obreros monten la pieza?

Respuestas a las preguntas

Pregunta 1: Encontrar la P(X<150 o X>162). Para determinar la respuesta hay

dos maneras de calcularla, utilizando la regla de complemento o la regla de adición

para eventos mutuamente excluyentes. La regla de complemento se aplica como 1-

(la probabilidad de que ocurra entre 150 y 162 segundos), es decir 1-.3413 = .6587;

Usando la tabla 9.3, se observa que el área bajo la curva normal de -4Z hasta Z = 0

es igual a .50, resulta ser el área total del lado izquierdo. Ahora, si el área total del

lado derecho es igual a .50, habrá que restarle el área que abarca los valores de 0 a

1Z, que corresponde a .3413, por lo que el área de más de 162 segunda es igual a

Page 224: Estadistica i - Libro

226

.50 - .3413 = .1587. Aplicando la regla de adición, se obtiene la probabilidad de

que se realice en menos de 150 segundos y se le suma a la probabilidad de que sea

en más de 162.

Esto es P(X<150 o X>162) = .50 + .1587 = 6587. El resultado se ilustra en la figura 9.4

Figura 9.4 Área de P(X<150 o X>162).

-3 -2 -1 0 1 2 3

X escala

Z escala

Área = .3413

Área = .1587

Área = .50

Z = X-µx =1σx 12

114 126 138 150 162 174 186

Pregunta 2. Encontrar la P(138 ≤X≥ 162) Para encontrar el área de probabilidad

que se encuentra entre los valores de 138 y 162, se observa en la figura 9.5 que el

área se encuentra entre los valores de Z igual -1 y Z igual a 1. Como la tabla de

cálculo o el uso de software sólo permite calcular la probabilidad de la media hasta

un valor positivo o negativo de Z, el área de interés podrá obtenerse en tres pasos:

a) Determinar la probabilidad de la media a 162 segundos.

b) Determinar la probabilidad de la media a 138 segundos.

c) Sumar la probabilidad de ambas.

Utilizando las tablas, el primer paso ya se ha determinado anteriormente y tiene un

valor de .3413; el segundo paso, el cálculo de la probabilidad de 138 segundos se

obtiene de restarle a .50, el valor de la probabilidad de -1Z, es decir (.50) –(.1587)

= .3413. La suma de ambas áreas es de .6826.

Page 225: Estadistica i - Libro

227

Otra manera de calcularlo es, sabiendo de la simetría de la curva de distribución

normal, se deduce que el área de 1Z es igual a el área de -1Z, entonces el área total

será de (.3415) + (.3415) = .6826.

Figura 9.5 Área de P(138 ≤X≥ 162)

-3 -2 -1 0 1 2 3

X escala

Z escala

Área = .3413Área = .3413

Z = X-µxZ =

X-µx =162-150

=1= -1 σxσx 1212

114 126 138 150 162 174 186

Pregunta 3. Encontrar la P (X < 124) Para encontrar el área de probabilidad de

que un obrero seleccionado aleatoriamente pueda montar la pieza en menos de 124

segundos, primero tendrá que calcularse el valor de Z, podrá consultarse directa-

mente en la tabla 9.3 de los valores negativos de Z o directamente el la hoja de

cálculo de Excel. El área puede observarse en la figura 9.6

Figura 9.6 Área de P(X< 124)

-3 -2 -1 0 1 2 3

X escala

Z escala

Área = .0150

Z = X-µx = -2.17σx 12

114 126 138 150 162 174 186

Page 226: Estadistica i - Libro

228

Pregunta 4. Encontrar la P(124 ≤X ≤138). Para encontrar el área de probabilidad

de que un obrero seleccionado aleatoriamente pueda montar la pieza entre 124 y

138 segundos. Puesto que la tabla o la hoja de cálculo de Excel sólo permiten cal-

cular el área desde la media hasta cierto valor de Z, la probabilidad de interés se

podrá obtener en tres pasos.

a) Determinar la probabilidad o área bajo la curva de la media hasta 124 se-

gundos.

b) Determinar la probabilidad o área bajo la curva de la media hasta 138 se-

gundos

c) Restar el área menor a la mayor para evitar doble conteo

El área hasta 124 segundos corresponde al área entre la media y -2.17 Z, esto es

.0150

El área hasta 138 segundos corresponde al área entre la media y -1Z, esto es .1587

La resta de áreas es igual a .1587 -.0150 = .1437, este resultado se puede observar

en la figura 9.7

Figura 9.7 Área de P(124 ≤X ≤ 138)

-3 -2 -1 0 1 2 3

X escala

Z escala

Z = X-µx

Z = X-µx

=124-150

=138-150

= -2.17

= -1

σx

σx

12

12

Área = .1587- .0150=.1437

Área = .0150 puesto que Z = -2.17

Área para -1Z = .1587

114 126 138 150 162 174 186

Page 227: Estadistica i - Libro

229

Pregunta 5. Para determinar cuántos segundos transcurren antes de que el 50% de

los obreros monten la pieza, debe considerarse la simetría de la curva de distribu-

ción normal, si la media es igual a 150 segundos y ésta se encuentra exactamente

en la mitad de la curva, significa que el 50% de los obreros tardan hasta 150 se-

gundos en montar la pieza.

Pregunta 6. Para determinar cuanto tiempo transcurre antes de que el 10% de los

obreros terminen de montar la pieza, se busca en la tabla 9.3 de valores negativos

de Z, se busca en el interior de la tabla el valor que más se aproxime al .10 y se

encuentra que es el valor de Z = -1.28, que es el valor estandarizado de X. Pero

como lo que es de interés es el valor de X, ahora se utiliza la ecuación de estandari-

zación en forma inversa, es decir, conociendo Z, ahora se estima el valor de X.

Z = X-µx

σx

;

µ σ )x x+Z( = X

150 + (-1.28)(12) = 134.64

Pregunta 7. Para obtener el rango intercuartil lo primero que se tiene que realizar

es el cálculo de Q1 y Q3. Como el área debajo de la curva es simétrica y la densidad

de la curva es igual a 1, entonces el primer cuartil se localiza desde la media hasta

.2500 del área izquierda y el tercer cuartil de la media hasta el .2500 del área dere-

cha, se localizan los valores más próximos a ella en las tablas 9.3 y 9.2. Se observa

que los valores de Z son -.67 y +.67 respectivamente. Utilizando la ecuación ante-

rior, se tiene que:

Q1 = X = µx+Z(σx) = 150 + (-.67)(12) = 141.96 segundos

Q2 = X = µx+Z(σx) = 150 + (67)(12) = 158.04 segundos

El rango intercuartil es igual a Q3 – Q1 = 158.04 – 141.96 = 16.08 segundos.

Page 228: Estadistica i - Libro

230

9.8 Uso de distribución normal como una aproximación a la distribución bino-

mial o a la distribución de Poisson

Se ha dicho que la distribución binomial es simétrica, como la distribución normal,

siempre que p = .5, mientras más grande sea el número de observaciones de la

muestra n, y mientras más cerca se p de .5, más simétricamente será la distribución.

Como regla general, cuando np y n(1-np) tengan un valor de al menos 5, se puede

utilizar la distribución normal. Por lo tanto, para encontrar probabilidades aproxi-

madas correspondientes a los valores de la variable aleatoria discreta X se utiliza la

siguiente aproximación:

X -npaZ = X-µx Z

np(1-p)σx

Donde

np = a la media de la distribución binomial

np(1-p) es igual a la desviación estándar de la distribución binomial

Xa = número ajustado de éxitos de x, para variable discretas, de tal forma que Xa =

± .5 según sea el caso.

Ejemplo. Para ilustrar la aplicación de utilizar la distribución normal como una

aproximación a la distribución binomial, de una muestra n = 1600 llantas, se obtie-

nen aleatoriamente de un proceso continuo en el que la experiencia dice que hay

8% se producen con defecto. ¿Cuál es la probabilidad de que en esta muestra no

más de 150 llantas sean defectuosas.

Puesto de np = 1600 (.08)= 128 y n(1-p) es igual a 1600(.92) = 1,472 exceden de 5,

entonces se puede utilizar la aproximación de la distribución normal.

X -npaZ

np(1-p)= 150.5 – 128 /[(1600)(.08)(.92)]1/2

= 22.5/10.85 = 2.07

Page 229: Estadistica i - Libro

231

Usando la tabla 9.2 se observa que el área bajo la curva es de .4808, de tal forma

que la probabilidad está dado por .5000 + .4808 = .9808.

Por otro lado, la distribución normal también puede utilizarse como una aproxima-

ción al modelo de Poisson, siempre que el parámetro λ (número esperado de éxitos)

sea igual o mayor que 5. Puesto que la media y la varianza de una distribución de

Poisson son iguales a λ, se recuerda que:

Una propiedad de esta distribución es que la media y la varianza son iguales al

parámetro λ, por lo que la desviación estándar es igual a √λ (raíz cuadrada de λ),

por lo que

X -a λZ =

X-µx Z λσx

Donde

λ= a la media de la distribución Poisson

λ es igual a la desviación estándar de la distribución se Poisson

Xa = número ajustado de éxitos de x, para variable discretas, de tal forma que Xa =

± .5 según sea el caso.

Ejemplo. Para ilustrar la aplicación de utilizar la distribución normal como una

aproximación a la distribución de Poisson, se considera que en una planta de pro-

ducción el número de interrupciones de trabajo al día por problemas con el equipo

es de 12. ¿cuál es la probabilidad aproximada de tener 15 interrupciones:

X -aλ

Z λ

15.5 -12.0/(12)1/2

= 1.01

El número ajustado de éxitos, es de 15.5, se observa que el valor del área debajo de

la curva par Z = 1.01 es de .3438, si se le agrega el área del lado izquierdo de la

curva que es igual a .50, se tiene que la probabilidad aproximada de tener 15 o

Page 230: Estadistica i - Libro

232

menos interrupciones en la planta por problemas del equipo, es de .8438, esta

aproximación se acerca bastante a la probabilidad de Poisson exacta, que calculada

tiene un valor de .8445.

9.9 Resumen

La mayoría de las variables aleatorias que se presentan en los estudios relacionados

con las ciencias sociales, físicas y biológicas, son continuas y se distribuyen según

una función de densidad. La función de densidad más utilizada se conoce como

distribución normal o distribución gaussiana. La característica principal de esta

distribución es que su representación gráfica tiene forma de campana simétrica que

ilustra la igualdad de los valores mayores y menores ponderados con respecto a la

media. La ponderación de los valores está dada por la frecuencia relativa de las

observaciones y es igual a la probabilidad de ocurrencia.

Dado que la función de densidad de la distribución normal está dado por un modelo

matemático que relaciona los valores de la media y la desviación estándar, existe

un gran número de valores que representan la densidad de distribución de probabi-

lidades como poblaciones existan con diferente media o desviación estándar:

f (X)= σ

x

e-(½)[(x- )/ ]

2µx σx

1

Para hacer práctica la aplicación de la función de densidad de la distribución nor-

mal, se requiere estandarizar los valores de Xi a valores Z, considerando a la media

con un valor igual a cero y la desviación estándar igual a 1, el cálculo de los valo-

res de Z se realizan mediante la fórmula:

Z = X-µx

σx

Una vez estandarizados los valores de Xi, los valores de Z, con valores prácticos de

±3, se define el área que corresponde a los valores de Z, ya sea utilizando la tabla

de distribución normal o un paquete estadístico o la hoja de cálculo de Excel.

Page 231: Estadistica i - Libro

233

Los valores de ±3Z, es decir, 6 desviaciones estándar, cubren un área de .9974 del

total de la densidad de la curva; ±2Z, es decir, cuatro desviaciones estándar, cubren

el .9772 y ±1 desviación estándar, el .6826.

Bajo ciertas condiciones, la función de densidad de la distribución normal, se pue-

de aplicar como una aproximación de las distribuciones binomial y de Poisson,

utilizadas para calcular la distribución de probabilidad de variables aleatorias dis-

cretas.

9.10 Términos clave

Función de densidad de probabilidad

Distribución normal o campana de

Gauss

Estandarización

Valores Z

Aproximaciones a la distribución

binomial

Aproximación a la distribución de

Poisson

9.11 Problemas de repaso del capítulo

1.- Una pequeña empresa de diseño y fabricación de piezas mecánicas ha recibido

un pedido de cojinetes de diámetro de 1.9 cm. Los límites de aceptación son ±.025

cm. Por experiencia, el gerente de la empresa sabe que el valor esperado es 1.912

cm. y una desviación estándar de .010 cm. ¿Cuál es la probabilidad de que un coji-

nete muestreado aleatoriamente esté?

a) Entre la media solicitada y la media real.

b) Entre el límite inferior y el diámetro solicitado.

c) Por arriba del límite superior aceptado.

d) Por debajo del límite superior aceptado.

e) Por arriba de que valor de diámetro estará el 93% de los cojinetes.

Page 232: Estadistica i - Libro

234

2.- Una empresa que distribuye refrescos embotellados de 2 litros con una desvia-

ción estándar de .05 litros, sabe que si los refrescos que distribuye no satisfacen el

95% del contenido neto, podrían ser multados por la PROFECO, también sabe que

si el contenido es de 2.10 litros puede ocasionar derrames del líquido.

a) ¿Qué proporción de las botellas contendrá?

1. Entre 1.90 y 2.0 litros.

2. Entre 1.90 y 2.10 litros.

3. Menos de 1.90 litros.

4. Menos de 1.90 litros o más de 2.10 litros.

5. Más de 2.0 litros.

6. Entre 2.05 y 2.10 litros.

b) Se espera que al menos el 90% de las botellas tuviera al menos cuánto re-

fresco?

c) Se espera que al menos el 90% de las botellas contuvieran simétricamente

entre qué y qué cantidad?

d) Suponga que en un esfuerzo de reducir el número de botellas que contienen

menos de 1.90 litros, el embotellador calibra la máquina de tal forma que

la media es ahora de 2.02 litros. Bajo esa circunstancia ¿Cuáles serían las

respuestas para los incisos a, b y c?

3.- Una alumna del 5º. semestre mide 1.70 metros y pesa 61.25 kg. Si la media de

estatura del grupo es de 1.65 metro con una desviación estándar de .06 m. y una

media de peso de 56.5 kg. Con una desviación estándar de .43 kg. Determine si la

medida más inusual de la alumna es la estatura o el peso.

4.- Se sabe que una de cada tres personas que entran a una tienda departamental

hace al menos una compra.

Page 233: Estadistica i - Libro

235

a) Si se selecciona una muestra de n = 5 personas ¿cuál es la probabilidad de

que?

1. Dos o más hagan al menos una compra.

2. A lo más cuatro hagan al menos una compra.

b) Si se selecciona una muestra aleatoria de n = 81 personas, ¿Cuál es la pro-

babilidad aproximada de que?

1. 30 o más hagan al menos una compra

2. A lo más 40 hagan al menos una compra

5.- ¿Cuál es la probabilidad aproximada de que un estudiante apruebe un examen

de 100 de cierto y falso si tuviera que adivinar cada respuesta?

¿Cuál es la probabilidad aproximada de que un estudiante obtenga exactamente 60

respuestas correctas en un examen de 100 preguntas de cierto y falso si tuviera que

adivinar cada respuesta?

Page 234: Estadistica i - Libro

236

9.12 Mapa conceptual de la distribución normal

Distribución

normal

PropiedadesAproximación a distribuciones

discretas

Evaluación de supuestos

Campana de Gauss

Para binomialcuando np y n(1-p)≥ 5

Para la de Poissoncuando λ ≥ 5

Page 235: Estadistica i - Libro

237

Capítulo 10

Análisis de series

*********************

Objetivo del

Capítulo

Mostrar como se puede estudiar la

tendencia de crecimiento de un

fenómeno, como los precios, la po-

blación, la producción, etc.

Page 236: Estadistica i - Libro

238

Page 237: Estadistica i - Libro

239

10.1 Introducción

Como ya se ha visto, una de las principales preocupaciones de la Estadística es el

análisis de cambio de las variables, tanto consideradas individualmente como en

conjunto. Para facilitar tal tipo de análisis estadístico se han creado distintos ins-

trumentos, no solo el para análisis individual de cada variable, sino que algunos de

ellos adquieren mayor mérito cuando se utilizan para comparar entre variables con

diferente dimensión.

Una de los instrumentos que más se utilizan en el área de negocios es el análisis de

series de tiempo o análisis de series históricas. Su propósito es el de determinar las

tasas de crecimiento (negativo o positivo) de un factor en un momento dado con

respecto a otro, así como para determinar su tendencia de crecimiento y realizar

comparaciones con otros factores que estén relacionados.

El análisis de series históricas sirve para estudiar la tendencia de crecimiento de la

población, el ingreso, la demanda, la producción, las importaciones, las exporta-

ciones y en general, todos los factores que tienen un crecimiento y desarrollo. El

análisis de series de tiempo abarca dos tipos: la construcción de números índice y

análisis de patrones básicos.

Page 238: Estadistica i - Libro

240

10.2 Construcción de números índice

El problema de la comparación estadística se resuelve en buena manera mediante el

uso de números índices. En general un número índice es aquella medida estadística

que permite estudiar las fluctuaciones o variaciones de una sola magnitud o de más

de una en relación al tiempo o al espacio. Los índices más habituales son los que

realizan las comparaciones en el tiempo, por lo que, como se verá más adelante, los

números índices son en realidad series temporales.

Un número índice es un número relativo con una base igual al 100% y se utiliza

como un indicador de comparación de la variación de un número de un factor (fac-

tores) y otro número que representa ese mismo factor (factores) en otro lugar o en

otro tiempo.

Existen muchos números índices que se pueden construir, por ejemplo los índices

de producción, los índices de clientes, los índices de ventas, etc. Los índices bien

utilizados ayudan a corregir los objetivos y metas de la empresa.

Ejemplo. El mes pasado se produjeron 1500 piezas y este mes se produjeron 1250,

el índice nos indica cuanto bajó la producción:

1250 piezas/ 1500 piezas = .8333 * 100% = 83.33% con respecto al mes

pasado, que es lo mismo que la producción se redujo en un 16.66%.

Si este mes se vendió $23,000.00 y el mes pasado se vendió $16,500.00 entonces

las ventas se comportaron de la siguiente manera:

$23,000.00/16,500.00 = 1.39 * 100 = 139%, es decir las ventas aumentaron

en un 39%

El mes pasado la sucursal “A” de la empresa vendió $12,500.00 y la sucursal “B”

$32,000, el análisis sería:

Page 239: Estadistica i - Libro

241

$12,500.00/32,000.00 = .39 * 100%, la sucursal “A” apenas vendió el 39%

de lo que vendió la sucursal “B”

Cabe señalar que más de las veces la comparación en valores absolutos o reales en

dos áreas geográficas diferentes no son válidos, dado que cada área geográfica

tiene diferentes características como la población, el ingreso, los gustos, las prefe-

rencias, etc. Para este caso los números índice son de gran ayuda, ya que elimina la

dimensión.

Del ejemplo anterior, si la sucursal “A” vendió el mes anterior al próximo pasado

la cantidad de $10,000.00 y la sucursal “B” $30,000.00, entonces, el análisis más

apropiado es:

Sucursal “A”: $12,500.00/$10,000.00 = 1.25 * 100%, lo significa que la

sucursal “A” vendió 25% más.

Sucursal “B”: $32,000.00/$30,000.00 = 1.066 * 100%, lo que significa que

la sucursal “B” vendió el 6.06%

La elaboración de índices no solo determinar cual ha sido el ritmo de variación de

esta magnitud en cada una de las dos áreas, sino que además posibilitan que se

pueda realizar comparaciones entre ambas, pues si se hubiera trabajado en términos

absolutos, entonces, no sería posible comparar las dos variables, pese a que ambas

están expresadas en las mismas unidades de medida, pues las mismas hacen refe-

rencia a áreas geográficas muy diferentes.

Índices de precios, cantidades y valores

Para fines de un estudio de mercado los índices más utilizados son los índices de

precios, los índices de cantidades y los índices de valores. Éstos son utilizados para

deflactar (quitar la inflación) a los precios y a los ingresos, que refleja el poder

adquisitivo de los valores nominales expresados en unidades monetarias. Cuando

Page 240: Estadistica i - Libro

242

los precios no son deflactados, se les denomina a precios corrientes, cuando se les

aplica el índice de deflactación con respecto a un año, se les denomina a preciso

constantes del año base.

La construcción de los índices pueden ser simples, cuando sólo consideran un fac-

tor; compuestos, cuando influyen varios factores, como el índice de precios al con-

sumidor (varios artículos y varios precios). Éstos, también se pueden construir de

base fija, en eslabón. Para entender rápidamente su construcción, se desarrollará los

siguientes ejemplos:

Ejemplo. Supóngase que los precios del café por kilogramo del país durante los

últimos 6 años fue el siguiente:

Tabla 10.1 Precios e índices de precios del café veracruzano

Año Precio

índice/año

base

índice

año

anterior

2001 25 1.0 -

2002 30 1.2 1.2

2003 50 2.0 1.66

2004 20 .8 .40

2005 22 .88 1.1

2006 40 1.6 1.81

Para su cálculo se realizaron las siguientes operaciones:

Índices de base fija: 2001/2001; 2002/2001; 2003/2001; ……….2006/2001

Índice en eslabón o año anterior: 2002/2001; 2003/2002; 2004/2003;

…………..2006/2005

Ejemplo. Supongamos que se quiere construir los números índices simples y com-

puestos de precios, cantidades y valores de los huevos, leche y carne que se con-

Page 241: Estadistica i - Libro

243

sumió en un área geográfica (ciudad, colonia, estado, país), en los años 2005 y

2006, de acuerdo a los datos siguientes:

Tabla 10.2 Precios, cantidades y valor 2005-2006

Año 2005 2006

Artículo

Precio

unitario

Cantidad

vendida

Valor de

ventas

Precio

unitario

Cantidad

vendida

Valor de

ventas

Huevo

(docena) 10.00 100 1000,00 12.00 90 1080,00

Leche (litro) 5.00 120 600,00 7.00 140 980,00

Carne (kilo) 35.00 10 350,00 42.00 15 630,00

1950,00 2690,00

Si se desea construir el índice de cambio de un solo factor, se puede realizar sólo

dividiendo la cantidad del año analizado por la cantidad del año base.

Tabla 10.3 Índices simples. 2006/2005

Artículo índice índice índice

precio cantidades valor

Huevo (12/10) 1.2 (90/100) .9 (1080/1000) 1.08

Leche (7/5 ) 1.4 (140/120) 1.16 (980/600) 1.63

Carne (42/35) 1.2 (15/10) 1.5 (630/350) 1.8

Pero si se desea conocer el cambio relativo del costo de la vida, no debe de anali-

zarse el cambio de un solo artículo. Debe incluirse los precios de los artículos más

representativos del gasto de la familia. En este caso y a manera de ejemplo sólo se

considera la leche, la carne y los huevos.

Para un análisis más preciso del cambio del costo de la vida se debe considerar el

costo de alimentación, transporte, vivienda, entre otros, incluso lo que oficialmente

se llama “canasta básica”.

Page 242: Estadistica i - Libro

244

Para construir los índices de precios y de cantidades, quitando el peso específico de

cada artículo por la unidad de medida o por la cantidad, se requiere utilizar la

fórmula de los índices de Laspeyres:

IPL 2006 = (ΣPn x Qo)/ΣPo x Qo

= [ (12 x 100) + (7 x 120) + (42 x 10) ]/1950 = 1.26

IQL 2006 = (ΣQn x Po)/ΣPo x Qo

= [ (90 x 10) + (140 x 5) + (15 x 35) ]/1950 = 1.08

Para calcular el índice de valor se utiliza la fórmula de Passche

I valor 2006 = (ΣPn x Qn)/ΣPo x Qo

= [ (12 x 90) + (7 x 140) + (42 x 15) ]/1950 = 1.37

Índices de inflación y poder adquisitivo

La inflación es un fenómeno económico de naturaleza monetaria que por sus con-

secuencias ha sido, y sigue siendo, fuente de preocupación para todos los agentes

que intervienen en la economía, tanto los privados como los públicos. Pero más

que hablar de los efectos de la inflación lo más conveniente será definirla cuidado-

samente. Samuelson y Nordhaus (1999) la relacionan muy bien con el índice de

precios cuando señala que un índice de precios es un indicador del nivel medio de

precios. La inflación indica la subida del nivel general de precios. La tasa de infla-

ción es la tasa de variación del nivel general de precios y se expresa de la forma

siguiente:

Tasa de inflación año n

nivel de precios (año ) - nivel de precios (año -1)n n

nivel de precios (año -1)n= x 100

Lo sustantivo de esta definición es que el fenómeno en cuestión consiste en un

aumento general y sostenido de los precios de todos los bienes y servicios tanto

producidos como consumidos.

Page 243: Estadistica i - Libro

245

Ese incremento generalizado de precios tiene como consecuencia inmediata que la

capacidad de compra del dinero se reduce de forma continuada. Es decir, la canti-

dad de un bien que puede adquirirse con una unidad monetaria dada (peso, euro,

libra, dólar, etc.) es cada vez menor como resultado del incremento del precio de

ese bien. Pero si en lugar de tratarse de un solo bien, la subida de precios afecta a

todos los bienes de una economía, la situación sería similar, solo que agravada. Así

pues, la inflación reduce la capacidad de compra del dinero o poder adquisitivo del

mismo.

La siguiente cuestión sería definir un instrumento estadístico que permita cuantifi-

car esa subida generalizada de precios. Es decir, se trata de buscar un índice de

precios que recoja de forma adecuada el fenómeno de la inflación. A tal efecto, el

índice que suele utilizarse de forma casi universal es el índice de precios al consu-

midor (IPC), aunque el mismo tiene algunas limitaciones que no son del alcance de

este libro.

En México el Índice Nacional de Precios al consumidor INPC se elabora ponde-

rando cada precio según la importancia económica del bien o servicio considerado

para su cálculo. La canasta se obtiene a partir de la Encuesta de Ingreso-Gasto de

los Hogares (ENIGH) emitida por el INEGI. Dicha encuesta proporciona los gastos

asociados de los hogares en 580 bienes y servicios.

Con esta base el Banco de México selecciona algunos productos y servicios y los

integra en una canasta básica y calcula el peso de cada uno en la construcción del

INPC, a esto se le conoce como ponderación.

Por ejemplo, si tomamos dos productos incluidos en la canasta básica del Banco de

México: jitomate (ponderación 0.50) y sal (ponderación 0.05), el primero afectará

más el comportamiento del INPC, debido a que tiene mayor incidencia en el presu-

puesto familiar (mayor ponderación) que la sal.

La canasta básica del Banco de México está compuesta por 80 bienes y servicios

Page 244: Estadistica i - Libro

246

agrupados en las siguientes categorías:

alimentos, bebidas y tabaco; ropa, calzado y accesorios; vivienda; muebles, apara-

tos y accesorios domésticos; salud y cuidado personal; transporte; educación y

esparcimiento, así como otros servicios.

Tabla 10.4 Índice de Precios nacionales y valor del peso

Año b ase 2002 = 100%

Fuente: elaboración propia en base a Cuaderno de Información Oportuna. Precios.

INEGI

En la Tabla10.4 se recogen los valores medios anuales del IPC para México en el

periodo 2006-2008 con base 2002. Según el contenido de esta tabla, el nivel medio

de los precios en ese periodo de tres años creció por encima de .34 veces. Esto,

dicho en otros términos, equivale a que si en 2002 un bien costaba 100 pesos, el

precio de ese mismo bien en el año 2008 era 134 pesos, o lo que es igual, con 100

pesos del año 2008 solo se podría comprar lo que en 2002 con 74. Estas cifras dan

una idea bastante clara de cual ha sido la pérdida de la capacidad de compra del

peso en México en tan sólo tres años.

El PIB nominal y PIB real

El Producto Interno Bruto (PIB) mide el gasto total en los bienes y servicios en

todos los mercados de la economía de un país. Si el gasto total aumenta de un año a

otro, debe a dos fenómenos económicos: (1) la economía esta produciendo mas

bienes y servicios o (2) los bienes y servicios están otorgándose a precios más al-

tos.

Page 245: Estadistica i - Libro

247

Cuando se quiere estudiar la evolución de la economía, se requiere considerar estos

dos efectos. En concreto se requiere un indicador de la cantidad total de los bienes

y servicios que están produciendo la economía que no se vea afectado por las va-

riaciones de los precios de dichos bienes y servicios. Para ello, utilizan un indica-

dor llamado PIB real o PIB a precios constantes. El PIB real da respuesta a una

pregunta hipotética: ¿Cuál será el crecimiento real del PIB?

Para poder realizar un análisis del PIB real, se requiere escoger un año base de

análisis. Usualmente se escoge como año base el más estable de la serie. Por ejem-

plo, en la serie de datos del PIB e inflación 1990-1999 obtenida del INEGI a pre-

cios corrientes se observa que el año 1994 es el que tiene menor inflación, por lo

tanto puede seleccionarse como año base tabla 10.5

Tabla 10.5 PIB Nacional 1990-1999

Año PIB (Corrientes) Inflación

1990 2.697.294.027 0,2654

1991 3.510.654.340 0,2284

1992 4.198.677.709 0,1558

1993 4.697.560.701 0,0978

1994 5.248.801.852 0,0697

1995 6.645.246.991 0,3477

1996 9.388.750.603 0,3526

1997 12.092.586.530 0,2082

1998 14.694.672.927 0,1590

1999 16.282.611.699 0,1672 Fuente: elaboración propia con datos del Banco de información sectorial, INEGI

2008

Para realizar la comparación hay que seguir los siguientes pasos:

1.- Seleccionar el año base

2.- Establecer el número índice base = 1

3.- Calcular los números índices en base a la inflación (variable conocida) a través

Page 246: Estadistica i - Libro

248

de la fórmula: Inflación es = IPC(este año) menos IPC (del año pasado) entre IPC

(año pasado).

Dado que se conoce la inflación y el índice del año base se procede a calcular los

índices de los años anteriores y posteriores del año base.

Para el cálculo del IP1993:

Inflación 1994 = (IP1994 – IP1993)/ IP1993 = 0.0697 = (1 - IP1993)/ IP1993

Despejando: IP1993 = 1/(1.0697) = 0.93

Para el cálculo del IP1992:

Inflación 1993 = (IP1993 – IP1992)/ IP1992 = 0.0978 = (0.93 - IP1992)/ IP1992

Despejando: IP1992 = .93/(1.0978) = 0.847

Para el cálculo del IP1991:

Inflación 1991 = (IP1992 – IP1991)/ IP1991 = 0.1558 = (0.847 - IP1991)/ IP1991

Despejando: IP1991 = .847/(1.1558) = 0.7328

Para el cálculo del IP1990:

Inflación 1991 = (IP1991 – IP1990)/ IP1990 = 0.2284 = (0.7328 - IP1990)/ IP1990

Despejando: IP1991 = .7328/(1.2284) = 0.5965

Para el cálculo del IP1995:

Inflación 1995 = (IP1995 – IP1994)/ IP1994 = 0.3477 = (IP1995- 1)/ 1

Despejando: IP1995 = 1*(.3477+1) = 1.3477

Para el cálculo del IP1996:

Inflación 1996 = (IP1996 – IP1995)/ IP1995 = 0.3526 = (IP1996- 1.3477)/ 1.3477

Despejando: IP1995 = 1.3477*(.3526+1) = 1.8229

Para el cálculo del IP1997:

Page 247: Estadistica i - Libro

249

Inflación 1997 = (IP1997 – IP1996)/ IP1996 = 0.2082 = (IP1997- 1.8229)/ 1.8229

Despejando: IP1995 = 1.8229*(.2082+1) = 2.2024

Para el cálculo del IP1998:

Inflación 1998 = (IP1998 – IP1997)/ IP1997 = 0.1590 = (IP1998- 2.2024)/ 2.2024

Despejando: IP1995 = 2.2024*(.1590+1) = 2.5525

Para el cálculo del IP1999:

Inflación 1999 = (IP1999 – IP1998)/ IP1998 = 0.1672 = (IP1999- 2.5525)/ 2.5525

Despejando: IP1995 = 2.5525*(.1672+1) = 2.9792

• PIB nominal producción de bienes y servicios valorada a precios corrientes

• PIB real producción de bienes y servicios valorada a precios constantes.

Tabla 10.6 PIB Nacional 1990-1999

(mi l es de p esos a p recios de 1994)

Fuente: elaboración propia con datos del Banco de información sectorial, INEGI

2008

Page 248: Estadistica i - Libro

250

La diferencia sustantiva entre el análisis del PIB a precios corrientes y del PIB a

precios constantes radica en que a este último se le descuenta el efecto de la infla-

ción. Por ejemplo, si quisiéramos analizar el crecimiento del PIB entre los años

1994 y 1999, tendríamos que a precios corrientes el crecimiento fue de 16 282 611

699/ 5 248 801 852 = 3.10 veces, es decir, creció 210% más que 1994. Sin embar-

go a precios constantes el crecimiento real fue apenas de 5 465 195 514/5 248 801

852 = 1.04, es decir apenas el 4% de crecimiento.

Índices bursátiles

Los índices bursátiles son números índices que reflejan la evolución en el tiempo

de los precios de los títulos cotizados en un mercado. La muestra de activos que

componen el índice obedece a ciertos criterios de elección que en general tienen

que ver con el volumen negociado y la capitalización bursátil. Dado que existen

distintos tipos de títulos cotizados (acciones, derivados) se pueden calcular diferen-

tes tipos de índices, aunque los más conocidos son los que se refieren a las accio-

nes.

Los índices pueden suponer agrupaciones parciales de valores (sectoriales) o globa-

les (generales).

Técnicamente son números índices temporales complejos y en la mayoría de los

casos ponderados. La finalidad de los índices bursátiles es reflejar la evolución en

el tiempo de los precios de los títulos admitidos a cotización en Bolsa. En resumen

tratan de reflejar el comportamiento de todos los valores que cotizan en la bolsa

tomados en conjunto como si fuera una sola unidad.

En México el indicador del desarrollo del mercado accionario es el índice de Pre-

cios y Cotizaciones (IPC), calculado en función a las variaciones de precios de una

selección de acciones balanceada, ponderada y representativa del conjunto de ac-

ciones cotizadas en la Bolsa Mexicana de Valores.

Page 249: Estadistica i - Libro

251

La muestra empleada para su cálculo se integra por emisoras de distintos sectores

de la economía y se revisa semestralmente. El peso relativo de cada acción se ex-

plica por su valor de mercado. Es decir, se trata de un índice ponderado por valor

de capitalización. La fecha base es el 30 de octubre de 1978 = 100. Se consideran

en él 35 series accionarias clasificadas como de alta y media bursatilidad, es decir,

las más negociadas del mercado tanto por volumen como por importe.

Tabla 10.7 Índice de precios y cotizaciones de la bolsa mexicana

10.3 Análisis de patrones básicos

Los cambios en los fenómenos sociales y económicos en el pasado pueden ser ana-

lizados en base a los cambios de sus patrones básicos a través del tiempo.

En materia de análisis de los cambios de series de tiempo es importante, porque el

conocimiento del pasado permite predecir con mayor exactitud el comportamiento

futuro. Una serie de tiempo que representa una actividad particular, es el resultado

de la interacción de diversos factores dinámicos que pueden ser de tipo económico,

político o de influencia social. Los factores de cambio son los que se investigan y

Page 250: Estadistica i - Libro

252

estudian para la toma de decisiones. Éstos se presentan en forma de tendencia, es-

tacional, cíclica o irregular.

Tendencia.- Los fenómenos de tendencia señalan la dirección del movimiento de

una serie de tiempo sobre un largo período. El movimiento puede ser de forma

ascendente o descendente. Cuando se muestra gráficamente, normalmente se hace a

través de una línea recta o una curva.

Variación estacional.- Los fenómenos de variación estacional son movimientos

periódicos que están influidos por las condiciones del tiempo, las tradiciones, los

hábitos, entre otros.

Fluctuaciones cíclicas.- Indican expansiones o contracciones de los movimientos

alrededor de una cantidad normal. Las fuerzas que los motivan son principalmente

factores económicos: niveles de inversión, producción, consumo, gasto, entre otras.

Movimientos irregulares.- Representan todo tipo de movimientos de una serie de

tiempo que no presenten característica en forma de tendencia, estacional o cíclica.

Estas son de difícil estudio.

10.4 Métodos de estimación de las tendencias

Para el análisis de las series de tiempo se puede elaborar un manejo de datos al

interior de cada período para determinar una cantidad que lo represente en forma

de tendencia. Adicionalmente, se tendrá que realizar un análisis cualitativo que

explique el comportamiento real: estacional, cíclico o irregular.

Tendencia lineal

La estimación de una serie de tiempos se puede efectuar a través del método gráfi-

co y el de los mínimos cuadrados.

Page 251: Estadistica i - Libro

253

Método gráfico

En un sistema de coordenadas X y Y, con una escala apropiada en cada uno de los

ejes, se grafica, en forma individual, los valores que le corresponden a cada varia-

ble. Posteriormente se traza una curva que trata de pasar lo más cerca de cada uno

de los puntos graficados. El método gráfico es un método rudimentario y debe ser

considerado apenas como una aproximación.

Figura 10.1 Método gráfico

Métodos de mínimos cuadrados

El Método de Mínimos Cuadrados Ordinarios es un modelo estadístico que hace

parte de un grupo denominado Modelos de Regresión, estos explican la dependen-

cia de una variable "Y" respecto de una o varias variables cuantitativas "X":

En el Método de Mínimos Cuadrados Ordinarios se estudia una única ecuación con

solo dos variables y con una regresión lineal.

El análisis de regresión trata de la dependencia de las variables explicativas, con el

Regression

95% confid.

Método Gráfico

X

Y

10

12

14

16

18

20

22

24

-5 -3 -1 1 3 5

Page 252: Estadistica i - Libro

254

objeto de estimar y/o predecir la media o valor promedio poblacional de la variable

dependiente en términos de los valores conocidos o fijos de las variables explicati-

vas. Se trata de encontrar una recta que se ajuste de una manera adecuada a la nube

de puntos definida por todos los pares de valores muestrales (Xi,Yi).

Este método de estimación se fundamenta en una serie de supuestos, los que hacen

posible que los estimadores poblacionales que se obtienen a partir de una muestra,

adquieran propiedades que permitan señalar que los estimadores obtenidos sean los

mejores.

Pues bien, el método de los mínimos cuadrados ordinarios consiste en hacer míni-

ma la suma de los cuadrados residuales, es decir lo que tenemos que hacer es hallar

los estimadores que hagan que esta suma sea lo más pequeña posible.

Las de tendencia lineal son aquellos puntos que más se acercan a una línea recta.

Recordemos que la fórmula general de una línea es Y = a + bX, en donde:

Y = valor de la ordenada de un punto sobre la recta, variable dependiente;

X = valor de la abscisa de un punto sobre la recta, variable independiente.

a = intersección de la recta en el eje de las Y (altura de la ordenada, desde el

origen al punto de intersección de la línea recta con el eje de la Y)

b = pendiente de la línea recta

Para poder considerar el método de los mínimos cuadrados, se tiene que recurrir a

las 2 propiedades matemáticas de un grupo de valores de tendencia central, que

son:

1.- La suma de las desviaciones de los valores individuales con respecto a

la media es igual a cero Σ (Y-Ym) = 0,

2.- La suma de los cuadrados de estas desviaciones es un mínimo. Σ (Y-

Ym)2 es un mínimo, es decir tiende a cero.

Page 253: Estadistica i - Libro

255

Para obtener la solución de las dos incógnitas, las constantes a y b en la ecuación

general Y = a + bX, mediante el método de mínimos cuadrados se requiere tener

dos ecuaciones obtenidas de la primera derivada de a y de b:

El procedimiento consiste entonces en minimizar los residuos al cuadrado Di²

∑Di

2

= ∑(Yi-Ym)2 …reemplazando Ym por (a +bX)

∑ Di

2

= ∑ [Yi-(a +bX) ]2

La obtención de los valores de a y b que minimizan esta función es un problema

que se puede resolver recurriendo a la derivación parcial de la función en términos

de a y b: llamemos G a la función que se va a minimizar:

G= ∑ [Y-a -bX) ]2

Tomemos las derivadas parciales de G respecto de a y b que son las incógnitas y

las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuacio-

nes normales del modelo que pueden ser resueltas por cualquier método ya sea

igualación o matrices para obtener los valores de a y b

Derivamos parcialmente la ecuación respecto de a:

dG/da = 2∑ (Y- a - bX) (-1) = 0

∑Y – na -b∑X ) = 0

Y = na + b ∑X Primera ecuación normal

Derivamos parcialmente la ecuación respecto de b

dG/db = 2∑ (Y- a - bX) (-X) = 0

-2 ∑ (Y – a – bX ) (X) = 0

∑XY -a∑X – b∑X2 = 0

Page 254: Estadistica i - Libro

256

∑XY = a∑X + b∑X2 Segunda ecuación normal

Con el propósito de simplificar la fórmula, se considera a ΣX = 0, lo que significa

que:

I.- ∑Y= na + b∑X II.- ∑XY = a∑X + b∑X2

a = (ΣY)/n b = Σ (XY)/ ΣX2

Ejemplo. Supóngase una serie de datos de exportación de un bien a lo largo de 7

años.

Tabla 10.8 Exportaciones de café mexicano

(en miles de toneladas)

Año Exportaciones

1994 165

1995 180

1996 259

1997 274

1998 247

1999 225

2000 250 Figura 10.2 Gráfico de dispersión

Page 255: Estadistica i - Libro

257

Tabla 10.9 Cálculo de los parámetros a y b

X Y X2XY

-3 165 9 -495

-2 180 4 -360

-1 259 1 -259

0 274 0 0

1 247 1 247

2 225 4 450

3 250 9 750

0 1600 28 333

∑X= 0 ∑Y= 1600 ∑X2= 28 ∑XY= 333

a = ∑Y/n = 1600/5= 228.57

b = ∑XY/∑X2 = 333/28 = 11.89

La ecuación de la recta es de; Y = 228+11.89X

Los nuevos valores calculados de Y se observan en la tabla 10.5

Tabla 10.10 Nuevos valores de Y

X a 11,89 X Y

-3 228 -35,67 192,33

-2 228 -23,78 204,22

-1 228 -11,89 216,11

0 228 0 228

1 228 11,89 239,89

2 228 23,78 251,78

3 228 35,67 263,67

4 228 47,56 275,56

5 228 59,45 287,45

Figura 10.3 Línea de regresión

Page 256: Estadistica i - Libro

258

Utilizando el paquete estadístico SPSS, con los comandos Analizar

/Regresión/mínimos cuadrado en dos fases, se obtienen los valores de las constan-

tes a y b al tiempo que calcula los nuevos valores para la ecuación de regresión.

También calcula la proyección para los años siguientes dando un click en guardar.

Figura 10.4 Menú de cálculo regresión lineal en SPSS

Page 257: Estadistica i - Libro

259

Figura 10.5 Menú de selección de variable dependiente e independiente

Figura 10.6 Resultados de cálculo de los parámetros a y b

a

b

Page 258: Estadistica i - Libro

260

Figura 10.7 Nuevos valores de la línea de regresión

Nuevos datos calculados

Tendencia exponencial

En el caso de la tendencia exponencial la ecuación general es Y = aebx

, que expre-

sada en logaritmos queda Ln Y = nc + Xb

Aplicando el método de mínimos cuadrados, los dos parámetros desconocidos a y b

pueden calcularse con las siguientes fórmulas básicas:

∑LnY= nc + ∑Xb

∑LnY * X = ∑Xc + ∑X2b

a = ec

Ejemplo: Se requiere estimar, de acuerdo a los datos estadísticos de INEGI, la po-

blación total del municipio de Victoria para el año 2010 y 2020 suponiendo que las

condiciones que influyen en el crecimiento siguen igual. Los datos que se tienen

son:

Page 259: Estadistica i - Libro

261

Tabla 10.11 Datos históricos de población de Cd. Victoria

El primer paso es obtener los factores que integran las fórmulas básicas de cálculo,

como son: n, ∑X, ∑LnY y ∑X2, para ello se tiene que generar la siguiente tabla:

Tabla 10.12 Cálculo de factores de ecuaciones básicas

Ecuaciones básicas:

∑LnY= nc + ∑Xb

∑LnY * X = ∑Xc + ∑X2b

Page 260: Estadistica i - Libro

262

a = ec

Sustitución de factores:

90.30 = 8c + 36b

421.35 = 36c + 204b

Ahora se tiene dos ecuaciones con dos incógnitas que se pueden resolver en forma

simultánea multiplicando la primera ecuación por -4.5, obteniendo:

421.35 = 36c + 204b

-406.35=-36c -162b, si se suma a la segunda ecuación nos queda:

15 = 42b;

b = .357, sustituyendo el valor de b en la primera ecuación, se tiene que:

90.30 = 8 c + 36 (.357); 8c = 77.47; c= 9.68

Por lo tanto

a = ec = 2.718

9.68 = 15,978

Sustituyendo los valores de a y de b en la ecuación general se tiene:

Y = aebx

= 15,978 (e(.357)(9)

) = (15,978)(24.85) = 397, 053, sería la población esti-

mada para el 2010; para el 2020, sería:

Y = aebx

= 15,978 (e(.357)(10)

) = (15,978) (35.5) = 567,274, para el 2020.

La estimación exponencial, a través del modelo de regresión no lineal, se puede

obtener sólo con capturar los datos fuente y hacer click en el paquete estadístico

SPSS; tal como se muestra enseguida.

Page 261: Estadistica i - Libro

263

Figura 10.8 Datos originales y menú de regresión no lineal.

Figura 10.9 Selección de variables dependiente e independiente

Page 262: Estadistica i - Libro

264

Figura 10.10 Hoja de resultados: valores de a y de b y gráfica de la tendencia

curvilínea

a b

Figura 10.11 Valores de la curva de regresión (calculados)

nuevos valores dela variable

La estimación a través del método de tendencia exponencial para períodos largos es

algo inexacto debido a que considera la evolución total del fenómeno, que en la

última fase puede cambiar sustancialmente.

Page 263: Estadistica i - Libro

265

Tasa anual de crecimiento

Existe otra manera de realizar la estimación exponencial que considera la tasa

anual de crecimiento entre un período dado. Se puede aplica la fórmula Yn = Yo (1

+ t)n, donde Yn es la cantidad a calcular, Yo es la cantidad del período base, t es la

tasa de crecimiento del período y n es el número de períodos, sea éstos, años, me-

ses, días, etc.

Para el caso de la población del municipio de Victoria, la tasa de crecimiento del

último período se obtiene sustituyendo los valores de las poblaciones de 1990 y

2000; sustituyendo los valores en la ecuación tenemos: 263,063 = 207,923 (1 +t)10

,

lo único que falta conocer es la t = tasa anual de crecimiento, n se refiere a los 10

años del período.

t = raíz décima de (263,063/207,923) – 1= 1.0238 – 1 = 0.0238

Para estimar la población para el año 2010 y 2020, se utiliza la fórmula de interés

compuesto:

Yn = Yo (1 + t)n;

263,063 (1 + 0.0238)

10 = 332,821

Yn = Yo (1 + t)n;

263,063 (1 + 0.0238)

20 = 421,077

Si comparamos los valores calculados manualmente con los obtenidos con el pa-

quete SPSS, se observará que no existe mucha diferencia, pero si existe diferencia

entre el método exponencial y el de interés compuesto. El investigador deberá es-

coger el que más se acerque a sus pretensiones. Existen métodos de ajuste para

estimaciones más exactas, pero están fuera de los propósitos de este libro, aquí sólo

se trata de dar una idea general de los más usados y que pueden calcularse con el

apoyo de programas de cómputo, más que realizar los cálculos matemáticos.

Page 264: Estadistica i - Libro

266

Tabla 10. 13 Comparación de valores estimados obtenidos manualmente, por

SPSS y de interés compuesto

Valores

obtenidos

manualmente

Valores

obtenidos en

SPSS

Valores

interés

compuesto

2010 397,053 397,931 332,821

2020 567,274 568,622 421,077

10.5 Correlación.

El coeficiente de correlación de Pearson es un índice estadístico que mide la rela-

ción lineal entre dos variables cuantitativas. A diferencia de la covarianza, la corre-

lación de Pearson es independiente de la escala de medida de las variables.

El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza

por el producto de las desviaciones estándar de ambas variables:

Siendo:

σXY la covarianza de (X,Y)

σX y σY las desviaciones estándar de las distribuciones marginales.

El valor del índice de correlación varía en el intervalo [-1, +1]:

Si r = 0, no existe relación lineal. Pero esto no necesariamente implica una

independencia total entre las dos variables, es decir, que la variación de

una de ellas puede influir en el valor que pueda tomar la otra. Pudiendo

haber relaciones no lineales entre las dos variables. Estas pueden calcularse

con la razón de correlación.

Page 265: Estadistica i - Libro

267

Si r = 1, existe una correlación positiva perfecta. El índice indica una de-

pendencia total entre las dos variables denominada relación directa: cuando

una de ellas aumenta, la otra también lo hace en idéntica proporción.

Si 0 < r < 1, existe una correlación positiva.

Si r = -1, existe una correlación negativa perfecta. El índice indica una de-

pendencia total entre las dos variables llamada relación inversa: cuando

una de ellas aumenta, la otra disminuye en idéntica proporción.

Si -1 < r < 0, existe una correlación negativa.

Siguiendo con el mismo ejemplo de exportaciones de café mexicano, para aceptar

como válida la línea de regresión calculada, se requiere que el índice de correlación

sea superior a 0.5, como se puede observar en los siguientes cálculos utilizando el

paquete estadístico SPSS.

El valor del índice de correlación de Pearson para este ejemplo es de .623, lo que

significa se puede aceptar como válido el cálculo.

Figura 10.12 Cálculo de índice de correlación con SPSS

Page 266: Estadistica i - Libro

268

Figura 10.13 Resultados del cálculo de índice de correlación

Figura. 10.14.- Diagramas de correlación

10.6 Resumen

El análisis de series históricas sirve para estudiar la tendencia de crecimiento de las

variables, tales como la población, el ingreso, la demanda, la producción, las im-

portaciones, las exportaciones y en general, todos los factores que tienen un creci-

miento y desarrollo. El análisis de series de tiempo abarca dos tipos: la construc-

Y

-r = 1.00

-r = 0.0

-r = 0.82

-r = -0.38

-r = 0.57

-r = -1.00

Y Y Y

Y Y

X

X X X

X X

Page 267: Estadistica i - Libro

269

ción de números índice y análisis de patrones básicos.

En general un número índice es aquella medida estadística que permite estudiar las

fluctuaciones o variaciones de una sola magnitud o de más de una en relación al

tiempo o al espacio. Los número índice son números relativos que multiplicados

por 100 representan el porcentaje comparado con una cifra original base.

Los números índice se construyen para analizar el cambio de precios, cantidades y

valores. Los hay simples y compuestos. Alguno índices como los de INPC y el IPC

de casa bolsa su elaboración es compleja.

Para el análisis de las series de tiempo se puede elaborar un manejo de datos al

interior de cada período para determinar una cantidad que lo represente en forma

de tendencia. Adicionalmente, se tendrá que realizar un análisis cualitativo que

explique el comportamiento real: estacional, cíclico o irregular.

Para el análisis de la tendencia del comportamiento de una variable dentro de un

período dado se puede realizar en forma gráfica y a través del método de mínimos

cuadrados, sea para una tendencia lineal o curvilínea. El cálculo matemático para

definir la línea o curva de regresión es más que complicado tedioso. Afortunada-

mente con los paquetes de software estadístico como el SPSS se facilita su cálculo

y estimación, incluso la gráfica dela tendencia.

Un instrumento estadístico que sirve de manera auxiliar para aceptar la relación de

una variable dependiente con una independientes es el índice de correlación de

Pearson, que es el cociente de la división de la covarianza de las variables en rela-

ción entre el producto de las desviaciones estándar de las mismas.

Page 268: Estadistica i - Libro

270

10.7 Términos clave

Índice de correlación

Índice de Precios y Cotizaciones IPC

Índice Nacional de precios al consu-

midor INPC

Índices compuestos

Índices simples

Inflación

Método de mínimos cuadrados

Método gráfico

Números índice

Tasa anual de crecimiento

Tendencia curvilínea

Tendencia lineal

Variable dependiente

Variable independiente

10.8 Problemas de repaso del capítulo

1.- El gerente de una tienda de abarrotes desea saber en forma individual y de con-

junto, la variación en precios, cantidades y valores de sus ventas del mes de octubre

con respecto a las ventas del mes de octubre del año pasado. El gerente tiene los

siguientes registros:

2.- La Secretaría de Desarrollo Económico y del Empleo del Gobierno del Estado

desea realizar, con el método gráfico y el de mínimos cuadrados, una estimación

del Producto Percápita de sus habitantes para los años 2005 y 2006. Para su esti-

mación cuenta con los siguientes datos:

Page 269: Estadistica i - Libro

271

3.- Se quiere ajustar una recta que exprese las ventas de una empresa en función de

los gastos en publicidad que hace a lo largo de 6 años (millones de pesos):

a) Elabore la línea de regresión que represente la tendencia de estas dos va-

riables

b) Verifique con el índice de correlación su validez

c) La empresa quiere obtener 35 millones de ventas, ¿cuánto debería gastar en

publicidad?

4.- De manera general una cadena de tiendas comerciales quiere estimar la pobla-

ción de México para el año 2020. Para hacerlo cuenta con los siguientes datos, en

Page 270: Estadistica i - Libro

272

millones de personas. Utilizando la tendencia exponencial y la de interés compues-

to, realice una estimación.

Población de México en millones de personas

5.- Estime la población del estado de Tamaulipas para el año 2010, si en el año

2000, de acuerdo a los datos del XII Censo General de Población y Vivienda había

2 753 222 habitantes y en el año 2005, de acuerdo al Conteo de Población y Vi-

vienda eran 3 024 238.

Page 271: Estadistica i - Libro

273

10.9 Mapa conceptual de análisis de series

GraficoTendencia

lineal

Tendencia

Exponencial

Simples

Compuestos

Análisis de series

Números índice

Métodos de

estimación

Índices de correlación

Tasa de

interés

compuesto

Mínimos

cuadrados

Page 272: Estadistica i - Libro

274

Page 273: Estadistica i - Libro

275

Bibliografía

Berenson L. Mark & Levine M. David. (1996). Estadística Básica en Administra-

ción, conceptos y aplicaciones. Prentice Hall, México D.F.

Goode,W y Hatt. (1975). P. Métodos de investigación social. Editorial Trillas,

México D. F.

Haber, A. and Runyon R. (1977). General Statistics. Addison-Wesley Publishing

Company, U.S.A.

Samuelson, Paul A. y Nordhaus, William D. (1999) Economía. McGraw-

Hill/Interamericana de España, S.A.U. Madrid.

Training Resources and Data Exchange (TRADE). (1995). How to Measure Per-

formance: A Handbook of Techniques and Tools. Safety and Health U.S. De-

partment of Energy.

Consultas en Internet:

Arsham, Hossein. (s.f.) Razonamiento Estadístico para Decisiones Gerenciales.

Disponible en: http://home.ubalt.edu/ntsbarsh/Business-stat/opre504S.htm.

García Muñoz, Tomás. (2003). El cuestionario como instrumento de evalua-

ción/investigación. Disponible en:

http://personal.telefonica.terra.es/web/medellinbadajoz/sociologia/El_Cuestiona

rio.pdf

Jara, Antonio. (2003). Estadística aplicada.

Marín Fernández, Josefa. (2002). ESTADÍSTICA: Prácticas de ordenador con

SPSS para Windows. Disponible en:

http://www.catedras.fsoc.uba.ar/sautu/pdfs/manual-spss.pdf

Recursos educativos para profesores. Exploración de datos, introducción a la es-

tadística descriptiva. Disponible en:

http://www.ucv.cl/web/estadistica/index.htm

Ruíz Muñoz David (2004). Manual de Estadística. Editado por eumed·net. ISBN:

84-688-6153-7. Disponible en:

http://www.eumed.net/cursecon/libreria/drm/drm-estad.pdf

Page 274: Estadistica i - Libro

276

Page 275: Estadistica i - Libro

277

Apéndices

Apéndice I: Repaso a matemáticas básicas 279

Apéndice II: Glosario de símbolos 283

Apéndice III: Glosario de términos 287

Apéndice IV: Lista de fórmulas. 297

Page 276: Estadistica i - Libro

278

Page 277: Estadistica i - Libro

279

Apéndice I

Repaso a matemáticas

básicas

Propiedades de las operaciones

La operación de adición (+)

o se escribe

o es comutativa:

o es asociativa:

Page 278: Estadistica i - Libro

280

o tiene una operación inversa llamada sustracción:

, que es igual a sumar un número negativo,

o tiene un elemento neutro 0 que no altera la suma:

La operación de multiplicación (×)

o se escribe: o

o es conmutativa: =

o es asociativa: o es abreviada por yuxtaposición:

o tiene una operación inversa, para números diferentes a cero, llamada

división:

, que es igual a multiplicar por el recíproco,

o tiene un elemento neutro 1 que no altera la multiplicación:

o es distributiva respecto la adición:

La operación de potenciación

o se escribe

o es una multiplicación repetida: (n ve-

ces)

o no es ni conmutativa ni asociativa: en general y

o tiene una operación inversa, llamada logaritmo:

Page 279: Estadistica i - Libro

281

o puede ser escrita en términos de raíz enésima: y

por lo tanto las raíces pares de números negativos no existen en el

sistema de los números reales. (Ver: sistema de números complejos)

o es distributiva con respecto a la multiplicación:

o tiene la propiedad:

o tiene la propiedad:

Propiedades de la igualdad

La relación de igualdad (=) es:

reflexiva:

simétrica: si entonces

transitiva: si y entonces

Leyes de la igualdad

La relación de igualdad (=) tiene las propiedades siguientes:

si y entonces y

si entonces

si dos símbolos son iguales, entonces, uno puede ser sustituido por el otro.

regularidad de la suma: trabajando con números reales o complejos sucede

que si entonces .

regularidad condicional de la multiplicación: si y no es ce-

ro, entonces .

Leyes de la desigualdad

La relación de desigualdad (<) tiene las siguientes propiedades:

Page 280: Estadistica i - Libro

282

de transitividad: si y entonces

si y entonces

si y entonces

si y entonces

Regla de los signos

En el producto de números positivos (+) y negativos (-) se cumplen las siguientes

reglas:

Page 281: Estadistica i - Libro

283

Apéndice II

Glosario de símbolos

Operadores matemáticos

≠ diferente

< menor que

> mayor que

≤ menor o igual que

≥ mayor o igual que

raíz cuadrada

Xn

X elevado a la n potencia

Page 282: Estadistica i - Libro

284

N! N factorial, multiplica a N por todos sus componentes menores que él

y mayores de cero

│X│ valor absoluto de X, es decir sin signo

∑n

X ii= 1 sumatoria de todas las X, desde X1 hasta Xn

∑n

X iX =

ni= 1 media aritmética de la muestra

Letras griegas

α probabilidad de cometer el error de tipo I, es decir rechazar la Ho cuan-

do es verdadera; nivel de significación.

β probabilidad de cometer el error de tipo II, aceptar la Ho cuando es falsa

χ2

Chi cuadrada

μ media de la población

σ2 varianza de la población

σ desviación estándar de la población

x - μ error muestral

σ/√n error estándar

Letras en español

a término constante en una ecuación de regresión

b pendiente de la línea recta, que es la relación de los valores de Y en X

f frecuencia

Ho hipótesis nula

H1 hipótesis alternativa

i iteración

k número de grupos o categorías

Page 283: Estadistica i - Libro

285

N tamaño de la población (elementos que la componen)

n tamaño de la muestra (elementos que la componen)

p proporción; probabilidad; porción

p(A) probabilidad de que ocurra el evento A

p(A│B) probabilidad de A dado que ocurrió B

Q probabilidad de que no ocurra un evento; proporción complementaria de

p; Q = (1-p)

Q1 primer cuartil, posición 25ª de la muestra

Q3 tercer cuartil, posición 75ª de la muestra

r coeficiente de correlación de Pearson

r2

coeficiente de determinación

S2 =

∑n

(X in - 1

- X‾ )2

i= 1 varianza de la muestra

n

(X iS =n - 1

- X‾ )2

i= 1

desviación estándar de la muestra

t(n-1) valores estandarizados t de student con (n-1) grados de libertad

Z valores estandarizados para la distribución normal

Page 284: Estadistica i - Libro

286

Page 285: Estadistica i - Libro

287

Apéndice III

Glosario de términos

Abscisa. En el plano cartesiano, se refiere al eje horizontal, comúnmente denomi-

nado eje de las Xs.

Análisis de varianza. el análisis de la varianza o análisis de varianza (ANOVA,

según terminología inglesa) es una colección de modelos estadísticos y sus

procedimientos asociados, en el cual la varianza está particionada en ciertos

componentes debidos a diferentes variables explicativas. Las primeras técni-

cas del análisis de varianza fueron desarrolladas por el estadístico y genetista

R. A. Fisher en los años 1920 y 1930s y es algunas veces conocido como

Page 286: Estadistica i - Libro

288

Anova de Fisher o análisis de varianza de Fisher, debido al uso de la distribu-

ción F de Fisher como parte del test de significancia estadística.

Arreglo de datos. Ordenar los datos de acuerdo a su magnitud, de menor a mayor o

viceversa.

Asintótica. Que tiene relación con una línea recta. En Estadistica la usamos para

definir a la curva de distribucion normal "Gaussiana" ya que es una curva o

campana que nunca "pega" en su base y se le llama doblemente asintótica, es

decir, de su extremo izquierdo y de su extremo derecho.

Censo. Estudio de las características de la totalidad de las unidades que componen

la población o universo.

Coeficiente de correlación. Existen diversos coeficientes que miden el grado de

correlación, adaptados a la naturaleza de los datos. El más conocido es el co-

eficiente de correlación de Pearson (introducido en realidad por Francis Gal-

ton), que se obtiene dividiendo la covarianza de dos variables por el producto

de sus desviaciones estándar.

Correlación. La correlación indica la fuerza y la dirección de una relación lineal

entre dos variables aleatorias. Se considera que dos variables cuantitativas

están correlacionadas cuando los valores de una de ellas varían sistemática-

mente con respecto a los valores homónimos de la otra: si tenemos dos varia-

bles (A y B) existe correlación si al aumentar los valores de A lo hacen tam-

bién los de B y viceversa. La correlación entre dos variables no implica, por

sí misma, ninguna relación de causalidad.

Dato. (del latín datum), es una representación simbólica (numérica, alfabética, al-

gorítmica etc.), del atributo o característica de una entidad. El dato no tiene

valor semántico (sentido) en sí mismo, pero convenientemente tratado (pro-

Page 287: Estadistica i - Libro

289

cesado) se puede utilizar en la realización de cálculos o toma de decisiones.

Ejemplos de datos: la altura de una montaña, la fecha de nacimiento de un

personaje histórico, el peso específico de una sustancia, el número de habi-

tantes de un país, etc. La información representa un conjunto de datos rela-

cionados que constituyen una estructura de menos complejidad (por ejemplo,

un capítulo de un libro de ciencias).

Estadística descriptiva. Es una parte de la estadística que se dedica a analizar y

representar los datos. Este análisis es muy básico, pero fundamental en todo

estudio. Aunque hay tendencia a generalizar a toda la población las primeras

conclusiones obtenidas tras un análisis descriptivo, su poder inferencial es

mínimo y debería evitarse tal proceder.

Estadística inferencial. Es una parte de la Estadística que comprende los métodos

y procedimientos para deducir propiedades (hacer inferencias) de una pobla-

ción, a partir de una pequeña parte de la misma (muestra).

Estadística. La estadística es una ciencia con base matemática referente a la reco-

lección, análisis e interpretación de datos, que busca explicar condiciones re-

gulares en fenómenos de tipo aleatorio. Es transversal a una amplia variedad

de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de

la salud hasta el control de calidad, y es usada para la toma de decisiones en

áreas de negocios e instituciones gubernamentales.

Estadístico. Es una medida cuantitativa, derivada de un conjunto de datos de una

muestra, con el objetivo de estimar o contrastar características de una pobla-

ción o modelo estadístico.

Frecuencia absoluta. Es el número de veces (ni) que aparece en el estudio el valor

de una variable estadística Xi,

Page 288: Estadistica i - Libro

290

Frecuencia absoluta acumulada. Es la suma de las frecuencias absolutas de todos

los valores menores o iguales que él, Fi. La frecuencia absoluta acumulada

del último valor es igual al número de datos.

Frecuencia relativa (fi). Es el cociente entre la frecuencia absoluta y el tamaño de

la muestra (n).

Frecuencia relativa acumulada (Fi). Es el cociente entre la frecuencia absoluta

acumulada y el número total de datos, n. Con la frecuencia relativa acumula-

da por 100 se obtiene el porcentaje acumulado (Pi)

Frecuencia. Se llama frecuencia a la cantidad de veces que se repite un determina-

do valor de la variable. Se suelen representar con histogramas y con diagra-

mas de Pareto.

Grados de libertad. Es un estimador del número de categorías independientes en

una prueba particular o experimento estadístico. Se encuentran mediante la

fórmula n-1, donde n = número de sujetos en la muestra (también pueden ser

representados por k-1 donde k = número de grupos, cuando se realizan ope-

raciones con grupos y no con sujetos individuales).

Hipótesis alternativa. Es una hipótesis de contraste (oposición) con la hipótesis

nula, se representa como H1.

Hipótesis nula. En estadística, una hipótesis nula es una hipótesis construida para

anular o refutar. Cuando se le utiliza, la hipótesis nula se presume verdadera

hasta que una evidencia estadística en la forma de una prueba de hipótesis in-

dique lo contrario. Se representa como Ho.

Intervalo de clase. Rango utilizado para dividir el conjunto de posibles valores numé-

ricos al trabajar con grandes cantidades de datos. Por ejemplo, si los valores

Page 289: Estadistica i - Libro

291

están entre 1 y 100, se podrían definir grupos por medio de los intervalos 1-25,

26-50, 51-75, 76-100 cuando el intervalo de la clase es 25.

Intervalo de confianza. Par de números entre los cuales se estima que estará cierto

valor desconocido con una determinada probabilidad de acierto. Formalmente,

estos números determinan un intervalo, que se calcula a partir de datos de una

muestra, y el valor desconocido es un parámetro poblacional.

Media armónica. Representada H, de una cantidad finita de números es igual al

recíproco, o inverso, de la media aritmética de los recíprocos de dichos

números.

Media geométrica. Es la raíz n-ésima del producto de todos los números.

Media muestral. Es una medida cuantitativa, derivada de un conjunto de datos de

una muestra, con el objetivo de estimar o contrastar características de una

población o modelo estadístico.

Media ponderada. Es la medida de un conjunto de valores de una variable X a los

que se han asignado pesos (ponderaciones). Su cálculo se realiza a través de

la sumatoria de los valores individuales de la variable multiplicados por la

ponderación correspondiente, dividida entre la sumatoria de las ponderacio-

nes.

Media. Es el promedio de medida de una característica (variable) de un conjunto de

números; llamada media aritmética, es igual a la suma de todos sus valores

dividida por el número de sumandos.

Mediana. Es el valor de la variable que deja el mismo número de datos antes y

después que él, una vez ordenados estos. De acuerdo con esta definición el

conjunto de datos menores o iguales que la mediana representarán el 50% de

Page 290: Estadistica i - Libro

292

los datos, y los que sean mayores que la mediana representarán el otro 50%

del total de datos de la muestra. La mediana coincide con el percentil 50, con

el segundo cuartil y con el quinto decil.

Método estadístico. El conjunto de técnicas que se utilizan para medir las carac-

terísticas de la información, resumir los valores individuales, y analizar los

datos a fin de extraerles el máximo de información.

Moda. Es el valor que cuenta con una mayor frecuencia en una distribución de

datos.

Muestra. Porción de la población que, bajo ciertas condiciones de confianza, repre-

senta las características de la población o universo.

Nivel de confianza. La probabilidad de éxito que se desea obtener en la estimación

se representa por 1 – α. El nivel de confianza y la amplitud del intervalo var-

ían conjuntamente, de forma que un intervalo más amplio tendrá más posibi-

lidades de acierto (mayor nivel de confianza), mientras que para un intervalo

más pequeño, que ofrece una estimación más precisa, aumentan sus posibili-

dades de error.

Nivel de significación. Es la probabilidad de fallar en la estimación en el intervalo

de confianza, dado un nivel de confianza (1-α), se representa por α. También

se conoce como la probabilidad de cometer un error de tipo I, es decir, recha-

zar la hipótesis nula cuando ésta es verdadera. La suma del nivel de confian-

za y el nivel de significación es igual a 1.

Ordenada. En el plano cartesiano se refiere al eje vertical, comúnmente denomina-

do eje de las Ys.

Page 291: Estadistica i - Libro

293

Parámetro. Es una medida definida sobre valores numéricos de una población,

como la media aritmética, la varianza o su desviación estándar.

Población o universo. Número total de individuos, objetos o medidas que tienen

características observables comunes, en un espacio común.

Potencia de prueba. (1-β) es la probabilidad de no cometer un error de tipo II, es

decir rechazar la hipótesis nula cuando esta es verdaderamente falsa y debería

ser rechazada.

Primer cuartil. Es el valor en el cual o por debajo del cual queda un cuarto (25%)

de todos los valores de la sucesión (ordenada).

Región crítica. Es la proporción del área debajo de la curva que incluye los valores

de rechazo de una hipótesis nula.

Tercer cuartil. Es el valor en el cual o por debajo del cual quedan las tres cuartas

partes (75%) de los datos.

Valor absoluto. En matemática, el valor absoluto de un número real es su valor

numérico sin su respectivo signo, sea este positivo (+) o negativo (-); o en

otras palabras, su distancia en la recta numérica hasta el valor cero, indepen-

diente al lado que pertenezca.

Variable continua. Es la variable que puede adquirir cualquier valor dentro de un

intervalo especificado de valores. Por ejemplo el peso (2.3 kg, 2.4 kg, 2.5

kg...) o la altura (1.64 m, 1.65 m, 1.66 m...), que solamente está limitado por

la precisión del aparato medidor, en teoría permiten que siempre exista un va-

lor entre dos cualesquiera.

Page 292: Estadistica i - Libro

294

Variable cualitativa nominal. En esta variable los valores no pueden ser someti-

dos a un criterio de orden como por ejemplo los colores o el lugar de residen-

cia.

Variable cualitativa ordinal. La variable puede tomar distintos valores ordenados

siguiendo una escala establecida, aunque no es necesario que el intervalo en-

tre mediciones sea uniforme, por ejemplo, leve, moderado, grave.

Variable discreta. Es la variable que presenta separaciones o interrupciones en la

escala de valores que puede tomar. Estas separaciones o interrupciones indi-

can la ausencia de valores entre los distintos valores específicos que la varia-

ble pueda asumir. Ejemplo: El número de hijos (1, 2, 3, 4, 5).

Variable. Es una característica (magnitud, vector o número) que puede ser medida,

adoptando diferentes valores en cada uno de los casos de un estudio, como el

peso, talla, edad, temperatura, longitud, etc.

Variables cualitativas. Son las variables que expresan distintas cualidades, carac-

terísticas o modalidad. Cada modalidad que se presenta se denomina atributo

o categoría y la medición consiste en una clasificación de dichos atributos.

Las variables cualitativas pueden ser ordinales y nominales. Las variables

cualitativas pueden ser dicotómicas cuando sólo pueden tomar dos valores

posibles como sí y no, hombre y mujer o son politómicas cuando pueden ad-

quirir tres o más valores. Dentro de ellas podemos distinguir:

Variables cuantitativas. Son las variables que se expresan mediante cantidades

numéricas.

Variables dependientes. Son las variables de respuesta que se observan en el estu-

dio y que podrían estar influenciadas por los valores de las variables inde-

pendientes.

Page 293: Estadistica i - Libro

295

Variables independientes. Es la variable que sola o en compañía de otras inciden

en el valor de otra. Los cambios en los valores de este tipo de variables de-

terminan cambios en los valores de otra (variable dependiente).

Page 294: Estadistica i - Libro

296

Page 295: Estadistica i - Libro

297

Apéndice IV

Lista de fórmulas Cálculo de medidas resumen

Media =

Rango medio = Xmenor + Xmayor

n

Cuartil 1 = Q1 = (n + 1)/4 de las observaciones ordenadas.

Mediana = (n + 1)/2 de las observaciones ordenadas, es igual a la mediana.

Cuartil 3 = Q3 = valor correspondiente a la posición 3(n + 1)/4

Varianza de la muestral = S2 = (X1 - X‾ )

2

+ (X2 - X‾ )2

+ ………….+ (Xn - X‾ )2

n-1

Page 296: Estadistica i - Libro

298

Varianza de la muestra expresada en forma sintética: S2 =

∑n

(X in - 1

- X‾ )2

i= 1

Desviación estándar de la muestra =

∑n

(X iS =n - 1

- X‾ )2

i= 1

Coeficiente de variación = CV = (S )

X‾

Media de la población =

∑n

fX iµ =

Ni= 1

Varianza de la población

∑n

(X iσ

2 =

µ

N- )

2

i= 1

Desviación estándar de la población =

∑n

(X iσ χ =

µ

N- )

2

i= 1

Coeficiente de variación de la población = CVpob = (σ )µ

Error estándar Es = S/n½

Cálculo de probabilidades

P(A) = X/T, probabilidad simple, donde X es igual al número de resultados en los

que ocurre el evento y T es igual al número de resultados posibles.

P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn), probabilidad de A,

donde cada evento conjunto no pueden ocurrir simultáneamente, por lo que se les

denomina, eventos mutuamente excluyentes, pero tienen que ocurrir, es decir son

colectivamente exhaustivos si uno de los eventos debe ocurrir. La probabilidad de

A es igual a suma de sus probabilidades parciales.

Page 297: Estadistica i - Libro

299

P(AUB) = P(A) + P(B) - P(A B), regla de adición.

P(AUB) = P(A) + P(B), regla de adición cuando A y B son mutuamente excluyen-

tes.

P(A y B)=

P(A|B) = P(A) y P(B|A) = P(B), regla de independencia.

P(A|B) = P(A y B)/P(B)

P(A y B) = P(A|B) P(B), regla de multiplicación.

P(A y B) = P(A) P(B) regla de multiplicación para eventos independientes.

P(A) = P(A|B1) P(B1) + P(A|B2)P(B2)……+ P(A|Bn) P(Bn), donde B1, B2, B3…

Bn son eventos mutuamente excluyentes y colectivamente exhaustivos.

P(E) + P(~E) = 1, suma de probabilidad complemento.

Teorema de Bayes:

P(A|B = P(B |A)i

P(A|B )P(B )i i

1) P(B 1) + P(A|B 2)P(B 2)……+ P(A|Bn) P(Bn)

Permutaciones = n!/(n-X)!

Combinaciones = n!/X!(n-X)!

Valor esperado de la distribución de un variable discreta = µx = E(X) = ∑

n

(X i X iP )i= 1

Varianza de la distribución de un variable discreta = ∑n

(X -i µ x )2

X iσ2 = P )

i= 1

(((((

Desviación estándar de la distribución de un variable discreta = ∑

n

(X -i µ x ) 2X iσ =

P )i= 1

(((((

Distribución de probabilidad binomial:

n! p px n-x(1- )

x!(n-x)!

Page 298: Estadistica i - Libro

300

Distribución de probabilidad de Poisson:

e-λ xλP(X = x =|λ) x!

Distribución normal: f (X)=

σx

e-(½)[(x- )/ ]

2µx σx

1

Estandarización de valores reales a valores Z: Z =

X-µx

σx

Aproximación a la distribución normal de la distribución binomial.

X -npaZ = X-µx Z

np(1-p)σx

Aproximación a la distribución normal de la distribución Poisson.

X -a λZ =

X-µx Z λσx

Cálculo de índices

Índice de Precios Laspayere = IPL = (ΣPn x Qo)/ΣPo x Qo

Índice de cantidades Laspayere =IQL 2006 = (ΣQn x Po)/ΣPo x Qo

Para el índice de valor se utiliza la fórmula de Passche, IPQ = (ΣPn x Qn)/ΣPo x Qo

Método de mínimos cuadrados:

Y = a +bX

a = (ΣY)/n b = Σ (XY)/ ΣX2