modulo de estadistica descriptiva

55
Enzo Bravo Burgos

Upload: alvis-ulises

Post on 12-Aug-2015

108 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: Modulo de Estadistica Descriptiva

Enzo Bravo Burgos

Page 2: Modulo de Estadistica Descriptiva

PRESENTACION

Dos principios han presidido en todo momento la redacción de este texto de ayuda dirigido a los

participantes del curso “Estadística Aplicada para Ingenieros” del Programa WA de la

Universidad Privada del Norte.

El primero es la necesidad de demostrar la utilidad de la Estadística para encontrar soluciones a

los muchos problemas que se presentan a diario en condiciones reales. El texto pone de

relieve que en el mundo competitivo actual ya no es posible tomar decisiones basadas en

simples conjeturas o en lo que haya funcionado bien en el pasado. Muy al contrario, solo

después de una consideración detallada y de indagación científica se pueden plasmar

decisiones bien informadas e inteligentes.

El segundo es la necesidad de interpretar correctamente los resultados de todas las pruebas

estadísticas. Nunca se ponderará bastante la importancia de interpretar debidamente los

resultados de todas las pruebas estadísticas. No basta con “masticar números” y deducir una

respuesta. Sin la capacidad de interpretar ésta, se pierden su significado y su utilidad.

2

Page 3: Modulo de Estadistica Descriptiva

INTRODUCCION

El origen etimológico de la palabra Estadística, tiene diversas referencias: par algunos, proviene

de la voz griega STATERA, que significa “balanza”, otros sostienen que deriva del latín STATUS

que significa “situación”, mientras que algunos autores afirman que procede del alemán STAAT

que significa “estado”. En el caso concreto de suponer que viene del vocablo “estado”, es por el

hecho que una de las funciones tradicionales del gobierno y del Estado es llevar registros sobre

la situación de la población, nacimientos, defunciones, producción, impuestos, entre otros.

Es nuestro propósito, introducir al estudiante en los primeros pasos sobre el uso y manejo de

datos numéricos: distinguir y clasificar características en estudio, enseñarle a organizar y

tabular medidas obtenidas mediante la construcción de tablas de frecuencia, los métodos para

elaborar una imagen que sea capaz de mostrar gráficamente unos resultados y el cálculo de las

medidas.

Llegará un día en el que el razonamiento estadístico será tan necesario, como ahora lo es la habilidad de leer y escribir.

H.G. Wells (1866-1946)

3

Page 4: Modulo de Estadistica Descriptiva

ESTADÍSTICA E INVESTIGACIÓN

La estadística interviene en la investigación y/o el método científico a través de la experimentación y observación. Esto es, las observaciones experimentales y conocimientos son partes integrantes del método científico y esos métodos invariablemente conducen al empleo de técnicas de la estadística.

El uso de la Estadística como herramienta de la investigación no puede separarse de la planeación general del proyecto de investigación. Si un proyecto de investigación debe producir datos que van a ser tratados estadísticamente entonces un método estadístico apropiado debe formar parte integrante de un diseño total.

Aunque parece demasiado obvio, un proceso de investigación debe ser diseñado y planificado antes de efectuarse. Sin embargo, es bastante frecuente que muchos investigadores aporten muchos datos, obtenidos de manera fortuita y a menudo sin una idea precisa de por qué fueron obtenidos. En tales casos, es a veces triste decirle al investigador que sus esfuerzos fueron desperdiciados porque no hay una manera lógica de analizar sus datos.

PROCESO DE LA INVESTIGACION

1. Planteamiento del problema.2. Fijación de los objetivos.3. Formulación de la hipótesis.4. Definición de la unidad de observación y de la unidad de medida.5. Determinación de la población y de la muestra.6. La recolección.7. Crítica, clasificación y ordenación.8. Tabulación.9. Presentación10. Análisis11. Conclusiones

4

Page 5: Modulo de Estadistica Descriptiva

LAS COMPUTADORAS Y LA ESTADÍSTICA

La computadora se ha convertido en una herramienta importante en la presentación y análisis de los datos. Si bien muchas técnicas estadísticas sólo necesitan de una calculadora de mano, su empleo consume mucho tiempo y esfuerzo. La computadora realiza tales tareas con mucha mayor eficiencia. En el trabajo en computadora, el usuario introduce los datos y luego selecciona los tipos de análisis y la presentación de los datos que le interesa. Estas ventajas hacen del uso de la computadora una labor prácticamente imprescindible en el proceso del análisis de datos, vistos también la popularidad que van adquiriendo las computadoras y su imposición en la labor de cualquier actividad humana.

Para ello se ha creído conveniente utilizar no solo la hoja de cálculo de Excel, que definitivamente es una excelente herramienta en el procesamiento de datos, así mismo el uso de los paquetes estadísticos especializados brindan su mayor utilidad en la parte inferencial del curso a desarrollar, entre ellos SPSS, PAS 18, Minitab, etc.

I.LA ESTADISTICA

5

Page 6: Modulo de Estadistica Descriptiva

1. DEFINICIÓN:

La Estadística es una ciencia que nos ofrece un conjunto de métodos y técnicaspara recopilar, organizar, presentar, analizar e interpretar un conjunto de datos respecto a variables en estudio de una población, con el fin de obtener conclusiones y tomar decisiones sobre determinados hechos o fenómenos en estudio.

La estadística es una rama de la matemática y es parte del método científico. En la actualidad, para hacer investigación científica se necesita conocer de estadística.

2. CLASIFICACION DE LA ESTADÍSTICA

La Estadística se clasifica de la siguiente manera:

2.1. Estadística Descriptiva

Es aquella área de la Estadística que describe y analiza una población, sin pretender sacar conclusiones de tipo general. Es decir, las conclusiones obtenidas con validas solo para dicha población.

2.2. Estadística Inferencial

Es aquella área de la Estadística, cuyo propósito es inferir o inducir leyes de comportamiento de una población, a partir del estudio de una muestra. Es decir las conclusiones obtenidas a partir de una muestra, son validas para toda la población.

3. DEFINICIONES PRELIMINARES:

6

Estadística Descriptiva

Page 7: Modulo de Estadistica Descriptiva

3.1. POBLACIÓN:

Es un conjunto grande y completo de individuos, elementos o unidades que presentan como mínimo una característica en común y observable.Para definir una población esta debe contener los siguientes elementos: contenido, espacio y tiempo. Al número de elementos de una población de denota por “N”.

Una población puede clasificarse de la siguiente manera:

A. Según su extensión:Población Finita: es aquella que tiene un determinado número de elementos.

Población Infinita: Es aquella cuyos elementos no se pueden contar.

B. Según su ámbito o naturaleza: Población Objeto: está dada por los elementos que forman la población.

Población Objetivo: está dada por la información que da la población objeto

Ejemplo:

Lote de 10,000 botellas producidas para envases de cerveza. Compañía MONTESUR S.A. Lima – Octubre 2010.

3.2. MUESTRA

7

Page 8: Modulo de Estadistica Descriptiva

Es una parte o un subconjunto de la población en estudio. También se puede decir que es una colección de unidades de muestreo seleccionados de un marco muestral o de varios marcos muestrales.Al número de elementos de la muestra se denota por “n”.

Una muestra tiene las siguientes características:

a. Es representativa.

b. Es adecuada.

Ejemplo:

100 botellas de un lote; producidas para envases de cerveza. Compañía Compañía MONTESUR S.A. Lima – Octubre 2010.

3.3. UNIDAD DE ESTUDIO:

Es el animal persona o cosa de quien se dice algo. Es el elemento quien nos va a dar la información. Es el individuo u objeto del cual se toman las mediciones u observaciones.

Ejemplo:

Una botella para envase de cerveza.

3.4. VARIABLE:

Una variable es una característica de estudio de una población. Una variable es lo que se quiere evaluar en una investigación. Las características toma diferentes valores que varían de individuo a individuo o de objeto a objeto. Aquellas características que permanecen inalterables en las unidades de estudio reciben el nombre de constantes.

Generalmente, las variables se designan con las últimas letras mayúsculas del abecedario: X, Y, Z; y los valores de las variables se designan con letras minúsculas: x i , yi , etc.

Las variables se clasifican de la siguiente manera:

Por su relación: Variable dependiente - variable independiente.

8

Page 9: Modulo de Estadistica Descriptiva

Variable

Cualitativa Cuantitativa

Nominal Ordinal Discreta Continua

CualidadO

Atributo

Cantidad o

Número

Conteo MediciónNo orden Orden

Por su escala de medición: Nominal – Ordinal – Intervalo – Razón. Por su naturaleza: Cuantitativas - Cualitativas.

Ejemplo:

Presión de la botella de cerveza medida en lb/pul 2

3.5. OBSERVACIONES:

Estadísticamente son los datos que se recolectan para un estudio. Una observación o dato es cuando una variable en si toma un valor especifico.

Ejemplo:

262.02 (lb/pul 2)

ELEMENTOS DE UNA VARIABLE:

9

Page 10: Modulo de Estadistica Descriptiva

La identificación y definición de variables, es la tarea más delicada de toda la investigación y

del trabajo estadístico, y por tanto, para tener éxito en la selección de variables es

recomendable distinguir:

3.6 PARAMETRO:

Es un valor, una cantidad, un indicador que se obtiene con información de la población. Dentro de estos tenemos:

a. El promedio poblacional(μ)b. La varianza poblacional(σ 2)c. La proporción poblacional (P).

Ejemplo:

Presión promedio de las botellas de un Lote de 10,000 producidas para envases de cerveza. Compañía MONTESUR S.A. Lima – Octubre 2010.

3.7 ESTIMADOR:

Es un valor, una cantidad, un indicador que se obtiene con información de la muestra. Dentro de estos tenemos:

- Media Muestra (X )- Varianza Poblacional ( S 2 )- Proporción Muestral ( p)

Ejemplo:

Presión promedio de las botellas de una muestra de 100 de ellas, producidas para envases de cerveza. Compañía MONTESUR S.A. Lima – Octubre 2010.

CASO: Una fábrica de gaseosas proyecta lanzar al mercado un nuevo sabor. Se realiza un test de aceptación de dicho sabor en una muestra de 30 personas, utilizando una escala de 10 puntos, para medir el grado de aceptación. Los puntos obtenidos en las 30 personas fueron los siguientes:2 6 8 7 4 5 10 6 6 7 6 7 3 8 7 6 8 6 5 4 7 8 5 7 6 7 2 7 2 7

10

1. Un nombre o denominación de la variable2. Alguna definición o conceptualización3. Un conjunto de categorías, que es definida por el investigador.4. Procedimientos para categorizar las unidades de análisis5. Algunas medidas de resumen o análisis.

Page 11: Modulo de Estadistica Descriptiva

La muestra estuvo compuesta por igual personas de ambos sexos, de un barrio residencial de una ciudad.

a) ¿Cuál es la población? b) ¿Cuál es la muestra? c) ¿Cuál es la variable? d) ¿De qué tipo es? e) ¿Cuál es el estimador? f) ¿Cuál es el parámetro? g) ¿Cuál es la unidad de estudio?

4. Métodos y Técnicas de Recolección de Datos:

La información estadística, como datos procesados de acuerdo a ciertos objetivos, es un

medio que permite cuantificar y cualificar los aspectos de una realidad, de un fenómeno o

problema determinado, en un momento o periodo dado y un ámbito concreto. En general,

para identificar los datos y la información requerida es recomendable considerar:

a.- Naturaleza y objetivo de la investigación, como referencia para identificar las variables.

b.- Conocidas las variables se identifica los datos e información que se necesitara.

c.- Asegurar la posibilidad de acceso a la fuente de datos.

d.- Considerar las técnicas para la recolección de los datos.

4.1. Fuentes de Datos

La fuente de datos es el lugar, la institución, las personas o elementos donde están los

datos que necesitan para cada una de las variables o aspectos de la investigación.

A) Las Oficinas de estadística

11

Unidad de estudio

Variable de estudio Tipo:

Población

Muestra

Estimador

Parámetro

Page 12: Modulo de Estadistica Descriptiva

B) Archivos o Registros Administrativos

C) Documentos

D) Encuestas y Censos

E) Los elementos o sujetos

4.2. Técnicas de Recolección de Datos

Las técnicas de recolección son diversas y dependen de: la naturaleza del objeto de

estudio, de las posibilidades de acceso o contacto con los elementos investigados, del

tamaño de la población o muestra, de los recursos y de la oportunidad de obtener los

datos. Entre las más frecuentes tenemos:

4.2.1 LA OBSERVACION: La observación es el método básico que se utiliza para

adquirir información acerca del mundo que nos rodea, y por lo tanto constituye la

técnica primordial de la investigación científica.

Tipos de Observación:

Según los medios utilizados:

Observación Estructurada

Observación No Estructurada

Según la participación del observador:

Observación Participante

Observación No Participante

12

Page 13: Modulo de Estadistica Descriptiva

Según el lugar donde se realiza:

Observación Documental

Observación de Campo

Según el número de Observadores:

Observación Individual

Observación Colectiva

Ventajas:

Los hechos se estudian sin intermediarios

Se obtiene información independiente , los fenómenos se estudian en el

momento que ocurren.

Desventajas:

No sirve para estudiar muestras grandes

Es una técnica muy costosa, requiere de observadores altamente entrenados y

calificados.

No ofrece información sobre hechos pasados, futuros o manifestaciones

subjetivas.

4.2.2 LA ENTREVISTA: Es una situación de interrelación o dialogo entre personas, es

una técnica donde una persona llamada entrevistador, solicita el entrevistado, le

proporcione algunos datos o información.

Tipos de Entrevistas:

Entrevista Estructurada

Entrevista No Estructurada

Entrevista Focalizada

Entrevista Simultanea

13

Page 14: Modulo de Estadistica Descriptiva

Entrevista Sucesiva

Ventajas:

Permite estudiar un gran número de personas

Permite captar manifestaciones subjetivas de los entrevistados por su

comportamiento en el momento de la entrevista.

Permite preguntar sobre acontecimientos pasados y/o futuros.

Es menos costoso que la observación.

Desventajas:

Depende de la memoria y el deseo de participación de los entrevistados.

Se pueden obtener resultados diferentes según el tipo de preguntas y la manera

de formularlas.

La ausencia de secreto puede influir en la veracidad o deseo de proporcionar las

respuestas.

4.2.3 EL CUESTIONARIO: Es un instrumento constituido por un conjunto de preguntas

sistemáticamente elaborados, con el propósito de obtener información; cuando las

preguntas se organizan e imprimen, se obtiene el Formulario o Cedula, que es el

instrumento que se utiliza para registrar las respuestas.

Tipos de Cuestionarios:

Cuestionario Abierto

Cuestionario Cerrado

Ventajas:

14

Page 15: Modulo de Estadistica Descriptiva

Es una técnica muy económica requiere de menos personas y menos tiempo para

abarcar una gran población.

Existe menos riesgo de distorsión de las respuestas pues generalmente son

anónimos.

No influye es las respuestas el aspecto u opinión del entrevistador; proporciona

mayor libertad al responder..

Desventajas:

Depende de la memoria y el deseo de participación de los entrevistados.

Se requiere que los encuestados sepan leer y escribir.

Puede existir un alto porcentaje de preguntas sin contestar.

Se debe cuidar la redacción de las preguntas para que sean entendidas por igual

por parte de los entrevistados.

4.2.4 LA ENCUESTA: Es una técnica de recolección de datos, donde se obtiene la

información tal como se necesita, preparada ex profesamente y con objetivo

estadístico; permite observar y registrar características de las unidades de análisis de

una determinada población o muestra, delimitada en tiempo y espacio. En toda

encuesta se hace uso del cuestionario, cuyas respuestas se registran en el formulario

o cedula.

Cuando una encuesta está dirigida a la totalidad de la población se llama CENSO; en

tanto cuando está dirigida a una muestra se llama ENCUESTA POR MUESTREO.

II. PRESENTACIÓN DE LA INFORMACIÓN:

En la Estadística se trabaja generalmente con una gran cantidad de datos los cuales por facilidad de análisis y cálculos se organizan en Cuadros de Distribución de Frecuencias (CDF) y Gráficos Estadísticos (GE).

1. CUADRO DE DISTRIBUCIÓN DE FRECUENCIAS (CDF):

1.1. DEFINICIÓN:

15

Page 16: Modulo de Estadistica Descriptiva

Un cuadro de distribución de frecuencias, es una tabla resumen de un conjunto de datos que muestra el comportamiento o distribución de la variable en estudio en forma rápida y resumida.

Aún cuando un cuadro de frecuencias se construye a libre criterio de quien lo ejecuta, generalmente es común seguir algunos pasos que de alguna forma homogenizan criterios y ayudan a los fines didácticos.

Para realizar este análisis se tienen que tener en cuenta el tipo de variable que se esta evaluando.

1.2. PARTES DE UN CUADRO DE DISTRIBUCION DE FRECUENCIAS:

Las partes de un CDF son las siguientes:

a. Número del cuadro de frecuencias en forma correlativa.b. Título: Especificar la variable y la población en estudioc. Encabezado o conceptos.d. Cuerpo o contenido del cuadro de frecuenciase. Nota de pie (no siempre es necesaria)f. Fuenteg. Elaboración

1.3. ELEMENTOS PARA CONSTRUIR UN CDF:

Para construir un cuadro de frecuencias se utilizan los siguientes elementos:

A. Valores de la variable Xi : Los valores de la variable o datos se representan por Xi. Ejm: Si se tienen 50 datos sus valores correspondientes no agrupados se representan como X1, X2, X3,..., X50.

B. Intervalos de clase : Los intervalos son subconjuntos de la recta real Ron que están definidos por un límite menor o inferior Li y un límite mayor o superior Ls.

C. Frecuencia:

1. Frecuencia absoluta simple : Se denotan por fi. Está constituida por el número de veces que se repite un valor. En el caso de intervalos es el número de observaciones comprendidas en dicho intervalo. Estas frecuencias siempre son enteros positivos y además la suma de todos ellos es el tamaño de la muestra “n”.

16

Page 17: Modulo de Estadistica Descriptiva

2. Frecuencia relativa : Se denotan por hi. Indica la relación o proporción existente entre la frecuencia absoluta simple y el número total de datos. Estas frecuencias son números fraccionarios positivos entre o y 1. Para fines interpretativos estas frecuencias se expresan en % (hi%). Así:

hi= fin ó

hi(% )= fin

x 100

3. Frecuencia absoluta acumulada: Se denotan por Fi. Resulta de la suma de las frecuencias cuyas marcas de clase son iguales o menores a la marca de clase del intervalo dado o considerado, es decir:

F1 = f1

F2 = f1 + f2

F3 = f1 + f2 + f3

.............................................

……………………………………………………

Fj = f1 + f2 + f3 + ....... + fi

4. Frecuencia relativa acumulada: SE denotan Hi. Resulta de la suma de las frecuencias relativas simples hasta la frecuencia del intervalo considerado. Así:

H4 = h1 + h2 + h3 + h4

H6 = h1 + h2 + ....+ h6

Para fines interpretativos estas frecuencias se expresan en % (Hi%)

D. Marca de clase : Se denota por “Yi”. Es el promedio de los valores correspondientes a los límites inferior y superior de cada uno de los intervalos determinados.

17

Page 18: Modulo de Estadistica Descriptiva

1.4. PROPIEDADES DE UN CDF:

A. Las fi y Fi son siempre números enteros positivos. Es decir: fi , Fi ≥ 0B. Las hi y Hi son siempre números fraccionarios positivos comprendidos entre 0 y 1,

es decir 0≤ hi , Hi ≤ 1C. F1 siempre es igual f1 y H1 siempre es igual a h1.D. La suma de todas las fi es igual a n y la suma de las hi es igual a 1.E. Fm siempre es igual a n y Hm siempre es igual a 1.

1.5. CONSTRUCCIÓN DE CUADROS DE FRECUENCIAS:

Para la construcción de los CDF hay que tener en cuenta el tipo de variable que se está analizando, es decir, si es cuantitativa continua, cuantitativa discreta o variable cualitativa.

A. CDF PARA UNA VARIABLE CUANTITATIVA CONTINUA: Para la construcción de este cuadro hay que realizar los siguientes pasos:

PASO 1.Determinar el Rango del conjunto de datos.

PASO 2. Determinar el número de intervalos “k”.

Este valor siempre es un número entero (Redondeo)

PASO 3. Determinar la amplitud “A” interválica (de cada intervalo).

Este valor está en función de la estructura de la base de datos (tomar el inmediato superior)

PASO 4. Determinar el nuevo rango “R2” (Solamente si se tomo un inmediato superior)

18

R = Valor máximo - Valor mínimo

k = 1 + 3.3 log ( n )

A = R / m

Page 19: Modulo de Estadistica Descriptiva

A: es la amplitud teniendo en cuenta el inmediato superior.

PASO 5. Determinar los intervalos y finalmente construir el cuadro.

B. CDF PARA UNA VARIABLE CUANTITATIVA DISCRETA: Para la construcción de un CDF para una variable cuantitativa discreta (valores discretos) ya no se utiliza los pasos anteriores solamente colocar en los intervalos a los diferentes valores discretos.

C. CDF PARA UNA VARIABLE CUALITATIVA: Para la construcción de un CDF para una variable cualitativa se sigue los mismos pasos que para una variable cuantitativa discreta, es decir, solamente colocar en los en los intervalos a las diferentes categorías de la variable cualitativa.

EJERCICIO DE APLICACIÓN

UTILIZANDO UNA BASE DE DATOS CON VARIABLES QUE ESTEN INVOLUCRADAS EN SUS CENTROS DE TRABAJO CONSTRUYA CUADROS Y GRAFICOS ESTADISTICOS.

III. GRÁFICOS ESTADÍSTICOS:

1. DEFINICION:

Un gráfico estadístico es una representación pictórica, cuyo objetivo es expresar el comportamiento de una variable en estudio.

Los gráficos estadísticos son representaciones de información real que existe en nuestro mundo, es una expresión artística de datos reales y observados.

Un gráfico sirve también para comparar visualmente el comportamiento de dos o más variables similares o relacionadas.

2. PARTES DE UN GRAFICO ESTADISTICO:

Numeración.

19

R2 = A * m

Page 20: Modulo de Estadistica Descriptiva

Título: Aquí se señala la población en estudio y la variable de interés. Diagrama: está dado por el propio dibujo el cual representa el comportamiento de los

datos. Escalas y/o leyendas: Son indicadores donde se precisa la correspondencia entre los

elementos del gráfico y la naturaleza de las medidas representadas. Fuente: Aquí se señala el CDF que permitió obtener el respectivo gráfico.

3. CRITERIOS PARA CONSTRUIR GRAFICOS:

No existe una regla específica para la construcción de gráficos, pero si es posible considerar algunas recomendaciones o criterios.

Se emplea una diversidad de gráficos, cuya estructura o forma dependerá del tipo de variable que se está estudiando.

Este gráfico debe tener rasgos simples y de fácil comprensión.

4. TIPOS DE GRAFICOS ESTADISTICOS

Hay varias tipos de gráficos, los cuales dependen del tipo de variable que esta evaluando. Presentaremos aquí los más importantes:a. Gráfico de bastones: Se utliza cuando se tienen datos de una variable cuantitativa

discreta.b. Histograma: Se utiliza cuando se tienen datos de una variable cuantitativa continua. c. Gráfico de Barras: Se utiliza cuando se tienen datos de una variable cualitativa. d. Gráfico Sectorial o Pastel: Se utiliza cuando se tienen información de una variable

cualitativa o cuantitativa discreta.e. Polígono de frecuencias: Se utiliza para indicar el comportamiento de un conjunto de

datos. f. Gráfico de series de tiempo: Se utiliza para analizar variables cuantitativas continuas

pero expresadas en el tiempo.g. Pirámide poblacional: Se utiliza para analizar el comportamiento de una población según

sexo y edad.h. Pictograma.i. Cartograma, etc.

5. CONSTRUCCIÓN DE GRAFICOS ESTADISTICOS DE EXCEL:

Excel puede crear gráficos a partir de datos previamente seleccionados en una hoja de cálculo.El usuario puede “incrustar” un gráfico en una hoja de cálculo, o crear el gráfico en una hoja especial para gráficos. En cada caso el gráfico queda vinculado a los datos a partir de los cuales fue creado,por lo que si en algún momento los datos cambian, el gráfico se actualizará de forma automática.Los gráficos de Excel contienen muchos objetos, títulos, etiquetas en los ejesquepueden ser seleccionados y modificados individualmente según las necesidades del usuario.

Para crear un gráfico con el Asistente para Gráficos, se deben seguir los siguientes pasos:

1. Seleccionar los datos a representar.

2. Ejecutar el comando Insertar / Gráfico o hacer clic en el botón

20

Page 21: Modulo de Estadistica Descriptiva

A continuación aparece el siguiente cuadro de diálogo del Asistente para Gráfico.Que permite elegir el tipo y subtipo degráfico que se va a utilizar entre dos listas que son estándares y personalizados.

Para agregar las etiquetas de los datos debemos ubicarnos dentro de la grafica, hacer clic derecho y aparecerá:

21

Page 22: Modulo de Estadistica Descriptiva

Luego de agregar las etiquetas podemos además cambiar el formato de las etiquetas y aparecerá la siguiente ventana para realizar los cambios:

Luego debemos configurar los aspectos que conciernen a la presentación del gráfico, aportando una vista preliminar del mismo. Así, se determinan el título, las inscripciones de los ejes, la apariencia de éstos, la leyenda, la aparición o no de tabla de datos y los rótulos.

Finalmente si se quiere desplazar a algún otro lugar sobre la propia hoja en que se encuentra basta seleccionar todo el gráfico y arrastrarlo con el mouse.

IV. ANALISIS ESTADISTICO DESCRIPTIVO:

La estadística descriptiva es una técnica que consiste en obtener indicadores que describen el

comportamiento de un conjunto de datos. Dentro de estas medidas estadísticas tenemos:

A. Las medidas de Posición: Dentro de estas tenemos:

a. Medidas de tendencia central: Media, Moda, Mediana.

b. Medidas de localización: Cuartiles y Percentiles.

B. Las medidas de variación: rango, varianza, desviación estándar, coeficiente de variación.

C. Las medidas de deformación: asimetría y kurtosis.

1. MEDIDAS DE TENDENCIA CENTRAL

1.1. MEDIA ARITMÉTICA:

Se denota por x

22

Page 23: Modulo de Estadistica Descriptiva

Es la medida estadística más fácil de calcular.

La media o promedio es el punto central de un conjunto de datos.

Para calcular la media aritmética se utilizan las fórmulas adecuadas ya sea sin son

datos agrupados o datos no agrupados.

MEDIDASPARA DATOS NO

AGRUPADOSPARA DATOS AGRUPADOS

PROMEDIO

X=∑i=1

n

X i

n

Xi: datos

n = número de datos

X=∑i=i

m

X i f i

n

Xi: Marca de clase o punto medio

fi: frecuencia absoluta simple

n: número de datos.

PROPIEDADES DE LA MEDIA ARITMETICA:

a. La media es típica en el sentido de que es el centro de gravedad de la distribución,

equilibrando los valores a uno y otro lado de ella.

b. La media aritmética es un valor representativo de los valores individuales de X, puesto

que la suma total no varía si se sustituye cada valor dado por su media, es decir:

∑ x=nx

c. M (X±K)= M(X) ± K, donde K es constante y M(X) es media.

d. M(X K)= K M(X), donde K es constante.

1.2. MEDIANA: Se denota por Me.

Es un valor que divide al conjunto de datos en dos partes iguales, es decir, cada

segmento tiene el 50% de los datos.

Para calcular la mediana se utilizan las fórmulas adecuadas ya sea sin son datos

agrupados o datos no agrupados.

MEDIDAS PARA DATOS NO PARA DATOS AGRUPADOS

23

Page 24: Modulo de Estadistica Descriptiva

AGRUPADOS

MEDIANA

Procedimiento:

Ordenar la serie en forma ascendente

Calcular el valor n+12

, que

indica el lugar que ocupa la mediana.

Ubicar a n+12

en la serie de

datos.

Cuando “n” impar :Me =Valor Central

Cuando “n” par :Me =Promedio de valores

centrales.

Me=Li+A[ n/2 −F j−1

f j ]Li: límite inferior del intervalo mediano.

A: amplitud interválica.

n /2 es el elemento determinante

Fj-1: Frecuencia acumulada anterior al intervalo mediano

fj: Frecuencia absoluta simple del intervalo mediano

PROPIEDADES DE LA MEDIANA:

a. La mediana es un punto tal que la vertical levantada sobre el histograma y el polígono

de frecuencias divide a este en dos áreas de idéntica superficie.

b. La mediana es menos sensible a los valores extremos que la media aritmética.

c. Se puede calcular siempre; y cuando la unidad de la escala no es constante.

1.3. MODA: Mo

La moda es el valor que más se repite en un conjunto de datos.

En un conjunto de datos se presentan los siguientes casos:

a. No existir datos Amodal

b. 1 moda Unimodal.

c. 2 modas Bimodal

d. 3 a más modas Multimodal

24

Page 25: Modulo de Estadistica Descriptiva

Se utiliza cuando se hace un análisis exploratorio visual

Para calcular la moda se utilizan las fórmulas adecuadas ya sea sin son datos

agrupados o datos no agrupados.

MEDIDASPARA DATOS NO

AGRUPADOSPARA DATOS AGRUPADOS

MODA

Procedimiento:

Observar la base de datos y determinar el valor que más se repite, o más frecuente.

Mo=Li+A∗[ Δ1Δ1+Δ2 ]

Li: límite inferior del intervalo modal.

A: amplitud interválica

Δ1=f j−f j−1Δ2=f j−f j+1

PROPIEDADES DE LA MODA:

a. Carece de significado si la distribución no contiene un gran número de observaciones y

posee una clara tendencia central.

b. Solo es afectada por el número de datos y no por la magnitud de estos.

c. Es el valor más inestable de tendencia central depende del modo de clasificación de la

variable.

RELACION ENTRE MEDIA, MEDIANA Y MODA

X =Me= Mo Si las tres medidas coinciden entonces se dice que la distribución de frecuencias es simétrica.

25

Media = Mediana = Moda

Page 26: Modulo de Estadistica Descriptiva

Mo < Me <X Si la distribución de frecuencias es asimétrica de cola a la derecha entonces, la moda es menor que la mediana y esta a su vez es menor que la media.

X < Me< Mo Si la distribución de frecuencias es asimétrica de cola a la izquierda entonces, la media es menor que la mediana y esta a su vez es menor que la moda.

2. MEDIDAS DE LOCALIZACIÓN:

2.1. CUARTILES: Se denotan por Qk, donde k=1,2,3

Son valores que dividen a un conjunto de datos en 4 partes iguales, es decir, cada

sector tiene el 25% de los datos.

2.2. PERCENTILES:

Se denotan por Pk, donde k=1,2,3,4,5,6,7,8,9,10, … , 99

Son valores que dividen a un conjunto de datos en 100 partes iguales, es decir,

cada sector tiene el 1% de los datos.

26

MEDIDASPARA DATOS NO

AGRUPADOSPARA DATOS AGRUPADOS

CUANTILES

Procedimiento:

Ordenar la serie en forma ascendente

Calcular el valor :

C jk

=n( jk )+0.5C j /k=Li+A [ jn /k −F j−1

f j ]

Page 27: Modulo de Estadistica Descriptiva

RELACION ENTRE CUARTILES Y PERCENTILES

Q1 = P25 Q2= Me = P50 Q3= P75

3. MEDIDAS DE VARIABILIDAD:

3.1. RANGO:

Se denota por R y la medida de variabilidad más fácil de calcular.

Es la diferencia que existe entre el valor máximo y el valor mínimo del conjunto de

datos.

MEDIDASPARA DATOS NO

AGRUPADOSPARA DATOS AGRUPADOS

RANGO R=V max − V min

R=LS−LI

Ls: Límite superior

Li: Límite inferior

3.2. VARIANZA:

Mide la variabilidad de un conjunto de datos respecto a un valor central(promedio)

Mide la variabilidad pero en unidades elevadas al cuadrado, por lo tanto es ilógica

su interpretación.

27

Page 28: Modulo de Estadistica Descriptiva

Para calcular la media aritmética se utilizan las fórmulas adecuadas ya sea sin son

datos agrupados o datos no agrupados.

MEDIDASPARA DATOS NO

AGRUPADOSPARA DATOS AGRUPADOS

VA

RIA

NZ

A

MUESTRAL

(n≤30)

s2= 1n−1 (∑

i=1

n

x i2−

(∑i=1

n

x i)2

n )Xi : Datos de la población

u : promedio poblacional

N: Número de elementos de la población

s2= 1n−1 (∑

i=1

m

X i2 f i−

(∑i=1

m

X i f i )2

n )Xi : Marca de clase

u : promedio poblacional

N: Número de elementos de la población

fi: frecuencia absoluta simple

MUESTRAL

(n >30)

S2=∑ X i2

n−( X )2

Xi : Datos de la muestra

x : promedio muestral

n : Número de elementos de la muestra

S2=∑ X i2∗fi

n−(X )2

Xi : Marca de clase

X : promedio muestral

n : Número de elementos de la muestra

fi: frecuencia absoluta simple

CRUZAR UN RÍO

Si estás de paseo en el campo y te encuentras frente a un río que cruzar, le preguntas a quién sepa más, que profundidad tiene ese río.

Alguien te dice que el río tiene una profundidad promedio de 1 metro, ¿lo cruzarías sin información adicional?

Probablemente no. Tú querrías saber acerca de la variación de la profundidad.

28

Page 29: Modulo de Estadistica Descriptiva

3.3. DESVIACIÓN ESTANDAR:

Mide la variabilidad de un conjunto de datos respecto a su valor central pero en

unidades originales.

Esta es la medida de variabilidad que tiene una interpretación lógica.

Se obtiene al sacar la raíz cuadrada de la varianza.

MEDIDAS FORMULA

DESVIACION ESTANDAR

σ=√σ2

D.E. Poblacional

s=√s2

D.E. Muestral

3.4. COEFICIENTE DE VARIACIÓN:

Se denota por C.V.

29

Si la profundidad máxima es de 1.5 metros y la mínima de 0.5 metros podría ser que te animaras a cruzarlo.

¿Qué pasaría si averiguas que la profundidad del río va de 0.1 metros (o sea 10 centímetros en la orilla) hasta 1.9 metros

Page 30: Modulo de Estadistica Descriptiva

El C.V. sirve para determinar si un conjunto de datos tiene un comportamiento

homogéneo o heterogéneo.

Para llegar a determinar la homogeneidad se compara con un valor convencional

del 33%.

Si el CV ≤ 33% el conjunto de datos tiene un comportamiento homogéneo.

Si el CV > 33% el conjunto de datos tiene un comportamiento heterogéneo.

4. MEDIDAS DE FORMA

ASIMETRIA

La asimetría se entiende como la deformación horizontal de un conjunto de datos.

Para conocer esta asimetría se calcula el Coeficiente de asimetría

En un conjunto de datospueden presentar lossiguientes casos:As= 0, el conjunto de datos es simétrica.As<0, el conjunto de datos es asimétrica negativa.

As>0, el conjunto de datos es asimétrica positiva

KURTOSIS

Se entiende por Kurtosis a ladeformación vertical de unconjunto de datos, es decir, mide el apuntamiento, achatamiento de un conjunto de datos.

Kurtosis en función de los cuantiles:

Si K>0, el conjunto de datos es leptocúrtica.

Si K=0 el conjunto de datos es mesocútica.

Si K<0, el conjunto de datos es platicúrtica.

30

MEDIDAS FORMULA

COEFIENTE DE VARIACIÓN

C .V .=σu∗100

C.V. Poblacional

C .V .= sx∗100

C.V. Muestral

As=Q3−2Q2+Q1

Q3−Q1

As= X−MoS

As=3( X−Me)

S

k=Q3−Q1

2(P90−P10)−3

Page 31: Modulo de Estadistica Descriptiva

31

MESOKURTICA

PLATIKURTICA

LEPTOKURTICA

Page 32: Modulo de Estadistica Descriptiva

CASO:

Los datos siguientes representan el número de ciclos transcurridos hasta que se presenta una falla en una prueba de piezas de aluminio sujetas a un esfuerzo alternante repetido de 21 000 psi a 18 ciclos por segundo

1115 1567 1223 1782 1055 798 1016 2100 910 1501

1310 1883 375 1522 1764 1020 1102 1594 1730 1238

1540 1203 2265 1792 1330 865 1605 2023 1102 990

1502 1270 1910 1000 1608 2130 706 1315 1578 1468

1258 1015 1018 1820 1535 1421 2215 1269 758 1512

1315 845 1452 1940 1781 1109 785 1260 1416 1750

1085 1674 1890 1120 1750 1481 885 1888 1560 1642

Realizar el Análisis Estadístico correspondiente.

SOLUCION:

32

Page 33: Modulo de Estadistica Descriptiva

Medidas de Resumen Ciclos

Media 1403.66

Error típico 48.09

Mediana 1436.50

Moda 1315.00

Desviación estándar 402.39

Varianza de la muestra 161913.88

Curtosis -0.44

Coeficiente de asimetría -0.03

Rango 1890

Mínimo 375

Máximo 2265

Suma 98256

Cuenta 70

k = 1 + 3.3 log (n)= 7

A = 270

33

Intervalos

CiclosXi fi hi% Fi Hi%

Li Ls

I1 375 645 510 1 1.43 1 1.43

I2 645 915 780 8 11.43 9 12.86

I3 915 1185 1050 13 18.57 22 31.43

I4 1185 1455 1320 14 20.00 36 51.43

Tabla Nº 01: Distribución del número de ciclos transcurridos hasta que se presenta una falla en una prueba de piezas de aluminio.

Fuente: Registros de Producción de Piezas de Aluminio

Page 34: Modulo de Estadistica Descriptiva

34

645 915 1185 1455 1725 1995 22650

2

4

6

8

10

12

14

16

18

Gráfico Nº 1: Histograma del número de ciclos transcurridos hasta que se presenta una falla en una prueba de piezas de

aluminio

Ciclos

fi

*240 *510 *780 *1050 *1320 *1590 *1860 *2130 *24000

2

4

6

8

10

12

14

16

18

Gráfico Nº 2: Polígono del número de ciclos transcurridos hasta que se presenta una falla en una prueba de piezas de aluminio

fi

Page 35: Modulo de Estadistica Descriptiva

ANALISIS DE REGRESION Y CORRELACION

El término regresión fue utilizada por primera vez por FRANCIS GALTON (1822–1911) en sus estudios biológicos sobre la herencia.

GALTON manifestó que: “la estatura de los hijos de padres inusualmente altos o inusualmente bajos, tienden a moverse o regresar a la estatura promedio de la población”.

I. DEFINICIÓN:

Es una técnica estadística que sirve para analizar la dependencia de una variable respecto a otra variable, es decir, conociendo los valores de una variable independiente se trata de estimar los valores de una variable dependiente.

II. FUNCIONES DEL ANÁLISIS DE REGRESIÓN:

Las funciones que persigue el Análisis de Regresión son:

1. Determinar si las variables independientes y la variable dependiente presentan fuerzas de relación.

2. Determinar la estructura o la ecuación matemática que relaciona las variables independientes con las dependientes.

3. Pronosticar o predecir los valores de la variable dependiente en función de la variable independiente.

4. Controlar otras variables independientes al evaluar las contribuciones de una variable especifica o un conjunto de variables

35

Page 36: Modulo de Estadistica Descriptiva

III. TIPOS DE REGRESIÓN:

TIPO Ecuación

REGRESIÓN LINEAL

Simple Y=β0+β1X

Múltiple Y=β0+β1X1+. . .+ βN X N

REGRESIÓN NO LINEAL

Potencia Y=β0 Xβ1

Exponencial Y=β0 β1X

HiperbólicoY=β0+

β1X

IV. DIAGRAMA DE DISPERSIÓN

Es el primer paso a realizar para determinar si existe una relación entre dos variables.

Este grafico consiste en un conjunto de puntos (x,y) presentados en un plano cartesiano.

Este diagrama permite visualizar el patrón de comportamiento de estas variables y por ende conocer la ecuación de regresión que describen dichos datos.

Para estudiar las posibles relaciones se presentan los siguientes diagramas de dispersión:

36

Page 37: Modulo de Estadistica Descriptiva

a. Lineal, positiva, perfecta b. Lineal, negativa, perfecta c. Lineal, Positiva, imperfecta.

d. Lineal, negativa, imperfecta e. No lineal. f. Sin relación.

V. LA ECUACIÓN DE REGRESIÓN:

Si la variable respuesta o variable dependiente (Y) está en relación con la variable independiente (X), entonces la relación funcional o ecuación de regresión entre Y y X tienen la siguiente forma:

Y=β0+β1X+εEcuación de regresión poblacional

Y= β0+ β1X Ecuación de regresión muestral

37

0 1 2 3 4 5 6 7 8 9 10

012345678910

X

Y

0 1 2 3 4 5 6 7 8 9 10

0

1

2

3

4

5

6

7

8

9

10

X

Y

0 1 2 3 4 5 6 7 8 9 10

012345678910

X

Y

0 1 2 3 4 5 6 7 8 9 10

012345678910

X

Y

0 1 2 3 4 5 6 7 8 9 10

012345678910

X

Y

0 1 2 3 4 5 6 7 8 9 10

0

1

2

3

4

5

6

7

8

9

10

X

Y

Page 38: Modulo de Estadistica Descriptiva

Y=α+βX

Y=a+bX

donde:Y = Variable dependiente X = Variable independiente

β0 , β1 = Parámetro de la ecuaciónβ0 , β1 = Estimadores de la ecuación

β0= Intercepto. Valor de Y cuando X es igual a cero

β1 = Pendiente. Incremento de Y, cuando X aumenta en una unidad.

REPRESENTACIÓN GRAFICA:

38

Intercepto

Pendiente

Page 39: Modulo de Estadistica Descriptiva

n

i

n

iii XnY

1 110

n

i

n

i

n

iiii XXXY

1 1 1

2

110

VI. ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN:

Para estimar los coeficientes de la ecuación de regresión, se utiliza el Método de los Mínimos Cuadrados Ordinarios (MMCO).

Este Método trata de encontrar las coeficientes de la ecuación que más se aproxime al conjunto de datos, es decir, encuentra la ecuación de la recta de tal

manera que los errores e i=Y i−Y i que se forman sean los más pequeños

posibles. Para estimar estos coeficientes de regresión , primeramente se deben construir

las ecuaciones normales que son las siguientes:

Ecuaciones

Normales

Al resolver este sistema de ecuaciones normales obtenemos las siguientes formulas:

β1=n∑i=1

n

x i y i−∑i=1

n

xi∑i=1

n

y i

n∑i=1

n

x i2−(∑

i=1

n

xi )2

β0= y− β1 x

39

Page 40: Modulo de Estadistica Descriptiva

Luego se sustituyen los valores en la ecuación de la recta para obtener la ecuación estimada o predecida por el MMCO.

VII. ERROR ESTÁNDAR DE LA ESTIMACIÓN:

Después de calcular la ecuación de la línea de regresión de la muestra, podría interesarse en medir hasta qué grado los puntos de datos de la muestra, se encuentran dispersos alrededor de la línea de regresión de la muestra.

El error estándar de la estimación mide la cantidad estándar en la cual los

valores reales de Y difieren de los valores estimados Y . Para su cálculo se utiliza la siguiente fórmula:

S y .x=√∑i=1n

y i2− β0∑

i=1

n

y i− β1∑i=1

n

x i y i

n−2

ANALISIS DE CORRELACIÓN:

El análisis de correlación es una técnica estadística que mide el grado de asociación

o afinidad entre las variables cuantitativas consideradas en un estudio.

Se llamará CORRELACION SIMPLE cuando se trata de analizar la relación entre dos

variables. Se llamará CORRELACION LINEAL O RECTILINEA si la función es una

recta, y de CORRELACION NO LINEAL cuando la función es una curva o una función

de grado superior.

El COEFICIENTE DE CORRELACION DE PEARSON, es el estadígrafo que mide el

grado de asociación o afinidad entre las variables cuantitativas y se denota por “r”

la cual se define como:

40r=n∑i=1

n

X iY i−∑i=1

n

X i∑i=1

n

Y i

√n∑i=1

n

X i2−(∑

i=1

n

X i )2√n∑

i=1

n

Y i2−(∑

i=1

n

Y 1 )2

Page 41: Modulo de Estadistica Descriptiva

Interpretación:

-1 -0.7 -0.4 0 0.4 0.7 -1

Perfecta Alta Regular Baja Baja Regular Alta Perfecta

N E G A T I V A P O S I T I V A

COEFICIENTE DE DETERMINACIÓN:

El coeficiente de determinación mide el porcentaje de variabilidad en Y que

puede ser explicada por la variable independiente X.

Se denota por R2 o r2

Para su cálculo se utiliza la siguiente fórmula:

r2=β0∑ y i+ β1∑ x i y i−n y2

∑ y i2−n y2

Si r2 0.70, la ecuación estimada se ajusta o tiende a representar los datos

Si r2 = 1, la ecuación estimada es perfecta.

41

Page 42: Modulo de Estadistica Descriptiva

EJERCICIOS DE APLICACIÓN:

CASO N° 01: Se tienen información de los costos de mantenimiento de 06 maquinas

llenadotas de gaseosas de distintas edades de la Empresa Enrique Cassinelli e Hijos

S.A. La Gerencia desea hacer estimaciones o pronósticos acerca del costo de

mantenimiento (Y) en función del tiempo operativo de la máquina (X). La información

que se tienen es la siguiente:

Maquina

Tiempo operativ

o

(X) Años

Costo de mantenimient

o $ (Y)

1

2

3

4

5

6

1

1

2

2

3

3

30

40

70

80

100

100

1. Determinar la ecuación de regresión. Interpretar sus coeficientes2. Hallar el error estándar de estimación.3. Pronosticar el costo de mantenimiento para una máquina que tienen 4 años

operativos.

42

Page 43: Modulo de Estadistica Descriptiva

SOLUCIÓN

1. Diagrama de dispersión:

1. Determinación de la ecuación de regresión:

MAQUINA X Y XY X*X Y*Y

1 1 30 30 1 900

2 1 40 40 1 1600

3 2 70 140 4 4900

4 2 80 160 4 6400

5 3 100 300 9 10000

6 3 100 300 9 10000

43

0.5 1 1.5 2 2.5 3 3.5

0

20

40

60

80

100

120

COSTO DE MANTENIMIENTO

TIEMPO

CO

ST

O

Page 44: Modulo de Estadistica Descriptiva

TOTAL 12 420 970 28 33800

β1=n∑i=1

n

x i y i−∑i=1

n

xi∑i=1

n

y i

n∑i=1

n

x i2−(∑

i=1

n

xi )2

=

6(970 )−(12)(420 )6(28 )−(12 )2 =32.5

β0= y− β1 x = 70 - 932.5 (2) = 5

Por lo tanto la ecuación de regresión es: Y = 5 + 32.5 X

2. Interpretación:

B0 = 5: Cuando la máquina no tienen ningún año de funcionamiento su costo de mantenimiento es de 5 dólares.

B1 = 32.5: Por cada año de funcionamiento de la maquina su costo de mantenimiento aumenta en 32.5 dólares.

3. Pronostico cuando la máquina tienen 4 años de funcionamiento: Y=5+32.5*4=135, que significa, que el costo de mantenimiento para la maquina si tiene 4 años de funcionamiento es de 135$.

4. Calculamos el error estándar de estimación:

S y .x=√∑i=1n

y i2− β0∑

i=1

n

y i− β1∑i=1

n

x i y i

n−2 = √33800−5 (420 )−32 .5( 970)4 = 6.61

44

Page 45: Modulo de Estadistica Descriptiva

PARTE OPERATIVA UTILIZANDO SOFTWARE: (EXCEL)

1. CASO N° 01: Ingreso de datos en la hoja de cálculo EXCEL:

45

Page 46: Modulo de Estadistica Descriptiva

GRAFICAR PARA CONOCER LA TENDENCIA DE LOS DATOS

b.Hacer clic en Datos /Análisis de Datos/Regresión…… y aparece la siguiente ventana:

46

Page 47: Modulo de Estadistica Descriptiva

c. Ingresar la respectiva información; Luego aparece la ventana de dialogo donde hay

que ingresar el rango de Y, el rango de X, activar rótulos, las opciones de salida y

algunas alternativas de interés para el investigador.

47

Page 48: Modulo de Estadistica Descriptiva

d. Obtener los resultados finales.

48