estad libro de estadistica

34
CONCEPTO DE ESTADISTICA La estadística es un conjunto de técnicas, mediante las cuales se recopilan, organizan, presentan y analizan datos, con el fin de obtener conclusiones validas sobre el comportamiento presente o futuro de algo. La estadística moderna esta orientada a la toma de decisiones en condiciones de incertidumbre La estadística se divide en dos ramas: Estadística descriptiva Estadística inductiva ESTADISTICA DESCRIPTIVA La estadística es su forma mas simple consiste en una colección de datos calificados según un criterio. Otras veces se refiere a ella como una técnica para recopilar datos, clasificarlos, ordenarlos, compararlos, etc. Este procedimiento, se denomina proceso estadístico y se puede resumir en los pasos siguientes: 1. Elección de la unidad estadística

Upload: unknownmat

Post on 02-Aug-2015

171 views

Category:

Documents


2 download

TRANSCRIPT

CONCEPTO DE ESTADISTICA

La estadística es un conjunto de técnicas, mediante las cuales se recopilan, organizan, presentan y analizan datos, con el fin de obtener conclusiones validas sobre el comportamiento presente o futuro de algo. La estadística moderna esta orientada a la toma de decisiones en condiciones de incertidumbre

La estadística se divide en dos ramas:

Estadística descriptivaEstadística inductiva

ESTADISTICA DESCRIPTIVA

La estadística es su forma mas simple consiste en una colección de datos calificados según un criterio. Otras veces se refiere a ella como una técnica para recopilar datos, clasificarlos, ordenarlos, compararlos, etc. Este procedimiento, se denomina proceso estadístico y se puede resumir en los pasos siguientes:

1. Elección de la unidad estadística2. Recolilacion análisis y presentación de los datos3. Ordenación de los datos4. Determinación las medidas de posición y de calculo5. Representación grafica6. análisis y predicción de resultados7. análisis de errores

ESTADISTICA INDUCTIVA O INFERENCIAL

Cuando una muestra es representativa de una población se puede deducir importantes conclusiones acerca de esta, a partir de su análisis. La inferencia comprende aquellas técnicas por medio de las cuales se toman decisiones sobre una población estadística basadas solo en la MUESTRA OBSERVAD. Debido a dichas decisiones se toman en conclusiones de incertidumbre entonces estas serán confiables con cierto grado de probabilidad.

POBLACION Y MUESTRA

POBLACIONLa población o universo es el conjunto de elementos que tienen

características de identificación comparables en cada estudio, es el total de individuos u objetos que se desean investigar. Cada uno de los datos corresponde a un individuo

MUESTRA

La muestra es un parte del total de la población, se utiliza frecuentemente cuando esta es numerosa, infinita o muy difícil de contar.Una medida de resumen que se calcula para describir una característica de la totalidad de una población se llama parámetro, y aquella que se calcula para describir una característica de una muestra de la población de llama estadístico.

ETAPAS DE LA INVESTIGACION ESTADISTICA

No existe ningún ordenamiento específico en el cual se puedan incluir todas las situaciones particulares del trabajo estadístico. Sin embargo, en la mayoría de casos de la investigación estadística se define las siguientes etapas.

PlanificaciónObtención de la informaciónRevisión o rectificación de la informaciónClasificación, tabulacion y presentación de la informaciónObtención de conclusiones y juicios validos sobre lo que se investiga

PLANIFICACION

La planificación es el punto de partida de toda investigación. En esta etapa de debe definirse ¿Qué investigar?, ¿se realizara dicha investigación?, ¿Cómo se realizara? Con la obtención de estas definiciones se estará en la capacidad de programar y calendarizar la investigación. Esta etapa tiene estrecha relación con el plan de investigación.

OBTENCION DE LA INFORMACION

Es la etapa más importante de la investigación estadística, ya que de ella depende el resultado final del trabajo. Debe ser lo mas significativa posible si la información se obtiene por muestreo. Los medios típicos para obtener información son: personal y por correo.

REVISION O RECTIFICACION DE LA INFORMACION

Esta etapa es indispensable realizarla debido a que, toda toma de información, realizada incluso por persona especialista, no escapa a estar expuesta a algunos errores, que por muy sencillos que sean le restan validez a la investigación.

CLASIFICACION, TABULACION Y PRESENTACIÓN DE LA INFORMACION

Clasificaciones más comunes son: cronológica, cualitativa, numérica y geográfica

CRONOLOGICALa base de clasificación es el tiempo.Ejemplo:

Tabla 1.1 de estudiante que ingresaron a la universidadDesde el año 1997 al 2001

CUALITATIVA

La base de la agrupación es algún atributo o cualidad de los elementos a analizar.Ejemplo:

Tabla 1.2 clasificación de las secretarias según comportamiento

Comportamiento No. de secretariasExcelente 10Bueno 6Regular 7Malo 5

NUMERICA

Año No. de estudiantes egresados1997 15001998 8001999 7002000 10002001 2300

Se toma como base de la agrupación una variable numérica dividida en intervalos. Ejemplo:

Tabla 1.3 ingreso familiar de 100 familias en el área ruralIngreso No. de familias50-59 3060-99 20

100-124 18

GEOGRAFICA

Se toma como base algún aspecto geográfico.Ejemplo:

Tabla 1.4 cantidad de accidentes automovilísticos ocurridos durante la presente semana

Región del país No de accidentes ocurridosOriental 30Occidental 20Norte 18Sur 15Central 17

TEXTUAL

Es la forma menos empleada par tal fin, consiste en presentar la información en un párrafo o texto.

OBTENCION DE CONCLUCIONES Y JUICIS VALIDOS SOBRE LO QUE SE INVESTIGA

En esta etapa de la investigación estadísticas e concentra todas las técnicas de análisis. Se calcula las medidas de tendencia central, de dispersión y de correlación de variables en análisis y con base a ellas se aceptan o rechazan conjeturas, con lo cual se hace posible la obtención de conclusiones que pueden apuntar como reglas, juicios o leyes del fenómeno o situaciones que se investiga. Con la obtención de conclusiones se puede tomar decisiones o hacer recomendaciones con base a lo investigado.

VARIABLEA CUALITATIVAS Y CUANTITATIVAS

Una variable es una simbolización de una situación o cualidad que pueden tomar diferentes valores. En la investigación estadística podemos distinguir dos tipos de variables, las cuales se representan mediante un símbolo o una letra.

VARIABLES CUALITATIVAS

Las variables cualitativas son las que se expresan una cualidad que generalmente no puede representarse por medio de números. De estas variables, puede determinarse únicamente la frecuencia con que aparece cada una de sus modalidades; por ejemplo una pieza que sale se una fabrica puede ser aceptada o no.

VARIABLES CUANTITACTIVAS

Las variables cuantitativas son las que permite dar un valor numérico a cada elemento de la población por ejemplo la edad de un grupo de individuos

VARIABLE DISCRETA

Cuando la variable solo puede tomar valores numéricos exactos se dice que es discreta; por ejemplo, el numero de vehículos que pasan por el anillo periférico a determinada hora de la mañana.

VARIABLE CONTINUA

Una variable continua por el contrario es la que puede tomar cualquier valor real, por ejemplo podría tomarse la estatura de las personas con mucha precisión. Las variables también pueden clasificarse atendiendo a su causa y efecto como:

VARIABLE DEPENDIENTE.

Variable aleatoria “Y” cuyo valor depende de otra variable “X”. Una variable es dependiente cuando es el efecto de otra.Variable independiente. Variable matemática mediante la cual se puede

pronosticar el valor o los valores de una variable aleatoria “Y”. Una

variable es independiente cuando es la causa del valor de otra.

Si cada valor que una variable X puede tomar le corresponde o mas

valores de otra variable Y, se dice que Y es en función de X y se escribe

Y=F(X). La variables se llama independiente e Y es la variable

dependiente.

DISTRIBUCION DE FRECUENCIAS

La distribución de frecuencias es un resumen tabular en el que los

datos se presentan en agrupamientos o categorías convenientes

establecidas de clases ordenadas numéricamente. En una tabla de

distribución de frecuencias de una serie de datos, se muestra el número

de observación llamado frecuencia de determinada variable dentro de un

grupo específico. La tabla de distribución de frecuencias proporciona

pistas acerca de las características de la población sujeta al estudio.

Además permite realizar cálculos posteriores para el análisis de los datos.

Al agrupar o condensar en tablas de distribución de frecuencias, el

proceso del análisis e interpretación de los datos se hace mucho mas

manejable y significativo

La tabla de distribución de frecuencias, esta compuesta por los siguientes

elementos:

Rango

Numero de clase

Ancho de clase

Limites aparentes reales

Frecuencias

Marcas de clase

RANGO (R)

Indica la amplitud de la ubicación numérica del conjunto de datos.

Es la diferencia que existe entre el mayor y el menor de los datos:

R= dato mayor- dato menor

NUMERO DE CLASE O INTERVALOS (K)

El número de agrupamientos de clase a utilizar depende

principalmente del número de observaciones en los datos, es decir, un

número mayor de observaciones requiere un número mayor de grupos de

clase o intervalos. El número de clase debe estar entre 5 y 15. Si no hay

suficientes intervalos o si hay demasiados se obtendrá poca

información. Para determinar el numero de clase de emplea ka siguiente

relación: 1+3.32 Log (n), donde “n” es el numero de datos de la muestra.

K=1+3.32. Log n

AMPLITUD O INTERVALOS DE CLASE (i)

Cada grupo denominado también clase, debe poseer unos tamaños

o amplitud. A esta amplitud se le denomina intervalo y es representado

por i.

I=rango/N0. De clase o sea i=R/K

LIMITES APARENTES (la)

Todo intervalo esta formado por dos limites de clase o limites

aparentes, un límite inferior y un límite superior. Los límites aparentes se

utilizan para evitar ambigüedad en la clasificación por intervalos. Por

ejemplo, de las estaturas anteriores se tiene: menos 160 a 169, de 170 a

179, igual o más de 180 cm.

LIMITES REALES DE CLASE (lr)

Debido a la discontinuidad que existe entre los grupo, conviene

lograr que, donde finalice un grupo comience el siguiente, con lo cual de

obtendrán nuevos limites a los cuales se les denomina limites reales o

verdaderos y se obtiene encontrando el punto medio de el limite

aparente superior de un grupo y el limite aparente inferior del siguiente

grupo. También puede calcularse a partir de los límites aparentes

considerando que:

Si los límites son números esteros, entonces, restar 0.5 al límite

inferior y sumar 0.5 al límite superior.

Si los limites no son números enteros, se debe restar y sumar a

los intervalos de clase 0.05 si tienen un solo decimal, 0.005 .si

tiene dos decimales, 0.0005 si tienen tres decimales, etc.

MARCA DE CLASE (xі)

Son los puntos medios de cada intervalo y son los valores usados

para representar todos los datos resumidos en un intervalo particular.

FRECUENCIAS

FRECUENCIA ABSOLUTA O DE INTERVALO (fi)

La frecuencia absoluta es la que indica como están distribuidos los

datos en cada grupo, es decir, como esta repartida la cantidad total de

datos entre los grupos. Indica cuantos datos posee el primer grupo, el

segundo grupo, el tercero.

FRECUENCIA RELATIVA (fr)

La frecuencia relativa es la proporción entre la frecuencia de un

intervalo y es el numero total de datos, es decir, el valor de una fracción

cuyo numerador es la frecuencia absoluta y cuyo denominador es el

numero de individuos de la población. La frecuencia relativa esta

comprendida siempre entre 0 y 1 y esta dada por:

Fr=fi/n

El uso de la frecuencia relativa o porcentual se vuelve esencial siempre

que una serie de datos se compara con otras series de datos,

especialmente si difiere el número de observaciones en cada serie de

datos.

FRECUENCIA ACUMULADA ABSOLUTA (Fa)

La frecuencia acumulad identifica en numero de observaciones

acumuladas en cada grupo. Se calcula a partir de las frecuencias

absolutas ya que estas proporcionan la suma de las repeticiones

anteriores a un intervalo.

FRECUENCIA ACUMULADA RELATIVA (Fr)

La frecuencia acumulada relativa es el cociente entre la frecuencia

acumulada y el numero total de datos observados, con lo que se obtienen

la suma de las

Frecuencias relativas de las repeticiones anteriores a esta. Se calcula de

la siguiente forma

Fr=Fa/n

EJEMPLO 1

Los punteos obtenidos por un grupo de 40 estudiantes en el curso de

física son:

80-20-60-75-40-55-70-75-60-85

40-60-75-78-37-42-60-80-88-75

70-60-80-90-95-65-32-43-44-62

28-45-35-63-66-88-95-98-96-94

CALCULAR

Numero de clase

Rango

Intervalo

Distribución de frecuencia

SOLUCION

El numero de grupos o clase a formar estado dado por:

K=1+3.32.Log 40=1+32. (1.60206)

=1+5.3188=6.3188

El rango se calcula de la siguiente manera:

R=dato mayor-dato menor

R= 98-20=78

Intervalo

I=78/6.3188=12.340

Como los datos son números enteros se aproxima “i” al entero mas

cercanos, entonces:

I=12

Los intervalos se calculan iniciando del dato menor (20). Los datos se

muestran en la tabla 2.1. El primer intervalo de la tabla es 20-31.

Tabla 2.1 ejemplo de un grupo de 40 estudiantes de física

Limite inferior Limite superior

20 31

32 43

44 55

56 67

68 79

80 92

92 103

FRECUENCIAS ABSOLUTAS

Para calcular las frecuencias hacemos un conteo del número de datos

que pertenecen a cada intervalo. El procedimiento puede ser:

Ordenando los datos en forma ascendente o descendente,

Contando cuantos valores hay en cada intervalo, es decir de 20 a

31 hay 2 de 32 a 43 hay 7 etc.

O bien por cada dato el grupo original marcamos mediante una

línea en el intervalo al que pertenece, como se ilustra a

continuación (tabla 2.2)

Tabla 2.2 distribución de frecuencia del ejemplo 1

Limite inferior Limite superior conteo Frecuencia absoluta fi

20 31 II 2

32 43 IIIIII 7

44 55 III 3

56 67 IIIIIIII 9

68 79 IIIIIII 7

80 91 IIIIIII 7

92 103 IIIII 5

N= 40

GRAFICAS UTILIZADAS EN ESTADISTICA

GRAFICA DE LINEAS

Es el tipo de grafica más simple que existe. Se representa por líneas rectas, donde el alto de la línea indica el valor que se desea representar, y en la base el atributo o valor de la variable. La base y la altura deben dar una impresión rectangular. La grafica de líneas puede representarse horizontal y verticalmente.

Diagramas de líneasEjemplo:

En la empresa “SEPRO”; 30 personas laboran en la jornada diurna, 20 en la jornada mixta y 10 en la jornada nocturna. Trace un grafico de líneas vertical y un grafico de líneas horizontales, para representar la información dada.

Figura 3.1 diagrama de líneas (vertical)

DIAGRAMA DE BARRAS MULTIPLES

Cuando es importante hacer comparaciones entre datos estadísticos, es uti8l realizarlas a trabes de un diagrama de barras compuestas en el cual se utilizan barras distintas para cada serie de datos y dibujandolas unas al lado de otras en el mismo grafico.

DIAGRAMA DE BARRAS COMPUESTAS

Consiste en dibujar el diagrama de barras de una de las series estadísticas y continuar encima con otras de distinto fondo que representaran la segunda serie estadística. De forma cada barra tendrá una altura total, que será la suma de la frecuencia absoluta del suceso que representa la primera serie mas la frecuencia absoluta del mismo suceso en la segunda serie etc.

GRAFICA DE CAMBIOS LINEALES

Las graficas de cambios lineales son aquellas que se representan en coordenadas cartesianas mediante puntos que se unen por medio de líneas rectas, lo que nos da una curva final de la representación.

GRAFICAS DE SERIES INDEPENDIENTESSConsiste en un conjunto de graficas de cambios lineales de una serie independiente de otra, diferenciándolas por medio de códigos.

DIAGRAMA DE SECTORES

Es una representación tipo de e se utiliza el circulo como base, este tipo de grafico es de la misma naturaleza que el de barras; en este caso, el circulo se subdivide en partes proporcionales a cada cantidad de la variable que se desea representar. La frecuencia absoluta total corresponde a los 360 grados de la circunferencia y con el uso de un transportador se puede trazar los sectores resultantes.

PICTOGRAMA

Gráficos de figuras, utilizadas para representar datos estadísticos de tal forma que llame la atención de quien los analiza.

GRAFICA PARA DISTRIBUCION DE FRECUENCIA

Hasta ahora se ha visto graficas para las variables cualitativas o cuantitativas de tipo discreto; sin embargo es importante recordar que las variables pueden tomar valores reales o de tipo continuo y que para estudiarlas es necesario dividirlas en intervalos de clase. Además, cuando se trate de muestra que contienen más de 30 datos es conveniente agrupar en intervalos o clases dichos datos construyendo una tabla de distribución de frecuencia.

HISTOGRAMAS

Un histograma es una grafica de barras que representa el numero de elementos que comprende cada clase de la distribución de frecuencia, esta formando por rectángulos unidos unos a otros, en el eje de las abscisas los vértices de las bases son los extremos de los intervalos (limites reales) y el centro de cada rectángulo corresponde a la marca de clase.Al asumir intervalos de igual amplitud, en el eje de las “Y” se representan las alturas de los rectángulos que son iguales a las frecuencias absolutas o relativas se acostumbra a tomar las alturas numéricamente iguales a dichas frecuencias.

GRAFICAS DE FRECUENCIAS ACUMULADAS: OJIVAS

Las graficas de frecuencia acumulada también llamada ojivas son útiles cuando los datos de la muestra se dividen en intervalos de clase y desea conocer, por ejemplo, cuantos individuos de la población están comprendidos en los intervalos hasta cada una de las marcas de la clase sucesivas. Se pueden graficar dos tipos de ojivas:

OJIVAS ASCENDENTE.

Se forman uniendo con líneas rectas, puntos que se localizan con cada límite real superior y su frecuencia acumulada ascendente absoluta o relativa.

OJIVAS DESCENDENTE

Se forma uniendo con líneas rectas, puntos que se localizan con cada límite real superior y su frecuencia acumulada descendente absoluta o relativa.El punto de intersección entre las dos ojivas, en una representación grafica, corresponde exactamente a la mediana de la distribución, la cual se estudiara en el siguiente capitulo.

MEDIDAS DE TENDENCIA CENTRAL

Una forma clara de y concisa de representar la información de una manera útil son las medias de tendencia central y a que proporcionan una descripción significativa de un conjunto de observaciones.Las medidas de tendencia central como su nombre lo indica son parámetros que miden que tanto los datos de una variable tienden a situarse en el centro de su rango.A continuación se mencionan algunas medidas de tendencia central cuyo uso tiene importante aplicación práctica.

Media aritmética o promedio aritméticoMedianaModaMedia geométricaMedia armónicaMedia cuadrática

En este capitulo se analizaran los fractilos, los cuales representan los intervalos dentro de los cuales quedan proporcionalmente repartidos los términos de la distribución. Los más comunes son:

CuartilesDecilesCentiles o percentiles.

MEDIA ARITMETICA

MEDIA ARITMETICA PARA DATOS SIMPLES

La media aritmética o simplemente media es el valor medio de los datos, es la medida de tendencia central más importante, debido a la representatividad que posee de los datos de las variables en estudio. Se calcula sumando los valores de todas las observaciones y dividiendo el resultado entre el número de observaciones. Por lo general de le representa con X (equis barra) la formula de la media para datos no agrupados es:

MEDIA ARITMETICA PONDERADA

A veces algunos de los valores a promediar son más importantes que otros es decir tienen una importancia relativa diferente en unión de la persona que realiza la elección. En este caso debe utilizarse el promedio ponderado el cual aplica un factor de ponderación (o importancia relativa) a cada uno de los valores a promediar. La medida aritmética ponderada se representa por Xp y viere dada por:

X=w1.x2+w2.x2+…+wn.xn= sumatoria w1.x1W1+w2+…+wn sumatoria w1

MEDIA ARITMETICA PARA DATOS AGRUPADOS

Cuando el numero de observaciones es bastante grande, es común agrupar en intervalos de clase (mas d e30 datos). Se calcula entonces la media aritmética sumando el producto de cada marca de clase (x), por el número de observaciones o frecuencias absoluta (fi) .

MEDIANA La mediana es el valor de la observación central de los datos ordenados de menor a mayor tiene la característica que deja el mismo numero de valores a su izquierda que a su derecha.

MODA

La moda es el valor que se repite la mayor cantidad de veces, si l variable es discreta también se dice que es el valor mas común, es útil cuando se requiere un calculo rápido por ejemplo, en una serie : 2,4,4,5,5,5,7,8, la moda es 5, por que es el elemento que mas veces se repite Existen muchos casos como en el ejemplo anterior que la moda es única, sin embargo, puede ocurrir que en una distribución haya dos o mas modas (aunque es poco común que es resulte en el trabajo experimental), entonces, se dice que la distribución es by modal, trimodal, etc. Incluso puede no existir la moda como por ejemplo en serie 2,3,4,5,7,10 ya que no existe ningún valor repetido si los datos no están agrupados el calculo de la moda es trivial, ya que solo se sebe observar cual es el dato que mas se repite entre ellos.

La moda es la única medida de tendencia central que se puede calcular para variables de tipo cualitativo, por ejemplo, el grado de escolaridad ( primaria, secundaria, universitaria, etc.) el tipo de suelo (arcilloso, arenoso, etc.)

MEDIA ARMONICA

La media armónica es otra medida de tendencia central, aunque menos utilizada que los promedios anteriores. Se denota por XH y esta definida como la reciproca de la media aritmética de los recíprocos de un conjunto de datos.

APLICACIONES DE LA MEDIA ARMONICA

PRECIO PROMEDIO

Si se compran varios tipos de productos con distinta cantidades de unidades de cada tipo, pero gastando en ellos igual cantidad de dinero, el precio promedio por unidad es igual a la media armónica de los precios por unidad de cada tipo de producto.

RENDIMIENTO PROMEDIO DE PRODUCCION

En un grupo puede haber personas con distinta velocidad para producir un artículo o producto. Si cada una de estas personas tiene que elaborar igual cantidad de artículos o productos, el promedio de velocidad de rendimiento de tal grupo, es igual a l promedio armónico de las velocidades de rendimiento de cada una de las personas que lo integran.

MEDIA CUADRATICA

La media cuadrática de una serie de datos se define con la raíz cuadrada de la media aritmética de los cuadrados de los valores de la variable.

FRACTILOS O CUANTILOS

Así como la media marca la mitad de los valores mayores que ella y la mitad de los valores menores los fractilos permiten identificar valores ubicados en diferentes posiciones. Se denomina fractilo a la localización del valor que corresponde al final de cada parte en que se ha dividido la distribución de datos los fractilos mas importante son los cuarteles, los deciles y los centiles o precentiles.

CUARTILESSon los que indican un valor que le corresponde al punto final de cada una de las cuatro partes en que se divide una serie o agrupación de datos. Los cuarteles (primero, segundo, tercero y cuarto) señalan el valor que esta al 25,50 y 75 y 100% de la totalidad de datos.

DECILES

Una fracción de datos también puede fraccionarse en 10 partes iguales. El valor se denomina deciles. Los deciles (del primero al décimo) marcan el valor ubicado al 10, 20,30,…., y 100% de los datos respectivamente, el decil quinto equivale a la mediana. Se denotan por Di donde la j al pie de la D indica a que décima parte de la distribución de datos pertenece.

CENTILES

Son valores de la variable al final de cada una de las centésimas partes de la distribución de datos que se posee. Los centiles o percentiles (del primero al nonagésimo noveno) indican el valor que esta al 1, 2,3,…, y 99% de los datos, el centil 50 equivale a la mediana.