estadistica descriptiva

UNIVERSIDAD NACIONAL EXPERIMENTAL “FRANCISCO DE MIRANDA”

DPTO. DE FÍSICA Y MATEMÁTICA UNIDAD CURRICULAR: ESTADÍSTICA

TEMA Nº 1. ESTADÍSTICA DESCRIPTIVA

DATOS: Son números o medidas que han sido recopilados como resultado de observaciones. La información relativa a un hecho o fenómeno en estudio se manifiesta a través de los datos. Los datos representan la materia prima de la Estadística ya que resultan de la medición que se realice sobre los sucesos de los fenómenos en estudio. CLASIFICACIÓN DE LOS DATOS: DATOS CUANTITATIVOS: Son las observaciones derivadas de un experimento que representan características medibles. Ej.:

5, 4, 25, 24, 10 (Número de estudiantes de un curso) 0, 1, 2, 5, 10 (Número de hijos en una familia)

DATOS CUALITATIVOS: Son aquellos que representan características observables pero no medibles. Ej.:

Negro, Azul, Blanco (Color de un objeto) Fuma, No fuma (Clasificación de un grupo de estudiantes en

fumadores y no fumadores) Sobresaliente, Bueno, Deficiente (Clasificación de un grupo de

estudiantes en sobresalientes y deficientes) ORGANIZACIÓN DE LOS DATOS: La organización de los datos se realiza de acuerdo a si los datos son Cualitativos o Cuantitativos. Organización de Datos Cualitativos: La agrupación de los datos es muy sencilla y se hace de acuerdo a las modalidades que presente la variable en estudio, mediante un conteo se determina el número de datos (Frecuencia) correspondiente a las diferentes categorías de la variable.

Ej.: En un estudio sobre las personas que estudian Enfermería se realizaron 20 entrevistas y en relación al sexo se obtuvo lo siguiente: Dado que este conjunto de datos corresponden a una Variable Cualitativa, entonces se realiza el conteo de los mismos y la agrupación quedaría:

Sexo Personas

F 15

M 5

Total 20

Organización de Datos Cuantitativos: Para Organizar datos cuantitativos, se utiliza un procedimiento similar pero más laborioso. Ej.: Se tiene la información correspondiente a las alturas (en cmts.) de un grupo de estudiantes.

181.3 182.5 183.0 177.5 181.3 176.7 177.4 179.6 182.5 176.7 176.5 169.9 166.9 177.4 182.5

1. Se ordenan los datos en orden ascendente:

166.9 169.9 176.5 176.7 176.7 177.4 177.4 177.5 179.6 181.3 181.3 182.5 182.5 182.5 183.0

2. Se colocan en forma tabular cada uno de los datos con sus

respectivas frecuencias

Altura Nº Estudiantes Altura Nº Estudiantes

166.9 1 177.5 1

169.9 1 179.6 1

176.5 1 181.3 2

176.7 2 182.5 3

177.4 2 183.0 1

DISTRIBUCIÓN DE FRECUENCIAS: Es una ordenación tabular de los datos en intervalos de clases con sus respectivas frecuencias. Cuando los datos se presentan en Distribuciones de Frecuencias se habla de Datos Agrupados. Cuando los datos se presentan individualmente, se habla de Datos no Agrupados.

F M F F F F M M F M F M F F F F F F F F

ELEMENTOS DE UNA DISTRIBUCIÓN DE FRECUENCIAS:

1. CLASES: Consisten en intervalos de valores ordenados en forma ascendente y que cubren todos los valores disponibles.

2. LÍMITES DE CLASES: Son los extremos de las clases. El valor menor se denomina Límite Inferior (LI) y el Valor Mayor se denomina Límite

Superior (LS). Pueden ser abiertos ( ) o cerrados . 3. AMPLITUD DE CLASE: Se obtiene hallando la diferencia entre los

límites de clase. Se denota C. 4. MARCA DE CLASE: Es el punto medio de las clases, es decir, la

semisuma del LS y el LI.

2

LI)(LSXi

5. FRECUENCIA ABSOLUTA: Es el número de observaciones contenidas

o incluidas en las clases, también se le conoce como Frecuencia de Clase. Se denota fi.

6. FRECUENCIA RELATIVA: Se obtiene dividiendo la Frecuencia Absoluta de clase fi entre el número total de observaciones n. Se denota fri.

7. FRECUENCIA ABSOLUTA ACUMULADA: Se obtiene sumando las frecuencias absolutas de todas las clases anteriores a ellas y la Frecuencia Absoluta de la clase considerada. Se denota Fi.

8. FRECUENCIA RELATIVA ACUMULADA: Se obtiene dividiendo la Frecuencia Absoluta Acumulada Fi entre el número total de observaciones. Se denota Fri.

PROCEDIMIENTO PARA CONSTRUIR UNA DISTRIBUCIÓN DE FRECUENCIAS:

1. Se determina el valor máximo y el valor mínimo (VM / Vm) de los datos y

se calcula la diferencia entre estos valores.

2. Se determina el número de clases y las amplitudes de clases. Este número no debe ser inferior a 5 ni mayor de 15. (Un número excesivo de clases no estaría ayudando a resumir los datos y uno muy pequeño significaría una agrupación extremada). Las clases deben tener la misma amplitud. Si se conoce de antemano el número de clases K que se requiere en la distribución de frecuencias, entonces se divide la diferencia VM y Vm entre el número de clases.

K

VVC mM

3. Si no se tiene idea sobre cuantas deben ser las clases ni la amplitud de

las mismas, entonces se aplica la Regla de Sturges:

n) log 3,322 (1

VVC mM

4. Se procede a construir intervalos de clase una vez que se ha

determinado la amplitud de clases C. Se precisa cual va a ser el Límite Inferior de la 1era. clase LI1, ya que una vez fijado éste, utilizando la amplitud de clase se generan las clases.

5. Se puede elegir como Límite Inferior de la 1era. clase el valor mínimo de

los datos o cualquier otro valor menor que éste pero que no se encuentre muy alejado.

6. Una vez fijado LI1, se le suma la amplitud C y se obtiene el Límite

Superior de la 1era. clase LS1, el cual va a coincidir con el Límite Inferior de la 2da. Clase LI2, este procedimiento se realiza hasta obtener todas las clases de la distribución. Se tomarán intervalos semiabiertos por la derecha para que un mismo valor no pertenezca a dos intervalos de clases diferentes.

7. Se determina el número de datos contenidos en cada clase, es decir,

determinar frecuencias absolutas de clase fi, mediante un conteo y se recomienda ir tomando dato por dato, en el orden en que aparezcan, e irlos ubicando en el intervalo al cual pertenecen.

EJ.: Se desea determinar cómo varían las estaturas de las obreras de un instituto de Educación Superior al tomar una muestra de 40 mujeres. Utilice 6 clases.

67 53 60 63 65 67 55 60 63 65

56 61 63 65 67 57 61 63 65 68

57 61 64 65 68 58 61 64 65 69

58 62 64 66 69 59 62 64 66 70

La distribución de Frecuencias del Número de Obreras de la Institución quedaría de la siguiente forma:

Clase Xi fi fri FI Fri

53 – 55 54 2 0.050 2 0.050

56 – 58 57 5 0.125 7 0.175

59 – 61 60 7 0.175 14 0.350

62 – 64 63 10 0.250 24 0.600

65 – 67 66 11 0.275 35 0.875

68 - 71 69 5 0.125 40 1.0

MEDIDAS DESCRIPTIVAS NUMÉRICAS: Son números que servirán para caracterizar el conjunto de datos y mostrar algunas propiedades sobresalientes. Las tres propiedades o características

mayores que describen un conjunto de datos pertenecientes a algunas variables numéricas o fenómenos son:

Medidas de Tendencia Central

Medidas de Dispersión

Medidas de Forma

MEDIDAS DE TENDENCIA CENTRAL: También conocidas como medidas de localización o posición, permiten determinar los valores centrales de una colección de datos, entendiéndose “centro” no solo en cuanto a la posición de los datos, sino también desde el punto de vista más común entre los datos, es decir, la característica más importante que describe o resume un conjunto de datos es su posición. Las tres medidas de tendencia central más importantes son: La Media Aritmética, la Mediana y la Moda.

MEDIA ARITMÉTICA: Representa el centro físico del conjunto de datos, es decir, el valor típico representativo del conjunto. Se

denota X . Para datos No Agrupados:

n

X

X

n

1i

i

Para datos Agrupados:

n

fX

Xi

n

1i

i

Donde: Xi = Marca de clase fi = Frecuencia Absoluta de clase

MEDIANA: Es el valor para el cual cuando todos los datos se encuentran ordenados de manera creciente, la mitad de éstos es

menor que este valor y la otra es mayor. Se denota X~

. Para datos No Agrupados:

X~

= Número central de la colección de datos ordenados en forma ascendente


Fm

jCLX

~

Donde: j: Número de observaciones necesarias para lograr un total de n/2 en Fi Fm: Frecuencia absoluta de la clase siguiente a la clase de donde se obtuvo j C: Longitud de clase L: Límite inferior donde se encuentra Fm

MODA: Es el valor de las observaciones que ocurre con mayor frecuencia en el conjunto de datos, es decir, es el valor más típico o más común observado en el conjunto. Puede ocurrir que un conjunto de datos tenga 2 modas (Bimodal) o varias modas (Multimodal). Se denota Mo.

Para datos No Agrupados: Mo = El valor de mayor frecuencia en el conjunto.

Para datos Agrupados: Cdd

dLMo

21

1, donde:

L: Límite inferior de la clase de mayor frecuencia d1: Valor absoluto de la diferencia entre la frec. de la clase modal y la clase anterior d2: Valor absoluto de la diferencia entre la frec. de la clase modal y la clase siguiente C: Longitud de clase

MEDIDAS DE DISPERSIÓN: Las medidas de Tendencia Central proporcionan información acerca de los valores centrales de un conjunto de datos, pero no proporcionan ninguna idea de la variabilidad de las observaciones de dicho conjunto. Las medidas de dispersión son valores numéricos que describen la cantidad de dispersión o variabilidad que se encuentra entre los datos. “Datos bastante agrupados poseen valores relativamente pequeños y datos más dispersos tiene valores más grandes”. La dispersión se refiere a la extensión de los datos en una distribución. Las tres medidas de dispersión son: el Rango, la Varianza y la Desviación Estándar.

RANGO: Es una medida sencilla, fácil de calcular y no es más

que la diferencia entre el más alto y el más pequeño de los valores observados.

Para datos No Agrupados: R = Vmáximo - Vmínimo Para datos Agrupados: R = LS de la última clase – LI de la 1era clase

VARIANZA: “La varianza de las observaciones x1, x2,…, xn es en esencia el promedio del cuadrado de las distancias entre cada observación y la media del conjunto de observaciones”. La varianza es una medida relativamente buena de variabilidad debido a que si muchas de las diferencias son grandes (o pequeñas) entonces, el valor de la varianza será grande (o pequeño). Además, puede sufrir cambios desproporcionados aún más que la media por la existencia de valores extremos en el conjunto.

Para datos No Agrupados:

1n

n

X

X

s

2n

1i

in

1i

2

i2


1n

XnfX

s

2n

1i

i

2

i2

Donde: Xi = Marca de clase fi = Frecuencia Absoluta de clase

DESVIACIÓN ESTÁNDAR: Es la raíz cuadrada positiva de la varianza. La desviación estándar es la medida de variación más útil, su ventaja con respecto a la varianza es que está dada en las mismas unidades que las observaciones.

Para datos No Agrupados y Agrupados: 2ss

MEDIDAS DE FORMA: La forma de una distribución de Frecuencias o de una colección de datos viene dada por el aspecto que presenta el gráfico que la representa. Existen dos medidas de forma: La Asimetría y el Apuntamiento.

ASIMETRÍA: Una distribución es simétrica respecto a un punto, cuando las frecuencias se reparten siguiendo el mismo patrón a ambos lados de ese punto. También es simétrica cuando la curva que la representa es exactamente igual a ambos lados de ese punto. La Asimetría puede ser positiva (por la derecha) cuando la mayoría de los datos se concentran hacia la izquierda, o negativa (por la izquierda) si los datos se ubican a la derecha. Para calcular la asimetría existen dos métodos:

- Coeficiente de Asimetría de Pearson: Está basado en la

relación que existe entre la media y la mediana. El coeficiente de Pearson varía entre los límites

3ASP3 , aunque valores de ASP fuera del intervalo

-1,1 se consideran excepcionales. Este viene dado por:

S

XX3ASP

~

Si: ASP = 0 entonces es Simétrica, ( XX~

) ASP < 0 entonces es Asimétrica por la derecha ASP > 0 entonces es Asimétrica por la izquierda

- Coeficiente de Asimetría de Fisher: Su interpretación es similar a la del coeficiente de Pearson, aunque su cálculo es mucho más laborioso. El coeficiente Fisher está basado en la media aritmética e indica de qué lado las diferencias respecto a ésta son mayores. Se le considera un excelente indicador de Asimetría aunque tiene el inconveniente de ser afectado por valores extremos.

os AgrupadDatosSn

fXX

os Agrupadno DatosSn

XX

3

n

1i

i

3

i

3

n

1i

3

i

1

γ

Simétrica

Asimetría por la Izquierda

Asimetría por la Derecha

APUNTAMIENTO O CURTOSIS: Proporciona una idea del grado

en que la curva correspondiente a una distribución de frecuencias es apuntada o achatada en su parte central, mide el nivel de concentración de datos en la región. La medición del achatamiento de una curva se hace mediante un patrón de referencia que es la curva Normal o curva de Gauss, es decir, una curva unimodal simétrica con forma de campana. A esta curva se le denomina Mesocúrtica; cuando la curva es más achatada que la Normal, se le llama Leptocúrtica y cuando es más aguda o puntiaguda se le denomina Platicúrtica. La curtosis puede calcularse a través de:

- Coeficiente 2 de Pearson:

os AgrupadDatosSn

fXX

os Agrupadno DatosSn

XX

β

4

n

1i

i

4

i

4

n

1i

4

i

2

Si: 2 = 3 entonces la curva es Mesocúrtica

2 > 3 entonces la curva es Leptocúrtica

2 < 3 entonces la curva es Platicúrtica

Mesocúrtica

Leptocúrtica

Platicúrtica

estadistica descriptiva

Documents