qué es la estadística

11
NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval 2010 QUÉ ES LA ESTADÍSTICA Un antiguo experimento Entonces dijo Daniel al guardia……“Le ruego que hagas la prueba con sus siervos por diez días, y nos den legumbres a comer, y agua a beber. Compara luego nuestros rostros con los rostros de los muchachos que comen de la ración de la comida del rey, y haz después con tus siervos según lo que consideres” Biblia: Daniel 1: 11- 14. Cuando coloquialmente se habla de estadística, se suele pensar en una relación de datos numéricos presentada de forma ordenada y sistemática. Esta idea es la consecuencia del concepto popular que existe sobre el término estadística descriptiva y que cada vez está más extendido en nosotros debido a la influencia que hay de ella en nuestro entorno. Hoy día es casi imposible que cualquier medio de difusión: periódico, radio, televisión entre otros, nos aborde diariamente con cualquier tipo de información estadística sobre: tráfico, índices de crecimiento de población, turismo, tendencias políticas, entre otras. Sólo cuando nos adentramos en un mundo más específico como la investigación, se empieza a percibir que la Estadística no sólo son cuadros y diagramas de barras, sino que se convierte en una excelente disciplina que hoy por hoy, permite dar luz y obtener resultados de información con variabilidad intrínseca, que no pueda ser abordada desde otra perspectiva. Ya lo decía Álvaro Muñoz 1 , Profesor de Estadística de John Hopkins University (USA), la estadística como ciencia fundamental es la “Ciencia de todas las ciencias”. 1 Conferencia Sobre VIH y su historia, estudios de Cohorte en Epidemiología, Auditorio de la Facultad de Medicina Universidad de Antioquia, Medellín, 2004

Upload: juan-de-j-sandoval

Post on 13-Jun-2015

21.619 views

Category:

Education


2 download

DESCRIPTION

Introducción a la estadistica

TRANSCRIPT

Page 1: Qué es la Estadística

NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval

2010

QUÉ ES LA ESTADÍSTICA

Un antiguo experimento

Entonces dijo Daniel al guardia……“Le ruego que hagas la prueba con

sus siervos por diez días, y nos den legumbres a comer, y agua a

beber. Compara luego nuestros rostros con los rostros de los

muchachos que comen de la ración de la comida del rey, y haz

después con tus siervos según lo que consideres” Biblia: Daniel 1: 11-

14.

Cuando coloquialmente se habla de estadística, se suele pensar en una relación de datos

numéricos presentada de forma ordenada y sistemática. Esta idea es la consecuencia del concepto

popular que existe sobre el término estadística descriptiva y que cada vez está más extendido en

nosotros debido a la influencia que hay de ella en nuestro entorno. Hoy día es casi imposible que

cualquier medio de difusión: periódico, radio, televisión entre otros, nos aborde diariamente con

cualquier tipo de información estadística sobre: tráfico, índices de crecimiento de población,

turismo, tendencias políticas, entre otras.

Sólo cuando nos adentramos en un mundo más específico como la investigación, se empieza a

percibir que la Estadística no sólo son cuadros y diagramas de barras, sino que se convierte en una

excelente disciplina que hoy por hoy, permite dar luz y obtener resultados de información con

variabilidad intrínseca, que no pueda ser abordada desde otra perspectiva. Ya lo decía Álvaro

Muñoz1, Profesor de Estadística de John Hopkins University (USA), la estadística como ciencia

fundamental es la “Ciencia de todas las ciencias”.

1 Conferencia Sobre VIH y su historia, estudios de Cohorte en Epidemiología, Auditorio de la Facultad de Medicina Universidad de Antioquia, Medellín, 2004

Page 2: Qué es la Estadística

NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval

2010

El término Estadística, fue acuñado por el economista Alemán Gottfried Achenvall (1719-1772),

profesor de la Universidad de Göttingen, definiéndola en un principio como “matemáticas

aplicadas a los asuntos del estado”; sin embargo, dicho termino, conocido hoy día confluye en lo

que se denomina la estadística moderna, que reúne la estadística matemática y el análisis de

datos, con el único fin de resolver de obtener conclusiones validas y objetivas con base en los

resultados de una muestra.

DEFINICIONES FORMALES DE LA ESTADISTICA

La Estadística es la ciencia que se ocupa de los métodos y procedimientos para coleccionar,

clasificar, resumir, hallar irregularidades y analizar los datos, cuya variabilidad o incertidumbre sea

una causa intrínseca de los mismos, además de realizar inferencias a partir de ellos, con la

finalidad de tomar de decisiones y formular predicciones, con base en los resultados de una

muestra.

Se podría por tanto, clasificar entonces a la Estadística en descriptiva, cuando los resultados del

análisis no pretenden ir más allá del conjunto de datos, e Inferencial cuando el objetivo del

estudio es generalizar a toda una población desde los resultados obtenidos de una muestra de

datos.

Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando métodos

numéricos y gráficos que resumen y presentan la información contenida en ellos.

Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos obtenidos

mediante muestras aleatorias, efectúa estimaciones, hipótesis, predicciones u otras

generalizaciones a una población de referencia.

Page 3: Qué es la Estadística

NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval

2010

LLLAAA EEESSSTTTAAADDDÍÍÍSSSTTTIIICCCAAA DDDEEESSSCCCRRRIIIPPPTTTIIIVVVAAA

Se pretende inducir en los primeros pasos sobre el uso y manejos de datos numéricos: distinguir y

clasificar las características en estudio, instruir de cómo organizar y tabular las medidas obtenidas

mediante, la construcción de tablas de frecuencia y gráficos que sean capaces de mostrar unos

resultados.

La afirmación: ``una imagen vale más que mil palabras'' se puede aplicar al ámbito de la estadística

descriptiva diciendo que ``un gráfico bien elaborado vale más que mil tablas de frecuencias''.

Cada vez es más habitual el uso de gráficos o imágenes para representar la información obtenida.

No obstante, debemos ser prudentes al realizar e interpretar gráficos, puesto que una misma

información se puede representar de formas muy diversas, y no todas ellas pertinentes, correctas

o válidas (D. Huff, 1.965, como mentir con estadísticas). Nuestro objetivo adicional, en este

capítulo, consiste en establecer los criterios que deben verificarse para construir gráficos y

presentar adecuadamente los datos desde la perspectiva de la estadística descriptiva.

Sin embargo, la adecuación de un gráfico depende de las condiciones en las cuales es presentando

y la información a ser comunicada. A continuación se presentan recomendaciones para el diseño

de un buen grafico estadístico según L. Wilkinson2.

2 Wilkinson Leland (1999).Cognitive Science and Graphics Design,

Page 4: Qué es la Estadística

NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval

2010

Establecemos a continuación algunas definiciones de conceptos básicos en estadística.

Experimento. Es un proceso que genera resultados

Unidad Elemental (Experimental). Es la persona, sujeto u objeto que contiene características

de interés para un investigador

Población. Conjunto de unidades elementales con una o varias características comunes. Con

relación al tamaño de la población, ésta puede ser:

• Finita, como es el caso del número de personas que llegan al servicio de urgencia por día

Page 5: Qué es la Estadística

NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval

2010

• Infinita, Si por ejemplo se desea estudiar una opinión en la población colombiana,

representativa por departamentos. Se considera una población grande a más de 30.000

unidades elementales.

Muestra: subconjunto de elementos de una población. Dentro de las muestras, se puede hablar

de muestra representativa de una población mediante criterios de aleatoriedad (azar) o tamaño

de la muestra, criterios que se verán después.

Parámetro: Son características relevantes (notables) que sobresalen dentro de una o varias

poblaciones

Estadístico: Es una expresión matemática o formula (función) definida sobre los valores numéricos

de una muestra.

Estimador: Es un valor particular calculado desde los resultados de una muestra a través del

estadístico y que muestra como resultado una aproximación al verdadero parámetro de la

población de donde proviene la muestra.

Ejemplo. Considérese la población formada por todos los estudiantes del Instituto Tecnológico

Metropolitano, al que se le desconoce la edad promedio de cada estudiante, esta será nuestra

característica relevante (parámetro desconocido µ “miú”). El conjunto formado por los alumnos

del curso de Estadística será una muestra de dicha población. La expresión matemática que

permite calcular un promedio desde esta muestra se denomina el estadístico, esta será para

nuestro caso:n

XX

n

ii∑

== 1 ; finalmente, el valor obtenido de la muestra digamos, x =22,3 años, de

por ejemplo de los 40 estudiantes de la clase, será el estimador de la edad media de la población

de estudiantes a través de la muestra. ¿Será este estimador un valor confiable para generalizarlo a

toda la población universitaria? Explique las razones de su afirmación o negación.

Page 6: Qué es la Estadística

NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval

2010

DEFINICIÓN DE VARIABLES EN ESTADÍSTICA

Cuando se hable de variable se hará referencia a una característica de interés que puede ser

medida u observada a las unidades elementales de una población y que tiene una variabilidad

intrínseca a los mismos. Se simbolizará con letras minúsculas (x, y, a, b,...) que puede tomar

cualquier valor (o atributo) de un conjunto determinado de elementos, que se llamará recorrido

de la variable.

Clasificación según la naturaleza de la variable. Según su naturaleza las variables se clasifican del

siguiente modo:

• Variables cualitativas. Son llamadas también variables categóricas. Miden una cualidad o

atributo de determinada unidad elemental y no toman valores numéricos, o si los toman,

solo representan códigos; ejemplo de ello es la variable sexo que resultará ser masculino o

femenino; También el estado civil que será: casado, soltero, separado, viudo. Una

degustación un producto puede ser: bueno, regular, malo o excelente.

• Variables Cuantitativas. Como su nombre lo indica están asociadas a un número

(numéricas) entero o real, ellas pueden ser:

• Variables discretas: resultan de conteos asociados a los números enteros positivos,

por ejemplo el número de personas infectadas de gripe en una comunidad, el número

de aves migratorias en el verano pasado; El número de personas que opinan a favor de

un candidato.

• Variables continuas: estas variables resultan básicamente de mediciones asociadas a

un instrumento de medición o una razón, por consiguiente están asociadas a los

números reales; en este tipo de variables es muy común encontrar mediciones,

razones o tiempos por tal razón tales valores resultan decimales como por ejemplo: la

calificación numérica de una evaluación, medición del peso de una persona; tiempos

de llegada a una estación, tasa de desempleados por municipio en el país.

Page 7: Qué es la Estadística

NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval

2010

Clasificación según las escalas de medición. Las escalas de medición son las herramientas

apropiadas para medir y clasificar las variables mediante un orden jerárquico según la cantidad de

información que ofrezcan al investigador. Estas permitirán precisar en su momento las técnicas de

muestreo y metodologías estadísticas adecuadas para los análisis estadísticos. Para empezar, es

conveniente definir mejor el concepto de medida, “se entiende el acto de medir como un proceso

por el cual los números o símbolos se asignan para representar características o propiedades de

acuerdo a determinadas reglas o patrones de comparación establecidos.

Según su escala de medición (nivel), las variables se clasifican en nominales u ordinales (el caso de

las cualitativas) y de intervalo o razón (el caso de las cuantitativas).

• Escala nominal. Considere la variable sexo (biológico), sus categorías son hombre y mujer.

Típicamente se puede usar números para facilidad de notación, por ejemplo se puede

representar hombre con 1 y mujer con 2 (esto es absolutamente necesario) para

representarlos. La asignación de números los entre las categorías no tiene importancia

numérica y sería inapropiado realizar cálculos numéricos (como por ejemplo operaciones

aritméticas u ordenarlos), otro ejemplo de ello es el número de la cedula. Estos números

simplemente son utilizados para clasificar sujetos en diferentes grupos y contar qué

cantidad hay en cada categoría.

Variables cualitativas cuyas categorías no se pueden ordenar según criterios universales,

son llamadas variables en escala nominal. Los estadísticos que son apropiados para las

escalas nominales están solamente basados sobre conteos de frecuencias absolutas o

relativas sobre las categorías o la identificación del atributo más frecuente (la moda).

• Escala Ordinal. Supóngase que se desea medir la preferencia (1: me gusta muchísimo, 2:

me gusta medianamente, 3: me gusta poco, 4: no me gusta), que tiene de un individuo

para cuatro marcas de refresco, digamos A, B, C y D. Podría preguntársele a cada sujeto el

rango de orden de de preferencia de las cuatro marcas, Considere el siguiente rango de

orden para una preferencia particular de un sujeto:

MARCA RANGO

Page 8: Qué es la Estadística

NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval

2010

A 1

B 2

C 3

D 4

Desde la tabla anterior se puede concluir que el sujeto en mención prefiere más la marca

A que la marca C, prefiere la C más que la D, etc... No obstante, aunque las diferencias

entre los valores numéricos sucesivos asignados a las categorías sean las mismas, no se

puede manifestar que este individuo prefiera tantas veces mas una marca que otra, como

por ejemplo decir que D es 4 veces más preferida que A, no porque los números asignados

son códigos, que bien podían ser cambiados (como por ejemplo por 0, 10, 12, 28), sin

embargo, se sabe el orden de su preferencia. Variables con estas categorías, son

catalogadas en escalas de medición ordinales. Los estadísticos que pueden ser calculados

en la escala ordinal son: son los mismos de la escala nominal, en adición a los estadísticos

de orden (mediana, percentiles), además, distribuciones de frecuencias acumuladas y

estadísticos no paramétricos tales como la correlación de Spearman3.

• Escala de intervalo. Supóngase que en vez de preguntar al individuo en el ejemplo

anterior, por el rango de orden de las 4 marcas, se le pregunta por un orden de

preferencia de 1 a 10 (por ejemplo que tanto le gusta el producto), de cada una de las

marca de acuerdo a la siguiente escala:

Tabla No 1

Si se asume que categorías sucesivas representan iguales grados de preferencia entonces se

podría decir que la diferencia entre la preferencia de un sujeto para la marca que se codificó con 1

y 2, es la misma diferencia para otra marca que se codificó con 4 y 5. Sin embargo, no se puede

3 Estadístico que permite calcular la correlación entre dos variables cuyas categorías o valores se puedan ordenar, creado por Charles Spearman, Estadístico de S. XIX, fundador de la estadística no parametrica

PUNTO DE ESCALA

10 9 8 7 6 5 4 3 2 1

PREFERENCIA Excelente Muy bueno Medio bueno AceptableMedianamente

aceptablePoco aceptable Bajo

Medianamente bajo

Muy bajo malo

Page 9: Qué es la Estadística

NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval

2010

decir que la preferencia por una marca digamos codificó con 5, es 5 veces más preferida que la

marca codificó con 1. El siguiente ejemplo donde se inicia una codificación desde 4 hasta 22,

clarifica este punto:

Tabla No 2

Desde la tabla 2 es claro que las diferencias entre códigos sucesivos son iguales; sin embargo, el

cociente entre el último valor (22) y el primer (4) no es el mismo que para la escala de la tabla 1,

que es de 10. La razón entre el último valor y el primero es de 10 para la tabla No 1 y de 5,5 para la

tabla 2, no obstante, los valores en preferencias son los mismos.

Al cambiar la escala se ha cambiado el valor de la categoría base (es decir el valor del peor nivel de

preferencia). La escala de intervalo no tiene un valor o punto de base natural. Esto es, el valor base

es arbitrario. Las escalas de medición cuyas categorías sucesivas representan iguales niveles de la

característica que está siendo medida y cuyos valores base son arbitrarios son llamadas: escala de

intervalo. Valores como por ejemplo, los de la temperatura son variables de escala de intervalo

porque no hay ceros absolutos, por ejemplo, 0°C no indica ausencia de medida, por consiguiente

no es un punto de referencia valido para comparar los valores de la temperatura. Tampoco se

podrá decir que para cada individuo hay la misma sensación, al pasar de frio o calor de 20°C a

30°C, que de –10°C a 0°C, razón por la cual aquí no tienen sentido los cocientes entre pares de

valores de la temperatura ya que las mismas distancias entre los valores son arbitrarias. Se podría

decir que las variables en escala de intervalo son puntajes numéricos ampliados de la escala

ordinal en la que no necesariamente se deberá tomar valores enteros.

Las variables en esta escala se pueden calcular todos los estadísticos conocidos excepto

comparaciones con algunos en los haya que realizar un cociente entre valores de la variable tales

como el coeficiente de variación.

Escala de razón

La escala de razón tiene todas las propiedades de las variables en escala de intervalo, pero además

de ello, tiene una base natural que no puede ser cambiada, como por ejemplo, la edad de un

PUNTO DE ES CALA

22 20 18 16 14 12 10 8 6 4

PREFERENCIA Excelente Muy bueno Medio bueno AceptableMedianamente

aceptablePoco aceptable Bajo

Medianamente bajo

Muy bajo malo

Page 10: Qué es la Estadística

NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval

2010

sujeto que tiene un valor absoluto de base natural (cero) y no depende de las unidades de

medición que se asignen. Las escalas de razón pueden ser transformadas multiplicando por una

constante, sin embargo ellas no pueden ser transformadas adicionando una constante, esto

cambiaría su valor de base.

En las escalas de razón se dan afirmaciones como: la edad de Jorge es 3 veces la edad de su hijo

Samuel. No hay restricción para que todo tipo de estadísticos numéricos puedan ser calculados en

unos datos de escala de razón. Las variables medidas usando escalas de intervalo y de razón son

denominadas variables métricas.

Taller No 2

1. Seleccionar una muestra al azar de 15 estudiantes y clasificarlos según su: sexo (biológico),

color de cabello, edad, talla del pie, estatura(mts), contextura corporal, color de ojos, nivel

educativo del padre, trabaja (si/no), capacidad para ser un líder (puntaje 0-100).

2. Clasificar las siguientes variables según su naturaleza, escala de medición:

1. Preferencia política (izquierda, derecha o centro).

2. Marcas de cerveza en Colombia

3. cualidad académica del estudiante

4. Velocidad en Km/h de un automóvil.

5. El peso en Kg.

6. puntaje cuantitativo obtenido en la pruebas de ICFES

7. Signo del zodiaco

8. semestre académico del ITM

9. Nivel educativo del padre.

10. Tiempo de estudios en su vida (años)

11. Tipo de colegio de donde proviene.

12. color de cabello

13. cantidad de bytes de memoria del computador

14. Número de empleados de una empresa.

15. La temperatura de Medellín grados Celsius

Page 11: Qué es la Estadística

NOTAS PARA UN CURSO DE FUNDAMENTOS DE ESTADISTICA Profesor: Juan de J. Sandoval

2010

16. Nivel de SISBEN

17. Tipo de creencia religiosa

18. índice de hacinamiento de la vivienda (# de habitaciones / # de personas)

3. Clasifique las variables anteriores siguiente cuadro, según su naturaleza, escala de

medición, categorías (si es cualitativa) o unidad de medida, estadísticos calculables con

una tabla de la siguiente forma:

Operatividad de variables

Variable definición Naturaleza Escala de

medición

Categorización

o unidad de

medida

Estadísticos a

calcular

“código de

recolección”

“como se debe

preguntar”

“Como son las

categorías

(cuales) o

unidad de

medida”

“cuáles son los

posibles

estadísticos a

calcular con

dicha variable”