unidad didÁctica 1 -...

Asignatura: Econometría

Conceptos MUY Básicos de Estadística

2

Ejemplo: encuesta alumnos matriculados

en la UMH

Estudio: Estamos interesados en conocer el nivel de renta

y otras características de los estudiantes matriculados en

la UMH en el curso 2012-2013.

Nuestro tiempo y dinero es (muy) limitado.

3

Terminología básica más importante

Sujeto: el individuo, empresa, cosa medida.

En el ejemplo, el sujeto es cada uno de los estudiantes

matriculados la UMH en el curso 2012-2013.

Variable (X): Característica(s) de interés medida.

En el ejemplo anterior, nivel de renta.

Datos: Conjunto de observaciones recogidas de todas

las variables consideradas sobre todos los sujetos a los

que se pregunta (encuesta).

En el ejemplo anterior, tendríamos una base de datos con

filas (cada estudiante) y columnas (las variables).

4

Terminología básica más importante

Población: TODAS sujetos que cumplen las condiciones

establecidas por el estudio.

En el ejemplo, la población estará constituida por todos los

estudiantes matriculados en la UMH en el curso 2012-2013.

Muestra: Subconjunto de unidades de la población, es decir, el

conjunto de sujetos con los que finalmente se trabaja. [No disponemos

de dinero ni tiempo para estudiar a la población en sí, nos

conformamos con una muestra “representativa” de la población]

En el ejemplo anterior, se analiza un conjunto de 400 estudiantes.

Parámetro: cierto número de interés que atañe a toda la población.

En el ejemplo anterior, la renta MEDIA teniendo en cuenta TODOS

los estudiantes matriculados en la UMH en el curso 2012-2013

(población).

5

Terminología básica Estimación: Proceso por el cual se obtiene una

aproximación (un valor aproximado) del parámetro de

interés.

En el ejemplo, la media (muestral) del nivel de renta de los

400 estudiantes constituye una estimación de la media

poblacional (parámetro).

Tamaño poblacional: Número de sujetos que componen

la población.

En el ejemplo anterior, el tamaño poblacional es 15000

(N=15000).

Tamaño muestral: Número de sujetos que componen la

muestra.

En el ejemplo anterior, el tamaño muestral es 400 (n=400).

6

Tipos de variables

Variable categórica o factor: En este caso los valores recogidos

corresponden a diferentes niveles de una variable clasificadora.

En el ejemplo anterior, un factor podría ser estado civil, con 4

niveles, valores o categorías posibles: soltero, casado, divorciado,

viudo.

Variable numérica: En este caso los valores recogidos son de tipo

cuantitativo (números).

En el ejemplo anterior, la renta es una variable numérica.

La distinción entre variable categórica o numérica es importante,

pues el tratamiento que se le da a una variable de un tipo u

otro varía significativamente.

7

Bloques de la Estadística Cualquier asignatura de Estadística básica que se precie se encuentra

dividida en tres grandes bloques:

[Bloque I] Estadística Descriptiva: Resumir y describir los datos de

la muestra.

Protagonista: LA MUESTRA.

[Bloque II] Probabilidad: Contenidos matemáticos (Cálculo de

probabilidades, variables aleatorias).

Es un bloque puente entre el Bloque I y el Bloque II.

[Bloque III] Inferencia Estadística: Contenidos matemáticos

(Cálculo de probabilidades, variables aleatorias).

Protagonista: LA POBLACIÓN.

8

Estadística Descriptiva

Variables Categóricas (factores)

Las resumiremos a través de:

Tabla de distribución de frecuencias (frecuencia absoluta,

frecuencia relativa)

Gráficos: gráfico de barras, gráfico de sectores.

9

Estadística Descriptiva Variables Categóricas (factores)

Tabla de distribución de frecuencias (frecuencia absoluta,

frecuencia relativa)

x frec. Absoluta frec. Relativa (%)

soltero 320 80,00%

casado 60 15,00%

divorciado 19 4,75%

viudo 1 0,25%

400 100%

10

Estadística Descriptiva Variables Categóricas (factores)

Gráficos:

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

soltero casado divorciado viudo

soltero 80%

casado 15%

divorciado 5%

viudo 0%

11


Variables numéricas

Las resumiremos a través de:

Resúmenes numéricos (media, mediana, percentiles)

Gráficos: histograma, diagrama de cajas (boxplot).

12




Media

Mediana

Percentiles: una generalización de la mediana (destacados: primer y tercer

cuartil).

1 , con los valores observadosn

n

i

ii

x

x x

13




¿Cómo saber si la media es un buen resumen de los datos de la muestra?

Rango = máximo – mínimo

Rango intercuartílico = Q3 – Q1

Varianza

Desviación típica o estándar

Coeficiente de variación: (Desv. Típica / Media)%.

2

2 1

2

( )

s

n

i

i

x x

sn

s

14



Gráficos: histograma, diagrama de cajas (boxplot).

Histograma

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

[42, 50.2) [50.2, 58.4) [58.4, 66.6) [66.6, 74.8) [74.8, 83]

fre

cu

en

cia

re

lativ

a

15

Probabilidad

Concepto de Variable Aleatoria: variable de interés a cuyos posibles

valores les asignamos una probabilidad de ocurrencia. La suma de

esas probabilidades siempre da 1 (el 100%).

En el ejemplo de los estudiantes, ¿cuál es la probabilidad de que tomado un

estudiante al azar de entre los 400, éste sea soltero? Probabilidad =

Frecuencia Relativa (en muestras grandes) [Ley de los grandes números de

Jacob Bernoulli o definición estadística de probabilidad]

Nos centraremos en estudiar la Variable Aleatoria Normal, también llamada

Gaussiana o Campana de Gauss, por ser de uso frecuente en estadística. En

particular, el Teorema Central del Límite justifica su relevancia.

X~N( , )

16

Probabilidad Variable Aleatoria Normal

17

Inferencia Estadística

Tres métodos de estimar un parámetro (poblacional):

Estimación puntual.

Intervalo de Confianza.

Contraste de Hipótesis.

En nuestro estudio deseamos afirmar algo sobre la renta media de los

15000 matriculados de la UMH, para ello sólo disponemos de

información sobre una muestra de 400 alumnos. Aquí el parámetro de

interés es la media poblacional

18


Estimación puntual:

La mejor estimación puntual de que disponemos es “simplemente” la

media muestral:

x

19


Estimación por intervalo de confianza:

El procedimiento de estimación por intervalos de confianza trata de

proporcionar un rango de valores de confianza para el valor del

parámetro de la población. Por ejemplo:

Al intervalo obtenido lo denominaremos intervalo de confianza al

100(1-)%. El valor más habitual del porcentaje de confianza es el

95%, que se corresponde con =0.05.

Diremos que “el nivel de renta medio de los estudiantes matriculados

en la UMH (de los 15000) se encuentra entre 320,97 euros y 767,03

euros con una confianza del 95%”.

95%( ) 320.97,767.03 IC

20


Estimación por Contraste de Hipótesis:

Realizar un contraste de hipótesis realmente es como “realizar una

pregunta por el parámetro de interés y contestarla”. Por ejemplo, en

nuestro estudio, el investigador puede estar interesado en saber si la

media poblacional es igual o no a 600 euros.

Para responder a esta pregunta del investigador primero se debe fijar

el nivel de error (nivel de significación) α, que suele ser pequeño,

0.05. Y, en segundo lugar, escribimos la pregunta en nuestro formato

especial:

Responderemos a esa pregunta a través del método del P-valor.

0

1

: 600

: 600

H

H

21


Estimación por Contraste de Hipótesis (método del P-valor):

El P-valor es una probabilidad (por eso estará siempre entre 0 y 1)

que nos permitirá responder a la pregunta planteada.

Para responder a la pregunta del contraste de hipótesis haces lo

siguiente:

Si p-valor < α, decimos que hay evidencias estadísticas para

rechazar H0 a favor de H1. [Nos creemos H1]

Si p-valor ≥ α, decimos que hay evidencias estadísticas para NO

rechazar H0. [“Asumiremos” como buena H0]

unidad didÁctica 1 -...

Documents