seminario mÉtodos interdisciplinarios doctorado inter-institucional en ciencias ambientales...

Post on 28-Jan-2016

217 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

SEMINARIO MÉTODOS INTERDISCIPLINARIOSDOCTORADO INTER-INSTITUCIONAL EN

CIENCIAS AMBIENTALESCoordinadores:

Carlos E. López, UTPElkin Salcedo, Univalle

Silvio Carvajal, Unicauca

2012

1

MÉTODOS DE INVESTIGACIÓN CUANTITATIVA

INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL

SILVIO M. CARVAJAL V.

PROFESOR

UNIVERSIDAD DEL CAUCA

FACULTAD DE CIENCIAS NATURALES EXACTAS Y DE LA EDUCACIÓN

GRUPO DE INVESTIGACIÓN EN TOXICOLOGÍA GENÉTICA Y CITOGENÉTICA

20122

2. INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL2.1 La Distribución Normal2.2 Intervalos de Confianza, Niveles de Confianza, el Coeficiente de confianza Z.2.3 Aplicación del coeficiente Z: El Coeficiente Z como prueba de significancia estadística: Distribución muestral de medias y de proporciones, El Error Estándar, Errores en la prueba de Hipótesis (Tipo I y Tipo II), Nivel de Significancia.2.4 Pruebas paramétricas y no paramétricas de significancia estadística.

3

2.1 DISTRIBUCIÓN NORMAL. Si la función de densidad (o Curva de frecuencias) de una variable cuantitativa continua, se adapta a la CURVA NORMAL O CAMPANA DE GAUS.

Función de densidad (V. Continuas)

Generalización del histograma con frecuencias relativas para variables continuas.

CAMPANA DE GAUS:Forma Simétrica, unimodal y mesocúrtica Media = Mediana = Moda.

La probabilidad de un intervalo coincide con el área bajo la función de densidad.

Johann Carl Friedrich Gauss (Gauß) ▶?/i (30 de abril de 1777, Brunswick – 23 de febrero de 1855, Göttingen), fue un matemático, astrónomo y físico alemán

4

2.2 AREAS BAJO LA CURVA NORMAL

5

DISTRIBUCIÓN NORMAL DE UNA SERIE REAL DE DATOS

La Curva de frecuencias es unimodal y simétrica.

Media, mediana y moda aproximadamente iguales

En el intervalo: Media ± 1 Desv. Típica, hay aproximadamente 38 personas (67,8 % que se aproxima al 68%, propio de la curva mesocúrtica).

¿La PRESIÓN SANGUINEA (Diastólica) de los varones adultos, se ajusta a la Distribución Normal?.

38

6

PRUEBA DE BONDADAD DE AJUSTE A LA DISTRIBUCIÓN NORMAL

Las frecuencias absolutas Observadas (No. de personas) en los diferentes intervalos, se ajustan a la frecuencia absolutas Esperadas en la DN?.

PRUEBA DE Chi Cuadrado:

= ∑ (O – E)2 / E

HIPÓTESIS:

H0: O = E (En la DN)

H1: O ≠ E (En la DN)

7

RESULTADOS: Con el programa estadístico SPSS

No significativo (p > 0,05). Se acepta la H0 y se concluye que los datos de la presión sanguínea diastólica se ajustan a la DN.

8

2.3 APLICACIÓN DELCOEFICIENTE Z (Coeficiente de Confianza):

• VALOR TIPIFICADO:

¿A cuantas desviaciones típicas de la Media Aritmética (89,3 mmHg), se halla una persona con presión sanguínea diastólica de 100 mm Hg?.

= 0,97

Rta. 100 mm Hg se Halla a 0,97 desviaciones típicas.

0,97 es el VALOR TIPIFICADO de 100 mm Hg

En algunos análisis multivariados (Ej. Análisis de “Cluster”), es necesario que las variables estén en una misma escala de medida.

¿Cómo unificar variables tan distintas como peso (Kg), estatura (cm), edad (Años), [Colesterol] (mg/ml)…etc.?

9

VALORES TIPIFICADOS O ESTANDARIZADOS

Z = 0 1

10

• PROPORCIÓN DE INDIVIDUOS EN UN DETERMINADO INTERVALO DE LA CURVA NORMAL.

¿En la muestra, qué proporción de varones tienen una presión sanguínea diastólica ≥ 100 mm Hg?

Valor tipificado de 100: = 0,97

A Z = 0.97 le corresponde un área bajo la curva normal de 0,1660.

Rta. En la muestra, el 16,6 % de los varones tiene una presión diastólica ≥ 100 mm Hg?

Z: 0 0,97

16,6%

11

Áreas bajo la CN.

Tabla de una cola (o Unilateral).

Para Z positivo.

Para Z negativo.

A Z = 0.97 le corresponde un área bajo la curva normal de 0,1660.

Rta. El 16,6 % de los varones tiene una presión diastólica ≥ 100 mm Hg?

12

Z COMO PRUEBA DE SIGNIFICANCIA ESTADÍSTICA

¿Cuántas muestras de tamaño n, se pueden obtener de una población de tamaño N, si el muestreo es sin remplazo (No repetir) y no importa el orden?

EJEMPLO: Población: N = 100 Muestra: n = 10

13

Tanto la distribución muetral de medias como la de proporciones, se ajustan a la CN (Teorema del Límite Central).

Las Medias (Var, Cuantitativa) y las Proporciones (Var. Cualitativa), aunque salgan de muestras provenientes de la misma Población, NO SERÁN IGUALES. Muestran variación.

¿Cómo cuantificar la VARIABLIDAD de una Distribución de Medias y de una Distribución de

Proporciones?. 14

ERROR TÍPICO: Es la Variabilidad promedio de medias y proporciones muestrales, respecto de la media y de la Proporción poblacional.

σx = Desviación promedio de MEDIAS Aritmétcas MUESTRALES

respecto de la MEDIA POBLACIONAL

σp = Desviación promedio de PROPORCIONES MUESTRALES

respecto de la PROPORCIÓN POBLACIONAL

15

Entre más pequeño sea el tamaño de las muestra (n), un mayor número de muestras de podrán obtener de una población y, en consecuencia, mayor será su variabilidad promedio respecto de la media poblacional.

Relación entre ET y tamaño de la muestra (n).

En una muestra de tamaño tan grande como la población (censo), ¿Cuál es el erro típico?

A mayor tamaño de la muestra, menor error

típico.

16

ERROR TÍPICO Y LA CURVA NORMALComo la Distribución de Medias y proporciones Muestrales se ajustan a la DN, entonces se cumple:

En consecuencia, tano la media como la proporción muestral, se pueden tipificar

17

TIPIFICACIÓN DE UNA MEDIA MUESTRAL

En una población de presión sanguínea normal, el promedio (µ) de la presión diastólica es 80 mm Hg. De una población de pintores de carros se tomó una muestra aleatoria de n=100 trabajadores, se les registró la presión con los siguientes resultados:

¿A cuantos errores típicos se halla la media de los pintores (90 mmHg), respecto de la media de la población con presión sanguínea normal (80 mmHg?.

¡Se hallan a 10 errores típicos!

Media aritmética: 90 mm HgDesviación típica: 10 mm Hg

Error típico: = 1 mm Hg

Z = (90 – 80) / 1 = 10

18

NIVEL DE SIGNIFICANCIA EN PROBLEMAS BILATERALES: α (Hipotesis: H0 : µA = µ. H1 : µA ≠ µ)Las Medias y Proporciones Muestrales que se hallen dentro del Intervalo de Confianza del 95% (Es decir Z < 1,96 o Z > -1,96), pertenecen a Muestras representativas o típicas de la Población (Esto para muestras grandes: n >30)

En ese caso, las diferencias observadas son NO significativas.

Las Medias y Proporciones Muestrales que se hallen por fuera de tal intervalo, se asume que pertenecen a muestras atipicas de la población.En ese caso, la DIFERENCIA OBSERVADA SE CONSIDERA SIGNIFICATIVA ESTADISTICAMENTE

Z:

19

Cuando el Z de una media o proporción muestral, se halla en el AREA DE SIGNIFICANCIA, se concluye que la muestra NO PERTENECE a la población objeto de estudio.NO OBSTANTE, AUN EXISTE UNA PEQUENA PROBABILIDAD (≤ 0,05 o 5%) DE QUE DICHA MUESTRA SI PERTENEZCA A TAL POBLACION.

!ES DECIR QUE LA CONCLUSION INICIAL PUEDE ESTAR ERRADA!.

A ESTA PROBABILIDAD DE ERROR (p ≤ 0,05), SE LE LLAMA NIVEL DE SIGNIFICANCIA.

OjO: Es probable cometer este error cuando se rechaza la H0 (Se niega Igualdad y se declara diferencia significativa). La MAXIMA probabilidad de error aceptada para rechazar a la H0, es del 5% (o 0,05).

20

NIVEL DE SIGNIFICANCIA EN PROBLEMAS UNILATERALES: α (Hipotesis: H0 : µA = µ. H1 : µA > µ o H1 : µA < µ)

21

22

NIVEL DE SIGNIFICANCIA (α) y SIGNIFICANCIA ESTADÍSTICA (p):

DOS COLAS O BILATERAL: (Hipotesis: H0 : µA = µ. H1 : µA ≠ µ)

23

α

NIVEL DE SIGNIFICANCIA (α) y SIGNIFICANCIA ESTADÍSTICA (p):

UNA COLA O UNILATERAL: (Hipotesis: H0 : µA = µ. H1 : µA > µ o H1 : µA < µ)

PRUEBA DE SIGNIFICANCIA: t de “Student”. (Desarrollada en 1899 por el químico inglés William Sealey Gosset. 1876-1937),

En muestras pequeñas (< 30), la variabilidad de los datos respecto de su media, es mayor que el esperado en la CN ideal. En consecuencia, la distribución t es más ancha y más plana en el centro (PLATOCURTICA),

que la distribución normal.

En consecuencia, para cubrir los mismos intervalos de la CN, es necesrio incrementar el numero de errores que se suman y se restan. Es decir, incrementar el valor tipificado (Z)

Este nuevo valor tipificado (t) se llama t de “Student” y su magnitud depende del tamaño de la muestra. A menor tamaño mayor magnitud

n -1= 15

Curva Normal

24

25

PROBLEMA UNILATERAL:

La concentración máxima permitida de una sustancia tóxica en el agua potable, es de µ = 1,5 ppm. Al analizar el agua de un acueducto (n = 100 repeticiones) se obtuvieron los siguientes resultados: Media = 1,6 ppm con una s = 1,8 ppm. ¿La concentración del tóxico es mayor a la máxima permitida?.

Hipótesis: H0 : µ = 1,5 ppm H1 : µ > 1,5 ppm

Z = (1,6 – 1,5) / (1,8 / √100) = 0,55

Diferencia NO SIGNIFICATIVA (P>0.05). Se acepta la H0 y se concluye que la concentración del agua del acueducto, no supera la concentración máxima permitida.

26

TIPOS DE ERROR AL SOMETER A PRUEBA LA H0

La hipótesis que se somete a prueba es la Hipótesis Nula (H0).

Si la Hipótesis Nula (H0), se RECHAZA (la prueba la declara falsa), es posible cometer error tipo I (Falsear la verdad). La probabilidad de cometer error tipo I es el nivel de significancia.

Si la Hipótesis Nula (H0), se ACEPTA (la prueba la declara verdadera), es posible cometer error tipo II (Pasar por verdad algo falso).

27

Hipótesis: H0 : X = µA

H1 : X ≠ µA

La media muestral TIPIFICADA (z) se halla en el área de significancia, por lo tanto se RECHAZA la H0 y se concluye que tal muestra debe provenir o representar a una población con un PROMEDIO MAYOR (Población B).

No obstante, la conclusión anterior puede estar ERRADA, ya que tal media muestral tipificada aún se halla cobijada por la curva de la población A, y PUEDE PERTENECER A ESTA.

ERROR TIPO I

X

Zx

28

ERROR TIPO II

Hipótesis: H0 : X = µA

H1 : X ≠ µA

La media muestral TIPIFICADA (Z) se halla en el área de NO significancia, por lo tanto se ACEPTA la H0 y se concluye que tal muestra proviene o representar a la población A. (No difiere significativamente de A).

No obstante, la conclusión anterior puede estar ERRADA, ya que tal media muestral tipificada, aún se halla cobijada por la curva de la POBLACIÓN B, y PUEDE PERTENECER A ESTA.

44

Zx

29

POTENCIA DE LA PRUEBA.- Poder que tiene la prueba estadística, para declarar como significativa una determinada diferencia.

En el problema anterior, para que la diferencia observada (0,1 ppm) sea significativa (p ≤ 0,05). ¿Qué tamaño de muestra debería emplearse?.

¿Cómo incrementar el poder de una prueba de significancia estadística?.

A MAYOR TAMAÑO DE LA MUESTRA, MAYOR PODER O POTENCIA DE LA PRUEBA DE SIGNIFICANCIA ESTADÍSTICA

0,1

(1,8)2

30

31

TAMAÑOS DE MUESTRA (Ver documento sobre tamaño de muestra):

UNA MUESTRA: Media aritmética

Proporción

DOS MUESTRAS:

2.4 PRUEBAS DE SIGNIFICANCIA ESTADISTICA PARAMÉTRICAS: se basan en los parámetros de la curva normal (µ, σ ), y para su aplicación exigen que los datos cumplan con ciertos requisitos, así:  • Distribución normal.  (SPSS: Pruebas de Kolmogorov-Smirnov y Shapiro-Wilk)

• Homogeneidad de varianzas (SPSS: Prueba de Levene). • Independencia de datos. (SPSS: Prueba de rachas).

Entre las pruebas paramétricas están: Pruebas Z, t, ANOVA, Correlación de Pearson, Regresión.

PRUEBAS NO PARAMÉTRICAS.- Pruebas de distribución libre. Wilcoxon, U de Mann Whitney, H de Kruskal – Wallis, Friedman, McNemar, Signos, Q de Cochran, Chi cuadrado, Correlación de Spearman, etc.

32

top related