seminario mÉtodos interdisciplinarios doctorado inter-institucional en ciencias ambientales...

32
SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle Silvio Carvajal, Unicauca 2012 1

Upload: valerio-cadenas

Post on 28-Jan-2016

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

SEMINARIO MÉTODOS INTERDISCIPLINARIOSDOCTORADO INTER-INSTITUCIONAL EN

CIENCIAS AMBIENTALESCoordinadores:

Carlos E. López, UTPElkin Salcedo, Univalle

Silvio Carvajal, Unicauca

2012

1

Page 2: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

MÉTODOS DE INVESTIGACIÓN CUANTITATIVA

INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL

SILVIO M. CARVAJAL V.

PROFESOR

UNIVERSIDAD DEL CAUCA

FACULTAD DE CIENCIAS NATURALES EXACTAS Y DE LA EDUCACIÓN

GRUPO DE INVESTIGACIÓN EN TOXICOLOGÍA GENÉTICA Y CITOGENÉTICA

20122

Page 3: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

2. INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL2.1 La Distribución Normal2.2 Intervalos de Confianza, Niveles de Confianza, el Coeficiente de confianza Z.2.3 Aplicación del coeficiente Z: El Coeficiente Z como prueba de significancia estadística: Distribución muestral de medias y de proporciones, El Error Estándar, Errores en la prueba de Hipótesis (Tipo I y Tipo II), Nivel de Significancia.2.4 Pruebas paramétricas y no paramétricas de significancia estadística.

3

Page 4: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

2.1 DISTRIBUCIÓN NORMAL. Si la función de densidad (o Curva de frecuencias) de una variable cuantitativa continua, se adapta a la CURVA NORMAL O CAMPANA DE GAUS.

Función de densidad (V. Continuas)

Generalización del histograma con frecuencias relativas para variables continuas.

CAMPANA DE GAUS:Forma Simétrica, unimodal y mesocúrtica Media = Mediana = Moda.

La probabilidad de un intervalo coincide con el área bajo la función de densidad.

Johann Carl Friedrich Gauss (Gauß) ▶?/i (30 de abril de 1777, Brunswick – 23 de febrero de 1855, Göttingen), fue un matemático, astrónomo y físico alemán

4

Page 5: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

2.2 AREAS BAJO LA CURVA NORMAL

5

Page 6: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

DISTRIBUCIÓN NORMAL DE UNA SERIE REAL DE DATOS

La Curva de frecuencias es unimodal y simétrica.

Media, mediana y moda aproximadamente iguales

En el intervalo: Media ± 1 Desv. Típica, hay aproximadamente 38 personas (67,8 % que se aproxima al 68%, propio de la curva mesocúrtica).

¿La PRESIÓN SANGUINEA (Diastólica) de los varones adultos, se ajusta a la Distribución Normal?.

38

6

Page 7: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

PRUEBA DE BONDADAD DE AJUSTE A LA DISTRIBUCIÓN NORMAL

Las frecuencias absolutas Observadas (No. de personas) en los diferentes intervalos, se ajustan a la frecuencia absolutas Esperadas en la DN?.

PRUEBA DE Chi Cuadrado:

= ∑ (O – E)2 / E

HIPÓTESIS:

H0: O = E (En la DN)

H1: O ≠ E (En la DN)

7

Page 8: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

RESULTADOS: Con el programa estadístico SPSS

No significativo (p > 0,05). Se acepta la H0 y se concluye que los datos de la presión sanguínea diastólica se ajustan a la DN.

8

Page 9: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

2.3 APLICACIÓN DELCOEFICIENTE Z (Coeficiente de Confianza):

• VALOR TIPIFICADO:

¿A cuantas desviaciones típicas de la Media Aritmética (89,3 mmHg), se halla una persona con presión sanguínea diastólica de 100 mm Hg?.

= 0,97

Rta. 100 mm Hg se Halla a 0,97 desviaciones típicas.

0,97 es el VALOR TIPIFICADO de 100 mm Hg

En algunos análisis multivariados (Ej. Análisis de “Cluster”), es necesario que las variables estén en una misma escala de medida.

¿Cómo unificar variables tan distintas como peso (Kg), estatura (cm), edad (Años), [Colesterol] (mg/ml)…etc.?

9

Page 10: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

VALORES TIPIFICADOS O ESTANDARIZADOS

Z = 0 1

10

Page 11: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

• PROPORCIÓN DE INDIVIDUOS EN UN DETERMINADO INTERVALO DE LA CURVA NORMAL.

¿En la muestra, qué proporción de varones tienen una presión sanguínea diastólica ≥ 100 mm Hg?

Valor tipificado de 100: = 0,97

A Z = 0.97 le corresponde un área bajo la curva normal de 0,1660.

Rta. En la muestra, el 16,6 % de los varones tiene una presión diastólica ≥ 100 mm Hg?

Z: 0 0,97

16,6%

11

Page 12: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

Áreas bajo la CN.

Tabla de una cola (o Unilateral).

Para Z positivo.

Para Z negativo.

A Z = 0.97 le corresponde un área bajo la curva normal de 0,1660.

Rta. El 16,6 % de los varones tiene una presión diastólica ≥ 100 mm Hg?

12

Page 13: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

Z COMO PRUEBA DE SIGNIFICANCIA ESTADÍSTICA

¿Cuántas muestras de tamaño n, se pueden obtener de una población de tamaño N, si el muestreo es sin remplazo (No repetir) y no importa el orden?

EJEMPLO: Población: N = 100 Muestra: n = 10

13

Page 14: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

Tanto la distribución muetral de medias como la de proporciones, se ajustan a la CN (Teorema del Límite Central).

Las Medias (Var, Cuantitativa) y las Proporciones (Var. Cualitativa), aunque salgan de muestras provenientes de la misma Población, NO SERÁN IGUALES. Muestran variación.

¿Cómo cuantificar la VARIABLIDAD de una Distribución de Medias y de una Distribución de

Proporciones?. 14

Page 15: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

ERROR TÍPICO: Es la Variabilidad promedio de medias y proporciones muestrales, respecto de la media y de la Proporción poblacional.

σx = Desviación promedio de MEDIAS Aritmétcas MUESTRALES

respecto de la MEDIA POBLACIONAL

σp = Desviación promedio de PROPORCIONES MUESTRALES

respecto de la PROPORCIÓN POBLACIONAL

15

Page 16: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

Entre más pequeño sea el tamaño de las muestra (n), un mayor número de muestras de podrán obtener de una población y, en consecuencia, mayor será su variabilidad promedio respecto de la media poblacional.

Relación entre ET y tamaño de la muestra (n).

En una muestra de tamaño tan grande como la población (censo), ¿Cuál es el erro típico?

A mayor tamaño de la muestra, menor error

típico.

16

Page 17: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

ERROR TÍPICO Y LA CURVA NORMALComo la Distribución de Medias y proporciones Muestrales se ajustan a la DN, entonces se cumple:

En consecuencia, tano la media como la proporción muestral, se pueden tipificar

17

Page 18: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

TIPIFICACIÓN DE UNA MEDIA MUESTRAL

En una población de presión sanguínea normal, el promedio (µ) de la presión diastólica es 80 mm Hg. De una población de pintores de carros se tomó una muestra aleatoria de n=100 trabajadores, se les registró la presión con los siguientes resultados:

¿A cuantos errores típicos se halla la media de los pintores (90 mmHg), respecto de la media de la población con presión sanguínea normal (80 mmHg?.

¡Se hallan a 10 errores típicos!

Media aritmética: 90 mm HgDesviación típica: 10 mm Hg

Error típico: = 1 mm Hg

Z = (90 – 80) / 1 = 10

18

Page 19: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

NIVEL DE SIGNIFICANCIA EN PROBLEMAS BILATERALES: α (Hipotesis: H0 : µA = µ. H1 : µA ≠ µ)Las Medias y Proporciones Muestrales que se hallen dentro del Intervalo de Confianza del 95% (Es decir Z < 1,96 o Z > -1,96), pertenecen a Muestras representativas o típicas de la Población (Esto para muestras grandes: n >30)

En ese caso, las diferencias observadas son NO significativas.

Las Medias y Proporciones Muestrales que se hallen por fuera de tal intervalo, se asume que pertenecen a muestras atipicas de la población.En ese caso, la DIFERENCIA OBSERVADA SE CONSIDERA SIGNIFICATIVA ESTADISTICAMENTE

Z:

19

Page 20: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

Cuando el Z de una media o proporción muestral, se halla en el AREA DE SIGNIFICANCIA, se concluye que la muestra NO PERTENECE a la población objeto de estudio.NO OBSTANTE, AUN EXISTE UNA PEQUENA PROBABILIDAD (≤ 0,05 o 5%) DE QUE DICHA MUESTRA SI PERTENEZCA A TAL POBLACION.

!ES DECIR QUE LA CONCLUSION INICIAL PUEDE ESTAR ERRADA!.

A ESTA PROBABILIDAD DE ERROR (p ≤ 0,05), SE LE LLAMA NIVEL DE SIGNIFICANCIA.

OjO: Es probable cometer este error cuando se rechaza la H0 (Se niega Igualdad y se declara diferencia significativa). La MAXIMA probabilidad de error aceptada para rechazar a la H0, es del 5% (o 0,05).

20

Page 21: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

NIVEL DE SIGNIFICANCIA EN PROBLEMAS UNILATERALES: α (Hipotesis: H0 : µA = µ. H1 : µA > µ o H1 : µA < µ)

21

Page 22: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

22

NIVEL DE SIGNIFICANCIA (α) y SIGNIFICANCIA ESTADÍSTICA (p):

DOS COLAS O BILATERAL: (Hipotesis: H0 : µA = µ. H1 : µA ≠ µ)

Page 23: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

23

α

NIVEL DE SIGNIFICANCIA (α) y SIGNIFICANCIA ESTADÍSTICA (p):

UNA COLA O UNILATERAL: (Hipotesis: H0 : µA = µ. H1 : µA > µ o H1 : µA < µ)

Page 24: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

PRUEBA DE SIGNIFICANCIA: t de “Student”. (Desarrollada en 1899 por el químico inglés William Sealey Gosset. 1876-1937),

En muestras pequeñas (< 30), la variabilidad de los datos respecto de su media, es mayor que el esperado en la CN ideal. En consecuencia, la distribución t es más ancha y más plana en el centro (PLATOCURTICA),

que la distribución normal.

En consecuencia, para cubrir los mismos intervalos de la CN, es necesrio incrementar el numero de errores que se suman y se restan. Es decir, incrementar el valor tipificado (Z)

Este nuevo valor tipificado (t) se llama t de “Student” y su magnitud depende del tamaño de la muestra. A menor tamaño mayor magnitud

n -1= 15

Curva Normal

24

Page 25: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

25

Page 26: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

PROBLEMA UNILATERAL:

La concentración máxima permitida de una sustancia tóxica en el agua potable, es de µ = 1,5 ppm. Al analizar el agua de un acueducto (n = 100 repeticiones) se obtuvieron los siguientes resultados: Media = 1,6 ppm con una s = 1,8 ppm. ¿La concentración del tóxico es mayor a la máxima permitida?.

Hipótesis: H0 : µ = 1,5 ppm H1 : µ > 1,5 ppm

Z = (1,6 – 1,5) / (1,8 / √100) = 0,55

Diferencia NO SIGNIFICATIVA (P>0.05). Se acepta la H0 y se concluye que la concentración del agua del acueducto, no supera la concentración máxima permitida.

26

Page 27: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

TIPOS DE ERROR AL SOMETER A PRUEBA LA H0

La hipótesis que se somete a prueba es la Hipótesis Nula (H0).

Si la Hipótesis Nula (H0), se RECHAZA (la prueba la declara falsa), es posible cometer error tipo I (Falsear la verdad). La probabilidad de cometer error tipo I es el nivel de significancia.

Si la Hipótesis Nula (H0), se ACEPTA (la prueba la declara verdadera), es posible cometer error tipo II (Pasar por verdad algo falso).

27

Page 28: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

Hipótesis: H0 : X = µA

H1 : X ≠ µA

La media muestral TIPIFICADA (z) se halla en el área de significancia, por lo tanto se RECHAZA la H0 y se concluye que tal muestra debe provenir o representar a una población con un PROMEDIO MAYOR (Población B).

No obstante, la conclusión anterior puede estar ERRADA, ya que tal media muestral tipificada aún se halla cobijada por la curva de la población A, y PUEDE PERTENECER A ESTA.

ERROR TIPO I

X

Zx

28

Page 29: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

ERROR TIPO II

Hipótesis: H0 : X = µA

H1 : X ≠ µA

La media muestral TIPIFICADA (Z) se halla en el área de NO significancia, por lo tanto se ACEPTA la H0 y se concluye que tal muestra proviene o representar a la población A. (No difiere significativamente de A).

No obstante, la conclusión anterior puede estar ERRADA, ya que tal media muestral tipificada, aún se halla cobijada por la curva de la POBLACIÓN B, y PUEDE PERTENECER A ESTA.

44

Zx

29

Page 30: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

POTENCIA DE LA PRUEBA.- Poder que tiene la prueba estadística, para declarar como significativa una determinada diferencia.

En el problema anterior, para que la diferencia observada (0,1 ppm) sea significativa (p ≤ 0,05). ¿Qué tamaño de muestra debería emplearse?.

¿Cómo incrementar el poder de una prueba de significancia estadística?.

A MAYOR TAMAÑO DE LA MUESTRA, MAYOR PODER O POTENCIA DE LA PRUEBA DE SIGNIFICANCIA ESTADÍSTICA

0,1

(1,8)2

30

Page 31: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

31

TAMAÑOS DE MUESTRA (Ver documento sobre tamaño de muestra):

UNA MUESTRA: Media aritmética

Proporción

DOS MUESTRAS:

Page 32: SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle

2.4 PRUEBAS DE SIGNIFICANCIA ESTADISTICA PARAMÉTRICAS: se basan en los parámetros de la curva normal (µ, σ ), y para su aplicación exigen que los datos cumplan con ciertos requisitos, así:  • Distribución normal.  (SPSS: Pruebas de Kolmogorov-Smirnov y Shapiro-Wilk)

• Homogeneidad de varianzas (SPSS: Prueba de Levene). • Independencia de datos. (SPSS: Prueba de rachas).

Entre las pruebas paramétricas están: Pruebas Z, t, ANOVA, Correlación de Pearson, Regresión.

PRUEBAS NO PARAMÉTRICAS.- Pruebas de distribución libre. Wilcoxon, U de Mann Whitney, H de Kruskal – Wallis, Friedman, McNemar, Signos, Q de Cochran, Chi cuadrado, Correlación de Spearman, etc.

32