caepe - this wordpress.com site is the bee's knees · curso taller de estadistica enero, 2014...

151
CENTRO DE ALTOS ESTUDIOS PEDAGÓGICOS Y EDUCATIVOS DE S.L.P. CURSO TALLER DE ESTADISTICA ENERO, 2014 PRESENTA: I.S.C. DARÍO GAYTÁN HERNÁNDEZ, MPS CAEPE

Upload: lytuong

Post on 20-Sep-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

CENTRO DE ALTOS ESTUDIOS PEDAGÓGICOS Y

EDUCATIVOS DE S.L.P.

CURSO TALLER DE ESTADISTICA

ENERO, 2014

PRESENTA:

I.S.C. DARÍO GAYTÁN HERNÁNDEZ, MPS

CAEPE

ESTADÍSTICA

La Estadística es la disciplina matemática

que a través de una metodología propia,

permite hacer descripciones de la realidad

utilizando datos numéricos y hacer

inferencias acerca de poblaciones a partir

de muestras.

Datos

Son las observaciones recolectadas(como mediciones, respuestas deencuesta)

CONCEPTOS ESTADISTICOS BASICOS

Variable

Es una propiedad que puede variar y

cuya variación es susceptible de medirse

u observarse.

CONCEPTOS ESTADISTICOS BASICOS

Tipos de variable

Cualitativas

También llamadas categóricas contienen

atributos no medibles, o de asignación

(como el color de la piel, el nombre de una

enfermedad, si y no, etc.) por sus

características solo pueden ser contadas.

CONCEPTOS ESTADISTICOS BASICOS

Tipos de variable

Cuantitativas

También llamadas numéricas son atributos

medibles, dado que pueden compararse

numéricamente y evaluarse según su

tamaño relativo.

CONCEPTOS ESTADISTICOS BASICOS

Tipos de variable

Cuantitativas

Se dividen en: Discretas y continuas.

Discretas.- Tienen valores contados y

enteros.

Continuas.- sus valores se pueden situar en

cualquier sitio dentro de un intervalo infinito.

CONCEPTOS ESTADISTICOS BASICOS

Las escalas de medición (para variables

categóricas o cualitativas) Pueden ser:

“Escalas” Nominales.- Cuando las clases en

que se clasifican las observaciones o

individuos se nombran sin orden.

Ejemplo. Los nombres de las carreras de la

UASLP

CONCEPTOS ESTADISTICOS BASICOS

“Escalas Ordinales”.- Cuando las categoríasson nombradas pero se sigue un cierto ordennatural son ejemplo la escolaridad: primaria,secundaria, media básica, licenciatura,maestría, doctorado). Cuando se utilizansímbolos para identificar las clases no debenhacerse con ellos ninguna operaciónaritmética.

CONCEPTOS ESTADISTICOS BASICOS

Variables cualitativas

Precaución

Con las escalas de Likert y los guarismos.

No tengo opinión

En total desacuer

do

En desacuer

do

De acuerdo

En total acuerdo

0 1 2 3 4

CONCEPTOS ESTADISTICOS BASICOS

Variables cualitativas

Precaución

Con las escalas de Likert y los guarismos.

No tengo opinión

En total desacuer

do

En desacuer

do

De acuerdo

En total acuerdo

@ $ * } ª

CONCEPTOS ESTADISTICOS BASICOS

Variables cuantitativas

Escala de intervalo

Además del orden o la jerarquía entre

categorías, se establecen intervalos iguales en la

medición.

Ejemplo: Las temperaturas corporales 98ºF y

99ºF, su diferencia es 1ºF, pero no existe un

cero natural, pues 0ºF no representa la ausencia

total de calor.

CONCEPTOS ESTADISTICOS BASICOS

Variables cuantitativas

Escala de razón

Tiene las mismas características que la

anterior pero si tiene un cero absoluto y

permite hacer todo tipo de cálculos

matemáticos, la variable de razón tiene

intervalos iguales y un cero real y

significativo.

CONCEPTOS ESTADISTICOS BASICOS

UniversoEs el total de elementos de donde seextraen poblaciones.

PoblaciónTotalidad de elementos de un grupodefinido acerca del cual se deseanhacer inferencias.Es un grupo de elementos delimitadode donde se obtiene una muestra.

CONCEPTOS ESTADISTICOS BASICOS

Muestra

1. Conjunto de elementos extraídos deuna población

2. Subconjunto de una población

3. Conjunto de elementos seleccionadosde una población

CONCEPTOS ESTADISTICOS BASICOS

Marco muestral

1. Total de sujetos o cosas de una poblaciónque son realmente muestreables en lapráctica.

2. Sujetos accesibles al muestreo en unapoblación.

3. Es importante tener una buena estimacióndel tamaño del marco muestral que tiene enproporción al total de la población, dado quesi este es menor que el 80% las muestrasestarán muy comprometidas.

CONCEPTOS ESTADISTICOS BASICOS

Universo, Población y Muestra

CONCEPTOS ESTADISTICOS BASICOS

Población

Universo

Muestra

Muestra representativa

1. Es una muestra con un tamaño tal(cantidad de elementos) y una forma deselección (aleatoria) que es representativade los elementos que constituyen unapoblación.

2. Su cálculo de tamaño se realiza a travésde matemáticas probabilísticas y loselementos que la constituyen se escogen através números aleatorios.

CONCEPTOS ESTADISTICOS BASICOS

Estadístico

1. Se denotan con letras latinas.

2. Describen a la muestra.

3. Generalmente usados para estimar un

parámetro a través del proceso inductivo.

4. Valor variable (de muestra a muestra en la

misma población)

5. Están basados en algunas observaciones de

una población.

CONCEPTOS ESTADISTICOS BASICOS

Parámetro

1. Se denotan con letras griegas

2. Describen a la población

3. Son valores constantes (para esa población)

4. Están basados en todas las observacionesde una población

CONCEPTOS ESTADISTICOS BASICOS

Tipos de muestra (MUESTREO)

1. Probabilística

2. No probabilística

CONCEPTOS ESTADISTICOS BASICOS

Muestra probabilística

1. Aleatoria simple (con o sinreemplazo)

2. Sistemático

3. Estratificado

4. Conglomerado

5. Por racimos

CONCEPTOS ESTADISTICOS BASICOS

CONCEPTOS ESTADISTICOS BASICOS

Cada miembro de la población tiene la misma probabilidad de ser seleccionado

CONCEPTOS ESTADISTICOS BASICOS

Se selecciona un punto de partida, después se selecciona cada k-ésimo.

CONCEPTOS ESTADISTICOS BASICOS

Se subdivide a la población en al menos dos diferentes subgrupos (o estratos)

CONCEPTOS ESTADISTICOS BASICOS

Se divide el área de la población en secciones (conglomerados) se eligen al azar las secciones.

CONCEPTOS ESTADISTICOS BASICOS

Muestreo por racimos

Se divide el área de la población en secciones (racimos) se eligen al azar las secciones.

Muestra no probabilística

Por conveniencia

CONCEPTOS ESTADISTICOS BASICOS

PRACTICA 1

CONCEPTOS ESTADISTICOS BASICOS

CONCEPTOS ESTADISTICOS BASICOS

• Tipos de análisis (Univariados, Bivariados y

multivariados)

• Prueba de hipótesis

• Estimador puntual e intervalo de confianza

ESTADISTICA DESCRIPTIVA

ESTADISTICA INFERENCIAL

PRINCIPALES CATEGORÍAS EN QUE PUEDE DIVIDIRSE A LA ESTADISTICA

Es la parte de la estadística que describe,

analiza y representa un grupo de datos

utilizando métodos numéricos y gráficos que

resumen y presentan la información

contenida en ellos tratando de extraer

conclusiones.

ESTADISTICA DESCRIPTIVA

DISTRIBUCIONES DE FRECUENCIAS

ESTADISTICOS DESCRIPTIVOS

•Lista valores de datos: (ya sea de manera

individual o por grupos de intervalos), junto con

sus frecuencias (o conteos) correspondientes.

•Es un método descriptivo numérico que

proporciona información evidente de los valores

que una variable toma y las veces que esos

valores ocurren dentro de un grupo o conjunto

de datos.

Cuadro No. 1

Peso en libras de estudiantes de la Universidad X

San Luis Potosí, S.L.P., Enero de 2013.

n=40

Fuente: Directa

Clase Frecuencia

Frecuencia

relativa en

%

Frecuencia

Acumulada

Frecuencia

relativa

acumulada

en %

118-122 1 2.5 1 2.5

123-127 2 5 3 7.5

128-132 2 5 5 12.5

133-137 4 10 9 22.5

138-142 6 15 15 37.5

143-147 8 20 23 57.5

148-152 5 12.5 28 70

153-157 4 10 32 80

158-162 2 5 34 85

163-167 3 7.5 37 92.5

168-172 1 2.5 38 95

173-177 2 5 40 100

Total 40 100

PRACTICA 2

ESTADISTICOS DESCRIPTIVOS

0

1

2

3

4

5

6

7

8

9

118-122 123-127 128-132 133-137 138-142 143-147 148-152 153-157 158-162 163-167 168-172 173-177

peso

Fre

cu

en

cia

PRESENTACION DE DATOSGráfico No. 1

Peso en libras de estudiantes de la Universidad X

San Luis Potosí, S.L.P.

Junio 2012. n=40

Fuente: Directa

PRESENTACION DE DATOS

n=40

Fuente: Directa

3% 5%

5%

10%

14%

19%

13%

10%

5%

8%

3%5%

118-122

123-127

128-132

133-137

138-142

143-147

148-152

153-157

158-162

163-167

168-172

173-177

Gráfico No. 1

Peso en libras de estudiantes de la Universidad X

San Luis Potosí, S.L.P.

Junio 2012.

PRESENTACION DE DATOS

n=40

Fuente: Directa

0

1

2

3

4

5

6

7

8

9

118-122 123-127 128-132 133-137 138-142 143-147 148-152 153-157 158-162 163-167 168-172 173-177

Peso

Fre

cu

en

cia

Gráfico No. 1

Peso en libras de estudiantes de la Universidad X

San Luis Potosí, S.L.P.

Junio 2012.

PRESENTACION DE DATOS

n=40

Fuente: Directa

0

1

2

3

4

5

6

7

8

9

118-122 123-127 128-132 133-137 138-142 143-147 148-152 153-157 158-162 163-167 168-172 173-177

Peso

Fre

cu

en

cia

Gráfico No. 1

Peso en libras de estudiantes de la Universidad X

San Luis Potosí, S.L.P.

Junio 2012.

PRESENTACION DE DATOS

n=40

Fuente: Directa

0

5

10

15

20

25

30

35

40

45

118-122 123-127 128-132 133-137 138-142 143-147 148-152 153-157 158-162 163-167 168-172 173-177

Peso

Fre

cu

en

cia

Gráfico No. 1

Peso en libras de estudiantes de la Universidad X

San Luis Potosí, S.L.P.

Junio 2012.

TIPOS DE CURVA DE FRECUENCIA

Simétrica

Sesgada a la derecha (+)

Sesgada a la izquierda (-)

En forma de J

En forma de J invertida

En forma de U

Binomial

Multimodal

SIMÉTRICA

Distribucion Normal

SESGADA A LA DERECHA

0

0.05

0.1

0.15

0.2

0.25

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

SESGO +

SESGADA A LA IZQUIERDA

0

0 , 0 1

0 , 0 2

0 , 0 3

0 , 0 4

0 , 0 5

0 , 0 6

0 , 0 7

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Ser ie1

SESGO -

EN FORMA DE J

0 , 0 0 0 0 0 0 0

0 , 0 2 0 0 0 0 0

0 , 0 4 0 0 0 0 0

0 , 0 6 0 0 0 0 0

0 , 0 8 0 0 0 0 0

0 , 10 0 0 0 0 0

0 , 12 0 0 0 0 0

0 , 14 0 0 0 0 0

0 , 16 0 0 0 0 0

1 2 3 4 5 6 7

Ser ie1

EN FORMA DE J INVERTIDA

0 . 0 0 0 0 0 0 0

0 . 0 2 0 0 0 0 0

0 . 0 4 0 0 0 0 0

0 . 0 6 0 0 0 0 0

0 . 0 8 0 0 0 0 0

0 . 1 0 0 0 0 0 0

0 . 1 2 0 0 0 0 0

1 2 3 4 5 6 7

Ser ie1

EN FORMA DE U

- 0 . 1 6

- 0 . 1 4

- 0 . 1 2

- 0 . 1

- 0 . 0 8

- 0 . 0 6

- 0 . 0 4

- 0 . 0 2

0

1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6

Ser ie1

BIMODAL - MULTIMODAL

0 . 0 0 0 0 0 0 0

0 . 0 1 0 0 0 0 0

0 . 0 2 0 0 0 0 0

0 . 0 3 0 0 0 0 0

0 . 0 4 0 0 0 0 0

0 . 0 5 0 0 0 0 0

0 . 0 6 0 0 0 0 0

0 . 0 7 0 0 0 0 0

0 . 0 8 0 0 0 0 0

1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6

Ser ie1

PRACTICA 3

ESTADISTICOS DESCRIPTIVOS

MEDIDAS DE TENDENCIA CENTRAL

• Media aritmética (promedio)

• Mediana

• Moda

ESTADISTICOS DESCRIPTIVOS

Media aritmética

Es el valor que resume a una serie en el

supuesto de que todos sus elementos tuvieran

el mismo valor, resulta de la sumatoria de todos

sus valores la cual se divide entre el número

total de las observaciones.

Ventaja.- Usa los valores de todas las

observaciones

Desventaja.- Afectada por valores extremos en

series pequeñas

ESTADISTICOS DESCRIPTIVOS

ESTADISTICOS DESCRIPTIVOS

Mediana

La mediana de un conjunto de números

ordenados en magnitud es el valor central o la

media de los dos valores centrales.

Ventaja.- No considerar los valores extremos

Desventaja.- Cuando la muestra es sesgada.

ESTADISTICOS DESCRIPTIVOS

Moda

La moda de un conjunto de números es el valor

que ocurre con mayor frecuencia.

Ventaja.- Fácil de calcular

Desventajas.- Ausencia de moda

Multimodal (varias modas)

No usa valores de las observaciones

ESTADISTICOS DESCRIPTIVOS

PRACTICA

ESTADISTICOS DESCRIPTIVOS

MEDIDAS DE DISPERSION O VARIACION

La dispersión o variación de los datos es el

grado en que los datos numéricos tienden a

esparcirse alrededor de un valor promedio.

Existen diversas medidas de dispersión siendo

las más comunes:

•Rango

•Desviación estándar (desviación típica)

•Varianza

•Percentiles

ESTADISTICOS DESCRIPTIVOS

Rango

El rango de un conjunto de números es la

diferencia entre el mayor y el menor.

Ejemplo:

El rango del conjunto 2,3,4,5,5,5,8,10,12 = 10

ESTADISTICOS DESCRIPTIVOS

Desviación estándar

La desviación estándar de un conjunto n de

números X1,X2,…,XN se denota por s y se define

como:

Medida de variación de los valores con respecto a

la media.

ESTADISTICOS DESCRIPTIVOS

Desviación estándar

Para la población

ESTADISTICOS DESCRIPTIVOS

Varianza

La varianza de un conjunto de datos se define

como el cuadrado de la desviación estándar; por

lo tanto, se representa como s2.

Se denota s2 para una muestra y σ2 para la

población.

ESTADISTICOS DESCRIPTIVOS

Cuartiles y pertenciles

Son medidas de posición al igual que la mediana,

que ayudan a dividir a las series de datos en

fragmentos con igual número de elementos.

Cuartiles (Q).- La distribución de la serie se divide

en cuatro partes iguales

Percentiles (Pc).- La distribución de la serie se

divide en cien partes iguales

ESTADISTICOS DESCRIPTIVOS

PRACTICA

CONCEPTOS ESTADISTICOS BASICOS

SIMÉTRICA

Distribucion Normal

LA DISTRIBUCIÓN NORMAL ESTANDAR

2

2

2

)(

2

1

X

eY

LA DISTRIBUCIÓN NORMAL ESTANDAR

Características

Identificada por µ y σ

Simétrica con respecto a µ

Forma de campana

Observaciones caen

a) 68.27% del total caen entre (µ- σ) a (µ+σ)

b) 95.45% del total caen entre (µ-2σ)a (µ+2σ)

c) 99.73% del total caen entre (µ-3) a (µ+3σ)

DETERMINACION DE LA NORMALIDAD

Histograma: Rechace la normalidad si el histograma

difiere mucho de la forma de campana.

Datos distantes: Rechace la normalidad si hay mas

de un dato distante

Gráfica cuantilar normal: Si los puntos se acercan

a una línea recta, entonces los datos pueden

provenir de una población con una distribución

normal.

Prueba de Kolmogorov-Smirnov

Es la parte de la estadística que permite con su

metodología el establecimiento sistemático de

conclusiones probabilísticas, a través de datos

recolectados.

La inferencia estadística hace uso del

razonamiento inductivo, apoyándose en el cálculo

de probabilidades y a partir de datos muestrales.

ESTADISTICA INFERENCIAL

PRUEBAS DE HIPÓTESIS

La inferencia estadística establece una

hipótesis acerca de la población, extrae una

muestra de ésta y a partir de los resultados

decide si la Hipótesis es o no cierta para toda la

población.

Una Hipótesis es una declaración basada en

observaciones preliminares acerca de algo que

puede ser o no verdadero.

PRUEBAS DE HIPÓTESIS

Hipótesis Nulas (Ho)

Son hipótesis estadísticas llamadas hipótesis de

igualdad o de no diferencia, significan que la

realidad se comporta de manera similar a lo

esperado en la propuesta teórica

(observado=esperado) de hecho son en la

realidad la contrapartida de las hipótesis de

investigación o su opuesto.

PRUEBAS DE HIPÓTESIS

Hipótesis Nulas (Ho)

Se llaman también Hipótesis cero (Ho) porque

conceptualmente explican que el valor de la relación

(diferencia) entre las variables es igual acero, lo que

implica en sentido extenso que las relaciones son de no

diferencia o de igualdad.

En realidad la diferencia no tiene que ser exactamente cero

o dicho de otra forma: Lo observado no es exactamente

igual a lo esperado pero su variación esta dentro de un

rango pequeño.

~ ~Ho= o=e ó [o-e]=0

PRUEBAS DE HIPÓTESIS

Hipótesis Alternas (Ha o H1)

Conceptualmente son las hipótesis contrarias a

las Hipótesis nulas.

Es muy importante el planteamiento de la

Hipótesis alterna en términos lo más posible

cercano al opuesto de la Hipótesis de nulidad y de

tal manera que corresponda con nuestra Hipótesis

en investigación.

Ha= o<>e ó [o-e]<>0

PRUEBAS DE HIPÓTESIS

Significancia

Para decir si la discrepancia entre los resultados

observados y los teóricos o esperados es muy

grande, debe fijarse un nivel de probabilidad tal que

sucesos con probabilidad menor que dicho nivel

induzcan a rechazar la Hipótesis Nula.

Al nivel de probabilidad elegido se le denomina nivel

de significancia, . En general sus valores suelen

fijarse en 0.1, 0.05 ó 0.01

α

PRUEBAS DE HIPÓTESIS

Direccionalidad de la Hipótesis

Cuando se trata de Hipótesis se debe establecer

desde un inicio si su Hipótesis es direccional o

no direccional. Puesto que esto es vital para la

interpretación de la prueba estadística.

No direccional A<>B (A es mayor o menor que B)

Direccional A>B (A es mayor que B)

Direccional A<B (A es menor que B)

PRUEBAS DE HIPÓTESIS

PRUEBAS DE HIPÓTESIS

Hipótesis direccional (una cola)

α

Zα = 1.64

Nivel de confianza 95%

PRUEBAS DE HIPÓTESIS

Los errores en la interpretación de las pruebas

de Hipótesis

Los errores que se pueden cometer cuando se

prueban Hipótesis para hacer inferencias son de

dos tipos: I y II.

El error se da con la decisión de aceptación o

rechazo del resultado en relación con la veracidad

de la Hipótesis Nula.

PRUEBAS DE HIPÓTESIS

Hipótesis Nula

Verdadera Falsa

Decisión de aceptación

Aceptación Correcto Error tipo II

Rechazo Error tipo I Correcto

Los errores en la interpretación de las pruebas

de Hipótesis

PRUEBAS DE HIPÓTESIS

GRADOS DE LIBERTAD

•El número de grados son las n posibilidades que

tiene una serie de variar cuando se fijan algunos

de sus valores.

CHI CUADRADO

PARA VARIABLES NOMINALES

TABLAS DE CONTINGENCIA

PRUEBA DE INDEPENDENCIA

O

ASOCIACIÓN ENTRE VARIABLES

CHI CUADRADO

NO SE CONOCEN LOS VALORES ESPERADOS

GRADOS DE LIBERTAD (R-1)(C-1)

SIEMPRE SON DE COLA DERECHA

CHI CUADRADO

APLICA CUANDO:

PARA TABLAS DE CONTINGENCIA CON MAS DE 1

GRADO DE LIBERTAD, LO MINIMO ESPERADO

PERMISIBLE ES 1 SI MENOS DE 20 POR CIENTO DE

LAS CASILLAS TIENEN FRECUENCIAS ESPERADAS

MENORES QUE 5. (COCHRAN)

CHI CUADRADO

NO APLICA CUANDO:

PARA TABLAS DE CONTINGENCIA DE 2X2.

SI n < 20 o si 20< n < 40 y SI CUALQUIER FRECUENCIA

ESPERADA ES MENOR QUE 5.

CUANDO n >= 40 SE PUEDE TOLERAR UNA

FRECUENCIA ESPERADA DE LA CELDA TAN

PEQUEÑA COMO 1. (COCHRAN)

CHI CUADRADO

Ho: Las variables X e Y son independientes (no se

asocian)

Ha: Las variables X e Y no son independientes (se

asocian)

CHI CUADRADO

Si el p-valor asociado al estadístico de contraste es

menor que el nivel de significancia. Se rechaza Ho.

Si X2 calculada es mayor que X2 de tablas. Se

rechaza Ho.

CHI CUADRADO

COMPARACION DE PROPORCIONES: CHI CUADRADO

CHI CUADRADO

Fórmula para tablas 2x2

CORRECCIÓN DE YATES (por continuidad)

Para cuando X2 tiene problemas de sensibilidad

(muestras son >100).

Cuando los valores esperados por lo menos para una

celda sean menores que 5.

Tablas de 2x2 (dos variables dicotómicas).

CORRECCIÓN DE YATES (por continuidad)

Fórmula

PRUEBA EXACTA DE FISHER

Para variables dicotómicas (tablas 2x2).

Muestras pequeñas <30

La fórmula nos da directamente la probabilidad

PRUEBA EXACTA DE FISHER

Fórmula

PEF=(a+b)¡(c+d)¡(a+c)¡(b+d)¡

a¡b¡c¡d¡N¡

EFECTO

CAUSA

O FACTOR

DE RIESGO

SI NO TOTAL

SI a b (a+b)

NO c d (c+d)

TOTAL (a+c) (b+d) N

MEDIDAS DE ASOCIACIÓN PARA DOS VARIABLES EN ESCALA ORDINAL

COEFICIENTE DE GAMMA

Es una medida del grado y tipo de asociación entre dos

variables cualitativas en escala ordinal.

Fórmula

Toma valores [-1,1]. Valores próximos a 1 indican fuerte

asociación positiva. Valores próximos a -1 indican fuerte

asociación negativa. Valores próximos a 0 indican no

asociación.

Un valor 0 no implica independencia excepto en tablas de 2x2.

Presenta el inconveniente que puede alcanzar valores de 1 y -1

en situaciones en las que la asociación no es total.

COEFICIENTE DE GAMMA

Coeficiente D de Somers

Cuando una de las variables se considera independiente (X) y

otra dependiente (Y), añade en el denominador Gamma el

número de pares empatados en la variable dependiente.

Toma valores [-1,1]

Fórmula

Coeficiente Tau-b de Kendall

Es una extensión de la Gamma, en el sentido de que tanto la

situación bajo la que puede ser aplicada como su

interpretación es la misma.

Fórmula

Coeficiente Tau-b de Kendall

A diferencia de Gamma, únicamente alcanza 1 o -1 en

situaciones de total asociación.

Pero presenta el inconveniente de alcanzar valores de 1 y -1

sólo en tablas cuadradas.

Coeficiente Tau-c de Kendall

Es una corrección de la Tau-b para el caso con distinto número

de categorías.

Fórmula

Siendo m el valor menor del número de filas y columnas

Coeficiente Tau-c de Kendall

Frente a Tau-b presenta la ventaja de poder alcanzar los

valores de 1 y -1 cuando no son tablas cuadradas.

Desventaja: Tiende a subestimar el verdadero grado de

asociación entre las variables. Cuando la tabla no es cuadrada.

DISTRIBUCIÓN T DE STUDENT

La distribución t de Student se utiliza cuando:

• Se desconoce la desviación estándar de la población.

• Se distribuye normalmente la población

• No se distribuye normalmente la población pero n>30

PROPIEDADES DE LA DISTRIBUCIÓN T DE STUDENT

• La distribución t de Student tiene la misma forma de campana

simétrica que la distribución normal estándar, pero refleja una

mayor variabilidad de la que se espera con muestras pequeñas.

• La distribución t de Student tiene una media t=0 (como la

distribución normal estándar tiene una media de z=0)

PROPIEDADES DE LA DISTRIBUCIÓN T DE STUDENT

• La desviación estándar de la distribución t de Student varía con

el tamaño de la muestra, pero es mayor que 1.

• Conforme el tamaño de la muestra n se hace más grande, la

distribución t de Student se acerca a la distribución normal

estándar.

DISTRIBUCIÓN T DE STUDENT PARA UNA MUESTRA

Nos permite conocer la probabilidad asociada a cada uno de los

valores X (promedio) que es posible obtener en muestras de

tamaño n cuando:

Suponemos que el verdadero valor de la media poblacional es

µ.

• Estimamos la desviación típica poblacional mediante la

desviación típica muestral.

• Ho. µx=m La media poblacional es igual a la media de la

muestra.

DISTRIBUCIÓN T DE STUDENT PARA UNA MUESTRA

Grados de libertad n-1

DISTRIBUCIÓN T DE STUDENT PARA DOS MUESTRAS RELACIONADAS O APAREADAS

Ho. La diferencia entre las medias es cero o Las

medias son iguales

Ho: µx = µy

DISTRIBUCIÓN T DE STUDENT PARA DOS MUESTRAS RELACIONADAS O APAREADAS

DISTRIBUCIÓN T DE STUDENT PARA DOS MUESTRAS INDEPENDIENTES

Ho. Las medias poblacionales son iguales

Ho: µ1 = µ2

DISTRIBUCIÓN T DE STUDENT PARA DOS MUESTRAS INDEPENDIENTES

PARA VARIANZAS POBLACIONALES IGUALES

GRADOS DE LIBERTAD: n1+n2-2

DISTRIBUCIÓN T DE STUDENT PARA DOS MUESTRAS INDEPENDIENTES

E

PARA VARIANZAS POBLACIONALES DIFERENTES

ANÁLISIS DE VARIANZA DE UN FACTOR (ANOVA) TAMBIÉN CONOCIDA COMO F DE SNEDECOR

Se trata de una generalización de la prueba T para dos muestras

independientes para cuando hay mas de dos muestras.

Las condiciones básicas para aplicar esta prueba son:

• Que las muestran tengan una distribución normal

• Que la varianza de cada una sea similar a las de las otras.

Ho. Las muestras proceden de poblaciones en

las que la media es la misma.

Ho: µ1 = µ2 = ….= µn

ANÁLISIS DE VARIANZA DE UN FACTOR (ANOVA) TAMBIÉN CONOCIDA COMO F DE SNEDECOR

• Variable Factor: Nominal u Ordinal

• Variable Dependiente: Razón o intervalo

• Si las varianzas no son iguales, se concluye que las medias

son diferentes.

ANÁLISIS DE VARIANZA DE UN FACTOR (ANOVA) TAMBIÉN CONOCIDA COMO F DE SNEDECOR

ANÁLISIS DE VARIANZA DE UN FACTOR (ANOVA) TAMBIÉN CONOCIDA COMO F DE SNEDECOR

CORRELACIÓN LINEAL

CORRELACIÓN LINEAL

Ho: Las variables x y y no se

correlacionan.

CORRELACIÓN LINEAL

Correlación: Existe correlación entre dos variables cuando

una de ellas se relaciona con la otra de alguna manera.

Diagrama de dispersión: Una gráfica en la que datos

muestrales apareados (x, y) se grafican en un eje x horizontal y

un eje y vertical. Cada par individual (x, y) se grafica como un

solo punto.

Diagramas de dispersión o nubes de puntos

CORRELACIÓN LINEAL

Diagramas de dispersión o nubes de puntos

CORRELACIÓN LINEAL

CORRELACIÓN LINEAL

Coeficiente de correlación lineal r:

Mide la fuerza de la relación lineal entre los valores cuantitativos

apareados x y y en una muestra.

• Su valor está comprendido entre -1 y 1.

• Si r es positivo la correlación es directa y si es negativo

inversa.

• Si r se acerca a -1 o a +1, la correlación es fuerte.

• Si r se acerca a 0 la correlación es débil

CORRELACIÓN LINEAL

Coeficiente de correlaciòn de Pearson

CORRELACIÓN LINEAL

El estadístico de prueba t

t es el estadístico de prueba para saber si es significativa o no la

correlación. Se calcula con (n-2) grados de libertad.

Ejemplo.- Estudiamos la talla, medida en cm. y el peso, medido

en kg. de un grupo de 10 personas, podemos obtener

los siguientes valores

Talla

(cms)160 165 168 170 171 175 175 180 180 182

Peso

(kgs)55 58 58 61 67 62 66 74 79 83

CORRELACIÓN LINEAL

Podemos llamar X a la talla e Y al peso con lo que se obtendría

la variable bidimensional (X, Y) que toma 10 valores, que son

las 10 parejas de valores de la tabla anterior: (160,55),

(165,58), etc.

CORRELACIÓN LINEAL

Talla

(cms)160 165 168 170 171 175 175 180 180 182

Peso

(kgs)55 58 58 61 67 62 66 74 79 83

Diagramas de dispersión o nubes de puntos

CORRELACIÓN LINEAL

En el ejercicio anterior

Coeficiente de correlación lineal r = .908

Coeficiente de determinación r2 = .825

Estadístico de prueba calculado t = 6.15

Estadístico de prueba de tablas t.95 = 2.306

Conclusión: la correlación es fuerte r se aproxima a 1. El

82.5% de la variación del peso está explicado por la

relación entre el peso y la talla. Como t calculada es mayor

que t de tablas, existe una correlación significativa.

CORRELACIÓN LINEAL

REGRESSION LINEAL

y = mx + b

y = b0 + b1x

ECUACIÓN DE REGRESIÓN

RECTA DE REGRESION

Relación entre dos variables

Variable independiente x

Variable dependiente y

Función lineal del tipo y = ax + b, su gráfica correspondería a una recta

Recta de regresión.

REGRESION LINEAL

Una ecuación de regresión múltiple expresa una relación

lineal entre una variable dependiente y y dos o más variables

independientes x.

REGRESION LINEAL MULTIPLE

REGRESION LINEAL

El valor de R2 es la proporción de la

variación de y que se explica por la

relación lineal x y y.

COEFICIENTE DE DETERMINACION R2

REGRESION LINEAL

El valor de R2 AJUSTADA es el coeficiente múltiple de

correlación R2 modificado para justificar el número de variables

y el tamaño de la muestra.

COEFICIENTE AJUSTADO DE DETERMINACION R2

n tamaño de la muestra

k número de variables independientes (x)

TAMAÑO DE MUESTRA

N= Tamaño de la población

p=probabilidad de ocurrencia

S2 = p(1-p)

se = error estándar

V2=(se)2

Ejemplo:

N=490

error estándar=.01

S2=p(1-p)=.9(1-.9)=.09

V2=(.01)2=.0001

.09n´=_______=900

.0001

900 900 n=_______= ____________ = 317

1+900/490 1+900/490

TAMAÑO DE MUESTRA

Ejemplo:

N=490

error estándar=.015

S2=p(1-p)=.9(1-.9)=.09

V2=(.015)2=.000225

.09n´=_______=400

.000225

400 400 n=_______= ____________ = 220

1+400/490 1+400/490

TAMAÑO DE MUESTRA

Tamaño de muestra para la estimación de una

proporción poblacional población infinita

TAMAÑO DE MUESTRA

Tamaño de muestra para la estimación de una

proporción poblacional, población finita.

TAMAÑO DE MUESTRA

Tamaño de muestra para la estimación de la media

poblacional población infinita

Se conoce la desviación estándar de

la población ó se utiliza 0.5

TAMAÑO DE MUESTRA

Tamaño de muestra para la estimación de la media

poblacional población finita

Se conoce la desviación estándar de

la población o se sustituye por 0.5

TAMAÑO DE MUESTRA

REGLAS PARA FORMAR LAS DISTRIBUCIONES DE FRECUENCIA

Hallar el Rango.

Dividir el rango en un número

conveniente de clases del mismo

tamaño. El número de clases entre 5 y

20.

Determinar el número de observaciones

por clase.

REGLAS PARA FORMAR LAS DISTRIBUCIONES DE FRECUENCIA

Hallar el Rango.

Encontar el número de clases mediante la

fórmula de Sturges K=1+3.322(log n).

Dividir el rango entre el número de clases

del mismo tamaño.

Determinar el número de observaciones

por clase.

Coeficiente de variación

El CV de un conjunto de datos muestrales o

poblacionales, expresado como porcentaje,

describe la desviación estándar relativa a la

media, y está dada de la siguiente forma:

ESTADISTICOS DESCRIPTIVOS

Puntuaciones z

Pueden utilizarse para comparar valores de diferentesconjuntos de datos.

Una puntuación z (o una puntuación estándar) se calculaconvirtiendo un valor a una escala estandarizada.

Puntuación estándar z: número de desviacionesestándar que un valor x se encuentra por arriba o pordebajo de la media. Se calcula utilizando las siguientesexpresiones.

ESTADISTICOS DESCRIPTIVOS

MEDIDAS DE POSICIÓN

Puntaciones z

Valores comunes y valores infrecuentes

ESTADISTICOS DESCRIPTIVOS

MEDIDAS DE POSICIÓN

Variables aleatorias

Variable aleatoria: variable (casisiempre representada por x) quetiene un solo valor numérico,determinado por el azar, para cadaresultado de un procedimiento.

Distribución de probabilidad: gráfica,tabla o fórmula que da laprobabilidad de cada valor de lavariable aleatoria.

DISTRIBUCIONES DE PROBABILIDAD

Variables aleatorias

Variable aleatoria discreta: tiene unnúmero finito de valores o unnúmero de valores contables.

Variable aleatoria continua: tiene unnúmero infinito de valores; dichosvalores pueden asociarse amediciones en una escala continua,de manera que no haya huecos niinterrupciones.

DISTRIBUCIONES DE PROBABILIDAD

Requisitos

donde x toma todos losvalores posibles.

para cada valor de x

DISTRIBUCIONES DE PROBABILIDAD

LA DISTRIBUCIÓN NORMAL

Curva de densidad (o función de densidad de

probabilidad): grafica de una distribución de

probabilidad continua. Debe satisfacer las

siguientes propiedades:

1.El área total bajo la curva debe ser igual a 1.

2.Cada punto de la curva debe tener una altura

vertical igual o mayor que 0.

LA DISTRIBUCIÓN NORMAL ESTANDAR

Distribución de probabilidad continua.

Depende de dos parámetros: La media

poblacional y la desviación estándar poblacional.

Distribución de probabilidad con una media de 0 y

una desviación estándar de 1, en tanto el área

total debajo de su curva de densidad es igual a 1.

Existe una correspondencia entre el área y la

probabilidad.

LA DISTRIBUCIÓN NORMAL ESTANDAR

AREA TOTAL BAJO LA CURVA = 1 ó EL 100% DE LAS

OBSERVACIONES O PROBABILIDADES

µ=0 y =1

Curva de densidad de una distribución normal estándar

LA DISTRIBUCIÓN NORMAL ESTANDAR

Características

Identificada por µ y

Simétrica con respecto a µ

Forma de campana

Observaciones caen

a) 68.27% del total caen entre (µ- ) a (µ+ )

b) 95.45% del total caen entre (µ-2) a (µ+2)

c) 99.73% del total caen entre (µ-3) a (µ+3)

LA DISTRIBUCIÓN NORMAL ESTANDAR

2

2

2

)(

2

1

X

eY

LA DISTRIBUCIÓN NORMAL NO ESTANDAR

AREA TOTAL BAJO LA CURVA = 1 ó EL 100% DE LAS

OBSERVACIONES O PROBABILIDADES

Estandarización de curvas Normales no estándar

µ<>0 y <>1

EJERCICIOS EN EXCEL

DISTRIBUCION NORMAL