1-medidas de tendencia central y variabilidad

48
Medidas de Tendencia Central Nos indican un valor representativo del gru los datos, de la referencia de los mismos – central. Ejemplo: con las calicaciones 4,7,5,6,5,4,5,5,5,6,5,4,4, es claro que a ojo! est"n en torno a cinco podr#a ser tomado como #ndice de tendencia central. $eremos primero los % #ndices de tendencia m"s comunes moda, media & mediana!. 'espu(s veremos otros #ndices que )an sido propuestos.

Upload: madelaine-basulto

Post on 01-Nov-2015

218 views

Category:

Documents


0 download

DESCRIPTION

PSICOLOGIA

TRANSCRIPT

  • Medidas de Tendencia CentralNos indican un valor representativo del grueso de los datos, de la referencia de los mismos un valor central.Ejemplo: con las calificaciones 4,7,5,6,5,4,5,5,5,6,5,4,4,es claro que (a ojo) estn en torno a cinco, que podra ser tomado como ndice de tendencia central.Veremos primero los 3 ndices de tendencia central ms comunes (moda, media y mediana). Despus veremos otros ndices que han sido propuestos.

  • Media aritmticaSimplemente se trata de sumar todos los valores y dicha cantidad se divide por el nmero de valores que tengamos.Frmula:Si tenemos los datos: 4,6,5,3,7La media ser (4+6+5+3+7)/5=4Nota: se pueden emplear medias aritmticas ponderadas. Pensemos que hay 2 datos, uno (5) pesa 0,6 y el otro (6) pesa 0,4. Entonces, la media ser (5*0,6+6*0,4)/(0,6+0,4)=5,4

  • La media aritmtica de un conjunto de datos es el cociente entre la suma de todos los datos y el nmero de estos. Ejemplo: las notas de Juan el ao pasado fueron:5, 6, 4, 7, 8, 4, 6 La nota media de Juan es: Nota media = que suman 40Hay 7 datosMedia aritmtica (I)

  • Clculo de la media aritmtica cuando los datos se repiten. Ejemplo. Las notas de un grupo de alumnos fueron:Datos por frecuenciasTotal de datos1. Se multiplican los datos por sus frecuencias absolutas respectivas, y se suman.2. El resultado se divide por el total de datos. Media aritmtica (II)

    Notas

    Frecuencia

    absoluta

    Notas x

    F. absoluta

    3

    5

    15

    5

    8

    40

    6

    10

    60

    7

    2

    14

    Total

    25

    129

  • Propiedades de la Media aritmtica-La suma de diferencias (de todos los valores) respecto a la media es siempre 0

    -Si sumamos una constante a cada uno de los valores, la nueva media aritmtica resultante ser la original ms la constante.

    -Si multiplicamos cada uno de los valores por una constante, la nueva media aritmtica ser la original por la constante.

    Minimiza la suma de diferencias en trminos cuadrticos.

  • MedianaLa Mediana (Mdn o Md) se define como el valor que tiene la propiedad de que el nmero de observaciones menores que l es igual al nmero de observaciones mayores que l.Por ejemplo, en la secuencia (ordenada) 3,4,5,6,7,8,9la mediana ser 6

    En la secuencia (ordenada) 2,3,4,6,7,9la mediana ser 5 (la media aritmtica entre los dos valores centrales; observa que n es par; en el ejemplo de arriba era impar)

  • La mediana de un conjunto de datos es un valor del mismo, tal que el nmero de datos menores que l es igual al nmero de datos mayores que l. Los pesos, en kilogramos, de 7 jugadores de un equipo de ftbol son:Ejemplo:72, 65, 71, 56, 59, 63, 721. Ordenamos los datos:56, 59, 63, 65, 71, 72, 722. El dato que queda en el centro es 65.La mediana vale 65. Si el nmero de datos fuese par, la mediana es la media aritmtica de los dos valores centrales.Para el conjunto 56, 57, 59, 63, 65, 71, 72, 72, la mediana es: Caso: La mediana

  • Propiedades de la mediana

    No utiliza todos los elementosSe puede calcular con datos ordinalesSe ve menos afectada por datos atpicos que la media aritmtica.Minimiza la suma de diferencias en valor absoluto (recuerda que la media aritmtica minimizaba la suma de diferencias en trminos cuadrticos)

  • Ejemplo uso de la medianaLos 9 empleados de una nueva empresa viven al lado de la carretera en diferentes kilmetros: 32121Km 1 4 5 6 26Dado que todos viajan en automvil, y sabiendo que quieres minimizar el costo en gasolina, en qu lugar pondras la empresa para minimizar tal costo?Nm. Emp.

  • La ModaSe define como Moda (Mo) aquel valor de la variable al que corresponde la mayor frecuencia.En el conjunto de datos: 4,5,6,6,3,6,4,5 la Mo=6

    Propiedades:-No es necesariamente nica (puede haber varias modas)-Se puede calcular con datos en escala nominal-En su clculo no intervienen todos los elementos

  • La moda de un conjunto de datos es el dato que ms se repite.Una zapatera ha vendido en una semana los zapatos que se reflejan en la tabla:Ejemplo.La moda es 41. El nmero de zapato ms vendido, el dato con mayor frecuencia absoluta, es el 41.Lo compran 35 personasLa moda

    N de calzado

    38

    39

    40

    41

    42

    43

    44

    45

    N de personas

    16

    21

    30

    35

    29

    18

    10

    7

  • Cul elegir?ModaMedianaMedia

  • Estadsticos resistentes: Son aquellos que no se ven influidos (o solo ligeramente) por pequeos cambios en los datos.

    Evidentemente, la media es un estadstico muy poco resistente a cambios en los datos, dado que se ve influida por todos y cada uno de ellos.

    La mediana, en cambio, es un estadstico altamente resistente.Resistencia y robustez

  • Estadsticos (Estimadores) robustos (ESTADSTICA INFERENCIAL): Son aquellos estadsticos (estimadores) que funcionan bien para varios tipos distintos de distribuciones tericas, aunque pueden no ser el mejor estimador para ningn tipo concreto de distribucin. Es decir, son el mejor compromiso.La media no es un estimador robusto.La mediana es un estimador ms robusto que la media, si bien hay otros estimadores ms robustos.

  • Medidas robustas de tendencia central1. Medias RecortadasConsiste en calcular la media aritmtica sobre un subconjunto central del conjunto de datos, no considerndose una determinada proporcin p por cada extremo. (p se expresa normalmente como porcentaje).

    Por ejemplo, una media recortada al 40% en una secuencia de 10 datos implica no tener en cuenta ni los 4 valores menores ni los 4 valores mayores.

    Observar que la media recortada al 0% es la media aritmtica.

    A la media recortada al 25% se la denomina centrimedia.

  • Medidas robustas de tendencia central1. Medias Recortadas (cont)Calcula la media recortada al 5% de los siguientes datos:3, 4, 4, 5, 5, 6, 7, 8, 9, 11

    El valor debe ser 6.11

    Calcula la media recortada al 10% de los datos anteriores (da 6)

    Calcula la centrimedia (da 5.8)

  • Medidas robustas de tendencia central2. Media WinsorizadaEs anlogo a las medias recortadas excepto en que las puntuaciones eliminadas, ya no lo son sino que se sustituyen por los valores menor y mayor que quedan para el cmputo de la media winsorizada.As, en la media recortada a nivel 2 implicara eliminar las dos puntuaciones mayores y las 2 menores:3, 4, 4, 5, 5, 6, 7, 8, 9, 11Y quedan los datos: 4, 5, 5, 6, 7, 8 y se calcula la media de los mismos

    En la media winsorizada, los datos 3 y 4 (los dos menores) y el 9 y 11 (los dos mayores) se sustituyen por 4 y 8 respectivamente. Es decir,4, 4, 4, 5, 5, 6, 7, 8, 8, 8 y se calcula la media de los mismos, que ser la media winsorizada a nivel 2 (debe de dar 5.9)

  • Medidas robustas de tendencia centralEn muchas ocasiones lo que se hace es emplear un valor mnimo y uno mximo ms all del cual se eliminan los datos que sobrepasen tales valores.

    Por ejemplo, en experimentos de tiempo de reaccin para discriminar palabras/pseudopalabras se pueden eliminar datos menores de 200 ms y mayores de 1500 ms. (Menos de 200 ms es demasiado rpido; ms de 1500 ms es demasiado lento.)De esta manera, si todos los datos estn en el rango 200-1500 ms no se elimina ningn dato3. Otros tipos de media en la que se recortan datos

  • Medidas robustas de tendencia central4. TrimediaEs un ndice de tendencia central que consiste en calcular una media aritmtica ponderada de tres medidas, la Mediana (con peso doble) y el primer y tercer cuartil.

    Pensemos que en un conjunto de datos, el primer cuartil es 51, la mediana es 55 y el tercer cuartil es 63. La trimedia es:

  • Medidas robustas de tendencia central5. Otras medidas robustas

    El estimador-M de Huber, el estimador biponderado de Tukey, el estimador M-redescendente de Hampel y el estimador en onda de Andrew. Estos estimadores se diferencian entre s por el tipo de ponderacin aplicada sobre los datos.

    Por ejemplo, en el Estimador-M de Huber (Estimador M de posicin): Las puntuaciones tpicas que sean menores que una constante, reciben un peso de 1. Los casos que tienen los mayores valores absolutos tienen pesos tanto ms pequeos cuanto mayor es su distancia respecto a cero. La constante es 1.339. Clculo: lo da el SPSS.

  • 3. Variabilidad

    En el punto anterior vimos las medidas de tendencia central (media, mediana, moda). Claramente, para saber cun representativo es el valor de tal medida de tendencia central es necesario tener una medida de variabilidad.

    Por ejemplo, alguien puede tener una media de 5 con los siguientes datos (5, 4, 6, 5, 5) y otro tener una media de 5 con los datos (10, 0, 5, 9, 1). Evidentemente el primer sujeto es mucho ms consistente, muestra menos variabilidad.

  • Cmo podemos medir la variabilidad?Una primera estrategia sera emplear la frmulaEl problema es que siempre vale cero....Una segunda estrategia es emplear valores absolutos

    Esta es la llamada Desviacin Media, lo problemtico es el uso de valores absolutos.qu nos queda, pues? Emplear la suma de diferencias al cuadrado....Es el primer paso para la varianza

  • VarianzaFrmulaComo veremos en el prximo semestre (Estadstica inferencial), la varianza es un estimador sesgado de la varianza poblacional; por ello se prefiere el uso de la cuasivarianza que es igual que la varianza excepto en que se divide por n-1 ; la cuasivarianza es un estimador insesgado de la varianza poblacional:

  • Desviacin tpica y cuasi desviacin tpicaFrmulasUna ventaja obvia de la desviacin tpica sobre la varianza es que la desviacin tpica viene dada en las mismas unidades de medida que los datos originales (en la varianza las unidades estn al cuadrado).

    Por eso, en estadstica descriptiva se suele dar la media acompaada de la (cuasi) desviacin tpica, ms que con la (cuasi) varianza.

    NOTA: El SPSS cuando indica varianzas o desviaciones tpicas, en realidad calcula cuasivarianzas y cuasidesviaciones tpicas

  • Algunas propiedades de la varianza y desviacin tpica

    1. La varianza y la desviacin tpica son valores esencialmente positivos.(observa que las diferencias sobre la media estn al cuadrado)

    2. Ni la varianza ni la desviacin tpica se alteran cuando a los datos se les aade una constante a.Entonces, sabemos que

  • Entonces, sabemos que Claro est que lo mismo se aplica a la desviacin tpica y a la cuasi varianza y la cuasi desviacin tpica

  • 3. Si los datos se multiplican por una constante a cualquiera, la desviacin tpica queda multiplicada por el valor absoluto de dicha constante, y la varianza por el cuadrado de dicha constante

  • Aqu tenemos 9 rectngulos cuya altura es de 8 centmetros (y todos tienen la misma base).Existe alguna variacin respecto de su altura entre estos rectngulos?Cul es el promedio de la altura de estos rectngulos?= 8

  • El quinto rectngulo y el octavo rectngulo en un acto de rebelda cambiaron su altura. El quinto rectngulo, ahora de color azul, mide 10 centmetros, y el octavo rectngulo, de color amarillo, mide 6 centmetros?Cul es el nuevo promedio de estos 9 rectngulos?= 8... el mismo promedio! Pero... ha habido variacin?

  • El rectngulo azul tiene +2 centmetros sobre el promedio, y el rectngulo amarillo tiene 2 centmetros bajo el promedio. Los otros rectngulos tienen cero diferencia respecto del promedio.Si sumamos estas diferencias de la altura respecto del promedio, tenemos0 + 0 + 0 + 0 + 2 + 0 + 0 2 + 0= 0Este valor nos parece indicar que no ha habido variabilidad! Y sin embargo, ante nuestros ojos, sabemos que hay variacin!!!!

  • Una forma de eliminar los signos menos de aquellas diferencias que sean negativas, esto es de aquellos mediciones que estn bajo el promedio, es elevar al cuadrado todas las diferencias, y luego sumar...02 + 02 + 02 + 02 + 22 + 02 + 02 + ( 2)2 + 02 = 8Y este resultado repartirlo entre todos los rectngulos, es decir lo dividimos por el nmero de rectngulos que es 9= 0,89

  • Se dice entonces que la varianza fue de 0,89Observemos que las unidades involucradas en el clculo de la varianza estn al cuadrado. En rigor la varianza es de 0,89 centmetros cuadrados. De manera que se defineLa raz cuadrada de la varianza se llama desviacin estndar

  • Que la desviacin estndar haya sido de 0,943 significa que en promedio la altura de los rectngulos variaron (ya sea aumentando, ya sea disminuyendo) en 0,943 centmetros.Es claro que esta situacin es en promedio, puesto que sabemos que los causantes de la variacin fueron los rectngulos quinto y octavo. Esta variacin hace repartir la culpa a todos los dems rectngulos que se portaron bien. La desviacin estndar mide la dispersin de los datos respecto del promedio

  • Cul es la varianza y la desviacin estndar de las alturas de los rectngulos?En primer lugar debemos calcular el promedio= 7,44Luego debemos calcular la varianza

  • 0,562 + (-3,44)2 + 0,562 + 0,562 + 2,562 + 0,562 + (-0,44)2 + (-1,44)2 + 0,5629= 2,469Este es el valor de la varianza

  • Si la varianza fue de 2,469, entonces la desviacin estndar es de... Lo que significa que, en promedio, los rectngulos se desviaron ms o menos (ms arriba o ms abajo) en 1,57 centmetros.

  • Otras medidas de variabilidad

    2. Desviacin media (DM)El problema del empleo de la DM es la dificultad que tiene trabajar con valores absolutos. La DM es poco frecuente encontrarla en la prctica.1. Amplitud total (AT)Es la diferencia entre los valores extremosSu ventaja es la sencillez de clculo; el problema es que es nicamente sensible a los valores extremos (e insensible a los intermedios).

  • 3. Amplitud semi-intercuartil (Q)Est basada en el primer y tercer cuartil, lo que la hace un estadstico resistenteSe emplea relativamente en algunas reas de la psicologa; se suele emplear cuando la mediana sea el ndice de tendencia central.4. Coeficiente de variacin (CV)Observa: Escala de raznIndica el nmero de veces que la desviacin contiene a la media: cuanto mayor es el CV mayor es la variabilidad y menor la representatividad de la media. Al no tener unidades de medida permite la comparacin entre variables diferentes.

  • Medidas robustas de variabilidad

    La MEDA (Mediana de las diferencias absolutas frente a la mediana)Ejemplo de clculo: 3,4,4,5,5,6,7,8,9,11 (Md=5.5)

    MEDA=1.5

    Es la Mediana de 0,5; 0,5; 0,5; 1,5; 1,5; 1,5; 2,5; 2,5; 3,5; 5,5

  • Medidas robustas de variabilidad

    2. La desviacin pseudotpicaEs un ndice de variabilidad que permite estimar la desviacin tpica (que como sabemos es muy susceptible a la influencia de puntuaciones atpicas, como tambin ocurre con la media aritmtica) que cabra esperar de la muestra si sta perteneciera a una poblacin en el que la distribucin subyacente sea la normal.

  • 4. AsimetraEn los dos puntos anteriores hemos visto las medidas de tendencia central y las medidas de variabilidad.Si bien la obtencin de tales medidas es clave para describir una muestra y efectuar inferencias sobre la poblacin de origen, es tambin fundamental saber la forma de una distribucin para obtener una caracterizacin adecuada de los datos.

  • AsimetraSi bien es fcil tener una idea de si la distribucin es simtrica o no tras ver la representacin grfica (p.e., un histograma o un diagrama de caja y bigotes), es importante cuantificar la posible asimetra de una distribucin.

    Recordemos que cuando la distribucin de los datos es simtrica, la media, la mediana y la moda coinciden. (Y la distribucin tiene la misma forma a la izquierda y la derecha del centro)

    Si bien muchas distribuciones psicolgicas se asume que tienden a ser simtricas y unimodales, en muchos casos la distribucin que encontramos es asimtrica (v.g., las distribuciones de los Tiempos de Reaccin en casi cualquier tarea es asimtrica positivo).

  • Asimetra positivaModaMedianaMediaAsimetra negativaMediaMedianaModaExamen difcilSalariosTiempos de ReaccinExamen fcil

  • Indices de asimetra1. ndice de asimetra de PearsonMuy sencillo de calcular. Est basado en la relacin entre la media y la moda en distribuciones simtricas y asimtricas (ver diapositiva anterior):Si la distribucin es simtrica As ser 0Si la distribucin es asimtrica positiva, As ser mayor que 0Si la distribucin es asimtrica negativa, As ser menor que 0

  • Indices de asimetra2. Indice de asimetra de FisherEst basado en la diferencia de los datos sobre la media, como la varianza, si bien esta vez se elevan los coeficientes al cuboSi la distribucin es simtrica As ser 0Si la distribucin es asimtrica positiva, As ser mayor que 0Si la distribucin es asimtrica negativa, As ser menor que 0

    Desventaja: Muy influida por puntuaciones atpicas-

  • 5. Cmo ver la tendencia, variabilidad y asimetra en un grfico

    Si bien es posible emplear diferentes grficos para evaluar la variabilidad (y tendencia central, asimetra, etc), es interesante el uso de los diagramas de caja y bigotes.La caja viene definida por el primer cuartil y el tercer cuartil, con la mediana tambin indicada.

    Pero mejor veamos un ejemplo (Ratcliff, Perea, Colangelo y Buchanan, 2004, Brain & Cognition), en el que se examinan ciertas caractersticas en una tarea de decisin lxica (decidir si un estmulo era palabra o no; se mide el Tiempo de Reaccin) con un grupo de controles y un grupo de personas con dao cerebral (afsicos).Lo que se meda era:un ndice de cun conservador eran las personas en la tarea (boundary separation)un ndice correspondiente a procesos no-decisionales (non-decision component).un ndice correspondiente a la calidad de informacin (drift rate)

  • Cmo ver la variabilidad en un grfico

    La Mediana es el trazo grueso dentro de las cajas (entre los cuartiles primero y tercero).Las puntuaciones atpicas estn presentadas individualmente (ver que hay dos tipos de datos atpicos).

    Observar que los controles son claramente diferentes a los pacientes en boundary separation y en el non-decision component, mientras que hay bastante ms solapamiento en la calidad de informacin.

  • Cmo ver la asimetra en un grfico

    En el caso del non-decision component (pacientes), la distancia entre el P75 y P50 es mucho menor que entre el P50 y el P25, lo que sugiere que hay asimetra negativa.P25 P50 P75En el caso del drift rate (pacientes), la distancia entre el P75 y P50 es mucho mayor que entre el P50 y el P25, lo que sugiere que hay asimetra positiva.

    ****