regressão linear

Regresin lineal simple utilizando SPSS (13

Regresin lineal simple utilizando SPSS (13.0)Objetivos de la prctica:

Con este documento pretendemos que aprendis a implementar un anlisis de regresin lineal simple utilizando el programa SPSS (13.0). Las distintas opciones de los cuadros de dilogo que iremos describiendo nos proporcionarn informacin sobre la estimacin, validacin y significacin de parmetros as como de los supuestos bsicos del modelo.

Archivos de datos:

Vamos a realizar un anlisis de regresin lineal simple para estudiar la posible relacin entre sntomas de estrs y la competencia percibida en una muestra de 315 personas que trabajan en la Universidad de Sevilla. La figura 1 muestra una porcin de la matriz de datos que vamos a analizar. Como puede observarse hemos incluido tres variables: sexo, competen y estres. Las variables competen y estres son variables cuantitativas y concretamente competen ser la variable predictora o independiente en el modelo de regresin que vamos a utilizar para estudiar su relacin con el estrs. La variable dependiente ser estres. El archivo de datos se llama regresion lineal simple.sav

Figura 1. Porcin de la matriz de datos que vamos a analizar.

Descripcin detallada del procedimiento para implementar un anlisis de regresin lineal con SPSS (13.0)Para realizar un anlisis de regresin lineal con SPSS seleccionamos en el men analizar la opcin de regresin lineal como muestra la figura 2.

Figura 2. Secuencia de mens para implementar un anlisis de regresin lineal con SPSS.

La secuencia mostrada en la Figura 2 nos permite acceder al cuadro de dilogo Regresin lineal como se muestra en la Figura 3. En dicho cuadro disponemos de una lista completa de las variables que hemos incluido en el archivo de datos. En nuestro caso: sexo, competencia percibida y estrs total. Como mnimo, para que se pueda ejecutar el anlisis, tenemos que seleccionar dos variables y trasladarlas respectivamente al cuadro de Dependiente e Independientes. Estrs total ser la variable dependiente y competencia percibida la variable independiente. Slo con estas especificaciones podemos, al pulsar el botn Aceptar, obtener informacin acerca de la bondad de ajuste del modelo, de la validacin y de la ecuacin de regresin estimada as como de la significacin de los parmetros.

Figura 3. Cuadro de dilogo de regresin lineal.

Los resultados que nos proporciona SPSS, con las opciones por defecto del cuadro de regresin lineal, son las tablas etiquetadas como Variables introducidas/eliminadas(b), Resumen del modelo(b), Anova y Coeficientes que aparecen a continuacin. De cada tabla describiremos los valores incluidos en las mismas, su significado y cmo se han calculado.

Descripcin de las tablas obtenidas con las opciones por defecto del cuadro de dilogo de regresin lineal 1. La tabla Variables introducidas/eliminadas identifica a la variable independiente (predictora) y dependiente (criterio).

2. La tabla Resumen del modelo nos proporciona informacin acerca de la bondad de ajuste del modelo. Concretamente:

R es la raz cuadrada positiva de R cuadrado

R Cuadrado es la bondad de ajuste y viene dada por:

R cuadrado corregida: la R cuadrado (bondad de ajuste) sobreestima el valor poblacional. Una estimacin ms adecuada de la bondad de ajuste poblacional es R cuadrado corregida que se obtiene con la expresin

Error tp. de la estimacin es la raz cuadrada de la varianza residual

3. La tabla ANOVA: es un cuadro resumen del anlisis de varianza para la validacin del modelo de regresin lineal. El trmino Regresin en esta tabla equivale a Explicada en la terminologa que hemos utilizado en clase. Los valores que aparecen en esta tabla se han calculado con las expresiones siguientes: Fuentes de variacin

Sumas de cuadrados

Grados de libertad

Varianza o Media CuadrticaF

Regresin o explicada

K

Residual o no explicada

N-K-1

Total

N-1

La columna Sig, corresponde al valor de probabilidad de F. Es la probabilidad de obtener el valor de F si la hiptesis nula fuera cierta. Como este valor es menor que 0,05 se rechaza la hiptesis nula y se concluye que el modelo de regresin es vlido.

4. Tabla de coeficientes: Esta tabla contiene los coeficientes no estandarizados (en directas) y estandarizados de la recta de regresin estimada. Concretamente, la columna etiquetada como B nos permite escribir la recta de regresin en puntuaciones directas. As, la recta que relaciona estrs con la competencia es:

Por otro lado, el valor que aparece en la columna etiquetada como Beta es la pendiente de la recta en tpicas que como sabemos, en el modelo de regresin simple, es el coeficiente de correlacin de Pearson. La recta de regresin en tpicas es:

En la columna de Coeficientes No estandarizados, adems de los coeficientes de la recta en directas, la columna Error tp. hace referencia a los errores tpicos de la constante (ordenada en origen) y de la pendiente de la recta. Son los denominadores del estadstico de contraste t de student de la penltima columna. Concretamente, el error tpico de la pendiente (ver el formulario) se obtiene con la siguiente expresin:

Los valores de la columna t se obtienen dividiendo el valor de los coeficientes no estandarizados entre sus error estndar concretamente,

La columna Sig, corresponde a los valores de probabilidad de las los valores de t. Es la probabilidad de obtener el valor de t si la hiptesis nula fuera cierta. Como estos valores son menores que 0,05 se rechaza la hiptesis nula y se concluye que los parmetros son distintos de cero informacin coincidente con la obtenida del anlisis de la varianza (validacin del modelo). En el caso del contraste referido a la pendiente de la recta implica que el cambio medio en estrs por unidad de variacin en competencia es estadsticamente distinto de cero.

Comprobacin de los supuestos del modelo de regresin lineal: anlisis de residuosEn el cuadro de dilogo de Regresin lineal disponemos de una serie de opciones que nos van permiten obtener informacin acerca de la adecuacin de los datos a los supuestos del modelo de regresin lineal. Un cumplimiento razonable de dichos supuestos garantiza que las inferencias a la poblacin son vlidas. Las herramientas de las que disponemos en SPSS para evaluar los supuestos de linealidad, normalidad, homocedasticidad, independencia de errores y presencia de valores alejados y/o influyentes son tanto de naturaleza grfica como analtica. Para obtener informacin acerca de los supuestos vamos a seleccionar algunas de las opciones disponibles en los distintos botones que aparecen en el cuadro de la Figura 3.Pulsando en el botn Guardar podemos aadir a la matriz de datos original las puntuaciones ajustadas (pronsticadas) y los residuos del modelo de regresin distintos formatos:Residuos No tipificados: son los residuos ordinarios del modelo de regresin ().Residuos tipificados: tienen media cero y varianza prxima a 1. Un sujeto con un residuo tipificado grande se puede considerar atpico. Se suelen considerar atpicos los sujetos con residuos tipificados absolutos superiores a 3.El residuo estudentizado de un sujeto se calcula igual que el anterior slo que de la varianza residual se elimina el residuo del sujeto correspondiente. Los residuos estudentizados siguen una distribucin t de student con N-k-2 grados de libertad. Son observaciones atpicas las correspondientes a residuos estudentizados significativos.

Los residuos anteriores nos permiten identificar observaciones alejadas lo cual no significa que sean observaciones influyentes. Que una observacin sea atpica no conlleva necesariamente que sea influyente. Observaciones influyentes son aquellas que tienen un peso muy grande en los coeficientes del modelo. Se sabe si una observacin (sujeto) es influyente comparando las estimaciones obtenidas cuando se le incluye en la muestra con las obtenidas cuando se le excluye. Varios son los estadsticos que miden la influencia de cada sujeto sobre los estadsticos. Nosotros hemos seleccionado las siguientes:

a) Distancia de Mahalanobis es una medida de influencia a priori: mide la distancia de cada caso respecto a las medias de las variables predictoras. En regresin simple es el cuadrado de la puntuacin tpica de cada caso. No debe superar al valor de chi-cuadrado para k grados de libertad y un nivel de significacin de 0,001.b) La distancia de Cook es una medida de influencia a posteriori. La influencia se mide por la diferencia en los coeficientes de la ecuacin calculados con la muestra completa y con la muestra menos la observacin en cuestin. Valores de D mayores que 1 o mayores que F para un = .50 y con k+ l y N- k- 1 grados de libertad se pueden considerar influyentes.

c) Valores de influencia: miden el impacto a priori de cada caso. Como regla general valores menores que 0,2 se consideran poco influyentes, entre 0,2 y 0,5 son arriesgados los valores superiores a 0,5 indican influencia. Creemos que con estas nuevas variables obtendremos informacin suficiente para evaluar casos atpicos y/o influyentes.

Pulsando en el botn Estadsticos se accede al cuadro de dilogo mostrado en la Figura 4. En dicho cuadro, por defecto, aparecen marcadas las opciones Estimaciones y Ajuste del modelo. Estas opciones son las que nos han proporcionado las tablas Variables introducidas/eliminadas, Resumen del modelo, ANOVA, coeficientes que hemos comentado antes. Del resto de opciones que nos proporciona el cuadro Estadsticos, para nuestros propsitos en esta prctica, no marcaremos ninguna.

Figura 4.Pulsando en el botn Grficos accedemos al siguiente cuadro de dilogo:

Por defecto en el cuadro anterior no hay ninguna opcin seleccionada. Sin embargo, nos parece muy til realizar el grfico de dispersin de los residuos estandarizados frente a las puntuaciones ajustadas estandarizadas (pronsticos estandarizados). Estos grficos de residuos frente a puntuaciones ajustadas son los que proporcionan ms informacin acerca del cumplimiento de los supuestos del modelo y juegan un papel fundamental en la identificacin de valores alejados e influyentes.

Adems del grfico de dispersin, hemos seleccionado el Histograma y el Grfico de Prob. Normal. Estos grficos nos permiten, mediante inspeccin visual, valorar el cumplimiento del supuesto de normalidad en los residuos. No obstante, se puede realizar una prueba de significacin que elimine la ambigedad inherente a la inspeccin visual.

Con las opciones marcadas en los cuadros Guardar y Grficos adems de las tablas ya comentadas se obtiene la siguiente informacin. Resultados

Descripcin de las tablas y grficos obtenidos con las opciones marcadas en los cuadros Guardar y Grficos de Regresin Lineal

La tabla Estadsticos sobre los residuos(a) nos ofrece informacin del rango, tendencia central y dispersin de las variables que hemos creado con objeto de identificar casos alejados y/o influyentes. No es necesario para saber si hay casos atpicos o influyente listar todos esos valores. Es suficiente con evaluar si el valor mximo y/o mnimo de las medidas de alejamiento o influencia superan los umbrales establecidos. En tal caso conviene realizar un histograma, un grfico de puntos o un grfico de dispersin colocando el nmero del caso (filas de la matriz de datos) en el eje de abscisas y las medidas de alejamiento o de influencia en el eje de ordenadas. En nuestro no parece que haya ningn caso claramente influyente.

Los grficos Histograma y grfico P-P normal de regresin nos permiten valorar el alejamiento del supuesto de normalidad. Comparando la curva normal con la distribucin emprica en el histograma y evaluando el alejamiento de los puntos representados en el segundo grfico con respecto a la diagonal. Podemos concluir que no existen grandes desviaciones de la curva normal. No obstante, para ser ms precisos se puede utilizar la prueba de Kolmogorov del men de pruebas no paramtricas para evaluar este supuesto.

Por ltimo el grfico ms valioso para evaluar incumplimientos de los supuestos: el grfico de dispersin de residuos frente a puntuaciones ajustadas. Con este grfico podemos evaluar errores en la especificacin del modelo por incumplimiento del supuesto de linealidad. En la medida en que aparezcan tendencias curvilneas en el grfico, el modelo utilizado sera incorrecto. Podemos tambin a partir de este grfico evaluar el supuesto de homocedasticidad (igualdad de varianzas). Si queremos ser ms precisos en la evaluacin del supuesto de homocedasticidad podemos representar los errores al cuadrado frente a puntuaciones ajustadas, calcular la correlacin de los valores absolutos de los errores con la puntuaciones ajustadas o bien realizar una prueba de Levene previa divisin de los residuos en dos grupos en funcin de un valor (puede ser la mediana) de la variable predictora. En nuestro caso no se observan ni curvaturas que hagan sospechar que el supuesto de linealidad es incorrecto ni incrementos o decrementos grandes de variabilidad. En consecuencia podemos considerar validas las conclusiones obtenidas del modelo de regresin utilizado para estudiar la relacin entre estrs y competencia.

EMBED Equation.COEE2

X

Y

0,276

1-0,276

_1206725931.unknown

_1206894068.unknown

_1206896998.unknown

_1206903425.unknown

_1206894512.unknown

_1206892485.unknown

_1206892035.unknown

_1206725010.unknown

regressão linear

Documents