pruebas psicometricas, confiabilidad y validez

Psicometria: Tests Psicomtricos,Confiabilidad y Validez

Jaime Aliaga Tovar

En las ciencias fcticas se miden las caractersticas de losobjetos que estudian. La psicologa es una ciencia fctica y paramedir los atributos o caractersticas psicolgicas del ser humanoutiliza como instrumentos a los tests. Estos pueden ser testsproyectivos o tests psicomtricos. Los tests psicomtricos son losque utilizan el concepto de medicin y tienen su fundamento en lapsicometra. El primer test psicomtrico fue la Escala Mtrica de laInteligencia creada por los franceses Binet y Simon (1905), con laque se introdujo en psicologa el concepto de edad mental. Uniendoeste concepto con el de edad cronolgica, el psiclogo alemnWilliam Stern (1912) cre el concepto de Cociente Intelectual o CI.Por otro lado, el Cuestionario de Datos de Personalidad de Robert S.Woodsworth (1916) es reconocido como el primer test depersonalidad. Desde las primeras dcadas del pasado siglo los testspsicomtricos han sido construidos siguindose el enfoque de laTeora Clsica de los Tests, creada por el psiclogo ingls CharlesSpearman en la segunda dcada del siglo XX; en las tres ltimasdcadas del mismo siglo apareci otro enfoque para la construccinde tests que ha sido llamado Teora de Respuesta al tem (TRI), perotodava hay pocos tests basados en esta teora. Los testspsicomtricos han tenido un gran avance relacionado con los avancesde la psicometra que es la rama de la psicologa que se ocupa de lasmediciones mentales. Tests psicomtricos son por ejemplo la Escalade Inteligencia para Adultos de Wechsler (WAIS) y su contrapartepara nios (WISC), del mismo autor; otro test de reconocidoprestigio es el Test de Matrices Progresivas de Raven; por otro lado,en personalidad, tests psicomtricos son, por ejemplo, el InventarioMultifsico de la Personalidad de Minnesotta (MMPI), el

Psicometra86

Cuestionario 16PF de Cattell y el Inventario de la Personalidad deEysenck (EPI).

ENFOQUE ACTUAL

El enfoque actual sobre los tests psicomtricos lo haremosempezando por la conceptualizacin de la psicometra hasta llegar auna breve descripcin de la teora de la respuesta al tem (TRI),tratando de paso otros conceptos bsicos necesarios para comprenderla realidad de los tests psicomtricos.

Psicometra

Una disciplina de la psicologa cuya finalidad intrnseca es la deaportar soluciones al problema de la medida en cualquier proceso deinvestigacin psicolgica.

Tambin es un campo metodolgico que incluye teoras,mtodos y usos de la medicin psicolgica, en que se incluyen aspectosmeramente tericos y otros de carcter ms prctico.

La perspectiva terica incluye las teoras que tratan de lasmedidas en psicologa, encargndose de describirlas, categorizarlas,evaluar su utilidad y precisin, as como la bsqueda de nuevosmtodos, teoras y modelos matemticos que permitan mejoresinstrumentos de medida.

La perspectiva prctica se ocupa tanto de aportar instrumentosadecuados para conseguir buenas medidas como de los usos que de losmismos se puedan realizar. Estos instrumentos son los testspsicomtricos.

Finalmente, la psicometra se distingue por el uso del lenguajeformal y estructurado de las matemticas.

Medicin

En la psicologa, la educacin y las ciencias sociales se tratade medir aspectos que no son fsicos ni directamente observables. Lamedicin segn Nunnally (1987) consiste en reglas para laasignacin de nmeros a objetos en tal forma que representencantidades de atributos. La palabra objeto se usa en un sentidoamplio e incluye personas. En psicologa, medir es dar la magnitudde cierta propiedad o atributo, por ejemplo, la inteligencia, la

Jaime Aliaga 87

extraversin, el razonamiento verbal, de una o ms personas, conayuda del sistema numrico.

Los tests psicomtricos son los instrumentos que se utilizan enpsicologa para la medicin de los atributos psicolgicos. Esconveniente sealar que:

Test psicomtrico

El test psicomtrico es un procedimiento estandarizadocompuesto por temes seleccionados y organizados, concebidos paraprovocar en el individuo ciertas reacciones registrables; reaccionesde toda naturaleza en cuanto a su complejidad, duracin, forma,expresin y significado (Rey, 1973).

Requisitos de un test psicomtrico

Para que un test sea llamado test psicomtrico debe cumplirvarios requisitos:

a) El contenido y la dificultad de los temes estnsistemticamente controlados (construccin del test).

b) La situacin de aplicacin del test: el ambiente en el cual sele administra, el material del test, la administracin, debe estar biendefinida y debe ser reproducida idnticamente para todos los sujetosexaminados con el test.

c) El registro del comportamiento provocado en el sujetoexaminado debe ser preciso y objetivo. Las condiciones de cmohacer este registro deben estar bien definidas y deben ser cumplidasrigurosamente.

d) El comportamiento registrado debe ser evaluadoestadsticamente con respecto al de un grupo de individuos llamadogrupo de referencia o normativo.

e) Los sujetos examinados son clasificados en funcin denormas resultantes del examen previo del grupo de referencia onormativo (baremo), lo que permite situar cada una de las respuestas,totales o parciales, en una distribucin estadstica (contraste).

f) Las respuestas a las cuestiones planteadas dan una medidacorrecta del comportamiento al que el test apunta (validez).

Psicometra88

g) Si las condiciones no cambian, la repeticin del examendebe conducir siempre al mismo resultado, o a otro muy prximo(fiabilidad) (Pichot, 1996).

Estandarizacin

Se llama as al proceso mediante el cual se establecenprocedimientos unvocos para la aplicacin, calificacin einterpretacin de un test psicomtrico (Cronbach, 1972).

Cuando las condiciones de administracin y calificacin deltest psicomtrico estn bien definidas y su utilizacin es idntica entodos los sujetos examinados, entonces el aspecto ms importanteque queda por resolver es la interpretacin de las puntuacioneslogradas por los sujetos evaluados. Esta interpretacin se realizacomparando el puntaje obtenido por el sujeto con las puntuacionescontenidas en el baremo o tablas de normas.

Interpretacin de los puntajes de un testpsicomtrico estandarizado

Los nmeros que arrojan la medicin de un atributopsicolgico realizada con un test psicomtrico se denominanpuntajes o calificaciones directas. Estos puntajes en s mismos notienen un significado preciso, adquieren un significado psicomtricocuando se les compara con una tabla de normas o baremo, que hasido previamente construida con las puntuaciones que en el test hanobtenido un grupo de sujetos llamado grupo normativo. Al realizaresta comparacin se puede hacer la clasificacin de los sujetosexaminados con lo cual se llega a cumplir la finalidad del test, que esclasificar a los sujetos examinados.

Los puntajes directos se transforman en varios tipos depuntajes derivados o unidades de medicin que se presentan en lastablas de normas o baremos.

Un baremo es una tabla que sistematiza las normas(afirmacin estadstica del desempeo del grupo normativo en el testpsicomtrico) que trasforman los puntajes directos en puntajesderivados que son interpretables estadsticamente. Puntajesderivados son los siguientes: a) percentiles, puntaje derivado quetranforma el puntaje directo en una escala del 1al 100, llamndosecada uno de los puntos un centil. Un examinado que tiene un puntaje

Jaime Aliaga 89

directo equivalente al percentil 80, se dice que supera al 80% delgrupo normativo en el aspecto evaluado; b) puntajes estndar, queson aquellos que tienen como unidad a fracciones de la desviacinestndar, ejemplos: el puntaje CI, el puntaje eneatipo (escala del 1 al9), el puntaje decatipo (escala del 1 al 10), entre otros. Tambin esun puntaje derivado la edad mental.

Clasificacin de los tests psicomtricos

Hay varias clasificaciones. Presentamos la siguienteclasificacin:

Criterio Clasificacin

* Por su forma de dar lasinstrucciones

*Orales*Escritos (aunque en algunos casos hay queejemplificar lo que se quiere que el sujetorealice en la tarea, como en el caso depersonas con problemas auditivos)

* Por su administracin * Individual* Colectiva* Autoadministrada

* Por la forma o tipo derespuesta que exigen

* Objetivas* Subjetivas

* Por el material de la prueba * Lpiz y papel* Verbal completamente* De ejecucin (material, manual, visomotor)* De aparatos especiales* Combinacin de los tres primeros (Ej.:WAIS)

*Por su forma de calificacin * Manual* Electrnica

* Por sus edades lmites de aplicacin

* Pruebas para infantes (baby test)* Pruebas para preescolares* Pruebas para escolares* Pruebas para adolescentes* Pruebas para adultos

*Por su libertad de ejecucin * Pruebas de poder (power test) Pruebas de rapidez (speedy test)

Psicometra90

En los test psicomtricos utilizados en educacin ha aparecidoen los ltimos aos un tipo de test denominados Test relacionadoscon los criterios, que siendo psicomtricos defieren de los otros testsque utilizan el concepto de norma fundamentado en la distribucinnormal o curva de Gauss. En un test relacionado con el criterio elexaminador fija un puntaje que determinara a los aprobados de losdesaprobados en un examen. Por ejemplo, puede fijar que de 20preguntas presentadas ser aprobado el alumno que respondacorrectamente a 18 de las preguntas.

El test psicomtrico como auxiliar para una mejortoma de decisiones por parte del psiclogo

En su labor cotidiana el psiclogo debe tomar variadasdecisiones, el test psicomtrico puede auxiliarle para hacer una mejorpara toma de decisiones en los siguientes campos:

- En la seleccin, la decisin consiste, por ejemplo, en aceptaro rechazar a un postulante o solicitante.

- En la clasificacin, la decisin es tomar el curso alternativode accin que se debe instigar.

- En el diagnstico, la decisin se hace respecto al tipo detratamiento pedaggico, psicopedaggico o psicolgico a seguir.

- En la investigacin, se utilizan para tomar decisiones acercade la elaboracin de hiptesis, exactitud en la formulacin terica,recoleccin de la informacin necesaria.

- En la evaluacin, ayudan en la decisin de otorgar, porejemplo, la calificacin que se merece un alumno o el punto hasta elcual un determinado procedimiento es o no eficiente (Brown, 1980).

Limitaciones en el uso de un test psicomtrico

Un test psicomtrico puede presentar las siguienteslimitaciones en su uso:

1) Una prueba o test debe emplearse solamente para apreciarlos aspectos para las cuales se ha elaborado.

2) Las normas (baremo) de una prueba no tienen validezuniversal. Slo son vlidas si los individuos que toman el test poseencaractersticas similares a las de los sujetos que formaron la muestraque sirvi para obtener dichas normas.

Jaime Aliaga 91

3) Se deben construir normas para los grupos en los cuales seusar el test, si esos grupos difieren de aquellos en los cuales sehicieron los baremos que aparecen en el manual de la prueba.

4) Un test aprecia la funcin medida tal como se dan en elindividuo en el momento de aplicacin de la prueba. Si lascondiciones que influyen sobre el individuo se modifican, existe laposibilidad de que tales cambios influyan en los puntajes resultantesdel test.

5) Los resultados de un test no deben emplearse paradiagnosticar per se estados patolgicos. Deben considerarse comoelementos de informacin que juiciosamente analizados e integradoscon otros elementos de informacin ayudarn al diagnstico.

6) Categoras descriptivas (inteligencia muy superior,superior, etc.) slo deben utilizarse para los tests cuyos puntajes ledieron origen. Por ejemplo, la tabla de categoras del WAIS slodebe ser utilizada con este test y no con otro (Anastasi, 1982).

Secciones o partes de un test psicomtrico

Un test psicomtrico tiene generalmente las siguientessecciones o partes:

1. El test propiamente dicho.2. El manual del test. Documento que contiene los siguientes

captulos o partes:a) Exposicin de los objetivos de la prueba (qu mide).

Generalmente empieza con un resumen mostrado en la FICHATCNICA.

b) Descripcin de las caractersticas estructurales del test (suspartes y componentes).

c) Informacin acerca del proceso de estandarizacin otipificacin.

d) Instrucciones generales sobre la manera de aplicar oadministrar la prueba y del tipo de poblacin en la cual es aplicable.

e) Descripcin del material de examen propiamente dicho alas instrucciones detalladas para la aplicacin del test o de cada unode los subtests.

f) Instrucciones para las valoraciones (calificacin) de lasrespuestas obtenidas en cada uno de los subtests.

Psicometra92

g) Informacin estadstica y psicomtrica acerca de laspropiedades de la prueba como instrumento de medida, vale decir,confiabilidad y validez.

h) Tablas de normas o baremos con los puntajes directos yconvertidos para los diferentes grupos de edades y poblaciones(poblaciones de referencia y grupos normativos adecuadamentedescritos).

Los puntajes convertidos son, usualmente, los percentiles ylos puntajes estndar (Cronbach, 1972).

Cualidades que debe tener un test psicomtrico

Confiabilidad

La confiabilidad (o consistencia) de un test es la precisin conque el test mide lo que mide, en una poblacin determinada y en lascondiciones normales de aplicacin. (Anastasi, 1982; Aiken, 1995).(Las condiciones normales de aplicacin se refieren a lascondiciones especificadas en el manual del test).

La falta de confiabilidad de un test psicomtrico esta enrelacin con la intervencin del error. Se considera que el error escualquier efecto irrelevante para los fines o resultados de la medicinque influye sobre la falta de confiabilidad de tal medicin. El error esde dos tipos: a) Error constante (sistemtico), que se produce cuandolas mediciones que se obtienen con una escala son sistemticamentemayores o menores que lo que realmente deben ser. b) Error causal(al azar o no sistemtico), que se produce cuando las medidas sonalternativamente mayores o menores de lo que realmente deben ser.Este ltimo tipo de error interviene cuando se afecta la confiabilidadde un test psicomtrico. Este error tiene que ver con la salud, fatiga,motivacin, tensin emocional, fluctuaciones de la memoria,condiciones externas de luz, humedad, ventilacin, calor, distraccinpor problemas del momento, familiaridad con la prueba, quepresenta el examinado al momento de dar el test (Rey, 1972; Brown,1982).Cmo se presenta la confiabilidad de un test psicomtrico? Laconfiabilidad se presenta por medio del coeficiente de confiabilidad(rxx) y del error estndar de medida (EEM).

Jaime Aliaga 93

A) Coeficiente de confiabilidadEs un coeficiente de correlacin entre dos grupos de puntajes

e indica el grado en que los individuos mantienen sus posicionesdentro de un grupo. Abarca valores desde 0 a 1. Cuanto ms seacerque el coeficiente a 1, ms confiable ser la prueba.

El coeficiente de confiabilidad seala la cuanta en que lasmedidas del test estn libres de errores casuales o no sistemticos.Por ejemplo, un coeficiente de 0.95 quiere decir que en la muestra ycondiciones fijadas de aplicacin del test el 95% de la varianza delos puntajes directos se debe a la autntica medida, y slo el 5%, aerrores aleatorios.

Existen cuatro mtodos bsicos para obtener el coeficiente deconfiabilidad (rxx): Mtodo de las formas equivalentes; mtodo deltest-retest; mtodo de la divisin por mitades emparejadas o "splithalf method"; y mtodo de la equivalencia racional o de Kuder-Richardson.

a) Mtodo de las formas equivalentes: Se aplican dos formasequivalentes o paralelas del test al mismo grupo de individuos, y lasdos series de puntajes resultantes se correlacionan con el coeficienteproducto de los momentos de Pearson (r).

b) Mtodo del test-retest: Se aplica dos veces el mismo test (ellapso entre las aplicaciones se determina previamente), a una mismamuestra de individuos. Las dos series de puntajes resultantes secorrelacionan con el coeficiente de correlacin "r" de Pearson.

c) Mtodo de la divisin por mitades emparejadas o "split halfmethod": Se aplica el test una sola vez a una muestra. Luego, secalifica por separado los temes pares (2, 4, 6, ..., n) y los temesimpares (1, 3, 5, ..., n). A continuacin, las dos series de puntajesresultantes se correlacionan con el coeficiente "r" de Pearson, peropor haberse dividido el test en dos partes (temes pares e temesimpares), el "r" resultante debe ser "corregido" para arrojar el "r"para todo el test. Esta correccin se efecta con la frmula deprofeca de Spearman-Brown:

d) Mtodo de la equivalencia racional: En este mtodo seconsidera que si un test esta formado por un conjunto de temes estospueden ser considerados como un conjunto de tests paralelos (tantoscomo temes tenga el test). Luego se deriva una ecuacin paracomputar el coeficiente de confiabilidad. Kuder y Richardsonderivaron varias frmulas para el clculo del coeficiente de

Psicometra94

confiabilidad, son las ms conocidas la KR20 y la KR21. Actualmente,un coeficiente ms utilizado es el coeficiente alfa de Cronbach(1972; Anastasi, 1982; Aiken, 1995).

B) Error estndar de medidaPor medio de este error estndar de medida se estima el

intervalo probable de puntajes en el cual se encontrar el puntajeverdadero de un sujeto examinado con un test psicomtrico.

El error estndar de medida (EEM) se obtiene a travs de lasiguiente frmula:

EEM = xxrs -1Donde:s = Desviacin estndar de los puntajes de la distribucin.rxx = Coeficiente de confiabilidad del test.1 = Constante.Obtenido el EEM, debemos escoger el nivel de confianza:- Nivel de confianza del 68% = PD 1 EEM.- Nivel de confianza del 95% = PD 2 EEM.Para el nivel de confianza del 68% la interpretacin es la

siguiente: "Podemos concluir, con un 68% de confianza, que elpuntaje verdadero de un sujeto est en la zona o intervalocomprendido entre su puntaje directo u obtenido (PD) y 1 EEM".

El nivel de confianza ms usado en psicometra es el del 95%:"el puntaje verdadero de un sujeto se encontrara en el intervalocomprendido entre su puntaje obtenido o directo (PD) y 2 EEM".

Validez

Si tenemos una prueba X nos equivocaramos al creer quesu titulo nos dice lo que la prueba mide, pues cualquier personapuede reunir un conjunto de reactivos y esperar a obtener unamedida, por ejemplo, de razonamiento numrico o de las estrategiasde aprendizaje. La averiguacin de lo que la prueba mide noresponde a la pregunta cmo llama el autor a la prueba?, sino msbien a qu hacen referencia los puntajes obtenidos en esta?, esvlido el uso o la interpretacin de las puntuaciones de este test?,qu generalizaciones se pueden hacer apropiadamente a partir de lapuntuacin en esta prueba? (Thorndike, 1989). En esencia, eltrasfondo de estas preguntas es determinar cules son los procesosmentales que pone en juego el test. Ahora bien, el responder a las

Jaime Aliaga 95

citadas interrogantes necesita de una indagacin larga y complejaque en psicometra se denomina proceso de validacin.

a) Distincin entre la validez y la confiabilidad segn elerror. La distincin entre confiabilidad y validez se basa en lo queconsideramos como error. En la validez interesan los erroresconstantes o sistemticos y en la confiabilidad los errores aleatorioso no sistemticos. El siguiente ejemplo nos permitir precisar ladiferencia entre ambos tipos de error: Supongamos que un reloj esadelantado 20 minutos. Si se trata de un buen cronometro el tiempoque marca ser confiable (es decir consecuente), pero no ser validoen comparacin con el tiempo estndar (hora GMT).

b) Definicin de validez. En trminos estadsticos la validezse define como la proporcin de la varianza verdadera que esrelevante para los fines del examen. Con el trmino relevante nosreferimos a lo que es atribuible a la variable, caractersticas odimensin que mide la prueba.

En este sentido, generalmente la validez de un test se defineya sea por medio de (1) la relacin entre sus puntuaciones con algunamedida de criterio externo, o bien (2) la extensin con la que laprueba mide un rasgo subyacente especfico hipottico oconstructo.

En trminos psicomtricos, la validez es un concepto que hapasado por un largo proceso evolutivo, desde aquella posicin quesostena que un test es vlido para aquello con lo que correlaciona(Guilford, 1946, citado en Muiz, 1996, p. 52), hasta la ms recienteque la entiende como un juicio evaluativo global en que la evidenciaemprica y los supuestos tericos respaldan la suficiencia y loapropiado de las interpretaciones y acciones en base a los puntajes delas pruebas, que son funcin no slo de los temes sino tambin de laforma de responder de las personas as como del contexto de laevaluacin.

Es decir, lo que se valida no es la prueba sino las inferenciashechas a partir de la misma, lo que tiene dos importantesconsecuencias: a) el responsable de la validez de una prueba ya no essolo su constructor sino tambin el usuario, y b) la validez de unaprueba no se establece de una vez por todas sino que es resultado delacopio de evidencias y supuestos tericos que se dan en un procesoevolutivo y continuo que comprende todas las cuestiones

Psicometra96

experimentales, estadsticas y filosficas por medio de las cuales seevalan las hiptesis y teoras cientficas (Messick, 1995).

En este contexto, el concepto validez refiere a la adecuacin,significado y utilidad de las inferencias especficas hechas con laspuntuaciones del los tests. La validacin de un test es el proceso deacumular evidencia para apoyar tales inferencias. Una variedad deevidencias pueden obtenerse de las puntuaciones producidas por untest dado, y hay muchas formas de acumular evidencia para apoyaruna inferencia especfica. La validez, sin embargo, es un procesounitario. Aunque la evidencia puede ser acumulada de muchasformas, la validez se refiere siempre al grado en que esa evidenciaapoya las inferencias que se hacen a partir de las puntuaciones(APA, AERA, NCME, 1985, citado en Gmez e Hidalgo, 2002, p.2). La validez no se puede resumir en un solo indicador o ndicenumrico, al igual que ocurre con la confiabilidad (p.e., elcoeficiente de confiabilidad), sino que la validez de las puntuacionesde un test se asegura mediante la acumulacin de evidencia terica,estadstica, emprica y conceptual del uso de las puntuaciones.

c) Tipos de evidencia. En 1954 un comit presidido por L. J.Cronbach estableci por encargo de la Asociacin de PsicologaAmericana (APA), que la validez era de cuatro tipos: validez decontenido, validez predictiva, validez concurrente y validez deconstructo. Actualmente se coincide, desde el punto de vistacientfico, que la nica validez admisible es la validez de constructo(Messick, 1995). Validacin que ha de hacerse en un marco terico,pues se trata en ltima instancia de confirmar o explicar lasinferencias que se hagan de los puntajes.

La validez de constructo esta referida al grado en que cadaprueba refleja el constructo que dice medir, elaborndoseoperativamente cuando el usuario desea hacer inferencias acerca deconductas o atributos que pueden agruparse bajo la etiqueta de unconstructo particular. Su lgica en muchos aspectos as como en susmtodos, es esencialmente la del mtodo cientfico, pudiendo versecomo la elaboracin de una miniteora acerca de una prueba(Kline, 1985) cuyas hiptesis deben someterse a contraste conevidencias que provengan de diferentes fuentes como la de los tiposde validez propuestos por Cronbach, entendidas como estrategias devalidacin, en vista que cada tipo de inferencia requerir una

Jaime Aliaga 97

estrategia distinta para la obtencin de las evidencias (Vidal, 1996,en Muiz, 1996).

En el estudio de la validez de constructo estas evidenciasestn relacionadas a cinco aspectos: a) Contenido (relevancia yrepresentatividad del test); b) Sustantivo (razones tericas de laconsistencia observada de las respuestas); c) Estructural(configuracin interna del test y dimensionalidad); d)Generalizacin (grado en que las inferencias hechas a partir del testse pueden generalizar a otras poblaciones, situaciones o tareas); e)Externo (relaciones del test con otros tests y constructos); f)Consecuencia (consecuencias ticas y sociales del test) (Messick,1995).

d Categoras de la validez. La validez empieza aconsiderarse como el grado en que cada test refleja el constructo quedice medir y que las relaciones entre tests que miden distintosconstructos reflejan las relaciones hipotetizadas entre ellos. En estesentido, al estimarse que la validez de un test es la validez deconstructo la que ha de hacerse en un marco terico, ya no se tiendea hablar de tipos de validez sino de categoras o estrategias devalidacin comprendiendo stas a los tipos tradicionales de validez:validez de contenido, validez emprica y validez de constructo. Sitenemos en cuenta que lo que se valida no es el test sino lasinferencias hechas a partir del mismo, cada tipo de inferenciarequerir una estrategia distinta. (Vidal, 1996, en Muiz, 1996).

(1) Validez de Contenido (evidencia del contenido).- Lostems que constituyen el test son realmente una muestrarepresentativa del dominio de contenido o dominio conductual quenos interesa?

Es conveniente precisar que un dominio o campo conductuales una agrupacin hipottica de todos los reactivos posibles quecubren un rea psicolgica particular. Al hablar de este conjunto dereactivos posibles, se emplean los trminos de dominio, universo opoblacin conductual como sinnimos. Por ejemplo: Un test devocabulario debe ser una muestra adecuada del dominio o universode tems posibles en esta rea.

La validez de contenido consiste en determinar lo adecuadodel muestreo de reactivos del universo de reactivos posibles; en estesentido, es una medida de lo adecuado del muestreo. Ponemosmedida entre comillas debido a que este tipo de validez consiste en

Psicometra98

una serie de estimaciones u opiniones, que no proporcionan unndice cuantitativo de validez (para su obtencin no se utilizaprocedimientos estadsticos). Este tipo de validez se asociafundamentalmente a los tests de aprovechamiento o rendimiento (testde matemtica, historia, etctera); aunque no existen razones paraque no pueda aplicarse a los otros tipos de pruebas psicolgicas(pruebas de aptitudes, habilidades, etctera).

Para su determinacin se compara sistemticamente losreactivos del test con el dominio conductual del contenido postulado.Por ejemplo: si tenemos una lista de 500 palabras que esperamos quelos estudiantes de un curso sean capaces de escribirlas correctamenteal final de este, su performance o rendimiento respecto a estaspalabras ser importante solamente en tanto que proporciona unaprueba de su habilidad para escribir correctamente las 500 palabras.El test que construyamos tendr una muestra de las 500 palabras,pero slo tendr validez de contenido en la medida en queproporcione una muestra adecuada de las 500 palabras querepresente. Si seleccionamos solamente palabras fciles o difciles, opalabras que representen nicamente ciertos tipos de faltas comunesde ortografa, estaramos propensos a obtener una validez decontenido muy baja. En consecuencia, el aspecto clave en la validezde contenido es el muestreo de los reactivos. En otras palabras, lavalidez de contenido es cuestin de determinar si la muestra de susreactivos es representativa del universo o dominio conductual detems al que supuestamente representa.

Para hacer esta determinacin se recurre a jueces (oexpertos, generalmente en nmero impar). El proceso es bsicamentelgico y racional, los distintos jueces pueden no estar de acuerdo enla validez de contenido de un test; por ejemplo, la falta de claridad enla especificidad del dominio conductual, har que resulten difcileslos juicios de validez de contenido. Existen algunos ndicesestadsticos para valorar el grado de acuerdo de los jueces en torno alos reactivos, por ejemplo el coeficiente V de Aiken.

Un procedimiento para que el proceso de enjuiciamiento delos reactivos sea lo ms objetivo posible, es el siguiente:

- El constructor de la prueba:* Define especficamente el dominio del contenido por medio

de una descripcin que lo debe delimitar claramente.

Jaime Aliaga 99

* Define, si fuera necesario, subcategoras importantes deldominio, especificando esta importancia en trminos porcentuales.

- Los jueces:* Determinan si los reactivos sometidos a su consideracin

pertenecen o no al dominio definido as como tambin si, tomados enconjunto, tienen una proporcin adecuada.

* Tambin enjuician la bondad de la redaccin de loselementos.

Es usual considerar en los tests de aprovechamiento escolar aeste tipo de validez como un concepto similar al de validezcurricular. Por otro lado, es necesario diferenciar la validez decontenido de la llamada validez de facie. Esta ltima se da cuando serevisa superficialmente los reactivos y se consideran que los temsparece que miden lo que se supone tienen que medir. Esta validezpuede ser una consideracin importante a tener en cuenta, si laapariencia de los tems influye en la motivacin del sujeto. Porejemplo, si en un test para adultos se incluyen reactivos en lenguajey contenido infantil, se dir que este test no tiene validez de facie; elsujeto puede no sentirse motivado a obtener buenos resultados alsentir que la prueba es poco importante para la decisin que se va atomar.

(2) Validez Predictiva (evidencia externa) - Predicen laspuntuaciones del test un rendimiento o conducta futura? (Junto conla validez concurrente se le denomina tambin validez emprica deltest).

Un uso comn de los tests es predecir la conducta futura;utilizamos el test para ayudarnos a tomar alguna decisin prctica(seleccin, clasificacin, etc.). En cada una de estas situaciones,cuanto mayor es la exactitud de prediccin del resultado (es decir delcriterio externo), tanto ms til ser la prueba. Por ejemplo, el testser un componente aceptable de un proceso de seleccin depersonal, si sus calificaciones o puntuaciones predicen la ejecucinde algn componente importante del trabajo (criterio externo); enotras palabras, para que el test se pueda utilizar como parte de unproceso de seleccin es preciso demostrar la validez de la pruebarelacionndola con los criterios pertinentes. En este sentido, elcontenido de la prueba pasa a tener un lugar secundario, siendo elinters fundamental del psiclogo el averiguar si el test predice uncriterio determinado.

Psicometra100

Para este logro es necesario que los criterios externos con loscuales se relacionar las puntuaciones del test sean criterios validos yconfiables.

Un criterio es cualquier desempeo que los sujetos tienen enla vida real, por ejemplo, las medidas de rendimiento acadmico,medidas de rendimiento laboral, clasificaciones psiquitricas,etctera. En muchos casos resulta imposible hallar un criterio noambiguo de un rasgo mental. Por ejemplo, dos psiclogos, Carla yAbel, que investigan el rasgo de aptitud numrica pueden empleardiferentes criterios externos para correlacionar los puntajes del testque han creado. As, Carla puede considerar que el criterio externoms adecuado son las calificaciones que reciben los sujetos en uncurso de mecnica en taller; mientras que Abel puede considerarcomo criterio el periodo de tiempo que gastan los estudiantes enaprender una tarea mecnica y sencilla durante el entrenamiento enun fabrica. Qu sucede si las pruebas que emplean ambospsiclogos correlacionan 0.006 con uno de los criterios, y 0.70 con elotro?, cmo podemos afirmar que la prueba es valida cuandoarrojan resultados de cierta clase?, se trata en verdad de una pruebade aptitud mecnica? En razn a situaciones como esta se llego a laconclusin de que la validacin de un test es un proceso largo y noun hecho aislado. Solamente a travs de estudios de correlacin conuna amplia variedad de criterios podremos comprender que mide laprueba. As, una serie de investigaciones sobre la prueba de actitudmecnica nos puede demostrar que en realidad esta midiendo lahabilidad para realizar movimientos fino y cuidadosamentecontrolados, siendo completamente independiente para comprenderlas reacciones complejas de la piezas mecnicas. De esta manera eltest puede tener una alta correlacin con las calificaciones obtenidasen el taller y ninguna con los trabajos e maquinarias.

En el proceso de validacin, la validez predictiva de un test (ytambin la concurrente) se expresa generalmente por medio de uncoeficiente de correlacin entre los puntajes y los denominadoscriterios. Este coeficiente se denomina coeficiente de validacin. Lainterpretacin de este coeficiente requiere un dominio excelente delanlisis estadstico utilizado para obtenerlo. Despus del criterio, losprocedimientos estadsticos adquieren vital importancia para obteneresta categora de validez. Incluso para un mejor anlisis esconveniente contar con el dispersigrama o scatergrama o nube de

Jaime Aliaga 101

puntos (grfica del coeficiente de correlacin entre las puntuacionesdel test X y las del criterio Y).

(3) Validez Concurrente.- Permiten las puntuaciones deltest la valoracin de ciertos hechos presentes? Para estimarla seadministra el test y se le correlaciona con el criterio. La diferenciacon la validez predictiva se da en dos aspectos: a) las medidas deltest y del criterio son obtenidas contemporneamente, y b) en su usoprincipal. Respecto a esto ltimo, se la utiliza principalmente paraobtener tests como sustitutos de otros procedimientos menosconvenientes por diversas razones. Ejemplos: un test de inteligenciacolectiva se compara con uno de inteligencia individual. Losdiagnsticos de lesiones cerebrales basados en el test de diseos debloques (cubos de Kohs) se comparan con sntomas neurolgicos.

El problema principal de este tipo de validez es encontrartests que sirvan como criterios vlidos y confiables. Anlogamente ala validez predictiva requiere un amplio domino de las tcnicas decorrelacin y de los procedimientos estadsticos que se utilizan en suobtencin. Junto con la validez predictiva es importante en ciertosproblemas de psicologa aplicada como en psicologa clnica,psicologa educacional, psicologa industrial y en general, en la tomade decisiones que debe hacer el psiclogo en situaciones deseleccin, clasificacin, hospitalizacin, etc.

(4) Validez de Constructo.- El constructo viene a ser unconcepto hipottico que forma parte de las teoras que intentanexplicar la conducta humana: inteligencia, creatividad, dependenciade campo, etc. La validez de constructo es la obtencin de evidenciasque apoyan que las conductas observadas en un test son (algunos)indicadores del constructo. Este tipo de validez responde a lapregunta "cmo se puede explicar psicolgicamente la puntuacindel test?". La respuesta a esta pregunta puede verse como laelaboracin de una miniteora acerca de una prueba psicolgica.La lgica de la validez de constructo en muchos aspectos as comoen sus mtodos, es esencialmente la del mtodo cientfico.

El proceso de validacin de constructo implica a partir delestablecimiento de deducciones de la teora:

a) Formular hiptesis y relaciones entre elementos delconstructo, de ste con otros constructos de la teora y con otrosconstructos externos.

Psicometra102

b) Seleccionar temes o tests (indicadores) que representenmanifestaciones concretas del constructo.

c) Recogida de datos. d)Establecer consistencia entre datos e hiptesis, y examinar

el grado en que los datos podran explicarse mediante hiptesisalternativas.

Hay diversos procedimientos para establecer la validez deconstructo. Si elaboramos una miniteora esta tendr tres pasos: (1)en base a la teora sostenida en ese momento respecto del test, elpsiclogo deduce ciertas hiptesis sobre la conducta esperada de laspersonas que obtienen puntajes diferentes en el test, (2) se renedatos que confirman o no esas hiptesis, (3) en base a los datosacumulados, se toma la decisin relativa a si la teora explicaadecuadamente los datos. Si no es as se tiene que revisar la teora yrepetir el proceso hasta lograr una explicacin ms adecuada. Elproceso de validacin, en ese sentido, es de continua reformulacin yrefinamiento.

Al determinar la validez de construccin, el propsito esidentificar todos los factores que influyen en la ejecucin del test ydeterminar el grado que influyen cada uno de ellos.

Ejemplo: Un psiclogo construye un test de ansiedad yelabora una microteora cuya contrastacin le dir si el test tienevalidez de constructo. Las hiptesis a verificar son las siguientes:

1. Los que obtienen puntuaciones elevadas acabarnprobablemente en clnicas psiquitricas en comparacin con aquellosde puntuaciones ms bajas.

2. Ser ms fcil que les receten drogas psicotrpicas a losque tienen altas puntuaciones que a los de bajos puntajes.

3. Los hijos de los de puntuaciones altas tendrn mayoresprobabilidades de tener una puntuacin alta en el test que los hijos dequienes tuvieron puntuaciones bajas.

4. El test de ansiedad se correlacionar alta ysignificativamente (ms all de 0.60) con otros test de ansiedad.

5. El test de ansiedad no se correlacionar con variables queno resulten conexas con la misma.

6. Los grupos psiquitricos caracterizados como ansiososalcanzarn en el test unas puntuaciones ms altas que los del grupocontrol.

Jaime Aliaga 103

7. En el test de ansiedad, los sujetos evaluados porsupervisores y colegas como ansiosos, lograrn mayorespuntuaciones que quienes estn considerados como no ansiosos(Kline, 1985).

Los resultados de los estudios que hagamos realmente novalidan o prueban la teora completa, puesto que nunca se puededemostrar una construccin en forma absoluta; solamente se puedeaceptar como la mejor definicin de trabajo. Si los resultados sonnegativos, hay por lo menos tres interpretaciones posibles: a) laprueba puede no medir el constructo, b) el marco terico puede sererrneo, permitiendo que se hicieran inferencias incorrectas, o bienc) quiz, el diseo del experimento no permita una prueba apropiadade la hiptesis. La falla del diseo suele ser la falla ms fcil dedetectar, pero no siempre se puede hallar con facilidad el lugarexacto de la falla. La interpretacin ambigua de los resultadosnegativos es un inconveniente evidente del procedimiento devalidacin de los constructos (Crombach, 1972; Kline, 1985).

e) Implicaciones prcticas en la validacin de un test. Elpsiclogo que utiliza un test debe tener en cuenta lo siguiente: a)antes de tomar de decisiones sobre individuos o grupos, debeacumular toda la informacin disponible acerca del test; b) para laprediccin o seleccin, el test debe estar validado en la situacinespecfica donde se va utilizar; c) en cualquier situacin, el psiclogodebe tener presente que nuestras ideas sobre la naturaleza de losrasgos y sobre todo lo que miden se modifica constantemente connueva informacin hacer

MTODOS EMPLEADOS PARA ESTIMAR LA VALIDEZDE CONSTRUCCIN

a) Mtodos intrapruebas, cuyas fuentes de evidencia ms usadasson: la validez de contenido de la prueba, el anlisis de los procesospsicolgicos empleados al responderla (p. e., pidiendo que los sujetosrazonen en voz alta sus respuestas). Otras tcnicas estudian la estructurainterna de la prueba, mediante el anlisis de los temes y las correlacionesentre los diferentes subtests; asimismo, tambin mediante el establecimientode la homogeneidad a travs del coeficiente alfa de Cronbach o loscoeficientes de Kuder-Richardson (que contribuyen a evaluar launidimensionalidad del test).

b) Mtodos interpruebas: Utilizan las tcnicas del anlisis factorial(para evaluar los factores que subyacen en las intercorrelaciones de las

Psicometra104

pruebas estudiadas), la validez congruente (en tanto correlaciona lospuntajes de la prueba con los puntajes obtenidos en otra prueba de validez yaestablecida), los estudios de validez convergente y divergente-discriminante (propuestos por Campbell).

c) El mtodo de los estudios relacionados con los criterios: Queimplican la diferenciacin de grupos (evaluando la capacidad de la pruebapara poder diferenciar dos o ms grupos naturalmente separados o diseadosexperimentalmente) y los coeficientes de validez (cuando la prueba esaplicada a un grupo de sujetos en los que se estudian criterios relacionadoscon el constructo terico estudiado).

d) El mtodo de la manipulacin experimental: Se manipulaexperimentalmente una variable y se observa sus efectos sobre los puntajesde una prueba psicolgica o la relacin de estos puntajes con algn criterio.

e) El mtodo de los estudios de la capacidad de generalizacin:Estos estudios analizan sistemticamente la prueba psicolgica en unaamplia gama de dimensiones o en condiciones diferentes de administracin(p. e., la matriz multirasgo-multimtodo propuesta por Campbell y Fiske).

Teora de respuesta al tem (TRI)

Llamada tambin Teora del Rasgo Latente, es un modeloprobabilstico que permite conocer la informacin proporcionada porcada tem, y as crear tests individualizados, es decir, a medida. Esun modelo complejo que se ha popularizado como modelo de Rasch(1980) (aunque especficamente el modelo de Rasch es un parmetrode la dificultad del tem), pero existe tambin el modelo de dosparmetros, que tiene en cuenta tambin la discriminacin opendiente de la curva, y el de tres parmetros que tiene en cuenta elfactor azar en la respuesta a temes de alternativas mltiples (Cortadade Kohan, 1999). La diferencia principal entre el modelo de laTeora Clsica de los Test y este modelo es que la relacin entre elpuntaje observado y el rasgo o la aptitud en la teora clsica es detipo lineal (PD = PV + e: puntaje directo del sujeto es igual a supuntaje verdadero ms el error); mientras que en los diversosmodelos de la TRI las relaciones son funciones de tipo exponencial,principalmente logsticos.

Los postulados bsicos de la TRI son:1) El resultado de un examinado en un tem puede ser

explicado por un conjunto de factores llamados rasgos o aptitudessimbolizados por q.

Jaime Aliaga 105

2) La relacin entre la respuesta a un tem y el rasgo latente sedescribe como una funcin monotnica creciente que es la curvacaracterstica del tem.

3) En la TRI los parmetros de aptitud y de los temes soninvariantes.

Los supuestos de la TRI son:1) La unidimensionalidad del rasgo latente, es decir, que los

temes de un test deben medir una sola aptitud o rasgo; y2) La independencia, es decir, que las respuestas de un

examinado a cualquier par de temes son independientes.Para estimar los parmetros de la TRI se usa el mtodo de

mxima verosimilitud, que es un proceso complejo que se logra conlos softwares apropiados como BILOG, BICAL, y otros. (Cortada deKohan, 1998).

CONCLUSIONES

1) La psicometra es una disciplina de la psicologa cuyafinalidad intrnseca es la de aportar soluciones al problema de la medidaen cualquier proceso de investigacin psicolgica; constituye, por ello,un campo metodolgico que incluye teoras, mtodos y usos de lamedicin psicolgica, tanto a nivel terico como a nivel prctico.

2) En psicologa, medir es dar la magnitud de cierta propiedado atributo, por ejemplo, la inteligencia, la extraversin, elrazonamiento verbal, de una o ms personas, con ayuda del sistemanumrico.

3) El test psicomtrico es un procedimiento estandarizadocompuesto por temes seleccionados y organizados, concebidos paraprovocar en el individuo ciertas reacciones registrables; reaccionesde toda naturaleza en cuanto a su complejidad, duracin, forma,expresin y significado.

4) Los requisitos de un test psicomtrico son: Construccindel test; la situacin de aplicacin del test; el registro delcomportamiento provocado en el sujeto examinado, que debe serpreciso y objetivo; el comportamiento registrado evaluadoestadsticamente con respecto a un grupo de individuos denominadogrupo de referencia o grupo normativo; clasificacin de los sujetosexaminados en funcin de normas resultantes del examen previo delgrupo de referencia o normativo (baremo), lo que permite situar cada

Psicometra106

una de las respuestas, en una distribucin estadstica (contraste);.lasrespuestas a las cuestiones planteadas deben dar una medida correctadel comportamiento al que el test apunta (validez); y por ltimo, larepeticin del examen debe conducir siempre al mismo resultado(fiabilidad).

5) La estandarizacin es el proceso mediante el cual seestablecen procedimientos unvocos para la aplicacin, calificacin einterpretacin de un test psicomtrico.

6) La interpretacin de los puntajes de un test psicomtricoestandarizado se refiere al significado que se les da a los puntajesobtenidos por un grupo de sujetos, al compararlos con una tabla denormas o baremo, estableciendo una clasificacin de acuerdo a laconversin de sus puntajes directos en puntajes percentiles, eneatiposo decatipos.

7) Los tests psicomtricos se clasifican por lo siguiente: Porsu forma de dar las instrucciones; por su forma de administracin;por la forma o tipo de respuesta que exigen; por el material de laprueba; por su forma de calificacin; por sus edades lmites deaplicacin; y por su libertad de ejecucin. En los test psicomtricosutilizados en educacin existe actualmente un tipo de testsdenominado test relacionado con el criterio.

8) El test psicomtrico es empleado como instrumento auxiliarpara una mejor toma de decisiones: En la seleccin, clasificacin,diagnstico, investigacin, y evaluacin de un determinado grupo depersonas.

9) Entre las limitaciones en el uso de un test psicomtricotenemos: Una prueba o test slo puede medir aquellos aspectos paralos que ha sido construido; las normas (baremo) de una prueba notienen validez universal; si las condiciones que influyen sobre elindividuo se modifican, existe la posibilidad de que tales cambiosdurante la aplicacin de la prueba influyan en los puntajes resultantesdel test; los resultados de un test no deben emplearse paradiagnosticar per se estados patolgicos;.y, finalmente, las categorasdescriptivas (inteligencia muy superior, superior, etc.) slo debenutilizarse para los tests cuyos puntajes le dieron origen.

10) Un test psicomtrico tiene generalmente las siguientessecciones o partes: El test propiamente dicho, y el manual del test.

11) Entre las cualidades que debe tener un test psicomtrico,hay que tener en cuenta: la confiabilidad, que puede estimarse a

Jaime Aliaga 107

travs de dos procedimientos: el coeficiente de confiabilidad y elerror estndar de medida (EEM); y la validez, que es el grado en queuna prueba mide lo que intenta medir.

12) La validez cientfica de un test la da la validez deconstructo. La tendencia ya no es hablar de tipo de validez, sino decategoras de validez en la que la validez de contenido, validezpredictiva, validez concurrente y validez de constructo reconstituyenen estrategias de validacin.

13) La teora de respuesta al tem (TRI), denominada tambinTeora del Rasgo Latente, es un modelo probabilstico que permiteconocer la informacin proporcionada por cada tem, y as crear testsindividualizados, es decir, a medida. Los supuestos de la TRI son: launidimensionalidad del rasgo latente; y la independencia, es decir,que las respuestas de un examinado a cualquier par de temes sonindependientes.

BIBLIOGRAFA

Aiken, L. (1996). Tests psicolgicos de evaluacin. Mxico: Prentice-Hall.Anastasi, A. (1986). Los tests psicolgicos. Madrid: Aguilar.Adkins, D. (1994). Elaboracin de tests. Desarrollo e interpretacin de los

tests de aprovachamiento. Mxico: Trillas.Cerd, E. (1984). Psicometra general. Barcelona: Herder.Monroe Miller, D. (1974). Resultados de pruebas psicolgicas.

Interpretacin estadstica. Mxico: Limusa.Ebel, R. (1977). Fundamentos de la medicin educacional. Buenos Aires:

Guadalupe. Brown, G. F. (1980). Principios de la medicin en psicologa y educacin.

Mxico: El Manual Moderno.Cortada de Kohan, N. (1999). Teoras psicomtricas y construccin de tests.

Buenos Aires: Lugar.Cronbach, L. J. (1972). Fundamentos de la exploracin psicolgica. Madrid:

Biblioteca Nueva.Gronlund, N. (1978). La elaboracin de tests de aprovechamiento. Mxico:

Trillas.Kerlinger, F. (1975). Investigacin del comportamiento. Tcnica y

metodologa. Mxico: Interamericana.Levine, Ch. y Freeman, F. (1973). Introduccin a la medicin en psicologa

y educacin. Buenos Aires,: Paids.Lord, F. M. (1980). Applications of item response theory to practical testing

problems. Hillsdale: Erlbaum.

Psicometra108

Magnusson, D. (1969). Teora de los tests. Mxico DF, Mxico: Trillas.Messick, S. (1995). Standards of validity and the validity of standards in

performance assessment. Educational measurement: Issues andPractice, 14, 5-8.

Morales, M. L. (1996). Psicometra aplicada. Mxico: Trillas.Muiz, J. (Coord.) (1996). Psicometra. Madrid: Universitas.Muiz, J. (1990). Teora de respuesta a los tems. Madrid: Pirmide.Muiz, J. (1994). Teora clsica de los tests. Madrid: Pirmide.Nunnally, J. y Bernstein, Y. (1995). Teora psicomtrica. Mxico: McGraw-

Hill.Tyler, L. (1972). Pruebas y medicin en psicologa. Madrid,: Prentice-Hall

International.

pruebas psicometricas, confiabilidad y validez

Documents