actualizacion didactica

Wiggins, G. (1998) Rúbricas para la Evaluación (capítulo 7).En: Educative Assessment. Designing Assessments to Inform and Improve Student

Performance. San Franciso. Jossey-Bass.(En castellano: Evaluación Educativa. Diseñando evaluaciones para informar y

mejorar el desempeño de los estudiantes).Selección y traducción del capítulo 7, realizada en el Instituto de Evaluación Educativa por

Jennifer Viñas y Pedro Ravela.Capítulo 7Rúbricas para la EvaluaciónUna de las herramientas más básicas para todo evaluador de desempeños es la rúbrica. La rúbrica explicita para evaluados y evaluadores qué elementos del desempeño son másimportantes y cómo el trabajo será valorado en términos de calidad relativa.Las preguntas acerca del diseño y uso de las rúbricas son abundantes entre los educadores. En los capítulos anteriores se dieron algunos ejemplos de rúbricas apropiadas para varias tareas de evaluación y sugirieron que el papel central de las buenas rúbricas en la evaluación, es la mejora del desempeño a través del auto-ajuste del evaluado. Este capítulo profundiza en preguntas como:_ ¿Las rúbricas deberían ser genéricas o específicas para cada tarea?- ¿Holísticas (enfocadas en una impresión general) o analíticas (enfocadas en un únicorasgo o criterio)?_ ¿A quién están dirigidas las rúbricas? ¿Al principiante que es evaluado o alevaluador que es veterano en la tarea?_ ¿Puede una rúbrica dar un puntaje preciso sin brindar inferencias válidas?_ ¿Puede ocurrir que una rúbrica anule la creatividad, aún cuando ayude alestudiante a saber lo que se espera de él/ella?_ ¿Cómo hace un evaluador para construir una rúbrica?

¿Qué es una rúbrica?

La palabra rúbrica viene de ruber, palabra del latín que significa rojo. En los tiemposmedievales, una rúbrica era un conjunto de instrucciones o un comentario adjunto a una ley o a un texto litúrgico, que típicamente era escrito en rojo. De este modo, el término “rúbrica” llegó a significar algo derivado de una autoridad que instruye a la gente.En la evaluación de estudiantes una rúbrica es un conjunto de guías de valoración y/ocalificación para evaluar el trabajo de los estudiantes. Las rúbricas responden a las siguientes preguntas:

_ ¿Con qué criterios debería juzgarse el desempeño?_ ¿Dónde y qué deberíamos buscar para juzgar el logro de un desempeño?_ ¿Cómo es el rango de calidades del desempeño?_ ¿Cómo podemos determinar en forma válida, confiable y justa la calificación quedebería otorgarse y su significado?_ ¿Cómo deberían describirse los diferentes niveles de calidad y lo que distingue a unnivel de otro?Típicamente, una rúbrica contiene una escala de puntos que es posible asignar al valorar un trabajo, en un continuo de calidad. Los números altos usualmente se asignan a los mejores desempeños. En general las escalas utilizan los números 4, 5, o 6 como los puntajes más altos, y 1 o 0 como los más bajos.Una rúbrica ofrece descriptores para cada nivel de desempeño, para permitir una valoración más confiable e imparcial. A veces se usan indicadores dentro de un descriptor, para dar ejemplos o señales concretas de evidencia para cada nivel. Dado que los descriptores contienen criterios y a menudo están referidos a estándares, una buena rúbrica hace posible una distinción válida y confiable de los desempeños –esto es, referida a criterios.

Los criterios son las condiciones que cualquier desempeño debe cumplir para ser considerado exitoso; definen qué significa cumplir con los requisitos de la tarea. Para una tarea intelectual como “escuchar efectivamente”, por ejemplo, quizás decidamos establecer dos criterios:comprender el mensaje (o dar los pasos adecuados para comprenderlo), y hacer que quien habla se sienta escuchado. Ofrecer indicadores o comportamientos específicos que indican si los criterios han sido cumplidos o no, resulta en una guía más específica. Los indicadores de que unestudiante está dando pasos para comprender lo que ha oído incluyen, por ejemplo, el tomar notas, hacer preguntas adecuadas, parafrasear el mensaje, estar atento, y otros por el estilo.La razón por la que no construimos rúbricas a partir de indicadores, que pueden parecer más concretos y útiles para estudiantes y evaluadores, es que los indicadores no son infalibles. Los criterios deben ser logrados; los indicadores son una ayuda, pero un estudiante puede lograr los criterios sin cumplir con todos los indicadores específicos descriptos. Un indicador dice a los evaluadores por dónde pueden buscar y qué deberían mirar al valorar un desempeño. Pero ningún indicador es 100% confiable. Por ejemplo, el estudiante aparentemente atento puede no estar haciendo esfuerzos para comprender lo que se le dice, mientras que un estudiante que parece distante del que habla y no toma notas puede, no obstante, estar escuchando atentamente y comprendiendo lo que se le dice.Muchas rúbricas comenten el error de confiar demasiado en indicadores que son fácilmente observables pero poco confiables. Debemos tener cuidado y asegurarnos que los criterios que elegimos son necesarios y suficientes, como conjunto, para asegurar que se logró lo que se buscaba. Los primeros intentos que los educadores realizan con las rúbricas, a menudo pasan por alto los modos más difíciles de ver pero más válidos de evaluar el logro. Ejemplo: Rúbrica del Colegio Heritage High School de Littleton, Colorado, para evaluar ensayos de bachilleres9--8 El rango superior de respuestas satisface los siguientes criterios:a. Síntesis. La síntesis debe identificar la idea principal [de la lectura].b. Foco del acuerdo. El acuerdo y/o desacuerdo pueden ser completos o parciales, pero el escritor debe dejar claro con que está de acuerdo o endesacuerdo. Específicamente, los trabajos de 9-8 deben discutir la tesis del autor, no el abuso de sustancias en general.c. Sustento para el acuerdo / desacuerdo. La fundamentación debe proporcionar un análisis de los argumentos y/o ejemplos relevantes y concretos.d. Estilo y coherencia. Estos trabajos tienen un estilo claro, organización general y una progresión del pensamiento. Contienen unos pocos errores repetidos de uso, gramática o tipeo.[Las cuatro frases en cursiva representan las dimensiones que están siendovaloradas. Dos de los criterios están subrayados.]7Esta calificación es usada para trabajos que cumplen los requisitos básicos de los calificados con 9-8, pero tienen menos desarrollo, fundamentación o análisis.6--5Trabajos de rango intermedio, que omiten o son deficientes en uno de estos cuatrocriterios:a. Síntesis. La síntesis está ausente o incompleta, solo se lista la tesis del autor.b. Foco del acuerdo / desacuerdo. Aquello con lo que quien escribe está en acuerdo/desacuerdo no es claro o no se relaciona con las propuestas del autor. Ejemplo: el escritor no usa suficientes frases como "por un lado… por otro lado…" [Un indicador].c. Sustento. El escritor solo contra-afirma; los ejemplos son muy generales o no distinguibles de los ejemplos en el artículo. El análisis puede ser pesado,

irrelevante o débil.d. Estilo y coherencia. Estos trabajos están organizados sin demasiado rigor o contienen errores notables de uso, gramática o tipeo.4.Esta calificación es usada para trabajos que son algo más flojos que los trabajos de 6-5. También un estudiante que escribe su propio ensayo paralelo en un estilocompetente debería recibir un 4.3--2Estos trabajos son deficientes en dos o más criterios. Típicamente, parafraseandébilmente el artículo o tienen serios problemas de organización / coherencia. Trabajoscon serios y repetidos errores de uso, gramática o tipeo deben situarse en este rango.[Todo este párrafo, como todos los previos, es un descriptor para este punto en laescala.]

Rúbricas y Estándares

Una rúbrica también depende de los estándares. Un estándar especifica que tan bien deben cumplirse los criterios. Por ejemplo, un estándar para salto alto especifica con precisión qué tan alto debe ser el salto para ser considerado excelente. ¿Qué tan exitoso fue el estudiante en cumplir el criterio de sortear la barra? Esa es la pregunta que responden los estándares. El mero hecho de pasar por encima de la barra –el criterio- no es suficiente si la barra está muy baja y el estudiante quiere saltar a nivel competitivo. Un estándar para salto alto se establece típicamente en términos de las alturas específicas que deben saltarse para calificar para un campeonato o de las marcas alcanzadas en el pasado por los mejores en la disciplina; por lo tanto, el estándar se basa en patrones de desempeño real e instancias de desempeño ejemplar.

Estándares Absolutos y Estándares de Desarrollo

Como se indicó en el Capítulo Cinco acerca de la lógica del diseño de tareas de evaluación, los estándares de desempeño se establecen una vez que el logro a alcanzar está claramente definido y que se han establecido criterios apropiados en relación a dicha meta. Los criterios se infieren de la meta, pero los estándares se seleccionan para representar la excelencia en el desempeño, usando desempeños ejemplares y especificaciones apropiadas.El ejemplo del salto alto ilustra solamente un sistema de evaluación sí/no. La cocina ofrece un ejemplo que también es simple, pero más cercano a los múltiples niveles de evaluación que caracterizan a la actividad académica. Los criterios para cocinar pasta primavera, por ejemplo, probablemente se relacionan con cosas como el buen sabor y la presentación, pero podemos decidir que importa también que sea saludable en términos del contenido de grasa y colesterol.De estos tres criterios –sabor, presentación y salud- podemos desarrollar tres rúbricasseparadas para juzgar el plato de pasta. Ahora supongamos que los espaguetis y los vegetales están ordenadamente dispuestos en el plato (buena presentación) y parcialmente cubiertos por un círculo de salsa de bajas calorías pero gustosa (saludable y de buen sabor). Hemos cumplido con los tres criterios.Supongamos ahora que nuestro plato cumple con los estándares “locales” de nuestra esposa e hijos. Pero quizás estos estándares locales no son lo suficientemente altos. ¿Cómo sería evaluado nuestro plato en un restaurante? ¿O por un crítico de restaurantes? El crítico, justamente, usaría estándares más exigentes para valorar los tres criterios, que los que aplicaría la mayoría de las familias. Si el espagueti está cocido, pero no realmente “al dente”; si la presentación es prolija pero no excepcionalmente interesante; y así en otros aspectos, el plato puede cumplir e incluso exceder las expectativas familiares, pero resultar totalmente

insatisfactorio en un restaurante de cuatro estrellas. La importancia relativa de cada criterio puede además cambiar cuando pasamos del contexto de la cena familiar, a la comida en un restaurante: la apariencia importa enormemente en un buen restaurante pero es menos importante en una comida familiar.Consideremos ahora una evaluación de escritura. Los criterios a cumplir normalmente refieren a la claridad de la prosa, a la efectividad de lo dicho, al análisis en profundidad y cosas por el estilo, y hay indicadores concretos para estos criterios, como no usar el lenguaje coloquial, emplear imágenes y analogías vívidas o usar la voz pasiva lo menos posible. Sin embargo, como en el ejemplo del espagueti, hay diferentes grados de cumplimiento de estos criterios. Los estudiantes cumplen o no los criterios en el continuo de una escala que va de lo óptimo a lo incompleto. Las diferencias en sus logros constituyen diferentes niveles de desempeño, que son los puntos de la escala. Estos niveles de desempeño pueden ser valorados en relación con contra dos tipos distintos de estándares y en relación con diferentes expectativas.Los estándares absolutos (el tipo en que me he estado enfocando hasta ahora, comodesempeños modelo y ejemplares), se establecen de hecho a través de la descripción delpuntaje más alto en la rúbrica y, por tanto, a través de las muestras específicas de trabajo,elegidas para “anclar” la rúbrica a un estándar de excelencia. En general necesitamos describir los estándares absolutos, para llegar luego a otro conjunto de estándares que permitan manejarse con las realidades del desarrollo. Por ejemplo en los deportes, además de los modelos del mejor desempeño a los que todos apuntan, están los estándares para las Olimpíadas, para la universidad, para los equipos del secundario, para los equipos escolares y demás. Cada uno de estos estándares apunta a qué es un desempeño excelente para el mejor de esa cohorte.Una expectativa es otro problema. En lugar de buscar el mejor de la cohorte, se busca el patrón de desempeño anterior de un grupo o individuo –esto es, las normas-. Puede esperarse que un estudiante salte un metro y medio o más, o que escriba una redacción en el nivel 4 o superior, porque históricamente la gente de su nivel de experiencia y habilidad lo ha hecho.Los resultados referidos a normas y expectativas difieren en significado de los resultadosreferidos a estándares y criterios. Los estudiantes pueden superar las normas y expectativas pero, aun así, no lograr un desempeño que cumpla el estándar. Por ejemplo, podría decirse que los estudiantes en el percentil 89 de un test normativo se han desempeñado pobremente, si se los compara con un estándar. Es por esto que muchos educadores desconfían de las pruebas referenciadas por normas: no muestran cómo se están desempeñando los estudiantes y profesores cuando se los evalúa con estándares exigentes y valiosos.Es crucial ser conciente de las diferencias de significado entre estos términos, no solo para diseñar tareas y rúbricas de evaluación efectivas sino, además, para que las devoluciones sean lo más claras posible. Necesitamos distinguir cuándo estamos hablando de estándares o modelos del mejor desempeño, cuándo estamos hablando de estándares de desarrollo y cuándo estamos hablando de expectativas. Cuando decimos que un desempeño está “conforme con el estándar”: ¿queremos decir “aceptable” o “ejemplar”?; ¿en un grado o cohorte en particular?; ¿estamos tratando con estándares de desarrollo en grados o cohortes para poder evaluar el progreso de los estudiantes de principiantes a expertos? En la escritura, por ejemplo, hay estándares profesionales de nivel internacional establecidos por autores publicados, hay estándares de nivel de salida del secundario (incluyendo estándares mínimos de aceptabilidad), y hay estándares de nivel de grado. En cada caso, sin importar qué tan pequeño o amplio sea el marco de referencia, el estándar absoluto es establecido por los mejores desempeños –losejemplares-. Por ejemplo, “cero defecto por cada millón de partes” es un estándar de ingeniería que quizás nunca se alcance, pero sigue siendo la meta. El mejor desempeño real, el ejemplar, en la industria automotriz, es de aproximadamente seis defectos por millón.

Los estándares absolutos y los criterios se mantienen estables; los estándares de desarrollo varían de acuerdo al nivel de experiencia y al contexto.En el trabajo cotidiano en las escuelas, el lenguaje de las rúbricas es, usualmente, algoambiguo. Los mejores trabajos deben ser “persuasivos”, “organizados” y “sólidos”. Pero estas frases no insinúan ni apuntan hacia un estándar específico.Es aquí donde entre en escena la importancia de las muestras de trabajos. La rúbrica esnecesaria pero no es suficiente para una buena evaluación y una buena devolución. Para saber qué significa realmente el lenguaje de las rúbricas, tanto el estudiante como el evaluador necesitan ver ejemplos de trabajos considerados “persuasivos” u “organizados”. ¿Por qué?Porque la percepción del estudiantes sobre qué significa cumplir esos criterios y estándares, puede ser incorrecta.¿Por qué necesitamos distinguir entre estándares absolutos, estándares de desarrollo yexpectativas, en lugar de continuar haciendo lo que siempre hicimos –poner notas o puntajes basados en nuestros juicios sobre la excelencia-? Porque las normas y patrones locales no son confiables como estándares. Puede que el mejor trabajo que una maestra normalmente ve de sus niños, sea mediocre comparado con el trabajo de los estudiantes de otras escuelas o regiones. Entonces, ¿cómo nos aseguramos que los estándares locales sean válidos? ¿Cómo podemos proteger al estudiante, asegurándole que los trabajos que localmente obtengan alto puntaje –el estándar local- son realmente excelentes? No podemos, a menos que logremos establecer una relación entre los estándares locales (a través de muestras o correlaciones) y estándares regionales o nacionales.Un ejemplo concreto de las diferencias entre los criterios y los diferentes tipos de estándares, aparece en la rúbrica en la figura 7.2. ¿Se puede decir, a partir de los criterios de esta rúbrica, si debería ser utilizada para evaluar la capacidad de resolver problemas de los estudiantes de un curso de matemática avanzada o para evaluar trabajos de aritmética de los estudiantes de quinto grado de primaria?Como ilustra esta rúbrica, los criterios de evaluación en matemática serán más o menos los mismos para los diferentes grados, pero los estándares de desarrollo y nuestras expectativas deberán ir cambiando en forma apropiada. Si usamos trabajos de cálculo sofisticado como único estándar, ningún estudiante de aritmética obtendrá, robablemente, una calificación superior a 1 (no porque no sepan cálculo, sino porque su capacidad para resolver problemas será relativamente reciente y limitada, en términos comparativos), aunque el criterio sigue siendo el mismo: resuelve el problema con lógica y elaboración claras y apropiadas. A la inversa, si decimos que un trabajo excelente en quinto grado es el único estándar, entonces todos los estudiantes de matemática avanzada, salvo algunos muy incompetentes o descuidados, obtendrán un 6 o un 5.

Figura 7.2. Rúbrica para Problemas Matemáticos AbiertosCompetencia DemostradaRespuesta Ejemplar:Puntaje = 6Da una respuesta completa con una explicación clara, coherente, no ambigua yelegante; incluye un diagrama claro y sencillo; se comunica efectivamente conla audiencia estipulada; muestra comprensión de las ideas y procesos matemáticos involucrados en el problema; identifica todos los elementos importantes del problema; puede incluir ejemplos y contra-ejemplos; presenta fuertes argumentos de apoyo.Respuesta Competente:Puntaje = 5Da una respuesta bastante completa con explicaciones razonablemente claras;puede incluir un diagrama apropiado; se comunica efectivamente con la audiencia estipulada; muestra comprensión de las ideas y procesos involucrados en el problema;

identifica los elementos más importantes del problema; presenta sólidos argumentos de apoyo.Respuesta SatisfactoriaCon Errores Menores PeroSatisfactoria:Puntaje = 4Completa el problema satisfactoriamente, pero la explicación puede ser confusa; la argumentación puede ser incompleta; el diagrama puede ser inapropiado o poco claro; comprende las ideas matemáticas subyacentes; usa las ideas en forma efectiva.Con Errores Serios Pero Casi Satisfactoria:Puntaje = 3Comienza el problema apropiadamente pero puede no lograr completarlo uomitir partes significativas del problema; puede no lograr mostrar una comprensión completa de las ideas y procesos matemáticos implicados; puede cometer errores de cálculo serios; puede hacer mal uso o no lograr usar términos matemáticos; la respuesta puede reflejar una estrategia inapropiada para resolver el problema.Respuesta InadecuadaComienza, Pero Falla enCompletar el Problema:Puntaje = 2La explicación no es comprensible; el diagrama puede no ser claro; no muestracomprensión de la situación planteada en el problema; puede cometer errores de cálculo importantes.Incapaz de ComenzarEfectivamente:Puntaje = 1Las palabras usadas no reflejan el problema; los dibujos distorsionan la situación planteada en el problema; no logra indicar qué información es apropiada.No hay Intento:Puntaje = 0Por tanto, necesitamos tanto estándares de desarrollo como estándares absolutos, para educara los estudiantes sobre la excelencia real. El valor de anclar el trabajo en estándares absolutos es fácil de ver cuando las rúbricas son longitudinales, o de desarrollo, y los criterios de las rúbricas se articulan con los estándares de desarrollo, como en el ejemplo de la Figura 7.3.Obviamente no hay ningún problema con estar en un nivel bajo en una rúbrica de desarrollo, si el estudiante es principiante; sin embargo, si el estudiante tiene años de experiencia pero sigue desempeñándose como principiante, debería esperarse un desempeño mejor. Por ejemplo, no tiene sentido decir que principiantes en Alemán I deben obtener notas bajas porque no tienen tanta fluidez como los estudiantes Alemán IV. (Esta idea es crucial para el argumento de no traducir los puntajes de desempeño a calificaciones con letras, ver Capítulo Nueve.)

Figura 7.3 Rubrica del desarrollo de niveles de habilidades de lectura de K-12Nivel El alumno debería ser capaz de:1 Usar imágenes, símbolos o letras aisladas, palabras o frases, para comunicar significados.2Producir, en forma independiente, piezas de escritura utilizando frases completas, algunas con letras mayúsculas, puntos o signos de pregunta.Estructurar secuencias de eventos reales o imaginarios en forma coherente y cronológica.Escribir historias que muestren comprensión de los rudimentos de la estructura de una historia,estableciendo un comienzo, personajes y uno o más eventos.

Producir escritura simple, coherente y no cronológica.3Producir, en forma independiente, piezas de escritura utilizando frases completas, principalmente distinguidas con letras mayúsculas, puntos o signos de pregunta.Desarrollar la escritura cronológica, comenzando a utilizar un rango de conjunciones de frases más amplio que “y” y “entonces”.Escribir historias más complejas, con detalles más allá de los eventos simples, y con finales definidos.Comenzar a revisar y reescribir, consultando al educador u otros niños, prestando atención al significado y la claridad, además de revisar cosas como el uso correcto de los tiempos y pronombres.4Producir piezas de escritura en las que haya un intento rudimentario de presentar los temas de modo estructurado (título, párrafos, versos), en los que la puntuación sea generalmente precisa, y en los que exista evidencia de la habilidad de hacer que el significado resulte claro a los lectores.Escribir historias que tengan un comienzo, espacio, personajes, una serie de eventos y una resolución.Organizar en forma ordenada la escritura no-cronológica.Comenzar a utilizar algunas estructuras de oraciones diferentes de aquellas más características del lenguaje hablado (por ejemplo, las oraciones subordinadas).Intentar revisar independientemente la propia escritura y hablar sobre los cambios realizados.5Escribir en variedad de formatos (notas, cartas, instrucciones, historias, poemas) para un rango de propósitos distintos (para planear, informar, explicar, entretener, expresar actitudes o emociones).Producir piezas de escritura en las que haya un intento más exitoso de presentar un tema simple de modo estructurado, por ejemplo, a través de la composición, títulos, párrafos, en que la puntuación sea usada casi con precisión, y en que los usos simples de la coma se dominen exitosamente.Escribir en inglés estándar (excepto en contextos donde las formas no estándar sean apropiadas) y mostrar una diferenciación creciente entre el lenguaje escrito y el oral, por ejemplo, utilizando construcciones que disminuyan la repetición.Reunir ideas en papel… y mostrar algo de habilidad para realizar un borrador a partir de ellas y luego reescribir o revisar lo que sea necesario.6Escribir en variedad de formas de un rango de propósitos, mostrando algo de habilidad para presentar el tema en cuestión de modo diferente para diferentes audiencias específicas.Hacer uso de las características de los estilos literarios, como la alteración del orden de las palabras para hacer énfasis o la repetición ex profeso de palabras o patrones de oración.Mostrar algo de habilidad para reconocer cuando la planificación, escritura del borrador, reescritura del borrador y revisión son apropiadas y poder realizar estos procesos.9Continuación7Producir piezas de escritura bien estructuradas, algunas de las que manejan temas más demandantes,como ser el ir más allá de la experiencia de primera mano.Hacer un uso más seguro y selectivo de un rango más amplio de posibilidades gamaticales y léxicas,de acuerdo al tema y la audiencia.

Mostrar una conciencia creciente de que el primer borrador es maleable, por ejemplo, cambiando la forma en que se escribe (de la historia al juego), o alterando las oraciones, estructura y posición.Escribir, en extensión apropiada, en una amplia variedad de formas, con sentido asegurado de propósito y audiencia.Organizar temas complejos clara y efectivamente. Producir piezas bien estructuradas en las que las relaciones entre párrafos sucesivos se señalen amablemente.Hacer un uso seguro, selectivo y apropiado de un amplio rango de construcciones gramaticales de vocabulario extenso. Mantener el estilo elegido consistentemente. Lograr efectos afortunados o sorprendentes, mostrando evidencia de un estilo personal.8Escribir, con una longitud apropiada, en una amplia variedad de formatos, con un firme sentido del propósito y la audiencia.Organizar temas y materias complejas de manera clara y efectiva. Producir piezas de texto bien estructuradas, en las que las relaciones entre los sucesivos párrafos están señaladas de manera amigable.Hacer un uso seguro, selectivo y apropiado de una amplia gama de construcciones gramaticales y de un vocabulario extenso. Sustentar de manera consistente el estilo elegido. Lograr efectos elogiosos o sorprendentes, mostrando evidencia de un estilo personal en la escritura.

Diseño de Rúbricas

Las mejores rúbricas seguirán una lógica. Esto significa que, aunque no hay una recetaestablecida para construir rúbricas, necesitamos un método útil (aunque no rígido) ylineamientos; más importante todavía, necesitamos criterios para revisar constantemente la efectividad del trabajo de diseño que se está llevando a cabo. Los lineamientos del diseño son como el itinerario de un viajero; los criterios son como las condiciones que el viajero debe cumplir para tener un viaje que valga la pena. En términos educacionales, los lineamientos son como las instrucciones que se dan a los estudiantes para realizar una tarea y los criterios son como la rúbrica que el educador proporciona a los estudiantes para su auto-evaluación y autoajuste a lo largo del camino.Las rúbricas facilitan la autoevaluación de los estudiantes. Pero la autoevaluación es un medio.¿Para qué fin? Para el auto-ajuste y el logro de un mejor desempeño y pericia. Ningúndesempeño puede dominarse simplemente siguiendo reglas, itinerarios o recetas. Tododesempeño complejo se alcanza a través de la devolución, referida a criterios y estándares. La pregunta, ¿llegamos a nuestro destino?, es muy diferente de preguntarse, ¿intentamos tener un viaje agradable? Aprender requiere devoluciones permanentes (a través de la evaluación y la autoevaluación), para asegurar que el estudiante obtenga del viaje el impacto que se propuso el director del paseo (el docente). De la misma manera, una rúbrica diseñada para valorar el desempeño de un estudiante debe ser diseñada en referencia a criterios y estándares, y a la autoevaluación y autoajustes continuos.Al diseñar rúbricas necesitamos considerar los tipos de rúbricas disponibles. Las rúbricas pueden ser holísticas o analíticas. La rúbrica holística tiene un solo descriptor general del desempeño como un todo. La rúbrica analítica contiene múltiples rúbricas que corresponden a cada dimensión del desempeño que está siendo calificado. Por ejemplo, podemos tener diferentes rúbricas para “sintaxis”, “foco” y “expresión” al escribir, y para “precisión de los cálculos” y “comprensión del método científico” en la ciencia.Las rúbricas también pueden ser genéricas, o específicas para un género, un tema o una tarea.Una rúbrica genérica juzga un criterio muy amplio, como “persuasivo” o “preciso”. Una rúbrica específica de género se aplica a un género de desempeño específico, al interior

de una categoría de desempeño amplia (por ejemplo, ensayo, discurso, narrativa o gráficas y cuadros).Una rúbrica específica para un tema tiene criterios referidos a las habilidades relacionadas con los contenidos o al conocimiento (por ejemplo, informe oral de historia o razonamiento matemático). Las rúbricas específicas para una tarea refieren a criterios únicos o altamente específicos, derivados de una tarea en particular.Finalmente, una rúbrica puede enfocarse en un evento o ser longitudinal. En una rúbricaenfocada en un evento, el desempeño se describe en términos particulares para esa tarea, contenido y contexto. Una rúbrica longitudinal (o de desarrollo) mide el progreso a lo largo del tiempo hacia un dominio más general de objetivos educacionales (por ejemplo, capacidad de lectura o fluidez); el desempeño se evalúa en un continuo que va de principiante a experto y los avances se miden en términos de sofisticación o nivel de desempeño a lo largo del tiempo.

Asegurando la validez de las rúbricas

Recordemos que el aspecto principal de la validez es la cuestión de determinar qué es posible y razonable inferir a partir de los puntajes o calificaciones. Supongamos que se asigna a los estudiantes una tarea de escritura de cuentos y la rúbrica para evaluar esta tarea pone el énfasis exclusivamente en la ortografía y en la exactitud gramatical. Las calificaciones o puntajes podrían ser muy precisos –porque es fácil contar estos errores-, pero conducirían a inferencias no válidas acerca de la habilidad de los estudiantes para escribir historias. No parece razonable suponer que la precisión ortográfica esté relacionada con la habilidad para escribir un cuento atractivo, vívido y coherente, que es lo que esta tarea pretende. Por lo tanto, la rúbrica estaría valorando con precisión algo que no es lo que queremos evaluar.El diseño de rúbricas, por tanto, debería considerar no sólo la validez y lo apropiado de la tarea propuesta, sino la validez y lo apropiado de los criterios y los descriptores para establecer distinciones en relación a esa tarea.Suponiendo que tenemos una tarea válida y las capacidades que ella requiere, ¿se enfoca la rúbrica en criterios que evalúen dichas capacidades? Suponiendo que hemos logrado definir los criterios más apropiados para el objetivo propuesto, ¿han sido identificadas las dimensiones más importantes y reveladoras del desempeño?¿La rúbrica ofrece un modo auténtico y efectivo de distinguir entre niveles de desempeño? Los descriptores para cada nivel de desempeño, ¿están suficientemente basados en muestras reales de desempeño de diferente calidad? Estas y otras preguntas son el núcleo de la construcción de rúbricas válidas.

Rúbricas holísticas y analíticasLa habilidad de diseñar una rúbrica válida depende mucho de cómo se definen los criterios.Para comenzar, ¿cuántos criterios pueden necesitarse para describir los rasgos centrales para el desempeño exitoso de la tarea? Los criterios nos dicen qué buscar para distinguir logro de nologro; los rasgos nos dicen dónde buscarlo.Por ejemplo, “peso” e “índice de colesterol” son rasgos personales; “peso saludable” y“colesterol bajo” son criterios para la salud. El criterio supone valoraciones: hay un rango de masa corporal mínima y máxima para ser considerado saludable, y hay cifras por encima de las cuales se considera que la persona tiene un índice demasiado alto de colesterol. Pero si cambiamos el criterio a “ser feliz comiendo”, el valor del rango de colesterol aceptable puede cambiar. Para cumplir el criterio de tener un buen estado de salud, debo al menos cumplir con los criterios establecidos para estos dos rasgos de mi perfil de salud.Una rúbrica analítica aísla cada rasgo principal en una rúbrica separada junto con sus propios criterios. A la inversa, una rúbrica holística da una valoración única basada en una

impresión general. Pero generalmente es necesario que las rúbricas analíticas combinen diferentes rasgos para hacerlas factibles y aplicables. Por ejemplo, expresión, organización, foco, estructura de las oraciones, elección de palabras, coherencia, precisión del contenido, adecuación de los recursos y referencias y capacidad persuasiva, son criterios adecuados para juzgar los ensayos.Pero usar 10 rúbricas con los criterios que las acompañan, superaría incluso a un devoto de las rúbricas. Por cuestiones prácticas, los 10 rasgos podrían agruparse en tres rúbricas: calidad de las ideas y argumentos, calidad de la escritura y calidad de la investigación, por ejemplo. O, en ciertas instancias, pueden unirse en un único criterio y rúbrica: ¿Se trata de un trabajo persuasivo? En este caso, los criterios correspondientes a cada uno de los grandes encabezados, podrían servir como indicadores.La aproximación holística puede parecer más simple, pero puede también comprometer lavalidez, confiabilidad y calidad de la devolución al estudiante en nombre de la eficiencia.Volvamos al ejemplo de la comida. La presentación es independiente del gusto y de losaludable que sea el alimento, y cada una debe evaluarse por separado si queremos hacer inferencias válidas de los resultados. Es raro que los tres aspectos vayan en la misma línea, estando a la vez todas bien o todas mal. Consideremos la confusión que puede resultar de una rúbrica holística para un desempeño complejo. Dos trabajos son evaluados como no persuasivos, pero sus defectos son bastante diferentes. Uno es un texto desordenado, pero lleno de buenos argumentos. El otro es claro, pero superficial y basado en hechos imprecisos.Con una rúbrica holística se asignaría la misma calificación a ambos trabajos. La validez y la calidad de las devoluciones requieren el uso de rúbricas analíticas.A veces no resulta claro como calificar con un esquema holístico. La rúbrica de evaluación de una presentación oral en la figura 7.4 ilustra el problema. ¿Qué deberíamos hacer si unestudiante establece un buen contacto visual pero no logra convencer acerca de la importancia su tema? La rúbrica nos haría creer que hacer contacto con la audiencia y argumentar sobre la importancia del tema siempre van de la mano. Pero la lógica y la experiencia sugieren lo contrario.La confiabilidad también se ve amenazada cuando diferentes jueces aplican inconscientemente diferentes criterios, formándose un juicio impresionista completo usando una rúbrica holística vaga. Esto es lo que ocurre cuando tanto dos alumnos la misma calificación en un curso, pero por motivos muy diferentes. Ninguno lo sabe, salvo el educador –y, ciertamente, no lo sabe quien lee la escolaridad de los alumnos-. Un mismo profesor puede dar a los mismos estudiantes calificaciones diferentes por cambios en su razonamiento o criterios. Las rúbricas específicas, basadas en criterios claros, distintos y adecuadamente sopesados, sin embargo, mantienen el proceso de puntuación consistente y estable, tanto para los estudiantes como para los evaluadores.Figura 7.4 Rúbrica Holística para una Presentación Oral5- ExcelenteEl estudiante describe claramente la cuestión estudiada y provee razones fuertes parajustificar su importancia. Aporta información específica para apoyar las conclusionesobtenidas y descriptas. La presentación es atractiva y la estructura de las frases esconsistentemente correcta. Se hace contacto visual con la audiencia y se mantiene a lolargo de la presentación. Hay fuerte evidencia de preparación, organización yentusiasmo por el tema. Se utiliza apoyo visual para hacer la presentación más efectiva.Las preguntas de la audiencia son respondidas correctamente con informaciónespecífica y apropiada.4 – Muy buenaEl estudiante describe la cuestión estudiada y provee razones para justificar suimportancia. Aporta una cantidad adecuada de información para apoyar las conclusionesobtenidas y descriptas. La presentación y la estructura de las frases es generalmentecorrecta. Hay evidencia de preparación, organización y entusiasmo por le tema. Seutiliza apoyo visual. Las preguntas de la audiencia son respondidas con claridad.

3 - BuenaEl estudiante describe la cuestión estudiada y las conclusiones son expuestas, pero lainformación que las apoya no es tan fuerte como en los casos 4 y 5. La presentación y laestructura de las frases es generalmente correcta. Hay ciertos indicios de preparación yorganización. Se menciona el apoyo visual. Las preguntas de la audiencia sonrespondidas.2 - LimitadaEl estudiante expone la cuestión estudiada pero no la describe completamente. Noofrece conclusiones para responder la pregunta. La presentación y la estructura de lasfrases es comprensible, pero con algunos errores. Falta evidencia de preparación yorganización. El apoyo visual puede no ser mencionado. Las preguntas de la audienciason respondidas, pero solo con la respuesta básicas.1- PobreEl estudiante realiza la presentación sin exponer cuál fue la pregunta o su importancia.El tema no es claro y no se exponen conclusiones adecuadas. La presentación es difícilde seguir. No hay señales de preparación u organización. Las preguntas de la audienciareciben la respuesta más básica o quedan sin responder.0 No se intenta realizar ninguna presentación oral.

La figura 7.5 muestra una rúbrica analítica que contiene un grupo de cuatro rúbricas paraevaluar distintos aspectos de la investigación científica y la resolución de problemas. Abrir la rúbrica en rasgos no solo hace a la evaluación más precisa, sino que además enseña a los estudiantes acerca de los resultados deseados.Figura 7.5 Rúbrica analítica para experimentos de ciencias de quinto gradoDiseño del Experimento Resultados científicos4El diseño muestra que el estudiante ha analizado elproblema y ha diseñado y conducido unexperimento en forma reflexiva e independiente.4El reporte explica con claridad convincentela solución al problema. Se utilizainformación de otras fuentes u otrosexperimentos en la explicación.3El diseño muestra que el estudiante comprende laidea básica del proceso científico, conduciendoexperimentos que controlan las variables obvias.3El reporte muestra que el estudiantecomprende los resultados y sabe cómoexplicarlos.2El diseño muestra que el estudiante comprende laidea básica del proceso científico, pero necesitaalgo de ayuda para controlar las variables obvias.2El reporte muestra resultados delexperimento. Las conclusiones alcanzadasson incompletas o fueron explicadas sóloluego de que se le hicieran preguntas.1El diseño muestra que el estudiante puede conducirun experimento cuando recibe una cantidad de

ayuda considerable por parte del profesor.1El reporte muestra resultados delexperimento. Las conclusiones a que sellegó fueron insuficientes, incompletas, oconfusas.Recolección de datos Expresión Verbal4Los datos fueron recogidos y registrados de modoordenado, reflejando con precisión los resultadosdel experimento.4La exposición presenta un punto de vistaclaramente definido que puede ser apoyadopor la investigación. El interés de laaudiencia fue considerado, ya que hubogestos, expresión y contacto visual.3Los datos fueron registrados de un modo queprobablemente representa los resultados delexperimento.3La exposición fue preparada con algo deayuda adulta, pero utiliza los resultados delexperimento. El discurso fue lógico y utilizógestos, expresión y contacto visual paraclarificar significados.2Los datos fueron registrados de mododesorganizado, o sólo con asistencia del profesor.2La exposición fue dada luego de instrucciónactiva por parte de un adulto. Se dio algunaconsideración fue dada a los gestos, laexpresión y el contacto visual.1Los datos fueron registrados de modo incompleto,caótico o sólo luego de considerable asistencia delprofesor.1La exposición fue dad después de recibirinstrucción activa de un adulto.

Rúbricas para el dominio de los contenidos

Hoy parecería que la mayoría de los educadores prefieren enfocarse en la evaluación dehabilidades genéricas en lugar de enfocarse en la comprensión de los temas específicos de cada materia. Ciertamente, es más fácil evaluar las habilidades académicas generales y los resultados pueden generalizarse con mayor facilidad: hablar es hablar, después de todo, incluso si el contenido del discurso varía. Mientras tanto, entender que F = m x a , no tiene vinculación con entender las leyes de Boyle o el concepto de la ironía dramática. La compresión debe se evaluada por separado para cada concepto enseñado.

Más importante aún, pocos profesores o evaluadores han explorado suficientemente la

pregunta sobre, por ejemplo, ¿qué sirve como evidencia de que ha comprendido F = m x a , y no se está utilizando la fórmula mecánicamente, insertándola sin entenderla, en los típicos problemas y ejercicios de los libros de texto? ¿Cómo debemos distinguir la comprensión superficial de la sofisticada o profunda?En general, lo único que se evalúa es el conocimiento y la aplicación de una fórmula. Pero es posible distinguir niveles de comprensión, siguiendo la regla básica que a continuación se enuncia: “si tenemos muestras de trabajo que representan un rango de desempeños, podemos desarrollar rúbricas”.Por supuesto, para hacerlo bien necesitamos superar nuestra tendencia tradicional a pensar en términos dicotómicos (respuestas correctas o incorrectas) cuando lidiamos con contenidos específicos de la materia. Es fácil pensar la evaluación del conocimiento que tienen los estudiantes en términos de precisión de los hechos y aplicación de los mismos. Sin embargo una vez que consideramos que la comprensión se desarrolla a lo largo del tiempo, y comenzamos a utilizar términos como “profundidad de la comprensión”, podemos hablar de grados de comprensión de un tema. Podemos graficar el progreso en la comprensión del estudiante en una escala que va de la “comprensión simple y superficial” en un extremo, a la “comprensión profunda y sofisticada” en el otro.

Rúbricas genéricas vs. rúbricas específicas para cada tarea

Enfrentamos muchas opciones cuando diseñamos rúbricas y descriptores. Una de ellas es siutilizar rúbricas genéricas o rúbricas específicas para una tarea. La confiabilidad aumenta cuando utilizamos una rúbrica que es específica para cierta tarea, y muestras de desempeño relacionadas con esta tarea. Sin embargo, seguimos teniendo un problema de viabilidad: el diseño de una rúbrica para cada tarea, resulta prohibitivo en términos del tiempo y energía requeridos. Y podemos perder de vista nuestro objetivo final.Una evaluación sólida requiere el uso de un conjunto general de rúbricas analíticas. Los criterios en relación con los cuales evaluamos el desempeño son más importantes que (y, lógicamente, previos a) el diseño de cualquier tarea específica. Y los criterios se relacionan con las metas generales a lograr, lo que tiende a ser más amplio que cualquier tarea específica que utilicemos en la evaluación. Es preferible, entonces, utilizar rúbricas generales que se enfoquen en criterios clave relacionados con las metas clave. Por ejemplo, una rúbrica para evaluar la habilidad de un estudiante para “argumentar persuasivamente” y “comprender el contenido principal de un texto”, puede ser aplicable tanto para trabajos escritos y como para exámenes orales.Si una rúbrica general, aplicada a una tarea específica, sacrifica notoriamente la especificidad de la devolución que se hará al estudiante, podemos emplear la opción intermedia antes planteada: utilizar criterios generales que no varíen de una tarea a otra y utilizar indicadores específicos para definir mejor los criterios, en función de la variación de las tareas concretas y de lo que la resolución de las éstas requieran.

Desarrollando las primeras rúbricas – y más allá

Las rúbricas no se diseñan con pura imaginación y discusión. Se derivan de estándares y de análisis de muestras existentes de trabajos de diferente calidad. Una rúbrica debería reflejar las diferencias más tangibles y apropiadas de calidad entre los desempeños. ¿De qué otro modo podríamos validar nuestras evaluaciones? Después de todo, las diferencias de calidad observables aparecieron primero, y la descripción analítica de esas diferencias, generalizada en los descriptores de rúbricas, vino en segundo lugar. Si procediéramos de otro modo, estaríamos adivinando o inventando los criterios y fallaríamos en la validación de nuestro trabajo.Como dijo Potter Stewart, de la Suprema Corte de Justicia, sobre la pornografía, sabemos que está allí cuando la vemos, incluso si no podemos definirla. De manera similar, podemos apilar los trabajos de los estudiantes en montones ordenados por calidad

decreciente, pero solo cuando nos detenemos a mirar en qué difieren estos montones y a explicar cuidadosamente las diferencias, es que empezamos a tener un sentido claro de cuáles deberían ser los descriptores para cada pila.¿Pero qué hacemos el primer año? Debemos hacer lo mejor que podamos, basando nuestra rúbrica en nuestra experiencia general de las diferencias en el tipo de desempeño que nos interesa, en cualquier tarea piloto que hayamos realizado y cualquier muestra que tengamos de desempeños frente a desafíos similares en el pasado. En el comienzo de nuestro trabajo puede ser necesario depender del lenguaje comparativo y evaluativo. Para una primera rúbrica, puede ser suficiente con lograr expresar con claridad el nivel más alto de desempeño y luego utilizar el lenguaje comparativo para describir las debilidades progresivas de los demás niveles de desempeño. Pero necesitaremos refinar la rúbrica, tan pronto como tengamos más desempeños para analizar, porque una rúbrica es tan buena como la amplitud y profundidad de nuestra muestra de desempeños, y tan buena como nuestra capacidad para generalizar los resultados de ordenar los trabajos de nuestros estudiantes. Cada año trae consigo una muestra más diversa y reveladora de desempeños posibles y, con ello, una comprensión más profunda de las diferencias más notorias entre los niveles de desempeño y la sorprendente diversidad de trabajos posibles dentro de cada nivel.Esto significa que debemos tener algo de fe en que nuestras muestras de desempeñosejemplares realmente son ejemplares y en que nuestros criterios se derivan del análisis de la excelencia, y no solo de ideas abstractas sobre la excelencia. Esta distinción es el núcleo de la diferencia entre normas y estándares. Si nos basamos solamente en muestras de productos que son lo mejor que nuestros niños son capaces de hacer, pero no de lo mejor que es posible que otros estudiantes y personas hagan, corremos el riesgo de estar construyendo rúbricas a partir de un análisis de lo mediocre y describiendo indicadores de desempeños meramente aceptables, mientras decimos que son para el nivel más alto de desempeño. Imaginen si, por ejemplo, construyésemos los criterios para evaluar la expresión musical, a partir de los mejores desempeños de personas principiantes. Verán entonces el problema que enfrentamos cuando comenzamos a evaluar utilizando un rango de trabajos pobres de nuestros estudiantes.

Las mejores rúbricas dependen de una definición clara y no controversial de desempeñosejemplares, lograda a partir de muestras de trabajos ejemplares. Luego se desciende en la escala desde allí.Resumiendo las RúbricasLas mejores rúbricas son aquellas que:1. Son lo suficientemente genéricas como para relacionarse a las metas generales, másallá del desempeño en una tarea, pero lo suficientemente específicas como parapermitir obtener inferencias útiles y sólidas sobre la tarea.2. Discriminan entre la validez de los desempeños en forma no arbitraria, evaluando lascaracterísticas centrales del desempeño y no solamente aquellas más fáciles de ver,contar o puntuar.3. No combinan criterios independientes en una misma rúbrica.4. Se basan en el análisis de muchas muestras de trabajo y en el rango más amplioposible de muestras de trabajo, incluyendo ejemplos válidos.5. Para establecer distinciones, se apoyan en el lenguaje descriptivo (cómo se identifica lacalidad o su ausencia) y no en el lenguaje meramente comparativo y evaluativo, como“no tan riguroso como” o “excelente producto”.6. Proveen una diferenciación de niveles útil y adecuada, que permite juiciossuficientemente buenos, pero no usan tantos puntos en la escala (normalmente no másde seis) como para que la confiabilidad resulte amenazada.7. Usan descriptores que son lo suficientemente ricos como para permitir a los estudiantescomprender sus calificaciones, auto-evaluarse y auto-corregirse. (El uso de indicadoreshace que las descripciones sean menos ambiguas y más confiables, brindando ejemplos

de qué reconocer en cada nivel de desempeño. Pero, si bien los indicadores son signosútiles y concretos de que se cumplen los criterios, los indicadores específicos pueden noser confiables o apropiados para todos los contextos).8. Resaltan la importancia de evaluar el impacto del desempeño (el efecto en función delpropósito) en lugar de sobre-recompensar los procesos, los formatos, los contenidos ola buena fe del esfuerzo realizado.

Las rúbricas que cumplen los requisitos técnicos son:

1. Continuas: El cambio en calidad de al pasar de un punto de la escala a otro es similar:la diferencia entre el nivel 5 y el nivel 4 es similar que entre el 2 y el 1. Los descriptoresreflejan esta continuidad.2. Paralelas: Cada descriptor es paralelo a todos los otros en términos del lenguajeutilizado en cada frase que define los criterios.3. Coherentes: Las rúbricas se enfocan en los mismos criterios desde el principio hasta elfin. Aunque los descriptores para cada punto de la escala son diferentes de los queestán antes y después, los cambios refieren a la variedad de calidad para el criterio17(establecido), no hay cambios en el lenguaje que, explícita o implícitamente, introducennuevos criterios o modifican la importancia de los distintos criterios.4. Adecuadamente ponderadas: Cuando se utilizan múltiples rúbricas para evaluar unevento, hay un adecuado y no arbitrario peso relativo de cada criterio, en relación a losdemás.5. Válidas: Las rúbricas permiten inferencias válidas sobre el desempeño, al punto de quelo que se califica es lo central al desempeño, y no lo simplemente es fácil de observar ypuntuar. Las diferencias propuestas en calidad deberían reflejar un análisis de la tarea ybasarse en muestras de trabajo a lo largo de todo el rango de desempeños; describirlas diferencias cualitativas y no cuantitativas entre los desempeños.6. Confiables: Las rúbricas permiten calificar consistentemente, aún cuando cambien losevaluadores o pase el tiempo. Permiten una calificación confiable, al punto de que ellenguaje evaluativo (“excelente”, “pobre”) y el lenguaje comparativo (“mejor que”,“peor que”), se transforman en lenguaje altamente descriptivo, que ayuda a losevaluadores a reconocer las características salientes y distintivas de cada nivel dedesempeño.

actualizacion didactica

Documents