enfoques y diseÑos metodologicos para la evaluacion

48
Ministerio de Planificación Nacional y Política Económica 1 CAPITULO 5: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Upload: victorcorreav

Post on 04-Jul-2015

523 views

Category:

Education


2 download

DESCRIPTION

ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

TRANSCRIPT

Page 1: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

1  

CAPITULO 5: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION    

Page 2: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

2   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

Apartado 5.1: Enfoques metodológicos Material 5.1.1: Validez y confiabilidad  Basado  en:  Martínez  M.,  Miguel  (2006):  Validez  y  confiabilidad  en  la  investigación  cualitativa.  PARADIGMA  No.  27,  pp.  7-­‐33.  Con  contenidos  adicionales  y  modificados  por  parte  de  la  AES.  

Validez y confiabilidad en las investigaciones evaluativas

 La  dificultad   relacionada   con   la   validez   y   confiabilidad  de   los   resultados  en   las   investigaciones  evaluativas  que  utilizan  métodos   y   técnicas  de  orientación  cuantitativa  y/o  cualitativa  será  tratada  en  este  apartado  debido  a  la  importancia  que  tiene  en  la  evaluación.    La validez y confiabilidad en la investigación cuantitativa  En   la   investigación   cuantitativa   que   tiene   su   origen   en   el   positivismo   tradicional,   se   distinguen  diferentes  tipos  de   validez:  validez  de   construcción,   validez   interna,   validez   externa.   Todas   tratan  de   verificar   si   en  realidad   medimos   lo   que   nos   proponemos   medir.   Igualmente,   se   busca   determinar   un   buen   nivel   de  confiabilidad,  es  decir,  la  posibilidad  de  repetir  la  misma  investigación  con  idénticos  resultados.      La  validez  de  construcciones  hipotéticas   (de   ‘constructos’),  que  es   la  más   importante,   trata  de  establecer  una  medida  operacional  para  los  conceptos  usados.  Por  ejemplo,  un  instrumento  para  medir  la  inteligencia  debe  medir   la   inteligencia,  y  no   la  memoria,   lo  cual  requiere  a)  un  entendimiento  consensuado  y  explícito  acerca  de   lo  que   se  entiende  por   inteligencia   (a  diferencia  de   la  memoria)   y  b)  un   instrumento  que   logre  medir   un   conjunto   de   variables   que   efectivamente   reflejen   dicho   concepto.   Al   tratar   solamente   con  variables  que  representan  hechos  directamente  observables,  sería  sencillo   lograr   la  validez,  sinembargo,   la  “validez  de  constructos”  llega  a  ser  un  desafío  cuando  hablamos  precisamente  de  conceptos  complejos  y  no  directamente   medibles,   como   podría   ser   el   caso   de   variables   como   la   motivación,   calidad   de   servicio   al  cliente,   y  más  aún  en   cuanto  a   variables  que,  por  ejemplo,  estén   relacionado  con  actitudes,   sentimientos  etc.    La   validez   interna   está   relacionada   específicamente   con   el   establecimiento   o   búsqueda   de   una   relación  causal  o  explicativa;  es  decir,  si  el  evento  X  lleva  al  evento  Y;  excluyendo  la  posibilidad  de  que  sea  causado  por  el  evento  Z.  La  validez  interna  es  maximizada  mediante  diseños  experimentales  o  cuasi-­‐experimentales  y  analiza   internamente   el   estudio   cuestionando   si   las   relaciones   causales   encontradas   son   válidas   en   el  contexto  del  estudio,  lo  cual  no  necesariamente  significaría  que  deben  ser  válidas  para  otras  unidades  que  no  son  las  investigadas.      La   validez   externa,   por   el   otro   lado   trata   de   verificar   si   los   resultados   de   un   determinado   estudio   son  generalizables   más   allá   de   los   linderos   del   mismo.   La   validez   externa   responde   a   la   pregunta:   Lo   que  encontré  en  el  estudio  ¿a  qué  otras  personas,  grupos,  contextos  o  situaciones  se  aplica?.  Algunos  autores  se  refieren   a   este   tipo   de   validez   con   el   nombre   de   validez   de   contenido,   pues   la   definen   como   la  representatividad  o  adecuación  muestral  del  contenido  que  se  mide  con  el  contenido  del  universo  del  cual  es  extraída  (Kerlinger,  1981a,  p.  322).    

Page 3: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

3  

Es  importante  mencionar  que  la  validez  interna  y  externa  suelen  enconctarse  en  cierto  conflicto.  La  validez  interna  es  maximizada  cuando  se  logra  eliminar  todas  las  variables  confusoras  y  crear  un  ambiente  en  que  solamente  estén  presentes  las  variables  de  interés  que  representan  la  relación  causal.  Esto  suele  ser  el  caso  en  los  llamados  experimentos  de  laboratorio.  La  validez  externa,  por  el  otro  lado,  requiere  que  las  variables  de  interés  se  midan  en  su  contexto  natural  para  que  se  pueda  inferir  el  resultado  del  estudio  más  allá  de  los  límites   del   mismo.   Para   medir,   por   ejemplo,   el   efecto   de   un   programa   televisivo   didáctico   sobre   una  determinada   área   de   aprendizaje,   uno   podría   fácilmente   crear   una   situación   de   laboratorio   donde   los  jóvenes   se   expongan   al   programa   en   un   ambiente   perfectamente   controlado   y   con   mínimas   influencias  externas   (maximizando   la   validez   interna).   Pero  aunque   se   logre  medir  un  efecto  de  aprendizaje  positivo,  ¿este  mismo  efecto  se  daría  en  los  jóvenes  que  lo  miren  en  su  casa,  tomando  en  cuenta  todos  los  factores  que  puedan  disminuir   la  atención  y  el  por  ende,   la  asimilación  de   la   información?   (problema  de   la  validez  externa).  Finalmente,   la   confiabilidad   tiene   por   objeto   asegurarse   que   un   investigador,   siguiendo   los   mismos  procedimientos  descritos  por  otro  investigador  anterior  y  conduciendo  el  mismo  estudio,  puede  llegar  a  los  mismos   resultados   y   conclusiones.   Nótese   que   se   trata   de   rehacer   el   mismo   estudio,   no   una   réplica   del  mismo.    En   la   investigación   cuantitativa,   la   validez   (interna   y   externa)   se   asocia   a   las   respectivas   estrategias   de  investigación   (experimentales,  cuasi-­‐experimentales  o  no  experimentales;  de  campo  o  de   laboratorio)  que  son  tratadas  en  el  capítulo  5  del  Manual  Gerencial  para  el  diseño  y  ejecución  de  Evaluaciones  Estratégicas  de  Gobierno.  La  confiabilidad  es  alcanzada  sobre  todo  a   través  de  un  máximo  escrutinio  en   la  construcción  y  validación  de  los  instrumentos  para  la  recolección  (capítulo  6  del  mismo  manual)  así  como  de  la  uniformidad  de  la  forma  de  aplicación.        La validez y confiabilidad en la investigación cualitativa  1. La Validez  En  sentido  amplio  y  general,  una  investigación  cualitativa  tendrá  un  alto  nivel  de  “validez”  en  la  medida  en  que  sus   resultados  “reflejen”  una   imagen   lo  más  completa  posible,   clara  y   representativa  de   la   realidad  o  situación  estudiada.    Pero   no   se   tiene   un   solo   tipo   de   conocimiento.   El   positivismo   tradicional   ha   mostrado   ser   eficaz   en   las  ciencias  naturales  donde  produce  un  conocimiento  adecuado  para  tratar  con  el  mundo  físico.  Sin  embargo,  en   las   ciencias   sociales,   el   estudio   de   variables   aisladas,   desligadas   de   realidad   compleja   desde   la   cual   se  tienen  que  comprender,  ha   resultado  demasiado  reduccionista.  La   respuesta   la  dan  distintas   ramas  de   las  ciencias  histórico-­‐hermenéuticas  (ciencias  interpretativas)  que  llevan  a  una  priorización  de  una  metodología  cualitativa   y   un   análisis   interpretativo   (en   lugar   de   estadístico).   Por   esta   vía,   producen   el   conocimiento  interactivo  que  subyace  en    las  relaciones  sociales.      En   las   ciencias   hermenéuticas,   el   desafío   de   la   validez   se   enfrenta   de   una   manera   distinta   positivismo  tradicional   y   la   investigación   cuantitativa.   La   validez   se   aprecia   de   acuerdo   al   nivel   de   su   habilidad   para  producir  relaciones  humanas  con  alto  sentido  de  empatía  y  vinculación.  Una  investigación  tiene  un  alto  nivel  de  validez  si  al  observar  o  apreciar  una  realidad,  se  observa  o  aprecia  esa  realidad  en  sentido  pleno,  y  no  sólo  un  aspecto  o  parte  de  la  misma.    Si  la  confiabilidad  ha  representado  siempre  un  requisito  difícil  para  las  investigaciones  cualitativas,  debido  a  la  naturaleza  peculiar  de  éstas  (imposibilidad  de  repetir,  stricto  sensu,  el  mismo  estudio),  no  ha  ocurrido  lo  

Page 4: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

4   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

mismo   en   relación   con   la   validez.   Al   contrario,   la   validez   es   la   fuerza  mayor   de   estas   investigaciones.   En  efecto,  la  aseveración  de  los  investigadores  cualitativos  de  que  sus  estudios  poseen  un  alto  nivel  de  validez,  deriva  de  su  modo  de  recoger  la  información  y  de  las  técnicas  de  análisis  que  usan.  Esos  procedimientos  los  inducen  a  relacionarse  intensamente  con  los  sujetos  participantes  en  el  estudio,  a  recoger  los  datos  durante  largos   períodos   de   tiempo,   revisarlos,   compararlos   y   analizarlos   de   manera   continua,   al   adecuar   las  entrevistas  a  las  categorías  empíricas  de  los  participantes  y  no  a  conceptos  abstractos  o  extraños  traídos  de  otro  medio,  a  utilizar  la  observación  participativa  en  los  medios  y  contextos  reales  donde  se  dan  los  hechos  y,   finalmente,   a   incorporar   en   el   proceso   de   análisis   una   continua   actividad   de   realimentación   y   re  evaluación.   Aunque   todo   esto   garantiza   un   alto   nivel   de   validez,   también   la   validez   es   perfectible,   y   será  tanto  mayor   en   la  medida   en   que   se   tengan   en   cuenta   algunos   problemas   y   dificultades   que   se   pueden  presentar  en  la  investigación  cualitativa.    Entre  otros,  para  una  buena  validez  interna,  habrá  que  prestar  especial  atención  a  los  siguientes:    a)  Puede  haber  un  cambio  notable  en  el  ambiente  estudiado  entre  el  principio  y  el  fin  de  la  investigación.  En  este  caso,  habrá  que  recoger  y  cotejar  la  información  en  diferentes  momentos  del  proceso.    b)  Es  necesario  calibrar  bien  hasta  qué  punto  la  realidad  observada  es  una  función  de  la  posición,  el  estatus  y  el   rol  que  el   investigador  ha  asumido  dentro  del  grupo.  Las   situaciones   interactivas   siempre  crean  nuevas  realidades  o  modifican  las  existentes.    c)   La   credibilidad   de   la   información   puede   variar   mucho:   los   informantes   pueden   mentir,   omitir   datos  relevantes   o   tener   una   visión   distorsionada   de   las   cosas.   Será   necesario   contrastarla   con   la   de   otros,  recogerla  en  tiempos  diferentes,  etc.;  conviene,  asimismo,  que  la  muestra  de  informantes  represente  en  la  mejor  forma  posible  los  grupos,  orientaciones  o  posiciones  de  la  población  estudiada,  como  estrategia  para  corregir   distorsiones   perceptivas   y   prejuicios,   aunque   siempre   seguirá   siendo   cierto   que   la   verdad   no   es  producida  por  el  ejercicio  azarístico  y  democrático  en   la  recolección  de   la   información  general,  sino  por   la  información  de  las  personas  más  capacitadas  y  fidedignas.      En   cuanto   a   la   validez   externa,   es   necesario   recordar   que   a   menudo   las   estructuras   de   significado  descubiertas   en   un   grupo   no   son   comparables   con   las   de   otro,   porque   son   específicas   y   propias   de   ese  grupo,  en  esa  situación  y  en  esas  circunstancias,  o  porque  el  segundo  grupo  ha  sido    escogido  en  diferentes  circunstancias  o  a  partir  de  criterios  distintos  y  no  le  son  aplicables  las  conclusiones  obtenidas  en  el  primero.  Por   ende,   las   ciencias   hermenéuticas   suelen   concentrarse   en   la   plena   comprensión  del   caso   (o   los   casos)  estudiado(s),  y  no  asegurar  una  validez  externa.    2. La Confiabilidad  Una  investigación  con  buena  confiabilidad  es  aquella  que  es  estable,  segura,  congruente,  igual  a  sí  misma  en  diferentes  tiempos  y  previsible  para  el  futuro.  También  la  confiabilidad  tiene  dos  caras,  una   interna  y  otra  externa:  hay  confiabilidad  interna  cuando  varios  observadores,  al  estudiar  la  misma  realidad,  concuerdan  en  sus  conclusiones;  hay  confiabilidad  externa  cuando  investigadores  independientes,  al  estudiar  una  realidad  en  tiempos  o  situaciones  diferentes,  llegan  a  los  mismos  resultados.      El   concepto   tradicional   de   “confiabilidad”  externa   implica  que  un  estudio   se  puede   repetir   con  el  mismo  método   sin   alterar   los   resultados,   es   decir,   es   una   medida   de   la   replicabilidad   de   los   resultados   de   la  investigación.  En  las  ciencias  humanas,  dicha  confiabilidad  de  ninguna  manera  se  puede  considerar  como  un  simple   dicotomía   (“un   estudio   es   o   no   es   confiable”)   sino   como   una   característica   gradual   (de   menor   a  

Page 5: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

5  

mayor)   dado   que   es   prácticamente   imposible   reproducir   las   condiciones   exactas   en   que   “un  comportamiento”  y  su  estudio  tuvieron  lugar.    En  los  estudios  realizados  por  medio  de  investigaciones  cualitativas,  que,  en  general,  están  guiados  por  una  orientación   sistémica,   hermenéutica,   fenomenológica,   etnográfica   y   humanista,   la   confiabilidad   está  orientada  hacia  el  nivel  de  concordancia  interpretativa  entre  diferentes  observadores,  evaluadores  o  jueces  del  mismo  fenómeno,  es  decir,  la  confiabilidad  será,  sobre  todo  interna,  inter-­‐jueces.      Dada  la  naturaleza  particular  de  toda  investigación  cualitativa  y  la  complejidad  de  las  realidades  que  estudia,  no   es   posible   repetir   o   replicar   un   estudio   en   sentido   estricto,   como   se   puede   hacer   en   muchas  investigaciones   experimentales.   Debido   a   ello,   la   confiabilidad   de   estos   estudios   se   logra   usando   otros  procedimientos  rigurosos  y  sistemáticos.      La  confiabilidad  interna  es  muy  importante.  En  efecto,  el  nivel  de  consenso  entre  diferentes  observadores  de   la  misma   realidad   eleva   la   credibilidad   que  merecen   las   estructuras   significativas   descubiertas   en   un  determinado  ambiente,  así  como  la  seguridad  de  que  el  nivel  de  congruencia  de  los  fenómenos  en  estudio  es  fuerte  y  sólido.      Los   investigadores   cualitativos   suelen   utilizar   varias   estrategias   para   reducir   las   amenazas   que   se   le  presentan  a  la  confiabilidad  interna:    a)  Usar  categorías  descriptivas  de  bajo  nivel  de  inferencia,  es  decir,  lo  más  concretas  y  precisas  posible.  Los  datos  son  algo  ya   interpretado   (Hanson,  1977);  por  esto,  es  conveniente  que  estén  cercanos  a   la   realidad  observada:  quién  hizo  qué  cosa  y  en  qué  circunstancias.  Los  comentarios   interpretativos  pueden  añadirse,  eliminarse   o   modificarse   más   tarde.   Además,   la   mayoría   de   los   autores   coinciden   en   señalar   que   los  procedimientos  cualitativos  son  ricos  en  datos  primarios  y  frescos,  que  ofrecen  al  lector  múltiples  ejemplos  extraídos  de  las  notas  de  campo,  y  son,  por  esto,  generalmente  consideradas  como  más  creíbles.      b)   El   mejor   aval   para   la   confiabilidad   interna   de   un   estudio   cualitativo   es   la   presencia   de   varios  investigadores.   El   trabajo  en  equipo,   aunque  es  más  difícil   y   costoso,   garantiza  un  mejor  equilibrio  de   las  observaciones,  los  análisis  y  la  interpretación.      c)  Pedir  la  colaboración  de  los  sujetos  informantes  para  confirmar  la  “objetividad”  de  las  notas  o  apuntes  de  campo.  Asegurarse  de  que  lo  visto  o  registrado  por  el  investigador  coincide  o  es  consistente  con  lo  que  ven  o  dicen  los  sujetos  del  grupo  estudiado.      d)   Utilizar   todos   los   medios   técnicos   disponibles   en   la   actualidad   para   conservar   en   vivo   la   realidad  presenciada:  grabaciones  de  audio  y  de  vídeo,  fotografías,  diapositivas,  etc.  Este  material  permitirá  repetir  las   observaciones   de   realidades   que   son,   de   por   sí,   irrepetibles,   y   que   las   puedan   “presenciar”   otros  observadores  ausentes  en  el  momento  en  que  sucedieron  los  hechos.  Su  aporte  más  valioso  radica  en  que  nos  permiten  volver  a  los  “datos  brutos”  y  poder  categorizarlos  y  conceptualizarlos  de  nuevo.    Para   alcanzar   un   buen   nivel   de   confiabilidad   externa,   se   puede   recurrir,   entre   otras,   a   las   siguientes  estrategias:      a)  Precisar  el  nivel  de  participación  y   la  posición  asumida  por  el   investigador  en  el  grupo  estudiado;  cierta  información  puede  ser  diferente  de  acuerdo  con  el  sexo  de  quien  la  dé  (las  mujeres  pueden  ocultar  ciertos  datos  íntimos  si  el  investigador,  por  ejemplo,  es  de  sexo  masculino);  igual  sucede  si  el  investigador  ha  hecho  amigos  dentro  del  grupo;  éstos  le  darán  informaciones  que  no  les  dan  otros.    

Page 6: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

6   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

 b)   Identificar   claramente  a   los   informantes.   Éstos  pueden   representar   grupos  definidos   y  dar   información  parcial  o  prejuiciada.  Los  miembros  que  simpatizan  y  colaboran  más  con  los  investigadores  pueden  ser,  por  esto  mismo,  miembros  atípicos.  Esta  situación  se  puede  advertir  al  hacer  una  buena  descripción  del  tipo  de  personas  que  han  servido  como  informantes.      c)   Un   tercer   elemento   que   puede   influir   en   los   datos   es   el   contexto   en   que   se   recogen.   Debido   a   ello,  conviene   especificar   el   contexto   físico,   social   e   interpersonal   de   que   se   derivan.   Esto   aumentará   la  replicabilidad  de  los  estudios.      d)   Para   que   sea   posible   una   “cierta   réplica”   es   imprescindible   la   identificación   de   los   supuestos   y  metateorías   que   subyacen   en   la   elección   de   la   terminología   y   los  métodos   de   análisis.   Los   conceptos   de  “cultura”,   “ciencia”,   “método”,   “análisis”,   “dato”,   “codificación”   y   muchos   otros   pueden   diferir  sustancialmente  entre  diferentes  investigadores.    

 e)   Precisar   los   métodos   de   recolección   de   la   información   y   de   su   análisis,   de   tal   manera   que   otros  investigadores  puedan  servirse  del  reporte  original  como  un  manual  de  operación  para  repetir  el  estudio.  La  replicabilidad  se  vuelve  imposible  sin  una  precisa  identificación  y  cuidadosa  descripción  de  las  estrategias  de  procedimiento.    3. La triangulación para mejorar la validez y la confiabilidad  En   sentido   amplio,   en   las   ciencias   humanas,   también   se   pueden   realizar   varias   “triangulaciones”   que  mejoran   notablemente   los   resultados   de   la   investigación   y   su   validez   y   la   confiabilidad.   De   una   manera  particular,   se   pueden   combinar,   en   diferentes   formas,   técnicas   y   procedimientos   cualitativos   y  cuantitativos.  La   idea  central  es  utilizar  todo  lo  que  se  considere  pertinente,  tenga  relación  y  se  considere  útil.    Más  concretamente,  se  pueden  identificar  varios  tipos  básicos  de  triangulación:    a)   Triangulación   de   métodos   y   técnicas:   que   consiste   en   el   uso   de   múltiples   métodos   o   técnicas   para  estudiar   un   problema   determinado   (por   ejemplo,   el   hacer   un   estudio   panorámico   primero,   con   una  encuesta,  y  después  utilizar  la  observación  participativa  o  una  técnica  de  entrevista).    b)  Triangulación  de  datos:  en  la  cual  se  utiliza  una  variedad  de  datos  para  realizar  el  estudio,  provenientes  de  diferentes  fuentes  de  información.      c)  Triangulación  de  investigadores:  en  la  cual  participan  diferentes  investigadores  o  evaluadores,  quizá  con  formación,  profesión  y  experiencia  también  diferentes.      d)  Triangulación  de  teorías:  que  consiste  en  emplear  varias  perspectivas  para  interpretar  y  darle  estructura  a  un  mismo  conjunto  de  datos   (por  ejemplo,  una   teoría  basada  en   las   técnicas  de  correlación,  análisis  de  varianza,   análisis   de   regresión,   análisis   factorial   o   cluster   analysis   y   otra   que   utilice   la   observación  participativa).    e)  Triangulación   interdisciplinaria:   con   la  cual   se   invocan  múltiples  disciplinas  a   intervenir  en  el  estudio  o  investigación  en   cuestión   (por  ejemplo,   la  biología,   la  psicología,   la   sociología,   la  historia,   la   antropología,  etc.).  

Page 7: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

7  

Apartado 5.2: Diseños metodológicos cuantitativos Material 5.2.1: Diseños experimentales y cuasi-experimentales  I. Introducción: Sobre el enfoque cuantitativo  Para   la   evaluación   de   efectos   e   impactos,   se   utiliza   el   enfoque   cuantitativo   para   estimar   la   cuantía   del  resultado  de  la  intervención  mediante  el  estableciendo  de  relaciones  causales.      El  enfoque  cuantitativo  es  secuencial,  deductivo,  probatorio  y  analiza  una  realidad  supuestamente  objetiva.  Estas   características   se   fundamentan   en   un   proceso   de   investigación   estructurado,   donde   es   necesario  concluir  una  fase  para  continuar  con  la  siguiente.  La  ilustración  1  muestra  las  fases  del  proceso  cuantitativo:    

Ilustración  1.  Enfoque  cuantitativo:  su  proceso    

 La  evaluación  estratégica  bajo  el  enfoque  cuantitativo  requiere  que  el  problema  de  evaluación  sea   lo  más  concreto  posible,  con  el  fin  de  elaborar  las  preguntas  sobre  cuestiones  específicas.    

Cuando  la  intervención  no  tiene  teoría  de  intervención  o  no  está  bien  definida,  el  evaluador  debe  revisar  la  literatura  y  usar  su  experiencia  sobre  el  tema  para  re-­‐elaborar  la  teoría  de  la  intervención.  En  este  enfoque,  el  alcance  de  la  evaluación,  la(s)  hipótesis  y  preguntas  de  evaluación  son  planteadas  antes  de  recolectar  los  datos.    

Idea Planteamiento Del

Problema

Revisión de la Literatura y

Desarrollo del Merco teórico

Visualización del

Alcance Del estudio

Elaboración de hipótesis y

Definición de variables

Desarrollo del Diseño de

Investigación

Definición y Selección de la

muestra

Recolección de datos

Análisis de los datos

Elaboración del reporte de

resultados

Fase 1

Proceso cuantitativo

Fase 2 Fase 3 Fase 4 Fase 5

Fase Fase Fase Fase Fase

Fuente: Hernández, S. y otros, 2010

Page 8: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

8   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

 La  recolección  de  datos,  se  fundamenta  en  la  medición  de  variables  o  conceptos  contenidos  en  las  hipótesis;  y  se  lleva  a  cabo  utilizando  procedimientos  estandarizados.  Los  datos  se  presentan  mediante  variables  que  serán  analizados  cuantitativamente   (tratándose  de  variables  métricas,  ordinales  o  nominales),   a   través  de  métodos  estadísticos.      Los  datos  recolectados  y  analizados    bajo  el  enfoque  cuantitativo  son  utilizados  para  la  prueba  de  hipótesis  previamente   definidas,   de   manera   que   los   resultados   se   basan   solo   en   las   hipótesis   o   variables   que   se  propusieron  para  ser  analizadas.    El   proceso   de   la   evaluación   se   centra   en   rechazar   o   aceptar   la   hipótesis.   Este   enfoque   busca   el  máximo  control  para  lograr  que  posibles  explicaciones  -­‐distintas  a  la  propuesta  de  la  intervención-­‐  sean  rechazadas  y  aumente   la   confiabilidad   de   los   resultados;   siendo   éstos   lo   más   objetivos   posibles   y   permitan   ser  generalizados  sobre  la  población  de  interés.      Sobre  la  inferencia  causal  y  el  contrafactual    Es   necesario   introducir   dos   conceptos   elementales   para   llevar   a   cabo   evaluaciones   de   impacto   creíbles   y  precisas  dentro  del  enfoque  cuantitativo:  inferencia  causal  y  el  contrafactual.    Inferencia  causal    La  evaluación  de  impacto  trata  de  atribuir  la  causalidad  de  una  intervención  sobre  un  resultado  de  interés,  al  estimar  en  qué  medida  esa  (y  solo  esa)  intervención  ha  contribuido  a  cambiar  un  resultado.  ¿El  programa  de  capacitación   laboral   aumentó   los   ingresos   de   los   jóvenes   de   un   barrio   rural   pobre?;   ¿las   vacunas  disminuyeron  la  mortalidad  infantil?,  ¿el  programa  de  transferencia  monetaria  condicionada  redujo  la  tasa  de  deserción  estudiantil?;  son  preguntas  típicas  sobre  causalidad  presente  en  la  evaluación  de  impacto.    Determinar  la  relación  de  causalidad  entre  una  intervención  y  un  resultado  no  es  sencillo  y  para  ello  se  usan  métodos1   de   evaluación   de   impacto,   que   descartan   la   posibilidad   de   que   cualquier   factor   diferente   de   la  intervención  en  estudio  explique  el  impacto  observado.      La   interrogante   central   en   la   evaluación   de   resultados   es   cuál   es   el   impacto   o   efecto   causal   de   una  intervención  D  sobre  un  resultado  de  interés  Y;.  La  respuesta  a  la  pregunta  se  obtiene  mediante  la  fórmula  básica  de  la  evaluación  de  impacto:    

β  =  (Y  |  D  =  1)  −  (Y  |  D  =  0)      (1)    Según   esta   fórmula,   el   impacto   causal   (β)   de   una   intervención   (D)   sobre   un   resultado   (Y)   es   la   diferencia  entre  el  resultado  (Y)  con  la  intervención  (es  decir,  cuando  D  =  1)  y  el  mismo  resultado  (Y)  sin  la  intervención  (es  decir,  cuando  D  =  0).      Sea  P  un  programa  de  capacitación,  Y  el  ingreso  de  los  jóvenes  de  un  barrio  rural  pobre,  y  α  es  la  diferencia  entre  el   ingreso  del   joven  (Y)  cuando  participa  en  el  programa  (D  =  1)  y  el   ingreso  del   joven  en  ese  mismo  momento,   sino  hubiese  participado  en  el  programa   (D  =  0);  entonces,  es  necesario  medir  el   ingreso  de   la  

1 Los métodos de estimación de evaluación de impacto se describen más adelante.

Page 9: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

9  

misma  persona  en  dos  momentos  (con  o  sin  programa)2,  si  esto  fuese  posible,  la  única  explicación  sobre  la  diferencia   en   el   ingreso   de   ese   individuo   es   el   programa   de   capacitación   laboral,   eliminándose   cualquier  factor  externo  que  pudiera  explicar  también  la  diferencia  en  los  ingresos.  En  este  caso  se  podría  confiar  en  que  la  relación  entre  el  programa  de  capacitación  laboral  y  el  ingreso  es  causal.    La   fórmula   básica   de   la   evaluación   de   impacto   es   válida   a)   para   cualquier   objeto   de   análisis   (individuo,  comunidad,   institución   u   otro)   que   pueda   beneficiarse   o   verse   afectada   por   una   intervención;   y   b)   para  cualquier  resultado  (Y)  que  esté  relacionado  con  la  intervención.  Una  vez  que  se  cuente  con  los  datos  de  los  dos  componentes  esenciales  de  la  fórmula,  el  resultado  (Y)  tanto  con  la  intervención  como  sin  ella,  se  puede  responder  a  cualquier  pregunta  acerca  del  impacto  del  programa.    Contrafactual    “El  contrafactual  es  una  estimación  de  cuál  habría  sido  el   resultado  (Y)  en   las  variables  de   interés  para  un  participante   en   el   programa,   si   este   no   hubiera   tomado   el   programa   (D)”   (Gertler,   Martínez,   Premand,  Rawlings  y  Vermeersch,  2011).      El   impacto  (α)  de  una  intervención  es   la  diferencia  entre   los  resultados  (Y)  del  mismo  individuo  cuando  ha  participado   y   cuando   no   ha   participado   en   la   intervención.   No   obstante,   no   es   posible   medir   al   mismo  individuo  en   situaciones  diferentes  en  el  mismo  momento,  debido  a  que  el   individuo  participa  o  no  en   la  intervención.  Esta  situación,  es  conocida  como  el  “problema  contrafactual”.      El   problema   del   contrafactual   se   puede     resumir   en   la   pregunta   siguiente   ¿cómo   se   mide   los   datos   del  resultado   (Y)   si   el   individuo  que  participó   en   la   intervención   (D   =   1)   no   hubiese   participado   (D   =   0)   en   la  intervención?      El  contrafactual  se  representa  como  el  segundo  término  en  la  fórmula  básica  de  evaluación  (Y  |  D=  0).  Por  definición,  es  no  observable,  por  lo  que  se  debe  estimar.  La  estimación  del  contrafactual  requiere  métodos  para   identificar   los   grupos   de   control   o   comparación3   válidos   que   reproduzcan   o   imiten   exactamente   el  grupo  de   tratamiento.  Si  no   se  cuenta  con  una  estimación  válida  o   creíble  del   contrafactual,  no   se  puede  conocer  el  impacto  de  una  intervención.    La  evaluación  de  impacto    identifica  a  un  grupo  de  participantes  en  la  intervención  (el  grupo  de  tratamiento)  y  a  un  grupo  de  no  participantes  (el  grupo  de  control  o  comparación)  estadísticamente  idénticos  en  ausencia  de  la  intervención.  Si  se  lograra  que  los  dos  grupos  fueran  absolutamente  iguales,  a  excepción  de  que  uno  de  ellos  participa  en  el  programa  y  el  otro  no,  cualquier  diferencia  en   los  resultados  debería  ser  explicada  por  la  intervención.    Aunque   en   realidad   nunca   existirán   dos   grupos   idénticos   en   todas   sus   características   posiblemente  relevantes,  la  investigación  cuantitativa  propone  distintos  tipos  de  diseños  con  el  fin  de  simular  la  situación  contrafactual  y  de  esta  manera,  determinar  el  “resultado  neto”  de  una  intervención.    

2  Es  imposible  medir  el  resultado  de  un  indicador  de  interés  de  una  misma  persona  en  dos  momentos  diferentes,  ya  que,  no  se  sabe  cuál  sería  el  resultado  del  indicador  si  la  persona  no  participó  en  la  intervención.  3   Se   le   llama   grupo   de   control   cuando   el   diseño   es   experimental   y   grupo   de   comparación   cuando   el   diseño   es   no  experimental

Page 10: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

10   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

Por  basarse  en  la  existencia  de  grupos  de  control  o  grupos  de  comparación    -­‐  supuestamente  con  suficiente  parecido  al  grupo  de  intervención  -­‐    los  diseños  más  poderosos  para  la  determinación  del  “resultado  neto”  son  los  llamados  diseños  experimentales  y  cuasi-­‐experimentales.    II. Diseño experimental  El   diseño   experimental   también   es   conocido   con   los   nombres   de   “Diseño   de   controles   aleatorios4”/  “experimentos  aleatorios  (sociales)5”,  “experimento  social  controlado6”  y  “modelo  experimental”.7    Una  evaluación  con  diseño  experimental  es  una  valoración  lo  más  objetiva  posible  de  los  resultados  de  una  intervención  que  se  caracteriza  principalmente  por  el  mecanismo  de  selección  al  azar  de  los  beneficiarios  y  no  beneficiarios,  así  como  un  absoluto  control  de  la  intervención  y  sus  respectivas  modificaciones.      En  este  tipo  de  diseños  la  intervención  y  sus  respectivas  modificaciones  son  planificadas  por  el  planificador  o  evaluador;   los   factores   externos   (crisis   económica,   alza   en   el   precio   internacional   del   petróleo,   desastres  naturales,  otros)  que  pueden  incidir  sobre  los  resultados  de  la  intervención  son  controlados  o  manipulados  por  el  evaluador.  Evidentemente,  esto  no  quiere  decir  que  los  factores  externos  son  eliminados  (lo  cual  sería  imposible  en  el  mundo   social)   sino  que   los  grupos   se   conforman  de   tal  manera  que   los   factores  externos  afecten  al  grupo  de  beneficiarios  como  al  grupo  de  no  beneficiarios  de  la  misma  manera.    La  ilustración  2,  muestra  las  dos  etapas  del  mecanismo  de  selección  de  las  personas  que  participaran  en  la  intervención   y   aquellas   que   no   participaran.   La   primera   etapa   consiste   en   obtener   una   muestra   al   azar  (aleatoria)  de   los  beneficiarios  potenciales.  Una  vez  obtenido  esa  muestra,  procede   la  segunda  etapa,  que  radica  en  asignar  al  azar  quienes  participaran  y  quienes  no  participaran  de  la  intervención.    Por  ejemplo,  supóngase  la  siguiente  situación  hipotética:  Para  una  población  de  1000  mujeres  pobres  jefas  de  hogar  en  cierta  provincia,  el  Gobierno  realiza  un  proyecto  de  transferencia  monetaria;  el  administrador  del   proyecto   asigna  un  número  del   uno  al  mil   a   cada  mujer,   y   posteriormente,   de  un  bolsa  que   contiene  papelitos  con  cifras  del  uno  al  mil  saca  al  azar  (como  especie  de  lotería)  una  muestra  de  500  papelitos,  los  cuales   corresponden   a   una   muestra   de   500   mujeres   que   son   potenciales   beneficiarias.   A   partir   de   esa  muestra,   el   administrador   asigna   al   azar   las   mujeres   que   participaran   y   que   no   participaran   de   la  intervención.  Nótese,  que  las  mujeres  no  eligen  si  participar  o  no,  es  el  administrador  es  quien  asigna  al  azar  la  participación.      La   importancia   de   asignar   al   azar   quien   participa   y   quien   no   en   una   intervención   es   hacer   grupos  comparables  entre  sí  que  no  se  distinguen  por  otro  factor  a  excepción  de  la  variabilidad  estadística.  Todas  las   personas   poseen   características   observables   y   características   no   observables8   diferentes.   El   proceso  aleatorio   facilita   la   comparabilidad  de   los   grupos,   ya  que  asigna  una  probabilidad   igual   a   cada  uno  de   los  beneficiarios  potenciales,   con   lo  cual   se  asegura  de  distribuir  equivalentemente   (en   términos  estadísticos)  las  características  observables  y  no  observables  entre  ambos  grupos.  Al  grupo  de  individuos  no  participantes  se  les  llama  grupo  de  control  porque  son  el  parámetro  de  comparación  del  grupo  de  participantes,  a  estos  

4 Gertler,  et  al  (2011).  5  Bernal  y  Peña  (2011).  6  Ídem.  7  Stockmann  (2009).  8  Las  características  o  variables  no  observables  son  aquellas  que  existen  y  que  se  registran,  las  características  o  variables  no  observables  son    aquellas  que  no  existen  o  no  se  cuenta  con  un  registro  de  las  mismas  (Bernal  y  Peña,  2011:18).

Page 11: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

11  

últimos  se  les  conoce  como  grupo  de  tratamiento  o  intervención,  porque  son  quienes  reciben  el  tratamiento  o  la  intervención,  tal  y  como  aparece  en  la  ilustración  2.        

Ilustración  2.  Diseño  experimental                                        La  primera  etapa  del  diseño  experimental  es  una  condición  necesaria  para  posibilitar  la  validez  externa  de  la  evaluación,  es  decir  que  aporta  información  acerca  de  la  posibilidad  de  extrapolar  el  resultado  de  la  muestra  a  la  población  de  interés.  Sin  embargo,  existen  otros  desafíos  para  la  validez  externa  que  están  relacionados  con  el  carácter  “artificial”  del  experimento  (véase  el  siguiente  apartado  sobre  experimentos  de  laboratorio  vs.  experimentos  de  campo).  La  segunda  etapa    garantiza  la  comparabilidad  del  grupo  de  intervención  con  el  grupo   de   control   maximizando   de   esta   manera   la   validez   interna,   esto   es,   el   grado   de   certeza   de   que  cualquier  diferencia  encontrada  entre  los  dos  se  debe  solo  al  hecho  de  participar  o  no  en  la  intervención  que  se  evalúa,   controlando  así   la   incidencia  de  otras   factores  externos  que  estén  asociadas   con   la   variable  de  resultado  o  interés  y  la  participación  en  la  intervención  pública.  Si  esto  se  cumple,  entonces  el  impacto  de  la  intervención   es   el   resultado   de   restar   los   promedios   de   las   variables   de   resultados   entre   ambos   grupos  (Bernal  y  Peña,  2011:  40,  l).     I.1   Tipos  de  experimentos    I.1.1   Plan  Experimental  Solomon  de  Cuatro  Grupos   Una   debilidad   del   diseño   sencillo   de   dos   grupos   (con  medición   antes   y   después   de   la   intervención)   es   la  dificultad  de  controlar  por  factores  reactivos  de  la  medición.  Si  bien  una  medición  antes  de  la  medición  es  importante  para  registrar  diferencias  entre  ambos  grupos  debido  a  errores  aleatorios,  esta  misma  medición  puede   influir   en   el   resultado.   Cuando   en   el   caso   de   un   curso   de   capacitación,   por   ejemplo,   se   realiza   un  examen   de   entrada   y   uno   ex-­‐post,   el   grupo   de   control   ya   queda   familiarizado   con   los   requerimientos.  Aunque  ellos  no  participen  en  la  intervención,  es  posible  que  terminen  mejor  preparados  para  el  examen  ex-­‐pos  que  otras  personas  que  no  han  sido  parte  del  estudio.    

Fuente: Elaboración propia con base a CEPAL (2005)

Muestra

Población

Control

Intervención o

tratamiento

Resultado

Resultado

Presente Futuro

Selección al azar La evaluación compara ambos resultados

1° Etapa 2° Etapa

Selección al azar

Page 12: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

12   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

Al   contar   con  esta   amenaza  para   la   validez  del   estudio,   el   diseño  descrito   se   amplía  mediante  el   llamado  “Plan   Experimental   Solomon   de   Cuatro   Grupos”   (Ilustración   3)   con   dos   grupos   adicionales   (un   grupo  experimental   y   otro   de   control),   en   los   cuales   solamente   se   realiza   una   medición   posterior   (para   una  descripción   del   diseño,   véase   Bortz   y   Döring   2002:   539f.).   Por   este   medio   se   pretende   controlar  adicionalmente  el  efecto  reactivo  de  la  medición.      

Ilustración  3.  Plan  Experimental  Solomon  de  Cuatro  Grupos    

                                        I.1.2   Experimentos  de  laboratorio  y  experimentos  de  campo    En  el  contexto  de  la  evaluación  se  hallan  dos  tipos  de  experimentos:    

• Experimento  de  laboratorio.  Son  aquellos  experimentos  donde  la  intervención  se  lleva  a  cabo  en  un  entorno   “artificial”   controlado;   donde   se   controlan   o   manipulan   los   factores   externos   de   la  intervención;   el   ambiente   y   el   desarrollo   de   la   misma;   así   como   el   comportamiento   del   grupo  intervenido   y   el   grupo   de   control.   Bajo   condiciones   controladas,   la   influencia   y   presencia   de  factores   externos   a   la   intervención   es  mínima,   lo   que   permite   estudiar   las   relaciones   “puras”   de  causa   –   efecto.   Este   tipo   de   experimentos   maximiza   la   validez   interna   de   los   resultados,   sin  embargo,  en  el  contexto  de  la  evaluación  de  intervenciones  públicas,  muy  raras  veces  es  aplicable,  dado   que   las   intervenciones   tienen   lugar   en   un   entorno   social   natural   y   complejo.   Aunque   en  

Fuente: Elaboración propia con base a CEPAL (2005)

Muestra

Población Medición ex ante

Medición ex post Selección al azar

Grupo de control I (ex ante)

Grupo de intervención

I (ex ante)

Grupo de intervención

I (ex pos)

Grupo de control I (ex post)

Grupo de intervención

II

Grupo de control

II

Page 13: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

13  

algunos  casos  fuera  posible  aislar  la  intervención  bajo  condiciones  de  “laboratorio”,  es  muy  posible  que  los  efectos  observados  en  condiciones  artificiales  no  se  dejaran  extrapolar  al  contexto  natural  de  la  intervención  (problema  de  la  validez  externa).  

 • Experimento  de  campo.  Son  aquellos  experimentos  donde  “la  intervención  se  realiza  en  un  entono  

real”,  por   lo   tanto,  no  se  controlan  o  manipulan   los  efectos  externos  que  pueden   incidir   sobre   la  intervención  y  el  comportamiento  del  grupo  de  intervención  y  control.  Bajo  estas  circunstancias,  la  relación  causa  –efecto  se  estudia  en  el  contexto  real  de  la  intervención;  lo  cual  permite  maximizar  la  validez  externa.  Debido  a  que  este  tipo  de  experimento  se  estudia  en  el  ámbito  real,  es  que  su  uso  es  común  en  las  evaluaciones  de  intervenciones  públicas.  

I.1.2   Aleatorización  individual  y  de  conglomerado    En  ocasiones,  la  participación  en  una  intervención  se  puede  realizar  al  azar  sea  a  nivel  individual  o  a  nivel  de  conglomerado;   esto   según   las   razones   éticas   o   prácticas   con   las   que   la   intervención   permita   hacer   la  asignación  aleatoria.    

• “Aleatorización  a  nivel    individual.”    Se  lleva  a  cabo  asignando  de  manera  aleatoria  la  participación  en  la  intervención  a  nivel  individual  (por  ejemplo:  personas,  hogares,  empresas).  En  este  caso,  de  la  lista  de  elegibles,  se  asignan  al  azar  a  aquellas  personas,  hogares  u  empresas  que  participarán  en  la  intervención  como  también  a  aquellos  que  serán  parte  del  grupo  de  control.  

 • “Aleatorización  a  nivel  de  conglomerados.”  La  asignación  de  los  participantes  en  la  intervención  se  

hace  a  nivel  de  conglomerados  (por  ejemplo:  comunidades,  distritos).  Generalmente,  esta  variante  del  diseño  se  aplica  cuando  la  intervención  permea  a  todo  un  subgrupo  de  la  población.  Este  tipo  de  aleatorización  se  realiza  principalmente  cuando  existen  a)  razones  éticas:  no  se  puede  negar  el  acceso   a   los   beneficios   de   la   intervención   a   cierto   número   de   personas   u   hogares   de   la   misma  comunidad,  por  ejemplo,  un  barrio  que  presenta  la  problemática  de  niños  y  niñas  desnutridas,  sise  realiza  una  intervención  para  mejorar  la  nutrición  de  este  subgrupo  de  la  población,  la  intervención  no   será   ética   si,   entrega   alimentos   solo   a   aquel   grupo   de   niños   y   niñas   que   fueron   asignadas   a  participar   en   la   intervención   y   a   su   vez   forman  el   grupo  de   intervención,  mientras   se   le  priva  de  alimentos  a  aquellos  niños  y  niñas  que  no  tuvieron  la  suerte  de  que  sus  nombres  saliera  dentro  del  grupo   de   intervención,   sino   que   les   corresponde   ser   parte   del   grupo   de   control;   b)   razones  prácticas:  en  ocasiones  las  restricciones  logísticas,  presupuestarias  y  de  la  capacidad  operativa  de  la  intervención   imposibilitan   que   los   beneficios   de   la  misma   afecten   al   mismo  momento   a   toda   la  población,  debido  a  que  la  intervención  se  realiza  primero  en  algunos  subgrupos  de  la  población  y  luego  se  lleva  a  cabo  a  los  restantes  subgrupos,  esto  significa  que  se  pospone  la  entrada  de  algunos  subgrupos   a   la   intervención,   y   así   se   garantiza   la   existencia   de   grupos   de   control;   c)   existe   una  interacción   entre   los   beneficiados   y   los   no   beneficiados   lo   cual   puede   llevar,   por   ejemplo,   a   la  posibilidad  de  que  los  beneficios  permeen  de  un  grupo  a  otro:  esto  implica  que  a  la  hora  de  evaluar  la  intervención  se  puede  concluir  erróneamente  sobre  los  efectos  (o  sea:  la  carencia  de  efectos)  de  la  intervención.    

 En  resumen,  la  deseabilidad  de  un  tipo  u  otro  de  aleatorización  depende  del  tipo  de  preguntas  de  interés  en  la  evaluación,  consideraciones  políticas  y  éticas,  restricciones  logísticas  y  existencia  de  externalidades,  entre  otras  (Bernal  y  Peña,  2011:).     I.2   ¿Cuándo  se  aplica  diseño  experimental    en  una  evaluación?  

Page 14: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

14   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

 Para  la  aplicación  o  uso  de  este  diseño  se  debe  tener  en  cuenta  las  siguientes  características:    

• La   evaluación   mediante   este   diseño   es   aplicable   únicamente   cuando   se   prevé   el   diseño   de   la  evaluación  en  el  momento  de  planificación  de  la  intervención.    

• El   mecanismo   de   selección   de   los   beneficiarios   de   la   intervención   es   aleatoria   (grupo   de  intervención  aleatorio).    

• El  mecanismo  de  selección  del  grupo  de  control  es  aleatoria.    

• En  cuanto  a   la  disponibilidad  de   los  datos  para  un  buen  diseño  experimental,   se   requiere  que   los  datos  hayan  sido  capturados  antes  y  después  de  la  intervención  tanto  para  el  grupo  de  intervención  como  el  grupo  de  control,  así  como  la  cantidad  de  veces  que  sea  necesario  o  recomendable  entre  esos  dos  momentos.    

 • El   diseño   experimental   se   aplica   solamente   cuando   la   cobertura   de   la   intervención   es   parcial.   La  

aleatoriedad  como  mecanismo  de  acceso,   raras  veces   (o  mejor  dicho:  prácticamente  nunca)  es  el  mecanismo  más   funcional  desde  el  punto  de  vista  de   la   teoría  de  cambio  subyacente.  Por  eso,  el  diseño   experimental   requiere,   en   cierta  medida,   que   la   intervención   se   diseñe   en   función   de   su  evaluabilidad   (y  no  vice-­‐versa)   lo  cual  podría  ser   justificable  en  algunos  casos  de  proyectos  piloto  que  se  evalúan  a  pequeña  escala,  antes  de  que   la   intervención   se   introduzca  para  una  población  objetivo  más  amplia.  

 I.3   Modelos  de  estimación  del  diseño  experimental    Los   modelos   de   estimación   son   herramientas   estadísticas   y   econométricas   utilizadas   para   estimar   los  resultados  de  una  intervención  a  partir  de  relaciones  causales;  para  ello,  los  modelos  se  nutren  de  muchas  variables  representadas  numéricamente  y  varios  supuestos  sobre  las  mismas.  En  el  caso  de  las  evaluaciones,      la   variable  que   representa  el   resultado  de   la   intervención  en  el  modelo  de  estimación   se   le   conoce  como  variable  de  resultado.      I.3.1   Modelo  de  diferencias  sencillo    La  aleatorización  de  los  grupos  asegura  que  las  características  entre  el  grupo  de  intervención  y  el  grupo  de  control  sean  idénticas.  Esto  implica  dos    aspectos  importantes:      

• Que  en  ausencia  de   la   intervención,  el  valor  de   la  variable  de  resultado  sea   idéntico  entre  ambos  grupos,  permitiendo  entonces  que  el  grupo  de  control  sea  un  buen  contrafactual;    

 • Que  después   de   la   intervención,   el   valor   de   la   variable   de   resultado  del   grupo  de   intervención   y  

grupo  de  control  difiera  únicamente  por  motivos  de   la  exposición  a   la   intervención,  y  no  a  otras  características  o  variables  observables  o  no  observables  que  generan  el  sesgo  de  selección.    

Dado   que   bajo   el   diseño   experimental   se   puede   contar   un   buen   contrafactual   y   el   sesgo   de   selección   es  controlado  o  resuelto,  la  estimación  del  resultado  de  la  intervención  es  relativamente  fácil  y  no  implica  uso  de  técnicas  econométricas  complejas  en  comparación  con  los  modelos  de  otros  diseños.    

Page 15: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

15  

El   resultado   de   la   intervención   bajo   el   modelo   de   diferencias   –en   forma   general-­‐   se   estima   como   la  diferencia9  de  medias  (promedios)  en  la  variable  de  resultado  entre  el  grupo  de  intervención  y  el  grupo  de  control.   La   diferencia   de   medias   se   puede   calcular   con   un   el   modelo   de   estimación   lineal   de   Mínimos  Cuadrado  Ordinarios  (MCO)  10:      Yi  =  β0  +  β1Di  +  ui      (1)    Donde      Yi  representa  la  variable  de  resultado  para  el  individuo  i,  Di  representa  una  variable  binaria,  que  toma  el  valor  de  1  si  el  individuo  i  participa  en  la  intervención  y  0  si  el  individuo  i  es  elegible  pero  no  participa  en  la  intervención,  β1    representa  el  estimador  de  diferencias.  Es  el  efecto  de  la  intervención;  ui    es  el  término  error  de  la  regresión  que  recoge  las  variables  observadas  y  no  observadas  del   individuo  i,  aparte  de  Di,  que  afectan  el  resultado.    II.3.2   Variantes  del  modelo  de  diferencias  11    

1. “El estimador de diferencias con regresores adicionales” o con variables explicativas adicionales

 Esta  variante  del  modelo  de  diferencias,  agrega  una(s)  variable(s)  explicativa(s)  adicional(es)  al  modelo  de  regresión  (1).  Las  variables  explicativas  son  aquellas  variables  que  explican  en  alguna  medida  la  variable  de  resultado.      Supóngase,  que  existe  un  programa  sobre  capacitación  en  el  idioma  inglés  para  mujeres  jefas  de  hogar  y  se  desea  evaluar  el  impacto  de  ese  programa.  Se  tiene  datos  tanto  para  las  mujeres  del  grupo  de  intervención  y  control  sobre  el  salario  (variable  de  resultado),  si  participó  o  no  en  la  intervención  (variable  que  indica  si  la  mujer  está  dentro  del  grupo  de  intervención  o  control)  y  además  el  nivel  de  escolaridad  (variable  explicativa  adicional).  La  ecuación  2  representa  tal  situación:  

 Yi  =  β0  +  β1Di  +  γ1X1  +  ui      (2)    Donde,      Yi    representa  la  variable  de  resultado  para  la  mujer  i  (salario),  Di    indica  si  la  mujer  jefa  de  hogar  participó  (D  i  =  1)  o  no  en  la  capacitación  (D  i  =  0),  X1      variable  explicativa  adicional  que  representa  el  nivel  de  escolaridad  de  la  mujer  jefa  de  hogar    i  que  está  presente   antes   de   la   intervención.     X1   no   es   afectada   por   la   intervención   pero   contribuye   determinar   la  variable  de  resultado,  β1    representa  el  estimador  de  diferencias  con  variables  explicativas  adicionales  (el  efecto  del  programa),  γ1,K     representa   el   estimador   de     la   contribución   del   nivel   de   escolaridad   (   variable   adicional)   al   salario  (variable  de  resultado)  además    del  programa.    

9  La  diferencia  es  el  “resultado  de  la  operación  de  restar”,  según  el  DRAE.  10   Véase   Gujarati   (2004)   para   una   información   detallada   sobre   el   modelo   de   estimación   de   MCO   y   sus   respectivos  supuestos.  11  Para  un  mayor  detalle,  véase  Bernal  y  Peña  (2011).

Page 16: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

16   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

El   estimador   de   diferencias   con   regresores   adicionales   es   insesgado,   consistente   y  más   eficiente   que   el  estimador  de  diferencias  propuesto  en     la  ecuación  (1),  ya  que  al  agregar  más  variables  en   la  ecuación,  se  mejora  la  precisión  con  que  se  estiman  los  resultados  (Bernal  y  Peña,  2011:).  Para  llevar  a  cabo  estimaciones  bajo   esta   variante   se   requiere   que   la   base   de   datos   contenga   datos   sobre   las   variables   explicativas  adicionales  para  el  grupo  de  intervención  y  el  grupo  de  control.    

   

2. “El estimador de diferencias con efectos heterogéneos”  Si  dentro  de  los  grupos  de  análisis  existen  subgrupos,  es  posible  que  los  efectos  de  la  intervención  difieran  entre   los   individuos   o   subgrupos,   por   lo   tanto,   los   resultados   de   la   intervención   puede   variar   para   cada  subgrupo,  según  el  valor  de  una  determinada  variable  explicativa.  Como  ejemplo,  supóngase  que  se  desea  saber   si   la  mejora  en  el   salario   como   resultado  de  una   intervención  es  más  eficiente  en   las  mujeres  y   los  hombres   (ambos   grupos   recibieron   la  misma   intervención).   En   este   caso,  X   es   la   variable   sexo,   y   toma  el  valor  1  si  es  mujer  o  0  si  es  hombre.    Para  captar  si  existen  diferencias  en  los  resultados,   la  ecuación  de  regresión  incluye  la   interacción  entre  la  variable  que  indica  la  participación  del  individuo  i  en  la  intervención  Di,  y  la  variable  explicativa  Xi:      Yi  =  β0  +  β1Di  +  β2Xi+  β3  DiXi+  ui      (3)      Donde,      Yi    es  la  variable  de  resultado  para  el  individuo  i  (salario),  Di    es  la  variable  que  indica  si  el  individuo  participó  o  no  en  la  intervención,  Xi    es  una  variable  explicativa  adicional  (sexo),  DiXi  es  la  interacción  entre  la  variable  que  indica  la  participación  en  la  intervención  y  la  variable  explicativa  de  interés,  es  decir,  la  interacción  entre  la  intervención  y  el  sexo  de  la  persona.  β1    representa  el  estimador  de  diferencias,    β3   representa  el  efecto  diferencial  de   la   intervención  sobre   las  mujeres.  β3  >  0  mide  qué  tanto  mejor  es   la  intervención  sobre  las  mujeres  con  respecto  a  los  hombres.    Si  a  la  hora  de  estimar  la  ecuación,  el  estimador  de  la  interacción  β3    es  mayor  a  0  indica  que  los  salarios  de  las  mujeres  mejoraron  más  que  los  de  los  hombres.    I.4   Fortalezas  y  debilidades  de  los  diseños  experimentales    I.4.1   Fortalezas  

• Es   fácil   entender   la   lógica   de   un   diseño   experimental   (asigna   al   azar   los   participantes   de   una  intervención).    

 • Las  técnicas  para  el  cálculo  del  impacto  son  sencillas,  por  lo  tanto,  los  resultados  son  transparentes  

para  políticos,  diseñadores  de  intervenciones  y  población  general  (Bernal  y  Peña,  2011:).    

• Es  el  diseño  que  permite  el  uso  de  modelos  de  estimaciones  que  arrojan  estimaciones  más  precisas  o  confiables.  

 

Page 17: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

17  

• Los  resultados  de  la  evaluación  no  son  fácilmente  manipulables,  es  decir,  no  se  requiere  del  uso  de  otras  técnicas  estadísticas  –fuera  del  modelo  de  diferencias-­‐  para  estimar  los  resultados.  Con  eso  se  diferencia   de   otras   técnicas   estadísticas,   que   se   basan   en   conceptos   más   complejos   donde   las  variables  pueden  modelarse  en  cierta  medida  a    conveniencia.  

 • La  asignación  al  azar  minimiza  los  sesgos  sistemáticos  de  selección  entre  el  grupo  de  tratamiento  y  

control.   Si   bien   sigue   expuesto   a   un   error   por   variabilidad   aleatorio,   este   puede   ser   estimado  mediante   cálculos   estadísticos   (a   diferencia   de   los   sesgos   sistemáticos   que   pueden   pasar  desapercibidos).  

 • Los   diseños   de   experimentos   de   campo   maximizan   la   validez   externa   de   los   resultados   de   una  

evaluación,  y  los  experimentos  de  laboratorio  maximizan  la  validez  interna.    

• Si  la  muestra  es  lo  suficientemente  grande  se  asegura  la  validez  interna  de  la  evaluación  de  impacto  (cualquier  diferencia  entre  el  grupo  de  tratamiento  y  control  después  de  la  intervención  puede  ser  atribuida   a   la   intervención).   Esto   ocurre   porque   se  minimiza   o   controla   la   influencia   de   factores  externos.  

 I.4.2   Limitaciones  del  diseño  experimental    Aunque  es  indiscutible  que    -­‐  en  teoría  -­‐    el  diseño  experimental  es  el  diseño  más  poderoso  para  determinar  el  “resultado  neto”  de  una   intervención,  desgraciadamente  existen  restricciones  o   limitaciones  que  suelen  dificultar  y  muchas  veces  incluso  imposibilitar,  la  aplicación  de  este  diseño  en  la  evaluación:    

• Mecanismo   de   selección   de   la   intervención   incongruente   con   los   requerimientos   de   un   diseño  experimental:  La  gran  mayoría  de  las  intervenciones  se  caracterizan  por  mecanismos  de  selección  distintas   a   la   aleatorización.   Mecanismos   frecuentes   son,   por   ejemplo,   la   auto-­‐selección   (solo  participa   quién   quiere   participar,   por   ejemplo   en   una   oferta   de   capacitación   de   participación  voluntaria),   o   reglas   definidas   de   acceso   (por   ejemplo,   acceso   por   altas   calificaciones   en   un  programa  de  beca,  acceso  por  bajo  nivel  de  ingreso  a  una  prestación  monetaria).  En  estos  casos,  un  diseño  experimental  “puro”  ya  no  es  aplicable.    

• Otros   problemas   en   la   aleatorización.   Si   no   se   puede   asegurar   una   exitosa   aleatorización,   la  inferencia   estadística   que   se   realice   sobre   los   resultados   de   la   evaluación   no   es   válida   para   la  población  de  estudio  (Bernal  y  Peña,  2011,  ),  debido  a  que  los  resultados  reflejan  tanto  el  impacto  de  la   intervención  como  el  efecto  en  la  falla  en  la  aleatorización.  Entre  algunos  ejemplos  de  fallas  en   la   aleatorización   están:   a)   Cambios   en   el   comportamiento   de   los   grupos   observados,   por  ejemplo,  si  el  grupo  de  intervención  sabe  que  participa  de  un  experimento  y  está  siendo  observado  por  el  evaluador,  puede  cambiar  su  comportamiento  (efecto  experimental  o  Hawthorne),  lo  mismo  puede  suceder  en  el  grupo  de  control  (Efecto  John  Henry);  b)  Tamaño  de  la  muestra  pequeña,  una  muestra  pequeña  (puede  deberse  al  alto  costo  de  un  diseño  experimental  social)  afecta  la  precisión  de  los  resultados  y  no  garantiza  el  supuesto  de  independencia  condicional12;  c)  El  no  cumplimiento  del   protocolo   de   tratamiento,   y   la   pérdida   de   muestra,   i)   introducen   correlación   entre   el  tratamiento   y   el   término   error   ,   ii)   el   tratamiento   o   la   intervención   no   es   asignado   de   manera  completamente   aleatoria,   sino  que   se  basa   en   características   o  preferencias   de   los   individuos,   lo  que  puede   implicar,  que   las  personas  asignadas  al   grupo  de   intervención  decidan  no  participar  o  

12  El  supuesto  de  independencia  condicional  implica  que  la  variable  de  resultado  en  ausencia  de  la  intervención  debería  ser  idéntica  para  el  grupo  de  intervención  como  para  el  grupo  de  control.  

Page 18: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

18   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

bien  personas  del  grupo  de  control  participen  en  la  intervención,  lo  que  genera  sesgos  de  selección,  y  por  lo  tanto,  las  técnicas  descritas  para  este  diseño  no  son  aptas  para  para  estimar  los  resultados  de  la  intervención  (Ídem)..  

 • Discusiones  de  tipo  ético/político.  Restringir   la  participación  de  personas  que  cumplen  con  todas  

las   condiciones   de   acceso   a   una   intervención   e   igualmente   vulnerable   que   el   grupo   intervenido,  genera   discusiones   de   tipo   moral,   especialmente,   si   el   motivo   es   para   contar   con   un   grupo   de  control.   Es   decir,   la   investigación   “abusa”   de   un   grupo   vulnerable   para   generar   un   insumo   al  estudio,  privándolo  a  la  vez  del  beneficio  que  podría  ofrecer  la  intervención.  Dependiendo  del  tipo  de  bien  o  servicio  que  se  ofrece,  impedir  el  acceso  a  los  beneficios  del  programa  podría  hasta  poner  en  peligro  la  salud  de  esas  personas  o  incluso  su  vida.  

 • Incumplimiento  (non-­‐compliance    en  inglés).  Durante  el  experimento,  los  individuos  en    los  grupos  

de   intervención   o   control   podrían   cambiar   determinadas   características   que   los   identifican,   por  ejemplo,  algunos  agentes  que  fueron  seleccionados  para  el  grupo  de  intervención,  pueden  terminar  no   recibiéndola   o   ellos   mismos   podrían   no   estar   interesados   en   la   intervención;   de   manera  alternativa,   los   agentes   que   fueron   designados   al   grupo   de   control   terminan   participando   en   la  intervención.    Este  problema   invalidaría  o  contaminaría   la  medición  del   impacto  de   la  evaluación,  pues  un  agente  se  analiza  dentro  del  grupo  de  intervención  cuando  en  la  realidad  no  recibió  ningún  beneficio  o  bien,  un  agente  del  grupo  de  control  si  recibió  los  beneficios  de  la  intervención.      

• Dificultad   de   controlar   por   efecto   placebo.   “El   efecto   placebo   es   la   relación   positiva   entre   la  respuesta  de   la  unidad  al   tratamiento  y   las  expectativas  de   la  unidad  acerca  de  estar  expuesta  al  tratamiento”  (Rossi,  2011).  Un  ejemplo  sencillo  de  cuando  se  controla  por  el  placebo,  es  cuando  un  medicamento  se  le  otorga  a  un  paciente  que  pertenece  al  grupo  tratado  y  se  le  otorga  un  placebo  (medicamento   que   no   tiene   efecto   sobre   la   salud)   a   un   paciente   del   grupo   de   control.   Ambos  pacientes  tienen  expectativas  positivas  sobre  su  recuperación,  pero  no  saben  a  cuál  de  ellos  se   le  dio  el  medicamento  y  a  cual  el  placebo.  En  ciencias  sociales  es  difícil  controlar  por  efecto  placebo,  ya  que,  las  personas  tienen  el  conocimiento  de  que  están  siendo  o  no  tratadas.      

• Desgaste  de  la  muestra  (attrition  en  inglés).  Algunas  unidades  desaparecen  de  la  muestra  en  algún  punto  del  tiempo  entre  la  encuesta  de  línea  de  base  y  la  encuesta  final.  Esto  tiene  implicaciones  en  la   estimación   del   resultado,   pues   ya   no   existe   el   valor   de   una   o   las   variables   de   cierto   (s)  individuo(s).   El   desgaste   de   la   muestra   no   tiene   mayores   implicaciones   cuando   a)   una   cantidad  suficiente   de   personas   permanece   en   el   estudio   para   que   se   puedan   generar   resultados  estadísticamente   significativos,   y   b)   el   desgaste   no   es   causado   por   un   factor   sistemático   que  interactúa   con   la   variable   de   impacto.   Por   ejemplo,   en   un   programa   de   capacitación   se   podría  observar  que  solamente  los  más  motivados  y  ágiles  concluyan  el  programa  –  es  decir  aquellos  que  de   todas   maneras   hubieran   alcanzado   mejores   resultados   que   el   promedio   de   la   población   de  interés.  Desgraciadamente,  este  sesgo  no  es  la  excepción  sino  la  regla.  

 • Externalidades   o   efecto   derrame   (spillovers   en   inglés)   y   “efectos   de   equilibrio   general”.   Las  

externalidades  son  los  efectos  externos  previstos  o  no  por  la  intervención,  esto  implica  que  algunos  individuos  que  no  reciben  la  intervención  pueden  beneficiarse  del  hecho  que  otros  individuos  estén  siendo  intervenidas.  Lo  que  puede  verse  como  un  efecto  secundario  sumamente  positivo  desde  el  punto  de  vista  de   los  gestores  de   la   intervención,   le  crea  dificultades  metodológicas  al  evaluador  dado  que  su  supuesto  grupo  de  control  queda  “contaminado”.  (Bernal  y  Peña,  2011,).      

Page 19: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

19  

 I.4.3   Posible  abordaje  de  las  limitaciones      Para  asegurar  la  aleatorización  de  la  muestra  se  puede  permitir  el  ingreso  de  agentes  del  grupo  de  control  a  la  intervención  en  una  etapa  posterior,  una  vez  que  se  ha  diseñado  y  se  ha  iniciado  la  evaluación.  Con  esta  técnica,   la   selección  aleatoria  determina   cuándo   el   beneficiario   calificado   recibe   la   intervención   y  no   si   lo  recibe.  Esto  permite  abordar  preguntas  con  respecto  al  tiempo  necesario  para  que  la  intervención  sea  eficaz  para  lograr  su  propósito.      El  método  de  Variables  Instrumentales  puede  utilizarse  para  solucionar  el  problema  de  non  compliance.  En  el   caso   del   problema   de   attrition,   se   recomienda   chequear   el   balance   de   las   características   en   el   grupo  afectado   por   la   desaparición   de   las   unidades   muestrales.   Para   disminuir   el   problema   asociado   al   efecto  derrame,  es  aconsejable  realizar  la  aleatorización  a  nivel  de  grupo  y  no  en  forma  individual,  por  ejemplo:  un  programa  de  educación  donde  se  otorga  libros  de  enseñanza  básica  por  cantones,  así  el  cantón  de  control  puede  estar  alejado  del  cantón  de  intervención,  atenuando  el  efecto  derrame.    II. Diseños cuasi-experimentales  Una  evaluación  con  diseño  cuasi  experimental  es  una  valoración  de  los  resultados  de  una  intervención  que  se   diferencia   del   experimento   “puro”   en   que   el   mecanismo   de   selección   de   los   beneficiarios   y   no  beneficiarios  no  es  al  azar.   Sin  embargo,   las  condiciones  de   la   intervención   tienen  algún   grado  de  control.  Siempre   que   se   logra   optimizar   dicho   control,   los   diseños   cuasi-­‐experimentales   pueden   -­‐   según   Bernal   y  Peña  (2011),    adquirir  un  alto  grado  de  validez  interna  “como  si  fuera”  un  diseño  experimental  (aleatorio).    Comúnmente,   las   condiciones   de   la   intervención   evaluada   mediante   el   diseño   cuasi-­‐experimental   se  desarrollan  en  un  contexto  real  o  natural,  es  decir,  suele  aplicarse  cuando  los  planificadores  o  evaluadores  de  la  intervención  no  controlan  la  totalidad  de  los  factores  externos  que  pueden  incidir  en  el  mecanismo  de  selección  de  los  intervenidos.  Sin  embargo,  existe  la  posibilidad  de  identificar  variables  relacionadas  con  el  acceso  a  la  intervención  que  permiten  formar  grupos  de  comparación  y  ejercer  algún  grado  de  control  sobre  los  factores  externos.    En  algunos   (pocos)  casos  el  objeto  evaluado  está  relacionado  con  un  evento   fortuito  que  asignó  al  azar  al  grupo   de   tratamiento.   En   este   caso,   la   evaluación   de   resultados   utilizaría   el   mismo   instrumental  metodológico   del   diseño   experimental13   o   el   modelo   de   diferencias-­‐en-­‐diferencias   (véase   apartado   II.3),  siempre  y  cuando  se  disponga  de  una  base  de  datos  longitudinales:    Por  ejemplo,  Card  (1990)14  citado  en  Bernal  y  Peña  (2011)  realizó  un  estudio  que  consistió  en  determinar  si  el   incremento  en  el  flujo  inmigratorio  (cubano)  disminuyó  los  salarios  de  las  zonas  receptoras15  (Miami).  El  evento  fortuito  que  genera  una  asignación  al  tratamiento  (inmigración)  que  “podría  parecer  aleatoria”  para  conocer  el  impacto  de  la  inmigración  sobre  los  salarios  es  el  cambio  inesperado  en  la  ley  migratoria,  la  cual  eliminó  las  restricciones  inmigratorias  de  Cuba,  con  lo  cual,  125  000  cubanos  llegaran  a  Estados  Unidos  entre  mayo  y  septiembre  de  1980,    de  los  cuales,  aproximadamente  el  50%  se  quedaron  en  Miami;  lo  que  a  su  vez  provocó  que  la  oferta  laboral  aumentará  alrededor  del  7%    en  este  Estado.  

13  El  diseño  experimental  utiliza  el  modelo  de  diferencias.  Para  más  detalle,  véase  página  ZZZ  Cuál  página???  14  Para  un  mayor  conocimiento  sobre  este  estudio  se  puede  referir  a  Card,  D.  (1990).  The  impact  of  the  Mariel  Boat  Lift  on  the  Miami  Labor  Market.  Industrial  and  Labor  Relations  Reviews,  43  (2),  245-­‐257.    15  Según  la  teoría  económica,  un  aumento  en  la  oferta  laboral  debido  al  flujo  de  inmigrantes  provocaría  un  descenso  en  los  salarios  de  la  localidad  receptora  de  inmigrantes.

Page 20: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

20   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

 Bajo  estas  circunstancias  el  grupo  de  intervención  son  los  trabajadores  poco  calificados  en  Miami  y  el  grupo  de  comparación  son  los  trabajadores  poco  calificados  de  Atlanta,  Houston,  Los  Ángeles  y    Tampa,  las  cuales  presentaban  características  similares  a  Miami,  en  cuanto  a  proporciones  de  poblaciones  hispanas  y  negras  y  tasas  de  crecimiento  económico.    Sin  embargo,  lo  más  común  es  que  los  mecanismos  de  selección  de  la  intervención  evaluada  no  se  acercan  a  una   selección   por   azar   sino   presentan   sesgos   de   selección   importantes.   Por   ejemplo,   debido   a   razones  éticas,  prácticas  o   inherentes  a   la  propia   lógica  de   la   intervención,   los  planificadores  de   la   intervención  no  seleccionan  al  azar  el  grupo  de  los  beneficiarios  y  los  no  beneficiarios.  Quién  participa  en  uno  u  otro  grupo  se   debe   a   criterios   de   focalización,   eventos   fortuitos   o   la   decisión   de   la   persona   a   participar   de   la  intervención;   por   lo   tanto,   es   muy   probable   que   aunque   todas   las   personas   sean   elegibles   para   la  intervención,  no  todas  presentan  las  mismas  características  observables  y  no  observables.  En  otras  palabras,  se   presenta   un   sesgo   de   selección.   Debido   a   estas   limitaciones,   el   grupo   no   beneficiario   no   puede   ser  seleccionado   al   azar   sino   tiene   que   ser   construido   o   formado   según   la   similitud   que   presente   con   las  características   observadas   del   grupo   beneficiarios   (grupo   de   intervención).   Es   por   esta   razón   que   las  personas  que  no  participan  no  se   les  denomina  grupo  de  control  (como  en  el  diseño  experimental  “puro”)  sino  grupo  de  comparación.    El   hecho   de   los   dos   grupos   distintos   (beneficiario   y   no   beneficiarios)   se   distinguen   en   determinadas  características  que  no  solamente  afecten  la  probabilidad  de  participar  en  la  intervención  sino  que  también  interactúan   con   los   resultados   de   las   variables   a   evaluar   en   forma   diferente   en   ambos   grupos   -­‐   aún   en  ausencia  de  la  intervención-­‐  se  le  conoce  como  sesgo  de  selección    (Bernal  y  Peña,  2011:30;  Moral,  2009:7).      El   sesgo  de   selección  puede  generar   resultados   inexactos  e   incluso  erróneos:   subestimar  o   sobrestimar  el  impacto  real  de  la  intervención;  impactos  negativos  cuando  realmente  son  positivos  (y  viceversa)  e  impactos  estadísticamente  insignificante  cuando  en  realidad  tienen  una  dimensión  importante  (y  viceversa).  Por  este  motivo,  el   impacto  de  una   intervención  no  podrá  ser  estimado  a   través  de   la  simple  diferencia  de  medias  entre  la  variable  de  resultado  del  grupo  de  intervención  y  el  grupo  de  comparación.        II.1     ¿Cuándo  se  aplican  diseños  cuasi  experimentales?    La  aplicación  o  uso  de  este  diseño  se  realiza  cuando  están  presentes  los  siguientes  aspectos:    

• Se   utiliza   cuando   no   se   puede   controlar   el   acceso   a   la   intervención   o   cuando   no   es   factible   una  muestra  al  azar  para  el  grupo  de  control  (CICAP  y  CEval,  2011).    

• El   mecanismo   de   selección   del   grupo   de   control   es   formado   mediante   controles   construidos   o  controles  estadísticos,  debido  a  que  no  es  factible  formar  un  grupo  de  control  aleatorio.    

 • Generalmente,   los  datos  están  disponibles  solo  después  de   la   intervención,  pero  también  pueden  

estar  disponibles  antes  y  durante  la  intervención.      

• Igual  que  los  diseños  experimentales,  la  mayoría  de  los  diseños  cuasi-­‐experimentales  son  aplicables  únicamente  cuando  la  cobertura  de  la   intervención  es  parcial,  es  decir,  cuando  la   intervención  no  abarca   toda   la   población.   Al   tratar   de   una   intervención   de   cobertura   total,   no   sería   posible  conformar  un  grupo  de  comparación.    

   

Fortalezas  del  uso  del  diseño  cuasi  experimental  

Page 21: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

21  

 • Es   el   segundo   diseño   más   rigoroso   o   confiable   después   del   diseño   experimental   para   realizar  

evaluaciones  de  resultados.    

• Mientras  el  uso  de  diseños  experimentales  “puros”  es  extremadamente   limitado  en   la  evaluación  de   intervenciones   públicas,   los   diseños   experimentales   tienen  mucho  más   campos   de   aplicación  (CICAP  y  CEval,  2011).    

• Algunas  modalidades  de  los  diseños  cuasi-­‐experimentales  se  pueden  llevar  a  cabo,  aún,  cuando  su    diseño  no   se   realizó  durante   la  planificación  de   la   intervención   (y  por   lo   tanto,  no   se  dispone  de  datos  antes  de  la  misma);  cuando  aplican  exclusivamente  con  base  en  datos  generados  después  de  la   intervención.  En  muchas  ocasiones,  se  puede  utilizar   los  datos  administrativos  que  se  tengan  a  disposición,  siempre  y  cuando  se  distingan  cuáles  son  del  grupo  de  intervención  y  cuáles  del  grupo  de  comparación.  

 • Dependiendo   de   la   calidad   de   los   grupos   de   comparación   conformados   (véase   apartado   II.3)   la  

validez   interna   de   un   diseño   cuasi-­‐experimental   puede   aproximarse   a   aquella   de   un   diseño  experimental  “puro”.  

   

Limitaciones  del  uso  de  diseños  cuasi  experimentales    

• Ningún   método   cuasi-­‐experimental   puede   brindar   cien   por   ciento   de   seguridad   acerca   de   si   se  pudieron  neutralizar  los  eventuales  efectos  de  terceras  variables  (Stockmann,  2009,  p.  265).  

 • Los  métodos  estadísticos  propuestos  pueden  ser  bastante  complejos.  Esto  implica  que  se  necesita  

una  considerable  experiencia  en  el  diseño  de   la  evaluación  y  en  el  análisis  e   interpretación  de   los  resultados.        

• Presencia  del  problema  de  sesgo  de  selección.  Se   relaciona  con   las  características  no  observables  que  puedan  sesgar  los  resultados.  Este  sesgo  puede  afectar  tanto  el  diseño  muestral  como  el  valor  de  la  variable  de  resultados.  

 II.2   Modelo  de  estimación  de  diferencias  en  diferencias    Todos  los  mecanismos  de  selección  del  grupo  de  comparación  que  se  presentarán  más  adelante  tienen  en  común    que  no  son  aleatorios  (como  en  el  diseño  experimental  “puro”)  y  por  ende  se  puede  presentar  un  sesgo  de  selección  que  puede  generar  estimaciones  inexactas.  Por  lo  tanto,    el  impacto  de  una  intervención  no  podrá  ser  estimado  a  través  de  la  simple  diferencia  de  medias  entre  la  variable  de  resultado  del  grupo  de  intervención   y   el   grupo   de   comparación.   Sin   embargo,   el   diseño   cuasi   experimental   cuenta   con  modelos  capaces  de  aislar  las  distorsiones  causadas  por  el  sesgo  de  selección.      Aunque  algunas  variantes  de   los  diseños  cuasi-­‐experimentales  se  basan  en  un  solo  momento  de  medición  (después  de  la  intervención),  lo  deseable  en  la  mayoría  de  los  casos  es  contar  con  datos  tanto  antes  como  después   de   la   intervención   lo   cual   permite   un   análisis   llamado   de   diferencias   en   diferencias   que   puede  complementar   la   mayoría   de   los   diseños   experimentales   independientemente   de   cómo   se   hayan  conformado  los  respectivos  grupos  de  comparación  (véase  apartado  II.3).    

Page 22: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

22   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

II.2.1   Modelo  de  diferencias  en  diferencias  sencillo  (También  conocido  como  “doble  diferencia”  o  “DD”)    El   modelo   de   diferencias   en   diferencias   es   aplicado   tanto   en   el   diseño   experimental   como   cuasi  experimental,  no  obstante,  su  uso  es  más  frecuente  en  cuasi  experimentos,  debido  a  que  es  posible  que  se  genera   una   asignación   que   conlleva   diferencias   preexistentes   entre   el   grupo   de   tratamiento   y   grupo   de  comparación.        Cuando   esto   es   el   caso,   es   muy   probable   que   se   hallen   diferencias   sistemáticas   antes   y   después   de   la  intervención   entre   el   grupo   de   intervención   y   el   grupo   de   comparación.   Si   la   intervención   se   desarrolló  según   lo  planificado,  el  evaluador  hallará  diferencias16  entre  ambos  grupos  después  de   la   intervención,  no  obstante,  debe   tener  presente  que  esas  diferencias  pueden  deberse   tanto  a   las  diferencias  pre  existentes  antes  de  la  intervención  como  a  la  intervención  en  sí.        El  modelo  de  diferencias  en  diferencias  es  utilizado  para  eliminar  la   influencia  de  los  valores  iniciales  de  la  variable   de   resultado   que   pueden   variar   sistemáticamente   entre   el   grupo   de   intervención   y   el   grupo   de  comparación   (Bernal   y  Peña,  2011:).   Por   lo   tanto,  permite   tener  en   cuenta  y  hacer  desaparecer   cualquier  diferencia  constante  en  el  tiempo  entre  ambos  grupos.    “El  modelo   de   diferencias   en   diferencias   es   simplemente   el   cambio   esperado   en   la   variable   de   resultado  entre   el   período   posterior   y   el   período   anterior   a   la   implementación   de   la   intervención   en   el   grupo   de  intervención,  menos  la  diferencia  esperada  de  la  variable  de  resultados  en  el  grupo  de  comparación  durante  el  mismo  período”  (Bernal  y  Peña,  2011:).    Una   estimación   por  medio   de   este  modelo   requiere   datos   tanto   del   grupo   de   intervención   como  para   el  grupo  de  comparación  en,  al  menos,  dos  períodos  de  tiempo  (antes  y  después  de  la  intervención),  es  decir,  requiere   lo   que   se   llama   datos   de   panel.   Si   la   base   de   datos   contiene   datos   desde   mucho   antes   de   la  intervención  y  de  seguimiento,  incluso  se  podrán  hacer  pruebas  estadísticas  sobre  el  comportamiento  de  las  tendencias  naturales  que  presentan  las  variables,  y  tomar  en  cuenta  dichos  comportamientos  a   la  hora  de  estimar  e  interpretar  los  resultados.      La   tabla   1   refleja   la   noción   de   la   estimación   del   impacto   de   un   caso   hipotético   de   un   programa   de  capacitación  laboral  donde  se  dispone  de  datos  para  el  grupo  de  tratamiento  y  de  comparación  antes  de  su  ejecución  y  después  su  finalización.      

• Primera  diferencia:   En  este  paso  se  estima  el   cambio   (primera  diferencia)  en  el   salario  promedio  tanto  del  grupo  de  intervención  como  del  grupo  de  comparación.  

 Cambio  o  primera  diferencia  para  el  grupo  de  intervención:  se  le  resta  al  salario  promedio  después   de   la   intervención   (50   unidades  monetarias)   el   salario   promedio   después   de   la  misma   (90   unidades   monetarias),   para   obtener   el   cambio   en   el   salario   promedio   (40  unidades  monetarias).  

 Cambio  o  primera  diferencia  para  el  grupo  de  comparación:  El  procedimiento  es  el  mismo.  Se   le   resta   al   salario   promedio   después   de   la   intervención   (55   unidades   monetarias)   el  

16   Se   espera   que   al   finalizar   la   intervención   el   valor   de   la   variable   de   resultado   del   grupo   de   intervención   presente  diferencias  significativas  con  respecto  al  valor  de  la  variable  de  resultado  del  grupo  de  comparación,  ya  que  el  primero  se  benefició  de  los  productos  de  la  intervención,  mientras  el  segundo  no.    

Page 23: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

23  

salario  promedio  después  de   la  misma  (45  unidades  monetarias),  para  obtener  el  cambio  en  el  salario  promedio  (10  unidades  monetarias).  

 Tabla  1.  El  modelo  de  diferencias  en  diferencias  

 GRUPO   ANTES  (t1)   DESPUÉS(t2)   PRIMERA  

DIFERENCIA  (horizontal)  

SEGUNDA  DIFERENCIA  (horizontal)  

De  Intervención   50   90   90-­‐50  =  40   40-­‐10  =  30  De  Comparación   45   55   55-­‐45  =  10        

• Segunda   diferencia:   La   segunda   diferencia   muestra   el   impacto   del   programa   de   capacitación  laboral   y   se   obtiene   diferenciando   el   cambio   o   resultado  de   la   primera   diferencia   de   los   salarios  promedios   de   ambos   grupos.   Para   este   ejemplo,   se   diferenciar   la   primera   diferencia   del   salario  promedio   para   el   grupo   de   intervención   (40   unidades   monetarias)   con   respecto   a   la   primera  diferencia  del  salario  promedio    del  grupo  de  comparación  (10  unidades  monetarias),  con  lo  cual  se  obtiene  la  segunda  diferencia  del  salario  promedio  con  un  valor  de  30  unidades  monetarias  (40-­‐10).      El   impacto  del  programa  de  capacitación  laboral  es  un  cambio  positivo  (aumento)  de  30  unidades  monetarias   sobre   el   salario   promedio   para   el   grupo   intervenido,   ya   que   el   salario   promedio   del  grupo  de   comparación   aumentó  10  unidades  monetarias   durante   el   lapso  de   la   intervención,   sin  haber  participado  en  la  misma.  

 Este  modelo   también  puede  calcularse  de   forma  vertical,   es  decir,   la  primera  diferencia  puede  obtenerse  restando  el  valor  de  la  variable  de  interés  antes  de  la  intervención  (50-­‐45  =  5)  para  ambos  grupos  y  después  de  la  intervención  (90-­‐55  =  35)  para  los  dos  grupos.  La  segunda  diferencia,  vendría  dado  por  la  diferencia  de  los  datos  obtenidos  en  la  primera  diferencia  (35-­‐5  =  30).    II.2.2   Modelo  de  diferencias  en  diferencias  con  regresores  adicionales    El   modelo   de   diferencias   en   diferencias   se   puede   ampliar   al   agregar   aquellas   variables   explicativas   que  capturan   el   valor   de   las   características   observadas   que   distinguen   al   grupo   de   intervención   del   grupo   de  comparación  antes  de  la  intervención.  Este  modelo  agrega  particularmente  aquellas  variables  que  varían  o  cambian   el   tiempo,   con   el   fin   de   distinguir   cuánto   del   cambio   en   la   variable   de   resultado   se   debe   a   las  características   preexistentes   antes   del   tratamiento   entre   ambos   grupos   y   cuánto   al   efecto   mismo   de   la  intervención  en  sí.    La  ecuación  que  representa  este  modelo  es:    Δ  Yi  =  β0  +  β1Di  +  β2X1i+  βk+1Xki+  vi      (4)    Donde,    Δ  Yi    es  el  cambio  en  el  valor  de  la  variable  de  resultado  durante  el  desarrollo  de  la  intervención,  Di  representa  una  variable  binaria,  que  toma  el  valor  de  1  si  el  individuo  i  participa  en  la  intervención  y  0  si  el  individuo  i  es  elegible  pero  no  participa  en  la  intervención,  

Fuente:  Elaboración  propia  

Page 24: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

24   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

Xki    es  la  variable  explicativa  que  representa  la  característica  observada  antes  de  la  intervención,  y  que  no  es  afectada  directamente  por  la  intervención,  β1    es  el  estimador  del  efecto  de  la  intervención.    Es  la  diferencia  entre  las  dos  medias  de  grupo  de  Δ  Yi,      vi    representa  el  término  error.    Las  variables  explicativas  adicionales  controlan  por   las  diferencias  en  el  cambio  en  la  variable  de  resultado  durante  el  desarrollo  de  la  intervención  y  no  los  niveles  de  la  variable  de  resultados  (Bernal  y  Peña,  2011:).    Esta  variante  se  utiliza  cuando  se  desea  controlar  por  diferencias  sistemáticas  preexistentes  entre  el  grupo  de  intervención  y  el  de  comparación,  mejorar  la  eficiencia  del  estimador,  evaluar  la  validez  del  supuesto  de  tendencias   paralelas   y   ajustar   el   estimador   si   la   asignación   a   la   intervención   depende   de   una   variable  explicativa   observada.   Los   resultados   de   una   intervención   pueden   ser   disímiles   entre   los   diferentes  subgrupos  del  grupo  de  intervención,  por  lo  que,  al  agregar  la  variable  explicativa  considerada  para  asignar  la   participación  del   individuo   a   la   intervención,   se   logra  un  mejor   cálculo   del   estimador,   y   por   ende,  más  precisión   en   la   interpretación   del   mismo.   Por   ejemplo,   cuando   la   asignación   a   la   participación   de   un  programa  de  nutrición  para  niños   y   niñas  depende  de   la   variable   estatura  por   edad,   y,   los   resultados  del  programa  difieren  si  son  niños  y  niñas  altos    en  comparación  con  los  niños  y  niñas  de  más  baja  estatura  por  edad;  es  necesario  incluir  dentro  del  cálculo,  la  variable  estatura  por  edad  para  ambos  grupos,  con  el  fin  de  ajustar  el  estimador.    II.3   Diseños  cuasi  experimentales  según  la  técnica  para  conformar  el  grupo  de  comparación    Los  diseños   cuasi-­‐experimentales   se  distinguen   sobre   todo  de   acuerdo  a   la  manera  en  que   se   forman   los  grupos  de  comparación.  Las  técnicas  para  la  conformación  de  grupos  de  comparación  consideradas  en  este  apartado  son:  emparejamiento,  variables  instrumentales  y  regresión  discontinua.  De  acuerdo  al  autor  y  a  las  condiciones   específicas   de   la   evaluación,   no   existe   una   línea   inequívoca   que   permiten   denominar   como  cuasi-­‐experimental   todo  estudio  que  use  una  de   las  mencionadas   técnicas.   Sin   embargo,   todos   tienen  en  común   cierto   grado   de   rigurosidad   al   componer   el   grupo   de   comparación.   En   esto,   se   diferencian  significativamente   de   los     diseños   no-­‐experimentales   sin   grupo   comparación,   basados   únicamente   en   los  llamados   controles   reflexivos   (es   decir,   la   medición   repetida   de   diferencias   únicamente   en   el   grupo   de  intervención).    II.3.1     Emparejamiento      También  recibe  el  nombre  método  de  pareo,  pareamiento,  controles  construidos  o  “matching”  (en  inglés).    El  método  de  emparejamiento  es  utilizado  para  construir  grupos  de  comparación  “artificiales”   cuando   los  individuos  que  participan  en  la  intervención  no  han  sido  asignados  al  azar  pero  si  de  acuerdo  a  las  variables  observables  que  no  están  determinadas  por  la  intervención.  La  intención  es  que  si  las  variables  observables  de  los  individuos  participantes  y  no  participantes  son  similares,  es  probable  que  las  variables  no  observables  entre  ambos  grupos  también  lo  sean  y  se  encuentren  balanceadas.    Este  método   consiste   en   establecer   variables   que   guían   la   selección   de   las   personas   que   conformarán   el  grupo  de   comparación,   procurando  que  el   grupo  de   intervención   y   el   grupo  de   control   se  parezcan  en   la  mayor   medida   posible   en   relación   a   dichas   variales.   Para   ello,   se   empareja   o   une   a   cada   individuo  participante  con  otro  individuo  no  participante  que  posea  características  observables  similares17  al  primero.  Los  individuos  no  participantes  emparejados  se  convierten  así  en  el  grupo  de  comparación.  

17  La  información  sobre  las  características  similares  se  requieren  ex  ante  de  la  ejecución  de  la  intervención.    

Page 25: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

25  

 Imagínese   la  existencia  de  un  programa  de  aprendizaje  de   lenguas  extranjeras  que  está  dirigido  a   jóvenes  entre   18   y   22   años,   que   viven   en   distritos   con   bajo   índice   de   desarrollo   social,   que   han   finalizado   la  secundaria.   Ahora   bien,   este   modelo   lo   que   hará   es   buscar   jóvenes   que   no   hayan   participado   en   el  programa,  pero  que  sus  edades  oscilen  entre  los  18  a  22  años,  que  tengan  su  título  de  secundaria  completa,  que   vivan   en  distritos   con  bajo   índice  de  desarrollo   social;   y   los   emparejará   con   aquellos   que   si   han   sido  seleccionados   para   participar   en   la   intervención.   Nótese,   que   las   características   o   variables   de   los  participantes  y  no  participantes  son  observables.    Si   la   selección   de   los   participantes   es   realizada   en   base   a   variables   observables,   entonces   se   asumen   los  siguientes  puntos:    

• El  sesgo  de  selección  se  debe  principalmente  a  las  diferencias  en  las  variables  observables  (Bernal  y  Peña,   2011:   102).   Esto   implica   que   la   calidad   del   diseño   depende   de   que   se   hayan   identificado  adecuadamente   las   variables   de   elegibilidad   (lo   cual   es   un   desafío   conceptual   importante   en   la  práctica).    

• Habiéndose   controlado   el   sesgo   de   selección,   las   diferencias   en   los   resultados   entre   el   grupo   de  intervención  y  el  grupo  de  comparación  se  debe,  en  primer  lugar,  a  la  exposición  de  la  intervención.  

 • Se  cumple  el  supuesto  de  “condición  de   independencia  condicional".  Esto  significa  que  se  asegura  

que   al   condicionar   en   las   variables   observables,   el   valor   esperado   del   contrafactual   sea   lo   más  cercano  al  valor  esperado  de  la  variable  de  resultado  del  grupo  de  comparación,  y  por  lo  tanto,  el  sesgo   de   selección   es   mínimo.   Además,   este   supuesto   implica   que   la   participación   en   la  intervención   no   está   determinada   por   variables   no   observables   que   también   determinen   las  variables  de  resultados  potenciales  (Bernal  y  Peña,  2011:).  

 Si  el  sesgo  de  selección  obedece  solo  a  las  diferencias  en  las    características  observables  y  su  valor  es  igual  a  cero,   el   impacto   de   la   intervención   se   puede   estimar   –de   forma   insesgada-­‐   como   la   diferencia   en   el  promedio   de   las   variables   de   resultado   del   grupo   de   intervención   y   del   grupo   de   comparación   (Bernal   y  Peña,  2011:).    La  estimación  suele  complicarse,  cuando  la  lista  de  variables  observables  es  muy  grande  o  contiene  valores  múltiples   lo   cual   puede   incidir,   de  manera   significativa,   en   el   tamaño.     En   el   caso   de   no   incluir   todas   las  variables  relevantes,  se  corre  el  riesgo  de  dejar  por  fuera  características  que  hubieran  sido  relevantes  para  identificar  correctamente  el  grupo  de  comparación  (y  en  consecuencia:  para  determinar  el  “resultado  neto”  de   la   intervención).   Al   contrario,   si   el   número   de   características   observables   aumenta   o   éstas   asumen  múltiples  valores,  es  más  difícil  asegurar  que  la  base  de  datos  contenga  una  buena  unidad  de  comparación  para  cada  una  de  las  unidades  intervenidas  debido  a  que  es  cada  vez  más  difícil  identificar  una  pareja  para  cada  unidad  tratada  que  comparta  todas  las  características  observables.  A  esta  situación  se  le  conoce  como  el  problema  de  la  “maldición  de  la  dimensionalidad”  (Gertler,  et  al    2011:  108;  Bernal  y  Peña,  2011:  103).      El  problema  de  la  “maldición  de  la  dimensionalidad”  se  puede  resolver  emparejando  a  los  individuos,  ya  no  según  vector  de  características  observables   (cuya  dimensión  puede  ser  muy  pequeña  o  muy  grande),   sino    según   la   probabilidad   estimada   de   participar18   en   la   intervención   dada   las   variables   observables.   Esto   se  

18   Rosenbaum  and  Rubin   (1983)   citado   en   Rossi   (2011),     demostraron   que   para   la   validez   del   estudio   es   equivalente  realizar  matching  con  todas  las  características  observadas  que  hacerlo  con  el  propensity  score  estimado.    

Page 26: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

26   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

conoce  como  el  modelo  de  Emparejamiento  de   las  Propensiones  a  Participar  o  Propensity  Score  Matching  (PSM,  en  inglés).    II.3.2   Emparejamiento  de  las  Propensiones  a  Participar    Este   método   permite   encontrar   el   mejor   grupo   de   comparación   con   el   que   se   empareja   el   grupo   de  intervención,  basado  ya  no  en  cada  una  de  las  variables  observables  sino  en  la  probabilidad  de  participación  en   la   intervención   dada   las   características   observables.   Un   individuo   que   no   haya   participado   es   elegible  para   el   grupo   de   comparación,   si   su   probabilidad   de   participación   está  muy   cerca   o   es  muy   similar   a   la  probabilidad  de  participación  de  un  individuo  del  grupo  de  intervención.  La  probabilidad  de  participar    es  un  número  real  entre  0  y  1  que  resume  todas  las  características  observadas  de  las  unidades.    Para  que  el  emparejamiento  por  medio  de  este  método  produzca  estimaciones  que  tengan  validez  externa  (Gertler,   et   al     2011:   109),   se   requiere   que   cada   uno   de   individuos   del   grupo   de   intervención   debe  emparejarse  con  un  individuo  no  haya  participado  de  la  intervención.  Sin  embargo,  existen  casos  en  que  no  se  haya  un  individuo  no  beneficiado  con  probabilidades  de  participación  similar  o  cercana  a  la  probabilidad  de   participación   para   cada   uno   de   los   individuos   beneficiarios.   Esto   implica   que   el   PSM,   solo   estima   el    impacto  de  la  intervención  para  aquellos  individuos  participantes  que  cuentan  con  una  pareja  adecuada,  es  decir,   solo   efectúa   estimaciones   en   una   región   de   soporte   común19.   La   ilustración   4   permite   observar   la  distribución  de  densidad  de  la  probabilidad  estimada  de  participación  de  ambos  grupos;  el  área  sombreada  es   la   región   de   soporte   común,   y   es   acá   donde   las   probabilidades   de   los   individuos   del   grupo   de  comparación  son  muy  cercanas  o  parecidas  a  las  probabilidades  de  participación  de  los  individuos  del  grupo  de  intervención,  fuera  de  esta  región  no  se  logra  construir  parejas  adecuadas  en  términos  estadísticos.    

Ilustración  4.  Pareo  de  las  propensiones  a  participar  y  la  Región  de  Soporte  Común      

 

         El   impacto   bajo   este   método   es   la   diferencia   media   en   las   variables   de   resultados   entre   el   grupo   de  intervención  y  el   grupo  de   comparación  en  el   área  de   soporte   común,   apropiadamente  ponderada  por   la  distribución  de  la  probabilidad  de  participación  en  la  intervención  (Bernal  y  Peña,  2011:  105).    

19  Bernal  y  Peña  (2011:  104),  mencionan  que  “el  soporte  común  de  una  variable  es  el  conjunto  de  valores  para  los  cuales  tiene  densidad  positiva,  es  decir,  el  conjunto  de  valores  que  pueden  ocurrir  con  alguna  probabilidad.

Probabilidad  de  participar  

Densidad    

1  0  

Densidad  de  las  propensiones  a  participar    de  los  individuos  del  grupo  de  intervención  

Densidad  de  las  propensiones  a  participar    de  los  individuos  del  grupo  de  comparación  

Fuente:  elaboración  propia  con  base  en  Banco  Mundial  (2011)    y  Bernal  y  Peña  (2011)  

Page 27: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

27  

Algoritmos  para  estimar  las  ponderaciones    

Cuanto  menor  es  la  diferencia  en  la  probabilidad  estimada,  mayor  es  el  peso  que  se  le  asigna  al  individuo  no  participante  en  la  construcción  del  contrafactual  de  los  participantes.  Entre  algunos  algoritmos  para  estimar  las  ponderaciones  están:    

• Vecino  más  cercano:  Se  le  asigna  ponderación  igual  a  uno  al  no  participante  con  la  menor  distancia  al  participante  |pi-­‐pj|.  Todos  los  demás  no  participantes  tienen  una  ponderación  igual  a  cero.  

 • Calibre:  El  participante   i   solo  es   incluido  en  el   cálculo   final  del   impacto  promedio  si  hay  algún  no  

participante  cuya  distancia  sea  menor  a  algún  número  prefijado:  |pi-­‐pj|<H.  Reduce  la  posibilidad  de  tener  malos  emparejamientos,  sin  embargo,  algunos  participantes  pueden  no  entrar  en  el  cálculo.  

 • Kernel:  Todos   los  no  participantes  tienen  una  ponderación  positiva  en  el  cálculo  del  contrafactual  

de   todos   los   participantes.   La   ponderación   es   inversamente   proporcional   a   la   distancia   entre   las  probabilidades  estimadas  |pi-­‐pj|.    Pasos  para  la  estimación  de  la  Propensión  a  Participar    

El  procedimiento  de  estimación  comprende  los  siguientes  pasos20:      

• Realizar   encuestas   representativas   y   comparables   en   las   cuales   se   puedan   identificar   el   grupo  intervenido  y  el  grupo  de  comparación.  O  bien,  contar  con  información  para  ambos  grupos.  

• Estimar   la   probabilidad   de   que   cada   individuo   se   inscriba   en   la   intervención   a   través   de   las  características  observables  de  acuerdo  al  modelo    probabilístico  especificado  (por  ejemplo  modelos  Logit  o  Probit21).   Es   fundamental  que   la  distribución  de   las   variables  observables   sea   la  misma   (o  muy  similar)  tanto  para  los  individuos  intervenidos  como  para  no  intervenidos.  

• Limitar   las   muestras   a   la   región   del   soporte   común.   Se   descartan   aquellas   observaciones   de   no  participantes  con  valores  estimados  de  probabilidad  demasiados  extremos.  Restringir  las  muestras  asegura   un   soporte   común   lo   que   va   a   evitar   una   de   las   fuentes   más   habituales   de   sesgo   de  selección.  

• Seleccionar  un  algoritmo  de  emparejamiento.    

• Para  cada  individuo  tratado  se  busca  un  individuo  de  control    o  grupo  de  individuo  de  comparación  que  tenga  una  probabilidad  de  participación  similar.  Si  no  se  hayan   individuos  con  probabilidades  similares,  se  debe  volver  a  especificar  el  modelo  de  estimación  de  probabilidad.  

• Examinar   que   las   variables   observables   entre   los   grupos   de   intervención   y   comparación   sean  similares  o  estén  balanceadas  por  grupos  de  probabilidad  predicha.  Para  realizar  esta  comparación  es  necesario  conocer  las  ponderaciones  asignadas  a  los  individuos  del  grupo  de  comparación,  que  están  determinadas  por  el  algoritmo  de  emparejamiento  elegido.  

• Se   estima   el   resultado   o   impacto   de   la   intervención,   el   cual   es,   el   promedio   apropiadamente  ponderado  de  la  diferencia  entre  la  variable  de  resultado  de  los  grupo  de  intervención  y  grupo  de  comparación.    

20  Los  pasos  descritas  son  tomados  y  ligeramente  modificados  de  Moral  (2009),  y  Jalan  y  Ravallion  (2003)  tomado  de  Gertler,  et  al    (2011)  y  Bernal  y  Peña  (2011).  21  Para  más  detalles  puede  verse  el  libro  Econometría  del  autor  Damonar  Gujarati  (2004).

Page 28: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

28   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

 Fortalezas  de  las  técnicas  de  emparejamiento  

 • Se  puede  emplear  aunque   los   individuos  beneficiarios  no  han   sido   seleccionados  aleatoriamente,  

pero  si  de  acuerdo  a  características  observables,  y  además,  que  exista  un  grupo  no  beneficiario  de  la  intervención  (es  decir:  cuando  la  intervención  no  es  de  cobertura  universal).    

• Limita  (no  elimina)  el  sesgo  de  selección.  El  método  de  emparejamiento  es  útil  cuando  el  sesgo  de  selección   está   determinado   principalmente   por   variables   observables,   por   lo   que   con   buenas  fuentes   de   datos   puede   ser   un   método   poderoso   para   estimaciones   de   impactos   bajo   estas  situaciones.      

• Se  puede  emplear  con  un  único   levantamiento  de   información,  siempre  que  existan  datos  para  el  grupo   de   intervención   y   comparación   (es   decir,   no   siempre   es   necesario   contar   con   línea   base),  (Bernal   y   Peña,   2011:   147).   Sin   embargo,   siempre   que   exista   el   riesgo   de   enfrentar   un   sesgo   de  selección  debido  a  variables  no  observables,  es  más  recomendable  combinar  el  emparejamiento  o  PSM  con  el  método  de  doble  diferencia  (véase  más  arriba  en  este  apartado).  

   

Limitaciones  de  las  técnicas  de  emparejamiento      

• “Los  resultados  son  confiables  siempre  y  cuando  existan  razones  para  pensar  que   las  variables  no  observables  o  no  disponibles   en   la  base  de  datos,   no   son  determinante   fundamental   tanto  de   la    participación  en  el  programa  como  la  variable  resultado”  (Bernal  y  Peña,  2011:  147).  

 • Requiere  grandes  bases  de  datos,  no  obstante,  esto  puede  provocar  el  problema  de  la  “maldición  

de  las  dimensiones”  y  la  falta  de  una  región  de  soporte  común  (véase  los  conceptos  desarrollados  más  arriba).    

 • Debido  a  que  este  método  funciona  cuando  se  condiciona  que  la  selección  de  los  participantes  es  a  

base  de  variables  observadas,  se  asume  que  no  existen  diferencias  sistemáticas  entre  los  grupos  de  intervención  y  comparación  causadas  por  variables  no  observables,  no  obstante,  este  supuesto  no  se  puede   comprobar  ni   descartar,   por   lo  que,   tampoco   se  puede  descartar   el   sesgo  de   selección  generado  a  causa  de  las  variables  no  observadas.  Esta  amenaza  se  puede  relativizar  al  combinar  las  técnicas  de  emparejamiento  con  el  método  de  doble  diferencia.    

• Requiere  del  conocimiento  de  técnicas  estadísticas  complejas.    

   

II.3.3     Variables  instrumentales    

Es   un   método   empleado   para   controlar   el   sesgo   de   selección   debido   a   características   o   variables   no  observables.  Para  llevar  a  cabo  la  estimación  de  resultados  mediante  este  método  se  requiere  de:    

• La  existencia  de  una  nueva  variable  o  “instrumento”  que  esté  altamente  relacionada  con  la  variable  que   indica   si   el   individuo   participa   en   la   intervención.   Si   esto   sucede,   entonces   la   variable  instrumental  predice  la  probabilidad  de  participar  en  la  intervención.  En  términos  estadísticos  esto  

Page 29: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

29  

significa  que   la  variable   instrumental  está  correlacionada  con   la  variable  que   indica  participación.  Esta  condición  se  llama  “relevancia  del  instrumento”  o  “condición  de  rango”.  

 • Que   la   variable   instrumental   a)   no   debe   estar   relacionada   con   las   variables   no   observables   que  

determinan   la  variable  de  resultado,  b)  ni   tener  un  efecto  directo  sobre   la  variable  de     resultado.  Esto  permite  asegurar  que  las  variables  no  observables  no  dependen  de  la  variable  instrumental.  En  términos  estadísticos  esto  se  refiere  a  que  no  existe  correlación  entre  la  variable  instrumental  y  el  término   error   del   modelo.   Esta   condición   es   conocida   como   “exogenidad   del   instrumento”   y  “restricción  de  exclusión”.  

 En  resumen,  la  variable  instrumental   influye  o  explica  la  probabilidad  de  participar  en  la  intervención  pero  no  está  relacionada  con  las  variables  no  observables  que  determinan  la  variable  de  resultado  ni   la  afectan  directamente.  Las  variables  instrumentales  se  usan  primero  para  predecir  la  participación  en  la  intervención  y  segundo  para  observar  cómo  varía  el  indicador  de  resultados  con  los  valores  proyectados.    Este   método   es   utilizado   cuando   la   participación   de   los   individuos   en   la   intervención   está   asociada  principalmente  a  variables  no  observables.      

Fortalezas  del  método  de  Variables  Instrumentales    

• Controla  el  sesgo  de  selección  generado  por  variables  no  observables.      

• Realiza  estimaciones  confiables  con  datos  no  experimentales,  siempre  y  cuando  se  cumpla  que   la  variable  instrumental  está  correlacionada  con  la  variable  que  indica  si  el  individuo  participa  o  no  en  la   intervención,   pero   no   está   correlacionada   con   las   variables   no   observables   que   afectan  directamente  el  resultado  o  las  variables  determinantes  del  resultado.      Limitaciones  del  método  de  Variables  Instrumentales  

 • No   es   fácil   hallar   variables   que   cumplan   las   condiciones   para   ser   variables   instrumentales.   Si   la  

variable   instrumental   no   cumple   las   condiciones   de   “relevancia   del   instrumento”,   “condición   de  rango”,  “exogenidad  del  instrumentos”  y  “restricción  de  exclusión”;  los  resultados  estimados  serán  sesgados    e  inconsistentes.    

 • Estima  el  efecto  local  y  no  el  efecto  promedio.  Es  decir,  estima  el  efecto  solo  para  aquellas  personas  

que  cambian  su  decisión  de  participar  ante  cambios  en  la  variable  instrumental.  Por  tanto,  se  debe  tener   cuidado   a   la   hora   de   interpretar   el   estimador   y   dar   las   recomendaciones   de   la   evaluación  (Bernal  y  Peña,  2011:).  

 II.3.4  Diseño  de  Regresión  Discontinua    La   selección   de   los   participantes   en   el   diseño   de   regresión   discontinua   (DRD)   es   determinada   total   o  parcialmente  por  una  variable  continua22  observada.  Específicamente,  se  determina  si  el  individuo  participa  o  no  en  la  intervención  a  partir  de  un  valor  específico  (umbral)  de  la  variable  continua  observada.  

22   Una   variable   continua   es   aquella   que   puede   adquirir   cualquier   valor   dentro   de   un   intervalo   de   valores.   Un   claro  ejemplo,  es  la  nota  de  algún  examen  de  escuela,  cuyo  intervalo  va  de  0  hasta  100,  los  niños  y  niñas  obtienen  notas  de  100;  93.6;  80.5;  70;  65.7.  

Page 30: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

30   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

 En  algunos  casos,  la  intervención  dirigida  a  grupos  específicos  se  basa  en  un  instrumento  de  focalización  que  es   una   variable   continua   y   observaba   por   el   planificador   o   evaluador   (Bernal   y   Peña,   2011:   189).   Por  ejemplo,  el  gobierno  decide  crear  un  programa  de  becas  estudiantiles  pero  este  programa  está  dirigido  solo  a   aquellos   estudiantes   con   notas   promedios   iguales   o  mayores   a   75,   en   este   sentido,   el   instrumento   de  focalización  es  la  nota  promedio  y  su  umbral  es  75  (se  asume  que  la  nota  puede  tomar  cualquier  valor  entre  0  a  100),  así  los  estudiantes  beneficiarios  serán  todos  los  que  tengan  una  nota  igual  o  superior  a  75  y  los  no  beneficiarios  serán  los  que  tengan  nota  inferior  a  75.      Los  estudiantes  beneficiarios  pueden  ser  o  son  distintos  a  los  no  beneficiarios,  es  decir,  sin  conocimiento  del  mecanismo   de   selección   no   se   dispone   de   datos   para   asegurar   que   ambos   grupos   tengan   similitud   en  términos  estadísticos.  El  primer  grupo  puede  que  se  encuentra  más  motivado  que  el   segundo,  o  bien,   los  primeros   poseen   un   coeficiente   intelectual   más   alto,   o   familiares   que   están   atentos   al   rendimiento  académicos   de   sus   hijos   y   por   lo   tanto,   con   o   sin   beca   es   posible   que   logren   terminar   la   universidad   y  perciban   salarios  más   altos   que   los   segundos.   En   tales   situaciones,   estimar   el   impacto   de   la   intervención  tomando   en   cuenta   todos   los   estudiantes   beneficiarios   y   no   beneficiarios   del   programa   de   becas   puede  generar  estimaciones  muy  alejadas  de  la  realidad.      El  DRD   toma  en   cuenta  una   sub-­‐muestra   especial   de   los   estudiantes  beneficiarios   y  no  beneficiarios  para  elaborar  el  contrafactual  y  las  estimaciones  correspondientes.  Se  asume,  que  aquellos  individuos  que  están  justo   alrededor  del   umbral   tienen   características  observadas   y   no  observadas   similares;   de   esta   forma,   el  grupo  de  intervención  o  tratamiento  son  los  estudiantes  que  están  justo  por  arriba  del  umbral  y  el  grupo  de  comparación  aquellos  que  tienen  notas  justo  por  abajo  del  umbral.  Rossi  (2011)  menciona  que  alrededor  del  umbral  es  como  tener  un  “experimento”,  en  el  sentido  que  el  grupo  de  comparación  es  similar  al  grupo  de  tratamiento.      Existen  dos  variantes  de  DRD:  Nítida  y  Borrosa.  Se  diferencian  entre  sí  por  el  alcance  de  la  selección  de  los  participantes.      

II.3.4.1 Regresión Discontinua Nítida  El  diseño  de  Regresión  Nítida  (DRN)  se  le  conoce  en  inglés  como    Regression  Discontinuity  Sharp.        La   selección   de   los   beneficiarios   depende   completamente   (de   forma   determinística)   del   umbral   de   la    variable  continua  observada.  Por  tanto,  la  participación  no  depende  de  otras  características  observadas  o  no  observadas  del  individuo.    Ejemplo,   sea  el   caso  de  un  programa  de  becas   (pago  de  créditos)  para  estudiantes  de  primer   ingreso  a   la  universidad.   Se   les   asignará   la   beca   a   aquellos   estudiantes   que   hayan   tenido   una   nota   promedio   igual   o  superior  a  75  sobre  100  en  el  último  año  de  secundaria;  por  lo  tanto,  el  valor  de  umbral  es  75,  y  es  en  este  punto  donde  se    presenta  la  discontinuidad  en  la  participación  de  la  intervención.    La  nota  promedio  de  75  determinará  completamente  la  participación  de  los  estudiantes  en  el  programa  de  becas,   por   lo   tanto,   el   grupo   de   intervención   está   conformado   por   los   estudiantes   con   notas   iguales   o  mayores  a  75  y  el   grupo  de   comparación  con  notas  promedio  menor  a  75.  En  este   caso,  el   estudiante  es  beneficiario  de   la   intervención  simplemente  por  el  hecho  de  presentar  esta  característica,  no  se   le  solicita  ningún  otro  requisito.        

Page 31: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

31  

Ilustración  5.  La  participación  en  la  intervención  como  función  del  instrumento  de  focalización  Z                                        La  ilustración  5  muestra  la  participación  en  la  intervención  como  función  del  instrumento  de  focalización  (A).  La   participación   en   el   tratamiento   es   discontinua   en   un   punto   específico   de   la   distribución   de   la   A,   y   la  probabilidad  de  participación  salta  de  uno  a  cero  en  ese  punto  específico  (Ā).  Al  lado  derecho  de  Ā  se  ubican  los  estudiantes  que  participan  en  el  programa  con  probabilidad  uno,  al  lado  izquierdo  están  los  estudiantes  que  no  participan  en  el  programa  con  probabilidad  cero.  La  probabilidad  de  participación  es  cero  o  uno.    Dado  que  la  asignación  a  la  intervención  es  determinada  únicamente  por  la  variable  observada  en  cuestión  (ejemplo:  la  nota  promedio),  se  asume  que  los  individuos  a)  no  contribuyen  en  la  decisión  de  si  participar  o  no,  y  b)  no  pueden  manipular  el  valor  de  la  variable  observada  en  respuesta  a  los  criterios  de  elegibilidad  de  la   intervención.   En   este   caso,   el   RDN   implica   que   el   proceso   de   decisión   exógeno   es   complemente  determinado  por  la  variable  observada  estudiada  (Bernal  y  Peña,  2011:193).      

II.3.4.1 Regresión Discontinua Borrosa  El  diseño  de  Regresión  Borrosa  (DRB)  se  le  conoce  en  inglés  como  Regression  Discontinuity  Fuzzy.        La  selección  de  los  beneficiarios  depende  parcialmente  (es  decir,  no  de  forma  determinística)  del  umbral  de  la    variable  continua  observada.  Además,  la  selección  también  depende  de  incentivos  u  otras  características  observadas  o  no  observadas  por   el   evaluador   (las   cuales  no   son   lo   suficientemente   fuertes  para  mover   a  todas  las  unidades  del  grupo  de  no  beneficiarios  al  grupo  de  beneficiarios).  Esta  situación  puede  suceder  si  los  incentivos  para  participar  en  la  intervención  cambian  discontinuamente  en  el  umbral.    Retomando  el  caso  del  programa  de  beca  para  los  estudiantes  universitarios,  donde  se  les  otorgaba  la  beca  a  cualquier  estudiante  que  haya  obtenido  una  nota  promedio  del  último  año  de  secundaria  igual  o  superior  a  75   (umbral).  Ahora  bien,  para  otorgar   la  beca  se   requiere  que  el  estudiante  cumpla  a)  el   requisito  de   la  nota,   b)   provenga   de   un   cantón   que   diste   100   km   o   más     de   la   universidad   y   c)   llene   el   formulario   de  solicitud  de  beca.  En  este  caso,  la  nota  promedio  igual  o  mayor  a  75  (umbral)  selecciona  parcialmente  a  los  estudiantes  que  reciben  la  beca,  ya  que  no  todos  los  estudiantes  deciden  participar,  aún,  cuando  cumplan  

0

A  

1

Ā  =75  =  umbral  

Instrumento de focalización = nota promedio

Probabilidad de participación

Fuente:  Elaboración  propia  con  base  en  Bernal  y  Peña,  2011:  191  

Page 32: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

32   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

los  tres  requisitos,  o  bien,  el  programa  puede  considerar  ampliar  la  oferta  a  cierto  grupo  de  personas  bajo  otros  criterios.      Suponga,   que   todos   los   estudiantes   de   las   zonas   alejadas   a   la   universidad   se   enteran   del   programa   y   la  universidad   decide   otorgar   al   azar   algunas   becas   a   estudiantes   con   nota   menores   a   75   que   llenen   el  formulario   de   solicitud   de   beca   (por   razones   presupuestarias   no   se   implementa   universalmente   el  programa).  Por  lo  tanto,  la  universidad  dará  becas  a  todos  los  estudiantes  que  cumplan  los  tres  requisitos  y  a  algunos  que  solo  cumplan  con  dos  (vivir  lejos  y  llenar  el  formulario).      

Gráfico  1.  Regresión  Discontinua  Borrosa:  Probabilidad  de  participación    

 

 

 

 

 

 

 

   El   hecho   de   que   el   programa   se   haya   extendido   a   estudiantes   con   notas   menores   a   75,   implica   que   la  probabilidad  de  participación  cambia  discontinuamente  en  el  punto  Ā,  pero  no  presenta  un  cambio  brusco  de   cero   a   uno,   sino   que   va   tomando   valores   entre   cero   y   uno.   Esto   quiere   decir,   que   pueden   existir  estudiantes   becados   a   ambos   lados   del   umbral   (y   no   solo   a   un   lado   como   ocurre   en   RDN),   pero   se  concentran  significativamente  al  lado  derecho  de  Ā.    El  hecho  de  que  el  programa  se  haya  extendido  a  estudiantes  con  notas  menores  a  75,  significa  que  pueden  existir  estudiantes  becados  a  ambos   lados  del  umbral   (y  no  solo  a  un   lado  como  ocurre  en  RDN),  pero  se  concentraran  significativamente  al  lado  derecho  de  Ā,  ya  que  i)  el  programa  es  dirigido  principalmente  para  estudiantes   con   notas   mayores   a   75,   y   ii)   los   estudiantes   con   notas   menores   a   75   se   les   asigna   cierta  cantidad  de  becas  y  esta  restricción  hace  que  estos  últimos  se  abstengan  de  presentar  la  solicitud  de  beca,  dado  que  no  tienen  garantía  de  recibir  la  beca  aunque  hayan  cumplido  los  requisitos.  Por  tal  razón,  hay  un  salto  discontinuo  justo  en  el  punto  Ā.    La  probabilidad  de  participación  en  el  RDB  no  cambia  estrictamente  de  cero  a  uno  en  el  umbral.  En  su  lugar,  la  probabilidad  de  participación  en   la   intervención  cambia  discontinuamente   justo  en  el  punto  Ā,  esto  es,  existen   probabilidades   de   participación   que   toman   valores   entre   cero   y   uno.   Nótese   que   no   es   la  participación   en   el   tratamiento   lo   que   cambia   determinísticamente   de   lado   a   lado   del   umbral   Ā,   sino   la  probabilidad  de  participación   lo  que  cambia  discontinuamente  en  el  punto  umbral  Ā  (Bernal  y  Peña,  2011:  200).    

0

Z

1

Instrumento de focalización (umbral)

Probabilidad de participación

Fuente:  Elaboración  propia  con  base  en  Bernal  y  Peña,  2009:  201  

0.5

Page 33: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

33  

El   DRB,   es   llamado   así   porque   el   valor   del   umbral   no   selecciona   totalmente   a   los   beneficiarios   de   la  intervención,   como   se  mencionó,  existen  algunas   variables   (observables  o  no  observables)  o   factores  que  intervienen   en   la   asignación   de   participación.   Dos   factores   comunes   son   a)   la  manipulación   del   valor   del  umbral,  el  cual  consiste,  en  disminuir   (aumentar)  el  valor  del  umbral  para  asignar   la  participación  a  más  o  menos  individuos  (en  el  ejemplo  anterior,  ingresaron  más  estudiantes  al  programa,  ya  que  se  admitieron  a  algunos  con  notas  menores  a  75);  b)  comportamiento  estratégico  en  base  al  umbral,  los  individuos  pueden  comportase  diferente  si  saben  que  pueden  optar  por  un  beneficio  si  saben  que  son  seleccionados  en  base  al  valor  del  umbral  (por  ejemplo,  si  los  estudiantes  de  secundaria  del  último  nivel  conocen  de  antemano  que  el  primer  año  universitario  serán  becados  si  obtiene  notas  promedios  iguales  o  superiores  a  75  ,  éstos  harán  lo  posible  para  llegar  a  ese  umbral).  Ambos  factores  “contaminan”  la  muestra.    

Ventajas  de  Regresión  Discontinua      

• “Supuestos    plausibles”.  Los  supuestos  necesarios  para  obtener  estimaciones  confiables  se  cumplen  en  la  mayoría  de  los  casos.    

 • Fácil  de  implementar.  En  términos  relativos  el  DRD  es  fácil  de  implementar  en  la  práctica.  Además  

es  un  diseño  atinente  para  las  políticas  públicas  focalizadas.    

• Validez  interna  fuerte.  Es  rigoroso  en  cuanto  a  establecer  relaciones  de  causalidad.    

Limitaciones  de  Regresión  Discontinua      

• Estimador   local.   Las   estimaciones   de   impacto   se   realizan   con   base   a   una   sub-­‐muestra   (datos  cercanos  al  punto  de  discontinuidad),  por  lo  tanto,  las  estimaciones  solo  son  válidas  alrededor  del  umbral  y  no   tienen  validez  externa  para   la  población  entera  de   interés.  Esto   implica  que  se  debe  tener   cuidado   a   la   hora   interpretar   las   conclusiones   y   elaboración   de   recomendaciones   (débil  validez  externa).    

 • Muestras   grandes.   El   DRD   requiere   que   la   base   de   datos   sea   amplia   alrededor   del   umbral.  

Manipulación   del   valor   del   umbral   o   comportamiento   estratégico.   Para   que   este   diseño   RDN  funcione,   los   individuos   no   deben   tener   el   poder   para   manipular   el   umbral   ni   presentar   un  comportamiento  estratégico  en  base  al  umbral  (problema  de  incumplimiento).  

 • La   aplicabilidad   del   DRD   depende   de   un   mecanismo   de   selección   focalizado   para   el   acceso   a   la  

intervención.   En   toda   intervención  que  no   cuenta   con  un  mecanismo  de   este   tipo,   el  DRD  no   es  aplicable.  

BIBLIOGRAFÍA    Bernal,  R.   y  Peña,  X.   (2011).  Guía  Práctica  para   la  evaluación  de   impacto.   1º  Edición,  Colombia.  Ediciones  Uniandes.    Centro   de   Investigación   y   Capacitación   en  Administración   Pública   (CICAP)   y  Centro   de   Evaluación   (CEval).  (2011).  Seminario  de  postgrado  en  evaluación  de  impacto  de  programas    y  proyectos.  San  José,  Costa  Rica.      CEPAL.  (2005).  Manual  de  evaluación  de  impacto.  Series  Manuales  No  47.  Cristián  Aedo.    

Page 34: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

34   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

Gertler,  Martínez,  Premand,  Rawlings  y  Vermeersch  (2011).  La  evaluación  de  impacto  en  la  práctica.  Banco  Mundial.    Gujarati,  D.  (2004).  Econometría.    Editorial  McGraw-­‐Hill    Hernández  Sampieri,  R.  y  otros.  (2010).  Metodología  de  la  investigación.  4  ed.  México.    MacGraw-­‐Hill.      Moral,  I.  (2009).  Técnicas  cuantitativas  de  evaluación  de  políticas  públicas.    I  curso  de  evaluación  de  políticas  públicas  y  programas  presupuestarios.  Madrid,  España.      Rosero,  L.   (2004).    Evaluación  del   impacto  de   la  reforma  del  sector  de   la  salud  en    Costa  Rica  mediante  un  estudio  cuasi  experimental.  Rev  Panam  Salud  Pública.  2004:15  (2)  94-­‐103    Rossi,   M.   (2011).   Evaluación   de   impacto.   Curso   Uso   de   datos   de   panel   y   técnicas   econométricas   para   la  evaluación  de  impactos  en  proyectos.  San  José,  Costa  Rica.  

Page 35: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

35  

 Impacto  bruto  

 Todos  los  efectos  

y/o  Impactos  que  se  han  

Producido.    

   

Impacto  neto    

Efectos  y/o  impactos  de  la  intervención.  

   

Efectos  y/o  impactos  de  factores  externos  

 Producidos  

adicionalmente  e  independientemente  de  la  intervención  

realizada.  

Efectos  de  diseño  y/o  sesgos  de  selección  

 Generados  de  forma  artificial  debido  a  

errores  de  medición  surgidos  en  el  proceso  

de  investigación.  

Material 5.2.2: Variables confusoras

Variables confusoras o Factores confusores externos

 En  una  evaluación  la  etapa  de  interpretación  de  los  resultados  y  de  valoración  de  los  hallazgos,  es  una  parte  crucial,  ya  que  se  analiza  críticamente  la  posibilidad  de  que  eventuales  factores  pudieran  estar  invalidando  metodológicamente   los   resultados.   El   investigador   (evaluador)   debe   ser   consciente   de   que   los   resultados  obtenidos  pueden  deberse  a  otros  factores  que  no  corresponden  a  la  intervención  en  estudio  (PPPP)  y  que  de  no  ser  considerados  estos  factores,  pudieran  llevar  a  conclusiones  equivocadas.    El  objetivo  de  las  evaluaciones  de  impacto  consiste  en  determinar,  de  la  forma  más  confiable  posible,  si  una  intervención   (PPPP)   es   la   que   causa   el   impacto   intencionado,   por   lo   tanto   se   debe   excluir   o   controlar   la  influencia  de  otros  factores  que  también  podrían  ser  responsables  de  los  cambios  observados.    Cuando  el  evaluador  determina  todos  los  cambios  que  se  han  producido  (impacto  bruto),  debe  diferenciar  los  efectos  e  impactos  que  son  ocasionados  solamente  por  la  intervención  (impacto  neto),  de  los  efectos  e  impactos   ocasionados   por   otros   factores   externos,   los   cuales   se   han   producido   adicionalmente   e  independientemente  de  la  intervención  realizada.  A  estos  también  se  le  suman  los  efectos  o  impactos  que  se  pudieron  generar  de  forma  artificial  debido  a  errores  de  medición  surgidos  en  el  proceso  de  investigación  (Efectos  de  diseño  y/o  sesgos  de  selección).  Esta  situación  puede  representarse    en  la  ilustración  1.    

Ilustración  1:  Ecuación  de  impacto  

     

   =                  +                      +                

1. Variables confusoras  El  efecto  de  confusión  se  produce  cuando  en  el  análisis  de  una  relación  causal,  existe  distorsión  en  el  efecto  estimado,   el   que   es   producido   por   la   presencia   de   una   variable   extraña   (externa)   en   el   estudio   de   la  asociación  causal.    El   efecto   que   puede   tener   la   presencia   de   esta   variable   extraña   en   el   resultado   puede   ser   diverso:   en  ocasiones  determina   la  existencia  de  asociaciones  positivas,   las  que  en   la  práctica  no  son   reales   (error  de  tipo   I   o   )   o   bien,   pueden   esconder   asociaciones   reales,   las   que   en   presencia   de   esta   variable   extraña,  quedan  enmascaradas  (error  de  tipo  II  o  ß).    

Page 36: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

36   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

El  concepto  de  confusión  es  crítico  en  las  investigaciones  evaluativas,  siendo  más  importante  en  el  terreno  de  la  investigación  no  experimental  que  en  el  campo  experimental  y  cuasi-­‐experimental.  Esto  se  debe  a  que  los   estudios   experimentales   y   cuasi-­‐experimentales   permiten   un   mejor   control   de   este   efecto   por  características   inherentes   a   su   tipo   de   diseño   (randomización,   control   a   priori   de   eventuales   variables  confusoras  o  el  uso  de  matching  o  pareamiento  de  variables).    Conceptualmente  deben  cumplirse  algunos  requisitos  para  considerar  a  una  variable  como  potencialmente  confusora,  como  se  explica  en  el  siguiente  ejemplo  en  el  campo  de  la  medicina:    

• La   variable   incriminada   debe   estar   simultáneamente   asociada   con   la   enfermedad   (variable  dependiente)  en  estudio  y  con  la  exposición.  

• Por  tanto,  debe  ser  un  factor  de  riesgo  para  la  enfermedad  estudiada.  • El   factor   extraño   si   bien   es   cierto   debe   estar   asociado   con   la   exposición   (o   variable  

independiente),  no  debe  ser  consecuencia  de  ésta  última.    Gráficamente  lo  anterior  corresponde  a  la  siguiente  representación:        

Figura 1: Variables confusoras.

                           

   Por   ejemplo,   en   el   análisis   del   efecto   protector   del   Beta   Caroteno   en   relación   con   el   cáncer   del   sistema  digestivo,  se  encuentra  evidencia  favorable  acerca  del  consumo  de  vegetales  en  la  reducción  del  riesgo  del  cáncer,   concluyéndose   que   el   consumo   de   Beta   Caroteno   en   la   dieta   rica   en   vegetales   es   una   medida  específica  de  protección  contra  el  cáncer.    Sin   embargo,   en   este   ejemplo  pueden  existir   al  menos  dos   posibles   variables   confusoras   a   considerar.   La  primera,  es  la  edad,  variable  que  se  asocia  con  la  incidencia  de  cáncer,  y  que  podría  asociarse  con  el  nivel  de  consumo   de   verduras   y   hortalizas,   lo   que   podría   verificarse   si   en   el   estudio   se   contara   con   información  acerca  de  la  constitución  por  edad  de  los  sujetos  estudiados.    Otra  variable  confusora  podría  ser  el  consumo  de  fibra  en  la  dieta.  En  este  caso,  el  nivel  de  consumo  y  tipo  de  fibra  está  relacionada  simultáneamente  con  la  variable  “consumo  de  vegetales”  y  con  la  variable  cáncer.  Para   ambos   ejemplos   de   posibles   variables   confundentes,   se   cumplen   las   condiciones   previamente  

Exposición   Variable  dependiente  

Variable  independiente  “extraña”  

Page 37: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

37  

señaladas   para   poder   considerarlas   como   tales.   De   no   considerarse   en   el   análisis   la   presencia   de   ellas  pudiera  concluirse  una  recomendación  errónea  basándose  en  una  relación  ficticia.    Para  mayor  claridad  respecto  a  las  características  de  las  variables  confusoras  se  plantearán  tres  situaciones  hipotéticas  (Figura  2):        

1. Para  este  caso,  el  tabaquismo  se  relaciona  simultáneamente  con  la  exposición  y  con  el  desenlace  u  outcome.  Corresponde  realmente  a  una  variable  confusora.  

Figura 2: Ejemplo de una variable confusora

                       

     

2. En  esta  situación,  el  nivel  de  colesterol  sérico  corresponde  a  una  variable  “intermedia”,  vale  decir,  en  la  cadena  causal  precede  al  daño  y  es  consecuencia  de  la  exposición  principal  en  estudio.  En  este  caso,  la  variable  no  corresponde  a  una  variable  confusora.  

   

Figura 3: Ejemplo de una variable “intermedia”

         

     

3. Finalmente  se  da  acá  el  caso  en  que  la  variable  de  exposición  (tabaquismo)  está  asociada  con  una  tercera   variable   (consumo   de   alcohol).   Sin   embargo,   esta   última,   no   corresponde   a   una   variable  confusora,  puesto  que  sólo  se  asocia  con  la  exposición  y  no  con  el  desenlace.  

   

Figura 4: Ejemplo de una tercera variable asociada con la exposición

Exposición  ocupacional  

Cáncer  pulmonar  

Variable  independiente  “Tabaquismo”  

Dieta   Infarto  miocardio  

Colesterol  

Page 38: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

38   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

                         

   

 No  siempre  es  fácil  saber  si  se  cumplen  los  requisitos  para  que  una  variable  sea  considerada  confusora.  Por  ejemplo,   ¿cómo   saber   si   una   variable   es   factor   de   riesgo   para   el   desenlace   estudiado,   si   se   desconocen  antecedentes  al  respecto?    Para  tales  efectos,  es  posible  que  en  el  análisis  se  pueda  obtener  información  desagregando  la  información  recogida.    En   un   hipotético   ejemplo   de   estudio   de   casos   (enfermos)   y   controles   (sanos)   destinados   a   establecer   la  existencia   de   asociación   entre   la   exposición   al   consumo   de   café   y   el   riesgo   de   cáncer   del   páncreas,   se  estudian  100  casos  y  100  de  comparación,  con  el  siguiente  resultado:    

Tabla 1. Ejemplo: Consumo de café y cáncer de páncreas  

Consumo  de  café   Pacientes  con  cáncer  (enfermos)  

Sujetos  control  (sanos)  

Exposición  +   30   18  Exposición  -­‐   70   82  

Total   100   100  Fuente  de  las  tablas.    El  valor  de  Odds  ratio23  correspondiente  es:       OR  =     30  x  82                =        1.95     ________     18  x  70    Con  lo  cual  se  concluye  que  el  consumo  de  café  está  asociado  con  un  mayor  riesgo  de  padecer  de  cáncer  del  páncreas.    

23  En  la  estadística,  la  Odds  ratio  es  una  medida  de  tamaño  de  efecto.  Es  el  cociente  de  dos  razones:  el  numerador  es  la  razón  de  la  probabilidad  de  que  un  evento  suceda  o  no  suceda  bajo  ciertas  condiciones  (aquí:  personas  expuestos  a  un  riesgo   de   salud).   El   denominador   es   la   razón   de   la   probabilidad   de   que   dicho   evento   suceda   o   no   suceda   bajo   las  condiciones  complementarias  (aquí:  personas  sin  exposición  al  respectivo  riesgo  para  la  salud).    

Tabaquismo   Cáncer  pulmonar  

Consumo  de  alcohol  

Page 39: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

39  

Una  posible  variable  de  confusión  en  este  estudio  pudiera  estar  dada  por  la  edad  de  los  sujetos  participantes  en  el  estudio.  Si  así  fuera,  primeramente  se  debería  estudiar  si  se  cumplen  los  requisitos  para  considerar  a  esta  variable  como  una  variable  de  confusión:    

Figura 5: Ejemplo de una variable confusora

                     

     En  primer  lugar  se  analizará  la  relación  existente  entre  la  variable  edad  y  la  variable  dependiente  en  estudio  (cáncer   de   páncreas),   utilizando   para   ello   información   desagregada   de   la   edad,   considerada   ésta  dicotómicamente  en  menores  o  mayores  de  40  años  de  edad:    

Tabla 2.Ej. Consumo de café y cáncer del páncreas: casos y controles según grupo de edad

 Edad  (años)   Pacientes  con  cáncer  

(enfermos)  Sujetos  control  

(sanos)  Menos  de  40   50   80  Más  de  40   50   20  

Total   100   100    Luego,  el  porcentaje  de  sujetos  mayores  de  40  años  con  cáncer  es  claramente  superior  (50%)  al  de  sujetos  sanos  (20%).        En  una  segunda  etapa,  se  estudiará  la  asociación  entre  esta  variable  (edad)  con  la  variable  “exposición”.      

Consumo  de  café  

Cáncer  del  páncreas  

Edad  de  los  participantes  

Page 40: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

40   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

Tabla 3.Ej. Antecedente de exposición de acuerdo a categoría de edad, casos y controles

 Consumo  de  Café  

Edad  (años)   Expuestos   No  expuestos   Total   %  Expuesto  Menores  de  40   13   117   130   10  Mayores  de  40   35   35   70   50  

 Se  aprecia  que  la  frecuencia  de  exposición  no  es  uniforme  en  los  estratos  de  edad,  teniendo  los  mayores  de  40  años  un  mayor  porcentaje  de  exposición.      Finalmente,  está  claro  que  la  edad  de  los  sujetos,  así  categorizada,  no  es  consecuencia  del  consumo  de  café,  con   lo   cual   se   establece   el   cumplimiento   de   los   requisitos   para   que   la   variable   edad   pueda   considerarse  como  eventualmente  confusora.    

2. Fuentes de variables confusoras en la evaluación de intervenciones públicas

 Las  maneras  en  que  pueden  surgir  variables  confusoras  que  inciden  sobre  las  variables  de  resultado  de  una  intervención  pública,   son  muy  diversas.  Por  eso  es  prácticamente   imposible  preverlas  en   su   totalidad.   Sin  embargo,   para   diseñar   la   evaluación   adecuadamente   es   importante   anticipar   al   menos   las   variables  confusoras  más  importantes  lo  cual  es  más  fácil  cuando  se  tiene  conocimiento  de  las  principales  fuentes  de  factores  externos.  En  términos  generales,  se  pueden  categorizar  de  la  siguiente  manera  (véase  Rossi,  Lipsey,  Freeman  2004):    

Cambios  exógenos    

Procesos   en   el   entorno   de   una   intervención   que   pueden   incidir   en   la   variable   de   impacto   e  incrementar  o  disminuir  su  aparente  resultado.  Por  ejemplo,  si  en  el  caso  de  un  programa  para  la  capacitación  de  jóvenes  desempleados  se  observa  un  aumento  del  empleo,  el  programa  se  juzgará  exitoso  –  aunque  es  posible,  que  el  aumento  se  deba  enteramente  a  factores  externos  (por  ej.,  el  crecimiento   económico   en   la   región   que   resulta   en   una   mayor   demanda   por   mano   de   obra  calificada).  Si,  por  el  contrario,  la  tasa  de  empleo  no  varía,  se  supondrá  que  el  programa  quedó  sin  efecto   –   aunque   en   realidad,   puede   haber   contrarrestado   en   forma   significativa   posibles   efectos  negativos  de  un  deterioro  general  del  mercado  laboral.  

Eventos  “históricos”    

De  igual  manera  es  posible,  que  eventos  puntuales  tengan  una  incidencia  en  la  variable  impacto.  A  diferencia   de   paulatinos   cambios   exógenos   es   más   fácil   percatarse   de   la   ocurrencia   de   eventos  históricos   relevantes   –   sin   embargo,   puede   ser   igualmente   difícil   determinar   la   magnitud   de   su  influencia  y,  de  esta  manera,  establecer  el  impacto  neto  de  una  intervención.  A  modo  de  ejemplo,  se  puede  referir  a  un  programa  para  la  introducción  de  nuevos  métodos  de  producción  en  el  sector  agropecuario  cuyo  resultado  neto  queda  encubierto  por  un  desastre  natural  (por  ej.  inundaciones)  que  tuvieron  un  fuerte  impacto  sobre  la  producción  agrícola  en  la  zona  afectada.  

Cambios  endógenos  

Proyectos,  programas,  planes  y  políticas  públicas  que  se  dirigen  a  poblaciones  objetivo  en  las  cuales  se  pueden  observar  procesos  “naturales”,  sea  con  o  sin  la  presencia  de  la  intervención,    ni  de  otros  

Page 41: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

41  

factores  externos.  En  la  medicina,  una  mayoría  de  las  personas  puede  curarse  de  una  enfermedad  aguda  aunque  no  haya   recibido   tratamiento   alguno.   Este   efecto   también   se  observa  en   casos  de  proyectos  y  programas  sociales  en  que  la   intervención  quiere  beneficiar  a  una  población  objetivo,  en  la  cual  algunos  miembros  tienen  la  capacidad  de  mejorar  su  situación  por  cuenta  propia.    

Procesos  de  maduración  

Intervenciones  que  se  dirigen,  por  ejemplo,  a  niños  y  jóvenes  que  tienen  que  tomar  en  cuenta  que  las   poblaciones   de   interés   se   encuentran   en   una   fase   en   que   sus   características   (incluyendo   las  variables   de   impacto)   cambian   en   forma   continua.   Por   ejemplo,   una   evaluación   de   un   programa  para  el  fomento  de  las  habilidades  lingüísticas  de  niños  en  escuela  primaria  tiene  que  lidiar  con  el  hecho,  de  los  niños  y  niñas  mejorarán  sus  habilidades  con  o  sin  la  presencia  de  un  proyecto.  

Selección  no  controlada  de  los  beneficiarios  

Uno   de   los   obstáculos   más   importantes   para   la   evaluación   de   resultados   es   la   llamada   auto-­‐selección  de   los  beneficiarios  de  una   intervención.  Es   común  que  precisamente  el   segmento  más  accesible   de   la   población   objetivo   se   caracteriza   por   una   mayor   disposición   al   cambio.  Intervenciones  que  se  basan  en  la  participación  voluntaria  de  individuos,  hogares  u  otras  unidades,  son   casi   siempre   influenciadas   por   factores   de   auto-­‐selección.   En   este   caso,   los   impactos  observados  en   la  población  beneficiaria  no  pueden   ser  generalizados  para  otros   segmentos  de   la  población  objetivo.  El  problema  de  la  auto-­‐selección  se  parece  a  la  deserción,  es  decir  al  fenómeno  de  que  algunos  beneficiarios  dejan  de  participar  en  algún  momento  de  la  intervención  (lo  cual  casi  siempre  implica  que  tampoco  siguen  siendo  accesibles  para  la  evaluación).    

 

Page 42: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

42   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

INVESTIGACIÓN CUALITATIVA: DISEÑOS, EVALUACIÓN DEL RIGOR METODOLÓGICO Y RETOS

Ana Cecilia Salgado Lévano*

Universidad de San Martín de Porres

RESUMENEl presente artículo tiene tres objetivos generales, en primer lugar brindar una visión actualizada de los principales diseños de investigación cualitativos, en segundo lugar revisar el análisis de los datos y los criterios para evaluar el rigor metodológico, y en tercer lugar, plantear algunos retos, desde dos ángulos, por un lado, la vinculación con las nuevas tecnologías de la información y comunicación y por otro, la posibilidad del trabajo conjunto entre la investigación cuantitativa y la cualitativa en lo que se ha dado por llamar los enfoques mixtos.Palabras Clave: Investigación cualitativa, diseños, análisis de datos, rigor metodológico, enfoques mixtos.

ABSTRACT

to check the analysis of the datums and the criteria to evaluate the methodological rigor, and thirdly, to outline some challenges, from two angles, on the one hand, the entail with the new technologies of the information and communication and for other one, the possibility of the joint work between the quantitative research and the qualitative one in what it has been given for calling the mixed approaches.Key Words: Qualitative research, designs, analysis of datums, methodological rigor, mixed approaches.

Generalidades

Hace varias décadas, la investigación, las metodologías y las técnicas cualitativas eran ignoradas, rechazadas o minimizadas

adscripción teórica, temática o disciplinaria, sin embargo, en la actualidad este panorama ha cambiado radicalmente y cada vez gana mayor prestigio en el mundo académico.

Según Jiménez-Domínguez (2000) los métodos cualitativos parten del supuesto básico de que el mundo social está construido

sea una pieza clave de la investigación cualitativa y punto de

de manera intersubjetiva. El objetivo y lo objetivo es el sentido

cualitativa puede ser vista como el intento de obtener una

situación tal como nos la presentan las personas, más que la producción de una medida cuantitativa de sus características o conducta.

multidisciplinario que convoca a profesionales de las más diversas disciplinas (sociólogos, antropólogos, médicos, enfermeras, psicólogos, trabajadores sociales, relacionistas públicos, entre otros) lo que lejos de ser un inconveniente aporta una gran riqueza en la producción. Sin embargo, también provoca una serie de efectos perversos, tales como, la gran variabilidad existente en la manera de afrontar el análisis: Imprecisión y confusión de conceptos, multiplicidad de métodos, más descripción que interpretación, riesgo de especulación, escasa visión de conjunto, ateorización, entre otros, hasta tal punto que

hoy día no podríamos hablar del análisis cualitativo, sino más bien de los análisis cualitativos (Amescua & Gálvez, 2002).El problema de acuerdo a algunos autores es que hay diversas visiones que se han considerado como tipos de investigación cualitativa (Tesch, 1990, ubica 26 clases) y las bases epistemológicas son variadas. Sin embargo, de acuerdo a Mertens (2005) el constructivismo es probablemente el

cualitativo, aunque algunos no estén de acuerdo. (Citado por Hernández, Fernández & Baptista, 2006).El constructivismo propone:

! socialmente, por consecuencia, múltiples construcciones mentales pueden ser “aprehendidas” sobre ésta, algunas de

proceso del estudio (Mertens, 2005).! El conocimiento es construido socialmente por las personas

que participan en la investigación.!

complejo de la experiencia vivencial desde el punto de vista de quienes la experimentan, así como, comprender sus

hechos y el conocimiento.!

investigador y no puede ser independiente de ellos.! El investigador y los individuos estudiados se involucran en

un proceso interactivo.! El conocimiento resulta de tal interacción social y de la

Según Hernández, Fernández & Baptista (2006) entre algunos

ISSN: 1729 - 4827*[email protected]

Recibido: 2 de setiembre de 2007 Revisado: 5 de setiembre de 2007 Aceptado: 21 de setiembre 2007

Apartado 5.3: Diseños metodológicos cualitativos Material 5.3.1: Material de apoyo sobre evaluación cualitativa Texto:  Salgado   Levano,   A.C.   (2007):   Investigación   cualitativa:   Diseños,   Evaluación   del   Rigor  Metodológico  y  Retos,  en:    Accesible  en  línea  en:  LIBERABIT,  No.  13,  2007,  pp.  71-­‐78.  Accesible  en  línea  en:  http://www.scielo.org.pe/pdf/liber/v13n13/a09v13n13.pdf  

Page 43: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

43  

ISSN: 1729 - 4827*[email protected]

sí mismas y su entorno. Creswell (2005) señala que el diseño narrativo en diversas ocasiones es un esquema de investigación, pero también es una forma de intervención, ya que el contar una historia ayuda a procesar cuestiones que no estaban claras. Se usa frecuentemente cuando el objetivo es evaluar una sucesión de acontecimientos.

documentos, artefactos y materiales personales y testimonios (que en ocasiones se encuentran en cartas, diarios, artículos en la prensa, grabaciones radiofónicas y televisivas, entre otros).

El investigador analiza diversas cuestiones: la historia de vida,

interacciones, la secuencia de eventos y los resultados. En este proceso, el investigador reconstruye la historia de la persona o la cadena de sucesos (casi siempre de manera cronológica: de los primeros hechos a los últimos), posteriormente los narra bajo su óptica y describe (sobre la base de la evidencia

datos narrativos (que provienen de las historias contadas por los participantes, los documentos, materiales y la propia narración del investigador).

Mertens (2005) divide a los estudios narrativos en: (1) De

la narración de los participantes “en vivo”, ya sea porque fallecieron o no recuerdan a causa de su edad avanzada o

persona, grupo o comunidad incluyendo testimonios orales “en vivo” de los actores participantes).

Diseños de Investigación-Acción:

cotidianos e inmediatos, y mejorar prácticas concretas. Su propósito fundamental se centra en aportar información que guíe la toma de decisiones para programas, procesos y reformas

diseños de investigación-acción son:

! que están mejor capacitados para abordarlo en un entorno naturalista.

! importante por el entorno natural en que se encuentran.

! entornos naturalistas.

Según Stringer (1999) las tres fases esenciales de los diseños

del problema y recolectar datos), pensar (analizar e interpretar) y actuar (resolver problemas e implementar mejoras), las cuales se dan de una manera cíclica, una y otra vez, hasta que el problema es resuelto, el cambio se logra o la mejora se introduce satisfactoriamente (Citado por Hernández, Fernández & Baptista, 2006).

Creswell (2005) divide a los diseños fundamentales de la

Diseños Fenomenológicos:

Estos diseños se enfocan en las experiencias individuales

por una persona (individual), grupo (grupal) o comunidad (colectiva) respecto de un fenómeno?. El centro de indagación de estos diseños reside en la(s) experiencia(s) del participante o participantes.

Mertens, 2005 (Citado por Hernández, Fernández & Baptista, 2006) la fenomenología se fundamenta en las siguientes premisas:

! Se pretende describir y entender los fenómenos desde el punto de vista de cada participante y desde la perspectiva construida colectivamente.

!

! El investigador confía en la intuición y en la imaginación para lograr aprehender la experiencia de los participantes.

! El investigador contextualiza las experiencias en términos de su temporalidad (tiempo en que sucedieron), espacio (lugar en el cual ocurrieron), corporalidad (las personas físicas que la vivieron), y el contexto relacional (los lazos que se generaron durante las experiencias).

! documentos y materiales e historias de vida se dirigen a encontrar temas sobre experiencias cotidianas y excepcionales.

Análisis de los datos

Según Amescua & Gálvez (2002), la fase de análisis de los datos representa probablemente el lado oscuro de la investigación cualitativa. Tanto los defensores teóricos del método como los productores de investigaciones cualitativas adolecen de proporcionar escasa información sobre los modos en que transforman los datos en interpretaciones que puedan

Estos autores consideran que cualquiera que sea el estilo analítico adoptado, hay un momento en el que el investigador se

Page 44: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

44   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

74

ISSN: 1729 - 4827*[email protected]

encierra a solas con los datos y es entonces cuando comienzan

hacer emerger ese torrente de conceptos y proposiciones que sugiere el análisis cualitativo?.

Al respecto, Taylor & Bogdan (1990) proponen un enfoque de análisis en progreso en investigación cualitativa basado en tres

cuales están dirigidos a buscar el desarrollo de una comprensión en profundidad de los escenarios o personas que se estudian: Fase de descubrimiento: Consiste en buscar temas examinando los datos de todos los modos posibles, lo cual involucra las siguientes acciones:

! ! Seguir la pista de temas, intuiciones, interpretaciones e ideas.! Buscar los temas emergentes.! Elaborar las tipologías.! Desarrollar conceptos y proposiciones teóricas.! ! Desarrollar una guía de la historia.

Es la reunión y análisis de todos los datos

proposiciones, cuyas acciones son:! ! ! Separar los datos pertenecientes a las diversas categorías de

! Examinar los datos que no se han considerado.!

Consiste en interpretar los datos en el contexto en el que fueron recogidos, cuyas acciones son:

! Datos solicitados o no solicitados.! !

hace cuando está sola y cuando hay otros en el lugar).! Datos directos e indirectos.! Fuentes (Distinguir entre la perspectiva de una sola persona

y las de un grupo más amplio).!

Algunos autores unen a la crítica teórica una propuesta práctica

que se tiene en cuenta, entre otras cosas por ser compatible con los programas de cómputo, cuyo uso se hace cada vez más necesario. Tampoco existe un claro acuerdo entre los metodólogos, por lo que la diversidad de esquemas propuestos obliga también a buscar consensos. Huberman & Miles (2000)

proponen tres subprocesos vinculados entre sí para realizar el análisis:

, orientada a su selección y condensación, se realiza anticipadamente (al elaborar el

participantes y los instrumentos de recogida de datos), o una vez recolectados mediante la elaboración de resúmenes,

, orientada a facilitar la mirada

concentradas, como pueden ser resúmenes estructurados, sinopsis, croquis, diagramas, entre otros.

, en la que

de los datos, como pueden ser la comparación/contraste, el señalamiento de patrones y temas, la triangulación, la búsqueda de casos negativos, etc.

Evaluación del rigor metodológico

a la investigación cualitativa es la falta aparente de validez y

la investigación cuantitativa, sin embargo, a juicio de diversos autores, extrapolar estos criterios a la investigación cualitativa es contraproducente pues se violan sus propósitos, sus objetivos y su naturaleza.

que el investigador se hace durante toda la investigación es

que se hace es cómo otros investigadores juzgarán el rigor de la investigación realizada. Estos cuestionamientos han generado debates entre los investigadores de los abordajes cualitativo y cuantitativo. Algunos investigadores cualitativos

estudios cuantitativos son inapropiados para evaluar el rigor metodológico de los estudios cualitativos, por lo que proponen

En este sentido, los criterios que comúnmente se utilizan para

ende su rigor metodológico son la dependencia, credibilidad,

Mertens, 2005).

diferentes investigadores que recolecten datos similares en el campo y efectúen los mismos análisis, generen resultados equivalentes. De acuerdo a Franklin & Ballau (2005) existen dos clases de dependencia, la interna (Grado en el cual diversos investigadores, al menos dos, generan temas similares

Page 45: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

45  

75

ISSN: 1729 - 4827*[email protected]

con los mismos datos) y la externa (Grado en que diversos investigadores generan temas similares en el mismo ambiente y período, pero cada quien recaba sus propios datos). En ambos

cualitativo (Citado por Hernández, Fernández & Baptista, 2006).

sesgos que pueda introducir el investigador en la sistematización durante la tarea en el campo y el análisis, el que se disponga de una sola fuente de datos y la inexperiencia del investigador para

se logra cuando el investigador, a través de observaciones y conversaciones prolongadas con los participantes en el estudio, recolecta información que produce hallazgos que son reconocidos por los informantes como una verdadera aproximación sobre lo que ellos piensan y sienten. Así entonces, la credibilidad

verdaderos para las personas que fueron estudiadas y para otras personas que han experimentado o estado en contacto con el fenómeno investigado. Algunas preguntas que le sirven a los evaluadores de trabajos de investigación cualitativa para determinar la credibilidad son:

! investigador?. Es decir, si se consideraron los efectos de la presencia del investigador sobre la naturaleza de los datos.

! surgieron de sus acciones y de sus interacciones durante la investigación?.

! y experiencias en relación con la experiencia de los informantes?.

! recolección de datos para determinar la congruencia entre los resultados?.

!

los resultados del estudio?.!

investigadores?.!

aplicables en su propio contexto?.

El tercer elemento del rigor metodológico es la auditabilidad,

habilidad de otro investigador de seguir la pista o la ruta de lo

registro y documentación completa de las decisiones e ideas que el investigador haya tenido en relación con el estudio. Esta estrategia permite que otro investigador examine los datos y pueda llegar a conclusiones iguales o similares a las

del investigador original, siempre y cuando tengan perspectivas

si un trabajo de investigación cualitativa cumple con este criterio:

! otros mecanismos de grabación?.

! proceso de selección?.

! informantes?.

! discutidos en la presentación del informe de investigación?.

extender los resultados del estudio a otras poblaciones. En la investigación cualitativa la audiencia o el lector del informe son los que determinan si pueden transferir los hallazgos a

se describa densamente el lugar y las características de las

de transferibilidad es una función directa de la similitud entre los

grado de transferibilidad de los resultados de una investigación cualitativa son:

! los informantes?.

! datos como un todo?.

no existe un método mágico de indagación que garantice la validez de los hallazgos, la pura “corrección metodológica” no produce datos válidos. Más allá de las distintas orientaciones

ha dado un cambio en la forma de ver las realidades sociales: de modo simple se ha pasado a verlas de manera compleja y

(derivada de la complejidad, diversidad, indeterminación, apertura y causalidad mutua de lo real), en contra de los

(en un marco de referencias intersubjetivas), y explícitamente

cotidiana (Citado por Jiménez-Domínguez, 2000).

Algunos retos

Analizaremos dos de los retos más importantes a los cuales se enfrenta la investigación cualitativa, la primera es su vinculación con las nuevas tecnologías de la información y comunicación, y la segunda, es la posibilidad de dejar atrás las disputas irreconciliables con la investigación cuantitativa, postulando el trabajo conjunto a través de los enfoques mixtos.

Page 46: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

46   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

76

ISSN: 1729 - 4827*[email protected]

La Investigación Cualitativa y las nuevas Tecnologías de la Información y Comunicación

la comunicación e interacción tecnológica en la sociedad ha provocado profundas y veloces transformaciones que afectan a

las nuevas tecnologías de la información y comunicación, en el

en la investigación cualitativa supone un potencial temático como metodológico para el estudio de la problemática social. Hoy en día los investigadores en general y particularmente los investigadores en el plano cualitativo, ya no están restringidos a un simple lápiz, a un cuaderno de notas, a un sentido diligente de la vista, a una grabadora de audio, o a un simple ordenador, ya que el desarrollo tecnológico ha proporcionado diferentes herramientas y aplicaciones tecnológicas, y con ellas nuevos entornos y formas de investigar, nuevos tipos de datos, nuevas formas de recolectarlos, almacenarlos, analizarlos y

aún más la labor que han venido realizando los investigadores cualitativos.

Estos mismos autores, postulan que las tecnologías de la información y comunicación han generado muchas oportunidades para que las personas se pongan en contacto, interactúen, opinen y construyan en grupo. De esta forma nos movemos hacia otra cultura de investigación, hacia

telemáticas, en especial Internet, ofrecen la posibilidad de comunicación e interacción con personas de todo el mundo

instancias más recurridas para estos intercambios son el correo electrónico, las listas de distribución, los grupos de noticias, los foros de discusión, los chats, weblogs y wikis, entre otros. De esta manera, las redes telemáticas no son caminos que van a cualquier parte, sino que conforman una comunidad de comunidades, un mundo paralelo, creado y sustentado por las tecnologías de la información y comunicación, por lo cual urge que el investigador tenga cada vez más un dominio informático que le garantice su labor investigadora.

Sin embargo, el panorama de vincular el desarrollo tecnológico con los avances en la investigación cualitativa, no es sencillo, muy por el contrario se presenta difícil y espinoso en algunos casos. Al respecto, Amescua & Gálvez (2002) consideran que una interrogante de nuestros días es sobre el verdadero papel que juega el ordenador en el análisis cualitativo. Como todas las innovaciones, la máquina de la era de la información genera posiciones encontradas entre quienes la han incorporado y pretenden ver un mundo inacabable de posibilidades y los partidarios de continuar haciendo las cosas

un área principal de especialización dentro del análisis. Al menos en teoría, cualquier forma de análisis cualitativo podría

ser asistida por ordenador a través de programas informáticos creados a tal efecto, que facilitan el manejo mecánico de los

Ethnograph, Aquad, Nudist o Atlas-Ti, resultan sumamente útiles en las fases instrumentales del análisis para realizar

siendo especialmente útiles cuando se trabaja simultáneamente con grandes cantidades de información (Citado por Gil, Conti,

Qualpro, Qualog y WinMax que evolucionan con vertiginosidad, prácticamente todos sirven para las etapas del análisis:

interpretación de datos, descubrimiento de patrones y generación de teoría fundamentada, además de que ayudan a establecer hipótesis, así mismo, todos recuperan y editan texto, lo mismo que numeran líneas o unidades de contenido.

al análisis -texto, video, audio, esquemas, diagramas, mapas,

Baptista, 2006).

No obstante, este alentador panorama, algunos autores han alertado sobre las grandes limitaciones que entraña el análisis asistido por ordenador, como por ejemplo, el fraccionamiento de la información, la pérdida de la visión de conjunto y la descontextualización. También existiría el riesgo de quedarse atrapado por la seducción de la herramienta, reduciendo el análisis a simples operaciones mecánicas y perdiendo de vista el verdadero objeto del análisis, que es la interpretación de los datos, una operación que difícilmente puede hacer un programa informático por sí solo. No cabe duda que el ordenador constituye una ayuda importante como servidor con un gran potencial para la realización de las tareas de rutina y como apoyo a la elaboración conceptual y teórica, pero no puede reemplazar la capacidad deductiva del investigador. (Amescua & Gálvez, 2002).

¿Es posible trabajar con ambos enfoques: El cuantitativo y el cualitativo?

Durante el desarrollo de la ciencia, han surgido diversas corrientes de pensamiento, así como diferentes marcos interpretativos, que han originado diferentes rutas en la búsqueda del conocimiento, dando como consecuencia dos polos opuestos y aparentemente antagónicos, el enfoque cuantitativo y el enfoque cualitativo de

irreconciliables?.

Según Jiménez-Domínguez (2000) se suelen contraponer lo cualitativo a lo cuantitativo como uno de los rasgos distintivos de la investigación cualitativa. Sin embargo, el asunto es mucho

Page 47: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

Ministerio de Planificación Nacional y Política Económica

47  

77

ISSN: 1729 - 4827*[email protected]

Se supone que esta separación marca el acceso diferente al mundo natural y al social, el contraste entre lo objetivo y lo

medición está marcada por la subjetividad, dado que lo que se mide es lo que decide la persona que hace la medición, y en ese sentido se puede decir también que no hay mediciones físicas, sino sociales del mundo físico. Es claro que una cantidad es

(1985), es una cantidad de una cualidad: lo cuantitativo es una

cuantitativo se alude a un intento de matematización, pero el concepto más general en matemáticas no es el de número,

la cualitativa en ciencias sociales se insertan en procesos de

además, hay órdenes no cuantitativos, como los que abordan las

si bien mayoritariamente se consideran cuantitativas, también producen investigación que es cualitativa.

Mayntz, Holm & Hübner (1985) plantean que la diferencia entre lo cuantitativo y lo cualitativo es provisional y poco

un proceso de construcción de conocimiento un investigador pueda recurrir a una forma sin utilizar la otra. Es falsa la separación entre métodos empíricos e interpretativos como dos formas distintas de construir conocimiento, lo cual se sustenta en la noción de que es imposible observar sin interpretar, así como interpretar sin observar. Estas diferencias entre hacer investigación de corte cuantitativo y de corte cualitativo, según este autor, responden más bien a posturas de tipo ideológicas, son asuntos que se relacionan más con creencias y formaciones, que con estar construyendo conocimiento realmente por mecanismos distintos. En la práctica, no son separables, todos los investigadores deben observar de forma sistematizada

investigadores de las ciencias sociales, sino a los de las ciencias naturales. Así como el método natural-empírico aporta a las áreas sociales, el método hermenéutico-interpretativista aporta

diferencias realmente claras radican en la naturaleza distinta de sus objetos de estudio, en la naturaleza distinta de sus variables y en los objetivos particulares de cada investigación.

Desde 1980 se ha iniciado el debate sobre la legitimidad de la investigación mixta, es decir, la posibilidad de realizar estudios complementando tanto la investigación cuantitativa como la cualitativa. Desde entonces, si bien es cierto han existido opiniones polarizadas de rechazo y aceptación, es innegable que ha seguido analizándose, debatiéndose y planteándose una nueva visión que avala, fundamenta y enriquece la utilización de ambas investigaciones, en lo que ha dado por llamarse el Enfoque Integrado Multimodal, también conocido como

Baptista, 2006).

El siglo XXI ha comenzado con una tercera vía, referida a la tendencia cada vez mayor de unir ambos enfoques, prueba de ello, es que durante esta década el enfoque mixto ya se aplica en diversos campos como la Educación, la Comunicación,

embargo, no podemos dejar de señalar que este enfoque enfrenta escepticismo entre algunos colegas, en especial entre quienes se muestran radicales ante algunas de estas posturas, particularmente los fundamentalistas metodológicos

desdeñan el otro, ya sea que hayan adoptado el cuantitativo y menosprecian al cualitativo, ubicándolo como “pseudociencia”

que han adoptado al cualitativo y desprecian al cuantitativo -considerándolo impersonal, incapaz de capturar el verdadero

de considerar que ambos enfoques utilizados conjuntamente

manera importante, ya que no se excluyen ni se sustituyen, sino que se complementan.

cuantitativo y cualitativo son únicamente “posibles elecciones u opciones” para enfrentar problemas de investigación, más que paradigmas o posiciones epistemológicas (Todd, Nerlich &

(2004), un método o proceso no es válido o inválido por sí

resulta ser una propiedad inherente de un método o proceso en particular, sino que atañe a los datos recolectados, los análisis efectuados, y las explicaciones y conclusiones alcanzadas por

particular (Citado por Hernández, Fernández & Baptista, 2006).

Coincidimos con Henwood (2004) al señalar que insistir en que los enfoques cuantitativo y cualitativo son diferentes no nos lleva a ninguna parte, la polarización de enfoques es hipercrítica, restringe el quehacer del investigador y bloquea nuevos caminos para incluir, extender, revisar y reinventar las

posición que promueve más la innovación en las ciencias.

Hay mucho que decir de la investigación cualitativa, falta aún un largo camino por recorrer en el análisis y evaluación. Coincidimos con Mercado-Martínez (2002) en que la producción

Page 48: ENFOQUES Y DISEÑOS METODOLOGICOS PARA LA EVALUACION

MATERIAL DE APOYO PARA EL DISEÑO Y EJECUCIÓN DE EVALUACIONES ESTRATÉGICAS DE GOBIERNO

48   SISTEMA NACIONAL DE EVALUACIÓN SINE – COSTA RICA  

78

ISSN: 1729 - 4827*[email protected]

generada hasta el momento en el campo de la investigación cualitativa ha sido de enorme riqueza en algunas áreas debido al esfuerzo de algunos investigadores y grupos de trabajo. Sin embargo, hace falta una evaluación sistemática de la producción en su conjunto, de las orientaciones teóricas, las temáticas y las experiencias generadas en las diferentes disciplinas.

Hoy más que nunca urge que el investigador se nutra y se alimente de los últimos avances que se dan en la comunidad

pues sólo así estará en condiciones de responder a los retos y desafíos que presenta el actual milenio.

REFERENCIAS

557272002000500005

Española de Investigación Social, Núm. 29, pp. 7-41.

Bernal, C. (2006). Metodología de la Investigación. México:

Investigación Cualitativa. Index Enferm

Glaser, B. & Strauss, A.(1967). . Chicago: Aldine.

.

principles and practices from beyond the quality-quantity

divide. En: Todd, Z., Nerlich, B., Mckeown, S. & Clarke, D. (Eds.).

. México: Mc Graw Hill.

Huberman, A. & Miles, M. (2000). Métodos para el manejo y el análisis de datos. En: Denman, C., Haro, J. (Comp.).

social

, Núm. 29, pp. 85-127.

Ibáñez, J. (1994). . Madrid: Siglo XXI.

Jiménez-Domínguez, B. (2000).Investigación cualitativa y psicología social crítica. Contra la lógica binaria y la ilusión de la pureza. de octubre del 2007 de:

. Madrid: Alianza.

Mercado-Martínez, F. (2002). Investigación cualitativa en International

1 (1)

Mertens, D. (2005).

and mixed methods

nuevos espacios para la investigación cualitativa. Sánchez,

www.usal.es/~teoriaeducacion/rev_numero_08_01/n8_01_orellana_lopez_sanchez_gomez>

cotidiana

interpretado: la falsedad del empirismo y del interpretativismo como métodos distintos. Episteme

episteme/numero5-05/