amostragem para avaliações do impacto de...

AADAPT Workshop South AsiaGoa, December 17-21, 2009

Amostragem paraAvaliações do Impacto de Programas

Pedro Vicente

Introdução

Como é que desenhamos uma amostra para detectar de uma forma credível um efeito significativo? Em que populações ou grupos estamos interessados e aonde é

que conseguimos encontrá-los? Quantas pessoas/empresas/unidades devem ser

entrevistadas/analisadas dessa população? De que forma é que o tamanho da amostra afecta o orçamento

da avaliação?

Atenção! O objetivo desta apresentação não é torná-lo um perito em

amostragens O objetivo também não é dar-lhe uma dor de cabeca É mais um overview: De que forma é que as características da

amostragem afectam o que é possivel aprender com a avaliaçãodo impacto de um programa?

Sumário

1. Base da amostragem Em que populações ou grupos estamos interessados Como é que conseguimos encontrá-los?

2. Tamanho da amostra Porque é tão importante: confiança nos resultados Determinantes do tamanho apropriado da amostra Outras questões Exemplos

3. Orçamentos

Base de amostragem

Em quem é que estamos interessados?a) Todas as povoações?b) Todas as povoações em que estamos presentes?c) Todas as povoações numa determinada província?d) Todas as povoações em que estamos presentes numa determinada

província?

É preciso ter em consideração a validade externa Consegue-se com os resultados da população (c) retirar ilações para

intervenções noutras províncias? Consegue-se com os resultados da população (d) retirar ilações para as

políticas públicas do país?

Mas é preciso ter em conta a viabilidade e o que queremos saber Pode não ser possível ou desejável fazer um piloto muito genérico de

um programa ou de uma política4

Base de amostragem: Encontrar as unidades em que estamos interessados Depende do tamanho e do tipo de experiência

Sorteio entre as povoações Exemplo: Programa de Capacitação de Instituições ao Nível Local, em

províncias onde o parceiro de implementação está presente Podemos utilizar unidades de tratamento e comparação da pool de povoações Se não é possivel (50,000 recebem o tratamento), é necessário uma amostra

para medir o impacto Alteração de política

Exemplo: Alteração em províncias seleccionadas aleatoriamente das regras de capacitação institucional

Para medir o impacto na qualidade das decisões ao nível local, não se podecriar uma amostra de todas as povoações nas províncias seleccionadas

É necessário uma amostra de povoações dentro das províncias

Informação necessária antes da amostragem Listagem completa de todas as unidades de observação disponíveis para

amostragem em cada área ou grupo Pode ser complicado para unidades em províncias em conflito recente

Sumário

1. Base da amostragem Que populações ou grupos estamos interessados Como é que conseguimos encontrá-los?

3. Orçamentos

Tamanho da amostra e confiança

Comece com uma questão mais simples que o impactodo programa

Digamos que queremos saber a média da assiduidadeescolar na província do Kwanza Sul em Angola Opção 1: Saímos à rua e procuramos 5 povoações-escolas,

calculando nós a sua média em termos de assiduidade de alunos

Opção 2: Obtemos 130 escolas e calculamos a médiacorrespondente

Que média estará mais perto da verdadeira média?

Tamanho da amostra e confiança:

5 escolas 120 escolas

assiduidade (% diasNo de escolas0 - 20% 120 - 40% 140 - 60% 160 - 80% 180 - 100% 1

assiduidade (% dias No de escolas0 - 20% 1020 - 40% 2040 - 60% 3060 - 80% 4080 - 100% 20

Tamanho da amostra econfiança Da mesma forma, quando calculamos o impacto do programa

Necessitamos de muitas observações para dizermos com confiança se o resultado médio do grupo de tratamento é superior/inferior ao do grupo de comparação

O que significa com confiança? Minimizar o erro estatístico

Tipos de erros Erro tipo 1: Dizemos que há um impacto do programa quando na

realidade não existe Erro tipo 2: Existe um impacto do programa mas não conseguimos

detectá-lo

Tamanho da amostra econfiança Erro tipo 1: Detectar um impacto do programa quando não existe

Erro pode ser minimizado depois da recolha de dados, durante a fase de análise estatística

Necessário ajustar os níveis de significado das estimativas de impacto (ex. Intervalos de confiança de 99% ou 95%)

Erro tipo 2: não se consegue detectar que de facto há um impacto do programa Na gíria: teste estatístico tem um poder baixo Erro tem de ser minimizado antes da recolha de dados Melhor forma de garantir isso: Assegurar que se tem uma amostra

suficientemente grande

O objetivo da avaliação do impacto do programa é aprender alguma coisa Ex-ante: não sabemos qual a dimensão do impacto do programa Ex-post com poder baixo: Este programa pode ter aumentado a assiduidade

nas escolas em 50%, mas não conseguimos distinguir com confiança a diferença entre um aumento de 50% de um aumento de zero

Calcular o tamanho da amostra

Na realidade, há uma formula. Mas não fiqueassustado.

Principais aspectos a ter em conta:1. Tamanho suficiente para detectar o efeito2. Probabilidade de erros tipo 1 e tipo 23. Variância dos resultados4. Unidades (povoações) por área tratada

[ ])1(1)(4

N ρσ βα

Tamanho suficiente para detectar o efeito O efeito mínimo que queremos distinguir de zero

Aumento de 30% na assiduidade de alunos, uma queda em 25% nafaltas de professores

Amostras maioresmais fácil detectar efeitos menores

Trabalham as mulheres e os homens o mesmo número de horas? Hipótese: Em média, as mulheres trabalham 40 horas por semana,

enquanto que os homens trabalham 44 horas por semana Se estes dados são resultado de uma amostra de 10 mulheres e 10

homens É díficil dizer que são diferentes Sería mais fácil dizer que são diferentes se as mulheres trabalhassem 30 horas

por semana e os homens 80 horas por semana Mas se os dados resultam de uma amostra de 500 mulheres e 500

homens Mais provável que sejam de facto diferentes 12

Como é que escolhemos o tamanho do efeitodetectável? O efeito mínimo que implicaria uma resposta política

O efeito mínimo que permitiria dizer que o programanão foi um falhanço Este programa aumentou a assiduidade nas escolas em 40%

e este efeito é significativo do ponto de vista estatístico Óptimo - Vamos pensar como é que conseguimos expandi-lo

Este programa aumentou a assiduidade nas escolas em 10% e este efeito é significativo do ponto de vista estatístico Óptimo….oops..espera aí: gastamos este dinheiro todo e apenas

aumentou a assiduidade em 10%?13

Erro tipo 1 e erro tipo 2 Tipo 1 Nível de significado das estimativas é normalmente

estabelecido a 1% ou 5%

1% ou 5% é a probabilidade de não existir impacto no cenário em que acreditamos que encontrámos um efeito

Tipo 2 Poder normalmente colocado a 80% ou 90%

20% ou 10% é a probabilidade que haja um efeito que nãoconseguimos detectar

Amostras maioresmaior poder

Calcular o tamanho da amostra Variância dos

resultado(s) Menor variância mais

fácil detectar a diferença pode-se ter uma amostra menor

Variância de resultados Como é que sabemos a variância dos resultados antes

de decidirmos o tamanho da amostra e recolhermos osdados? O ideal é dados prévios, mas normalmente ….são não-

existentes Pode-se usar dados prévios de uma população semelhante Exemplo: inquéritos aos agregados familiares, escolas e

outros serviços públicos

Torna isto um pouco um trabalho de adivinhação, nãoexactamente uma ciência

Outras questões

1. Braços de tratamento múltiplos

2. Resultados desagregados por grupos

3. Adesão

4. Qualidade dos dados

Outras questões

Braços de tratamento múltiplos Compara-se cada tratamento separadamente com o grupo de

comparação Comparar grupos de tratamento implica amostras muito

grandes Especialmente se os tratamentos forem parecidos, as diferenças entre

os grupos de tratamento serão provavelmente menores De facto, é como corrigir um tamanho do efeito detectável muito

pequeno

Resultados desagregados por grupos São os efeitos diferentes para homens e mulheres? E para

diferentes sectores? Se o sexos/sectores são esperados reagir de uma forma

semelhante, então estimar as diferenças no impacto do tratamento também requer amostras muito grandes

Outras questões

Resultados desagregados por grupos Para garantir equilíbrio entre os grupos de tratamento

e de comparação, é aconselhavel estratificar a amostra antes de alocar o grupo de tratamento

Estratos Sub-populações Estratos habituais: localização, sexo, sector, valores

iniciais do resultado de interesse Alocação ao grupo de tratamento(ou amostragem) é

efectuada dentro destes grupos

Porque é que necessitamosde estratos? Exemplo de estratos com base na região

Porque é que necessitamosde estratos? Qual é o impacto numa região em particular?

Por vezes é dificil de dizer com confiança

Porque é que necessitamosde estratos? Randomização do tratamento dentro das

unidades geográficas Dentro de cada tratamento, ½ sera tratada, ½ será do

grupo de comparação.

Lógica semelhante para sexos, sector, tamanho da empresa, etc

Outras questões

Adesão Adesão baixa aumenta o tamanho do efeito

detectável Só se consegue detectar um efeito se for realmente grande Na prática diminui o tamanho da amostra

Exemplo: Organização de reuniões com encarregadosde educação em escolas em que se discutemquestionários de feedback Oferta a 60 escolas Apenas 5 participam Provavelmente só se consegue dizer com confiança que há

um efeito nas assiduidade se houver uma alteração enorme

Outras questões

Qualidade dos dados Dados de pouca qualidade aumentam na prática o

tamanho da amostra necessário Observações em falta

Aumento do ruído

Pode ser mitigado em parte com um coordenador no terreno a monitorizar a recolha de dados

Exemplo de Angola• Cálculos podem ser efectuados em vários pacotes estatísticos – e.g. STATA, OD

• Experiência em Angola para aumentar os gastos escolares das famílias

• Gastos-base– 50 kwanzas por dia– Dados dos gastos com ruído, o que leva a que o coeficiente de variação maior >1 seja habitual

• Exemplo do código em STATA para detectar um aumento de 10% nos gastos: – sampsi 50 55, p(0.8) pre(1) post(1) r1(0.5) sd1(50) sd2(50)– Ter dados antes e depois da intervenção diminui o tamanho da amostra necessário (pre e post)

• Resultados– Aumento de 10% (de 50 para 55): 1,178 famílias em cada grupo– Aumento de 20% (de 50 para 60): 295 famílias em cada grupo– Aumento de 50% (de 50 para 75): 48 famílias em cada grupo (Mas este efeito não é realista)

• E se a adesão for apenas de 50%– Oferecemos uma intervenção que aumenta os gastos em 20%, mas apenas metade das famílias

comparecem nas actividades– Média para o grupo de tratamento = 0.5*50 + 0.5*60 = 55– Equivalente a detectar um aumento de 10% com uma adesão de 100% necessário 1,178 em

cada grupo em vez de 295 em cada grupo25

Sumário

1. Base da amostragem Que populações ou grupos estamos interessados Como é que conseguimos encontrá-los?

3. Orçamentos

Orçamentos

O que é necessário?

Recolha de dados Empresa de inquéritos Entrada dos dados

Coordenador no terreno para garantir que o tratamento está de acordo com o protocolo de randomização e para monitorizar a recolha de dados

Análise de dados

Orçamentos

Quanto é que tudo custa? Varia muito. Normalmente depende do

Tamanho da amostra Facilidade de encontrar inquiridos Dispersão geográfica dos inquiridos Questões de segurança Nível de formação do entrevistador Et cetera….

Dados para um inquérito a empresas:$40-350/empresa Dados para um inquérito a agregados familiares: $40+/lar Coordenador no terreno: $10,000-$40,000/ano

Depende se se consegue um coordenador local Dados administrativos: Normalmente grátis

Por vezes tem resultados limitados, pode não ter informação sobreo sector informal

Em resumo

O tamanho da amostra da avaliação do impacto do programa vai determinar quanto é que se podeaprender da experiência

Algum bom senso e adivinhação nos cálculos mas é importante despender tempo nestes cálculos Se a amostra é muito pequena: perda de tempo e dinheiro

porque não seremos capazes de detectar com confiançaum impacto não-nulo

Se é posto pouco esforço na amostragem e na recolha de dados: Ver acima.

Questões?

amostragem para avaliações do impacto de...

Documents

quando não existe alocação aleatória a grupos de...

using gps in household surveys - world...

caio piza - dime...

national urban transport improvement project...

document of the world...

frontiers of financing for access - world...

1 2 as leis de newton - instructioneducation.info · ......

survey methodologies: measurement experiments with the...

acesso a terra e combate à pobreza...

cable car la paz-el alto - world...

inferencia causal y métodos...

agrupamento ibeiro de carvalho - ubibliorum.ubi.pt...

dime impact evaluation workshop innovations for...

numero de ouro -...

sample size in perspective - world...

onde estÁ tudo aquilo que nÃo...

a roadmap: impact evaluation to development impact...

wage subsidies and youth employment in south africa...

métodos...

the impact of mother literacy and participation programs...