84958247 tecnicas de amostragem apostila zelia

193
Técnicas de Amostragem (parte 2) (2 a versão) Zélia Magalhães Bianchini Agosto/2003

Upload: rafael-caumo

Post on 11-Feb-2015

99 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: 84958247 Tecnicas de Amostragem Apostila Zelia

Técnicas de Amostragem (parte 2)(2aversão)

Zélia Magalhães Bianchini

Agosto/2003

Page 2: 84958247 Tecnicas de Amostragem Apostila Zelia

2

Page 3: 84958247 Tecnicas de Amostragem Apostila Zelia

Conteúdo

1 Estimadores Especiais 11.1 Informações auxiliares em amostragem . . . . . . . . . . . . . 11.2 Estimação de uma razão . . . . . . . . . . . . . . . . . . . . . 1

1.2.1 Propriedades do estimador de uma razão . . . . . . . . 31.2.2 Variância do estimador de uma razão . . . . . . . . . . 91.2.3 Estimação da variância do estimador de uma razão . . 141.2.4 Precisão do estimador de uma razão . . . . . . . . . . . 14

1.3 Estimadores de razão para o total e a média . . . . . . . . . . 161.3.1 Variâncias dos estimadores de razão para o total e a

média . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.3.2 Estimação das variâncias dos estimadores de razão para

o total e a média . . . . . . . . . . . . . . . . . . . . . 191.3.3 Comparação da precisão do estimador de razão com a

do estimador simples em amostragem aleatória simples 191.4 Estimadores de razão em amostragem estratificada . . . . . . 20

1.4.1 Estimador de razão combinada . . . . . . . . . . . . . 201.4.2 Estimador de razão separada . . . . . . . . . . . . . . . 261.4.3 Comparação dos estimadores de razão separada e com-

binada . . . . . . . . . . . . . . . . . . . . . . . . . . . 281.4.4 O uso de estimadores de razão . . . . . . . . . . . . . . 32

1.5 Estimadores de Regressão . . . . . . . . . . . . . . . . . . . . 331.5.1 Comparação dos estimadores de regressão, razão e sim-

ples da média sob amostragem aleatória simples . . . . 361.5.2 O uso de estimadores de regressão . . . . . . . . . . . . 37

1.6 Pós-estratificação . . . . . . . . . . . . . . . . . . . . . . . . . 381.6.1 Estimação do total e da média . . . . . . . . . . . . . . 391.6.2 Precisão dos estimadores com pós-estratificação . . . . 40

1.7 O uso de informações auxiliares na estimação . . . . . . . . . . 431.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3

Page 4: 84958247 Tecnicas de Amostragem Apostila Zelia

4 CONTEÚDO

2 Amostragem de Conglomerados 532.1 Conceituação Básica . . . . . . . . . . . . . . . . . . . . . . . 532.2 Amostragem de Áreas . . . . . . . . . . . . . . . . . . . . . . 552.3 Conglomerados em 1 estágio . . . . . . . . . . . . . . . . . . 56

2.3.1 Probabilidades iguais de seleção . . . . . . . . . . . . . 562.3.2 Estimação de proporções na Ac1 . . . . . . . . . . . . 652.3.3 Coeficiente de Correlação Intraclasse . . . . . . . . . . 692.3.4 Estimação do coeficiente de correlação intraclasse . . . 752.3.5 Eficiência da Ac1 em relação à AAS com conglomera-

dos de tamanhos iguais . . . . . . . . . . . . . . . . . . 772.4 Controle na variação de tamanho . . . . . . . . . . . . . . . . 822.5 Probabilidades desiguais de seleção . . . . . . . . . . . . . . . 83

2.5.1 Seleção dos conglomerados com probabilidades desiguaise com reposição . . . . . . . . . . . . . . . . . . . . . . 83

2.6 Estratificação de conglomerados . . . . . . . . . . . . . . . . . 932.6.1 Estimadores e respectivas precisões . . . . . . . . . . . 94

2.7 Estimador de razão . . . . . . . . . . . . . . . . . . . . . . . . 972.7.1 Estimador de razão baseado no tamanho dos conglom-

erados . . . . . . . . . . . . . . . . . . . . . . . . . . . 982.7.2 Estimador de razão baseado em uma característica que

não seja o tamanho do conglomerado . . . . . . . . . . 1012.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

3 Conglomerados em 2 estágios 1093.1 Probabilidades iguais de seleção . . . . . . . . . . . . . . . . . 109

3.1.1 Introdução e definições básicas . . . . . . . . . . . . . . 1093.1.2 Parâmetros da característica y . . . . . . . . . . . . . . 1123.1.3 Estatísticas da amostra em cada estágio . . . . . . . . 1133.1.4 Estimadores de total e médias e respectivas variâncias . 1143.1.5 Estimadores das variâncias dos estimadores de total e

médias . . . . . . . . . . . . . . . . . . . . . . . . . . 1193.1.6 Amostra autoponderada . . . . . . . . . . . . . . . . . 1233.1.7 Dimensionamento da amostra de conglomerados em 2

estágios . . . . . . . . . . . . . . . . . . . . . . . . . . 1273.1.8 Efeito de conglomeração . . . . . . . . . . . . . . . . . 135

3.2 Controle de variação de tamanho das UPAs . . . . . . . . . . 1373.2.1 Probabilidades desiguais de seleção das unidades primárias1383.2.2 Estratificação das unidades primárias e seleção com

probabilidades desiguais de seleção . . . . . . . . . . . 1473.2.3 Estimador de razão . . . . . . . . . . . . . . . . . . . . 149

3.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

Page 5: 84958247 Tecnicas de Amostragem Apostila Zelia

CONTEÚDO i

4 Conglomerados em 3 estágios 1614.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1614.2 Seleção com probabilidades desiguais . . . . . . . . . . . . . . 161

4.2.1 Estimador não viciado de Y . . . . . . . . . . . . . . . 1624.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

5 Estimação de variâncias 1655.1 Porque é importante estimar variâncias? . . . . . . . . . . . . 1655.2 Problemas para estimar variâncias . . . . . . . . . . . . . . . 1655.3 Métodos para estimar variâncias . . . . . . . . . . . . . . . . . 166

5.3.1 Método de Linearização de Taylor ou δ-método . . . . 1665.3.2 Método do Conglomerado Primário (Ultimate Cluster

- Hansen et al, 1953) . . . . . . . . . . . . . . . . . . . 1685.3.3 Métodos de Replicação . . . . . . . . . . . . . . . . . . 170

5.4 Sistemas para estimação de variâncias . . . . . . . . . . . . . . 172

6 Dupla amostragem 1756.1 Descrição da técnica . . . . . . . . . . . . . . . . . . . . . . . 1756.2 Considerações sobre o custo . . . . . . . . . . . . . . . . . . . 1766.3 Dupla amostragem para estratificação . . . . . . . . . . . . . . 177

6.3.1 Estimador não viciado para V¡yd,est

¢. . . . . . . . . . 180

6.3.2 Estimação de uma proporção na dupla amostragempara estratificação . . . . . . . . . . . . . . . . . . . . 180

6.4 Dupla amostragem para estimadores de razão . . . . . . . . . 1816.5 Dupla amostragem para probabilidades desiguais . . . . . . . 183

Prefácio

Estas notas de aula vêm sendo ministradas na disciplina de Tecnologia daAmostragem II do Curso de Graduação em Estatística da Escola Nacionalde Ciências Estatísticas - ENCE. Trata-se da apresentação da teoria e apli-cação de estimadores especiais e das técnicas de seleção e de estimação emamostras de conglomerados em um ou mais estágios e de dupla amostragem.As notas de aula preparadas por Pedro Luis do Nascimento Silva quandode sua atuação como professor no referido curso, bem como as referênciasbibilográficas básicas, serviram como base para a elaboração deste material.

Page 6: 84958247 Tecnicas de Amostragem Apostila Zelia

ii CONTEÚDO

Cabe esclarecer que é intenção incorporar num mesmo volume o conteúdoda disciplina de Tecnologia de Amostragem I, que corresponde aos funda-mentos e técnicas básicas para selecionar amostras e realizar estimação empesquisas por amostragem: conceitos básicos de amostragem, amostragemaleatória simples com e sem reposição, distribuições amostrais e erro amostral,estimação de proporções e domínios, cálculo de tamanhos de amostra, amostra-gem sistemática, amostragem estratificada e amostragem com probabilidadesdesiguais.A realização deste trabalho deve-se em grande parte ao incentivo de Pedro

Luis do Nascimento Silva para a preparação de um livro de amostragem emportuguês com o objetivo de facilitar o aprendizado dos alunos de graduaçãoem Estatística na aplicação de técnicas para selecionar amostras e realizarestimação em pesquisas por amostragem.Uma primeira versão dessas notas vinha sendo utilizada no curso de Gra-

duação da ENCE no 6o período, desde o 2o semestre de 1999. Agradeço aosalunos pelas indicações de correções efetuadas, em especial a Adrian HeringerPizzinga, Ralph dos Santos Silva e Rodrigo Lage de Sousa, do 6operíodo do2o semestre de 1999.Agradeço a Waldecir Bianchini pela colaboração no aprendizado para a

utilização do processador de texto Scientific Workplace e pela sua compreen-são e de nossos filhos (Renata, Fernanda e Henrique) das inúmeras horasextraordinárias de trabalho desviadas do convívio familiar para a realizaçãodesta empreitada para a primeira versão.Esta versão ainda passará por outras revisões e quaisquer sugestões sobre

eventuais falhas e omissões e sobre a incorporação de novos temas são bemvindas em busca do aprimoramento do texto, do uso adequado da teoria eaplicações em amostragem e da prepararação do profissional de Estatísticapara os desafios que a carreira certamente lhe proporcionará.

Zélia Magalhães Bianchini

Rio de Janeiro, agosto de 2003.

Page 7: 84958247 Tecnicas de Amostragem Apostila Zelia

Capítulo 1

Estimadores Especiais

1.1 Informações auxiliares em amostragem

Além da variável de interesse yi, uma ou mais variáveis xi podem estarassociadas com a i-ésima unidade da população. Por exemplo, se a variávelde interesse é o número de cabeças de gado em uma determinada fazenda,variáveis auxiliares pode incluir a área da fazenda, o tipo de vegetação, etc.Em algumas situações, os valores para a característica x são conhecidos

para toda a população, enquanto que em outras situações os valores de x sãoconhecidos só para as unidades da amostra. Em muitas pesquisas, o valorda variável de interesse de um censo anterior pode servir como uma variávelauxiliar.Informações auxiliares podem ser usadas no desenho amostral ou na es-

timação. Variáveis usadas na estratificação, ou como medidas de tamanhopara a seleção com probabilidades proporcional ao tamanho, representam ouso de informações auxiliares no desenho amostral.Na estimação de total ou de média de uma característica y, a relação entre

yi e xi pode muitas vezes ser aproveitada para produzir estimativas maisprecisas do que estimativas que utilizam apenas as informações dos dados dacaracterística y. Estimadores de razão, de regressão e de pós-estratificaçãosão exemplos do uso de informações auxiliares na estimação.

1.2 Estimação de uma razão

Freqüentemente na prática de pesquisas por amostragem, o valor a ser esti-mado com a amostra é uma razão entre duas variáveis que varia de unidadepara unidade da população.Um exemplo, que pode ser citado, é a necessidade de se estimar a razão

1

Page 8: 84958247 Tecnicas de Amostragem Apostila Zelia

2 CAPÍTULO 1. ESTIMADORES ESPECIAIS

entre os gastos das famílias com alimentação e a renda das famílias. Outroexemplo seria a razão entre a quantidade colhida de certo produto pela áreaplantada, medindo a produtividade da lavoura. Ainda outro exemplo se-ria a razão entre o salário dos trabalhadores da indústria e o número detrabalhadores da indústria, medindo o salário médio dos trabalhadores daindústria.Em todos estes exemplos, o que se procura conhecer é o valor de uma

razão R onde R =Y

X.

Considere-se a população PN = {U1, U2, · · · , UN}, onde serão investigadasduas características, x e y, gerando uma população-matriz bivariada

PN(x, y) = {(X1, Y1), (X2, Y2), · · · , (XN , YN)} ,onde: XI = x(UI)

YI = y(UI)I ∈ {1, 2, · · · , N}

Pode-se então definir o parâmetro razão na população, R, de formaque:

R =Y

X=

NPI=1

YI

NPI=1

XI

=Y

X

Ponha-se então, o problema de estimar a razão R a partir de uma amostraaleatória simples sem reposição de n unidades de PN ,{u1, u2, · · · , un}, ondeserão investigadas as características x e y, fornecendo

{(x1, y1), (x2, y2), · · · , (xn, yn)} .Note-se que:

P [(xi, yi) = (XI , YI)] =1

N∀ i ∈ {1, 2, · · · , n} e ∀ I ∈ {1, 2, · · · , N} .

Conclui-se que os vetores (xi, yi), i ∈ {1, 2, · · · , n}, são identicamentedistribuídos e que não são independentes, devido se tratar de amostragemsem reposição.Como R = Y /X = Y /X , um estimador intuitivamente razoável para

R é dado por:

bR = y

xonde y =

1

n

nXi=1

yi e x =1

n

nXi=1

xi.

Page 9: 84958247 Tecnicas de Amostragem Apostila Zelia

1.2. ESTIMAÇÃO DE UMA RAZÃO 3

1.2.1 Propriedades do estimador de uma razão

Como verificar se bR é um estimador razoável? Em primeiro lugar, nota-se que bR deve ser um estimador viciado de R, porém se pode mostrar quebR é assintoticamente não viciado; pode-se mostrar também que bR é umestimador consistente de R.Para provar que bR é um estimador consistente de R, é necessário intro-

duzir a definição de consistência.Diz-se que um estimador bθn é baseado numa amostra sem reposição de

tamanho n da população é consistente para o parâmetro θ se e somente sebθN = θ, isto é, se PhbθN = θ

i= 1.

Assim, a prova de que bR é consistente para R é imediata devido x seigualar aX e y a Y quando a amostra cobrir todas as unidades da população.

Além disto,

y =1

n

nXi=1

yi =1

n

nXi=1

¡Y + ξi

¢= Y +

1

n

nXi=1

ξi = Y + ξ

onde:

ξ =1

n

nXi=1

ξi

De modo análogo se tem que:

x = X + φ onde φ =1

n

nXi=1

φi.

Sabe-se ainda que:

N − n

N

S2yn= V ( y ) = V (Y + ξ ) = V (ξ ) = E(ξ

2)− ¡E(ξ)¢2 = E(ξ

2)

pois, E(ξ) = 0.

Analogamente,

E(φ2) = V (φ ) =

N − n

N

S2xn

Note-se que:

S2x =1

N − 1NXI=1

¡XI −X

¢2e S2y =

1

N − 1NXI=1

¡YI − Y

¢2.

Page 10: 84958247 Tecnicas de Amostragem Apostila Zelia

4 CAPÍTULO 1. ESTIMADORES ESPECIAIS

Desta forma, se pode escrever:

bR = y

x=

Y + ξ

X + φ=

Y

µ1 +

ξ

Y

¶X

µ1 +

φ

X

¶ = R

µ1 +

ξ

Y

¶ µ1 +

φ

X

¶−1

Suponha-se que Y 6= 0 e X 6= 0. Suponha-se, ainda que¯φ

X

¯< 1, isto é,

que a amostra foi dimensionada de forma que se pode esperar que¯φ¯< X

ou¯x−X

¯< X.

Então, desenvolvendo-se o fatorµ1 +

φ

X

¶−1como série de potências de

φ, vem:

bR = R

µ1 +

ξ

Y

¶µ1 +

φ

X

¶−1= R

µ1 +

ξ

Y

¶Ã1− φ

X+

φ2

X2 −

φ3

X3 + · · ·

!

bR = R

(Ã1− φ

X+

φ2

X2 −

φ3

X3 + · · ·

!+

Ãξ

Y− ξ φ

Y X+

ξ φ2

Y X2 − · · ·

!)Desprezando-se na expressão entre parênteses todos os termos com grau

superior a 2, obtém-se uma aproximação para o valor de bR.bR ∼= R

Ã1− φ

X+

φ2

X2 +

ξ

Y− ξ φ

Y X

!Agora calculando-se o valor esperado de bR vem:

E( bR) ∼= E

ÃR

Ã1− φ

X+

ξ

Y+

φ2

X2 −

ξ φ

Y X

!!

= R

ÃE

Ã1− φ

X+

ξ

Y+

φ2

X2 −

ξ φ

Y X

!!

= R

Ã1−E

µφ

X

¶+E

µξ

Y

¶+E

Ãφ2

X2

!−E

µξ φ

Y X

¶!

= R

µ1 +

1

X2E

³φ2´− 1

Y XE¡ξ φ¢¶

No entanto:

E³φ2´= V (φ ) =

N − n

N

S2xn

Page 11: 84958247 Tecnicas de Amostragem Apostila Zelia

1.2. ESTIMAÇÃO DE UMA RAZÃO 5

Por outro lado:

E¡ξ φ¢= E

¡y − Y

¢ ¡x−X

¢= COV (x, y) =

N − n

N

Sxyn

onde:

Sxy =1

N − 1NXI=1

¡XI −X

¢ ¡YI − Y

¢

De qualquer forma, a tendenciosidade do estimador bR é dada aproximada-mente por:

T ( bR) = E( bR)−R ∼= R

µ1 +

1

X2E

³φ2´− 1

Y XE¡ξ φ¢¶−R

= R

µ1

X2V

¡φ¢− 1

Y XCOV (x, y)

ou ainda:

T ( bR) ∼= R

µ1

X2

N − n

N

S2xn− 1

Y X

N − n

N

Sxyn

¶= R

N − n

N

1

n

µS2x

X2 −

Sxy

Y X

Agora note-se que a correlação entre x e y na população, ρ (x, y), édefinida por:

ρ (x, y) =E¡xi −X

¢ ¡yi − Y

¢pV (xi)V (yi)

=

Page 12: 84958247 Tecnicas de Amostragem Apostila Zelia

6 CAPÍTULO 1. ESTIMADORES ESPECIAIS

ρ (x, y) =

1

N

NPI=1

¡XI −X

¢ ¡YI − Y

¢sµ

1

N

NPI=1

¡XI −X

¢2 1N

NPI=1

¡YI − Y

¢2¶

=

NPI=1

¡XI −X

¢ ¡YI − Y

¢sµ

NPI=1

¡XI −X

¢2¶µ NPI=1

¡YI − Y

¢2¶

=

1

N − 1NPI=1

¡XI −X

¢ ¡YI − Y

¢sµ

1

N − 1NPI=1

¡XI −X

¢2¶µ 1

N − 1NPI=1

¡YI − Y

¢2¶ρ (x, y) =

SxypS2x S

2y

=Sxy

Sx Sy

Denotando-se então ρ (x, y) simplesmente por ρ , vem:

Sxy = ρ Sx Sy

Então:

T ( bR) ∼= RN − n

N

1

n

µS2x

X2 −

1

Y Xρ Sx Sy

¶= R

N − n

N

1

n

¡C2x − ρCxCy

¢onde C2

x é a variância relativa de característica x na população.Agora, é imediato provar que lim

n→NT ( bR) = 0

No entanto, uma análise de expressão de T ( bR) nos mostra que T ( bR) seanula exatamente quando:

C2x − ρCxCy = 0

Isto é, quando:S2x

X2 = ρ

Sx

X

Sy

Y

Page 13: 84958247 Tecnicas de Amostragem Apostila Zelia

1.2. ESTIMAÇÃO DE UMA RAZÃO 7

Ou melhor, quando:

Y =ρSxSy

XS2x

X2

= ρSySx

X

Assim, a condição para que bR seja um estimador não viciado de R é queY = ρ (Sy/Sx) X, que é a condição para a reta de regressão entre y e xpassar pela origem, com coeficiente angular ρ (Sy/Sx) .Foi verificado que, quando a condição anterior não é satisfeita, bR é um

estimador tendencioso, embora com tendência que tende a se anular quandoo tamanho n da amostra for grande.Com o objetivo de calcular uma medida da precisão do estimador bR, será

estabelecida uma cota superior a tendenciosidade de bR que permitirá tambéma determinação do tamanho de amostra necessário para tomar desprezível atendenciosidade.Inicialmente, quando se trata de um estimador viciado, a medida de sua

precisão deve ser o seu erro quadrático médio, dado por:

EQM( bR) = E( bR−R)2 = E

µ³bR−E( bR) +E( bR)−R´2¶

= E

µ³bR−E( bR)´2¶+ ³E ³ bR−R´´2

−2³E( bR)−R

´E³ bR−E( bR)´

= V ( bR) + hT ( bR)i2 .Note-se que se a tendenciosidade se anula, isto é, se o estimador for não

viciado, então o erro quadrático médio é igual à variância do estimador.Note-se, ainda, que a expressão de EQM pode ser escrita como:

EQM( bR) = V ( bR) + hT ( bR)i2 = V ( bR)1 +

hT ( bR)i2V ( bR)

Analisando-se a expressão acima, note-se que:

V ( bR) ∼= EQM( bR)quando: h

T ( bR)i2V ( bR) ∼= 0

Page 14: 84958247 Tecnicas de Amostragem Apostila Zelia

8 CAPÍTULO 1. ESTIMADORES ESPECIAIS

Um critério prático para avaliar quão próximos estão V ( bR) e EQM( bR)consiste em verificar se: h

T ( bR)i2V ( bR) ≤ 0, 01

Ora. isto eqüivale a verificar se:¯T ( bR)¯qV ( bR) ≤ 0, 10 ou

¯E( bR)−R

¯qV ( bR) ≤ 0, 10

Por outro lado, note-se que:

COV ( bR, x) = E( bRx)−E( bR )E(x)= E( y)− E( bR )X= Y −E( bR )X

Donde:COV ( bR, x)

X=

Y

X−E( bR )

ou seja:

E( bR ) = Y

X− COV ( bR, x)

X= R− COV ( bR, x)

Xou ainda:

T ( bR ) = E( bR )−R = −COV (bR, x)

X

Seja ρ ( bR, x) = ρ∗ o coeficiente de correlação entre bR e x. Logo:

COV ( bR, x) = ρ∗qV ( bR)pV (x)

Substituindo na expressão anterior, segue-se que:

T ( bR ) = −ρ∗qV ( bR)pV (x)

X

T ( bR )qV ( bR) = −ρ∗

pV (x)

X

ou ainda: ¯¯ T ( bR )q

V ( bR)¯¯ = |ρ∗| CV (x)

Page 15: 84958247 Tecnicas de Amostragem Apostila Zelia

1.2. ESTIMAÇÃO DE UMA RAZÃO 9

Lembrando a condição de |ρ∗| ≤ 1 segue-se que:¯¯ T ( bR )q

V ( bR)¯¯ ≤ CV (x).

Considere a expressão do tamanho de uma amostra aleatória simplesdada por:

n =

N z2α/2S2x

X2

N d2r + z2α/2S2x

X2

=N z2α/2C

2x

N z2α/2 (CV (x))2 + z2α/2C

2x

=C2x

(CV (x))2 +C2x

N

já que a precisão relativa da média amostral pode ser escrita como:dr = zα/2CV (x) e C2

x = S2x/X2é a variância relativa da característica x

na população (ou coeficiente de variação da população ao quadrado da car-acterística x).Assim, para se ter tendenciosidade desprezível no estimador de razão bR,

deve-se ter:CV (x) ≤ 0, 10

Sendo assim, basta tomar n tal que:

n ≥ C2x

0, 01 +C2x

N

Por exemplo, se Cx = 0, 4 e N = 5.000, então n ≥ 16 bastaria para tornardesprezível a tendenciosidade do estimador de razão bR.1.2.2 Variância do estimador de uma razão

Agora o objetivo é obter uma expressão para a variância do estimador derazão bR, que seja adequada para medir sua precisão. De fato, isto só temsentido quando se puder admitir que T ( bR) /qV ( bR) < 0, 10, isto é , quandoo vício de bR for pequeno.Ora, já foi visto na demonstração anterior que:

bR ∼= R +R

µξ

Y− φ

X

¶+R

Ãφ2

X2 −

ξ φ

Y X

!

Page 16: 84958247 Tecnicas de Amostragem Apostila Zelia

10 CAPÍTULO 1. ESTIMADORES ESPECIAIS

e que:

E( bR) ∼= R +R E

Ãφ2

X2 −

ξ φ

Y X

!logo,

bR− E( bR) ∼= R

µξ

Y− φ

X

¶+R

Ãφ2

X2 −

ξ φ

Y X

!−R E

Ãφ2

X2 −

ξ φ

Y X

!

Daí, a variância de bR é dada por:

V ( bR) = E³ bR−E( bR)´2

∼= E

"R

µξ

Y− φ

X

¶+R

Ãφ2

X2 −

ξ φ

Y X

!−R E

Ãφ2

X2 −

ξ φ

Y X

!#2Nesta última expressão, desprezar todos os termos com grau superior a

2. Então:

V ( bR) ∼= R2E

õξ

Y− φ

X

¶2!

= R2

ÃE

Ãξ2

Y2

!+E

Ãφ2

X2

!− 2E

µξ φ

Y X

¶!

= R2µ1

Y2V (y) +

1

X2V (x)−

2

Y XCov(x, y)

¶= R2

N − n

N

1

n

µS2y

Y2 +

S2x

X2 − 2

Sxy

Y X

¶=

N − n

N

1

n

µR2

S2y

Y2 +R2

S2x

X2 − 2R2

Sxy

Y X

¶=

N − n

N

1

nX2

¡S2y +R2S2x − 2RSxy

¢ou ainda:

V ( bR) ∼= N − n

N

1

nX2

¡S2y +R2S2x − 2RρSxSy

¢Há outra maneira de escrever a expressão da variância de bR, certas vezes

mais conveniente para fins de cálculo que as expressões já apresentadas:

V ( bR) ∼= N − n

N

1

nX2

1

N − 1NXI=1

(YI −RXI)2

Page 17: 84958247 Tecnicas de Amostragem Apostila Zelia

1.2. ESTIMAÇÃO DE UMA RAZÃO 11

Exemplo 1.1O vício e erro quadrático médio do estimador de uma razão, sob amostragem

aleatória simples, pode ser ilustrado imaginando a aplicação de amostragemem uma população muito pequena e examinando o espaço amostral, isto é,o conjunto de todas as possíveis amostras. Suponha que os valores de duasvariáveis x e y nas 4 unidades da população são:

Ui Yi Xi

U1 1 1U2 2 3U3 3 4U4 4 6

(a) Calcule o valor da razão populacional YX, obtenha todas as possíveis

amostras de tamanho 2, a serem selecionadas aleatoriamente e semreposição e estime essa razão para cada possível amostra.

(b) Calcule os valores exatos do vício, do erro quadrático médio e da var-iância desse estimador.

(c) Calcule os valores aproximados do vício e da variância desse estimador.

(d) Compare os resultados obtidos em (b) com os resultados obtidos em(c).

Solução:a) A razão populacional é dada por:

R =Y

X=

NPi=1

Yi

NPi=1

Xi

=10

14=5

7

O número de possíveis amostras é dado por:

µN

n

¶=

µ4

2

¶=

4!

2!(4− 2)! = 6

Page 18: 84958247 Tecnicas de Amostragem Apostila Zelia

12 CAPÍTULO 1. ESTIMADORES ESPECIAIS

Amostras possíveis Probabilidades y =nPi=1

yi x =nPi=1

xi bR = y

xU1U2

16

3 4 34

U1U316

4 5 45

U1U416

5 7 57

U2U316

5 7 57

U2U416

6 9 69

U3U416

7 10 710

b) Os valores exatos do vício e do erro quadrático médio deste estimadorpodem ser obtidos a partir da distribuição de todas as possíveis amostras:

E( bR) = 1

6

µ3

4+4

5+5

7+5

7+6

9+7

10

¶=365

504

o valor exato do vício de bR é dado por:

T ( bR) = E( bR)−R =365

504− 57=

5

504= 0, 0099

O erro quadrático médio é dado por:

E( bR−R)2 =1

6

µ(3

4− 57)2 + (

4

5− 57)2 + (

6

9− 57)2 + (

7

10− 57)2¶= 0, 00185

e a variância dada por:

V ( bR) = E( bR−R)2 −hT ( bR)i2 = 0, 00185− 0, 0000009 = 0, 0018491

c) O vício aproximado é dado por:

T ( bR) ∼= RN − n

N

1

n

µS2x

X2 −

Sxy

Y X

¶=1− f

nX2

¡RS2x − Sxy

¢

Page 19: 84958247 Tecnicas de Amostragem Apostila Zelia

1.2. ESTIMAÇÃO DE UMA RAZÃO 13

sendo: f =1

2n = 2 X =

7

2

S2x =

NPI=1

X2i −N X

2

N − 1 =62− 493

=13

3

Sxy =

NPI=1

XiYi −N X Y

N − 1 =43− 353

=8

3

T ( bR) ∼= 1− f

nX2

¡RS2x − Sxy

¢=

1

2

2

µ7

2

¶2 µ57µ13

3

¶− 83

¶=

3

343= 0, 0087

com respeito à variância aproximada tem-se:

V ( bR) ∼= N − n

N

1

nX2

¡S2y +R2S2x − 2R Sxy

¢=

1− f

nX2

¡S2y +R2S2x − 2R Sxy

¢sendo:

S2y =

NPI=1

Y 2i −N Y

2

N − 1 =30− 253

=5

3

portanto:

V ( bR) ∼= 1− f

nX2

¡S2y +R2S2x − 2R Sxy

¢=

1

2

2

µ7

2

¶2Ã5

3+

µ5

7

¶2µ13

3

¶− 2

µ5

7

¶µ8

3

¶!= 0, 00139

d) Observe que o vício aproximado subestima ligeiramente o valor ver-dadeiro do vício e a variância aproximada subestima ligeiramente o valorverdadeiro da variância.

Page 20: 84958247 Tecnicas de Amostragem Apostila Zelia

14 CAPÍTULO 1. ESTIMADORES ESPECIAIS

1.2.3 Estimação da variância do estimador de uma razão

Um estimador consistente para V ( bR), quando X for conhecido, é dado por:

v1( bR) = N − n

N

1

nX2

³s2y + bR2s2x − 2 bR sxy

´onde:

s2y =1

n− 1nXi=1

(yi − y)2

s2x =1

n− 1nXi=1

(xi − x)2

sxy =1

n− 1nXi=1

(xi − x)(yi − y)

que são estimadores não viciados de S2y , S2x e Sxy, respectivamente.

Um estimador para V ( bR), quando X for conhecido, expresso de outraforma é dado por:

v1( bR) = N − n

N

1

nX2

1

n− 1nXi=1

(yi − bRxi)2

Quando X não for conhecido, um estimador alternativo para V ( bR)é dado por:

v2( bR) = N − n

N

1

nx2

³s2y + bR2s2x − 2 bR sxy

´ou

v2( bR) = N − n

N

1

nx21

n− 1nXi=1

(yi − bRxi)2.

1.2.4 Precisão do estimador de uma razão

A precisão do estimador de uma razão depende da distribuição de probabil-idades do estimador bR, que se verificou ser bastante intratável e intrincada,devido ao fato de tanto os xi como os yi variarem de amostra para amostra.Os resultados teóricos conhecidos se distanciam muito do que seria desejávele necessário possuir nas aplicações práticas.Assim, os principais resultados serão aqui apresentados sem demonstração.

Page 21: 84958247 Tecnicas de Amostragem Apostila Zelia

1.2. ESTIMAÇÃO DE UMA RAZÃO 15

Inicialmente, já foi demonstrado que o estimador de razão é consistente.Além disso, se viu também que ele é viciado, exceto para certos tipos especiaisde população, embora o vício seja desprezível para amostras grandes.Outro aspecto é que a distribuição assintótica do estimador de razão é

normal para amostras bastantes grandes, sujeito apenas a restrições muitofracas quanto ao tipo de população de que se esteja selecionando a amostra.Em amostras de tamanhos moderados, a distribuição de bR mostra certatendência a uma assimetria positiva para os tipos de população para as quaiso método é comumente usado.Estes resultados indicam que não há problemas para calcular a precisão

ou a precisão relativa do estimador de razão quando:a) a distribuição de bR for aproximadamente normal;b) a fórmula para estimação da variância de bR possa ser utilizada.Em termos práticos, as hipóteses a) e b) podem ser assumidas sem risco

apreciável para amostras de no mínimo 30 unidades, suficientemente grandespara que se tenha CV (x) < 0, 10 e CV (y) < 0, 10, isto é, o tamanho n daamostra deve ser tal que:

n ≥ max

30;C2x

0, 01 +C2x

N

;C2y

0, 01 +C2y

N

Nestas condições, se pode afirmar que:bR−Rq

V ( bR) ∼= N(0, 1)

Daí segue-se que:

P

¯¯ bR−RqV ( bR)

¯¯ ≤ zα/2

∼= 1− α =⇒ P

µ¯ bR−R¯≤ zα/2

qV ( bR)¶ ∼= 1− α

onde:zα/2 é a abscissa da distribuição Normal padrão tal que

P

bR−RqV ( bR) > zα/2

2

e α é o nível de significância.

Page 22: 84958247 Tecnicas de Amostragem Apostila Zelia

16 CAPÍTULO 1. ESTIMADORES ESPECIAIS

Portanto,

D( bR) = zα/2

qV ( bR) é a precisão do estimador bR; e

Dr( bR) = zα/2

√V (R)

R= zα/2CV ( bR) é a precisão relativa do estimador bR;

Pode-se utilizar como estimador da precisão do estimador de bR, o valord( bR) tal que:

d( bR) = zα/2

qv( bR)

com v( bR) dado por v1( bR) ou v2( bR) conforme a conveniência.O estimador da precisão relativa do estimador de bR, o valor dr( bR) tal

que:

dr( bR) = zα/2

qv( bR)bR = zα/2 cv( bR)

Estas informações podem ser utilizadas para a construção de intervalosde confiança para R.A esse respeito, consultar Fieller (1932) e Paulson (1942), caso as condições

para aproximação pela normal não sejam satisfeitas.

1.3 Estimadores de razão para o total e a mé-dia

Uma forma usualmente eficaz de aproveitar o conhecimento de informaçõesexistentes sobre a população, com o objetivo de melhorar a qualidade dasestimativas de uma amostra, é a utilização de estimadores de razão.Se para determinada característica x, correlacionada com a característica

de interesse y são conhecidos:i) o valor verdadeiro da média ou total da população; eii) os valores observados na amostra.Então é possível construir estimadores cuja precisão deve ser melhor que

a dos estimadores simples ou naturais já apresentados. A ídéia básica éaproveitar a interdependência de x e y e a existência de informações sobre xlivres de erro de amostragem para conseguir estimativas mais precisas.Muitas vezes, é desejável incorporar informação de fontes externas in-

dependentes para aumentar a confiabilidade das estimativas da pesquisa etambém para promover consistência nos resultados publicados por diferentespesquisas.

Page 23: 84958247 Tecnicas de Amostragem Apostila Zelia

1.3. ESTIMADORES DE RAZÃO PARA O TOTAL E A MÉDIA 17

As técnicas que foram apresentadas para estimação de uma razão podemser adaptadas e utilizadas para melhorar as estimativas da média e totalde uma dada característica y, bastando que seja conhecido o total popula-cional (X) ou a média (X) da característica x na população, sem erro deamostragem.Ora, se X for conhecido, tem-se:

R =Y

Xe bR = y

x

Y =Y

XX = R X =⇒ bYR = bRX

Y =Y

XX = R X =⇒ yR = bR X =

bYRN

sendo:bYR o estimador de razão para estimar o total da característica y; eyR o estimador de razão para estimar a média da característica y.

Em pesquisas domiciliares, por exemplo, é prática corrente no IBGE o usode estimadores de razão para estimar o total, utilizando como variável auxil-iar a estimativa da população residente, obtida pela projeção de população.Neste caso é feito um ajuste das estimativas provenientes da amostra de talmodo que os totais da população estimados coincidam com os resultados dapopulação projetada que o IBGE elabora e divulga. O estimador do totalde uma característica y qualquer, para uma determinada área da PesquisaNacional por Amostra de Domicílios (PNAD) pode ser escrito genericamentecomo um estimador de razão da forma:

bYPNAD = bRXp =bYbX Xp =

nPi=1

wiyi

nPi=1

wixi

Xp = αnXi=1

wiyi =nXi=1

(αwi) yi =nXi=1

δi yi

onde:bYPNAD é o estimador de razão para o total da característica y ajustadopela projeção de população, utilizado na PNAD, para a área em questão;bY é o estimador de total da característica y, obtido considerando os pesossimples da amostra;bX é o estimador de total da população residente, obtido considerando ospesos simples da amostra;

Xp é a estimativa da população residente, obtida pela projeção de popu-lação.

Page 24: 84958247 Tecnicas de Amostragem Apostila Zelia

18 CAPÍTULO 1. ESTIMADORES ESPECIAIS

wi é o peso amostral associado ao i-ésimo domicílio da amostra, obtidoconsiderando os pesos simples da amostra;

n é o número de domicílios na amostra da PNAD, para a área em questão;yi é o valor da característica y associado ao i-ésimo domicílio da amostra,

para a área em questão;xi é o total de pessoas associado ao i-ésimo domicílio da amostra, para a

área em questão;

α =XpbX é o fator de ajuste dos pesos simples wi;

δi = αωi é o peso final ajustado associado ao i-ésimo domicílio daamostra.A título de ilustração, o valor do fator de ajuste dos pesos da PNAD

95 para Sergipe é de α = 1, 05, que corresponde à razão entre a populaçãoresidente projetada para a data da pesquisa (1.611.711) e o valor da estima-tiva do total da população residente obtida considerando os pesos simples daamostra para a área em questão (1.535.111).

1.3.1 Variâncias dos estimadores de razão para o totale a média

Todas as técnicas para estimação da precisão anteriormente apresentadasforam feitas supondo que o desenho da amostra era com seleção aleatóriasimples sem reposição. Para esse mesmo desenho amostral, as expressões sãoadaptadas e utilizadas, bastando notar que bYR é igual a bR vezes a constanteX.Dessa forma, tem-se:

E(bYR)− bYR = X³E( bR)− bR´

V (bYR) = X2 V ( bR) ∼= X2N − n

N

1

nX2

¡S2y +R2S2x − 2RSxy

¢= N

N − n

n

¡S2y +R2S2x − 2RSxy

¢ou

V (bYR) = NN − n

n

1

N − 1NXI=1

(YI −RXI)2

De modo análogo, para a média yR tem-se:

E(yR)− yR = X³E( bR)− bR´

Page 25: 84958247 Tecnicas de Amostragem Apostila Zelia

1.3. ESTIMADORES DE RAZÃO PARA O TOTAL E A MÉDIA 19

V (yR) = V (bYRN) ∼= N − n

N

1

n

¡S2y +R2S2x − 2RSxy

¢ou

V (yR)∼= N − n

N

1

n

1

N − 1NXI=1

(YI −RXI)2

1.3.2 Estimação das variâncias dos estimadores de razãopara o total e a média

Um estimador para V (bYR) é dado por:v(bYR) = X2v( bR) = N

N − n

n

hs2y + bR2s2x − 2 bR sxy

iou

v(bYR) = X2v( bR) = NN − n

n

1

n− 1nXi=1

(yi − bRxi)2

e um estimador para V (yR) é dado por:

v(yR) = X2v( bR) = N − n

N

1

n

hs2y + bR2s2x − 2 bR sxy

iou

v(yR) =N − n

N

1

n

1

n− 1nXi=1

(yi − bRxi)2

1.3.3 Comparação da precisão do estimador de razãocom a do estimador simples em amostragem aleatóriasimples

A partir de uma amostra aleatória simples sem reposição de n unidades seconhece expressões para as variâncias do estimador simples e do estimadorde razão para estimar o total (ou a média). Portanto, é possível comparar aprecisão alcançada com cada um através da comparação entre suas variâncias.Sendo assim, para o caso do estimador de total, sabe-se que:

V (bY ) = N2 N − n

N

S2yn

V (bYR) = X2 N − n

N

1

nX2

¡S2y +R2S2x − 2RSxy

¢= N2 N − n

N

1

n

¡S2y +R2S2x − 2RSxy

¢

Page 26: 84958247 Tecnicas de Amostragem Apostila Zelia

20 CAPÍTULO 1. ESTIMADORES ESPECIAIS

Note-se que:

V (bYR) < V (bY )⇐⇒ S2y +R2S2x − 2RρSxSy < S2y

⇐⇒ R2S2x < 2RρSxSy ⇐⇒ ρ >RSx2Sy

⇐⇒

⇐⇒ ρ >Y Sx

2X Sy⇐⇒ ρ >

Sx/X

2 Sy/Y=⇒ ρ >

1

2

Cx

Cy

Na prática, esta relação pode ser utilizada para verificar, quando é conve-niente o uso do estimador de razão ao invés do estimador simples do total ouda média, já que muitas vezes é possível conhecer aproximadamente o valorde ρ = ρ (x, y) e também a relação entre Cx e Cy.

1.4 Estimadores de razão em amostragem es-tratificada

Nas seção 1.3 foi tratado o caso de utilização do estimador de razão paraestimar o total populacional (Y ) a partir de uma amostra aleatória simplessem reposição de tamanho n. No caso de uma amostra estratificada, há doisestimadores de razão para estimar o total populacional (Y ):

• estimador de razão combinada; e• estimador de razão separada.

1.4.1 Estimador de razão combinada

Considere então, o problema de estimar o total Y a partir de uma amostraaleatória estratificada selecionada de uma população comL estratos de tamanhoNh (h = 1, 2, · · · , L), tendo sido selecionadas nh unidades e investigadas ascaracterísticas x e y em cada unidade da amostra de cada estrato. Suponhaque seja também conhecido o total populacional para a característica x. Oestimador de razão combinada bYRC para estimar o total populacional (Y ) édefinido por: bYRC = bYestbXest

X =yestxest

X

onde:bYest = LPh=1

Nhyh é o estimador simples do total da característica y na

amostra estratificada;

Page 27: 84958247 Tecnicas de Amostragem Apostila Zelia

1.4. ESTIMADORESDERAZÃOEMAMOSTRAGEMESTRATIFICADA21

bXest =LP

h=1

Nhxh é o estimador simples do total da característica x na

amostra estratificada;X é o total da característica x, conhecido de alguma fonte externa a

amostra, livre de erros de amostragem;1

yest =bYestN

é o estimador simples da média da característica y na amostra

estratificada; e

xest =bXest

Né o estimador simples da média da característica x na amostra

estratificada.

O estimador de razão combinada bYRC é consistente para o total Y .Isto é, bYRC |n=N = Y

Prova: se n = N com nh = Nh ∀h = 1, 2, · · · , L vem:

bYest =LX

h=1

Nhyh =LX

h=1

NhY h = Y

bXest =LX

h=1

Nhxh =LX

h=1

NhXh = X

donde: bYRC |n=N =Y

XX = Y

É sabido que os estimadores de razão são viciados exceto se a populaçãofor de um tipo muito especial em termos de relação entre x e y.Apesar disso, tem—se afirmado que emmuitos casos o estimador de razão é

preferível ao estimador natural (simples) por que dá melhor precisão. Entre-tanto, esta afirmação só é verdadeira, quando se consegue tornar desprezívelo vício ou tendenciosidade do estimador de razão.Acontece que, como YRC é um estimador de razão se pode demonstrar

que:| E(bYRC − Y |q

V (bYRC) ≤ CV ( bXest) = CV (xest)

1O estimador bYRC depende apenas do conhecimento do total X, e não dos totais Xh

dos estratos.

Page 28: 84958247 Tecnicas de Amostragem Apostila Zelia

22 CAPÍTULO 1. ESTIMADORES ESPECIAIS

é usual considerar a tendensiosidade desprezível quando

CV ( bXest) = CV (xest) ≤ 0, 10.Assim ao dimensionar a amostra para estimar Y é indispensável garantir

um tamanho mínimo tal que se tenha CV (xest) ≤ 0, 10Isto significa em:

V (xest)

X2 ≤ 0, 01⇒ 1

X2

ÃLX

h=1

N2h

N2

S2h(x)

nαh−

LXh=1

N2h

N2

S2h(x)

Nh

!≤ 0, 01

⇒LX

h=1

N2h

N2

S2h(x)

nαh≤ 0, 01X2

+LX

h=1

N2h

N2

Sh(x)

Nh

⇒ n ≥

LPh=1

S2h(x)

αh

N2h

N2

0, 01X2+

LPh=1

N2h

N2

S2h(x)

Nh

onde:αh =

nhndepende do critério de alocação da amostra em cada estrato;

S2h(x) =1

Nh − 1NhPj=1

¡Xhj −Xh

¢2Xhj é o valor da característica x associada à unidade j do estrato h.Esta condição quanto à precisão na estimação deX será também usada no

estabelecimento de uma expressão aproximada para a variância do estimadorde razão combinada.Além disto, há que notar a equivalência de fixar um coeficiente de variação

de 10% para xest e de admitir um erro máximo de 20% na estimação de Xcom 95% de confiança.Não se dispõe de uma expressão exata para a variância do estimador de

razão combinada. Porém, se a amostra é de tamanho suficientemente grandepara tornar desprezível a tendenciosidade do estimador, pode—se obter umaexpressão aproximada para a variância:

V (bYRC) ∼= E³bYRC − Y

´2= E

õyestxest

X − Y

¶2!

= E

õyestxest

X − Y

X

X

xestxest

¶2!= E

µX2

x2est(yest −Rxest)

2

= N2E

ÃX2

x2est(yest −R xest)

2

!

Page 29: 84958247 Tecnicas de Amostragem Apostila Zelia

1.4. ESTIMADORESDERAZÃOEMAMOSTRAGEMESTRATIFICADA23

supondo—se n grande, tem se

X

xest∼= 1

Daí

V (bYRC) ∼= N2E (yest −Rxest)2 = N2E

¡y2est +R2 x2est − 2Ryest xest

¢Porém:

E(y2est) = V (yest) + [E(yest)]2 = V (yest) + Y

2

E(x2est) = V (xest) +X2

E(xestyest) = COV (xest, yest) +E(xest)E(yest) = COV (xest , yest) +X Y

Daí

V (bYRC) ∼= N2[V (yest) +R2V (xest)− 2RCOV (xest, yest)]

+N2[Y2+R2X

2 − 2RX Y ]

como:

Y2+R2X

2 − 2RX Y = (Y −RX)2 = 02 = 0

V (bYRC) ∼= N2[V (yest) +R2V (xest)− 2RCOV (xest, yest)]

agora:

V (yest) =LX

h=1

N2h

N2

Nh − nhNh

S2h(y)

nh

V (xest) =LX

h=1

N2h

Nh

Nh − nhNh

S2h(x)

nh

onde:

S2h(y) =1

Nh − 1NhXj=1

(Yhj − Y h)2

S2h(x) =1

Nh − 1NhXj=1

(Xhj −Xh)2

Page 30: 84958247 Tecnicas de Amostragem Apostila Zelia

24 CAPÍTULO 1. ESTIMADORES ESPECIAIS

e finalmente:

COV (xest, yest) = E[xest −X)(yest − Y )]

= E

"ÃLX

h=1

Nh

Nxh −

LXh=1

Nh

NXh

!ÃLX

h=1

Nh

Nyh −

LXh=1

Nh

NY h

!#

= E

("LX

h=1

Nh

N(xh −Xh)

#"LX

h=1

Nh

N(yh − Y h)

#)

= E

"LX

h=1

N2h

N2(xh −Xh)(yh − Y h)

#

+E

LXh=1

LXk=1k 6=h

Nh

N

Nk

N(xh −Xh)(yk − Y k)

=

LXh=1

N2h

N2E(xh −Xh)(yh − Y h) + 0

=LX

h=1

N2h

N2COV (xh, yh)

Lembrando—se que a amostra dentro de cada estrato é aleatória simples,vem:

COV (xh, yh) =Nh − nh

Nh

Sh(x, y)

nh

onde

Sh(x, y) =1

Nh − 1NhXj=1

(Xhj −Xh)(Yhj − Y h)

Então finalmente:

COV (xest, yest) =LX

h=1

N2h

N2

Nh − nhNh

Sh(x, y)

nh

Daí, obtém-se:

V (bYRC) ∼= N2LX

h=1

N2h

N2

Nh − nhNh

1

nh[S2h(y) +R2S2h(x)− 2RSh(x, y)]

Page 31: 84958247 Tecnicas de Amostragem Apostila Zelia

1.4. ESTIMADORESDERAZÃOEMAMOSTRAGEMESTRATIFICADA25

Substituindo-se nesta expressão os valores de S2h(y), S2h(x) e Sh(x, y) vem:

V (bYRC) ∼= LXh=1

N2h

Nh − 1Nh − nh

Nh

1

nh"NhXj=1

(Yhj − Y h)2 +R2(Xhj −Xh)

2 − 2R(Xhj −Xh)(Yhj − Y h)

#

⇒ V (bYRC) ∼= LXh=1

Nh

Nh − 1Nh − nh

nh

(NhXj=1

[(Yhj − Y h)−R(Xhj −Xh)]2

)Um estimador de V (bYRC) é dado por:

v(bYRC) = LXh=1

Nh(Nh − nh)

nh

hs2h(y) + bR2est s2h(x)− 2 bRest sh(x, y)

ionde: bRest =

yestxest

e s2h(y), s2h(x) e sh(x, y) são estimadores não viciados de S2h(y), S2h(x) eSh(x, y), respectivamente, ou seja:

s2h(y) =1

nh − 1nhXj=1

(yhj − yh)2

s2h(x) =1

nh − 1nhXj=1

(xhj − xh)2

sh(x, y) =1

nh − 1nhXj=1

(xhj − xh)(yhj − yh)

O estimador de razão combinada para estimar a média Y é dado por:

yRC =bYRCN

Neste caso a variância V (yRC) é dada por:

V (yRC) =1

N2V (bYRC)

e um estimador de V (yRC) é dado por:

v(yRC) =1

N2v(bYRC)

Page 32: 84958247 Tecnicas de Amostragem Apostila Zelia

26 CAPÍTULO 1. ESTIMADORES ESPECIAIS

1.4.2 Estimador de razão separada

Uma outra forma de utilizar estimadores de razão para conseguir maior pre-cisão na amostragem estratificada é o chamado estimador de razão separada.

bYRS = LXh=1

yhxh

Xh =LX

h=1

yhxh

Xh =LX

h=1

bR hXh

Note—se que é necessário conhecer os totais por estrato Xh da característicaauxiliar x.A principal diferença do estimador de razão separada para o estimador

de razão combinada está no nível em que se faz uso da estimação por razão:no estimador de razão separada são feitas razões em cada um dos estratos,enquanto que no estimador de razão combinada uma única razão é feita paraos estimadores de total disponíveis.O estimador de razão separada bYRS é consistente para o total Y . Isto

é:YRS |n=N = Y

Prova: se n = N com nh = Nh =⇒ yh = Y h

bYRS |n=N =LX

h=1

yhxh

Xh =LX

h=1

Y h

Xh

Xh =LX

h=1

Nh Y h = Y

Quanto à tendendiosidade, este estimador precisa ser analisado commaior cuidado, porque depende de razões constuídas em cada um dos es-tratos.Definindo bYhR = yh

xhXh

Vem: bYRS = LXh=1

bYhREm cada estrato, sabe—se que:

| E(bYhR)− Yh |qV (bYhR) ≤ CV (xh) ∀h = 1, 2, · · · , L

Se os nh forem todos suficientemente grandes, pode—se admitir que ovício de bYRS é desprezível. Caso isto não aconteça o uso deste estimadornão é aconselhável, pois o vício do estimador pode ser significativo impedindomesmo o cálculo de uma estimativa da precisão como será visto mais adiantePara ver porque isto ocorre, basta um raciocínio intuitivo:

Page 33: 84958247 Tecnicas de Amostragem Apostila Zelia

1.4. ESTIMADORESDERAZÃOEMAMOSTRAGEMESTRATIFICADA27

Suponha que o vício tenha o mesmo nível em todos os estratos, comopode ocorrer, e então o vício de bYRS será aproximadamente L vezes ovício em bYhR. Porém, o erro padrão de YRS é apenas da ordem de

√L

vezes o erro padrão de bYhR. Logo:| E(bYRS)− Y |q

V AR(bYRS)poderia ser tão grande quanto

√LCV (xh)

Exemplo: Se tivermos 50 estratos com CV (xh) = 0, 1 em cada estrato,o vício de bYRS poderia ser da ordem de 0,7 vezes seu erro padrão.Uma regra prática a adotar contra-indica o uso do estimador de razão

separada a menos que:√L(CV (xh) < 0, 20 ∀L = 1, 2, · · · , L.

Talvez esta regra seja conservadora demais pois o vício pode ser bemmenor que o limite superior conhecido; mas a menos que haja forte evidênciadisso não se deve usar o estimador de razão separada.Também não existe uma expressão exata para a variância de bYRS. Será

obtida uma expressão aproximada no caso em que os nh são suficientementegrandes para tornar desprezível o vício em cada um dos estratos. Caso estacondição não se verifique, a expressão obtida para a variância não é confiável,e o estimador de razão separada não deve ser usado.Supondo os nh suficientemente grandes, vem:

V (bYRS) ∼= E[(bYRS − Y )2] = E

à LXh=1

bYhR − LXh=1

Yh

!2= E

à LXh=1

(yhxh

Xh − Yh)

!2=

LXh=1

E

"µyhxh

Xh − Yh

¶2#+

+LX

h=1

LXk=1k 6=h

E

µyhxh

Xh − Yh

¶µykxk

Xk − Yk

∼=LX

h=1

V (bYhR) + 0=

LXh=1

N2h

Nh − nhNh

1

nh

£S2h(y) +R2hS

2h(x)− 2RhSh(x, y)

¤

Page 34: 84958247 Tecnicas de Amostragem Apostila Zelia

28 CAPÍTULO 1. ESTIMADORES ESPECIAIS

onde: Rh =YhXh

e S2h(y), S2h(x) e Sh(x, y) são como definidos anteriormente.

Esta variância pode ainda ser escrita:

V (bYRS) ∼= LXh=1

N2h

Nh−1

Nh − nhNh

1

nh

(NhXj=1

[(Yhj − Y h)−Rh(Xhj −Xh)]2

)

Um estimador de V (bYRS) é dado por:v(bYRS) = LX

h=1

Nh(Nh − nh)

nh

hs2h(y) + bR2h s2h(x)− 2 bRh sh(x, y)

i

onde: bRh =yhxh=

yhxhe s2h(y), s

2h(x) e sh(x, y) são como definidos anterior-

mente.

O estimador de razão separada para estimar a média Y é dado por:

yRS =bYRSN

Neste caso a variância V (yRS) é dada por:

V (yRS) =1

N2V (bYRS)

e um estimador de V (yRS) é dado por:

v(yRS) =1

N2v(bYRS)

v(yRS) =X Nh

N2

(Nh − nh)

nh[s2h(y) + bR2h s2h(x)− 2 bRh sh(x, y)]

1.4.3 Comparação dos estimadores de razão separadae combinada

Em geral, para amostras de tamanho idêntico, o estimador de razão combi-nada deve ter vício bem menor que o estimador de razão separada.No uso do estimador de razão separada, há que verificar sempre se

√LCV (xh) ≤ 0, 20 ∀h

Page 35: 84958247 Tecnicas de Amostragem Apostila Zelia

1.4. ESTIMADORESDERAZÃOEMAMOSTRAGEMESTRATIFICADA29

Em ambos os casos, os tamanhos de amostra que garantem uma tendenciosi-dade desprezível podem ser determinados.Através da comparação das variâncias é feita a avaliação da melhor pre-

cisão alcançada entre os estimadores de razão em amostragem estratificada:

V (bYRC)− V (bYRS) ∼= LXh=1

N2h

Nh − nhNh

1

nh[S2h(y) +R2S2h(x)− 2RSh(x, y)]

−LX

h=1

N2h

Nh − nhNh

1

nh[S2h(y) +R2hS

2h(x)− 2RhSh(x, y)]

∼=LX

h=1

NhNh − nh

nh[(R2 −R2h)S

2h(x)− 2(R−Rh)Sh(x, y)]

Os dois estimadores serão igualmente precisos se Rh = R ou Yh/Xh =Y/X para todos os estratos.A medida que os Rh sejam mais distantes de R, o estimador da razão

separada tende a dar maior precisão, inclusive por se basear num conheci-mento mais detalhado dos dados do universo da característica x.

Exemplo 1.2 (Cochran (1977), pág.167)Os dados são provenientes do Censo Agropecuário de todas as fazendas

do município de Jefferson em Iowa. A variável y investigada em cada fazendaé a área (em acres) com plantação de milho e a variável x a área de cadafazenda. A população é dividida em 2 estratos, sendo que o primeiro contémas fazenda com menos de 160 acres. Suponha que se deseja selecionar umaamostra de 100 fazendas, sendo que 70 serão selecionadas do estrato 1 e 30do estrato 2. A idéia é comparar a precisão de estimadores alternativos paraestimar a média da área com plantação de milho por fazenda.Calcule a variância do estimador da média segundo cada uma das 5 es-

tratégias:1 - estimador simples, supondo que a amostra será aleatória simples sem

considerar a estratificação;2 - estimador de razão, supondo que a amostra será aleatória simples sem

considerar a estratificação;3 - estimador simples da amostragem estratificada, supondo que em cada

estrato a amostra será aleatória simples;4 - estimador de razão combinada da amostragem estratificada, supondo

que em cada estrato a amostra será aleatória simples;5 - estimador de razão separada da amostragem estratificada, supondo

que em cada estrato a amostra será aleatória simples;.

Page 36: 84958247 Tecnicas de Amostragem Apostila Zelia

30 CAPÍTULO 1. ESTIMADORES ESPECIAIS

Os dados são apresentados na tabela a seguir:

Estratos Tamanho(acres)

Nh Y h Xh S2h(y) S2h(x) Sh(x, y) Rh

1 ≤ 160 1580 19,40 82,56 312 2055 494 0,2350

2 > 160 430 51,63 244,85 922 7357 858 0,2109

Total - 2010 26,30 117,28 620 7619 1453 0,2242

Os fatores de correção de população finita podem ser ignorados, ou seja,

considerarN − n

N∼= 1 e Nh − nh

Nh

∼= 1, h = 1 e 2.

Considere Qh =N2

h

N2

1

nhe que Q1 = 0,008828 e Q2 =0,001525.

Compare os resultados e comente.

Solução:

1 - Amostra aleatória simples (AAS): y =1

n

nPi=1

yi é o estimador simples

da média da área com plantação de milho por fazenda

V (y) =N − n

N

S2yn∼= S2y

n=620

100= 6, 20

2 - Amostra aleatória simples (AAS): yR =y

xX é o estimador de razão

da média da área com plantação de milho por fazenda

V (yR)∼= N − n

N

1

n

£S2y +R2S2x − 2RSxy

¤ ∼= 1

n

£S2y +R2S2x − 2RSxy

¤=

1

100[620 + (0, 2242)2(7619)− 2(0, 2242)(1453)] = 3, 51

3 - Amostra aleatória estratificada (AAE): yest =LP

h=1

Nh

Nyh é o estimador

simples da média da área com plantação de milho por fazenda

V (yest) =LX

h=1

N2h

N2

Nh − nhNh

S2h(Y )

nh∼=

LXh=1

N2h

N2

S2h(y)

nh

=LX

h=1

QhS2h(y) = (0, 008828)(312) + (0, 001525)(922) = 4, 16

Page 37: 84958247 Tecnicas de Amostragem Apostila Zelia

1.4. ESTIMADORESDERAZÃOEMAMOSTRAGEMESTRATIFICADA31

4 - Amostra aleatória estratificada (AAE): yRC =yestxest

X é o estimador

de razão combinada da média da área com plantação de milho por fazenda

V ( yRC)∼=

LXh=1

N2h

N2

Nh − nhNh

1

nh

£S2h(y) +R2S2h(x)− 2RSh(x, y)

¤∼=

LXh=1

Qh

£S2h(y) +R2S2h(x)− 2RSh(x, y)

¤= (0, 008828)(312) + (0, 001525)(922) + (0, 008828)(0, 2242)2(2055) +

+(0, 001525)(0, 2242)2(7357)− 2(0, 008828)(0, 2242)(494) +−2(0, 001525)(0, 2242)(858)

= 3, 10

5 - Amostra aleatória estratificada (AAE): yRS =1

N

LPh=1

yhxh

Xh é o es-

timador de razão separada da média da área com plantação de milho porfazenda

V ( yRS)∼=

LXh=1

N2h

N2

Nh − nhNh

1

nh

£S2h(y) +R2hS

2h(x)− 2RhSh(x, y)

¤∼=

LXh=1

Qh

£S2h(y) +R2hS

2h(x)− 2RhSh(x, y)

¤= (0, 008828)(312) + (0, 001525)(922) + (0, 008828)(0, 2350)2(2055) +

+(0, 001525)(0, 2109)2(7357)− 2(0, 008828)(0, 2350)(494) +−2(0, 001525)(0, 2109)(858)

= 3, 06

Page 38: 84958247 Tecnicas de Amostragem Apostila Zelia

32 CAPÍTULO 1. ESTIMADORES ESPECIAIS

Resumo e comentários:

Estrategia Desenhoamostral

Metodo deestimaao

V ariancias Ganhos deprecisao

1 AAS simples V (y) = 6, 20 -

2 AAS razão V (yR) = 3, 51V (y)V (yR)

= 1, 77

3 AAE simples V (yest) = 4, 16V (y)

V (yest)= 1, 49

4 AAE razão combinada V ( yRC) = 3, 10V (y)

V ( yRC)= 2, 00

5 AAE razão separada V ( yRS) = 3, 06V (y)

V ( yRS)= 2, 03

Os resultados mostram que há ganhos de precisão com as estratégias 2 a5 quando comparadas com a estratégia 1. Verifica-se que o ganho de precisãoquando utilizar o estimador de razão com amostragem aleatória simples é de77%, enquanto que ao utilizar o estimador de razão separada em relação aoestimador simples da amostragem aleatória simples é de 103%. Porém, pode-se verificar que ao se adotar amostragem estratificada, o ganho de precisãoao utilizar o estimador de razão separada em relação ao estimador simplesda amostragem estratificada é de apenas 36%, pois: V (yest) / V ( yRS) =4, 16 / 3, 06 = 1, 36. Isto ocorre porque a variável de estratificação (tamanhoda área) é a mesma variável auxiliar utilizada no estimador de razão.

1.4.4 O uso de estimadores de razão

No planejamento das pesquisas a decisão entre utilizar uma determinadavariável na estratificação ou na estimação depende de uma série de circuns-tâncias. Alguns pontos relevantes são:

• Fatores como localização geográfica, são mais fáceis de serem introduzi-dos na estratificação do que no método de estimação.

• A decisão depende da natureza da relação entre x e y.Todos os métodosde estimação de razão estudados dependem da efetividade da propor-cionalidade da relação entre os xi e yi. Com relações complexas oudiscontínuas, a estratificação pode ser mais eficiente.

• Se para algumas variáveis da pesquisa existir uma relação proporcionalcom a variável xi e para outras variáveis existir uma relaçãp propor-cional a uma outra variável zi , então, é melhor utilizar xi e zi como

Page 39: 84958247 Tecnicas de Amostragem Apostila Zelia

1.5. ESTIMADORES DE REGRESSÃO 33

variáveis auxiliares em estimadores de razão do que estratificar por umadelas.

Algumas restrições devem ser consideradas ao tomar a decisão de usarestimadores de razão:

• Os tamanhos de amostra devem satisfazer às condições para tornardesprezível o vício do estimador empregado.

• Quanto maior a associação entre a caracterítica auxiliar x e a car-acterística de interresse y maior o ganho de precisão no uso de esti-madores de razão.

• Não existem fórmulas exatas para o vício nem para a variância dos es-timadores, embora as aproximações da variância existentes sejam sat-isfatórias para amostras cujo tamanho satisfaz a condição de tornardesprezível o vício.

1.5 Estimadores de Regressão

O estimador de regressão tem sua definição baseada nummodelo de regressãousado para representar a distribuição condicional da variável de interesse ydada a variável auxiliar x.Assim como o estimador de razão, o estimador de regressão é utilizado

para melhorar a precisão através do uso de uma variável auxiliar x que écorrelacionada com y. Quando a relação entre y e x é examinada, pode sernotado que embora haja uma relação linear, a reta não necessariamente passapela origem. Neste caso sugere-se a utilização de um estimador baseado naregressão linear de y e x.O papel do modelo é o de descrever a dispersão condicional da variável

de interesse y dada a variável auxiliar x na população finita. Espera-se queo modelo represente bem a relação de y e x. A idéia é pensar que os valorespopulacionais poderiam ter sido gerados pelo modelo. Entretanto, não énecessário supor que os valores populacionais foram de fato gerados pelomodelo.Suponha que seja selecionada uma amostra aleatória simples de tamanho

n, que sejam investigados os valores da característica de interesse y e dacaracterística x, cuja média populacional (X) seja conhecida. O estimadorde regressão linear de Y é definido por:

yreg = y + b(X − x)

Page 40: 84958247 Tecnicas de Amostragem Apostila Zelia

34 CAPÍTULO 1. ESTIMADORES ESPECIAIS

onde:b é o estimador usual de mínimos quadrados baseado na amostra.

b =sxys2x=

nPi=1

(yi − y)(xi − x)

nPi=1

(xi − x)2

O papel desempenhado pelo modelo será essencialmente de sugerir umestimador adequado b para usar no estimador de regressão.É possível demonstrar que o estimador de regressão yreg é consistente e

tem vício de ordem1

n.

Sua variância pode ser aproximada por:

V (yreg)∼= N − n

N

1

nS2y(1− ρ2xy)

onde: ρxy = ρ(x, y) é a correlação entre as variáveis x e y na população.Esta variância pode ser estimada usando:

v(yreg) =N − n

N

1

n

n− 1n− 2

£s2y + b2s2x − 2bsxy

¤=

N − n

N

1

n

1

n− 2nXi=1

[(yi − y)− b(xi − x)]2

Outros estimadores de variância podem ser usados, oferecendo melhordesempenho.O estimador de regressão para estimar o total Y é dado por:bYreg = N yreg

Neste caso, a variância é aproximada por:

V (bYreg) ∼= N2N − n

N

1

nS2y(1− ρ2xy)

e a variância pode ser estimada por:

v(bYreg) = N2N − n

N

1

n

1

n− 2nXi=1

[(yi − y)− b(xi − x)]2

Exemplo 1.3 (Thompson (1992), pág. 80)

Page 41: 84958247 Tecnicas de Amostragem Apostila Zelia

1.5. ESTIMADORES DE REGRESSÃO 35

Para estimar a produção total de uma plantação numa região com N =100 áreas, foram selecionadas aleatoriamente 4 áreas e medida a quantidadeyi da produção de cada área da amostra. A produção de uma área dependeda quantidade xi de fertilizante aplicada na área, que é conhecida para cadaárea da região, resultando numa média populacional 100.Os 4 pares de valores (xi, yi) da amostra são: (50, 1410), (100, 1690),

(150, 1680) e (200, 1850).As médias amostrais são: y = 1657, 5 e x = 125 eb o estimador usual de mínimos quadrados baseado na amostra:

b =

nPi=1

(yi − y)(xi − x)

nPi=1

(xi − x)2

=(50− 125)(1410− 1657, 5) + · · ·+ (200− 125)(1850− 1657, 5)

(50− 125)2 + · · ·+ (2200− 125)2

=32750

12500= 2, 62

A estimativa da produção total da referida plantação, obtida através doestimador de regressão, é dada por:

bYreg = N yreg = N¡y + b(X − x)

¢= 100 (1657, 5 + 2, 62 (100− 125))= 100 (1592) = 159 200

Para obter a estimativa da variância, vamos considerar o valor da linhade regressão ajustada para a i-ésima unidade da amostra estimada por:

byi = a+ bxi

onde: a = y − bx = 1675, 5− 2, 62 (125) = 1330.Neste caso, tem-se:

by1 = 1330 + 2, 62 (50) = 1461by2 = 1330 + 2, 62 (100) = 1592by3 = 1330 + 2, 62 (150) = 1723by4 = 1330 + 2, 62 (200) = 1854

Page 42: 84958247 Tecnicas de Amostragem Apostila Zelia

36 CAPÍTULO 1. ESTIMADORES ESPECIAIS

v(bYreg) = N2v(yreg) =N (N − n)

n

1

n− 2nXi=1

[(yi − y)− b(xi − x)]2

=N (N − n)

n (n− 2)nXi=1

(yi − byi)2=

100 (100− 4)4 (4− 2)

£(1410− 1461)2 + · · ·+ (1850− 1854)2¤

=100 (96)

4(7035) = 16 884 000

cujo desvio padrão é estimado por:qv(bYreg) = 4 109.

Por outro lado, a estimativa da produção total da referida plantação,obtida através do estimador simples da amostragem aleatória simples, é dadapor:

bY = N y = 100 (1657, 5) = 165 750

e a respectiva estimativa da variância é dada por:

v(bY ) = N2v(y) =N (N − n)

n

4Xi=1

(yi − y)2

=100 (96)

4(33292) = 79 900 000

cujo desvio padrão é estimado por:qv(bY ) = 8 939.

Portanto, o estimador de regressão é mais preciso que o estimador simplesno exemplo com essa pequena amostra. Isto ocorre em função da pequenavariação dos resíduos sobre a reta de regressão ajustada.

1.5.1 Comparação dos estimadores de regressão, razãoe simples da média sob amostragem aleatóriasimples

V (yreg)∼= N − n

N

1

nS2y(1− ρ2xy)

V (yR)∼= N − n

N

1

n

£S2y +R2S2x − 2RSxy

¤

Page 43: 84958247 Tecnicas de Amostragem Apostila Zelia

1.5. ESTIMADORES DE REGRESSÃO 37

V (y) =N − n

N

1

nS2y

Examinando as expressões acima, é imediato notar que o estimador deregressão é mais preciso que o estimador simples da média a não ser ρxy = 0,caso em que os estimadores são igualmente precisos.O estimador de regressão é preferível ao estimador de razão quando:

−ρ2xyS2y < R2S2x − 2RSxy

ou, equivalentemente quando:

−ρ2xyS2y < R2S2x − 2RρxySySx

¡ρxySy −RSx

¢2> 0 =⇒

µρxySySx

S2x−R

¶2> 0

isto é, quando: µSxyS2x−R

¶2> 0 =⇒ (B −R)2 > 0

B corresponde ao ajuste populacional (hipotético) do modelo aos dados dapopulação.Logo, o estimador de regressão é mais preciso que o estimador de razão

a menos que B = R, o que ocorre somente quando a regressão entre y e x élinear passando pela origem.

1.5.2 O uso de estimadores de regressão

O estimador de regressão é útil por pelo menos três motivos:

• oferece calibração na variável auxiliar, isto é, se aplicado a variávelauxiliar replica exatamente seu total conhecido na população;

• oferece ganhos de eficiência em relação ao estimador simples;

• tem grande flexibilidade, podendo ser utilizado com um vetor de var-iáveis auxiliares e ser facilmente generalizado para o uso em desenhosamostrais complexos.

Algumas desvantagens e problemas devem ser consideradas ao tomar adecisão de usar estimadores de regressão:

• o vício pode ser não desprezível com pequenas amostras;

Page 44: 84958247 Tecnicas de Amostragem Apostila Zelia

38 CAPÍTULO 1. ESTIMADORES ESPECIAIS

• os pesos podem ser negativos ou menores que 1, o que é indesejável.

• a precisão pode não ser boa caso o modelo linear não se ajuste bem.

• maior complicação na estimação da variância.

• quando há mais de uma variável auxiliar, é necessário usar métodopara escolha das que vão ser incorporadas na estimação. Acrescentarvariáveis auxiliares nem sempre traz bom resultado.

• usar pesos diferentes para diferentes variáveis de interesse da pesquisa éuma tentação, mas aumenta a complexidade e cria dificuldades práticas.

1.6 Pós-estratificação

É muito comum na prática a ocorrência de situações onde a técnica de estrat-ificação poderia ser aplicada para melhorar a qualidade da amostra, porémnão se dispõe de uma lista completa das unidades da população com os re-spectivos valores da característica a ser usada na estratificação, ou seja, oestrato para o qual a unidade pertence não é conhecido até que os dados daamostra sejam coletados. Características de pessoas, tais como: idade, sexo,raça e nível educacional são exemplos práticos dessa aplicação.Nestes casos, quando forem conhecidos os limites dos estratos, e os seus

respectivos tamanhos (através de um censo anterior, por exemplo), é possívelfazer uso da estratificação para melhorar a qualidade das estimativas, atravésda técnica de pós-estratificação que consiste no seguinte:i) seleciona—se uma amostra aleatória simples sem reposição de tamanho

n da população πN (sem considerar a estratificação);ii) observa—se para cada unidade selecionada o valor da característica de

estratificação x;iii) de acordo com os valores observados de x, distribui-se a amostra em

L estratos previamente delimitados;iv) considera-se a parte da amostra em cada um dos estratos como uma

amostra aleatória simples sem reposição do estrato (vide estimação em sub-populações), de tal forma que n1 + n2 + · · ·+ nL = n

Neste caso n1, n2, · · ·nL são variáveis aleatórias. A amostra em cadaestrato é considerada como uma amostra aleatória simples sem reposição dasubpopulação formada pelas unidades pertencentes ao estrato.Assim sendo, a maneira de estimar será derivada da teoria apresentada

para estimação em subpopulações.

Page 45: 84958247 Tecnicas de Amostragem Apostila Zelia

1.6. PÓS-ESTRATIFICAÇÃO 39

1.6.1 Estimação do total e da média

De acordo com o que foi visto no estudo de estimação em subpopulações umestimador não tendencioso para o total y da população com pós-estratificaçãoé dado por: bYpos = LX

h=1

Nhyh =LX

h=1

Nh

nh

nhXj=1

yhj

Note que em termos de expressão, o estimador bYpos é idêntico ao esti-mador bYest. A diferença existente entre ambos é que no caso de bYest asmédias amostrais nos estratos (yh) são calculadas com amostras de taman-hos nh conhecidos a priori, enquanto que no caso de bYpos estes tamanhossão variáveis aleatórias dependendo da particular amostra selecionada.A seguir, será demonstrada a afirmação de que bYpos é estimador não

viciado para Y .Inicialmente, deve—se recordar que, se Z e T são variáveis aleatórias,

então:E(Z) = ET [E(Z/T )]

Neste caso é conveniente considerar internamente a esperança condi-cionada quando se fixa uma dada seleção de amostra de tamanhos n1, n2, · · · , nL,e depois a esperança sobre todas as possíveis seleções de amostra. Verifica—seque:

E(yh) = E

Ã1

nh

nhXj=1

yhj

!

= En1,n2,··· ,nL[E1

nh

nhXj=1

yhj |n1, n2, · · · , nL ]

= En1,n2,··· ,nL[Y h] = Y h ∀h = 1, 2, · · · , L

Seguindo—se imediatamente que:

E(bYpos) = E

"LX

h=1

Nhyh

#=

LXh=1

NhE(yh) =LX

h=1

NhY h = Y

Uma consequência imediata disto é que um estimador não tendencioso damédia y é dado por :

ypos =1

NbYpos = LX

h=1

Nh

Nyh

Page 46: 84958247 Tecnicas de Amostragem Apostila Zelia

40 CAPÍTULO 1. ESTIMADORES ESPECIAIS

Na pós—estratificação, conclui—se então que, os estimadores do total e damédia são obtidos da mesma forma que na estratificação comum, uma vezselecionada a amostra. O que será diferente é a precisão resultante desteprocesso de estimação, como será visto adiante.

1.6.2 Precisão dos estimadores com pós-estratificação

Nosso objetivo aqui é o cálculo das medidas da precisão dos estimadores compós—estratificação, e a comparação dessa precisão com aquela resultante daaplicação convencional da estratificação.Inicialmente vale notar que não se dispõe de expressão exata para a var-

iância de bYpos ou de ypos. Isto se deve ao fato de ambas dependerem darazão 1

nhonde agora nh é variável aleatória. Mas vamos ao problema,

calculando uma aproximação para V (ypos).Variância aproximada de ypos.Se Z e T são variáveis aleatórias pode se escrever:

V (Z) = ET (V (Z/T )) + VT [E(Z/T )]

Então:

V (ypos) = En1,n2,··· ,nL£V (ypos |n1, n2, · · · , nL

¤+

+Vn1,n2,··· ,nL[E(ypos |n1, n2, · · · , nL ]

Mas:E(ypos |n1, n2, · · · , nL ) = Y

Donde:

Vn1,n2,··· ,nL[E(ypos |n1, n2, · · · , nL ] = Vn1,n2,··· ,nL(Y ) = 0

Logo:

V (ypos) = En1,n2,··· ,nL£V (ypos |n1, n2, · · · , nL

¤= En1,n2,··· ,nL

ÃLX

h=1

N2h

N2(1

nh− 1

Nh)S2h

!

Daí:

V (ypos) =LX

h=1

N2h

N2E(

1

nh)S2h −

LXh=1

N2h

N2

S2hNh

Page 47: 84958247 Tecnicas de Amostragem Apostila Zelia

1.6. PÓS-ESTRATIFICAÇÃO 41

Para calcular E( 1nh) vamos usar a aproximação em série de Taylor em

torno do ponto E(nh) da função 1nh. Esta função pode ser escrita como:

1

nh=

1

E(nh)

E(nh)

nh=

1

E(nh)

1nh

E(nh)

=1

E(nh)

1

1 +nh − E(nh)

E(nh)

agora sabe—se que:

1

1 +∆= 1−∆+∆2 − · · · .= 1−∆+∆2

Para

∆ =nh −E(nh)

E(nh)

vem:1

1 +nh − E(nh)

E(nh)

∼= 1− nh − E(nh)

E(nh)+

µnh −E(nh)

E(nh)

¶2

Donde:1

nh∼= 1

E(nh)

"1− nh − E(nh)

E(nh)+

µnh −E(nh)

E(nh)

¶2#Tomando expectâncias nos 2 membros vem:

E(1

nh) ∼= 1

E(nh)

µ1− E(nh −E(nh))

E(nh)+

E[(nh −E(nh))2]

[E(nh)]2

¶=

1

E(nh)

µ1 +

V (nh)

[E(nh)]2

¶Agora nh/n é um estimador não viciado da proporção Nh/N de unidades

pertencentes ao estrato h.Logo:

V³nhn

´=

N − n

N

1

n

µN

N − 1Nh

N

µ1− Nh

N

¶¶∼= N − n

N

1

n

µNh

N

µ1− Nh

N

¶¶Também:

Ehnhn

i=

Nh

N

Page 48: 84958247 Tecnicas de Amostragem Apostila Zelia

42 CAPÍTULO 1. ESTIMADORES ESPECIAIS

Logo:

E(nh) = nNh

N

V (nh) = n2N − n

N

1

n

µNh

N

µ1− Nh

N

¶¶Isto é:

E(nh) = nNh

N

V (nh) = n(N − n)

N

µNh

N

µ1− Nh

N

¶¶Levando na expressão de E(

1

nh) vem:

E(1

nh) ∼= 1

nNh

N

1 + n(N − n)

N

Nh

N

µ1− Nh

N

¶n2

N2h

N2

=

1

nNh

N

1 + (N − n)

N

1

n

1Nh

N

− 1

=1

nNh

N

µ1 +

(N − n)

N

1

n

µNh

N− 1¶¶

Substituindo, finalmente, na expressão de V (ypos), vem:

V (ypos)∼=

LXh=1

N2h

N2

N

nNh

µ1 +

N − n

N

1

n

µN

Nh− 1¶¶

S2h −LX

h=1

N2h

N2

S2hNh

=LX

h=1

N2h

N2

µN

nNh− 1

Nh

¶S2h +

LXh=1

N2h

N2

N

nNh

N − n

N

1

n

µN

Nh− 1¶S2h

=N − n

N

1

n

LXh=1

Nh

NS2h +

N − n

N

1

n2

LXh=1

(1− Nh

N)S2h

Daí:

V (ypos)∼= V (y

(p)est) +

N − n

N

1

n2

LXh=1

(1− Nh

N)S2h

Page 49: 84958247 Tecnicas de Amostragem Apostila Zelia

1.7. O USO DE INFORMAÇÕES AUXILIARES NA ESTIMAÇÃO 43

onde: V (y(p)est) é a variância do estimador da média no desenho de amostragemestratificada com alocação proporcional.À medida que n cresce, a segunda parcela de V (ypos) tende a zero.

V (ypos)→ V (y(p)est)

Segue—se que, para amostras grandes, a eficiência da pós-estratificação emrelação à amostragem aleatória simples equivale à alocação proporcional. Umcritério habitualmente empregado na prática para ter uma pós estratificaçãoefeciente é tornar cada nh ≥ 20, este pode ser obtido de 2 maneiras, a saber:i) dimensionar a amostra aleatória simples de tal sorte que esta condição

ocorra com elevada probabilidade;ii) utilizar um esquema de amostragem por cotas, onde os tamanhos de

amostra em cada um dos estratos seriam previamente fixados por alocaçãoproporcional e as unidades de população iriam sendo selecionadas por AASe alocadas nos estratos respectivos, até preencher a “cota” de cada estrato;cada nova unidade selecionada um estrato já com a cota preenchida seria re-jeitada, e uma nova unidade deveria ser selecionada, repetindo—se o processoaté satisfazer as cotas fixadas para todos os estratos.A desvantagem deste esquema de amostragem por cotas é o aumento do

custo da pesquisa, em função da seleção, investigação e posterior rejeição deunidades pertencentes a estratos já completos.Deve—se enfatizar que a adoção deste esquema só é válida se o proced-

imento da seleção das unidades da amostra for realmente o de uma AASsem reposição.

1.7 O uso de informações auxiliares na esti-mação

Silva (1996a) nos aponta que o aproveitamento de informações populacionaisauxiliares para estimação em pesquisas por amostragem é uma das partesda teoria de amostragem que mais progrediu desde os anos 70. O livro querepresentava o ”estado da arte” da amostragem até então (Cochran (1977))contempla o uso de informações auxiliares através de estimadores de razãoou de regressão simples (ambos incorporando apenas uma variável auxiliar)ou de pós-estratificação. Entretanto, essas técnicas eram apresentadas comoferramentas separadas, sem uma ligação comum.O livro que corresponde ao ”estado da arte” da amostragem no início

dos anos 90 (Särndal, Swensson e Wretman (1992)) apresenta as técnicas depós-estratificação, estimação de razão e de regressão como casos particulares

Page 50: 84958247 Tecnicas de Amostragem Apostila Zelia

44 CAPÍTULO 1. ESTIMADORES ESPECIAIS

do estimador de regressão generalizado, o qual fornece uma estrutura flexívele eficiente para incorporar informações auxiliares na etapa de estimação.Neste livro é enfatizada uma abordagem ”model assisted”, em que o modelode regressão é usado para motivar o estimador, mas em que as propriedadesdo mesmo são avaliadas com respeito à distribuição gerada por repetidasaplicações do processo de seleção da amostra.Também recentemente, Deville e Särndal (1992) identificaram o estimador

de regressão como um dos membros de uma famílias de estimadores de cali-bração, em que os pesos são ajustados, cujos os fatores de ajuste são obtidosde forma a minimizar uma função de distância sujeita a restrições que sãofunções das variáveis auxiliares. Empregando-se distintas funções de dis-tância se gera uma ampla família de estimadores que inclui ”raking ratioestimators, estimadores de regressão, de razão, de pós-estratificação e out-ros.O IBGE já adquiriu larga experiência e tem feito uso efetivo dos desen-

volvimentos recentes da teoria. Para corroborar essa afirmação é apresentadaa aplicação de estimadores especiais para a obtenção dos fatores de expansãodas amostras utilizadas na coleta de Censos Demográficos brasileiros.O IBGE, desde 1960, tem usado dois modelos de questinários na coleta

das informações dos Censos Demográficos: um questionário básico, que con-tém os quesitos necessários ao conhecimento de certas características bási-cas da população e dos domicílios, referentes a 100% da população, e umquestionário de amostra (ampliado) que contém, além dos quesitos básicosque também constam do questionário básico, outos quesitos mais detalhadossobre características dos domicílios e das pessoas, tais como religião, cor,migração, escolaridade, fecundidade, mão-de-obra, rendimento, etc.O conhecimento de totais da população para um subconjunto de car-

acterísticas investigadas (as quais são pesquisadas a 100%) torna viável aaplicação de estimadores especiais.Nos censos demográficos de 1960 e 1970 foram utilizados estimadores

de pós-estratificação, com 46 pós-estratos em 1970, aplicado separadamentepara cada município. Cada pós-estrato era formado por combinações devalores das variáveis auxiliares, as quais foram investigadas a 100% atravésdo questionário básico.Na expansão da amostra do Censo Demográfico de 1980 foi adotado raking

ratio estimator aqui denominado Processo Iterativo de Estimação por TotaisMarginais - PIETOM (IBGE (1983)) aplicado separadamente para cada umadas 4219 áreas de ponderação.2 Esse método consistia em definir uma tabela

2Área de ponderação é a menor área para a qual se calculava estimativas, e coincidiana maior parte das vezes com um município, podendo ser subdivisão deste nos de maior

Page 51: 84958247 Tecnicas de Amostragem Apostila Zelia

1.7. O USO DE INFORMAÇÕES AUXILIARES NA ESTIMAÇÃO 45

(ou matriz) de pós-estratificação de dupla entrada, cujas linhas e colunaseram dadas por combinações de valores das variáveis auxiliares, as quaisforam investigadas a 100% através do questionário básico. Eram portantoconhecidos os totais populacionais das celas, linhas e colunas dessa tabela.Os pesos amostrais para unidades em cada cela eram calculados por umprocesso iterativo de ajuste dos pesos iniciais, de tal forma que as estimativasamostrais eram sucessivamente calibradas nos totais das linhas e depois dascolunas, até que fosse observada convergência dos pesos.O uso dese método permitiu ampliar bastante o número de variáveis aux-

iliares consideradas para a calibração das estimativas amostrais: a tabela depós-estratificação empregada no censo de 1980 tinha 720 celas, em compara-ção com os 46 pós-estratos adotados no Censo de 70.A metodologia adotada para a expansão da amostra do Censo de 1991 foi

baseada no ajuste de um modelo linear generalizado sujeito a restrições, en-tendidas como condições que buscam igualar estimativas dos valores conheci-dos do universo para um conjunto de variáveis auxiliares comuns à amostrae toda população de cada área de ponderação. Essa metodologia é baseadanum dos membros da família de estimadores de calibração identificada porDeville e Särndal (1992), identificada por estimação de mínimos quadradosgeneralizados em duas etapas - MQG2 (Silva, Bianchini e Albieri (1993);Albieri e Dias (1994)).Essa metodologia foi desenvolvida por técnicos do Statistics Canada e

aplicada na expansão da amostra do Censo de População canadense de 91e 96,que é parecido com o Censo Demográfico brasileiro. Foi possível contar comprogramas cedidos ao IBGE pelo Statistics Canada para a implementação dométodo para uso no censo brasileiro.A metodologia MQG2 adotada para expandir a amostra do Censo De-

mográfico de 1991 permite incorporar grande número de variáveis auxiliares,mas não oferece uma teoria para a escolha ótima das mesmas. Esse é um dosaspectos do emprego de estimadores de regressão que tem merecido atençãoda comunidade de pesquisa recentemente. Em particular, Silva e Skinner(1996) apresentam um método para seleção de variáveis auxiliares quando seutiliza estimadores de regressão cuja eficiência para estimar a média de umavariável resposta especificada foi maior que a de vários competidores. Silvae Skinner (1996) apontam ainda uma perda de precisão deo estimador deregressão quando o número de variáveis auxiliares cresce demasiadamente,alertando para a necessidade de establecer um compromisso entre a cali-bração no maior número possível de variáveis auxiliares sem impor grandeperda de eficiência no estimador.

população.

Page 52: 84958247 Tecnicas de Amostragem Apostila Zelia

46 CAPÍTULO 1. ESTIMADORES ESPECIAIS

Na área de estimação em amostragem há hoje em dia várias opções desistemas genéricos: SUDAAN - SUrvey DAta ANalysis (Shah et al. (1992)),GES -Generalized Estimation System (Estevao, Hidiroglou e Särndal (1995)),CLAN (Andersson e Nordberg (1994)), WESVARPC (Westat (1995)). Todosesses sistemas são capazes de calcular estimativas de totais e médias, e re-spectivas medidas de precisão para uma ampla gama de desenhos amostraise tipos de estimadores. Em particular, o sistema GES desenvolvido peloStatistics Canada implementa a metodologia de estimadores de regressãogeneralizados tal como descrita no livro de Särndal, Swensson e Wretman(1992).

Page 53: 84958247 Tecnicas de Amostragem Apostila Zelia

1.8. EXERCÍCIOS 47

1.8 Exercícios

1.8.1 (Thompson (1992), pág. 76) Numa cidade com 75.000 habitantes,uma amostra aleatória simples de 4 domicílios é selecionada dos 25.000domicílios da cidade para estimar o custo médio de alimentação pordomicílio em uma semana. O primeiro domicílio selecionado tinha 4pessoas e gastou R$150,00 com alimentação naquela semana. O se-gundo domicílio tinha 2 pessoas e gastou R$100,00. O terceiro, com 4pessoas, gastou R$200,00. O quarto, com 3 pessoas, gastou R$140,00.

Considere:N − n

N∼= 1 s2y = 1691, 70 s2x = 0, 9166 sxy = 37, 5

a) Identifique as unidades de amostragem, a variável de interesse, ealguma informação auxiliar associada com as unidades.

b) Descreva dois tipos de estimadores para estimar a despesa mé-dia por domicílio para a alimentação por uma semana na cidade.Sumarize algumas propriedades de cada estimador.

c) Estime a despesa média por domicílio usando o primeiro estimadore estime a variância do estimador.

d) Estime a despesa média por domicílio usando o segundo estimadore estime a variância do estimador.

e) Baseado nos dados, qual estimador é preferível nesta situação?

1.8.2 Seja {u1, u2, · · · , un}uma amostra aleatória simples sem reposição dapopulação πN , onde são observadas as características x e y. Mostreque a covariância amostral

sxy =1

n− 1nXi=2

(xi − x)2

é um estimador não viciado para a covariância populacional

Sxy =1

N − 1NXI=1

(XI −X)(YI − Y )

1.8.3 De uma população com 40 domicílios foi selecionada uma amostraaleatória simples sem reposição de tamanho n = 4 que proporciona

Page 54: 84958247 Tecnicas de Amostragem Apostila Zelia

48 CAPÍTULO 1. ESTIMADORES ESPECIAIS

os seguintes valores semanais expressos em reais.

Gastos com alimentação Gastos total(yi) (xi)125 250135 30070 200158 350

4Pi=1

yi = 4884P

i=1

xi = 1.100

4Pi=1

y2i = 63.7144P

i=1

x2i = 315.0004P

i=1

xi yi = 141.050

Estime a porcentagem de gasto com alimentação e o respectivo erroamostral medido pelo coeficiente de variação.

1.8.4 O objetivo é estimar o total de despesa com gastos sociais das prefeiturasde uma região que abrange 281municípios. Foi selecionada uma amostraaleatória sem reposição de 50 municípios. Sabe-se que a população to-tal da região é de 6.818 (em milhares). Calcule a estimativa de totalda característica y, que representa a despesa com gastos sociais, e o re-spectivo intervalo com 95% de confiança para essa estimativa de totalbaseada em cada um dos seguintes estimadores:

a) Estimador simples.

b) Estimador de razão, utilizando como variável auxiliar a população,representada pela característica x.

c) Comente os resultados.

São dadas as seguintes informações provenientes da amostra:

50Pi=1

yi = 128.08050Pi=1

xi = 1.067

s2y = 6.244.516 s2x = 454, 51 sxy = 45.399Obs: Tanto os valores de x com de y estão representados em milhares.

Page 55: 84958247 Tecnicas de Amostragem Apostila Zelia

1.8. EXERCÍCIOS 49

1.8.5 Defina estimadores consistentes e suas respectivas variâncias aproxi-madas para a média de Y baseados em:

a) estimador de razão simples;

b) estimador de razão combinada;

c) estimador de razão separada.

Quando é razoável a utilização de estimadores de razão, à luz das re-strições existentes para esse tipo de estimador? e

A partir das fórmulas aproximadas para as variâncias dos estimadoresde (a), (b) e (c), obtenha estimadores consistentes que possam ser cal-culados a partir da amostra.

1.8.6 Uma pesquisa piloto, onde foram selecionados aleatoriamente 21 domi-cílios (di i = 1, 2, · · · , 21), forneceu os seguintes dados para o númerode pessoas no domicílio (x), número de crianças (y1), número de carros(y2) e número de televisores (y3).

di x y1 y2 y3 di x y1 y2 y3 di x y1 y2 y3d1 5 3 1 3 d8 2 0 0 1 d15 6 3 2 0d2 2 0 1 1 d9 3 1 1 1 d16 4 2 1 1d3 4 1 2 0 d10 2 0 2 0 d17 4 2 1 1d4 4 2 1 1 d11 6 4 2 1 d18 3 1 0 1d5 6 4 1 1 d12 3 1 0 0 d19 2 0 2 1d6 3 1 1 2 d13 4 2 1 1 d20 4 2 1 1d7 5 3 1 1 d14 5 3 1 1 d21 3 1 1 1

Assumindo que a população total X é conhecida, você recomendariaque os estimadores de razão fossem utilizados ao invés do estimadorsimples para estimar o total de crianças, carros e televisores?

1.8.7 Em uma determinada localidade de 500 famílias se deseja fazer umestudo sobre o hábito de fumar entre as pessoas maiores de 16 anos.A população foi estratificada em 2 estratos: famílias com renda alta(estrato 1), onde foram classificadas 200 famílias; e famílias com rendamais baixa (estrato 2), onde foram classificadas as outras 300 famílias.É conhecido que o número de pessoas commais de 16 anos no estrato 1 é520 e no estrato 2 é 1230. De cada um dos estratos foi selecionada umaamostra aleatória de 5 famílias, apresentando os seguintes resultados:

Page 56: 84958247 Tecnicas de Amostragem Apostila Zelia

50 CAPÍTULO 1. ESTIMADORES ESPECIAIS

Estrato 1

Famílias na amostra 1 2 4 4 5Pessoas com mais de 16 anos 4 3 2 1 2Fumantes com mais de 16 anos 1 1 0 1 1

Estrato 2

Famílias na amostra 1 2 4 4 5Pessoas com mais de 16 anos 5 6 4 4 3Fumantes com mais de 16 anos 3 3 1 2 2

Estimar o total de fumantes entre as pessoas maiores de 16 anos nalocalidade, utilizando:

a) o estimador simples da amostragem estratificada;

b) o estimador de razão combinada; e

c) o estimador de razão separada.

Calcule os intervalos com 95% de confiança para estimar os totais de fu-mantes entre as pessoas maiores de 16 anos na localidade, considerandoos estimadores utilizados em (a), (b) e (c).

Comente os resultados.

1.8.8 Considere uma população de pomares de plantio de pêssegos. A var-iável y é a produção de pêssegos e a variável auxiliar x o número depés de pêssego do pomar.

A idéia é comparar a precisão dos estimadores alternativos da produçãototal de pêssegos na população, que tem 256 pomares, com base numaamostra aleatória de 100 pomares.

Os dados básicos obtidos de um censo anterior são:

S2y = 6.409 S2x = 3.898 Sxy = 3.898 e R = 1, 270

Calcule a variância do estimador de total segundo cada uma das es-tratégias: estimador simples, razão e regressão. Comente o resultado.

1.8.9 De um Censo Agropecuário foram obtidas 1 200000 fazendas e a área(x) de cada fazenda foi investigada fornecendo uma média de 31,25acres por fazenda. Uma amostra aleatória simples de 2055 fazendas foiselecionda e foram obtidas as seguintes informações sobre o número decabeças de gado (y) em cada fazenda e a área de cada fazenda.

Page 57: 84958247 Tecnicas de Amostragem Apostila Zelia

1.8. EXERCÍCIOS 51

2.055Pi=1

yi = 25. 7512.055Pi=1

xi = 62. 989

s2y = 1.334, 470 s2x = 490, 4300 b = 0, 354585

(ConsidereN − n

N∼= 1)

a) Calcule as estimativas do total de cabeças de gado utilizando oestimador simples, de razão e de regressão.

b) Calcule a estimativa da variância de cada estimativa obtida em(a).

c) Obtenha o intervalo com 95% de confiança para cada uma dasestimativas obtida em (a).

d) Comente os resultados.

1.8.10 Para estimar o total de cabeças de gado em uma determinada região, foiselecionada aleatoriamente uma amostra de 24 fazendas dentre as 1.238fazendas daquela região. O número de cabeças de gado de cada fazendada amostra foi coletado (característica y) e além disso dispunha-se docorrespondente número de cabeças de gado obtido no último CensoAgropecuário. Usando como variável auxiliar (x) a informação donúmero de cabeças de gado coletado no último censo e sabendo-se que:

24Pi=1

yi = 13.64624Pi=1

xi = 13.638 s2y = 256.154, 86

s2x = 278.836, 89 sxy = 256.262, 02

a) Compare a eficiência do estimador de regressão em relação aoestimador simples.

b) Compare a eficiência do estimador de regressão em relação aoestimador de razão.

1.8.11 Uma amostra aleatória simples de 546 domicílios foi selecionada deuma área que continha 2097 domicílios. As características tamanhodo domicílio e idade do chefe foram investigadas em todo universo ea variável sexo do chefe do domicílio foi investigada apenas através daamostra, fornecendo os seguintes resultados.

Page 58: 84958247 Tecnicas de Amostragem Apostila Zelia

52 CAPÍTULO 1. ESTIMADORES ESPECIAIS

Número de domicílios no universo

Tamanho do Idade do chefedomicílio 0 a 39 anos 40 e mais Total

1 a 3 moradores 303 464 7674 e 5 moradores 426 339 7656 e mais moradores 171 394 565

Total 900 1197 2097

Número de domicílios na amostra

Tamanho do Idade do chefedomicílio 0 a 39 anos 40 e mais Total

1 a 3 moradores 103 154 2574 e 5 moradores 120 80 2006 e mais moradores 32 57 89

Total 255 291 546

Número de domicílios na amostra, cujo chefe é mulher

Tamanho do Idade do chefedomicílio 0 a 39 anos 40 e mais Total

1 a 3 moradores 1 8 94 e 5 moradores 1 3 46 e mais moradores 0 3 3

Total 2 14 16

Estimar o número de domicílios cujo chefe é mulher

a) usando o estimador simples.

b) usando o estimador de pós-estratificação, considerando como pós-estrato a variável idade do chefe.

c) usando o estimador de pós-estratificação, considerando como pós-estrato o tamanho do domicílio.

d) usando o estimador de pós-estratificação, considerando como pós-estrato a variável idade do chefe cruzada com o tamanho do domicílio.

Page 59: 84958247 Tecnicas de Amostragem Apostila Zelia

Capítulo 2

Amostragem de Conglomerados

2.1 Conceituação Básica

O objetivo pretendido com a aplicação da técnica de amostragem é a obtençãode estimativas para certos parâmetros da população a partir de uma amostrade unidades dessa população, cuja precisão seja conhecida e satisfatória.As unidades dessa amostra podem ser obtidas selecionando-se direta-

mente unidades na população com probabilidades conhecidas. Elas podemainda ser obtidas por um outro esquema de amostragem onde grupos deunidades são selecionados com probabilidades conhecidas.A amostragem de conglomerados (cluster sampling) consiste num es-

quema de amostragem em estágios, sendo que em cada estágio a unidadeamostral, para a qual é atribuída a probabilidade de seleção, é grupada emum subconjunto (CONGLOMERADO) de unidades populacionais.O termo unidade populacional é usado para denotar um membro de uma

particular população para a qual as análises dos resultados do levantamentosão feitas.1

A formação dos conglomerados pode ser:- natural (exemplos: um cacho de uvas, uma turma de alunos, um edifício,

um quarteirão, um município); ou- artificial, construído pelo estatístico de acordo com o objetivo da pesquisa

(exemplos: conglomerados de seis pessoas, de dez peças industriais do mesmotipo, de cinco domicílios do mesmo edifício).

1Nos esquemas de amostragem até então apresentados (amostragem aleatória simp-ples, amostragem estratificada e amostragem sistemática) a unidade amostral era igual aunidade de análise.

53

Page 60: 84958247 Tecnicas de Amostragem Apostila Zelia

54CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

A unidade populacional depende da análise que está sendo feita e é de-terminada pelo propósito do levantamento e não pelo plano amostral. Podeacontecer de mais de uma unidade populacional estar envolvida no levanta-mento, quando por exemplo, características de domicílios e de pessoas sãoinvestigadas no mesmo levantamento.Não há uma única definição possível para os conglomerados. Por exemplo,

a turma tanto pode ser uma unidade populacional (se estivermos interessadosem investigar o número de alunos por turma), como pode ser um conglom-erado de alunos (se estivermos interessados em investigar o aproveitamentodos alunos).A fim de exemplificar, seguem-se algumas ilustrações de possíveis con-

glomerados associados com a população, a variável de interesse e a unidadede referência para análise.

População Variáveis de Unidade de Conglome-Interesse Referência rados

Turmas de Alunos por turma Turma Escolasalunos

Estudantes de Aproveitamento Estudante Turmasescolas de 2o grau dos estudantes

Visitantes de Facilidades do Visitante de Veículos queparques parque parque entram nonacionais nacional parque

Passageiros Propósito da Passageiro de Lotações dede avião Viagem avião passageiros

Domicílios Características Domicílio Setoresde domicílios

Moradores Características Morador de Domicíliosem favelas de pessoas favela em favelasdo Rio do Rio do Rio

Cabe lembrar que os vários esquemas de amostragem: amostragem aleató-ria simples (AAS), amostragem estratificada e amostragem sistemática dis-cutidos anteriormente podem ser aplicados a amostragem de conglomerados,onde os conglomerados são as unidades amostrais.

Page 61: 84958247 Tecnicas de Amostragem Apostila Zelia

2.2. AMOSTRAGEM DE ÁREAS 55

2.2 Amostragem de Áreas

O cadastro ou marco de referência é a fonte de materiais que serve de guia epermite identificar a população a ser coberta para a seleção de amostras.Os esquemas probabilísticos propostos para seleção de amostras pres-

supõem a existência de uma lista completa das unidades da população a serpesquisada. Porém, uma lista pode não estar disponível, ou estar desatual-izada, ou o custo de preparar uma lista atualizada pode ser proibitivo. Alémdisso, uma amostra selecionada de uma população dispersa geograficamenteprovavelmente será muito dispersa também.Para reduzir custos é muito freqüente o uso de amostragem de conglom-

erados definidos por áreas geográficas com limites naturais ou artificiais bemdefinidos, Neste caso a amostra resultante pode ser concentrada dentro deum número de áreas geográficas.Portanto, a utilização de amostras de áreas se dá quando não existe um

cadastro de boa qualidade disponível e/ou quando a população for muitodispersa e o fator custo de deslocamento for preponderante. Neste caso anecessidade de uma lista atualizada das unidades para as quais se requer ainformação é restrita às áreas que forem selecionadas para a amostra.A grande vantagem da amostra de conglomerados é a sua conveniência

operacional vinculada a possíveis reduções no custo.Num levantamento de população, por exemplo, é operacionalmente mais

conveniente pesquisar todas as pessoas numa amostra de domicílios do queselecionar o mesmo número de pessoas espalhadas por toda a população oumesmo pesquisar todos os domicílios de uma amostra de áreas (por exemplo,setores) do que selecionar uma amostra do mesmo número de domicíliosselecionados aleatoriamente de uma lista de todos os domicílios. Tal listanem sempre é disponível e o seu preparo torna a pesquisa bem mais cara.Suponha-se que uma AAS de n=400 domicílios deva ser selecionada de

uma população de N=10.000 domicílios de uma cidade. Como não dispomosde uma lista atualizada com todos os domicílios, optamos por uma amostrade domicílios localizados dentro de uma amostra de quarteirões. Isto podeser feito dividindo a área toda da cidade em quarteirões e selecionando 1/25quarteirões. A probabilidade de selecionar um domicílio na cidade é a prob-abilidade de selecionar um quarteirão, ou seja, 1/25=400/10.000.Portanto, as unidades amostrais são quarteirões selecionados de uma lista

completa. A seleção da amostra de quarteirões determina a seleção dosdomicílios que estão localizados nos quarteirões.Mesmo se a lista de todos os domicílios fosse disponível, considerações na

redução do custo pode ser observada na amostra de conglomerados. Pois a

Page 62: 84958247 Tecnicas de Amostragem Apostila Zelia

56CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

localização e identificação dos 400 domicílios espalhados aumentaria o custocom gastos com transporte, bem como um maior tempo para a coleta emcomparação com a localização dos quarteirões e visita a todos os domicíliosnestes quarteirões.Mas para um dado tamanho de amostra, uma unidade menor em geral

dá resultados mais precisos do que uma unidade maior.Portanto, se compararmos uma amostra de conglomerados com uma amostra

de unidades elementares compreendida do mesmo número de elementos, emgeral na amostra de conglomerados tem-se:- o custo por unidade elementar é mais baixo, devido ao mais baixo custo

da listagem ou da localização, ou de ambos;- a variância amostral é mais alta dependendo da homogeneidade dos

elementos nos conglomerados.Entretanto, levando em conta os aspectos operacionais e a redução de

custos (devido ao possível ganho no tempo de coleta, identificação, contato,etc.) que a amostragem de conglomerados proporciona, em muitas situaçõespráticas a perda na eficiência amostral é balanceada com essas vantagens.

2.3 Conglomerados em 1 estágio

2.3.1 Probabilidades iguais de seleção

Definições básicas e notação

Seja πN a população, com suas N unidades grupadas em M conglomeradosdisjuntos. Seleciona-se uma amostra aleatória simples sem reposição de mdesses M conglomerados. As unidades de πN pertencentes aos m conglom-erados selecionados formam a amostra de conglomerados em 1 estágio deπN (Ac1).Se a característica y observada nas unidades da amostra, tem-se uma

amostra de conglomerados em 1 estágio de y.Pode-se representar esquematicamente a população por:

C1 C2 CM

U11 → Y11 U21 → Y21 . . . UM1 → YM1

U12 → Y12 U22 → Y22 . . . UM2 → YM2...

......

......

...U1N1 → Y1N1 U2N2 → Y2N2 . . . UMNM

→ YMNM

onde:

Page 63: 84958247 Tecnicas de Amostragem Apostila Zelia

2.3. CONGLOMERADOS EM 1 ESTÁGIO 57

Uij é a j-ésima unidade de πN no i-ésimo conglomerado Ci;i ∈ {1, 2, ...,M} e j ∈ {1, 2, ..., Ni} ;Yij é o valor da característica y associada a Uij;

Ni é o tamanho do conglomerado Ci;MPi=1

Ni = N

Selecionando-se através de amostragem aleatória simples sem reposiçãom conglomerados dentre os M existentes, pode-se representar esquematica-mente a amostra por:

C 01 C 0

2 C 0m

U 011 → Y 0

11 U 021 → Y 0

21 . . . U 0m1 → Y 0

m1

U 012 → Y 0

12 U 022 → Y 0

22 . . . U 0m2 → Y 0

m2...

......

......

...U 01N 0

1→ Y 0

1N 01

U 02N 0

2→ Y 0

2N 02

. . . U 0mN 0

m→ Y 0

mN 0m

Note-se que como os conglomerados são selecionados por amostragemaleatória simples:

C 0i pode ser qualquer um dos conglomerados C1, C2, · · · , CM .

N 0i é o tamanho do conglomerado selecionado C

0i e pode ser qualquer um

dos valores N1, N2, · · · , NM .Consequentemente os Y 0

ij (i = 1, 2, ...,m e j = 1, 2, ..., N 0i) e os N 0

i

(i = 1, 2, ...,m) são variáveis aleatórias.A amostra é constituída pelas unidades:n

U 011, ..., U

01N 0

1; ...;U 0

m1, ..., U0mN 0

m

oe os valores da característica y associados às unidades da amostra são:n

Y 011, ..., Y

01N 0

1; ...;Y 0

m1, ..., Y0mN 0

m

oO tamanho total da amostra é: n =

mPi=1

N 0i que é uma variável aleatória,

cujos valores dependem dos conglomerados selecionados.

Pode-se calcular o valor esperado de n, n que será dado por:

n = E

ÃmXi=1

N 0i

!=

mXi=1

E(N 0i) = m

MPi=1

Ni

M

= mN

M=

m

MN = f1N

Page 64: 84958247 Tecnicas de Amostragem Apostila Zelia

58CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

sendo: f1 =m

M, a fração de amostragem do primeiro estágio.

A figura 2.1 apresenta uma ilustração da seleção das unidades de umaamostra de conglomerados em 1 estágio.

Figura 2.1: Ilustração da seleção das unidades de uma Ac1

A amostragem de conglomerados em 1 estágio é caracterizada pelos seguintesfatos:

• Pertencem à amostra todas as unidades dos conglomerados seleciona-dos.

• Só é necessário listar as unidades da população nos m conglomera-dos selecionados para a amostra. Isto acarreta evicente economia detempo e custo quando comparado à amostragem aleatória simples ou àamostragem estratificada, nas quais são listadas todas as unidades dapopulação.

• O tamanho da amostra não pode ser exatamente prefixado, pois de-penderá dos conglomerados selecionados.

• Cada unidade da população tem a mesma probabilidade de participarda amostra, e esta probabilidade é igual à fração de amostragem noprimeiro estágio

m

M.

• Mais adiante se verá que em muitas ocasiões, a precisão da amostragemde conglomerados é inferior à precisão da amostragem aleatória simples.

Page 65: 84958247 Tecnicas de Amostragem Apostila Zelia

2.3. CONGLOMERADOS EM 1 ESTÁGIO 59

Entretanto, a vantagem do menor custo e tempo pode compensar aperda de precisão.

Parâmetros da característica y

Total da característica y no conglomerado Ci :

Yi =

NiXj=1

Yij

Média da característica y no conglomerado Ci :

Y i =YiNi

Variância da característica y em Ci :

S2i =1

Ni − 1NiXj=1

(Yij − Y i)2

Total da característica y em toda população:

Y =MXi=1

Yi

Média da característica y por unidade da população:

Y =Y

N

Média da característica y por conglomerado:

Y =Y

M

Variância da característica y em toda população:

S2 =1

N − 1MXi=1

NiXj=1

(Yij − Y )2

Page 66: 84958247 Tecnicas de Amostragem Apostila Zelia

60CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Estatísticas da amostra em cada conglomerado selecionado

Como resultado da amostragem de conglomerados tem-se as seguintes es-tatísticas:Total da característica y no i-ésimo conglomerado selecionado C 0

i :

Y 0i =

N 0iX

j=1

Y 0ij

Média da característica y no conglomerado C 0i :

Y0i =

Y 0i

N 0i

Variância da característica y em C 0i :

S02i =

1

N 0i − 1

N 0iX

j=1

(Y 0ij − Y

0i)2

Estimadores do total e da média na Ac1

Quando os conglomerados são selecionados por amostragem aleatória simplessem reposição, um estimador não viciado do total Y é dado por:

bYAc1 = M

m

mXi=1

Y 0i

Prova:

E(bYAc1) =M

m

mXi=1

E(Y 0i ) =

M

m

mXi=1

E(Y 0i )

=M

m

mXi=1

1

M

ÃMXk=1

Yk

!=

M

m

m

M

ÃMXk=1

Yk

!

=MXk=1

Yk = Y

Conseqüentemente, um estimador não viciado de Y , média por unidadeda população, é dado por:

yAc1 =bYAc1N

=1

N

M

m

mXi=1

Y 0i =

1

mN

mXi=1

Y 0i

Page 67: 84958247 Tecnicas de Amostragem Apostila Zelia

2.3. CONGLOMERADOS EM 1 ESTÁGIO 61

onde: N =N

Mé o tamanho médio por conglomerado.

E¡yAc1

¢= E

à bYAc1N

!=1

NE³bYAc1´ = 1

NY = Y

E um estimador não viciado de Y , média por conglomerado é dado por:

yAc1 =bYAc1M

=1

m

mXi=1

Y 0i

E (yAc1) = E

à bYAc1M

!=1

ME³bYAc1´ = Y

M= Y

Page 68: 84958247 Tecnicas de Amostragem Apostila Zelia

62CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Variâncias dos estimadores do total e da média na Ac1

V (bYAc1) = V

ÃM

m

mXi=1

Y 0i

!= E

ÃM

m

mXi=1

Y 0i − Y

!2

= E

M

mPi=1

Y 0i −mY

m

2

= E

M2

m2

ÃmXi=1

Y 0i −mY

!2

=M2

m2E

à mXi=1

Y 0i −mY

!2 = M2

m2E

à mXi=1

¡Y 0i − Y

¢!2

=M2

m2E

mXi=1

¡Y 0i − Y

¢2+

mXi=1

mXk=1i6=k

¡Y 0i − Y

¢ ¡Y 0k − Y

¢

=M2

m2

mXi=1

E¡Y 0i − Y

¢2+

mXi=1

mXk=1i6=k

E£¡Y 0i − Y

¢ ¡Y 0k − Y

¢¤

=M2

m2

m

M

MXi=1

¡Yi − Y

¢2+

m(m− 1)M(M − 1)

MXi=1

MXk=1i6=k

£¡Y 0i − Y

¢ ¡Y 0k − Y

¢¤

=M

m

MXi=1

¡Yi − Y

¢2+(m− 1)(M − 1)

MXi=1

MXk=1i6=k

£¡Y 0i − Y

¢ ¡Y 0k − Y

¢¤

fazendo:

S2e =1

M − 1MXi=1

¡Yi − Y

¢2

Page 69: 84958247 Tecnicas de Amostragem Apostila Zelia

2.3. CONGLOMERADOS EM 1 ESTÁGIO 63

e notando que:

0 =MXi=1

¡Yi − Y

¢=

ÃMXi=1

¡Yi − Y

¢!2

=MXi=1

¡Yi − Y

¢2+

MXi=1

MXk=1i6=k

¡Yi − Y

¢ ¡Yk − Y

¢

=⇒MXi=1

MXk=1i6=k

¡Yi − Y

¢ ¡Yk − Y

¢= −

MXi=1

¡Yi − Y

¢2

Segue-se que:

V (bYAc1) =M

m

"(M − 1)S2e −

(m− 1)(M − 1)

MXi=1

¡Yi − Y

¢2#=

M

m

£(M − 1)S2e − (m− 1)S2e

¤=

M(M −m)

mS2e =

M2(M −m)

M

S2em

Observe que a variância do estimador bYAc1 depende somente da fraçãode amostragem do primeiro estágio e da variabilidade entre os totais dosconglomerados. Em termos de expressão, a variância de bYAc1 é idêntica àvariância do estimador de total com amostragem aleatória simples.

Estimador da variância do estimador de total na Ac1

Agora que se conhece a expressão da variância do estimador bYAc1, trata-se daobtenção de um estimador para essa variância. Isto é feito usando a teoria jáconhecida da amostragem aleatória simples e supondo que os conglomeradossão as unidades investigadas.Assim,

s2e =1

m− 1mXi=1

(Y 0i − yAc1)

2

deve ser um estimador não viciado de S2e .

Page 70: 84958247 Tecnicas de Amostragem Apostila Zelia

64CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Para verificar este fato, note-se que:

s2e =1

m− 1mXi=1

(Y 0i − yAc1)

2

=1

m− 1mXi=1

£¡Y 0i − Y )− (yAc1 − Y

¢¤2=

1

m− 1mXi=1

£¡Y 0i − Y )2 − 2(yAc1 − Y

¢(Y 0

i − Y ) + (yAc1 − Y )2¤

=1

m− 1

"mXi=1

(Y 0i − Y )2 +

mXi=1

(yAc1 − Y )2 − 2(yAc1 − Y )mXi=1

(Y 0i − Y )

#

s2e =1

m− 1

"mXi=1

(Y 0i − Y )2 +m(yAc1 − Y )2 − 2m(yAc1 − Y )2

#

=1

m− 1

"mXi=1

(Y 0i − Y )2 −m(yAc1 − Y )2

#daí pode-se obter:

E(s2e) = E

(1

m− 1

"mXi=1

(Y 0i − Y )2 −m(yAc1 − Y )2

#)

=1

m− 1

(mXi=1

E(Y 0i − Y )2 −mE(yAc1 − Y )2

)

=1

m− 1

(m

M

MXi=1

(Yi − Y )2 −mV (yAc1)

)

=1

m− 1½m

M(M − 1)S2e −m

(M −m)

M

S2em

¾=

m

M

1

m− 1½M S2e − S2e − (M −m)

S2em

¾=

m

M

1

m− 1M(1−1

m)S2e

=m

M

1

m− 1M(m− 1m

)S2e = S2e

Conseqüentemente, um estimador não viciado para V (bYAc1) é dado por:v(bYAc1) = M2(M −m)

M

s2em

Page 71: 84958247 Tecnicas de Amostragem Apostila Zelia

2.3. CONGLOMERADOS EM 1 ESTÁGIO 65

2.3.2 Estimação de proporções na Ac1

Considere-se a população dividida em 2 classes A e eA (não A), de acordocom algum atributo associado às unidades da população πN .Então, se a população é grupada em M conglomerados disjuntos, cada

conglomerado pode ser dividido nas classes A e eA.Definindo uma característica y tal que:

Yij =

1 se Uij ∈ A

0 se Uij ∈ Ai = 1, 2, · · · ,M e j = 1, 2, · · · , Ni

Sejam Ai e eAi o número de unidades de πN em A e eA, respectivamente,no conglomerado i.

Ai pode assumir os valores 0, 1, 2, · · · , Ni e se tem:

Ai + eAi = Ni

Segue-se que:

Ai = Yi =NiPj=1

Yij é o número de unidades em A, do conglomerado i;

PA i =Ai

Ni=

YiNi= Y i é a proporção de unidades em A, do conglomerado

i.Assim, a proporção global de unidades em A na população πN é dada

por:

PA =

MPi=1

Ai

MPi=1

Ni

=

MPi=1

Yi

MPi=1

Ni

=Y

N= Y

ou ainda,

PA =

MPi=1

Ai

N=

MXi=1

Ni

NPAi

Em vista dessas expressões, e considerando a teoria já apresentada paraobtenção dos parâmetros de πN , é imediata a obtenção de estimadores nãoviciados para a proporção PA:

pAc1 =M

m

mXi=1

N 0i

NP 0Ai =

1

mN

mXi=1

N 0iP

0Ai =

1

mN

mXi=1

A0i

Page 72: 84958247 Tecnicas de Amostragem Apostila Zelia

66CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

onde:

A0i = Y 0i =

N 0iP

i=1

Y 0ij é o número de unidades em A, do i-ésimo conglomerado

selecionado;

P 0Ai =

A0iN 0

i

=Y 0i

N 0i

= Y0i é a proporção de unidades em A, do i-ésimo

conglomerado selecionado.

Além disto, a variância de pAc1 é dada por:

V (pAc1) =M −m

M

S2

e

m=

1

N2

M −m

M

S2em

onde:

S2

e =1

M − 1MXi=1

µYi

N− PA

¶2=

1

M − 1MXi=1

1

N2

¡NiPA i −NPA

¢2=

1

M − 11

N2

MXi=1

³N2

i P2Ai − 2NNiPAiPA +N

2P 2A

´=

1

N2

1

M − 1

(MXi=1

N2i P

2Ai − 2NPA

MXi=1

NiPAi +MXi=1

N2P 2A

)

=1

N2

1

M − 1

(MXi=1

N2i P

2Ai − 2NPANPA +MN

2P 2A

)

=1

N2

1

M − 1

(MXi=1

N2i P

2Ai −MN

2P 2A

)

=1

N2

1

M − 1

(MXi=1

Y 2i −M

N2

M2P 2A

)=

1

N2

1

M − 1

(MXi=1

Y 2i −M

Y 2

M2

)

=1

N2

1

M − 1

(MXi=1

Y 2i −MY

2

)=

1

N2

1

M − 1MXi=1

¡Yi − Y

¢2=

1

N2S

2e

Esta variância pode ser estimada por:

v(pAc1) =M −m

M

s2em=

1

N2

M −m

M

s2em

com:

s2e =1

m− 1mXi=1

µY 0i

N− pAc1

¶2

Page 73: 84958247 Tecnicas de Amostragem Apostila Zelia

2.3. CONGLOMERADOS EM 1 ESTÁGIO 67

e

s2e =1

m− 1mXi=1

ÃY 0i −

1

m

mXi=1

Y 0i

!2

mas:

s2e =1

N2(m− 1)

mXi=1

¡Y 0i −N pAc1

¢2=

1

N2(m− 1)

mXi=1

ÃY 0i −

N

mN

mXi=1

Y 0i

!2

=1

N2(m− 1)

mXi=1

ÃY 0i −

1

m

mXi=1

Y 0i

!2

=1

N2(m− 1)

mXi=1

Y 02i −

1

m

ÃmXi=1

Y 0i

!2 = 1

N2 s2e

conseqüentemente:

v(pAc1) =1

N2

M −m

M

1

m

1

(m− 1)

mXi=1

Y 02i −

1

m

ÃmXi=1

Y 0i

!2

Exemplo 2.1

Com o objetivo de avaliar a proporção de fumantes, entre os alunos da 3a

série do 2o grau da rede de ensino publico de certa localidade, foram formadosconglomerados a partir de uma relação de 3500 turmas existentes, grupando-se cada 5 turmas em aproximadamente 150 alunos, supondo uma base de 30alunos por turma.

Uma amostra de 10 conglomerados foi selecionada, observando-se:

Page 74: 84958247 Tecnicas de Amostragem Apostila Zelia

68CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Conglomerados Número de Número de alunosda amostra alunos (N 0

i) fumantes (A0i)1 162 502 170 633 145 474 151 485 166 686 162 597 145 368 148 459 171 7110 178 75Soma 1592 562

M = 700, N = 150 e m = 10

Uma estimativa da proporção de alunos fumantes é dada por:

pAc1 =1

mN

mXi=1

A0i =1

10 (150)562 = 0, 375 ou 37, 5%

Uma estimativa da variância é dada por:

v(pAc1) =1

N2

M −m

M

s2em

sendo:

s2e =1

m− 1

mXi=1

A02i −1

m

ÃmXi=1

A0i

!2=

1

9

Ã33074− (562)

2

10

!= 165, 51

então:

v(pAc1) =1

N2

M −m

M

s2em=

1

(150)2700− 10700

165, 51

10

= 0, 000725

Uma estimativa do erro padrão é dada por:pv(pAc1) =

p0, 000725 = 0, 0269 = 2, 69%

Page 75: 84958247 Tecnicas de Amostragem Apostila Zelia

2.3. CONGLOMERADOS EM 1 ESTÁGIO 69

e uma estimativa do coeficiente de variação pode ser obtida através da ex-pressão:

cv(pAc1) =

pv(pAc1)

pAc1

cv(pAc1) =

√0, 000725

0, 375= 0, 0717 = 7, 17%

2.3.3 Coeficiente de Correlação Intraclasse

O objetivo neste item é comparar a eficiência da amostragem por conglo-merados com a da amostragem aleatória simples. Inicialmente, será estudadoo caso em que os conglomerados são de tamanhos iguais. Ocorre que paracomparar a precisão da amostragem de conglomerados em 1 estágio com aamostrgem aleatória simples é muito útil a introdução do coeficiente decorrelação intraclasse.Seja a população πN distribuída em M conglomerados de tamanho N =

N

Mcada um.

Imagine o seguinte experimento aleatório:

• Seleciona-se aleatoriamente 1 entre os M conglomerados.

• Seleciona-se aleatoriamente sem reposição 2 unidades dentro deste con-glomerado.

Sejam Y 0ij e Y 0

ik as variáveis aleatórias resultantes da observação nas 2unidades selecionadas da característica y.É possível calcular a correlação entre essas 2 variáveis aleatórias:

ρ(Y 0ij, Y

0ik) =

E£¡Y 0ij −E(Y 0

ij)¢(Y 0

ik −E(Y 0ik))¤r

Eh¡Y 0ij −E(Y 0

ij)¢2i

E£(Y 0

ik −E(Y 0ik))

2¤Agora, notando que:

E(Y 0ij) =

MXi=1

1

M

NXj=1

1

NYij =

1

M N

MXi=1

NXj=1

Yij = Y

E(Y 0ik) = Y

Eh¡Y 0ij −E(Y 0

ij)¢2i

=MXi=1

NXj=1

1

M N

³Yij − Y

´2=

MN − 1M N

S2

Page 76: 84958247 Tecnicas de Amostragem Apostila Zelia

70CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

S2 =1

MN − 1MXi=1

NXj=1

³Yij − Y

´2Donde também:

Eh(Y 0

ik −E(Y 0ik))

2i=

MN − 1MN

S2

Finalmente:

E£¡Y 0ij − E(Y 0

ij)¢(Y 0

ik −E(Y 0ik))¤=

MXi=1

NXj=1

NXk=1j 6=k

³Yij − Y

´³Yik − Y

´M N

¡N − 1¢

Logo, esta correlação será:

ρ(Y 0ij, Y

0ik) =

1

M N¡N − 1¢ MP

i=1

NPj=1

NPk=1j 6=k

³Yij − Y

´³Yik − Y

´MN − 1MN

S2

Esta correlação expressa uma medida de homogeneidade dentro dos con-glomerados da população, e será denominada coeficiente de correlaçãointraclasse e é denotada por δ:

δ = ρ(Y 0ij, Y

0ik) =

1

MN¡N − 1¢ MP

i=1

NPj=1

NPk=1j 6=k

³Yij − Y

´³Yik − Y

´MN − 1M N

S2

Agora será tratado o problema de obter uma expressão adequada para ocoeficiente de correlação intraclasse, que permita visualizar este coeficientecomo uma medida de homogeneidade dentro dos conglomerasdos.Note-se que:

δ =

1

M N¡N − 1¢ MP

i=1

NPj=1

NPk=1j 6=k

³Yij − Y

´³Yik − Y

´MN − 1M N

S2

Page 77: 84958247 Tecnicas de Amostragem Apostila Zelia

2.3. CONGLOMERADOS EM 1 ESTÁGIO 71

Então pode-se escrever:

MXi=1

NXj=1

NXk=1j 6=k

³Yij − Y

´³Yik − Y

´=

=MXi=1

NXj=1

NXk=1j 6=k

³Yij − Y i + Y i − Y

´³Yik − Y i + Y i − Y

´

=MXi=1

NXj=1

NXk=1j 6=k

µ¡Yij − Y i

¢(Y ik − Y i) +

³Y i − Y

´2¶

=MXi=1

NXj=1

NXk=1j 6=k

¡Yij − Y i

¢(Y ik − Y i) +N(N − 1)

MXi=1

³Y i − Y

´2

=MXi=1

NXj=1

¡Yij − Y i

¢2

−MXi=1

NXj=1

¡Yij − Y i

¢2+N(N − 1)

MXi=1

³Y i − Y

´2Note que:

NXj=1

¡Yij − Y i

¢= 0

Lembrando que:

S2i =1

N − 1NXj=1

¡Yij − Y i

¢2e fazendo:

S2d =1

M

MXi=1

S2i

Segue-se que:

MXi=1

NXj=1

NXk=1j 6=k

³Yij − Y

´³Yik − Y

´= −

MXi=1

¡N − 1¢S2i+N(N−1) MX

i=1

³Y i − Y

´2

Page 78: 84958247 Tecnicas de Amostragem Apostila Zelia

72CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Como também:

S2

e =1

M − 1MXi=1

³Y i − Y

´2vem:MXi=1

NXj=1

NXk=1j 6=k

³Yij − Y

´³Yik − Y

´= − ¡N − 1¢ M S2d+N(N−1) (M − 1) S2e

Assim pode-se escrever:

δ =

1

MN¡N − 1¢

hN(N − 1) (M − 1) S2e −

¡N − 1¢ M S2d

iMN − 1M N

S2

δ =

(M − 1) S2eM

− 1

NS2d

MN − 1M N

S2

Se o número de conglomerados M for grande, vem:

δ ∼=S2

e −1

NS2d

S2

Para compreender melhor o significado desta expressão, deve-se notar que:

¡MN − 1¢S2 =

MXi=1

NXj=1

³Yij − Y

´2=

MXi=1

NXj=1

³Yij − Y i + Y i − Y

´2¡MN − 1¢S2 =

MXi=1

NXj=1

h(Yij − Y i)

2 + 2(Yij − Y i)(Y i − Y ) + (Y i − Y )2i

=MXi=1

NXj=1

(Yij − Y i)2 + 2

MXi=1

(Y i − Y )NXj=1

(Yij − Y i) +NMXi=1

(Y i − Y )2

=MXi=1

(N − 1)S2i +NMXi=1

(Y i − Y )2

= (N − 1)M S2d +N (M − 1)S2e

Page 79: 84958247 Tecnicas de Amostragem Apostila Zelia

2.3. CONGLOMERADOS EM 1 ESTÁGIO 73

ou seja:

S2 =(N − 1)M S2d +N (M − 1)S2e¡

MN − 1¢Assim estamos agora em posição para analisar melhor a influência na

variação de δ da maior homogeneidade dos conglomerados.Supondo que os conglomerados fossem homogêneos devemos ter:

S2d = 0

portanto:

δ =

(M − 1) S2eM

− 1

NS2d

MN − 1MN

S2=

(M − 1) S2eM

N (M − 1)S2eMN

= 1

Logo, quando há homogeneidade máxima dentro dos conglomerados =⇒δ = 1.Por outro lado, se há heterogeneidade dentro dos conglomerados com

homogeneidade entre eles, o valor de δ deve diminuir. Se admitirmos queS2

e = 0 vem: ¡MN − 1¢S2 = (N − 1)M S2d

donde:

δ =− 1N

S2d

(N − 1)M S2dM N

= − 1

(N − 1)

Logo, conclui-se que:

δ ∈·− 1

(N − 1); 1¸

Assim δ é uma medida de homogeneidade ou heterogeneidade dentro dosconglomerados.

Exemplo 2.2

Page 80: 84958247 Tecnicas de Amostragem Apostila Zelia

74CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Seja uma população com exatamente 6 unidades.

U1 U2 U3 U4 U5 U6↓ ↓ ↓ ↓ ↓ ↓Y1 Y2 Y3 Y4 Y5 Y6q q q q q q3 5 3 7 2 8

Essas unidades serão grupadas em 2 conglomerados para o cálculo do co-eficiente de correlação intraclasse. A conglomeração será feita de de 2 modosdiferentes a fim de medir a variação do coeficiente de correlação intraclasseem função da maior ou menor homogeneidade dos conglomerados.1a tentativa: conglomerados homogêneos

C1 C2U1 → 3 U2 → 5U3 → 3 U4 → 7U5 → 2 U6 → 8

M = 2 N = 3 Y 1 = 2, 66667 Y 2 = 6, 66667 Y = 4, 66667

S2d =1

2(0, 3333 + 2, 3333) = 1, 3333 S

2

e = 4 + 4 = 8

δ =

(M − 1) S2eM

− 1

NS2d

M(N − 1)S2d +N (M − 1)S2eM N

=3, 5556

4, 8889= 0, 7273

2a tentativa: conglomerados heterogêneos

C1 C2U2 → 5 U1 → 3U5 → 2 U3 → 3U6 → 8 U4 → 7

M = 2 N = 3 Y 1 = 5, 0000 Y 2 = 4, 3333 Y = 4, 66667

S2d =1

2(9+5, 3333) = 7, 16667 S

2

e = 0, 1111+0, 1111 = 0, 2222

δ =

(M − 1) S2eM

− 1

NS2d

M(N − 1)S2d +N (M − 1)S2eM N

= −2, 27784, 8889

= −0, 4659

Page 81: 84958247 Tecnicas de Amostragem Apostila Zelia

2.3. CONGLOMERADOS EM 1 ESTÁGIO 75

Note-se que: − 1

N − 1 = −1

2= −0, 50

Portanto, δ está bem próximo do valor mínimo que pode assumir, indi-cando alto grau de heterogeneidade.

2.3.4 Estimação do coeficiente de correlação intraclasse

Um problema que falta solucionar é o da estimação do coeficiente de corre-lação intraclasse através de uma amostra de conglomerados.Para tanto, basta considerar a expressão de δ:

δ =

(M − 1) S2eM

− 1

NS2d

M(N − 1)S2d +N (M − 1)S2eM N

Agora, lembrando que:

s2e =1

m− 1mXi=1

³Y0i − yAc1

´2é um estimador não viciado para S

2

e, e notando que:

s2d =1

m

mXi=1

S02i

é um estimador não viciado para S2d , basta substituir estes estimadores naexpressão de δ para obter um estimador consistente para δ.

bδ = (M − 1) s2eM

− 1

Ns2d

M(N − 1) s2d +N (M − 1) s2eM N

Além disso, notando-se que:

MN − 1M N

S2 =M(N − 1)S2d +N (M − 1)S2e

M N

Segue-se que um estimador não viciado para S2 é dado por:

s2 =M(N − 1) s2d +N (M − 1) s2e

MN − 1

Page 82: 84958247 Tecnicas de Amostragem Apostila Zelia

76CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

e conseqüentemente, que bδ pode ser escrito:bδ = (M − 1) s2e

M− 1

Ns2d

MN − 1M N

s2

ou ainda, para M muito grande:

bδ ∼= s2e −1

Ns2d

s2

Exemplo 2.3 (Nascimento (1981), pág.32)Tem-se um fichário de 20.000 segurados de uma Companhia de Seguros,

em um plano A. As 20.000 fichas estão dispostas em 400 gavetas, com 50fichas cada.Considerando as gavetas como conglomerados, tem-se:

M = 400 e N = 50

Selecionou-se uma amostra aleatória sem reposição de 10 gavetas, correspon-dendo a 500 fichas. Nas gavetas selecionadas foram calculadas as reservastécnicas de todas as fichas, obtendo-se:

Gavetas da Reserva Variância dasamostra total (Y 0

i ) reservas (S02i )1 321 252 170 173 610 304 405 325 350 356 155 207 254 408 328 189 652 2510 269 35Soma 3.514 277

O objetivo é estimar a média por ficha da reserva técnica do plano A e ocoeficiente de correlação intraclasse.Estimativa de Y

yAc1 =1

mN

mXi=1

Y 0i =

3.514

10 (50)= 7, 028

Page 83: 84958247 Tecnicas de Amostragem Apostila Zelia

2.3. CONGLOMERADOS EM 1 ESTÁGIO 77

Estimativa de S2d

s2d =1

m

mXi=1

S02i =

277

10= 27, 7

Estimativa de S2

e

s2e =1

m− 11

N2

mXi=1

(Y 0i − yAc1)

2

=1

m− 11

N2

mXi=1

Y 02i −

µmPi=1

Y0i

¶2m

=

1

9 (50)2

"1.484.156− (3.514)

2

10

#= 11, 082

Estimativa de S2

s2 =M(N − 1) s2d +N (M − 1) s2e

M N − 1=

400(50− 1) (27, 7) + 50 (399) (11, 082)20.000− 1 = 38, 20

Estimativa do coeficiente de correlação intraclasse

bδ ∼= s2e −1

Ns2d

s2=11, 0832− 0, 554

38, 20= 0, 276

2.3.5 Eficiência da Ac1 em relação à AAS com con-glomerados de tamanhos iguais

Para comparar a precisão de um estimador, obtido através de um planoamostral proveniente de uma amostra de conglomerados em 1 estágio (Ac1),com a de outro estimador, obtido através de uma amostra aleatória simples(AAS), vamos definir uma medida de eficiência baseada nas variâncias dosestimadores de Y com os dois desenhos. Assim:

Ef =V (yAAS)

V (yAc1)

Page 84: 84958247 Tecnicas de Amostragem Apostila Zelia

78CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

onde:y é o estimador de Y na AAS; e

yAc1 é o estimador de Y na Ac1.A eficiência Ef > 1 se V (yAc1) < V (yAAS).Mas:

V (yAc1) =M −m

M

1

N2

S2em

e:

V (yAAS) =N − n

N

S2

naqui N =MN

onde:

S2e =1

M − 1MXi=1

¡Yi − Y

¢2

S2 =1

M N − 1MXi=1

NXj=1

³Yij − Y

´2sob a hipótese de conglomerados de tamanhos iguais.Supondo que todos os conglomerados tenham o mesmo tamanho N , o

tamanho n da AAS equivalente à Ac1 com m conglomerados na amostra édado por : n = mN .Assim, pode-se escrever:

V (yAAS) =MN −mN

MN

S2

mN=

M −m

M

S2

mN

logo, tem-se:

Ef =

M −m

M

S2

mNM −m

M

1

N2

S2em

=N S2

S2e

Agora, notando que:

Page 85: 84958247 Tecnicas de Amostragem Apostila Zelia

2.3. CONGLOMERADOS EM 1 ESTÁGIO 79

MXi=1

¡Yi − Y

¢2=

MXi=1

NXj=1

Yij −N Y

2

=MXi=1

NXj=1

³Yij − Y

´2+

MXi=1

NXj=1

NXk=1j 6=k

³Yij − Y

´³Yik − Y

´=

¡M N − 1¢S2 + ¡N − 1¢ ¡MN − 1¢ S2 δ

como:MXi=1

¡Yi − Y

¢2= (M − 1)S2e

vem:

S2e =M N − 1M − 1 S2 +

M N − 1M − 1

¡N − 1¢ S2 δ

=M N − 1M − 1 S2

£1 +

¡N − 1¢ δ

¤Daí segue-se que:

Ef =N S2

M N − 1M − 1 S2

£1 +

¡N − 1¢ δ

¤supondo: M − 1 ∼=M e MN − 1 ∼=MN vem:

Ef ∼= 1

1 +¡N − 1¢ δ

Ef > 1⇐⇒ 1 +¡N − 1¢ δ < 1⇐⇒ ¡

N − 1¢ δ < 0⇐⇒ δ < 0

O termo£1 +

¡N − 1¢ δ

¤mostra quanto a variância é afetada pelo uso

de conglomerado ao invés de um elemento como unidade amostral. Kish(1965) define este fator como o efeito de desenho de uma amostra deconglomerados de tamanho N ou efeito de conglomeração. Este fatormede a influência da conglomeração na precisão do estimador.Portanto:

Se δ > 0⇒ Ef < 1 então V (yAc1) > V (yAAS), a amostra de conglomeradosé menos eficiente que a AAS.

Page 86: 84958247 Tecnicas de Amostragem Apostila Zelia

80CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Se δ = 0⇒ Ef = 1 então V (yAc1) = V (yAAS), a amostra de conglomeradosé equivalente a AAS.

Se δ < 0⇒ Ef > 1 então V (yAc1) < V (yAAS), a amostra de conglomeradosé mais eficiente que a AAS.

Como δ ∈·− 1

(N − 1); 1¸, isto indica que os valores negativos de δ são

raros, uma vez que limN−→+∞

µ− 1

(N − 1)¶= 0, isto é, à medida que o

tamanho N cresce, diminui a eficiência da Ac1 em relação à AAS.Lembrando que:

Ef =V (yAAS)

V (yAc1)∼= 1

1 +¡N − 1¢ δ

vem:

Ef ∈·1

N; +∞

¸e

V (yAc1)∼= V (yAAS)

£1 +

¡N − 1¢ δ

¤isto é, a variância do estimador da média na Ac1 é a variância do estimadorda média na AAS vezes o fator

£1 +

¡N − 1¢ δ

¤.

Para o caso de conglomerados de mesmo tamanho, se estivermos inte-ressados na mesma precisão, qual deverá ser o tamanho da amostra de con-glomerados?

V (yAc1) equivale a V (yAAS) quando:

V (yAc1)£1 +

¡N − 1¢ δ

¤ ∼= V (yAAS)

ou seja, quando:

1

N2

S2em£1 +

¡N − 1¢ δ

¤ =S2

mN

S2

e

m£1 +

¡N − 1¢ δ

¤ =S2

mN

o que implica que o número de conglomerados na amostra equivale a

m£1 +

¡N − 1¢ δ

¤

Page 87: 84958247 Tecnicas de Amostragem Apostila Zelia

2.3. CONGLOMERADOS EM 1 ESTÁGIO 81

e, portanto, haverá um acréscimo de£m¡N − 1¢ δ

¤conglomerados na amostra.

Conseqüentemente, o número de unidades populacionais na amostra equivalea:

m£1 +

¡N − 1¢ δ

¤N = mN +mN

¡N − 1¢ δ

ou seja, haverá um acréscimo de£mN

¡N − 1¢ δ

¤unidades em relação a

AAS sem reposição.

Exemplo 2.4 (Nascimento (1981), pág. 34)Considere as informações do exemplo 2.3 e calcule o número de conglom-

erados necessários na amostra, para dar a mesma precisão de uma amostraaleatória simples ao estimar a média por ficha da reserva técnica do plano A.Nesste caso, o efeito de conglomeração é:

1 +¡N − 1¢ δ = 1 + 49 (0, 276) = 14, 524

O tamanho da amostra de conglomerados para dar a mesma precisão deuma amostra aleatória simples é:

m£1 +

¡N − 1¢ δ

¤= 10 (14, 524) ∼= 145 conglomerados

O elevado efeito de conglomeração, mostra que o desenho amostral deconglomerados em 1 estágio que considera a gaveta com 50 fichas como con-glomerado é pouco eficiente.IlustraçõesA seguir, são apresentadas algumas ilustrações para mostrar que δ mede

homogeneidade e como afeta a variância por unidades amostrais elementaresou por conglomerados.

a) Suponha que se deseja analisar a composição da população em relaçãoa renda e que o conglomerado seja o setor censitário. Suponha que amaioria das pessoas em certos setores têm uma renda alta e a maioriadas pessoas em outros setores têm renda baixa. Neste caso a variânciaentre as médias dos setores será relativamente grande e a correlação en-tre as pessoas dentro do setor será alta e positiva. Assim uma amostraaleatória simples de setores consistindo de todas pessoas dos setoresdará pouca informação com relação à composição da renda da popu-lação.

b) Agora, um caso extremo onde a composição da renda é exatamentea mesma em cada setor. Neste caso, a variância entre as médias dossetores será zero e a correlação entre as pessoas de mesmo setor seránegativa. Neste caso, uma amostra aleatoria simples de setores con-sistindo de todas as pessoas no setor daria uma completa informaçãocom relação à composição da renda da população.

Page 88: 84958247 Tecnicas de Amostragem Apostila Zelia

82CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

c) Finalmente, suponha que a composição da renda difira de setor parasetor e que a variância entre as médias dos setores seja aproximada-mente a variância entre as médias amostrais baseada numa amostraaleatória simples. A correlação entre as pessoas de um mesmo setorserá nula. Uma amostra aleatória de setores consistindo de todas aspessoas no setor daria informações com respeito à composição da rendada população da mesma forma que uma amostra aleatória simples demesmo tamanho selecionada sem considerar o conglomerado setor.

Em geral, os conglomerados são definidos por populações geográficas con-tiguas.O coeficiente de correlação em geral é positivo e diminui com o aumento

do tamanho do conglomerado, pois se as unidades incluídas na amostra sãopoucas e imediatamente contiguas, haverá uma correlação mais alta entre asunidades dentro de um conglomerado do que quando os conglomerados sãomaiores e há portanto, um maior espalhamento entre as unidades dentro doconglomerado.

2.4 Controle na variação de tamanho

Observe que a V (bYAc1) = M2(M −m)

M

S2emaumenta e a Ef =

N S2

S2ediminui

quando S2e aumenta. Mas de acordo com a expressão:

S2e =1

M − 1MXi=1

¡Yi − Y

¢2o aumento de S2e é tanto maior quanto mais diferentes forem os totais dosconglomerados. Em geral, os totais de uma característica y tendem a crescerquando os tamanhos dos conglomerados crescem. Então, é usual controlar avariação de tamanho dos conglomerados na expectativa de redução da variân-cia e de aumento da eficiência com o uso da amostragem de conglomerados.Os processos usuais de controle do tamanho dos conglomerados são:

a) selecionar os conglomerados com probabilidades proporcionais ao tamanhodos conglomerados;

b) estratificar os conglomerados, de modo que a característica de estrati-ficação seja o tamanho; e

c) usar um estimador de razão, com característica auxiliar definida pelotamanho do conglomerado.

Page 89: 84958247 Tecnicas de Amostragem Apostila Zelia

2.5. PROBABILIDADES DESIGUAIS DE SELEÇÃO 83

2.5 Probabilidades desiguais de seleção

Como vimos anteriormente, a ocorrência de variabilidade nos tamanhos dosconglomerados causa acentuada perda de precisão nos estimadores até agoraabordados com amostragem de conglomerados em 1 estágio.Na prática, a formação de conglomerados com tamanhos iguais para con-

trolar a variação de tamanho na variância do estimador, e também na vari-ação do tamanho final da amostra nem sempre é possível, sendo que a ocor-rência de conglomerados de tamanhos iguais é pouco comum.Assim, ao invés de tentar controlar artificialmente os tamanhos dos con-

glomerados, procura-se uma saída diferente: mantendo os conglomeradoscom os tamanhos desiguais, estuda-se uma forma de seleção da amostra deconglomerados com probabilidades desiguais (Probabilidades Proporcionaisa uma medida de Tamanho - PPT).Com o objetivo de manter a simplicidade da exposição será tratada primei-

ramente a seleção da amostra de conglomerados com probabilidades desiguaise com reposição.

2.5.1 Seleção dos conglomerados com probabilidadesdesiguais e com reposição

As unidades de πN são grupadas emM conglomerados, que podem ter taman-hos desiguais.

Ci

Ui1 → Yi1Ui2 → Yi2...

...UiNi

→ YiNi

i = 1, 2, · · · ,M .Seja Pi a probabilidade de seleção do conglomerado i com

MPi=1

Pi = 1.

Seleciona-se uma amostra com reposição de m conglomerados de acordocom as probabilidades Pi.

C0i

U0i1 → Y

0i1

U0i2 → Y

0i2

......

U0iN

0i

→ Y0iN

0i

Page 90: 84958247 Tecnicas de Amostragem Apostila Zelia

84CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

i = 1, 2, · · · ,m.A partir dos conglomerados selecionados pode-se calcular as seguintes

estatísticas:

Y 0i =

N 0iX

j=1

Y 0ij

Média da característica y no conglomerado C 0i :

Y0i =

Y 0i

N 0i

Variância da característica y em C 0i :

S02i =

1

N 0i − 1

N 0iX

j=1

(Y 0ij − Y

0i)2

Agora, para obter um estimador não viciado do total Y da populaçãobasta tomar:

bY PAc1 =

1

m

mXi=1

Y 0i

P 0i

onde: P 0i é a probabilidade de seleção associada ao i-ésimo conglomerado

selecionado. P 0i é igual a algum dos Pk (k = 1, 2, · · · ,M).

Para mostrar que bY PAc1 é não viciado, basta mostrar que:

E³bY P

Ac1

´= E

Ã1

m

mXi=1

Y 0i

P 0i

!=1

m

mXi=1

E

µY 0i

P 0i

=1

m

mXi=1

"MXk=1

YkPk

Pk

#=

MXk=1

Yk = Y

Assim, um estimador não viciado da média Y é dado por:

yPAc1 =

1

mN

mXi=1

Y 0i

P 0i

Variância do estimador de total

Page 91: 84958247 Tecnicas de Amostragem Apostila Zelia

2.5. PROBABILIDADES DESIGUAIS DE SELEÇÃO 85

V³bY P

Ac1

´= E

µ³bY PAc1

´2¶− Y 2

= E

à 1m

mXi=1

Y 0i

P 0i

!2− Y 2

=1

m2E

mXi=1

µY 0i

P 0i

¶2+

mXi=1

mXk=1i6=k

Y 0i

P 0i

Y 0k

P 0k

− Y 2

=1

m2

mXi=1

E

µY 0i

P 0i

¶2+1

m2

mXi=1

mXk=1i6=k

E

µY 0i

P 0i

Y 0k

P 0k

¶− Y 2

=1

m2m

MXi=1

µYiPi

¶2Pi +

1

m2m(m− 1)E

µY 0i

P 0i

¶E

µY 0k

P 0k

¶− Y 2

=1

m

MXi=1

Y 2i

Pi+(m− 1)

mY 2 − Y 2

=1

m

MXi=1

Y 2i

Pi− Y 2

m

=1

m

ÃMXi=1

Y 2i

Pi− Y 2

!

Porém, notando que:

MXi=1

Y 2i

Pi− Y 2 =

MXi=1

Y 2i

P 2i

Pi − 2Y 2 + Y 2

=MXi=1

Y 2i

P 2i

Pi − 2Ã

MXi=1

YiPiPi

!Y + Y 2

MXi=1

Pi

=MXi=1

µY 2i

P 2i

− 2YiPi+ Y 2

¶Pi

=MXi=1

µYiPi− Y

¶2Pi = S2eP

Page 92: 84958247 Tecnicas de Amostragem Apostila Zelia

86CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Segue-se que:

V³bY P

Ac1

´=

S2ePm

e um estimador não viciado de V³bY P

Ac1

´é obtido por:

v³bY P

Ac1

´=

s2ePm

onde:

s2eP =1

m− 1mXi=1

µY

0i

P0i

− bY PAc1

¶2Para mostrar que v

³bY PAc1

´é não viciado para V

³bY PAc1

´, escreve-se:

v³bY P

Ac1

´=

1

m (m− 1)mXi=1

µY

0i

P0i

− bY PAc1

¶2=

1

m (m− 1)

"mXi=1

µY

0i

P0i

¶2−m

³bY PAc1

´2#

Daí, segue-se que:

Ehv³bY P

Ac1

´i= E

Ã1

m (m− 1)mXi=1

µY

0i

P0i

− bY PAc1

¶2!

=1

m (m− 1)

ÃmXi=1

E

µY

0i

P0i

¶2−mE

³bY PAc1

´2!

=1

m (m− 1)

Ãm

MXi=1

µYiPi

¶2Pi −m

µV³bY P

Ac1

´+³E³bY P

Ac1

´´2¶!

=1

(m− 1)

ÃMXi=1

µYiPi

¶2Pi − V

³bY PAc1

´− Y 2

!

=1

(m− 1)

ÃÃMXi=1

Y 2i

Pi− Y 2

!− V

³bY PAc1

´!=

1

(m− 1)³mV

³bY PAc1

´− V

³bY PAc1

´´= V

³bY PAc1

´

Page 93: 84958247 Tecnicas de Amostragem Apostila Zelia

2.5. PROBABILIDADES DESIGUAIS DE SELEÇÃO 87

Probabilidades proporcionais a uma medida de tamanho

Até agora tratamos de um desenho onde a seleção dos conglomerados é feitacom probabilidades desiguais, sem preocupação a respeito do cálculo dessasprobabilidades.Agora vamos atentar para esse problema e procurar um conjunto de prob-

abilidades que traga uma estimação eficiente. Para tanto consideremos:

V³bY P

Ac1

´=1

m

MXi=1

µYiPi− Y

¶2Pi

Nesta expressão, se tomarmos:

Pi =YiY

segue-se que:

V³bY P

Ac1

´=1

m

MXi=1

YiYiY

− Y

2

Pi = 0

Logo, se as probabilidades Pi fossem exatamente proporcionais aos totaisYi dos conglomerados, o estimador bY P

Ac1teria variância zero.Acontece que os totais Yi são desconhecidos e não podem ser utilizados

para determinação das probabilidades de seleção.Assim é que será necessário definir as Pi a partir de outra forma, porém

tentando fazer com que elas tenham valores aproximadamente iguais àquelessugeridos pela definição anterior. Isto é, as Pi devem ser aproximadamenteproporcionais aos totais dos conglomerados.Fundamentalmente, existem 3 maneiras para fazer isto:

1. Fazer as probabilidades Pi proporcionais aos tamanhosNi dos conglom-

erados. Pi =Ni

N(i = 1, 2, · · · ,M). Esta solução é boa quase sempre,

entretanto não é sempre viável pois em certas situações os tamanhosNi também não são conhecidos para todos os conglomerados.

2. Fazer as probabilidades Pi proporcionais a uma medida de tamanhodos conglomerados, x, conhecida para todos os conglomerados e cor-relacionada com a característica y de interesse:

Pi =Xi

X(i = 1, 2, · · · ,M)

onde: X =MPi=1

Xi.

Page 94: 84958247 Tecnicas de Amostragem Apostila Zelia

88CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Exemplo: se o conglomerado é uma partição geográfica, usar a área totalx do conglomerado como medida de tamanho.

3. Fazer as probabilidades Pi exatamente proporcionais aos valores damesma característica y observadas num censo anterior.

O estatístico examina a situação e recomenda o uso de probabilidades pro-porcionais a x sempre que os valores

y

xpuderem ser admitidos aproximada-

mente constantes, pois neste caso a variância de bY PAc1deverá ser pequena.

Deve ser enfatizado que o sucesso da adoção da alternativa da amostragemcom probabilidades proporcionais ao tamanho depende fortemente do acertona escolha da medida de tamanho. Se esta for ruim, no sentido de quenão há proporcionalidade entre y e x, este desenho não deve ser melhor queamostragem com equiprobabilidades. Pode ser demonstrado que em certascondições, este desenho pode ser pior que amostragem com equiprobabili-dades.

Algoritmo para seleção da amostra com probabilidade proporcionalao tamanho (método dos totais cumulativos - seleção aleatória)

1. Calcular os totais parciais acumulados Tk dados por:

Tk =KXi=1

Xi ∀ K ∈ {1, 2, · · · ,M}

T0 = 0 e X =MXi=1

Xi

2. Selecionar um número aleatoriamente no intervalo [1,X]. Seja u onúmero selecionado.

3. Verificar em que intervalo (Tk, Tk+1] , K ∈ {1, 2, · · · ,M} , o númeroselecionado caiu. Caso u ∈ (Tk, Tk+1] então incluir na amostra o con-glomerado k + 1. Caso a amostra não tenha sido completada, repetiro processo a partir da etapa 2. Caso contrário, a amostra está sele-cionada.

Note-se que o procedimento é com reposição, donde se pode obter umaamostra contendo várias repetições de uma mesma unidade da população.

Exemplo 2.5

Page 95: 84958247 Tecnicas de Amostragem Apostila Zelia

2.5. PROBABILIDADES DESIGUAIS DE SELEÇÃO 89

Suponha-se que os conglomerados são quarteirões e que desejamos amostraros domicílios. Numa população de 10 quarteirões, selecionar uma amostrade 5 quarteirões com probabilidade proporcional ao número de domicílios noquarteirão.

Seleção dos quarteirões da amostranodo medidas medida designação

quarteirão de tamanho acumulada da amostra1 50 50 x2 12 623 20 82 x4 31 1135 10 1236 60 1837 55 238 xx8 13 2519 30 28110 20 301 x

Selecionar aleatoriamente um número entre 1 e 301. (Cochran pág. 19,linha 1 e coluna 17). O número selecionado é 226, então o primeiro con-glomerado a ser selecionado é o número 7. Os números aleatórios seguintesmenores ou iguais a 301 são: 15, 218, 79 e 294. Logo, os conglomerados 1, 3,7 e 10 estão também designados para a amostra.Observe que o conglomerado 7 foi selecionado duas vezes.SeM é grande, a probabilidade de um conglomerado ser selecionado mais

de uma vez é muito pequena e, como aproximação, pode-se usar a seleçãosistemática.

Algoritmo para seleção da amostra com probabilidade proporcionalao tamanho (método dos totais cumulativos - seleção sistemática)

Se a seleção é proporcional a uma medida de tamanho, a probabilidade deinclusão do conglomerado i na amostra é:

mXi

X=

Xi

X

m

1. Divide-se X em partes sendoX

mo intervalo da amostra para fins de

seleção sistemática.

Page 96: 84958247 Tecnicas de Amostragem Apostila Zelia

90CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

2. Seleciona-se aleatoriamente um ponto de partida no intervalo·1,X

m

¸;

ponto esse que vai determinar o 1o conglomerado da amostra.

3. Somando-se ao ponto de partida o intervalo vai determinar o 2o con-glomerado da amostra; e assim por diante até selecionar os m conglom-erados.

No exemplo anteriorX

m= 60, 2. Se o número aleatório é 22,5, os con-

glomerados selecionados são aqueles cujos totais cumulativos são: 22,5; 60,2+ 22,5 = 82,7; 82,7 + 60,2 = 142,9; 142,9 + 60,2 = 213,1; 213,1 +60,2 =273,3, que correspondem respectivamente, aos conglomerados 1, 4, 6, 7 e 9.

Seleção dos conglomerados com probabilidades desiguais e semreposição

Suponha agora que a amostra dem conglomerados tenha sido selecionada me-diante algum procedimento aleatório sem reposição, tal que a probabilidadede que o conglomerado i, Ci, pertença a amostra seja πi, e a probabilidade deque o par de conglomerados (Ci, Cj) pertença a amostra em qualquer ordemseja πij, ∀ i = 1, 2, · · · ,m e j = 1, 2, · · · ,m, com i 6= j.Horvitz e Thompson (1952) desenvolveram uma teoria geral de amostragem

com probabilidades desiguais de seleção e sem reposição, baseada no usode um estimador não viciado de total populacional, dado pela seguinte ex-pressão: bYHT =

mXi=1

Y 0i

π0i

com π0i igual a algum dos πk, πk > o, ∀ k = 1, 2, · · · ,M.

Caso particular de equiprobabilidade: πi =m

M∀ i = 1, 2, · · · ,M .

A variância de bYHT é dada pela seguinte expressão:

V³bYHT

´=

MXi=1

(1− πi)

πiY 2i +

MXi=1

MXj=1i6=j

(πij − πiπj)

πiπjYiYj

Prova: Seja ti a indicadora se o conglomerado i ∈ a amostra:

ti =

1 se Ci ∈ a amostra

0 se Ci não ∈ a amostrai ∈ {1, 2, · · · ,M}

Page 97: 84958247 Tecnicas de Amostragem Apostila Zelia

2.5. PROBABILIDADES DESIGUAIS DE SELEÇÃO 91

Então, ti tem distribuição binomial para uma amostra de tamanho m,com probabilidade πi.Assim,

E (ti) = πi

V (ti) = πi (1− πi)

COV (ti, tj) = E (titj)−E (ti)E (tj) = πij − πiπj

Logo:

bYHT =mXi=1

Y 0i

π0i=

MXi=1

Yiπiti

E³bYHT

´=

MXi=1

YiπiE (ti) =

MXi=1

Yiπiπi =

MXi=1

Yi = Y

V³bYHT

´= V

ÃMXi=1

Yiπiti

!=

MXi=1

Y 2i

π2iV (ti) +

MXi=1

MXj=1i6=j

YiYjπiπj

COV (ti, tj)

=MXi=1

Y 2i

π2iπi (1− πi) +

MXi=1

MXj=1i6=j

YiYjπiπj

(πij − πiπj)

=MXi=1

Y 2i

πi(1− πi) +

MXi=1

MXj=1i6=j

YiYjπiπj

(πij − πiπj)

Um estimador não viciado da V³bYHT

´é dado por:

v³bYHT

´=

mXi=1

(1− π0i)π0i

Y02i +

mXi=1

mXj=1i6=j

¡π0ij − π0iπ

0j

¢π0iπ

0j

Y 0i Y

0j

com π0ij igual a algum dos πkl, πkl > o,∀ k = 1, 2, · · · ,M ; l = 1, 2, · · · ,M el 6= k.

Page 98: 84958247 Tecnicas de Amostragem Apostila Zelia

92CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Grande parte dos procedimentos de seleção com probabilidades desiguaise sem reposição que aparecem na literatura de amostragem apresentam ex-pressões complexas ou aproximadas para os estimadores da variância, con-siderando o tamanho da amostra de conglomerados fixo. Este fato é jus-tificado pelas dificuldades matemáticas encontradas na avaliação dos πij -probabilidade de inclusão conjunta da i-ésima e j-ésima unidades na amostra.Hanif e Brewer (1980) apresentam uma lista de vários procedimentos

de seleção com probabilidades desiguais sem reposição. Estes procedimen-tos podem ser classificados por diferentes modos, tais como: classificação namaneira da seleção, classificação por classe de equivalência (os procedimentospertencem a mesma classe de equivalência quando as probabilidades de se-leção conjunta de todas as combinações possíveis são idênticas), classificaçãopor tipo de estimador apropriado.Dentre os procedimentos apresentados destaca-se o método dos Grupos

Aleatórios de Rao Hartley e Cochran (1962). Uma descrição e compara-ções deste método com métodos de seleção com probabilidades desiguais semreposição pode ser vista em Lima (1985).

Método dos Grupos Aleatórios de Rao Hartley e CochranPropriedades:

1. Permite a computação de um estimador para o total populacional quetem variância sempre inferior ao estimador padrão da amostragem comprobabilidades desiguais com reposição.

2. Não acarreta computação árdua para seleção ou para computaçãodoestimador da variância e da respectiva estimativa.

3. Fornece fórmula exata da variância para qualquer tamanho depopulação e de amostra fixa.

4. Encontra-se disponível um estimador não viciado e sempre nãonegativo para a variância amostral do estimador do total, quais-quer que sejam os tamanhos de amostra e da população.

Algoritmo

1. Divide-se a população composta deM conglomerados, aleatoriamente,em m grupos de tamanhos M1,M2, · · · ,Mm;

M =mXi=1

Mi

onde m é o tamanho da amostra.

Page 99: 84958247 Tecnicas de Amostragem Apostila Zelia

2.6. ESTRATIFICAÇÃO DE CONGLOMERADOS 93

2. Selecionar um conglomerado de cada um dos m grupos, independente-mente, com probabilidade proporcional à probabilidade de seleção Pt

da t-ésima unidade. Se a t-ésima unidade cair no grupo i, então a

probabilidade real da seleção desta unidade éPt

πi,onde: πi =

Pgrupo i

Pi.

Se estiver sendo usada probabilidade proporcional ao tamanho Xi, então:

Pt =Xt

X.

Neste caso, o estimador do total populacional é dado por:

bYRHC =mXi=1

Y 0i

πiPi

onde: Y 0i é o valor da característica y no i-ésimo grupo.

A variância de bYRHC é dada por:

V³bYRHC

´=

µmPi=1

M2i −M

¶M (M − 1)

ÃMXi=1

Y 2i

Pi− Y 2

!e um estimador de v

³bYRHC

´é dado por:

v³bYRHC

´=

µmPi=1

M2i −M

¶M (M − 1)

mXi=1

πi

µY

0i

P 0i− bYRHC

¶2

2.6 Estratificação de conglomerados

Uma outra forma de controlar a variação dos tamanhos dos conglomeradosé estratificá-los segundo alguma característica que meça seu tamanho, istoé grupar os conglomerados em estratos homogêneos segundo alguma medidade tamanho.Esta alternativa é praticamente equivalente à seleção dos conglomerados

com proporcionais ao tamanho, pois é indispensável conhecer, para todos osM conglomerados da população, o valor de uma medida de tamanho quepermita separar os conglomerados em estratos homogêneos, para poder entãoselecionar a amostra.Em termos de eficiência em relação à seleção dos conglomerados com

probabilidades proporcionais ao tamanho, não parece haver vantagem nítida

Page 100: 84958247 Tecnicas de Amostragem Apostila Zelia

94CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

de qualquer das duas alternativas, sendo bastante semelhante os resultadosobtidos com ambas as técnicas em termos da precisão final das alternativas.

2.6.1 Estimadores e respectivas precisões

Inicialmente, suponhamos que os M conglomerados são grupados em L es-tratos E1, E2, · · · , EL, tendo-se associado a cada conglomerado o total dacaracterística y:

E1 EL

C11 → Y11 CL1 → YL1C12 → Y12 · · · CL2 → Y

L2

......

......

C1M1 → Y1M1 CLML→ Y

LML

Denotando por Eh um estrato genérico (h = 1, 2, · · · , L), segue-se que:Mh o número de conglomerados no estrato h;

Yh =MhPi=1

Yhi o total da característica y no estratro h;

Y h =YhMh

o total médio por conglomerado do estrato h;

S2he =1

Mh − 1MhPi=1

(Yhi−Y h)2 a variância entre os totais dos conglomerados

dentro do estrato h.Agora, selecionando-se em cada um dos L estratos amostras aleatórias

simples de conglomerados, sem reposição de tamanhos m1,m2, · · · ,mL einvestigando-se todas as unidades pertencentes aos conglomerados da amostratem-se:

E1 EL

C011 → Y

011 C

0L1 → Y

0L1

C012 → Y

012 · · · C

0L2 → Y

0L2

......

......

C01m1

→ Y01m1

C0LmL

→ Y0LmL

Como as amostras nos estratos são amostras de conglomerados em 1 es-tágio, pode-se estimar os totais dos estratos por:

bYh.Ac1 = Mh

mh

mhXi=1

Y 0hi ∀h = 1, 2, · · · , L

Page 101: 84958247 Tecnicas de Amostragem Apostila Zelia

2.6. ESTRATIFICAÇÃO DE CONGLOMERADOS 95

e tem-se que:

V (bYh.Ac1) = M2h(Mh −mh)

Mh

S2hemh

∀h = 1, 2, · · · , L

e a estimação não viciada de V (bYh.Ac1) pode ser feita por:v(bYh.Ac1) = M2

h(Mh −mh)

Mh

s2hemh

∀h = 1, 2, · · · , L

onde:

s2he =1

mh − 1mhXi=1

(Y 0hi − yh.Ac1)

2

sendo:

yh.Ac1 =1

mh

mhXi=1

Y 0hi =

bYh.Ac1Mh

Assim pode-se estimar o total Y da população por:

bY estAc1 =

LXh=1

bYh.Ac1 = LXh=1

Mh

mh

mhXi=1

Y 0hi

com:

E³bY est

Ac1

´=

LXh=1

E³bYh.Ac1´ = LX

h=1

Yh = Y

Além disto,

V (bY estAc1) =

LXh=1

V (bYh.Ac1) = LXh=1

M2h(Mh −mh)

Mh

S2hemh

e esta variância pode ser estimada por:

v(bY estAc1) =

LXh=1

v(bYh.Ac1) = LXh=1

M2h(Mh −mh)

Mh

s2hemh

Se a fração de amostragemmh

Mh(∀h = 1, 2, · · · , L) for constante e igual

a f nos estratos (equivalendo a uma alocação proporcional nos estratos),obtém-se:

mh

Mh= f (∀h = 1, 2, · · · , L)

Page 102: 84958247 Tecnicas de Amostragem Apostila Zelia

96CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

bY estAc1 =

1

f

LXh=1

mhXi=1

Y 0hi

V (bY estAc1) =

1− f

f

LXh=1

Mh S2he

v(bY estAc1) =

1− f

f

LXh=1

Mh s2he

Exemplo 2.5 (Nascimento (1981), pág 63)Em certa localidade, existem 1.200 setores censitários que vão ser con-

siderados como conglomerados de domicílios. Foram formados 6 estratos,de acordo com a população do último Censo, cujos números de setores porestrato constam da tabela abaixo.A população total da localidade, de acordo com o Censo, foi de 1.960.800

habitantes, o que corresponde a uma média de 1.634 habitantes por setor ou380 domicílios por setor ( na base de 4,3 pessoas por domicílio, com base empesquisa anterior).Considerando as disponibilidades de tempo e custo, foi fixada uma amostra

de 24 setores ou, aproximadamente, 9.120 domicílios, o que corresponde àfração de amostragem de 24

1200= 1

50.

A tabela abaixo apresenta o número de setores na população e na amostrae o número de habitantes nos setores da amostra.Estimar a população atual da localidade e o respectivo coeficiente de

variação associado à essa estimativa.

Setores na Setores na Habitantes nosEstratos população amostra setores da amostra

(Mh) (mh) (Y 0hi)

1 90 2 3.450; 3.1202 100 2 2.890; 30603 140 3 2.320; 2.850; 2.0104 250 5 1.910; 1.990; 1.300; 1.400; 1.5205 295 6 1.040; 1.090; 1.200; 990; 1.460; 1.3106 325 6 980; 1.010; 870; 1.100; 900; 930

Estimativa do número de habitantes da localidade:

bY estAc1 =

M

m

LXh=1

mhXi=1

Y 0hi = 50 (40.730) = 2.036.500 habitantes

Page 103: 84958247 Tecnicas de Amostragem Apostila Zelia

2.7. ESTIMADOR DE RAZÃO 97

Em cada estrato calcula-se a média da amostra por setor, no estrato h:

yh.Ac1 =1

mh

mhXi=1

Y 0hi

e a variância da amostra entre os setores de cada estrato h:

s2he =1

mh − 1mhXi=1

(Y 0hi − yh.Ac1)

2

obtendo-se os seguintes resultados:

Média da amostra Variância entreEstratos por setor os setores

(yh.Ac1) (s2he)1 3.285 54.4502 3.020 3.2003 2.393 360.8674 1.624 381.7205 1.172 129.0846 965 34.950

Estimativa da variância da estimativa do número de habitantes da loca-lidade:

v(bY estAc1) =

1− f

f

LXh=1

Mh s2he = 49 (64.226.395) = 3.147.093.351

o respectivo erro padrão é estimado por:qv(bY est

Ac1) = 56.098, 96

e o respectivo coeficiente de variação estimado por:

cv(bY estAc1) =

qv(bY est

Ac1)bY estAc1

=56.098, 96

2.036.500= 0, 0276

2.7 Estimador de razão

Há situações práticas em que o controle da variação nos tamanhos dos con-glomerados não pode ser feito mudando as probabilidades de seleção ou es-tratificando os conglomerados, em virtude de não se dispor de nenhuma me-dida de tamanho com valores conhecidos para todos os conglomerados.

Page 104: 84958247 Tecnicas de Amostragem Apostila Zelia

98CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS

Nestas situações, a alternativa que resta é a estimação por um outro pro-cesso. Neste caso, o processo mais comumente empregado é o da estimaçãopor razão.Para que esse processo possa ser empregado, basta que sejam conhecidos

os valores N 0i e Y

0i , respectivamente, tamanho e total da característica y dos

conglomerados da amostra.

2.7.1 Estimador de razão baseado no tamanho dos con-glomerados

Sabe-se que:

Y =Y

N=

MPi=1

Yi

MPi=1

Ni

Assim, lembrando que um estimador não viciado de Y é dado por:

bYAc1 = M

m

mXi=1

Y 0i

e também, notando que um estimador não viciado do tamanho total N édado por:

bNAc1 =M

m

mXi=1

N 0i

Segue-se que um estimador consistente de Y é dado por:

yRAc1 =

bYAc1bNAc1

=

M

m

mPi=1

Y 0i

M

m

mPi=1

N 0i

=

mPi=1

Y 0i

mPi=1

N 0i

Aqui pode-se notar que este estimador depende só dos tamanhos N 0i e

dos totais Y 0i dos conglomerados da amostra, não dependendo do tamanho

total da população (N) como o estimador não viciado yAc1 que vimos ante-riormente.

Page 105: 84958247 Tecnicas de Amostragem Apostila Zelia

2.7. ESTIMADOR DE RAZÃO 99

Variância de yRAc1

Se considerarmos uma amostra aleatória simples de m unidades de umapopulação de tamanho M , a variância do estimador de razão é dada por:

V ( bR) ∼= M −m

M X2

S2eRm

onde:

bR = bYbX e R =Y

X

S2eR =1

M − 1MXi=1

(Yi −RXi)2

Supondo que m é suficientemente grande para tornar desprezível o víciodo estimador de razão, e substituindo X por N segue-se que:

V (yRAc1)∼= M −m

MN2

S2eRm

com:

S2eR =1

M − 1MXi=1

(Yi − Y

NNi)

2

=1

M − 1MXi=1

(Yi − Y Ni)2

=1

M − 1MXi=1

N2i (Y i − Y )2

Além disso, um estimador consistente desta variância é dado por:

v(yRAc1) =

M −m

M N2

s2eRm

com:

s2eR =1

m− 1mXi=1

(Y 0i − y

RAc1N

0i )2

=1

m− 1mXi=1

N02i (Y

0i − y

RAc1 )

2

Page 106: 84958247 Tecnicas de Amostragem Apostila Zelia

100CAPÍTULO 2. AMOSTRAGEMDE CONGLOMERADOS

Se N não for conhecido, pode ser estimado por:

NAc1 =1

m

mXi=1

N 0i

A partir do que foi visto até agora, é imediata a obtenção do estimadorde razão consistente para o total Y .

bY RAc1 =MN y

RAc1 =MN

mPi=1

Y 0i

mPi=1

N 0i

com:

V (bY RAc1) =

¡MN

¢2V (y

RAc1)∼= ¡MN

¢2 M −m

MN2

S2eRm

= M2M −m

M

S2eRm

Além disso, se o parâmetro que se deseja estimar é a proporção PA deunidades da população com certo atributo A, segue-se que um estimador derazão consistente de PA é dado por:

pRAc1 =

mPi=1

N0iP

0Ai

mPi=1

N 0i

com:

V (pRAc1)∼= M −m

MN2

S2eRm

e

S2eR =1

M − 1MXi=1

N2i (PAi − PA )

2

e o estimador dessa variância dado por:

v(pRAc1) =M −m

M N2

s2eRm

com:

s2eR =1

m− 1mXi=1

N02i (P

0Ai − pRAc1 )

2

Page 107: 84958247 Tecnicas de Amostragem Apostila Zelia

2.7. ESTIMADOR DE RAZÃO 101

2.7.2 Estimador de razão baseado em uma caracterís-tica que não seja o tamanho do conglomerado

Aqui a característica auxiliar x que se utiliza para construir o estimadorde razão é outra qualquer que não o tamanho dos conglomerados. Paraque o estimador de razão possa ser construído com esta característica x, éindispensável conhecer o total X da população e observar os totais X 0

i dosconglomerados da amostra. Assim, o estimador de razão do total Y é dadopor:

bY RAc1 =

mPi=1

Y 0i

mPi=1

X 0i

X

V (bY RAc1)∼=M2M −m

M

S2eRm

com:

S2eR =1

M − 1MXi=1

(Yi −RXi)2

sendo:

R =Y

X

e

v(bY RAc1)∼=M2M −m

M

s2eRm

com:

s2eR =1

m− 1mXi=1

(Y 0i − bRX 0

i)2

e

bR = bYAc1bXAc1

=

mPi=1

Y 0i

mPi=1

X 0i

Page 108: 84958247 Tecnicas de Amostragem Apostila Zelia

102CAPÍTULO 2. AMOSTRAGEMDE CONGLOMERADOS

2.8 Exercícios

2.8.1 Considere uma população de 100 conglomerados de mesmo tamanhode 4 unidades elementares, em que a proporção de pessoas com certoatributo P = 0, 5. Em uma amostra de 5 conglomerados foram obtidosos seguintes resultados:

Conglomerado (i) 1 2 3 4 5Unidades elementares 2 3 1 2 1com o atributo (Ai)

Estime a eficiência da amostra de conglomerados em relação à amostragemaleatória simples.

2.8.2 Seja PN uma população de N = 20 unidades, cujos valores associadosa uma certa característica y são relacionadas a seguir:

U1 U2 U3 U4 U5 U6 U7 U8 U9 U10↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8 Y9 Y10q q q q q q q q q q66 70 37 56 61 38 55 05 23 47

U11 U12 U13 U14 U15 U16 U17 U18 U19 U20↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓Y11 Y12 Y13 Y14 Y15 Y16 Y17 Y18 Y19 Y20q q q q q q q q q q94 51 85 65 92 49 10 87 31 02

Grupando essas 20 unidades em 4 conglomerados como sugerido aseguir, calcular o coeficiente de correlação intraclasse δ.

C1 = {U1, U6, U11, U16, U20} C2 = {U2, U3, U7, U8, U19}C3 = {U4, U5, U14, U15, U18} C4 = {U9, U10, U12, U13, U17}

Comente o resultado!!!

2.8.3 Segue-se uma tabela contendo os dados de uma amostra de 20 quar-teirões selecionados aleatoriamente sem reposição entre os 270 quar-teirões de uma cidade que continha 6.786 domicílios. Nesta pesquisaconsiderou-se como unidade de investigação o domicílio. Há interesseem estimar a proporção de domicílios alugados e o intervalo dessa es-timativa com 95% de confiança.

Page 109: 84958247 Tecnicas de Amostragem Apostila Zelia

2.8. EXERCÍCIOS 103

Quarteirão Node Domicílios Node Domicílios(i) (N 0

i) Alugados¡Y

0i

¢1 5 32 9 53 18 54 68 525 32 216 48 347 11 38 1 09 1 010 4 011 29 1712 31 1413 5 014 2 015 4 216 102 5417 20 1118 15 1119 1 020 29 23Total 435 255

20Xı=1

N 02i = 22.239

20Xı=1

Y 02i = 8.545

2.8.4 Segue-se uma tabela contendo os dados de uma amostra de 20 quar-teirões selecionada com probabilidade proporcional ao número de domicílios,dentre os 270 quarteirões considerados na população que continha 6.786domi-cílios, do exercício 2.8.3. Estimar a proporção de domicílios alu-gados e comparar a precisão obtida com aquela do exercício 2.8.3 (cujaseleção dos conglomerados havia sido com equiprobabilidade). Justi-fique o resultado.

Page 110: 84958247 Tecnicas de Amostragem Apostila Zelia

104CAPÍTULO 2. AMOSTRAGEMDE CONGLOMERADOS

Quarteirão Node Domicílios Node Domicílios(i) (N 0

i) Alugados (Y 0i )

1 45 302 22 133 76 694 4 25 4 26 33 277 46 348 81 439 58 4210 89 8411 76 6912 48 4613 46 3614 18 615 76 6916 102 5417 44 2418 39 2619 22 720 30 25Total 959 708

2.8.5 Estimar a proporção de domicílios alugados, a partir da amostra aleatóriasimples de 20 quarteirões selecionada, cujos resultados foram dados noexercício 2.8.3 deste capítulo, utilizando o estimador de razão baseadono tamanho dos conglomerados.

Calcule também o intervalo dessa estimativa com 95% de confiança ecompare com os intervalos obtidos nos exercícios 2.8.3 e 2.8.4.

Page 111: 84958247 Tecnicas de Amostragem Apostila Zelia

2.8. EXERCÍCIOS 105

2.8.6 É dada uma população com N unidades distribuídas em M conglom-erados de tamanhos desiguais. Deseja-se selecionar uma amostra dem conglomerados para estimar o total de uma determinda caracterís-tica. Quais as medidas que devem ser tomadas na definição do desenhoamostral para controlar a variação do tamanho dos conglomerados, se otamanho de cada conglomerado for conhecido? E se não for conhecido?

2.8.7 Os habitantes de um bairro estão distribuídos em 170 quarteirões, ondese estima que há um total de 8.500 domicílios. Sabendo-se que umaamostra aleatória simples de 500 domicílios anteriormente selecionadaforneceu uma precisão de cerca de 10% (em termos do coeficiente devariação) para estimar o total de domicílios alugados e, que o coe-ficiente de correlação intraclasse foi estimado na mesma amostra emtorno de 0,30. Usando a fórmula aproxi-mada que relaciona a variân-cia da amostra aleatória simples e da amostra de conglomerados em 1estágio, supondo conglomerados de igual tamanho:

a) Estime a precisão que seria obtida para estimar o total de domicíliosalugados se fosse selecionada uma amostra de quarteirões corre-spondente ao mesmo número de domicílios que a amostra aleatóriasimples.

b) Determine o tamanho de amostra de quarteirões necessário paraestimar o total de domicílios alugados no bairro em questão, coma mesma precisão da amostra aleatória simples.

2.8.8 Uma amostra aleatória simples sem reposição de 8 caixas de laranjasfoi retirada de um lote que continha 1.000 caixas, tendo-se examinadocada fruto das caixas selecionadas para verificar se estavam com bicho.Os dados observados foram:

Caixa Total de frutos Total de frutos comna amostra na caixa bicho na caixa

1 50 42 40 213 45 64 55 305 70 506 65 47 35 208 40 15

Total 400 150

Page 112: 84958247 Tecnicas de Amostragem Apostila Zelia

106CAPÍTULO 2. AMOSTRAGEMDE CONGLOMERADOS

a) Estime a proporção de frutos com bicho no lote.

b) Calcule o intervalo com 95% de confiança para a estimativa obtidaem a) e dê a sua opinião a respeito da dimensão da amostra uti-lizada. ( s2eR = 625).

2.8.9 Compare as seguintes 2 amostras, cada uma delas baseada em 3.600unidades elementares selecionadas de uma população com 1.800.000unidades.

(1) Uma amostra aleatória simples de 3.600 unidades elementares com:

y = 513 e v(y) = 10, 89

(2) Uma amostra aleatória de 180 conglomerados selecionados dentre90.000 conglomerados, com cada conglomerado contendo N = 20unidades elementares e

yAc1 = 524 e v(yAc1) = 102, 01

Note que a variância estimada para estimar a média da característicay para a segunda amostra é quase 10 vezes maior que a da primeiraamostra. Isto indica que: (complete com (V) se a afirmativa for ver-dadeira e (F) se for falsa, justificando a escolha para cada item.)

a) O coeficiente de correlação intraclasse dos 90.000 conglomerados émaior que zero.

b) Todos os elementos dentro de cada conglomerado são iguais (Yij =Yik ∀ j e k).

c) O estimativa da variância da segunda amostra pode ser reduzida,para atingir o valor da variância estimada com a primeira amostra,aumentando em menos de 1.000 o número de conglomerados nasegunda amostra.

d) Se a primeira amostra for reduzida para 1.200 unidades elementares,ela teria a mesma precisão estimada para estimar a média da car-acterística y que a segunda amostra.

Page 113: 84958247 Tecnicas de Amostragem Apostila Zelia

2.8. EXERCÍCIOS 107

2.8.10 De uma população com 10.000 conglomerados e 50.000 unidades el-ementares uma amostra aleatória simples sem reposição de 10 con-glomerados foi selecionada. Desses conglomerados temos as seguintesinformações:

Conglomerado Valor da característica Total de unidades(i) y no conglomerado i no conglomerado i1 80 32 110 43 95 54 55 35 150 56 120 67 175 78 90 49 50 310 100 5Total 1.025 45

a) Dê 2 estimativas da média por unidade elementar.

b) Qual estimativa é provavelmente melhor? Justifique.

2.8.11 De uma população formada por M conglomerados foi selecionadauma amostra de m conglomerados com o seguinte procedimento: o 1o

conglomerado foi selecionado com probabilidades desiguais Pi, sendoMPi=1

Pi = 1 e os (m− 1) conglomerados restantes da amostra foramselecionados com probabilidades iguais, sendo que todas as seleçõesforam sem reposição.

a) Obtenha a probabilidade zi de que o conglomerado Ci pertença aamostra; e

b) Prove que:MPi=1

zi = m.

Page 114: 84958247 Tecnicas de Amostragem Apostila Zelia

108CAPÍTULO 2. AMOSTRAGEMDE CONGLOMERADOS

Page 115: 84958247 Tecnicas de Amostragem Apostila Zelia

Capítulo 3

Conglomerados em 2 estágios

3.1 Probabilidades iguais de seleção

3.1.1 Introdução e definições básicas

Quando foi estudada a eficiência da amostragem de conglomerados em 1 es-tágio em relação à amostragem aleatória simples, mostrou-se que o efeitode conglomeração

£1 +

¡N − 1¢ δ¤ costuma determinar uma perda de pre-

cisão da amostra de conglomerados em 1 estágio, comparada a uma amostraaleatória simples de mesmo tamanho, porque o coeficiente de correlação in-traclasse δ costuma ser positivo. De fato, constatou-se ainda que a perda daprecisão é tanto maior quanto maior o tamanho do conglomerado.Neste capítulo será estudada uma maneira de reduzir a influência do

tamanho dos conglomerados na eficiência da amostra de conglomerados em1 estágio. Esta solução consiste em fazer subamostragem nos conglomeradosda amostra, ao invés de investigar todas as unidades desses conglomerados.A subamostragem mencionada consiste na seleção de amostras de unidadeselementares de πN dentro de cada um dos conglomerados da amostra.Por exemplo, se os quarteirões de uma cidade são considerados conglom-

erados de domicílios, selecionando-se uma amostra de quarteirões e depoisuma amostra de domicílios em cada quarteirão da amostra se obtém umaamostra de conglomerados em 2 estágios.O plano amostral de conglomerados em 2 estágios (Ac2) é constituído de

uma amostra de conglomerados com subamostragem.Na exposição seguinte será adotada a seguinte terminologia:conglomerado = unidade primária de amostragem (UPA ou UP )unidade elementar = unidade secundária de amostragem (USA ou US).Assim, se πN é uma população com N unidades, ela pode ser vista como

109

Page 116: 84958247 Tecnicas de Amostragem Apostila Zelia

110 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

se segue:

UP1 UP2 UPM

US11 → Y11 US21 → Y21 . . . USM1 → YM1

US12 → Y12 US22 → Y22 . . . USM2 → YM2...

......

......

...US1N1 → Y1N1 US2N2 → Y2N2 . . . USMNM

→ YMNM

Assim verifica-se que na UPi há Ni unidades secundárias (USij) e, portanto:

MXi=1

Ni = N

Agora, seleciona-se uma amostra aleatória simples, sem reposição dem unidadesprimárias:

Amostra de 1o estágio

UP 01 UP 0

2 UP 0m

US011 → Y 011 US021 → Y 0

21 . . . US0m1 → Y 0m1

US012 → Y 012 US022 → Y 0

22 . . . US0m2 → Y 0m2

......

......

......

US01N1 → Y 01N 0

1US02N 0

2→ Y 0

2N 02

. . . US0mN 0m

→ Y 0mN 0

m

E agora, em cada UP da amostra de 1o estágio, seleciona-se uma amostraaleatória simples de unidades secundárias, obtendo-se:

Amostra de 2o estágio

UP 01 UP 02 UP 0

m

us0011 → y11 us0021 → y21 . . . us00m1 → ym1us0012 → y12 us0022 → y22 . . . us00m2 → ym2...

......

......

...us001n01 → y1n01 us002n02 → y2n02 . . . us00mn0m → ymn0m

Finalmente, a amostra resultante é:©y11, y12, · · · , y1n01; · · · ; ym1, ym2, · · · , ymn0m

ªE assim, ao invés de se ter os conglomerados na amostra comN 0

1, N02, · · · , N 0

m

unidades, tem-se as subamostras de tamanho n01, n02, · · · , n0m.

A figura 3.1 apresenta uma ilustração da seleção das unidades de umaamostra de conglomerados em 2 estágios.

Page 117: 84958247 Tecnicas de Amostragem Apostila Zelia

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 111

Figura 3.1: Ilustração da seleção das unidades de uma Ac2

Neste caso tem-se: M = 10 e m = 6

UP s Node USs UP s Node USs Node USsda UPi selecionadas da UP 0

i selecionadas(UPi) (Ni) (UP 0

i ) (N 0i) da UP 0i (n

0i)

UP1 N1 = 4 UP 01 N 0

1 = 4 n01 = 2UP2 N2 = 4 - - -UP3 N3 = 5 UP 0

2 N 02 = 5 n02 = 3

UP4 N4 = 5 UP 03 N 0

3 = 5 n03 = 2UP5 N5 = 3 - - -UP6 N6 = 3 UP 0

4 N 04 = 3 n04 = 2

UP7 N7 = 3 UP 05 N 0

5 = 3 n05 = 2UP8 N8 = 3 - - -UP9 N9 = 2 UP 0

6 N 06 = 2 n06 = 1

UP10 N10 = 4 - - -

A fração de amostragem correspondente à seleção equiprovável das unidadesprimárias no 1o estágio é representada por:

f1 =m

M

e a fração de amostragem de 2o estágio para cada unidade primária sele-cionada é representada por:

f2i =n0iN 0

i

(∀i = 1, 2, · · · ,m)

Page 118: 84958247 Tecnicas de Amostragem Apostila Zelia

112 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

Na situação usual (mais simples) é comum fazer a fração de amostragem do2o estágio constante, representando-a por f2, ou seja:

f2i = f2 (∀i = 1, 2, · · · ,m)Além disto, há que se notar que o tamanho final da amostra é uma variávelaleatória n, com:

n =mXi=1

n0i

Os valores da variável aleatória n dependem das unidades primárias sele-cionadas no 1o estágio. Tem-se que:

n = E (n) = E

ÃmXi=1

n0i

!= E

ÃmXi=1

f2N0i

!= f2m

1

M

MXi=1

Ni = f1 f2N

No caso de fração de amostragem constante no 2o estágio, qualquer unidadeda população tem a mesma probabilidade de pertencer à amostra, dada porf1 f2.

3.1.2 Parâmetros da característica y

Vamos definir agora a notação dos parâmetros de πN quando a populaçãoestá representada de acordo com a configuração de conglomerados definida:

Total da característica y em UPi :

Yi =NiXj=1

Yij (∀i = 1, 2, · · · ,M)

sendo: Yij o valor da característica y associada à j-ésima unidade se-cundária da unidade primária i.

Média da característica y em UPi :

Y i =YiNi

(∀i = 1, 2, · · · ,M)

Page 119: 84958247 Tecnicas de Amostragem Apostila Zelia

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 113

Variância da característica y dentro da UPi :

S2i =1

Ni − 1NiXj=1

(Yij − Y i)2 (∀i = 1, 2, · · · ,M)

Total da característica y em toda população:

Y =MXi=1

Yi

Média da característica y por unidade da população:

Y =Y

N

Média da característica y por conglomerado:

Y =Y

M

Variância da característica y em toda população:

S2 =1

N − 1MXi=1

NiXj=1

(Yij − Y )2

3.1.3 Estatísticas da amostra em cada estágio

De acordo com o desenho de amostragem de conglomerados em 2 estágios,serão definidas as seguintes estatísticas da amostra:

Total da característica y em UP 0i :

Y 0i =

N 0iX

j=1

Y 0ij (∀i = 1, 2, · · · ,m)

sendo: Y 0ij o valor da característica y associada à j-ésima unidade se-

cundária da unidade primária selecionada i.

Page 120: 84958247 Tecnicas de Amostragem Apostila Zelia

114 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

Média da característica y em UP 0i :

Y0i =

Y 0i

N 0i

(∀i = 1, 2, · · · ,m)

Variância da característica y em UP 0i :

S02i =

1

N 0i − 1

N 0iX

j=1

(Y 0ij − Y

0i)2 (∀i = 1, 2, · · · ,m)

Total da característica y na subamostra de UP 0i :

yi =

n0iXj=1

yij (∀i = 1, 2, · · · ,m)

sendo: yij o valor da característica y associada à j-ésima unidade se-cundária selecionada da unidade primária selecionada i.

Média da característica y na subamostra de UP 0i :

yi =yin0i

(∀i = 1, 2, · · · ,m)

Variância da característica y na subamostra de UP 0i :

s2i =1

n0i − 1n0iXj=1

(yij − yi)2 (∀i = 1, 2, · · · ,m)

3.1.4 Estimadores de total e médias e respectivas var-iâncias

Estimadores de total e médiasTrata-se de obter estimadores para os parâmetros de πN . Para isso, será

empregado um princípio de construção de estimadores não viciados a partirdo desenho da amostra cuja aplicabilidade é geral na amostragem. O princí-pio consiste consiste em ir construindo o estimador de dentro para fora (oude baixo para cima).No nosso caso, a aplicação deste princípio resulta no seguinte raciocínio:Seja UP 0

i uma unidade primária qualquer selecionada da amostra. O totalde y em UP 0i é dado por Y

0i , que no caso é desconhecido visto se dispor apenas

de uma amostra das unidades de UP 0i . Entretanto, essa amostra pode ser

usada para estimar Y 0i ,levando em conta que:

Page 121: 84958247 Tecnicas de Amostragem Apostila Zelia

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 115

i) a amostra é aleatória simples na UP 0i ; e

ii) são conhecidos os valores yi1, yi2, · · · , yi n0i da amostra na UP 0i .

Assim um estimador não viciado de Y 0i é dado por:

bY 0i =

N 0i

n0iyi =

N 0i

n0i

n0iXj=1

yij = N 0i yi (∀i = 1, 2, · · · ,m)

Por outro lado, dado que as UPs da amostra são selecionadas com equiprob-abilidade, o estimador de total conhecido da Ac1 para o total da populaçãodepende somente dos totais dos conglomerados da amostra: Y 0

1 , Y02 , · · · , Y 0

m,e é dado por:

bYAc1 = M

m

mXi=1

Y 0i

Usando as idéias anteriormente expostas, e lembrando que na Ac2 ostotais dos conglomerados da amostra são estimados por bY 0

1 , bY 02 , · · · , bY 0

m, segue-se que um estimador do total Y é dado por:

bYAc2 =M

m

mXi=1

bY 0i =

M

m

mXi=1

N 0i

n0iyi =

M

m

mXi=1

N 0i

n0i

n0iXj=1

yij

=M

m

mXi=1

N 0iyi

bYAc2 é um estimador não viciado de Y, isto é, E³bYAc2´ = Y.

Para fazer essa demonstração, utiliza-se esperanças condicionais. Assim,lembrando que:Se Z e X são variáveis aleatórias então:

E (Z) = EX [E (Z |X )]

Neste caso é conveniente considerar internamente a esperança condi-cionada sobre todas as possíveis seleções de subamostra quando se fixa umadada seleção de unidades primárias UP 0

1, · · · , UP 0m, e depois a esperança

sobre todas as possíveis seleções de amostras de unidades primárias.

Page 122: 84958247 Tecnicas de Amostragem Apostila Zelia

116 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

Segue-se, então que:

E³bYAc2´ = EUP 01,··· ,UP 0m

³E³bYAc2 |UP 01, · · · , UP 0

m

´´= EUP 01,··· ,UP 0m

ÃE

ÃM

m

mXi=1

N 0iyi |UP 0

i

!!

= EUP 01,··· ,UP 0m

ÃM

m

mXi=1

E (N 0iyi |UP 0

i )

!

= EUP 01,··· ,UP 0m

ÃM

m

mXi=1

N 0iY

0i

!= EUP 01,··· ,UP 0m

ÃM

m

mXi=1

Y 0i

!= E

³bYAc1´ = Y

Um estimador não viciado para Y é dado por:

yAc2 =bYAc2N

=M

mN

mXi=1

N 0iyi =

1

mN

mXi=1

N 0iyi

pois,

E¡yAc2

¢= E

à bYAc2N

!=1

NE³bYAc2´ = Y

N= Y

Um estimador não viciado para Y é dado por:

yAc2 =bYAc2M

=M

mM

mXi=1

N 0iyi =

1

m

mXi=1

N 0iyi

pois,

E (yAc2) = E

à bYAc2M

!=1

ME³bYAc2´ = Y

M= Y

Variância dos estimadores de total e das médiasNa obtenção da expressão da variância de bYAc2 também será utilizado o

emprego de esperanças condicionais, o que irá facilitar bastante essa dedução.Deve-se lembrar que: Se Z e X são variáveis aleatórias então:

V (Z) = EX [V (Z |X )] + VX [E (Z |X )]Daí, segue-se que:

V³bYAc2´ = EUP 01,··· ,UP 0m

hV³bYAc2 |UP 0

1, · · · , UP 0m

´i+

+VUP 01,··· ,UP 0mhE³bYAc2 |UP 0

1, · · · , UP 0m

´i

Page 123: 84958247 Tecnicas de Amostragem Apostila Zelia

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 117

Porém, foi demonstrado anteriormente que:

E³bYAc2 |UP 0

1, · · · , UP 0m

´=

M

m

mXi=1

Y 0i = bYAc1

Segue-se que:

VUP 01,··· ,UP 0mhE³bYAc2 |UP 0

1, · · · , UP 0m

´i= VUP 01,··· ,UP 0m

hbYAc1i =M2M −m

M

S2em

onde:

S2e =1

M − 1MXi=1

(Yi − Y )2

Por outro lado:

V³bYAc2 |UP 0

1, · · · , UP 0m

´= V

ÃM

m

mXi=1

N 0iyi |UP 0

i

!

=M2

m2

mXi=1

N 02i V (yi |UP 0

i )

=M2

m2

mXi=1

N 02i

N 0i − n0iN 0

i

S02in0i

Logo:

EUP 01,··· ,UP 0mhV³bYAc2 |UP 0

1, · · · , UP 0m

´i= EUP 01,··· ,UP 0m

"M2

m2

mXi=1

N 02i

N 0i − n0iN 0

i

S02in0i

#

=M2

m2

mXi=1

EUP 0i

·N 02

i

N 0i − n0iN 0

i

S02in0i

¸

=M2

m2

mXi=1

MXi=1

·N2

i

Ni − niNi

S2ini

¸1

M

=M

m

MXi=1

N2i

Ni − niNi

S2ini

E assim, obtém-se finalmente:

V³bYAc2´ =M2M −m

M

S2em+

M

m

MXi=1

N2i

Ni − niNi

S2ini

Page 124: 84958247 Tecnicas de Amostragem Apostila Zelia

118 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

onde as parcelas do 2o membro representam as ”componentes” da variânciadevidas ao 1o e ao 2o estágios de seleção, respectivamente.Segue-se, imediatamente, que as variâncias dos estimadores das médias

yAc2 e yAc2 são, respectivamente:

V¡yAc2

¢= V

à bYAc2N

!=

1

N2V³bYAc2´

V (yAc2) = V

à bYAc2M

!=

1

M2V³bYAc2´

Note-se que:

i) Se m =M então, a 1a componente da variância é nula, ou seja:

V³bYAc2´ = MX

i=1

N2i

Ni − niNi

S2ini= V

³bYest´e este plano amostral equivale ao de uma amostra estratificada.

ii) Se ni = Ni (∀i = 1, 2, · · · ,m) então, a 2a componente da variância énula, ou seja:

V³bYAc2´ =M2M −m

M

S2em= V

³bYAc1´e este plano amostral equivale ao de uma amostra de conglomeradosem um estágio.

Uma análise pouco cuidadosa do problema a partir deste resultado pode-ria levar à conclusão de que:

V³bYAc2´ ≥ V

³bYAc1´posto que:

V³bYAc2´ = V

³bYAc1´+ M

m

MXi=1

N2i

Ni − niNi

S2ini

Isto é verdadeiro se o número de conglomerados m for o mesmo nos doisplanos amostrais. Porém, como no plano amostral de conglomerados em 2estágios é feita a subamostragem, as amostras não têm o mesmo tamanhoem termos de unidades elementares. O tamanho da Ac2, em média, tem emtermos de unidades elementares f2% do número de unidades elementares daAc1.A maneira correta de comparar os 2 desenhos de amostragem é fixando

o tamanho total da amostra, em termos de unidades elementares, e não onúmero de conglomerados da amostra, como será visto mais adiante.

Page 125: 84958247 Tecnicas de Amostragem Apostila Zelia

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 119

3.1.5 Estimadores das variâncias dos estimadores detotal e médias

Em primeiro lugar, vamos nos ocupar para a obtenção de um estimador nãoviciado para a V

³bYAc2´, propondo o seguinte estimador:v³bYAc2´ =M2M −m

M

s2em+

M

m

mXi=1

N02i

N 0i − n0iN 0

i

s2in0i

onde:

s2e =1

m− 1mXi=1

(N 0iyi − yAc2)

2

A seguir será demonstrado que o estimador v³bYAc2´ é não viciado para

V³bYAc2´.Para esta prova, vamos mostrar que:

i) E (s2e) = S2e +1

M

MPi=1

N2i

Ni − niNi

S2ini

e

ii) E

µM

m

mPi=1

N02i

N 0i − n0iN 0

i

s2in0i

¶=

MPi=1

N2i

Ni − niNi

S2ini.

Demostração da parte (i):

E(s2e) = E

Ã1

m− 1mXi=1

(N 0iyi − yAc2)

2

!

=1

m− 1EÃ

mXi=1

(N 0iyi − yAc2)

2

!

=1

m− 1EÃ

mXi=1

(N 0iyi)

2 −m (yAc2)2

!

=1

m− 1EÃ

mXi=1

(N 0iyi)

2

!− m

m− 1E¡y2Ac2

¢

Segue-se que:

Page 126: 84958247 Tecnicas de Amostragem Apostila Zelia

120 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

E

ÃmXi=1

(N 0iyi)

2

!= EUP 01,··· ,UP 0m

ÃE

ÃmXi=1

(N 0iyi)

2 |UP 0i

!!

= EUP 01,··· ,UP 0m

ÃmXi=1

E³(N 0

iyi)2 |UP 0

i

´!

= EUP 01,··· ,UP 0m

ÃmXi=1

V³(N 0

iyi)2 |UP 0

i

´+

mXi=1

[E (N 0iyi |UP 0

i )]2

!

= EUP 01,··· ,UP 0m

ÃmXi=1

N 02i

N 0i − n0iN 0

i

S02in0i+

mXi=1

¡N 0

iY i

¢2!

= mEUP 01,··· ,UP 0m

µN 02

i

N 0i − n0iN 0

i

S02in0i

¶+mEUP 01,··· ,UP 0m

³¡NiY i

¢2´= m

MXi=1

µN2

i

Ni − niNi

S2ini

¶1

M+

m

M

MXi=1

¡NiY i

¢2=

m

M

MXi=1

N2i

Ni − niNi

S2ini+

m

M

MXi=1

Y 2i

Por outro lado, segue-se que:

E¡y2Ac2

¢= V (yAc2) + [E (yAc2)]

2

= V

à bYAc2M

!+

"E

à bYAc2M

!#2

= V

à bYAc2M

!+

"E

à bYAc2M

!#2

=1

M2

(M2M −m

M

S2em+

M

m

MXi=1

N2i

Ni − niNi

S2ini+ Y 2

)

=M −m

M

S2em+

1

mM

MXi=1

N2i

Ni − niNi

S2ini+ Y

2

Assim, segue-se que:

Page 127: 84958247 Tecnicas de Amostragem Apostila Zelia

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 121

E(s2e) =1

m− 1EÃ

mXi=1

(N 0iyi)

2

!− m

m− 1E¡y2Ac2

¢=

1

m− 1

(m

M

MXi=1

N2i

Ni − niNi

S2ini+

m

M

MXi=1

Y 2i

)+

− m

m− 1

(M −m

M

S2em+

1

mM

MXi=1

N2i

Ni − niNi

S2ini+ Y

2

)

=

½m

(m− 1)M −m

m− 11

mM

¾ MXi=1

N2i

Ni − niNi

S2ini+

+m

(m− 1)MMXi=1

Y 2i −

m

m− 1Y2 − m

m− 1M −m

M

S2em

=1

M

MXi=1

N2i

Ni − niNi

S2ini+

m

(m− 1)1

M

"MXi=1

Y 2i −MY

2

#+

− m

m− 1M −m

M

S2em

E(s2e) =1

M

MXi=1

N2i

Ni − niNi

S2ini+

m

(m− 1)1

M

"MXi=1

¡Yi − Y

¢2#+

− m

m− 1M −m

M

S2em

=1

M

MXi=1

N2i

Ni − niNi

S2ini+

m

(m− 1)µM − 1M

− M −m

Mm

¶S2e

=1

M

MXi=1

N2i

Ni − niNi

S2ini+

m

(m− 1)µmM −m−M +m

Mm

¶S2e

=1

M

MXi=1

N2i

Ni − niNi

S2ini+

mM

(m− 1)µm− 1Mm

¶S2e

=1

M

MXi=1

N2i

Ni − niNi

S2ini+ S2e

Agora resta a demonstração de (ii):

Page 128: 84958247 Tecnicas de Amostragem Apostila Zelia

122 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

E

ÃM

m

mXi=1

N02i

N 0i − n0iN 0

i

s2in0i

!= EUP 01,··· ,UP 0m

ÃE

ÃM

m

mXi=1

N02i

N 0i − n0iN 0

i

s2in0i|UP 0

i

!!

=M

mEUP 01,··· ,UP 0m

ÃmXi=1

N02i

N 0i − n0iN 0

i

E (s2i )

n0i|UP 0

i

!

=M

mEUP 01,··· ,UP 0m

ÃmXi=1

N02i

N 0i − n0iN 0

i

S02i

n0i

!

=M

mm

MXi=1

N2i

Ni − niNi

S2ini

1

M

=M

m

m

M

MXi=1

N2i

Ni − niNi

S2ini

=MXi=1

N2i

Ni − niNi

S2ini

Finalizando:

Ehv³bYAc2´i = M2M −m

M

E (s2e)

m+E

ÃM

m

mXi=1

N02i

N 0i − n0iN 0

i

s2in0i

!

= M2M −m

M

1

m

"S2e +

1

M

MXi=1

N2i

Ni − niNi

S2ini

#+

+MXi=1

N2i

Ni − niNi

S2ini

= M2M −m

M

S2em+M2M −m

M

1

m

1

M

MXi=1

N2i

Ni − niNi

S2ini+

+MXi=1

N2i

Ni − niNi

S2ini

= M2M −m

M

S2em+

µM −m

m+ 1

¶ MXi=1

N2i

Ni − niNi

S2ini

= M2M −m

M

S2em+

M

m

MXi=1

N2i

Ni − niNi

S2ini

= V³bYAc2´

Page 129: 84958247 Tecnicas de Amostragem Apostila Zelia

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 123

3.1.6 Amostra autoponderada

Na amostragem de conglomerados em 2 estágios, existe uma fração de amos-tragem no 1o estágio (f1 = m

M) e existem frações correspondentes ao 2o estágio

(f2i =n0iN 0i), que podem ser diferentes.

Todos os estimadores que trabalhamos anteriormente foram preparadosnessa hipótese. Supondo-se que:

f21 6= f22 6= · · · 6= f2m

Sabe-se que a probabilidade de USij pertencer a amostra é dada por:

P {USij ∈ amostra} = m

M

n0iN 0

i

∀i, j

Foi dito anteriormente que é comum na prática trabalhar com uma fraçãode amostragem f2 constante em todos os conglomerados. Isto é usual devidoprincipalmente à simplicidade que resulta em termos de fórmulas dos esti-madores, como também à simplicidade de operacionalização da seleção daamostra. neste caso, devemos ter:

f2 =n

N

onde:

n =

mPi=1

n0i

me N =

MPi=1

Ni

MDaí resulta que todas as unidades secundárias terão a mesma probabili-

dade de pertencer à amostra, dada por:

P {USij ∈ amostra} = m

M

n

N= f1f2 = f =

n

N

O que veremos a seguir é como se define amostra autoponderada e, comose modificam os estimadores de total e da respectiva variância da amostragemde conglomerados em 2 estágios.

DefiniçãoDiz-se que a amostra de conglomerados em 2 estágios é autoponderada

se e somente se as unidades secundárias tiverem a mesma probabilidade deinclusão na amostra, isto é, se e somente se:

n

N= P {USij ∈ amostra} = m

M

n0iN 0

i

⇐⇒ n0iN 0

i

=Mn

mN

⇐⇒ n0iN 0

i

=n

N

Page 130: 84958247 Tecnicas de Amostragem Apostila Zelia

124 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

Adaptação dos estimadores do total e respectiva variânciaA expressão do estimador de total bYAc2 pode ser reescrita como:

bYAc2 =M

m

mXi=1

N 0i

n0i

n0iXj=1

yij =M

m

N

n

mXi=1

n0iXj=1

yij

=N

n

mXi=1

n0iXj=1

yij =1

f

mXi=1

n0iXj=1

yij

e a expressão da variância de bYAc2 fica:V³bYAc2´ = M2M −m

M

S2em+

M

m

MXi=1

N2i

Ni − niNi

S2ini

= M2M −m

M

S2em+

M

m

µN

n− 1¶ MX

i=1

NiS2i

= M2M −m

M

S2em+

M

m

N

n

µN − n

N

¶ MXi=1

NiS2i

fazendo:

S2d =1

MN

MXi=1

NiS2i

Segue-se que:

V³bYAc2´ =M2

µM −m

M

¶S2em+¡MN

¢2µN − n

N

¶S2dmn

ou, em termos das frações de amostragem:

V³bYAc2´ =M

µ1

f1− 1¶S2e +N

µ1− f2f1f2

¶S2d

Notando-se que:

s2d =1

mN

mXi=1

N 0is2i

é um estimador não viciado de S2d , segue-se a expressão adaptada de v³bYAc2´

v³bYAc2´ =M2

µM −m

M

¶s2em+¡MN

¢2µN − n

N

¶s2dmn

Page 131: 84958247 Tecnicas de Amostragem Apostila Zelia

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 125

ou ainda, em termos das frações de amostragem:

v³bYAc2´ =M

µ1

f1− 1¶s2e +N

µ1− f2f1f2

¶s2d

Uma vez mais convém ressaltar que a vantagem da amostra autopon-derada advém da facilidade prática de seleção da amostra e do cálculo dosestimadores e suas respectivas precisões.

Exemplo 3.1 (Nascimento (1981), pág. 80)

Em determinada área, de acordo com o último Censo Demográfico, há 150setores com aproximadamente 36.400 domicílios. Seleciona-se uma amostrade 364 domicílios, com o objetivo de estimar o número de habitantes da área.

Isto corresponde a uma fração geral de amostragem:

f =364

36.400=

1

100

Há em média36.400

150∼= 243 domicílos por setor na área.

Serão selecionados com equiprobabilidade 10 setores, o que correspondea uma fração de amostragem de 1o estágio de:

f1 =10

150=1

15

Para que a amostra seja autoponderada deve-se ter: f1f2 = f .

Logo:

f2 =f

f1=

1100115

= 15%

Supondo que a amostra forneceu os seguintes dados, estimar o númerototal de habitantes da área e sua precisão.

Page 132: 84958247 Tecnicas de Amostragem Apostila Zelia

126 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

Setores Domicílios Domicílios da Moradores nos Variância de yda no setor subamostra domicílios da na subamos-

amostra (N 0i) no setor (n0i) subamostra (yi) tra (s2i )

1 320 48 168 4,0182 210 32 138 5,2243 180 27 130 5,9054 400 60 222 1,0445 250 38 201 2,8406 221 33 149 4,3457 120 18 97 6,0008 500 75 300 2,0129 262 39 199 3,48410 238 36 108 3,000Total 2.701 406 1.712 -

bYAc2 = 1

f

mXi=1

n0iXj=1

yij =11100

(1.712) = 171.200 habitantes

s2e =1

m− 1mXi=1

(N 0iyi − yAc2)

2

=1

9(1.502.364, 65) = 166.929, 41

yAc2 =bYAc2M

=171.200

150= 1.141, 33

s2d =1

mN

mXi=1

N 0is2i =

1

10 (243)(8.886, 353) = 3, 657

v³bYAc2´ = M

µ1

f1− 1¶s2e +N

µ1− f2f1f2

¶s2d

= 150

µ1115

− 1¶166.929, 41 + 36.400

µ1− 15

1001100

¶3, 657

= 350.551.750, 8 + 11.314.558, 1 = 361.866.308, 9

Logo:

cv³bYAc2´ =

rv³bYAc2´bYAc2 = 11, 11%

Page 133: 84958247 Tecnicas de Amostragem Apostila Zelia

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 127

3.1.7 Dimensionamento da amostra de conglomeradosem 2 estágios

Na amostragem de conglomerados em um estágio, o dimensionamneto daamostra pode ser feito fixando-se uma precisão desejada, e calculando-se onúmero de conglomerados da amostra, através da expressão da variância.Na amostragem de conglomerados em 2 estágios, o dimensionamento con-

siste em determinar não só o número de unidades primárias (conglomerados)na amostra de 1o estágio, como também o número de unidades secundáriasda subamostra em cada unidade primária selecionada.Uma solução para o problema pode ser obtida utilizando-se a expressão

da variância e introduzindo-se uma função custo, que indica o custo da apli-cação do desenho da amostra para os tamanhos de 1oe 2o estágios a seremescolhidos.Aqui será considerado o caso simples em que o tamanhomédio das unidades

primáriasN e o tamanho médio da subamostra n são determinados de acordocom um dos critérios possíveis:

a) minimizar a variância com custo fixado;

b) minimizar o custo com variância fixada.

Definição de uma função custoA função custo que vamos considerar não é a única possível, mas a ade-

quada para muitas situações práticas, e possibilita a solução do problema dedeterminação dos tamanhos de amostra segundo os dois critérios já definidosde maneira simples.

Função Custo:CT = Cf + C1m+ C2mn

onde:Cf é o custo fixo;C1é o custo unitário por unidade primária selecionada;C2 é o custo unitário por unidade secundária selecionada.

Na prática, as despesas dever ser atribuídas a cada um dos custos definidoscomo segue:

Custo fixo: Cf

- planejamento e orientação do trabalho, incluindo os salários do pessoaltécnico e as despesas de administração;

Page 134: 84958247 Tecnicas de Amostragem Apostila Zelia

128 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

- preparação de mapas e outras informações que não dependam do tamanhoda amostra a ser selecionada;

- impressão de tabelas e treinamento de pessoal de campo que não de-penda do tamanho da amostra a ser selecionada.

Afinal, devem ser incluídas como custo fixo, as despesas que não variamcom o processo de seleção nem com o tamanho da amostra.

Custo de seleção das unidades primárias: C1m

- despesas de seleção das unidades primárias;

- preparação de roteiros de viagem para as unidades primárias;

- impressão do material para a amostra de unidades primárias;

- tempo de treinamento para investigação das unidades primárias;

- gastos de transporte para as unidades primárias e entre as mesmas.

Afinal, devem ser incluídas aqui todas as despesas que variam com onúmero de unidades primárias na amostra.

Custo de seleção das unidades secundárias: C2mn

- custo de entrevista de cada unidade secundária;

- impressão do material referente às unidades secundárias da amostra;

- despesas de transporte dentro das unidades primárias.

Enfim, devem ser incluídas aqui todas as despesas diretamente relacionadascom o número de unidades secundárias na amostra.

Page 135: 84958247 Tecnicas de Amostragem Apostila Zelia

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 129

Tamanho de amostra com custo fixado e mínima variância

Agora, vamos resolver o problema de determinação dos tamanhos deamostra segundo o critério de minimização da variância com o custo fixado.Para tanto, considere-se a seguinte função Lagrangeana:

F = V (yAc2) + λ (Cf + C1m+ C2mn− CT )

que pode ser reescrita como:

F =M −m

M

S2

e

m+

N − n

N

S2dmn

+ λ (C1m+ C2mn− C)

onde:C = CT − Cf

λ é o multiplicador de Lagrange.Tomando as derivadas parciais em relação a m e a n e igualando a zero

vem:∂F

∂n= − S2d

mn2+ λC2m = 0 (3.1)

∂F

∂m= − S

2

e

m2− N − n

N

S2dm2n

+ λ (C1 + C2n) = 0 (3.2)

De (1) obtém-se:λC2m

2n2 = S2d (3.3)

De (2) obtém-se:

λ (C1 + C2n)Nm2n = S2

eNn+¡N − n

¢S2d (3.4)

Dividindo-se (4) por (3), tem-se:

λ (C1 + C2n)Nm2n

λC2m2n2=

S2

eNn+¡N − n

¢S2d

S2d

=⇒ (C1 + C2n)N

C2n=

S2

eNn+¡N − n

¢S2d

S2d

=⇒ (C1 + C2n)N S2d = S2

eC2N n2 +¡N − n

¢C2nS

2d

=⇒ ¡C1N + C2nN −N C2n + C2n

2¢S2d = S

2

eC2N n2

Page 136: 84958247 Tecnicas de Amostragem Apostila Zelia

130 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

=⇒ C1N S2d = S2

eC2N n2 − C2n2S2d

=⇒ C1N S2d = C2 n2³S2

eN − S2d

´

=⇒ n2 =C1N S2d

C2

³S2

eN − S2d

´

=⇒ notimo =

vuut C1N S2d

C2³S2

eN − S2d

´ (3.5)

Derivando a F em relação a λ, vem:

∂F

∂λ= C1m+ C2mn− C = 0

=⇒ m (C1 + C2n) = C

=⇒ m =C

C1 + C2n(3.6)

substituindo-se na expressão (6) o valor notimo, obtém-se o valor ótimo de m:

motimo =C

C1 + C2notimo=

C

C1 + C2

vuut C1N S2d

C2³S2

eN − S2d

´ (3.7)

Assim pode-se observar que:

i) notimo cresce se C1 cresce em relação a C2, ou seja, se cresce a parte docusto referente à seleção das unidades primárias, cabe aumentar notimo

e diminuir motimo.

ii) Para achar notimo, basta conhecer a razãoC1C2

. Pequenas variações deste

valor têm pouca influência sobre o valor de notimo, visto que notimo

depende de

rC1C2.

Page 137: 84958247 Tecnicas de Amostragem Apostila Zelia

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 131

iii) o valor de notimo pode ser estimado por:

bnotimo =

vuuutC1C2

s2dµs2e −

s2dn

¶pois:

E¡s2d¢= S2d

e

E

µs2e −

s2dn

¶= E

µs2e −

N − n

N

s2dn− s2d

N

¶= E

¡s2e¢− E

µs2dN

¶= S

2

e −S2dN

Note-se que isto vale somente se:

s2e −s2dn

> 0

se isto não ocorrer, notimo pode ser obtido considerando a função custo:

C = m (C1 + C2n)

- Se C > C1 + C2N, então:

notimo = maximo de n = N

implicando que

motimo =C

C1 +N C2

- Se C ≤ C1 + C2N , então notimo é a solução para n da equação

C = C1 + C2n =⇒ notimo =C − C1C2

e motimo = 1

Page 138: 84958247 Tecnicas de Amostragem Apostila Zelia

132 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

Tamanho de amostra com variância fixada e custo mínimo

Aqui o problema a resolver é minimizar a função:

G = C + µV (yAc2)

onde:µ é o multiplicador de Lagrange.Assim:

G = (C1m+ C2mn) + µ

ÃM −m

M

S2

e

m+

N − n

N

S2dmn

!Tomando as derivadas parciais em relação a m e a n e igualando a zero vem:

∂G

∂n= C2m− µ

S2dmn2

= 0 (3.8)

∂G

∂m= C1 + C2n− µ

ÃS2

e

m2+

N − n

N

S2dm2n

!= 0 (3.9)

É imediato notar que estas equações são idênticas àquelas anterior-

mente obtidas com µ =1

λ. Em conseqüência, a solução para o valor ótimo

de n é a mesma, seja fixando o custo e minimizando a variância, seja fixandoa variância e minimizando o custo.Quanto ao valor ótimo dem é obtido fixando-se V (yAc2) e substituindo-se

notimo no lugar de n.

V (yAc2) =M −m

M

S2

e

m+

N − n

N

S2dmn

=⇒µ1

m− 1

M

¶S2

e +

µ1

n− 1

N

¶S2dm= V (yAc2)

=⇒ 1

m

µS2

e +

µ1

n− 1

N

¶S2d

¶= V (yAc2) +

1

MS2

e

m =

S2

e +

µ1

n− 1

N

¶S2d

V (yAc2) +1

MS2

e

Page 139: 84958247 Tecnicas de Amostragem Apostila Zelia

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 133

motimo =

S2

e +

µ1

notimo− 1

N

¶S2d

V (yAc2) +1

MS2

e

sendo que V (yAc2) deve ser fixada.Tamanho de amostra em função do coeficiente de correlação intra-classe

Considere as expressões já encontradas no caso de amostragem de con-glomerados em 1 estágio:

δ =

(M − 1) S2eM

− 1

NS2d

MN − 1M N

S2(3.10)

¡MN − 1¢S2 = (N − 1)M S2d +N (M − 1)S2e (3.11)

Substituindo-se (11) em (10), obtém-se:

δ =

(M − 1) S2eM

− 1

NS2d

(N − 1)N

S2d +M − 1M

S2

e

Logo:

1− δ =S2d

(N − 1)N

S2d +M − 1M

S2

e

1− δ

δ=

S2d

(M − 1) S2eM

− 1

NS2d

∼= S2d

S2

e −1

NS2d

Assim, pode-se escrever:

notimo =

vuutC1C2

N S2d³S2

eN − S2d

´ =vuuutC1C2

S2dµS2

e −1

NS2d

¶ou

notimo =

rC1C2

1− δ

δ(3.12)

Page 140: 84958247 Tecnicas de Amostragem Apostila Zelia

134 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

E assim verifica-se, uma vez mais, a importância prática de conhecer ovalor do coeficiente de correlação intraclasse.

Exemplo 3.2 (Nascimento (1981), pág. 88)Em certa área existem 740 setores censitários rurais. Trata-se de estimar

a produção total de café da área, através e uma amostra de conglomeradosem 2 estágios, sendo os setores as unidades primárias e os estabelecimentosprodutores as unidades secundárias.De uma pesquisa anterior sabe-se que para a característica ”produção de

café ” e o setor como conglomerado tem-se:

δ = 0, 201 eC1C2= 10

Logo, o tamanho da subamostra em cada setor selecionado é:

notimo =

rC1C2

1− δ

δ=

r101− 0, 2010, 201

∼= 6

O custo da investigação de um estabelecimento foi orçado em R$ 30,00de modo que a função custo é:

C = 300m+ 30mn

A quantia total para a pesquisa é R$ 35.000,00, sendo R$5.000,00 para aparte fixa dos custos.Logo:

m =30.000

300 + 30(6)= 62 setores

correspondendo a um total de 6 (62) = 372 estabelecimentos produtores naamostra.A fração de amostragem do 1o estágio é:

f1 =m

M=62

740=1

12

Considerando que cada setor tem em média N = 30 estabelecimentos, afração de amostragem do 2o estágio é:

f2 =n

N=6

30=1

5

Logo, a fração geral de amostragem é:

f = f1f2 =

µ1

12

¶µ1

5

¶=1

60

Page 141: 84958247 Tecnicas de Amostragem Apostila Zelia

3.1. PROBABILIDADES IGUAIS DE SELEÇÃO 135

3.1.8 Efeito de conglomeração

O objetivo desta seção é a comprovação de que a amostragem de conglomera-dos em 2 estágios pode ser mais precisa que a amostragem de conglomeradosem 1 estágio. Isto será feito comparando-se os respectivos efeitos de con-glomeração em relação à amostragem aleatória simples.Para atingir esse objetivo é necessário, no entanto, escrever a expressão da

variância V (yAc2) em termos do coeficiente de correlação intraclasse δ, o queserá feito somente para o caso em que o tamanho médio por conglomeradoN for admitido constante para os M conglomerados.Assim, recordando as seguintes expressões:¡

MN − 1¢S2 = (N − 1)M S2d +N (M − 1)S2e (3.13)

S2

e =M N − 1(M − 1)N

S2

N

£1 +

¡N − 1¢ δ

¤(3.14)

Substituindo-se (14) em (13) tem-se:

¡MN − 1¢S2 = (N − 1)M S2d +

M N − 1N

S2£1 +

¡N − 1¢ δ

¤

=⇒µ¡

MN − 1¢− M N − 1N

£1 +

¡N − 1¢ δ

¤¶S2 = (N − 1)M S2d

=⇒á

MN − 1¢ £N − 1− ¡N − 1¢ δ¤

N

!S2 = (N − 1)M S2d

=⇒á

MN − 1¢ ¡N − 1¢ (1− δ)

N

!S2 = (N − 1)M S2d

=⇒ S2d =

¡MN − 1¢ ¡N − 1¢ (1− δ)

(N − 1)MNS2

=⇒ S2d =

¡MN − 1¢ (1− δ)

MNS2

Lembrando que a variância V (yAc2) é dada por:

V (yAc2) =M −m

M

S2

e

m+

N − n

N

S2dmn

Page 142: 84958247 Tecnicas de Amostragem Apostila Zelia

136 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

e supondo as seguintes aproximações:

M −m

M∼= 1 e

N − n

N∼= 1 (3.15)

obtém-se:

V (yAc2)∼= S

2

e

m+

S2dmn

V (yAc2)∼= S2

mN

M N − 1(M − 1)N

£1 +

¡N − 1¢ δ

¤+

1

mn

¡MN − 1¢ (1− δ)

MNS2

Mas pela hipótese em (15) tem-se:

MN − 1MN

∼= 1 eM N − 1(M − 1)N

∼= 1 (3.16)

Logo:

V (yAc2)∼= S2

mN

£1 +

¡N − 1¢ δ

¤+

1

mn(1− δ)S2

V (yAc2)∼= S2

m

"1

N+

¡N − 1¢N

δ +1

n− δ

n

#

se N for grande =⇒ 1

N−→ 0 e

¡N − 1¢N

−→ 1

Então:

V (yAc2)∼= S2

mn[n δ + 1− δ]

=S2

mn[1 + (n − 1) δ]

Se lembrarmos queS2

mné a expressão aproximada para a variância da

média de y da amostragem aleatória simples de tamanho mn (desprezando-se a correção de população finita), segue-se que:

V (yAc2)∼= V (yAAS) [1 + (n − 1) δ]

Donde se conclui que o efeito de conglomeração da amostragem deconglomerados em 2 estágios é dado por [1 + (n − 1) δ] .De imediato segue-se que:

Page 143: 84958247 Tecnicas de Amostragem Apostila Zelia

3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 137

i) se δ > 0 =⇒ [1 + (n − 1) δ] << £1 +

¡N − 1¢ δ¤ que é o efeito de

conglomeração na amostragem de conglomerados em 1 estágio.

Logo é interessante manter n pequeno, o que implica em ter m grande.Isto é, a amostra deve ter mais unidades primárias e subamostras menores(f1 deve crescer e f2 decrescer).

ii) se δ < 0 =⇒ [1 + (n − 1) δ] > £1 + ¡N − 1¢ δ¤Logo, a melhor alternativa é fazer n = N , isto é, fazer amostragem de

conglomerados em 1 estágio, tomando menos unidades primárias ( f1 devedecrescer e f2 crescer).

Vale o comentário: se f1 cresce e, como em geralC1C2

>> 1, então o custo

da pesquisa tende a crescer bastante, de modo que este fator não deve serignorado na determinação dos tamanhos da amostra.No exercício 3.2, o efeito de conglomeração é:

1 + (n − 1) δ = 1 + (6− 1)0, 201 = 1 + 5(0, 201) ∼= 2Para baixar esse efeito de conglomeração, poderia reduzir a relação de

custosC1C2

ou partir para a definição de uma nova unidade primária com

menor δ.A eficiência da amostragem de conglomerados em 2 estágios em

relação à amostragem aleatória simples de mesmo tamanho é dadapor:

Ef =V (yAAS)

V (yAc2)∼= 1

1 + (n − 1) δ

3.2 Controle de variação de tamanho das UPAs

Se o coeficiente de correlação intraclasse é positivo, a subamostragemmelhorae eficiência, posto que se substitui N por n no efeito de conglomeração.No entanto, a influência da variação do tamanho das unidades primárias

ainda persiste na estimação e total, uma vez que a variância do estimador:

V³bYAc2´ =M2M −m

M

S2em+

M

m

MXi=1

N2i

Ni − niNi

S2ini

ainda depende da variabilidade das unidades prrimárias.Desse modo, as diversas formas de controle da variação de tamanho enun-

ciadas na amostragem de conglomerados em 1 estágio, podem ser repetidasna amostragem de conglomerados em 2 estágios.

Page 144: 84958247 Tecnicas de Amostragem Apostila Zelia

138 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

3.2.1 Probabilidades desiguais de seleção das unidadesprimárias

Seja Pi a probabilidade de seleção da unidade primária i (i = 1, 2, · · · ,M).Valem as considerações feitas na Ac1, com relação à probabilidade pro-

porcional ao tamanho do conglomerado, definida por:

Pi =Ni

N(i = 1, 2, · · · ,M)

ou à probabilidade proporcional a uma medida de tamanho definida por:

Pi =Xi

X(i = 1, 2, · · · ,M)

Seleciona-se uma amostra de m unidades primárias de acordo com asprobabilidades de seleção Pi e com reposição.Em cada uma dessas unidades primárias da amostra de 1o estágio, seleciona-

se uma subamostra com igual probabilidade de seleção e sem reposição.Um estimador não viciado do total da característica y é dado por:

bY pAc2 =

1

m

mXi=1

N 0i

P 0i

yi

onde:

P 0i é a probabilidade de seleção associada à i-ésima unidade primária sele-cionada (UP 0i ). P

0i é igual a algum dos Pk (k = 1, 2, · · · ,M);

N 0i é o número de unidades secundárias na UP

0i ;

n0i é o número de unidades secundárias selecionadas na UP0i ;

yi é o total da característica y na subamostra de UP 0i ;

yij é o valor da característica y na j-ésima unidade selecionada da UP 0i .

yi =yin0i

=

n0iPj=1

yij

n0i

(∀i = 1, 2, · · · ,m)

Page 145: 84958247 Tecnicas de Amostragem Apostila Zelia

3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 139

Para mostrar que bY pAc2 é não viciado, basta mostrar que: E

³bY pAc2

´= Y

E³bY p

Ac2

´= E

Ã1

m

mXi=1

N 0i

P 0i

yi

!

= EUP 01,··· ,UP 0m

"E

Ã1

m

mXi=1

N 0i

P 0i

yi |UP 0i

!#

= EUP 01,··· ,UP 0m

"1

m

mXi=1

N 0i

P 0i

E (yi |UP 0i )

#

= EUP 01,··· ,UP 0m

"1

m

mXi=1

N 0i

P 0i

Y0i

#= EUP 01,··· ,UP 0m

"1

m

mXi=1

Y 0i

P 0i

#= EUP 01,··· ,UP 0m

hbY PAc1

i= Y

Um estimador não viciado da média da característica y por unidade pop-ulacional

³Y´é dado por:

ypAc2 =

1

Nm

mXi=1

N 0i

P 0i

yi

Variância de bY pAc2

V³bY p

Ac2

´= VUP 01,··· ,UP 0m

hE³bY p

Ac2 |UP 01, · · · , UP 0

m

´i+

+EUP 01,··· ,UP 0mhV³bY p

Ac2 |UP 01, · · · , UP 0

m

´i= VUP 01,··· ,UP 0m

"E

Ã1

m

mXi=1

N 0i

P 0i

yi |UP 0i

!#+

+EUP 01,··· ,UP 0m

"V

Ã1

m

mXi=1

N 0i

P 0i

yi |UP 0i

!#Mas,

VUP 01,··· ,UP 0m

"E

Ã1

m

mXi=1

N 0i

P 0iyi |UP 0i

!#= VUP 01,··· ,UP 0m

"1

m

mXi=1

N 0i

P 0i

E (yi |UP 0i )

#

= VUP 01,··· ,UP 0m

"1

m

mXi=1

N 0i

P 0i

Y0i

#= V

³bY PAc1

´=

1

m

MXi=1

µYiPi− Y

¶2Pi

Page 146: 84958247 Tecnicas de Amostragem Apostila Zelia

140 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

e

EUP 01,··· ,UP 0m

"V

Ã1

m

mXi=1

N 0i

P 0iyi |UP 0i

!#= EUP 01,··· ,UP 0m

"1

m2

ÃmXi=1

µN 0

i

P 0i

¶2V (yi |UP 0

i )

!#

= EUP 01,··· ,UP 0m

"1

m2

ÃmXi=1

µN 0

i

P 0i

¶2N 0

i − n0iN 0

i

S02i

n0i

!#

=1

m2m

MXi=1

µNi

Pi

¶2Ni − niNi

S2iniPi

=1

m

MXi=1

N2i

Pi

Ni − niNi

S2ini

Logo,

V³bY p

Ac2

´=1

m

MXi=1

µYiPi− Y

¶2Pi +

1

m

MXi=1

N2i

Pi

Ni − niNi

S2ini

Um estimador não viciado de V³bY p

Ac2

´é dado por:

v³bY p

Ac2

´=

1

m (m− 1)mXi=1

µN 0

iyiP 0i− bY p

Ac2

¶2

Prova que E³v³bY p

Ac2

´´= V

³bY pAc2

´:

E³v³bY p

Ac2

´´= E

Ã1

m (m− 1)mXi=1

µN 0

iyiP 0i

− bY pAc2

¶2!

=1

m (m− 1)EÃ

mXi=1

µN 0

iyiP 0i

¶2−m

³bY pAc2

´2!

=1

m (m− 1)

ÃmXi=1

E

µN 0

iyiP 0i

¶2−mE

³bY pAc2

´2!

Page 147: 84958247 Tecnicas de Amostragem Apostila Zelia

3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 141

mas:

E

µN 0

iyiP 0i

¶2= EUP 01,··· ,UP 0m

"E

µN 0

iyiP 0i

¶2|UP 0

i

#

= EUP 01,··· ,UP 0m

"V

µµN 0

iyiP 0i

¶|UP 0

i

¶+

µE

µN 0

iyiP 0i

|UP 0i

¶¶2#

= EUP 01,··· ,UP 0m

µN 0i

P 0i

¶2N 0

i − n0iN 0

i

S02i

n0i+

ÃN 0

iY0i

P 0i

!2=

MXi=1

µNi

Pi

¶2Ni − niNi

S2iniPi +

MXi=1

µNiY i

Pi

¶2Pi

e

E³bY p

Ac2

´2= V

³bY pAc2

´+hE³bY p

Ac2

´i2= V

³bY pAc2

´+ Y 2

então:

E³v³bY p

Ac2

´´=

1

m (m− 1)

ÃmXi=1

E

µN 0

iyiP 0i

¶2−mE

³bY pAc2

´2!1

m (m− 1)mXi=1

E

µN 0

iyiP 0i

¶2− m

m (m− 1)E³bY p

Ac2

´2=

1

m− 1

ÃMXi=1

µNi

Pi

¶2Ni − niNi

S2iniPi +

MXi=1

µNiY i

Pi

¶2Pi

!+

− 1

m− 1³V³bY p

Ac2

´+ Y 2

´=

1

m− 1

ÃMXi=1

µNi

Pi

¶2Ni − niNi

S2iniPi +

MXi=1

µYiPi

¶2Pi − Y 2

!+

− 1

m− 1V³bY p

Ac2

´

Page 148: 84958247 Tecnicas de Amostragem Apostila Zelia

142 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

E³v³bY p

Ac2

´´=

1

m− 1

ÃMXi=1

µNi

Pi

¶2Ni − niNi

S2iniPi +

MXi=1

µYiPi

¶2Pi − Y 2

MXi=1

Pi

!− 1

m− 1V³bY p

Ac2

´=

1

m− 1

ÃMXi=1

µNi

Pi

¶2Ni − niNi

S2iniPi +

MXi=1

µYiPi− Y

¶2Pi

!− 1

m− 1V³bY p

Ac2

´=

1

m− 1mV³bY p

Ac2

´− 1

m− 1V³bY p

Ac2

´=

µm− 1m− 1

¶V³bY p

Ac2

´= V

³bY pAc2

´Amostra autoponderadaA probabilidade de uma unidade secundária qualquer (USij) pertencer

a amostra, num esquema de amostragem em 2 estágios com probabilidadedesigual no primeiro estágio e equiprobabilidade no segundo estágio é dadapor:

P {USij ∈ amostra} = mP0i

n0iN 0

i

∀i, j

Com este plano amostral, a amostra é autoponderada se essa probabili-dade é constante e igual a fração de amostragem geral

n

N. Tem-se, então:

mP0i

n0iN 0

i

=n

N= f

Observe que, em média,mPi=1

n0i dá o tamanho pré-fixado, pois: se n0i =

nN 0i

mNP 0i

, então:

E

ÃmXi=1

n0i

!=

n

mNE

ÃmXi=1

N 0i

P 0i

!=

n

mN

ÃmXi=1

MXi=1

Ni

PiPi

!=

nmN

mN= n

Adaptação dos estimadores do total e da respectiva variância

Page 149: 84958247 Tecnicas de Amostragem Apostila Zelia

3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 143

A expressão do estimador de total bY pAc2 pode ser reescrita como:

bY pAc2 =

1

m

mXi=1

N 0i

P 0i

yi =1

m

mXi=1

N 0i

P 0i

1

n0i

n0iXj=1

yij =1

f

mXi=1

n0iXj=1

yij

mesma expressão já encontrada com equiprobabilidades nos 2 estágios.

v³bY p

Ac2

´=

1

m (m− 1)mXi=1

µN 0

iyiP 0i

− bY pAc2

¶2

=1

m (m− 1)mXi=1

N 0i

P 0in0i

n0iXj=1

yij − bY pAc2

2

=1

m (m− 1)mXi=1

m

f

n0iXj=1

yij − 1f

mXi=1

n0iXj=1

yij

2

=m2

m (m− 1) f2mXi=1

n0iXj=1

yij − 1

m

mXi=1

n0iXj=1

yij

2

=m

(m− 1) f2mXi=1

n0iXj=1

yij − 1

m

mXi=1

n0iXj=1

yij

2

Exemplo 3.3 (Nascimento (1981), pág. 112)

Numa determinada localidade com 53 povoados, selecionam-se 14, comreposição e probabilidade de seleção proporcional à população do últimoCenso. No povoado i da amostra, faz-se uma listagem das N 0

i fazendas degado e seleciona-se uma subamostra de fazendas com tamanho suficiente

para se obter uma fração geral de amostragem f =1

100das fazendas, com o

objetivo de estimar o número total de cabeças de gado.

Considerando:

P 0i a probabilidade de seleção do i-ésimo povoado selecionado;

N 0i o número de fazendas no i-ésimo povoado selecionado;

n0i o número de fazendas na subamostra do i-ésimo povoado selecionado;

Page 150: 84958247 Tecnicas de Amostragem Apostila Zelia

144 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

yi =n0iPj=1

yij o número de cabeças de gado na subamostra do i-ésimo povoado

selecionado; e a igualdade:

mP 0i

n0iN 0

i

=n

N= f

obtém-se a fração de amostragem de 2o estágio:

n0iN 0

i

=

µ1

100

¶µ1

mP 0i

¶=

1

1.400P 0i

Feita a seleção dos 14 povoados e a listagem das fazendas, aplicou-se afração de amostragem de 2o estágio, obtendo-se as fazendas da subamostra elevantando, em cada uma, o número de cabeças de gado.

Povoados (i) P 0i N 0i

n0iN 0i

n0i yi

1 0,0026 19 0,2747 5 2.2002 0,0098 23 0,0729 2 8203 0,0146 31 0,0489 2 7604 0,0167 40 0,0428 2 1.1005 0,0187 54 0,0382 2 6006 0,0187 54 0,0382 2 5107 0,0220 39 0,0325 1 3008 0,0249 55 0,0385 2 1.2009 0,0258 46 0,0277 1 50010 0,0298 83 0,0240 2 88011 0,0362 74 0,0197 1 30012 0,0370 70 0,0193 1 41013 0,0465 60 0,0154 1 57014 0,0465 60 0,0154 1 350Total - - - 25 10.500

bY pAc2 =

1

f

mXi=1

n0iXj=1

yij = 100 (10.500) = 1.050.000 cabeças de gado.

v³bY p

Ac2

´=

m

(m− 1) f2mXi=1

n0iXj=1

yij − 1

m

mXi=1

n0iXj=1

yij

2

=14

13(100)2 (3.305.100) = 3.559.230, 77 (1000)

Page 151: 84958247 Tecnicas de Amostragem Apostila Zelia

3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 145

rv³bY p

Ac2

´= 188.659, 24

cv³bY p

Ac2

´=

rv³bY p

Ac2

´bY pAc2

= 0, 1797

Estimação de proporção

Suponha que a população seja dividida nas classes A e eA.A unidade primária i fica dividida nas classes, com Ai e eAi unidades,

respectivamente.A subamostra de tamanho ni fica também dividida nas duas classes com

ai e eai unidades, em cada unidade primária i.

Um estimador não viciado para estimar a proporção PA =

M

i=1Ai

Né dado

por:

ppAc2 = ypAc2 =

1

Nm

mXi=1

N 0i

P 0i

yi =1

Nm

mXi=1

N 0i

P 0i

pi

onde:

pi =a0in0ié a proporção de A na subamostra.

Um estimador não viciado de V (ppAc2) é dado por:

v (ppAc2) =1

m (m− 1)mXi=1

µN 0

i

NP 0ipi − ppAc2

¶2Se a amostra é autoponderada, ocorre a condição:

mP 0i

n0iN 0

i

=n

N= f

logo:

ppAc2 =1

n

mXi=1

a0i

v (ppAc2) =1

m (m− 1)mXi=1

³mna0i − ppAc2

´2Exemplo 3.4

Page 152: 84958247 Tecnicas de Amostragem Apostila Zelia

146 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

Considere o exercício 3.3. Suponha que as fazendas da subamostra foramclassificadas de acordo com o tipo de criação de gado: para corte ou não (para leite e/ou reprodução). Deseja-se estimar a proporção das fazendas cujotipo de criação de gado é para corte e o coeficente de variação associado aessa estimativa.

Os valores obtidos na subamostra foram:

Povoados No de fazendas No de fazendas comda amostra na subamostra criação de gado para corte

1 5 32 2 13 2 14 2 05 2 26 2 17 1 08 2 19 1 010 2 011 1 012 1 013 1 014 1 1Total 25 10

ppAc2 =1

n

mXi=1

a0i =10

25= 0, 40

Page 153: 84958247 Tecnicas de Amostragem Apostila Zelia

3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 147

v (ppAc2) =1

m (m− 1)mXi=1

³mna0i − ppAc2

´2=

1

m (m− 1)

ÃmXi=1

³mna0i

´2−m (ppAc2)

2

!

=m

m− 1

ÃmXi=1

µa0i

n

¶2− (p

pAc2)

2

m

!

=14

13

õ1

(25)2(9 + 4 + 1 + 1 + 1 + 1 + 1)

¶−¡1025

¢214

!

=14

13

µ18

625− 100

625 (14)

¶=14

13

µ18 (14)− 100625 (14)

¶=

1

13

µ18 (14)− 100

625

¶=1

13

µ18 (14)− 100

625

¶=1

13

µ152

625

¶= 0, 0187076

qv (ppAc2) = 0, 1367757

cv (ppAc2) =

pv (ppAc2)

ppAc2= 0, 342

3.2.2 Estratificação das unidades primárias e seleçãocom probabilidades desiguais de seleção

A estratificação das unidades primárias é feita grupando em mesmo estratoas unidades primárias de tamanhos aproximadamente iguais. A seleçãodas unidades primárias, dentro de cada estrato é feita com probabilidadeproporcional ao tamanho.O processo para definir os estimadores é muito simples. Basta consid-

erar as expressões do item anterior e adaptá-las a um estrato genérico h,acrescentando aos símbolos um índice h (h=1,2,· · · , L).Recorde que o estimador de Y num esquema com 2 estágios de seleção e

probabilidades desiguais de seleção no 1o estágio (sem considerar a estrati-ficação das unidades de 1o estágio) e com reposição e equiprobabilidades no2o estágio é dado por:

bY pAc2 =

1

m

mXi=1

N 0i

P 0i

yi

Page 154: 84958247 Tecnicas de Amostragem Apostila Zelia

148 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

No estrato h, o estimador do total do estrato h, Yh, é dado por:

bY ph.Ac2 =

1

mh

mhXi=1

N 0hi

P 0hi

yhi

conseqüentemente, o estimador de Y é dado por:

bY p.estAc2 =

LXh=1

bY ph.Ac2 =

LXh=1

1

mh

mhXi=1

N 0hi

P 0hi

yhi

Recorde-se que a variância de bY pAc2 é:

V³bY p

Ac2

´=1

m

MXi=1

µYiPi− Y

¶2Pi +

1

m

MXi=1

N2i

Pi

Ni − niNi

S2ini

No estrato h, a variância do estimador do total do estrato h, V³bY p

h.Ac2

´,

é dado por:

V³bY p

h.Ac2

´=

1

mh

MhXi=1

µYhiPhi− Yh

¶2Phi +

1

mh

MhXi=1

N2hi

Phi

Nhi − nhiNhi

S2hinhi

conseqüentemente, a variância de bY p.estAc2 é dada por:

V³bY p.est

Ac2

´=

LXh=1

V³bY p

h.Ac2

´=

LXh=1

1

mh

MhXi=1

µYhiPhi− Yh

¶2Phi +

LXh=1

1

mh

MhXi=1

N2hi

Phi

Nhi − nhiNhi

S2hinhi

O estimador da V³bY p.est

Ac2

´é dado por:

v³bY p.est

Ac2

´=

LXh=1

1

mh (mh − 1)mXi=1

µN 0

hiyhiP 0hi

− bY ph.Ac2

¶2

Amostra autoponderada

A probabilidade de uma unidade secundária qualquer do estrato h per-tencer a amostra, num esquema de amostragem em 2 estágios é dada por:

Page 155: 84958247 Tecnicas de Amostragem Apostila Zelia

3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 149

mhP0hi

n0hi

N0hi

Esta probabilidade pode ser constante no estrato ou variar de estrato paraestrato. , neste caso:

mhP0hi

n0hi

N0hi

=nhNh

(h = 1, 2, · · · , L)

ou ser constante para todos os estratos:

mhP0hi

n0hi

N0hi

=n

N(h = 1, 2, · · · , L)

No primeiro caso, a amostra é autoponderada no estrato e no segundocaso é autoponderada em geral.

3.2.3 Estimador de razão

Estuda-se agora o estimador de razão, tendo como característica auxiliar otamanho das unidades primárias, num esquema de amostragem de conglom-erados em 2 estágios com equiprobabilidade nos 2 estágios.Sabe-se que a média por unidade secundária é:

Y =

MPi=1

Yi

MPi=1

Ni

=Y

N

o que mostra que Y pode ser entendida como uma razão de duas médias.Um estimador consistente de Y é obtido substituindo-se o numerador e

denominador por estimadores não viciados.Desse modo, representando por yRAc2 esse estimador consistente, tem-se:

yRAc2 =

1

m

mPi=1

N0iyi

1

m

mPi=1

N0i

=

mPi=1

N0iyi

mPi=1

N0i

cuja variância é dada por:

Page 156: 84958247 Tecnicas de Amostragem Apostila Zelia

150 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

V³yRAc2

´=

M −m

MN2

S2eRm+

1

Mm

MXi=1

µNi

N

¶2Ni − niNi

S2ini

S2eR =1

M − 1MXi=1

N2i

³Y i − Y

´2e um estimador consistente para essa variância é:

v³yRAc2

´=

M −m

Mm (m− 1)mXi=1

µN 0

i

N

¶2 ³yi − y

RAc2

´2+

1

Mm

mXi=1

µN 0

i

N

¶2N 0

i − n0iN 0

i

S02in0i

Estimador de razão para o total Y :

bY RAc2 =MN y

RAc2 =MN

mPi=1

N0iyi

mPi=1

N0i

e a variância de bY R

Ac2 é dada por:

V³bY R

Ac2

´=

¡MN

¢2V³yRAc2

´= M2M −m

M

S2eRm+

M

m

MXi=1

N2i

Ni − niNi

S2ini

e um estimador consistente para essa variância é:

v³bY R

Ac2

´=

M2

m

µM −m

M

¶µ1

m− 1¶ mX

i=1

N 02i

³yi − y

RAc2

´2+

+M

m

mXi=1

N 0i2N

0i − n0iN 0

i

s02in0i

Supondo M >> m =⇒ M2

m>>

M

m, então a expressão acima pode ser

aproximada para:

v³bY R

Ac2

´ ∼= M2

m

µM −m

M

¶µ1

m− 1¶ mX

i=1

N 02i

³yi − y

RAc2

´2

Page 157: 84958247 Tecnicas de Amostragem Apostila Zelia

3.2. CONTROLE DE VARIAÇÃO DE TAMANHO DAS UPAS 151

ou

v³bY R

Ac2

´ ∼=M2s2eR

mcom

s2eR =1

m− 1mXi=1

N 02i

³yi − y

RAc2

´2Amostra autoponderadaSabe-se que a condição para que a amostra seja autoponderada é dada

pela igualdade:m

M

niNi=

n

N= f

ou seja, todas as unidades secundárias têm a mesma probabilidaden

Nde

pertencer à amostra. Nesta condição, tem-se:

yRAc2 =

N

n

mPi=1

n0iPj=1

yij

mPi=1

N0i

=1

f2

mPi=1

n0iPj=1

yij

mPi=1

N0i

sendo f2 =n

Na fração de amostragem de 2o estágio.

Para o estimador da variância aproximada de

v³yRAc2

´ ∼= s2eR

N2m

com M >> m e

s2eR =1

m− 1mXi=1

N 02i

³yi − y

RAc2

´2

=1

m− 1mXi=1

N 02i

n02i

n0iXj=1

yij −

mPi=1

N0i

n0iPj=1

yij

mPi=1

N0i

2

=1

m− 1µmN

nM

¶2 mXi=1

n0iXj=1

yij −

mPi=1

N0i

n0iPj=1

yij

mPi=1

N0i

2

Page 158: 84958247 Tecnicas de Amostragem Apostila Zelia

152 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

ou

v³yRAc2

´ ∼= s2eR

N2m=

m

(m− 1)n2mXi=1

n0iXj=1

yij −

mPi=1

N0i

n0iPj=1

yij

mPi=1

N0i

2

Exemplo 3.5Suponha que se deseja estimar o consumo médio semanal por domicílio

(em unidades de produto) de determinado produto para alimentação.Dispõe-se de um mapa da localidade onde podem ser identificados 400

quarteirões, que serão considerados unidades primárias de amostragem. Sabe-se que existem na localidade cerca de 26.000 domicílios dando uma média de65 domicílios por quarteirão. Seleciona-se uma amostra autoponderada de650 domicílios com 2 estágios de seleção e com equiprobabilidade em cada

estágio, tendo fixado a fração de amostragem do 1o estágio em1

8, o que

implicou na seleção de 50 quarteirões.

Neste caso f =n

N=

650

26.000=1

40. Logo a fração de amostragem do 2o

estágio é dada por: f2 =f

f1=1

5.

Sabendo-se que:

i) o número de domicílios nos quarteirões da amostra émPi=1

N 0i = 3.152;

ii) o número de domicílios selecionados na subamostra dos quarteirões

selecionados émPi=1

n0i = 710;

iii) o total de unidades consumidas nos domicílios selecionados na sub-

amostra dos quarteirões selecionados émPi=1

n0iPj=1

yij = 1.910; e que

iv)mPi=1

n0iPj=1

yij −

mPi=1

N0i

n0iPj=1

yij

mPi=1

N0i

2

= 4.500.

Page 159: 84958247 Tecnicas de Amostragem Apostila Zelia

3.3. EXERCÍCIOS 153

a estimativa do consumo médio semanal por domicílio é dada por:

yRAc2 =

1

f2

mPi=1

n0iPj=1

yij

mPi=1

N0i

= (5)1.910

3.152= 3, 03

e a estimativa aproximada da variância é dada por:

v³yRAc2

´ ∼= m

(m− 1)n2mXi=1

n0iXj=1

yij −

mPi=1

N0i

n0iPj=1

yij

mPi=1

N0i

2

=50

49 (710)2(4.500) = 0, 0091

cv³yRAc2

´=

rv³yRAc2

´yRAc2

= 0, 031

3.3 Exercícios

3.3.1 Compare a precisão de uma amostra de conglomerados em 2 estágios(Ac2) com a fração de subamostragem de 50% com a de uma amostrade conglomerados em um estágio (Ac1)de igual tamanho, supondo queo tamanho médio do conglomerado é de 50 unidades e que o coeficientede correlação intraclasse é igual a 0,1.

Indicar se há ganho ou perda relativa da Ac2 em relação a Ac1.

(Devem ser usadas as fórmulas aproximadas relacionando as variânciasda Ac1 com a amostra aleatória simples (AAS), e da Ac2 com a AAS).

3.3.2 Os habitantes de um bairro estão distribuídos em 149 quarteirões, ondese estima que há um total de 8.500 domicílios. Deseja-se estimar onúmero total de domicílios alugados no bairro.

a) Represente esquematicamente a população de interesse, definindoadequadamente:

Page 160: 84958247 Tecnicas de Amostragem Apostila Zelia

154 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

• unidades primárias; e• unidades secundárias.

b) Para uma característica genérica y, defina:

• a notação dos parâmetros das unidades primárias (total, mé-dia e variância); e

• a notação dos parâmetros da população (total, total médio porunidade primária, média por unidade da população e variânciaglobal).

c) Defina um esquema de amostragem de conglomerados em 2 está-gios que permita selecionar uma amostra probabilística das unidadesda população com o objetivo de estimar o total de domicílios alu-gados no bairro.

d) Considerando o esquema apresentado em c), obtenha um esti-mador não viciado para o total de domicílios alugados no bairro,e uma expressão para a variância desse estimador.

3.3.3 Deseja-se selecionar uma amostra de m conglomerados, de uma pop-ulação de 90 conglomerados, nos quais será selecionada uma sub-amostra de n unidades em cada conglomerado da amostra. Será usadaamostragem aleatória simples sem reposição em ambos os estágios paraestimar a média por unidade elementar de uma dada característica.

Assume-se que a função custo é da forma:

Ct = C0 + C1m+ C2mn

Dado que Ct = 1.000, C0 = 300, C1 = 9 e C2 = 1 encontre os val-ores ótimos do número de conglomerados da amostra e do número deunidades a serem selecionadas por conglomerado, sabendo-se que:

S2d = 49, 5 S2

e = 9, 045 N = 20

3.3.4 Numa grande cidade, um bairro continha 100 quarteirões dos quais 10foram selecionados com probabilidade proporcional a um dado tamanho,com reposição. Uma amostra autoponderada foi selecionada com fraçãogeral f = 2%. Utilize os dados observados, mostrados a seguir:

Page 161: 84958247 Tecnicas de Amostragem Apostila Zelia

3.3. EXERCÍCIOS 155

Quarteirão no de pessoas dos no de cômodos nos domi-na amostra domicílios selecionados cílios selecionados nos

nos quarteirão da amostra quarteirões da amostra1 115 602 80 523 82 584 93 565 105 626 109 517 130 728 93 489 109 7110 95 58Total 1.011 588

a) Estime o no total de pessoas no bairro e o respectivo coeficientede variação.

b) Estime o no total de comôdos dos domicílios do bairro e o respec-tivo coeficiente de variação.

c) Estime o no médio de pessoas por cômodo nos domicílios do bairro.

3.3.5 Os habitantes de um bairro estão distribuídos em 150 quarteirões, ondese estima que há um total de 9.000 domicílios. Deseja-se estimar onúmero total de domicílios alugados no bairro. De um censo anteriorse conhece o número de domicílios por quarteirão. O orçamento e otempo disponíveis para fazer a pesquisa permitem que se realize cercade 300 entrevistas.

a) Defina um esquema de amostragem de conglomerados em 2 está-gios que permita selecionar uma amostra probabilística das unidadesda população com o objetivo de estimar o total de domicílios alu-gados no bairro.

b) Considerando o esquema apresentado em a), apresente um esti-mador não viciado para o total de domicílios alugados no bairro,e uma expressão para a variância desse estimador.

Page 162: 84958247 Tecnicas de Amostragem Apostila Zelia

156 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

3.3.6 De uma população de 100 conglomerados de 40 elementos cada umfoi selecionada uma amostra de 2 estágios, com seleção aleatória semreposição em cada estágio. Foram selecionadas 6 unidades primáriasno primeiro estágio e a fração de subamostragem é de 10%.

Sabendo-se que para uma determinada característica y:

mPi=1

yi = 84 s2d = 1, 33 s2e = 1338, 65

a) Calcule a estimativa de total para a característica y e o respectivocoeficiente de variação.

b) Calcule a participação da componente da variância devida ao 1o

estágio.

c) O que você faria para diminuir a contribuição dessa componente devariância devida ao 1o estágio?

3.3.7 Uma pesquisa é realizada com a finalidade de fornecer informações so-bre a produção de uma certa planta que só pode ser produzida comautorização do governo. As permissões concedidas no início da estaçãode cultivo foram usadas como fonte de informação. Essas permissõessão concedidas pelas prefeituras dos municípios. A amostra será feitaem 2 estágios: primeiramente seleciona-se uma amostra de municípios;em seguida, os entrevistadores visitarão as prefeituras dos municípiosselecionados, preparando então uma lista dos produtores que têm per-missão e selecionarão uma amostra de produtores. A seguir, visitarãoas fazendas coletando os dados necessários. Como nem todos os mu-nicípios possuem produtores dessa planta, cada município selecionadoterá um entrevistador exclusivo.

A seguir você encontrará alguns itens que compõem o custo da pesquisa.Indique com um X na coluna apropriada se os custos podem ser con-siderados parte do custo geral, custo de unidade de primeiro estágio oucusto de unidade de segundo estágio. (Marque um único X para cadaitem de custo apresentado).

Page 163: 84958247 Tecnicas de Amostragem Apostila Zelia

3.3. EXERCÍCIOS 157

Item (descrição) Geral 1o estágio 2o estágio

a) Impressão dos questionários.

b)Treinamento dos entrevistadores.

c) Obtenção da lista de municípiosque fornecem permissão.

d) Viagem aos municípios que for-necem permissão selecionados, paraselecionar amostra de produtores.

e) Seleção da amostra de municípioscom permissão.

f) Obtenção de informação dos pro-dutores selecionados.

g) Verificação do trabalho de campodos entrevistadores, feita pelos super-visores.

h) Crítica dos questionários coletados.

i) Preparação de um programa para ta-bulação dos resultados.

j) Preparação e divulgação dos resulta-dos finais da pesquisa.

3.3.8 Uma população está formada por N unidades elementares agrupadasem 50 conglomerados de tamanho desiguais Ni (i = 1, 2, · · · ,M). Ovalor de N =

MPi=1

Ni é conhecido e igual a 1.000. Com objetivo de es-

timar a proporção de unidades elementares pertencentes a uma certaclasse, foi decidido utilizar uma amostra de conglomerados com sub-amostragem. Em ambos os estágios foi empregado o procedimento deseleção com probabilidades iguais sem reposição.

Page 164: 84958247 Tecnicas de Amostragem Apostila Zelia

158 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

No 1o estágio foram selecionados 5 conglomerados com os seguintesvalores de Ni: 6, 10, 8, 20 e 60. No 2o com fração amostral f2i = 4

Ni,

foram obtidos os seguintes valores para o número de elementos quepertencem à classe em questão: 1, 3, 2, 2 e 3.

São fornecidos, ainda, os seguintes resultados:

s2e =1

m− 15X

i=1

(N 0iyi − yAc2)

2= 318, 67

5Xi=1

N 02i

N 0i − n0iN 0

i

s2in0i= 118, 78

5Xi=1

N 02i

³yi − y

RAc2

´2= 53, 20

a) Dê a probabilidade de que a unidade elementar j do conglom-erado i pertença a amostra e determine o número de unidadeselementares selecionadas em cada conglomerado.

b) Estime a proporção de unidades elementares que pertençam àclasse e o respectivo coeficiente de variação.

c) Dê as estimativas definidas em b) utilizando o estimador de razão,adotando o tamanho dos conglomerados como variável auxiliar.

d) Comente as vantagens e desvantagens do estimador usado em c)em relação ao usado em b).

3.3.9 Para estudar as condições de vida dos trabalhadores que vivem em umaárea industrial, foi selecionada uma amostra estratificada com 2 estágiosde seleção. Em cada estrato da amostra foram selecionadas 4 fábricascom probabilidade proporcional ao número de trabalhadores obtidosde um período anterior e de cada fábrica selecionada foi selecionadoaleatoriamente um certo número de trabalhadores, totalizando umaamostra de 1000 trabalhadores.

Sabe-se que foram definidos 4 estratos e que o número de trabalhadoresconhecidos de um período anterior em cada estrato é dado por:

N1 = 5.896 N2 = 43.096 N3 = 31.625 N4 = 10.7744P

h=1

Nh = 91.391

Page 165: 84958247 Tecnicas de Amostragem Apostila Zelia

3.3. EXERCÍCIOS 159

Determine o número de trabalhadores a serem selecionados em cadafábrica de tal modo a ter uma amostra autoponderada.

3.3.10 Explique qual a vantagem de se fazer uma amostra de conglomera-dos em 2 estágios ao invés de uma amostra de conglomerados em umestágio.

Page 166: 84958247 Tecnicas de Amostragem Apostila Zelia

160 CAPÍTULO 3. CONGLOMERADOS EM 2 ESTÁGIOS

Page 167: 84958247 Tecnicas de Amostragem Apostila Zelia

Capítulo 4

Conglomerados em 3 estágios

4.1 Introdução

A dificuldade de cadastramento para seleção da amostra se reduz à medidaem que aumenta o número de estágios. Mas no entanto, à medida em queaumenta o número de estágios, mais se torna complicada a expressão davariância do estimador.Seleciona-se uma amostra de r unidades primárias. Seja UP 0i a i-ésima

unidade primária da amostra. De cada unidade primária da amostra seleciona-se uma amostra de unidades secundárias. Desse modo na UP 0

i seleciona-seuma amostra de m0

i unidades secundárias. De cada unidade secundária daamostra seleciona-se uma amostra de unidades terciárias. Assim, na US

00ij

seleciona-se uma amostra de n00ij unidades terciárias.

Associado à UTijk (unidade terciária) a observação yijk,obtém-se a amostrafinal, constituída pelo conjunto:n

yijk

¯i = 1, 2, · · · , r; j = 1, 2, · · · ,m0

i; k = 1, 2, · · · , n00ij

osendo:

n =rX

i=1

m0iX

j=1

n00ij

4.2 Seleção com probabilidades desiguais

Seja Pi a probabilidade de seleção da unidade primária UPi (i = 1, 2, · · · , R) .De cada UP 0

i da amostra selecionam-sem0i unidades secundárias, tendo a USij

probabilidade de seleção Pij. Finalmente, da US00ij da amostra selecionam-se

n00ij unidades terciárias com equiprobabilidade.

161

Page 168: 84958247 Tecnicas de Amostragem Apostila Zelia

162 CAPÍTULO 4. CONGLOMERADOS EM 3 ESTÁGIOS

4.2.1 Estimador não viciado de Y

Considerando o processo em 2 estágios, o estimador do total da UP 0i é dado

por:

bY pi =

1

m0i

m0iX

j=1

N 00ij

P00ij

yij

logo, o estimador não viciado de Y é dado por:

bY pAc3 =

1

r

rXi=1

1

P 0ibY pi =

1

r

rXi=1

1

P 0i

1

m0i

m0iX

j=1

N 00ij

P00ij

yij

Caso particular de equiprobabilidade no 1o e 2o estágios:

P 0i =

1

Re P

00ij =

1

M 0i

bYAc3 = R

r

rXi=1

M 0i

m0i

m0iX

j=1

N 00ijyij

Amostra autoponderada (caso genérico)

A probabilidade da UTijk pertencer a amostra é dada por: rP0im

0iP

00ij

n00ij

N00ij

A amostra será autoponderada se esta probabilidade for constante e iguala fração geral de amostragem, isto é:

rP 0im

00i P

00ij

n00ij

N00ij

=n

N= f

Neste caso, o estimador bY pAc3 assume a mesma forma do estimador bYAc3 :

bY pAc3 =

bYAc3 = 1

f

rXi=1

m0iX

j=1

n00ijX

k=1

yijk

O capítulo seguinte apresenta alguns métodos especiais para a estimaçãodas variâncias de estimadores que são em geral aplicados em desenhos amostraiscomplexos.

Page 169: 84958247 Tecnicas de Amostragem Apostila Zelia

4.3. EXERCÍCIOS 163

4.3 Exercícios

4.3.1 Os estudantes de 1o grau de um determinado município estão distribuí-dos em 15 escolas, com uma média de 20 turmas por escola e estima-seque há um total de 10.000 estudantes. Deseja-se estimar a proporçãode alunos aprovados no último ano no município.

a) Represente esquematicamnete a população de interesse, definido ad-equadamente:

- unidades primárias;- unidades secundárias;- unidades terciárias;- a característica y.

b) Para uma característica genérica y, defina:

- a notação dos parâmetros para uma dada unidade primária (to-tal, média por unidade secundária e média por unidade dapopulação);

- a notação dos parâmetros da população (total, média por unidadeprimária, média por unidade secundária e média por unidadeda população).

c) Defina um esquema de amostragem de conglomerados em 3 estágiosque permita selecionar uma amostra probabilística das unidadesda população com o objetivo de estimar a proporção de alunosaprovados no último ano no município.

d) Considerando o esquema apresentado em c), obtenha um estimadornão viciado para a proporção de alunos aprovados no último anono município.

Page 170: 84958247 Tecnicas de Amostragem Apostila Zelia

164 CAPÍTULO 4. CONGLOMERADOS EM 3 ESTÁGIOS

Page 171: 84958247 Tecnicas de Amostragem Apostila Zelia

Capítulo 5

Estimação de variâncias

5.1 Porque é importante estimar variâncias?

Em amostragem, a estimação de variâncias é uma componente essencial daabordagem de inferência utilizada: sem estimativas de variância, não se teráindicação da precisão das estimativas.Tentação: é fácil ”esquecer” que os resultados das pesquisas são baseados

apenas em uma amostra da população, e portanto sujeitos ao erro amostral.Com uma estimativa de variância para cada estimativa de parâmetro de

interesse, é fácil obter intervalos de confiança e fazer inferências estatísticasadequadas:Estimativas de variância são também essenciais para comunicar aos usuários

da pesquisa sobre a qualidade e precisão dos resultados.Algumas vezes, problemas inesperados podem ser detectados mediante

análise das estimativas de variância: valores suspeitos (”outliers”), celasraras, etc.

5.2 Problemas para estimar variâncias

Para os casos ”regulares”, estimadores de variância estão disponíveis noslivros-texto de Amostragem. Entretanto, os pacotes estatísticos tradicionais(SAS, SPSS, BMDP, MINITAB, etc.) não fornecem estimadores de variânciadiretamente, nem mesmo para planos amostrais comuns tais como AAS eAES.Para alguns planos amostrais, as probabilidades de inclusão conjuntas (de

segunda ordem) podem ser nulas (como na amostragem sistemática) ou difí-ceis de calcular (como no caso de alguns planos amostrais com probabilidadesdesiguais).

165

Page 172: 84958247 Tecnicas de Amostragem Apostila Zelia

166 CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS

Em muitos casos, estimadores dos parâmetros de interesse são ”não lin-eares” (isto é, não são médias, totais ou proporções). Exemplos incluemrazões, correlações, coeficientes de regressão, quantis de distribuições, etc.Alguns estimadores de variância podem fornecer valores negativos (como

é o caso do estimador de variância de Horvitz-Thompson em alguns planosamostrais com probabilidades desiguais).

5.3 Métodos para estimar variâncias

Wolter (1985) enfatiza ambas a teoria e aplicações de vários métodos paraestimar variâncias.

5.3.1 Método de Linearização de Taylor ou δ-método

Um dos primeiros métodos, desenvolvido para fornecer estimadores de var-iância para estimadores não lineares.A hipótese básica deste método é que o parâmetro de interesse possa ser

representado como uma função de K totais populacionais, isto é:

θ = f(Y1, · · · , YK)

onde YK =NPi=1

yik são totais poulacionais para váriáveis de pesquisa

yk, k = 1, · · · ,K.O estimador amostral do parâmetro θ é dado por

bθ = f(bY1, · · · , bYK)onde bYK =

nPi=1

yikπié o estimador de Horvitz-Thompson do total Yk, k =

1, ...,K.Quando f é uma função linear, é fácil obter expressões de variância parabθ. Isto ocorre por causa da linearidade de f , já que neste caso

θ = a0 +KXk=1

akYk

e consequentemente

bθ = a0 +KXk=1

ak bYk

Page 173: 84958247 Tecnicas de Amostragem Apostila Zelia

5.3. MÉTODOS PARA ESTIMAR VARIÂNCIAS 167

Portanto, neste caso podemos usar propriedades de combinações linearesde variáveis aleatórias para obter

V³bθ´ = V

Ãa0 +

KXk=1

ak bYk!

=KXk=1

a2kV³bYk´+ KX

k=1

KXj 6=k

akajCOV (bYk, bYj)

Dessa forma, um estimador para a variância de pode ser facilmente obtidosubstituindo as variâncias e covariâncias na expressão acima por seus respec-tivos estimadores não viciados, levando a:

v³bθ´ = KX

k=1

a2kv³bYk´+ KX

k=1

KXj 6=k

akajcov(bYk, bYj)

Para funções de fato não lineares, a idéia é aproximar o estimador bθ poruma quantidade linearizada bθL, obtida mediante expansão da função f emsérie de Taylor em torno do ponto (Y1, · · · , YK), e desprezando-se o termo doresto, isto é: bθ ∼= bθL = θ +

KXk=1

ak³bYk − Yk

´onde

ak =∂f(bY1, · · · , bYK)

∂bYk¯Y1,··· ,YK=Y1,··· ,YK

para k = 1, ..., K.Para amostras grandes, o estimador não linear bθ terá comportamento

semelhante ao do estimador linearizado bθL , e portanto podemos usar a var-iância deste estimador linearizado como aproximação para a variância doestimador bθ . Isto é:

V³bθ´ = E

³bθ − θ´2 ∼= E

³bθL − θ´2

= E

ÃKXk=1

ak

³bYk − Yk

´!2

=KXk=1

a2kV³bYk´+ KX

k=1

KXj 6=k

akajCOV (bYk, bYj)

Page 174: 84958247 Tecnicas de Amostragem Apostila Zelia

168 CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS

A variância aproximada de bθ pode então ser obtida, bastando para issocalcular as derivadas da função f e substituir na expressão acima.Um estimador para a variância de bθ pode então ser facilmente obtido

usando

v³bθ´ = KX

k=1

ba2kv ³bYk´+ KXk=1

KXj 6=kbakbajcov(bYk, bYj

)

onde os valores de bak são as estimativas das derivadas ak obtidas substi-tuindo os totais Y1, · · · , YK pelas respectivas estimativas bY1, · · · , bYK .Notas:

1. Linearização de Taylor pode ser trabalhosa, pois para cada parâmetroou estimador de interesse é necessário calcular derivadas e fórmulasespecíficas.

2. Muitas estatísticas de interesse não podem ser facilmente escritas comofunções lineares de totais, como por exemplo a mediana e os quantis deuma distribuição.

3. Apesar disso, vários pacotes computacionais usam este método para es-timar variâncias e desvios padrões para diversas estatísticas, tais comomédias e totais para domínios, razões, coeficientes de regressão, e atémesmo quantis.

5.3.2 Método do Conglomerado Primário (Ultimate Clus-ter - Hansen et al, 1953)

O termo conglomerado primário (ultimate cluster) é usado para denotar oagregado de unidades incluídas na amostra de uma unidade primária.O valor agregado da característica y para o i-ésimo conglomerado primário

é yi;e o tamanho do i-ésimo conglomerado primário é ni.Esta definição de conglomerado primário é válida para qualquer número

de estágios de amostragem.Supondo que um município é amostrado como unidade primária e um

conjunto de 5 setores contendo 200 domicílios cada é selecionado do municípiocomo unidades secundárias e 20 domicílios são selecionados de cada setorselecionado. O conglomerado primário consiste do total da amostra de 100domicílios selecionados do município.A idéia central deste método para estimar variâncias de médias e totais,

em planos amostrais de múltiplos estágios, é considerar apenas a variação entreinformações disponíveis a nível das unidades primárias de amostragem (UPAs),

Page 175: 84958247 Tecnicas de Amostragem Apostila Zelia

5.3. MÉTODOS PARA ESTIMAR VARIÂNCIAS 169

isto é, a nível dos conglomerados primários, e supor que estes tivessem sidoselecionados por amostragem com reposição da população de UPAs.Trata-se de idéia simples, porém bastante poderosa, pois permite aco-

modar grande variedade de planos amostrais estratificados, conglomeradose com probabilidades desiguais (com ou sem reposição), tanto das unidadesprimárias como das demais unidades de amostragem.O requisito fundamental para aplicação deste método é que estejam dispo-

níveis estimadores não viciados dos totais da(s) variável(is) de interesse paracada um dos conglomerados primários selecionados, e que pelo menos doisdestes sejam selecionados em cada estrato (caso esta condição não seja sat-isfeita para alguns estratos, estes podem ser agrupados).Embora este método tenha sido proposto para estimar variâncias de mé-

dias e totais em planos amostrais de múltiplos estágios (portanto complexos),pode ser também aplicado em combinação com Linearização de Taylor paraobter estimativas de variâncias para estatísticas não lineares que possam serescritas como funções de totais.Este método fornece, juntamente com a Linearização de Taylor, a base

metodológica de vários pacotes especializados para estimação de variâncias,tais como SUDAAN, STATA, CENVAR e PC-CARP, entre outros.Considere um plano amostral em vários estágios, com mh ≥ 2 unidades

primárias selecionadas do estrato h, h = 1, ..., L.Denote por πhi a probabilidade de inclusão na amostra da i-ésima UPA

(conglomerado primário) do estrato h, e por bYhi um estimador não viciadodo total Yhi da característica de interesse y na i-ésima UPA do estrato h,h = 1, ..., L.

Um estimador não viciado do total populacional Y =LP

h=1

MhPi=1

Yhi é dado

por

bYCP = LXh=1

mhXi=1

bYhiπhi

e um estimador não viciado da variância correspondente é dado por

v³bYCP´ = LX

h=1

mh

mh − 1mhXi=1

à bYhiπhi−bYhmh

!2

onde bYh = mhPi=1

bYhiπhi

para h = 1, ..., L.

Embora muitas vezes a seleção das unidades primárias seja feita semreposição, o estimador de Conglomerados Primários aqui apresentado podefornecer uma aproximação razoável da variância de aleatorização desejada.

Page 176: 84958247 Tecnicas de Amostragem Apostila Zelia

170 CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS

Isso ocorre porque planos amostrais sem reposição geralmente são maiseficientes que planos de mesmo tamanho com reposição.Esta aproximação é bastante usada na prática por sua simplicidade, em

comparação com os estimadores de variância que procuram incorporar todosos estágios do plano amostral.

5.3.3 Métodos de Replicação

A idéia de métodos de replicação para estimar variâncias em Amostragemnão é nova, e foi primeiramente proposta por Mahalanobis em 1939.O segredo é construir sua amostra de tamanho n mediante a seleção de

G amostras independentes de tamanhon

Gcada uma, usando o mesmo plano

amostral, onde G é o número de replicações.

Então, se θ é o parâmetro alvo, e bθg é um estimador não viciado baseadona réplica g, é imediato notar que:

bθR = 1

G

GXg=1

bθgé um estimador não viciado de θ e

v³bθR´ = G

G− 1GXg=1

³bθg − bθR´2é um estimador não viciado da variância do estimador de replicação bθR.O resultado acima vale para qualquer plano amostral adotado para sele-

cionar cada réplica.A abordagem de replicação é bastante geral. É válida para qualquer

estimador, não somente para aqueles que podem ser escritos como funçõesde totais.Aplicações práticas ”exatas” dessa técnica são raras, entretanto, devido

as seguintes causas:

a) algumas vezes é caro e inconveniente selecionar de fato G amostrasindependentes segundo o mesmo plano amostral;

b) Se G for pequeno, o estimador de variância pode ser instável.

Aplicação: US Consumer Price Index (CPI) - usa 3 réplicas de um planoamostral com estratificação detalhada e múltiplos estágios de conglomeração.

Page 177: 84958247 Tecnicas de Amostragem Apostila Zelia

5.3. MÉTODOS PARA ESTIMAR VARIÂNCIAS 171

Método dos Grupos Aleatórios Algumas vezes, a amostra é subdivididaem grupos após a seleção. Se as amostras nos diversos grupos puderem serconsideradas como ”aproximadamente independentes”, então o estimadorde variância proposto serve como uma aproximação para a variância do esti-mador.Note que a divisão da amostra em grupos deve considerar o plano amostral.Sob planois amostrais estratificados, há duas alternativas:

a) aplicar o método de grupos aleatórios para estimar as variâncias dentrodos estratos; ou

b) aplicar o método de grupos aleatórios à amostra como um todo, preser-vando a estratificação quando da divisão da amostra em grupos - estaopção requer amostras grandes o bastante em cada estrato para permi-tir a subdivisão em G grupos.

Freqüentemente as UPAs são alocadas nos grupos aleatórios carregandotodas as unidades amostrais a elas subordinadas.Um outro estimador de variância empregado com o método de grupos

aleatórios é o que considera diferenças em relação a um estimador de amostracompleta bθ, a saber:

v³bθ´ = G

G− 1GXg=1

³bθg − bθ´2Método Jackknife Este método foi inventado como uma técnica pararedução de vício na estatística clássica (Quenouille, 1949, 1956).A idéia consiste em dividir a amostra em G grupos mutuamnete ex-

clusivos, cada um de tamanhon

G. Em seguida, são calculados os ”pseudo-

valores” bθ(g) dados porbθ(g) = Gbθ − (G− 1)bθg

onde, bθg é uma estimativa de θ obtida da amostra após a exclusão dasunidades do grupo g, usando a mesma forma funcional que se teria aplicadocom a amostra completa (no caso, o estimador bθ).Planos amostrais estratificados não estão cobertos imediatamente pela

descrição acima. A situação é mais complicada nesse caso. Consulte Wolter(1985).Estima-se a variância usando um dos estimadores:

Page 178: 84958247 Tecnicas de Amostragem Apostila Zelia

172 CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS

vJ1

³bθ´ = 1

G (G− 1)GXg=1

³bθ(g) − bθJK´2

vJ2³bθ´ = 1

G (G− 1)GXg=1

³bθ(g) − bθ´2onde bθJK = 1

G

GPg=1

bθ(g).Notas:

1. O estimador de Jackknife bθJK de θ poderia ser utilizado como umestimador alternativo ao estimador de amostra completa bθ.

2. vJ2³bθ´ é um estimador mais conservador da variância do que vJ1 ³bθ´ .

3. Freqüentemente se toma n = G e se elimina uma observação da amostrade cada vez.

4. Com planos amostrais de múltiplos estágios, eliminam-se UPAs inteirasda amostra de cada vez. Isto é, se uma UPA é excluída, excluem-se aomesmo tempo todas as unidades a ela subordinadas.

Justificativas para o estimador Jackknife de variância:

a) quando a estatística for linear, os estimadores de variância coincidemcom estimadores usuais;

b) evidência empírica (limitada).

5.4 Sistemas para estimação de variâncias

A maior parte das pesquisas realizadas por agências de estatísticas oficiaisusam alguma forma de plano amostral estratificado em múltiplos estágios.Cálculos de variâncias, mesmo para estimadores lineares, podem se tornar

trabalhosos de programar.Programas desenvolvidos ”sob medida” custam mais caro e aumentam

risco de erros e prazos de obtenção de resultados.Alternativa: usar pacotes prontos.Problema: pacotes padrões (SAS, SPSS, BMDP, MINITAB, etc.) calcu-

lam variâncias supondo que as observações amostrais são IID (independentes

Page 179: 84958247 Tecnicas de Amostragem Apostila Zelia

5.4. SISTEMAS PARA ESTIMAÇÃO DE VARIÂNCIAS 173

e identicamente distribuídas), e portanto IGNORANDO a natureza complexado plano amostral empregado para obter os dados.Isto geralmente levaria a obter estimativas dos desvios padrões severa-

mente viciadas. Em alguns casos, a subestimação das variâncias pode serbastante grande, especialmente com planos amostrais muito conglomerados.Solução: usar pacotes especializados para estimação de variâncias em

amostras complexas.

Alguns pacotes atualmente disponíveis incluem:

• SUDAAN (Research Triangle Institute)• WESVARPC (Westat Inc.)• GES (Statistics Canada)• STATA (Stata Corporation)• CENVAR (US Bureau of Census)• Biblioteca ADAC (Análise de Dados Amostrais Complexos) do SistemaR (Coordenação de Métodos e Qualidade / Diretoria de Pesquisas /IBGE - Prof. Djalma Galvão Pessoa)

Vantagens de usar pacotes especializados prontos incluem:

- cálculo de estimativas para proporções, médias e totais e seus desviospadrões facilmente tratados;

- desvios padrões disponíveis para estatísticas tais como razões de mé-dias, médias de domínios e suas diferenças, coeficientes de regressão,correlações, etc.;

- algoritmos numéricos exaustivamente testados, reduzindo as chancesde erros de cálculo;

- computação eficiente;

- usuário pode se concentrar no que calcular, e não em como calcular;

- mais barato que desenvolvimento local;

- testes de hipóteses e p-valores também disponíveis.

Desvantagens de usar pacotes especializados prontos incluem:

Page 180: 84958247 Tecnicas de Amostragem Apostila Zelia

174 CAPÍTULO 5. ESTIMAÇÃO DE VARIÂNCIAS

- abrangência limitada - pacotes não podem fazer tudo;

- pacotes não avaliam estimativas, apenas calculam;

- integração com outros pacotes pode ser difícil;

- necessário investir na aquisição e manutenção da licença do pacote,mais treinamento do pessoal usuário;

- resultados produzidos precisam ser editorados antes de servir para pub-licação.

Conclusões

- Vantagens devem mais que compensar desvantagens.

- Uso de pacotes especializados para estimação de variâncias é altamenterecomendável.

- Você provavelmente não consegue fazer melhor sem pacotes, dadas re-strições de tempo e recursos.

- Poupe seu tempo e esforço para melhorias verdadeiras do processo depesquisa.

Page 181: 84958247 Tecnicas de Amostragem Apostila Zelia

Capítulo 6

Dupla amostragem

6.1 Descrição da técnica

Como visto, em muitos casos é conveniente o uso de informações adicionaissobre uma variável auxiliar, que nos permite melhorar a precisão das esti-mativas. Vimos por exemplo, como a estratificação produz amostras maisrepresentativas, e como se pode obter estimadores mais precisos; o mesmoocorre, sob certas condições, com os estimadores de razão e com o uso deprobabilidades desiguais de seleção.

Nestes casos a teoria estudada até aqui supõe que é conhecida a infor-mação prévia para a formação dos estimadores mencionados. Na práticapode não ser viável, então coloca-se a possibilidade de selecionar uma 1a

amostra, relativamente grande, em que com um baixo custo pode-se obser-var uma ou várias características gerais das unidades que nos proporcionea(s) informação(ões) que necessitamos.

Em uma 2a fase selecionamos uma subamostra da 1a, em que observamosa(s) característica(s) objeto de estimação. Esta técnica é conhecida comodupla amostragem ou amostragem em 2 fases.

A dupla amostragem (ou amostragem em duas fases) pode ser general-izada para qualquer número de fases, dando lugar à amostragem multifásica.

Na amostragem multifásica se utiliza as mesmas unidades de amostragemem todas as fases, diferentemente da amostragem em múltiplos estágios ondehá uma hierarquia das unidades de amostragem que variam de estágio paraestágio.

175

Page 182: 84958247 Tecnicas de Amostragem Apostila Zelia

176 CAPÍTULO 6. DUPLA AMOSTRAGEM

6.2 Considerações sobre o custo

É evidente que a conveniência desta técnica de amostragem depende doscustos, se a observação da característica que nos interessa não tem custo,ou é muito baixo, tomaríamos uma amostra do tamanho necessário para aprecisão desejada e com ela faríamos as estimações.Suponha que dispomos de um pressuposto custo total C; que o custo por

unidade da 1a amostra de tamanho n0 é c0; e que o custo por unidade da 2a

amostra de tamanho n << n0 é c (c0 << C).Nestas condições temos:

se selecionarmos uma só amostra: C = c n0; e

se fizermos dupla amostragem: C = c0 n0 + c n

igualando os custos totais, tem-se:

n0 = n+c0

cn0

Logo, com a técnica de dupla amostragem a observação efetiva se faz comuma amostra de tamanho n, menor que n0, que corresponde a uma amostraaleatória simples em uma fase com o mesmo custo total.

Por exemplo, sec0

C= 0, 1, o tamanho n0 = 1.000 é equivalente aos tama-

nhos n = 400 e n0 = 6.000. A diminuição de n0 − n = 600 unidades notamanho da amostra efetiva produzirá uma perda em precisão.A questão que se coloca é decidir se compensa a diminuição do tamanho

efetivo da amostra, com o aumento de informação adquirida na 1a fase. Paraisso, deve-se calcular a variância correspondente com a aplicação da duplaamostragem e compará-la com a de uma amostra de uma só fase (σ

2

n0, no caso

da estimação da média com amostragem aleatória simples).

É óbvio que quanto menor for a relaçãoc0

Cmais favorável é o uso da dupla

amostragem, mas não é o único parâmetro a ser considerado.Em amostragem com reposição a variância dos estimadores toma a forma:

V =k1n+

k2n0

que é válida para amostragem sem reposição quando as frações são pequenas.Esta variância pode ser minimizada para um custo total dado e nos fornece,através dos multiplicadores de Lagrange, os tamanhos ótimos de n0 e n.

Page 183: 84958247 Tecnicas de Amostragem Apostila Zelia

6.3. DUPLA AMOSTRAGEM PARA ESTRATIFICAÇÃO 177

6.3 Dupla amostragem para estratificação

Seleciona-se a 1a amostra de tamanho n0, através de um esquema aleatório.Utiliza-se essa amostra para estratificar as unidades, atendendo a uma ouvárias características que observamos, assim como para estimar a proporçãode unidades da população pertencentes a cada estrato, supondo que a popu-lação seja estratificada em L estratos.Sejam n01, n

02, · · · , n0L onde n0h é o número de unidades na amostra (da 1a

fase) em cada estrato h e a respectiva proporção:

wh =n0hn0

A segunda fase consiste em tomar uma subamostra aleatória de tamanhonh ≤ n0h em cada estrato h, independentemente.O estimador usual da média em amostragem estratificada é:

yest =LX

h=1

Whyh

em dupla amostragem os Wh são estimados pelos wh obtidos da 1a amostrae com a 2a amostra estimamos as médias, tomando:

yh =yhnh

de forma que resulta no estimador para a média:

yd,est =LX

h=1

whyh

yd,est é não viciado, pois:

E¡yd,est

¢= E

(Ew

ÃLX

h=1

whyh

!)= E

ÃLX

h=1

whEw (yh)

!

= E

ÃLX

h=1

whY h

!=

LXh=1

E (wh)Y h =LX

h=1

WhY h = Y

onde:Ew (T ) expressa a esperança matemática de uma estatística T condi-

cionada ao conjunto de amostras da 1a fase, nas quais n01, n02, · · · , n0L são

fixos e para um dado n0, w1, w2, · · · , wL são fixos.

Page 184: 84958247 Tecnicas de Amostragem Apostila Zelia

178 CAPÍTULO 6. DUPLA AMOSTRAGEM

V¡yd,est

¢= V

¡Ew

¡yd,est

¢¢+E

¡Vw¡yd,est

¢¢

V¡Ew

¡yd,est

¢¢= V

ÃLX

h=1

whY h

!= V

ÃLX

h=1

¡Y h

¢2wh

!

=LX

h=1

¡Y h

¢2V (wh) +

LXh6=k

Y hY kCOV (wh, wk)

as V (wh) e COV (wh, wk) em amostragem sem reposição, usando a dis-tribuição hipergeométrica para L classes, são dadas por:

V (wh) =N − n0

N − 1Wh (1−Wh)

n0

e

COV (wh) = − N − n0

N − 1WhWj

n0

Logo:

V¡Ew

¡yd,est

¢¢= g0

(LX

h=1

¡Y h

¢2 Wh (1−Wh)

n0−

LXh 6=k

Y hY kWhWj

n0

)

=g0

n0

(LX

h=1

¡Y h

¢2Wh −

LXh=1

¡Y h

¢2(Wh)

2 −LX

h 6=kY hWh

LXk=1

Y kWk

)

=g0

n0

LX

h=1

¡Y h

¢2Wh −

ÃLX

h=1

WhY h

!2=

g0

n0

(LX

h=1

Wh

¡Y h − Y

¢2)

sendo: g0 =N − n0

N − 1 .Por outro lado, tem-se:

Page 185: 84958247 Tecnicas de Amostragem Apostila Zelia

6.3. DUPLA AMOSTRAGEM PARA ESTRATIFICAÇÃO 179

E¡Vw¡yd,est

¢¢= E

ÃVw

ÃLX

h=1

whyh

!!= E

ÃLX

h=1

(wh)2 Vw (yh)

!

= E

ÃLX

h=1

(wh)2 (1− fh)

S2hnh

!=

LXh=1

E (wh)2 (1− fh)

S2hnh

=LX

h=1

(1− fh)S2hnh

¡V (wh) +W 2

h

¢=

LXh=1

(1− fh)S2hnh

µg0Wh (1−Wh)

n0+W 2

h

¶Portanto:

V¡yd,est

¢=

g0

n0

(LX

h=1

Wh

¡Y h − Y

¢2)+

LXh=1

(1− fh)S2hnh

µg0Wh (1−Wh)

n0+W 2

h

¶onde:

fh é a fração de amostragem da 2a fase, supondo que a seleção foi comprobabilidades iguais e sem reposição nas fases.Observe que n0 aparece no denominador na expressão da variância. Por-

tanto, quanto maior n0 (n0 < N) a perda de precisão pelo uso da duplaamostragem diminui. Obviamente o custo aumenta, razão pela qual convémestudar os tamanhos ótimos em função do custo.Se a amostra é com reposição na 1a fase temos:

V¡yd,est

¢=

LXh=1

(1− fh)S2hnh

µW 2

h +Wh (1−Wh)

n0

¶+1

n0

LXh=1

Wh

¡Y h − Y

¢2fórmula aproximada para n0 pequeno em relação a N em caso sem reposição.Se a amostra é com reposição nas 2 fases:

V¡yd,est

¢=

LXh=1

σ2hnh

µW 2

h +Wh (1−Wh)

n0

¶+1

n0

LXh=1

Wh

¡Y h − Y

¢2fórmula aproximada para nh pequeno em relação a Nh , ∀h e n0 pequeno emrelação a N no caso sem reposição.

Page 186: 84958247 Tecnicas de Amostragem Apostila Zelia

180 CAPÍTULO 6. DUPLA AMOSTRAGEM

Para o total Y = NY , o estimador não viciado bYd,est = N yd,est e a

variância V³bYd,est´ = N2V

¡yd,est

¢.

Observe que se na amostra da 1a fase n0 = N , isto é, se observa todas asunidades da população para efetuar a estratificação, então g0 = 0 e a fórmulageral da variância do estimador de dupla amostragem fica:

V¡yd,est

¢=

LXh=1

(1− fh)W2h

S2hnh

que coincide com a variância de uma amostra estratificada usual em umaúnica fase.

6.3.1 Estimador não viciado para V¡yd,est

¢Um estimador não viciado para a variância do estimador da média em duplaamostragem para estratificação com reposição V

¡yd,est

¢é dado por:

v¡yd,est

¢=

n0

n0 − 1

(LX

h=1

s2hnh

³w2h +

wh

n0

´+1

n0

LXh=1

wh

¡yh − yd,est

¢2)

n0

n0 − 1∼= 1 se n0 não for pequeno, então:

v¡yd,est

¢=

LXh=1

s2hnh

³w2h +

wh

n0

´+1

n0

LXh=1

wh

¡yh − yd,est

¢2

6.3.2 Estimação de uma proporção na dupla amostragempara estratificação

Se se deseja estimar uma proporção PA de um atributo A na população,sendo PAh a correspondente proporção no estrato h, o estimador não viciadona dupla amostragem é:

pA(d,est) =LX

h=1

whpAh

Page 187: 84958247 Tecnicas de Amostragem Apostila Zelia

6.4. DUPLA AMOSTRAGEM PARA ESTIMADORES DE RAZÃO 181

sendo: pAh a proporção amostral do atributo A na 2a fase.

V¡pA(d,est)

¢=

LXh=1

(1− fh)PAhQAh

nh

µW 2

h +g0Wh (1−Wh)

n0

+g0

n0

(LX

h=1

Wh (PAh − PA)2

)sendo:

S2h =Nh

Nh − 1PAhQAh∼= PAhQAh

Em amostragem com reposição nas 2 fases, ou sem reposição e tamanhosamostrais pequenos com relação à população (fh ∼= 0 e g0 ∼= 1).

V¡pA(d,est)

¢=

LXh=1

PAhQAh

nh

µW 2

h +Wh (1−Wh)

n0

+1

n0

(LX

h=1

Wh (PAh − PA)2

)Para o total do atributo A = N PA, o estimador é:bAd,est = NpA(d,est)

eV³ bAd,est

´= N2V

¡pA(d,est)

¢6.4 Dupla amostragem para estimadores de

razão

O estimador usual de razão para a média Y utiliza como informação previa-mente conhecida da média X (ou total) de uma característica x, definida emtodas as unidades da população, escolhida convenientemente de modo quesua relação com y seja linear pelo menos aproximadamente.Em dupla amostragem utiliza-se a 1a amostra de tamanho n0 para obter

uma boa estimativa de X (ou de X) e a 2a amostra de tamanho n paraestimar y e x. Desta forma o estimador de razão para a média em duplaamostragem é:

yd,R =y

xx0

sendo x0 a média estimada usando as informações da amsotra da 1a fase.Com este procedimento de dupla amostragem cabe considerar duas pos-

sibilidades:

Page 188: 84958247 Tecnicas de Amostragem Apostila Zelia

182 CAPÍTULO 6. DUPLA AMOSTRAGEM

1. a 2a amostra é uma amostra aleatória da população selecionada inde-pendentemente da 1a;

2. a 2a amostra é uma subamostra aleatória da 1a. Em ambos casos con-siderar n ≤ n

0.

Em qualquer caso: E¡yd,R

¢= X E

³ bR´ e será não viciado se bR = y

xfor

não viciado.Para calcular o erro médio quadrático que coincida com a variância quando

E³ bR´ = R =

Y

X

temos:

yd,R − Y =y

xx0 − Y = bRx0 − Y = bRx0 −RX

= bRx0 −RX +RX −RX

= X³ bR−R

´+ bR ¡x0 −X

¢=

X

x

³y − bRx

´+ bR ¡x0 −X

¢utilizando as aproximações: bR ∼= R e

X

x∼= 1.

Podemos escrever para o cálculo aproximado da variância do estimador:

V¡yd,R

¢= E

©(y −Rx) +R

¡x0 −X

¢ª2= V

©(y −Rx) +R

¡x0 −X

¢ª= V (y −Rx) + V

¡R¡x0 −X

¢¢+ 2RCOV

©(y −Rx)

¡x0 −X

¢ª= V (y) +R2V (x)− 2RCOV (x, y) +R2V (x0) +

+2RCOV (y, x0)− 2R2COV (x, x0)

No caso em que as amostras das 2 fases são independentes, as covariânciasse anulam entre (x, y) e (x, x0), resultando:

V¡yd,R

¢= V (y) +R2V (x)− 2RCOV (x, y) +R2V (x0)

V¡yd,R

¢=1

n

©σ2y +R2σ2x − 2Rσxy

ª+1

n0R2σ2x

Page 189: 84958247 Tecnicas de Amostragem Apostila Zelia

6.5. DUPLAAMOSTRAGEMPARAPROBABILIDADESDESIGUAIS183

fórmula válida para amostragem com reposição (no caso de sem reposição,usar fator de correção de populações finitas).Para o caso em que a 2a amostra de tamanho n é uma subamostra

aleatória da 1a¡n ≤ n

0¢temos que calcular as covariâncias.

Fixando a amostra da 1a fase:

Ew0 (y) = y0 e Ew0 (x) = x0

por y e x serem médias de subamostras aleatórias =⇒

COV (y, x0) = E (y, x0)−E (y )E ( x0)= E (Ew0 (y, x

0))− E (Ew0 (y ))E (Ew0 ( x0))

= E (y0, x0)−E (y 0)E (x 0) = COV (y0, x0)

=σxyn0

analogamente:

COV (x, x0) =σ2xn0

Logo:

V¡yd,R

¢=

1

n

©σ2y +R2σ2x − 2Rσxy

ª+1

n0R2σ2x +

− 1n02R2σ2x +

1

n02Rσxy

=1

n

©σ2y +R2σ2x − 2Rσxy

ª+1

n0©2Rσxy − R2σ2x

ªadmitindo com reposição.

Se n0 = N =⇒ COV (x, x0) = COV (y, x0) = 0,então V¡yd,R

¢reduz à

variância do estimador de razão em uma única fase.

6.5 Dupla amostragem para probabilidadesdesiguais

O estimador usual do total Y , com probabilidades de seleção das unidadesproporcionais a uma medida de tamanho, seja Mi, é dado por:

bY = 1

n

nXi=1

yiPi

Page 190: 84958247 Tecnicas de Amostragem Apostila Zelia

184 CAPÍTULO 6. DUPLA AMOSTRAGEM

com: Pi =Mi

M.

Se não se conhece a priori os tamanhos das unidades da população, pode-mos tomar uma amostra aleatória da população de tamanho n0 com probabil-idades iguais, para obter informação acerca dos tamanhos M1,M2, · · · ,Mn0 ,

sendo M 0 =n0Pi=1

Mi. Nestas condições se toma uma subamostra de tamanho

n < n0, para formar o estimador de dupla amostragem baseado em:

Mi

N

n0M 0

como esstimador deMi

M= Pi

e o estimador não viciado de total fica da forma:

bY pd =

nXi=1

N

n0M 0

n

yiMi

=NM 0

nn0

nXi=1

yiMi

E³bY p

d

´= E

ÃN

n0Ew0

ÃnXi=1

M 0

n

yiMi

!!= E

µN

n0y0¶= Y

onde:Ew0 indica a esperança da 1a amostra fixa com probabilidade proporcional

ao tamanho;y0 é o total da amostra da 1a fase, tomando n0, tomada com probabili-

dades iguais.Supondo que a 1a amostra seja selecionada com probabilidades iguais e

sem reposição e a 2a amostra com probabilidades proporcionais ao tamanhoe com reposição, a variância do estimador de total é dada por:

V³bY p

d

´=

N

N − 1n0 − 1nn0

NXi=1

Pi

µYiPi− Y

¶2+

N (N − n0)n0

S2y

se n0 é grande entãon0 − 1n0

∼= 1 então:

V³bY p

d

´=1

n

NXi=1

Pi

µYiPi− Y

¶2+

N (N − n0)n0

S2y

Page 191: 84958247 Tecnicas de Amostragem Apostila Zelia

Bibliografia

[1] Albieri, S. e Dias, A.J.R. (1994). Metodologia de expansão da amostrado censo demográfico de 1991: uma descrição resumida. Rio de Janeiro:IBGE, Divisão de Metodologia.

[2] Andersson, C. e Nordberg, L. (1994). A method for variance estima-tion of non-linear functions of totals in surveys - theory and softwareimplementation. Journal of Official Statistics, 10, 395-406.

[3] Cochran, W.G. (1977). Sampling Techniques, third edition. New York:John Wiley & Sons.

[4] Deville, J.C. e Särndal, C.E. (1992). Calibration estimators in surveysampling. Journal of the American Statistical Association, 87, 376-382.

[5] Estevao, V., Hidiroglou, M.A. e Särndal, C.E. (1995). Methodologicalprinciples for a generalized estimation system at Statistics Canada. Jour-nal of Official Statistics, 11, 181-204.

[6] Fieller, E. C. (1932). The distribution of the index in a normal bivariatepopulation. Biometrika, 24, 428-440.

[7] Hanif, M. and Brewer, K.R.W. (1980). Sampling with unequal proba-bilities without replacement. International Statistical Review,Voorburg:Holand, 48: 317-35.

[8] Hansen, Morris H; Hurvitz, William N. and Madow, William G. (1953).Sample Survey Methods and Theory (vol. I and II). New York: JohnWiley & Sons.

[9] Hartley, H.O. et alli. (1962). Sampling with unequal probabilities with-out replacement. Annals of Mathematical Statistics, Hayward; EUA, 33:350-74.

185

Page 192: 84958247 Tecnicas de Amostragem Apostila Zelia

186 BIBLIOGRAFIA

[10] Horvitz, D.G., and Thompson, D.J. (1952). A generalization of samplingwithout replacement from a finite universe. Jour. Amer. Stat. Assoc.,47, 663-685.

[11] IBGE (1983).Metodologia do censo demográfico de 1980. Rio de Janeiro:Série Relatórios Metodológicos, v. 4.

[12] Kish, L. (1965) Survey Sampling. New York: John Wiley & Sons.

[13] Lima, J.M.(1985). Seleção de amostra com probabilidades desiguais -o método dos grupos aleatórios. Rio de Janeiro: IMPA, (Informes deMatemática Série D-015/85 - Tese de Mestrado).

[14] Mahalanobis, P.C. (1939). A Sample Survey of the Acreage Under Jutein Bengal. Sankhya 4, 511-531.

[15] Nascimento, W.A. (1981). Amostragem de Conglomerados.IBGE/ENCE.

[16] Quenouille, M.H. (1949). Aproximate Tests of Correlation in Time Se-ries. Journal of the Royal Statistical Society, B 11, 68-84.

[17] Quenouille, M.H. (1956). Notes on Bias in Estimation. Biometrika 43,353-360.

[18] Paulson, E. (1942). A note on the estimation of some mean values for abivariate distribution. Ann. Math. Stat., 13, 440-444.

[19] Pessoa, D.G.C. e Silva, P.L.N. (1998). Análise de dados em planosamostrais complexos. Minicurso do SINAPE 1998.

[20] Raj, Des. (1968). Sampling Theory. Bombay, New Delhi: Tata McGraw-Hill.

[21] Särndal, C.E., Swensson, B. e Wretman, J. (1992).Model assisted surveysampling. New York: Springer-Verlag.

[22] Shah, B.V., Barnwell, B.G., Hunt, P.N. e LaVange, L.M. (1992). SUD-DAN user’s manual - professional software for survey data analysis formulti-stage sample designs - release 6.0. North Carolina: Research Tri-angle Institute.

[23] Silva, P.L.N. (1996). Planejamento, estimação e análise de dados empesquisas por amostragem: desvendando a realidade brasileira com o”telescópio da estatística”. Rio de Janeiro: IBGE.

Page 193: 84958247 Tecnicas de Amostragem Apostila Zelia

BIBLIOGRAFIA 187

[24] Silva, P.L.N. (1996). Utilizing auxiliary information in sample surveyestimation and analysis. Southampton: Department of Social Statistics,University of Southampton, tese de doutorado.

[25] Silva, P.L.N., Bianchini, Z.M. e Albieri, S. (1993). Uma proposta demetodologia para a expansão da amostra do censo demográfico de 1991.Rio de Janeiro: IBGE, Diretoria de Pesquisas, Série Textos para Dis-cussão, n. 62.

[26] Silva, P.L.N., Silva, D.B.N., Moura, F.A.S. e Jooris, L.R. (1995). Frameproblems and survey design for the Brazilian annual retail and wholesaletrade survey. Artigo submetido para publicação na revista Estadística.

[27] Silva, P.L.N. e Skinner, C.J. (1995). Estimating distribution functionswith auxiliary information using poststratification. Journal of OfficialStatistics, 11, 277-294.

[28] Silva, P.L.N. e Skinner, C.J. (1996). Variable selection for regressionestimation in finite populations. Artigo submetido para publicação noJournal of the American Statistical Association.

[29] Skinner, C. J., Holt, D. and Smith, T.M.F. (1989). Analysis of ComplexSurveys. Chichester: Wiley.

[30] Thompson, S.K. (1992). Sampling. New York: John Wiley & Sons.

[31] Westat (1995). A user’s guide to WesVarPC, version 1.0. Rockville:Westat.

[32] Wolter, K.M. (1985). Introduction to Variance Estimation. New York:Springer-Verlag.