amostragem por conglomerados
TRANSCRIPT
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Amostragem por conglomerados
Estatıstica Aplicada aEngenharia1
1Universidade Federal do Vale do Sao Francisco
16 de abril de 2015
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Amostragem
Por que realizar um estudo por amostragem?
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Tipos de Amostragem
Probabilıstica
Amostragem Aleatoria SimplesAmostragem SistematicaAmostragem estratificadaAmostragem por conglomerados*
Nao-probabilıstica
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Exemplo:Estudar a populacao de uma cidade, dispondo apenas do mapados quarteiroes da cidade.Neste caso, nao temos a relacao dos moradores da cidade,restando o uso dos subgrupos heterogeneos (conglomerados).Para realizar o estudo estatıstico sobre a cidade, realizaremosos seguintes procedimentos:
1 Numerar os quarteiroes de 1 a n;
2 Escrever os numeros de 1 a n em pedacos de papel ecoloca-los em uma urna;
3 Retirar um pedaco de papel da urna e realizar o estudosobre os elementos do conglomerado selecionado.
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Porque utilizamos amostragem por conglomerados?
Vantagens;Desvantagens.
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Modalidades de sorteio
Sorteio em estagio unico:Combinacao simples: n!
p!(n−p)!
Sorteio em dois estagios:
f =np i l o t o
Np o p
f = f1 ∗ f2
f1 = nN , e a probabilidade de o j − esimo conglomerado ser
sorteado;f2 = f
f1, E a probabilidade de a i − esimo elemento ser
sorteado dentro do conglomerado j .npi l o t o = quantidade da amostra piloto;Npo p = quantidade da populacao;
Como f = f ∗ f2, segue que f2 = ff1
e bj = (f2 ∗ Bj )Ou seja,
f 2 =np i l o t o
Npo pnN
e bj = f2 ∗ Bj
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Sorteio em dois estagios com probabilidade proporcionalao tamanho dos conglomerados (PPT):
Partindo da expressao:f = f1 ∗ f2
E considerando:npi l o t o = n ∗mOnde:m = numero de subunidades/elementos a seremamostradas por conglomerado.
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Conglomerados de tamanhos iguais
Notacao
N = Numero total de potencial de conglomerados dapopulacao;M = Numero de subunidades cabıveis no conglomerado;n = Numero de conglomerados amostrados;m = Numero de subunidades amostradas porconglomerado;Xi j = Variavel de interesse.
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Estimadores
Media geral por subunidade
X =
∑ni=1
∑mj=1 Xi j
nmMedia das subunidades por conglomerado
Xi =
∑mj=1 Xi j
mVariancia total por subunidadeS2
x = 1n∗m−1
∑ni=1
∑mj=1(Xi j − X )
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Analisando a variancia, temos que:S2
x = S2e + S2
d
Onde:S2
e = Variancia entre conglomerados;S2
d = Variancia dentro dos conglomerados.As estimativas serao obtidas atraves da analise da variancia:E (QMe nt r e) = S2
d + mS2e
E (QMd e nt r o) = S2d
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Onde:
QMd e nt r o =∑n
i=1
∑mj=1(Xi j−X )2
n(m−1) = S2d , que e uma estimativa
sem tendencia de S2d .
QMe nt r e =∑m
i=1(Xi−X )2
n−1 , que e uma tendenciosa de S2e .
Ja a estimativa de S2e sem tendencia e expressa por:
S2e = QMe nt r e−QMd e nt r o
mDesta forma temos que a estimativa da variancia total e:S2
x = S2e + S2
d = QMe nt r e +(m−1)QMd e nt r o
m
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Coeficiente de correlacaointraconglomerados
O coeficiente de correlacao intraconglomerados e definidocomo o grau de similaridade entre subunidades dentro dosconglomerados.
ρ = σ2e
σ2e +σ2
d, ou r = S2
e
S2e +S2
d, 0 ≤ ρ ou r ≤ 1
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Variancia da media:
Para populacao finita: S2x =
(N−n
N
) S2e
n +S2
d
m
Para populacao infinita: S2x =
S2e
n +S2
d
nmOu:S2
x =S2
x
nm [1 + r(m − 1)], onde a variancia da media eafetada pelo coeficiente de correlacao.
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Erro padrao da media:S2
x = ±√
S2x
Erro de amostragem
Erro absoluto:Ea = ±tS2
x
Erro relativo:Er = ± tSx
x 100Onde: t
(α2 ; nm − 1g .l
)
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Intervalos de Confianca
Intervalo de Confianca para a Media:IC [x − tSx ≤ µ ≤ x + tSx ] = PTotal da Populacao:X = NmxIntervalo de Confianca para o TotalIC [X − NmtSx ≤ X + NmtSx ] = PEstimativa Mınima de ConfiancaEMC [x − tSx ≤ µ] = P
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Estimador razao:
r =∑a
j yi∑aj xj
E sua variancia:
v(r) =1−f
(∑a
j xi)2 .a(s2y + r 2.s2
x − 2r .sx ,y)
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Efeito do delineamento
O sorteio por conglomerados resulta em alteracoes naprecisao das estimativas.
As alteracoes resultam da composicao interna dosconglomerados e da estrategia realizada para o processode sorteio.
A verificacao do efeito do delineamento e observado pelaseguinte expressao:
deff =v(e)c o ng
v(e)ac s
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Para o calculo da variancia usando-se o procedimento deamostragem casual simples, utiliza-se a seguinte expressao:
v(p) = (1− f ) p.(1−f )n−1
Grau de Homogeneidade Intraposto (roh)Definido em funcao do efeito do delineamento e dotamanho medio das subamostras de cada conglomerado ese aplica atraves da seguinte expressao:
roh = deff −1x−1 .
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Exemplo
Por meio da amostragem por conglomerados em doisestagios com partilha proporcional ao tamanho, 1112criancas, menores de 5 anos, foram sorteadas em 20postos. A amostra final e equiprobabilıstica e os tamanhosdas subamostras dos conglomerados sao desiguais.
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Expressoes necessarias para a resolucao (considerando quea amostra e equiprobabilıstica, f = 0, 05):
r = Estimador razaocv = coeficientes de variacaocx = coeficientes de variacaoMedia de criancas matriculadasMedia de Criancas sorteadasS2
x = VarianciaS2
y = VarianciaSx ,y =Covarianciav(r) = Variancia do estimador
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Aplicacao dos estimadores emdados reais
Temos dados reais de atendimentos/consultas realizadas e aidade do paciente, distribuıdas ao longo dos dias da semana deacordo com a proxima tabela.
Colunas: dias da semana
Linhas: possıveis conglomerados
Celulas: Idade do paciente
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Notando que:
N = Numero total de potencial de conglomerados dapopulacao;
M = Numero de subunidades cabıveis no conglomerado;
n = Numero de conglomerados amostrados;
m = Numero de subunidades amostradas porconglomerado;
Xi j = Variavel de interesse.
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Segue abaixo a tabela referente aos conglomerados sorteados:
Considerando que:
npi l o t o = n ∗m
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Segue abaixo a nova tabela ja com os numeros das idades dospacientes no sorteio realizado:
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Media geral por subunidade:
X =
∑ni=1
∑mj=1 Xi j
nm=
1047
10 ∗ 3→ X = 34, 9.
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Media das subunidades por conglomerado:
Xi =
∑mj=1 Xi j
mX1 = 47+54+26
3 = 42, 33.X2 = 18+34+68
3 = 40.X3 = 35+29+38
3 = 34.X4 = 26+69+77
3 = 57, 33.X5 = 49+21+29
3 = 33.X6 = 20+41+22
3 = 27, 67.X7 = 15+2+16
3 = 11.X8 = 61+46+48
3 = 51, 67.X9 = 31+20+48
3 = 33.X10 = 14+27+16
3 = 19.
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Variancia total por subunidade:
S2x = 1
n∗m−1
∑ni=1
∑mj=1(Xi j − X ) =
(47−34,9)2+(54−34,9)2+(26−34,9)2+...+(16−34,9)2
10∗3−1
S2x = 9960,7
29 = 343, 47.Analisando a variancia, temos que:S2
x = S2e + S2
d
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
sendo
QMd e nt r o =∑n
i=1
∑mj=1(Xi j−X )2
n(m−1) = S2d =
(47−42,33)2+(54−42,33)2+...+(16−192
10∗(3−1)
QMd e nt r o = S2d = 4827,68
20 = 241, 384.
QMe nt r e =∑m
i=1(Xi−X )2
n−1
QMe nt r e = 3∗(1776,59)10−1 = 592, 2
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
S2e = QMe nt r e−QMd e nt r o
m
S2e = 592,2−241,384
3 = 116, 93Portanto:S2
x = S2e + S2
d = 241, 384 + 116, 93 = 358, 32 (Estimativa davariancia total)
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Coeficiente de correlacao intraconglomerado
r = S2e
S2e +S2
d= 116,93
116,93+241,384 = 0, 3263
Indicando que o grau de similaridade dos elementos quequando mais proximo de zero, mais homogeneos.
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Variancia da media:
Como f =np i l o t o
Npo p, se f menor que 0, 05, caracteriza-se uma
populacao infinita e caso f for maior que 0, 05, finita.Ja que f = 30
210 = 0, 1428, quer dizer que e uma populacaofinita.Portanto:S2
x =(
N−nN
) S2e
n +S2
dm =
(30−10
30
) 116,9310 + 241,384
10∗3 = 8, 825S2
x = 8, 825
UNIVASF
Janaina, Nilo,Jann Lima,Joao Lucas,
Beatriz,Silvano
Intensidade de amostragem:
O numero ideal de conglomerados para ser sorteado para umapopulacao infinita em questao e dada pela formula abaixo:
n = t2S2x
E 2m[1 + r(m − 1)]
Onde:E = E o erro limite (α2 ) vezes a media (x).t = t
(α2 ; nm − 1g .l
)