nonp test complete
DESCRIPTION
Metodos nao parametricosTRANSCRIPT
1
TESTES NÃO PARAMÉTRICOS
1. Introdução
As técnicas clássicas de inferência estatística partem geralmente de pressupostos
restritivos sobre a população ou populações a partir das quais as observações são
retiradas. Por exemplo, assumir que os dados são provenientes de populações
normalmente distribuídas. Pode em alguns casos pressupor-se que as populações
envolvidas possuem a mesma variância, ou que existe uma relação conhecida entre elas.
No caso Normal, o teste estatístico que se obtém é geralmente uma função da média
amostral e da variância amostral. Alternativamente, podemos assumir que os dados são
provenientes de outras distribuições conhecidas como a Exponencial, Gamma ou
Poisson. Continuaríamos ainda assim num procedimento baseado nos parâmetros que
caracterizam a referida distribuição. Nestas circunstâncias, estamos no contexto da
inferência paramétrica, para as quais:
1) Os testes incidem sobre um parâmetro (valor esperado; variância;
proporção…)
2) A distribuição amostral da estatística de teste pressupõe uma forma
particular da distribuição populacional.
As provas paramétricas exigem também que os valores analisados resultem de
medidas efectuadas pelo menos ao nível intervalar de modo a se poderem realizar
operações aritméticas.
2
Os problemas surgem quando estes pressupostos não podem ser feitos, porque
são contrários aos mecanismos que geram a população ou porque os dados
simplesmente não satisfazem os pressupostos. Nestes casos necessitamos de recorrer a
técnicas de inferência que não requerem pressupostos sobre o mecanismo subjacente à
geração dos dados. Podemos neste contexto recorrer a utilização de teste não
paramétrico, ou seja, testes cujo modelo não especifica condições sobre os parâmetros
da qual se extraiu a amostra. Existem contudo suposições básicas associadas à maioria
das provas não paramétricas, nomeadamente que as observações sejam independentes e
que haja continuidade da distribuição subjacente aos dados.
Uma vantagem dos testes não paramétricos consiste no facto de não exigirem
mensurações tão fortes quanto as provas paramétricas; a maior parte dos testes não
paramétricos são aplicados a dados em escala ordinal, e em alguns casos em escala
nominal. Efectivamente, em muitos dos testes a que recorremos nem sequer dão uma
importância privilegiada aos dados recolhidos, antes consideram os respectivos ranks,
scores, sinais, ou perfazem contagens. Este facto origina algum desperdício de
informação mas, no entanto, na recolha de amostras surgem com muita frequência
“observações perturbadoras” (muito grandes ou muito pequenas), podendo ser preferível
moderar o seu peso na tomada de decisão, em vez de as ignorar. Também, em certas
situações, temos apenas acesso às ordens e não às observações que as originaram, pelo
que será melhor optar por um método que não faça especificações sobre os parâmetros
populacionais.
Apesar de tudo, caso sejam cumpridas as condições para que possam ser
aplicadas as provas paramétricas (observações independentes; provenientes de uma
população normal; com a propriedade homocedástica, e com variáveis em medidas pelo
3
menos intervalar), estas deverão ser utilizadas preferencialmente pois são mais poderosa
do que qualquer outra para rejeitar a hipótese nula quando ela é falsa.
Os testes não paramétricos podem ser divididos em cinco categorias:
(1) Testes de localização;
(2) Testes de ajuste;
(3) Testes de associação ou correlação;
(4) Testes de aleatoriedade;
(5) Testes de dispersão.
Neste curso apenas dedicaremos a nossa atenção aos testes 1-4, mesmo nestas
categorias apenas nos cingiremos aos mais utilizados.
Os testes podem também ser divididos em categorias com base nos pressupostos
referentes às populações e às respectivas amostras:
(1) Uma amostra
(2) Duas amostras emparelhadas
(3) Duas amostras independentes
(4) k (>2) amostras emparelhadas
(5) k (>2) amostras independentes.
Observe-se que quando nos referimos a testes não paramétricos, não significa
que não se dê relevância a parâmetros de localização e de escala. Significa apenas que
as estatísticas de teste não especificam parâmetros.
4
2. Testes de localização
Estes testes dizem respeito às inferências sobre diferenças na localização da
distribuição populacional.
Para muitos destes testes, os dados devem ser medidos numericamente pelo
menos numa escala ordinal de modo que um par de observações possa ser comparada e
numericamente ordenada. Um vector de n valores pode portanto ser ordenado do menor
para o maior. Os ranks obtidos contêm toda a informação dos dados originais, e deste
modo os testes podem ser derivados facilmente a partir deles.
Para uma amostra ou o caso emparelhado, a estatística de teste pode ser obtida a
partir do número de observações (ou diferenças) menores que zero (ou outro valor fixo),
assim como pelo sinal obtido. Sob a hipótese que a mediana de uma única população é
zero ou que a diferença das medianas de populações emparelhadas é zero, o número de
valores positivos e negativos deverá ser similar. O teste de Wilcoxon vai mais além do
teste do sinal porque tem em conta as diferenças de valor entre as observações e a
mediana.
Para o caso de duas amostras, se é colocada a hipótese de igualdade de
medianas, a distribuição dos ranks de cada amostra na amostra global deverá ser similar.
Testes estatísticos como a estatística U de Mann-Whitney, que é baseada nos ranks de
cada amostra e sumaria as diferenças em soma de ranks para cada amostra, deverá ser
computada. Estas hipóteses podem também ser testadas utilizando o teste da mediana.
Este teste estatístico é baseado no número de valores em cada amostra que é maior (ou
menor) que a mediana da amostra global, em vez dos ranks de cada amostra.
5
2.1 Localização de uma população
Apesar de o valor esperado,μ , ser o parâmetro de localização mais utilizado em
inferência estatística, a mediana populacional, η , é uma medida de localização central
que pode em muitos casos proporcionar melhores resultados. Neste contexto, os testes
de localização que apresentaremos dizem respeito a esta medida.
O teste do Sinal
Este teste desenvolve-se com base em amostras aleatórias provenientes de
populações contínuas. Admitamos que a mediana populacional possui um determinado
valor que representamos por 0η . Simbolicamente estaremos perante um teste de
hipótese do género:
00 : ηη =H
( )0001 ou ou : ηηηηηη ><≠H
Supondo 0H verdadeira e a amostra aleatória simples, o número Y de
observações com valor inferior a 0η (ou superior) é uma variável aleatória com
parâmetro 5.0=p . Deste modo, o nosso teste de hipóteses pode ser representado
alternativamente por
5.0:0 =pH
( )5.0ou 5.0ou 5.0:1 ><≠ pppH
Com uma estatística de teste dada por:
YET =
6
Para amostras de grandes dimensões, a distribuição normal constitui uma boa
aproximação da distribuição binomial. De um modo geral, para 20≥n obtém-se uma
boa aproximação. Nestas condições, a estatística utilizada no teste será:
N
pET25.0
5.0ˆ −= que segue uma distribuição normal padrão.
Para efectuar o teste do sinal para uma amostra no SPSS, deve proceder-se do
seguinte modo:
(a) Na barra de menus escolher:
Analyse→Nonparametric tests→binomial…
(b) Seleccionar o ponto de corte (Define dichotomy →Cut point), 0η , seleccionar a
variável a comparar e utilizar p=0.5.
O teste do sinal não está implementado no software estatístico R. Contudo,
facilmente podemos construir uma função nesta linguagem que nos permite ajustar este
teste:
sign.test<-function(x,y=NULL,n,population="two"){ if(population=="two"){ if(length(x)!=length(y)) stop("As duas variáveis devem ter a mesma dimensão") } else {y<-rep(n,length(x))} d<-x-y binom.test(sum(d>0),length(d)-sum(d==0)) } Esta função pode ser utilizada para uma ou duas amostras.
O teste de Wilcoxon
No teste do sinal não temos em conta a magnitude das diferenças de valor entre
as observações e a mediana. No teste de Wilcoxon temos em conta estas magnitudes,
exigindo-se em contrapartida que a população, para além de contínua, seja também
simétrica.
7
Para populações contínuas e simétricas, se a amostra é aleatória e 0H
verdadeira, os valores para 0η−= ii xd deverão distribuir-se em torno de zero de forma
simétrica.
A avaliação relativa da magnitude pode ser feita ordenado de forma crescente os
valores absolutos, id , e atribuindo-lhe um número de ordem. Se a população for
simétrica em torno de 0η e 0H verdadeira, a soma dos números de ordem referentes às
diferenças id negativas deverá ser aproximadamente igual às diferenças positivas.
A estatística de Wilcoxon, W, obtém-se então como segue:
1. Calculam-se as diferenças 0η−= ii xd e ordenam-se de forma crescente os
respectivos valores absolutos.
2. Atribui-se um número de ordem a cada id e coloca-se o sinal “-” para os
valores id negativos.
3. Calcula-se o valor da estatística que resulta da soma dos números de ordem
referentes a valores id positivos ou negativos. Denotamos estas estatísticas
respectivamente por +W e −W ou W para a global. Sob 0H , as distribuições
destas duas estatísticas são idênticas e simétricas em torno do valor esperado,
( ) .4/1+× nn A hipótese nula deve ser questionada para valores muito altos ou
muito baixos das referidas estatísticas.
4. Sob 0H , a distribuição W tende para a normal à medida que aumenta n,
apresentando uma boa aproximação para valores de 15≥n . Nestas situações
podemos substituir a estatística de teste por,
( )( )( ) 24/121
4/1++
+−=
nnnnnWET que segue uma distribuição normal padrão.
8
5. Em caso de empates, deve-se atribuir o valor médio do número de ordem
ocupado pelas observações. No que diz respeito aos zeros, recomenda-se que se
ignorem tais valores, diminuindo deste modo a dimensão da amostra.
Exercícios:
1. Admita-se que o rendimento familiar mediano numa determinada região é de 60
contos/mês. Admita-se ainda que uma amostra aleatória constituída por 12 famílias que
habitam numa vila da referida região revelou os seguintes rendimentos:
44.0 46.6 48.2 51.8 60.3 61.7 63.6 72.7 77.4 82.4 96.1 105.6
Será que, perante estes dados, se poderia concluir que o rendimento mensal mediano na
vila em causa seria diferente do correspondente à região?
2. Um estudo envolvendo um determinado modelo automóvel da gama média-alta
permitiu concluir que o custo de manutenção mediano no terceiro ano de vida de um
veículo que percorre 15000 km/ano é de 59 contos. Numa amostra constituída por 130
automóveis da mesma gama que se encontravam nas condições referidas, mas
pertencentes a outra marca, verificaram-se 53 situações nas quais o custo foi superior a
59 contos. Será possível concluir, ao nível de significância de 5%, que a mediana do
custo de manutenção (no terceiro ano de vida e para uma quilometragem anual de 15000
km) é, nesta marca, inferior à do modelo que foi objecto do estudo?
9
3. Um médico pediatra pretende avaliar se o peso mediano dos bebés recém-nascidos do
sexo feminino numa pequena vila de província é inferior ao da mediana nacional, que se
admite ser de 3.3 kg. Tal avaliação será baseada nos pesos das nove meninas nascidas
no último ano, que foram as seguintes (em kg):
1.9 2.0 2.2 2.8 3.1 3.1 3.3 3.4 3.7
4. Num relatório recentemente publicado num determinado país, afirma-se que 50% das
PME’s que consomem propano, pagam as suas contas de gás no prazo de 14 dias úteis
após a recepção da factura correspondente.
Uma das empresas que distribui propano para fins industriais recolheu uma amostra
aleatória constituída pelos números de dias que 10 dos seus clientes demoraram a pagar
as contas. Os resultados são os seguintes:
34 3 4 44 29 17 32 14 28 16
Teste ao nível de significância de 5%, se a afirmação produzida no relatório é válida.
Resolução do exercício 1 no software estatístico R:
R> x1s<-c(44,46.6,48.2,51.8,60.3,61.7,63.6,72.7,77.4,82.4,96.1,105.6)
R> sign.test(x1s,n=60,population="one")
Os resultados da utilização deste teste (veja-se em baixo) sugere que se
mantenha a hipótese nula que o rendimento mediano é igual a 60 contos (valor de prova
= 0.3877).
Exact binomial test data: sum(d > 0) and length(d) - sum(d == 0) number of successes = 8, number of trials = 12, p-value = 0.3877 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.3488755 0.9007539 sample estimates: probability of success 0.6666667
10
No SPSS, escolhendo na barra de menus escolher
Analyse→Nonparametric tests→binomial…
Cuja tabela de resultados se apresenta em baixo e se encontra de acordo com os
resultados obtidos no software estatístico R.
Binomial Test
<= 60 4 ,33 ,50 ,388> 60 8 ,67
12 1,00
Group 1Group 2Total
RendimentoCategory N
ObservedProp. Test Prop.
Exact Sig.(2-tailed)
O teste de Wilcoxon pode ser facilmente implementado no software estatístico R
recorrendo à função wilcox.test.
R> wilcox.test(x1s,mu=60) Wilcoxon signed rank test data: x1s V = 54, p-value = 0.2661 alternative hypothesis: true location is not equal to 60
11
2.2 Localização relativa de duas populações: amostras emparelhadas
Considerem-se duas amostras emparelhadas, ( )nxxxx ,...,,~21= e
( )nyyyy ,...,,~21= , provenientes de distribuições com a mesma forma. Nestas
condições, a variável aleatória diferença entre pares de observações pode servir de base
à realização de um teste de localização.
Teste do sinal
Para o teste do sinal não existem requisitos quanto à forma da distribuição dos
dados. Apenas é necessário que os pares sejam seleccionados aleatoriamente.
A forma mais simples de abordar o problema consiste em observar que sob a
hipótese nula há igual probabilidade de termos ii xy > como de termos ii yx > . Para
efectuar o teste do sinal basta:
1. Observar o sinal de iii xyd −= , desprezando as diferenças nulas, e tomando como n
o número de diferenças não nulas.
2. Estabelecer um nível de probabilidade, abaixo do qual rejeitamos a hipótese nula.
3. Recorrer à tabela binomial com os parâmetros n e 5.0=p .
Para efectuar o teste do sinal no SPSS, deve proceder-se do seguinte modo:
(a) Na barra de menus escolher:
Analyse→Nonparametric tests→2 Related samples…
(b) Seleccionar o par de variáveis a comparar;
(c) Escolher o teste do sinal, “Sign” em Test Type.
12
Observações:
1. Quando o teste do sinal é aplicado sobre variáveis dicotómicas, toma o nome de teste
de McNemar. Por exemplo, se pretendemos verificar se existe igual probabilidade de
homens e mulheres licenciados terem cônjuge não licenciado. O teste de McNemar é
muitas vezes utilizado em cenários do tipo antes-depois (por exemplo, verificar se as
intenções de voto se alteram após um debate televisivo).
2. O teste de homogeneidade marginal é uma extensão do teste de McNemar de
resposta binária para resposta multinomial.
Teste de Wilcoxon
O teste de Wilcoxon considera como pressuposto a simetria da distribuição das
diferenças entre os pares de valores. Admitindo este pressuposto, o teste de Wilcoxon
apresenta-se como uma melhoria em relação ao teste do sinal, porque ao contrário deste
ultimo tem em consideração a grandeza das observações. O do teste de Wicoxon tem
em linha de conta, mas de forma modesta, a magnitudes das diferenças de cada
observação, com o objectivo de verificar se existem diferenças significativas entre os
seus resultados nas duas situações. Deste modo, o teste de Wilcoxon ordena e classifica
as diferenças, separando-as depois em positivas e negativas. Supondo verdadeira a
hipótese nula, espera-se que as médias das diferenças sejam aproximadamente iguais
para ambos os grupos.
A metodologia a seguir é a seguinte:
1. Formulam-se as hipóteses a testar:
BAH ηη =:0 (a medida de localização das duas populações são iguais)
( )BB1 ou ou : ηηηηηη ><≠ AABAH (a medida de localização das duas
populações são diferentes).
13
2. Calculam-se os valores absolutos das diferenças das observações originais, isto é,
iii yxd −= para ni ,...,1= .
3. Atribuir ordens às diferenças.
4. Afectar à ordem da i-ésima diferença absoluta o sinal de ii yx − e denote a ordem
afectada de sinal por iR .
5. Calcular o valor da estatística que resulta da soma dos números de ordem positivos
ou negativos. Esta estatística denota-se por +W no primeiro caso, −W no segundo, e por
W quando se referir genericamente aos dois casos anteriores. Se 0H for verdadeira, as
distribuições de +W e −W são idênticas e simétricas em torno do valor esperado,
( ) 4/1+nn . Deste modo, é indiferente ser escolhida +W ou −W .
6. Para 15≤n podem-se utilizar tabelas para a tomada de decisão. Se 0H for
verdadeira, a distribuição de W tende para a distribuição normal quando n aumenta. Para
valores de n superiores a 15, a aproximação da normal é já suficientemente precisa.
Nesta situação, a estatística de teste será dada por:
( )( )( ) 24/121
4/1++
+−=
nnnnnWET
e segue uma distribuição normal reduzida.
7. Se existirem observações empatadas, o desvio padrão da estatística de teste deverá ser
corrigido, vindo:
( )( )4824
1213 ∑∑ −
−++
= ii
ii
W
uunnnσ
onde iu representa o número de empates no i-ésimo grupo de observações iguais.
14
Observação: Para verificarmos de uma forma rude que as diferenças sejam uma amostra
de uma distribuição simétrica, podemos visualizar o histograma e verificar se a variável
em causa apresenta uma distribuição aproximadamente simétrica.
Para efectuar o teste de Wilcoxon no SPSS, deve proceder-se do seguinte modo:
(a) Na barra de menus escolher:
Analyse→Nonparametric tests→2 Related samples…
(b) Seleccionar o par de variáveis a comparar;
(c) Escolher o teste do sinal, “Wilcoxon” em Test Type.
Para efectuar o teste de Wilcoxon no R deve utilizar-se a função wilcox.test.
Exemplo 1: A fim de testar um medicamento para queimaduras, aproveita-se o facto de
a gravidade das lesões provocadas por excesso de exposição solar dos ombros de 10
indivíduos serem em geral de idêntica gravidade. Um dos ombros é tratado com o novo
medicamento, e o outro com o medicamento usual (experiência duplamente cega).
Regista-se o par ( )ii yx , que representa o número de horas até à cicatrização. Os
resultados foram os seguintes:
:ix 15.4 19.3 4.2 19.3 45.2 18.6 11.2 18.1 33.0 :iy 14.7 28.9 7.4 19.3 54.2 27.4 12.8 15.4 36.4
Com base nos resultados apresentados, poder-se-á concluir, ao nível de significância de
5%, que o novo medicamento (x) é melhor que o usual?
Vejamos então o que nos indicam os testes dos sinais bem como o de Wilcoxon
para este problema.
O teste do sinal é conduzido com base nas hipóteses:
5.0:0 =pH
( )5.0ou 5.0:1 <≠ ppH
15
Utilizando o software SPSS, o resultado do teste é o seguinte:
Frequencies N Y - X Negative
Differences(a) 2
Positive Differences(b) 6
Ties(c) 1Total 9
a Y < X b Y > X c Y = X
Decorre da análise desta tabela que a cicatrização é mais rápida com o novo
medicamento em 6 casos, e mais lenta em 2 casos. Assim, o número de casos onde a
cicatrização é mais rápida com o novo medicamento é claramente superior aos casos
onde a cicatrização é mais rápida com o medicamento usual. Terão essas diferenças
significado estatístico?
Test Statistics(b) Y - X Exact Sig. (2-tailed) ,289(a)
a Binomial distribution used. b Sign Test O nível de significância do teste indica que, em aproximadamente 29% dos
casos, esperaríamos ver uma diferença destas quando a hipótese nula fosse verdadeira.
Deve por isso, aceitar-se a hipótese nula que afirma não haver diferença significativa
entre os tempos de cicatrização proporcionados pelos dois medicamentos.
Caso tivéssemos optado pelo teste unilateral à esquerda, o teste do sinal conduz
a um p-valor de 0.145 (>0.05). Assim, ao nível de %5=α , continuaria a não haver
razões para rejeitar a hipótese nula com base naquelas amostras.
Vejamos agora quais os resultados proporcionados pelo teste de Wilcoxon. Ranks N Mean Rank Sum of Ranks Y – X Negative
Ranks 2(a) 2,00 4,00
Positive Ranks 6(b) 5,33 32,00
Ties 1(c) Total 9
a Y < X
16
b Y > X c Y = X
Esta tabela mostra que a média das classificações para quando os tempos de
cicatrização são menores com o novo medicamento é 32; enquanto que para os caso em
que os tempos de cicatrização são maiores é igual a 2.
Test Statistics(b) Y - X Z -1,960(a) Asymp. Sig. (2-tailed) ,050
a Based on negative ranks. b Wilcoxon Signed Ranks Test
Pela significância bilateral verifica-se a diferença na média das classificações é
suficiente para rejeitar a hipótese nula (para o nível de significância de 5%).
Para obter os resultados destes dois testes no R teríamos de efectuar os seguintes
comandos:
R> x<-c(15.4,19.3,4.2,19.3,45.2,18.6,11.2,18.1,33) R> y<-c(14.7,28.9,7.4,19.3,54.2,27.4,12.8,15.4,36.4) R> sign.test(x,y)
Exact binomial test data: sum(d > 0) and length(d) - sum(d == 0) number of successes = 2, number of trials = 8, p-value = 0.2891 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.03185403 0.65085579 sample estimates: probability of success 0.25 R> wilcox.test(x,y, paired =TRUE) Wilcoxon signed rank test with continuity correction data: x and y V = 4, p-value = 0.05871 alternative hypothesis: true location shift is not equal to 0
17
Este comando utilize por defeito uma correcção de continuidade para obter o
valor de prova. Se não queremos esta correcção e assim obter os mesmos resultados que
os proporcionados pelo SPSS, devemos efectuar:
R> wilcox.test(x,y,paired =TRUE,correct=FALSE)
O teste de Friedman é utilizado para verificar a hipótese nula de que ( )2≥k amostras
emparelhadas são provenientes da mesma população.
Para efectuar o teste de Friedman no SPSS, deve proceder-se do seguinte modo:
(a) Na barra de menus escolher:
Analyse→Nonparametric tests→k Related samples…
(b) Seleccionar as variáveis a comparar;
(c) Escolher o teste do sinal, “Friedman” em Test Type.
Para efectuar o teste de Friedman no R, deve utilizar-se a função friedman.test.
Exercícios:
1: Realizou-se um estudo para investigar o efeito do exercício físico no nível de
colesterol no soro. Onze indivíduos participaram no estudo. Antes do exercício foi
avaliado o nível de colesterol em cada indivíduo. Depois de submetidos a um programa
de exercício físico, avaliaram-se novamente os níveis de colesterol no sangue. Os
valores obtidos (em mg/dl) foram os seguintes:
Antes: 182 232 191 200 148 249 276 213 241 480 262 Depois: 198 210 194 210 138 220 219 161 210 313 226
Com base nos resultados apresentados, poder-se-á concluir, ao nível de significância de
5%, que o exercício baixa o nível de colesterol no sangue?
18
2: Realizou-se um estudo para investigar o efeito de uma dieta vegetariana no nível de
colesterol. Os valores obtidos (em mg/dl) foram os seguintes:
Antes Depois Com base nos resultados apresentados, poder-se-á concluir, ao
nível de significância de 5%, que uma dieta vegetariana reduz o
nível de colesterol no sangue? E para um nível de significância de
1%?
195 146 145 155 205 178 159 146 244 208 166 147 250 202 236 215 192 184 224 208 238 206 197 169 169 182 158 127 151 149 197 178 180 161 222 187 168 176 168 145 167 154 161 153 178 137 137 125
3. Mediu-se a capacidade torácica de 7 indivíduos seleccionados aleatoriamente. Esse
grupo de indivíduos submeteu-se voluntariamente a um treino especial que tinha por
objectivo aumentar a capacidade torácica (litros). Os resultados seguintes representam
as medições obtidas Antes e Depois do exercício.
Antes: 3.5 3.6 4.1 2.9 3.4 4.2 3.9
Depois: 3.4 3.9 4.5 3.1 3.9 4.4 3.8
Com base nos resultados apresentados, poder-se-á concluir, ao nível de significância de
5%, que o exercício aumenta a capacidade torácica?
19
2.3 Localização relativa de duas ou mais populações: amostras independentes
O teste de Mann-Whitney (M-W)
Para utilizarmos este teste necessitamos que a forma das distribuições seja a
mesma para os dois grupos, ou seja, que as variâncias das populações sejam iguais para
os dois grupos.
O objectivo deste teste consiste em avaliar se as medianas de duas populações
contínuas A e B, com a mesma forma, se localizam no mesmo ponto. Simbolicamente
estaremos perante um teste de hipótese do género:
BAH ηη =:0 (a medida de localização das duas populações é igual)
( )BB1 ou ou : ηηηηηη ><≠ AABAH
Admitamos que temos tamanhos amostrais An e Bn , com BA nn ≤ . Podemos utilizar os
seguintes passos para construir a estatística de teste:
1. Ordenam-se de forma crescente as n observações, atribuindo-se um número de ordem
a cada observação.
2. )amostramenor da ordem de números dos soma(WET =
3. Sob a hipótese nula, ( ) ( ) 2/1+= nnWE B e ( ) ( ) 12/1var += nnnW BA
4. Para valores pequenos podemos recorrer ao uso de tabelas. Quando a hipótese nula é
verdadeira e para valores de tamanhos suficientemente grandes, a estatística de teste
pode ser aproximadamente,
( )( ) 12/1
2/1+
+−=
nnnnnW
ETBA
B
e segue uma distribuição normal reduzida.
20
5. Quando surgem observações empatadas devemos seguir o procedimento descrito no
teste de Wilcoxon. Quando se aproxima a distribuição de W pela normal, o desvio
padrão da estatística de teste deve ser corrigido:
( )
( )112121
3
−
⎟⎠
⎞⎜⎝
⎛−
−+
=∑∑
nn
uunnNnn i
ii
iBABA
Wσ
onde iu representa o número de empates no i-ésimo grupo de observações iguais.
Para efectuar o teste de M-W no SPSS, deve proceder-se do seguinte modo:
(a) Na barra de menus escolher:
Analyse→Nonparametric tests→2 Independent samples…
(b) Seleccionar a variável teste e variável que distingue os dois grupos;
(c) Escolher o teste do Mann-Whitney em Test Type.
Para efectuar o teste de M-W no R, deve utilizar-se a função wilcox.test. Neste
caso, as amostras são independentes (paired=FALSE).
Exemplo: Pretende-se avaliar se as distribuições dos consumos domésticos de energia
eléctrica por habitante em duas regiões relativamente pobres têm a mesma mediana. Os
resultados apresentados referem-se a consumos anuais por habitante (milhares de kwh),
para duas amostras aleatórias independentes, uma correspondendo a 10 concelhos de
uma região A, e a outra de outra região B.
Região A: 0.237 0.235 0.423 0.398 0.241 0.237 0.344 0.449 0.741 0.405 Região B: 0.341 0.482 0.464 0.256 0.908 0.286 0.518 0.326
21
Ranks B N Mean Rank Sum of Ranks A 1 10 8,20 82,00
2 8 11,13 89,00Total 18
Deste modo podemos observar que a região A tem consumos anuais por
habitante com classificações mais baixas.
Test Statistics(b) A Mann-Whitney U 27,000 Wilcoxon W 82,000 Z -1,156 Asymp. Sig. (2-tailed) ,248 Exact Sig. [2*(1-tailed Sig.)] ,274(a)
a Not corrected for ties. b Grouping Variable: B
Pela significância bilateral verifica-se a diferença na média das classificações
não é suficientemente elevada para rejeitar a hipótese nula (para o nível de significância
de 5%).
No software estatístico R: R> RegA<-c(0.237,0.235,0.423,0.398,0.241,0.237,0.344,0.449,0.741,0.405) R> RegB<-c(0.341,0.482,0.464,0.256,0.908,0.286,0.518,0.326) R> wilcox.test(RegA,RegB,correct=FALSE) Wilcoxon rank sum test data: RegA and RegB W = 27, p-value = 0.2478 alternative hypothesis: true location shift is not equal to 0
22
Exercícios:
1. Pretende-se avaliar se, na capital de um determinado país, a remuneração mediana
das secretárias de direcção é superior, em pelo menos 10 contos/mês, à remuneração
mediana numa determinada cidade periférica. Admite-se que as distribuições das
remunerações em ambas as cidades apenas diferem na sua localização. Para o efeito,
foram recolhidas em cada cidade duas amostras aleatórias de 20 vencimentos mensais,
tendo-se obtido os seguintes resultados:
Periferia: 126.6 133.7 136.6 142.0 146.4 147.1 147.5 148.3 148.8 152.7
155.1 155.2 159.0 164.5 167.3 173.6 175.4 175.8 179.5 185.4
Capital: 138.0 147.9 155.7 158.0 170.0 172.0 173.1 173.3 176.8 177.9
178.1 178.4 179.3 179.4 183.7 189.8 191.0 195.7 195.9 221.5
2. Uma empresa de construção civil e imobiliária colocou à venda uma série de andares
de luxo. O seu gerente deseja confirmar se o facto de os seus potenciais clientes verem
um andar modelo melhora a sua predisposição para a compra.
A 15 clientes potenciais que apenas tiveram acesso a um folheto que descreve o andar,
perguntou quanto estariam dispostos a pagar por ele. As respostas, expressas em
milhares de contos, foram as seguintes:
63 33 44 47 55 39 60 45 24 31 53 30 36 69 54
A mesma pergunta foi feita a outros 12 potenciais clientes que, para além de terem visto
o folheto, puderam inspeccionar o andar modelo. As respostas em milhares de contos
foram as seguintes:
65 45 43 71 52 51 64 35 59 75 67 48
Teste ao nível de significância de 5%, se a inspecção do andar modelo conduziu a uma
maior valorização do andar por parte dos potenciais clientes.
23
O teste de Kruskal-Wallis (K-W)
É calculado de forma semelhante ao M-W com a diferença de que existem mais
grupos. Os dados têm de provir de amostras independentes de populações com a mesma
forma. Suponhamos que se pretende comparar k populações baseadas em amostras com
jn observações na j-ésima amostra ( kj ,...,1= ), de modo que a soma destas
observações é n, número total de observações.
A metodologia a seguir é a seguinte:
1. Ordenar todas as observações e calcular as suas ordens;
2. Calcular a soma dos ranks, jR , da j-ésima amostra;
3. Determina-se a estatística de teste de K-W:
( ) ( )∑=
+−+
=k
j j
j nnR
nnH
1
2
131
12
Sob validade de 0H e desde que o tamanho das k amostras não sejam muito
pequenos, a estatística H tem uma distribuição aproximada de um Qui-quadrado com
1−k graus de liberdade.
Para efectuar o teste K-W no SPSS. deve proceder-se do seguinte modo:
(a) Na barra de menus escolher:
Analyse→Nonparametric tests→k Independent samples…
(b) Seleccionar a variável teste e variável que distingue os dois grupos;
(c) Escolher o teste do Kruskal-Wallis em Test Type.
Para efectuar o teste K-W no R. deve utilizar-se a função kruskal.test.
24
Exemplo: Experimentaram-se 4 tipos de tratamento em vinte doentes com cancro do
mesmo tipo e no mesmo estádio de desenvolvimento, e o registo do progresso da
doença é utilizado para comparar tratamentos. Os doentes são divididos ao acaso em
quatro grupos de cinco doentes, a cada grupo é administrado um tratamento diferente, e
o tempo de sobrevivência em anos de cada um dos grupos é registado. Poderemos
concluir não haver diferenças significativas entre os quatro tratamentos, no que respeita
ao tempo de sobrevivência?
Tipo de Tratamento Nº de anos de sobrevivência
A 14.2 10.6 9.4 5.6 2.4 B 12.8 12.3 6.4 6.1 1.6 C 11.5 10.1 5.1 5.0 4.8 D 14.9 13.7 8.5 7.7 5.9
O resultado do teste recorrendo ao SPSS é o seguinte:
Ranks tipo de tratamento N Mean Rank numero de anos de sobrevivência
1 5 10,602 5 10,203 5 8,004 5 13,20Total 20
Test Statistics(a,b)
numero de anos de
sobrevivência Chi-Square 1,949 df 3 Asymp. Sig. ,583
a Kruskal Wallis Test b Grouping Variable: tipo de tratamento
Verifica-se que as médias das classificações são muito semelhantes para todos os
grupos. Além disso, o nível de significância é muito elevado, pelo que se deve aceitar a
hipótese nula que afirma que a distribuição é igual para todos os grupos.
25
No software estatístico R:
R> data<-c(14.2,10.6,9.4,5.6,2.4,12.8,12.3,6.4,6.1,1.6,11.5,10.1,5.1,5,4.8,14.9,13.7,8.5,7.7,5.9) R> G<-c(1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,4,4,4,4,4) R> kruskal.test(data,G)
Kruskal-Wallis rank sum test data: data and G Kruskal-Wallis chi-squared = 1.9486, df = 3, p-value = 0.5831
3. Testes de ajuste
Para o caso de uma amostra, estes testes investigam se uma amostra de
observações segue ou não uma determinada distribuição. Para o caso de duas amostras,
o teste de ajuste investiga se as duas amostras podem ser consideradas provenientes de
uma distribuição comum.
Para o caso de uma amostra a hipótese nula pode especificar apenas a forma
distribucional, por exemplo ( )σμ,Normal , ou pode incorporar valores para os
parâmetros, por exemplo, segue uma Poisson de média 2.
Alguns testes deste tipo constituem a função de distribuição cumulativa das
observações e comparam com distribuição cumulativa da hipótese nula. No caso de
duas amostras, a estatística proporciona uma medida para a diferença obtida para cada
amostra. Estes testes são conhecidos como testes de Kolmogorov-Smirnov.
Outro teste de bondade de ajuste é o teste Qui-quadrado. Para este teste, os
dados são primeiro agrupados em intervalos e depois é calculada a diferença entre os
valores observados em cada intervalo e os valores esperados, sob a hipótese nula. A
estatística baseada nestas diferenças segue uma distribuição 2χ .
26
3.1 Ajuste de uma amostra a uma distribuição teórica
Teste do Qui-quadrado
O teste do Qui-quadrado permite avaliar a aderência entre uma distribuição
amostral constituída por observações expressas numa qualquer escala e uma distribuição
teórica. Este teste compara as frequências dos valores observados com as frequências
dos valores esperados das diferentes categorias de uma variável aleatória.
Condições para que o teste possa ser utilizado:
(a) não exitirem mais de 20% de categorias com valores esperados inferiores a 5.
(b) todas as categorias com valores esperados superiores ou iguais a 1.
Podemos contudo agregar algumas categorias contíguas, caso alguma das regras
seja violada.
A metodologia que se adopta no teste segue os seguintes passos:
1. Formulação da hipótese nula e alternativa:
:0H A população segue uma determinada distribuição
:1H A população não segue tal distribuição de probabilidade.
2. As n observações amostrais são agrupadas em 2≥k classes não sobreponíveis.
3. Calculam-se as frequências de observações (frequências observadas) amostrais nas
diferentes classes. Denotamos essas frequências por kn .
4. Determinam-se as frequências esperadas em cada classe supondo verdadeira a
hipótese nula. Denotamos essas frequências por ke , sendo dadas por kk npe = , onde kp
representa a probabilidade de a variável aleatória tomar valores pertencentes à k-ésima
categoria, supondo a hipótese nula verdadeira.
5. A estatística de teste é construída com base numa medida global de ajuste entre as
frequências observadas e as frequências esperadas:
27
( )∑=
−==
k
k k
kk
een
QET1
2
Supondo a hipótese nula verdadeira, o valor de Q deverá ser pequeno. Quando a
dimensão da amostra é grande, a estatística Q segue uma distribuição 2)1( rk −−χ onde r
representa o número de parâmetros estimados a partir da amostra.
6. A rejeição ou não da hipótese nula será feita com base na comparação do valor da
estatística de teste e ( )αχ 2)1( rk −− , sendo α o nível de significância do teste.
Para efectuar o teste do Qui-quadrado no SPSS, deve proceder-se do seguinte
modo:
(a) Na barra de menus escolher:
Analyse→Nonparametric tests→Chi-square…
(b) Seleccionar um ou mais variáveis a testar;
(c) Especificar as categorias em Expected Range. Se todos os valores da variável
definem uma categoria, seleccionar Get from data. Caso contrário, seleccionar Use
Specified range e indicar o extremo máximo e mínimo do intervalo.
Para efectuar o teste do Qui-quadrado no R, deve utilizar-se a função chisq.test.
Observação: caso os dados do problema estejam agrupados e tenhamos as frequências
absolutas podemos ainda assim resolver o problema no software estatístico SPSS
efectuando uma ponderação nos dados:
Introduzir duas variáveis “classes” e “Freq_obs”. Posteriormente, efectuar Data->Weight Cases…->Weight Cases by (Frequency variable: Freq_obs). Analyze->Nonparametric tests->Chi-Square… Test variable list: classes
Expected values: (introduzir os valores esperados supondo H0 verdadeira)
28
Exemplo: No posto de inspecção final de uma fabrica de fogões, os aparelhos são
submetidos a um conjunto de verificações e ensaios. Com base em muitas observações
pôde concluir-se que o número de defeitos (Y) por aparelho submetido à inspecção final
seguia uma distribuição de Poisson com o valor esperado de 2 defeitos/fogão.
Com o objectivo de melhorar a produtividade, foram introduzidas alterações no
processo de montagem. Os resultados a seguir apresentados referem-se a 100 aparelhos
retirados aleatoriamente do último lote, apresentando uma média de 2.05. Pretende-se
saber se as alterações introduzidas no processo de fabrico tiveram, ou não,
consequências no número de erros de montagem.
Número de defeitos por fogão. 2 1 1 5 1 2 1 1 0 4 1 2 3 2 0 1 6 1 3 7 1 3 1 3 1 1 0 1 2 4 4 2 1 2 4 0 1 1 3 1 6 5 1 0 3 1 0 5 0 2 2 1 3 4 4 1 2 0 5 4 2 0 2 0 5 0 0 3 2 1 2 1 0 1 3 2 7 5 0 1 1 0 2 1 1 1 0 3 2 1 3 2 3 2 1 3 2 1 4 6
No software estatístico R:
R> Freq<-c(16,32,20,13,8,11) R> p<-c(0.135336,0.270671,0.27067,0.180447,0.090224,0.052652) R> chisq.test(Freq,p=p) Chi-squared test for given probabilities data: Freq X-squared = 10.9661, df = 5, p-value = 0.05206
29
Teste de Kolgomorov-Smirnov (K-S)
Relativamente ao teste Qui-quadrado, este teste apresenta algumas vantagens.
Quando a distribuição populacional é contínua e se conhecem a forma e os parâmetros
da sua função densidade de probabilidade, a distribuição da estatística de teste é
definida rigorosamente. Esta vantagem é mais clara para amostras pequenas. Por outro
lado, este é um teste mais potente do que o teste Qui-quadrado. Em contrapartida, exige
distribuições populacionais contínuas e completamente especificadas.
Este teste tem por base a análise da proximidade ou ajuste entre a função
distribuição amostral ( )xS e a função de distribuição populacional sob a hipótese nula,
( )xF0 . A estatística de teste é dada por, ( ) ( )xFxSDETx
0supremo −== .
No teste de K-S pode seguir-se o seguinte procedimento:
1. Constituir as hipóteses:
:0H A função distribuição da população da qual é proveniente a amostra é
idêntica à função distribuição que se assume conhecida; ou ( ) ( )xFxF 0=
:1H ( ) ( )xFxF 0≠
2. Calcular a estatística de teste;
3. Comparar o valor D com o valor crítico (recorrendo ao uso de tabelas), para o nível
de significância do teste. Em função do resultado rejeita-se ou não a hipótese nula.
Para efectuar o teste K-S no SPSS, deve proceder-se do seguinte modo:
(a) Na barra de menus escolher:
Analyse→Nonparametric tests→1 sample K-S …
(b) Seleccionar uma ou mais variáveis a testar;
(c) Especificar em Test Distribution a distribuição conhecida.
30
Para efectuar o teste K-S no R, deve utilizar-se a função ks.test.
Exemplo:
Os enólogos de uma grande adega cooperativa admitem que, em média, o álcool
provável (em graus) das uvas anualmente entregues para vinificação pelo conjunto dos
seus sócios, segue uma distribuição Normal com valor esperado 10º e desvio padrão 1º.
Pretende-se testar a validade desta conjectura a partir dos dados obtidos nos últimos 20
anos, que se apresentam a seguir:
11.9 10.6 13.3 11.6 12.9 10.4 11.3 13.5 9.1 8.2 11.6 10.0 11.3 10.3 8.4
9.9 11.0 10.3 13.2 9.9
Testar se o valor médio do álcool provável segue uma distribuição normal, mas agora
com valor esperado e desvio padrão iguais às estimativas obtidas pela amostra.
Os resultados proporcionados pelo SPSS permitem-nos averiguar se os dados
são provenientes de uma distribuição normal com média (amostral) de 10,935 e desvio
padrão (amostral) igual a 1,5346. Para esta situação devemos aceitar a hipótese nula de
que os dados seguem a referida distribuição.
One-Sample Kolmogorov-Smirnov Test
alcool em
graus N 20Normal Parameters(a,b) Mean 10,935
Std. Deviation 1,5346Most Extreme Differences
Absolute ,100Positive ,086Negative -,100
Kolmogorov-Smirnov Z ,447Asymp. Sig. (2-tailed) ,988
a Test distribution is Normal. b Calculated from data.
31
No software estatístico R: R> Alcool<-c(11.9,10.6,13.3,11.6,12.9,10.4,11.3,13.5,9.1,8.2,11.6,10,11.3,10.3,8.4,9.9, 11,10.3,13.2,9.9) R> ks.test(Alcool,"pnorm",10,1) One-sample Kolmogorov-Smirnov test data: Alcool D = 0.3532, p-value = 0.01361 alternative hypothesis: two-sided Observação: cuidado que o que o SPSS testou foi se os dados eram provenientes de
uma distribuição normal cujos parâmetros foram estimados a partir dos dados. Os
comandos para o R testam se os dados são provenientes de uma distribuição normal de
média 10 e desvio padrão 1. Aproveitamos para referir que caso se deseje testar a
normalidade dos dados o teste mais recomendável é o teste de Shapiro Wilks. No
software estatístico R este teste pode efectuar-se recorrendo à função shapiro.test.
R> shapiro.test(Alcool) Shapiro-Wilk normality test data: Alcool W = 0.9607, p-value = 0.557
Repare-se ainda que podemos obter os mesmo resultados que os do SPSS do
seguinte modo:
R> ks.test(Alcool,"pnorm",mean(Alcool),sd(Alcool)) One-sample Kolmogorov-Smirnov test data: Alcool D = 0.1, p-value = 0.9882 alternative hypothesis: two-sided
32
Exercícios:
1. Pretende-se construir um modelo de simulação das operações de um determinado
terminal cerealeiro de um porto situado na Europa. Uma das variáveis a considerar no
modelo corresponde à diferença entre a data de chegada dos navios provenientes dos
EUA e a respectiva data planeada. Dado que tal diferença é influenciada por muitos
factores aditivos independentes, há razões para supor que se distribui normalmente.
Uma amostra de 50 navios revelou os resultados apresentados na tabela seguinte:
1.8 -6.6 -7.4 4.4 -9.0 -2.0 2.4 -2.8 -6.0 15.2 -11.6 -5.8 2.2 4.0 5.0 20.6 -1.8 12.4 -8.9 -2.4 8.2 2.2 -5.6 13.2 -0.3 -1.8 -0.6 2.6 -7.6 -3.4 7.6 -4.2 -6.0 5.0 18.8 0.0 1.4 -10.0 3.6 -8.4 1.0 1.4 -3.8 0.4 -1.8 -4.0 -9.2 3.2 0.2 -1.8
2. Uma companhia aérea registou, para um determinado voo, qual o número de
passageiros que, tendo efectuado reserva, acabaram por não fazer o check in. Para cem
dias escolhidos aleatoriamente, os resultados foram os seguintes:
Nº ausências Nº voos 0 1 2 3 4 5 6
21 36 23 13 4 2 1
Teste, ao nível de significância de 5%, se a distribuição do número de ausências por voo
segue uma distribuição de Poisson.
3. Os desvios entre o tempo planeado para uma determinada operação de montagem
numa linha de produção e o tempo efectivamente gasto (segundos). Admita-se que 20
observações foram recolhidas de forma aleatória e teste ao nível de significância de 5%,
se os desvios seguem uma distribuição normal.
Desvios: {50 53 102 -39 112 64 -122 104 37 32 165 47 22 -46 91 140 -38 109 41 -33}
33
4. Num estudo sobre o desenvolvimento de colónias de bactérias numa solução de soro
fisiológico procede-se à contagem das células da retícula em que não se observa
nenhuma bactéria, às células em que há uma, duas, … bactérias, com os seguintes
resultados:
Nº bactérias na célula 0 1 2 3 4 >4 Nº células 44 98 107 79 43 29 Pretende-se saber se o modelo Poisson (com média 2) é apropriado.
3.2 Ajuste entre duas amostras independentes
Teste do Qui-quadrado
Pode ser considerado uma extensão do teste do Qui-quadrado da qualidade do
ajuste de uma amostra a uma distribuição teórica. A diferença é que agora se pretende
comparar duas populações a partir das quais se obtêm amostras independentes. Como
no caso anterior, apenas se requer que as amostras sejam aleatórias e que possuam
dimensões adequadas. Deste modo, a metodologia é em tudo semelhante à apresentada
atrás.
Pode seguir-se o seguinte procedimento:
1. Constituir as hipóteses:
:0H As populações A e B são idênticas; ( ) ( )xFxF BA =
:1H As populações A e B não são idênticas; ( ) ( )xFxF BA ≠
2. Calcular a estatística de teste: ( ) ( )∑∑
==
−+
−==
k
i kB
kBkBk
i kA
kAkA
een
een
QET1
2
1
2
que segue,
supondo a hipótese nula verdadeira, uma distribuição Qui-quadrado com k-1 graus de
liberdade. Repare-se que: An e Bn são os tamanhos amostrais correspondentes às
populações A e B respectivamente. Agrupados os dados em k classes obtemos
34
frequências observadas kAn e kBn . Sob o pressuposto que 0H é verdadeira, podemos
calcular as frequências esperadas kAe e kBe .
3. Comparar o valor Q com o valor crítico, para o nível de significância do teste. Em
função do resultado rejeita-se ou não a hipótese nula.
Exemplo: Um fabricante de automóveis pretende verificar se o modo como se repartem
as vendas da sua marca ao longo da gama é idêntico nos países A e B. A tabela seguinte
apresenta a composição das vendas nestes mercados ao longo do último ano. Utilize um
nível de significância de 5%.
Gama País A País B Baixa 1034 2225 Média-Baixa 892 2103 Média 734 1754 Média-Alta 280 685 Alta 80 202 Luxo 26 32
No software estatístico R:
R> Table<-matrix(NA,nrow=6, ncol=2)
R> Table[,1]<-c(1034,892,734,280,80,26)
R> Table[,2]<-c(2225,2103,1754,685,202,32)
R> chisq.test(Table)
Pearson's Chi-squared test data: Table X-squared = 11.3176, df = 5, p-value = 0.04543
No SPSS, devemos considerar as variáveis: “gama”, “País” e “Count”; Data->Weight Cases…->Weight Cases by (Frequency variable: Count). Analyze-> Descriptive Statistics -> Crosstabs… Rows: gama
Columns: País Statistics: Chi-square
35
36
Os resultados estão apresentados na forma de tabelas em baixo:
gama * pais Crosstabulation
Count
1034 2225 3259892 2103 2995734 1754 2488280 685 965
80 202 28226 32 58
3046 7001 10047
BaixaMédia-BaixaMédiaMédia-AltaAltaLuxo
gama
Total
País A País Bpais
Total
Chi-Square Tests
11,318a 5 ,04510,923 5 ,053
2,072 1 ,150
10047
Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid Cases
Value dfAsymp. Sig.
(2-sided)
0 cells (,0%) have expected count less than 5. Theminimum expected count is 17,58.
a.
37
Teste de Kolgomorov-Smirnov (K-S)
Utiliza-se quando se pretende avaliar se duas amostras aleatórias independentes
provêm de uma única população.
Pode seguir-se o seguinte procedimento:
1. Constituir as hipóteses:
:0H As populações A e B são idênticas; ( ) ( )xFxF BA =
:1H As populações A e B não são idênticas; ( ) ( )xFxF BA ≠
2. Calcular a estatística de teste: ( ) ( )xSxSDET BAx
−== supremo
3. Comparar o valor D com o valor crítico, para o nível de significância do teste. Em
função do resultado rejeita-se ou não a hipótese nula.
Exemplo: Uma grande repartição de finanças foi escolhida para uma experiência piloto
na qual se pretendem testar novos procedimentos. Indicam-se a seguir os valores do
tempo dispendido no processamento de uma determinada operação, antes e depois de
terem sido introduzidos novos procedimentos.
Antes: 4.1 4.4 4.7 4.8 4.9 5.7 7.4 7.6 9.7 10.3 12.4 15.5 Depois: 3.8 5.0 6.3 6.6 6.7 6.9 8.5 8.6 8.9 9.5 9.8 10.2
Será que os dados sustentam a hipótese de que a distribuição do tempo de
processamento se modificou com a introdução dos novos procedimentos?
38
4. Testes de associação e correlação
Muito frequentemente é desejável dispor de um índice que exprima o grau de
associação entre duas variáveis. Um desses índices é o coeficiente de correlação
ordinal de Spearman. Essencialmente são baseados nos ranks em lugar dos valores
observados. Envolvem a soma de alguma função da diferença dos ranks entre as
amostras para obter uma medida de concordância dos ranks.
Níveis de significância podem ser calculados para amostras de tamanho pequeno
utilizando o teste de Qui-quadrado baseado em tabelas de contingência.
O teste de correlação ordinal de Spearman
Dadas duas variáveis aleatórias X e Y provenientes de uma população bivariada,
considerem-se as suas observações ordenadas de forma crescente, atribua-se um número
de ordem e considere-se o par ordenado com os respectivos ranks. Se existe alguma
associação entre as duas variáveis será de esperar uma de duas situações: a diferença id
para cada observação dos números de ordem do par tomará valores baixos ou valores
elevados. A estatística de teste de Spearman é baseada no somatório do quadrado destes
valores, mais concretamente:
( )1
.61 2
1
2
−−=
∑=
nn
dR
n
ii
S
Este coeficiente toma valor 1 quando existe entre o conjunto de observações uma
associação directa perfeita, e -1 no caso de associação inversa perfeita. Quando não
existe associação o seu valor aproxima-se de zero.
Este coeficiente constitui a estatística para testar a seguinte hipótese nula:
:0H As variáveis não estão associadas.
:1H As variáveis estão associadas.
39
Para dimensões de amostras superiores a 30, a estatística de teste pode ser
substituída por: ( ) ( )2/1 2 −−
=nR
RET
S
S que sob 0H segue uma distribuição t-student
com n-2 graus de liberdade.
Para efectuar o teste de correlação de Spearman no SPSS, deve proceder-se do
seguinte modo:
(a) Na barra de menus escolher:
Analyse→Correlate→Bivariate…
(b) Escolher o teste em Correlation Coefficients.
Para efectuar o teste de correlação de Spearman no R, deve utilizar-se a função cor.test. Exemplo: Apresentam-se em baixo os resultados obtidos por 12 atletas em duas provas:
corridas de 100 metros e salto em comprimento. Será que os resultados permitem
corroborar, ao nível de significância de 5%, a hipótese de que os bons velocistas são
também bons saltadores em comprimento?
100 metros 12.1 12.4 13.0 11.9 14.2 13.6 12.7 14.2 13.7 13.3 12.8 13.4 salto 6.93 6.76 5.94 7.70 5.61 6.32 7.08 5.30 5.86 6.04 7.13 6.76
Utilizando o programa estatístico SPSS obtemos o seguinte quadro:
Correlations CORRIDA SALTO Spearman's rho CORRIDA Correlation
Coefficient 1,000 -,856(**)
Sig. (2-tailed) . ,000 N 12 12
SALTO Correlation Coefficient -,856(**) 1,000
Sig. (2-tailed) ,000 . N 12 12
** Correlation is significant at the 0.01 level (2-tailed).
40
Deste modo, devemos rejeitar a hipótese nula de que não existe associação entre
os tempos obtidos na corrida de 100 metros e os valores obtidos para o salto em
comprimento. Mais, podemos concluir que existe uma associação inversa, ou seja,
existe uma tendência para que atletas com melhores resultados na corrida obtenham
piores resultados no salto, e vice-versa.
No software estatístico R:
R> Corrida<-c(12.1,12.4,13.0,11.9,14.2,13.6,12.7,14.2,13.7,13.3,12.8,13.4)
R> Salto<-c(6.93,6.76,5.94,7.70,5.61,6.32,7.08,5.30,5.86,6.04,7.13,6.76)
R> cor.test(Corrida, Salto, method= "spearman")
Spearman's rank correlation rho data: Corrida and Salto S = 530.8561, p-value = 0.0003792 alternative hypothesis: true rho is not equal to 0 sample estimates: rho -0.8561404 Extensão da Correlação de Spearman a m amostras
A extensão da correlação ordinal a m amostras é simples. Como se dispõe de
( )2
1−mm pares de amostras, calcular a correlação ordinal de Spearman para cada par,
implica ter de calcular ( )2
1−mm coeficientes, o que pode ser uma tarefa maçadora e
longa.
Se os mesmos I itens (elementos) são ordenados m vezes, e se a soma das ordens
atribuídas ao i-ésimo item é iR , Ii ,...,2,1= então a correlação ordinal entre os ( )2
1−mm
pares de ordenações é dado por:
41
( ) ( ) ( )⎥⎦⎤
⎢⎣⎡ ++
−+
−−
−−= ∑ 13
124
11
1112
medio 2
2
ImI
IIImmR
r is
Uma outra possibilidade que nos permite obter um nível de concordância entre
os dados é proporcionado pelo teste de Kendall, que é uma medida de acordo entre
ordenações. Os resultados do teste variam entre 0 (nenhum acordo) e 1 (acordo
completo).
Para determinar este valor podemos recorrer ao seguinte teste no SPSS,
procedendo do seguinte modo:
(a) Na barra de menus escolher:
Analyse→Nonparametric tests→k related samples…
(b) Em Test Type seleccionar Kendall’s W.
O teste de Kendall pode ser implementado no software estatístico R recorrendo à
função cor.test (method= "kendall").
Teste do Qui-quadrado
Permite verificar a independência entre duas variáveis X e Y, que expressas em
qualquer escala, se apresentam agrupadas em classes mutuamente exclusivas e
exaustivas. As limitações do teste Qui-quadrado atrás apresentadas continuam a
verificar-se aqui.
Pode seguir-se o seguinte procedimento:
1. Constituir as hipóteses:
:0H As variáveis são independentes.
:1H As variáveis não são independentes.
42
2. Calcular a estatística de teste: ( )
∑∑= =
−==
I
i
J
j ij
ijij
een
QET1 1
2
que segue, supondo a
hipótese nula verdadeira, uma distribuição Qui-quadrado com ( )( )11 −− JI graus de
liberdade. Repare-se que: Agrupados os dados da variável X em I categorias e os de
Y em J categorias obtém-se uma matriz JI × onde ijn representa a frequência
(conjunta) observada para a categoria i de X e j de Y. Sob o pressuposto que 0H é
verdadeira, podemos calcular as frequências esperadas ije : nnne jiij /•• ×= com
∑=
• =J
jiji nn
1 e ∑
=• =
I
iijj nn
1
.
3. Comparar o valor Q com o valor crítico, para o nível de significância do teste. Em
função do resultado rejeita-se ou não a hipótese nula.
Para efectuar o teste de correlação do Qui-quadrado (baseado em tabelas de
contingência) no SPSS, deve proceder-se do seguinte modo:
(a) Na barra de menus escolher:
Analyse→Descriptive Statistics→Crosstabs…
(b) Seleccionar as variáveis a comparar e colocá-las, uma na lista das linhas outra na
lista das colunas.
(c) Em statistics escolher a estatística do Qui-quadrado, “Chi-square”.
Exemplo: Admita-se que foi conduzida uma experiência no âmbito da qual se procurou
testar se existe alguma relação entre a qualidade de secagem de máquinas de lavar roupa
de um certo tipo e a velocidade de rotação a que se eleva o tambor da roupa na fase de
centrifugação. Os resultados desta experiência, efectuada com base no comportamento
de 90 máquinas, estão representadas na seguinte tabela:
43
Qualidade de secagem Medíocre Suficiente Boa Muito boa
Vel
ocid
ade
de ro
taçã
o
600 rpm 12 8 7 3
900 rpm 9 10 7 4
1200 rpm 2 9 8 11
Pretende-se testar a hipótese de a qualidade da secagem estar relacionada com a
velocidade de centrifugação.
Exercícios:
1. Para testar a atitude de donas de casa relativamente ao novo detergente BMB, foi
distribuído um pacote deste detergente a cada uma de 350 donas de casa. As donas de
casa foram seleccionadas aleatoriamente a partir de três cidades (F, P e L) de um país e
a cada uma delas perguntou-se qual a sua opinião (favorável/indiferente/desvaforável)
sobre o novo detergente. Os números de respostas obtidas apresentam-se na tabela
seguinte.
Cidade F P L
Atit
ude
Favorável 12 8 7
Indiferente 9 10 7
Desfavorável 2 9 8
Verifique, ao nível de significância de 5%, se a cidade de origem das donas de casa
afecta a atitude destas relativamente ao novo detergente.
2. Na tabela seguinte apresentam-se registos relativos à frequência às aulas verificadas
em 12 turmas práticas de um curso de estatística e à percentagem de sucessos dos
alunos nelas matriculados.
44
Presença nas aulas práticas (%) Sucessos (%) 95.2 94.7 84.6 83.1 79.7 72.6 70.8 70.8 64.1 62.9 49.2 41.8
60.5 72.8 71.3 64.7 66.2 56.5 56.0 60.8 52.4 45.7 33.2 33.2
Teste ao nível de significância de 5%, se existe associação entre as variáveis em causa.
5. Testes de aleatoriedade
Estes testes têm como objectivo investigar sequências de observações e tentar
identificar desvios da aleatoriedade. Existem muitas formas das quais uma sequencia se
desvia da aleatoriedade. Os testes detectam alguma forma de dependência entre as
observações na sequência. O teste das sequencias (ascendentes e descendentes)
investiga se as sequencias estão a ocorrer com maior ou menor frequência do que seria
de esperar sob a hipótese de aleatoriedade. Uma sequência ascendente é definida como
uma sequência de observações na qual cada observação é maior do que a anterior. A
sequência ascendente termina quando uma observação é menor do que a observação
prévia.
Teste das sequências
O teste das sequências só pode ser realizado sobre variáveis dicotómicas.
Podemos contudo, efectuar sempre a conversão de uma variável não dicotómica numa
variável dicotómica.
45
Suponhamos que se está a monitorizar os itens de uma linha de produção, para
se verificar se são ou não defeituosos, e que se verificam as observações seguintes (N-
não defeituoso; D – defeituoso).
NNNNDNNNNDDDDNNDDDDDN
Define-se por sequência um conjunto de observações idênticas (por exemplo
NNNN) que é precedido ou seguido por uma observação do outro tipo (por exemplo,
D). A definição comporta sequências constituídas por uma única observação. Deste
modo, o conjunto de observações atrás indicado inclui 7 sequências.
Se a sequência não for aleatória, observar-se-ão demasiados, ou muito poucas
sequências.
Consideremos uma amostra de tamanho n com An observações de um tipo, A, e
Bn do outro tipo, B. Seja R, o número de sequências numa amostra de dimensão n.
Pode seguir-se o seguinte procedimento:
1. Constitui as hipóteses de teste:
:0H A amostra é aleatória
:1H A amostra não é aleatória (Teste bilateral)
ou
:1H A amostra não é aleatória pois as observações têm tendência para se
agrupar (Teste unilateral à esquerda; poucas sequências)
ou
:1H A amostra não é aleatória pois as observações têm tendência para se
misturar (Teste unilateral à direita; muitas sequências)
2. Calcular a estatística de teste: R
RRZETσμ−
== que sob 0H , segue uma
distribuição normal padrão. Para a variável R tem-se que:
46
12+=
nnn BA
Rμ
( )( )122
2 −−
=nn
nnnnn BABARσ
3. Comparar o valor Z com o valor crítico, para o nível de significância do teste. Em
função do resultado rejeita-se ou não a hipótese nula.
Para efectuar o teste das sequências no SPSS, deve proceder-se do seguinte
modo:
(a) Na barra de menus escolher:
Analyse→Nonparametric tests→Runs…
(b) Seleccionar uma ou mais variáveis a testar;
(c) Seleccionar um ponto de transição que defina as sequências.
Para o exemplo atrás referido recorremos ao SPSS. Para tal codificamos com 1
os “defeituosos” e com 0 os “não-defeituosos”. Obtivemos a seguinte tabela de
resultados: Runs Test SEQUENCI Test Value(a) 1,48Cases < Test Value 11Cases >= Test Value 10Total Cases 21Number of Runs 7Z -1,785Asymp. Sig. (2-tailed) ,074
a Mean Assim, podemos confirmar que o número de sequências é igual a 7. O nível de
significância é 0.074, pelo que não existem indícios suficientes para rejeitar a hipótese
nula de que a amostra é aleatória. Nestes casos, em que o valor se aproxima de um valor
significativo, podemos contudo aumentar a amostra e voltar a estudar o problema.
47
Teste das sequências ascendentes e descendentes
Este teste aplica-se a observações expressas numa escala pelo menos ordinal.
Uma sequência (ascendente ou descendente) consiste numa sucessão de observações
ordenadas de forma crescente ou decrescente. Nestas condições, sempre que a
ordenação altera o seu sentido, inicia-se uma nova sequência.
Consideremos o seguinte exemplo referente à venda de jornais diários nos
últimos 15 domingos por um quiosque no centro da cidade. Os valores obtidos foram:
{27, 68, 45, 53, 61, 61, 32, 19, 64, 65, 67, 69, 71, 37, 35}.
Se substituirmos pelo símbolo “+” cada observação precedida por uma outra de
valor inferior, e pelo símbolo “-“ cada observação precedida por uma outra de valor
superior, vem: {., +, -, +, +, 0, -, -, +, +, +, +, +, -, -}
Para esta nova representação, cada conjunto de sinais “+” representa uma
sequência ascendente, e cada conjunto de sinais “-“ uma sequência descendente.
Repare-se que ocorreu uma situação com observações adjacentes iguais, e para o qual
atribuímos o valor 0. Quando o número de zeros é pequeno face ao tamanho amostral,
tais zeros são ignorados para o cálculo da estatística, e a dimensão da amostra reduzida
em conformidade. Assim, nas 15 observações existem 6 sequências: 3 ascendentes e 3
descendentes. Representemos por V o número de sequências obtido no processo.
Pode seguir-se o seguinte procedimento:
1. Constitui as hipóteses de teste:
:0H A amostra é aleatória
:1H A amostra não é aleatória (Teste bilateral)
ou
48
:1H A amostra não é aleatória, pois existem tendências nas observações
amostrais (Teste unilateral à esquerda; V é pequeno)
ou
:1H A amostra não é aleatória, pois as observações têm tendência para se
alternar excessivamente (Teste unilateral à direita; V é grande)
2. Calcular a estatística de teste: V
VVZET
σμ−
== que sob 0H , segue uma distribuição
normal padrão (para n maior que 26 aproximação é muito precisa). Para a variável V
tem-se que:
312 −
=n
Vμ
902916 −
=n
Vσ
3. Comparar o valor Z com o valor crítico, para o nível de significância do teste. Em
função do resultado rejeita-se ou não a hipótese nula.
O teste de aleatoriedade de Friedman. O teste de Kendall.
Com base na expressão dada para mediosr , podemos definir a estatística de
Friedman. Dadas m ordenações de I itens, a estatística de Friedman é
( ) ( ) ( )∑ +−+
= 131
12 22 ImRimI irχ
onde iR é a soma das m ordens atribuídas ao i-ésimo item, .I,...,2,1=i O índice ( )r
chama a atenção para o facto de estarmos a trabalhar com correlação ordinal, e nada tem
a ver com o número de graus de liberdade.
49
No caso de as ordenações serem aleatórias, então a estatística ( )2rχ de Friedman,
para valores elevados de m e de I, tem distribuição aproximada de um qui-quadrado
com I-1 graus de liberdade.
Definamos então as nossas hipóteses:
:0H existe aleatoriedade na atribuição dos ranks
:1H não existe aleatoriedade
Se 0H é verdadeira, qualquer dos iR tem distribuição aproximadamente normal
com valor médio ( )2
1+Im e variância ( )2
12 −Im . Assim, a variável aleatória
121
21
2 −
+−
Im
ImRi
tem distribuição aproximadamente normal reduzida, e o seu quadrado tem distribuição
aproximadamente de um qui-quadrado com 1 grau de liberdade. Então, a soma dos
quadrados para todos os items teria uma distribuição aproximada de um qui-quadrado
com I graus de liberdade, se não fosse a existência de uma ligação funcional entre os
s'iR , ( )∑ +=
21ImIRi , que reduz o número de graus de liberdade a I-1.
O teste W de Kendall é uma normalização da estatística de Friedman. O teste W
de Kendall permite-nos obter o coeficiente de concordância que é uma medida de
acordo entre ordenações, tendo como resultados valores que variam entre 0 (nenhum
acordo) e 1 (acordo completo). O teste Q de Cochran é idêntico ao teste de Friedman
mas só é aplicável quando todas as respostas são binárias. É uma extensão do teste de
McNemar à situação de k-amostras. O teste Q de Cochran testa a hipótese que várias
variáveis dicotómicas têm a mesma média. As variáveis estão medidas no mesmo
indivíduo ou em indivíduos emparelhados.
50
Para efectuar o teste no SPSS, deve proceder-se do seguinte modo:
(a) Na barra de menus escolher:
Analyse→Nonparametric tests→k related smples…
(b) Em Test Type seleccionar Kendall’s W.
Para efectuar o teste no R, deve utilizar-se a função friedman.test.
Exemplo: Na tabela seguinte estão registadas as ordenações (de pior para melhor)
atribuídas pelo júri a 10 propostas de fornecimento de equipamento electrónico para um
bloco de micro-cirurgia, no que refere 6 critérios definidos no caderno de encargos:
região a b c d e f g h i jPreço 4 1 5 6 9 8 10 7 3 2 Fiabilidade 4 1 5 8 10 7 9 6 3 2 Manutenção 3 2 5 9 8 6 10 7 4 1 Adaptação 4 1 2 7 5 9 8 10 6 3 Upgrades 4 2 7 6 10 9 8 5 3 1 Formação 2 3 7 6 5 9 8 4 10 1
Os resultados proporcionados pelo SPSS são os seguintes:
Ranks Mean Rank A 3,50B 1,67C 5,17D 7,00E 7,83F 8,00G 8,83H 6,50I 4,83J 1,67
Esta tabela proporciona os ranks médios obtidos por cada juiz.
51
Test Statistics N 6 Kendall's W(a) ,727
Chi-Square 39,273 Df 9 Asymp. Sig. ,000
a Kendall's Coefficient of Concordance
De acordo com esta tabela, obtivemos um coeficiente de concordância de
Kendall igual a 0.727, ou seja, um valor razoavelmente próximo de 1. Para a estatística
de teste obtivemos um valor de 39.27, que com 9 graus de liberdade, nos leva a rejeitar
(com significância inferior a 5%) a hipótese nula de aleatoriaedade na atribuição das
classificações.
Exercícios:
1. Recorrendo ao teste das sequências, pretende-se verificar a aleatoriedade da amostra
seguinte constituída pelos resultados de 25 lançamentos da moeda E-C.
{E, E, C, C, E, C, E, E, C, E, C, C, E, E, E, C, E, E, C, E, E, C, C, E, C}
2. Na tabela seguinte representa-se o peso (em toneladas) de uvas num hectare de vinha
localizada numa determinada região demarcada, nos últimos 20 anos.
Ano: 77 78 79 80 81 82 83 84 85 86 Peso: 3.56 4.40 5.42 6.51 8.30 5.78 5.22 4.67 7.68 8.34 Ano : 87 88 89 90 91 92 93 94 95 96 Peso: 9.89 7.35 5.15 3.80 5.62 7.73 7.93 6.35 8.92 9.77
Teste, ao nível de significância de 5%, se existe alguma tendência na produção de uvas
naquela parcela, ao longo dos últimos 20 anos.
52
EXERCÍCIOS 1. Numa investigação sobre as verbas envolvidas em “parapsicologia” obtiveram-se os seguintes preços de consultas em Évora e em Lisboa (em euros) Évora: 25 12 17 30 40 37 50 Lisboa: 40 30 10 20 25 30 75 25 25 Com base nestes dados teste a hipótese de homogeneidade dos preços de consultas nas referidas cidades. 2. Procedeu-se à avaliação do QI de diversos indivíduos antes e depois de várias audições de sonata para dois pianos de Mozart, com os seguintes resultados: Antes : 123 145 143 134 112 143 148 145 138 124 133 Depois: 132 158 143 142 126 143 142 152 143 145 144 Comentários? 3. Os doutores Galambos e Cornell mediram a excreção de CPU (coproporfina urinária) de 8 indivíduos em períodos de 12 horas (diurno e nocturno), durante vários dias e obtiveram: Individuo 1 2 3 4 5 6 7 8 Média diária 35.3 65.9 73.4 70.6 56.3 73.4 39.3 36.9 Média nocturna 39.0 58.8 70.6 58.7 53.1 72.6 42.2 63.1 Considera que há evidência de quantidades diferentes de excreção durante os período diurno e nocturno? 4. Para determinar o efeito da hemodiálise sobre o tamanho do fígado estudaram-se três populações: sãos, pacientes que efectuam diálise e pacientes que efectuam diálise. Escolheram-se amostras aleatórias de cada população e depois determinou-se a área do fígado (em cm2) para cada indivíduo, obtendo-se os seguintes resultados: Sãos: 206.9 150.0 197.3 173.2 147.2 143.8 192.6 Sem diálise: 194.6 145.6 174.9 187.5 223.4 143.0 170.0 Com diálise: 288.0 269.2 288.3 357.5 229.2 249.0 346.1 216.6 202.6 213.5
Teste ao nível de significância de 5%, se o tamanho do fígado é igual nas três populações. 5. Na sequência da explosão de uma bomba atómica subterrânea, procedeu-se à contagem de tremores de terra em intervalos sucessivos de oito horas. Verifique se existe alguma tendência para o número de tremores de terra. Intervalos de 8 horas 1 2 3 4 5 6 7 8 9 10 11 12 13 Nº tremores de terra 33 32 30 41 23 17 27 20 15 12 27 17 25
53
6. Num estudo, pretende-se saber se as pessoas com alto grau de autoritarismo têm maior tendência para possuir estereótipos sobre membros de diversos grupos nacionais e étnicos, do que as pessoas com baixo grau de autoritarismo. Deste modo, recolheu-se um grupo de estudantes universitárias seleccionadas aleatoriamente. Cada uma recebeu 20 fotografias e foi solicitada a “identificar” aquelas cuja nacionalidade reconhecia, “casando” a fotografia apropriada com o nome do grupo nacional. Acontece que (sem que as estudantes soubessem) todas as fotografias eram de indivíduos de nacionalidade mexicana, e como na lista de 20 nacionalidades não incluía a mexicana, o número de fotografias que cada uma “identificasse” constituiria um índice de sua tendência à estereotipia. O grau de autoritarismo foi considerado como alto ou baixo, e os resultados obtidos apresentam-se a seguir:
Nº fotos identificadas Baixo (grau autoritarismo) Alto (grau autoritarismo) 0-2 3-5 6-8 9-11 12-14 15-17 18-20
11 7 8 3 5 5 5
1 3 6 12 12 14 6
Verifique se os dois grupos diferem quanto ao número de fotografias que cada um identifica. 7. Estão a ser testados 3 aerossóis químicos para matar moscas. Na tabela abaixo regista-se o número de moscas mortas em 18 ensaios.
Mar
ca A 72 65 67 75 62 73
B 55 59 68 70 53 50 C 64 74 61 58 51 69
Que conclui?
54
BIBLIOGRAFIA 1. Guimarães R. C. and Cabral J.A.S. (1997), Estatística, Mcgraw-Hill.
2. Mosteller F. and Rourke R.E.K. (1993), Estatísticas Firmes, Edições Salamandra Lda.
3. Murteira B.J.F. (1990), Probabilidades e Estatística volumeII, McGraw-Hill.
4. Pereira A. (1999), SPSS guia prático de utilização, Edições Sílabo.
5. Siegel S. (1956), Nonparametric Statistics for the Behavioural Sciences, McGraw-
Hill.