tratamento da informaÇÃo/anÁlise de dados aula 09 · alguns números bem escolhidos para resumir...

35
CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA 01 DE NOVEMBRO DE 2016 TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 09 Humberto José Bortolossi http://www.professores.uff.br/hjbortol/ Universidade Federal Fluminense

Upload: lydang

Post on 27-Jan-2019

213 views

Category:

Documents


0 download

TRANSCRIPT

CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICAINSTITUTO DE MATEMÁTICA E ESTATÍSTICA

01 DE NOVEMBRO DE 2016

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS

AULA 09

Humberto José Bortolossihttp://www.professores.uff.br/hjbortol/

Universidade Federal Fluminense

SEÇÃO 14.3: RESUMOS NUMÉRICOS DE DADOS

RESUMOS NUMÉRICOS DE DADOS

Como vimos, uma figura pode ser uma excelente ferramenta para resumir grandesconjuntos de dados. Infelizmente, as circunstâncias nem sempre permitem o uso deimagens: diagramas de barras e diagramas de setores não podem ser facilmenteusados na conversação diária. Uma abordagem diferente e muito importante é usaralguns números bem escolhidos para resumir um conjunto de dados.

Nas próximas seções, vamos discutir dois tipos de resumos numéricos de umconjunto de dados: medidas de posição e medidas de dispersão. Medidas deposição, tais como a média, a mediana e os quartis, são números que forneceminformações sobre os valores dos dados. Medidas de dispersão, como a amplitude,a amplitude interquartílica, e o desvio padrão são números que forneceminformações sobre a dispersão dentro do conjunto de dados. Na Seção 14.3 vamosnos concentrar nas medidas de posição. Na Seção 14.4 vamos discutir medidas dedispersão.

A MÉDIA

A média A de um conjunto de N números d1, d2, ..., dN é definida por

1 2 1 .

N

iN i

dd d dA

N N=+ + +

= =∑

EXEMPLO 14.9: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 4

EXEMPLO 14.9: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 4

A soma das 75 pontuações pode ser simplificada consideravelmente se tivermosà disposição uma tabela de frequências.

S = (1 × 1) + (6 × 1) + (7 × 2) + (8 × 6) + ... + (16 × 1) + (24 × 1) = 814.

A = S/N = 814/75 ≈ 10,85 pontos.

A MÉDIA

Mais geralmente, dada uma tabela de frequência com valores d1, d2, ..., dk erespectivas frequências f1, f2, ..., fk , a média A associada é dada por

1 1 2 2 1

1 2

1

.

k

i ik k i

kk

ii

d fd f d f d fA

f f ff

=

=

⋅⋅ + ⋅ + + ⋅

= =+ + +

EXEMPLO 14.10: SALÁRIOS INICIAIS DOS FORMANDOS DE FILOSOFIA

Imagine que você acabou de ler no jornal a seguinte notícia: O salário médio inicialdos 75 alunos de filosofia que se formaram recentemente na Universidade Estadualda Tasmânia é de US$ 76 400,00 por ano!

Este salário médio é bem alto!

Acontece que um dos formandos, “Hoops” Tallman, também é jogador da NBA(National Basketball Association), com salário anual de US$ 3 500 000,00!

Qual é a média dos demais 74 formandos de filosofia?

EXEMPLO 14.10: SALÁRIOS INICIAIS DOS FORMANDOS DE FILOSOFIA

O total dos 75 salários é igual a 75 vezes o salário médio:

75 × US$ 76 400,00 = US$ 5 730 000,00.

O total dos outros 74 salários (excluindo-se o salário de US$ 3 500 000,00 de“Hoops” Tallman) é igual a

US$ 5 730 000,00 – US$ 3 500 000,00 = US$ 2 230 000,00.

A média dos outros 74 salários é então igual a

US$ 2 230 000,00/74 ≈ US$ 30 135,00.

EXEMPLO 14.11: VIVENDO ALÉM DA MÉDIA

A Tabela 14-9 exibe o balanço mensal (ganhos menos gastos mensais) de Billydurante o último ano. Uma quantidade negativa indica que Billy gastou mais do queganhou (ele usou seu cartão de crédito).

A média do balanço mensal de Billy é deUS$ 26,00.

Esta média esconde a verdadeira situação deBilly: ele tem vivido além de seus meios, masfoi socorrido por um golpe de sorte e pela ajudade uma mãe generosa.

PERCENTIS

Enquanto que um resumo numérico único (como a média) pode ser útil, raramenteisto é suficiente para obter uma descrição significativa de um conjunto de dados.Uma descrição melhor do conjunto de dados pode ser apresentada por meio de umquadro bem organizado de resumos numéricos. A maneira mais comum de se fazeristo é por meio de percentis.

O p-ésimo percentil (ou percentil de ordem p) de um conjunto de dados é umvalor tal que p% dos dados coincidem ou estão abaixo deste valor e os demais dadoscoincidem ou estão acima dele.

O p-ésimo percentil divide o conjunto de dados em duas partes: os p% dos valoresinferiores e os (100 – p)% dos valores superiores.

Existem várias maneiras diferentes para calcular os percentis de modo a satisfazera definição dada. Livros de Estatística diferentes descrevem métodos diferentes.Vamos ilustrar um tal método a seguir.

PERCENTIS

O primeiro passo para calcular o p-ésimo percentil de um conjunto de dados com Nnúmeros é ordenar esses números do menor para o maior. Vamos denotar os valoresordenados por d1, d2, ..., dN, onde d1 representa o menor número no conjunto dedados, d2 representa o segundo menor número no conjunto de dados, etc. Note qued2 pode ser igual a d1.

Em algumas situações será necessário considerar a média de dois númerosconsecutivos na lista ordenada, de modo que usaremos subscritos pouco usuais taiscomo d3,5 para representar a média entre os valores d3 e d4, d7,5 para representara média entre os valores d7 e d8 e assim por diante.

O próximo e mais importante passo é identificar qual d representa o p-ésimopercentil do conjunto de dados. Para fazer isto, calculamos p% de N, cujo valordenominaremos de localizador e o denotaremos por L: L = (p/100) N. Se L é umnúmero inteiro, então o p-ésimo percentil será dL,5 (a média de dL e dL + 1). Se L nãoé um número inteiro, então o p-ésimo percentil será dL+, onde L+ representa o valorde L arredondado para cima.

PROCEDIMENTO PARA CALCULAR O P-ÉSIMO PERCENTIL DE UM CONJUNTO DE DADOS

Passo 0. Ordene o conjunto de dados do menor para o maior: d1, d2, ..., dN.

Passo 1. Calcule o localizador L = (p/100) N.

Passo 2. Dependendo se L é um número inteiro ou não, o p-ésimo percentil é dadopor

• dL,5 se L é um número inteiro.• dL+ se L não é um número inteiro (L+ é L arredondado para cima).

EXEMPLO 14.12: BOLSAS DE ESTUDO POR PERCENTIS

Para recompensar o desempenho acadêmico de seus atletas, a Universidade Estadualda Tasmânia tem um programa no qual os seus atletas com CR no 20o percentilsuperior entre os CRs de seus times ganham uma bolsa de US$ 5 000,00. Atletascom CR no 45o percentil superior entre os CRs de seus times que não ganharamuma bolsa de US$ 5 000,00 ganham uma bolsa de US$ 2 000,00.

O time de futebol feminino tem N = 15 jogadoras. A lista de seus CRs é a seguinte:3,42; 3,91; 3,33; 3,65; 3,57; 3,45; 4,0; 3,71; 3,35; 3,82; 3,67; 3,88; 3,76; 3,41; 3,62.

Ordenando essa lista, obtemos:3,33; 3,35; 3,41; 3,42; 3,45; 3,57; 3,62; 3,65; 3,67; 3,71; 3,76; 3,82; 3,88; 3,91; 4,0.

Uma vez que a lista vai do menor para o maior CR, estamos procurando pelo80o percentil e acima (20o percentil superior) para as bolsas de US$ 5 000,00 e pelo55o percentil e acima (45o percentil superior) para as bolsas de US$ 2 000,00.

EXEMPLO 14.12: BOLSAS DE ESTUDO POR PERCENTIS

Lista ordenada:3,33; 3,35; 3,41; 3,42; 3,45; 3,57; 3,62; 3,65; 3,67; 3,71; 3,76; 3,82; 3,88; 3,91; 4,0.

Bolsas de US$ 5 000,00: o localizador do 80o percentil é 0,8 × 15 = 12. Aquio localizador é um número inteiro, de modo que o 80o percentil é dado pord12,5 = 3,85 (a média entre d12 = 3,82 e d13 = 3,88). Assim, três estudantes (aquelescom CRs de 3,88, 3,91 e 4.0) vão ganhar uma bolsa de US$ 5 000,00.

Bolsas de US$ 2 000,00: o localizador do 55o percentil é 0,55 × 15 = 8,25. Aquio localizador não é um número inteiro. Arredondando-o para cima, obtemos 9 e,portanto, o 55o percentil é dado por d9 = 3,67. Assim, os estudantes com CRs de3,67, 3,71, 3,76 e 3,82 (todos os estudantes com CR de 3,67 ou superior excetoaqueles que já ganharam uma bolsa de US$ 5 000,00) vão ganhar uma bolsa deUS$ 2 000,00.

A MEDIANA E OS QUARTIS

O 50º percentil de um conjunto de dados é conhecido como mediana. Denotaremosa mediana por M. A mediana divide o conjunto de dados em duas metades: metadedo conjunto de dados é igual ou está acima da mediana e a outra metade é igual ouestá abaixo da mediana.

Podemos calcular a mediana simplesmente aplicando a definição de percentil comp = 50. Assim: (1) quando N é ímpar, a mediana é o valor na posição (N + 1)/2 dalista ordenada de dados; (2) quando N é par, a mediana é a média dos valores nasposições N/2 e (N/2) + 1 da lista ordenada de dados. Tudo isto se segue do fato deque o localizador para a mediana é L = N/2. Quando N é par, L é um número inteiro;quando N é ímpar, L não é um número inteiro.

PROCEDIMENTO PARA CALCULAR A MEDIANA DE UM CONJUNTO DE DADOS

• Ordene o conjunto de dados do menor para o maior: d1, d2, ..., dN.

• Se N é ímpar, a mediana é d(N+1)/2.

• Se N é par, a mediana é a média entre dN/2 e d(N/2) + 1.

A MEDIANA E OS QUARTIS

Depois da mediana, os percentis mais usados são o primeiro e terceiro quartis.

O primeiro quartil (denotado por Q1) é o 25º percentil. O terceiro quartil (denotadopor Q3) é o 75º percentil.

EXEMPLO 14.13: VENDA DE CASAS NO VALE VERDE

Durante o ano passado, 11 casas foram vendidas no Vale Verde. Os preços devenda, em ordem cronológica, foram US$267.000,00, US$252.000,00,US$228.000,00, US$234.000,00, US$292.000,00, US$263.000,00, US$221.000,00,US$245.000,00, US$270.000,00, US$238.000,00 e US$255.000,00. Vamos calculara mediana e os quartis dos N = 11 preços dos imóveis.

Classificando os preços das casas do menor para o maior (e omitindo os “000”)obtemos a lista: 221, 228, 234, 238, 245, 252, 255, 263, 267, 270, 292.

O localizador da mediana é 0,5 × 11 = 5,5, o localizador do primeiro quartil é0,25 × 11 = 2,75 e o localizador do terceiro quartil é 0,75 × 11 = 8,25. Uma vezque os localizadores não são números inteiros, eles devem ser arredondados paracima: 5,5 par 6, 2,75 para 3 e 8,25 para 9. Assim, a mediana dos preços de venda éigual a d6 = 252 (isto é, M = US$252.000,00), o primeiro quartil é dado por d3 = 234(isto é, Q1 = US$234.000,00) e o terceiro quartil é dado por d9 = 267 (isto é, Q3 =US$267.000,00).

EXEMPLO 14.13: VENDA DE CASAS NO VALE VERDE(CONTINUAÇÃO)

Oops! Uma casa acaba de ser vendida esta manhã no Vale Verde porUS$264.000,00. Precisamos recalcular a mediana e quartis para os agora N = 12preços dos imóveis. Podemos utilizar os dados que já ordenamos, basta inseriro preço novo (264) no lugar certo (lembre-se, não estamos escrevendo o “000”!):221, 228, 234, 238, 245, 252, 255, 263, 264, 267, 270, 292.

Agora N = 12 e neste caso a mediana é a média de d6 = 252 e d7 = 255. Segue-se,portanto, que a mediana dos preços de venda é M = US$253.500,00. O localizadordo primeiro quartil é 0,25 × 12 = 3. Desde que o localizador é um número inteiro,o primeiro quartil é a média de d3 = 234 e d4 = 238 (isto é, Q1 = US$236.000,00).Analogamente, o terceiro quartil é Q3 = US$265.500,00 (a média de d9 = 264 e d10 =267).

EXEMPLO 14.14: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 5

Vamos agora calcular a mediana e os quartis das pontuações do exame deestatística.

A tabela de frequências elimina a necessidade de ordenar as pontuações: de fato,a tabela de frequências já fez isso por nós. Como N = 75 é ímpar, então a mediana éa trigésima oitava pontuação (a contar da esquerda) na tabela de frequências. Paraencontrar o trigésimo oitavo número na Tabela 14-10, contamos ao nos mover daesquerda para a direita: 1 + 1 = 2, 1 + 1 + 2 = 4, 1 + 1 + 2 + 6 = 10,1 + 1 + 2 + 6 + 10 = 20, 1 + 1 + 2 + 6 + 10 + 16 = 36. Neste ponto, sabemos quea 36ª pontuação é um 10 (o último dos 10s) e as próximas 13 pontuação são todas deiguais a l1. Podemos concluir que a 38ª pontuação do exame é 11. Assim, M = 11.

EXEMPLO 14.14: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 5

Vamos agora calcular a mediana e os quartis das pontuações do exame deestatística.

O localizador do primeiro quartil é L = 0,25 × 75 = 18,75. Então Q1 = d19. Paraencontrar a décima nona pontuação na tabela de frequências, contamosas frequências da esquerda para a direita: 1 + 1 = 2; 1 + 1 + 2 = 4; 1 + 1 + 2 + 6 =10; 1 + 1 + 2 + 6 + 10 = 20. Neste ponto, percebemos que d10 = 8 (o último dos 8s) eque de d11 a d20 todas as pontuações são iguais a 9. Assim, o primeiro quartil daspontuações do exame de estatística é igual a Q1 = d19 = 9.

EXEMPLO 14.14: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 5

Vamos agora calcular a mediana e os quartis das pontuações do exame deestatística.

Uma vez que os primeiro e terceiro quartis estão a uma "distância" igual dos doisextremos da lista ordenada pontuações, uma maneira rápida de se localizaro terceiro quartil é olhar para a décima nona pontuação na tabela de frequênciasquando contamos frequências da direita para a esquerda. Deixamos para o leitorverificar que o terceiro quartil do conjunto de dados é igual a Q3 = 12.

EXEMPLO 14.15: OS RESULTADOS EM MATEMÁTICA DO TESTE SAT EM 2007 – PARTE 2

EXEMPLO 14.15: OS RESULTADOS EM MATEMÁTICA DO TESTE SAT EM 2007 – PARTE 2

Lembre-se N = 1.494.531 alunos americanos fizeram o teste SAT em 2007.Conforme relatado pelo Conselho Universitário, a mediana das pontuações do testefoi igual a M = 510, o primeiro quartil foi igual a Q1 = 430 e o terceiro quartil foiigual a Q3 = 590. O que podemos concluir com estas informações?

Vamos começar com a mediana. De N = 1.494.531 (um número ímpar), podemosconcluir que a mediana (510 pontos) é a pontuação de número 747.266 na listaordenada de pontuações do teste. Isto significa que existem pelo menos 747.266estudantes que marcaram 510 pontos ou menos. Por que usamos “pelo menos" nafrase anterior? Poderia haver mais alunos que marcaram 510 pontos ou menos? Sim,quase certamente. Como o número de alunos que marcou 510 pontos está na casados milhares, é muito improvável que a pontuação de número 747.266 seja a últimados 510s. Do mesmo modo, podemos concluir que havia pelo menos 373.633pontuações iguais ou menores do que Q1 = 430 (o localizador do primeiro quartil é(0,25) × 1.494.531 = 373.632,75) e pelo menos 1.120.899 pontuações iguais oumenores do que Q3 = 590.

UMA NOTA DE ADVERTÊNCIA

Medianas, quartis e percentis gerais são frequentemente calculados usando-secalculadoras ou softwares estatísticos, o que é necessário desde que os cálculosenvolvidos podem ser tediosos.

O problema é que não há um consenso universal sobre o procedimento para calcularpercentis. Por isso, diferentes tipos de calculadoras e diferentes softwaresestatísticos podem apresentar respostas ligeiramente diferentes umas das outras(todos concordam com a mediana).

Tenha isso em mente ao fazer os exercícios: a resposta dada pela sua calculadorapode ser um pouco diferente daquela que se obtém a partir dos procedimentos queapresentamos aqui.

O RESUMO DOS CINCO NÚMEROS

Uma maneira comum de se resumir um conjunto de dados grande é através doresumo dos cinco números. O resumo dos cinco números é dado por (1) o menorvalor no conjunto de dados (denominado o Min), (2) o primeiro quartil Q1,(3) a mediana M, (4) o terceiro quartil Q3 e (5) o maior valor no conjunto de dados(denominado o Max). Estes cinco números, juntos, frequentemente nos dizem muitosobre os dados.

EXEMPLO 14.16: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 6

Para os resultados do exame de estatística do Exemplo 14.1 (lembre-se que aspontuações variam de 0 a 25), o resumo dos cinco números é Min = 1, Q1 = 9,M = 11, Q3 = 12 e Max = 24. Que informação útil podemos obter com isto?

Logo de cara, podemos ver que os N = 75 os resultados do exame não estãouniformemente distribuídos ao longo do intervalo de pontuações possíveis. Porexemplo, a partir de M = 11 e Q3 = 12 pode-se concluir que pelo menos 25% daclasse (o que significa, pelo menos, 18 estudantes) tiraram 11 ou 12 pontos noexame. Ao mesmo tempo, a partir de Q3 = 12 e Max = 24 pode-se concluir quemenos de um quarto da classe (isto é, no máximo, 18 alunos) tiveram pontuações nafaixa de 13 a 24 pontos. Utilizando argumentos semelhantes, podemos concluir quepelo menos 18 alunos tiveram pontuações entre Q1 = 9 e M = 11 pontos e não maisde 18 alunos pontuaram na faixa de 1 a 8 pontos.

BOXPLOTS

Inventado em 1977 pelo estatístico John Tukey, um boxplot (também conhecidocomo diagrama de caixa e bigodes) é uma representação gráfica do resumo de cinconúmeros de um conjunto de dados. O boxplot consiste em uma caixa retangular quefica acima de uma escala e que se estende do primeiro quartil Q1 para o terceiroquartil Q3. A linha vertical que atravessa a caixa indica a posição da mediana M. Emambos os lados da caixa são desenhados “bigodes“ (“whiskers”) que se estendempara o menor valor, Min, e o maior valor, Max, dos dados. A Figura 14-12 mostraum boxplot genérico para um conjunto de dados.

BOXPLOTS

A Figura 14-13 (a) mostra um boxplot para os resultados do exame de Estatística(Exemplo 14.14). Os bigodes longos neste diagrama são devidos aos outliers 1 e 24.A Figura 14-13 (b) mostra uma variação do mesmo boxplot, mas com os doisoutliers marcados com um “×” e separados do resto dos dados.

Quando existem outliers, é útil separá-los do resto do conjunto de dados: podemospensar em outliers como "anomalias" dentro do conjunto de dados.

EXEMPLO 14.17: COMPARANDO OS SALÁRIOS ANUAIS INICIAIS EM AGRONOMIA E EM ENGENHARIA

A Figura 14-14 mostra dois boxplots para os salários anuais iniciais de duaspopulações diferentes: os formandos em engenharia e em agronomia daUniversidade Estadual da Tasmânia.

Sobrepor os dois boxplots em uma mesma escala nos permite fazer algumascomparações úteis. É claro, por exemplo, que, em geral, os formandos deengenharia estão se saindo melhor do que os formandos em agronomia, emboraos melhores salários em agronomia são mais bem pagos do que os melhoressalários em engenharia.

EXEMPLO 14.17: COMPARANDO OS SALÁRIOS ANUAIS INICIAIS EM AGRONOMIA E EM ENGENHARIA

A Figura 14-14 mostra dois boxplots para os salários anuais iniciais de duaspopulações diferentes: os formandos em engenharia e em agronomia daUniversidade Estadual da Tasmânia.

Outro ponto interessante é que a mediana dos salários dos diplomados emagronomia (43.000 dólares) é menor do que o primeiro quartil dos salários dosdiplomados em engenharia (45.000 dólares).

EXEMPLO 14.17: COMPARANDO OS SALÁRIOS ANUAIS INICIAIS EM AGRONOMIA E EM ENGENHARIA

A Figura 14-14 mostra dois boxplots para os salários anuais iniciais de duaspopulações diferentes: os formandos em engenharia e em agronomia daUniversidade Estadual da Tasmânia.

O bigode muito curto no lado esquerdo do boxplot da agronomia nos diz queos 25% salários mais baixos em agronomia estão concentrados em uma faixasalarial muito estreita (US$32.500,00–US$35.000,00).

EXEMPLO 14.17: COMPARANDO OS SALÁRIOS ANUAIS INICIAIS EM AGRONOMIA E EM ENGENHARIA

A Figura 14-14 mostra dois boxplots para os salários anuais iniciais de duaspopulações diferentes: os formandos em engenharia e em agronomia daUniversidade Estadual da Tasmânia.

Também podemos ver que os salários em agronomia estão muito mais dispersosdo que os salários de engenharia, embora a maioria da dispersão ocorre no pontomais alto da escala salarial.

AGORA: EXERCÍCIOS EM SALA DE AULA