curso de qualificação profissional - econometria

8/20/2019 Curso de Qualificação Profissional - Econometria

1/143

ALUNO (A): -------------------------------------------------------------------------------------

PROFESSOR (A): ----------------------------------------------------------------------------

CURSO DE QUALIFICAÇÃOPROFISSIONAL

ECONOMETRIA

GOVERNO DO ESTADO DOGOVERNO DO ESTADO DOGOVERNO DO ESTADO DOGOVERNO DO ESTADO DO

AMAZONASAMAZONASAMAZONASAMAZONAS

CETAMCentro de Educação Tecnológica do

Amazonas

SEPLANSecretaria de Estado de Planejamento e

Desenvolvimento Econômico


2/143

APOSTILA DE ECONOMETRIA

PROF. Geraldo Lopes de Souza Júnior


3/143

2

ÍNDICE

1 - INTRODUÇÃO A ESTATÍSTICA ................................................................................................................ 3

1.1 - UM POUCO DE HISTÓRIA................................................................................................................... 3

1.2 - O QUE É ESTATÍSTICA?....................................................................................................................... 4

1.3 - POR QUE ESTUDAR ESTATÍSTICA? ................................................................................................... 4

1.4 - QUANDO E COMO SE DEVE USAR A ESTATÍSTICA? ....................................................................... 5

1.5 - SOFTWARES ESTATÍSTICOS................................................................................................................ 6

1.6 - ALGUNS CONCEITOS FUNDAMENTAIS ............................................................................................ 7

2 - ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOS ESTATÍSTICOS ................................ 8 2.1 - TIPOS DE DADOS ................................................................................................................................. 8

2.2 - DISTRIBUIÇÕES DE FREQÜÊNCIA .................................................................................................... 9

2.3 - MEDIDAS ............................................................................................................................................. 22

2.4 - ASSIMETRIA DAS DISTRIBUIÇÕES................................................................................................... 38

2.5 - DIAGRAMA EM CAIXAS...................................................................................................................... 43

3 - ANÁLISE BIDIMENSIONAL...................................................................................................................... 50 3.1 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUALITATIVAS .......................................................... 51

3.2 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUANTITATIVAS..................... ............ .............. ......... 56

4 - ANÁLISE DE SÉRIES TEMPORAIS ......................................................................................................... 81 4.1 - MODELO CLÁSSICO DAS SÉRIES TEMPORAIS.............. .............. ............. .............. ............ ............ 83

4.2 - OBTENÇÃO DA TENDÊNCIA ............................................................................................................. 86

4.3 - OBTENÇÃO DAS VARIAÇÕES SAZONAIS......................................................................................... 95

4.4 - OBTENÇÃO DE VARIAÇÕES CÍCLICAS E IRREGULARES ............................................................. 99

4.5 - RECOMPOSIÇÃO .............................................................................................................................. 104

5 - NÚMEROS ÍNDICES.................................................................................................................................. 112

5.1 - NÚMEROS ÍNDICES SIMPLES ......................................................................................................... 112

5.2 - NÚMEROS ÍNDICES COMPOSTOS....... ............. .............. ............ .............. ............. .............. ........... 115

5.3 - MUDANÇA DE BASE DE UM NÚMERO ÍNDICE..... .............. ............ ............. .............. ............. ..... 119

5.5 - ÍNDICES BRASILEIROS E INTERNACIONAIS............. ............ .............. ............. ............ .............. ... 122

REFERÊNCIAS ................................................................................................................................................ 141


4/143

3

1 - INTRODUÇÃO A ESTATÍSTICA

Geralmente, quando começamos a lecionar um curso de estatística direcionado

para não estatísticos, somos indagados por questões muito pertinentes. Como

exemplo podemos citar:

O que é estatística?

Por que estudar estatística?

O que a estatística tem haver com a formação profissional que estou

almejando?

Quando se deve usar a estatística?

Como se deve usar a estatística?

Na pretensão de responder essas e muitas outras perguntas, produzimos este

material buscando uma linguagem acessível e atraente.

1.1 - UM POUCO DE HISTÓRIA

Em uma pesquisa feita por um grande matemático e estatístico de nossos dias,Gauss Cordeiro, encontramos indícios estatísticos desde muito tempo antes de

Cristo. Por exemplo, em 5000 a.C. já existiam registros egípcios de presos de

guerra, em 3000 a.C. os jogos de dados, em 2000 a.C. temos o Censo Chinês, em

1500 a.C. dados de mortos em guerras no Velho Testamento, em 1100 a.C. já

existiam registros de dados em livros da Dinastia Chinesa, em 400 a.C. é possível

encontrarmos uma descrição detalhada de coleta de dados em livros de

Constantinopla e em aproximadamente 100 a.C. Horácio usa um ábaco de fichas

como instrumento de “cálculo portátil”.

Para alguém já familiarizado com o curso de Administração Pública, esses

dados podem ser vistos como indícios de relatórios gerenciais primitivos e não

estatística propriamente dita. O leitor que afirma isso está parcialmente correto. Aqui

ficam nítidas as raízes comuns entre a estatística e a administração.


5/143

4

Contudo, as intersecções não se dão apenas antes de Cristo. Muito pelo

contrário, após Cristo os pontos em comuns se dão de forma mais consistentes e

constantes. Temos em 400 d.C. o desenvolvimento da teoria dos números, em 695

d.C. a utilização da média ponderada pelos árabes na contagem de moedas, em

1303 d.C. a origem dos números combinatórios (Shihchieh Chu), em 1707 d.C.

Números Índices (Fleetwood), em 1710 d.C. a primeira publicação de um Teste de

Significância (John Arbuthnot), em 1892 d.C. determinação do Coeficiente de

Correlação (Edgeworth) e em 1915 d.C. a fórmula do Lote Econômico (Harris).

1.2 - O QUE É ESTATÍSTICA?

A fim de conceituar a estatística, podemos dizer que ela é uma reunião demétodos quantitativos que serve para estudar e medir os fenômenos acerca de uma

população. Ou, um ramo da matemática que trata da coleta, da análise, da

interpretação e da apresentação de massas de dados numéricos.

Etimologicamente, criada por Schmeitzel (1785) a partir do latim status

(estado), statisticum .

Sendo usada originalmente na Idade Antiga para levantamentos de dados nointuito de auxiliar o estado na tomada de decisões.

1.3 - POR QUE ESTUDAR ESTATÍSTICA?

Queremos chamar a atenção do estudante para dois objetivos relevantes. O

primeiro, mais geral, é fazer com que o estudante possa distinguir entre problemas

onde a estatística pode ser aplicada e problemas onde ela não se aplica. O segundo

é que inclui a capacidade de reconhecer qual técnica se aplica à determinada

situação e de utilizá-la da melhor forma possível na resolução do problema.

Agora, responder a pergunta “Por que estudar estatística?” é uma tarefa para o

leitor. Esta pergunta deve ser feita não só para a disciplina de estatística, mas para


6/143

5

todas as outras disciplinas. Desta forma será possível fazer um link entre as

disciplinas estudadas em Ciências Contábeis e perceber a relevância da estatística

para o curso. Contudo, podemos evidenciar o seguinte:

O detentor de conhecimentos estatísticos pode ter uma visão mais crítica

das informações expostas pela imprensa e das experiências do cotidiano

que oferecem inúmeras interpretações;

O raciocínio estatístico está amplamente difundido e é muito utilizado na

administração pública e privada. Assim, é possível que, no futuro, um

empregador venha a contratar ou promover um profissional por causa de

seus conhecimentos estatísticos;

Os administradores precisam do conhecimento da estatística para tomar

algumas de suas decisões e para evitar serem ludibriados por certos

resultados errôneos ou viciados;

Muitos periódicos e revistas de administração pública e áreas afins trazem

referências freqüentes a estudos estatísticos;

Esperamos que estas razões possam dar uma idéia do que o estudante de

Administração Pública pode esperar do seu estudo de estatística.

1.4 - QUANDO E COMO SE DEVE USAR A ESTATÍSTICA?

Hoje, é muito comum ouvir algo do tipo: “As estatísticas mostram um

crescimento econômico no último semestre”, “Segundo as estatísticas do ministério

da agricultura, o cultivo de macaxeira e açaí é o responsável pelo decrescimento em

dois pontos percentuais do desemprego no interior do Amazonas”, “O índice

pluviométrico do rio Negro vem subindo a uma taxa de oito centímetros por dia”, “A

taxa de criminalidade juvenil diminuiu em 60% no último ano de governo de EduardoBraga”, “Houve um aumento de 120% na procura por educação nos ensinos

fundamental e médio, afirma a SEMED”. Esses tipos de frases do nosso cotidiano

são resultados de uma parte da estatística que utiliza números para descrever fatos,

chamada apropriadamente de Estatística Descritiva . Podemos afirmar que a

estatística descritiva é responsável pela organização, resumo, simplificação,

interpretação e apresentação de informações um pouco mais complexas.


7/143

6

Outra parte da estatística, muito interessante, está relacionada com a teoria de

probabilidade . Usamos a probabilidade para resolver questões que envolvem o

acaso. Introdutoriamente podemos citar jogos de azar, resultados de partidas de

futebol e resultados de lançamentos de moedas. Mais especificadamente, a

aceitação de determinada abordagem em uma população em estudo, a decisão de

investir na compra de determinadas ações, a decisão de contratar funcionários para

empresa, todas utilizam a probabilidade consciente ou inconscientemente.

A probabilidade nos dá “indicativos”, não certezas. Em uma de minhas leituras

encontrei um caso curioso. Um aluno pergunta ao professor: “Se a probabilidade é a

‘ciência do acaso’, como faço para ganhar na loteria?”, assim o professor, como

tantos outros conhecedores de estatística respondeu: “Se eu soubesse, não estaria

aqui dando aulas!”.

Por fim, temos um terceiro ramo da estatística que está interessado na análise

e interpretação de dados amostrais: a inferência . Basicamente a amostragem aborda

uma fração, o mais fidedigna possível, de determinada população e utiliza as

informações extraídas deste pequeno grupo para fazer inferência sobre a população

toda. A amostragem está presente no nosso dia a dia e podemos percebê-la através

de certos procedimentos. Como exemplos, temos: assistir por alguns instantes

determinado programa da TV para avaliar se vale a pena continuar assistindo; comer

um pedacinho do bolo para ver se o bolo está bom; consultar apenas alguns alunos

da classe para determinar o que a maioria pensa a respeito de determinado assunto.

Deve ficar claro ao estudante de estatística que essas três áreas não são

separadas ou distintas. Muito pelo contrário, elas tendem a se correlacionar.

Descrever e resumir dados corresponde à primeira fase de uma análise estatística. É

preciso ressaltar que os fundamentos de amostragem se baseiam na teoria de

probabilidade.

1.5 - SOFTWARES ESTATÍSTICOS

É comum ouvir dos alunos frases do tipo “Estatística não. Não gosto de fazer

cálculos!”. Hoje um curso de estatística para Administração Pública exige


8/143

7

inicialmente do aluno um conhecimento básico de matemática (nada sofisticado) e

certa familiaridade com o Windows ou Linux, editores de texto e planilhas.

Os pacotes estatísticos mais usuais como o Minitab, SPSS e R, importam

dados do Excel e/ou bloco de notas do Windows. Com eles é possível ter análises

estatísticas (resumos, gráficos e tabelas) em curto espaço de tempo dando um ou

dois “cliques”. Chamaremos a atenção para um pacote estatístico em particular, o

Scientific Annalsys Ststistical - SAS. O SAS talvez seja, hoje, o pacote mais

completo e eficiente disponível no mercado.

1.6 - ALGUNS CONCEITOS FUNDAMENTAIS

Aqui deve começar de fato a familiarização com a linguagem estatística. Os

conceitos ora apresentados são de grande importância para o curso e serão

constantemente usados no decorrer do curso de estatística.

População: coleção de elementos (pessoas, objetos, animais, itens) que

são inerentes ao estudo de um fenômeno coletivo possuindo alguma

característica em comum;

Amostra: fração ou subconjunto da população;Parâmetro: característica numérica estabelecida para toda a população;

Estimador: característica numérica estabelecida para uma amostra;

Variável: característica não numérica de uma população ou amostra;

Censo: é uma avaliação direta de um parâmetro, utilizando todos os

componentes da população;

Estimação: é uma avaliação indireta de um parâmetro, como base em um

estimador;

Dados brutos: é uma seqüência de valores numéricos não organizados,obtidos diretamente da observação de um fenômeno coletivo;

Rol: é uma seqüência ordenada, de forma crescente ou decrescente, dos

dados brutos.


9/143

8

2 - ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOSESTATÍSTICOS

2.1 - TIPOS DE DADOS

Podemos classificar as variáveis e os dados em estudo basicamente em dois

grupos: Quantitativos (discretos ou contínuos) e Qualitativos (nominais ou ordinais).

2.1.1 - Dados quantitativos

Os dados quantitativos envolvem variáveis que são inerentemente numéricas.Esse tipo de variável pode ser dividido em variáveis quantitativas discretas ou

variáveis quantitativas continuas . Uma variável quantitativa discreta só pode assumir

determinados valores, em geral inteiros. Os dados discretos originam-se da

contagem de itens ou elementos com determinada característica. Como exemplos: o

número de ações de uma empresa; o número de alunos numa sala de aula; a

quantidade de acidentes numa fábrica; etc. As variáveis que podem assumir

virtualmente qualquer valor num intervalo de valores são chamadas contínuas .

Características como idade, altura, peso, renda, tempo necessário pra realizar

determinada tarefa, enquadram-se nesta categoria. Os dados referentes a essas

características e similares dizem-se contínuos, embora na prática os instrumentos de

mensuração tenham limitações físicas que lhes restringem o grau de precisão.

2.1.2 - Dados qualitativos

Os dados qualitativos envolvem variáveis que não são inerentemente

numéricas, contudo as variáveis qualitativas devem ser convertidas em valores

numéricos antes de serem processadas estatisticamente. Esse tipo de variável pode

ser dividido em variáveis qualitativas nominais ou variáveis qualitativas ordinais . As

variáveis qualitativas nominais envolvem categorias tais como sexo (masculino ou

feminino), curso de estudo (Ciências Contábeis, Serviço Social, Administração,

Filosofia, Pedagogia), desempenho (excelente, bom, regular, ruim), etc. Os dados


10/143

9

nominais surgem quando se definem categorias ou classes e se conta o número de

observações pertencentes a cada categoria. Os dados ordinais consistem de valores

atribuídos para denotar ordem: primeiro, segundo, terceiro, quarto, etc.

Para cada tipo de variável existem técnicas diferentes para resumir as

informações. Contudo, poderemos observar que as técnicas usadas num caso

podem ser usadas para outros.Faz-se necessário evidenciar que em algumas

situações é possível atribuir valores numéricos às várias qualidades ou atributos de

uma variável qualitativa e depois analisar os dados como se esses fossem

quantitativos. Mas isto só poderá ser feito se o procedimento for passível de

interpretação.Existe um tipo de variável qualitativa para a qual essa quantificação é

muito útil: a chamada variável dicotômica. Para essa variável só podem ocorrer duas

realizações, usualmente chamadas sucesso e fracasso . A variável sexo é um bom

exemplo disso.

Organograma para o tipo de variáveis e dados

2.2 - DISTRIBUIÇÕES DE FREQÜÊNCIA

Podemos afirmar que uma distribuição de freqüência é um método de

agrupamento de dados em classes, possibilitando determinar o número oupercentual de elementos em cada uma destas classes. Assim, quando estamos

trabalhando com um grande conjunto de dados, poderemos visualizá-lo sem precisar

levar em conta os números individuais. Uma distribuição de freqüência pode ser

apresentada sob a forma de uma tabela ou de um gráfico.

Estudaremos agora como apresentar um resumo dos dados através de tabelas.

Para fins ilustrativos, faremos uso das informações dispostas no Quadro 2.1.


11/143

10

Quadro 2.1: Informações sobre sexo, idade (medida em anos), altura (medida emmetros), peso (medido em quilogramas), estado civil, renda (medida em reais), zonada cidade em que mora, naturalidade (somente o estado de nascimento), time quetorce e pretensão salarial ao se formar (medida em reais) de 45 alunos do curso deeconometria do CETAM, Manaus – 09/2010.

GêneroIdade(anos)

Altura(m)

Peso(kg)

Estadocivil

Rendaindividual

(R$)

Zonaresidencial

Naturalidade(estado)

TimePret. Sal.

ao se

formar

TipoSanguíneo

F 33 1,54 51 solt 1.000,00 oeste amazonas Brasil 5.000,00 O +M 21 1,70 56 solt 800,00 centro-oeste piaui Corinthias 13.500,00 O +F 19 1,62 48 solt leste pará Flamengo 5.000,00 A +M 27 1,73 74 solt 1.200,00 oeste amazonas São paulo 4.500,00 A -M 25 1,75 72 solt 880,00 centro-oeste amazonas Vasco 5.000,00 O +M 19 1,73 70 solt 600,00 oeste amazonas Grêmio 3.000,00 AF 19 1,60 51 solt 800,00 centro-oeste amazonas - 50.000,00 -M 20 1,88 87 solt 800,00 centro-oeste amazonas Corinthias 3.000,00 O +M 32 1,73 64 solt 1.200,00 leste amazonas - 5.000,00 O +M 25 1,65 61 solt 350,00 sul amazonas Flamengo 5.000,00 A +F 36 1,65 76 solt 1.800,00 sul amazonas - 5.000,00 A +F 32 1,70 90 cas 1.100,00 - amazonas Corinthias 3.500,00 O +F 22 1,65 58 solt oeste amazonas Flamengo 4.000,00 O +M 21 1,73 75 solt 600,00 centro-oeste amazonas Flamengo 7.000,00 A +F 24 1,60 53 cas 1.100,00 oeste amazonas Flamengo 5.000,00 O +F 19 1,60 60 solt 400,00 centro-oeste amazonas Palmeiras 1.500,00 O +F 34 1,63 50 solt 490,00 oeste amazonas Nenhum 25.000,00 -F 54 1,68 75 solt 940,00 sul amazonas Nenhum 15.000,00 A +M 38 1,72 99,8 cas 1.200,00 centro-oeste amazonas Vasco 2.000,00 O +F 22 1,55 58 solt 700,00 norte amazonas Vasco 3.000,00 A+F 24 1,54 46 solt 800,00 oeste amazonas Palmeiras 3.500,00 A +M 33 1,75 75 cas 500,00 oeste amazonas Fluminense 2.500,00 O +F 31 1,60 57 solt 1.200,00 oeste amazonas Vasco 4.000,00 A -F 20 1,47 42 solt 420,00 centro-sul amazonas Vasco 10.000,00 O +M 43 1,62 64 cas 1.500,00 oeste amazonas Vasco 6.000,00 AB +F 26 1,62 60 cas 300,00 oeste amazonas Nenhum 2.000,00 O +

F 54 1,30 54 divorc. 3.200,00 norte amazonas Flamengo 2.400,00 A +F 44 1,57 68 divorc. 2.000,00 centro-oeste paraíba Flamengo 5.000,00 A +F 45 1,68 73 cas 1.200,00 sul amazonas Flamengo 1.800,00 B +F 37 1,51 56 cas 1.000,00 centro-oeste amazonas Palmeiras 4.000,00 A +F 31 1,58 56 cas 700,00 leste amazonas Nenhum - A +F 21 1,60 58 solt 600,00 oeste amazonas Palmeiras 20.000,00 A +M 43 1,70 66 cas 3.000,00 oeste amazonas Vasco 8.000,00 O +M 21 1,83 74 solt 350,00 sul amazonas Vasco 4.000,00 -F 18 1,55 55 solt 450,00 oeste amazonas Nenhum 2.000,00 O +M 25 1,82 71 solt 650,00 norte goias Corinthias 3.500,00 O +M 36 1,73 100 cas 1.800,00 - amazonas Flamengo - O +F 34 1,60 47 solt 1.500,00 norte amazonas Vasco 3.000,00 A+F 57 1,56 95 cas 3.500,00 - amazonas Brasil 25.000,00 A +

F 40 1,51 50 solt 2.900,00 oeste amazonas São paulo 6.000,00 O +F 19 1,62 62 solt 360,00 sul amazonas Flamengo 6.000,00 O +F 36 1,55 50 cas 1.500,00 oeste amazonas Flamengo 7.000,00 O +F 34 1,58 60 cas 636,00 leste roraima Brasil 20.000,00 O +F 25 1,58 52 solt 660,00 norte amazonas Flamengo 2.500,00 B +F 23 1,60 53 solt 600,00 oeste amazonas Flamengo 8.000,00 A +

FONTE: PESQUISA DE CAMPO


12/143

11

2.2.1 - Elaboração de tabelas

Alguns rigores são exigidos na construção de tabelas:

É necessário saber previamente com que tipo de variável se deseja

trabalhar (quantitativa ou qualitativa);

É necessário definir quantas e quais classes deverão ser utilizadas

de acordo com um objetivo pré-determinado;

Se a variável for quantitativa, é necessário determinar a amplitude

das classes (quando for conveniente);

Toda tabela deve ter significado próprio, dispensando consultas ao

texto;

Toda tabela deve apresentar um título;Toda tabela deve informar a fonte dos dados e o texto que contem tal

informação deve ser apresentado em tamanho inferior aos demais textos

da tabela e deve estar em caixa alta;

Nunca se fecha uma tabela nas laterais, esse procedimento objetiva

permitir a entrada ou retiradas de informações;

A tabela deve ser colocada em posição vertical, para facilitar a leitura

dos dados. No caso em que isso seja impossível, deve ser colocada em

posição horizontal, com o título voltado para a margem esquerda da folha;Se a tabela ou quadro não couber em uma página, deve ser

continuado na página seguinte. Neste caso o final não será delimitado por

traço horizontal na parte inferior e o cabeçalho será repetido na página

seguinte;

Não devem ser apresentadas tabelas nas quais a maior parte das

classes indiquem inexistência do fenômeno.

Para exemplificarmos, tomaremos as variáveis sexo (qualitativa nominal) eidade (quantitativa contínua). Assim poderemos resumir o conjunto de informações

acerca dessas variáveis disposto no Quadro 2.1 em tabelas que nos darão idéia do

todo.


13/143

12

Tabela 2.1: Freqüências e porcentagens dos 45 alunos do curso de econometria do

CETAM segundo o sexo – setembro de 2010.

Sexo Freqüência simples Freqüência relativa (%)

Masculino 15 33,33

Feminino 30 66,67Total 45 100,0

FONTE: DADOS HIPOTÉTICOS.

Tabela 2.2: Freqüências e porcentagens dos 45 alunos do curso de econometria do

CETAM segundo a idade – setembro de 2010.

IdadeFreqüência

simples

Freqüência

relativa (%)

Freqüência

acumulada

Freqüência

acumulada relativa

(%)18├─ 24 15 33,33 15 33,33

24├─ 30 08 17,78 23 51,11

30├─ 40 14 31,11 37 82,22

40├─ 50 05 11,11 42 93,33

50├─ 60 03 06,67 45 100,0

Total 45 100,0


Quando estudamos a variável sexo só temos duas alternativas possíveis. Cada

indivíduo da população em estudo ou é do sexo masculino ou é do sexo feminino.

Podemos considerar cada uma dessas possibilidades como uma categoria, ou

ainda, uma classe. Sendo assim, a Tabela 2.1 se apresenta com duas classes:

masculino e feminino. Observamos que 30 alunos do total de 45 são do sexo

feminino e que este grupo representa 66,67% do total. Encontramos o número 30

como freqüência simples da segunda classe contando o número de pessoas que

afirmaram ser do sexo feminino. O valor 66,67% é obtido quando dividimos a

quantidade de pessoas do sexo feminino pelo total de pessoas e em seguida

multiplicando esse resultado por cem. Assim, podemos concluir que o percentual

atribuído a cada classe é dado pela freqüência relativa vezes cem. A equação da

freqüência relativa é dada por:


14/143

13

Para as variáveis quantitativas podemos proceder de duas formas. A primeira é

repetir o processo usado na construção da tabela 2.1, ou seja, identificar todas as

classes (alternativas possíveis) e verificar a freqüência associada a cada uma

dessas classes. Esse processo pode ser inviável se a variável em estudo possuir um

número muito grande de possibilidades de respostas e/ou a população em estudo

for muito numerosa. Para solucionar este problema apresentamos um outro

procedimento. Reuni-se em uma única classe várias possibilidades de respostas. Se

a variável em estudo é a idade, então podemos reunir em uma única classe todas as

idades no intervalo de 18 a 24 anos, por exemplo.

A tabela 2.2 apresenta a variável idade dividida em cinco classes. A primeira

classe tem como limite inferior o número 18 e como limite superior o número 24. O

sinal apresentado entre esses números nos da idéia do tipo de intervalo usado.

Neste caso, dizemos que o intervalo da primeira classe é fechado em 18 e aberto

em 24, ou seja, a primeira classe envolve todas as idades iguais ou maiores que 18

anos e menores que 24. Note que não entrará nesta classe uma observação igual a

24. Lê-se a classe 18├─ 24 da seguinte forma: de 18 anos inclusive até 24 anos

exclusive. É possível termos classes dos tipos 18 ─┤24 (de 18 anos exclusive até 24anos inclusive) ou 18├─┤24 (de 18 anos inclusive até 24 anos inclusive).

A diferença entre o maior valor observado e o menor valor observado é

chamado de amplitude total, geralmente representado por At. A diferença entre o

limite superior e o limite inferior de cada classe recebe o nome de amplitude de

classe, geralmente representado por h . É possível encontrar na literatura autores

que definam equações para determinar o número de classes e a amplitude que cada

classe deve ter. Por exemplo, para determinar o número K de classes: ou K= 1 + 3,33 log n . Em que o n é o número total de observações. Feito isso será

possível determinar a amplitude da classe através da equação:

É necessário atentar para o fato de que quando temos muitas observações

esses caminhos se tornam inviáveis por determinarem um número muito grande de

classes. Observe ainda que procedendo desta maneira todas as classes terão a


15/143

14

mesma amplitude, o que pode contrariar o objetivo do estudo. Por exemplo, se o

interesse é verificar a quantidade de crianças, adolescentes, jovens, adultos e

idosos de uma população composta de 900 pessoas, usando a variável idade, onde

a menor idade observada é 1 ano e a maior é 81 anos. Usando as equações acima,

teríamos entre 24 a 30 classes e cada classe possuiria uma amplitude igual a 3 ou 4.

Isso geraria uma tabela muito carregada e possivelmente não explicitaria o objetivo

do estudo.

A melhor maneira de determinar o número de classes e a amplitude de cada

classe é usar o bom senso. Ainda com o objetivo de verificar a quantidade de

crianças, adolescentes, jovens, adultos e idosos de uma população, usando a

variável idade, podemos dividi-la em apenas cinco classes de amplitudes diferente e

atender de forma bastante satisfatória o objetivo do estudo, por exemplo: 0 ├─ 12,

12 ├─ 18, 18 ├─ 24, 24 ├─ 65, 65 ├─ 120.

Podemos ter como interesse resumir simultaneamente os dados de duas

variáveis. Neste caso usamos tabelas de dupla entrada (ou tabelas de contingência ),

onde deverão aparecer as freqüências simples e/ou as freqüências relativas que

pertencem simultaneamente a classes de uma e outra variável. Quando

consideramos duas variáveis podemos ter três situações:

As duas variáveis são qualitativas;

As duas variáveis são quantitativas;

Uma variável é qualitativa e a outra é quantitativa.

A seguir discutiremos acerca de uma tabela de dupla entrada para uma variável

quantitativa versus uma variável quantitativa. Para tanto, usaremos as variáveis

usadas para construir as tabelas 2.1 e 2.2 (sexo e idade).

Deve ficar claro que um dos principais objetivos de se construir uma

distribuição conjunta (uma tabela de dupla entrada, por exemplo) de duas variáveis é

medir o grau de dependência entre elas, de modo que possamos prever o melhor

resultado de uma delas quando conhecemos a realização da outra.


16/143

15

Construiremos uma tabela de dupla entrada a fim de verificar se existe ou não

associação entre as variáveis sexo e idade usando as observações dispostas no

quadro 2.1.

Tabela 2.3: Distribuição conjunta das variáveis sexo e idade dos alunos do curso de

econometria do CETAM – setembro de 2010.Sexo

Idade (anos)Feminino Masculino

Total

18├─ 24 10 5 1524├─ 30 4 4 830├─ 40 10 4 1440├─ 50 3 2 550├─ 60 3 0 3

Total 30 15 45


Esse tipo de tabela nos trás boas informações. Podemos observar, porexemplo, que existem dez alunos do sexo feminino com idade entre 30 (inclusive) e

40 anos (exclusive). Observamos ainda que, independente da idade, existem 30

alunos do sexo feminino e 15 do sexo masculino.

Perceba que os totais marginais para a variável sexo são iguais às freqüências

simples dispostas na tabela 2.1 e que os totais marginais para a variável idade são

iguais às freqüências simples dispostas na tabela 2.2.

Esta forma de apresentação, através de freqüência simples, pode dificultar o

entendimento uma vez que não temos uma idéia clara de cada informação em

relação ao todo. Para tanto poderíamos ter essas informações expressas em termos

percentuais.

Tabela 2.4: Distribuição conjunta das proporções das variáveis sexo e idade dosalunos do curso de econometria do CETAM – setembro de 2010.

SexoIdade (anos) Feminino Masculino Total

18├─ 24 22,22 % 11,11 % 33,33 %24├─ 30 08,89 % 08,89 % 17,78 %30├─ 40 22,22 % 08,89 % 31,11 %40├─ 50 06,67 % 04,44 % 11,11 %50├─ 60 06,67 % 00,00 % 06,67 %

Total 66,67 % 33,33 % 100,00 %



17/143

16

Observe que não existem alunos do sexo masculino com idade superior a 50

anos. Os maiores percentuais (22,22%) são de alunos do sexo feminino com idades

no intervalo de 18 a 24 anos ou no intervalo de 30 a 40 anos. Veja que,

independente do sexo, existem 33,33% de alunos com idade entre 18 e 24 anos e

apenas 6,67% de alunos com idade superior ou igual a 50 anos.

Perceba que os totais marginais para a variável sexo são iguais às freqüências

relativas dispostas na tabela 2.1 e que os totais marginais para a variável idade são

iguais às freqüências relativas dispostas na tabela 2.2.

Uma outra forma de apresentação de tabelas de dupla entra seria exibir em

uma única tabela as freqüências relativas e percentuais. Para exemplificar,

observemos a Tabela 2.5.

Tabela 2.5: Distribuição conjunta dos valores absolutos e proporcionais das variáveissexo e idade dos alunos do curso de econometria do CETAM - setembro de 2010

SexoIdade (anos)

Feminino MasculinoTotal

10 5 1518├─ 2422,22 % 11,11 % 33,33 %

4 4 824├─ 308,89 % 8,89 % 17,78 %

10 4 1430├─ 40 22,22 % 8,89 % 31,11 %3 2 540├─ 50 6,67 % 4,44 % 11,11 %3 0 350├─ 60 6,67 % 0,0 % 6,67 %30 15 45Total

66,67 % 33,33 % 100,00 %FONTE: DADOS HIPOTÉTICOS.EM CADA ENTRADA, ENCONTRA-SE A FREQÜÊNCIA SIMPLES SOBRE A FREQÜÊNCIA RELATIVA.

Assim podemos observar que existem dez alunos do sexo feminino com idade

entre 30 (inclusive) e 40 anos (exclusive) e que esses dez alunos representam

22,22% do total. Observamos ainda que, independente da idade, 66,67%, ou 30

alunos, são do sexo feminino e 33,33%, ou 15 alunos, são do sexo masculino.


18/143

17

2.2.2. Elaboração de gráficos

Uma outra forma de apresenta um resumo dos dados é através de gráficos. A

representação gráfica de uma distribuição de uma variável tem a vantagem de,

rápida e concisamente, informar sobre sua variabilidade. Existem vários gráficos que

podem ser utilizados e abordaremos aqui os mais simples.

Para representar variáveis qualitativas existem vários tipos de gráficos que

obedecem o mesmo principio, logo nos limitaremos a apresentar três deles: gráficos

de barras, colunas e setores circular (“pizza”).

O gráfico em colunas consiste em construir tantos retângulos conforme o

número de classes de seu interesse, em que a altura de cada um desses retângulos

(classes) está relacionada diretamente com a freqüência (simples ou relativa). Essascolunas estão dispostas paralelamente umas às outras, no sentido vertical. No

gráfico em barras são construídos tantos retângulos conforme o número de classes

de seu interesse, em que o comprimento de cada um desses retângulos (classes)

está relacionado diretamente com a freqüência (simples ou relativa). Essas barras

estão dispostas paralelamente umas às outras, no sentido horizontal.

Ao construirmos um gráfico, independente do tipo, devemos atentar para o tipo

de variável com a qual estamos trabalhando. É necessário verificar se a variável emestudo é continua ou não. Se a variável for contínua, devemos demonstrar isso no

gráfico, ou seja, as classes (barras, colunas ou setores) deverão ser apresentadas

justapostas. Se a variável não for contínua as classes deverão ser apresentadas

separadamente. Uma outra observação a ser feita é que usualmente o titulo da

figura deve ser apresentado em baixo da figura.

Apesar de termos as duas convenções supracitadas, é muito comum

encontrarmos em revistas, periódicos, livros e em outros meios de informação,gráficos fugindo desses padrões. Isso torna esses “erros” comuns, mas não

aceitáveis.

Para exemplificar, tomaremos a variável qualitativa estado civil e a variável

quantitativa idade . Nas figuras 2.1, 2.2 e 2.3 temos, respectivamente, gráfico em

colunas, gráfico em setores circular e gráfico em barras para a variável estado civil.


19/143

18

Nas figuras 2.4, 2.5 e 2.6 temos, respectivamente, gráfico em colunas, gráfico em

setores circular e gráfico em barras para a variável idade. As observações usadas

para a elaboração desses gráficos foram retiradas do quadro 2.1.

Figura 2.1: Gráfico em colunas para a variável estado civil dos

alunos do curso de econometria do CETAM - setembro de

2010

Figura 2.2: Gráfico em setores circular para a variável estado

civil dos alunos do curso de econometria do CETAM -

setembro de 2010


20/143

19

Figura 2.3: Gráfico em barras para a variável estado civil dos

alunos do curso de econometria do CETAM - setembro de2010

Figura 2.4: Gráfico em colunas para a variável idade dos

alunos do curso de econometria do CETAM - setembro de

2010


21/143

20

Figura 2.5: Gráfico em setores circular para a variável idade

dos alunos do curso de econometria do CETAM - setembro de2010

Figura 2.6: Gráfico em barras para a variável idade dos alunos

do curso de econometria do CETAM - setembro de 2010

Podemos ter como interesse resumir simultaneamente os dados de duas

variáveis em um único gráfico. A exemplo das tabelas de dupla entrada (ou tabelas

de contingência), nos gráficos deverão aparecer as freqüências simples ou as


22/143

21

freqüências relativas que pertencem simultaneamente a classes de uma e outra

variável. Para ilustrar, temos as figuras 2.7 e 2.8.

Figura 2.7: Gráfico em colunas para a distribuição conjunta das

variáveis sexo e idade dos alunos do curso de econometria do

CETAM - setembro de 2010

Figura 2.8: Gráfico em barras para a distribuição conjunta das

variáveis sexo e idade dos alunos do curso de econometria do

CETAM - setembro de 2010


23/143

22

2.3 - MEDIDAS

Até agora vimos que é possível resumir os dados e apresentá-los em forma de

tabelas e gráficos. Contudo, quando estamos diante de um banco de dados é

conveniente tentar resumi-lo através do cálculo de algumas medidas que acaracterizam. Estas medidas, quando bem interpretadas, podem fornecer-nos

informações muito valiosas com respeito a este conjunto de dados.

Em suma, podemos reduzi-lo a alguns valores, cuja interpretação fornece-nos

uma compreensão bastante precisa de todo o conjunto de observações. Alguns

destes valores são as medidas de tendência central outros são as medidas de

dispersão.

2.3.1. Medidas de tendência central

São valores intermediários do conjunto de dados, ou seja, valores

compreendidos entre o menor e o maior valor da série. São também valores em

torno dos quais os elementos do conjunto de dados estão distribuídos. A medida de

tendência central procura estabelecer um número no eixo horizontal em torno do

qual a série se concentra.As principais medidas de tendência central são: média, mediana e moda.

2.3.1.1. Média

Do ponto de vista teórico, vários tipos de média podem ser calculados para

uma massa de dados. Ressaltamos que a média aritmética é a mais usada, portanto

a mais comum. Apresentaremos ainda as médias geométricas e harmônicas.

Média aritmética simples:

Para uma seqüência numérica X: x1, x2, x3, ..., xn , a média aritmética simples,

que designaremos por X é definida por:

n

x X i∑=


24/143

23

Média aritmética ponderada:

Para uma seqüência numérica X: x1, x2, x3, ..., xn , afetados de pesos p1, p2, p3,

..., pn, respectivamente, a média aritmética ponderada, que designaremos por p X , é

definida por:

∑∑

=i

ii p p

p x X

Média geométrica simples

Para uma seqüência numérica X: x1, x2, x3, ..., xn , a média geométrica simples,

que designaremos por g X , é definida por:

nng x x x x X ...321=

Média geométrica ponderada

Para uma seqüência numérica X: x1, x2, x3, ..., xn , afetados de pesos p1, p2, p3,

..., pn, respectivamente, a média geométrica ponderada, que designaremos por

gp X , é definida por:

∑= i n p p

n p p p

gp x x x x X ...321

321

Média harmônica simples

Para uma seqüência numérica de elementos não nulos X: x1, x2, x3, ..., xn , a

média harmônica simples, que designaremos por h X , é definida por:

n

h

x x x x

n X

1...

111

321

++++

= ou

∑=

i

h

x

n X

1

Note que a média harmônica é o inverso da média aritmética dos inversos dos

elementos.

Média harmônica ponderada

Para uma seqüência numérica de elementos não nulos X: x1, x2, x3, ..., xn ,

afetados de pesos p1, p2, p3, ..., pn, respectivamente, a média harmônica ponderada

que designaremos por hp X é definida por:


25/143

24

n

n

ihp

x

p

x

p

x

p

x

p

p X

++++

= ∑

...3

3

2

2

1

1

ou

∑

∑=

i

i

ihp

x

p

p X

A média harmônica aplica-se naturalmente quando se quer a obtenção de uma

média cuja unidade de medida seja o inverso da unidade de medida dos

componentes da seqüência original.

A média geométrica só é indicada para representar uma série de valores

aproximadamente em progressão geométrica.

Os casos anteriores não são muito freqüentes nas aplicações. Vamos restringir

o desenvolvimento de médias ao caso de média aritmética, que é a média mais

utilizada nas aplicações.

2.3.1.2. Cálculo da Média Aritmética

Dados brutos ou rol

Neste caso, devemos utilizar uma média aritmética simples:

n

x

X

i∑=

Dados tabelados

Se os dados estão apresentados na forma de uma tabela, utilizaremos a média

aritmética ponderada, considerando as freqüências simples f i como sendo as

ponderações dos elementos x i correspondentes.

A equação da média que originalmente era∑∑

=i

ii

p

p x X passa a ser escrita

como:

∑∑

=i

ii

f

f x X

Obs: Para tabelas de variáveis continuas, o valor de x i é o ponto médio da

classe i .


26/143

25

2.3.1.3. Mediana

É um valor real que separa o rol em duas partes deixando à sua esquerda o

mesmo número de elementos que a sua direita. Portanto, a mediana é um valor que

ocupa a posição central em um conjunto de dados. A mediana será denotada por

md.

2.3.1.4. Cálculo da Mediana

Dados brutos ou rol

Inicialmente devemos ordenar os elementos caso sejam dados brutos, obtendo

o Rol. Em seguida determinamos o número n de elementos do Rol. Se n é impar, o

Rol admite apenas um termo central que ocupa a posição

+

2

1n

º. O valor doelemento que ocupa esta posição é a mediana. Se n é par, o rol admite dois termos

centrais que ocupam as posições

2

nº e

+ 1

2

nº. A mediana é convencionada

como sendo a média dos valores que ocupam estas posições centrais.

Quando lidamos com um conjunto de dados muito grande, a quantidade de

elementos à esquerda é à direita é aproximadamente 50% do total de

elementos, o que conduz a seguinte interpretação genérica para a mediana:

"50% dos valores do conjunto de dados são valores menores ou iguais amediana e 50% dos valores do conjunto de dados são valores maiores ou

iguais a mediana".

Dados tabelados - variável discreta

Se os dados estão apresentados na forma de uma variável discreta, eles já

estão naturalmente ordenados. Assim, basta verificar se o número de elementos da

série é ímpar ou par e aplicar o mesmo raciocínio do caso anterior.

Dados tabelados - variável contínua

Se a dados são apresentados na forma de uma variável contínua, o raciocínio

anterior não pode ser utilizado, uma vez que mesmo identificada a posição da

mediana no conjunto de dados, o valor do elemento da série que ocupa esta

posição não é identificável. Assim, para determinar a mediana temos a

equação:


27/143

26

h f

F n

lmd

d

m

ant

md

−

+= 2

em que:

1md = limite inferior da classe mediana.

n = número de elementos do conjunto de dados.F ant = freqüência acumulada da classe anterior à classe mediana.

f md = freqüência simples da classe mediana.

h = amplitude do intervalo de classe.

COMENTÁRIO: Devido às condições impostas na obtenção da fórmula da

mediana, fica evidente que o valor obtido pela fórmula é um valor aproximado do

verdadeiro valor da mediana do conjunto de dados.

De modo geral, todas as medidas calculadas para uma variável contínua serão

valores aproximados para estas medidas, uma vez que ao agruparmos os dados

segundo uma variável contínua, há perda de informações quanto à identidade dos

dados.

2.3.1.5. Moda

É o valor de maior freqüência em um conjunto de dados. Notação: A moda será

denotada por mo.

2.3.1.6. Cálculo da Moda

Dados brutos ou rol

Basta identificar o elemento de maior freqüência. Se a maior freqüência for

atribuída a um único valor, dizemos que o conjunto de dados é unimodal. Se a maior

freqüência for atribuída a valores distintos, dizemos que o conjunto de dados ébimodal. Poderemos encontrar seqüências trimodais, tetramodais e assim

sucessivamente. Estes conjuntos de observações serão chamados de forma

genérica por seqüências polimodais.

Se todos os valores do conjunto de dados apresentam a mesma freqüência,

dizemos que o conjunto de dados é amodal.


28/143

27

Dados tabelados - variável discreta

Este caso é ainda mais simples. Note que na apresentação da variável discreta,

as freqüências já estão computadas. Basta identificar o elemento de maior

freqüência.

Dados tabelados - variável contínua

Para determinar a moda de uma variável contínua, podemos optar por vários

processos. Daremos destaque para a moda de Pearson, de King e de Czuber.

Moda de Pearson:

Segundo PEARSON, a moda de uma variável contínua pode ser obtida através

do valor da média e da mediana:

X mm d o 23 −=

Moda de King

KING levou em consideração, em sua fórmula, a freqüência simples da classe

anterior e a freqüência simples da classe posterior à classe modal.

h f f

f lm

post ant

post mo o +

+=

em que:

l mo = limite inferior da classe modalf post = freqüência simples da classe posterior à classe modal

f ant = freqüência simples da classe anterior à classe modal

h = amplitude do intervalo de classe

Moda de CZUBER

CZUBER levou em consideração, em sua fórmula a freqüência simples da

classe anterior, a freqüência simples da classe posterior, além da freqüência simples

da classe modal. É, portanto, uma fórmula mais completa que a fórmula de King.

h f f f

f f lm

post ant m

ant m

mo

o

o

o )(2 +−

−+=

em que:

l mo = limite inferior da classe modal

f mo = freqüência simples da classe modal.


29/143

28

f post = freqüência simples da classe posterior à classe modal

f ant = freqüência simples da classe anterior à classe modal

h = amplitude do intervalo de classe

COMENTÁRIO: A fórmula de Pearson tem normalmente interesse teórico. Se

não dispusermos da média e da mediana da distribuição, a fórmula de Pearson é a

mais trabalhosa. A fórmula de King é a mais simples delas, mas não é a mais

precisa. A fórmula de Czuber é mais precisa que a fórmula de King, pois leva

também em consideração a freqüência da classe modal.

2.3.2. Utilização das Medidas de Tendência Central

Na maioria das situações, não necessitamos calcular as três medidas de

tendência central. Normalmente precisamos de apenas uma das medidas paracaracterizar o centro da série. Surge, então, a questão: qual medida deve ser

utilizada?

A medida ideal em cada caso é aquela que melhor representa a maioria dos

dados da série. Quando todos os dados de uma série estatística são iguais, a média,

a mediana e a moda coincidirão com este valor e, portanto qualquer uma delas

representará bem a série. No entanto, este caso dificilmente ocorrerá na prática.

Na maioria das vezes, teremos valores diferenciados para a série e

conseqüentemente a medida irá representar bem, apenas os dados da série que se

situam próximos a este valor. Os dados muito afastados em relação ao valor da

medida não serão bem representados por ela.

Desta forma, se uma série apresenta forte concentração de dados em sua área

central, a média, a mediana e a moda ficam também situadas em sua área central

representando bem a série. Como a mais conhecida é a média, optamos por esta

medida de tendência central. Concluindo, devemos optar pela média, quando houver

forte concentração de dados na área central da série.

Se uma série apresenta forte concentração de dados em seu início, a mediana

e a moda estarão posicionadas mais no início da série, representando bem esta


30/143

29

concentração. A média que é fortemente afetada por alguns valores posicionados no

final da série se deslocará para a direita desta concentração não a representando

bem.

Como a mais conhecida entre mediana e moda é a mediana, esta será a

medida indicada neste caso. A mesma situação ocorre se a série apresenta forte

concentração de dados em seu final. Concluindo, devemos optar pela mediana,

quando houver forte concentração de dados no início ou no final da série.

A moda deve ser a opção como medida de tendência central apenas em séries

que apresentam um elemento típico, isto é, um valor cuja freqüência é muito superior

à freqüência dos outros elementos da série.

2.3.3. Exemplos do uso de medidas de tendência central

Como exemplo tomaremos as notas atribuídas aos alunos da sétima serie do

Centro Educacional Elisa Bessa (CEEB) nas disciplinas de Português, Matemática,

Historia e Geografia. Vale ressaltar que o CEEB possui uma política de diferenciação

de disciplinas atribuindo um grau de importância (ou peso) diferente para cada

disciplina.

O Quadro 2.3, mostra a nota dos alunos em cada disciplina sem levar em conta

o peso atribuído a cada disciplina. O Quadro 2.2 apresenta os pesos atribuídos a

cada disciplina.

Quadro 2.2: Pesos atribuídos às disciplinas do Centro Educacional Elisa Bessa

Disciplinas Pesos

Português 3

Matemática 1

Historia 2

Geografia 2

Total 8

FONTE: SECRETÁRIA DO CEEB.


31/143

30

Na tentativa de fazer uma avaliação da turma, o centro pedagógico do CEEB

utilizou algumas medidas de tendência central.

A primeiro passo foi calcular a média de cada aluno da turma, para tanto foram

somadas as notas das quatro disciplinas e dividido por quatro. Esses resultados

estão apresentados no Quadro 2.4.

Quadro 2.3: Notas dos alunos da sétima série do Centro Educacional Elisa Bessa

Número do

aluno Português Matemática História Geografia

1 7,7 3,5 3,3 8,3

2 6,7 7,4 5,8 7,1

3 8,7 5,7 9,6 8,7

4 9,2 4,3 6,9 7,4

5 4,3 5,3 7,2 5,2

6 6,3 3,9 8,5 7,9

7 7,5 5,3 6,6 5,2

8 6,9 4,0 9,9 9,4

9 4,7 5,6 8,2 8,0

10 8,7 7,1 9,1 6,1

11 8,3 4,2 7,6 9,812 8,4 5,6 7,7 8,1

13 7,5 9,4 9,0 8,7

14 9,1 5,0 7,9 7,3

15 5,4 9,9 9,0 5,4

16 9,0 6,9 6,8 7,1

17 9,3 7,0 6,9 5,9

18 7,2 5,1 7,1 8,7

19 8,8 4,5 6,9 7,5

20 4,1 7,2 6,8 3,0

Média 7,4 5,8 7,5 7,2

FONTE: SECRETÁRIA DO CEEB.


32/143

31

Quadro 2.4: Média individual dos alunos da sétima série do CEEB

Número do aluno Cálculo da média Resultado

1 (7,7 + 3,5 + 3,3 + 8,3) / 4 = 5,70

2 (6,7 + 7,4 + 5,8 + 7,1) / 4 = 6,75

3 (8,7 + 5,7 + 9,6 + 8,7) / 4 = 8,18

4 (9,2 + 4,3 + 6,9 + 7,4) / 4 = 6,93

5 (4,3 + 5,3 + 7,2 + 5,2) / 4 = 5,52

6 (6,3 + 3,9 + 8,5 + 7,9) / 4 = 6,64

7 (7,5 + 5,3 + 6,6 + 5,2) / 4 = 6,13

8 (6,9 + 4,0 + 9,9 + 9,4) / 4 = 7,52

9 (4,7 + 5,6 + 8,2 + 8,0) / 4 = 6,63

10 (8,7 + 7,1 + 9,1 + 6,1) / 4 = 7,74

11 (8,3 + 4,2 + 7,6 + 9,8) / 4 = 7,49

12 (8,4 + 5,6 + 7,7 + 8,1) / 4 = 7,45

13 (7,5 + 9,4 + 9,0 + 8,7) / 4 = 8,67

14 (9,1 + 5,0 + 7,9 + 7,3) / 4 = 7,31

15 (5,4 + 9,9 + 9,0 + 5,4) / 4 = 7,43

16 (9,0 + 6,9 + 6,8 + 7,1) / 4 = 7,43

17 (9,3 + 7,0 + 6,9 + 5,9) / 4 = 7,28

18 (7,2 + 5,1 + 7,1 + 8,7) / 4 = 7,03

19 (8,8 + 4,5 + 6,9 + 7,5) / 4 = 6,92

20 (4,1 + 7,2 + 6,8 + 3,0) / 4 = 5,28

Com base na média aritmética, 3 alunos possuíram média final abaixo de 6.

Com tudo, é interesse da instituição ponderar as disciplinas. Sendo assim, um novo


33/143

32

cálculo foi feito (Quadro 2.5) e novas médias foram encontradas. Agora, 2 alunos

apresentavam média abaixo de 6.

Quadro 2.4: Média ponderada individual dos alunos da sétima série do CEEB

Número do aluno Cálculo da média Resultado1 (7,7 x 3 + 3,5 x 1 + 3,3 x 2 + 8,3 x 2) / 8 = 6,23

2 (6,7 x 3 + 7,4 x 1 + 5,8 x 2 + 7,1 x 2) / 8 = 6,65

3 (8,7 x 3 + 5,7 x 1 + 9,6 x 2 + 8,7 x 2) / 8 = 8,56

4 (9,2 x 3 + 4,3 x 1 + 6,9 x 2 + 7,4 x 2) / 8 = 7,55

5 (4,3 x 3 + 5,3 x 1 + 7,2 x 2 + 5,2 x 2) / 8 = 5,39

6 (6,3 x 3 + 3,9 x 1 + 8,5 x 2 + 7,9 x 2) / 8 = 6,94

7 (7,5 x 3 + 5,3 x 1 + 6,6 x 2 + 5,2 x 2) / 8 = 6,41

8 (6,9 x 3 + 4,0 x 1 + 9,9 x 2 + 9,4 x 2) / 8 = 7,89

9 (4,7 x 3 + 5,6 x 1 + 8,2 x 2 + 8,0 x 2) / 8 = 6,52

10 (8,7 x 3 + 7,1 x 1 + 9,1 x 2 + 6,1 x 2) / 8 = 7,94

11 (8,3 x 3 + 4,2 x 1 + 7,6 x 2 + 9,8 x 2) / 8 = 8,00

12 (8,4 x 3 + 5,6 x 1 + 7,7 x 2 + 8,1 x 2) / 8 = 7,80

13 (7,5 x 3 + 9,4 x 1 + 9,0 x 2 + 8,7 x 2) / 8 = 8,43

14 (9,1 x 3 + 5,0 x 1 + 7,9 x 2 + 7,3 x 2) / 8 = 7,82

15 (5,4 x 3 + 9,9 x 1 + 9,0 x 2 + 5,4 x 2) / 8 = 6,88

16 (9,0 x 3 + 6,9 x 1 + 6,8 x 2 + 7,1 x 2) / 8 = 7,70

17 (9,3 x 3 + 7,0 x 1 + 6,9 x 2 + 5,9 x 2) / 8 = 7,57

18 (7,2 x 3 + 5,1 x 1 + 7,1 x 2 + 8,7 x 2) / 8 = 7,30

19 (8,8 x 3 + 4,5 x 1 + 6,9 x 2 + 7,5 x 2) / 8 = 7,46

20 (4,1 x 3 + 7,2 x 1 + 6,8 x 2 + 3,0 x 2) / 8 = 4,89


34/143

33

O centro pedagógico do CEEB observou que a menor média entre as

disciplinas era a de matemática com um valor igual a 5,8. A fim de obter mais

informações sobre esse conjunto de dados (notas de matemática), a o centro

pedagógico construiu um Rol para esses dados e em seguida calculou a mediana, a

moda e apresentou um resumo dos dados na Tabela 2.6.

Rol:

3,5; 3,9; 4,0; 4,2; 4,3; 4,5; 5,0; 5,1; 5,3; 5,3;

5,6; 5,6; 5,7; 6,9; 7,0; 7,1; 7,2; 7,4; 9,4; 9,9.

Para o cálculo da mediana, foram tomados o 10º e o 11º elementos e em

seguida foi calculada a media desses dois números.

45,52

6,53,5=

+=d m

Para determinar a moda, foi observada a maior freqüência entre as

observações. Chegando a conclusão de que a serie e bimodal, pois os valores 5,3 e

5,6 apresentam a mesma freqüência.

Tabela 2.6: Divisão da 7ª série do CEEB quanto à nota de matemática

Notas de matemática Freqüência simples Freqüência acumulada

3,0 |-- 4,5 5 5

4,5 |-- 6,0 8 13

6,0 |-- 7,5 5 18

7,5 |-- 9,0 0 18

9,0 |-- 10,0 2 20

Total 20

FONTE: SECRETARIA DO CEEB

Data a tabela acima é possível calcular a mediana e moda.

44,55,18

5105,42 =

−+=

−

+= h f

F nlm

d

d

m

ant

md

25,55,155

55,4 =

++=

++= h

f f

f lm

post ant

post mo o


35/143

34

2.3.4. Medidas de dispersão

São necessários dois tipos de medidas para descrever adequadamente um

conjunto de dados. Além da informação quanto ao "meio" de um conjunto de

números, é conveniente dispormos também de um método que nos permita exprimir

a dispersão. As medidas de dispersão indicam se os valores estão relativamentepróximos uns dos outros, ou separados.

Consideraremos quatro medidas de dispersão: o desvio médio, a variância,

desvio padrão e o coeficiente de variação. Todas elas têm na média o ponto de

referência. Em cada caso, o valor zero indica ausência de dispersão; a dispersão

aumenta à proporção que aumenta o valor da medida (desvio, variância, etc.).

2.3.4.1. Desvio médio absoluto

O desvio médio absoluto (DMA) mede o desvio médio dos valores em relação à

média do grupo, ignorando o sinal do desvio. Calcula-se subtraindo a média de cada

valor do grupo e desprezando o sinal (+ ou -) do desvio, e tomando a média em

seguida. Ao calcular o desvio médio, é necessário levar em conta o fato de que a

soma dos desvios positivos e negativos a contar da média será sempre (por

definição) igual a zero. A conversão das diferenças a valores absolutos (todos os

valores são considerados como desvios positivos) antes de se proceder à somaresolve o problema. Calcula-se então o desvio médio absoluto pela seguinte

equação:

n

X x DMA

i∑ −=

Em que n é o número de observações no conjunto de dados.

Apesar de ser relativamente fácil calcular e entender o DMA, esse não é muito

utilizado por haver outras medidas que apresentam propriedades matemáticas mais

interessantes. O DMA possui algumas aplicações no controle de inventários.

2.3.4.2. Variância e desvio-padrão

A variância é uma média aritmética calculada a partir dos quadrados dos

desvios obtidos entre os elementos do conjunto de dados e a sua média. O desvio

padrão é a raiz quadrada positiva da variância.


36/143

35

Em particular, para estas medidas levaremos em consideração o fato de a

seqüência de dados representar toda uma população ou apenas uma amostra de

uma população.

Notações: Quando a seqüência de dados representa uma População a

variância será denotada por )(2 X σ e o desvio padrão correspondente por )( X σ .

Quando a seqüência de dados representa uma amostra, a variância será denotada

por S 2 (X) e o desvio padrão correspondente por S(X).

2.3.4.3. Cálculo da variância e do desvio padrão

Dados brutos ou Rol

Se o conjunto de dados representa uma População, a variância é calculada

pela equação:

( )n

X x X i∑

−=

2

2 )(σ

Conseqüentemente, o desvio-padrão será dado por:

( )n

X x X X i∑

−==

2

2 )()( σ σ

Se o conjunto de dados representa uma amostra, a variância é calculada pela

equação:( )

1)(

2

2

−

−= ∑

n

X x X S i

Conseqüentemente, o desvio-padrão será dado por:

( )1

)()(

2

2

−

−==

∑n

X x X S X S i

Dados tabelados – variável discreta

Como há repetições de elementos no conjunto de dados, definimos a variância

como sendo uma media aritmética ponderada dos quadrados dos desvios dos

elementos do conjunto de dados.

Variância para população:

( )

∑∑ −

=i

ii

f

f X x X

2

2 )(σ


37/143

36

Desvio padrão para população:

( )

∑∑ −

==i

ii

f

f X x X X

2

2 )()( σ σ

Variância para amostra:

( )∑∑ −

−=1

)(

2

2

i

ii

f f X x X S

Desvio padrão para amostra:

( )

∑∑

−

−==

1)()(

2

2

i

ii

f

f X x X S X S

Dados tabelados – variável contínua

Novamente, por desconhecer os particulares valores de x i do conjunto de

dados, substituiremos nas equações anteriores estes valores pelos pontos médios

da classe.

Variância para população:

( )

∑∑ −

=i

ii

f

f X x X

2

2 )(σ onde x i é o ponto médio da classe i .

Variância para amostra:

( )

∑∑

−

−=

1)(

22

i

ii

f

f X x X S onde x i é o ponto médio da classe i .

COMENTÁRIOS: No cálculo da variância, quando elevamos ao quadrado a

diferença ( ) X xi − , a unidade de medida da série fica também elevada ao quadrado.

Portanto, a variância é dada sempre no quadrado da unidade de medida da série.

Se os dados são expressos em metros, a variância é expressa em metros

quadrados. Em algumas situações, a unidade de medida da variância nem fazsentido. É o caso, por exemplo, em que os dados são expressos em litros. A

variância será expressa em litros quadrados. Portanto, o valor da variância não pode

ser comparado diretamente com os dados da série, ou seja: variância não tem

interpretação. Exatamente para suprir esta deficiência da variância é que se define o

desvio padrão.


38/143

37

2.3.4.4. Coeficiente de variação (C.V.)

Em trabalhos experimentais, através deste parâmetro, comprovamos a precisão

alcançada, embora não seja apenas esta a sua finalidade. Este coeficiente é

expresso em percentagem, sendo utilizado em trabalhos científicos. É calculado pelaequação:

( ) X

X X CV

)(σ =

2.3.4.5. Exemplos do uso de medidas de tendência central

Observamos anteriormente que a média da turma de matemática da sétima

série do CEEB era igual a 5,8, a mediana igual a 5,45 e as modas iguais a 5,3 e 5,6.

Estas “características” nos dão alguma idéia sobre a população em estudo. Outras

“características” que podem “melhorar a idéia” de como a turma se comporta, são a

variância, o desvio-padrão e o coeficiente de variação. Para calcularmos estas três

ultimas medidas, utilizaremos o mesmo Rol utilizado anteriormente (o rol da turma

de matemática).

Rol:3,5; 3,9; 4,0; 4,2; 4,3; 4,5; 5,0; 5,1; 5,3; 5,3;

5,6; 5,6; 5,7; 6,9; 7,0; 7,1; 7,2; 7,4; 9,4; 9,9.

Variância

( )94199,2

20

)8,59,9(...)8,59,3()8,55,3()(

2222

2 =−++−+−

=−

= ∑

n

X x X iσ

Desvio-padrão

7,1)()( 2 == X X σ σ

Coeficiente de variação

( ) %31,292931,08,5

7,1)(ou

X

X X CV ===

σ


39/143

38

Tomando como fonte a Tabela 2.6, os cálculos para a variância, o desvio-

padrão e o coeficiente de variação, são:

Variância

( )2,7662520

25,8)(9,5...85,8)(5,2555,8)(3,75

f

f Xx(X)σ

222

i

i

2

i2 =

−++−+−=

−= ∑∑

Desvio-padrão

6632,1)()( 2 == X X σ σ

Coeficiente de variação

( ) %68,282868,08,5

6632,1)(ou

X

X X CV ===

σ

2.4 - ASSIMETRIA DAS DISTRIBUIÇÕES

Identificar se a distribuição de uma variável quantitativa em um determinado

conjunto de dados é simétrica ou assimétrica pode ser de grande valia por váriosmotivos:

Se os dados são provenientes de uma amostra, identificar a simetria ou não

da distribuição pode ser necessário para selecionar o modelo probabilístico

mais adequado para descrever a variável na população.

No caso de um experimento, em que todas as causas de variação

indesejadas são suprimidas, a ocorrência de assimetria quando era esperada

simetria, ou o contrário, pode ser indicar que houve algum erro de

planejamento ou de medição.Nos casos em que são comparadas distribuições da mesma variável

quantitativa em situações diferentes a identificação de um comportamento

assimétrico ou simétrico, inesperado ou diferenciado, pode alertar para

aspectos anteriormente despercebidos, ou existência de erros.


40/143

39

Alguns programas computacionais calculam uma medida de assimetria

(“skewness”): quando este valor é exatamente igual a zero a distribuição em questão

é perfeitamente simétrica. Mas a forma ideal de analisar a simetria de uma

distribuição é combinar a avaliação das medidas e de um gráfico, seja um

histograma ou um diagrama em caixas. As figuras 2.9 a 2.11 irão apresentar gráficos

de distribuições que poderiam ser ajustados a histogramas.

MédiaMediana

Moda

freq

Figura 2.91 - Distribuição assimétrica negativa (assimétrica para a esquerda)

Observe que o "pico" da distribuição, identificado pela moda, está à direita do

gráfico, indicando que "falta algo" à esquerda, justificando a denominação

"assimétrica à esquerda". Observe também que a mediana é maior do que a média.

Há uma medida estatística de assimetria que calcula a diferença entre média emediana: quando a diferença é negativa (mediana maior do que a média) a

distribuição é "assimétrica negativa". Este tipo de distribuição não é muito comum na

prática, pois é mais difícil obter valores excepcionalmente pequenos (à esquerda)

ModaMediana

Média

freq.

Figura 2.10 - Distribuição assimétrica positiva (assimétrica para a direita)


41/143

40

Observe que o "pico" da distribuição, identificado pela moda, está à esquerda do

gráfico, indicando que "falta algo" à direita, justificando a denominação "assimétrica

à direita". Observe também que a média é maior do que a mediana. Agora a

diferença entre média e mediana será positiva: quando a diferença é positiva a

distribuição é "assimétrica negativa". Este tipo de distribuição é razoavelmente

comum na prática, pois é fácil obter valores excepcionalmente altos, sendo o caso

mais típico a variável renda.

Moda = Média = Mediana

freq.

Figura 2 - Distribuição simétrica

Observe que as três medidas de posição coincidem. E que aproximadamente

metade dos dados estão abaixo do centro e a outra metade acima, ou seja a

distribuição é "simétrica" em relação às suas medidas de posição. A diferença entre

média e mediana é igual a zero. Muitas variáveis apresentam distribuição simétrica,

especialmente aquelas resultantes de medidas corpóreas, mas não somente.

A seguir apresentamos histogramas de distribuições assimétricas e simétrica.

f

x

Figura 2.12 - Histograma de distribuição simétrica


42/143

41

f

x

Figura 2.13 - Histograma de distribuição assimétrica para a direita (negativa)

f

x

Figura 3.14 - Histograma de distribuição assimétrica para a esquerda (positiva)

Além das medidas de posição podemos utilizar as separatrizes para avaliar não

só a simetria, mas também a dispersão de um conjunto de dados. O procedimento

para verificar a existência de assimetria consiste em avaliar a diferença existente

entre os quartis e a mediana: se os quartis inferior e superior estiverem à mesma

distância da mediana, a distribuição do conjunto pode ser considerada simétrica. A

avaliação da dispersão depende da existência de um padrão para comparação, seja

um outro conjunto de dados ou alguma especificação. Um conjunto de dados

apresentará maior dispersão do que outro se os seus quartis estiverem mais

distantes da mediana. Observe as figuras a seguir.

Simétrico

MdQi Qs

25% 25% 25% 25% Figura 4.15 - Quartis de uma distribuição simétrica - 1o caso

Observe que a diferença Qs - Md é igual àdiferença Md - Qi, o que indica a simetriado conjunto. É importante lembrar que osquartis dividem o conjunto em 4 partesiguais (25% dos dados).


43/143

42

Simétrico, commaior dispersão

Qi QsMd

25% 25% 25% 25%

Figura 5 - Quartis de uma distribuição simétrica - 2o caso

Mas agora a dispersão do conjunto é maior, quando comparada ao 1o caso: os

quartis estão mais distantes da mediana (as diferenças Qs - Md e Md - Qi serão

maiores do que as obtidas no 1o caso).

Assimétrico para

a direita

Qi QsMd

25% 25%25% 25%

Figura 6.17 - Quartis de uma distribuição assimétrica para a direita

O conjunto apresenta uma dispersão mais elevada nos valores maiores. Isso fez

com que o quartil superior aumentasse de valor ("deslocando-o para a direita"), e

ficasse mais distante da mediana do que o inferior, significando assimetria para a

direita (ou positiva).

Assimétrico paraa esquerda

Qi QsMd

25% 25%25%25%

Figura 7.18 - Quartis de uma distribuição assimétrica para a esquerda

Neste caso ocorre o oposto da figura 26. Há maior dispersão nos valores mais

baixos, fazendo com que o quartil inferior aumentasse de valor, e ficasse mais

distante da mediana do que o superior, significando assimetria para a esquerda (ou

negativa).

A avaliação da assimetria através dos quartis também pode ser em um

diagrama em caixas.

Observe que a diferençaQs - Md continua igual àdiferença Md - Qi, o queindica a simetria do conjunto.

Na figura 26 é fácil perceberdiferenças são claramentedesiguais: há assimetria. E

como Qs - Md é maior do queMd - Qi é para a direita.

Na figura 27 novamente asdiferenças são claramentedesiguais: há assimetria. Ecomo Md - Qi é maior do queQs - Md é para a esquerda.


44/143

43

2.5 - DIAGRAMA EM CAIXAS

O Diagrama em Caixas, também chamado de Desenho Esquemático, Box-

plot ou Box & Whisker plot é um gráfico que permite avaliar facilmente os valores

típicos, a assimetria, a dispersão e os dados discrepantes de uma distribuição de

dados de uma variável QUANTITATIVA. É indicado para grandes conjuntos dedados.

A construção do Diagrama em Caixas exige que sejam calculados

previamente os valores da Mediana, Quartil Inferior e Quartil Superior do conjunto de

dados, bem como a identificação dos extremos superior (maior valor) e inferior

(menor valor). Traçam-se dois retângulos (duas caixas): um representa a “distância”

entre o Quartil Inferior e a Mediana e o outro a distância entre a Mediana e o Quartil

Superior. A partir dos Quartis Inferior e Superior são desenhadas linhas verticais até

os últimos valores não discrepantes tanto abaixo quanto acima.

Valores discrepantes (ou “outliers”) são aqueles que têm valores:

- maiores do que a expressão Qs + 1,5 x (Qs - Qi)1 ou

- menores do que a expressão Qi - 1,5 x (Qs - Qi)

Todos os valores discrepantes são marcados para posterior estudo individual.

O Diagrama em Caixas “típico” seria:

Figura 8.19 - Diagrama em Caixas - Esquema

1 O valor Qs - Qi é chamado de desvio interquartílico.

Qs + 1,5x(Qs - Qi)

Qi - 1,5x(Qs - Qi)

Md

s

i

**

**

Valores discrepantes superiores

Valores discrepantes inferiores

Na caixa superior estão 25%dos dados, há outros 25% nacaixa inferior, outros 25%acima do Qs e outros 25%abaixo do Qi: se houvesse100 dados 25 estariam nacaixa superior, 25 nainferior, 25 abaixo do Qi e25 acima do s.


45/143

44

Se as duas caixas tiverem “alturas” semelhantes (Qs - Md ≅ Md - Qi) a

distribuição é dita simétrica (ver seção 2.4). Quanto maiores as “alturas” das caixas

[maiores (Qs - Md ) e (Md - Qi)] maior a dispersão do conjunto. O valor “típico” do

conjunto será a Mediana (Md), cujas características foram vistas anteriormente. A

dimensão horizontal das caixas é irrelevante.

A seguir o roteiro para construção do Diagrama em Caixas.

Passos:

Ordenar os dados.

Calcular Mediana, Quartil Inferior e Quartil Superior.

Identificar Extremos.

Construir os retângulos (Qs - Md, Md - Qi).

A partir dos retângulos, para cima e para baixo, seguem linhas até o último

valor não discrepante.

Marcar as observações discrepantes.

Exemplo 2.22 - Foram medidas as alturas de 35 homens adultos, cujos resultados

estão abaixo.

Sejam as alturas de homens adultos a seguir.

181 174 145 150 168 173 163 184 178 165 173 165 166 205 167 168 169 170174 170 172 198 177 173 179 180 169 181 169 183 142 183 163 204 165

Construa o diagrama em caixas para as alturas, avaliando valor típico, assimetria,

dispersão e valores discrepantes.

1)Ordenar os dados crescentemente:

142 145 150 163 163 165 165 165 166 167 168 168 169 169 169 170 170 172 173

173 173 174 174 177 178 179 180 181 181 183 183 184 198 204 205

2) Calcular Mediana, Quartil Inferior e Quartil Superior

Há 35 medidas: n = 35

Posição da mediana = (n + 1) /2 = 36 / 2 = 18 a => valor que está na 18a posição

Md = 172


46/143

45

Posição do quartil inferior = (n + 1) / 4 = 36 /4 = 9a => valor que está na 9a posição

Qi = 166

Posição do quartil superior = 3 x (n + 1) / 4 = 3×36 /4 = 275a => valor que está na

27a posição Qs = 180

3) Identificar extremos

O maior valor do conjunto (extremo superior) Es = 205

O menor valor do conjunto (extremo inferior) Ei = 142

4) “Retângulos”

Qs - Md = 180 - 172 = 8 (os valores são aproximadamente iguais:

distribuição

Md - Qi = 172 - 166 = 6 pode ser considerada simétrica)

5) Identificação dos valores discrepantes

Qs - Qi = 180 - 166 = 14 1,5 x (Qs - Qi) = 1,5 × 14 = 21

Qi - 1,5 x (Qs - Qi) = 166 - 21 = 145

Valores menores do que 145 cm de altura serão discrepantes: só há um valor abaixo

de 145 (142), então há apenas um valor discrepante inferior. Assim a linha vertical

inferior irá até o último valor não discrepante, que vale 145 cm.

Qs + 1,5 x (Qs - Qi) = 180 + 21 = 201

Valores maiores do que 201 cm de altura serão discrepantes: há dois valores acima

de 201 (204 e 205), então há dois valores discrepantes superiores. A linha vertical

superior irá até o último valor não discrepante, no caso 198.

Todos os passos anteriores são feitos internamente pelo computador quando se usa

um programa estatístico para construir um Diagrama em Caixas, resultando nográfico a seguir2:

2 O Diagrama em Caixas foi feito utilizando o pacote Statistica. Algumas medidas podem ter resultadosligeiramente diferentes dos cálculos manuais devido aos arredondamentos.


47/143

46

Box Plot das Alturas

130

140

150

160

170

180

190

200

210

ALTURA

Figura 9.20 - Diagrama em caixas

O valor típico do conjunto é a mediana que vale 172 cm. Esse valor pode ser

alto ou não, dependendo do objetivo (para selecionar jogadores de vôlei e basquete

pode ser baixo, para jóqueis pode ser alto), exigindo conhecimentos mais

aprofundados para ser interpretado.

As duas caixas têm “alturas” semelhantes, indicando simetria ou "leve

assimetria". Quanto à dispersão não há muito o que se comentar pois não há um

padrão para comparação.

Há apenas um valor discrepante inferior, e dois superiores. Estes valores

talvez merecessem um estudo individual: primeiramente verificar se não houve erro

de medição, se constatada a correção da medida identificar os indivíduos, estudar

seu histórico médico, etc.)3.

Como TODA ferramenta estatística o Diagrama em Caixas de nada vale se o

usuário não tiver conhecimentos específicos sobre a variável retratada para

interpretar os resultados.

3 Para que o estudo de pontos individuais seja possível é importante que sejam registrados onde, quando e emque condições as observações foram feitas.


48/143

47

2.5.1 - Diagrama em Caixas Múltiplo

É bastante comum querer comparar vários conjuntos de dados, para avaliar

seus valores típicos, dispersão, assimetria, e valores discrepantes. Por exemplo, no

caso do Exemplo 2.22 poderíamos ter interesse em comparar vários conjuntos de

alturas, provenientes de diferentes grupos. Para tanto precisamos construir um

diagrama múltiplo, em que todos tenham a mesma escala, para possibilitar a

comparação (diversos programas estatísticos permitem fazer isso).

Exemplo 2.23 - O diagrama em caixas múltiplo abaixo apresenta as notas finais de

estudantes de disciplinas de Estatística em três cursos diferentes da UFSC, em

1997. Faça a análise dos diagramas: valor típico, dispersão, assimetria, valores

discrepantes. Algum dos cursos destaca-se?

-1.2

0.0

1.2

2.4

3.6

4.8

6.0

7.2

8.4

9.6

Box-plot das notas

TURMAS

N O T A S

Ciências Biológicas Engenharia Mecânica Engenharia de Produção

Figura 2.21 - Diagrama em caixas múltiplo de notas por curso

Quanto aos valores típicos (medianas) os três cursos são bem semelhantes: 6,5, 6,5

e 6,75.


49/143

48

Quanto à assimetria, apenas o conjunto da Engenharia de Produção apresenta

simetria (as alturas das caixas são semelhantes), enquanto os outros dois são

assimétricos.

Quanto à dispersão, parece ser maior na Engenharia Mecânica, pois suas caixas

são maiores (Quartis mais distantes da Mediana).

Há valores discrepantes nos três conjuntos, mas apenas inferiores, 2 em Ciências

Biológicas, 4 em Engenharia Mecânica e 3 em Engenharia de Produção.

O curso de Engenharia Mecânica destaca-se ligeiramente, por apresentar

Quartil Superior e Extremo Superior acima dos demais, mas não é uma grande

diferença, e trata-se do curso com maior dispersão nas notas.

Exemplo 2.24 - A ONU realizou uma pesquisa registrando os crescimentos

demográficos e médias de calorias diárias ingeridas em vários países. Os países

foram agrupados em seis regiões: OECD (EUA, Canadá, Austrália, Nova Zelândia e

Europa Ocidental), África, América Latina, Oriente Médio, Europa Oriental, e

Pacífico/Ásia. Os diagramas em caixa das variáveis estão abaixo. Faça a análise

dos dois diagramas no que tange aos valores típicos, assimetria, dispersão e valores

discrepantes. Qual é a sua opinião sobre a qualidade de vida nestas seis regiões?

Figura 2.2210 - Diagramas em caixa múltiplos: crescimento demográfico e média

diária de calorias ingeridas


50/143

49

Crescimento demográfico

Valores típicos: Oriente Médio e África têm os maiores valores típicos, medianas de

cerca de 3,0% ao ano. E os menores estão na Europa Oriental e OECD, próximos

de zero.

Assimetria: os conjuntos de África e Europa Oriental poderiam ser considerados

simétricos, América Latina, OECD e Pacífico/Ásia ligeiramente assimétricos, e o

Oriente Médio é assimétrico.

Dispersão: o conjunto com maior dispersão é o Oriente Médio, e os menos dispersos

são a Europa Oriental e OECD (demonstrando uma certa homogeneidade

demográfica nestas duas regiões).

Valores discrepantes: África e América Latina têm discrepantes inferiores, OECD

tem um superior, e as demais regiões não apresentam valores discrepantes.

Média de calorias

Valores típicos: Europa Oriental e OECD têm os maiores valores, na faixa de 3500

calorias diárias, enquanto que a África têm o menor valor, por volta de 2200.

Assimetria: todos os conjuntos são assimétricos, mas Oriente Médio, Pacífico/Ásia e

Europa Oriental (onde Qs = Md) são mais do que os outros, a África tem a menor

assimetria.

Dispersão: Europa Oriental apresenta a menor dispersão ("caixas" menores),

enquanto Pacífico/Ásia apresenta a maior.

É interessante observar o contraste entre os dois diagramas: a África tem um dos

maiores valores típicos de crescimento demográfico, e o menor valor típico de

calorias ingeridas (indicando um cenário de miséria e fome), enquanto a Europa

Oriental e a OECD têm uma situação inversa (o que indica condições sócio-

econômicas mais favoráveis). Impressiona também a alta taxa de crescimento

demográfico no Oriente Médio.


51/143

50

3 - ANÁLISE BIDIMENSIONAL

É comum haver interesse em saber se duas variáveis quaisquer estão

relacionadas, e o quanto estão relacionadas, seja na vida prática, seja em trabalhos

de pesquisa, por exemplo:

- se o sexo dos funcionários de uma empresa está relacionado com a função

exercida;

- o quanto o a temperatura ambiente em uma região influencia as vendas de

refrigerante;

- se o nível de escolaridade de um grupo de empreendedores está relacionado com

o grau de sucesso por eles alcançado.

Muitas vezes queremos verificar se há uma relação de causa e efeito entre as

duas variáveis (se as variáveis são dependentes ou não), se é possível estudar uma

das variáveis através da outra (que é mais fácil de medir)- prever os valores de uma

através dos valores da outra, ou calcular uma medida de correlação ou de

dependência entre as variáveis.

A Análise Bidimensional4 propõe-se a tentar responder as perguntas do

parágrafo anterior. As duas variáveis abordadas podem ser qualitativas ou

quantitativas, e para cada tipo haverá técnicas apropriadas.

Para variáveis qualitativas vamos estudar: tabelas de contingência, estatística

Qui-Quadrado e o Coeficiente de Contingência Modificado5. Para variáveis

quantitativas vamos abordar: diagramas de dispersão, análise de corre

curso de qualificação profissional - econometria

Documents