curso de qualificação profissional - econometria
TRANSCRIPT
-
8/20/2019 Curso de Qualificação Profissional - Econometria
1/143
ALUNO (A): -------------------------------------------------------------------------------------
PROFESSOR (A): ----------------------------------------------------------------------------
CURSO DE QUALIFICAÇÃOPROFISSIONAL
ECONOMETRIA
GOVERNO DO ESTADO DOGOVERNO DO ESTADO DOGOVERNO DO ESTADO DOGOVERNO DO ESTADO DO
AMAZONASAMAZONASAMAZONASAMAZONAS
CETAMCentro de Educação Tecnológica do
Amazonas
SEPLANSecretaria de Estado de Planejamento e
Desenvolvimento Econômico
-
8/20/2019 Curso de Qualificação Profissional - Econometria
2/143
APOSTILA DE ECONOMETRIA
PROF. Geraldo Lopes de Souza Júnior
-
8/20/2019 Curso de Qualificação Profissional - Econometria
3/143
2
ÍNDICE
1 - INTRODUÇÃO A ESTATÍSTICA ................................................................................................................ 3
1.1 - UM POUCO DE HISTÓRIA................................................................................................................... 3
1.2 - O QUE É ESTATÍSTICA?....................................................................................................................... 4
1.3 - POR QUE ESTUDAR ESTATÍSTICA? ................................................................................................... 4
1.4 - QUANDO E COMO SE DEVE USAR A ESTATÍSTICA? ....................................................................... 5
1.5 - SOFTWARES ESTATÍSTICOS................................................................................................................ 6
1.6 - ALGUNS CONCEITOS FUNDAMENTAIS ............................................................................................ 7
2 - ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOS ESTATÍSTICOS ................................ 8 2.1 - TIPOS DE DADOS ................................................................................................................................. 8
2.2 - DISTRIBUIÇÕES DE FREQÜÊNCIA .................................................................................................... 9
2.3 - MEDIDAS ............................................................................................................................................. 22
2.4 - ASSIMETRIA DAS DISTRIBUIÇÕES................................................................................................... 38
2.5 - DIAGRAMA EM CAIXAS...................................................................................................................... 43
3 - ANÁLISE BIDIMENSIONAL...................................................................................................................... 50 3.1 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUALITATIVAS .......................................................... 51
3.2 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUANTITATIVAS..................... ............ .............. ......... 56
4 - ANÁLISE DE SÉRIES TEMPORAIS ......................................................................................................... 81 4.1 - MODELO CLÁSSICO DAS SÉRIES TEMPORAIS.............. .............. ............. .............. ............ ............ 83
4.2 - OBTENÇÃO DA TENDÊNCIA ............................................................................................................. 86
4.3 - OBTENÇÃO DAS VARIAÇÕES SAZONAIS......................................................................................... 95
4.4 - OBTENÇÃO DE VARIAÇÕES CÍCLICAS E IRREGULARES ............................................................. 99
4.5 - RECOMPOSIÇÃO .............................................................................................................................. 104
5 - NÚMEROS ÍNDICES.................................................................................................................................. 112
5.1 - NÚMEROS ÍNDICES SIMPLES ......................................................................................................... 112
5.2 - NÚMEROS ÍNDICES COMPOSTOS....... ............. .............. ............ .............. ............. .............. ........... 115
5.3 - MUDANÇA DE BASE DE UM NÚMERO ÍNDICE..... .............. ............ ............. .............. ............. ..... 119
5.5 - ÍNDICES BRASILEIROS E INTERNACIONAIS............. ............ .............. ............. ............ .............. ... 122
REFERÊNCIAS ................................................................................................................................................ 141
-
8/20/2019 Curso de Qualificação Profissional - Econometria
4/143
3
1 - INTRODUÇÃO A ESTATÍSTICA
Geralmente, quando começamos a lecionar um curso de estatística direcionado
para não estatísticos, somos indagados por questões muito pertinentes. Como
exemplo podemos citar:
O que é estatística?
Por que estudar estatística?
O que a estatística tem haver com a formação profissional que estou
almejando?
Quando se deve usar a estatística?
Como se deve usar a estatística?
Na pretensão de responder essas e muitas outras perguntas, produzimos este
material buscando uma linguagem acessível e atraente.
1.1 - UM POUCO DE HISTÓRIA
Em uma pesquisa feita por um grande matemático e estatístico de nossos dias,Gauss Cordeiro, encontramos indícios estatísticos desde muito tempo antes de
Cristo. Por exemplo, em 5000 a.C. já existiam registros egípcios de presos de
guerra, em 3000 a.C. os jogos de dados, em 2000 a.C. temos o Censo Chinês, em
1500 a.C. dados de mortos em guerras no Velho Testamento, em 1100 a.C. já
existiam registros de dados em livros da Dinastia Chinesa, em 400 a.C. é possível
encontrarmos uma descrição detalhada de coleta de dados em livros de
Constantinopla e em aproximadamente 100 a.C. Horácio usa um ábaco de fichas
como instrumento de “cálculo portátil”.
Para alguém já familiarizado com o curso de Administração Pública, esses
dados podem ser vistos como indícios de relatórios gerenciais primitivos e não
estatística propriamente dita. O leitor que afirma isso está parcialmente correto. Aqui
ficam nítidas as raízes comuns entre a estatística e a administração.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
5/143
4
Contudo, as intersecções não se dão apenas antes de Cristo. Muito pelo
contrário, após Cristo os pontos em comuns se dão de forma mais consistentes e
constantes. Temos em 400 d.C. o desenvolvimento da teoria dos números, em 695
d.C. a utilização da média ponderada pelos árabes na contagem de moedas, em
1303 d.C. a origem dos números combinatórios (Shihchieh Chu), em 1707 d.C.
Números Índices (Fleetwood), em 1710 d.C. a primeira publicação de um Teste de
Significância (John Arbuthnot), em 1892 d.C. determinação do Coeficiente de
Correlação (Edgeworth) e em 1915 d.C. a fórmula do Lote Econômico (Harris).
1.2 - O QUE É ESTATÍSTICA?
A fim de conceituar a estatística, podemos dizer que ela é uma reunião demétodos quantitativos que serve para estudar e medir os fenômenos acerca de uma
população. Ou, um ramo da matemática que trata da coleta, da análise, da
interpretação e da apresentação de massas de dados numéricos.
Etimologicamente, criada por Schmeitzel (1785) a partir do latim status
(estado), statisticum .
Sendo usada originalmente na Idade Antiga para levantamentos de dados nointuito de auxiliar o estado na tomada de decisões.
1.3 - POR QUE ESTUDAR ESTATÍSTICA?
Queremos chamar a atenção do estudante para dois objetivos relevantes. O
primeiro, mais geral, é fazer com que o estudante possa distinguir entre problemas
onde a estatística pode ser aplicada e problemas onde ela não se aplica. O segundo
é que inclui a capacidade de reconhecer qual técnica se aplica à determinada
situação e de utilizá-la da melhor forma possível na resolução do problema.
Agora, responder a pergunta “Por que estudar estatística?” é uma tarefa para o
leitor. Esta pergunta deve ser feita não só para a disciplina de estatística, mas para
-
8/20/2019 Curso de Qualificação Profissional - Econometria
6/143
5
todas as outras disciplinas. Desta forma será possível fazer um link entre as
disciplinas estudadas em Ciências Contábeis e perceber a relevância da estatística
para o curso. Contudo, podemos evidenciar o seguinte:
O detentor de conhecimentos estatísticos pode ter uma visão mais crítica
das informações expostas pela imprensa e das experiências do cotidiano
que oferecem inúmeras interpretações;
O raciocínio estatístico está amplamente difundido e é muito utilizado na
administração pública e privada. Assim, é possível que, no futuro, um
empregador venha a contratar ou promover um profissional por causa de
seus conhecimentos estatísticos;
Os administradores precisam do conhecimento da estatística para tomar
algumas de suas decisões e para evitar serem ludibriados por certos
resultados errôneos ou viciados;
Muitos periódicos e revistas de administração pública e áreas afins trazem
referências freqüentes a estudos estatísticos;
Esperamos que estas razões possam dar uma idéia do que o estudante de
Administração Pública pode esperar do seu estudo de estatística.
1.4 - QUANDO E COMO SE DEVE USAR A ESTATÍSTICA?
Hoje, é muito comum ouvir algo do tipo: “As estatísticas mostram um
crescimento econômico no último semestre”, “Segundo as estatísticas do ministério
da agricultura, o cultivo de macaxeira e açaí é o responsável pelo decrescimento em
dois pontos percentuais do desemprego no interior do Amazonas”, “O índice
pluviométrico do rio Negro vem subindo a uma taxa de oito centímetros por dia”, “A
taxa de criminalidade juvenil diminuiu em 60% no último ano de governo de EduardoBraga”, “Houve um aumento de 120% na procura por educação nos ensinos
fundamental e médio, afirma a SEMED”. Esses tipos de frases do nosso cotidiano
são resultados de uma parte da estatística que utiliza números para descrever fatos,
chamada apropriadamente de Estatística Descritiva . Podemos afirmar que a
estatística descritiva é responsável pela organização, resumo, simplificação,
interpretação e apresentação de informações um pouco mais complexas.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
7/143
6
Outra parte da estatística, muito interessante, está relacionada com a teoria de
probabilidade . Usamos a probabilidade para resolver questões que envolvem o
acaso. Introdutoriamente podemos citar jogos de azar, resultados de partidas de
futebol e resultados de lançamentos de moedas. Mais especificadamente, a
aceitação de determinada abordagem em uma população em estudo, a decisão de
investir na compra de determinadas ações, a decisão de contratar funcionários para
empresa, todas utilizam a probabilidade consciente ou inconscientemente.
A probabilidade nos dá “indicativos”, não certezas. Em uma de minhas leituras
encontrei um caso curioso. Um aluno pergunta ao professor: “Se a probabilidade é a
‘ciência do acaso’, como faço para ganhar na loteria?”, assim o professor, como
tantos outros conhecedores de estatística respondeu: “Se eu soubesse, não estaria
aqui dando aulas!”.
Por fim, temos um terceiro ramo da estatística que está interessado na análise
e interpretação de dados amostrais: a inferência . Basicamente a amostragem aborda
uma fração, o mais fidedigna possível, de determinada população e utiliza as
informações extraídas deste pequeno grupo para fazer inferência sobre a população
toda. A amostragem está presente no nosso dia a dia e podemos percebê-la através
de certos procedimentos. Como exemplos, temos: assistir por alguns instantes
determinado programa da TV para avaliar se vale a pena continuar assistindo; comer
um pedacinho do bolo para ver se o bolo está bom; consultar apenas alguns alunos
da classe para determinar o que a maioria pensa a respeito de determinado assunto.
Deve ficar claro ao estudante de estatística que essas três áreas não são
separadas ou distintas. Muito pelo contrário, elas tendem a se correlacionar.
Descrever e resumir dados corresponde à primeira fase de uma análise estatística. É
preciso ressaltar que os fundamentos de amostragem se baseiam na teoria de
probabilidade.
1.5 - SOFTWARES ESTATÍSTICOS
É comum ouvir dos alunos frases do tipo “Estatística não. Não gosto de fazer
cálculos!”. Hoje um curso de estatística para Administração Pública exige
-
8/20/2019 Curso de Qualificação Profissional - Econometria
8/143
7
inicialmente do aluno um conhecimento básico de matemática (nada sofisticado) e
certa familiaridade com o Windows ou Linux, editores de texto e planilhas.
Os pacotes estatísticos mais usuais como o Minitab, SPSS e R, importam
dados do Excel e/ou bloco de notas do Windows. Com eles é possível ter análises
estatísticas (resumos, gráficos e tabelas) em curto espaço de tempo dando um ou
dois “cliques”. Chamaremos a atenção para um pacote estatístico em particular, o
Scientific Annalsys Ststistical - SAS. O SAS talvez seja, hoje, o pacote mais
completo e eficiente disponível no mercado.
1.6 - ALGUNS CONCEITOS FUNDAMENTAIS
Aqui deve começar de fato a familiarização com a linguagem estatística. Os
conceitos ora apresentados são de grande importância para o curso e serão
constantemente usados no decorrer do curso de estatística.
População: coleção de elementos (pessoas, objetos, animais, itens) que
são inerentes ao estudo de um fenômeno coletivo possuindo alguma
característica em comum;
Amostra: fração ou subconjunto da população;Parâmetro: característica numérica estabelecida para toda a população;
Estimador: característica numérica estabelecida para uma amostra;
Variável: característica não numérica de uma população ou amostra;
Censo: é uma avaliação direta de um parâmetro, utilizando todos os
componentes da população;
Estimação: é uma avaliação indireta de um parâmetro, como base em um
estimador;
Dados brutos: é uma seqüência de valores numéricos não organizados,obtidos diretamente da observação de um fenômeno coletivo;
Rol: é uma seqüência ordenada, de forma crescente ou decrescente, dos
dados brutos.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
9/143
8
2 - ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOSESTATÍSTICOS
2.1 - TIPOS DE DADOS
Podemos classificar as variáveis e os dados em estudo basicamente em dois
grupos: Quantitativos (discretos ou contínuos) e Qualitativos (nominais ou ordinais).
2.1.1 - Dados quantitativos
Os dados quantitativos envolvem variáveis que são inerentemente numéricas.Esse tipo de variável pode ser dividido em variáveis quantitativas discretas ou
variáveis quantitativas continuas . Uma variável quantitativa discreta só pode assumir
determinados valores, em geral inteiros. Os dados discretos originam-se da
contagem de itens ou elementos com determinada característica. Como exemplos: o
número de ações de uma empresa; o número de alunos numa sala de aula; a
quantidade de acidentes numa fábrica; etc. As variáveis que podem assumir
virtualmente qualquer valor num intervalo de valores são chamadas contínuas .
Características como idade, altura, peso, renda, tempo necessário pra realizar
determinada tarefa, enquadram-se nesta categoria. Os dados referentes a essas
características e similares dizem-se contínuos, embora na prática os instrumentos de
mensuração tenham limitações físicas que lhes restringem o grau de precisão.
2.1.2 - Dados qualitativos
Os dados qualitativos envolvem variáveis que não são inerentemente
numéricas, contudo as variáveis qualitativas devem ser convertidas em valores
numéricos antes de serem processadas estatisticamente. Esse tipo de variável pode
ser dividido em variáveis qualitativas nominais ou variáveis qualitativas ordinais . As
variáveis qualitativas nominais envolvem categorias tais como sexo (masculino ou
feminino), curso de estudo (Ciências Contábeis, Serviço Social, Administração,
Filosofia, Pedagogia), desempenho (excelente, bom, regular, ruim), etc. Os dados
-
8/20/2019 Curso de Qualificação Profissional - Econometria
10/143
9
nominais surgem quando se definem categorias ou classes e se conta o número de
observações pertencentes a cada categoria. Os dados ordinais consistem de valores
atribuídos para denotar ordem: primeiro, segundo, terceiro, quarto, etc.
Para cada tipo de variável existem técnicas diferentes para resumir as
informações. Contudo, poderemos observar que as técnicas usadas num caso
podem ser usadas para outros.Faz-se necessário evidenciar que em algumas
situações é possível atribuir valores numéricos às várias qualidades ou atributos de
uma variável qualitativa e depois analisar os dados como se esses fossem
quantitativos. Mas isto só poderá ser feito se o procedimento for passível de
interpretação.Existe um tipo de variável qualitativa para a qual essa quantificação é
muito útil: a chamada variável dicotômica. Para essa variável só podem ocorrer duas
realizações, usualmente chamadas sucesso e fracasso . A variável sexo é um bom
exemplo disso.
Organograma para o tipo de variáveis e dados
2.2 - DISTRIBUIÇÕES DE FREQÜÊNCIA
Podemos afirmar que uma distribuição de freqüência é um método de
agrupamento de dados em classes, possibilitando determinar o número oupercentual de elementos em cada uma destas classes. Assim, quando estamos
trabalhando com um grande conjunto de dados, poderemos visualizá-lo sem precisar
levar em conta os números individuais. Uma distribuição de freqüência pode ser
apresentada sob a forma de uma tabela ou de um gráfico.
Estudaremos agora como apresentar um resumo dos dados através de tabelas.
Para fins ilustrativos, faremos uso das informações dispostas no Quadro 2.1.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
11/143
10
Quadro 2.1: Informações sobre sexo, idade (medida em anos), altura (medida emmetros), peso (medido em quilogramas), estado civil, renda (medida em reais), zonada cidade em que mora, naturalidade (somente o estado de nascimento), time quetorce e pretensão salarial ao se formar (medida em reais) de 45 alunos do curso deeconometria do CETAM, Manaus – 09/2010.
GêneroIdade(anos)
Altura(m)
Peso(kg)
Estadocivil
Rendaindividual
(R$)
Zonaresidencial
Naturalidade(estado)
TimePret. Sal.
ao se
formar
TipoSanguíneo
F 33 1,54 51 solt 1.000,00 oeste amazonas Brasil 5.000,00 O +M 21 1,70 56 solt 800,00 centro-oeste piaui Corinthias 13.500,00 O +F 19 1,62 48 solt leste pará Flamengo 5.000,00 A +M 27 1,73 74 solt 1.200,00 oeste amazonas São paulo 4.500,00 A -M 25 1,75 72 solt 880,00 centro-oeste amazonas Vasco 5.000,00 O +M 19 1,73 70 solt 600,00 oeste amazonas Grêmio 3.000,00 AF 19 1,60 51 solt 800,00 centro-oeste amazonas - 50.000,00 -M 20 1,88 87 solt 800,00 centro-oeste amazonas Corinthias 3.000,00 O +M 32 1,73 64 solt 1.200,00 leste amazonas - 5.000,00 O +M 25 1,65 61 solt 350,00 sul amazonas Flamengo 5.000,00 A +F 36 1,65 76 solt 1.800,00 sul amazonas - 5.000,00 A +F 32 1,70 90 cas 1.100,00 - amazonas Corinthias 3.500,00 O +F 22 1,65 58 solt oeste amazonas Flamengo 4.000,00 O +M 21 1,73 75 solt 600,00 centro-oeste amazonas Flamengo 7.000,00 A +F 24 1,60 53 cas 1.100,00 oeste amazonas Flamengo 5.000,00 O +F 19 1,60 60 solt 400,00 centro-oeste amazonas Palmeiras 1.500,00 O +F 34 1,63 50 solt 490,00 oeste amazonas Nenhum 25.000,00 -F 54 1,68 75 solt 940,00 sul amazonas Nenhum 15.000,00 A +M 38 1,72 99,8 cas 1.200,00 centro-oeste amazonas Vasco 2.000,00 O +F 22 1,55 58 solt 700,00 norte amazonas Vasco 3.000,00 A+F 24 1,54 46 solt 800,00 oeste amazonas Palmeiras 3.500,00 A +M 33 1,75 75 cas 500,00 oeste amazonas Fluminense 2.500,00 O +F 31 1,60 57 solt 1.200,00 oeste amazonas Vasco 4.000,00 A -F 20 1,47 42 solt 420,00 centro-sul amazonas Vasco 10.000,00 O +M 43 1,62 64 cas 1.500,00 oeste amazonas Vasco 6.000,00 AB +F 26 1,62 60 cas 300,00 oeste amazonas Nenhum 2.000,00 O +
F 54 1,30 54 divorc. 3.200,00 norte amazonas Flamengo 2.400,00 A +F 44 1,57 68 divorc. 2.000,00 centro-oeste paraíba Flamengo 5.000,00 A +F 45 1,68 73 cas 1.200,00 sul amazonas Flamengo 1.800,00 B +F 37 1,51 56 cas 1.000,00 centro-oeste amazonas Palmeiras 4.000,00 A +F 31 1,58 56 cas 700,00 leste amazonas Nenhum - A +F 21 1,60 58 solt 600,00 oeste amazonas Palmeiras 20.000,00 A +M 43 1,70 66 cas 3.000,00 oeste amazonas Vasco 8.000,00 O +M 21 1,83 74 solt 350,00 sul amazonas Vasco 4.000,00 -F 18 1,55 55 solt 450,00 oeste amazonas Nenhum 2.000,00 O +M 25 1,82 71 solt 650,00 norte goias Corinthias 3.500,00 O +M 36 1,73 100 cas 1.800,00 - amazonas Flamengo - O +F 34 1,60 47 solt 1.500,00 norte amazonas Vasco 3.000,00 A+F 57 1,56 95 cas 3.500,00 - amazonas Brasil 25.000,00 A +
F 40 1,51 50 solt 2.900,00 oeste amazonas São paulo 6.000,00 O +F 19 1,62 62 solt 360,00 sul amazonas Flamengo 6.000,00 O +F 36 1,55 50 cas 1.500,00 oeste amazonas Flamengo 7.000,00 O +F 34 1,58 60 cas 636,00 leste roraima Brasil 20.000,00 O +F 25 1,58 52 solt 660,00 norte amazonas Flamengo 2.500,00 B +F 23 1,60 53 solt 600,00 oeste amazonas Flamengo 8.000,00 A +
FONTE: PESQUISA DE CAMPO
-
8/20/2019 Curso de Qualificação Profissional - Econometria
12/143
11
2.2.1 - Elaboração de tabelas
Alguns rigores são exigidos na construção de tabelas:
É necessário saber previamente com que tipo de variável se deseja
trabalhar (quantitativa ou qualitativa);
É necessário definir quantas e quais classes deverão ser utilizadas
de acordo com um objetivo pré-determinado;
Se a variável for quantitativa, é necessário determinar a amplitude
das classes (quando for conveniente);
Toda tabela deve ter significado próprio, dispensando consultas ao
texto;
Toda tabela deve apresentar um título;Toda tabela deve informar a fonte dos dados e o texto que contem tal
informação deve ser apresentado em tamanho inferior aos demais textos
da tabela e deve estar em caixa alta;
Nunca se fecha uma tabela nas laterais, esse procedimento objetiva
permitir a entrada ou retiradas de informações;
A tabela deve ser colocada em posição vertical, para facilitar a leitura
dos dados. No caso em que isso seja impossível, deve ser colocada em
posição horizontal, com o título voltado para a margem esquerda da folha;Se a tabela ou quadro não couber em uma página, deve ser
continuado na página seguinte. Neste caso o final não será delimitado por
traço horizontal na parte inferior e o cabeçalho será repetido na página
seguinte;
Não devem ser apresentadas tabelas nas quais a maior parte das
classes indiquem inexistência do fenômeno.
Para exemplificarmos, tomaremos as variáveis sexo (qualitativa nominal) eidade (quantitativa contínua). Assim poderemos resumir o conjunto de informações
acerca dessas variáveis disposto no Quadro 2.1 em tabelas que nos darão idéia do
todo.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
13/143
12
Tabela 2.1: Freqüências e porcentagens dos 45 alunos do curso de econometria do
CETAM segundo o sexo – setembro de 2010.
Sexo Freqüência simples Freqüência relativa (%)
Masculino 15 33,33
Feminino 30 66,67Total 45 100,0
FONTE: DADOS HIPOTÉTICOS.
Tabela 2.2: Freqüências e porcentagens dos 45 alunos do curso de econometria do
CETAM segundo a idade – setembro de 2010.
IdadeFreqüência
simples
Freqüência
relativa (%)
Freqüência
acumulada
Freqüência
acumulada relativa
(%)18├─ 24 15 33,33 15 33,33
24├─ 30 08 17,78 23 51,11
30├─ 40 14 31,11 37 82,22
40├─ 50 05 11,11 42 93,33
50├─ 60 03 06,67 45 100,0
Total 45 100,0
FONTE: DADOS HIPOTÉTICOS.
Quando estudamos a variável sexo só temos duas alternativas possíveis. Cada
indivíduo da população em estudo ou é do sexo masculino ou é do sexo feminino.
Podemos considerar cada uma dessas possibilidades como uma categoria, ou
ainda, uma classe. Sendo assim, a Tabela 2.1 se apresenta com duas classes:
masculino e feminino. Observamos que 30 alunos do total de 45 são do sexo
feminino e que este grupo representa 66,67% do total. Encontramos o número 30
como freqüência simples da segunda classe contando o número de pessoas que
afirmaram ser do sexo feminino. O valor 66,67% é obtido quando dividimos a
quantidade de pessoas do sexo feminino pelo total de pessoas e em seguida
multiplicando esse resultado por cem. Assim, podemos concluir que o percentual
atribuído a cada classe é dado pela freqüência relativa vezes cem. A equação da
freqüência relativa é dada por:
-
8/20/2019 Curso de Qualificação Profissional - Econometria
14/143
13
Para as variáveis quantitativas podemos proceder de duas formas. A primeira é
repetir o processo usado na construção da tabela 2.1, ou seja, identificar todas as
classes (alternativas possíveis) e verificar a freqüência associada a cada uma
dessas classes. Esse processo pode ser inviável se a variável em estudo possuir um
número muito grande de possibilidades de respostas e/ou a população em estudo
for muito numerosa. Para solucionar este problema apresentamos um outro
procedimento. Reuni-se em uma única classe várias possibilidades de respostas. Se
a variável em estudo é a idade, então podemos reunir em uma única classe todas as
idades no intervalo de 18 a 24 anos, por exemplo.
A tabela 2.2 apresenta a variável idade dividida em cinco classes. A primeira
classe tem como limite inferior o número 18 e como limite superior o número 24. O
sinal apresentado entre esses números nos da idéia do tipo de intervalo usado.
Neste caso, dizemos que o intervalo da primeira classe é fechado em 18 e aberto
em 24, ou seja, a primeira classe envolve todas as idades iguais ou maiores que 18
anos e menores que 24. Note que não entrará nesta classe uma observação igual a
24. Lê-se a classe 18├─ 24 da seguinte forma: de 18 anos inclusive até 24 anos
exclusive. É possível termos classes dos tipos 18 ─┤24 (de 18 anos exclusive até 24anos inclusive) ou 18├─┤24 (de 18 anos inclusive até 24 anos inclusive).
A diferença entre o maior valor observado e o menor valor observado é
chamado de amplitude total, geralmente representado por At. A diferença entre o
limite superior e o limite inferior de cada classe recebe o nome de amplitude de
classe, geralmente representado por h . É possível encontrar na literatura autores
que definam equações para determinar o número de classes e a amplitude que cada
classe deve ter. Por exemplo, para determinar o número K de classes: ou K= 1 + 3,33 log n . Em que o n é o número total de observações. Feito isso será
possível determinar a amplitude da classe através da equação:
É necessário atentar para o fato de que quando temos muitas observações
esses caminhos se tornam inviáveis por determinarem um número muito grande de
classes. Observe ainda que procedendo desta maneira todas as classes terão a
-
8/20/2019 Curso de Qualificação Profissional - Econometria
15/143
14
mesma amplitude, o que pode contrariar o objetivo do estudo. Por exemplo, se o
interesse é verificar a quantidade de crianças, adolescentes, jovens, adultos e
idosos de uma população composta de 900 pessoas, usando a variável idade, onde
a menor idade observada é 1 ano e a maior é 81 anos. Usando as equações acima,
teríamos entre 24 a 30 classes e cada classe possuiria uma amplitude igual a 3 ou 4.
Isso geraria uma tabela muito carregada e possivelmente não explicitaria o objetivo
do estudo.
A melhor maneira de determinar o número de classes e a amplitude de cada
classe é usar o bom senso. Ainda com o objetivo de verificar a quantidade de
crianças, adolescentes, jovens, adultos e idosos de uma população, usando a
variável idade, podemos dividi-la em apenas cinco classes de amplitudes diferente e
atender de forma bastante satisfatória o objetivo do estudo, por exemplo: 0 ├─ 12,
12 ├─ 18, 18 ├─ 24, 24 ├─ 65, 65 ├─ 120.
Podemos ter como interesse resumir simultaneamente os dados de duas
variáveis. Neste caso usamos tabelas de dupla entrada (ou tabelas de contingência ),
onde deverão aparecer as freqüências simples e/ou as freqüências relativas que
pertencem simultaneamente a classes de uma e outra variável. Quando
consideramos duas variáveis podemos ter três situações:
As duas variáveis são qualitativas;
As duas variáveis são quantitativas;
Uma variável é qualitativa e a outra é quantitativa.
A seguir discutiremos acerca de uma tabela de dupla entrada para uma variável
quantitativa versus uma variável quantitativa. Para tanto, usaremos as variáveis
usadas para construir as tabelas 2.1 e 2.2 (sexo e idade).
Deve ficar claro que um dos principais objetivos de se construir uma
distribuição conjunta (uma tabela de dupla entrada, por exemplo) de duas variáveis é
medir o grau de dependência entre elas, de modo que possamos prever o melhor
resultado de uma delas quando conhecemos a realização da outra.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
16/143
15
Construiremos uma tabela de dupla entrada a fim de verificar se existe ou não
associação entre as variáveis sexo e idade usando as observações dispostas no
quadro 2.1.
Tabela 2.3: Distribuição conjunta das variáveis sexo e idade dos alunos do curso de
econometria do CETAM – setembro de 2010.Sexo
Idade (anos)Feminino Masculino
Total
18├─ 24 10 5 1524├─ 30 4 4 830├─ 40 10 4 1440├─ 50 3 2 550├─ 60 3 0 3
Total 30 15 45
FONTE: DADOS HIPOTÉTICOS.
Esse tipo de tabela nos trás boas informações. Podemos observar, porexemplo, que existem dez alunos do sexo feminino com idade entre 30 (inclusive) e
40 anos (exclusive). Observamos ainda que, independente da idade, existem 30
alunos do sexo feminino e 15 do sexo masculino.
Perceba que os totais marginais para a variável sexo são iguais às freqüências
simples dispostas na tabela 2.1 e que os totais marginais para a variável idade são
iguais às freqüências simples dispostas na tabela 2.2.
Esta forma de apresentação, através de freqüência simples, pode dificultar o
entendimento uma vez que não temos uma idéia clara de cada informação em
relação ao todo. Para tanto poderíamos ter essas informações expressas em termos
percentuais.
Tabela 2.4: Distribuição conjunta das proporções das variáveis sexo e idade dosalunos do curso de econometria do CETAM – setembro de 2010.
SexoIdade (anos) Feminino Masculino Total
18├─ 24 22,22 % 11,11 % 33,33 %24├─ 30 08,89 % 08,89 % 17,78 %30├─ 40 22,22 % 08,89 % 31,11 %40├─ 50 06,67 % 04,44 % 11,11 %50├─ 60 06,67 % 00,00 % 06,67 %
Total 66,67 % 33,33 % 100,00 %
FONTE: DADOS HIPOTÉTICOS.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
17/143
16
Observe que não existem alunos do sexo masculino com idade superior a 50
anos. Os maiores percentuais (22,22%) são de alunos do sexo feminino com idades
no intervalo de 18 a 24 anos ou no intervalo de 30 a 40 anos. Veja que,
independente do sexo, existem 33,33% de alunos com idade entre 18 e 24 anos e
apenas 6,67% de alunos com idade superior ou igual a 50 anos.
Perceba que os totais marginais para a variável sexo são iguais às freqüências
relativas dispostas na tabela 2.1 e que os totais marginais para a variável idade são
iguais às freqüências relativas dispostas na tabela 2.2.
Uma outra forma de apresentação de tabelas de dupla entra seria exibir em
uma única tabela as freqüências relativas e percentuais. Para exemplificar,
observemos a Tabela 2.5.
Tabela 2.5: Distribuição conjunta dos valores absolutos e proporcionais das variáveissexo e idade dos alunos do curso de econometria do CETAM - setembro de 2010
SexoIdade (anos)
Feminino MasculinoTotal
10 5 1518├─ 2422,22 % 11,11 % 33,33 %
4 4 824├─ 308,89 % 8,89 % 17,78 %
10 4 1430├─ 40 22,22 % 8,89 % 31,11 %3 2 540├─ 50 6,67 % 4,44 % 11,11 %3 0 350├─ 60 6,67 % 0,0 % 6,67 %30 15 45Total
66,67 % 33,33 % 100,00 %FONTE: DADOS HIPOTÉTICOS.EM CADA ENTRADA, ENCONTRA-SE A FREQÜÊNCIA SIMPLES SOBRE A FREQÜÊNCIA RELATIVA.
Assim podemos observar que existem dez alunos do sexo feminino com idade
entre 30 (inclusive) e 40 anos (exclusive) e que esses dez alunos representam
22,22% do total. Observamos ainda que, independente da idade, 66,67%, ou 30
alunos, são do sexo feminino e 33,33%, ou 15 alunos, são do sexo masculino.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
18/143
17
2.2.2. Elaboração de gráficos
Uma outra forma de apresenta um resumo dos dados é através de gráficos. A
representação gráfica de uma distribuição de uma variável tem a vantagem de,
rápida e concisamente, informar sobre sua variabilidade. Existem vários gráficos que
podem ser utilizados e abordaremos aqui os mais simples.
Para representar variáveis qualitativas existem vários tipos de gráficos que
obedecem o mesmo principio, logo nos limitaremos a apresentar três deles: gráficos
de barras, colunas e setores circular (“pizza”).
O gráfico em colunas consiste em construir tantos retângulos conforme o
número de classes de seu interesse, em que a altura de cada um desses retângulos
(classes) está relacionada diretamente com a freqüência (simples ou relativa). Essascolunas estão dispostas paralelamente umas às outras, no sentido vertical. No
gráfico em barras são construídos tantos retângulos conforme o número de classes
de seu interesse, em que o comprimento de cada um desses retângulos (classes)
está relacionado diretamente com a freqüência (simples ou relativa). Essas barras
estão dispostas paralelamente umas às outras, no sentido horizontal.
Ao construirmos um gráfico, independente do tipo, devemos atentar para o tipo
de variável com a qual estamos trabalhando. É necessário verificar se a variável emestudo é continua ou não. Se a variável for contínua, devemos demonstrar isso no
gráfico, ou seja, as classes (barras, colunas ou setores) deverão ser apresentadas
justapostas. Se a variável não for contínua as classes deverão ser apresentadas
separadamente. Uma outra observação a ser feita é que usualmente o titulo da
figura deve ser apresentado em baixo da figura.
Apesar de termos as duas convenções supracitadas, é muito comum
encontrarmos em revistas, periódicos, livros e em outros meios de informação,gráficos fugindo desses padrões. Isso torna esses “erros” comuns, mas não
aceitáveis.
Para exemplificar, tomaremos a variável qualitativa estado civil e a variável
quantitativa idade . Nas figuras 2.1, 2.2 e 2.3 temos, respectivamente, gráfico em
colunas, gráfico em setores circular e gráfico em barras para a variável estado civil.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
19/143
18
Nas figuras 2.4, 2.5 e 2.6 temos, respectivamente, gráfico em colunas, gráfico em
setores circular e gráfico em barras para a variável idade. As observações usadas
para a elaboração desses gráficos foram retiradas do quadro 2.1.
Figura 2.1: Gráfico em colunas para a variável estado civil dos
alunos do curso de econometria do CETAM - setembro de
2010
Figura 2.2: Gráfico em setores circular para a variável estado
civil dos alunos do curso de econometria do CETAM -
setembro de 2010
-
8/20/2019 Curso de Qualificação Profissional - Econometria
20/143
19
Figura 2.3: Gráfico em barras para a variável estado civil dos
alunos do curso de econometria do CETAM - setembro de2010
Figura 2.4: Gráfico em colunas para a variável idade dos
alunos do curso de econometria do CETAM - setembro de
2010
-
8/20/2019 Curso de Qualificação Profissional - Econometria
21/143
20
Figura 2.5: Gráfico em setores circular para a variável idade
dos alunos do curso de econometria do CETAM - setembro de2010
Figura 2.6: Gráfico em barras para a variável idade dos alunos
do curso de econometria do CETAM - setembro de 2010
Podemos ter como interesse resumir simultaneamente os dados de duas
variáveis em um único gráfico. A exemplo das tabelas de dupla entrada (ou tabelas
de contingência), nos gráficos deverão aparecer as freqüências simples ou as
-
8/20/2019 Curso de Qualificação Profissional - Econometria
22/143
21
freqüências relativas que pertencem simultaneamente a classes de uma e outra
variável. Para ilustrar, temos as figuras 2.7 e 2.8.
Figura 2.7: Gráfico em colunas para a distribuição conjunta das
variáveis sexo e idade dos alunos do curso de econometria do
CETAM - setembro de 2010
Figura 2.8: Gráfico em barras para a distribuição conjunta das
variáveis sexo e idade dos alunos do curso de econometria do
CETAM - setembro de 2010
-
8/20/2019 Curso de Qualificação Profissional - Econometria
23/143
22
2.3 - MEDIDAS
Até agora vimos que é possível resumir os dados e apresentá-los em forma de
tabelas e gráficos. Contudo, quando estamos diante de um banco de dados é
conveniente tentar resumi-lo através do cálculo de algumas medidas que acaracterizam. Estas medidas, quando bem interpretadas, podem fornecer-nos
informações muito valiosas com respeito a este conjunto de dados.
Em suma, podemos reduzi-lo a alguns valores, cuja interpretação fornece-nos
uma compreensão bastante precisa de todo o conjunto de observações. Alguns
destes valores são as medidas de tendência central outros são as medidas de
dispersão.
2.3.1. Medidas de tendência central
São valores intermediários do conjunto de dados, ou seja, valores
compreendidos entre o menor e o maior valor da série. São também valores em
torno dos quais os elementos do conjunto de dados estão distribuídos. A medida de
tendência central procura estabelecer um número no eixo horizontal em torno do
qual a série se concentra.As principais medidas de tendência central são: média, mediana e moda.
2.3.1.1. Média
Do ponto de vista teórico, vários tipos de média podem ser calculados para
uma massa de dados. Ressaltamos que a média aritmética é a mais usada, portanto
a mais comum. Apresentaremos ainda as médias geométricas e harmônicas.
Média aritmética simples:
Para uma seqüência numérica X: x1, x2, x3, ..., xn , a média aritmética simples,
que designaremos por X é definida por:
n
x X i∑=
-
8/20/2019 Curso de Qualificação Profissional - Econometria
24/143
23
Média aritmética ponderada:
Para uma seqüência numérica X: x1, x2, x3, ..., xn , afetados de pesos p1, p2, p3,
..., pn, respectivamente, a média aritmética ponderada, que designaremos por p X , é
definida por:
∑∑
=i
ii p p
p x X
Média geométrica simples
Para uma seqüência numérica X: x1, x2, x3, ..., xn , a média geométrica simples,
que designaremos por g X , é definida por:
nng x x x x X ...321=
Média geométrica ponderada
Para uma seqüência numérica X: x1, x2, x3, ..., xn , afetados de pesos p1, p2, p3,
..., pn, respectivamente, a média geométrica ponderada, que designaremos por
gp X , é definida por:
∑= i n p p
n p p p
gp x x x x X ...321
321
Média harmônica simples
Para uma seqüência numérica de elementos não nulos X: x1, x2, x3, ..., xn , a
média harmônica simples, que designaremos por h X , é definida por:
n
h
x x x x
n X
1...
111
321
++++
= ou
∑=
i
h
x
n X
1
Note que a média harmônica é o inverso da média aritmética dos inversos dos
elementos.
Média harmônica ponderada
Para uma seqüência numérica de elementos não nulos X: x1, x2, x3, ..., xn ,
afetados de pesos p1, p2, p3, ..., pn, respectivamente, a média harmônica ponderada
que designaremos por hp X é definida por:
-
8/20/2019 Curso de Qualificação Profissional - Econometria
25/143
24
n
n
ihp
x
p
x
p
x
p
x
p
p X
++++
= ∑
...3
3
2
2
1
1
ou
∑
∑=
i
i
ihp
x
p
p X
A média harmônica aplica-se naturalmente quando se quer a obtenção de uma
média cuja unidade de medida seja o inverso da unidade de medida dos
componentes da seqüência original.
A média geométrica só é indicada para representar uma série de valores
aproximadamente em progressão geométrica.
Os casos anteriores não são muito freqüentes nas aplicações. Vamos restringir
o desenvolvimento de médias ao caso de média aritmética, que é a média mais
utilizada nas aplicações.
2.3.1.2. Cálculo da Média Aritmética
Dados brutos ou rol
Neste caso, devemos utilizar uma média aritmética simples:
n
x
X
i∑=
Dados tabelados
Se os dados estão apresentados na forma de uma tabela, utilizaremos a média
aritmética ponderada, considerando as freqüências simples f i como sendo as
ponderações dos elementos x i correspondentes.
A equação da média que originalmente era∑∑
=i
ii
p
p x X passa a ser escrita
como:
∑∑
=i
ii
f
f x X
Obs: Para tabelas de variáveis continuas, o valor de x i é o ponto médio da
classe i .
-
8/20/2019 Curso de Qualificação Profissional - Econometria
26/143
25
2.3.1.3. Mediana
É um valor real que separa o rol em duas partes deixando à sua esquerda o
mesmo número de elementos que a sua direita. Portanto, a mediana é um valor que
ocupa a posição central em um conjunto de dados. A mediana será denotada por
md.
2.3.1.4. Cálculo da Mediana
Dados brutos ou rol
Inicialmente devemos ordenar os elementos caso sejam dados brutos, obtendo
o Rol. Em seguida determinamos o número n de elementos do Rol. Se n é impar, o
Rol admite apenas um termo central que ocupa a posição
+
2
1n
º. O valor doelemento que ocupa esta posição é a mediana. Se n é par, o rol admite dois termos
centrais que ocupam as posições
2
nº e
+ 1
2
nº. A mediana é convencionada
como sendo a média dos valores que ocupam estas posições centrais.
Quando lidamos com um conjunto de dados muito grande, a quantidade de
elementos à esquerda é à direita é aproximadamente 50% do total de
elementos, o que conduz a seguinte interpretação genérica para a mediana:
"50% dos valores do conjunto de dados são valores menores ou iguais amediana e 50% dos valores do conjunto de dados são valores maiores ou
iguais a mediana".
Dados tabelados - variável discreta
Se os dados estão apresentados na forma de uma variável discreta, eles já
estão naturalmente ordenados. Assim, basta verificar se o número de elementos da
série é ímpar ou par e aplicar o mesmo raciocínio do caso anterior.
Dados tabelados - variável contínua
Se a dados são apresentados na forma de uma variável contínua, o raciocínio
anterior não pode ser utilizado, uma vez que mesmo identificada a posição da
mediana no conjunto de dados, o valor do elemento da série que ocupa esta
posição não é identificável. Assim, para determinar a mediana temos a
equação:
-
8/20/2019 Curso de Qualificação Profissional - Econometria
27/143
26
h f
F n
lmd
d
m
ant
md
−
+= 2
em que:
1md = limite inferior da classe mediana.
n = número de elementos do conjunto de dados.F ant = freqüência acumulada da classe anterior à classe mediana.
f md = freqüência simples da classe mediana.
h = amplitude do intervalo de classe.
COMENTÁRIO: Devido às condições impostas na obtenção da fórmula da
mediana, fica evidente que o valor obtido pela fórmula é um valor aproximado do
verdadeiro valor da mediana do conjunto de dados.
De modo geral, todas as medidas calculadas para uma variável contínua serão
valores aproximados para estas medidas, uma vez que ao agruparmos os dados
segundo uma variável contínua, há perda de informações quanto à identidade dos
dados.
2.3.1.5. Moda
É o valor de maior freqüência em um conjunto de dados. Notação: A moda será
denotada por mo.
2.3.1.6. Cálculo da Moda
Dados brutos ou rol
Basta identificar o elemento de maior freqüência. Se a maior freqüência for
atribuída a um único valor, dizemos que o conjunto de dados é unimodal. Se a maior
freqüência for atribuída a valores distintos, dizemos que o conjunto de dados ébimodal. Poderemos encontrar seqüências trimodais, tetramodais e assim
sucessivamente. Estes conjuntos de observações serão chamados de forma
genérica por seqüências polimodais.
Se todos os valores do conjunto de dados apresentam a mesma freqüência,
dizemos que o conjunto de dados é amodal.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
28/143
27
Dados tabelados - variável discreta
Este caso é ainda mais simples. Note que na apresentação da variável discreta,
as freqüências já estão computadas. Basta identificar o elemento de maior
freqüência.
Dados tabelados - variável contínua
Para determinar a moda de uma variável contínua, podemos optar por vários
processos. Daremos destaque para a moda de Pearson, de King e de Czuber.
Moda de Pearson:
Segundo PEARSON, a moda de uma variável contínua pode ser obtida através
do valor da média e da mediana:
X mm d o 23 −=
Moda de King
KING levou em consideração, em sua fórmula, a freqüência simples da classe
anterior e a freqüência simples da classe posterior à classe modal.
h f f
f lm
post ant
post mo o +
+=
em que:
l mo = limite inferior da classe modalf post = freqüência simples da classe posterior à classe modal
f ant = freqüência simples da classe anterior à classe modal
h = amplitude do intervalo de classe
Moda de CZUBER
CZUBER levou em consideração, em sua fórmula a freqüência simples da
classe anterior, a freqüência simples da classe posterior, além da freqüência simples
da classe modal. É, portanto, uma fórmula mais completa que a fórmula de King.
h f f f
f f lm
post ant m
ant m
mo
o
o
o )(2 +−
−+=
em que:
l mo = limite inferior da classe modal
f mo = freqüência simples da classe modal.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
29/143
28
f post = freqüência simples da classe posterior à classe modal
f ant = freqüência simples da classe anterior à classe modal
h = amplitude do intervalo de classe
COMENTÁRIO: A fórmula de Pearson tem normalmente interesse teórico. Se
não dispusermos da média e da mediana da distribuição, a fórmula de Pearson é a
mais trabalhosa. A fórmula de King é a mais simples delas, mas não é a mais
precisa. A fórmula de Czuber é mais precisa que a fórmula de King, pois leva
também em consideração a freqüência da classe modal.
2.3.2. Utilização das Medidas de Tendência Central
Na maioria das situações, não necessitamos calcular as três medidas de
tendência central. Normalmente precisamos de apenas uma das medidas paracaracterizar o centro da série. Surge, então, a questão: qual medida deve ser
utilizada?
A medida ideal em cada caso é aquela que melhor representa a maioria dos
dados da série. Quando todos os dados de uma série estatística são iguais, a média,
a mediana e a moda coincidirão com este valor e, portanto qualquer uma delas
representará bem a série. No entanto, este caso dificilmente ocorrerá na prática.
Na maioria das vezes, teremos valores diferenciados para a série e
conseqüentemente a medida irá representar bem, apenas os dados da série que se
situam próximos a este valor. Os dados muito afastados em relação ao valor da
medida não serão bem representados por ela.
Desta forma, se uma série apresenta forte concentração de dados em sua área
central, a média, a mediana e a moda ficam também situadas em sua área central
representando bem a série. Como a mais conhecida é a média, optamos por esta
medida de tendência central. Concluindo, devemos optar pela média, quando houver
forte concentração de dados na área central da série.
Se uma série apresenta forte concentração de dados em seu início, a mediana
e a moda estarão posicionadas mais no início da série, representando bem esta
-
8/20/2019 Curso de Qualificação Profissional - Econometria
30/143
29
concentração. A média que é fortemente afetada por alguns valores posicionados no
final da série se deslocará para a direita desta concentração não a representando
bem.
Como a mais conhecida entre mediana e moda é a mediana, esta será a
medida indicada neste caso. A mesma situação ocorre se a série apresenta forte
concentração de dados em seu final. Concluindo, devemos optar pela mediana,
quando houver forte concentração de dados no início ou no final da série.
A moda deve ser a opção como medida de tendência central apenas em séries
que apresentam um elemento típico, isto é, um valor cuja freqüência é muito superior
à freqüência dos outros elementos da série.
2.3.3. Exemplos do uso de medidas de tendência central
Como exemplo tomaremos as notas atribuídas aos alunos da sétima serie do
Centro Educacional Elisa Bessa (CEEB) nas disciplinas de Português, Matemática,
Historia e Geografia. Vale ressaltar que o CEEB possui uma política de diferenciação
de disciplinas atribuindo um grau de importância (ou peso) diferente para cada
disciplina.
O Quadro 2.3, mostra a nota dos alunos em cada disciplina sem levar em conta
o peso atribuído a cada disciplina. O Quadro 2.2 apresenta os pesos atribuídos a
cada disciplina.
Quadro 2.2: Pesos atribuídos às disciplinas do Centro Educacional Elisa Bessa
Disciplinas Pesos
Português 3
Matemática 1
Historia 2
Geografia 2
Total 8
FONTE: SECRETÁRIA DO CEEB.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
31/143
30
Na tentativa de fazer uma avaliação da turma, o centro pedagógico do CEEB
utilizou algumas medidas de tendência central.
A primeiro passo foi calcular a média de cada aluno da turma, para tanto foram
somadas as notas das quatro disciplinas e dividido por quatro. Esses resultados
estão apresentados no Quadro 2.4.
Quadro 2.3: Notas dos alunos da sétima série do Centro Educacional Elisa Bessa
Número do
aluno Português Matemática História Geografia
1 7,7 3,5 3,3 8,3
2 6,7 7,4 5,8 7,1
3 8,7 5,7 9,6 8,7
4 9,2 4,3 6,9 7,4
5 4,3 5,3 7,2 5,2
6 6,3 3,9 8,5 7,9
7 7,5 5,3 6,6 5,2
8 6,9 4,0 9,9 9,4
9 4,7 5,6 8,2 8,0
10 8,7 7,1 9,1 6,1
11 8,3 4,2 7,6 9,812 8,4 5,6 7,7 8,1
13 7,5 9,4 9,0 8,7
14 9,1 5,0 7,9 7,3
15 5,4 9,9 9,0 5,4
16 9,0 6,9 6,8 7,1
17 9,3 7,0 6,9 5,9
18 7,2 5,1 7,1 8,7
19 8,8 4,5 6,9 7,5
20 4,1 7,2 6,8 3,0
Média 7,4 5,8 7,5 7,2
FONTE: SECRETÁRIA DO CEEB.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
32/143
31
Quadro 2.4: Média individual dos alunos da sétima série do CEEB
Número do aluno Cálculo da média Resultado
1 (7,7 + 3,5 + 3,3 + 8,3) / 4 = 5,70
2 (6,7 + 7,4 + 5,8 + 7,1) / 4 = 6,75
3 (8,7 + 5,7 + 9,6 + 8,7) / 4 = 8,18
4 (9,2 + 4,3 + 6,9 + 7,4) / 4 = 6,93
5 (4,3 + 5,3 + 7,2 + 5,2) / 4 = 5,52
6 (6,3 + 3,9 + 8,5 + 7,9) / 4 = 6,64
7 (7,5 + 5,3 + 6,6 + 5,2) / 4 = 6,13
8 (6,9 + 4,0 + 9,9 + 9,4) / 4 = 7,52
9 (4,7 + 5,6 + 8,2 + 8,0) / 4 = 6,63
10 (8,7 + 7,1 + 9,1 + 6,1) / 4 = 7,74
11 (8,3 + 4,2 + 7,6 + 9,8) / 4 = 7,49
12 (8,4 + 5,6 + 7,7 + 8,1) / 4 = 7,45
13 (7,5 + 9,4 + 9,0 + 8,7) / 4 = 8,67
14 (9,1 + 5,0 + 7,9 + 7,3) / 4 = 7,31
15 (5,4 + 9,9 + 9,0 + 5,4) / 4 = 7,43
16 (9,0 + 6,9 + 6,8 + 7,1) / 4 = 7,43
17 (9,3 + 7,0 + 6,9 + 5,9) / 4 = 7,28
18 (7,2 + 5,1 + 7,1 + 8,7) / 4 = 7,03
19 (8,8 + 4,5 + 6,9 + 7,5) / 4 = 6,92
20 (4,1 + 7,2 + 6,8 + 3,0) / 4 = 5,28
Com base na média aritmética, 3 alunos possuíram média final abaixo de 6.
Com tudo, é interesse da instituição ponderar as disciplinas. Sendo assim, um novo
-
8/20/2019 Curso de Qualificação Profissional - Econometria
33/143
32
cálculo foi feito (Quadro 2.5) e novas médias foram encontradas. Agora, 2 alunos
apresentavam média abaixo de 6.
Quadro 2.4: Média ponderada individual dos alunos da sétima série do CEEB
Número do aluno Cálculo da média Resultado1 (7,7 x 3 + 3,5 x 1 + 3,3 x 2 + 8,3 x 2) / 8 = 6,23
2 (6,7 x 3 + 7,4 x 1 + 5,8 x 2 + 7,1 x 2) / 8 = 6,65
3 (8,7 x 3 + 5,7 x 1 + 9,6 x 2 + 8,7 x 2) / 8 = 8,56
4 (9,2 x 3 + 4,3 x 1 + 6,9 x 2 + 7,4 x 2) / 8 = 7,55
5 (4,3 x 3 + 5,3 x 1 + 7,2 x 2 + 5,2 x 2) / 8 = 5,39
6 (6,3 x 3 + 3,9 x 1 + 8,5 x 2 + 7,9 x 2) / 8 = 6,94
7 (7,5 x 3 + 5,3 x 1 + 6,6 x 2 + 5,2 x 2) / 8 = 6,41
8 (6,9 x 3 + 4,0 x 1 + 9,9 x 2 + 9,4 x 2) / 8 = 7,89
9 (4,7 x 3 + 5,6 x 1 + 8,2 x 2 + 8,0 x 2) / 8 = 6,52
10 (8,7 x 3 + 7,1 x 1 + 9,1 x 2 + 6,1 x 2) / 8 = 7,94
11 (8,3 x 3 + 4,2 x 1 + 7,6 x 2 + 9,8 x 2) / 8 = 8,00
12 (8,4 x 3 + 5,6 x 1 + 7,7 x 2 + 8,1 x 2) / 8 = 7,80
13 (7,5 x 3 + 9,4 x 1 + 9,0 x 2 + 8,7 x 2) / 8 = 8,43
14 (9,1 x 3 + 5,0 x 1 + 7,9 x 2 + 7,3 x 2) / 8 = 7,82
15 (5,4 x 3 + 9,9 x 1 + 9,0 x 2 + 5,4 x 2) / 8 = 6,88
16 (9,0 x 3 + 6,9 x 1 + 6,8 x 2 + 7,1 x 2) / 8 = 7,70
17 (9,3 x 3 + 7,0 x 1 + 6,9 x 2 + 5,9 x 2) / 8 = 7,57
18 (7,2 x 3 + 5,1 x 1 + 7,1 x 2 + 8,7 x 2) / 8 = 7,30
19 (8,8 x 3 + 4,5 x 1 + 6,9 x 2 + 7,5 x 2) / 8 = 7,46
20 (4,1 x 3 + 7,2 x 1 + 6,8 x 2 + 3,0 x 2) / 8 = 4,89
-
8/20/2019 Curso de Qualificação Profissional - Econometria
34/143
33
O centro pedagógico do CEEB observou que a menor média entre as
disciplinas era a de matemática com um valor igual a 5,8. A fim de obter mais
informações sobre esse conjunto de dados (notas de matemática), a o centro
pedagógico construiu um Rol para esses dados e em seguida calculou a mediana, a
moda e apresentou um resumo dos dados na Tabela 2.6.
Rol:
3,5; 3,9; 4,0; 4,2; 4,3; 4,5; 5,0; 5,1; 5,3; 5,3;
5,6; 5,6; 5,7; 6,9; 7,0; 7,1; 7,2; 7,4; 9,4; 9,9.
Para o cálculo da mediana, foram tomados o 10º e o 11º elementos e em
seguida foi calculada a media desses dois números.
45,52
6,53,5=
+=d m
Para determinar a moda, foi observada a maior freqüência entre as
observações. Chegando a conclusão de que a serie e bimodal, pois os valores 5,3 e
5,6 apresentam a mesma freqüência.
Tabela 2.6: Divisão da 7ª série do CEEB quanto à nota de matemática
Notas de matemática Freqüência simples Freqüência acumulada
3,0 |-- 4,5 5 5
4,5 |-- 6,0 8 13
6,0 |-- 7,5 5 18
7,5 |-- 9,0 0 18
9,0 |-- 10,0 2 20
Total 20
FONTE: SECRETARIA DO CEEB
Data a tabela acima é possível calcular a mediana e moda.
44,55,18
5105,42 =
−+=
−
+= h f
F nlm
d
d
m
ant
md
25,55,155
55,4 =
++=
++= h
f f
f lm
post ant
post mo o
-
8/20/2019 Curso de Qualificação Profissional - Econometria
35/143
34
2.3.4. Medidas de dispersão
São necessários dois tipos de medidas para descrever adequadamente um
conjunto de dados. Além da informação quanto ao "meio" de um conjunto de
números, é conveniente dispormos também de um método que nos permita exprimir
a dispersão. As medidas de dispersão indicam se os valores estão relativamentepróximos uns dos outros, ou separados.
Consideraremos quatro medidas de dispersão: o desvio médio, a variância,
desvio padrão e o coeficiente de variação. Todas elas têm na média o ponto de
referência. Em cada caso, o valor zero indica ausência de dispersão; a dispersão
aumenta à proporção que aumenta o valor da medida (desvio, variância, etc.).
2.3.4.1. Desvio médio absoluto
O desvio médio absoluto (DMA) mede o desvio médio dos valores em relação à
média do grupo, ignorando o sinal do desvio. Calcula-se subtraindo a média de cada
valor do grupo e desprezando o sinal (+ ou -) do desvio, e tomando a média em
seguida. Ao calcular o desvio médio, é necessário levar em conta o fato de que a
soma dos desvios positivos e negativos a contar da média será sempre (por
definição) igual a zero. A conversão das diferenças a valores absolutos (todos os
valores são considerados como desvios positivos) antes de se proceder à somaresolve o problema. Calcula-se então o desvio médio absoluto pela seguinte
equação:
n
X x DMA
i∑ −=
Em que n é o número de observações no conjunto de dados.
Apesar de ser relativamente fácil calcular e entender o DMA, esse não é muito
utilizado por haver outras medidas que apresentam propriedades matemáticas mais
interessantes. O DMA possui algumas aplicações no controle de inventários.
2.3.4.2. Variância e desvio-padrão
A variância é uma média aritmética calculada a partir dos quadrados dos
desvios obtidos entre os elementos do conjunto de dados e a sua média. O desvio
padrão é a raiz quadrada positiva da variância.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
36/143
35
Em particular, para estas medidas levaremos em consideração o fato de a
seqüência de dados representar toda uma população ou apenas uma amostra de
uma população.
Notações: Quando a seqüência de dados representa uma População a
variância será denotada por )(2 X σ e o desvio padrão correspondente por )( X σ .
Quando a seqüência de dados representa uma amostra, a variância será denotada
por S 2 (X) e o desvio padrão correspondente por S(X).
2.3.4.3. Cálculo da variância e do desvio padrão
Dados brutos ou Rol
Se o conjunto de dados representa uma População, a variância é calculada
pela equação:
( )n
X x X i∑
−=
2
2 )(σ
Conseqüentemente, o desvio-padrão será dado por:
( )n
X x X X i∑
−==
2
2 )()( σ σ
Se o conjunto de dados representa uma amostra, a variância é calculada pela
equação:( )
1)(
2
2
−
−= ∑
n
X x X S i
Conseqüentemente, o desvio-padrão será dado por:
( )1
)()(
2
2
−
−==
∑n
X x X S X S i
Dados tabelados – variável discreta
Como há repetições de elementos no conjunto de dados, definimos a variância
como sendo uma media aritmética ponderada dos quadrados dos desvios dos
elementos do conjunto de dados.
Variância para população:
( )
∑∑ −
=i
ii
f
f X x X
2
2 )(σ
-
8/20/2019 Curso de Qualificação Profissional - Econometria
37/143
36
Desvio padrão para população:
( )
∑∑ −
==i
ii
f
f X x X X
2
2 )()( σ σ
Variância para amostra:
( )∑∑ −
−=1
)(
2
2
i
ii
f f X x X S
Desvio padrão para amostra:
( )
∑∑
−
−==
1)()(
2
2
i
ii
f
f X x X S X S
Dados tabelados – variável contínua
Novamente, por desconhecer os particulares valores de x i do conjunto de
dados, substituiremos nas equações anteriores estes valores pelos pontos médios
da classe.
Variância para população:
( )
∑∑ −
=i
ii
f
f X x X
2
2 )(σ onde x i é o ponto médio da classe i .
Variância para amostra:
( )
∑∑
−
−=
1)(
22
i
ii
f
f X x X S onde x i é o ponto médio da classe i .
COMENTÁRIOS: No cálculo da variância, quando elevamos ao quadrado a
diferença ( ) X xi − , a unidade de medida da série fica também elevada ao quadrado.
Portanto, a variância é dada sempre no quadrado da unidade de medida da série.
Se os dados são expressos em metros, a variância é expressa em metros
quadrados. Em algumas situações, a unidade de medida da variância nem fazsentido. É o caso, por exemplo, em que os dados são expressos em litros. A
variância será expressa em litros quadrados. Portanto, o valor da variância não pode
ser comparado diretamente com os dados da série, ou seja: variância não tem
interpretação. Exatamente para suprir esta deficiência da variância é que se define o
desvio padrão.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
38/143
37
2.3.4.4. Coeficiente de variação (C.V.)
Em trabalhos experimentais, através deste parâmetro, comprovamos a precisão
alcançada, embora não seja apenas esta a sua finalidade. Este coeficiente é
expresso em percentagem, sendo utilizado em trabalhos científicos. É calculado pelaequação:
( ) X
X X CV
)(σ =
2.3.4.5. Exemplos do uso de medidas de tendência central
Observamos anteriormente que a média da turma de matemática da sétima
série do CEEB era igual a 5,8, a mediana igual a 5,45 e as modas iguais a 5,3 e 5,6.
Estas “características” nos dão alguma idéia sobre a população em estudo. Outras
“características” que podem “melhorar a idéia” de como a turma se comporta, são a
variância, o desvio-padrão e o coeficiente de variação. Para calcularmos estas três
ultimas medidas, utilizaremos o mesmo Rol utilizado anteriormente (o rol da turma
de matemática).
Rol:3,5; 3,9; 4,0; 4,2; 4,3; 4,5; 5,0; 5,1; 5,3; 5,3;
5,6; 5,6; 5,7; 6,9; 7,0; 7,1; 7,2; 7,4; 9,4; 9,9.
Variância
( )94199,2
20
)8,59,9(...)8,59,3()8,55,3()(
2222
2 =−++−+−
=−
= ∑
n
X x X iσ
Desvio-padrão
7,1)()( 2 == X X σ σ
Coeficiente de variação
( ) %31,292931,08,5
7,1)(ou
X
X X CV ===
σ
-
8/20/2019 Curso de Qualificação Profissional - Econometria
39/143
38
Tomando como fonte a Tabela 2.6, os cálculos para a variância, o desvio-
padrão e o coeficiente de variação, são:
Variância
( )2,7662520
25,8)(9,5...85,8)(5,2555,8)(3,75
f
f Xx(X)σ
222
i
i
2
i2 =
−++−+−=
−= ∑∑
Desvio-padrão
6632,1)()( 2 == X X σ σ
Coeficiente de variação
( ) %68,282868,08,5
6632,1)(ou
X
X X CV ===
σ
2.4 - ASSIMETRIA DAS DISTRIBUIÇÕES
Identificar se a distribuição de uma variável quantitativa em um determinado
conjunto de dados é simétrica ou assimétrica pode ser de grande valia por váriosmotivos:
Se os dados são provenientes de uma amostra, identificar a simetria ou não
da distribuição pode ser necessário para selecionar o modelo probabilístico
mais adequado para descrever a variável na população.
No caso de um experimento, em que todas as causas de variação
indesejadas são suprimidas, a ocorrência de assimetria quando era esperada
simetria, ou o contrário, pode ser indicar que houve algum erro de
planejamento ou de medição.Nos casos em que são comparadas distribuições da mesma variável
quantitativa em situações diferentes a identificação de um comportamento
assimétrico ou simétrico, inesperado ou diferenciado, pode alertar para
aspectos anteriormente despercebidos, ou existência de erros.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
40/143
39
Alguns programas computacionais calculam uma medida de assimetria
(“skewness”): quando este valor é exatamente igual a zero a distribuição em questão
é perfeitamente simétrica. Mas a forma ideal de analisar a simetria de uma
distribuição é combinar a avaliação das medidas e de um gráfico, seja um
histograma ou um diagrama em caixas. As figuras 2.9 a 2.11 irão apresentar gráficos
de distribuições que poderiam ser ajustados a histogramas.
MédiaMediana
Moda
freq
Figura 2.91 - Distribuição assimétrica negativa (assimétrica para a esquerda)
Observe que o "pico" da distribuição, identificado pela moda, está à direita do
gráfico, indicando que "falta algo" à esquerda, justificando a denominação
"assimétrica à esquerda". Observe também que a mediana é maior do que a média.
Há uma medida estatística de assimetria que calcula a diferença entre média emediana: quando a diferença é negativa (mediana maior do que a média) a
distribuição é "assimétrica negativa". Este tipo de distribuição não é muito comum na
prática, pois é mais difícil obter valores excepcionalmente pequenos (à esquerda)
ModaMediana
Média
freq.
Figura 2.10 - Distribuição assimétrica positiva (assimétrica para a direita)
-
8/20/2019 Curso de Qualificação Profissional - Econometria
41/143
40
Observe que o "pico" da distribuição, identificado pela moda, está à esquerda do
gráfico, indicando que "falta algo" à direita, justificando a denominação "assimétrica
à direita". Observe também que a média é maior do que a mediana. Agora a
diferença entre média e mediana será positiva: quando a diferença é positiva a
distribuição é "assimétrica negativa". Este tipo de distribuição é razoavelmente
comum na prática, pois é fácil obter valores excepcionalmente altos, sendo o caso
mais típico a variável renda.
Moda = Média = Mediana
freq.
Figura 2 - Distribuição simétrica
Observe que as três medidas de posição coincidem. E que aproximadamente
metade dos dados estão abaixo do centro e a outra metade acima, ou seja a
distribuição é "simétrica" em relação às suas medidas de posição. A diferença entre
média e mediana é igual a zero. Muitas variáveis apresentam distribuição simétrica,
especialmente aquelas resultantes de medidas corpóreas, mas não somente.
A seguir apresentamos histogramas de distribuições assimétricas e simétrica.
f
x
Figura 2.12 - Histograma de distribuição simétrica
-
8/20/2019 Curso de Qualificação Profissional - Econometria
42/143
41
f
x
Figura 2.13 - Histograma de distribuição assimétrica para a direita (negativa)
f
x
Figura 3.14 - Histograma de distribuição assimétrica para a esquerda (positiva)
Além das medidas de posição podemos utilizar as separatrizes para avaliar não
só a simetria, mas também a dispersão de um conjunto de dados. O procedimento
para verificar a existência de assimetria consiste em avaliar a diferença existente
entre os quartis e a mediana: se os quartis inferior e superior estiverem à mesma
distância da mediana, a distribuição do conjunto pode ser considerada simétrica. A
avaliação da dispersão depende da existência de um padrão para comparação, seja
um outro conjunto de dados ou alguma especificação. Um conjunto de dados
apresentará maior dispersão do que outro se os seus quartis estiverem mais
distantes da mediana. Observe as figuras a seguir.
Simétrico
MdQi Qs
25% 25% 25% 25% Figura 4.15 - Quartis de uma distribuição simétrica - 1o caso
Observe que a diferença Qs - Md é igual àdiferença Md - Qi, o que indica a simetriado conjunto. É importante lembrar que osquartis dividem o conjunto em 4 partesiguais (25% dos dados).
-
8/20/2019 Curso de Qualificação Profissional - Econometria
43/143
42
Simétrico, commaior dispersão
Qi QsMd
25% 25% 25% 25%
Figura 5 - Quartis de uma distribuição simétrica - 2o caso
Mas agora a dispersão do conjunto é maior, quando comparada ao 1o caso: os
quartis estão mais distantes da mediana (as diferenças Qs - Md e Md - Qi serão
maiores do que as obtidas no 1o caso).
Assimétrico para
a direita
Qi QsMd
25% 25%25% 25%
Figura 6.17 - Quartis de uma distribuição assimétrica para a direita
O conjunto apresenta uma dispersão mais elevada nos valores maiores. Isso fez
com que o quartil superior aumentasse de valor ("deslocando-o para a direita"), e
ficasse mais distante da mediana do que o inferior, significando assimetria para a
direita (ou positiva).
Assimétrico paraa esquerda
Qi QsMd
25% 25%25%25%
Figura 7.18 - Quartis de uma distribuição assimétrica para a esquerda
Neste caso ocorre o oposto da figura 26. Há maior dispersão nos valores mais
baixos, fazendo com que o quartil inferior aumentasse de valor, e ficasse mais
distante da mediana do que o superior, significando assimetria para a esquerda (ou
negativa).
A avaliação da assimetria através dos quartis também pode ser em um
diagrama em caixas.
Observe que a diferençaQs - Md continua igual àdiferença Md - Qi, o queindica a simetria do conjunto.
Na figura 26 é fácil perceberdiferenças são claramentedesiguais: há assimetria. E
como Qs - Md é maior do queMd - Qi é para a direita.
Na figura 27 novamente asdiferenças são claramentedesiguais: há assimetria. Ecomo Md - Qi é maior do queQs - Md é para a esquerda.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
44/143
43
2.5 - DIAGRAMA EM CAIXAS
O Diagrama em Caixas, também chamado de Desenho Esquemático, Box-
plot ou Box & Whisker plot é um gráfico que permite avaliar facilmente os valores
típicos, a assimetria, a dispersão e os dados discrepantes de uma distribuição de
dados de uma variável QUANTITATIVA. É indicado para grandes conjuntos dedados.
A construção do Diagrama em Caixas exige que sejam calculados
previamente os valores da Mediana, Quartil Inferior e Quartil Superior do conjunto de
dados, bem como a identificação dos extremos superior (maior valor) e inferior
(menor valor). Traçam-se dois retângulos (duas caixas): um representa a “distância”
entre o Quartil Inferior e a Mediana e o outro a distância entre a Mediana e o Quartil
Superior. A partir dos Quartis Inferior e Superior são desenhadas linhas verticais até
os últimos valores não discrepantes tanto abaixo quanto acima.
Valores discrepantes (ou “outliers”) são aqueles que têm valores:
- maiores do que a expressão Qs + 1,5 x (Qs - Qi)1 ou
- menores do que a expressão Qi - 1,5 x (Qs - Qi)
Todos os valores discrepantes são marcados para posterior estudo individual.
O Diagrama em Caixas “típico” seria:
Figura 8.19 - Diagrama em Caixas - Esquema
1 O valor Qs - Qi é chamado de desvio interquartílico.
Qs + 1,5x(Qs - Qi)
Qi - 1,5x(Qs - Qi)
Md
s
i
**
**
Valores discrepantes superiores
Valores discrepantes inferiores
Na caixa superior estão 25%dos dados, há outros 25% nacaixa inferior, outros 25%acima do Qs e outros 25%abaixo do Qi: se houvesse100 dados 25 estariam nacaixa superior, 25 nainferior, 25 abaixo do Qi e25 acima do s.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
45/143
44
Se as duas caixas tiverem “alturas” semelhantes (Qs - Md ≅ Md - Qi) a
distribuição é dita simétrica (ver seção 2.4). Quanto maiores as “alturas” das caixas
[maiores (Qs - Md ) e (Md - Qi)] maior a dispersão do conjunto. O valor “típico” do
conjunto será a Mediana (Md), cujas características foram vistas anteriormente. A
dimensão horizontal das caixas é irrelevante.
A seguir o roteiro para construção do Diagrama em Caixas.
Passos:
Ordenar os dados.
Calcular Mediana, Quartil Inferior e Quartil Superior.
Identificar Extremos.
Construir os retângulos (Qs - Md, Md - Qi).
A partir dos retângulos, para cima e para baixo, seguem linhas até o último
valor não discrepante.
Marcar as observações discrepantes.
Exemplo 2.22 - Foram medidas as alturas de 35 homens adultos, cujos resultados
estão abaixo.
Sejam as alturas de homens adultos a seguir.
181 174 145 150 168 173 163 184 178 165 173 165 166 205 167 168 169 170174 170 172 198 177 173 179 180 169 181 169 183 142 183 163 204 165
Construa o diagrama em caixas para as alturas, avaliando valor típico, assimetria,
dispersão e valores discrepantes.
1)Ordenar os dados crescentemente:
142 145 150 163 163 165 165 165 166 167 168 168 169 169 169 170 170 172 173
173 173 174 174 177 178 179 180 181 181 183 183 184 198 204 205
2) Calcular Mediana, Quartil Inferior e Quartil Superior
Há 35 medidas: n = 35
Posição da mediana = (n + 1) /2 = 36 / 2 = 18 a => valor que está na 18a posição
Md = 172
-
8/20/2019 Curso de Qualificação Profissional - Econometria
46/143
45
Posição do quartil inferior = (n + 1) / 4 = 36 /4 = 9a => valor que está na 9a posição
Qi = 166
Posição do quartil superior = 3 x (n + 1) / 4 = 3×36 /4 = 275a => valor que está na
27a posição Qs = 180
3) Identificar extremos
O maior valor do conjunto (extremo superior) Es = 205
O menor valor do conjunto (extremo inferior) Ei = 142
4) “Retângulos”
Qs - Md = 180 - 172 = 8 (os valores são aproximadamente iguais:
distribuição
Md - Qi = 172 - 166 = 6 pode ser considerada simétrica)
5) Identificação dos valores discrepantes
Qs - Qi = 180 - 166 = 14 1,5 x (Qs - Qi) = 1,5 × 14 = 21
Qi - 1,5 x (Qs - Qi) = 166 - 21 = 145
Valores menores do que 145 cm de altura serão discrepantes: só há um valor abaixo
de 145 (142), então há apenas um valor discrepante inferior. Assim a linha vertical
inferior irá até o último valor não discrepante, que vale 145 cm.
Qs + 1,5 x (Qs - Qi) = 180 + 21 = 201
Valores maiores do que 201 cm de altura serão discrepantes: há dois valores acima
de 201 (204 e 205), então há dois valores discrepantes superiores. A linha vertical
superior irá até o último valor não discrepante, no caso 198.
Todos os passos anteriores são feitos internamente pelo computador quando se usa
um programa estatístico para construir um Diagrama em Caixas, resultando nográfico a seguir2:
2 O Diagrama em Caixas foi feito utilizando o pacote Statistica. Algumas medidas podem ter resultadosligeiramente diferentes dos cálculos manuais devido aos arredondamentos.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
47/143
46
Box Plot das Alturas
130
140
150
160
170
180
190
200
210
ALTURA
Figura 9.20 - Diagrama em caixas
O valor típico do conjunto é a mediana que vale 172 cm. Esse valor pode ser
alto ou não, dependendo do objetivo (para selecionar jogadores de vôlei e basquete
pode ser baixo, para jóqueis pode ser alto), exigindo conhecimentos mais
aprofundados para ser interpretado.
As duas caixas têm “alturas” semelhantes, indicando simetria ou "leve
assimetria". Quanto à dispersão não há muito o que se comentar pois não há um
padrão para comparação.
Há apenas um valor discrepante inferior, e dois superiores. Estes valores
talvez merecessem um estudo individual: primeiramente verificar se não houve erro
de medição, se constatada a correção da medida identificar os indivíduos, estudar
seu histórico médico, etc.)3.
Como TODA ferramenta estatística o Diagrama em Caixas de nada vale se o
usuário não tiver conhecimentos específicos sobre a variável retratada para
interpretar os resultados.
3 Para que o estudo de pontos individuais seja possível é importante que sejam registrados onde, quando e emque condições as observações foram feitas.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
48/143
47
2.5.1 - Diagrama em Caixas Múltiplo
É bastante comum querer comparar vários conjuntos de dados, para avaliar
seus valores típicos, dispersão, assimetria, e valores discrepantes. Por exemplo, no
caso do Exemplo 2.22 poderíamos ter interesse em comparar vários conjuntos de
alturas, provenientes de diferentes grupos. Para tanto precisamos construir um
diagrama múltiplo, em que todos tenham a mesma escala, para possibilitar a
comparação (diversos programas estatísticos permitem fazer isso).
Exemplo 2.23 - O diagrama em caixas múltiplo abaixo apresenta as notas finais de
estudantes de disciplinas de Estatística em três cursos diferentes da UFSC, em
1997. Faça a análise dos diagramas: valor típico, dispersão, assimetria, valores
discrepantes. Algum dos cursos destaca-se?
-1.2
0.0
1.2
2.4
3.6
4.8
6.0
7.2
8.4
9.6
Box-plot das notas
TURMAS
N O T A S
Ciências Biológicas Engenharia Mecânica Engenharia de Produção
Figura 2.21 - Diagrama em caixas múltiplo de notas por curso
Quanto aos valores típicos (medianas) os três cursos são bem semelhantes: 6,5, 6,5
e 6,75.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
49/143
48
Quanto à assimetria, apenas o conjunto da Engenharia de Produção apresenta
simetria (as alturas das caixas são semelhantes), enquanto os outros dois são
assimétricos.
Quanto à dispersão, parece ser maior na Engenharia Mecânica, pois suas caixas
são maiores (Quartis mais distantes da Mediana).
Há valores discrepantes nos três conjuntos, mas apenas inferiores, 2 em Ciências
Biológicas, 4 em Engenharia Mecânica e 3 em Engenharia de Produção.
O curso de Engenharia Mecânica destaca-se ligeiramente, por apresentar
Quartil Superior e Extremo Superior acima dos demais, mas não é uma grande
diferença, e trata-se do curso com maior dispersão nas notas.
Exemplo 2.24 - A ONU realizou uma pesquisa registrando os crescimentos
demográficos e médias de calorias diárias ingeridas em vários países. Os países
foram agrupados em seis regiões: OECD (EUA, Canadá, Austrália, Nova Zelândia e
Europa Ocidental), África, América Latina, Oriente Médio, Europa Oriental, e
Pacífico/Ásia. Os diagramas em caixa das variáveis estão abaixo. Faça a análise
dos dois diagramas no que tange aos valores típicos, assimetria, dispersão e valores
discrepantes. Qual é a sua opinião sobre a qualidade de vida nestas seis regiões?
Figura 2.2210 - Diagramas em caixa múltiplos: crescimento demográfico e média
diária de calorias ingeridas
-
8/20/2019 Curso de Qualificação Profissional - Econometria
50/143
49
Crescimento demográfico
Valores típicos: Oriente Médio e África têm os maiores valores típicos, medianas de
cerca de 3,0% ao ano. E os menores estão na Europa Oriental e OECD, próximos
de zero.
Assimetria: os conjuntos de África e Europa Oriental poderiam ser considerados
simétricos, América Latina, OECD e Pacífico/Ásia ligeiramente assimétricos, e o
Oriente Médio é assimétrico.
Dispersão: o conjunto com maior dispersão é o Oriente Médio, e os menos dispersos
são a Europa Oriental e OECD (demonstrando uma certa homogeneidade
demográfica nestas duas regiões).
Valores discrepantes: África e América Latina têm discrepantes inferiores, OECD
tem um superior, e as demais regiões não apresentam valores discrepantes.
Média de calorias
Valores típicos: Europa Oriental e OECD têm os maiores valores, na faixa de 3500
calorias diárias, enquanto que a África têm o menor valor, por volta de 2200.
Assimetria: todos os conjuntos são assimétricos, mas Oriente Médio, Pacífico/Ásia e
Europa Oriental (onde Qs = Md) são mais do que os outros, a África tem a menor
assimetria.
Dispersão: Europa Oriental apresenta a menor dispersão ("caixas" menores),
enquanto Pacífico/Ásia apresenta a maior.
É interessante observar o contraste entre os dois diagramas: a África tem um dos
maiores valores típicos de crescimento demográfico, e o menor valor típico de
calorias ingeridas (indicando um cenário de miséria e fome), enquanto a Europa
Oriental e a OECD têm uma situação inversa (o que indica condições sócio-
econômicas mais favoráveis). Impressiona também a alta taxa de crescimento
demográfico no Oriente Médio.
-
8/20/2019 Curso de Qualificação Profissional - Econometria
51/143
50
3 - ANÁLISE BIDIMENSIONAL
É comum haver interesse em saber se duas variáveis quaisquer estão
relacionadas, e o quanto estão relacionadas, seja na vida prática, seja em trabalhos
de pesquisa, por exemplo:
- se o sexo dos funcionários de uma empresa está relacionado com a função
exercida;
- o quanto o a temperatura ambiente em uma região influencia as vendas de
refrigerante;
- se o nível de escolaridade de um grupo de empreendedores está relacionado com
o grau de sucesso por eles alcançado.
Muitas vezes queremos verificar se há uma relação de causa e efeito entre as
duas variáveis (se as variáveis são dependentes ou não), se é possível estudar uma
das variáveis através da outra (que é mais fácil de medir)- prever os valores de uma
através dos valores da outra, ou calcular uma medida de correlação ou de
dependência entre as variáveis.
A Análise Bidimensional4 propõe-se a tentar responder as perguntas do
parágrafo anterior. As duas variáveis abordadas podem ser qualitativas ou
quantitativas, e para cada tipo haverá técnicas apropriadas.
Para variáveis qualitativas vamos estudar: tabelas de contingência, estatística
Qui-Quadrado e o Coeficiente de Contingência Modificado5. Para variáveis
quantitativas vamos abordar: diagramas de dispersão, análise de corre