curso de qualificação profissional - econometria

Upload: luis-gustavo-grigoletto

Post on 07-Aug-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    1/143

     

    ALUNO (A): -------------------------------------------------------------------------------------

    PROFESSOR (A): ----------------------------------------------------------------------------

    CURSO DE QUALIFICAÇÃOPROFISSIONAL

    ECONOMETRIA

    GOVERNO DO ESTADO DOGOVERNO DO ESTADO DOGOVERNO DO ESTADO DOGOVERNO DO ESTADO DO

    AMAZONASAMAZONASAMAZONASAMAZONAS

    CETAMCentro de Educação Tecnológica do

    Amazonas

    SEPLANSecretaria de Estado de Planejamento e

    Desenvolvimento Econômico

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    2/143

     

    APOSTILA DE ECONOMETRIA

    PROF. Geraldo Lopes de Souza Júnior

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    3/143

    2

    ÍNDICE

    1 - INTRODUÇÃO A ESTATÍSTICA ................................................................................................................ 3 

    1.1 - UM POUCO DE HISTÓRIA................................................................................................................... 3 

    1.2 - O QUE É ESTATÍSTICA?....................................................................................................................... 4 

    1.3 - POR QUE ESTUDAR ESTATÍSTICA? ................................................................................................... 4 

    1.4 - QUANDO E COMO SE DEVE USAR A ESTATÍSTICA? ....................................................................... 5 

    1.5 - SOFTWARES ESTATÍSTICOS................................................................................................................ 6  

    1.6 - ALGUNS CONCEITOS FUNDAMENTAIS ............................................................................................ 7  

    2 - ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOS ESTATÍSTICOS ................................ 8 2.1 - TIPOS DE DADOS ................................................................................................................................. 8  

    2.2 - DISTRIBUIÇÕES DE FREQÜÊNCIA .................................................................................................... 9 

    2.3 - MEDIDAS ............................................................................................................................................. 22 

    2.4 - ASSIMETRIA DAS DISTRIBUIÇÕES................................................................................................... 38  

    2.5 - DIAGRAMA EM CAIXAS...................................................................................................................... 43 

    3 - ANÁLISE BIDIMENSIONAL...................................................................................................................... 50 3.1 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUALITATIVAS .......................................................... 51 

    3.2 - ANÁLISE BIDIMENSIONAL DE VARIÁVEIS QUANTITATIVAS..................... ............ .............. ......... 56  

    4 - ANÁLISE DE SÉRIES TEMPORAIS ......................................................................................................... 81 4.1 - MODELO CLÁSSICO DAS SÉRIES TEMPORAIS.............. .............. ............. .............. ............ ............ 83 

    4.2 - OBTENÇÃO DA TENDÊNCIA ............................................................................................................. 86  

    4.3 - OBTENÇÃO DAS VARIAÇÕES SAZONAIS......................................................................................... 95 

    4.4 - OBTENÇÃO DE VARIAÇÕES CÍCLICAS E IRREGULARES ............................................................. 99 

    4.5 - RECOMPOSIÇÃO .............................................................................................................................. 104 

    5 - NÚMEROS ÍNDICES.................................................................................................................................. 112 

    5.1 - NÚMEROS ÍNDICES SIMPLES ......................................................................................................... 112 

    5.2 - NÚMEROS ÍNDICES COMPOSTOS....... ............. .............. ............ .............. ............. .............. ........... 115 

    5.3 - MUDANÇA DE BASE DE UM NÚMERO ÍNDICE..... .............. ............ ............. .............. ............. ..... 119 

    5.5 - ÍNDICES BRASILEIROS E INTERNACIONAIS............. ............ .............. ............. ............ .............. ... 122 

    REFERÊNCIAS ................................................................................................................................................ 141 

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    4/143

    3

    1 - INTRODUÇÃO A ESTATÍSTICA

    Geralmente, quando começamos a lecionar um curso de estatística direcionado

    para não estatísticos, somos indagados por questões muito pertinentes. Como

    exemplo podemos citar:

    O que é estatística?

    Por que estudar estatística?

    O que a estatística tem haver com a formação profissional que estou

    almejando?

    Quando se deve usar a estatística?

    Como se deve usar a estatística?

    Na pretensão de responder essas e muitas outras perguntas, produzimos este

    material buscando uma linguagem acessível e atraente.

    1.1 - UM POUCO DE HISTÓRIA

    Em uma pesquisa feita por um grande matemático e estatístico de nossos dias,Gauss Cordeiro, encontramos indícios estatísticos desde muito tempo antes de

    Cristo. Por exemplo, em 5000 a.C. já existiam registros egípcios de presos de

    guerra, em 3000 a.C. os jogos de dados, em 2000 a.C. temos o Censo Chinês, em

    1500 a.C. dados de mortos em guerras no Velho Testamento, em 1100 a.C. já

    existiam registros de dados em livros da Dinastia Chinesa, em 400 a.C. é possível

    encontrarmos uma descrição detalhada de coleta de dados em livros de

    Constantinopla e em aproximadamente 100 a.C. Horácio usa um ábaco de fichas

    como instrumento de “cálculo portátil”.

    Para alguém já familiarizado com o curso de Administração Pública, esses

    dados podem ser vistos como indícios de relatórios gerenciais primitivos e não

    estatística propriamente dita. O leitor que afirma isso está parcialmente correto. Aqui

    ficam nítidas as raízes comuns entre a estatística e a administração.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    5/143

    4

    Contudo, as intersecções não se dão apenas antes de Cristo. Muito pelo

    contrário, após Cristo os pontos em comuns se dão de forma mais consistentes e

    constantes. Temos em 400 d.C. o desenvolvimento da teoria dos números, em 695

    d.C. a utilização da média ponderada pelos árabes na contagem de moedas, em

    1303 d.C. a origem dos números combinatórios (Shihchieh Chu), em 1707 d.C.

    Números Índices (Fleetwood), em 1710 d.C. a primeira publicação de um Teste de

    Significância (John Arbuthnot), em 1892 d.C. determinação do Coeficiente de

    Correlação (Edgeworth) e em 1915 d.C. a fórmula do Lote Econômico (Harris).

    1.2 - O QUE É ESTATÍSTICA?

    A fim de conceituar a estatística, podemos dizer que ela é uma reunião demétodos quantitativos que serve para estudar e medir os fenômenos acerca de uma

    população. Ou, um ramo da matemática que trata da coleta, da análise, da

    interpretação e da apresentação de massas de dados numéricos.

    Etimologicamente, criada por Schmeitzel (1785) a partir do latim status  

    (estado), statisticum .

    Sendo usada originalmente na Idade Antiga para levantamentos de dados nointuito de auxiliar o estado na tomada de decisões.

    1.3 - POR QUE ESTUDAR ESTATÍSTICA?

    Queremos chamar a atenção do estudante para dois objetivos relevantes. O

    primeiro, mais geral, é fazer com que o estudante possa distinguir entre problemas

    onde a estatística pode ser aplicada e problemas onde ela não se aplica. O segundo

    é que inclui a capacidade de reconhecer qual técnica se aplica à determinada

    situação e de utilizá-la da melhor forma possível na resolução do problema.

    Agora, responder a pergunta “Por que estudar estatística?” é uma tarefa para o

    leitor. Esta pergunta deve ser feita não só para a disciplina de estatística, mas para

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    6/143

    5

    todas as outras disciplinas. Desta forma será possível fazer um link entre as

    disciplinas estudadas em Ciências Contábeis e perceber a relevância da estatística

    para o curso. Contudo, podemos evidenciar o seguinte:

    O detentor de conhecimentos estatísticos pode ter uma visão mais crítica

    das informações expostas pela imprensa e das experiências do cotidiano

    que oferecem inúmeras interpretações;

    O raciocínio estatístico está amplamente difundido e é muito utilizado na

    administração pública e privada. Assim, é possível que, no futuro, um

    empregador venha a contratar ou promover um profissional por causa de

    seus conhecimentos estatísticos;

    Os administradores precisam do conhecimento da estatística para tomar

    algumas de suas decisões e para evitar serem ludibriados por certos

    resultados errôneos ou viciados;

    Muitos periódicos e revistas de administração pública e áreas afins trazem

    referências freqüentes a estudos estatísticos;

    Esperamos que estas razões possam dar uma idéia do que o estudante de

    Administração Pública pode esperar do seu estudo de estatística.

    1.4 - QUANDO E COMO SE DEVE USAR A ESTATÍSTICA?

    Hoje, é muito comum ouvir algo do tipo: “As estatísticas mostram um

    crescimento econômico no último semestre”, “Segundo as estatísticas do ministério

    da agricultura, o cultivo de macaxeira e açaí é o responsável pelo decrescimento em

    dois pontos percentuais do desemprego no interior do Amazonas”, “O índice

    pluviométrico do rio Negro vem subindo a uma taxa de oito centímetros por dia”, “A

    taxa de criminalidade juvenil diminuiu em 60% no último ano de governo de EduardoBraga”, “Houve um aumento de 120% na procura por educação nos ensinos

    fundamental e médio, afirma a SEMED”. Esses tipos de frases do nosso cotidiano

    são resultados de uma parte da estatística que utiliza números para descrever fatos,

    chamada apropriadamente de Estatística Descritiva . Podemos afirmar que a

    estatística descritiva é responsável pela organização, resumo, simplificação,

    interpretação e apresentação de informações um pouco mais complexas.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    7/143

    6

    Outra parte da estatística, muito interessante, está relacionada com a teoria de

    probabilidade . Usamos a probabilidade para resolver questões que envolvem o

    acaso. Introdutoriamente podemos citar jogos de azar, resultados de partidas de

    futebol e resultados de lançamentos de moedas. Mais especificadamente, a

    aceitação de determinada abordagem em uma população em estudo, a decisão de

    investir na compra de determinadas ações, a decisão de contratar funcionários para

    empresa, todas utilizam a probabilidade consciente ou inconscientemente.

    A probabilidade nos dá “indicativos”, não certezas. Em uma de minhas leituras

    encontrei um caso curioso. Um aluno pergunta ao professor: “Se a probabilidade é a

    ‘ciência do acaso’, como faço para ganhar na loteria?”, assim o professor, como

    tantos outros conhecedores de estatística respondeu: “Se eu soubesse, não estaria

    aqui dando aulas!”.

    Por fim, temos um terceiro ramo da estatística que está interessado na análise

    e interpretação de dados amostrais: a inferência . Basicamente a amostragem aborda

    uma fração, o mais fidedigna possível, de determinada população e utiliza as

    informações extraídas deste pequeno grupo para fazer inferência sobre a população

    toda. A amostragem está presente no nosso dia a dia e podemos percebê-la através

    de certos procedimentos. Como exemplos, temos: assistir por alguns instantes

    determinado programa da TV para avaliar se vale a pena continuar assistindo; comer

    um pedacinho do bolo para ver se o bolo está bom; consultar apenas alguns alunos

    da classe para determinar o que a maioria pensa a respeito de determinado assunto.

    Deve ficar claro ao estudante de estatística que essas três áreas não são

    separadas ou distintas. Muito pelo contrário, elas tendem a se correlacionar.

    Descrever e resumir dados corresponde à primeira fase de uma análise estatística. É

    preciso ressaltar que os fundamentos de amostragem se baseiam na teoria de

    probabilidade.

    1.5 - SOFTWARES ESTATÍSTICOS

    É comum ouvir dos alunos frases do tipo “Estatística não. Não gosto de fazer

    cálculos!”. Hoje um curso de estatística para Administração Pública exige

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    8/143

    7

    inicialmente do aluno um conhecimento básico de matemática (nada sofisticado) e

    certa familiaridade com o Windows ou Linux, editores de texto e planilhas.

    Os pacotes estatísticos mais usuais como o Minitab, SPSS e R, importam

    dados do Excel e/ou bloco de notas do Windows. Com eles é possível ter análises

    estatísticas (resumos, gráficos e tabelas) em curto espaço de tempo dando um ou

    dois “cliques”. Chamaremos a atenção para um pacote estatístico em particular, o

    Scientific Annalsys Ststistical - SAS. O SAS talvez seja, hoje, o pacote mais

    completo e eficiente disponível no mercado.

    1.6 - ALGUNS CONCEITOS FUNDAMENTAIS

    Aqui deve começar de fato a familiarização com a linguagem estatística. Os

    conceitos ora apresentados são de grande importância para o curso e serão

    constantemente usados no decorrer do curso de estatística.

    População: coleção de elementos (pessoas, objetos, animais, itens) que

    são inerentes ao estudo de um fenômeno coletivo possuindo alguma

    característica em comum;

    Amostra: fração ou subconjunto da população;Parâmetro: característica numérica estabelecida para toda a população;

    Estimador: característica numérica estabelecida para uma amostra;

    Variável: característica não numérica de uma população ou amostra;

    Censo: é uma avaliação direta de um parâmetro, utilizando todos os

    componentes da população;

    Estimação: é uma avaliação indireta de um parâmetro, como base em um

    estimador;

    Dados brutos: é uma seqüência de valores numéricos não organizados,obtidos diretamente da observação de um fenômeno coletivo;

    Rol: é uma seqüência ordenada, de forma crescente ou decrescente, dos

    dados brutos.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    9/143

    8

    2 - ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOSESTATÍSTICOS

    2.1 - TIPOS DE DADOS

    Podemos classificar as variáveis e os dados em estudo basicamente em dois

    grupos: Quantitativos  (discretos ou contínuos) e Qualitativos (nominais ou ordinais).

    2.1.1 - Dados quantitativos

    Os dados quantitativos envolvem variáveis que são inerentemente numéricas.Esse tipo de variável pode ser dividido em variáveis quantitativas discretas   ou

    variáveis quantitativas continuas . Uma variável quantitativa discreta só pode assumir

    determinados valores, em geral inteiros. Os dados discretos originam-se da

    contagem de itens ou elementos com determinada característica. Como exemplos: o

    número de ações de uma empresa; o número de alunos numa sala de aula; a

    quantidade de acidentes numa fábrica; etc. As variáveis que podem assumir

    virtualmente qualquer valor num intervalo de valores são chamadas contínuas .

    Características como idade, altura, peso, renda, tempo necessário pra realizar

    determinada tarefa, enquadram-se nesta categoria. Os dados referentes a essas

    características e similares dizem-se contínuos, embora na prática os instrumentos de

    mensuração tenham limitações físicas que lhes restringem o grau de precisão.

    2.1.2 - Dados qualitativos

    Os dados qualitativos envolvem variáveis que não são inerentemente

    numéricas, contudo as variáveis qualitativas devem ser convertidas em valores

    numéricos antes de serem processadas estatisticamente. Esse tipo de variável pode

    ser dividido em variáveis qualitativas nominais  ou variáveis qualitativas ordinais . As

    variáveis qualitativas nominais envolvem categorias tais como sexo (masculino ou

    feminino), curso de estudo (Ciências Contábeis, Serviço Social, Administração,

    Filosofia, Pedagogia), desempenho (excelente, bom, regular, ruim), etc. Os dados

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    10/143

    9

    nominais surgem quando se definem categorias ou classes e se conta o número de

    observações pertencentes a cada categoria. Os dados ordinais consistem de valores

    atribuídos para denotar ordem: primeiro, segundo, terceiro, quarto, etc.

    Para cada tipo de variável existem técnicas diferentes para resumir as

    informações. Contudo, poderemos observar que as técnicas usadas num caso

    podem ser usadas para outros.Faz-se necessário evidenciar que em algumas

    situações é possível atribuir valores numéricos às várias qualidades ou atributos de

    uma variável qualitativa e depois analisar os dados como se esses fossem

    quantitativos. Mas isto só poderá ser feito se o procedimento for passível de

    interpretação.Existe um tipo de variável qualitativa para a qual essa quantificação é

    muito útil: a chamada variável dicotômica. Para essa variável só podem ocorrer duas

    realizações, usualmente chamadas sucesso  e fracasso . A variável sexo  é um bom

    exemplo disso.

    Organograma para o tipo de variáveis e dados

    2.2 - DISTRIBUIÇÕES DE FREQÜÊNCIA

    Podemos afirmar que uma distribuição de freqüência é um método de

    agrupamento de dados em classes, possibilitando determinar o número oupercentual de elementos em cada uma destas classes. Assim, quando estamos

    trabalhando com um grande conjunto de dados, poderemos visualizá-lo sem precisar

    levar em conta os números individuais. Uma distribuição de freqüência pode ser

    apresentada sob a forma de uma tabela ou de um gráfico.

    Estudaremos agora como apresentar um resumo dos dados através de tabelas.

    Para fins ilustrativos, faremos uso das informações dispostas no Quadro 2.1.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    11/143

    10

    Quadro 2.1: Informações sobre sexo, idade (medida em anos), altura (medida emmetros), peso (medido em quilogramas), estado civil, renda (medida em reais), zonada cidade em que mora, naturalidade (somente o estado de nascimento), time quetorce e pretensão salarial ao se formar (medida em reais) de 45 alunos do curso deeconometria do CETAM, Manaus – 09/2010.

    GêneroIdade(anos)

    Altura(m)

    Peso(kg)

    Estadocivil

    Rendaindividual

    (R$)

    Zonaresidencial

    Naturalidade(estado)

    TimePret. Sal.

    ao se

    formar

    TipoSanguíneo

    F 33 1,54 51 solt 1.000,00 oeste amazonas Brasil 5.000,00 O +M 21 1,70 56 solt 800,00 centro-oeste piaui Corinthias 13.500,00 O +F 19 1,62 48 solt leste pará Flamengo 5.000,00 A +M 27 1,73 74 solt 1.200,00 oeste amazonas São paulo 4.500,00 A -M 25 1,75 72 solt 880,00 centro-oeste amazonas Vasco 5.000,00 O +M 19 1,73 70 solt 600,00 oeste amazonas Grêmio 3.000,00 AF 19 1,60 51 solt 800,00 centro-oeste amazonas - 50.000,00 -M 20 1,88 87 solt 800,00 centro-oeste amazonas Corinthias 3.000,00 O +M 32 1,73 64 solt 1.200,00 leste amazonas - 5.000,00 O +M 25 1,65 61 solt 350,00 sul amazonas Flamengo 5.000,00 A +F 36 1,65 76 solt 1.800,00 sul amazonas - 5.000,00 A +F 32 1,70 90 cas 1.100,00 - amazonas Corinthias 3.500,00 O +F 22 1,65 58 solt oeste amazonas Flamengo 4.000,00 O +M 21 1,73 75 solt 600,00 centro-oeste amazonas Flamengo 7.000,00 A +F 24 1,60 53 cas 1.100,00 oeste amazonas Flamengo 5.000,00 O +F 19 1,60 60 solt 400,00 centro-oeste amazonas Palmeiras 1.500,00 O +F 34 1,63 50 solt 490,00 oeste amazonas Nenhum 25.000,00 -F 54 1,68 75 solt 940,00 sul amazonas Nenhum 15.000,00 A +M 38 1,72 99,8 cas 1.200,00 centro-oeste amazonas Vasco 2.000,00 O +F 22 1,55 58 solt 700,00 norte amazonas Vasco 3.000,00 A+F 24 1,54 46 solt 800,00 oeste amazonas Palmeiras 3.500,00 A +M 33 1,75 75 cas 500,00 oeste amazonas Fluminense 2.500,00 O +F 31 1,60 57 solt 1.200,00 oeste amazonas Vasco 4.000,00 A -F 20 1,47 42 solt 420,00 centro-sul amazonas Vasco 10.000,00 O +M 43 1,62 64 cas 1.500,00 oeste amazonas Vasco 6.000,00 AB +F 26 1,62 60 cas 300,00 oeste amazonas Nenhum 2.000,00 O +

    F 54 1,30 54 divorc. 3.200,00 norte amazonas Flamengo 2.400,00 A +F 44 1,57 68 divorc. 2.000,00 centro-oeste paraíba Flamengo 5.000,00 A +F 45 1,68 73 cas 1.200,00 sul amazonas Flamengo 1.800,00 B +F 37 1,51 56 cas 1.000,00 centro-oeste amazonas Palmeiras 4.000,00 A +F 31 1,58 56 cas 700,00 leste amazonas Nenhum - A +F 21 1,60 58 solt 600,00 oeste amazonas Palmeiras 20.000,00 A +M 43 1,70 66 cas 3.000,00 oeste amazonas Vasco 8.000,00 O +M 21 1,83 74 solt 350,00 sul amazonas Vasco 4.000,00 -F 18 1,55 55 solt 450,00 oeste amazonas Nenhum 2.000,00 O +M 25 1,82 71 solt 650,00 norte goias Corinthias 3.500,00 O +M 36 1,73 100 cas 1.800,00 - amazonas Flamengo - O +F 34 1,60 47 solt 1.500,00 norte amazonas Vasco 3.000,00 A+F 57 1,56 95 cas 3.500,00 - amazonas Brasil 25.000,00 A +

    F 40 1,51 50 solt 2.900,00 oeste amazonas São paulo 6.000,00 O +F 19 1,62 62 solt 360,00 sul amazonas Flamengo 6.000,00 O +F 36 1,55 50 cas 1.500,00 oeste amazonas Flamengo 7.000,00 O +F 34 1,58 60 cas 636,00 leste roraima Brasil 20.000,00 O +F 25 1,58 52 solt 660,00 norte amazonas Flamengo 2.500,00 B +F 23 1,60 53 solt 600,00 oeste amazonas Flamengo 8.000,00 A +

    FONTE: PESQUISA DE CAMPO

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    12/143

    11

    2.2.1 - Elaboração de tabelas

    Alguns rigores são exigidos na construção de tabelas:

    É necessário saber previamente com que tipo de variável se deseja

    trabalhar (quantitativa ou qualitativa);

    É necessário definir quantas e quais classes deverão ser utilizadas

    de acordo com um objetivo pré-determinado;

    Se a variável for quantitativa, é necessário determinar a amplitude

    das classes (quando for conveniente);

    Toda tabela deve ter significado próprio, dispensando consultas ao

    texto;

    Toda tabela deve apresentar um título;Toda tabela deve informar a fonte dos dados e o texto que contem tal

    informação deve ser apresentado em tamanho inferior aos demais textos

    da tabela e deve estar em caixa alta;

    Nunca se fecha uma tabela nas laterais, esse procedimento objetiva

    permitir a entrada ou retiradas de informações;

    A tabela deve ser colocada em posição vertical, para facilitar a leitura

    dos dados. No caso em que isso seja impossível, deve ser colocada em

    posição horizontal, com o título voltado para a margem esquerda da folha;Se a tabela ou quadro não couber em uma página, deve ser

    continuado na página seguinte. Neste caso o final não será delimitado por

    traço horizontal na parte inferior e o cabeçalho será repetido na página

    seguinte;

    Não devem ser apresentadas tabelas nas quais a maior parte das

    classes indiquem inexistência do fenômeno.

    Para exemplificarmos, tomaremos as variáveis sexo   (qualitativa nominal) eidade   (quantitativa contínua). Assim poderemos resumir o conjunto de informações

    acerca dessas variáveis disposto no Quadro 2.1 em tabelas que nos darão idéia do

    todo.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    13/143

    12

    Tabela 2.1: Freqüências e porcentagens dos 45 alunos do curso de econometria do

    CETAM segundo o sexo – setembro de 2010.

    Sexo Freqüência simples Freqüência relativa (%)

    Masculino 15 33,33

    Feminino 30 66,67Total 45 100,0

    FONTE: DADOS HIPOTÉTICOS.

    Tabela 2.2: Freqüências e porcentagens dos 45 alunos do curso de econometria do

    CETAM segundo a idade – setembro de 2010.

    IdadeFreqüência

    simples

    Freqüência

    relativa (%)

    Freqüência

    acumulada

    Freqüência

    acumulada relativa

    (%)18├─  24 15 33,33 15 33,33

    24├─  30 08 17,78 23 51,11

    30├─  40 14 31,11 37 82,22

    40├─  50 05 11,11 42 93,33

    50├─  60 03 06,67 45 100,0

    Total 45 100,0

    FONTE: DADOS HIPOTÉTICOS.

    Quando estudamos a variável sexo só temos duas alternativas possíveis. Cada

    indivíduo da população em estudo ou é do sexo masculino ou é do sexo feminino.

    Podemos considerar cada uma dessas possibilidades como uma categoria, ou

    ainda, uma classe. Sendo assim, a Tabela 2.1 se apresenta com duas classes:

    masculino e feminino. Observamos que 30 alunos do total de 45 são do sexo

    feminino e que este grupo representa 66,67% do total. Encontramos o número 30

    como freqüência simples da segunda classe contando o número de pessoas que

    afirmaram ser do sexo feminino. O valor 66,67% é obtido quando dividimos a

    quantidade de pessoas do sexo feminino pelo total de pessoas e em seguida

    multiplicando esse resultado por cem. Assim, podemos concluir que o percentual

    atribuído a cada classe é dado pela freqüência relativa vezes cem. A equação da

    freqüência relativa é dada por:

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    14/143

    13

    Para as variáveis quantitativas podemos proceder de duas formas. A primeira é

    repetir o processo usado na construção da tabela 2.1, ou seja, identificar todas as

    classes (alternativas possíveis) e verificar a freqüência associada a cada uma

    dessas classes. Esse processo pode ser inviável se a variável em estudo possuir um

    número muito grande de possibilidades de respostas e/ou a população em estudo

    for muito numerosa. Para solucionar este problema apresentamos um outro

    procedimento. Reuni-se em uma única classe várias possibilidades de respostas. Se

    a variável em estudo é a idade, então podemos reunir em uma única classe todas as

    idades no intervalo de 18 a 24 anos, por exemplo.

    A tabela 2.2 apresenta a variável idade dividida em cinco classes. A primeira

    classe tem como limite inferior  o número 18 e como limite superior  o número 24. O

    sinal apresentado entre esses números nos da idéia do tipo de intervalo usado.

    Neste caso, dizemos que o intervalo da primeira classe é fechado em 18 e aberto

    em 24, ou seja, a primeira classe envolve todas as idades iguais ou maiores que 18

    anos e menores que 24. Note que não entrará nesta classe uma observação igual a

    24. Lê-se a classe 18├─   24 da seguinte forma: de 18 anos inclusive até 24 anos

    exclusive. É possível termos classes dos tipos 18 ─┤24 (de 18 anos exclusive até 24anos inclusive) ou 18├─┤24 (de 18 anos inclusive até 24 anos inclusive).

    A diferença entre o maior valor observado e o menor valor observado é

    chamado de amplitude total, geralmente representado por At. A diferença entre o

    limite superior e o limite inferior de cada classe recebe o nome de amplitude de

    classe, geralmente representado por h . É possível encontrar na literatura autores

    que definam equações para determinar o número de classes e a amplitude que cada

    classe deve ter. Por exemplo, para determinar o número K de classes: ou K= 1 + 3,33 log n   . Em que o n   é o número total de observações. Feito isso será

    possível determinar a amplitude da classe através da equação:

    É necessário atentar para o fato de que quando temos muitas observações

    esses caminhos se tornam inviáveis por determinarem um número muito grande de

    classes. Observe ainda que procedendo desta maneira todas as classes terão a

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    15/143

    14

    mesma amplitude, o que pode contrariar o objetivo do estudo. Por exemplo, se o

    interesse é verificar a quantidade de crianças, adolescentes, jovens, adultos e

    idosos de uma população composta de 900 pessoas, usando a variável idade, onde

    a menor idade observada é 1 ano e a maior é 81 anos. Usando as equações acima,

    teríamos entre 24 a 30 classes e cada classe possuiria uma amplitude igual a 3 ou 4.

    Isso geraria uma tabela muito carregada e possivelmente não explicitaria o objetivo

    do estudo.

    A melhor maneira de determinar o número de classes e a amplitude de cada

    classe é usar o bom senso. Ainda com o objetivo de verificar a quantidade de

    crianças, adolescentes, jovens, adultos e idosos de uma população, usando a

    variável idade, podemos dividi-la em apenas cinco classes de amplitudes diferente e

    atender de forma bastante satisfatória o objetivo do estudo, por exemplo: 0 ├─  12,

    12 ├─  18, 18 ├─  24, 24 ├─  65, 65 ├─  120.

    Podemos ter como interesse resumir simultaneamente os dados de duas

    variáveis. Neste caso usamos tabelas de dupla entrada  (ou tabelas de contingência ),

    onde deverão aparecer as freqüências simples e/ou as freqüências relativas que

    pertencem simultaneamente a classes de uma e outra variável. Quando

    consideramos duas variáveis podemos ter três situações:

    As duas variáveis são qualitativas;

    As duas variáveis são quantitativas;

    Uma variável é qualitativa e a outra é quantitativa.

    A seguir discutiremos acerca de uma tabela de dupla entrada para uma variável

    quantitativa versus uma variável quantitativa. Para tanto, usaremos as variáveis

    usadas para construir as tabelas 2.1 e 2.2 (sexo e idade).

    Deve ficar claro que um dos principais objetivos de se construir uma

    distribuição conjunta (uma tabela de dupla entrada, por exemplo) de duas variáveis é

    medir o grau de dependência entre elas, de modo que possamos prever o melhor

    resultado de uma delas quando conhecemos a realização da outra.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    16/143

    15

    Construiremos uma tabela de dupla entrada a fim de verificar se existe ou não

    associação entre as variáveis sexo e idade usando as observações dispostas no

    quadro 2.1.

    Tabela 2.3: Distribuição conjunta das variáveis sexo e idade dos alunos do curso de

    econometria do CETAM – setembro de 2010.Sexo

    Idade (anos)Feminino Masculino

    Total

    18├─  24 10 5 1524├─  30 4 4 830├─  40 10 4 1440├─  50 3 2 550├─  60 3 0 3

    Total 30 15 45

    FONTE: DADOS HIPOTÉTICOS.

    Esse tipo de tabela nos trás boas informações. Podemos observar, porexemplo, que existem dez alunos do sexo feminino com idade entre 30 (inclusive) e

    40 anos (exclusive). Observamos ainda que, independente da idade, existem 30

    alunos do sexo feminino e 15 do sexo masculino.

    Perceba que os totais marginais para a variável sexo são iguais às freqüências

    simples dispostas na tabela 2.1 e que os totais marginais para a variável idade são

    iguais às freqüências simples dispostas na tabela 2.2.

    Esta forma de apresentação, através de freqüência simples, pode dificultar o

    entendimento uma vez que não temos uma idéia clara de cada informação em

    relação ao todo. Para tanto poderíamos ter essas informações expressas em termos

    percentuais.

    Tabela 2.4: Distribuição conjunta das proporções das variáveis sexo e idade dosalunos do curso de econometria do CETAM – setembro de 2010.

    SexoIdade (anos) Feminino Masculino Total

    18├─  24 22,22 % 11,11 % 33,33 %24├─  30 08,89 % 08,89 % 17,78 %30├─  40 22,22 % 08,89 % 31,11 %40├─  50 06,67 % 04,44 % 11,11 %50├─  60 06,67 % 00,00 % 06,67 %

    Total 66,67 % 33,33 % 100,00 %

    FONTE: DADOS HIPOTÉTICOS.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    17/143

    16

    Observe que não existem alunos do sexo masculino com idade superior a 50

    anos. Os maiores percentuais (22,22%) são de alunos do sexo feminino com idades

    no intervalo de 18 a 24 anos ou no intervalo de 30 a 40 anos. Veja que,

    independente do sexo, existem 33,33% de alunos com idade entre 18 e 24 anos e

    apenas 6,67% de alunos com idade superior ou igual a 50 anos.

    Perceba que os totais marginais para a variável sexo são iguais às freqüências

    relativas dispostas na tabela 2.1 e que os totais marginais para a variável idade são

    iguais às freqüências relativas dispostas na tabela 2.2.

    Uma outra forma de apresentação de tabelas de dupla entra seria exibir em

    uma única tabela as freqüências relativas e percentuais. Para exemplificar,

    observemos a Tabela 2.5.

    Tabela 2.5: Distribuição conjunta dos valores absolutos e proporcionais das variáveissexo e idade dos alunos do curso de econometria do CETAM - setembro de 2010

    SexoIdade (anos)

    Feminino MasculinoTotal

    10 5 1518├─  2422,22 % 11,11 % 33,33 %

    4 4 824├─  308,89 % 8,89 % 17,78 %

    10 4 1430├─  40 22,22 % 8,89 % 31,11 %3 2 540├─  50 6,67 % 4,44 % 11,11 %3 0 350├─  60 6,67 % 0,0 % 6,67 %30 15 45Total

    66,67 % 33,33 % 100,00 %FONTE: DADOS HIPOTÉTICOS.EM CADA ENTRADA, ENCONTRA-SE A FREQÜÊNCIA SIMPLES SOBRE A FREQÜÊNCIA RELATIVA.

    Assim podemos observar que existem dez alunos do sexo feminino com idade

    entre 30 (inclusive) e 40 anos (exclusive) e que esses dez alunos representam

    22,22% do total. Observamos ainda que, independente da idade, 66,67%, ou 30

    alunos, são do sexo feminino e 33,33%, ou 15 alunos, são do sexo masculino.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    18/143

    17

    2.2.2. Elaboração de gráficos

    Uma outra forma de apresenta um resumo dos dados é através de gráficos. A

    representação gráfica de uma distribuição de uma variável tem a vantagem de,

    rápida e concisamente, informar sobre sua variabilidade. Existem vários gráficos que

    podem ser utilizados e abordaremos aqui os mais simples.

    Para representar variáveis qualitativas existem vários tipos de gráficos que

    obedecem o mesmo principio, logo nos limitaremos a apresentar três deles: gráficos

    de barras, colunas e setores circular (“pizza”).

    O gráfico em colunas consiste em construir tantos retângulos conforme o

    número de classes de seu interesse, em que a altura de cada um desses retângulos

    (classes) está relacionada diretamente com a freqüência (simples ou relativa). Essascolunas estão dispostas paralelamente umas às outras, no sentido vertical. No

    gráfico em barras são construídos tantos retângulos conforme o número de classes

    de seu interesse, em que o comprimento de cada um desses retângulos (classes)

    está relacionado diretamente com a freqüência (simples ou relativa). Essas barras

    estão dispostas paralelamente umas às outras, no sentido horizontal.

    Ao construirmos um gráfico, independente do tipo, devemos atentar para o tipo

    de variável com a qual estamos trabalhando. É necessário verificar se a variável emestudo é continua ou não. Se a variável for contínua, devemos demonstrar isso no

    gráfico, ou seja, as classes (barras, colunas ou setores) deverão ser apresentadas

     justapostas. Se a variável não for contínua as classes deverão ser apresentadas

    separadamente. Uma outra observação a ser feita é que usualmente o titulo da

    figura deve ser apresentado em baixo da figura.

    Apesar de termos as duas convenções supracitadas, é muito comum

    encontrarmos em revistas, periódicos, livros e em outros meios de informação,gráficos fugindo desses padrões. Isso torna esses “erros” comuns, mas não

    aceitáveis.

    Para exemplificar, tomaremos a variável qualitativa estado civil   e a variável

    quantitativa idade . Nas figuras 2.1, 2.2 e 2.3 temos, respectivamente, gráfico em

    colunas, gráfico em setores circular e gráfico em barras para a variável estado civil.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    19/143

    18

    Nas figuras 2.4, 2.5 e 2.6 temos, respectivamente, gráfico em colunas, gráfico em

    setores circular e gráfico em barras para a variável idade. As observações usadas

    para a elaboração desses gráficos foram retiradas do quadro 2.1.

    Figura 2.1: Gráfico em colunas para a variável estado civil dos

    alunos do curso de econometria do CETAM - setembro de

    2010

    Figura 2.2: Gráfico em setores circular para a variável estado

    civil dos alunos do curso de econometria do CETAM -

    setembro de 2010

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    20/143

    19

    Figura 2.3: Gráfico em barras para a variável estado civil dos

    alunos do curso de econometria do CETAM - setembro de2010

    Figura 2.4: Gráfico em colunas para a variável idade dos

    alunos do curso de econometria do CETAM - setembro de

    2010

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    21/143

    20

    Figura 2.5: Gráfico em setores circular para a variável idade

    dos alunos do curso de econometria do CETAM - setembro de2010

    Figura 2.6: Gráfico em barras para a variável idade dos alunos

    do curso de econometria do CETAM - setembro de 2010

    Podemos ter como interesse resumir simultaneamente os dados de duas

    variáveis em um único gráfico. A exemplo das tabelas de dupla entrada (ou tabelas

    de contingência), nos gráficos deverão aparecer as freqüências simples ou as

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    22/143

    21

    freqüências relativas que pertencem simultaneamente a classes de uma e outra

    variável. Para ilustrar, temos as figuras 2.7 e 2.8.

    Figura 2.7: Gráfico em colunas para a distribuição conjunta das

    variáveis sexo e idade dos alunos do curso de econometria do

    CETAM - setembro de 2010

    Figura 2.8: Gráfico em barras para a distribuição conjunta das

    variáveis sexo e idade dos alunos do curso de econometria do

    CETAM - setembro de 2010

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    23/143

    22

    2.3 - MEDIDAS

    Até agora vimos que é possível resumir os dados e apresentá-los em forma de

    tabelas e gráficos. Contudo, quando estamos diante de um banco de dados é

    conveniente tentar resumi-lo através do cálculo de algumas medidas que acaracterizam. Estas medidas, quando bem interpretadas, podem fornecer-nos

    informações muito valiosas com respeito a este conjunto de dados.

    Em suma, podemos reduzi-lo a alguns valores, cuja interpretação fornece-nos

    uma compreensão bastante precisa de todo o conjunto de observações. Alguns

    destes valores são as medidas de tendência central outros são as medidas de

    dispersão.

    2.3.1. Medidas de tendência central

    São valores intermediários do conjunto de dados, ou seja, valores

    compreendidos entre o menor e o maior valor da série. São também valores em

    torno dos quais os elementos do conjunto de dados estão distribuídos. A medida de

    tendência central procura estabelecer um número no eixo horizontal em torno do

    qual a série se concentra.As principais medidas de tendência central são: média, mediana e moda.

    2.3.1.1. Média

    Do ponto de vista teórico, vários tipos de média podem ser calculados para

    uma massa de dados. Ressaltamos que a média aritmética é a mais usada, portanto

    a mais comum. Apresentaremos ainda as médias geométricas e harmônicas.

    Média aritmética simples:

    Para uma seqüência numérica X: x1, x2, x3, ..., xn , a média aritmética simples,

    que designaremos por  X é definida por:

    n

     x X  i∑=  

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    24/143

    23

    Média aritmética ponderada:

    Para uma seqüência numérica X: x1, x2, x3, ..., xn , afetados de pesos p1, p2, p3,

    ..., pn, respectivamente, a média aritmética ponderada, que designaremos por  p X  , é

    definida por:

    ∑∑

    =i

    ii p  p

     p x X   

    Média geométrica simples

    Para uma seqüência numérica X: x1, x2, x3, ..., xn , a média geométrica simples,

    que designaremos por g X  , é definida por:

    nng  x x x x X  ...321=  

    Média geométrica ponderada

    Para uma seqüência numérica X: x1, x2, x3, ..., xn , afetados de pesos p1, p2, p3,

    ..., pn, respectivamente, a média geométrica ponderada, que designaremos por

    gp X  , é definida por:

    ∑= i n p  p

    n p p p

    gp  x x x x X  ...321

    321  

    Média harmônica simples

    Para uma seqüência numérica de elementos não nulos X: x1, x2, x3, ..., xn  , a

    média harmônica simples, que designaremos por h X  , é definida por:

    n

    h

     x x x x

    n X 

    1...

    111

    321

    ++++

    =   ou

    ∑=

    i

    h

     x

    n X 

    Note que a média harmônica é o inverso da média aritmética dos inversos dos

    elementos.

    Média harmônica ponderada

    Para uma seqüência numérica de elementos não nulos X: x1, x2, x3, ..., xn  ,

    afetados de pesos p1, p2, p3, ..., pn, respectivamente, a média harmônica ponderada

    que designaremos por hp X   é definida por:

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    25/143

    24

    n

    n

    ihp

     x

     p

     x

     p

     x

     p

     x

     p

     p X 

    ++++

    =  ∑

    ...3

    3

    2

    2

    1

    1

      ou

    ∑=

    i

    i

    ihp

     x

     p

     p X   

    A média harmônica aplica-se naturalmente quando se quer a obtenção de uma

    média cuja unidade de medida seja o inverso da unidade de medida dos

    componentes da seqüência original.

    A média geométrica só é indicada para representar uma série de valores

    aproximadamente em progressão geométrica.

    Os casos anteriores não são muito freqüentes nas aplicações. Vamos restringir

    o desenvolvimento de médias ao caso de média aritmética, que é a média mais

    utilizada nas aplicações.

    2.3.1.2. Cálculo da Média Aritmética

    Dados brutos ou rol

    Neste caso, devemos utilizar uma média aritmética simples:

    n

     x

     X 

    i∑=  

    Dados tabelados

    Se os dados estão apresentados na forma de uma tabela, utilizaremos a média

    aritmética ponderada, considerando as freqüências simples f i   como sendo as

    ponderações dos elementos x i  correspondentes.

    A equação da média que originalmente era∑∑

    =i

    ii

     p

     p x X  passa a ser escrita

    como:

    ∑∑

    =i

    ii

     f 

     f  x X   

    Obs: Para tabelas de variáveis continuas, o valor de x i   é o ponto médio da

    classe i .

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    26/143

    25

    2.3.1.3. Mediana

    É um valor real que separa o rol em duas partes deixando à sua esquerda o

    mesmo número de elementos que a sua direita. Portanto, a mediana é um valor que

    ocupa a posição central em um conjunto de dados. A mediana será denotada por

    md.

    2.3.1.4. Cálculo da Mediana

    Dados brutos ou rol

    Inicialmente devemos ordenar os elementos caso sejam dados brutos, obtendo

    o Rol. Em seguida determinamos o número n de elementos do Rol. Se n é impar, o

    Rol admite apenas um termo central que ocupa a posição

     

      

        +

    2

    1n

    º. O valor doelemento que ocupa esta posição é a mediana. Se n é par, o rol admite dois termos

    centrais que ocupam as posições  

      

     

    2

    nº e

     

      

     + 1

    2

    nº. A mediana é convencionada

    como sendo a média dos valores que ocupam estas posições centrais.

    Quando lidamos com um conjunto de dados muito grande, a quantidade de

    elementos à esquerda é à direita é aproximadamente 50% do total de

    elementos, o que conduz a seguinte interpretação genérica para a mediana:

    "50% dos valores do conjunto de dados são valores menores ou iguais amediana e 50% dos valores do conjunto de dados são valores maiores ou

    iguais a mediana".

    Dados tabelados - variável discreta

    Se os dados estão apresentados na forma de uma variável discreta, eles já

    estão naturalmente ordenados. Assim, basta verificar se o número de elementos da

    série é ímpar ou par e aplicar o mesmo raciocínio do caso anterior.

    Dados tabelados - variável contínua

    Se a dados são apresentados na forma de uma variável contínua, o raciocínio

    anterior não pode ser utilizado, uma vez que mesmo identificada a posição da

    mediana no conjunto de dados, o valor do elemento da série que ocupa esta

    posição não é identificável. Assim, para determinar a mediana temos a

    equação:

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    27/143

    26

    h f 

    F n

    lmd 

    m

    ant 

    md 

    += 2  

    em que:

    1md  = limite inferior da classe mediana.

    n  = número de elementos do conjunto de dados.F ant  = freqüência acumulada da classe anterior à classe mediana.

    f md  = freqüência simples da classe mediana.

    h  = amplitude do intervalo de classe.

    COMENTÁRIO: Devido às condições impostas na obtenção da fórmula da

    mediana, fica evidente que o valor obtido pela fórmula é um valor aproximado do

    verdadeiro valor da mediana do conjunto de dados.

    De modo geral, todas as medidas calculadas para uma variável contínua serão

    valores aproximados para estas medidas, uma vez que ao agruparmos os dados

    segundo uma variável contínua, há perda de informações quanto à identidade dos

    dados.

    2.3.1.5. Moda

    É o valor de maior freqüência em um conjunto de dados. Notação: A moda será

    denotada por mo.

    2.3.1.6. Cálculo da Moda

    Dados brutos ou rol

    Basta identificar o elemento de maior freqüência. Se a maior freqüência for

    atribuída a um único valor, dizemos que o conjunto de dados é unimodal. Se a maior

    freqüência for atribuída a valores distintos, dizemos que o conjunto de dados ébimodal. Poderemos encontrar seqüências trimodais, tetramodais e assim

    sucessivamente. Estes conjuntos de observações serão chamados de forma

    genérica por seqüências polimodais.

    Se todos os valores do conjunto de dados apresentam a mesma freqüência,

    dizemos que o conjunto de dados é amodal.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    28/143

    27

    Dados tabelados - variável discreta

    Este caso é ainda mais simples. Note que na apresentação da variável discreta,

    as freqüências já estão computadas. Basta identificar o elemento de maior

    freqüência.

    Dados tabelados - variável contínua

    Para determinar a moda de uma variável contínua, podemos optar por vários

    processos. Daremos destaque para a moda de Pearson, de King e de Czuber.

    Moda de Pearson:

    Segundo PEARSON, a moda de uma variável contínua pode ser obtida através

    do valor da média e da mediana:

     X mm d o 23   −=  

    Moda de King

    KING levou em consideração, em sua fórmula, a freqüência simples da classe

    anterior e a freqüência simples da classe posterior à classe modal.

    h f  f 

     f lm

     post ant 

     post mo o +

    +=  

    em que:

    l mo  = limite inferior da classe modalf post  = freqüência simples da classe posterior à classe modal

    f ant  = freqüência simples da classe anterior à classe modal

    h  = amplitude do intervalo de classe

    Moda de CZUBER

    CZUBER levou em consideração, em sua fórmula a freqüência simples da

    classe anterior, a freqüência simples da classe posterior, além da freqüência simples

    da classe modal. É, portanto, uma fórmula mais completa que a fórmula de King.

    h f  f  f 

     f  f lm

     post ant m

    ant m

    mo

    o

    o

    o )(2   +−

    −+=  

    em que:

    l mo  = limite inferior da classe modal

    f mo  = freqüência simples da classe modal.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    29/143

    28

    f post  = freqüência simples da classe posterior à classe modal

    f ant  = freqüência simples da classe anterior à classe modal

    h  = amplitude do intervalo de classe

    COMENTÁRIO: A fórmula de Pearson tem normalmente interesse teórico. Se

    não dispusermos da média e da mediana da distribuição, a fórmula de Pearson é a

    mais trabalhosa. A fórmula de King é a mais simples delas, mas não é a mais

    precisa. A fórmula de Czuber é mais precisa que a fórmula de King, pois leva

    também em consideração a freqüência da classe modal.

    2.3.2. Utilização das Medidas de Tendência Central

    Na maioria das situações, não necessitamos calcular as três medidas de

    tendência central. Normalmente precisamos de apenas uma das medidas paracaracterizar o centro da série. Surge, então, a questão: qual medida deve ser

    utilizada?

    A medida ideal em cada caso é aquela que melhor representa a maioria dos

    dados da série. Quando todos os dados de uma série estatística são iguais, a média,

    a mediana e a moda coincidirão com este valor e, portanto qualquer uma delas

    representará bem a série. No entanto, este caso dificilmente ocorrerá na prática.

    Na maioria das vezes, teremos valores diferenciados para a série e

    conseqüentemente a medida irá representar bem, apenas os dados da série que se

    situam próximos a este valor. Os dados muito afastados em relação ao valor da

    medida não serão bem representados por ela.

    Desta forma, se uma série apresenta forte concentração de dados em sua área

    central, a média, a mediana e a moda ficam também situadas em sua área central

    representando bem a série. Como a mais conhecida é a média, optamos por esta

    medida de tendência central. Concluindo, devemos optar pela média, quando houver

    forte concentração de dados na área central da série.

    Se uma série apresenta forte concentração de dados em seu início, a mediana

    e a moda estarão posicionadas mais no início da série, representando bem esta

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    30/143

    29

    concentração. A média que é fortemente afetada por alguns valores posicionados no

    final da série se deslocará para a direita desta concentração não a representando

    bem.

    Como a mais conhecida entre mediana e moda é a mediana, esta será a

    medida indicada neste caso. A mesma situação ocorre se a série apresenta forte

    concentração de dados em seu final. Concluindo, devemos optar pela mediana,

    quando houver forte concentração de dados no início ou no final da série.

    A moda deve ser a opção como medida de tendência central apenas em séries

    que apresentam um elemento típico, isto é, um valor cuja freqüência é muito superior

    à freqüência dos outros elementos da série.

    2.3.3. Exemplos do uso de medidas de tendência central

    Como exemplo tomaremos as notas atribuídas aos alunos da sétima serie do

    Centro Educacional Elisa Bessa (CEEB) nas disciplinas de Português, Matemática,

    Historia e Geografia. Vale ressaltar que o CEEB possui uma política de diferenciação

    de disciplinas atribuindo um grau de importância (ou peso) diferente para cada

    disciplina.

    O Quadro 2.3, mostra a nota dos alunos em cada disciplina sem levar em conta

    o peso atribuído a cada disciplina. O Quadro 2.2 apresenta os pesos atribuídos a

    cada disciplina.

    Quadro 2.2: Pesos atribuídos às disciplinas do Centro Educacional Elisa Bessa

    Disciplinas Pesos

    Português 3

    Matemática 1

    Historia 2

    Geografia 2

    Total 8

    FONTE: SECRETÁRIA DO CEEB.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    31/143

    30

    Na tentativa de fazer uma avaliação da turma, o centro pedagógico do CEEB

    utilizou algumas medidas de tendência central.

    A primeiro passo foi calcular a média de cada aluno da turma, para tanto foram

    somadas as notas das quatro disciplinas e dividido por quatro. Esses resultados

    estão apresentados no Quadro 2.4.

    Quadro 2.3: Notas dos alunos da sétima série do Centro Educacional Elisa Bessa

    Número do

    aluno Português Matemática História Geografia

    1 7,7 3,5 3,3 8,3

    2 6,7 7,4 5,8 7,1

    3 8,7 5,7 9,6 8,7

    4 9,2 4,3 6,9 7,4

    5 4,3 5,3 7,2 5,2

    6 6,3 3,9 8,5 7,9

    7 7,5 5,3 6,6 5,2

    8 6,9 4,0 9,9 9,4

    9 4,7 5,6 8,2 8,0

    10 8,7 7,1 9,1 6,1

    11 8,3 4,2 7,6 9,812 8,4 5,6 7,7 8,1

    13 7,5 9,4 9,0 8,7

    14 9,1 5,0 7,9 7,3

    15 5,4 9,9 9,0 5,4

    16 9,0 6,9 6,8 7,1

    17 9,3 7,0 6,9 5,9

    18 7,2 5,1 7,1 8,7

    19 8,8 4,5 6,9 7,5

    20 4,1 7,2 6,8 3,0

    Média 7,4 5,8 7,5 7,2

    FONTE: SECRETÁRIA DO CEEB.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    32/143

    31

    Quadro 2.4: Média individual dos alunos da sétima série do CEEB

    Número do aluno Cálculo da média Resultado

    1 (7,7 + 3,5 + 3,3 + 8,3) / 4 = 5,70

    2 (6,7 + 7,4 + 5,8 + 7,1) / 4 = 6,75

    3 (8,7 + 5,7 + 9,6 + 8,7) / 4 = 8,18

    4 (9,2 + 4,3 + 6,9 + 7,4) / 4 = 6,93

    5 (4,3 + 5,3 + 7,2 + 5,2) / 4 = 5,52

    6 (6,3 + 3,9 + 8,5 + 7,9) / 4 = 6,64

    7 (7,5 + 5,3 + 6,6 + 5,2) / 4 = 6,13

    8 (6,9 + 4,0 + 9,9 + 9,4) / 4 = 7,52

    9 (4,7 + 5,6 + 8,2 + 8,0) / 4 = 6,63

    10 (8,7 + 7,1 + 9,1 + 6,1) / 4 = 7,74

    11 (8,3 + 4,2 + 7,6 + 9,8) / 4 = 7,49

    12 (8,4 + 5,6 + 7,7 + 8,1) / 4 = 7,45

    13 (7,5 + 9,4 + 9,0 + 8,7) / 4 = 8,67

    14 (9,1 + 5,0 + 7,9 + 7,3) / 4 = 7,31

    15 (5,4 + 9,9 + 9,0 + 5,4) / 4 = 7,43

    16 (9,0 + 6,9 + 6,8 + 7,1) / 4 = 7,43

    17 (9,3 + 7,0 + 6,9 + 5,9) / 4 = 7,28

    18 (7,2 + 5,1 + 7,1 + 8,7) / 4 = 7,03

    19 (8,8 + 4,5 + 6,9 + 7,5) / 4 = 6,92

    20 (4,1 + 7,2 + 6,8 + 3,0) / 4 = 5,28

    Com base na média aritmética, 3 alunos possuíram média final abaixo de 6.

    Com tudo, é interesse da instituição ponderar as disciplinas. Sendo assim, um novo

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    33/143

    32

    cálculo foi feito (Quadro 2.5) e novas médias foram encontradas. Agora, 2 alunos

    apresentavam média abaixo de 6.

    Quadro 2.4: Média ponderada individual dos alunos da sétima série do CEEB

    Número do aluno Cálculo da média Resultado1 (7,7 x 3 + 3,5 x 1 + 3,3 x 2 + 8,3 x 2) / 8 = 6,23

    2 (6,7 x 3 + 7,4 x 1 + 5,8 x 2 + 7,1 x 2) / 8 = 6,65

    3 (8,7 x 3 + 5,7 x 1 + 9,6 x 2 + 8,7 x 2) / 8 = 8,56

    4 (9,2 x 3 + 4,3 x 1 + 6,9 x 2 + 7,4 x 2) / 8 = 7,55

    5 (4,3 x 3 + 5,3 x 1 + 7,2 x 2 + 5,2 x 2) / 8 = 5,39

    6 (6,3 x 3 + 3,9 x 1 + 8,5 x 2 + 7,9 x 2) / 8 = 6,94

    7 (7,5 x 3 + 5,3 x 1 + 6,6 x 2 + 5,2 x 2) / 8 = 6,41

    8 (6,9 x 3 + 4,0 x 1 + 9,9 x 2 + 9,4 x 2) / 8 = 7,89

    9 (4,7 x 3 + 5,6 x 1 + 8,2 x 2 + 8,0 x 2) / 8 = 6,52

    10 (8,7 x 3 + 7,1 x 1 + 9,1 x 2 + 6,1 x 2) / 8 = 7,94

    11 (8,3 x 3 + 4,2 x 1 + 7,6 x 2 + 9,8 x 2) / 8 = 8,00

    12 (8,4 x 3 + 5,6 x 1 + 7,7 x 2 + 8,1 x 2) / 8 = 7,80

    13 (7,5 x 3 + 9,4 x 1 + 9,0 x 2 + 8,7 x 2) / 8 = 8,43

    14 (9,1 x 3 + 5,0 x 1 + 7,9 x 2 + 7,3 x 2) / 8 = 7,82

    15 (5,4 x 3 + 9,9 x 1 + 9,0 x 2 + 5,4 x 2) / 8 = 6,88

    16 (9,0 x 3 + 6,9 x 1 + 6,8 x 2 + 7,1 x 2) / 8 = 7,70

    17 (9,3 x 3 + 7,0 x 1 + 6,9 x 2 + 5,9 x 2) / 8 = 7,57

    18 (7,2 x 3 + 5,1 x 1 + 7,1 x 2 + 8,7 x 2) / 8 = 7,30

    19 (8,8 x 3 + 4,5 x 1 + 6,9 x 2 + 7,5 x 2) / 8 = 7,46

    20 (4,1 x 3 + 7,2 x 1 + 6,8 x 2 + 3,0 x 2) / 8 = 4,89

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    34/143

    33

    O centro pedagógico do CEEB observou que a menor média entre as

    disciplinas era a de matemática com um valor igual a 5,8. A fim de obter mais

    informações sobre esse conjunto de dados (notas de matemática), a o centro

    pedagógico construiu um Rol para esses dados e em seguida calculou a mediana, a

    moda e apresentou um resumo dos dados na Tabela 2.6.

    Rol:

    3,5; 3,9; 4,0; 4,2; 4,3; 4,5; 5,0; 5,1; 5,3; 5,3;

    5,6; 5,6; 5,7; 6,9; 7,0; 7,1; 7,2; 7,4; 9,4; 9,9.

    Para o cálculo da mediana, foram tomados o 10º e o 11º elementos e em

    seguida foi calculada a media desses dois números.

    45,52

    6,53,5=

    +=d m  

    Para determinar a moda, foi observada a maior freqüência entre as

    observações. Chegando a conclusão de que a serie e bimodal, pois os valores 5,3 e

    5,6 apresentam a mesma freqüência.

    Tabela 2.6: Divisão da 7ª série do CEEB quanto à nota de matemática

    Notas de matemática Freqüência simples Freqüência acumulada

    3,0 |-- 4,5 5 5

    4,5 |-- 6,0 8 13

    6,0 |-- 7,5 5 18

    7,5 |-- 9,0 0 18

    9,0 |-- 10,0 2 20

    Total 20

    FONTE: SECRETARIA DO CEEB

    Data a tabela acima é possível calcular a mediana e moda.

    44,55,18

    5105,42 =

    −+=

    += h f 

    F nlm

    m

    ant 

    md   

    25,55,155

    55,4   =

    ++=

    ++= h

     f  f 

     f lm

     post ant 

     post mo o

     

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    35/143

    34

    2.3.4. Medidas de dispersão

    São necessários dois tipos de medidas para descrever adequadamente um

    conjunto de dados. Além da informação quanto ao "meio" de um conjunto de

    números, é conveniente dispormos também de um método que nos permita exprimir

    a dispersão. As medidas de dispersão indicam se os valores estão relativamentepróximos uns dos outros, ou separados.

    Consideraremos quatro medidas de dispersão: o desvio médio, a variância,

    desvio padrão e o coeficiente de variação. Todas elas têm na média o ponto de

    referência. Em cada caso, o valor zero indica ausência de dispersão; a dispersão

    aumenta à proporção que aumenta o valor da medida (desvio, variância, etc.).

    2.3.4.1. Desvio médio absoluto

    O desvio médio absoluto (DMA) mede o desvio médio dos valores em relação à

    média do grupo, ignorando o sinal do desvio. Calcula-se subtraindo a média de cada

    valor do grupo e desprezando o sinal (+ ou -) do desvio, e tomando a média em

    seguida. Ao calcular o desvio médio, é necessário levar em conta o fato de que a

    soma dos desvios positivos e negativos a contar da média será sempre (por

    definição) igual a zero. A conversão das diferenças a valores absolutos (todos os

    valores são considerados como desvios positivos) antes de se proceder à somaresolve o problema. Calcula-se então o desvio médio absoluto pela seguinte

    equação:

    n

     X  x DMA

    i∑   −=  

    Em que n  é o número de observações no conjunto de dados.

    Apesar de ser relativamente fácil calcular e entender o DMA, esse não é muito

    utilizado por haver outras medidas que apresentam propriedades matemáticas mais

    interessantes. O DMA possui algumas aplicações no controle de inventários.

    2.3.4.2. Variância e desvio-padrão

    A variância é uma média aritmética calculada a partir dos quadrados dos

    desvios obtidos entre os elementos do conjunto de dados e a sua média. O desvio

    padrão é a raiz quadrada positiva da variância.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    36/143

    35

    Em particular, para estas medidas levaremos em consideração o fato de a

    seqüência de dados representar toda uma população ou apenas uma amostra de

    uma população.

    Notações: Quando a seqüência de dados representa uma População a

    variância será denotada por )(2  X σ   e o desvio padrão correspondente por )( X σ   .

    Quando a seqüência de dados representa uma amostra, a variância será denotada

    por S 2 (X) e o desvio padrão correspondente por S(X). 

    2.3.4.3. Cálculo da variância e do desvio padrão

    Dados brutos ou Rol

    Se o conjunto de dados representa uma População, a variância é calculada

    pela equação:

    ( )n

     X  x X  i∑

      −=

    2

    2 )(σ    

    Conseqüentemente, o desvio-padrão será dado por:

    ( )n

     X  x X  X  i∑

      −==

    2

    2 )()(   σ  σ    

    Se o conjunto de dados representa uma amostra, a variância é calculada pela

    equação:( )

    1)(

    2

    2

    −= ∑

    n

     X  x X S  i  

    Conseqüentemente, o desvio-padrão será dado por:

    ( )1

    )()(

    2

    2

    −==

      ∑n

     X  x X S  X S  i  

    Dados tabelados – variável discreta

    Como há repetições de elementos no conjunto de dados, definimos a variância

    como sendo uma media aritmética ponderada dos quadrados dos desvios dos

    elementos do conjunto de dados.

    Variância para população:

    ( )

    ∑∑   −

    =i

    ii

     f 

     f  X  x X 

    2

    2 )(σ    

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    37/143

    36

    Desvio padrão para população:

    ( )

    ∑∑   −

    ==i

    ii

     f 

     f  X  x X  X 

    2

    2 )()(   σ  σ    

    Variância para amostra:

    ( )∑∑ −

    −=1

    )(

    2

    2

    i

    ii

     f  f  X  x X S   

    Desvio padrão para amostra:

    ( )

    ∑∑

    −==

    1)()(

    2

    2

    i

    ii

     f 

     f  X  x X S  X S   

    Dados tabelados – variável contínua

    Novamente, por desconhecer os particulares valores de x i   do conjunto de

    dados, substituiremos nas equações anteriores estes valores pelos pontos médios

    da classe.

    Variância para população:

    ( )

    ∑∑   −

    =i

    ii

     f 

     f  X  x X 

    2

    2 )(σ    onde x i  é o ponto médio da classe i .

    Variância para amostra:

    ( )

    ∑∑

    −=

    1)(

    22

    i

    ii

     f 

     f  X  x X S   onde x i  é o ponto médio da classe i .

    COMENTÁRIOS: No cálculo da variância, quando elevamos ao quadrado a

    diferença ( ) X  xi  − , a unidade de medida da série fica também elevada ao quadrado.

    Portanto, a variância é dada sempre no quadrado da unidade de medida da série.

    Se os dados são expressos em metros, a variância é expressa em metros

    quadrados. Em algumas situações, a unidade de medida da variância nem fazsentido. É o caso, por exemplo, em que os dados são expressos em litros. A

    variância será expressa em litros quadrados. Portanto, o valor da variância não pode

    ser comparado diretamente com os dados da série, ou seja: variância não tem

    interpretação. Exatamente para suprir esta deficiência da variância é que se define o

    desvio padrão.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    38/143

    37

    2.3.4.4. Coeficiente de variação (C.V.)

    Em trabalhos experimentais, através deste parâmetro, comprovamos a precisão

    alcançada, embora não seja apenas esta a sua finalidade. Este coeficiente é

    expresso em percentagem, sendo utilizado em trabalhos científicos. É calculado pelaequação:

    ( ) X 

     X  X CV 

    )(σ  =  

    2.3.4.5. Exemplos do uso de medidas de tendência central

    Observamos anteriormente que a média da turma de matemática da sétima

    série do CEEB era igual a 5,8, a mediana igual a 5,45 e as modas iguais a 5,3 e 5,6.

    Estas “características” nos dão alguma idéia sobre a população em estudo. Outras

    “características” que podem “melhorar a idéia” de como a turma se comporta, são a

    variância, o desvio-padrão e o coeficiente de variação. Para calcularmos estas três

    ultimas medidas, utilizaremos o mesmo Rol utilizado anteriormente (o rol da turma

    de matemática).

    Rol:3,5; 3,9; 4,0; 4,2; 4,3; 4,5; 5,0; 5,1; 5,3; 5,3;

    5,6; 5,6; 5,7; 6,9; 7,0; 7,1; 7,2; 7,4; 9,4; 9,9.

    Variância

    ( )94199,2

    20

    )8,59,9(...)8,59,3()8,55,3()(

    2222

    2 =−++−+−

    =−

    = ∑

    n

     X  x X  iσ    

    Desvio-padrão

    7,1)()( 2 ==  X  X    σ  σ    

    Coeficiente de variação

    ( ) %31,292931,08,5

    7,1)(ou

     X 

     X  X CV    ===

     σ   

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    39/143

    38

    Tomando como fonte a Tabela 2.6, os cálculos para a variância, o desvio-

    padrão e o coeficiente de variação, são:

    Variância

    ( )2,7662520

    25,8)(9,5...85,8)(5,2555,8)(3,75

    f Xx(X)σ

    222

    i

    i

    2

    i2 =

    −++−+−=

    −= ∑∑

     Desvio-padrão

    6632,1)()( 2 ==  X  X    σ  σ    

    Coeficiente de variação

    ( ) %68,282868,08,5

    6632,1)(ou

     X 

     X  X CV    ===

     σ   

    2.4 - ASSIMETRIA DAS DISTRIBUIÇÕES

    Identificar se a distribuição de uma variável quantitativa em um determinado

    conjunto de dados é simétrica ou assimétrica pode ser de grande valia por váriosmotivos:

    Se os dados são provenientes de uma amostra, identificar a simetria ou não

    da distribuição pode ser necessário para selecionar o modelo probabilístico

    mais adequado para descrever a variável na população.

    No caso de um experimento, em que todas as causas de variação

    indesejadas são suprimidas, a ocorrência de assimetria quando era esperada

    simetria, ou o contrário, pode ser indicar que houve algum erro de

    planejamento ou de medição.Nos casos em que são comparadas distribuições da mesma variável

    quantitativa em situações diferentes a identificação de um comportamento

    assimétrico ou simétrico, inesperado ou diferenciado, pode alertar para

    aspectos anteriormente despercebidos, ou existência de erros.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    40/143

    39

    Alguns programas computacionais calculam uma medida de assimetria

    (“skewness”): quando este valor é exatamente igual a zero a distribuição em questão

    é perfeitamente simétrica. Mas a forma ideal de analisar a simetria de uma

    distribuição é combinar a avaliação das medidas e de um gráfico, seja um

    histograma ou um diagrama em caixas. As figuras 2.9 a 2.11 irão apresentar gráficos

    de distribuições que poderiam ser ajustados a histogramas.

    MédiaMediana

    Moda

    freq

     

    Figura 2.91 - Distribuição assimétrica negativa (assimétrica para a esquerda)

    Observe que o "pico" da distribuição, identificado pela moda, está à direita do

    gráfico, indicando que "falta algo" à esquerda, justificando a denominação

    "assimétrica à esquerda". Observe também que a mediana é maior  do que a média.

    Há uma medida estatística de assimetria que calcula a diferença entre média emediana: quando a diferença é negativa (mediana maior do que a média) a

    distribuição é "assimétrica negativa". Este tipo de distribuição não é muito comum na

    prática, pois é mais difícil obter valores excepcionalmente pequenos (à esquerda)

    ModaMediana

    Média

    freq.

     

    Figura 2.10 - Distribuição assimétrica positiva (assimétrica para a direita)

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    41/143

    40

    Observe que o "pico" da distribuição, identificado pela moda, está à esquerda do

    gráfico, indicando que "falta algo" à direita, justificando a denominação "assimétrica

    à direita". Observe também que a média é maior   do que a mediana. Agora a

    diferença entre média e mediana será positiva: quando a diferença é positiva a

    distribuição é "assimétrica negativa". Este tipo de distribuição é razoavelmente

    comum na prática, pois é fácil obter valores excepcionalmente altos, sendo o caso

    mais típico a variável renda.

    Moda = Média = Mediana

    freq.

     

    Figura 2 - Distribuição simétrica

    Observe que as três medidas de posição coincidem. E que aproximadamente

    metade dos dados estão abaixo do centro e a outra metade acima, ou seja a

    distribuição é "simétrica" em relação às suas medidas de posição. A diferença entre

    média e mediana é igual a zero. Muitas variáveis apresentam distribuição simétrica,

    especialmente aquelas resultantes de medidas corpóreas, mas não somente.

    A seguir apresentamos histogramas de distribuições assimétricas e simétrica.

    f

    x  

    Figura 2.12 - Histograma de distribuição simétrica

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    42/143

    41

    f

    x  

    Figura 2.13 - Histograma de distribuição assimétrica para a direita (negativa)

    f

    x  

    Figura 3.14 - Histograma de distribuição assimétrica para a esquerda (positiva)

    Além das medidas de posição podemos utilizar as separatrizes para avaliar não

    só a simetria, mas também a dispersão de um conjunto de dados. O procedimento

    para verificar a existência de assimetria consiste em avaliar a diferença existente

    entre os quartis e a mediana: se os quartis inferior e superior estiverem à mesma

    distância da mediana, a distribuição do conjunto pode ser considerada simétrica. A

    avaliação da dispersão depende da existência de um padrão para comparação, seja

    um outro conjunto de dados ou alguma especificação. Um conjunto de dados

    apresentará maior dispersão do que outro se os seus quartis estiverem mais

    distantes da mediana. Observe as figuras a seguir.

    Simétrico

    MdQi Qs

    25% 25% 25% 25%  Figura 4.15 - Quartis de uma distribuição simétrica - 1o caso

    Observe que a diferença Qs - Md é igual àdiferença Md - Qi, o que indica a simetriado conjunto. É importante lembrar que osquartis dividem o conjunto em 4 partesiguais (25% dos dados).

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    43/143

    42

    Simétrico, commaior dispersão

    Qi QsMd

    25% 25% 25% 25% 

    Figura 5 - Quartis de uma distribuição simétrica - 2o  caso

    Mas agora a dispersão do conjunto é maior, quando comparada ao 1o caso: os

    quartis estão mais distantes da mediana (as diferenças Qs - Md e Md - Qi serão

    maiores do que as obtidas no 1o caso).

    Assimétrico para

    a direita

    Qi QsMd

    25% 25%25% 25%  

    Figura 6.17 - Quartis de uma distribuição assimétrica para a direita

    O conjunto apresenta uma dispersão mais elevada nos valores maiores. Isso fez

    com que o quartil superior aumentasse de valor ("deslocando-o para a direita"), e

    ficasse mais distante da mediana do que o inferior, significando assimetria para a

    direita (ou positiva).

    Assimétrico paraa esquerda

    Qi QsMd

    25% 25%25%25%  

    Figura 7.18 - Quartis de uma distribuição assimétrica para a esquerda

    Neste caso ocorre o oposto da figura 26. Há maior dispersão nos valores mais

    baixos, fazendo com que o quartil inferior aumentasse de valor, e ficasse mais

    distante da mediana do que o superior, significando assimetria para a esquerda (ou

    negativa).

    A avaliação da assimetria através dos quartis também pode ser em um

    diagrama em caixas.

    Observe que a diferençaQs - Md continua igual àdiferença Md - Qi, o queindica a simetria do conjunto.

    Na figura 26 é fácil perceberdiferenças são claramentedesiguais: há assimetria. E

    como Qs - Md é maior do queMd - Qi é para a direita.

    Na figura 27 novamente asdiferenças são claramentedesiguais: há assimetria. Ecomo Md - Qi é maior do queQs - Md é para a esquerda.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    44/143

    43

    2.5 - DIAGRAMA EM CAIXAS

    O Diagrama em Caixas, também chamado de Desenho Esquemático, Box-

    plot ou Box & Whisker plot é um gráfico que permite avaliar facilmente os valores

    típicos, a assimetria, a dispersão e os dados discrepantes de uma distribuição de

    dados de uma variável QUANTITATIVA. É indicado para grandes conjuntos dedados.

    A construção do Diagrama em Caixas exige que sejam calculados

    previamente os valores da Mediana, Quartil Inferior e Quartil Superior do conjunto de

    dados, bem como a identificação dos extremos superior (maior valor) e inferior

    (menor valor). Traçam-se dois retângulos (duas caixas): um representa a “distância”

    entre o Quartil Inferior e a Mediana e o outro a distância entre a Mediana e o Quartil

    Superior. A partir dos Quartis Inferior e Superior são desenhadas linhas verticais até

    os últimos valores não discrepantes tanto abaixo quanto acima.

    Valores discrepantes (ou “outliers”) são aqueles que têm valores:

    - maiores do que a expressão Qs + 1,5 x (Qs - Qi)1  ou

    - menores do que a expressão Qi - 1,5 x (Qs - Qi)

    Todos os valores discrepantes são marcados para posterior estudo individual.

    O Diagrama em Caixas “típico” seria:

    Figura 8.19 - Diagrama em Caixas - Esquema

    1 O valor Qs - Qi é chamado de desvio interquartílico.

    Qs + 1,5x(Qs - Qi) 

    Qi - 1,5x(Qs - Qi) 

    Md 

    ** 

    ** 

    Valores discrepantes superiores 

    Valores discrepantes inferiores 

    Na caixa superior estão 25%dos dados, há outros 25% nacaixa inferior, outros 25%acima do Qs e outros 25%abaixo do Qi: se houvesse100 dados 25 estariam nacaixa superior, 25 nainferior, 25 abaixo do Qi e25 acima do s. 

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    45/143

    44

    Se as duas caixas tiverem “alturas” semelhantes (Qs - Md ≅  Md - Qi) a

    distribuição é dita simétrica (ver seção 2.4). Quanto maiores as “alturas” das caixas

    [maiores (Qs - Md ) e (Md - Qi)] maior a dispersão do conjunto. O valor “típico” do

    conjunto será a Mediana (Md), cujas características foram vistas anteriormente. A

    dimensão horizontal das caixas é irrelevante.

    A seguir o roteiro para construção do Diagrama em Caixas.

    Passos:

    Ordenar os dados.

    Calcular Mediana, Quartil Inferior e Quartil Superior.

    Identificar Extremos.

    Construir os retângulos (Qs - Md, Md - Qi).

    A partir dos retângulos, para cima e para baixo, seguem linhas até o último

    valor não discrepante.

    Marcar as observações discrepantes.

    Exemplo 2.22 - Foram medidas as alturas de 35 homens adultos, cujos resultados

    estão abaixo.

    Sejam as alturas de homens adultos a seguir.

    181 174 145 150 168 173 163 184 178 165 173 165 166 205 167 168 169 170174 170 172 198 177 173 179 180 169 181 169 183 142 183 163 204 165

    Construa o diagrama em caixas para as alturas, avaliando valor típico, assimetria,

    dispersão e valores discrepantes.

    1)Ordenar os dados crescentemente:

    142 145 150 163 163 165 165 165 166 167 168 168 169 169 169 170 170 172 173

    173 173 174 174 177 178 179 180 181 181 183 183 184 198 204 205

    2) Calcular Mediana, Quartil Inferior e Quartil Superior

    Há 35 medidas: n = 35

    Posição da mediana = (n + 1) /2 = 36 / 2 = 18 a  => valor que está na 18a posição

      Md = 172

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    46/143

    45

    Posição do quartil inferior = (n + 1) / 4 = 36 /4 = 9a  => valor que está na 9a posição

    Qi = 166

    Posição do quartil superior = 3 x (n + 1) / 4 = 3×36 /4 = 275a  => valor que está na

    27a posição Qs = 180

    3) Identificar extremos

    O maior valor do conjunto (extremo superior) Es = 205

    O menor valor do conjunto (extremo inferior) Ei = 142

    4) “Retângulos”

    Qs - Md = 180 - 172 = 8 (os valores são aproximadamente iguais:

    distribuição

    Md - Qi = 172 - 166 = 6 pode ser considerada simétrica)

    5) Identificação dos valores discrepantes

    Qs - Qi = 180 - 166 = 14 1,5 x (Qs - Qi) = 1,5 × 14 = 21

    Qi - 1,5 x (Qs - Qi) = 166 - 21 = 145

    Valores menores do que 145 cm de altura serão discrepantes: só há um valor abaixo

    de 145 (142), então há apenas um valor discrepante inferior. Assim a linha vertical

    inferior irá até o último valor não discrepante, que vale 145 cm.

    Qs + 1,5 x (Qs - Qi) = 180 + 21 = 201

    Valores maiores do que 201 cm de altura serão discrepantes: há dois valores acima

    de 201 (204 e 205), então há dois valores discrepantes superiores. A linha vertical

    superior irá até o último valor não discrepante, no caso 198.

    Todos os passos anteriores são feitos internamente pelo computador quando se usa

    um programa estatístico para construir um Diagrama em Caixas, resultando nográfico a seguir2:

    2  O Diagrama em Caixas foi feito utilizando o pacote Statistica. Algumas medidas podem ter resultadosligeiramente diferentes dos cálculos manuais devido aos arredondamentos.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    47/143

    46

    Box Plot das Alturas

    130

    140

    150

    160

    170

    180

    190

    200

    210

    ALTURA 

    Figura 9.20 - Diagrama em caixas

    O valor típico do conjunto é a mediana que vale 172 cm. Esse valor pode ser

    alto ou não, dependendo do objetivo (para selecionar jogadores de vôlei e basquete

    pode ser baixo, para jóqueis pode ser alto), exigindo conhecimentos mais

    aprofundados para ser interpretado.

    As duas caixas têm “alturas” semelhantes, indicando simetria ou "leve

    assimetria". Quanto à dispersão não há muito o que se comentar pois não há um

    padrão para comparação.

    Há apenas um valor discrepante inferior, e dois superiores. Estes valores

    talvez merecessem um estudo individual: primeiramente verificar se não houve erro

    de medição, se constatada a correção da medida identificar os indivíduos, estudar

    seu histórico médico, etc.)3.

    Como TODA ferramenta estatística o Diagrama em Caixas de nada vale se o

    usuário não tiver conhecimentos específicos sobre a variável retratada para

    interpretar os resultados.

    3 Para que o estudo de pontos individuais seja possível é importante que sejam registrados onde, quando e emque condições as observações foram feitas.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    48/143

    47

    2.5.1 - Diagrama em Caixas Múltiplo

    É bastante comum querer comparar vários conjuntos de dados, para avaliar

    seus valores típicos, dispersão, assimetria, e valores discrepantes. Por exemplo, no

    caso do Exemplo 2.22 poderíamos ter interesse em comparar vários conjuntos de

    alturas, provenientes de diferentes grupos. Para tanto precisamos construir um

    diagrama múltiplo, em que todos tenham a mesma escala, para possibilitar a

    comparação (diversos programas estatísticos permitem fazer isso).

    Exemplo 2.23 - O diagrama em caixas múltiplo abaixo apresenta as notas finais de

    estudantes de disciplinas de Estatística em três cursos diferentes da UFSC, em

    1997. Faça a análise dos diagramas: valor típico, dispersão, assimetria, valores

    discrepantes. Algum dos cursos destaca-se?

    -1.2

    0.0

    1.2

    2.4

    3.6

    4.8

    6.0

    7.2

    8.4

    9.6

    Box-plot das notas

    TURMAS

       N   O   T   A   S

    Ciências Biológicas Engenharia Mecânica Engenharia de Produção

     

    Figura 2.21 - Diagrama em caixas múltiplo de notas por curso

    Quanto aos valores típicos (medianas) os três cursos são bem semelhantes: 6,5, 6,5

    e 6,75.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    49/143

    48

    Quanto à assimetria, apenas o conjunto da Engenharia de Produção apresenta

    simetria (as alturas das caixas são semelhantes), enquanto os outros dois são

    assimétricos.

    Quanto à dispersão, parece ser maior na Engenharia Mecânica, pois suas caixas

    são maiores (Quartis mais distantes da Mediana).

    Há valores discrepantes nos três conjuntos, mas apenas inferiores, 2 em Ciências

    Biológicas, 4 em Engenharia Mecânica e 3 em Engenharia de Produção.

    O curso de Engenharia Mecânica destaca-se ligeiramente, por apresentar

    Quartil Superior e Extremo Superior acima dos demais, mas não é uma grande

    diferença, e trata-se do curso com maior dispersão nas notas.

    Exemplo 2.24 - A ONU realizou uma pesquisa registrando os crescimentos

    demográficos e médias de calorias diárias ingeridas em vários países. Os países

    foram agrupados em seis regiões: OECD (EUA, Canadá, Austrália, Nova Zelândia e

    Europa Ocidental), África, América Latina, Oriente Médio, Europa Oriental, e

    Pacífico/Ásia. Os diagramas em caixa das variáveis estão abaixo. Faça a análise

    dos dois diagramas no que tange aos valores típicos, assimetria, dispersão e valores

    discrepantes. Qual é a sua opinião sobre a qualidade de vida nestas seis regiões?

    Figura 2.2210 - Diagramas em caixa múltiplos: crescimento demográfico e média

    diária de calorias ingeridas

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    50/143

    49

    Crescimento demográfico

    Valores típicos: Oriente Médio e África têm os maiores valores típicos, medianas de

    cerca de 3,0% ao ano. E os menores estão na Europa Oriental e OECD, próximos

    de zero.

    Assimetria: os conjuntos de África e Europa Oriental poderiam ser considerados

    simétricos, América Latina, OECD e Pacífico/Ásia ligeiramente assimétricos, e o

    Oriente Médio é assimétrico.

    Dispersão: o conjunto com maior dispersão é o Oriente Médio, e os menos dispersos

    são a Europa Oriental e OECD (demonstrando uma certa homogeneidade

    demográfica nestas duas regiões).

    Valores discrepantes: África e América Latina têm discrepantes inferiores, OECD

    tem um superior, e as demais regiões não apresentam valores discrepantes.

    Média de calorias

    Valores típicos: Europa Oriental e OECD têm os maiores valores, na faixa de 3500

    calorias diárias, enquanto que a África têm o menor valor, por volta de 2200.

    Assimetria: todos os conjuntos são assimétricos, mas Oriente Médio, Pacífico/Ásia e

    Europa Oriental (onde Qs = Md) são mais do que os outros, a África tem a menor

    assimetria.

    Dispersão: Europa Oriental apresenta a menor dispersão ("caixas" menores),

    enquanto Pacífico/Ásia apresenta a maior.

    É interessante observar o contraste entre os dois diagramas: a África tem um dos

    maiores valores típicos de crescimento demográfico, e o menor valor típico de

    calorias ingeridas (indicando um cenário de miséria e fome), enquanto a Europa

    Oriental e a OECD têm uma situação inversa (o que indica condições sócio-

    econômicas mais favoráveis). Impressiona também a alta taxa de crescimento

    demográfico no Oriente Médio.

  • 8/20/2019 Curso de Qualificação Profissional - Econometria

    51/143

    50

    3 - ANÁLISE BIDIMENSIONAL

    É comum haver interesse em saber se duas variáveis quaisquer estão

    relacionadas, e o quanto estão relacionadas, seja na vida prática, seja em trabalhos

    de pesquisa, por exemplo:

    - se o sexo dos funcionários de uma empresa está relacionado com a função

    exercida;

    - o quanto o a temperatura ambiente em uma região influencia as vendas de

    refrigerante;

    - se o nível de escolaridade de um grupo de empreendedores está relacionado com

    o grau de sucesso por eles alcançado.

    Muitas vezes queremos verificar se há uma relação de causa e efeito entre as

    duas variáveis (se as variáveis são dependentes ou não), se é possível estudar uma

    das variáveis através da outra (que é mais fácil de medir)- prever os valores de uma

    através dos valores da outra, ou calcular uma medida de correlação ou de

    dependência entre as variáveis.

    A Análise Bidimensional4  propõe-se a tentar responder as perguntas do

    parágrafo anterior. As duas variáveis abordadas podem ser qualitativas ou

    quantitativas, e para cada tipo haverá técnicas apropriadas.

    Para variáveis qualitativas vamos estudar: tabelas de contingência, estatística

    Qui-Quadrado e o Coeficiente de Contingência Modificado5. Para variáveis

    quantitativas vamos abordar: diagramas de dispersão, análise de corre