livro estatística probabilidades ead

8/18/2019 Livro Estatística Probabilidades EAD

1/173


2/173

Bráulio Roberto Gonçalves Marinho Couto

Janaína Giovani Noronha de Oliveira

Octávio Alcântara Torres

Reinaldo Carvalho de Morais

ESTATÍSTICA E PROBABILIDADES

Belo Horizonte

Junho de 2015


3/173

COPYRIGHT © 2015

GRUPO ĂNIMA EDUCAÇÃOTodos os direitos reservados ao:

Grupo Ănima Educação

Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização

por escrito da detentora dos direitos, poderá ser reproduzida ou transmitida, sejam quais forem os meios

empregados: eletrônicos, mecânicos, fotográcos, gravações ou quaisquer outros.

Edição

Grupo Ănima Educação

Vice Presidência

Arthur Sperandeo de Macedo

Coordenação de Produção

Gislene Garcia Nora de Oliveira

Ilustração e Capa

Alexandre de Souza Paz Monsserrate

Leonardo Antonio Aguiar

Equipe EaD


4/173

CONHEÇAO AUTOR

CONHEÇAA AUTORA

Bráulio Roberto Gonçalves Marinho Couto é

doutor em Bioinformática, mestre em Ciência

da Computação, especialista em Estatística,

bacharel em Engenharia Química e técnicoem Química. Atuante nas áreas de Estatística,

Cálculo Numérico, Informática em Saúde,

Epidemiologia Hospitalar e Bioinformática.

Professor do Centro Universitário de Belo

Horizonte (UniBH).

Janaína Giovani Noronha de Oliveira

é mestre em Estatística e graduada

em Licenciatura em Matemática com

Habilitação em Física. Possui experiênciacomo docente na área de Matemática

e Estatística do Ensino superior e

médio. Experiência com orientação de

Monograas.


5/173


6/173

Egressos de cursos de Engenharia e

Tecnologia são prossionais que resolvem

problemas. E como isso ocorre? Pela

aplicação eciente do método cientíco.

Pois bem, é disso que se trata essa

disciplina: apresentar ferramentas

estatísticas que possibilitarão a você

transformar-se num especialista emqualquer área do conhecimento e, portanto,

apto a resolver problemas. A disciplina é

dividida em oito unidades cujo objetivo é

introduzir o aluno na área da Estatística

e Probabilidades, tornando-o capaz de

planejar e de executar experimentos de

pequeno e médio porte nas áreas de

Ciências Exatas e de Engenharia. Além de

fazer a análise exploratória dos dados e de

realizar inferências, por meio da tomada de

decisão na presença de incerteza.

A Unidade 1 apresenta denições

fundamentais para a correta compreensão

do processo de coleta e de análise de dados.Conceitos sobre população e amostra,

censo e amostragem, e variáveis são

discutidos nessa unidade. A Unidade 2 trata

da análise exploratória de dados, quando

são apresentadas técnicas de Estatística

Descritiva. O objeto dessa unidade,

bastante intuitiva, é trabalhar a síntese

numérica, gráca e tabular dos dados.

A ideia é usar ferramentas como o Excel

para construir tabelas e grácos, como

histograma, diagrama de dispersão, Pareto

e calcular valores como média, mediana,

desvio padrão, e coeciente de variação.

Na Unidade 3 são introduzidos conceitos

básicos de probabilidades, cruciais para

que se entenda o processo de tomadade decisão na presença de incerteza. A

Unidade 4 é uma continuação da terceira

unidade, são apresentados os modelos

probabilísticos mais importantes para se

modelar problemas de pequeno e médio

porte na área de Engenharia e Tecnologia.

A partir da Unidade 5 caminhamos para

a área “nobre” da Estatística, que envolve

as inferências, isto é, o processo de

generalização de resultados parciais,

observados em amostras, para toda a

população envolvida num problema. Nessa

unidade é discutida a forma de obter os

intervalos de conança, tanto para médiaquanto para proporção. Na Unidade 5

discute-se, por exemplo, como o resultado

de uma pesquisa eleitoral é calculado e o

signicado do intervalo denido pela soma

e subtração de uma “margem de erro”.

A Unidade 6 é voltada para o planejamento

de experimentos, quando é apresentado,

APRESENTAÇÃO DA DISCIPLINA


7/173

por exemplo, como calcular o tamanho

de uma amostra. Em alguns livros este

item é colocado na primeira unidade, o

que tem certa lógica por tratar da coleta

de dados, primeira etapa de qualquer

análise estatística. Entretanto, como são

necessários conceitos probabilísticos e de

inferência para entender o planejamento

de experimentos, optamos por colocar

essa unidade logo após a discussão sobre

intervalos de conança.

As Unidades 7 e 8 fecham a disciplina,

apresentado as ferramentas mais úteis

para que você nalmente se transforme

num especialista em uma área qualquer e,

portanto, realmente apto a resolver seus

problemas. Na Unidade 7 são discutidos

os métodos para fazer e interpretar testesde hipóteses, num contexto uni variado

e, na Unidade 8, discute-se métodos de

correlação e regressão, introduzindo a

análise multivariada.

Ao longo das oito unidades, procuraremos

apresentar uma abordagem baseada

em PPL – Aprendizagem Baseada em

Problemas, além de usarmos como

ferramentas computacionais o Microsoft®

Excel e o software de domínio público,

EpiInfo.

Bom trabalho!

Bráulio, Janaína, Octávio e Reinaldo.


8/173

UNIDADE 1 003

Introdução à Estatística 004Conceitos básicos 006O papel das variáveis numa base de dados: identicação,auxiliares, variáveis explicativas e variável reposta (desfecho) 010Tipos de variáves 013Uso do excel como um sistema de gerenciamento de dadose dos formulários do google docs para coleta de informações 015Revisão 017

UNIDADE 2 019Análise exploratória de dados 020Síntese gráca de dados 021Síntese tabulador de dados 038Síntese numérica de dados 038Revisão 048

UNIDADE 3 049Introdução à teoria de probabilidades 050Probabilidade clássica e probabilidade frequentista 053Leis básicas de probabilidade 053União e interseção de eventos 054Tabelas de contigência 056Eventos independentes 057Teorema de Bayes 058Revisão 061

UNIDADE 4 063Modelos probabilísticos 064Varieaveis aleatórias 065Modelos probabilísticos 071Distribuição binomial 071Distribuição Poisson 072Distribuição normal 072Revisão 076


9/173

UNIDADE 5 077Estimação de médias e proporções 078Teorema central do limite 079Estimação pontual e por intervalos de conança para umamédia populacional 082

Estimação pontual e por intervalos de conança para umaproporção populacional 089Uso do excel no cálculo de intervalos de conança paramédia e proporção 091Introdução ao programa Epiinfo 094Revisão 095

UNIDADE 6 098Planejamento de experimentos 099Cálculo de tamanho de amostra baseado em intervalos

de conança para uma proporção 100 Cálculo de tamanho de amostra baseado em intervalosde conança para uma média 103Planejamento de experimentos 106Revisão 113

UNIDADE 7 115

Testes de hipóteses 116A construção e o signicado de uma hipótese estatística 117Testes para uma amostra 118Testes para duas ou mais amostras 133Revisão 137

UNIDADE 8 139Análise de correlação e regressão 140Análise de correlação 141Regressão linear simples 149Regressão linear múltipla 157Revisão 160

REFERÊNCIAS 117


10/173


11/173unidade 1

004

INTRODUÇÃO ÀESTATÍSTICA

Podemos entender o método estatístico como um processo para obter, apresentar e

analisar características ou valores numéricos, identicando padrões que possibilitam

a tomada de decisão em situações de incerteza. Pode acreditar, se você aplicar o

método estatístico para a análise e solução de problemas, muito rapidamente se tornará um

especialista de qualquer área do conhecimento! Num mundo real, completamente cercado

de incertezas, ser capaz de identifcar padrões de comportamento de pessoas, projetos,

produtos, serviços, etc pode transformá-lo num “mago”.

Entretanto, antes de você transformar-se num “mago”, é necessário um entendimento

adequado do método estatístico, que tem suas “armadilhas”. Costumo dizer que Estatística não

é Matemática... é muito mais “difícil”. Na verdade, Estatística é uma das áreas da Matemática

que, por sinal, é a Ciência cuja aplicação no mundo real possibilitou ter uma vida incrivelmente

confortável. Bom, quando armo que “Estatística não é Matemática”, quero dizer que, na

Matemática que você aprendeu no Ensino Fundamental e Médio, os problemas têm usualmenteuma única forma de serem resolvidos e devem todos chegar ao mesmo resultado (uma única

resposta correta). Na Estatística, os problemas têm várias formas de serem resolvidos, podem

chegar a resultados diferentes e todos estão corretos! Isso ocorre porque a Estatística requer

a habilidade de considerarmos as coisas dentro de uma perspectiva probabilística, o que vai

completamente contra a conceituação usual dos problemas em simplesmente certo ou errado.

Não buscaremos a “verdade absoluta”, mas padrões de comportamento que nos possibilitarão

tomar decisões com alto grau de conança.


12/173


unidade 1

005

Para melhor entendermos o que será discutido, o método estatístico será dividido em quatro

grandes áreas:

1) amostragem e coleta de dados;

2) análise exploratória de dados (estatística descritiva);

3) teoria de probabilidades;

4) decisão na presença de incerteza (inferência).

A ideia por trás dessa unidade é levar até você o conhecimento fundamental que lhe permitirá

entender a coleta de dados. Estudaremos conceitos fundamentais de Estatística, questõessimples, mas essenciais para que tenhamos sucesso nas outras etapas do método estatístico,

que serão discutidas nas próximas unidades. Estes são os objetivos da Unidade 1:

a) apresentar conceitos básicos de Estatística e Probabilidades;

b) identicar as funções e os principais tipos de dados e de variáveis;

c) identicar e corrigir problemas de dados faltantes (missing);

d) congurar o Excel como instrumento de coleta de dados;

e) entender o sistema de endereçamento de células do Excel.

f) construir formulários de coleta de dados no Google Docs;

g) enviar formulários de coleta de dados por meio de mala direta.

É crucial que você entenda os conceitos que serão discutidos nessa unidade. Sem oentendimento do que seja, por exemplo, uma variável, o seu tipo e a sua função na base de

dados, não há como você ser feliz nas outras etapas do processo!


13/173


unidade 1

006

CONCEITOSBÁSICOS

Vamos supor que uma cozinheira esteja

preparando dois litros de sopa.

Como ela sabe se a sopa está temperada?

Os dois litros de sopa formam a população

e, se a cozinheira comer/provar toda a sopa,

estará fazendo um censo, o que geraria um

absurdo do tipo “É, a sopa estava ótima!”.

A cozinheira sabe que em experimentos

baseados em ensaios destrutivos, quando

a própria análise destrói o dado coletado, ocenso é um absurdo. Na verdade, ela sabe

que censos, de modo geral, são inviáveis,

muito caros e/ou muito demorados. Mais

ainda, ela sabe que se usar uma pequena

amostra cuidadosamente retirada, chamada

amostra representativa, poderá tomar

decisões sobre toda a população envolvida

no problema com um alto grau de conança.

A cozinheira então retira uma pequena

amostra, uma “pitada” da comida, prova-a

e generaliza o resultado para toda a sopa.

Isso é chamado de inferência: tomar

decisões sobre toda uma população com

base em informações parciais de umaamostra (veja a FIGURA 1).

Entretanto, a cozinheira sabe que para fazer

inferências válidas, deve tomar cuidado

para não trabalhar com amostras viciadas.

E o que seria isso?

Se ela retirar uma amostra somente da

parte de cima da sopa, muito provavelmente

terá uma amostra viciada, isto é, sem

representantes de todos os componentes

da sopa como um todo que, neste caso, é a

população amostrada.

E como ela retira uma amostra

representativa da sua população (“sopa”)?

Como a cozinheira procede para obter uma

amostra com “representantes” de cada

estrato da sopa?

Simples, ela mistura a sopa fazendo umahomogeneização e sorteia uma porção/

pitada que será usada no seu processo

decisório. Fazendo uma amostragem

aleatória, a cozinheira sabe que terá

grande chance de trabalhar com amostras

representativas.

Podemos agora resumir esses conceitos.

População:

a) consiste na totalidade das unidades de

observação a partir dos quais ou sobre

os quais deseja tomar uma decisão;

b) conjunto de elementos que formam ouniverso do nosso estudo e que são

Você sabe o que é população? E

amostra? Vejamos o exemplo a seguir.


14/173


unidade 1

007

passíveis de serem observados;

c) conjunto de indivíduos sobre os quais

recairão todas as generalizações das

conclusões obtidas no estudo;

d) usualmente, as unidades de observações

são pessoas, objetos ou eventos;

e) é o universo a ser amostrado;

f) do ponto de vista matemático, a população

é denida como um conjunto de

elementos que possuem pelo menos uma

característica em comum (SILVA, 2001).

População nita: o número de unidades de

observação pode ser contado e é limitado.

Exemplos:

a) alunos matriculados na disciplina

Estatística e Probabilidades;

b) todas as declarações de renda recebidas

pela Receita Federal;

c) todas as pessoas que compram telefone

celular num determinado ano;

d) um lote com N produtos.

População innita: a quantidade de

unidades de observação é ilimitada, ou

a sua composição é tal que as unidades

da população não podem ser contadas.

Exemplos:

a) conjunto de medidas de determinado

comprimento;

b) gases, líquidos e alguns sólidos em

que as suas unidades não podem ser

identicadas e contadas.

Amostra: conjunto de unidades

selecionadas de uma população, ou seja,

uma parte dos elementos da população.

Amostra representativa: é uma versão

em miniatura da população, exatamente

como ela é, somente menor. A amostrarepresentativa segue o modelo populacional,

tal que suas características importantes

são distribuídas similarmente entre ambos

os grupos.

Unidade amostral: é a menor parte distinta

de uma população, identicável para ns de

seleção e construção da amostra.

Amostra aleatória: é aquela obtida por meio

de um processo de sorteio ou aleatorização.

Amostra viciada: é aquela que representa

apenas parte da população, não possuindo

elementos de todos os estratos ousubconjuntos que formam a população

como um todo.

Censo: exame de todas as unidades de

observação de uma população. Como

discutido no exemplo da cozinheira, se

a pesquisa envolve ensaio destrutivo, o

censo é inviável. Na verdade, somente se a


15/173


unidade 1

008

FIGURA 1 - População alvo, população amostrada e amostra

População alvo do estudo

Amostra

População

amostradaInferência

Fonte: Elaborado pelo autor.

Inferir significa generalizar resultados de uma amostra para toda a população.

Por que usar amostras? Por que não incluir no estudo todos os indivíduos da população?

A amostragem deve ser usada porque torna o processo eficiente e preciso. E ela

é eficiente, uma vez que o recurso que poderia ser despendido na coleta de dados

desnecessários de um grande número de indivíduos pode ser gasto em outra atividade,

como na monitoração da qualidade da própria coleta dos dados. As amostras, por serem

menores que a população, podem ser estudadas mais rapidamente que censos e são

também mais baratas. Além disso, se o processo de amostragem gerar uma amostra

representativa da população alvo do estudo, os resultados observados poderão ser

generalizados, sem risco de chegar a uma conclusão diferente daquela que seria obtidase trabalhar com toda a população.

população alvo for pequena é razoável observá-la por inteiro, através do censo, pois mesmo

quando viáveis, censos são caros e demorados. Outros exemplos de ensaios destrutivos, nos

quais é impossível aplicar censo: pesquisa sobre a força de tração de um lote de barras de

aço para construção; pesquisa sobre contaminação de soro siológico em um lote; testes de

resistência e durabilidade de um lote de concreto; tempo de pega de um lote de cimento.

Amostragem: processo pelo qual uma amostra de unidades da população é retirada e

observada. É a parte mais importante do processo de pesquisa. O principal e fundamental

objetivo de qualquer plano de amostragem é selecionar a amostra, de tal maneira que ela

retrate elmente a população pesquisada.


16/173


unidade 1

009

Vejamos agora alguns aspectos

relevantes para o campo da amostragem.

São eles:

• Questões da amostragem: Qual

o tamanho da amostra? Como

a amostra será obtida? Como

garantir que a amostra obtida

seja representante da população

objeto do estudo? A questão mais

importante não é o seu tamanho,

mas como a amostra será obtida,pois a amostragem mal feita

invalida qualquer pesquisa.

• Tamanho da amostra (n): está

relacionado ao total de unidades

amostradas, usadas no processo

de inferência. Imagino que

você esteja curioso em relaçãoao tamanho da amostra, mas,

como citado anteriormente,

esta não é de longe a questão

mais importante. Por exemplo,

o que você que teria mais

credibilidade numa pesquisa

sobre a aceitação (ou não) do

aborto por parte da população

brasileira: resultados de pesquisa

realizada no domingo à noite por

uma emissora de TV, envolvendo

milhões de pessoas que, após

assistirem a uma reportagem

sobre o assunto, responderam

à pesquisa; ou resultados deuma amostra de 2.500 pessoas

selecionadas aleatoriamente no

território brasileiro?

No entanto, essa não é uma questão

muito importante para obtermos o

tamanho da amostra adequada para

uma pesquisa, visto que é necessário

estudarmos alguns conceitos

probabilísticos, que serão apresentadas

somente nas próximas unidades.

IMPORTANTE

A maioria das pessoas, quando questionadas

sobre qual o tamanho da amostra necessária

para uma pesquisa, tem o raciocínio equivocado

de que o tamanho da amostra (n) tem relaçãodireta com o tamanho da população amostrada

(N). Inevitavelmente, a maioria das pessoas

arma erroneamente que uma boa amostra deve

conter pelo menos, digamos, 30% da população.

O que a cozinheira diria disto? Para provar dois

litros de sopa, quanto de amostra ela teria que

avaliar? Isso mesmo, uma pitada. E para provar

400 litros de sopa, ela beberia um prato inteiro?

Não. Ela provará a mesma pitada, pois sabe que, o

mais importante nesse processo inferencial não é

o tamanho da amostra, mas provar uma amostra

não viciada, representativa de toda a sopa.

Voltando aos processos de amostragem,

as amostras podem ser classicadas emprobabilísticas e não probabilísticas:


17/173


unidade 1

010

Amostra probabilística:

- existe uma garantia, em termos de

probabilidade, de que qualquer membro

da população possa ser selecionado para

amostra.

Amostra não probabilística:

- os elementos da amostra não são

escolhidos por meio de um sorteio.

CARVALHO e COUTO (2003) apresentam

as principais características de tipos de

amostragem mais comuns, relacionados

principalmente com pesquisas de survey.

Outras amostras, por exemplo, amostragem

de minério, de solo, de gases e de líquidos

têm procedimentos próprios que buscam,

em última instância, obter amostras que

sejam representativas de cada populaçãoenvolvida. Em suma, qualquer que seja o

esquema de amostragem, probabilístico ou

não, deve-se sempre garantir que a amostra

reflita as características da população da

qual foi retirada.

LEMBRE

Conforme discutido anteriormente, algumas

pessoas acreditam que uma amostra

representativa é necessária coletar dados

de um percentual mínimo da população,

digamos, 30% do total de indivíduos. Isso éabsolutamente falso e, o que é pior, mesmo

que fossem analisados tal percentual de

indivíduos da população, não é o tamanho

que garante representatividade da

amostra, mas a forma com ela é obtida. É

a imparcialidade do processo de seleção

dos seus elementos e a homogeneidade

da distribuição das características da

amostra e da população que garantem a

representatividade da amostra.

O PAPEL DAS VARIÁVEISNUMA BASE DE DADOS:IDENTIFICAÇÃO,AUXILIARES,VARIÁVEISEXPLICATIVAS EVARIÁVEL REPOSTA

(DESFECHO)O primeiro passo de qualquer processo

estatístico é a coleta de dados. Portanto,

tudo o mais será alicerçado sobre o que

for coletado. Sendo assim, essa fase deve

ser cuidadosamente planejada, já que da

qualidade dos dados coletados dependerá

toda a análise e a tomada de decisão

subsequente.

Antes da coleta de um dado, é importante

entender o conceito de variável que está

por trás da informação que você procura.

A variável contém a informação que você

quer analisar, sob a forma de uma medição

sobre determinadas características dos


18/173


unidade 1

011

indivíduos estudados e das unidades de

observação.

E, por que esse conceito é tão importante?

Porque, no m das contas, é a variável

que é analisada e não a informação que

ela contém. Por isso, é importante que

você, antes de sair coletando informações,

analise o seu questionário de coleta de

dados, identique cada variável envolvida

e responda perguntas, tais como: O que

exatamente a variável está medindo? Para

que serve esta variável e, principalmente,

é possível analisá-la? E com que método

estatístico?

CONCEITO

Uma variável é a quanticação de uma

característica de interesse da pesquisa (SOARES

e SIQUEIRA, 2002). Refere-se ao fenômeno a ser

pesquisado. É o campo de variação de cada tipo

de dado a ser pesquisado. Observe que, como o

próprio nome diz, uma variável deve variar, ou seja,

se você está coletando dados sobre característicasde alunos da disciplina Cálculo Diferencial,

podemos pensar em inúmeras variáveis para a

unidade de observação “aluno”: idade, sexo, curso,

local do ensino médio, tempo entre nal do ensino

médio e início da graduação, nota nal, percentual

de presença às aulas etc. Entretanto, o tipo de

disciplina não é uma variável nesse caso, pois ela é

constante (Cálculo Diferencial).

O grau de variabilidade de uma variável é

chave no método estatístico e será foco

de discussões nas próximas unidades.

Entretanto, neste momento, é crucial que

você entenda dois aspectos básicos de

qualquer variável: o seu tipo e a sua função,

o papel que ela exerce na base de dados.

ATENÇÃO

Toda análise que será feita na base de dados

dependerá do seu entendimento sobre o tipo e a

função de cada variável coletada!

Vejamos os tipos de funções de cada

variável:


19/173


unidade 1

012

QUADRO 1 - O papel de uma variável numa base de dados.


Variáveis deidenticação e auxiliares

Variáveis explicativas

Variável desfecho

Servem para o rastreamento dos indivíduos e das unidadesamostrais, ou são usadas na denição de outras variáveis. Exemplosde variáveis de identicação: CPF, nome, número de matrícula,número da amostra etc.

Exemplos de variáveis auxiliares: datas, peso e altura.

Variáveis de identicação e auxiliares não são analisadas, masfazem parte da base de dados.

São aquelas que, por hipótese, podem influenciar, determinar ouafetar a variável resposta ou desfecho da pesquisa. São chamadastambém de co-variáveis ou variáveis independentes.

Para cada estudo existem variáveis explicativas próprias, denidaspor hipóteses da própria pesquisa ou conforme revisão da literatura.Em processos químicos, quando se busca entender os fatores queafetam o rendimento de uma reação química, são exemplos devariáveis explicativas a temperatura, a pressão, o tipo de catalisadore a concentração de reagentes. Se alguém pesquisar sobre asrazões de algumas pessoas serem maiores que outras, as alturasdo pai e da mãe, a origem étnica, a idade e o sexo são exemplos devariáveis explicativas.

É aquela que queremos explicar, em função de ser influenciada,

afetada por outros fatores (variáveis explicativas). Tambémdenominada de variável dependente ou variável resposta. Sempredena um ou mais desfechos para o estudo, conforme os objetivosda sua pesquisa. Por exemplo, numa pesquisa cujo objetivo éexplicar porque imóveis de uma mesma região têm preços tãovariados, o preço de venda seria uma variável resposta. Fatorescomo área, número de quatros, número e tipo de vaga de garagem,quantidade de suítes, presença de salão de festas ou piscina sãoalgumas das possíveis variáveis explicativas para esse problema.

TIPOS CARACTERÍSTICAS

A função de cada variável na base de dados, assim como o seu tipo, denirá que tipo de análise

será feita. Não subestime esses conceitos pois, sem eles, não há como entender os métodos

de análise estatística que serão estuados nas próximas unidades.


20/173


21/173


22/173


unidade 1

015

USO DO EXCEL COMOUM SISTEMA DEGERENCIAMENTO DEDADOS E DOSFORMULÁRIOSDO GOOGLE DOCSPARA COLETA DEINFORMAÇÕES

Duas ferramentas essenciais para coleta

de dados de experimentos de pequenoe médio porte na área de Ciências

Exatas e Engenharia são o Excel, um dos

componentes do pacote Ofce da Microsoft,

e os Formulários do Google Docs .

O Excel é uma planilha eletrônica com

origens no Lotus 1-2-3 (GAZZARRRINI,

2013). Ambas as ferramentas são

extremamente práticas, de grande utilidade

e serão discutidas por meio de vídeo aulas.

Os formulários do Google Docs são ótimos

para pesquisas envolvendo pessoas que

têm endereço eletrônico (e-mails). Parausá-los você terá que obter uma lista com os

nomes dos respondentes e os respectivos

e-mails. Após construir o formulário de

coleta de dados no Google Docs, você

poderá enviá-lo usando o mecanismo de

“mala direta”, da aba “correspondências”

do Word, que também é parte do pacote

Ofce da Microsoft . As respostas enviadas

pelos respondentes são automaticamente

armazenadas em planilha eletrônica,

facilitando a coleta e a análise dos dados.

É crucial que você domine o Excel como

instrumento de coleta de dados e entenda

perfeitamente o papel de cada variável a ser

coletada. Identicar variáveis explicativas

e desfecho (s), distinguir entre variável

quantitativa e categórica é uma questão

relativamente simples, mas fundamental

para as discussões que serão feitas nas

próximas unidades.

APLICAÇÃO PRÁTICA

Considere o artigo “Utilização de efluente de

frigoríco, tratado com macróta aquática,

no cultivo de tilápia do Nilo”, de autoria de

Adilson Reidel e outros pesquisadores da

Universidade Estadual do Oeste do Paraná

(REIDEL et al.; 2005) disponível em:

Neste trabalho, os pesquisadores zeram

um experimento em que, resumidamente,

foram colocadas amostras aleatórias de

alevinos (“lhotes”) de tilápia em aquários

com água potável (tratamento A) e em

tanques com efluente de frigoríco após

passar num sistema de ltro com aguapé

https://docs.google.com/formshttps://docs.google.com/formshttp://www.agriambi.com.br/revista/suplemento/index_arquivos/PDF/181.pdfhttp://www.agriambi.com.br/revista/suplemento/index_arquivos/PDF/181.pdfhttp://www.agriambi.com.br/revista/suplemento/index_arquivos/PDF/181.pdfhttp://www.agriambi.com.br/revista/suplemento/index_arquivos/PDF/181.pdfhttps://docs.google.com/formshttps://docs.google.com/forms


23/173


unidade 1

016

(tratamento B), avaliando-se comparativamente o desenvolvimento e a sobrevivência dos

peixes. A pergunta principal da pesquisa era: “É possível cultivar tilápias em efluente de

frigoríco tratado com aguapé?”

Nas tabelas 1 e 2 do artigo, são apresentados alguns resultados e um conjunto de variáveis

envolvidas na pesquisa.

TABELA 1 – Valores médios dos parâmetros físico-químicosdeterminados durante o cultivo da tilápia do Nilo (O. niloticus)

Fonte: REIDEL et al., 2005.

TABELA 2 – Valores médios de desempenho e sobrevivência de alevinosde tilápia do Nilo, cultivados com água potável e efluente tratado

Fonte: REIDEL et al.; 2005.

Esse é um exemplo prático da aplicação de conceitos discutidos na Unidade 1 em experimentos

de pequeno e médio porte na área de Ciências Exatas e de Engenharia. O experimento é baseado

em amostragem e analisa o impacto de variáveis explicativas em desfechos diretamente ligadosao objetivo do projeto: sobrevivência dos peixes, peso e biomassa nal no aquário.

PARÂMETROS

VARIÁVEIS

TRATAMENTOS

Tratamento A Tratamento B Teste t-StudentT calculado

A

média médiaO O

B

Temperatura média (ºC) 26,4 = 1,60 26,4 = 1,70

Oxigienio Dissolvido (mg L-1) 7,17 = 0,60 7,18 = 0,90

Condutividade Elétrica (uS cm-1) 227,48 = 36 1779,7 = 68

pH 8,44 = 0,12 7,40 = 0,35

Peso inicial (indivíduo) (g) 0,235 a 43,267 0,232 a 46,113 0

Biomassa inicial (aquário) (g) 1,172 a 2,426 1,160 a 1,901 0,001

Peso nal (indivíduo) (g) 1,391 a 42,269 1,054 a 45,582 0,028

Biomassa nal (aquário) 5,280 a 38,890 4,300 a 45,721 0,028Sobrevivência (%) 75 a 80,467 80 a 25,819 0,08

Tratamentos: (A) controle (água potável + ração); (B) efluente tratado (efluente do sistema de

ltro de aguapé + ração)

Médias seguidas da mesma letra, na linha, não diferem signicadamente pelo teste t de Student ao nível 5% de signicância


24/173


unidade 1

017

Nesse trabalho são usadas três variáveis

resposta, uma categórica (“O peixe

sobreviveu?” “sim ou não”) e dois desfechos

quantitativos (peso nal e biomassa nal,

medidos em gramas). Dentre as variáveis

explicativas envolvidas, a mais importante,

que está diretamente ligada ao objetivo da

pesquisa é o tipo de tratamento (A versus

B), uma variável categórica dicotômica.

Muitas pessoas têm diculdade em

identicar essa variável explicativa, apesar

dela ser a mais importante na pesquisa.

As outras variáveis explicativas são todas

quantitativas e, como tal, foram obtidas

por meio de um processo de medição,

contagem ou dosagem: temperatura (ºC),

oxigênio Dissolvido (mg L-1), condutividade

Elétrica (μS cm-1), pH, peso inicial (g) ebiomassa inicial (g).

Nas tabelas apresentadas aparecem

métricas (média, desvio padrão e valor de t

de student ) que são usadas na análise e na

conclusão do projeto. Fique tranquilo, esses

conceitos serão tratados nas próximas

unidades!

De qualquer forma, a conclusão da pesquisa

para a pergunta “É possível cultivar tilápias

em efluente de frigoríco tratado com

aguapé?”, é: “Sim, é possível cultivar tilápias

em efluente de frigoríco tratado com

aguapé. Os dados não mostraram diferençasignicativa entre os dois tratamentos,

tanto em relação ao desenvolvimento

quanto à sobrevivência dos peixes”.

O entendimento completo das razões

para chegar a essa conclusão será obtido

nas próximas unidades. Entretanto, neste

momento, é fundamental que você já

entenda conceitos referentes ao processo

de amostragem/coleta de dados e,

principalmente, que consiga diferenciar

os tipos e as funções das variáveis numa

pesquisa.

REVISÃO

Vimos nessa unidade alguns dos principais

tópicos introdutórios do campo da

Estatística. Em resumo, estudamos sobre:

População, amostra, censo e amostragem:

- Censo de toda a população não é viável,

devido aos altos custos e/ou quando a

pesquisa envolve ensaios destrutivos.

- Uma pequena, mas cuidadosamente

escolhida amostra pode ser usada para

representar a população.

- Os resultados observados numa amostra

representativa poderão ser generalizados,

sem risco de chegar a uma conclusão

diferente daquela que seria obtida no caso

de trabalhar com toda a população.

- A questão mais importante numaamostragem não é o tamanho da amostra,


25/173


unidade 1

018

mas como a amostra será obtida, pois o

delineamento amostral mal feito invalida

qualquer pesquisa.

Tipos de variáveis:

- Variável qualitativa ou categórica: é

aquela que expressa características ou

atributos de classicação, distribuídos

em categorias mutuamente exclusivas de

objetos ou entidades.

- Variável quantitativa: é aquela obtida

por meio de um processo de medição ou

contagem.

Função das variáveis:

- Variáveis de identicação e auxiliares:

servem para o rastreamento dos

indivíduos e das unidades amostrais

ou são usadas na denição de outras

variáveis.

- Variáveis explicativas: são aquelas

que, por hipótese, podem influenciar,

determinar ou afetar a variável resposta

ou desfecho da pesquisa.

- Variável desfecho: é aquela que queremos

explicar, em função de ser influenciada e/

ou afetada por outros fatores (variáveis

explicativas). Também denominada de

variável dependente ou variável resposta.

Aconselha-se sempre denir um ou mais

desfechos para o estudo, conforme os

objetivos da sua pesquisa.

Ainda compreendemos que alguns sistemas

computacionais são ferramentas essenciais

para coleta de dados de experimentos de

pequeno e médio porte na área de Ciências

Exatas e da Engenharia. São eles: o Excel,

um dos componentes do pacote Ofce da

Microsoft, e os Formulários do Google Docs

.

PARA SABER

MAISPara aprofundar sobre as questões discutidas

nessa unidade, leia o Capítulo 1 do livro texto:

LEVINE, David M. et al. Estatística: teoria

e aplicações usando Microsoft Excel em

português, 3º edição ou superior: “Introdução e

Coleta de Dados”, assim como o suplemento docapítulo 1 “Introdução à Utilização do Microsoft

Excel”.

https://docs.google.com/formshttps://docs.google.com/forms


26/173

UNIDADE


27/173unidade 2

020

ANÁLISE EXPLORATÓRIADE DADOS

Conforme citado na Unidade 1, se você usar técnicas de análise estatística, você poderá

rapidamente se transformar num especialista em qualquer assunto, certo? Pois bem,

como exemplo, que tal se tornar um especialista em reprovação em disciplinas básicas

de cursos de Engenharia e Tecnologia? E você não precisará “repetir” nenhuma dessas disciplinas

para ser um especialista em reprovação...! Esse é um problema bem conhecido, mas suas causas

e fatores associados não! Uma hipótese é que durante o ensino fundamental e médio muitos

alunos não conseguem adquirir habilidade em resolver problemas matemáticos. Essa deciênciaentão culmina nos cursos de Engenharia com altos índices de reprovação no ciclo básico.

Disciplinas como Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL), Química Geral

e Algoritmos (AEDS) podem ser verdadeiros “infernos” para alunos da área de Exatas.

Considerando o problema geral “desempenho acadêmico em disciplinas de ciclo básico de

cursos de Engenharia”, que tal analisar dados de amostra de alunos, buscando identicar

as características e possíveis fatores associados aos desfechos “conceito” (aprovado ou

reprovado), “nota histórico” (0 a 100 pontos) e “abandonou a disciplina?” (sim ou não)?

Para resolver o problema acima, qual a primeira providência? Muitos podem pensar: “Preciso

estudar melhor o assunto, fazer uma revisão da literatura sobre o problema. Em seguida,

preciso planejar e executar a coleta dos dados”. Essa primeira etapa já foi feita e faz parte de

projeto de iniciação cientíca do Centro Universitário de Belo Horizonte – UniBH, cujo título da

pesquisa é “Fatores associados ao desempenho acadêmico de alunos em disciplinas do ciclo

básico de cursos de Engenharia”. A pesquisa foi aprovada pelo Comitê de Ética em Pesquisa(CEP) do UniBH com o nº 920.308, em 17/12/2014 e os dados estão disponíveis para download


28/173unidade 2

021


no link: https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0.

Agora que você já tem acesso aos dados, qual o próximo passo para resolvermos o problema

de reprovação e abandono em Cálculo, GAAL, Química Geral e AEDS? A primeira etapa de

qualquer análise estatística, ou melhor, a fase preliminar da busca das informações agregadas

a dados já coletados, é a análise exploratória dos mesmos. Como o próprio nome diz, a

análise exploratória dos dados é o conjunto de ferramentas da Estatística Descritiva que têm

como objetivo fazer uma síntese dos dados, organizando-os sob a forma de tabelas, grácos

e números. Portanto, para entendermos e resolvermos nosso problema de reprovação,

precisamos estudar as ferramentas da Estatística Descritiva:

a) Síntese tabular: Resumo da análise por meio de tabelas;

b) Síntese numérica: Medidas de posição (média e mediana) e medidas de variabilidade (soma

dos quadrados dos resíduos, variância, desvio padrão, coeciente de variação);

c) Síntese gráca: Grácos de pizza, barra, coluna, linha, séries históricas, histograma, gráco

de Pareto, gráco misto, de coluna e de linha, diagrama de dispersão e box-plot .

O objetivo desta unidade é promover o conhecimento fundamental que lhe permitirá entender

dados coletados, transformando dados brutos em informações úteis!

SÍNTESEGRÁFICA DE DADOS

Uma gura vale mais que mil palavras! Isso é verdade, entretanto um gráco vale mais que mil

palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe

grácos a partir de seus dados, mas tente fazê-los de tal forma que a frase “basta olhar

para entender” seja válida. Os grácos mais úteis para análise de dados de experimentos de

pequeno e médio porte na área de Ciências Exatas e Engenharia são: grácos de pizza, barras,

colunas, linha, séries históricas, histograma, gráco de Pareto, gráco misto, de coluna e de

linha, diagrama de dispersão e box-plot (tabela 1). De todos esses, somente vejo sentido em

construi-los “à mão” histogramas e diagramas de dispersão. Entretanto, na prática devemosconstruir grácos usando ferramentas computacionais como o Excel.

https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0


29/173unidade 2

022


TABELA 3 - Grácos mais úteis para análise de dados de experimentosde pequeno e médio porte na área de Ciências Exatas e Engenharia.


Pizza ou setor

Colunas (verticais)

Barras (horizontais)

Histograma

Grácos de linha

Séries históricas

Gráco de Pareto

Gráco misto, decoluna e linhas

Diagrama dedispersão

Box-plot

Uma

Uma

Uma

Uma

Duas

Duas

Uma

Duas

Duas

Uma ou mais

Categórica

Categórica

Categórica

Quantitativa, mas categorizada numatabela de distribuição de frequências

Quantitativa no eixo vertical, ecategórica no eixo horizontal

Quantitativa no eixo vertical, eo “tempo” no eixo horizontal

Categórica

Quantitativa no eixo vertical, eo “tempo” no eixo horizontal

Variável explicativa quantitativa no eixo horizontal,e desfecho quantitativo no eixo vertical

Quantitativa

TIPO DE GRÁFICO NÚMERO DE VARIÁVEISENVOLVIDAS

TIPO DE VARIÁVEL ANALISADA

Como fazer os grácos? Siga regras e comentários abaixo e você terá sucesso ao desenhar

grácos:

1. Um gráco deve conter um título, entretanto este não deve ser colocado no próprio

gráco (como o Excel insiste em fazer...). Quando desenhamos um gráco usando o

Excel, por exemplo, este será exportado para algum documento do Word ou para o

PowerPoint, ou para outros editores de texto e apresentadores de slides. O título do

gráco será então colocado no slide ou na descrição da gura no editor de textos,

sendo desnecessário e errado colocá-lo no meio do próprio gráco. Mesmo em

casos excepcionais, quando o gráco não é exportado para nenhum outro aplicativo,

sendo impresso diretamente do Excel, o título não deve ser colocado no meio da

gura. O título deve ser inserido no cabeçalho da planilha que contém o gráco.

2. Ao escrever um relatório, comece pelas guras. É impressionante, mas as pessoas leem

artigos cientícos, relatórios técnicos, jornais e revistas de “fofoca” da mesma forma:começamos pelas guras! Por isso, o título de grácos e tabelas deve ser o mais claro


30/173unidade 2

023


possível: toda informação necessária para o entendimento da gura deve estar no seu

título. Essa é uma tendência das revistas cientícas (Nature, Science, por exemplo) e

tem um efeito colateral: o título da gura ca muito longo. Isso não é exatamente uma

regra, mas recomendação. Se você quer que seu relatório seja lido, invista nos títulos de

guras e tabelas e sempre coloque respostas claras para pelo menos quatro perguntas:

O que? Quem? Quando? Onde? A interpretação das informações no gráco também

deve ser colocada como subtítulo da gura. Se necessário, coloque notas explicativas,

usando siglas somente para coisas realmente conhecidas de quem lerá o seu texto (seu

chefe ou o chefe do seu chefe...). Veja um exemplo de gráco de pizza na gura abaixo.

A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizousomente técnicas de Estatística Descritiva na análise dos dados. Praticamente um quartodos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas decontingência, ferramentas que serão discutidas na Unidade 7 deste livro.

Fonte: BAILAR & MOSTELLER,1992.

FIGURA 2 – Principais ferramentas estatísticas encontradas em

artigos publicados no New England Journal of Medicine (NEJM).

3. Caso o gráco tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para

entendimento. Os rótulos dos eixos devem conter as respectivas unidades de medida

envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de erro do Excel! Além de não colocar

os rótulos nos eixos, o Excel coloca o título no meio da gura e uma legenda que não tem a

menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais deum grupo de dados na gura. Veja um exemplo correto de gráco de barras na gura abaixo.


31/173unidade 2

024


FIGURA 3 – Risco de reprovação em disciplinas de cursos de Engenhariae Tecnologia do Centro Universitário de Belo Horizonte – UniBH.

Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399alunos. Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica eÁlgebra Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados.


4. Não existe regra xa para a escolha da escala do gráco. Qualquer escala é boa

desde que os valores no gráco não quem muito espalhados nem muito juntos

numa única região da gura.

5. Sombreamento, efeitos 3D e pequenas guras relacionadas com o tipo de dado

usado no gráco, colocados para dar vida à gura: na maioria das vezes esses

efeitos são inúteis, podendo até mesmo distorcer o gráco.

6. A maioria dos grácos apresenta o valor zero como ponto de início dos eixos, mas

isso não é necessário se o ponto de início da escala é devidamente marcado na

gura. Na verdade, as pessoas usualmente assumem que o valor zero está na base do

gráco. Para os grácos de linha isso não é problemático, entretanto, quando se tratar

de grácos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base

da coluna. Caso isso não seja feito, ocorre uma distorção do gráco levando a uma

interpretação errada dos dados. Veja o exemplo abaixo. O primeiro gráco, como nãocomeça no valor zero, está errado, ele “ilude o leitor”: a auditoria foi um sucesso?!


32/173unidade 2

025


FIGURA 4 – Exemplos de gráco de colunas: o valorzero deve obrigatoriamente ser incluído na gura.


7. Mais de uma curva ou linha pode ser desenhada em um único gráco com o objetivo

de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha para

que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo

símbolos). Linhas de grade, usualmente colocadas no gráco para auxiliar a leitura das

escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.

FIGURA 5- Exemplo de gráco com legenda identicando diferentes dados.



33/173


34/173unidade 2

027


FIGURA 8 - Gráco distorcido: desenhandoa gura com a altura muito grande,

em relação à largura, a informação éfalseada e se tem a sensação de redução

dos dados ao longo do tempo


9. Grácos de pizza, “o queridinho”:

Apesar de muito “engraçadinhos”,

estes grácos são muitos confusos.

Evite o seu uso, substituindo por

grácos de barra ou de colunas.

É aceitável construi-los somente

quando são poucos setores bem

denidos (até cinco pedaços). Evitar

grácos de pizza em 3D, com vários

pedaços. Construi-los como na

gura 2.

10. Diagrama de dispersão: Ferramenta

que nos permite avaliar o efeito de

uma variável explicativa quantitativasobre um desfecho. Serve tanto para

visualizarmos funções matemáticas

teóricas (gura 9) quanto funções

de relacionamentos empíricos já

conhecidos (gura 10), mas a sua

grande utilidade é quando tentamos

estabelecer a associação entre

duas variáveis quantitativas (gura

11). A gura 9 é um diagrama de

dispersão mostrando uma relação

completamente teórica entre duas

variáveis (x e y). Como é uma relação

exata, somente é desenhada a linha

que liga os pontos do gráco. Na

gura 10 é desenhada uma relação

empírica, no caso a lei de Abrams,

que relaciona a resistência do

concreto à compressão (R) com o

fator água/cimento (fx) da seguinte

forma: R = α/βfx

. Nessa gura, α eβ foram denidos como 100 e 10

respectivamente, de tal forma que

a equação cou R = 100/10fx, fx

variando de 0 a 3. Já a gura 11

mostra o uso “nobre” dos diagramas

de dispersão, quando tentamos

explorar, criar e propor uma nova

relação empírica entre duas variáveis

quantitativas. Nesse exemplo,

ao invés de aplicarmos a relação

empírica de Abrams, usamos dados

reais de fator fx de água/cimento

e a resistência medida em 28 dias

de uma amostra de concretos

(desfecho). Ao inserirmos umalinha de tendência linear, estamos


35/173unidade 2

028


FIGURA 9 – Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando arelação de x e sua função f(x) = 2x3 – cos(x+1) – 3. Nesse caso o diagrama está mostrando

uma relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial.



FIGURA 10 – Diagrama de dispersão com marcadores e linhas contínuas mostrandoa relação empírica da lei de Abrams que relaciona a resistência à compressão

de concretos, medida em megapascal (MPa), e o fator água/cimento (fx),determinado pela razão do peso de água pelo peso em cimento do concreto.

sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão

do concreto se relaciona com fx por meio de uma equação de reta.


36/173unidade 2

029


FIGURA 11 – Diagrama de dispersão somente com os marcadores e semlinhas contínuas mostrando uma possível relação linear entre resistência à

compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx).

Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar aResistência à Compressão do Concreto de Alto Desempenho. Disponível em: http://www2.ucg.br/nupenge/pdf/Dario.pdf . Acesso em 14 maio 2015.

A gura 12 mostra possíveis padrões de relacionamento entre uma variável explicativa (X)

e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de dispersão,

você deve interpretar o gráco gerado em um dos quatro padrões mostrados na gura 12. A)

Correlação positiva: Em média, quando X aumenta, Y também aumenta, numa tendência em

“linha reta”. Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B)

Correlação negativa: Em média, quando X aumenta, Y tende a diminuir. Por exemplo, quanto

mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilinear: Em média,

quando X aumenta, Y também aumenta, mas não numa tendência em “linha reta”, e sim“em curva”. Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y)

e a explicativa (X) for uma equação de segundo grau (parábola) ou cúbica, de grau três. D)

Sem associação: Também é um padrão importante, pois indica que não há relação entre as

duas variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por

exemplo, frequentemente se observa que a idade do aluno não está associada à sua nota na

maioria das disciplinas que ele cursa.

http://www2.ucg.br/nupenge/pdf/Dario.pdfhttp://www2.ucg.br/nupenge/pdf/Dario.pdfhttp://www2.ucg.br/nupenge/pdf/Dario.pdfhttp://www2.ucg.br/nupenge/pdf/Dario.pdf


37/173


38/173unidade 2

031


Fonte: Elaborado pelo autor



Exemplo 2 - Histograma fortemente

assimétrico: A frequência dos dados

decresce rapidamente num dos lados emuito lentamente no outro, provocando uma

assimetria na distribuição dos valores. A

distribuição dos salários numa empresa é um

exemplo comum de histograma assimétrico:

muitas pessoas ganham pouco e poucas

pessoas ganham muito (a). A situação (b),

apesar de mais rara, também pode acontecer.

Exemplo 3 - Histograma tipo despenhadeiro:

O histograma termina abruptamente em

um ou nos dois lados, dando a impressão

de que faltam dados. Na verdade, essa

possivelmente deve ser a explicação para

histogramas com esse formato: os dados

muito pequenos e/ou muito grandes foram

eliminados da amostra.

Exemplo 4 - Histograma com dois picos:

Ocorrem picos na distribuição e a frequênciaé baixa entre os picos. Possivelmente, os

dados se referem a uma mistura de valores

de diferentes populações, devendo ser

avaliados com cuidado. Se houve mistura

dos dados, é melhor separá-los.



39/173unidade 2

032


Exemplo 5 - Histograma tipo platô: As

classes de valores centrais apresentam

aproximadamente a mesma frequência.

Essa situação também sugere mistura de

valores de diferentes populações.

Fonte: Elaborado pelo autor.Fonte: Elaborado pelo autor.


Exemplo 6 – Histograma com uma pequena

ilha isolada: Alguns valores isolados têm

frequência elevada, formando uma espécie

de ilha. Também pode ter ocorrido uma

mistura de dados.

Exemplo 7 – Histograma tipo serrote:

As frequências de valores se alternam

formando vários dentes. Pode indicar algum

problema na obtenção (leitura) dos dados.

Vamos usar como exemplo de dados para

a construção de um histograma notas de

amostra de alunos em uma prova de Cálculo

Diferencial (n=120):


40/173unidade 2

033


FIGURA 13 – Dados brutos de notas de amostra de alunos em prova deCálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.


0 0 0 1 5 5 6 9 13 17 18 21

0 0 0 1 5 5 6 10 13 17 18 21

0 0 0 1 5 5 6 11 14 17 20 22

0 0 0 2 5 5 9 11 14 17 20 22

0 0 0 2 5 5 9 12 14 17 20 24

0 0 0 3 5 5 9 12 14 17 20 24

0 0 0 3 5 5 9 13 15 17 20 25

0 0 0 5 5 6 9 13 15 17 20 25

0 0 0 5 5 6 9 13 17 18 21 25

0 0 1 5 5 6 9 13 17 18 21 25

Passo 1 - Determinar valores mínimo, máximo e amplitude (R):

mín = 0; máx = 25; R = máx – mín = 25 – 0 = 25

Passo 2 – Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. Onúmero de classes deve ser algo entre 5 a 20 subintervalos. Regra empírica: k ≈ √n e

5 ≤ k ≤ 20 . No exemplo, n ≈ 120; k ≈ √120 ≈ 10.

Passo 3 – Determinar o tamanho de cada subintervalo (h). h ≈ R

. No exemplo, h ≈R

≈25

. ≈ 2,5

Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10

classes de tamanho 2,5.

Passo 4 - Contar a frequência de valores em cada classe. No exemplo, começando em zero

(valor mínimo), teremos uma tabela de distribuição de frequências, base para construção do

histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos vericar na base de dados quantos

valores se encaixam em cada classe.

Observe na figura 14 o símbolo --|, ele indica que o valor à direita faz parte do intervalo,

mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima

de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizadossomente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos

k k 10


41/173unidade 2

034


entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode

ser usado no primeiro subintervalo e possibilita que incluamos o valor 0,0 na primeira

classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de

valores iguais a zero. Eventualmente você poderá se deparar com tabelas construídas

com o símbolo “invertido”, |--, que indica valores maiores ou iguais ao número colocado à

esquerda e menores que o valor colocado à direita. Por exemplo, 30 |-- 40 implica valores

maiores ou iguais a 30 e menores que 40. Usei a notação --| que é o padrão usado pelo

Excel na construção de histogramas (figura 14).

Lembre-se de que o total, a soma da coluna “Frequência”, deve ser exatamente o tamanho

da amostra (n). Além da coluna de frequência absoluta, podemos calcular a frequência

relativa ou percentual de cada classe (em relação ao total de valores) e a frequência

acumulada ou percentual acumulado, útil para a construção de gráficos de Pareto (que

será explicado mais à frente).

FIGURA 14 – Tabela de distribuição de frequências das notas de amostra de alunos emprova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.


0,0 |--| 2,5 35 29% 29%

2,5 --| 5,0 22 18% 48%

5,0 --| 7,5 6 5% 53%

7,7 --| 10,0 9 8% 60%

10,0 --| 12,5 4 3% 63%

12,5 --| 15,0 12 10% 73%

15,0 --| 17,5 10 8% 82%

17,5 --| 20,0 10 8% 90%20,0 --| 22,5 6 5% 95%

22,5 --| 25,0 6 5% 100%

Total 120 100%

U

NOTA FREQUÊNCIA PERCENTUAL PERCENTUAL ACUMULADO


42/173unidade 2

035


FIGURA 15 – Histograma com a distribuição das notas na prova de CálculoDiferencial: os dados mostram um padrão de distribuição assimétrico,

semelhante àquele apresentado no histograma do exemplo 2.


12. Gráco de Pareto: Esta ferramenta é ótima para ajudar na denição de prioridades,

quando precisamos fazer um plano de ação para melhoria de qualidade de um

serviço ou produto. Por exemplo, se um determinado problema ou defeito pode

ocorrer de diversas formas, como escolher os tipos de defeito prioritários para serem

corrigidos? A ideia do “efeito Pareto” é que 80% dos problemas estão associados

a 20% dos problemas. Nem sempre esse efeito ocorre, mas esse é o objetivo do

gráco de Pareto: vericar quais itens ou problemas ocorrem com maior frequência

num determinado cenário. Por exemplo, numa amostra de 400 defeitos de fabricação

de uma peça mecânica, foram observados 16 tipos de defeito: rebarbas, diâmetromenor, diâmetro maior, sem usinagem, altura menor, trincas, altura maior, borda

muito na, enviesado, base maior que o topo, borda muito grossa, cor muito escura,

estrutura pouco flexível, base menor que o topo, cor muito clara e estrutura frágil. Ao

se construir um gráco de Pareto com os dados (gura 16), observa-se que a maioria

absoluta (66%) dos defeitos se refere somente a três tipos: rebarbas (32%), diâmetro

menor (21%) e diâmetro maior (13%). Ou seja, ao fazer um plano de ação para corrigir

possíveis defeitos de fabricação dessa peça, “ignore” 13 defeitos e priorize suas

ações em apenas esses três. Fazendo isso, 66% do problema estará corrigido!


43/173unidade 2

036


FIGURA 16 – Gráco de Pareto com a frequência de defeitos de fabricaçãode uma peça mecânica: 66% dos defeitos são somente de três categorias prioritárias

para um plano de ação para melhorar a qualidade do processo de fabricação(rebarbas, diâmetro menor e diâmetro maior).


13. Box-plot: Este gráco, também conhecido como diagrama em caixa ou “caixa e

bigode”, informa sobre a distribuição dos dados. Somente se aplica a variáveis

quantitativas (gura 17), informando o menor valor (pequena linha horizontal

inferior) e valor máximo (pequena linha horizontal superior). A distância entre o

valor mínimo e a aresta inferior da caixa cinza é a amplitude em que ocorrem os

25% dos valores mais baixos. Este é conhecido como 1º quartil, sendo delimitado

pelo percentil 25 dos dados. As duas caixas, cinza e vermelha, mostram onde

estão 50% dos dados. A distância entre a aresta superior da caixa vermelha e a

pequena linha horizontal superior, que equivale ao máximo dos dados, refere-se ao

intervalo em que ocorrem 25% dos maiores valores da variável. A linha separando

as duas caixas representa a mediana, que expressa o valor do meio se todos os

dados fossem colocados em ordem. Assim como os histogramas, o box-plot nos

informa sobre a maneira de distribuição dos dados, tendo a vantagem de permitir

a visualização de grupos de dados (gura 18). Nessa gura, é apresentado um

resumo comparativo da taxa de aprovação de oito disciplinas de ciclo básico decursos de Engenharia.


44/173unidade 2

037


FIGURA 17 – Exemplo de box-plot para uma variável quantitativa genérica: quanto maior otamanho das duas caixas, vermelho e cinza, maior a variabilidade e dispersão dos dados.



FIGURA 18 – Box-plot com as taxas de aprovação de oito disciplinas de ciclo básico de

cursos de Engenharia: Desenho e Estatística se destacam das outras disciplinas, que têmtaxas de aprovação bem menores e mais heterogêneas. Cálculo Integral é a disciplina commenor taxa de aprovação e maior variabilidade dos dados.


45/173unidade 2

038


SÍNTESE TABULARDE DADOS

Na análise exploratória de dados, em última instância, todos os resultados são apresentados

ou na forma de guras ou de tabelas. Assim como nos grácos, invista no título da tabela e

sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando?

Onde? Sugerimos que a interpretação das informações na tabela também seja colocada no

próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas

realmente conhecidas. A tabela 4 é um exemplo de formato de tabelas, apresentando modelo

para síntese de variáveis categóricas de uma base de dados.

TABELA 4 – Análise exploratória de variáveis categóricas: a síntese de variáveiscategóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas

categorias, a frequência de valores em cada categoria e os respectivos percentuais.


Conceito Aprovado 2287 49%

Reprovado 2386 51%

Local do ensino médio Instituição privada 1509 32%

Instituição pública 3164 68%

Sexo Feminino 1948 42%

Masculino 2725 58%

Turno Manhã 1153 25%

Noite 3520 75%

VARIÁVEL CATEGORIA FREQUÊNCIA PERCENTUAL

SÍNTESE NUMÉRICADE DADOS

A síntese numérica de variáveis categóricas é muito simples, basta que você apresente suas

categorias, a frequência de valores em cada categoria e os respectivos percentuais, tal como

apresentado na tabela 3. Já a síntese de variáveis quantitativas é mais ampla e envolveresumir dois aspectos:


46/173unidade 2

039


1) um valor típico ou característico para a variável;

2) uma medida do grau de variabilidade ou de dispersão dos dados.

1. Valor típico ou medida de posição: O objetivo é encontrar o valor característico, aquele

que melhor represente os dados. Vamos discutir aqui as duas possibilidades mais

aplicadas a problemas de pequeno e médio porte na área de Ciências Exatas e

Engenharia: a média ( X ) e a mediana ( Md ). A média é obtida pelo resultado da

soma de todos os valores, dividido pelo total de dados ou tamanho da amostra (n).

Matematicamente, a média é obtida por:

Já a mediana, é na verdade uma medida de ordem, indicando o valor “do meio”, aquele que

“divide os dados em duas metades”:

Passo 1 – Colocar os dados em ordem crescente.

Passo 2 – Encontrar o “valor do meio”, isto é:

se n, o tamanho da amostra, é ímpar, então Md é o valor central; se n é par, então Md é a média dos dois valores centrais.

Exemplo A (n=11), dados já ordenados:

{3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}

Para a mediana, como são 11 valores (n é ímpar) e a metade de 11 é 5,5, então Md é o 6º

valor, ou seja, o “valor do meio” (lembre-se de que os dados já estão ordenados):

Md = 9

Exemplo B (n=18), dados já ordenados:

{17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}

X = ∑ X in

i =1

n


47/173unidade 2

040


Para a mediana, como são 18 valores (n

é par) e a metade de 18 é 9, então Md é a

média entre o 9º e o 10º valor, ou seja:

Md =30

+

40

= 352

ATENÇÃO

Não se esqueça, para obter a mediana é

necessário, antes de tudo, colocar os dados

em ordem crescente. Não ordenar os dados é a

principal fonte de erro no cálculo da mediana!

Algumas pessoas se perguntam: “Quantas

casas decimais devo apresentar no

resultado?”. Quanto menos casas decimais

você conseguir apresentar nos seus

resultados, melhor para o entendimento

da informação! Apresente seus resultados

usando o mesmo número de casas decimais

que os dados originais ou, no máximo, uma

casa decimal além do original, como foi

feito nos cálculos anteriores.

Outra questão é “Quando escolher entre

média e mediana para melhor representar

um conjunto de dados?” ou “Em quesituações resumir uma variável quantitativa

usando a média e quando a mediana é

melhor para representar os dados?”. Para

essa resposta, é preciso seguir uma regra

prática:

• Se média e mediana forem

semelhantes, então usar a média

para representar os dados.

• Se média e mediana forem muito

diferentes, então usar a mediana

para representar os dados.

Além de se basear nas regras acima, que

exigem uma interpretação caso a caso do

que seja “média e mediana muito diferentes”,

você poderá construir histogramas e, pelo

padrão do gráco, escolher uma ou outra

medida para representar os dados. Nos

modelos de histograma colocados notópico anterior, os exemplos 1 (simétrico),

3 (despenhadeiro) e 5 (platô), a média

é a melhor medida de posição. Já nos

histogramas dos exemplos 2 (fortemente

assimétrico) e 6 (ilha isolada), a mediana é

a melhor medida de posição que caracteriza

o conjunto de dados.

2. Medida do grau de variabilidade ou

de dispersão dos dados: O objetivo

é quanticar o quanto os dados são

heterogêneos, são imprevisíveis,

em suma, quanticar o grau de

variabilidade de uma variável

quantitativa.


48/173unidade 2

041


A princípio, podemos medir a variabilidade de um dado informando o seu valor mínimo (mín) e

o valor máximo (máx), o que nos leva à sua amplitude (R): R = máx – mín.

Entretanto, essa é uma forma muito “simplista”, pois envolve somente dois valores da variável,

o mínimo e o máximo, ignorando todos os outros. Para uma medida mais adequada de

variabilidade, uma forma é calcular a sua média ( X ) e, em seguida, calcular quanto os dados

estão distantes da média, em média! Soa estranho, mas a ideia faz sentido. Por exemplo, seja

uma amostra de n = 5 pessoas e seus respectivos números de lhos:

Pessoa A B C D E

Número de lhos 0 1 1 2 3

Qual o número médio de lhos?

Isso mesmo, essas pessoas têm, em média, 1,4 lhos! Você deve estar se perguntado, “como

assim... um e 0,4 lho? Não existe 0,4 lho!!” Não se preocupe, a média funciona como ummodelo e, como tal, é uma aproximação da realidade. A média é o melhor valor representativo

para esses dados e, caso seja necessário resumir toda a informação num único valor, ela

deve ser usada para substituir o verdadeiro número de lhos de cada pessoa. Bom, voltando

à variabilidade, como calcular o quanto os dados estão distantes da média, em média? Para

cada indivíduo, devemos subtrair o valor observado pela média, calculando um “resíduo”:

-1,4 -0,4 -0,4 +0,6 +1,6

Pessoa A B C D E


Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =

O resíduo mede a distância de cada valor em relação à média dos dados, ou seja, é uma

medida de quanto os dados estão distantes da média. Para resumir os resíduos num únicovalor, o ideal é então calcular uma média dos resíduos, que refletiria o quanto os dados estão

X = 0 + 1 + 1 + 2 + 3

=7

= 1,4.5 5


49/173unidade 2

042


distantes da média, em média! Infelizmente, se zermos essa média, ela sempre dará zero,

pois os resíduos negativos anulam os positivos, dando uma soma dos resíduos igual a zero.

Para resolver esse problema, ao invés de simplesmente calcular os resíduos, devemos calcular

o resíduo elevado ao quadrado:

-1,4 -0,4 -0,4 +0,6 +1,6

1,96 0,16 0,16 0,36 2,56

Pessoa A B C D E


Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =

Resíduo elevado (-1,4)2

= (-0,4)2

= (-1,4)2

= (+0,6)2

= (+1,6)2

=ao quadrado

Se somarmos os resíduos elevados ao quadrado teremos a soma dos quadrados dos resíduos

( ∑ ( X i - X )2 ), uma métrica que aparece em várias outras análises estatísticas. Quanto maior

a soma dos quadrados dos resíduos, maior a variabilidade dos dados! Para resumir essa

métrica, calculamos a sua média, que é chamada de variância amostral ( s2 ):

n

i =1

s2 = ∑ ( X i - X )2ni =1

n - 1

Nessas fórmulas, X i representa cada um dos dados individuais, X é a média e n o tamanho da

amostra ou total de dados. Observe que, no denominador, dividimos a soma dos quadrados

dos resíduos por (n - 1) e não por ( n ). Isso é feito porque nossos dados foram obtidos por

meio de amostragem e não por censo. Ou seja, sempre que tivermos dados amostrais, que é

a situação mais comum, calcularemos a variância amostral dividindo a soma dos quadradosdos resíduos por (n - 1). Se tivermos acesso à população toda, ou melhor, se zermos um

censo (o que é muito raro), então poderemos calcular a variância populacional (Ợ2 ), dividindo

a soma dos quadrados dos resíduos por (n):

n

Ợ2

= ∑ ( X i - X )2n

i =1


50/173unidade 2

043


É importante se lembrar dessa diferença, pois ela aparece nas calculadoras cientícas e no

Excel, que permite o cálculo tanto de s2 quanto de Ợ2. Na prática (e na dúvida), sempre calcule

a variância amostral (s2).

Uma outra métrica de variabilidade é o desvio padrão amostral (s). Ele é a raiz quadrada da

variância e tem uso mais difundido que sua “mãe” (s2), porque, ao tirarmos a raiz quadrada

da variância, o resultado tem a mesma unidade de medida que a média e os dados originais.

Assim, no exemplo anterior, do número de lhos da amostra de n=5 pessoas, a variância

amostral é:

O desvio padrão amostral é:

É muito comum, ao divulgarmos uma síntese de uma variável quantitativa, apresentarmos a

sua média, seguida do seu desvio padrão no formato ( X = s ). Ou seja, no exemplo anterior,

essas pessoas têm 1,4 = 1,1 lhos.

Cuidado, isso não signica que os dados variem somente dentro do intervalo X = s , de 1,4 –

1,1 = 0,3 até 1,4 + 1,1 = 2,5 lhos! Essa é apenas uma forma usada para apresentar ambos os

valores, de média ( X ) e desvio padrão (s). Na verdade, se os dados tiverem um histograma

de forma simétrica, aproximadamente 95% dos dados ocorrerão dentro do intervalo denido

pela média mais ou menos dois desvios padrões ( X = 2s ), e 99,7% dentro da média mais ou

menos três desvios padrões ( X = 3s ). Se não tivermos como avaliar a forma de distribuição

dos dados, ou seja, se não soubermos o padrão do histograma dos dados, pelo menos 89%

dos dados cairão no intervalo X = 3s .

Supondo que você já consiga calcular o desvio padrão ( s ) de um conjunto de dados, comointerpretar o seu resultado? É fato que, quanto maior o desvio padrão, maior a variabilidade


51/173unidade 2

044


dos dados. Mas, o que é um desvio padrão grande? Essa resposta depende da magnitude da

média ( X ), isto é, para sabermos se um desvio padrão é grande ou pequeno, vai depender do

valor da média. Por exemplo, sejam os resultados das provas de um atleta, resumidos abaixo:

Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos;

Salto em altura: X = 2,2 e s = 0,8 e metros.

Em qual prova, salto em altura e tempo para 100 m, o atleta é mais heterogêneo, tem os

resultados com maior variabilidade? Se você responder essa questão comparando os dois

desvios padrões, estará cometendo dois erros:

1º Não se pode comparar diferentes unidades de medida (s versus m);

2º Deve-se considerar a magnitude da média ao se avaliar um desvio padrão.

Então, como efetivamente obter o grau de variabilidade de uma variável? Isso é feito pelo

coeciente de variação (cv ), uma relação percentual entre o desvio padrão e a média:

cv =s

x 100 (%).

Além de ser uma medida adimensional, o que possibilita comparações entre diferentes

variáveis, o CV pode ser interpretado de forma absoluta:

x

QUADRO 2 – Denição e interpretação do grau de variabilidade de um conjunto de dados.


CV 100% Neste caso, o desvio padrão é maior que a média. Dados comvariabilidade extrema, muito heterogênea. A variável tem umcomportamento caótico, completamente imprevisível.

CV INTERPRETAÇÃO


52/173unidade 2

045


No caso do atleta, teremos os seguintes valores de coeciente de variação:

Tempo para correr 100 metros: cv =2,1

x 100 = 19%;

Salto em altura: cv =0,8

x 100 = 36%;

Podemos dizer então que o atleta tem pouca variabilidade nos seus resultados da corrida de

100 m e muita variabilidade nos saltos em altura.

11,5

2,2

LEMBREQuando você zer uma análise exploratória de dados, lembre-se de corrigir os grácos produzidos pelo

Excel. Lembre-se também de colocar os títulos das tabelas e das guras o mais informativo possível.

E, ao calcular o desvio padrão, não se esqueça de considerar que você tem dados amostrais. Conra

na sua calculadora e/ou no próprio Excel qual a fórmula que está sendo usada. Resuma os dados por

meio de grácos, números e tabelas. Esse é o primeiro e fundamental passo para entender os dados e

o problema investigado.

A análise exploratória dos dados é o primeiro passo para que você se torne especialista na

área investigada. Suas ferramentas de análise não produzem conclusões denitivas sobre um

problema, mas possibilitam que hipóteses sejam construídas de forma consistente.

APLICAÇÃO PRÁTICA

O artigo “Avaliação do impacto do Cálculo Zero no desempenho de alunos ingressantes de cursos de

Engenharia”, apresentado em 2013 por COUTO e cols. no COBENGE - Congresso Brasileiro de Educação

em Engenharia, teve como objetivo avaliar o impacto do “Cálculo Zero” no desempenho de alunos

ingressantes em cursos de Engenharia e Ciência da Computação, tanto em termos da nota nal em

Cálculo Diferencial e Geometria Analítica e Álgebra Linear (GAAL), quanto na chance de aprovação

nessas disciplinas. As perguntas-chave do trabalho eram: O “Cálculo Zero” afeta de forma signicativao resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL? Vale a pena investir


53/173


54/173unidade 2

047


FIGURA 20 – Gráco de dispersão considerando o percentual de faltas/ausênciasàs aulas de Cálculo Diferencial e a nota nal do aluno nessa disciplina: análiseconsiderando somente alunos em que foram registradas pelo menos uma faltaàs aulas durante o semestre. Há uma forte correlação negativa (r= -0,77) entre

ausências às aulas e a nota nal do aluno: quanto mais faltas às aulas o aluno tiver,

menor a sua nota nal em Cálculo Diferencial. IET/ UniBH, 1º semestre de 2011.

Fonte: COUTO et al., 2013.

Além de grácos, tabelas com a síntese numérica dos dados coletados no estudo também foram

apresentadas no artigo. O uso dessas ferramentas estatísticas de análise de dados mostrou de forma

inequívoca que valia a pena implementar ações como o “Cálculo Zero”, pois o fato de se ofertar essa

disciplina afetava o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL.

Esse é um exemplo real de como usar a análise exploratória dos dados e outras técnicas de

Estatística e Probabilidades para se entender a fundo um problema, resolvendo-o e se tornando um

especialista na área.

Referência:

XLI CONGRESSO BRASILEIRO DE EDUCAÇÃO EM ENGENHARIA, 2013. Avaliação do Impacto do Cálculo Zero noDesempenho de Alunos Ingressantes de Cursos de Engenharia. Paraná: FADEP, 2013. Disponível em: . Acesso em 14 maio 2015.

http://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdf


55/173unidade 2

048


REVISÃO

Vimos nesta unidade os principais tópicos

da análise exploratória de dados, também

denominada de Estatística Descritiva:

Síntese gráca: Uma gura vale mais que

mil palavras! Isso é verdade, entretanto

um gráco vale mais que mil palavras se

e somente se ele for desenhado de forma

clara, correta e concisa. Sempre desenhe

grácos a partir de seus dados, mas tentefazê-los de tal forma que a frase “basta

olhar para entender” seja válida. Os grácos

mais úteis para análise de dados de

experimentos de pequeno e médio porte na

área de Ciências Exatas e Engenharia são:

grácos de pizza, barras, colunas, linha,

séries históricas, histograma, gráco de

Pareto, gráco misto, de coluna e de linha,

diagrama de dispersão e box-plot. Na

prática devemos construir grácos usando

ferramentas computacionais como o Excel.

Síntese tabular de dados: Na análise

exploratória de dados, em última instância,

todos os resultados são apresentados ouna forma de guras ou de tabelas. Assim,

invista no título da tabela e sempre coloque

respostas claras para pelo menos quatro

perguntas: O que? Quem? Quando? Onde?

Também sugiro que a interpretação das

informações na tabela seja colocada no

próprio título. Se necessário, coloque notas

explicativas, usando siglas somente para

coisas realmente conhecidas.

Síntese numérica: O resumo de uma

variável categórica é muito simples, basta

que você apresente suas categorias, a

frequência de valores em cada categoria

e os respectivos percentuais. Já a síntese

de variáveis quantitativas é mais ampla e

envolve resumir dois aspectos:

1) Um valor típico ou característico para a

variável, que é denido pela média ( X ) e

pela mediana (Md). Se média e mediana

forem semelhantes, então a média deve

ser usada para representar os dados.

Entretanto, caso haja discrepância muito

grande entre média e mediana, então se

deve usar a mediana para representar os

dados;

2) Uma medida do grau de variabilidade ou

de dispersão dos dados, calculada pelo

desvio padrão amostral ( ) e o coeciente

de variação (CV).

PARA SABER MAIS

Caso você deseje aprofundar sobre as questões

discutidas nesta unidade, leia os capítulos 2 e 3

do livro texto: LEVINE, David M. et al. Estatística:

teoria e aplicações: usando Microsoft Excel em

português. 6. ed. Rio de Janeiro: LTC, 2012,


56/173


57/173unidade 3

050

INTRODUÇÃO ÀTEORIA DE PROBABILIDADES

Aorigem da teoria das probabilidades é comumente associada à questões colocadas

por MÉRÉ (1607-1684) a PASCAL (1623-1662). Todavia, existem autores que

sustentam que o cálculo das probabilidades iniciou-se na Itália, com PACCIOL

livro estatística probabilidades ead

Documents