livro estatística probabilidades ead
TRANSCRIPT
-
8/18/2019 Livro Estatística Probabilidades EAD
1/173
-
8/18/2019 Livro Estatística Probabilidades EAD
2/173
Bráulio Roberto Gonçalves Marinho Couto
Janaína Giovani Noronha de Oliveira
Octávio Alcântara Torres
Reinaldo Carvalho de Morais
ESTATÍSTICA E PROBABILIDADES
Belo Horizonte
Junho de 2015
-
8/18/2019 Livro Estatística Probabilidades EAD
3/173
COPYRIGHT © 2015
GRUPO ĂNIMA EDUCAÇÃOTodos os direitos reservados ao:
Grupo Ănima Educação
Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização
por escrito da detentora dos direitos, poderá ser reproduzida ou transmitida, sejam quais forem os meios
empregados: eletrônicos, mecânicos, fotográcos, gravações ou quaisquer outros.
Edição
Grupo Ănima Educação
Vice Presidência
Arthur Sperandeo de Macedo
Coordenação de Produção
Gislene Garcia Nora de Oliveira
Ilustração e Capa
Alexandre de Souza Paz Monsserrate
Leonardo Antonio Aguiar
Equipe EaD
-
8/18/2019 Livro Estatística Probabilidades EAD
4/173
CONHEÇAO AUTOR
CONHEÇAA AUTORA
Bráulio Roberto Gonçalves Marinho Couto é
doutor em Bioinformática, mestre em Ciência
da Computação, especialista em Estatística,
bacharel em Engenharia Química e técnicoem Química. Atuante nas áreas de Estatística,
Cálculo Numérico, Informática em Saúde,
Epidemiologia Hospitalar e Bioinformática.
Professor do Centro Universitário de Belo
Horizonte (UniBH).
Janaína Giovani Noronha de Oliveira
é mestre em Estatística e graduada
em Licenciatura em Matemática com
Habilitação em Física. Possui experiênciacomo docente na área de Matemática
e Estatística do Ensino superior e
médio. Experiência com orientação de
Monograas.
-
8/18/2019 Livro Estatística Probabilidades EAD
5/173
-
8/18/2019 Livro Estatística Probabilidades EAD
6/173
Egressos de cursos de Engenharia e
Tecnologia são prossionais que resolvem
problemas. E como isso ocorre? Pela
aplicação eciente do método cientíco.
Pois bem, é disso que se trata essa
disciplina: apresentar ferramentas
estatísticas que possibilitarão a você
transformar-se num especialista emqualquer área do conhecimento e, portanto,
apto a resolver problemas. A disciplina é
dividida em oito unidades cujo objetivo é
introduzir o aluno na área da Estatística
e Probabilidades, tornando-o capaz de
planejar e de executar experimentos de
pequeno e médio porte nas áreas de
Ciências Exatas e de Engenharia. Além de
fazer a análise exploratória dos dados e de
realizar inferências, por meio da tomada de
decisão na presença de incerteza.
A Unidade 1 apresenta denições
fundamentais para a correta compreensão
do processo de coleta e de análise de dados.Conceitos sobre população e amostra,
censo e amostragem, e variáveis são
discutidos nessa unidade. A Unidade 2 trata
da análise exploratória de dados, quando
são apresentadas técnicas de Estatística
Descritiva. O objeto dessa unidade,
bastante intuitiva, é trabalhar a síntese
numérica, gráca e tabular dos dados.
A ideia é usar ferramentas como o Excel
para construir tabelas e grácos, como
histograma, diagrama de dispersão, Pareto
e calcular valores como média, mediana,
desvio padrão, e coeciente de variação.
Na Unidade 3 são introduzidos conceitos
básicos de probabilidades, cruciais para
que se entenda o processo de tomadade decisão na presença de incerteza. A
Unidade 4 é uma continuação da terceira
unidade, são apresentados os modelos
probabilísticos mais importantes para se
modelar problemas de pequeno e médio
porte na área de Engenharia e Tecnologia.
A partir da Unidade 5 caminhamos para
a área “nobre” da Estatística, que envolve
as inferências, isto é, o processo de
generalização de resultados parciais,
observados em amostras, para toda a
população envolvida num problema. Nessa
unidade é discutida a forma de obter os
intervalos de conança, tanto para médiaquanto para proporção. Na Unidade 5
discute-se, por exemplo, como o resultado
de uma pesquisa eleitoral é calculado e o
signicado do intervalo denido pela soma
e subtração de uma “margem de erro”.
A Unidade 6 é voltada para o planejamento
de experimentos, quando é apresentado,
APRESENTAÇÃO DA DISCIPLINA
-
8/18/2019 Livro Estatística Probabilidades EAD
7/173
por exemplo, como calcular o tamanho
de uma amostra. Em alguns livros este
item é colocado na primeira unidade, o
que tem certa lógica por tratar da coleta
de dados, primeira etapa de qualquer
análise estatística. Entretanto, como são
necessários conceitos probabilísticos e de
inferência para entender o planejamento
de experimentos, optamos por colocar
essa unidade logo após a discussão sobre
intervalos de conança.
As Unidades 7 e 8 fecham a disciplina,
apresentado as ferramentas mais úteis
para que você nalmente se transforme
num especialista em uma área qualquer e,
portanto, realmente apto a resolver seus
problemas. Na Unidade 7 são discutidos
os métodos para fazer e interpretar testesde hipóteses, num contexto uni variado
e, na Unidade 8, discute-se métodos de
correlação e regressão, introduzindo a
análise multivariada.
Ao longo das oito unidades, procuraremos
apresentar uma abordagem baseada
em PPL – Aprendizagem Baseada em
Problemas, além de usarmos como
ferramentas computacionais o Microsoft®
Excel e o software de domínio público,
EpiInfo.
Bom trabalho!
Bráulio, Janaína, Octávio e Reinaldo.
-
8/18/2019 Livro Estatística Probabilidades EAD
8/173
UNIDADE 1 003
Introdução à Estatística 004Conceitos básicos 006O papel das variáveis numa base de dados: identicação,auxiliares, variáveis explicativas e variável reposta (desfecho) 010Tipos de variáves 013Uso do excel como um sistema de gerenciamento de dadose dos formulários do google docs para coleta de informações 015Revisão 017
UNIDADE 2 019Análise exploratória de dados 020Síntese gráca de dados 021Síntese tabulador de dados 038Síntese numérica de dados 038Revisão 048
UNIDADE 3 049Introdução à teoria de probabilidades 050Probabilidade clássica e probabilidade frequentista 053Leis básicas de probabilidade 053União e interseção de eventos 054Tabelas de contigência 056Eventos independentes 057Teorema de Bayes 058Revisão 061
UNIDADE 4 063Modelos probabilísticos 064Varieaveis aleatórias 065Modelos probabilísticos 071Distribuição binomial 071Distribuição Poisson 072Distribuição normal 072Revisão 076
-
8/18/2019 Livro Estatística Probabilidades EAD
9/173
UNIDADE 5 077Estimação de médias e proporções 078Teorema central do limite 079Estimação pontual e por intervalos de conança para umamédia populacional 082
Estimação pontual e por intervalos de conança para umaproporção populacional 089Uso do excel no cálculo de intervalos de conança paramédia e proporção 091Introdução ao programa Epiinfo 094Revisão 095
UNIDADE 6 098Planejamento de experimentos 099Cálculo de tamanho de amostra baseado em intervalos
de conança para uma proporção 100 Cálculo de tamanho de amostra baseado em intervalosde conança para uma média 103Planejamento de experimentos 106Revisão 113
UNIDADE 7 115
Testes de hipóteses 116A construção e o signicado de uma hipótese estatística 117Testes para uma amostra 118Testes para duas ou mais amostras 133Revisão 137
UNIDADE 8 139Análise de correlação e regressão 140Análise de correlação 141Regressão linear simples 149Regressão linear múltipla 157Revisão 160
REFERÊNCIAS 117
-
8/18/2019 Livro Estatística Probabilidades EAD
10/173
-
8/18/2019 Livro Estatística Probabilidades EAD
11/173unidade 1
004
INTRODUÇÃO ÀESTATÍSTICA
Podemos entender o método estatístico como um processo para obter, apresentar e
analisar características ou valores numéricos, identicando padrões que possibilitam
a tomada de decisão em situações de incerteza. Pode acreditar, se você aplicar o
método estatístico para a análise e solução de problemas, muito rapidamente se tornará um
especialista de qualquer área do conhecimento! Num mundo real, completamente cercado
de incertezas, ser capaz de identifcar padrões de comportamento de pessoas, projetos,
produtos, serviços, etc pode transformá-lo num “mago”.
Entretanto, antes de você transformar-se num “mago”, é necessário um entendimento
adequado do método estatístico, que tem suas “armadilhas”. Costumo dizer que Estatística não
é Matemática... é muito mais “difícil”. Na verdade, Estatística é uma das áreas da Matemática
que, por sinal, é a Ciência cuja aplicação no mundo real possibilitou ter uma vida incrivelmente
confortável. Bom, quando armo que “Estatística não é Matemática”, quero dizer que, na
Matemática que você aprendeu no Ensino Fundamental e Médio, os problemas têm usualmenteuma única forma de serem resolvidos e devem todos chegar ao mesmo resultado (uma única
resposta correta). Na Estatística, os problemas têm várias formas de serem resolvidos, podem
chegar a resultados diferentes e todos estão corretos! Isso ocorre porque a Estatística requer
a habilidade de considerarmos as coisas dentro de uma perspectiva probabilística, o que vai
completamente contra a conceituação usual dos problemas em simplesmente certo ou errado.
Não buscaremos a “verdade absoluta”, mas padrões de comportamento que nos possibilitarão
tomar decisões com alto grau de conança.
-
8/18/2019 Livro Estatística Probabilidades EAD
12/173
ESTATÍSTICA E PROBABILIDADES
unidade 1
005
Para melhor entendermos o que será discutido, o método estatístico será dividido em quatro
grandes áreas:
1) amostragem e coleta de dados;
2) análise exploratória de dados (estatística descritiva);
3) teoria de probabilidades;
4) decisão na presença de incerteza (inferência).
A ideia por trás dessa unidade é levar até você o conhecimento fundamental que lhe permitirá
entender a coleta de dados. Estudaremos conceitos fundamentais de Estatística, questõessimples, mas essenciais para que tenhamos sucesso nas outras etapas do método estatístico,
que serão discutidas nas próximas unidades. Estes são os objetivos da Unidade 1:
a) apresentar conceitos básicos de Estatística e Probabilidades;
b) identicar as funções e os principais tipos de dados e de variáveis;
c) identicar e corrigir problemas de dados faltantes (missing);
d) congurar o Excel como instrumento de coleta de dados;
e) entender o sistema de endereçamento de células do Excel.
f) construir formulários de coleta de dados no Google Docs;
g) enviar formulários de coleta de dados por meio de mala direta.
É crucial que você entenda os conceitos que serão discutidos nessa unidade. Sem oentendimento do que seja, por exemplo, uma variável, o seu tipo e a sua função na base de
dados, não há como você ser feliz nas outras etapas do processo!
-
8/18/2019 Livro Estatística Probabilidades EAD
13/173
ESTATÍSTICA E PROBABILIDADES
unidade 1
006
CONCEITOSBÁSICOS
Vamos supor que uma cozinheira esteja
preparando dois litros de sopa.
Como ela sabe se a sopa está temperada?
Os dois litros de sopa formam a população
e, se a cozinheira comer/provar toda a sopa,
estará fazendo um censo, o que geraria um
absurdo do tipo “É, a sopa estava ótima!”.
A cozinheira sabe que em experimentos
baseados em ensaios destrutivos, quando
a própria análise destrói o dado coletado, ocenso é um absurdo. Na verdade, ela sabe
que censos, de modo geral, são inviáveis,
muito caros e/ou muito demorados. Mais
ainda, ela sabe que se usar uma pequena
amostra cuidadosamente retirada, chamada
amostra representativa, poderá tomar
decisões sobre toda a população envolvida
no problema com um alto grau de conança.
A cozinheira então retira uma pequena
amostra, uma “pitada” da comida, prova-a
e generaliza o resultado para toda a sopa.
Isso é chamado de inferência: tomar
decisões sobre toda uma população com
base em informações parciais de umaamostra (veja a FIGURA 1).
Entretanto, a cozinheira sabe que para fazer
inferências válidas, deve tomar cuidado
para não trabalhar com amostras viciadas.
E o que seria isso?
Se ela retirar uma amostra somente da
parte de cima da sopa, muito provavelmente
terá uma amostra viciada, isto é, sem
representantes de todos os componentes
da sopa como um todo que, neste caso, é a
população amostrada.
E como ela retira uma amostra
representativa da sua população (“sopa”)?
Como a cozinheira procede para obter uma
amostra com “representantes” de cada
estrato da sopa?
Simples, ela mistura a sopa fazendo umahomogeneização e sorteia uma porção/
pitada que será usada no seu processo
decisório. Fazendo uma amostragem
aleatória, a cozinheira sabe que terá
grande chance de trabalhar com amostras
representativas.
Podemos agora resumir esses conceitos.
População:
a) consiste na totalidade das unidades de
observação a partir dos quais ou sobre
os quais deseja tomar uma decisão;
b) conjunto de elementos que formam ouniverso do nosso estudo e que são
Você sabe o que é população? E
amostra? Vejamos o exemplo a seguir.
-
8/18/2019 Livro Estatística Probabilidades EAD
14/173
ESTATÍSTICA E PROBABILIDADES
unidade 1
007
passíveis de serem observados;
c) conjunto de indivíduos sobre os quais
recairão todas as generalizações das
conclusões obtidas no estudo;
d) usualmente, as unidades de observações
são pessoas, objetos ou eventos;
e) é o universo a ser amostrado;
f) do ponto de vista matemático, a população
é denida como um conjunto de
elementos que possuem pelo menos uma
característica em comum (SILVA, 2001).
População nita: o número de unidades de
observação pode ser contado e é limitado.
Exemplos:
a) alunos matriculados na disciplina
Estatística e Probabilidades;
b) todas as declarações de renda recebidas
pela Receita Federal;
c) todas as pessoas que compram telefone
celular num determinado ano;
d) um lote com N produtos.
População innita: a quantidade de
unidades de observação é ilimitada, ou
a sua composição é tal que as unidades
da população não podem ser contadas.
Exemplos:
a) conjunto de medidas de determinado
comprimento;
b) gases, líquidos e alguns sólidos em
que as suas unidades não podem ser
identicadas e contadas.
Amostra: conjunto de unidades
selecionadas de uma população, ou seja,
uma parte dos elementos da população.
Amostra representativa: é uma versão
em miniatura da população, exatamente
como ela é, somente menor. A amostrarepresentativa segue o modelo populacional,
tal que suas características importantes
são distribuídas similarmente entre ambos
os grupos.
Unidade amostral: é a menor parte distinta
de uma população, identicável para ns de
seleção e construção da amostra.
Amostra aleatória: é aquela obtida por meio
de um processo de sorteio ou aleatorização.
Amostra viciada: é aquela que representa
apenas parte da população, não possuindo
elementos de todos os estratos ousubconjuntos que formam a população
como um todo.
Censo: exame de todas as unidades de
observação de uma população. Como
discutido no exemplo da cozinheira, se
a pesquisa envolve ensaio destrutivo, o
censo é inviável. Na verdade, somente se a
-
8/18/2019 Livro Estatística Probabilidades EAD
15/173
ESTATÍSTICA E PROBABILIDADES
unidade 1
008
FIGURA 1 - População alvo, população amostrada e amostra
População alvo do estudo
Amostra
População
amostradaInferência
Fonte: Elaborado pelo autor.
Inferir significa generalizar resultados de uma amostra para toda a população.
Por que usar amostras? Por que não incluir no estudo todos os indivíduos da população?
A amostragem deve ser usada porque torna o processo eficiente e preciso. E ela
é eficiente, uma vez que o recurso que poderia ser despendido na coleta de dados
desnecessários de um grande número de indivíduos pode ser gasto em outra atividade,
como na monitoração da qualidade da própria coleta dos dados. As amostras, por serem
menores que a população, podem ser estudadas mais rapidamente que censos e são
também mais baratas. Além disso, se o processo de amostragem gerar uma amostra
representativa da população alvo do estudo, os resultados observados poderão ser
generalizados, sem risco de chegar a uma conclusão diferente daquela que seria obtidase trabalhar com toda a população.
população alvo for pequena é razoável observá-la por inteiro, através do censo, pois mesmo
quando viáveis, censos são caros e demorados. Outros exemplos de ensaios destrutivos, nos
quais é impossível aplicar censo: pesquisa sobre a força de tração de um lote de barras de
aço para construção; pesquisa sobre contaminação de soro siológico em um lote; testes de
resistência e durabilidade de um lote de concreto; tempo de pega de um lote de cimento.
Amostragem: processo pelo qual uma amostra de unidades da população é retirada e
observada. É a parte mais importante do processo de pesquisa. O principal e fundamental
objetivo de qualquer plano de amostragem é selecionar a amostra, de tal maneira que ela
retrate elmente a população pesquisada.
-
8/18/2019 Livro Estatística Probabilidades EAD
16/173
ESTATÍSTICA E PROBABILIDADES
unidade 1
009
Vejamos agora alguns aspectos
relevantes para o campo da amostragem.
São eles:
• Questões da amostragem: Qual
o tamanho da amostra? Como
a amostra será obtida? Como
garantir que a amostra obtida
seja representante da população
objeto do estudo? A questão mais
importante não é o seu tamanho,
mas como a amostra será obtida,pois a amostragem mal feita
invalida qualquer pesquisa.
• Tamanho da amostra (n): está
relacionado ao total de unidades
amostradas, usadas no processo
de inferência. Imagino que
você esteja curioso em relaçãoao tamanho da amostra, mas,
como citado anteriormente,
esta não é de longe a questão
mais importante. Por exemplo,
o que você que teria mais
credibilidade numa pesquisa
sobre a aceitação (ou não) do
aborto por parte da população
brasileira: resultados de pesquisa
realizada no domingo à noite por
uma emissora de TV, envolvendo
milhões de pessoas que, após
assistirem a uma reportagem
sobre o assunto, responderam
à pesquisa; ou resultados deuma amostra de 2.500 pessoas
selecionadas aleatoriamente no
território brasileiro?
No entanto, essa não é uma questão
muito importante para obtermos o
tamanho da amostra adequada para
uma pesquisa, visto que é necessário
estudarmos alguns conceitos
probabilísticos, que serão apresentadas
somente nas próximas unidades.
IMPORTANTE
A maioria das pessoas, quando questionadas
sobre qual o tamanho da amostra necessária
para uma pesquisa, tem o raciocínio equivocado
de que o tamanho da amostra (n) tem relaçãodireta com o tamanho da população amostrada
(N). Inevitavelmente, a maioria das pessoas
arma erroneamente que uma boa amostra deve
conter pelo menos, digamos, 30% da população.
O que a cozinheira diria disto? Para provar dois
litros de sopa, quanto de amostra ela teria que
avaliar? Isso mesmo, uma pitada. E para provar
400 litros de sopa, ela beberia um prato inteiro?
Não. Ela provará a mesma pitada, pois sabe que, o
mais importante nesse processo inferencial não é
o tamanho da amostra, mas provar uma amostra
não viciada, representativa de toda a sopa.
Voltando aos processos de amostragem,
as amostras podem ser classicadas emprobabilísticas e não probabilísticas:
-
8/18/2019 Livro Estatística Probabilidades EAD
17/173
ESTATÍSTICA E PROBABILIDADES
unidade 1
010
Amostra probabilística:
- existe uma garantia, em termos de
probabilidade, de que qualquer membro
da população possa ser selecionado para
amostra.
Amostra não probabilística:
- os elementos da amostra não são
escolhidos por meio de um sorteio.
CARVALHO e COUTO (2003) apresentam
as principais características de tipos de
amostragem mais comuns, relacionados
principalmente com pesquisas de survey.
Outras amostras, por exemplo, amostragem
de minério, de solo, de gases e de líquidos
têm procedimentos próprios que buscam,
em última instância, obter amostras que
sejam representativas de cada populaçãoenvolvida. Em suma, qualquer que seja o
esquema de amostragem, probabilístico ou
não, deve-se sempre garantir que a amostra
reflita as características da população da
qual foi retirada.
LEMBRE
Conforme discutido anteriormente, algumas
pessoas acreditam que uma amostra
representativa é necessária coletar dados
de um percentual mínimo da população,
digamos, 30% do total de indivíduos. Isso éabsolutamente falso e, o que é pior, mesmo
que fossem analisados tal percentual de
indivíduos da população, não é o tamanho
que garante representatividade da
amostra, mas a forma com ela é obtida. É
a imparcialidade do processo de seleção
dos seus elementos e a homogeneidade
da distribuição das características da
amostra e da população que garantem a
representatividade da amostra.
O PAPEL DAS VARIÁVEISNUMA BASE DE DADOS:IDENTIFICAÇÃO,AUXILIARES,VARIÁVEISEXPLICATIVAS EVARIÁVEL REPOSTA
(DESFECHO)O primeiro passo de qualquer processo
estatístico é a coleta de dados. Portanto,
tudo o mais será alicerçado sobre o que
for coletado. Sendo assim, essa fase deve
ser cuidadosamente planejada, já que da
qualidade dos dados coletados dependerá
toda a análise e a tomada de decisão
subsequente.
Antes da coleta de um dado, é importante
entender o conceito de variável que está
por trás da informação que você procura.
A variável contém a informação que você
quer analisar, sob a forma de uma medição
sobre determinadas características dos
-
8/18/2019 Livro Estatística Probabilidades EAD
18/173
ESTATÍSTICA E PROBABILIDADES
unidade 1
011
indivíduos estudados e das unidades de
observação.
E, por que esse conceito é tão importante?
Porque, no m das contas, é a variável
que é analisada e não a informação que
ela contém. Por isso, é importante que
você, antes de sair coletando informações,
analise o seu questionário de coleta de
dados, identique cada variável envolvida
e responda perguntas, tais como: O que
exatamente a variável está medindo? Para
que serve esta variável e, principalmente,
é possível analisá-la? E com que método
estatístico?
CONCEITO
Uma variável é a quanticação de uma
característica de interesse da pesquisa (SOARES
e SIQUEIRA, 2002). Refere-se ao fenômeno a ser
pesquisado. É o campo de variação de cada tipo
de dado a ser pesquisado. Observe que, como o
próprio nome diz, uma variável deve variar, ou seja,
se você está coletando dados sobre característicasde alunos da disciplina Cálculo Diferencial,
podemos pensar em inúmeras variáveis para a
unidade de observação “aluno”: idade, sexo, curso,
local do ensino médio, tempo entre nal do ensino
médio e início da graduação, nota nal, percentual
de presença às aulas etc. Entretanto, o tipo de
disciplina não é uma variável nesse caso, pois ela é
constante (Cálculo Diferencial).
O grau de variabilidade de uma variável é
chave no método estatístico e será foco
de discussões nas próximas unidades.
Entretanto, neste momento, é crucial que
você entenda dois aspectos básicos de
qualquer variável: o seu tipo e a sua função,
o papel que ela exerce na base de dados.
ATENÇÃO
Toda análise que será feita na base de dados
dependerá do seu entendimento sobre o tipo e a
função de cada variável coletada!
Vejamos os tipos de funções de cada
variável:
-
8/18/2019 Livro Estatística Probabilidades EAD
19/173
ESTATÍSTICA E PROBABILIDADES
unidade 1
012
QUADRO 1 - O papel de uma variável numa base de dados.
Fonte: Elaborado pelo autor.
Variáveis deidenticação e auxiliares
Variáveis explicativas
Variável desfecho
Servem para o rastreamento dos indivíduos e das unidadesamostrais, ou são usadas na denição de outras variáveis. Exemplosde variáveis de identicação: CPF, nome, número de matrícula,número da amostra etc.
Exemplos de variáveis auxiliares: datas, peso e altura.
Variáveis de identicação e auxiliares não são analisadas, masfazem parte da base de dados.
São aquelas que, por hipótese, podem influenciar, determinar ouafetar a variável resposta ou desfecho da pesquisa. São chamadastambém de co-variáveis ou variáveis independentes.
Para cada estudo existem variáveis explicativas próprias, denidaspor hipóteses da própria pesquisa ou conforme revisão da literatura.Em processos químicos, quando se busca entender os fatores queafetam o rendimento de uma reação química, são exemplos devariáveis explicativas a temperatura, a pressão, o tipo de catalisadore a concentração de reagentes. Se alguém pesquisar sobre asrazões de algumas pessoas serem maiores que outras, as alturasdo pai e da mãe, a origem étnica, a idade e o sexo são exemplos devariáveis explicativas.
É aquela que queremos explicar, em função de ser influenciada,
afetada por outros fatores (variáveis explicativas). Tambémdenominada de variável dependente ou variável resposta. Sempredena um ou mais desfechos para o estudo, conforme os objetivosda sua pesquisa. Por exemplo, numa pesquisa cujo objetivo éexplicar porque imóveis de uma mesma região têm preços tãovariados, o preço de venda seria uma variável resposta. Fatorescomo área, número de quatros, número e tipo de vaga de garagem,quantidade de suítes, presença de salão de festas ou piscina sãoalgumas das possíveis variáveis explicativas para esse problema.
TIPOS CARACTERÍSTICAS
A função de cada variável na base de dados, assim como o seu tipo, denirá que tipo de análise
será feita. Não subestime esses conceitos pois, sem eles, não há como entender os métodos
de análise estatística que serão estuados nas próximas unidades.
-
8/18/2019 Livro Estatística Probabilidades EAD
20/173
-
8/18/2019 Livro Estatística Probabilidades EAD
21/173
-
8/18/2019 Livro Estatística Probabilidades EAD
22/173
ESTATÍSTICA E PROBABILIDADES
unidade 1
015
USO DO EXCEL COMOUM SISTEMA DEGERENCIAMENTO DEDADOS E DOSFORMULÁRIOSDO GOOGLE DOCSPARA COLETA DEINFORMAÇÕES
Duas ferramentas essenciais para coleta
de dados de experimentos de pequenoe médio porte na área de Ciências
Exatas e Engenharia são o Excel, um dos
componentes do pacote Ofce da Microsoft,
e os Formulários do Google Docs .
O Excel é uma planilha eletrônica com
origens no Lotus 1-2-3 (GAZZARRRINI,
2013). Ambas as ferramentas são
extremamente práticas, de grande utilidade
e serão discutidas por meio de vídeo aulas.
Os formulários do Google Docs são ótimos
para pesquisas envolvendo pessoas que
têm endereço eletrônico (e-mails). Parausá-los você terá que obter uma lista com os
nomes dos respondentes e os respectivos
e-mails. Após construir o formulário de
coleta de dados no Google Docs, você
poderá enviá-lo usando o mecanismo de
“mala direta”, da aba “correspondências”
do Word, que também é parte do pacote
Ofce da Microsoft . As respostas enviadas
pelos respondentes são automaticamente
armazenadas em planilha eletrônica,
facilitando a coleta e a análise dos dados.
É crucial que você domine o Excel como
instrumento de coleta de dados e entenda
perfeitamente o papel de cada variável a ser
coletada. Identicar variáveis explicativas
e desfecho (s), distinguir entre variável
quantitativa e categórica é uma questão
relativamente simples, mas fundamental
para as discussões que serão feitas nas
próximas unidades.
APLICAÇÃO PRÁTICA
Considere o artigo “Utilização de efluente de
frigoríco, tratado com macróta aquática,
no cultivo de tilápia do Nilo”, de autoria de
Adilson Reidel e outros pesquisadores da
Universidade Estadual do Oeste do Paraná
(REIDEL et al.; 2005) disponível em:
Neste trabalho, os pesquisadores zeram
um experimento em que, resumidamente,
foram colocadas amostras aleatórias de
alevinos (“lhotes”) de tilápia em aquários
com água potável (tratamento A) e em
tanques com efluente de frigoríco após
passar num sistema de ltro com aguapé
https://docs.google.com/formshttps://docs.google.com/formshttp://www.agriambi.com.br/revista/suplemento/index_arquivos/PDF/181.pdfhttp://www.agriambi.com.br/revista/suplemento/index_arquivos/PDF/181.pdfhttp://www.agriambi.com.br/revista/suplemento/index_arquivos/PDF/181.pdfhttp://www.agriambi.com.br/revista/suplemento/index_arquivos/PDF/181.pdfhttps://docs.google.com/formshttps://docs.google.com/forms
-
8/18/2019 Livro Estatística Probabilidades EAD
23/173
ESTATÍSTICA E PROBABILIDADES
unidade 1
016
(tratamento B), avaliando-se comparativamente o desenvolvimento e a sobrevivência dos
peixes. A pergunta principal da pesquisa era: “É possível cultivar tilápias em efluente de
frigoríco tratado com aguapé?”
Nas tabelas 1 e 2 do artigo, são apresentados alguns resultados e um conjunto de variáveis
envolvidas na pesquisa.
TABELA 1 – Valores médios dos parâmetros físico-químicosdeterminados durante o cultivo da tilápia do Nilo (O. niloticus)
Fonte: REIDEL et al., 2005.
TABELA 2 – Valores médios de desempenho e sobrevivência de alevinosde tilápia do Nilo, cultivados com água potável e efluente tratado
Fonte: REIDEL et al.; 2005.
Esse é um exemplo prático da aplicação de conceitos discutidos na Unidade 1 em experimentos
de pequeno e médio porte na área de Ciências Exatas e de Engenharia. O experimento é baseado
em amostragem e analisa o impacto de variáveis explicativas em desfechos diretamente ligadosao objetivo do projeto: sobrevivência dos peixes, peso e biomassa nal no aquário.
PARÂMETROS
VARIÁVEIS
TRATAMENTOS
Tratamento A Tratamento B Teste t-StudentT calculado
A
média médiaO O
B
Temperatura média (ºC) 26,4 = 1,60 26,4 = 1,70
Oxigienio Dissolvido (mg L-1) 7,17 = 0,60 7,18 = 0,90
Condutividade Elétrica (uS cm-1) 227,48 = 36 1779,7 = 68
pH 8,44 = 0,12 7,40 = 0,35
Peso inicial (indivíduo) (g) 0,235 a 43,267 0,232 a 46,113 0
Biomassa inicial (aquário) (g) 1,172 a 2,426 1,160 a 1,901 0,001
Peso nal (indivíduo) (g) 1,391 a 42,269 1,054 a 45,582 0,028
Biomassa nal (aquário) 5,280 a 38,890 4,300 a 45,721 0,028Sobrevivência (%) 75 a 80,467 80 a 25,819 0,08
Tratamentos: (A) controle (água potável + ração); (B) efluente tratado (efluente do sistema de
ltro de aguapé + ração)
Médias seguidas da mesma letra, na linha, não diferem signicadamente pelo teste t de Student ao nível 5% de signicância
-
8/18/2019 Livro Estatística Probabilidades EAD
24/173
ESTATÍSTICA E PROBABILIDADES
unidade 1
017
Nesse trabalho são usadas três variáveis
resposta, uma categórica (“O peixe
sobreviveu?” “sim ou não”) e dois desfechos
quantitativos (peso nal e biomassa nal,
medidos em gramas). Dentre as variáveis
explicativas envolvidas, a mais importante,
que está diretamente ligada ao objetivo da
pesquisa é o tipo de tratamento (A versus
B), uma variável categórica dicotômica.
Muitas pessoas têm diculdade em
identicar essa variável explicativa, apesar
dela ser a mais importante na pesquisa.
As outras variáveis explicativas são todas
quantitativas e, como tal, foram obtidas
por meio de um processo de medição,
contagem ou dosagem: temperatura (ºC),
oxigênio Dissolvido (mg L-1), condutividade
Elétrica (μS cm-1), pH, peso inicial (g) ebiomassa inicial (g).
Nas tabelas apresentadas aparecem
métricas (média, desvio padrão e valor de t
de student ) que são usadas na análise e na
conclusão do projeto. Fique tranquilo, esses
conceitos serão tratados nas próximas
unidades!
De qualquer forma, a conclusão da pesquisa
para a pergunta “É possível cultivar tilápias
em efluente de frigoríco tratado com
aguapé?”, é: “Sim, é possível cultivar tilápias
em efluente de frigoríco tratado com
aguapé. Os dados não mostraram diferençasignicativa entre os dois tratamentos,
tanto em relação ao desenvolvimento
quanto à sobrevivência dos peixes”.
O entendimento completo das razões
para chegar a essa conclusão será obtido
nas próximas unidades. Entretanto, neste
momento, é fundamental que você já
entenda conceitos referentes ao processo
de amostragem/coleta de dados e,
principalmente, que consiga diferenciar
os tipos e as funções das variáveis numa
pesquisa.
REVISÃO
Vimos nessa unidade alguns dos principais
tópicos introdutórios do campo da
Estatística. Em resumo, estudamos sobre:
População, amostra, censo e amostragem:
- Censo de toda a população não é viável,
devido aos altos custos e/ou quando a
pesquisa envolve ensaios destrutivos.
- Uma pequena, mas cuidadosamente
escolhida amostra pode ser usada para
representar a população.
- Os resultados observados numa amostra
representativa poderão ser generalizados,
sem risco de chegar a uma conclusão
diferente daquela que seria obtida no caso
de trabalhar com toda a população.
- A questão mais importante numaamostragem não é o tamanho da amostra,
-
8/18/2019 Livro Estatística Probabilidades EAD
25/173
ESTATÍSTICA E PROBABILIDADES
unidade 1
018
mas como a amostra será obtida, pois o
delineamento amostral mal feito invalida
qualquer pesquisa.
Tipos de variáveis:
- Variável qualitativa ou categórica: é
aquela que expressa características ou
atributos de classicação, distribuídos
em categorias mutuamente exclusivas de
objetos ou entidades.
- Variável quantitativa: é aquela obtida
por meio de um processo de medição ou
contagem.
Função das variáveis:
- Variáveis de identicação e auxiliares:
servem para o rastreamento dos
indivíduos e das unidades amostrais
ou são usadas na denição de outras
variáveis.
- Variáveis explicativas: são aquelas
que, por hipótese, podem influenciar,
determinar ou afetar a variável resposta
ou desfecho da pesquisa.
- Variável desfecho: é aquela que queremos
explicar, em função de ser influenciada e/
ou afetada por outros fatores (variáveis
explicativas). Também denominada de
variável dependente ou variável resposta.
Aconselha-se sempre denir um ou mais
desfechos para o estudo, conforme os
objetivos da sua pesquisa.
Ainda compreendemos que alguns sistemas
computacionais são ferramentas essenciais
para coleta de dados de experimentos de
pequeno e médio porte na área de Ciências
Exatas e da Engenharia. São eles: o Excel,
um dos componentes do pacote Ofce da
Microsoft, e os Formulários do Google Docs
.
PARA SABER
MAISPara aprofundar sobre as questões discutidas
nessa unidade, leia o Capítulo 1 do livro texto:
LEVINE, David M. et al. Estatística: teoria
e aplicações usando Microsoft Excel em
português, 3º edição ou superior: “Introdução e
Coleta de Dados”, assim como o suplemento docapítulo 1 “Introdução à Utilização do Microsoft
Excel”.
https://docs.google.com/formshttps://docs.google.com/forms
-
8/18/2019 Livro Estatística Probabilidades EAD
26/173
UNIDADE
-
8/18/2019 Livro Estatística Probabilidades EAD
27/173unidade 2
020
ANÁLISE EXPLORATÓRIADE DADOS
Conforme citado na Unidade 1, se você usar técnicas de análise estatística, você poderá
rapidamente se transformar num especialista em qualquer assunto, certo? Pois bem,
como exemplo, que tal se tornar um especialista em reprovação em disciplinas básicas
de cursos de Engenharia e Tecnologia? E você não precisará “repetir” nenhuma dessas disciplinas
para ser um especialista em reprovação...! Esse é um problema bem conhecido, mas suas causas
e fatores associados não! Uma hipótese é que durante o ensino fundamental e médio muitos
alunos não conseguem adquirir habilidade em resolver problemas matemáticos. Essa deciênciaentão culmina nos cursos de Engenharia com altos índices de reprovação no ciclo básico.
Disciplinas como Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL), Química Geral
e Algoritmos (AEDS) podem ser verdadeiros “infernos” para alunos da área de Exatas.
Considerando o problema geral “desempenho acadêmico em disciplinas de ciclo básico de
cursos de Engenharia”, que tal analisar dados de amostra de alunos, buscando identicar
as características e possíveis fatores associados aos desfechos “conceito” (aprovado ou
reprovado), “nota histórico” (0 a 100 pontos) e “abandonou a disciplina?” (sim ou não)?
Para resolver o problema acima, qual a primeira providência? Muitos podem pensar: “Preciso
estudar melhor o assunto, fazer uma revisão da literatura sobre o problema. Em seguida,
preciso planejar e executar a coleta dos dados”. Essa primeira etapa já foi feita e faz parte de
projeto de iniciação cientíca do Centro Universitário de Belo Horizonte – UniBH, cujo título da
pesquisa é “Fatores associados ao desempenho acadêmico de alunos em disciplinas do ciclo
básico de cursos de Engenharia”. A pesquisa foi aprovada pelo Comitê de Ética em Pesquisa(CEP) do UniBH com o nº 920.308, em 17/12/2014 e os dados estão disponíveis para download
-
8/18/2019 Livro Estatística Probabilidades EAD
28/173unidade 2
021
ESTATÍSTICA E PROBABILIDADES
no link: https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0.
Agora que você já tem acesso aos dados, qual o próximo passo para resolvermos o problema
de reprovação e abandono em Cálculo, GAAL, Química Geral e AEDS? A primeira etapa de
qualquer análise estatística, ou melhor, a fase preliminar da busca das informações agregadas
a dados já coletados, é a análise exploratória dos mesmos. Como o próprio nome diz, a
análise exploratória dos dados é o conjunto de ferramentas da Estatística Descritiva que têm
como objetivo fazer uma síntese dos dados, organizando-os sob a forma de tabelas, grácos
e números. Portanto, para entendermos e resolvermos nosso problema de reprovação,
precisamos estudar as ferramentas da Estatística Descritiva:
a) Síntese tabular: Resumo da análise por meio de tabelas;
b) Síntese numérica: Medidas de posição (média e mediana) e medidas de variabilidade (soma
dos quadrados dos resíduos, variância, desvio padrão, coeciente de variação);
c) Síntese gráca: Grácos de pizza, barra, coluna, linha, séries históricas, histograma, gráco
de Pareto, gráco misto, de coluna e de linha, diagrama de dispersão e box-plot .
O objetivo desta unidade é promover o conhecimento fundamental que lhe permitirá entender
dados coletados, transformando dados brutos em informações úteis!
SÍNTESEGRÁFICA DE DADOS
Uma gura vale mais que mil palavras! Isso é verdade, entretanto um gráco vale mais que mil
palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe
grácos a partir de seus dados, mas tente fazê-los de tal forma que a frase “basta olhar
para entender” seja válida. Os grácos mais úteis para análise de dados de experimentos de
pequeno e médio porte na área de Ciências Exatas e Engenharia são: grácos de pizza, barras,
colunas, linha, séries históricas, histograma, gráco de Pareto, gráco misto, de coluna e de
linha, diagrama de dispersão e box-plot (tabela 1). De todos esses, somente vejo sentido em
construi-los “à mão” histogramas e diagramas de dispersão. Entretanto, na prática devemosconstruir grácos usando ferramentas computacionais como o Excel.
https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0
-
8/18/2019 Livro Estatística Probabilidades EAD
29/173unidade 2
022
ESTATÍSTICA E PROBABILIDADES
TABELA 3 - Grácos mais úteis para análise de dados de experimentosde pequeno e médio porte na área de Ciências Exatas e Engenharia.
Fonte: Elaborado pelo autor.
Pizza ou setor
Colunas (verticais)
Barras (horizontais)
Histograma
Grácos de linha
Séries históricas
Gráco de Pareto
Gráco misto, decoluna e linhas
Diagrama dedispersão
Box-plot
Uma
Uma
Uma
Uma
Duas
Duas
Uma
Duas
Duas
Uma ou mais
Categórica
Categórica
Categórica
Quantitativa, mas categorizada numatabela de distribuição de frequências
Quantitativa no eixo vertical, ecategórica no eixo horizontal
Quantitativa no eixo vertical, eo “tempo” no eixo horizontal
Categórica
Quantitativa no eixo vertical, eo “tempo” no eixo horizontal
Variável explicativa quantitativa no eixo horizontal,e desfecho quantitativo no eixo vertical
Quantitativa
TIPO DE GRÁFICO NÚMERO DE VARIÁVEISENVOLVIDAS
TIPO DE VARIÁVEL ANALISADA
Como fazer os grácos? Siga regras e comentários abaixo e você terá sucesso ao desenhar
grácos:
1. Um gráco deve conter um título, entretanto este não deve ser colocado no próprio
gráco (como o Excel insiste em fazer...). Quando desenhamos um gráco usando o
Excel, por exemplo, este será exportado para algum documento do Word ou para o
PowerPoint, ou para outros editores de texto e apresentadores de slides. O título do
gráco será então colocado no slide ou na descrição da gura no editor de textos,
sendo desnecessário e errado colocá-lo no meio do próprio gráco. Mesmo em
casos excepcionais, quando o gráco não é exportado para nenhum outro aplicativo,
sendo impresso diretamente do Excel, o título não deve ser colocado no meio da
gura. O título deve ser inserido no cabeçalho da planilha que contém o gráco.
2. Ao escrever um relatório, comece pelas guras. É impressionante, mas as pessoas leem
artigos cientícos, relatórios técnicos, jornais e revistas de “fofoca” da mesma forma:começamos pelas guras! Por isso, o título de grácos e tabelas deve ser o mais claro
-
8/18/2019 Livro Estatística Probabilidades EAD
30/173unidade 2
023
ESTATÍSTICA E PROBABILIDADES
possível: toda informação necessária para o entendimento da gura deve estar no seu
título. Essa é uma tendência das revistas cientícas (Nature, Science, por exemplo) e
tem um efeito colateral: o título da gura ca muito longo. Isso não é exatamente uma
regra, mas recomendação. Se você quer que seu relatório seja lido, invista nos títulos de
guras e tabelas e sempre coloque respostas claras para pelo menos quatro perguntas:
O que? Quem? Quando? Onde? A interpretação das informações no gráco também
deve ser colocada como subtítulo da gura. Se necessário, coloque notas explicativas,
usando siglas somente para coisas realmente conhecidas de quem lerá o seu texto (seu
chefe ou o chefe do seu chefe...). Veja um exemplo de gráco de pizza na gura abaixo.
A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizousomente técnicas de Estatística Descritiva na análise dos dados. Praticamente um quartodos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas decontingência, ferramentas que serão discutidas na Unidade 7 deste livro.
Fonte: BAILAR & MOSTELLER,1992.
FIGURA 2 – Principais ferramentas estatísticas encontradas em
artigos publicados no New England Journal of Medicine (NEJM).
3. Caso o gráco tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para
entendimento. Os rótulos dos eixos devem conter as respectivas unidades de medida
envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de erro do Excel! Além de não colocar
os rótulos nos eixos, o Excel coloca o título no meio da gura e uma legenda que não tem a
menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais deum grupo de dados na gura. Veja um exemplo correto de gráco de barras na gura abaixo.
-
8/18/2019 Livro Estatística Probabilidades EAD
31/173unidade 2
024
ESTATÍSTICA E PROBABILIDADES
FIGURA 3 – Risco de reprovação em disciplinas de cursos de Engenhariae Tecnologia do Centro Universitário de Belo Horizonte – UniBH.
Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399alunos. Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica eÁlgebra Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados.
Fonte: Elaborado pelo autor.
4. Não existe regra xa para a escolha da escala do gráco. Qualquer escala é boa
desde que os valores no gráco não quem muito espalhados nem muito juntos
numa única região da gura.
5. Sombreamento, efeitos 3D e pequenas guras relacionadas com o tipo de dado
usado no gráco, colocados para dar vida à gura: na maioria das vezes esses
efeitos são inúteis, podendo até mesmo distorcer o gráco.
6. A maioria dos grácos apresenta o valor zero como ponto de início dos eixos, mas
isso não é necessário se o ponto de início da escala é devidamente marcado na
gura. Na verdade, as pessoas usualmente assumem que o valor zero está na base do
gráco. Para os grácos de linha isso não é problemático, entretanto, quando se tratar
de grácos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base
da coluna. Caso isso não seja feito, ocorre uma distorção do gráco levando a uma
interpretação errada dos dados. Veja o exemplo abaixo. O primeiro gráco, como nãocomeça no valor zero, está errado, ele “ilude o leitor”: a auditoria foi um sucesso?!
-
8/18/2019 Livro Estatística Probabilidades EAD
32/173unidade 2
025
ESTATÍSTICA E PROBABILIDADES
FIGURA 4 – Exemplos de gráco de colunas: o valorzero deve obrigatoriamente ser incluído na gura.
Fonte: Elaborado pelo autor.
7. Mais de uma curva ou linha pode ser desenhada em um único gráco com o objetivo
de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha para
que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo
símbolos). Linhas de grade, usualmente colocadas no gráco para auxiliar a leitura das
escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.
FIGURA 5- Exemplo de gráco com legenda identicando diferentes dados.
Fonte: Elaborado pelo autor.
-
8/18/2019 Livro Estatística Probabilidades EAD
33/173
-
8/18/2019 Livro Estatística Probabilidades EAD
34/173unidade 2
027
ESTATÍSTICA E PROBABILIDADES
FIGURA 8 - Gráco distorcido: desenhandoa gura com a altura muito grande,
em relação à largura, a informação éfalseada e se tem a sensação de redução
dos dados ao longo do tempo
Fonte: Elaborado pelo autor.
9. Grácos de pizza, “o queridinho”:
Apesar de muito “engraçadinhos”,
estes grácos são muitos confusos.
Evite o seu uso, substituindo por
grácos de barra ou de colunas.
É aceitável construi-los somente
quando são poucos setores bem
denidos (até cinco pedaços). Evitar
grácos de pizza em 3D, com vários
pedaços. Construi-los como na
gura 2.
10. Diagrama de dispersão: Ferramenta
que nos permite avaliar o efeito de
uma variável explicativa quantitativasobre um desfecho. Serve tanto para
visualizarmos funções matemáticas
teóricas (gura 9) quanto funções
de relacionamentos empíricos já
conhecidos (gura 10), mas a sua
grande utilidade é quando tentamos
estabelecer a associação entre
duas variáveis quantitativas (gura
11). A gura 9 é um diagrama de
dispersão mostrando uma relação
completamente teórica entre duas
variáveis (x e y). Como é uma relação
exata, somente é desenhada a linha
que liga os pontos do gráco. Na
gura 10 é desenhada uma relação
empírica, no caso a lei de Abrams,
que relaciona a resistência do
concreto à compressão (R) com o
fator água/cimento (fx) da seguinte
forma: R = α/βfx
. Nessa gura, α eβ foram denidos como 100 e 10
respectivamente, de tal forma que
a equação cou R = 100/10fx, fx
variando de 0 a 3. Já a gura 11
mostra o uso “nobre” dos diagramas
de dispersão, quando tentamos
explorar, criar e propor uma nova
relação empírica entre duas variáveis
quantitativas. Nesse exemplo,
ao invés de aplicarmos a relação
empírica de Abrams, usamos dados
reais de fator fx de água/cimento
e a resistência medida em 28 dias
de uma amostra de concretos
(desfecho). Ao inserirmos umalinha de tendência linear, estamos
-
8/18/2019 Livro Estatística Probabilidades EAD
35/173unidade 2
028
ESTATÍSTICA E PROBABILIDADES
FIGURA 9 – Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando arelação de x e sua função f(x) = 2x3 – cos(x+1) – 3. Nesse caso o diagrama está mostrando
uma relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial.
Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor.
FIGURA 10 – Diagrama de dispersão com marcadores e linhas contínuas mostrandoa relação empírica da lei de Abrams que relaciona a resistência à compressão
de concretos, medida em megapascal (MPa), e o fator água/cimento (fx),determinado pela razão do peso de água pelo peso em cimento do concreto.
sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão
do concreto se relaciona com fx por meio de uma equação de reta.
-
8/18/2019 Livro Estatística Probabilidades EAD
36/173unidade 2
029
ESTATÍSTICA E PROBABILIDADES
FIGURA 11 – Diagrama de dispersão somente com os marcadores e semlinhas contínuas mostrando uma possível relação linear entre resistência à
compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx).
Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar aResistência à Compressão do Concreto de Alto Desempenho. Disponível em: http://www2.ucg.br/nupenge/pdf/Dario.pdf . Acesso em 14 maio 2015.
A gura 12 mostra possíveis padrões de relacionamento entre uma variável explicativa (X)
e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de dispersão,
você deve interpretar o gráco gerado em um dos quatro padrões mostrados na gura 12. A)
Correlação positiva: Em média, quando X aumenta, Y também aumenta, numa tendência em
“linha reta”. Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B)
Correlação negativa: Em média, quando X aumenta, Y tende a diminuir. Por exemplo, quanto
mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilinear: Em média,
quando X aumenta, Y também aumenta, mas não numa tendência em “linha reta”, e sim“em curva”. Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y)
e a explicativa (X) for uma equação de segundo grau (parábola) ou cúbica, de grau três. D)
Sem associação: Também é um padrão importante, pois indica que não há relação entre as
duas variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por
exemplo, frequentemente se observa que a idade do aluno não está associada à sua nota na
maioria das disciplinas que ele cursa.
http://www2.ucg.br/nupenge/pdf/Dario.pdfhttp://www2.ucg.br/nupenge/pdf/Dario.pdfhttp://www2.ucg.br/nupenge/pdf/Dario.pdfhttp://www2.ucg.br/nupenge/pdf/Dario.pdf
-
8/18/2019 Livro Estatística Probabilidades EAD
37/173
-
8/18/2019 Livro Estatística Probabilidades EAD
38/173unidade 2
031
ESTATÍSTICA E PROBABILIDADES
Fonte: Elaborado pelo autor
Fonte: Elaborado pelo autor
Fonte: Elaborado pelo autor
Exemplo 2 - Histograma fortemente
assimétrico: A frequência dos dados
decresce rapidamente num dos lados emuito lentamente no outro, provocando uma
assimetria na distribuição dos valores. A
distribuição dos salários numa empresa é um
exemplo comum de histograma assimétrico:
muitas pessoas ganham pouco e poucas
pessoas ganham muito (a). A situação (b),
apesar de mais rara, também pode acontecer.
Exemplo 3 - Histograma tipo despenhadeiro:
O histograma termina abruptamente em
um ou nos dois lados, dando a impressão
de que faltam dados. Na verdade, essa
possivelmente deve ser a explicação para
histogramas com esse formato: os dados
muito pequenos e/ou muito grandes foram
eliminados da amostra.
Exemplo 4 - Histograma com dois picos:
Ocorrem picos na distribuição e a frequênciaé baixa entre os picos. Possivelmente, os
dados se referem a uma mistura de valores
de diferentes populações, devendo ser
avaliados com cuidado. Se houve mistura
dos dados, é melhor separá-los.
Fonte: Elaborado pelo autor.
-
8/18/2019 Livro Estatística Probabilidades EAD
39/173unidade 2
032
ESTATÍSTICA E PROBABILIDADES
Exemplo 5 - Histograma tipo platô: As
classes de valores centrais apresentam
aproximadamente a mesma frequência.
Essa situação também sugere mistura de
valores de diferentes populações.
Fonte: Elaborado pelo autor.Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor.
Exemplo 6 – Histograma com uma pequena
ilha isolada: Alguns valores isolados têm
frequência elevada, formando uma espécie
de ilha. Também pode ter ocorrido uma
mistura de dados.
Exemplo 7 – Histograma tipo serrote:
As frequências de valores se alternam
formando vários dentes. Pode indicar algum
problema na obtenção (leitura) dos dados.
Vamos usar como exemplo de dados para
a construção de um histograma notas de
amostra de alunos em uma prova de Cálculo
Diferencial (n=120):
-
8/18/2019 Livro Estatística Probabilidades EAD
40/173unidade 2
033
ESTATÍSTICA E PROBABILIDADES
FIGURA 13 – Dados brutos de notas de amostra de alunos em prova deCálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.
Fonte: Elaborado pelo autor.
0 0 0 1 5 5 6 9 13 17 18 21
0 0 0 1 5 5 6 10 13 17 18 21
0 0 0 1 5 5 6 11 14 17 20 22
0 0 0 2 5 5 9 11 14 17 20 22
0 0 0 2 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 13 15 17 20 25
0 0 0 5 5 6 9 13 15 17 20 25
0 0 0 5 5 6 9 13 17 18 21 25
0 0 1 5 5 6 9 13 17 18 21 25
Passo 1 - Determinar valores mínimo, máximo e amplitude (R):
mín = 0; máx = 25; R = máx – mín = 25 – 0 = 25
Passo 2 – Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. Onúmero de classes deve ser algo entre 5 a 20 subintervalos. Regra empírica: k ≈ √n e
5 ≤ k ≤ 20 . No exemplo, n ≈ 120; k ≈ √120 ≈ 10.
Passo 3 – Determinar o tamanho de cada subintervalo (h). h ≈ R
. No exemplo, h ≈R
≈25
. ≈ 2,5
Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10
classes de tamanho 2,5.
Passo 4 - Contar a frequência de valores em cada classe. No exemplo, começando em zero
(valor mínimo), teremos uma tabela de distribuição de frequências, base para construção do
histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos vericar na base de dados quantos
valores se encaixam em cada classe.
Observe na figura 14 o símbolo --|, ele indica que o valor à direita faz parte do intervalo,
mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima
de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizadossomente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos
k k 10
-
8/18/2019 Livro Estatística Probabilidades EAD
41/173unidade 2
034
ESTATÍSTICA E PROBABILIDADES
entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode
ser usado no primeiro subintervalo e possibilita que incluamos o valor 0,0 na primeira
classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de
valores iguais a zero. Eventualmente você poderá se deparar com tabelas construídas
com o símbolo “invertido”, |--, que indica valores maiores ou iguais ao número colocado à
esquerda e menores que o valor colocado à direita. Por exemplo, 30 |-- 40 implica valores
maiores ou iguais a 30 e menores que 40. Usei a notação --| que é o padrão usado pelo
Excel na construção de histogramas (figura 14).
Lembre-se de que o total, a soma da coluna “Frequência”, deve ser exatamente o tamanho
da amostra (n). Além da coluna de frequência absoluta, podemos calcular a frequência
relativa ou percentual de cada classe (em relação ao total de valores) e a frequência
acumulada ou percentual acumulado, útil para a construção de gráficos de Pareto (que
será explicado mais à frente).
FIGURA 14 – Tabela de distribuição de frequências das notas de amostra de alunos emprova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.
Fonte: Elaborado pelo autor.
0,0 |--| 2,5 35 29% 29%
2,5 --| 5,0 22 18% 48%
5,0 --| 7,5 6 5% 53%
7,7 --| 10,0 9 8% 60%
10,0 --| 12,5 4 3% 63%
12,5 --| 15,0 12 10% 73%
15,0 --| 17,5 10 8% 82%
17,5 --| 20,0 10 8% 90%20,0 --| 22,5 6 5% 95%
22,5 --| 25,0 6 5% 100%
Total 120 100%
U
NOTA FREQUÊNCIA PERCENTUAL PERCENTUAL ACUMULADO
-
8/18/2019 Livro Estatística Probabilidades EAD
42/173unidade 2
035
ESTATÍSTICA E PROBABILIDADES
FIGURA 15 – Histograma com a distribuição das notas na prova de CálculoDiferencial: os dados mostram um padrão de distribuição assimétrico,
semelhante àquele apresentado no histograma do exemplo 2.
Fonte: Elaborado pelo autor.
12. Gráco de Pareto: Esta ferramenta é ótima para ajudar na denição de prioridades,
quando precisamos fazer um plano de ação para melhoria de qualidade de um
serviço ou produto. Por exemplo, se um determinado problema ou defeito pode
ocorrer de diversas formas, como escolher os tipos de defeito prioritários para serem
corrigidos? A ideia do “efeito Pareto” é que 80% dos problemas estão associados
a 20% dos problemas. Nem sempre esse efeito ocorre, mas esse é o objetivo do
gráco de Pareto: vericar quais itens ou problemas ocorrem com maior frequência
num determinado cenário. Por exemplo, numa amostra de 400 defeitos de fabricação
de uma peça mecânica, foram observados 16 tipos de defeito: rebarbas, diâmetromenor, diâmetro maior, sem usinagem, altura menor, trincas, altura maior, borda
muito na, enviesado, base maior que o topo, borda muito grossa, cor muito escura,
estrutura pouco flexível, base menor que o topo, cor muito clara e estrutura frágil. Ao
se construir um gráco de Pareto com os dados (gura 16), observa-se que a maioria
absoluta (66%) dos defeitos se refere somente a três tipos: rebarbas (32%), diâmetro
menor (21%) e diâmetro maior (13%). Ou seja, ao fazer um plano de ação para corrigir
possíveis defeitos de fabricação dessa peça, “ignore” 13 defeitos e priorize suas
ações em apenas esses três. Fazendo isso, 66% do problema estará corrigido!
-
8/18/2019 Livro Estatística Probabilidades EAD
43/173unidade 2
036
ESTATÍSTICA E PROBABILIDADES
FIGURA 16 – Gráco de Pareto com a frequência de defeitos de fabricaçãode uma peça mecânica: 66% dos defeitos são somente de três categorias prioritárias
para um plano de ação para melhorar a qualidade do processo de fabricação(rebarbas, diâmetro menor e diâmetro maior).
Fonte: Elaborado pelo autor.
13. Box-plot: Este gráco, também conhecido como diagrama em caixa ou “caixa e
bigode”, informa sobre a distribuição dos dados. Somente se aplica a variáveis
quantitativas (gura 17), informando o menor valor (pequena linha horizontal
inferior) e valor máximo (pequena linha horizontal superior). A distância entre o
valor mínimo e a aresta inferior da caixa cinza é a amplitude em que ocorrem os
25% dos valores mais baixos. Este é conhecido como 1º quartil, sendo delimitado
pelo percentil 25 dos dados. As duas caixas, cinza e vermelha, mostram onde
estão 50% dos dados. A distância entre a aresta superior da caixa vermelha e a
pequena linha horizontal superior, que equivale ao máximo dos dados, refere-se ao
intervalo em que ocorrem 25% dos maiores valores da variável. A linha separando
as duas caixas representa a mediana, que expressa o valor do meio se todos os
dados fossem colocados em ordem. Assim como os histogramas, o box-plot nos
informa sobre a maneira de distribuição dos dados, tendo a vantagem de permitir
a visualização de grupos de dados (gura 18). Nessa gura, é apresentado um
resumo comparativo da taxa de aprovação de oito disciplinas de ciclo básico decursos de Engenharia.
-
8/18/2019 Livro Estatística Probabilidades EAD
44/173unidade 2
037
ESTATÍSTICA E PROBABILIDADES
FIGURA 17 – Exemplo de box-plot para uma variável quantitativa genérica: quanto maior otamanho das duas caixas, vermelho e cinza, maior a variabilidade e dispersão dos dados.
Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor.
FIGURA 18 – Box-plot com as taxas de aprovação de oito disciplinas de ciclo básico de
cursos de Engenharia: Desenho e Estatística se destacam das outras disciplinas, que têmtaxas de aprovação bem menores e mais heterogêneas. Cálculo Integral é a disciplina commenor taxa de aprovação e maior variabilidade dos dados.
-
8/18/2019 Livro Estatística Probabilidades EAD
45/173unidade 2
038
ESTATÍSTICA E PROBABILIDADES
SÍNTESE TABULARDE DADOS
Na análise exploratória de dados, em última instância, todos os resultados são apresentados
ou na forma de guras ou de tabelas. Assim como nos grácos, invista no título da tabela e
sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando?
Onde? Sugerimos que a interpretação das informações na tabela também seja colocada no
próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas
realmente conhecidas. A tabela 4 é um exemplo de formato de tabelas, apresentando modelo
para síntese de variáveis categóricas de uma base de dados.
TABELA 4 – Análise exploratória de variáveis categóricas: a síntese de variáveiscategóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas
categorias, a frequência de valores em cada categoria e os respectivos percentuais.
Fonte: Elaborado pelo autor.
Conceito Aprovado 2287 49%
Reprovado 2386 51%
Local do ensino médio Instituição privada 1509 32%
Instituição pública 3164 68%
Sexo Feminino 1948 42%
Masculino 2725 58%
Turno Manhã 1153 25%
Noite 3520 75%
VARIÁVEL CATEGORIA FREQUÊNCIA PERCENTUAL
SÍNTESE NUMÉRICADE DADOS
A síntese numérica de variáveis categóricas é muito simples, basta que você apresente suas
categorias, a frequência de valores em cada categoria e os respectivos percentuais, tal como
apresentado na tabela 3. Já a síntese de variáveis quantitativas é mais ampla e envolveresumir dois aspectos:
-
8/18/2019 Livro Estatística Probabilidades EAD
46/173unidade 2
039
ESTATÍSTICA E PROBABILIDADES
1) um valor típico ou característico para a variável;
2) uma medida do grau de variabilidade ou de dispersão dos dados.
1. Valor típico ou medida de posição: O objetivo é encontrar o valor característico, aquele
que melhor represente os dados. Vamos discutir aqui as duas possibilidades mais
aplicadas a problemas de pequeno e médio porte na área de Ciências Exatas e
Engenharia: a média ( X ) e a mediana ( Md ). A média é obtida pelo resultado da
soma de todos os valores, dividido pelo total de dados ou tamanho da amostra (n).
Matematicamente, a média é obtida por:
Já a mediana, é na verdade uma medida de ordem, indicando o valor “do meio”, aquele que
“divide os dados em duas metades”:
Passo 1 – Colocar os dados em ordem crescente.
Passo 2 – Encontrar o “valor do meio”, isto é:
se n, o tamanho da amostra, é ímpar, então Md é o valor central; se n é par, então Md é a média dos dois valores centrais.
Exemplo A (n=11), dados já ordenados:
{3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}
Para a mediana, como são 11 valores (n é ímpar) e a metade de 11 é 5,5, então Md é o 6º
valor, ou seja, o “valor do meio” (lembre-se de que os dados já estão ordenados):
Md = 9
Exemplo B (n=18), dados já ordenados:
{17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}
X = ∑ X in
i =1
n
-
8/18/2019 Livro Estatística Probabilidades EAD
47/173unidade 2
040
ESTATÍSTICA E PROBABILIDADES
Para a mediana, como são 18 valores (n
é par) e a metade de 18 é 9, então Md é a
média entre o 9º e o 10º valor, ou seja:
Md =30
+
40
= 352
ATENÇÃO
Não se esqueça, para obter a mediana é
necessário, antes de tudo, colocar os dados
em ordem crescente. Não ordenar os dados é a
principal fonte de erro no cálculo da mediana!
Algumas pessoas se perguntam: “Quantas
casas decimais devo apresentar no
resultado?”. Quanto menos casas decimais
você conseguir apresentar nos seus
resultados, melhor para o entendimento
da informação! Apresente seus resultados
usando o mesmo número de casas decimais
que os dados originais ou, no máximo, uma
casa decimal além do original, como foi
feito nos cálculos anteriores.
Outra questão é “Quando escolher entre
média e mediana para melhor representar
um conjunto de dados?” ou “Em quesituações resumir uma variável quantitativa
usando a média e quando a mediana é
melhor para representar os dados?”. Para
essa resposta, é preciso seguir uma regra
prática:
• Se média e mediana forem
semelhantes, então usar a média
para representar os dados.
• Se média e mediana forem muito
diferentes, então usar a mediana
para representar os dados.
Além de se basear nas regras acima, que
exigem uma interpretação caso a caso do
que seja “média e mediana muito diferentes”,
você poderá construir histogramas e, pelo
padrão do gráco, escolher uma ou outra
medida para representar os dados. Nos
modelos de histograma colocados notópico anterior, os exemplos 1 (simétrico),
3 (despenhadeiro) e 5 (platô), a média
é a melhor medida de posição. Já nos
histogramas dos exemplos 2 (fortemente
assimétrico) e 6 (ilha isolada), a mediana é
a melhor medida de posição que caracteriza
o conjunto de dados.
2. Medida do grau de variabilidade ou
de dispersão dos dados: O objetivo
é quanticar o quanto os dados são
heterogêneos, são imprevisíveis,
em suma, quanticar o grau de
variabilidade de uma variável
quantitativa.
-
8/18/2019 Livro Estatística Probabilidades EAD
48/173unidade 2
041
ESTATÍSTICA E PROBABILIDADES
A princípio, podemos medir a variabilidade de um dado informando o seu valor mínimo (mín) e
o valor máximo (máx), o que nos leva à sua amplitude (R): R = máx – mín.
Entretanto, essa é uma forma muito “simplista”, pois envolve somente dois valores da variável,
o mínimo e o máximo, ignorando todos os outros. Para uma medida mais adequada de
variabilidade, uma forma é calcular a sua média ( X ) e, em seguida, calcular quanto os dados
estão distantes da média, em média! Soa estranho, mas a ideia faz sentido. Por exemplo, seja
uma amostra de n = 5 pessoas e seus respectivos números de lhos:
Pessoa A B C D E
Número de lhos 0 1 1 2 3
Qual o número médio de lhos?
Isso mesmo, essas pessoas têm, em média, 1,4 lhos! Você deve estar se perguntado, “como
assim... um e 0,4 lho? Não existe 0,4 lho!!” Não se preocupe, a média funciona como ummodelo e, como tal, é uma aproximação da realidade. A média é o melhor valor representativo
para esses dados e, caso seja necessário resumir toda a informação num único valor, ela
deve ser usada para substituir o verdadeiro número de lhos de cada pessoa. Bom, voltando
à variabilidade, como calcular o quanto os dados estão distantes da média, em média? Para
cada indivíduo, devemos subtrair o valor observado pela média, calculando um “resíduo”:
-1,4 -0,4 -0,4 +0,6 +1,6
Pessoa A B C D E
Número de lhos 0 1 1 2 3
Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =
O resíduo mede a distância de cada valor em relação à média dos dados, ou seja, é uma
medida de quanto os dados estão distantes da média. Para resumir os resíduos num únicovalor, o ideal é então calcular uma média dos resíduos, que refletiria o quanto os dados estão
X = 0 + 1 + 1 + 2 + 3
=7
= 1,4.5 5
-
8/18/2019 Livro Estatística Probabilidades EAD
49/173unidade 2
042
ESTATÍSTICA E PROBABILIDADES
distantes da média, em média! Infelizmente, se zermos essa média, ela sempre dará zero,
pois os resíduos negativos anulam os positivos, dando uma soma dos resíduos igual a zero.
Para resolver esse problema, ao invés de simplesmente calcular os resíduos, devemos calcular
o resíduo elevado ao quadrado:
-1,4 -0,4 -0,4 +0,6 +1,6
1,96 0,16 0,16 0,36 2,56
Pessoa A B C D E
Número de lhos 0 1 1 2 3
Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =
Resíduo elevado (-1,4)2
= (-0,4)2
= (-1,4)2
= (+0,6)2
= (+1,6)2
=ao quadrado
Se somarmos os resíduos elevados ao quadrado teremos a soma dos quadrados dos resíduos
( ∑ ( X i - X )2 ), uma métrica que aparece em várias outras análises estatísticas. Quanto maior
a soma dos quadrados dos resíduos, maior a variabilidade dos dados! Para resumir essa
métrica, calculamos a sua média, que é chamada de variância amostral ( s2 ):
n
i =1
s2 = ∑ ( X i - X )2ni =1
n - 1
Nessas fórmulas, X i representa cada um dos dados individuais, X é a média e n o tamanho da
amostra ou total de dados. Observe que, no denominador, dividimos a soma dos quadrados
dos resíduos por (n - 1) e não por ( n ). Isso é feito porque nossos dados foram obtidos por
meio de amostragem e não por censo. Ou seja, sempre que tivermos dados amostrais, que é
a situação mais comum, calcularemos a variância amostral dividindo a soma dos quadradosdos resíduos por (n - 1). Se tivermos acesso à população toda, ou melhor, se zermos um
censo (o que é muito raro), então poderemos calcular a variância populacional (Ợ2 ), dividindo
a soma dos quadrados dos resíduos por (n):
n
Ợ2
= ∑ ( X i - X )2n
i =1
-
8/18/2019 Livro Estatística Probabilidades EAD
50/173unidade 2
043
ESTATÍSTICA E PROBABILIDADES
É importante se lembrar dessa diferença, pois ela aparece nas calculadoras cientícas e no
Excel, que permite o cálculo tanto de s2 quanto de Ợ2. Na prática (e na dúvida), sempre calcule
a variância amostral (s2).
Uma outra métrica de variabilidade é o desvio padrão amostral (s). Ele é a raiz quadrada da
variância e tem uso mais difundido que sua “mãe” (s2), porque, ao tirarmos a raiz quadrada
da variância, o resultado tem a mesma unidade de medida que a média e os dados originais.
Assim, no exemplo anterior, do número de lhos da amostra de n=5 pessoas, a variância
amostral é:
O desvio padrão amostral é:
É muito comum, ao divulgarmos uma síntese de uma variável quantitativa, apresentarmos a
sua média, seguida do seu desvio padrão no formato ( X = s ). Ou seja, no exemplo anterior,
essas pessoas têm 1,4 = 1,1 lhos.
Cuidado, isso não signica que os dados variem somente dentro do intervalo X = s , de 1,4 –
1,1 = 0,3 até 1,4 + 1,1 = 2,5 lhos! Essa é apenas uma forma usada para apresentar ambos os
valores, de média ( X ) e desvio padrão (s). Na verdade, se os dados tiverem um histograma
de forma simétrica, aproximadamente 95% dos dados ocorrerão dentro do intervalo denido
pela média mais ou menos dois desvios padrões ( X = 2s ), e 99,7% dentro da média mais ou
menos três desvios padrões ( X = 3s ). Se não tivermos como avaliar a forma de distribuição
dos dados, ou seja, se não soubermos o padrão do histograma dos dados, pelo menos 89%
dos dados cairão no intervalo X = 3s .
Supondo que você já consiga calcular o desvio padrão ( s ) de um conjunto de dados, comointerpretar o seu resultado? É fato que, quanto maior o desvio padrão, maior a variabilidade
-
8/18/2019 Livro Estatística Probabilidades EAD
51/173unidade 2
044
ESTATÍSTICA E PROBABILIDADES
dos dados. Mas, o que é um desvio padrão grande? Essa resposta depende da magnitude da
média ( X ), isto é, para sabermos se um desvio padrão é grande ou pequeno, vai depender do
valor da média. Por exemplo, sejam os resultados das provas de um atleta, resumidos abaixo:
Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos;
Salto em altura: X = 2,2 e s = 0,8 e metros.
Em qual prova, salto em altura e tempo para 100 m, o atleta é mais heterogêneo, tem os
resultados com maior variabilidade? Se você responder essa questão comparando os dois
desvios padrões, estará cometendo dois erros:
1º Não se pode comparar diferentes unidades de medida (s versus m);
2º Deve-se considerar a magnitude da média ao se avaliar um desvio padrão.
Então, como efetivamente obter o grau de variabilidade de uma variável? Isso é feito pelo
coeciente de variação (cv ), uma relação percentual entre o desvio padrão e a média:
cv =s
x 100 (%).
Além de ser uma medida adimensional, o que possibilita comparações entre diferentes
variáveis, o CV pode ser interpretado de forma absoluta:
x
QUADRO 2 – Denição e interpretação do grau de variabilidade de um conjunto de dados.
Fonte: Elaborado pelo autor.
CV 100% Neste caso, o desvio padrão é maior que a média. Dados comvariabilidade extrema, muito heterogênea. A variável tem umcomportamento caótico, completamente imprevisível.
CV INTERPRETAÇÃO
-
8/18/2019 Livro Estatística Probabilidades EAD
52/173unidade 2
045
ESTATÍSTICA E PROBABILIDADES
No caso do atleta, teremos os seguintes valores de coeciente de variação:
Tempo para correr 100 metros: cv =2,1
x 100 = 19%;
Salto em altura: cv =0,8
x 100 = 36%;
Podemos dizer então que o atleta tem pouca variabilidade nos seus resultados da corrida de
100 m e muita variabilidade nos saltos em altura.
11,5
2,2
LEMBREQuando você zer uma análise exploratória de dados, lembre-se de corrigir os grácos produzidos pelo
Excel. Lembre-se também de colocar os títulos das tabelas e das guras o mais informativo possível.
E, ao calcular o desvio padrão, não se esqueça de considerar que você tem dados amostrais. Conra
na sua calculadora e/ou no próprio Excel qual a fórmula que está sendo usada. Resuma os dados por
meio de grácos, números e tabelas. Esse é o primeiro e fundamental passo para entender os dados e
o problema investigado.
A análise exploratória dos dados é o primeiro passo para que você se torne especialista na
área investigada. Suas ferramentas de análise não produzem conclusões denitivas sobre um
problema, mas possibilitam que hipóteses sejam construídas de forma consistente.
APLICAÇÃO PRÁTICA
O artigo “Avaliação do impacto do Cálculo Zero no desempenho de alunos ingressantes de cursos de
Engenharia”, apresentado em 2013 por COUTO e cols. no COBENGE - Congresso Brasileiro de Educação
em Engenharia, teve como objetivo avaliar o impacto do “Cálculo Zero” no desempenho de alunos
ingressantes em cursos de Engenharia e Ciência da Computação, tanto em termos da nota nal em
Cálculo Diferencial e Geometria Analítica e Álgebra Linear (GAAL), quanto na chance de aprovação
nessas disciplinas. As perguntas-chave do trabalho eram: O “Cálculo Zero” afeta de forma signicativao resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL? Vale a pena investir
-
8/18/2019 Livro Estatística Probabilidades EAD
53/173
-
8/18/2019 Livro Estatística Probabilidades EAD
54/173unidade 2
047
ESTATÍSTICA E PROBABILIDADES
FIGURA 20 – Gráco de dispersão considerando o percentual de faltas/ausênciasàs aulas de Cálculo Diferencial e a nota nal do aluno nessa disciplina: análiseconsiderando somente alunos em que foram registradas pelo menos uma faltaàs aulas durante o semestre. Há uma forte correlação negativa (r= -0,77) entre
ausências às aulas e a nota nal do aluno: quanto mais faltas às aulas o aluno tiver,
menor a sua nota nal em Cálculo Diferencial. IET/ UniBH, 1º semestre de 2011.
Fonte: COUTO et al., 2013.
Além de grácos, tabelas com a síntese numérica dos dados coletados no estudo também foram
apresentadas no artigo. O uso dessas ferramentas estatísticas de análise de dados mostrou de forma
inequívoca que valia a pena implementar ações como o “Cálculo Zero”, pois o fato de se ofertar essa
disciplina afetava o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL.
Esse é um exemplo real de como usar a análise exploratória dos dados e outras técnicas de
Estatística e Probabilidades para se entender a fundo um problema, resolvendo-o e se tornando um
especialista na área.
Referência:
XLI CONGRESSO BRASILEIRO DE EDUCAÇÃO EM ENGENHARIA, 2013. Avaliação do Impacto do Cálculo Zero noDesempenho de Alunos Ingressantes de Cursos de Engenharia. Paraná: FADEP, 2013. Disponível em: . Acesso em 14 maio 2015.
http://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdf
-
8/18/2019 Livro Estatística Probabilidades EAD
55/173unidade 2
048
ESTATÍSTICA E PROBABILIDADES
REVISÃO
Vimos nesta unidade os principais tópicos
da análise exploratória de dados, também
denominada de Estatística Descritiva:
Síntese gráca: Uma gura vale mais que
mil palavras! Isso é verdade, entretanto
um gráco vale mais que mil palavras se
e somente se ele for desenhado de forma
clara, correta e concisa. Sempre desenhe
grácos a partir de seus dados, mas tentefazê-los de tal forma que a frase “basta
olhar para entender” seja válida. Os grácos
mais úteis para análise de dados de
experimentos de pequeno e médio porte na
área de Ciências Exatas e Engenharia são:
grácos de pizza, barras, colunas, linha,
séries históricas, histograma, gráco de
Pareto, gráco misto, de coluna e de linha,
diagrama de dispersão e box-plot. Na
prática devemos construir grácos usando
ferramentas computacionais como o Excel.
Síntese tabular de dados: Na análise
exploratória de dados, em última instância,
todos os resultados são apresentados ouna forma de guras ou de tabelas. Assim,
invista no título da tabela e sempre coloque
respostas claras para pelo menos quatro
perguntas: O que? Quem? Quando? Onde?
Também sugiro que a interpretação das
informações na tabela seja colocada no
próprio título. Se necessário, coloque notas
explicativas, usando siglas somente para
coisas realmente conhecidas.
Síntese numérica: O resumo de uma
variável categórica é muito simples, basta
que você apresente suas categorias, a
frequência de valores em cada categoria
e os respectivos percentuais. Já a síntese
de variáveis quantitativas é mais ampla e
envolve resumir dois aspectos:
1) Um valor típico ou característico para a
variável, que é denido pela média ( X ) e
pela mediana (Md). Se média e mediana
forem semelhantes, então a média deve
ser usada para representar os dados.
Entretanto, caso haja discrepância muito
grande entre média e mediana, então se
deve usar a mediana para representar os
dados;
2) Uma medida do grau de variabilidade ou
de dispersão dos dados, calculada pelo
desvio padrão amostral ( ) e o coeciente
de variação (CV).
PARA SABER MAIS
Caso você deseje aprofundar sobre as questões
discutidas nesta unidade, leia os capítulos 2 e 3
do livro texto: LEVINE, David M. et al. Estatística:
teoria e aplicações: usando Microsoft Excel em
português. 6. ed. Rio de Janeiro: LTC, 2012,
-
8/18/2019 Livro Estatística Probabilidades EAD
56/173
-
8/18/2019 Livro Estatística Probabilidades EAD
57/173unidade 3
050
INTRODUÇÃO ÀTEORIA DE PROBABILIDADES
Aorigem da teoria das probabilidades é comumente associada à questões colocadas
por MÉRÉ (1607-1684) a PASCAL (1623-1662). Todavia, existem autores que
sustentam que o cálculo das probabilidades iniciou-se na Itália, com PACCIOL