aula1 - estatística básica

69
Rafael José Rorato Aula 1: Estatística Básica (a) Aspectos Introdutórios (b) Estatística Descritiva Instituto de Ensino Superior de Brasília – IESB Programa de pós-graduação em Logística Empresarial Estatística e modelos de otimização aplicados à logística

Upload: rafael-jose-rorato

Post on 15-Feb-2017

57 views

Category:

Education


3 download

TRANSCRIPT

Page 1: Aula1 -  estatística básica

Rafael José Rorato

Aula 1: Estatística Básica (a) Aspectos Introdutórios (b) Estatística Descritiva

Instituto de Ensino Superior de Brasília – IESB Programa de pós-graduação em Logística Empresarial Estatística e modelos de otimização aplicados à logística

Page 2: Aula1 -  estatística básica

(a) Aspectos Introdutórios

Page 3: Aula1 -  estatística básica

Dados:

são elementos identificados em forma bruta que, por si só, não conduz a compreensão de um determinado fato ou situação (Oliveira, 2005)

elemento que representa eventos ocorridos na empresa ou circunstâncias físicas, antes que tenham sido organizados ou arranjados de maneira que as pessoas possam entender e usar (Rosini & Palmisano, 2003)

Dados x Informações

Page 4: Aula1 -  estatística básica

Informações: é o dado trabalhado que permite ao executivo tomar decisões (Oliveira, 2005)

dado configurado de forma adequada ao entendimento e à utilização pelo ser humano (Rosini & Palmisano, 2003)

resultado dos dados devidamente tratados, comparados, classificados, relacionáveis entre outros dados servindo para tomada de deciões e para melhor compreensão do objeto estudado

Dados x Informações

Page 5: Aula1 -  estatística básica

No dia a dia nos deparamos com inúmeros DADOS

Nosso mecanismo de pensamento tenta gerar alguma ATITUDE baseado neles

Então, como organizamos esse mecanismo?

Dados x Informações

Page 6: Aula1 -  estatística básica

A lógica que devemos seguir para filtrar o

relevante do não relevante:

Dados x Informações

DADOS

Processo

Operações

Preparação Preparação

Decisão

PROCESSO DE TRANSFORMAÇÃO

INFORMAÇÃO

CONHECIMENTO

TOMADA DE DECISÃO

TOMADA DE DECISÃO

Page 7: Aula1 -  estatística básica

Dados x Informações

Exemplo: Valor de Demurrage para contêineres

Valores de Demurrage de um armador são: 20”: R$170

40”: R$200

20” reefer: R$250

Cada valor desses é um PARÂMETRO!

Page 8: Aula1 -  estatística básica

Dados x Informações

Pergunta: Qual é o valor que corresponde ao padrão de multas sobre contêineres cobrados por esse armador?

Precisamos resumir esse universo gigantesco de parâmetros para uma avaliação sucinta

Para isso escolhemos alguns parâmetros DERIVADOS que representem o todo e assumimos um FORMA para esses dados.

Page 9: Aula1 -  estatística básica

Como os dados se comportam?

Se entendermos como eles se distribuem podemos prever seu comportamento futuro!

Veja as notas dadas na avaliação de uma transportadora de carga fracionada:

Nota: 3,5,7,3,5,7,6,3,6,5,4,6,4,6,7,4,5,6,4,5,…

333333

444444444444444444444444

555555555555555555555555555555555555555

666666666666666666666666

777777

Ordenando essas notas já podemos ver “alguma coisa”

Page 10: Aula1 -  estatística básica

O que é relevante?

Os dados em si têm um comportamento ALEATÓRIO mas que pode ser determinado.

Esse comportamento pode ser ENCAIXADO em um modelo matemático previamente conhecido para termos uma visão geral de sua DISTRIBUIÇÃO (FORMA).

Page 11: Aula1 -  estatística básica

Movimento!

Os dados podem estar mais aqui do que lá! Ou seja, eles se DISTRIBUEM de uma forma geralmente conhecida

Apesar de eles se distruibuirem de forma aleatória eles têm uma “preferência” de estar mais em um lugar do que em outro

Essa VARIABILIDADE dos dados é muito importante para a estatística pois é com base nela que se podem medir e quantificar as incertezas sobre os dados.

Page 12: Aula1 -  estatística básica

Armazenamento de dados

Estatística necessita de qualidade de dados Garbage in / Gargabe out Dados contábeis x Realidade

Consulta a dados via: Data marts Data warehouse Arquivos: .txt; .csv; .dbf; .xls

Dados transacionais: informações operacionais da empresa

Cargas semanais Análise Estatística / Análise Previsiva

Processo inserido no PDCA (Plan Do Check Act)

Page 13: Aula1 -  estatística básica

Armazenamento de dados

Importância da área de TI

Cultura e rotina de “armazenamento” de dados nas empresas

Sistemas Gerenciadores de Bancos de Dados e ERP (Enterprise Resourse Planning) Oracle MySQL

DB2 (IBM) MS-Access

SQL Sever (MS) Microsiga

SAP Datasul

Co

rpo

rati

vo

Grande porte Pequeno e Médio porte

BD

ERP

BD

ERP

Page 14: Aula1 -  estatística básica

Dados Qualitativos e Quantitativos

Qualitativos

Nominal (Sexo, Cor,…)

Ordinal (Ruim, Bom, Excelente, …)

Quantitativos

Discreto (-1,0,1,2,5,…)

Contínuo (1.25 ,1.55 , 5.1515…)

Dados qualitativos são traduzidos em números para serem modelados matematicamente

a) Binários (0,1)

b) Categóricos (1,2,3,4, etc.)

Page 15: Aula1 -  estatística básica

Dados Quantitativos: Discretos e Contínuos

Discretos: surgem quando o número de valores possíveis é ou um número finito ou uma quantidade “enumerável” Ex: “Os números de ovos que as galinhas botam são

dados discretos porque representam contagens”

Page 16: Aula1 -  estatística básica

Dados Quantitativos: Discretos e Contínuos

Contínuo: resultam de infinitos valores possíveis que correspondem a alguma escala contínua que cobre um intervalo de valores sem vazios, interrupções ou saltos Ex: “As quantidades de leite das vacas são dados

contínuos porque são medidas que podem assumir qualquer valor em um intervalo contínuo. Durante um dado intervalo de tempo, uma vaca pode produzir uma quantidade de leite entre 0 a 5 galões. Seria possível obter-se 2,34 galões, porque a vaca não é restrita a quantidades discretas de 0, 1, 2, 3, 4 ou 5 galões”

Page 17: Aula1 -  estatística básica

Parâmetro e Estatística

Parâmetro: medida numérica que descreve alguma característica da população Ex: “A Câmara dos Deputados é constituída por 513

membros, sendo que 13,6% são do Estado de São Paulo”

Estatística: medida numérica que descreve alguma característica da amostra Ex: “Pesquisa IBOPE constata que 51% dos cidadãos

de Belo Horizonte lêem jornal, sendo esta bem acima dos 36% da população brasileira”

Page 18: Aula1 -  estatística básica

Exemplo de estrutura de dados

Os dados para análise estatística em geral se organizam da seguinte forma:

Cada linha representa uma unidade amostral

Cada coluna é uma variável medida

Page 19: Aula1 -  estatística básica

Tomada de decisão através da análise numérica

O uso da estatística e pesquisa operacional em logística:

Definir “padrões” de receita de operações de transporte

Realizar projeções futuras de previsão de vendas

Realizar simulações de estoque

Page 20: Aula1 -  estatística básica

Tomada de decisão através da análise numérica

O uso da estatística e pesquisa operacional em logística:

Realizar modelos de previsão para budget anual: orçamento financeiro ou recursos

Trabalhar com “roterização” de veículos

Page 21: Aula1 -  estatística básica

Tomada de decisão através da análise numérica

O uso da estatística e pesquisa operacional em logística:

Estudos de “facility location”: definição de localização de terminais, fábricas, lojas, etc

Modelos matemáticos de custo de veículos

Page 22: Aula1 -  estatística básica

População

É um conjunto completo “objetos” que estão sendo “investigados e apresentam um determinado conjunto de características ou parâmetros (agrupamento de dados)

Page 23: Aula1 -  estatística básica

Amostra

É um subconjunto da população

Características da amostra:

Representativas da população

Atender a critérios de inclusão e exclusão

Resultados obtidos possam ser extrapolados para população alvo

Diferenças entre amostras da mesma população são devido a variação amostral

Page 24: Aula1 -  estatística básica

Amostra

Inferência estatística: da amostra para a população em estudo

INFERÊNCIA ESTATÍSTICA

Page 25: Aula1 -  estatística básica

Amostra

Dimensionamento amostral ou amostragem será abordada em uma aula específica

Page 26: Aula1 -  estatística básica

Séries estatísticas

É toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie

Séries históricas, cronológicas, temporais

Séries geográficas, espaciais, localização

Séries específicas ou categóricas

Page 27: Aula1 -  estatística básica

Séries estatísticas

Séries históricas, cronológicas, temporais

Análise de uma variável em relação ao tempo (y: var versus x: ano, mês, dia do mês, hora)

Aplicação em avaliações para projeções e previsões (forecast)

Áreas: Econometria e Séries Temporais

Page 28: Aula1 -  estatística básica
Page 29: Aula1 -  estatística básica

Séries estatísticas

Séries geográficas, espaciais, localização

Análise de uma variável em relação ao espaço (y: var versus x: país, cidade, estado, coordenadas geográficas)

Análise descritiva; ciências políticas e sociais; análise mercadológica

Page 30: Aula1 -  estatística básica

Séries estatísticas

Page 31: Aula1 -  estatística básica

Séries estatísticas

Séries específicas ou categóricas

Análise de uma variável em relação a uma categoria da variável

Análise descritiva da distribuição das categorias dos dados

Áreas: análise numérica em geral

Page 32: Aula1 -  estatística básica

Séries estatísticas

Page 33: Aula1 -  estatística básica

Gráficos estatísticos

Page 34: Aula1 -  estatística básica

Gráficos estatísticos

Page 35: Aula1 -  estatística básica

Gráficos estatísticos

Page 36: Aula1 -  estatística básica

Gráficos estatísticos

Page 37: Aula1 -  estatística básica

Gráficos estatísticos

Page 38: Aula1 -  estatística básica

Box-plot

É baseado em distribuições SIMÉTRICAS

Q3-Q1=IQ (Aqui estão 50% das observações)

Q1

Q3

Mediana

MIN(Q3 + 1,5 x IQ, MAX)

MAX(Q1 – 1,5 x IQ, MIN)

O que estiver fora deste intervalo é representado por um PONTO

Gráficos estatísticos

Page 39: Aula1 -  estatística básica

Box-plot

Page 40: Aula1 -  estatística básica

Gráficos estatísticos - outliers

São pontos que fogem da distribuição estatística assumida para os dados

Cuidado ao interpretar Outliers em gráficos Box-plot

Box-plot são úteis para detecção quando a distrubuição é simétrica.

Page 41: Aula1 -  estatística básica

Agrupamentos, tabelas e frequências

Page 42: Aula1 -  estatística básica

Sintetizando dados Qualitativos

Distribuição de freqüência

Sumário tabular de dados que mostra a freqüência (ou o número) de observações em cada uma das classes não sobrepostas

Gráfico de Barras e de Pizza

Retrata os dados sintetizados em dispositivo gráfico, podendo ser apresentadas as freqüência absoluta, freqüência relativa ou freqüencia percentual

Como fazer?

No Excel utilize a opção de Tabela Dinâmica e Gráfico de Barras

Page 43: Aula1 -  estatística básica

Cultura Agricola Nome Produto Segmento

Horti-Fruticultura Cascade 100 A

Algodão Cascade 100 A

Citrus Cascade 100 A

Café Cascade 100 A

Feijão Cascade 100 A

Soja Kumulus DF A

Horti-Fruticultura Kumulus DF A

Algodão Kumulus DF A

Milho Kumulus DF A

Arroz Kumulus DF A

Citrus Kumulus DF A

Trigo Kumulus DF A

Café Kumulus DF A

Feijão Kumulus DF A

Outras Kumulus DF A

Horti-Fruticultura Torque 500 SC A

Citrus Torque 500 SC A

Café Torque 500 SC A

Horti-Fruticultura Acrobat MZ F

Horti-Fruticultura Cabrio Top F

Algodão Cabrio Top F

Feijão Cabrio Top F

Horti-Fruticultura Cantus F

Café Cantus F

Soja Caramba 90 F

Horti-Fruticultura Caramba 90 F

Trigo Caramba 90 F

Feijão Caramba 90 F

Amendoim Caramba 90 F

Cultura Agrícola Freqüência

Freqüência

Relativa

Freqüência

Percentual (%)

Algodão 3 0.1034 10.34

Amendoim 1 0.0345 3.45

Arroz 1 0.0345 3.45

Café 4 0.1379 13.79

Citrus 3 0.1034 10.34

Feijão 4 0.1379 13.79

Horti-Fruticultura 7 0.2414 24.14

Milho 1 0.0345 3.45

Outras 1 0.0345 3.45

Soja 2 0.0690 6.90

Trigo 2 0.0690 6.90

Total 29 1 100

Freqüência

3

1 1

43

4

7

1 12 2

012345678

Algod

ão

Amen

doim

Arroz

Caf

é

Citr

us

Feijã

o

Hor

ti-Fru

ticultu

ra

Milh

o

Out

ras

Soja

Trigo

Freqüência Percentual (%)

10.34

3.45 3.45

13.7910.34

13.79

24.14

3.45 3.456.90 6.90

0.00

5.00

10.00

15.00

20.00

25.00

30.00

Algod

ão

Amen

doim

Arroz

Caf

é

Citr

us

Feijã

o

Hor

ti-Fru

ticultu

ra

Milh

o

Out

ras

Soja

Trigo

Page 44: Aula1 -  estatística básica

Determinação de classes Distribuição de freqüência

Sumário tabular, de um dado quantitativo, organizado sobre classes numéricas não sobrepostas. Também pode ser apresentada com as freqüências absoluta, relativa e percentual

Determina-se:

a) Número de classes

n < 30 5 ou 6 classes

b) Largura de classes

- tamanho igual (largura)

- n. classes largura

- largura = (maior valor – menor valor) / número de classe

Page 45: Aula1 -  estatística básica

Determinação de classes

Distribuição de freqüência

c) Limite de classes

Dica: Evitar grandes amostras e grande variabilidade!!

Gráfico de barras

Page 46: Aula1 -  estatística básica

Determinação de classes

Cultura

Agricola Nome Produto Volume

Soja Poast 882,390

Soja Pivot 756,114

Soja Basagran 600 742,807

Soja Volt 451,984

Soja Alteza 327,790

Soja Cell-Tech 321,639

Soja Aramo 282,684

Soja Protreat 277,901

Soja Talcord 250 CE 270,694

Soja Standak 250 FS 235,507

Soja Nomolt 150 230,538

Soja Triona 199,490

Soja Vexter 153,273

Soja Dash HC 140,304

Soja Dimilin 110,187

Soja Fastac 100 CE 107,521

Classe de

Volume Freq. Abs

Freqüência

Relativa

Freqüência

Percentual (%)

775-910 1 0,0625 6,25

640-775 2 0,1250 12,50

505-640 0 0,0000 0,00

370-505 1 0,0625 6,25

235-370 6 0,3750 37,50

100-235 6 0,3750 37,50

Total 16 1 100

Freqüência Percentual (%)

6.25

12.50

0.00

6.25

37.50 37.50

0.00

5.00

10.00

15.00

20.00

25.00

30.00

35.00

40.00

77

5-9

10

64

0-7

75

50

5-6

40

37

0-5

05

23

5-3

70

10

0-2

35

Page 47: Aula1 -  estatística básica

Sintetizando dados Quantitativos

Outros métodos

Ogivas: freqüências cumulativas (abs, rel, %)

Tabulações Cruzadas: ex.: Tabela Dinâmica MS-Excel

Freq. Abs Cumulativa

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

16.00

18.00

775-9

10

640-7

75

505-6

40

370-5

05

235-3

70

100-2

35

Page 48: Aula1 -  estatística básica

(b) Estatística Descritiva

Page 49: Aula1 -  estatística básica

Estatística Descritiva

Para cada tipo de dado existe uma abordagem diferente para analisá-lo.

Basicamente existem 2 grupos de medidas:

Medidas de Posição:

Freqüências, Médias, Medianas, Moda,…

Medidas de Variabilidade:

Desvio Padrão, Desvio Absoluto, Range,…

Outras medidas são assimetria e kurtose.

Page 50: Aula1 -  estatística básica

Medidas de Posição Cálculo da Participação Relativa

Algumas Medidas Descritivas

Page 51: Aula1 -  estatística básica

Medidas de Posição

Agora que conhecemos os principais parâmetros de análise vamos entender melhor suas interpretações: Medida de posição central

Média: μ (população) ou (amostra) Sendo N o tamanho da população e n o tamanho da amostra

Mediana: “valor que fica no meio da seqüência quando os dados são arranjados na ordem ascendente”

Dica: quando a amplitude da amostra e a variabilidade da amostra/população for grande, a Mediana fornece uma melhor medida de posição central

Moda: valor de dados que ocorre com maior freqüência

_

x

Page 52: Aula1 -  estatística básica

Medidas de Posição: Média

É o CENTRO DE MASSA dos dados

Muito sensível a valores extremos

1 2 3 4 5 6 7 8 9 10

1 2 3 4 5 6 7 8 9 10

1 2 3 4 5 6 7 8 9 10

Média = 5.5

Média = 4

Média = 3.25

n = 2

n = 3

n = 4

Page 53: Aula1 -  estatística básica

Medidas de Posição: Moda

Cultura Agrícola Freqüência

Freqüência

Relativa

Freqüência

Percentual (%)

Algodão 3 0.1034 10.34

Amendoim 1 0.0345 3.45

Arroz 1 0.0345 3.45

Café 4 0.1379 13.79

Citrus 3 0.1034 10.34

Feijão 4 0.1379 13.79

Horti-Fruticultura 7 0.2414 24.14

Milho 1 0.0345 3.45

Outras 1 0.0345 3.45

Soja 2 0.0690 6.90

Trigo 2 0.0690 6.90

Total 29 1 100

Page 54: Aula1 -  estatística básica

Relação entre Média e Mediana

Quanto mais assimétrica a distribuição mas distantes estão a Média e a Mediana

1 2 3 4 5 6 7 8 9 10

Média = 4.4

Mediana = 4

Moda = 3

Page 55: Aula1 -  estatística básica

Medidas de Posição: Quartil Quartil

Quartis dividem o conjunto de dados em 4 partes (25%)

Q1: primeiro quartil

Q2: segundo quartil = mediana

Q3: terceiro quartil

25% 25% 25% 25%

Q1 Q2 Q3

Page 56: Aula1 -  estatística básica

Medidas de Posição: outros

Decis

Decis dividem o conjunto de dados em 10 partes (10%)

Percentis

Dividem o conjunto de dados em 100 subcojuntos com a mesma quantidade de dados (1%)

Page 57: Aula1 -  estatística básica

1 1 2%

1 2 4%

1 3 6%

2 4 8%

2 5 10%

2 6 12%

2 7 14%

2 8 16%

2 9 18%

2 10 20%

3 11 22%

3 12 24%

3 13 27%

3 14 29%

3 15 31%

3 16 33%

3 17 35%

3 18 37%

3 19 39%

3 20 41%

4 21 43%

4 22 45%

4 23 47%

4 24 49%

4 25 51%

4 26 53%

4 27 55%

4 28 57%

4 29 59%

5 30 61%

5 31 63%

5 32 65%

5 33 67%

5 34 69%

5 35 71%

6 36 73%

6 37 76%

6 38 78%

6 39 80%

7 40 82%

7 41 84%

7 42 86%

7 43 88%

8 44 90%

8 45 92%

8 46 94%

9 47 96%

9 48 98%

10 49 100%

Mediana = 4

(50%)

Primeiro

Quartil = 3

(25%)

Terceiro

Quartil = 6

(75%)

Exemplo

Page 58: Aula1 -  estatística básica

Box-plot

• Pelo Box-plot podemos notar uma pequena assimetria

• Ela pode ser vista também pela pequena diferença entre a Média e Mediana

Q3-Q1=IQ (Aqui estão 50% das observações)

Q1

Q3

Mediana

MIN(Q3 + 1,5 x IQ, MAX)

MAX(Q1 – 1,5 x IQ, MIN)

O que estiver fora desteintervalo é representadopor um PONTO

Q3-Q1=IQ (Aqui estão 50% das observações)

Q1

Q3

Mediana

MIN(Q3 + 1,5 x IQ, MAX)

MAX(Q1 – 1,5 x IQ, MIN)

O que estiver fora desteintervalo é representadopor um PONTO

Exemplo

Mediana = 4 (Q2 | 50%)

Primeiro Quartil = 3 (25%)

Terceiro Quartil = 6 (75%)

Média = 4,43

Page 59: Aula1 -  estatística básica

Medidas de Variabilidade

O Range ou Amplitude:

é uma medida para fornecer a diferença entre os valores máximo e mínimo

A Variância (σ2) é definida por:

Medida de variabilidade que utiliza todos os dados

É o “erro” médio da diferença ao quadrado do afastamento de todos os pontos em relação a média amostral ou populacional

n

xxx

n

x nn

i

i

22

2

2

1

2

1

2 )(...)()(

xi é cada valor observado e μ é a média

Page 60: Aula1 -  estatística básica

Medidas de Variabilidade: Desvio padrão

Desvio-padrão (σ: população ou s: amostra)

É a raiz quadrada da variância populacional ou amostral

Desvio médio em relação à média

O Desvio Padrão é pouco intuitivo de se analisar mas tem propriedades estatísticas importantes para outros cálculos (inferência estatística)

Page 61: Aula1 -  estatística básica

Medidas de Variabilidade: Desvio padrão

Desvio-padrão (σ: população ou s: amostra)

Note que a unidade de medida do Desvio padrão é o mesmo dos dados originais (essa é a razão de tirar a Raiz quadrada da variância)

Se estamos falando em tempo médio em horas o desvio padrão também será medidos em horas e não “horas ao quadrado”

Page 62: Aula1 -  estatística básica

Entendendo a Variabilidade

Entender a variabilidade é importante para entender muito mais do que como está centrado o processo (média, mediana, …)

Imagine-se na situação onde dois bancos garantem que o tempo médio de atendimento é de 20 minutos. É o bastante para avaliar?

Page 63: Aula1 -  estatística básica

Entendendo a Variabilidade

Não! Entender como esse tempo se distribui é importante por exemplo para entender metas de atendimento, por exemplo, 95% dos atendimentos em até 23 minutos.

Page 64: Aula1 -  estatística básica

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0 5 10 15 20 25 30 35 40

Qual Banco você escolheria?

Banco 1

Banco 2

23 minutos

Page 65: Aula1 -  estatística básica

medida que se serve para comparar diferentes distribuições

como a média de duas distribuições podem ser diferentes, a utilização comparativa entre o desvio padrão de ambas não é viável

útil para a comparação em termos relativos do grau de concentração em torno da média

Medidas de Variabilidade: Coeficiente de Variação

Page 66: Aula1 -  estatística básica

Para Controle Estatístico de Processo:

CV ≤ 15%: Baixa dispersão, homogênea, estável

15 < CV < 30%: Média dispersão

CV ≥ 30%: Alta dispersão, heterogênea

100

x

sCV

Medidas de Variabilidade: Coeficiente de Variação

s: desvio padrão amostral

x: média amostral

Page 67: Aula1 -  estatística básica

Medidas de associação entre duas variáveis

Coeficiente de correlação: Momento do Produto de Pearson

yx

xy

xyss

sr

rxy = coeficiente de correlação (dados amostrais)

sxy = covariância da amostra

sx = desvio-padrão da amostra de x

sy = desvio-padrão da amostra de y

Page 68: Aula1 -  estatística básica

Medidas de associação entre duas variáveis

Coeficiente de correlação: Interpretação:

Valores rxy variam de -1 a +1

rxy < 0: relação linear negativa

rxy > 0: relação linear positiva

rxy = 0: fraca relação entre as variáveis

Page 69: Aula1 -  estatística básica

Medidas de associação entre duas variáveis

Coeficiente de correlação:

Aplicação: investigação perante o relacionamento entre variáveis

Depreciação da Frota x Quilometragem Média Mensal da Frota

Assentos Vazios em Aeronaves x Passageiros Transportados Mês

Escolaridade de Estivadores x Número de Acidentes de Trabalho nos Portos