corre la cao regress a o

Upload: marcelo-sousa

Post on 09-Mar-2016

220 views

Category:

Documents


0 download

DESCRIPTION

correlação

TRANSCRIPT

  • Bases Computacionais da Cincia (BC-0005)

    Correlao e Regresso

    Maria das Graas Bruno Marietto

    [email protected]

    Centro de Matemtica, Computao e Cognio (CMCC)

    Universidade Federal do ABC (UFABC)

    1

    Correlao e Regresso

    As tcnicas de correlao e regresso analisam dados amostrais

    procurando determinar como duas, ou mais variveis, esto

    relacionadas umas com as outras

    A tabela a seguir mostra alguns exemplos de possveis relaes

    Qual o tipo de relao que existe entre as variveis desta

    tabela? Por exemplo, quando uma aumenta a outra diminui?

    2

    Correlao e Regresso

    Este tipo de estudo bastante utilizado quando o

    trabalho/pesquisa/relatrio caracterizado pela pesquisa

    exploratria

    Um analista/pesquisador busca determinar quais variveis so

    relevantes, e o foco est no grau do relacionamento

    3

    A anlise de correlao tem como resultado um

    nmero que expressa o grau de relacionamento entre

    duas variveis

    A anlise de regresso expressa o resultado em uma

    equao matemtica, descrevendo o relacionamento

    Grficos de Disperso e Correlao

    Construir o grfico de disperso da varivel dependente versus

    varivel independente , usualmente, o primeiro passo em uma

    anlise de correlao

    4

    A anlise de correlao

    parte de uma hiptese, isto

    , um enunciado formal das

    relaes esperadas entre

    pelo menos uma varivel

    independente e uma

    varivel dependente

    Qual a

    hiptese deste

    grfico?

  • Grficos de Disperso e Correlao

    No grfico de disperso abaixo o eixo X (varivel independente) representa horas de treinamento em uma linha de produo de automveis, e o eixo Y (varivel dependente) representa o nmero de acidentes na fbrica

    5

    A anlise grfica do comportamento entre as variveis mostra a existncia de correlao negativa, pois medida que X cresce, Y decresce

    O grfico mostra que a empresa, ao investir em treinamento, reduz o nmero de acidentes na fbrica

    Grficos de Disperso e Correlao

    No grfico abaixo o eixo X representa o aumento da renda mdia

    da populao, e o eixo Y representa o consumo de bens durveis

    em milhes/ano

    6

    A anlise mostra que h

    correlao positiva, pois

    medida que X cresce, Y

    tambm cresce

    O grfico mostra que,

    com o aumento mdio

    da renda da populao,

    o consumo de bens

    durveis aumenta

    Grficos de Disperso e Correlao

    No grfico abaixo o peso de uma pessoa representado no eixo

    X, enquanto seu Q.I. (Quociente de Inteligncia) est

    representado no eixo Y

    7

    No h correlao

    linear, o grfico

    mostra que no

    existe evidncia de

    alguma relao

    entre o peso de uma

    pessoa com seu Q.I.

    Correlao Linear e No Linear

    Podemos ter dois tipos de correlao entre as variveis:

    Correlao linear, em que a relao entre as duas variveis expressa adequadamente por uma reta

    Correlao no-linear. Apesar de existir uma relao clara entre as variveis, esta no pode ser modelada por uma reta

    Nesta aula estudaremos a correlao linear

    8

  • Coeficiente de Correlao

    Utilizar apenas o mapa/grfico de disperso para interpretar a

    existncia de uma correlao pode ser uma tarefa bastante subjetiva

    Como medida mais objetiva, utiliza-se medir o grau e o tipo de uma

    correlao linear entre duas variveis

    por meio do clculo do coeficiente de correlao

    O intervalo de variao do coeficiente de correlao r varia ente -1 1

    9

    Valor de r prximo de

    1: as variveis X e Y

    tm forte correlao

    linear positiva

    Valor de r prximo

    de -1: as variveis X e

    Y tm forte

    correlao linear

    negativa

    Valor de r prximo de

    zero: se no existir, ou

    se existir pouca

    correlao linear entre

    as variveis X e Y

    Coeficiente de Correlao

    O Coeficiente de Correlao pode ser calculado pela frmula:

    10

    No pertence a escopo desta disciplina analisar a formulao

    matemtica do clculo do Coeficiente de Correlao

    Coeficiente de Correlao

    Como exemplo, vamos analisar o coeficiente de correlao entre

    o nmero de faltas dos alunos por semestre, em relao a suas

    respectivas notas finais em uma determinada disciplina

    11

    Causalidade e Correlao

    Pesquisadores freqentemente so tentados a inferir uma

    relao de causa e efeito entre X e Y, quando eles ajustam

    um modelo de regresso, ou realizam uma anlise de

    correlao

    Uma associao significativa entre X e Y no

    necessariamente implica numa relao de causa e

    efeito

    12

    Correlao no necessariamente implica em

    causalidade

  • Causalidade e Correlao

    13

    Correlao no necessariamente implica em causalidade

    Como exemplo, o grfico de disperso a seguir mostra a populao de

    Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o

    nmero de cegonhas (pssaros) naquele ano (X)

    Causalidade e Correlao

    14

    Correlao no necessariamente implica em causalidade

    O exame do grfico pode

    induzir interpretao de que

    existe associao entre X e Y

    Freqentemente, quando duas

    variveis parecem estar

    fortemente associadas, pode

    ser porque X e Y esto, de fato,

    associadas com uma terceira

    varivel, W

    Neste exemplo, X e Y aumentam com W, que a

    varivel tempo

    RETA DE REGRESSO LINEAR

    Depois de constatar que existe uma correlao linear significante,

    possvel escrever uma equao que descreva a relao linear entre as

    variveis X e Y

    Essa equao chama-se reta de regresso, ou reta do ajuste timo

    15

    Parte Prtica

    16

  • Grfico de Correlao no BrOffice

    17

    1) Insero das

    informaes. Os

    valores das

    variveis

    independente (X) e

    dependente (Y )

    No exemplo a

    seguir so as

    Horas de

    Treinamento

    versus Nmero de

    Acidentes

    18

    2) Podemos usar diretamente a opo Grfico da barra de ferramentas,

    ou a opo Inserir->Grfico. Em seguida escolhemos o grfico

    de disperso

    19

    3) Definimos o intervalo de dados, selecionando todas as colunas de dados

    20

    4) Inserir a coluna X

  • 21

    5) Inserir a coluna Y

    22

    6) Escolher ttulo do grfico, subttulo, nomes das variveis X e Y

    23

    7) Aps a insero de todas as informaes podemos clicar em Concluir e

    o grfico ser gerado

    24

    8) Clicando-se duas vezes sobre o grfico possvel criar a reta de

    regresso e a equao da reta

    Aps clicar duas vezes sobre o grfico, v ate o menu da parte superior

    Inserir e clique em Linha de Tendncia. Aparecer a janela

    denominada Linhas de tendncia. Clique em Linear

  • 25 26

    9) O valor do coeficiente de correlao (r) pode ser calculado no BROffice

    Calc seguindo o mesmo procedimento para calcular outras funes

    Clique no cone do assistente de funes ou use o menu Inserir/Funo.

    Selecione o grupo de funes estatsticas e escolha a funo CORREL

    27

    10) O prximo passo selecionar as colunas de dados

    Neste exemplo, para o campo Dados 1 selecionada a coluna Horas

    Treinamento", e para o campo Dados 2" selecionada a coluna

    Acidentes"

    28

    Finalmente, o valor calculado inserido na planilha, sendo igual a -0,98

    Neste caso, o valor de r negativo, pois h uma forte correlao negativa

  • Correlao e Regresso

    29