transformação de dados
DESCRIPTION
Transformação de DadosTRANSCRIPT
![Page 1: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/1.jpg)
TRANSFORMAÇÃO DE DADOSAlexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
![Page 2: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/2.jpg)
TRANSFORMAÇÃO DE DADOS
• Quando tiramos uma foto muitas vezes o resultado não é o esperado
• As cores podem estar muito escuras ou muito claras
• O foco pode estar errado
• Objetos podem estar muito pequenos
• Nestes casos, utilizamos ferramentas para aplicar filtros e transformar a foto em algo mais próximo do que desejamos
• Muitas vezes o mesmo ocorrer com os dados
![Page 3: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/3.jpg)
TRANSFORMAÇÃO DE DADOS
• Muitas vezes obtemos um conjunto de dados que quando visualizado apresenta imperfeições ou objetivos difíceis de ver
• Além disso, se você pretende analisar estatisticamente seus dados provavelmente precisar considerar a forma como os dados estão distribuídos
• Transformações são utilizadas para tratar destes dois problemas
![Page 4: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/4.jpg)
TRANSFORMAÇÃO DE DADOS
• Transformações são conjuntos de procedimentos de manipulação que podem revelar fatos não observáveis em sua forma original.
• Podemos, por exemplo, ajustar a distribuição dos dados para torná-los mais fáceis de exibir e adequadas para certos testes estatísticos
![Page 5: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/5.jpg)
ALERTA
• Jamais realize operações de transformação em seus dados originais!
• Você deve criar uma nova coluna para armazenar os novos valores para as variáveis sendo transformadas ou criar uma cópia inteira do seu conjunto de dados!
![Page 6: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/6.jpg)
DISTRIBUIÇÃO NORMAL• Uma das suposições mais frequentemente utilizadas nos testes
estatísticos é que os dados são normalmente distribuídos
• Os dados se distribuem de foram simétrica ao redor de um valor central
• “Curva do sino”
• Alguns dados que são geralmente geralmente distribuídos de forma normal são medições humanas como altura, peso, expectativa de vida e resultados em testes de QI
![Page 7: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/7.jpg)
DISTRIBUIÇÃO NORMAL
![Page 8: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/8.jpg)
DISTRIBUIÇÃO NORMAL
![Page 9: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/9.jpg)
OBLIQUIDADE
• Dados oblíquos, diferentemente de dados normais, não se distribuem de forma simétrica em relação a um valor central.
• Estes conjuntos tendem a ter mais observações à direita ou à esquerda deste valor
• Se você observar que seus dados apresentam esta característica talvez seja necessário realizar algum tipo de transformação
![Page 10: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/10.jpg)
OBLIQUIDADE À ESQUERDA
![Page 11: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/11.jpg)
OBLIQUIDADE À DIREITA
![Page 12: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/12.jpg)
EXEMPLO
![Page 13: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/13.jpg)
DISTRIBUIÇÃO DA POPULAÇÃO POR ESTADO BRASILEIRO
Freq
uênc
ia
0
4
8
12
16
População (milhões de habitantes)
Até 5 6 a 10 11 a 15 16 a 20 21 a 25 26 a 30 31 a 35 36 a 40 41 a 45
![Page 14: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/14.jpg)
POPULAÇÃO POR ÁREA URBANIZADA
Popu
lação
(milh
ões d
e ha
bita
ntes
)
0
12.5
25
37.5
50
Área urbanizada (centenas de Km2)
0 12.5 25 37.5 50
![Page 15: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/15.jpg)
TRANSFORMAÇÃO LOGARÍTMICA
![Page 16: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/16.jpg)
DISTRIBUIÇÃO DA POPULAÇÃO POR ESTADO BRASILEIRO
Freq
uênc
ia
0
3.5
7
10.5
14
Log da população (milhões de habitantes)
Até 6.0 De 6.1 a 6.5 De 6.6 a 7.0 De 7.1 a 7.5 De 7.6 a 8
![Page 17: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/17.jpg)
POPULAÇÃO POR ÁREA URBANIZADA
Log
da P
opula
ção
(milh
ões d
e ha
bita
ntes
)
1
2.75
4.5
6.25
8
Log da Área urbanizada (Km2)
1 1.75 2.5 3.25 4
![Page 18: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/18.jpg)
TRANSFORMAÇÃO PELA RAÍZ QUADRADA
![Page 19: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/19.jpg)
DISTRIBUIÇÃO DA POPULAÇÃO POR ESTADO BRASILEIRO
Freq
uênc
ia
0
3
6
9
12
Raiz quadrada da população (milhões de habitantes)
Até 1000 1001 a 2000 2001 a 3000 3001 a 4000 4001 a 5000 Acima de 5000
![Page 20: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/20.jpg)
POPULAÇÃO POR ÁREA URBANIZADA
Raiz
Qua
drad
a da
Pop
ulaçã
o (m
ilhõe
s de
habi
tant
es)
1
1750.75
3500.5
5250.25
7000
Raiz Quadrada da Área urbanizada (Km2)
1 20.75 40.5 60.25 80
![Page 21: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/21.jpg)
ESCOLHENDO A TRANSFORMAÇÃO CORRETA
• A medida que você começa a entender melhor os efeitos de diferentes transformações começará a se perguntar como escolher a transformação adequada
• Não é simples responder esta pergunta!
• Apesar de existirem métodos estatísticos para essa escolha, a resposta geralmente envolve tentativa e erro
• Uma estratégia geral é aplicar algumas das transformações mais utilizadas, observar os resultados e escolher a mais adequada
![Page 22: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/22.jpg)
TRANSFORMAÇÕES COMUNSMétodo Operação
MatemáticaIndicações Contra-
indicações
Log ln(x) log(x)
Obliquidade à direita
Valores nulos Valores negativos
Raiz Quadrada x Obliquidade à direita Valores negativos
Quadrado x Obliquidade à esquerda Valores negativos
Raíz Cúbica xObliquidade à
direita Valores Negativos
Menos efetiva que o log na
normalização
Recíproco 1/xDiminuir valores
grandes e aumentar valores
pequenos
Valores nulos Valores negativos
![Page 23: Transformação de Dados](https://reader030.vdocuments.net/reader030/viewer/2022013111/559885cd1a28ab4d198b45a9/html5/thumbnails/23.jpg)
ARMADILHAS• Uma vez que os métodos de transformação envolvem a
aplicação de uma função matemática aos dados, você precisa tomar cuidado na hora de interpretar e apresentar os resultados por conta da mudança na unidade
• Por exemplo, ao apresentar a transformação logarítmica nos exemplos passamos a tratar do log da população e não mais da população.
• Isso precisa ficar bem claro nos gráficos