curso intro à ciência de dados com r - 1.1 - carga de dados
TRANSCRIPT
![Page 1: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/1.jpg)
José Roberto Motta [email protected]/2016
![Page 2: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/2.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Fases da análise de dados
![Page 3: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/3.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Fases da análise de dados
![Page 4: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/4.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
![Page 5: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/5.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
![Page 6: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/6.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
CÓDIGOAMBIENTE
DE VARIÁVEIS
SAÍDA DO CONSOLE
GRÁFICOS, HELP,…
![Page 7: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/7.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
R e RStudio
CÓDIGOAMBIENTE
DE VARIÁVEIS
SAÍDA DO CONSOLE
GRÁFICOS, HELP,…
Executacódigo marcado
ou linhaAtalho=Comm+enter (Mac)
![Page 8: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/8.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Fontes de dados para análises
• Google “free dataset for analysis”
• https://www.kaggle.com/datasets (competições diversas)
• http://www.ncdc.noaa.gov/data-access (largest provider of weather/climate data)
• http://bancodedados.cptec.inpe.br/downloadBDM/ (dados meteorológicos)
![Page 9: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/9.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Primeiros conceitos
Exemplo de estruturade diretórios
…\IntroDSwithR 01.1- CargaDeDados.R 01.2- TratamentoDeDados.R ... \Lib
Fun.Div.R \data
\txt\Rdata\Original
\Slides
Use os seus diretórios
(dir.data)
(dir.src)
(dir.txt)
![Page 10: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/10.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – Leitura de CSVNa vida real os dados quase nunca vêm “prontos”
workspace
![Page 11: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/11.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – estrutura de um data.frame
Tipo do objeto
data.frame = tabela em BD (várias “colunas” de tipos diferentes)
![Page 12: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/12.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados básicos (do mais forte ao mais fraco)
Forte
Fraco
![Page 13: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/13.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados estruturados: vector
![Page 14: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/14.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Dados básicos são vetores
Vetores de um elemento
Vetor de 50 elementosÍndice
do próximo elemento que é mostrado na tela
![Page 15: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/15.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados: vetores e coerção de dados
PERIGO! NÃO GERA ERRO!!
EXECUÇÃO CONTINUA!!
![Page 16: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/16.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Conceito de “bind” – (amarrar, unir, linkar)Tabela T (matrix, DF ou
DT)
T <- cbind(DESCR, MEDIDA)
DESCRABC
MEDIDA99
10040
DESCRABC
MEDIDA99
10040
Dois vetores
ANO19681969
VALOR974
1000
INDICE23
CLASSEAUTO
MAN
ANO19701971
VALOR12002000
INDICE34
CLASSEAUTO
MAN
Tabela A
Tabela B
ANO19681969
VALOR974
1000
INDICE23
CLASSEAUTO
MAN19701971
12002000
34
AUTOMAN
Tabela C
C <- rbind(A, B) A
BCD
12
CUIDADO COM CICLAGEM!!
Elementos do vetor menor são repetidos!!
Só warning!
cbind(v1, v2)
v1 v2ABCD
1212
v1 v2
BIND DE COLUNAS
BIND DE LINHAS
![Page 17: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/17.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados: estruturados (1)
![Page 18: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/18.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Tipos de dados: estruturados (2)
![Page 19: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/19.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
O objeto data.table
Medir tempo
Espaçoocupado
![Page 20: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/20.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
O que são pacotes?
• R é melhorado de forma colaborativa• Pacotes são desenvolvidos e disponibilizados por cientistas do mundo
inteiro.• Pacotes = coleção de elementos (funções, tipos de dados, ...) que
otimizam as funções básicas do R• Ficam em https://cran.r-project.org/ • Como saber qual pacote usar?
• Google it!• http://stackoverflow.com/• https://www.r-bloggers.com/• http://www.statmethods.net/
• https://github.com/Rdatatable/data.table/wiki• https://www.datacamp.com/courses/data-analysis-the-data-table-way
sobredata.table
![Page 21: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/21.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – Leitura de FWF (formatado com largura fixa)
File.info retorna um data.frame
Valores da coluna podem ser acessados via “$”
![Page 22: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/22.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Manipulação de dados – Leitura de arquivo de formato livre
Separa dado “delimitado”
[[1]][1] "name” "Data Science”[[2]][1] "class" "IT" [[3]][1] "level” "beginner”[[4]][1] "url" [2] https:--www.dropbox.com-home-DataScience-Course- IntroToDSwithR[[5]][1] "keywords” "data analysis, statistics"
MATRIZ CONFIG
Função *apply (poderosas) Imprime
![Page 23: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/23.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
EXCEL - Download e leitura
Do pacote utils (pré-carregado)
![Page 24: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/24.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
XML - Download e leitura (1)
![Page 25: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/25.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
XML - Download e leitura (2) – Previsão do tempo pelo CPTEC
![Page 26: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/26.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
HTML - Download e leitura
![Page 27: Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados](https://reader031.vdocuments.net/reader031/viewer/2022030214/5899b2361a28aba11e8b534d/html5/thumbnails/27.jpg)
José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R
Outras interfaces com arquivos
• PACKAGE FOREIGN – dados de outras linguagens de programação • read.arff() # weka• read.dta() # Stata• read.mtp() # Minitab• read.octave()
• DADOS SEMI- ESTRUTURADOS: jsonlite, NetCDF • DATABASE: RPostressSQL, RODBC, RMongo, RMySQL• IMAGES: jpeg, readbimap, png, EBImage (Bioconductor)• GIS: rdgal, rgeos, raster• MUSIC: tuneR, seewave
Dados climáticos