integração de dados genômicos e estatísticos no rstudio
Post on 11-Apr-2017
211 Views
Preview:
TRANSCRIPT
Integracao de dados genomicos e estatısticosno RStudio
Leandro Nascimento Lemos
Doutorando em Biologia na Agricultura e no AmbienteOrientadora: Profa. Tsai
Novembro/2016
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
Feedback de ontem
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
Feedback de ontem
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Introducao
R: Linguagem de Programacao (Open).Ambiente de desenvolvimento integrado para calculosestatısticos e graficos (Wikipedia).
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Introducao
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Leitura e manipulacao de dados - Usando Funcoes (10minutos)
VetorProteobacteria.pasto.A <- 20ProteobacteriaAbund <- c(10,20,50)ph.pasto <- c(4,5,6)?mean ((ajuda!))mean(ProteobacteriaAbund)sd (ProteobacteriaAbund)plot(ph, ProteobacteriaAbund)?plot (Procurar os parametros para modificar o grafico. (Porexemplo, modificar ProteobacteriaAbund por Proteobacteriarelative abundance).
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Leitura e manipulacao de dados (10 minutos)
VetorProteobacteriaAbund <- c(10,20,22,25,28,30)ph <- c(4,4.5,5,5.5,6,7)plot(ph, ProteobacteriaAbund, xlab=”pH”,ylab=”Proteobacteria relative abundance (%)”,col=”blue”)
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Leitura e manipulacao de dados - Data frame (15minutos)
Data frame: Armazenamento de tabelas (linhas e colunas).tabela <- data.frame(ProteobacteriaAbund, ph)Leitura de arquivos (Inumeras funcoes...)Session, Set Working Directory, Choose Directory.
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Leitura e manipulacao de dados - Data frame (15minutos)
abund <- read.csv(”analysis.tvs”, sep=”\t”, header=TRUE,row.names=1)?applyapply(abund, 2, sum) - Abundancia total
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Indices de Diversidade
Instalar e carregar o pacote vegan.install.packages(”vegan”)library(”vegan”)diversity(abund, index=”shannon”, MARGIN=2)shannonValues <- diversity(abund, index=”shannon”,MARGIN=2)barplot(shannonValues)
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Diversidade Beta
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Estatıstica Multivariada
Padroes de similaridadeIdentificacao de quais variaveis estao influenciando nospadroes de similaridade.Matriz de distribuicao de especies vs. Matriz de variaveisambientais (metadados).Grande variedade de tecnicas estatısticas...Analise de Coordenadas Principais (PCoA).Analise de Correspondencia Canonica (CCA).
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Estatıstica Multivariada
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Analise de Coordenadas Principais (PCoA)
Conceito de distancia: Quanto mais similaridade entre asamostras, mais proximas elas estao entre si.
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Metrica de distancia - Bray-Curtis
Conceito de distancia: Quanto mais similaridade entre asamostras, mais proximas elas estao entre si.Bray-Curtis: proporcao de similaridade ou dissimilaridade(distancia) na abundancia das especies.Valores entre 0 e 1.0 (iguais).Quanto mais proximo de 1, mais dissimilar!
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Analise de Coordenadas Principais (PCoA)
Ideia principal: Reduzir dimensoes pra resumir os dados!
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: PCoA - Matriz de distancia - 20 minutos
1 Abrir o RStudio.2 Carregar o pacote vegan.3 Carregar o arquivo de abundancia de filos e o arquivo de
abundancia de funcoes em objetivos separados no R.4 Pesquisa sobre a funcao vegdist (dica: ?vegdist) e calcule as
similaridade entre cada amostra pelo Metodo Bray-Curtis.
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Reducao de Dimensoes - PCoA - 10 minutos
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: PCoA - Matriz de distancia - 20 minutos
1 Abrir o RStudio.2 Carregar o pacote vegan.3 ?cmdscale
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: PCoA - Matriz de distancia - 20 minutos
AbundPhyla <- read.csv(”analysis.tvs”, header=TRUE,sep=”\t”, row .names = 1)
AbundPhyla.d <- vegdist(t(AbundPhyla), method=”bray”)AbundPhyla.ord <- cmdscale(AbundPhyla.d, eig=TRUE)x <- AbundPhyla.ord$points[,1]y <- AbundPhyla.ord$points[,2]plot(x, y, xlab=”Coordinate 1”, ylab=”Coordinate 2”,type=”n”)text(x, y, labels = row.names(t(AbundPhyla)), cex=.7)
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: ggplot2 (pacote de geracao de graficos publicaveis)
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Analise de Correspondencia Canonica (CCA)Encontrar relacoes entre dois conjuntos de variaveis X e Y.Distribuicao de taxons e parametros ambientais (metadados, por exemplo: pH,temperatura, umidade, etc).O conjunto das variaveis resposta (Y) e contrastado com o conjunto dasvariaveis explicatorias (X).Triplot: variaveis resposta sao representadas por flechas e variaveis explicatoriassao representadas por pontos.
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Analise de Correspondencia Canonica (CCA)
library(”vegan”)AbundPhyla ¡- read.csv(”TaxonomyOrder.tvs”, sep=”t”, header=TRUE, row.names=1)quimicos ¡- read.csv(”Metadados.csv”, sep=”t”, header=TRUE, row.names=1)cca.calc ¡- cca(t(AbundPhyla), t(scale(quimicos)))plot(cca.calc, choices = c(1, 2), display = c(”cn”, ”sites”),scaling = ”species”)
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
R: Analise de Correspondencia Canonica (CCA) - 10minutos
?cca
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
Discussao
Quais analises computacionais e metodos estatısticos eu devoaplicar no meu estudo?
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
Obrigado pela atencao!
Leandro Nascimento Lemos Integracao de dados genomicos e estatısticos no RStudio
top related