aproximación a r a través de análisis multivariantes · 2015. 10. 14. · anÁlisis...
TRANSCRIPT
-
1 2 3 4Cyclope neritea 42 31 16 20Nassarius mutabilis 2 0 0 0Nassarius sp 14 9 3 2Bittium sp 58 23 23 10Turritella sp 25 6 11 5Mangelia attenuata 2 0 0 0Raphitoma sp 3 3 2 0Turbonilla sp 0 0 0 1Cerastoderma edule 2 5 0 0Mactra stultorum 5 8 2 0Chamelea gallina 2 11 13 1Dosinia lupinus 0 3 2 2Dosinia sp 0 2 0 1Donax trunculus 13 5 2 3Corbula gibba 0 5 9 7
Espe
cies
Espe
cies
EstacionesEstaciones
1 2 3 4Cyclope neritea 42 31 16 20Nassarius mutabilis 2 0 0 0Nassarius sp 14 9 3 2Bittium sp 58 23 23 10Turritella sp 25 6 11 5Mangelia attenuata 2 0 0 0Raphitoma sp 3 3 2 0Turbonilla sp 0 0 0 1Cerastoderma edule 2 5 0 0Mactra stultorum 5 8 2 0Chamelea gallina 2 11 13 1Dosinia lupinus 0 3 2 2Dosinia sp 0 2 0 1Donax trunculus 13 5 2 3Corbula gibba 0 5 9 7
Espe
cies
Espe
cies
EstacionesEstaciones
¿ ?
BIODIVERSIDAD Y CONSERVACIÓN
Sesión 3: Aproximación al entorno R a través
de los análisis multivariantes
J. Emilio Sánchez Moyano
-
Biodiversidad y Conservación
INTRODUCCIÓN A R
Introducción a R
El entorno R es un lenguaje y una colección integrada de programas para cálculo y análisis de datos y representaciones gráficas
-
Biodiversidad y Conservación
INTRODUCCIÓN A R
Fuente: R. A. Muenchen The Popularity of Data Analysis Software. http://r4stats.com/articles/popularity/
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Ventajas
Software libre y gratis
Multiplataforma
Flexibilidad
Ayuda extensa, listas de correo, foros,…
Métodos en continuo desarrollo
Generación de gráficos de alta calidad
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Inconvenientes
Funciona mediante líneas de comando
Carece de estructura gráfica
Lenguaje de sintaxis complicada
Toda la documentación en inglés
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Instalación https://www.r-project.org/
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Instalación
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Consola de R: RGui
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Alternativas en la web
http://www.math.montana.edu/Rweb/
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Interfaces gráficas
R-Commander http://www.rcommander.com/
Interfaz orientada a proporcionar al usuario una experiencia similar a la de los programas comerciales clásicos (p.e. SPSS) donde los análisis están disponibles mediante un sistema de menús y cuadros de diálogo (en español o inglés).
No es necesario escribir el código, por lo tanto es adecuado para principiantes y para alumnos
Inconveniente: los análisis son reducidos (aunque en progresión) si bien se puede utilizar como la consola Rgui mediante códigos y comandos
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Interfaces gráficas
https://www.rstudio.com/
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Interfaces gráficas
Área 1: Editor de códigos, scripts,
visualización de tablas y variables,…
Área 2: Consola de R
Área 3: Espacio de trabajo e
historial
Área 4: Directorio de archivos,
paquetes instalados, gráficos
y ayuda
Importante: comprueba la ortografía y tiene una función de autocompletado
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Inicio de sesión
En el área 2 (consola de R), tras la cabecera, aparece una línea en blanco con el símbolo > en el margen izquierdo: PROMPT.
A partir de aquí hay que escribir COMANDOS e instrucciones para comenzar a trabajar.
Para ejecutar un comando escrito utilizamos la tecla INTRO.
Área 2: Consola de R
Introducción a R
-
Las órdenes elementales consisten en EXPRESIONES o en ASIGNACIONES:
● Si una orden consiste en una expresión, se evalúa, se imprime y su valor se pierde para posteriores órdenes o funciones.
● Una asignación, por el contrario, evalúa una expresión, no la imprime y guarda su valor en una variable. Se utiliza el símbolo
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Funciones
Elementos de una función:
Nombre ( argumentos, opciones )
Ejemplo
sum( ): da la suma de una serie de números
> sum(6,5,3,4)
[1] 18
obligatorio: nombre y paréntesis
argumentos y opciones: valores, objetos
Funciones básicas (en el programa base)
Funciones recomendadas (incluidas en la instalación)
Funciones de paquetes (packages)
Funciones propias
Ejemplo con asignación
sum( ): da la suma de una serie de números
Suma
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Funciones
Mediante los comandos:
? o ??
help
apropos ( )
Archivos de ayuda
Introducción a R
-
Mediante los comandos:
Conocer directorio de trabajo: getwd ( )
Asignar directorio de trabajo:
setwd ("directorio_de_trabajo")
Ejemplo:
> setwd ("C:/Practica Biod/")
Biodiversidad y Conservación
INTRODUCCIÓN A R: Funciones Establecer directorio de trabajo
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Funciones Área de trabajo/Archivo histórico
Todos los objetos que se crean en R se almacenan en el área de trabajo (workspace) (extensión .Rdata)Guardar el workspace: save.image( )Recuperar un workspace previamente guardado: load( )Ver qué objetos se encuentran en el workspace: ls( )
Eliminar objetos del workspace: rm( )Todos los comandos que se van ejecutando en R se guardan en un archivo histórico
Guardar el archivo histórico:
savehistory(file= "nombre_de_archivo.Rhistory")
Recuperar archivo histórico:
loadhistory(file= "nombre_de_archivo.Rhistory")
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Funciones Algunos operadores o funciones básicas
Numérico
> x mode(x)
[1] "numeric"
Lógico
> h mode (h)
[1] "logical"
mode (x) : devuelve el tipo de datos
c ( ) : define un vector o conjunto ordenado de valores
Ejemplo:
> x x
[1] 1 2 5
> y y
[1] “hembra“ ”macho” ”juvenil”
Carácter (deben de ir entre " ")
> y mode(y)
[1] "character"
Complejo
> z mode(z)
[1] "complex"
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Funciones Algunos operadores o funciones básicas
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Búsqueda e instalación de paquetes (packages)
La instalación del entorno R incluye el paquete base para que R pueda funcionar y la mayoría de las funciones fundamentales, así como paquetes recomendados
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Búsqueda e instalación de paquetes (packages)
install.packages ("nombre_del_paquete")
update.packages ( ): actualiza los paquetes
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Búsqueda e instalación de paquetes (packages)
library(): muestra los paquetes instalados disponibles
library("nombre_del_paquete"): carga el paquete en memoria
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Búsqueda e instalación de paquetes (packages)
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Búsqueda e instalación de paquetes (packages)
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Hojas de datos (data frames)
Ejemplo
> lapa lapa
Abundancia Habitat Reproducción
1 8 Natural False
2 25 Artificial True
3 5 Natural False
4 12 Artificial True
data.frame (x) : crea una tabla de datos. Se pueden combinar datos numéricos, caracteres y lógicos
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Hojas de datos (data frames)
Ejemplo
> colnames (lapa)
[1] “Abundancia” “Hábitat” “Reproducción”
> row.names (lapa)
[1] “1” “2” “3” “4”
>row.names (lapa)row.names (lapa)
[1] “Bahía Sur” “Dique Poniente”, “Bahía Norte”, “Dique Levante”
>lapa
Abundancia Hábitat Reproducción
Bahía Sur 8 Natural False
Dique Poniente 25 Artificial True
Bahía Norte 5 Natural False
Dique Levante 12 Artificial True
row.names ( ) : devuelve o asigna un nombre a cada fila de una tabla de datos.
colnames ( ) : devuelve o asigna un nombre a cada columna de una tabla de datos.
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Hojas de datos (data frames)
$ : indexa o da acceso a variables concretas (columnas) de una tabla de datos.
Ejemplo
> lapa$Abundancia
[1] 8 25 5 12
[ , ] : da acceso a los elementos, filas o columnas concretas de una tabla de datos.
Ejemplo
> lapa [,1] Devuelve la columna 1 (en este caso, “abundancia”)
[1] 8 25 5 12
>lapa[1,] Devuelve la fila 1 (en este caso, “Bahía Sur”)
[1] Abundancia Hábitat Reproducción
Bahía Sur 8 Natural False
>lapa[1,1] Devuelve el dato de la columna 1 y la fila 1
[1] 8
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Hojas de datos (data frames)
attach / dettach: "ancla" o “desancla” una hoja de datos al entorno de R para así poder utilizar las variables por su nombre sin necesidad de indexar. Se recomienda evitar estas funciones
Ejemplo
>attach (lapa)
>Habitat
[1] Natural Artificial Natural Artificial
Levels: Artificial Natural
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Hojas de datos (data frames)
Write.table: guarda la hoja de datos en un archivo
write.table(x, file = "data", sep = " “ )x: nombre del data.frame
file: nombre del archivo (con extensión, por ejemplo, .txt, .csv, .wk1, .xls. etc)
sep: delimitador de columnas, por defecto espacio (por ejemplo, "\t" para tabulado, “,”, etc)
Ejemplo
>write.table (lapa, file=“datoslapa.txt”, sep = “”)
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Importar hojas de datos
read.table (“nombre_archivo") Archivos en formato de texto
Principales argumentos:
read.table (“nombre_archivo.txt“, header=TRUE, row.names=1, sep= “ ”, nastrings= “NA”,
dec=“.”, strip.white=TRUE)
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Importar hojas de datos
read.table (“nombre_archivo") Archivos en formato de texto
Principales argumentos:
read.table (“nombre_archivo.txt“, header=TRUE, row.names=1, sep= “ ”, nastrings= “NA”,
dec=“.”, strip.white=TRUE)
La primera fila lleva los nombres de las columnas o variables
La primera columna lleva los nombres de los casos o muestras
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Importar hojas de datos
read.table (“nombre_archivo") Archivos en formato de texto
Principales argumentos:
read.table (“nombre_archivo.txt“, header=TRUE, row.names=1, sep= “ ”, na.strings= “NA”,
dec=“.”, strip.white=TRUE)
Indica el carácter que separa cada columna. Por defecto: espacio. Otros: tabulador (“\t”), coma, punto y coma, etc
Indica el carácter para señalar los valores perdidos (missing data). Por defecto: NA
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Importar hojas de datos
read.table (“nombre_archivo") Archivos en formato de texto
Principales argumentos:
read.table (“nombre_archivo.txt“, header=TRUE, row.names=1, sep= “ ”, na.strings= “NA”,
dec=“.”, strip.white=TRUE)
Indica el carácter para los decimales. Por defecto: “.”
Para coma: “,”
Permite utilizar espacios en blanco en los campos de texto si se ha indicado un separador. Por ejemplo: “Bahía Sur” en vez de “Bahía_Sur”
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Importar hojas de datos
read.table (“nombre_archivo") Archivos en formato de texto
Otros comandos:
file=“clipboard": para importar directamente desde el portapapeles
Ejemplo: read.table(file= “clipboard")
file=file.choose():permite elegir directamente un archivo en Windows
read.table("http://direción_web"): importar datos desde internet
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Importar hojas de datos Archivos en formato de texto desde RStudio
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Importar hojas de datos
Archivos en otros formatos
Cuando el decimal es un punto
read.delim( ): para archivos tabulados
read.csv( ): para archivos en formato .csv(comma-separated values)
Cuando el decimal es una coma
read.delim2( ):para archivos tabulados
read.csv2( ): para archivos en formato .csv
Introducción a R
-
Biodiversidad y Conservación
INTRODUCCIÓN A R: Importar hojas de datos
Archivos en otros formatos
Paquete foreign
read.dta: lee archivos Stata (.dta)
read.spss: lee archivos Spss
read.systat: lee archivos Systat
read.S: lee archivos binarios de S
read.dbf: lee archivos dBase (.dbf)
Paquete gdata
read.xls (“archivo.xls”, sheet=1): Archivos .xls y .xlsx (pre- y post Office 2007)
Paquete xlsx
read.xlsx (“archivo.xlsx”, sheet): Archivos .xlsx
Introducción a R
-
Biodiversidad y Conservación
ANÁLISIS MULTIVARIANTES
Un conjunto de datos multivariantes consiste en más de una variable registrada a partir de un número determinado de muestras o de unidades experimentales, que suelen definirse como objetos.
Organismo vivo
Unidad ecológica
medidas morfológicas, fisiológicas, comportamiento,…
abundancia de especies, variables fisicoquímicas,…
Análisis multivariantes
Un análisis multivariante hace referencia a cualquier método estadístico que analice simultáneamente múltiples características en cada uno de los individuos o muestras objeto de la investigación
-
1.- Suele existir un alto número de ceros.
2.- La mayoría de las especies se localizan en pocas estaciones y contribuyen poco a la abundancia total.
3.- El número de factores que puede influir en la composición de una comunidad es potencialmente muy grande.
4.- El número de factores importantes suele ser bajo, es decir, sólo unos pocos factores explican la mayor parte de la variación.
5.- Suele haber mucho ruido, ya que las réplicas varían unas de otras debido a fenómenos estocásticos, distribuciones contagiosas e, incluso, errores de los observadores.
6.- Existe información redundante: las especies suelen compartir distribuciones similares y una puede ser explicada por la otra.
Orden/Clase Familia OD390 OD460 OD430 TI290 CP030 CP070 CP140 H140Annelida
Oligochaeta Oligoquetos 20 0 20 120 7 27 227 0Capitellidae 167 7 13 13 20 0 27 4Cirratulidae 0 0 0 0 0 0 60 0Chrysopetalidae 0 0 0 7 0 0 0 0Eunicidae 0 0 0 0 0 0 13 0Glyceridae 0 7 0 0 0 0 20 4Hesionidae 0 0 0 0 0 0 47 0Nephtyidae 0 0 20 13 0 0 27 28Nereidae 73 33 20 193 27 13 7 4Onuphidae 0 0 0 0 0 7 0 0Orbiniidae 0 0 0 7 0 0 40 116Paraonidae 0 0 0 33 13 7 0 0Phyllodocidae 0 0 0 0 0 0 7 4Pilargidae 0 0 0 0 0 0 113 0Pisionidae 0 0 0 0 0 0 0 8Poecilochaetidae 0 0 0 0 0 0 0 4Polynoidae 7 0 0 0 0 0 0 0Serpulidae 0 0 0 0 0 0 80 20Sigalionidae 0 0 0 93 0 0 100 0Spionidae 593 873 2567 1540 553 200 107 4Syllidae 0 0 0 0 0 0 40 0Terebellidae 0 0 0 0 0 0 13 0
CnidariaHexacorallaria Anémonas 0 0 0 0 0 7 0 0
CrustaceaAmpeliscidae 0 0 0 7 0 7 73 0Aoridae 0 0 0 180 0 0 0 0Caprellidae 0 0 13 0 0 0 27 0Corophiidae 0 0 13 267 7 0 107 12Dexaminidae 0 0 0 0 0 0 0 4Gammaridae 7 20 7 240 20 0 0 8Haustoridae 0 0 0 0 0 0 0 12Ischyroceridae 0 0 0 7 0 0 0 0
Cumacea Bodotriidae 0 0 0 0 0 0 0 4Alpheidae 0 0 0 0 0 0 40 0Crangonidae 0 0 0 0 0 0 0 16Diogenidae 0 0 0 0 0 0 0 20Grapsidae 0 0 0 0 0 0 0 4Hippolytidae 0 0 0 0 0 0 27 0Penaeidae 7 0 0 0 0 0 0 0Portunidae 0 0 0 0 0 0 7 0Processidae 0 0 0 7 0 0 13 0Xanthidae 0 0 0 0 0 0 7 0Anthuridae 240 73 7 327 140 7 60 0Ligiidae 0 0 0 0 0 0 7 0
Mysidacea Mysidacea 0 0 0 0 0 0 0 24Tanaidacea Leptocheliidae 0 0 0 13 0 0 93 8
MolluscaAnomiidae 0 0 0 0 0 0 13 4Cardiidae 100 20 33 13 7 0 0 8Corbulidae 0 0 0 0 0 0 7 132Glycimeridae 0 0 0 0 0 0 0 4Hiatellidae 0 0 0 0 0 0 0 4Mactridae 0 13 0 0 0 0 40 44Mytilidae 0 0 0 0 0 0 0 4Ostreidae 0 0 0 173 0 0 0 0Tellinidae 0 13 0 0 0 0 0 0Venereidae 0 0 0 0 0 0 0 416
ESTACIONES
Isopoda
Bivalvia
Polychaeta
Amphipoda
Decapoda
Análisis multivariantes
ANÁLISIS MULTIVARIANTES: TABLAS BIOLÓGICAS
Biodiversidad y Conservación
-
ANÁLISIS DE ORDENACIÓN
ANÁLISIS DE CLASIFICACIÓN
Sitúan o clasifican a las variables y/o muestras en grupos afines, normalmente de forma jerárquica
Sitúan a las variables y/o muestras en un espacio n-dimensional a lo largo de gradientes
ANÁLISIS DE GRADIENTES
MULTIVARIANTES
Dada la naturaleza continua de las comunidades, la ordenación parece resultar en una aproximación más natural. La clasificación sitúa a las muestras en clases definidas a lo largo del gradiente, pero si el gradiente es continuo se pueden dar resultados “extraños” cuando existen muestras con comunidades intermedias entre clases
ANÁLISIS MULTIVARIANTES
Análisis multivariantes
Biodiversidad y Conservación
-
OD390OD460OD430
TI290
CP030
CP070CP140
H140
Estrés= 0.02
Similaridad de Bray-Curtis
CP070
TI290
OD460
OD430
OD390
CP030
CP140
H140
100 80 60 40 20
Odiel-Tinto
Estudio de la fauna bentónica submareal del sistema Odiel-Tinto (Huelva)
ANÁLISIS DE ORDENACIÓN
ANÁLISIS DE CLASIFICACIÓN
Análisis multivariantes
Biodiversidad y Conservación
-
Los resultados son muy sensibles a la medida elegida y “esconden” información, es decir, se ordenan las muestras pero se pierde la información sobre las especies individuales
Stn A Stn B Stn C
Sp 1
Sp 2
Sp 3
Sp 4
1 2 15
4 6 12
9
20
12 3
18 3
Stn D
12
6
2
0
Stn A Stn B Stn C
Sp 1
Sp 2
Sp 3
Sp 4
1 2 15
4 6 12
9
20
12 3
18 3
Stn D
12
6
2
0
89
33
26
36
35 79
Stn A Stn B Stn C
Stn A
Stn B
Stn C
Stn D
Stn D
89
33
26
36
35 79
Stn A Stn B Stn C
Stn A
Stn B
Stn C
Stn D
Stn D
BA
CD
Medida distancia
Una buena medida de distancia ecológica debe ser capaz de describir la diferencia en la composición de las especies entre sitios
Análisis multivariantes
Biodiversidad y Conservación
ANÁLISIS MULTIVARIANTES: MEDIDAS DE DISTANCIA
-
Distancias Euclídeas
Donde :xij es el valor del parámetro i en la estación j
xik es el valor del parámetro i en la estación k
2)( ikij xxD ∑ −=
Chi-cuadrado 2
)()(
⎟⎟⎠
⎞⎜⎜⎝
⎛−
+
+=
∑∑∑∑ ∑
ik
ik
ij
ij
ikij
ikij
xx
xx
xxxx
D
Muy utilizada con variables ambientales.No es una buena medida de distancia ecológica para abundancias de especies. Bajo una transformación puede llegar a ser una buena medida.No está restringida a valores de 0 a 1.
No es la ideal para datos de abundancia aunque es utilizada en algunos métodos de ordenación. Depende de las diferencias de las especies en proporción de su abundancia. Muy influida por las especies menos abundantes. No está restringida a valores de 0 a 1
∑ ∑∑ ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛−=
2
ik
ik
ij
ij
xx
xx
DHellinger
Similar a chi-cuadrado, aunque parece que muestra mejor las distancias ecológicas.
Análisis multivariantes
Biodiversidad y Conservación
ANÁLISIS MULTIVARIANTES: MEDIDAS DE DISTANCIA
-
( )∑∑
+
−=
ikij
ikij
xxxx
DBray-Curtis
⎥⎥⎦
⎤
⎢⎢⎣
⎡ −+
−=
∑∑
∑∑
ik
ikij
ij
ikij
xxx
xxx
D21
Kulczynski
Donde :xij es el valor del parámetro i en la estación j
xik es el valor del parámetro i en la estación k
Muy útil para datos de abundancia al no tener en cuenta las dobles ausencias.Se calcula sobre las diferencias en las abundancias de cada especie. Muy influida por las especies muy abundantes. Se recomienda transformar previamente los datos por la raíz cuadrada, raíz cuarta o logaritmo.Toma valor de 0 a 1.
Comportamiento similar a Bray-Curtis.
Análisis multivariantes
Biodiversidad y Conservación
ANÁLISIS MULTIVARIANTES: MEDIDAS DE DISTANCIA
-
vegdist(x, method="bray", upper=FALSE, na.rm = FALSE, ...) : devuelve la matriz de disimilaridad con el índice elegido
Paquete vegan
Argumentos:
x: archivo de datosmethod=“bray”: informa sobre la unidad de medida (bray= Bray-Curtis). Otras medidas: "manhattan", "euclidean","canberra", "bray", "kulczynski", "jaccard", "gower", "altGower","morisita","horn", "mountford", "raup" , "binomial", "chao","cao“, "mahalanobis“upper: devuelve sólo la parte superior de la matrizna.rm: elimina las comparaciones con datos perdidos
Análisis multivariantes
Biodiversidad y Conservación
ANÁLISIS MULTIVARIANTES: MEDIDAS DE DISTANCIA
-
Análisis clasificación
Biodiversidad y Conservación
ANÁLISIS MULTIVARIANTES: ANÁLISIS CLASIFICACIÓN
Sitúan o clasifican a las variables y/o muestras en grupos afines.
En estudios de comunidades se agrupan de forma jerárquica
Selección de medida de distancia es fundamental
El algoritmo de agrupación más habitual es UPGA (Unweighed Pairwise GroupAverage): se unen los grupos por la distancia media
Índice de Similaridad100.90.80.70.60.50.40.30.20.10.
GU7
GU6
GU5
H2B
H1B
CR1
H2
H1
CR2
GU8
GU4
GU3
GU2
GU1
-
Análisis clasificación
Biodiversidad y Conservación
Paquete BiodiversityR (basado en vegan) http://www.worldagroforestry.org/resources/databases/tree-diversity-analysis
Comando BiodiversityRGUI ( )
-
Análisis clasificación
Biodiversidad y Conservación
Paquete BiodiversityR (basado en vegan)
-
Análisis clasificación
Biodiversidad y Conservación
Paquete BiodiversityR (basado en vegan) Primer paso: importar datos
-
Análisis clasificación
Biodiversidad y Conservación
Paquete BiodiversityR (basado en vegan) Primer paso: importar datos
Se corresponde con la consola de R. Se ven todos las funciones que se ejecutan y los resultados
R Script: se genera un archivo de texto con todas la funciones. Se puede guardar y volver a ejecutar un análisis, total o parcial, sin necesidad de volver a escribir todos los comandos.
-
Análisis clasificación
Biodiversidad y Conservación
Paquete BiodiversityR (basado en vegan) Primer paso: importar datos
Peces
-
Análisis clasificación
Biodiversidad y Conservación
Paquete BiodiversityR: Ejemplo de clasificación Datos: bichos.txt
-
Análisis clasificación
Biodiversidad y Conservación
Paquete BiodiversityR: Ejemplo de clasificación Datos: bichos.txt
hclust: hierarchical cluster
-
Análisis clasificación
Biodiversidad y Conservación
Paquete BiodiversityR: Ejemplo de clasificación Datos: bichos.txt
-
Análisis clasificación
Biodiversidad y Conservación
Paquete BiodiversityR: Ejemplo de clasificación Datos: bichos.txt
-
Análisis clasificación
Biodiversidad y Conservación
Paquete BiodiversityR: Ejemplo de clasificación Datos: bichos.txt
Una vez en el portapapeles se puede exportar a otros programas como Powerpoint y editar la figura
-
0.0
0.4
0.8
5b 3c 3a 3b 1a 1b 2b 2a 2c 4c 4a 4b 1c 5a 5c
Análisis clasificación
Biodiversidad y Conservación
Paquete BiodiversityR: Ejemplo de clasificación Datos: bichos.txt
Dis
imila
rida
d
1
5
4
32
Zona intermareal
-
Análisis clasificación
Biodiversidad y Conservación
Ejercicio 1: Realizar un análisis de clasificación y representar el dendrograma con los datos de algas del estudio del intermareal de la Isla de Tarifa. Interpreta los resultados. Archivo: algas.txt
-
ANÁLISIS DE ORDENACIÓN
Análisis de Ordenación
Parámetro GU1 GU2 GU3 GU4Aceites y Grasas 60 57,2 47,2 169,4Hidrocarburos 8,1 7 23,3 40,3Carbonatos 0,5 1,4 5,5 1,5Fosfatos 0,25 0,32 0,5 0,19COT 0,7 < 0.50 0,61 < 0.50Materia orgánica 1,43 0,96 1,64 1,86Nitrógeno Total 292 411 389 321Cadmio
-
ANÁLISIS DE ORDENACIÓN
Análisis de Ordenación
Parámetro GU1 GU2 GU3 GU4Aceites y Grasas 60 57,2 47,2 169,4Hidrocarburos 8,1 7 23,3 40,3Carbonatos 0,5 1,4 5,5 1,5Fosfatos 0,25 0,32 0,5 0,19COT 0,7 < 0.50 0,61 < 0.50Materia orgánica 1,43 0,96 1,64 1,86Nitrógeno Total 292 411 389 321Cadmio
-
Modelos lineales
Modelos unimodales
PCoA PCA CAnMDS DCA
CCA*RDA CCA
db-RDA CoICAP
Basados en eigenanalysis
Gradiente indirecto (unconstrained
ordination)Gradiente directo
(constrained ordination)
Basados en medidas de distancia
Basado en Ter Braak & Prentice, 1988
CCA*: Análisis de Correlaciones Canónicas (Canonical Correlation Analysis)
CCA: Análisis de Correspondencias Canónicas (Canonical Correspondence Analysis)
PRINCIPALES ANÁLISIS DE ORDENACIÓN
Análisis de Ordenación
Biodiversidad y Conservación
-
Basado en Ter Braak & Prentice, 1988
CCA*: Análisis de Correlaciones Canónicas (Canonical Correlation Analysis)
CCA: Análisis de Correspondencias Canónicas (Canonical Correspondence Analysis)
PRINCIPALES ANÁLISIS DE ORDENACIÓN
Análisis de Ordenación
Biodiversidad y Conservación
Modelos lineales
Modelos unimodales
PCoA PCA CAnMDS DCA
CCA*RDA CCA
db-RDA CoICAP
Basados en eigenanalysis
Gradiente indirecto (unconstrained
ordination)Gradiente directo
(constrained ordination)
Basados en medidas de distancia
-
B
A
CD B
AC
D
nMDS o MDS o NMS: NON-METRIC MULTIDIMENSIONAL SCALING
No se basa en el dato de la medida de distancia sino que preserva el rango de orden de las disimilaridades en el rango de orden de las distancias. El ajuste entre ambos rangos es medida por un coeficiente de estrés (coeficiente de Kruskal), el cual tiende a cero cuando los dos rangos coinciden
89
33
26
36
35 79
Stn A Stn B Stn C
Stn A
Stn B
Stn C
Stn D
Stn D
89
33
26
36
35 79
Stn A Stn B Stn C
Stn A
Stn B
Stn C
Stn D
Stn D
BA
CD
B
A
C
D
Se selecciona la configuración con menor estrés
Análisis de Ordenación: MDS
Biodiversidad y Conservación
-
Gradiente Indirecto: Medidas de distancia: nMDS
Diseño de experimentos y análisis de datos: Análisis de Ordenación
La ordenación resultante puede ser arbitrariamente rotada, reflejada o expandida, por lo que se suele prescindir de los ejes en la representación gráfica
El orden de los ejes es arbitrario de tal forma que el primer eje no es necesariamente el más importante
Nunca es arbitraria la posición relativa de los puntos
La ordenación va a depender del número de dimensiones seleccionadas y, normalmente, el estrés disminuye con el número de dimensiones.
B
AC
D
Estrés
-
Ejemplo: Estudio la competencia de especies de aves nectívoras en un bosque de eucaliptos en Victoria (Australia). Datos consisten en 27 especies de aves en 8 sitios con diferente intensidad de floración: 2 con alta floración (“good sites”); 2 con intermedia (“medium sites”; 2 con escasa floración (“poor sites”); y 2 cercanos a “good sites” para testar posible efecto de exportación (“adjacent sites”). Cada estación fue muestreada usando un transecto en cinta durante 4 veces.
Archivo de datos: victor.txt (sólo consideramos “good” y “poor sites”(Mac Nally & Timewell 2005)
Red Wattle Bird (Anthochaera carunculata)
Yellow-tufted Honeyeater
(Lichenostomus sp)
Honeyeater
(Melithreptus sp)
Análisis de Ordenación: MDS
Biodiversidad y Conservación
-
Análisis de Ordenación: MDS
Biodiversidad y Conservación
La transformación previa de los datos permite suavizar las diferencias cuando hay valores extremos.
Una de las más utilizadas con datos de abundancia es la raíz cuadrada (“square”)
-
Gradiente Indirecto: Medidas de distancia: PCoA
Diseño de experimentos y análisis de datos: Análisis de Ordenación
Análisis de Ordenación: MDS
Biodiversidad y Conservación
Nª de permutaciones o repeticiones del análisis para alcanzar la mejor configuración.
Poner 100 Repetir “plot” en ordiplot y label sites
-
Gradiente Indirecto: Medidas de distancia: nMDS
Diseño de experimentos y análisis de datos: Análisis de Ordenación
Victoria
-
Gradiente Indirecto: Medidas de distancia: nMDS
Diseño de experimentos y análisis de datos: Análisis de Ordenación
> Ordination.model1
$points
[,1] [,2]
P11 3.00339249 -4.8455118
P12 1.19996249 -11.1210371
P13 -0.25160825 -4.6023833
P14 -3.71244110 -2.9461695
P21 4.83962150 0.9477869
P22 5.41714805 1.1917068
P23 4.46666375 0.7051313
P24 4.85204018 2.1440109
G51 -0.39266712 3.6421916
G52 0.65762539 4.2234979
G53 0.54794877 3.3096922
G54 -3.90807708 0.8565153
G61 -0.05125528 2.8478532
G62 0.91480698 3.8190795
G63 -3.74658037 4.1727569
G64 -4.77027167 4.2353971
$stress
[1] 13.66863
-4 -2 0 2 4
-10
-50
5
Dim1
Dim
2
P11
P12
P13
P14
P21
P22P23
P24
G51
G52
G53G54
G61
G62
G63G64
Análisis de Ordenación: MDS
Biodiversidad y Conservación
Estrés
-
P11
P12
P13
P14
P21 P22P23P24
G51G52G53
G54G61G62
G63G64
D01
$points
[,1] [,2]
P11 -0.06720815 4.0320946
P12 3.77000029 10.5072947
P13 1.77800813 3.4653222
P14 -2.11196241 1.6962517
P21 4.19643301 1.0645992
P22 4.74815759 -0.4581607
P23 4.13753061 0.3691910
P24 3.71361406 0.9166820
G51 -0.29807981 -3.0996818
G52 -0.05026403 -2.7862682
G53 0.86211367 -3.0958862
G54 -0.88378004 -3.1674469
G61 0.79563879 -2.9348722
G62 1.28422245 -2.8983789
G63 -1.80454597 -2.1684901
G64 -0.80191041 -3.7650867
D01 -10.48471111 12.5463105
$stress
[1] 9.492608
Cuando un punto es muy diferente al resto se suele localizar en los extremos de la ordenación de forma aleatoria y suele forzar el agrupamiento del resto de puntos
Consejo: eliminar el punto y repetir el análisis
Análisis de Ordenación: MDS
Biodiversidad y Conservación
-
Gradiente Indirecto: Medidas de distancia: nMDS
Diseño de experimentos y análisis de datos: Análisis de Ordenación
Ejercicio 2: Efecto de la contaminación y el gradiente ambiental sobre la comunidad de invertebrados bentónicos en el estuario del río Odiel (Huelva). Se estudiaron 7 estaciones localizadas a lo largo del cauce principal desde Huelva (estación A) hasta la desembocadura en Mazagón (estación G) . Los datos consisten en nº de individuos/m2 de 51 familias de invertebrados. Realizar un análisis MDS basado en Bray-Curtis. Previamente transformar los datos de abundancia por la raíz cuadrada para evitar el efecto de los valores extremos.
Archivo: odbio.txt(Sánchez-Moyano et al 2010)
G
F
E
D
C
A
B
G
F
E
D
C
A
B
Análisis de Ordenación: MDS
Biodiversidad y Conservación
-
Se obtienen un grupo de nuevas variables cada una de las cuales son una combinación lineal de las variables originales
PCA: ANÁLISIS DE COMPONENTES PRINCIPALES/ PRINCIPAL COMPONENTS ANALYSIS
Stn A Stn B Stn C
Sp 1
Sp 2
Sp 3
Sp 4
1 2 15
4 6 12
9
20
12 3
18 3
Stn D
12
6
2
0
Stn A Stn B Stn C
Sp 1
Sp 2
Sp 3
Sp 4
1 2 15
4 6 12
9
20
12 3
18 3
Stn D
12
6
2
0
Stn A Stn B Stn C
-
Stn DStn A Stn B Stn C
PC 1
Stn D
PC 2
PC 3
-- - - -
0,5 1,2 0,8 3,1
2,1 1,6 1,3 0,7
0,5 0,4 2.7 1,2
COMPONENTES PRINCIPALES
Biodiversidad y Conservación
Análisis de Ordenación: PCA
La primera nueva variable explica la mayor parte de la varianza de las variables originales, la segunda la mayoría del resto de la varianza extraída la primera variable, y así sucesivamente.
Cada una de estas nuevas variables es independiente y no está correlacionada con las otras (ejes ortogonales).
El número de nuevas variables puede ser el mismo que las variables originales sólo que la mayor parte de la varianza es normalmente alcanzada con las primeras variables.
-
El uso de las distancias euclídeas es útil para variables ambientales, donde el valor cero tiene un sentido intrínseco, mientras que no ofrece buenos resultados para datos de abundancia donde abundan los ceros
Las variables ambientales normalmente son medidas en diferentes unidades, por lo que antes de realizar el análisis hay que estandarizarlas para que puedan ser comparadas
Existen muchas estandarizaciones aunque la más normal en la mayoría de programas es restar la media y dividir por la desviación estándar de cada variable (zero mean and unit variance)
Distancias Euclídeas
Estandarización
Biodiversidad y Conservación
Análisis de Ordenación: PCA
-
BAHBAHÍÍA DEA DEALGECIRASALGECIRAS
Ejemplo: Estudio ambiental de un pequeño puerto deportivo con altos niveles de contaminación orgánica (Dársena del Saladillo) en el puerto de Algeciras. Se cuadriculó la zona en 30 cuadrículas (200x200m) donde se tomaron muestras biológicas y fisicoquímicas del sedimento y el agua. Para el sedimento se seleccionaron 9 estaciones
Datos: saladsed.txt (9 estaciones y 7 variables)(Estacio et al 1997)
Biodiversidad y Conservación
Análisis de Ordenación: PCA
-
decostand (x, method, MARGIN, na.rm=FALSE, ...) : permite estandarizar los datos con los métodos más habituales
Paquete vegan
Argumentos:
x: archivo de datosmethod=“standardize”: utiliza el método “zero mean and unit variance”MARGIN: 1: filas; 2:columnas (por defecto, 2)na.rm: elimina las comparaciones con datos perdidos
1.- Estandarización previa de la matriz
Site Oxigene Hydrocarbons
Fats Phosphate Nitrogen Organic matter
Sand
mg/l (ppm) (ppm) (P,ppm) (N,ppm) (%) (%)E1 5.1 332 38 933 463 2.9 74E2 5.2 863 97 800 863 6.8 33E3 4.4 4415 229 1537 1028 6.3 40E6 7.3 891 82 719 1574 8.1 25E7 6.8 1179 0 789 2011 13.2 20E9 8.3 106 11 484 223 3.7 98E11 8.1 20 31 356 120 2.9 99E13 8.8 25 38 450 79 2 99E17 8.3 13 8 388 120 3.3 98
Biodiversidad y Conservación
Análisis de Ordenación: PCA
-
Biodiversidad y Conservación
Análisis de Ordenación: PCA
Repetir “plot” en plot y label sites
-
Saladillo
-
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
PC1
PC
2
E1
E2
E3
E6
E7
E9E11
E13E17
> summary(Ordination.model1, scaling=1)
Partitioning of variance:
Inertia Proportion
Total 7 1
Unconstrained 7 1
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7
Eigenvalue 4.6532 1.7708 0.3759 0.14887 0.0455 0.004907 0.0008436
Proportion Explained 0.6647 0.2530 0.0537 0.02127 0.0065 0.000700 0.0001200
Cumulative Proportion 0.6647 0.9177 0.9714 0.99268 0.9992 0.999880 1.0000000
Biodiversidad y Conservación
Análisis de Ordenación: PCA
eigenvalues (valores propios): varianza explicada por cada una de las nuevas variables.Representan la varianza extraída por cada eje y es expresada como un porcentaje de la suma de todos los eigenvalues (es decir, la varianza total)
-
Species scores
PC1 PC2 PC3 PC4 PC5
Oxygene 1.0448 0.6316 -2.0999 -0.08921 0.8683
Hydrocarbons -1.1024 -0.7505 -1.3051 1.06587 -0.6344
Fats -0.9498 -1.1981 -0.9806 -1.59126 -0.2803
Phosphate -1.1520 -0.7459 0.3330 1.09131 1.4384
Nitrogen -0.9798 1.2776 -0.2467 -0.01884 1.3981
Organic.matter -0.8629 1.4623 -0.3697 0.71815 -1.4871
Sand 1.1146 -0.8710 -0.3169 1.44917 -0.1159
Site scores (weighted sums of species scores)
PC1 PC2 PC3 PC4 PC5
E1 0.01813 -0.29773 0.48077 0.08791 0.0973713
E2 -0.45293 0.01953 0.25032 -0.20973 -0.1201102
E3 -1.42023 -0.78038 -0.21739 0.07980 -0.0093453
E6 -0.42506 0.45124 -0.13640 -0.22129 0.1127302
E7 -0.64863 0.97109 -0.01298 0.19076 -0.0259651
E9 0.66984 -0.02966 -0.07195 0.09981 -0.0004776
E11 0.72885 -0.11615 -0.06438 -0.03298 -0.0697267
E13 0.77306 -0.18063 -0.17194 -0.04534 0.0638018
E17 0.75697 -0.03731 -0.05606 0.05107 -0.0482785
plot2
-
aa aa
Oxygene Hydrocarbons Fats Phosphate Nitrogen Organic.matter Sand
Oxygene 1.0000000 -0.6962783 -0.69149675 -0.8886061 -0.4131979 -0.31181870 0.6235432
Hydrocarbons -0.6962783 1.0000000 0.89536238 0.9173309 0.4556640 0.37654830 0.5572037
Fats -0.6914968 0.8953624 1.00000000 0.8383613 0.2271320 0.09314038 -0.4410749
Phosphate -0.8886061 0.9173309 0.83836126 1.0000000 0.4826282 0.35708163 -0.6204746
Nitrogen -0.4131979 0.4556640 0.22713203 0.4826282 1.0000000 0.95884007 -0.9387293
Organic.matter -0.3118187 0.3765483 0.09314038 0.3570816 0.9588401 1.00000000 -0.8721045
Sand 0.6235432 -0.5572037 -0.44107492 -0.6204746 -0.9387293 -0.87210449 1.0000000
> eigen(aa)
$values
[1] 4.6531769878 1.7707940131 0.3759054490 0.1488741738 0.0454992985 0.0049065160 0.0008435618
$vectors
[PC,1] [,PC2] [,PC3] [,PC4] [,PC5] [,PC6] [PC,7]
[Oxygene] 0.3819495 0.2308757 0.76762013 -0.032612428 0.31741354 0.33123778 -0.006077368
[Hydrocarbons] -0.4029823 -0.2743671 0.47708928 0.389635819 -0.23189177 -0.19900287 -0.538072309
[Fats] -0.3472167 -0.4379618 0.35847530 -0.581694981 -0.10248235 -0.07587236 0.452213639
[Phosphates] -0.4211345 -0.2726530 -0.12173493 0.398934343 0.52579901 0.49731112 0.224844585
[Nitrogen] -0.3581802 0.4670327 0.09019858 -0.006886181 0.51107128 -0.60993177 0.110424681
[Organic matter] -0.3154339 0.5345687 0.13514266 0.262525217 -0.54361772 0.23246116 0.421896096
[Sand] 0.4074488 -0.3184112 0.11585295 0.529750685 -0.04235029 -0.41418532 0.514974822
Devuelve la matriz de correlación
Devuelve los eigenvalues y eigenvectorseigenvector (vectores propios): coeficiente que muestra cuánto contribuye cada variable original a la nueva variable
Biodiversidad y Conservación
Análisis de Ordenación: PCA
-
Método del círculo de equilibrio (method plot= ordiequilibriumcircle): aquellas variables que contribuyen significativamente a la ordenación tendrán vectores fuera del círculo
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
PC1
PC
2Oxygene
Hydrocarbons
Fats
Phosphate
Nitrogen
Organic.matter
Sand
E1
E2
E3
E6
E7
E9E11E13E17
Biodiversidad y Conservación
Análisis de Ordenación: PCA
-
> PCAsignificance(Ordination.model1)
1 2 3 4 5 6 7
eigenvalue 4.653177 1.770794 0.3759054 0.1488742 0.0454993 0.004906516 8.435618e-04
percentage of variance 66.473957 25.297057 5.3700778 2.1267739 0.6499900 0.070093085 1.205088e-02
cumulative percentage of variance 66.473957 91.771014 97.1410921 99.2678661 99.9178560 99.987949116 1.000000e+02
broken-stick percentage 37.040816 22.755102 15.6122449 10.8503401 7.2789116 4.421768707 2.040816e+00
broken-stick cumulative % 37.040816 59.795918 75.4081633 86.2585034 93.5374150 97.959183673 1.000000e+02
% > bs% 1.000000 1.000000 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000
cum% > bs cum% 1.000000 1.000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000
Establecer bondad de ajuste entre la varianza mostrada por los componentes principales y la varianza total de los datos: método de la distribución del palo quebrado (broken-stick distribution)
Dos criterios para seleccionar el número de ejes significantes:
1.- Seleccionar aquellos ejes cuyo porcentaje de la varianza es mayor que su correspondiente en la distribución del palo quebrado.
2.- Seleccionar los ejes cuyo porcentaje acumulado de la varianza sea más grande que el correspondiente acumulado de la distribución del palo quebrado (menos conservativo)
Biodiversidad y Conservación
Análisis de Ordenación: PCA
-
Ejemplo: Composición de las especies de briofitas creciendo sobre troncos de árboles en 3 sitios en DukeForest, Carolina del Norte (Palmer 1986). Cada muestra representa la media de 10 árboles. BN =abedul (Betula nigra); LT = tulípero (Liriodendron tulipifera); PE = Pinus echinata; PO = plátano (Platanusoccidentalis); PT = Pinus taeda; QR= roble rojo (Quercus rubra); QA= roble blanco (Quercus alba). (Palmer 1986)
En gradientes ambientales medios o largos, con alta beta-diversidad, se puede producir una curvatura en la segunda o siguientes dimensiones (p.e., con datos de abundancia)
Efecto herradura (horseshoe effect)
-3 -2 -1 0 1 2
-2-1
01
PC1
PC
2
Amblys
An.atte
An.minor
An.rost
Brac.ac
Brac.oxyBryoCamp
ClasmDic.montDic.sco
EntoFrula
Haplo
Isop
Leucob
Leucod
Lopho
Platyg
PorelRad.comRad.obc
Semat
Thelia
Thuid
BN2
LT1LT2
PE3 PO2
PT1
PT3QA1QR1
Biodiversidad y Conservación
Análisis de Ordenación: PCA
-
Ejercicio 3: Efecto de la contaminación y el gradiente ambiental sobre la comunidad de invertebrados bentónicos en el estuario del río Odiel (Huelva). Se estudiaron 7 estaciones localizadas a lo largo del cauce principal desde Huelva (estación A) hasta la desembocadura en Mazagón (estación G) . Los datos consisten en 18 variables fisicoquímicas del sedimento y del agua de fondo. Estandarizar los datos y realizar un PCA. Calcular los eigenvalues y eigenvector.
Archivo: odfis.txt(Sánchez-Moyano et al 2010)
G
F
E
D
C
A
B
G
F
E
D
C
A
B
Biodiversidad y Conservación
Análisis de Ordenación: PCA
-
Modelos de respuesta a gradientes:
0
10
20
30
40
50
60
0 10 20 30 40 50 60 70
Gradiente ambiental
Abu
ndan
cia
0
10
20
30
40
50
60
0 10 20 30 40 50 60 70
Gradiente ambiental
Abu
ndan
cia
Modelo lineal: la respuesta de la especie aumenta de forma gradual con el gradiente (suele darse en gradientes cortos)
Modelo unimodal (Whittaker, 1967): la respuesta de la especie es unimodal, es decir, existe una única zona de condiciones óptimas donde las especies alcanzan sus máximas abundancias, y disminuye hacia ambos extremos
Salvo excepciones, la mayor parte de los sistemas ecológicos responden a un modelo unimodal
Análisis de Ordenación: CCA
CCA: ANÁLISIS DE CORRESPONDENCIAS CANÓNICAS/ CANONICAL CORRESPONDENCE ANALYSIS
Biodiversidad y Conservación
-
Análisis de Ordenación: CCA
En este análisis se maximiza las correlaciones entre los scores de muestras y especies, pero los scores de las muestras están restringidas como una combinación lineal de las variables explicativas.
Objetivo: si una combinación de variables está muy relacionada a la composición de especies, CCA crea un eje a partir de estas variables que hace que la respuesta unimodal de las especies sea más clara. Y así en los ejes sucesivos.
Existen tantos ejes (constrained axes) como variables explicativas
Biodiversidad y Conservación
UNA LIMITACIÓN: el análisis sólo admite un número máximo de variables inferior al número de muestras
-
Análisis de Ordenación: CCA
Biodiversidad y Conservación
-
Análisis de Ordenación: CCA
Biodiversidad y Conservación
Repetir “plot” en ordiplot y label sites(y/o label species)
Escribir 1000 permutaciones (por defecto son 100)
Aquí se seleccionan las variables a probar en el análisis
-
BAHBAHÍÍA DEA DEALGECIRASALGECIRAS
Ejemplo: Estudio ambiental de un pequeño puerto deportivo con altos niveles de contaminación orgánica (Dársena del Saladillo) en el puerto de Algeciras. Se cuadriculó la zona en 30 cuadrículas (200x200m) donde se tomaron muestras biológicas y fisicoquímicas del sedimento y el agua. Para la fauna del sedimento se seleccionaron 9 estaciones
Datos: salbio.txt (9 estaciones y 138 especies) y salased.txt (9 estaciones y 7 variables)(Estacio et al 1997)
Análisis de Ordenación: CCA
Biodiversidad y Conservación
-
Salabio
-
> summary(Ordination.model1, scaling=1)
cca(formula = Salabio ~ Hydrocarbons + Organic.matter + Sand, data = salfistan)
Partitioning of mean squared contingency coefficient:
Inertia Proportion
Total 2.185 1.0000
Constrained 1.072 0.4904
Unconstrained 1.114 0.5096
Eigenvalues, and their contribution to the mean squared contingency coefficient
Importance of components:
CCA1 CCA2 CCA3 CA1 CA2 CA3 CA4 CA5
Eigenvalue 0.6298 0.4009 0.04098 0.4575 0.2658 0.20995 0.14726 0.03302
Proportion Explained 0.2882 0.1835 0.01875 0.2093 0.1216 0.09608 0.06739 0.01511
Cumulative Proportion 0.2882 0.4717 0.49043 0.6998 0.8214 0.91750 0.98489 1.00000
Accumulated constrained eigenvalues
Importance of components:
CCA1 CCA2 CCA3
Eigenvalue 0.6298 0.4009 0.04098
Proportion Explained 0.5877 0.3741 0.03824
Cumulative Proportion 0.5877 0.9618 1.00000
La inercia explicada (explained orconstrained inertia) es la suma de los eigenvalues de los ejes restringidos
La inercia de los ejes no restringidos es considerada como residual
La inercia total de los datos de especies será la suma de los eigenvalues de los ejes restringidos y no restringidos
La explained inertia en relación a la total inertia puede ser usada como una medida de lo bien que la composición de las especies es explicada por las variables. Desgraciadamente, no existe una medida estricta de “bondad de ajuste” para CCA
Análisis de Ordenación: CCA
Biodiversidad y Conservación
-
> summary(Ordination.model1, scaling=1)
cca(formula = Salabio ~ Hydrocarbons + Organic.matter + Sand, data = salfistan)
Partitioning of mean squared contingency coefficient:
Inertia Proportion
Total 2.185 1.0000
Constrained 1.072 0.4904
Unconstrained 1.114 0.5096
Eigenvalues, and their contribution to the mean squared contingency coefficient
Importance of components:
CCA1 CCA2 CCA3 CA1 CA2 CA3 CA4 CA5
Eigenvalue 0.6298 0.4009 0.04098 0.4575 0.2658 0.20995 0.14726 0.03302
Proportion Explained 0.2882 0.1835 0.01875 0.2093 0.1216 0.09608 0.06739 0.01511
Cumulative Proportion 0.2882 0.4717 0.49043 0.6998 0.8214 0.91750 0.98489 1.00000
Accumulated constrained eigenvalues
Importance of components:
CCA1 CCA2 CCA3
Eigenvalue 0.6298 0.4009 0.04098
Proportion Explained 0.5877 0.3741 0.03824
Cumulative Proportion 0.5877 0.9618 1.00000
Análisis de Ordenación: CCA
Biodiversidad y Conservación
Los eigenvalues y la proporción explicada se interpretan igual que en PCA. Normalmente, los dos primeros ejes absorben la mayor parte de la varianza
-
Scaling 1 for species and site scores
* Sites are scaled proportional to eigenvalues
* Species are unscaled: weighted dispersion equal on all dimensions
Species scores
CCA1 CCA2 CCA3 CA1 CA2 CA3
Laevicardium 0.33140 -0.58799 -0.05413 -0.29176 -1.8345683 2.319391
Modiolus 0.18991 -1.25322 -1.49657 -1.13511 2.7105300 -0.214338
Limatula 0.33140 -0.58799 -0.05413 -0.29176 -1.8345683 2.319391
Limea 0.33140 -0.58799 -0.05413 -0.29176 -1.8345683 2.319391
Myrtea 0.18991 -1.25322 -1.49657 -1.13511 2.7105300 -0.214338
Mysella -3.79042 -4.63579 1.70254 3.87084 0.0371673 -2.186763
Digitaria 0.31410 -0.68024 -0.72753 -0.45419 1.3706022 0.225604
Site scores (weighted averages of species scores)
CCA1 CCA2 CCA3 CA1 CA2 CA3
E1 -1.5570 1.5409 0.84327 -1.05385 0.6173535 -0.44010
E2 -1.8849 1.2482 -0.48796 -0.86307 -0.0010266 0.10436
E3 -1.8574 1.3418 -0.99015 -0.01563 -0.1467938 0.04983
E6 -1.8451 0.8667 -0.09443 -0.73982 -0.0001565 0.23103
E7 -3.5324 -2.9025 2.06496 2.61568 -0.0180753 -0.45128
E9 -0.1020 -0.2733 -0.45427 -0.51927 0.7205721 -0.04500
E11 0.3080 -0.1354 -0.03767 -0.16379 -0.5610316 -0.91231
E13 0.5511 0.5407 0.64427 1.02133 0.3172638 0.05880
E17 0.3881 -0.3164 -0.07121 -0.13347 -0.4877049 0.48695
Site constraints (linear combinations of constraining variables)
CCA1 CCA2 CCA3 CA1 CA2 CA3
E1 -0.2073 1.42932 0.255160 -1.05385 0.6173535 -0.44010
E2 -1.8472 1.12799 0.423186 -0.86307 -0.0010266 0.10436
E3 -1.9111 1.36942 -0.984381 -0.01563 -0.1467938 0.04983
E6 -2.2702 0.69307 0.451819 -0.73982 -0.0001565 0.23103
E7 -3.4279 -2.49784 0.109030 2.61568 -0.0180753 -0.45128
E9 0.1196 -0.50240 -0.061333 -0.51927 0.7205721 -0.04500
E11 0.3089 -0.01753 0.004606 -0.16379 -0.5610316 -0.91231
E13 0.4912 0.60037 0.057101 1.02133 0.3172638 0.05880
E17 0.2087 -0.23572 -0.002218 -0.13347 -0.4877049 0.48695
Biplot scores for constraining variables
CCA1 CCA2 CCA3 CA1 CA2 CA3
Hydrocarbons -0.6386 0.3130 -0.69574 0 0 0
Organic.matter -0.9509 -0.3702 0.02214 0 0 0
Sand 0.9699 -0.1648 -0.06017 0 0 0
Análisis de Ordenación: CCA
Biodiversidad y Conservación
-
-8 -6 -4 -2 0 2 4
-6-4
-20
2
CCA1
CC
A2
++++
+
+
++
+
++
+ +
++
+
+
++++
++
++++
+
++
++
+
+
++
+
+++
+++
++
+ +++
++ +++
+
++
+
+
+
+
+
+
++
+
+
++++++
+
+
+
++++
+
+
+
+
+
+
+
+
+
+
+
++++
+
+
+
+
++
+
+
++
+
++
+
+
++
+
++
++
+++++
+++
+
+++
++++
+
+
++
+
Hydrocarbons
Organic.matterSand
E1E2E3
E6
E7
E9E11
E13
E17
Polydora_ho
-8 -6 -4 -2 0 2 4
-6-4
-20
2
CCA1
CC
A2
+
+
++
+
+
++
+
+
+
+ +
++
+
+
+
+++++
+++
+
+
++
++
+
+
++
+
+
++
+
++
++
+ +++
++ +
++
+
++
+
+
+
+
+
+
+
+
+
+
++
+
+++
+
+
+
++++
+
+
+
+
+
+
+
+
+
+
+
++++
+
+
+
+
++
+
+
++
+
++
+
+
++
+
+
+
+
+
+++++
+
++
+
+
++
++++
+
+
++
+
Hydrocarbons
Organic.matter
SandLaevicardiumModiolus
LimatulaLimea
Myrtea
Mysella
DigitariaAstarte
Acanthocardia
Parvicardium
Cerastoderma
Spisula Tellina
DonaxPsammobia
Abra_alba
Chamelea
Clausinella
TimocleaGouldiaPitarDosiniaPaphia
CorbulaTellimyaThracia
Retusa
Hydrobia
BittiumTurbonilla
CyclopeBela
Lunatia
Gibberula
CaliptraeaLeptochiton
Chiton
Leptocheirus
CorophiumEricthonius
Siphonoecetes
Dexamine_spinDexamine
UrothoePhotis
LeucothoeHippomedonLepidepecreumPerioculoides
PontocratesPodoceridae Pariambus
PseudoliriusApseudes
Leptochelia
CirolanaPaguridae
Diogenes
Thia
Arabella
Capitella
Capitomastus
Notomastus
Cirratulus
Cirriformia_ten
Cirriformia
Cauleriella
DorvilleaOphryotrocha
Eunice_ha
Eunice_viLysidiceNematonereis
Glycera_ca
Glycera_tes
Glycera_tri
SyllidiaLumbrinerisEuclymene
Micromaldane
Nephthys
Hediste
Neanthes
Nereis
Platynereis
Hyalonoecia
Nainereis
Scolaricia
Paradoneis
Pectinaria
Anaitides
Eulalia_biEulalia_viGenetyllisHarmothoe
Amphiglena
Chone_co
Chone_in
Fabricia
JasmineiraAonides
Malacoceros
Pseudopolydora
Polydora_ci
Pseudomalacoceros
PygospioSpio
Eurysyllis
Eusyllis
Exogone_diExogone_he
Exogone_na
Exogone_ve
Ehlersia
Odontosyllis
Parapionosyllis_mi
Parapionosyllis_laPionosyllisPseudobrania_clPseudobrania_liSphaerosyllis_au
Sphaerosyllis_pi
Sphaerosyllis_caSphaerosyllis.hi
Sphaerosyllis_ta
Syllides
Syllis_arSyllis_gr
Syllis_hySyllis_prNicoleaPolycirrus
Thelepus
Amphipholis
AmphiuraPhascolion
Aspidosiphon
+
-EJE 1
EJE 2
Análisis de Ordenación: CCA
Biodiversidad y Conservación
-
cor1
-
Variables ambientales en CCA
> vif.cca (Ordination.model1)
Hydrocarbons Organic.matter Sand
1.980456 4.400896 6.018617
Factor de inflación de la varianza (VIF)como la relación entre la correlación múltiple R entre la variable ambiental j y las otras variables (VIF= 1/(1-R2j)).
VIF >10: la variable está muy correlacionada con otras y dará lugar a coeficientes canónicos inestables y con escasa interpretación (algunos autores sitúan >20).
VIF normal: siempre mayor de 1.
VIF = 1: variables perfectamente independientes.
La elección de las variables es crucial en la realización del CCA. Variables con poca influencia darán lugar a resultados poco útiles
Las variables explicativas no tienen por que ser continuas, sino que CCA admite variables categóricas
OJO!! el análisis sólo admite un número máximo de variables inferior al número de muestras
Análisis de Ordenación: CCA
Biodiversidad y Conservación
-
Variables ambientales en CCA
> summary(Ordination.model1, scaling=1)
cca(formula = Salabio ~ Hydrocarbons + Organic.matter + Sand, data = salfistan)
Partitioning of mean squared contingency coefficient:
Inertia Proportion
Total 2.185 1.0000
Constrained 1.072 0.4904
Unconstrained 1.114 0.5096
Eigenvalues, and their contribution to the mean squared contingency coefficient
Importance of components:
CCA1 CCA2 CCA3 CA1 CA2 CA3 CA4 CA5
Eigenvalue 0.6298 0.4009 0.04098 0.4575 0.2658 0.20995 0.14726 0.03302
Proportion Explained 0.2882 0.1835 0.01875 0.2093 0.1216 0.09608 0.06739 0.01511
Cumulative Proportion 0.2882 0.4717 0.49043 0.6998 0.8214 0.91750 0.98489 1.00000
Estos ejes representan la variación residual. En algunos casos es posible que el primer eje residual tenga un eigenvalue más alto que el primer eje canónico. Estos ejes residuales son muy útiles en análisis exploratorios ya que pueden ofrecer pistas de que variables importantes se podrían estar perdiendo en el análisis
Si muchas variables son incluidas en el análisis, la mayoría de la inercia puede ser explicada. Esto es análogo a una regresión múltiple donde el r2 o varianza explicada aumenta con el número de variables incluidas. Cuando el número de variables se acerca al número de muestras, la inercia explicada se acerca a la inercia total y la solución del CCA se acerca a un análisis de correspondencias (CA). Es decir, la ordenación no está restringida por las variables. Es muy probable que el efecto arco aparezca con un número alto de variables, mientras que raramente aparece con pocas variables
Análisis de Ordenación: CCA
Biodiversidad y Conservación
-
Test de la hipótesis en CCA
> permutest(Ordination.model1, permutations=1000, first=T)
Permutation test for cca
Permutation: free
Number of permutations: 1000
Call: cca(formula = Salabio ~ Hydrocarbons + Organic.matter + Sand, data =salfistan)
Permutation test for first constrained eigenvalue
Pseudo-F: 2.827998 (with 1, 5 Degrees of Freedom)
Significance: 0.040959
> permutest(Ordination.model1, permutations=1000)
Permutation test for cca
Permutation: free
Number of permutations: 1000
Call: cca(formula = Salabio ~ Hydrocarbons + Organic.matter + Sand, data =salfistan)
Permutation test for all constrained eigenvalues
Pseudo-F: 1.604033 (with 3, 5 Degrees of Freedom)
Significance: 0.11688
Mediante test de aleatoriedad (randomization test) o test de Monte Carlo
El test para el primer eigenvalue determina si el primer eje del CCA es más fuerte que los valores esperados al azar
El test para la suma de todos los ejes canónicos determina si hay relación total entre especies y ambiente
Se recomiendan 1000 permutaciones para significancia de 0,05 y 5000 para 0,01
Análisis de Ordenación: CCA
Biodiversidad y Conservación
-
-8 -6 -4 -2 0 2 4
-6-4
-20
24
CCA1
CC
A2 +
++++
+
++
+
++
+ +
++
+
+
++++++
++++
+
++
++
+
+
++
+
++
+
+++
++
+ +++
++ ++
++
++
+
+
+
+
+
+
++
+
+
++++++
+
+
+
+++
++
+
+
+
+
+
+
+
+
+
+
++++
+
+
+
+
++
+
+
++
+
++
+
+
++
+
++
++
+++++
+++
+
+++
++++
+
+
++
+
HydrocarbonsFats
Organic.matterSand
-10
1
E1E2E3E6
E7
E9E11E13
E17
-8 -6 -4 -2 0 2 4
-6-4
-20
24
CCA1
CC
A2 +
+++
+
+
++
+
++
+ +
++
+
+
++++
++
++++
+
+
+
++
+
+++
+
++
+
+++
++
+ +++
++ +
+++
++
++
+
++
+
++
+
+
+++
+++
+
+
+
+++
+
+
+
+
+
+
+
++
+
+
+
++++
+
+
+
+
++
+
+
++
+
++
+
+
+ +
+
++
++
+++
+ +
+++
+
++ +++++
+
+
++
+Oxygene
Hydrocarbons
Fats
NitrogenOrganic.matter
Sand
-10
1
E1E2E3E6
E7
E9E11E13
E17
-8 -6 -4 -2 0 2 4
-6-4
-20
2
CCA1
CC
A2 ++ +++
+
++
+
++
++
++
+
+++++++ + ++
+
+
++
++
++
++
+
+
++
+
++
+
+
+ +++
++ +
++
+
+
++
+
+
++
+
++
+
+
+++ ++
+
+
+
+++ +
+
+
+
+
+
+
++
+
+
+
+ ++++
+
+
+
+
++
+
+
++
+
+
+
+
+
++
+
++
++
+++
++
+ ++
+
+ ++
++++
+
+
+++ Oxygene
Hydrocarbons
FatsPhosphate
NitrogenOrganic.matter
Sand
-10
1
E1E2E3E6
E7
E9E11E13
E17
Análisis de Ordenación: CCA
Biodiversidad y Conservación
Otras configuraciones posibles con los datos pero no significativas. Es importante la selección correcta de variables para una interpretación fiable
-
Ejercicio 4: Efecto de la contaminación y el gradiente ambiental sobre la comunidad de invertebrados bentónicos en el estuario del río Odiel (Huelva). Se estudiaron 7 estaciones localizadas a lo largo del cauce principal desde Huelva (estación A) hasta la desembocadura en Mazagón (estación G) . Los datos consisten en 18 variables ambientales del sedimento y del agua de fondo y 51 familias de macrofauna del sedimento. Realizar CCA, previa transformación de la tabla biológica y estandarización de las variables ambientales. Obtener la ordenación con mejor ajuste según el test de Monte Carlo.
Archivos: odbio.txt y odfis.txt(Sánchez-Moyano et al 2010)
G
F
E
D
C
A
B
G
F
E
D
C
A
B
Análisis de Ordenación: CCA
Biodiversidad y Conservación
-
BIBLIOGRAFÍA
Estacio, F., García-Adiego, E., Fa D., García-Gómez, J.C., Fa D., Daza, J.L., Hortas, F. & Gómez-Ariza, J.L., 1997. Ecological analysis in a polluted area of Algeciras Bay (Southern Spain): external vs. Internal outfalls andenvironmental implications. Marine Pollution Bulletin, 34 (10): 780-793
Bibliografía
Palmer, M.W.; http://ordination.okstate.edu/overview.htm
Biodiversidad y Conservación
ter Braak, C.J.F. & Smilauer, P. 1998. CANOCO reference manual and User's guide to Canoco for Windows: Software for Canonical Community Ordination (version 4). Microcomputer Power, Ithaca.
ter Braak, C.J.F., & Prentice, I.C. 1988. A theory of gradient analysis. Adv. Ecol. Res. 18:271-313
Mac Nally, R. & Timewell, C.A.R. 2005. Resource availability controls bird-assemblage composition throughinterspecific aggression. Auk 122: 1097-1 1 11
Palmer, M. W. 1986. Pattern in corticolous bryophyte communities of the North Carolina piedmont: Do mossessee the forest or the trees? Bryologist 89:59-65
Quinn, G.P. & Keough, M.J. 2001. Experimental design and data analysis for biologists. Cambridge UniversityPress
Kindt R & Coe R. 2005. Tree diversity analysis. A manual and software for common statistical methods forecological and biodiversity studies. Nairobi: World Agroforestry Centre (ICRAF).
Sánchez-Moyano, J.E., García-Asencio, I. & García Gómez, J.C. 2010. Spatial and temporal variation of the benthic macrofauna in a grossly polluted estuary from southwestern Spain. Helgoland Marine Research 64: 155-168
-
Crawley, M.J. 2007. The R Book
R para Principiantes. (Emmanuel Paradis, 2003) http://cran.r-project.org/doc/contrib/rdebuts_es.pdf
Cayuela, L. 2011. Análisis multivariante en R. http://luiscayuela.blogspot.com.es/2009/05/cur.html
Bibliografía
Biodiversidad y Conservación
Introducción a R. (R Development Core Team, 2000) http://cran.r-project.org/doc/contrib/R-intro-1.1.0-espanol.1.pdf