rapport de stage les modèles spatiaux prédictifs de ... · master 2 ecologie evolution biométrie...
TRANSCRIPT
Maxime Passerault Master 2 Ecologie Evolution Biométrie Université Lyon 1, année 2008-2009
Rapport de stage Les modèles spatiaux prédictifs de distribution
en écologie
[Analyse critiques de la Littérature]
Les modèles de distribution en écologie : les contraintes et les limites
[Travail de recherche]
Développement d’une démarche aboutissant à un modèle spatial prédictif d’abondance du Milan noir,
Milvus migrans
Soutenue le 12/06/2009
Sous la direction de Vincent Bretagnolle, directeur de recherche Et de David Pinaud, ingénieur de recherche Centre d’Etude Biologiques de Chizé, UPR CNRS 1934
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 2
REMERCIEMENTS
Je tiens tout particulièrement à remercier :
David Pinaud pour son accueil lors de mon arrivée au laboratoire, et pour m’avoir bien intégré
parmi le personnel.
Thomas et David pour l’ambiance de travail agréable dans le bureau des deux-sévriens. Leur
aide et leur expérience m’ont été très précieuses tout au long de mon stage, me permettant
d’avancer dans la réflexion et de sortir de certaines impasses.
Vincent Bretagnolle qui a su guider ma réflexion et apporter un regard critique orientant mon
questionnement.
Angèle pour sa patience, son soutien et ses encouragements dans les moments difficiles.
Lucas, sans qui ce rapport ne serait peut-être jamais arrivé sur papier.
Je suis également reconnaissant à :
Toute l’équipe de stagiaires en particulier aux deux Vincent, Marion, Arzhela, Marine, Kelly,
Sébastien, Adrien et Hélène, ainsi que Pamela pour les encouragements mutuels, les bons
moments de vie en communauté et de rigolade.
Tous les personnes que j’ai rencontrées au laboratoire et avec qui j’ai partagé des
connaissances, découvert des choses enrichissantes. En particulier Mich’, Max’ et Hervé,
les thésards herpéto qui m’ont fait découvrir énormément de choses et ont sut répondre à
ma curiosité.
Toutes les personnes présentes sur le CEBC pour l’ambiance conviviale qui règne ici en plein
cœur de la forêt de Chizé.
Christophe le cuisinier pour avoir préparé de bons petits plats.
Tous les joueurs de baby-foot pour les parties enflammées indispensables pour décompresser.
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 3
SOMMAIRE
Analyse critiques de la Littérature : Les modèles de distribution en écologie : les contraintes et les
limites
p
5
Introduction p 6 I. Autocorrélation spatiale p 7 1) Origines p 7 2) Problèmes p 8 3) Solutions p 8 II. Contraintes de l’étude p 9 1) Contraintes liées au but de l’étude p 9 2) Contraintes liées à la nature des variables p 9 3) Contraintes liées au type de variables p 10 4) Modélisation des communautés p 10 III. Hypothèses biologiques et mathématiques p 10 1) La stationnarité et l’isotropie p 10 2) La forme de la courbe de réponse p 11 3) La tranférabilité p 12 4) Les changements d’échelle p 13 Conclusion p 13
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 4
Travail de recherche
Développement d’une démarche aboutissant à un modèle spatial prédictif d’abondance du Milan noir, Milvus migrans
p
15
Introduction p 16 Matériel et méthodes p 20 Zone d’étude p 20 Les données p 21 Les variables environnementales p 21 Les analyses p 22 Logiciels p 22 L’exploration des données p 23 La démarche adoptée p 23 Le modèle logistique p 25 Le seuil de présence p 26 Le modèle d’abondance p 27 La validation croisée p 28 Résultats p 29 Les probabilités de présence p 29 Le seuil de discrimination entre présence et absence p 30 Le modèle d’abondance p 32 L’évaluation des prédictions p 33 Discussion p 34 Le modèle logistique des présences/absences p 35 Détermination du seuil p 35 Le modèle d’abondance p 36 Intérêts et limites de la méthode employée p 37 Conclusion p 39 Références p 40 Annexe 1 : Résultats des simulations de la validation croisée p 44 Annexe 2 : Tableau de classification des variables d’occupation du sol p 45 Annexe 3 : Matrice des corrélation des variables du GAM logistique p 46
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 5
[Analyse critiques de la Littérature]
Les modèles de distribution en écologie : les contraintes et les limites
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 6
INTRODUCTION
Au sein d’un environnement, les espèces ne se répartissent pas aléatoirement mais suivant
leurs besoins et leurs capacités à répondre aux conditions du milieu. On parle de sélection
d’habitat. On ne retrouve les espèces que dans les milieux où les conditions leur sont
favorables et permettent de maximiser leur fitness. En écologie, l’étude de ces relations entre
les espèces et leur environnement a toujours été une question centrale pour expliquer et
comprendre les déterminants écologiques et évolutifs des patterns de répartition observés
(Keitt et al. 2002; Guisan & Zimmermann 2000) (Scott et al. 2002).
Avec le développement concomitant des ordinateurs et de l’écologie quantitative au milieu du
20ème siècle, des méthodes de plus en plus complexes voient le jour pour étudier les relations
entre les espèces et leur milieu. Durant cette période, il n’y a que peu de considération pour la
validité des méthodes statistiques employées (Scott et al. 2002). Des congrès, comme celui de
1984 « Wildlife 2000 : Modeling Habitat Relationships of Terrestrial Vertebrates » dont la
problématique est le développement et l’application des modèles prédictifs, s’organisent. Une
attention de plus en plus grande est portée sur les hypothèses à ne pas violer, les conditions
d’application des méthodes, les limites et le caractère adapté du jeu de données. Cependant,
récemment encore, certains auteurs dénoncent le fait que la théorie écologique en relation
avec les modèles soit négligée (Guisan & Thuiller 2005; Guisan et al. 2006). C’est un facteur
limitant dans l’application des modèles (Austin 2002). Aujourd’hui, les modèles de
distribution d’espèces sont de plus en plus utilisés pour répondre aux problématiques
majeures que sont la prédiction et la compréhension des facteurs qui déterminent cette
distribution (Graham et al. 2008). Ils représentent donc un outil valable pour la gestion et la
conservation de l’environnement (Barbosa, Real & Vargas 2009; Guisan & Zimmermann
2000).
Il existe une multitude de méthodes pour modéliser la distribution des espèces. Elles varient
suivant le type de réponse qu’elles prennent en compte, la manière d’ajuster le modèle, par la
capacité à pondérer les observations, à incorporer des interactions, et par la manière de prédire
(Elith et al. 2006). Une seule méthode ne peut révéler toutes les caractéristiques importantes
des données spatialisées (Dale et al. 2002). Le choix d’une méthode adaptée n’est pas aisé et
dépend de nombreux facteurs.
Ce présent rapport se propose d’analyser l’ensemble des limites d’application des modèles de
distribution en écologie et des contraintes qui permettent d’orienter le choix de la méthode
utilisée. Dans un premier temps, nous aborderons les contraintes inhérentes aux données
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 7
spatialisées qui ne sont pas indépendantes (Bustamante 1997). Dans un second temps, nous
poserons le problème des contraintes amenées par la question sous-jacente à l’étude, c'est-à-
dire par le but de l’étude et le type de données associées. En effet, le jeu de données récolté
dépend énormément de cette question et va beaucoup influencer les choix méthodologiques
(Dale et al. 2002). Enfin, nous verrons les hypothèses mathématiques et biologiques fortes qui
limitent l’utilisation des modèles et qu’il est rarement possible de contourner. En effet, les
modèles doivent être en adéquation avec les processus biologiques qu’ils représentent et le
choix ne doit donc pas seulement reposer sur des considérations statistiques mais également
sur les théories écologiques (Guisan & Zimmermann 2000).
I. AUTOCORELATION SPATIALE
1) Origines
Dans la nature, les variables physiques et biologiques observées présentent généralement des
patterns spatiaux (Perry et al. 2002). Les données échantillonnées à des localisations proches
ne sont pas indépendantes les unes des autres (Dormann et al. 2007; Dormann 2007; Carl &
Kuhn 2008) et sont donc sujettes à l’autocorrélation spatiale positive si elles ont tendance à
être plus similaires, et négative si elles ont tendances à être différentes (Dale et al. 2002). Les
processus responsables de l’autocorrélation sont multiples. Legendre et al. (2002) classe ces
facteurs suivant deux origines liées aux patterns observés dans la variable réponse. La
première, la dépendance spatiale, intervient dans le cas où les variables explicatives sont
elles-mêmes structurées. On peut citer les relations fonctionnelles espèce ↔ environnement
mal spécifiées (Dormann et al. 2007) ou le cas d’une variable environnementale structurée
spatialement, non prise en compte dans le modèle (Guisan & Thuiller 2005; Dormann et al.
2007; Keitt et al. 2002). La seconde, l’autocorrélation spatiale vraie correspond à des
processus dynamiques dans la variable réponse elle-même. Elle correspond aux facteurs
externes historiques (événements volcaniques, de glaciation) et environnementaux (barrières
géographiques) qui limitent la dispersion (Dormann et al. 2007; Bustamante & Seoane 2004)
et leurs processus biologiques associés (spéciation, extinction) ainsi que d’autres processus
biologiques intrinsèques comme les interactions entre espèces ou le comportement (Guisan &
Thuiller 2005; Dormann et al. 2007; Maggini et al. 2006; Keitt et al. 2002). Mais, il reste
souvent une part de dépendance résiduelle dans les données due à des variables
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 8
environnementales ou des processus biologiques non mesurables (Dormann 2007; Miller,
Franklin & Aspinall 2007).
Pour attester de la présence de l’autocorrélation spatiale, il existe différentes méthodes : les
corrélogrammes de Moran ou de Geary ou bien encore des variogrammes qui mesurent la
similarité ou la dissimilarité en fonction de la distance. Les corrélogrammes constituent la
représentation la plus commune en écologie (Dormann et al. 2007).
2) Problèmes
Dans les méthodes standards, lorsque l’autocorrélation spatiale est ignorée, un modèle peut
conduire à une estimation biaisée des paramètres (Dormann 2007) et à une augmentation du
taux d’erreur de type 1 (Bahn, O'Connor & Krohn 2006; Dormann et al. 2007), c'est-à-dire au
rejet de l’hypothèse nulle (H0) de non effet alors que les données sont conformes à cette
dernière, ce qui amène à des conclusions incorrectes (Maggini et al. 2006; Keitt et al. 2002;
Kuhn 2007; Schabenberge & Gotway 2005). Si une structure spatiale de la variable reste
présente dans les résidus d’un modèle, une des hypothèses clés est violée, à savoir que les
résidus sont indépendants et identiquement distribués (iid) (Bahn et al. 2006). Ce phénomène
est équivalent à de la pseudo-réplication, ce qui diminue le nombre de degrés de liberté
(Guisan & Zimmermann 2000). L’incorporation de termes prenant en compte
l’autocorrélation spatiale produit donc de meilleurs modèles (Maggini et al. 2006; Dormann
2007; Bustamante & Seoane 2004).
3) Solutions
L’autocorrélation peut être vue comme un problème mais aussi comme une source
d’information pour étudier les processus responsables des patterns observés (Dormann et al.
2007; Dormann 2007; Liebhold & Gurevitch 2002; Schabenberge & Gotway 2005). L’intérêt
pour quantifier et inclure cette structure dans la compréhension du phénomène étudié, n’a eu
de cesse d’augmenter (Dale et al. 2002; Liebhold & Gurevitch 2002). Ainsi une multitude de
méthodes ont été développées récemment pour prendre en compte et corriger les effets de
l’autocorrélation spatiale (Maggini et al. 2006).
Parfois il est possible d’adapter l’échantillonnage pour avoir des points assez éloignés pour
être indépendants (Guisan & Zimmermann 2000), mais quand la distance est trop grande, ceci
n’est pas réalisable (Guisan & Zimmermann 2000). D’autres chercheurs considèrent que
l’autocorrélation spatiale agit à toutes les échelles (Keitt et al. 2002), et qu’il est donc
impossible de la neutraliser par l’échantillonnage. Il est alors nécessaire de la prendre en
compte explicitement dans les analyses statistiques. Pour les études de corrélations simples
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 9
entre 2 variables, il est possible d’utiliser des tests de comparaison modifiés, comme le test t
de Dutilleul (Legendre et al. 2002). Pour les analyses de régressions ou de classifications, il
existe une multitude de méthodes qui permettent l’ajout de matrices de corrélations ou de
distances, de paramètres tirés des corrélogrammes, ou encore des surfaces de tendances, dans
le modèle pour caractériser cette autocorrélation spatiale.
II) CONTRAINTES DE L’ETUDE
1) Contraintes liées au but de l’étude
Parmi les études de distribution spatiale certaines sont plus orientées vers des statistiques
descriptives, d’autres sont plus exploratoires et permettent de construire des hypothèses ou de
mettre en évidence les caractéristiques de la structure spatiale (Dale et al. 2002). En fonction
de la question amenée par l’étude, les méthodes d’échantillonnage varient et les variables
d’intérêts sont de différente nature. Il est possible d’échantillonner des aires ou des points,
avec des attributs (x, y, z) ou non (x, y), et ces données peuvent être spatialement explicites
ou non (Perry et al. 2002).
2) Contraintes liées à la nature des variables
Dans la littérature, les études sont presque exclusivement traitées à partir de données de
‘présences seules’ d’espèces/d’individus ou bien de données de ‘présences absences’. Les
données de ‘présences seules’, les plus courantes et les plus accessibles, sont analysées avec
des méthodes comme l’ENFA (Hirzel et al. 2002; Engler, Guisan & Rechsteiner 2004). Il
existe d’autres méthodes utilisables qui génèrent des pseudo-absences, comme les GLM.
Mais, dans certains cas, il est préférable de modéliser la sélection d’habitat avec les données
de ‘présences-absences’ car les absences représentent une grande source d’information en
particulier pour modéliser les espèces généralistes (Brotons et al. 2004). Quels que soient le
type de données ou méthodes utilisées, les espèces avec des niches écologiques plus
restreintes seront toujours modélisées de manière plus juste que les espèces généralistes
(Brotons et al. 2004). Très peu d’études s’appuient sur des données quantitatives alors que ce
sont les seules qui permettent de détecter les phénomènes d’interactions entre espèces (Austin
2002) et que pour les questions de conservation des espèces face aux changements globaux,
des prédictions quantitatives sont indispensables (Austin 2007).
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 10
3) Contraintes liées au type de variables
Une partie des modèles prédictifs s’appuient sur les variables de l’environnement. Ces
variables se répartissent en 3 types de gradients (Austin 2002; Guisan & Zimmermann 2000) :
indirects, dont la variable n’a pas d’effet sur la physiologie mais dont la localisation affecte
d’autres variables (ex : altitude) ; directs, dont la variable a un effet direct sur la physiologie
(ex : température) ; et ressources, dont la variable cette fois est consommée (ex : proies). Il
existe des facteurs qui impactent directement la physiologie (prédicteurs proximaux) et des
facteurs non-causaux (distaux) qui agissent sur la physiologie par une cascade de processus
(Austin 2002). L’utilisation dans la modélisation des facteurs proximaux et directs produit des
modèles plus robustes et plus généralisables (Guisan & Zimmermann 2000). Cependant, ces
variables sont difficilement accessibles et parfois impossibles à mesurer (Austin 2002).
L’utilisation des facteurs distaux et indirects est donc souvent privilégiée. Le modèle est alors
faiblement généralisable géographiquement (Guisan & Zimmermann 2000).
4) Modélisation des communautés
S’intéresser à la communauté ou à des groupes d’espèces, a pour but d’obtenir des cartes
prédictives, de détecter des variations dans la composition en espèces, ou de mettre en
évidence des interactions interspécifiques. Il existe trois stratégies (Ferrier & Guisan 2006) :
prédire dans un premier temps les espèces séparément puis rassembler ces prédictions par des
méthodes de classification ou d’ordination ; la stratégie inverse ; ou alors effectuer la
classification et l’ordination en même temps que la modélisation. Pour les deux premières
stratégies, il est possible d’utiliser des méthodes comme les GLM ou GAM avec des Arbres
de Classification ou de Régression. Pour la dernière, il est nécessaire d’utiliser des méthodes
plus spécifiques comme ‘Vector GLM’ ou ‘Vector GAM’ ou encore MARS (Ferrier &
Guisan 2006). C’est également un outil utile pour prédire la distribution d’une espèce rare. La
prédiction à l’aide d’informations apportées par d’autres espèces associées augmente la
puissance des analyses (Ferrier & Guisan 2006). Cependant, la modélisation à l’échelle de la
communauté est discutée du fait que les espèces modernes n’ont pas une longue histoire
commune et qu’il est probable que ces assemblages ne soient pas stables et réagissent de
manière différente face aux changements climatiques (Guisan & Zimmermann 2000).
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 11
III) HYPOTHESES BIOLOGIQUES ET MATHEMATIQUES
1) La stationnarité et l’isotropie
L’échantillonnage se fait généralement sur un espace ou un temps limité. Les modèles
construits alors à partir de ces données ne reflètent qu’une vue restreinte de la relation qui
existe entre l’espèce et l’environnement (Guisan & Thuiller 2005). Les modèles classiques
sont statiques et présument que ces relations (moyenne, variance, autocorrélation) sont
constantes sur toute la zone d’étude et dans le temps, ainsi que dans toutes les directions
(Schabenberge & Gotway 2005; Guisan & Zimmermann 2000). C’est le principe de la
stationnarité et de l’isotropie. Ceci est plus ou moins discutable suivant l’étendue de la zone
d’étude (Dormann et al. 2007). Plus la zone d’étude est grande, plus augmente la probabilité
que les mécanismes de structuration spatiale varient. La non stationnarité est même plus
réaliste en écologie, mais alors la complexité des modèles pour la prendre en compte rend
cette hypothèse indispensable (Guisan & Zimmermann 2000). Cette hypothèse ne constitue
pas une contrainte forte pour les espèces persistantes ou celles qui réagissent très lentement.
Mais dans le cas où l’espèce est en expansion ou qu’il existe de fortes perturbations ou des
dynamiques successionelles rapides, cette hypothèse rend la modélisation difficile (Guisan &
Zimmermann 2000; Guisan, Edwards & Hastie 2002). Ainsi, des modèles comme les GLM
sont biaisés dans le cas d’études sur des espèces en expansion. Des méthodes comme l’ENFA
sont plus résistantes, mais lorsque l’espèce est surabondante, travailler avec un GLM utilisant
les absences est plus adapté (Hirzel, Helfer & Metral 2001).
L’isotropie stipule que les caractéristiques du pattern et les structures de dépendances sont les
mêmes dans toutes les directions (Schabenberge & Gotway 2005), c'est-à-dire que les
processus causant l’autocorrélation spatiale agissent de la même manière dans toutes les
directions. Les facteurs courants causant l’anisotropie sont le vent, les courants d’eau, les
mouvements dirigés (ex : migration). Des méthodes récemment développées peuvent prendre
en compte cette anisotropie (Dormann et al. 2007).
2) La forme de la courbe de réponse
Dans le choix de la méthode, la forme de la réponse attendue d’une espèce est une hypothèse
centrale (Austin 2002). Les premières méthodes dites paramétriques émettent l’hypothèse
d’une réponse linéaire. Cependant, il est de plus en plus admis que les courbes unimodales
symétriques sont rares (Austin 2002; Guisan et al. 2006). Les courbes de réponses à un
gradient indirect peuvent prendre toutes sortes de formes (Austin 2002; Austin 2007). Les
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 12
courbes unimodales non symétriques sont donc mieux représentées par des méthodes semi-
paramétriques type GAM (Guisan et al. 2006).
3) La transférabilité
Par transférabilité, on parle d’application des modèles prédictifs de distribution dans une autre
zone géographique que celle de l’étude. Cette extrapolation peut être problématique (Barbosa
et al. 2009) selon l’environnement (différences entre régions) et les conditions biotiques
(différences d’interactions entre l’espèce considérée et les autres associées) (Randin et al.
2006). En effet, derrière les modèles se cachent des hypothèses (interactions biotiques, effets
stochastiques négatifs…) et il est important de savoir si ces hypothèses sont transférables
(Guisan et al. 2002). La transférabilité dépend alors de la généralité des prédicteurs choisis
(Randin et al. 2006). L’utilisation de paramètres indirects, qui sont la combinaison de
plusieurs facteurs directs, limite l’application à une autre région (Guisan & Zimmermann
2000) car la combinaison risque de changer. L’utilisation des facteurs directs / ressources rend
le modèle plus généralisable et transférable. Les GLM semblent plus transférables qu’un
GAM car les modèles non linéaires peuvent être sur ajustés aux données et donc moins
généralisables (Randin et al. 2006). De même, si l’Autocorrélation Spatiale représente une
structure de l’environnement (variable d’habitat) plutôt qu’une structure biologique, le
modèle est difficilement applicable à une autre région (Guisan & Thuiller 2005). Dans
l’exemple de Barbosa et al. (2009) (Fig. 1) un GLM modélisant la distribution du desman est
développé sur des données au Portugal, un autre sur les données en Espagne et un troisième
sur le total. Les cartes prédictives des 3 modèles appliqués sur toutes les zones montrent que
les prédictions spatiales sont très différentes. Transférer un modèle dans l’espace peut donc
s’avérer problématique.
Figure 1 : Prédiction de 3 glm de la qualité de l’habitat pour le desman des Pyrénées, appliqués à la Péninsule
Ibérienne. Ils sont respectivement ajustés à l’aide des données (1) du Portugal (2) de l’Espagne (3) de l’ensemble. Les degrés de qualités vont de 0 (blanc) à 1 (noir).(Barbosa et al. 2009)
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 13
4) Les changements d’échelle
Les relations espèces-environnements observées et détectées peuvent différer si l’échelle
d’étude des processus change. Les résultats peuvent varier en termes de moyenne, variance,
pattern d’Autocorrélation Spatiale…(Dungan et al. 2002). Les variables environnementales
qui influencent statistiquement la répartition des êtres vivants sont différentes suivant le grain
et l’étendue de l’étude, ce qui influence les conclusions (Sanchez-Zapata & Calvo 1999).
Ainsi, on différencie deux types d’étude : les statistiques spatiales locales qui ont pour but de
quantifier le pattern à des localisations relativement voisines, et les statistiques spatiales
globales qui résument les caractéristiques du pattern sur la zone d’étude entière. (Dale et al.
2002). Ainsi, suivant la question posée, l’échelle de l’échantillonnage et de l’analyse va
varier.
CONCLUSION
Le développement des problématiques de gestion de milieux parallèlement aux
problématiques d’étude de répartition des espèces et de prédiction des effets des changements
globaux ont amené la nécessité de développer des modèles statistiques de prédiction de
distribution (Austin 2007). Cependant, les méthodes classiques peuvent difficilement être
utilisées sur ces jeux de données spatialisées. En effet, ils impliquent une multitude de
contraintes dont la première est la dépendance spatiale des données. Si cette dernière n’est pas
prise en compte, il peut y avoir des conséquences fortes sur les conclusions de l’analyse (Keitt
et al. 2002; Dormann et al. 2007). Des méthodes spatialisées ont donc été développées et se
développent encore aujourd’hui. Mais ces méthodes doivent répondre à beaucoup d’autres
contraintes, ce qu’elles réussissent plus ou moins bien. Il est en particulier indispensable de
vérifier la stationnarité et l’isotropie et de tester le caractère unimodal symétrique ou non de la
courbe de réponse. Il est important de rester vigilant quant à la possibilité de transférer le
modèle prédictif sur une autre zone géographique ou à une autre échelle. Souvent ces
extrapolations sont biaisées et conduisent à des conclusions fausses (Randin et al. 2006;
Dungan et al. 2002).
Parmi la multitude de nouvelles méthodes qui voient le jour, un débat s’est lancé pour tester
quelle serait ‘LA’ meilleure méthode. De nombreuses publications comparent des méthodes
d’analyses sur un ou plusieurs jeux de données, sur une ou plusieurs espèces (Brotons et al.
2004; Guisan, Weiss & Weiss 1999; Segurado & Araujo 2004) et les avis sont parfois
différents. D’autres appuient leurs comparaisons sur des jeux de données artificiels (Hirzel et
al. 2001). L’utilisation de données artificielles est discutée, mais elle s’avère utile pour voir ce
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 14
qui ‘ne marche pas’ (Austin 2007) et pour tester la réponse des méthodes aux scénarii
évolutifs (Hirzel et al. 2001). D’après Austin (2007), deux paradigmes de Kuhn opèrent. Il
prend pour preuve deux revues proches dans le temps qui n’ont aucune citation en commun.
Dans la littérature, il existe deux visions différentes sur le rôle de la modélisation entre les
modèles explicatifs et prédictifs (Guisan et al. 2002). Ainsi, le choix de ‘LA’ meilleure
méthode serait un faux débat par l’absence de réponse unique. Dans les études de
comparaison, il y a énormément d’effets confondants et les performances d’un modèle
dépendent du type de distribution géographique ou environnementale de l’espèce considérée
(Segurado & Araujo 2004), ce qui appuie l’idée qu’un modèle n’est valable que pour une
espèce (Austin 2007). La véritable question est donc : quelles méthodes pour quelles données
et pour quels objectifs (Austin 2007). En effet, la sélection des méthodes doit se faire en
fonction des contraintes et hypothèses qu’elles portent. De plus, négliger les connaissances en
écologie est un facteur limitant dans l’utilisation des modèles prédictifs de distribution
(Austin 2002). Il faut donc avoir une approche type ‘Coût-Bénéfice’ dans la sélection des
méthodes. Il y a d’abord un choix entre optimiser la justesse ou la généralité du modèle en
sélectionnant les covariables à incorporer dans le modèle (Guisan & Zimmermann 2000), un
choix à faire entre les différentes hypothèses acceptables ou non, les limites et contraintes
d’applications des méthodes… C’est la meilleure procédure pour choisir le modèle adapté à la
question et aux données.
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 15
[Travail de recherche]
Développement d’une démarche aboutissant à un modèle spatial prédictif d’abondance du Milan noir,
Milvus migrans
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 16
Introduction
Dans un contexte de changements globaux provoqués directement ou indirectement par
l’activité humaine, la conservation de la biodiversité est devenue un enjeu majeur. Les
changements climatiques entraînent des modifications dans la phénologie de reproduction de
certaines espèces, déséquilibrant les écosystèmes. Les changements d’habitats, comme
l’urbanisation ou l’évolution des pratiques agricoles, entraînent des bouleversements
paysagers par la fragmentation des habitats (Palomino & Carrascal 2007), ce qui a un effet
néfaste pour beaucoup d’espèces comme les oiseaux (Sanchez-Zapata & Calvo 1999). Les
activités humaines affectent donc les espèces en réduisant l’étendue de leurs distributions et
diminuant leurs effectifs (Osborne, Alonso & Bryant 2001). Un déclin général de la
biodiversité est constaté. Ce phénomène inquiétant préoccupe et intéresse les naturalistes et
les écologues. Une multitude de programmes, généralement des atlas, sont lancés pour faire
un état des lieux de la biodiversité, voir comment elle réagit face à ces changements et
cartographier la distribution des espèces (Brotons et al. 2004). Généralement les informations
récoltées ne renseignent que sur la présence des espèces (Bustamante & Seoane 2004). Plus
rarement, elles renseignent sur la ‘présence/absence’ et exceptionnellement sur l’abondance
(Nielsen et al. 2005).
Ces études nécessitant de gros investissements en moyens humains et financiers, elles font
souvent appel à des réseaux de volontaires et leurs protocoles sont alors flexibles et peu
contraignants, ce qui pose des problèmes au moment de l’analyse. L’effort d’échantillonnage
est rarement quantifié, l’étendue de la zone d’étude est souvent faible et échantillonnée de
manière hétérogène, étant irréaliste de vouloir échantillonner l’étendue de la zone en continu.
Plus la pression d’échantillonnage est forte, plus les prédictions seront bonnes. En revanche si
on augmente l’étendue de l’étude, la pression va diminuer et il est alors difficile d’avoir des
prédictions correctes en s’appuyant seulement sur les informations échantillonnées. Ces
études permettent la production de cartes de distribution parfois lissées à l’aide de méthodes
simples d’interpolation s’appuyant sur l’autocorrélation spatiale, qui renvoie au fait que des
données proches dans l’espace ont tendance à être similaires (Dale et al. 2002; Dormann
2007). Mais aujourd’hui ces études se destinent à des applications qui vont au delà de la
simple cartographie et ont donc tendance à standardiser de plus en plus leurs protocoles. Les
programmes de récolte de données pour les atlas, malgré leurs efforts, souffrent par ailleurs
d’un manque d’exploitation scientifique des données. Ce manque est causé par la complexité
de ces données et des méthodes pour les analyser. Les méthodes classiques ne sont pas
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 17
adaptées pour analyser des données de présence, de présence/absence ou de comptage avec
une hétérogénéité spatiale, ceci violant entre autre des hypothèses d’ordre statistique.
Etant donnée l’importance des connaissances de la distribution des espèces et pour répondre à
l’augmentation du nombre d’études et à leurs objectifs, il est nécessaire de développer des
méthodes qui permettent d’analyser les données de ‘présence stricte’, de ‘présence/absence’
ou d’abondance à différentes échelles spatiales (Austin 2007). Ces méthodes doivent prendre
en compte le fait que ces données sont spatialisées et autocorrélées, elles doivent répondre au
problème de l’hétérogénéité de prospection et pouvoir prédire dans les zones faiblement
échantillonnées. La présente étude constitue un travail de réflexion sur la manière de gérer ces
données en prenant en considération l’autocorrélation spatiale, et un travail exploratoire de
développement d’une démarche pour analyser des données récoltées lors d’atlas réalisés à
grande échelle.
Lors de l’analyse, il est possible d’utiliser des variables externes qui permettent d’appuyer les
prédictions. Les variables de l’environnement peuvent être utilisées pour construire des cartes
plus précises qui à l’aide de quelques points échantillonnés dans la zone permettent de prédire
la présence d’une espèce de manière continue avec un effort d’échantillonnage limité
(Bustamante & Seoane 2004). En effet, les espèces ne se répartissent pas aléatoirement en
fonction des variables de l’environnement éco-géographique (Hirzel et al. 2002), mais
seulement dans une zone plus ou moins étroite de conditions environnementales (Hirzel & Le
Lay 2008). Ainsi, la distribution des espèces étant, au moins en partie, déterminée par les
variables de l’environnement (Austin 2007), il est possible d’étudier les corrélations spatiales
entre l’environnement et leur abondance (Bustamante & Seoane 2004). Les modèles basés sur
ce principe de sélection d’habitat par les espèces sont des modèles de prédiction de
distribution, aussi appelés ‘fonctions de sélection de ressources’ ou ‘modèle d’habitat
convenable’ (Hirzel et al. 2006). Des études précédentes ont montré que les variables
climatiques ou d’usage des sols étaient très utiles pour prédire la distribution de beaucoup
d’espèces de plantes (Leathwick, Whitehead & McLeod 1996), de poissons (Maxwell et al.
2008), de mammifères (Jaberg & Guisan 2001) ou d’oiseaux (Lennon, Greenwood & Turner
2000; Manel et al. 1999), et parmi ces derniers, les rapaces (Austin et al. 1996; Balbontin et
al. 2008; Bustamante & Seoane 2004; Sanchez-Zapata & Calvo 1999). Le développement
récent des techniques statistiques, des outils d’analyse, combinés à la disponibilité toujours
plus grande des données environnementales à large échelle, offre une opportunité pour tester
et utiliser des méthodes pour des cartographies qualitatives et quantitatives de la distribution
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 18
des espèces à grande échelle (Brotons et al. 2004). Le développement de méthodes
statistiques s’appuyant sur l’habitat est donc nécessaire pour des suivis à grande échelle
(Osborne et al. 2001) et aujourd’hui des méthodes se développent permettant donc de faire
des prédictions spatiales de l’abondance et de donner un sens écologique aux facteurs
déterminant cette distribution (Suarez-Seoane, Osborne & Alonso 2002).
Les données issues d’enquêtes comme les atlas sont les plus couramment utilisées pour faire
des cartes de distributions (Austin 2002; Guisan & Zimmermann 2000). Des méthodes ont été
développées et permettent de travailler sur ces données de ‘présence stricte’ (Elith et al. 2006;
Engler et al. 2004) et de ‘présence absence’ qui apportent plus d’information (Brotons et al.
2004; Hirzel et al. 2006). On note d’ailleurs que la majorité des études utilisent des données
de présence ou de ‘présence/absence’ (Balbontin 2005). En revanche, les données
d’abondance, pourtant essentielles, sont très peu utilisées (Austin 2007; Hirzel et al. 2006),
car elles représentent un coût supplémentaire en terme d’effort et nécessitent un protocole
plus standardisé (Brotons et al. 2004; Nielsen et al. 2005). Peu de méthodes sont développées
pour prendre en compte les données d’abondances. Pourtant, ces méthodes statistiques de
prédictions quantitatives sont centrales pour des questions appliquées et théoriques (Austin
2007; Barry & Welsh 2002). Mais ces données de comptage ne peuvent pas être analysées par
des méthodes gaussiennes classiques, suivant généralement une distribution de Poisson, et, en
écologie, les données de comptage récoltées sont souvent plus dispersées qu’attendu sous une
distribution de Poisson (Welsh et al. 1996; Barry & Welsh 2002). La variance est alors
supérieure à la moyenne, ce qui peut entraîner des erreurs dans les conclusions d’une analyse
(Barry & Welsh 2002). Ce problème peut être contourné par différents moyens. Il est possible
par exemple, de transformer les données, avec le logarithme ou la racine carrée, pour se
rapprocher d’une distribution normale (Bustamante 1997). Mais ceci pose des problèmes de
validité des hypothèses de linéarité et d’homocédasticité des variances (Welsh et al. 1996).
Un autre moyen est d’utiliser des distributions comme la Binomiale Négative ou bien la
Poisson Généralisée qui permettent la modélisation indépendante de la moyenne et de la
variance par l’ajout d’un paramètre supplémentaire (Gschlossl & Czado 2008). Cependant, le
plus souvent, le phénomène de surdispersion est causé par un nombre excessif de zéros,
généralement dû à la présence de deux processus qui agissent à différentes échelles spatiales.
L’hypothèse de stationnarité est alors non respectée, il est donc nécessaire d’utiliser des
modèles ‘Zéro-enflés’. Les modèles les plus adaptés sont les modèles de mélange qui
modélisent les données par la combinaison de deux lois : une première distribution uniforme
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 19
qui modélise une certaine proportion de zéros qui sont causé par les processus à grande
échelle, et une seconde, qui correspond aux données de comptage et qui se focalise sur les
processus plus locaux (Nielsen et al. 2005). La seconde peut être une distribution de Poisson,
Poisson Généralisée ou Binomiale Négative. Cependant, ces méthodes ne prennent pas en
compte le caractère spatial des données. Une alternative serait d’utiliser les modèles ‘Zéro-
enflés’ spatialisés dans un contexte Bayésien en ajoutant un effet spatial aléatoire. Ces
méthodes partent d’une distribution a priori des paramètres pour faire une nouvelle estimation
par ‘Markov Chain Monte Carlo’ (MCMC) de la distribution complexe a posteriori des
paramètres (Gschlossl & Czado 2008). Cette méthode qui semble être la plus adaptée est
complexe et malheureusement longue à implémenter.
Les données récoltées ne sont pas indépendantes, mais assujetties à l’autocorrélation spatiale
(Bustamante 1997; Carl & Kuhn 2008). Si cette structure spatiale n’est pas prise en compte,
les conclusions d’une étude peuvent être largement biaisées (Keitt et al. 2002; Maggini et al.
2006; Bahn et al. 2006). Il existe également des problèmes liés à l’isotropie et à la
stationnarité : les processus à modéliser doivent être respectivement les mêmes dans toutes les
directions et constants en tout point de la zone d’étude (Guisan & Zimmermann 2000), ou
bien les méthodes doivent prendre en compte explicitement ces problèmes (Dormann et al.
2007). De plus, la forme de la réponse d’une espèce à une variable environnementale est une
hypothèse centrale (Austin 2002), mais modéliser ces relations de manière linéaire n’est
souvent pas adapté (Guisan et al. 2002). Il est donc préférable d’utiliser des modèles non
linéaires pour se libérer de cette hypothèse de linéarité (Suarez-Seoane et al. 2002). Très peu
d’études prennent toutes ces caractéristiques en compte.
Le présent travail a donc pour but de développer une démarche produisant un modèle spatial
d’abondance à grande échelle, prenant tous ces biais en considération. L’objectif de ce modèle
sera de prédire de manière précise la distribution de l’abondance d’une espèce mais également
d’utiliser des variables externes comme l’habitat pour obtenir des estimations plus robustes
dans le cas d’un échantillonnage spatial hétérogène. Il pourra devenir ainsi un outil potentiel
pour la création d’estimations à grande échelle d’abondance.
Pour ce faire, les données de comptage utilisées sont issues d’une enquête nationale réalisée
récemment dont l’objectif était de déterminer l’abondance et la distribution des rapaces
nicheurs de France’ (Thiollay & Bretagnolle 2004). Ce jeu de données a déjà fait l’objet
d’analyses statistiques spatialisées, mais aucun modèle prédictif incorporant des données
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 20
d’habitat n’a vu le jour. C’est précisément l’un des objectifs de ce travail. Ainsi, à l’aide de
variables d’habitats et de variables climatiques, un modèle spatial prédictif de l’abondance des
rapaces en France sera développé. En effet, des études ont montré que les rapaces ont des
préférences de milieux de vie, que leur distribution et leur abondance diffèrent suivant des
variables climatiques (Lennon et al. 2000) et entre les habitats (Sanchez-Zapata et al. 2003).
De plus, ce sont des prédateurs supérieurs dont la présence et la richesse indiquent la qualité
de l’écosystème (Sanchez-Zapata et al. 2003), ils peuvent donc être utilisés comme
indicateurs biologiques sensibles aux changements globaux (Palomino & Carrascal 2007).
Cette étude constitue donc un travail exploratoire de développement d’un modèle prédictif
d’abondance spatiale dans l’optique de développer par la suite de manière plus rigoureuse un
modèle ‘Zéro enflé’ par la méthode MCMC. Cependant, la démarche en deux étapes qui va
être utilisée ici prendra en compte la non stationnarité des données par la modélisation des
deux processus séparément. La démarche est inspirée de la méthode de Welsh et al. (1996).
Elle va également prendre en compte les améliorations proposées par Barry & Welsh (2002)
qui conseillent d’utiliser des modèles non linéaires. Ainsi l’utilisation de modèles de
régression permettra également d’incorporer l’autocorrélation spatiale. Cette démarche
consiste en une modélisation de la ‘présence-absence’ par un modèle logistique suivi de la
modélisation de l’abondance conditionnellement à la présence définie par le modèle
logistique. Les facteurs d’habitats déterminant la distribution des espèces sont nichés au sein
de variations à plus large échelle géographique, dans des conditions climatiques adéquates
(Anderson et al. 2009). Ainsi, comme l’a suggéré Seoane et al. (2003), les variables
climatiques vont être utilisées pour prédire la ‘présence-absence’ et les variables d’habitat
pour prédire l’abondance. Pour finir, la capacité de la démarche à prédire dans une zone sous
échantillonnée est testée par validation croisée par bloc.
Matériel et Méthodes
Zone d’étude
L’étude s’est déroulée sur toute la France continentale et la Corse (c.550 000 km2).
L’échantillonnage systématique est basé sur la couverture nationale des cartes IGN (Institut
Géographique National) au 1/25 000e. Un quadrat de 5x5 km (‘carré central’) est disposé au
centre de chaque carte IGN. La superficie des carrés est un compromis entre le temps de
prospection nécessaire et la dimension des domaines vitaux de la plupart des espèces
(Thiollay & Bretagnolle 2004). Les carrés qui sont recouverts en majeure partie par la mer ou
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 21
dans un pays frontalier ont été supprimés de l’échantillonnage. Ainsi sur les 2210 carrés
théoriques, 2046 sont à échantillonner. Pour ceux dont seulement une petite partie était en mer
ou dans un pays frontalier, les carrés ont été déplacés par les observateurs. Cependant, lorsque
les nouvelles coordonnées fournies par les observateurs semblaient erronées, ces carrés ont été
par précaution supprimés des analyses. Au final, sur les 2046 carrés, 1230 sont échantillonnés
et 1187 sont conservés pour les analyses.
Les données
L’étude s’est déroulée sur trois années, de 2000 à 2002, et concerne 24 espèces de rapaces
diurnes. Sur chaque carré et pour chaque espèce, les observateurs ont noté les indices de
présence et de nidification qui détermineront selon deux catégories un nombre de couples
nicheurs possibles et de nicheurs probables/certains (Thiollay & Bretagnolle 2004). Lorsque
des carrés ont été échantillonnés plusieurs années, l’effectif maximal est retenu. Cependant, il
existe un écart important dans l’effort fourni par les observateurs, cette variable n’étant pas
renseignée pour tous les carrés (644 sur 1230 carrés). Un indice d’effort est donc utilisé,
correspondant au « nombre de couples nicheurs possibles divisé par le nombre de couple total
du carré ». Cet indice est corrélé au nombre d’heures passées sur le carré (corrélation de
Pearson = -0,13 ; p<0,001 ; (n=644)) (Fargettas 2003). Cet indice compris entre zéro et un
avec plus de valeurs aux extrêmes est transformé à l’aide de la fonction asinus
Dans cette étude, le Milan noir (Milvus migrans) une espèce localement abondante, est
utilisée pour le développement de la démarche. C’est une espèce à répartition restreinte d’un
point de vue étendue géographique car la France inclut la limite nord de son aire de
répartition. Au vu des différences de répartition qui existent entre les espèces, d’autres
espèces vont être utilisées pour tester et valider certaines étapes de la démarche. Deux autres
espèces sont donc utilisées : une espèce abondante à répartition très large, la Buse variable
(Buteo buteo) et à l’inverse, une espèce peu abondante à répartition restreinte, le Circaète
Jean-le-Blanc (Circaetus gallicus).
Les variables environnementales
Les données climatiques proviennent de la base de données WORLDCLIM
(www.worldclim.org). 19 variables sont récoltées entre 1960 et 1990 à la résolution de
0,86km2 à l’Equateur. Les données disponibles sont des tendances annuelles (moyenne de
température annuelle, précipitations annuelles), la saisonnalité (écart de température et de
précipitations annuelles) et des données plus précises (température du mois le plus chaud et le
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 22
plus froid, précipitations du mois le plus sec et plus humide, température et précipitations du
¼ le plus chaud, le plus froid, le plus sec et le plus humide de l’année). Les données de
température sont en ‘deca’-degrès celcius (°C x10) et les précipitations en mm. (Hijmans et
al. 2005) Les données d’altitude sont distribuées par l’Institut Géographique National
(www.ign.fr). C’est la base de données BD ALTI, un Modèle Numérique de Terrain (MNT)
au pas de 250m donnant les altitudes en mètre.
Les données Corine Land Cover d’occupation du sol en 2000 proviennent de la base de
données d’European Environment Agency (www.eea.europa.eu), à une résolution de 1ha.
Elles représentent 43 classes d’occupation du sol réparties en 3 niveaux de classification
(Annexe 2). Pour l’étude, elles sont regroupées en 9 variables (Annexe 2). Ce regroupement a
été opéré du point de vue fonctionnel du rapace : les habitats urbains, les zones agricoles
intensives (terres labourés) ; les zones agricoles permanentes (vergers et vignes), hétérogènes
(paysages complexes d’alternance entre terres agricoles et naturelles), extensives (prairies et
pâtures) ; les habitats forestiers fermés (Forêts diverses), ouverts et sols nus (plages,
végétations éparses, affleurements rocheux), intermédiaires (transition, landes) ; les zones en
eau et humides au sens large (lacs, océans, marais, marais salant…). Pour chaque carré
central, on extrait au final la proportion de pixels de chacun des 9 types de regroupement. Les
données de densité de population humaine proviennent de la même base de données (EEA).
Ces données de 2001, à l’étendue de l’Europe, sont à une résolution de 1ha.
Les données environnementales sont résumées pour chaque maille par la valeur moyenne des
pixels du carré. Pour l’altitude, la variance des valeurs des pixels par carré est également
extraite pour fournir un indice de la topographie du carré. Ceci est réalisé à la fois pour les
carrés centraux mais aussi sur une grille de maillage 5x5 km dessinée sur l’étendue de la
France.
Les analyses
Logiciels
La manipulation des données environnementales, leur extraction et les jointures spatiales sont
réalisées à l’aide du Système d’Information Géographique ArcGis. Ceci a nécessité deux
outils additionnels Hawthtools et Xtools. (Environmental Systems Research Institute, Inc.-
ESRI, http://www.esri.com/)
La manipulation du jeu de données et les analyses statistiques, sont réalisées sur le logiciel R
(R Development Core Team 2009). Les analyses ont nécessité des packages supplémentaires :
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 23
nlme (Pinheiro et al. 2008), MASS(Venables & Ripley 2002), mgcv (Wood 2006),
PresenceAbsence (Freeman 2007), gstat (Pebesma 2004).
L’exploration des données
L’exploration de la distribution des données d’abondance en fonction des covariables, montre
qu’il est nécessaire d’effectuer une transformation sur les données utilisées dans le modèle
d’abondance. Une transformation log est utilisée pour les variables de variance d’altitude et
pour la densité moyenne de population humaine. Une transformation logit est utilisée pour les
données de proportion pour les différents types d’occupation du sol car elle donne de
meilleurs résultats que la transformation log qui a été aussi testée. Leur distribution est
concentrée près de 0 et les unités des variables d’altitude, de densité de population, de
proportion d’occupation du sol n’ont pas les mêmes unités. Les données sont donc centrées et
réduites.
Le calcul d’un variogramme indique la présence d’autocorrélation spatiale. Le modèle de
variogramme généralement retenu est de type sphérique et présente un effet pépite. Des
variogrammes directionnels n’indiquent pas de problèmes d’anisotropie (Fig. 2).
Dans l’utilisation des méthodes de régression, la colinéarité entre les variables est un biais
important. La corrélation entre les variables est donc contrôlée par la création d’une matrice
des corrélations de Spearman. Une sélection est faite entre deux variables si celles-ci ont une
corrélation positive ou négative supérieure à rS=0,6.
Figure 2 : Semivariogramme des données d’abondance du Milan noir sur l’aire sélectionnée.
La démarche adoptée
La méthode doit tenir compte de l’autocorrélation spatiale des données ainsi que la
distribution ‘Zéro enflée’. Dans ce jeu de données décrivant la répartition d’abondance de 24
espèces de rapaces, certaines présentent des répartitions larges comme la Buse variable.
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 24
D’autres, comme le Circaète Jean-le-Blanc, présentent des répartitions plus restreintes ce qui
pose le problème de la signification des zéros. Ces espèces sont absentes de grandes zone en
France, même si l’habitat local (occupation du sol) peut être favorable. Ces absences sont
dues au fait que l’espèce est hors de son aire de répartition (elle n’est pas vue dans le carré et
la probabilité d’y être est infime). C’est une forme d’autocorrélation à large échelle.
Cependant, au sein de son aire de répartition l’espèce est inégalement abondante et est parfois
absente. Cette absence en revanche peut s’expliquer par un habitat local défavorable. Il y a
donc deux processus qui agissent à des échelles spatiales différentes, un premier à grande
échelle qui concerne la répartition biogéographique et un second à échelle plus locale qui
implique l’habitat. La démarche proposée va donc permettre de modéliser ces deux processus
en deux étapes. Elle est inspirée de celle de Welsh et al. (1996) qui est améliorée par Barry &
Welsh (2002) qui préconisent l’utilisation de modèles non linéaires (GAM). Elle est
également utilisée par Seoane et al. (2003) sur des rapaces. Les formes non linéaires de
réponses face à un gradient environnemental prédominent dans la nature (Austin 2007). Les
GAM, méthodes semi paramétriques, sont donc très utiles car très flexibles pour modéliser
des réponses complexes (Elith et al. 2006) comme des relations non linéaires et non
monotones entre la variable réponse et les variables explicatives (Guisan et al. 2002).
L’avantage de la démarche en deux étapes est qu’elle permet d’avoir deux modèles séparés,
directement interprétables et permettant de vérifier que l’information est utilisée de manière
appropriée (Barry & Welsh 2002). Dans cet article, les auteurs modélisent deux états : un état
où l’espèce est absente avec un modèle logistique et un où elle est seulement présente et varie
en abondance avec un modèle à distribution tronquée (c'est-à-dire sans la classe ‘zéro’). Dans
la démarche utilisée lors de cette étude, tous les zéros ne sont pas enlevés pour la seconde
étape car une partie d’entre eux représente une source d’information pour décrire les
processus locaux d’évitement de certains habitats.
Ainsi, le but de la première étape est de définir une aire de répartition potentielle de l’espèce à
l’aide des processus à grande échelle qui déterminent la présence ou l’absence de cette
dernière. Le modèle développé a pour but de maximiser l’explication des variations à grande
échelle, en supprimant l’autocorrélation spatiale présente à large échelle comprise dans les
variables explicatives. C’est pour cette raison qu’aucun terme d’autocorrélation n’est inclus
dans le modèle. Comme le climat est censé influencer la distribution des espèces à plus large
échelle que les variables d’habitat (Anderson et al. 2009), sont incorporées dans le modèle
logistique non linéaire (GAM), les variables climatiques de la même manière que l’ont fait
Seoane et al. (2003) sur une autre espèce de rapace en Espagne. En effet, les variables
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 25
climatiques, et en particulier la température, sont parmi les plus importants facteurs de la
distribution des espèces à large échelle. (Hirzel & Le Lay 2008)
Le modèle est ensuite utilisé pour faire des prédictions à l’échelle nationale. Un seuil de
‘vraie’ absence est déterminé et la seconde étape de la démarche n’utilise alors que les carrés
situés dans les bornes de ce seuil. Parmi ces carrés, on trouve des présences mais aussi des
absences qui sont maintenant dues à des processus locaux d’habitats évités. Dans la
littérature, il a déjà été démontré que l’abondance des rapaces entre les habitats varie et que
les rapaces ont des préférences de type d’occupation du sol (Sanchez-Zapata et al. 2003)
(Sanchez-Zapata & Calvo 1999). On utilise un modèle non linéaire d’abondance spatialisé
(GAMM) avec une distribution Binomiale Négative. Ce modèle permet donc au final de
prédire une abondance de couples nicheurs dans les carrés où l’espèce est possiblement
présente. Chacun des modèles produit est validé en inspectant la normalité des résidus à l’aide
d’un ‘QQplot’ et l’homogénéité de la variance à l’aide d’un graphe des résidus en fonction
des valeurs prédites.
La robustesse des prédictions du modèle est validée à l’aide d’une validation croisée. A l’aide
de la même méthode la capacité à prédire dans des régions sous échantillonnées est ensuite
vérifiée.
Le modèle logistique
Pour ce premier modèle s’intéressant au processus se déroulant à grande échelle et
déterminant la présence ou l’absence de l’espèce, 19 variables climatiques et 1 variable
d’altitude moyenne sont disponibles. Cependant, les variables climatiques sont très corrélées
et la présence de colinéarité dans un GAM est très nuisible (Zuur et al. 2009). Il faut donc
procéder à une sélection de variable. La corrélation entre les variables est testée à l’aide d’un
coefficient de corrélation de Spearman qui ne fait aucune hypothèse sur le caractère linéaire
d’une corrélation (Zuur et al. 2009) (Annexe 3). Une analyse multivariée aurait pu être
utilisée comme par exemple une analyse discriminante pour sélectionner les variables.
Cependant, ces méthodes ne sont pas robustes à l’ajout de nouvelles données. De plus, le but
de la démarche est de développer un modèle général et facilement répétable, définissant de
grandes zones géographiques de conditions climatiques globales différentes. C’est pour cette
raison que parmi les variables candidates, une sélection des variables climatiques principales
définissant au mieux des zones bioclimatiques générales est effectuée au regard des
corrélations. Les variables principales retenues sont donc la température annuelle moyenne
ainsi que l’écart annuel et pour les précipitations, la quantité annuelle et la saisonnalité. De
plus, les conditions estivales semblent déterminer énormément la répartition des espèces
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 26
(Lennon et al. 2000). Donc les variables de température moyenne estivale et de précipitations
estivales sont également de bons candidats. Cependant, la température moyenne estivale est
corrélée à la température moyenne (rS=0,9). Donc cette dernière n’est pas incluse dans le
modèle. En revanche, la variable de précipitations estivales est retenue car sa corrélation avec
les autres variables du modèle est acceptable (rS=0,6). Les variables finalement retenues dans
le modèle complet sont donc : l’altitude moyenne, la température annuelle moyenne, l’écart
annuel de température, les précipitations annuelles, la saisonnalité des précipitations et enfin
les précipitations estivales.
Comme le but de ce modèle est de maximiser le pouvoir explicatif (R2), pour prendre en
compte au mieux l’autocorrélation à large échelle, aucune procédure de sélection de variables
n’est faite.
Le seuil de présence
Dans la littérature, la méthode couramment utilisée pour vérifier les capacités de prédiction
des modèles logistiques est l’utilisation de ‘caractéristique de fonctionnement du récepteur’
(ROC). (Brotons et al. 2004; Anderson et al. 2009). Différents seuils de discrimination entre
les présences et les absences sont testés et celui qui maximise l’objectif de l’étude est
conservé (Suarez-Seoane et al. 2002) (Balbontin et al. 2008). Dans cette étude, le ROC est
utilisé pour calculer la sensitivité et la spécificité en fonction du seuil choisi. La sensibilité
correspond à la proportion de carrés où l’espèce est vue et prédite présente (vrai positif) et la
spécificité est la proportion de carrés où l’espèce n’est pas vue et prédite absente par le
modèle (vrai négatif). Le modèle logistique permet d’obtenir pour chaque carré, une
probabilité de présence entre 0 et 1 exclus. Un seuil défini permet alors de discriminer entre
les présences et les absences prédites. L’objectif du modèle logistique dans cette étude est de
minimiser la présence des zéros qui correspondent au processus à grande échelle. Le but est
donc de retirer de l’étude de grandes zones géographiques où l’espèce est largement absente,
hors de son aire de répartition. Cependant, dans de grandes zones où l’espèce a une faible
probabilité d’être présente, il existe quelques carrés épars où l’espèce a été observée. Le seuil
retenu est un compromis entre (1) retirer de l’étude un maximum de vrai négatifs et (2) éviter
les carrés où l’espèce est prédite absente alors qu’elle est présente (faux négatifs). La
sensibilité prédite est calculée pour tous les seuils de discrimination entre absence et présence
prédite. Un graphe est tracé, représentant la diminution de l’aire conservée (en proportion) par
ce seuil en fonction de la sensibilité et donc du nombre de carrés de présence observée
correctement prédits. La tangente à la courbe avec y = x est tracée et définit la sensibilité pour
le seuil qui est retenu (Fig. 6). On peut vérifier visuellement sur la carte représentée que la
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 27
valeur retenue ne morcelle pas l’aire de répartition de l’espèce. Pour contrôler la robustesse de
cette méthode sur différents patterns de distribution, cette méthode est également testée sur la
buse variables et le circaète jean-le-blanc.
Le modèle d’abondance
Ce modèle a pour but de modéliser les processus qui interviennent à plus fine échelle, au sein
de la zone de répartition des rapaces et agissant sur l’abondance. Cependant, les données sont
toujours sur-dispersées (Fig. 3). Le modèle prend en compte une distribution Binomiale
Négative. Une première estimation du paramètre thêta de la distribution est calculée par
itération sur un GAM non spatial et sélectionnée par AIC. Les données présentent également
de l’autocorrélation spatiale à fine échelle selon le variogramme (Fig. 2). Le modèle théorique
du variogramme correspond au type sphérique avec un effet pépite. La formule de la
corrélation dans le modèle est donc de type ~ X+Y + nugget.
Figure 3 : histogramme de distribution des valeurs d’abondance pour le Milan noir, avant la sélection (en haut) et
après la sélection faite par le seuil (en bas). Une grosse partie de zéro à été retirée
Pour le modèle, la taille des matrices de variance/covariance a été limitée par un découpage
de la France en quatre blocs. Le variogramme est estimé sur l’ensemble des données pendant
le processus d’estimation du modèle, il est donc identique pour tous les blocs. L’estimation
des paramètres dans un GAMM se fait par l’approche de ‘quasi-vraisemblance pénalisée’. La
sélection de variables retenues dans le GAMM final ne peut pas être effectuée par sélection de
modèles (AIC ou test d’ANOVA) car la vraisemblance ne peut être estimée pour ce type de
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 28
modèle (Wood 2006; Zuur et al. 2009). La sélection a donc été basée sur les p-values dans le
modèle complet. Préalablement à la procédure de sélection, un GAMM est ajusté
indépendamment pour chaque variable. Ce GAMM nous permet de voir si la relation entre la
covariable et la variable réponse est linéaire ou non. Les variables pour lesquelles le nombre
de degrés de libertés estimé par le modèle est edf=1 sont par la suite introduites comme terme
linéaire dans les modèles. La procédure de sélection utilisée est une procédure mixte
ascendante. (1) La première étape consiste à tester toutes les variables dans le modèle
complet : les 9 variables d’occupation du sol, la variance de l’altitude et la densité de
population humaine. Seules les variables significatives (p<0,05) sont conservées pour ‘le
modèle 0’. (2) Lors de la seconde étape, le ‘modèle 0 + 1 variable’ est testé en ajoutant
indépendamment toutes les variables retirées par la première étape. Si plusieurs d’entre elles
deviennent significatives, cela signifie que leurs effets étaient masqués par une variable
retirée. La variable la plus significative est alors conservée. Le ‘modèle 1’ est ainsi obtenu. (3)
Ensuite, le ‘modèle 1’ est testé indépendamment avec chaque variable précédemment retirée.
L’étape deux est ainsi répétée jusqu’à ce que les variables retirées ne soient plus significatives
indépendamment dans le modèle final.
La validation croisée
Il existe peu de méthodes dans la littérature qui permettent de valider les prédictions d’un
modèle d’abondance. Nous utiliserons donc une méthode principalement utilisée pour valider
les prédictions d’un modèle logistique, la validation croisée. Elle est basée sur l’utilisation
d’un jeu de données indépendant pour valider les prédictions du modèle en découpant le jeu
de données en deux. La première partie est utilisée pour ajuster le modèle, l’autre partie des
données sert à la prédiction et on compare la différence entre le prédit et l’observé. Dans la
littérature certains divisent leur jeu de données en 90-10% (Suarez-Seoane et al. 2002), 75-
25% (Balbontin et al. 2008) ou 70-30% (Brotons et al. 2004). Ici nous désirons tester la
robustesse du modèle à prédire et nous cherchons également à tester sa capacité à prédire dans
des zones sous échantillonnées. Pour ce faire, deux processus de sélection de points sont
utilisés pour la validation croisée, un premier processus spatial aléatoire et un second par bloc
spatialement homogène. La zone d’étude est découpée en cinq zones contenant
approximativement le même nombre de points. Quatre blocs sont utilisés pour ajuster le
modèle et on vérifie les prédictions à l’aide du cinquième, ce qui représente
approximativement 20% du total des données. C’est pour cette raison que pour le processus
aléatoire un découpage 80-20% à été choisi. Ainsi, 5 processus aléatoires et 5 processus par
bloc sont simulés. Une fois le modèle ajusté et les paramètres calculés, on effectue une
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 29
prédiction sur les carrés restants. La probabilité de tomber exactement sur la valeur observée
est évidement faible et, dans le cas d’une distribution Binomiale négative qui a une grande
variance, cette probabilité n’a plus de signification. Ainsi, 10 000 processus de points sont
générés aléatoirement suivant une loi Binomiale Négative dont les paramètres sont : les
valeurs prédites et les paramètres du modèle estimés. On compare alors les observations avec
ce processus de point généré par le modèle en générant une enveloppe de confiance à 95 %
(0;025 <> 0,975) selon les 10 000 processus de points.
Résultats
Les probabilités de présence
Les probabilités de présence sont obtenues à l’aide d’un GAM logistique utilisant les
variables climatiques et l’altitude moyenne. Ces variables introduites en terme non
paramétriques sont toutes significative (p<0,02). La majorité des termes sont retenus non
linéaires sauf la saisonnalité de la précipitation (nombre de degrés de liberté estimé : edf=1,2)
et l’altitude moyenne (edf=1,0). Ce modèle explique 34,8% de la déviance (R2=0,41) (Fig. 4).
Figure 4 : les courbes lissées représentent les prédictions du modèle et leurs erreurs standards pour chaque terme du GAM logistique. Les petits repères au dessus de l’axe des abscisses renseignent sur la distribution des points.
Les (*) signalent les termes significatifs dans le modèle
D'après le modèle GAM, la présence de couple de Milan suit linéairement la saisonnalité des
précipitations, tandis que l’altitude moyenne a un effet linéaire négatif. Il montre également
deux relations quadratiques entre la présence et les précipitations annuelles (edf=2,8) et les
précipitations estivales (edf=2,1).
* *
* *
*
*
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 30
Ce modèle logistique estimé sur les carrés centraux permet de prédire sur la grille nationale la
répartition de la probabilité de présence des Milan noirs en fonction des variables climatiques
et d’altitude moyennes. (Fig. 5).
Figure 5 : Carte des probabilités de présence du Milan noir en France
données par le modèle logistique (blanc p=0,00 ; rouge p=9,99)
Le seuil de discrimination entre présence et absence
Pour déterminer le seuil de sélection des carrés définissant l’aire de répartition de l’espèce, la
diminution de la superficie conservée est étudiée en fonction du nombre de carrés dans
lesquels l’espèce est observée mais prédite absente (correspond à la diminution de la
sensibilité). Cette méthode est testée sur trois espèces présentant des patterns différents de
répartition (Fig. 6).
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 31
Figure 6 : Détermination du seuil de discrimination entre présence et absence pour le Milan noir, la Buse
variable, et le Circaète Jean-le-Blanc. (————) Courbe de diminution de l’aire en fonction de la diminution de la
spécificité. (- - -) Tangente dont la dérivée est 1, donnant le point d’inflexion. (┈) Sensibilité correspondant au point d’inflexion.
Pour les espèces à répartition restreinte (Milan, Circaète), il semble que la courbe produite
soit la conjugaison de deux relations. Elles sont séparées par un changement de relation qui se
manifeste par un ralentissement de la diminution de la vitesse de réduction de l’aire
géographique en fonction du nombre de faux négatifs qui augmente (c'est-à-dire de sensibilité
qui diminue). Pour les valeurs de sensibilité faible, la relation est presque linéaire. Un nombre
donné de zéros retirés détermine une proportion constante de superficie concernée. Pour de
fortes sensibilités, cette relation n’est plus linéaire. Une perte faible de sensibilité concerne
une plus grande superficie. Entre ces deux processus se trouve un point d’inflexion. Le point
d’inflexion se situe au changement de processus générant ces deux parties dans la courbe. Le
point pour lequel l’équation de la tangente est (y=-x+b) permet d’obtenir un seuil qui sépare
les deux processus et qui définit les carrés où l’espèce est prédite strictement absente ou bien
potentiellement présente. Ainsi, considérer que quelques carrés où l’espèce est présente mais
prédite absente permet d’enlever de grandes zone d’absence sans pour autant morceler l’aire
de répartition de l’espèce. Pour le Milan noir, il est possible de considérer pour la
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 32
modélisation de l’abondance seulement 70% de la zone d’étude. Pour le circaète, on remarque
que le point d’inflexion permet de retirer une aire géographique supérieure, jusqu’à plus de
50% de la France. En revanche pour la Buse variable, espèce à répartition continue sur le
territoire, la courbe est presque linéaire, il n’y a pas de point clair d’inflexion. On peut donc
penser qu’un seul processus intervient sans changement dans la distribution.
Le modèle d’abondance
Le seuil déterminé à l’aide du modèle logistique permet de faire la sélection des carrés
centraux qui se trouvent dans l’aire de répartition et qui doivent être considérés pour le second
processus local qui agit sur l’abondance.
Le GAM d’estimation du paramètre Thêta de la Binomiale Négative calcule un paramètre de
1,001. Ce paramètre est ensuite utilisé dans les modèles additifs mixtes de distribution
Binomiale Négative (GAMM). Le choix d’utiliser des modèles spatiaux est fait car les
données présentent de l’autocorrélation spatiale. Ce choix est appuyé par le fait que les
variations complexes entre l’abondance et l’environnement dans des modèles non spatiaux se
simplifient dans les modèles spatiaux (Tab. 1). Le modèle final estime le ‘range’ à 61km ce
qui donne la distance jusqu’à laquelle l’autocorrélation à un effet.
Le modèle final retient 5 variables (Tab. 1) auxquelles l’indice d’effort est ajouté de manière
linéaire. Un terme non linéaire est retenu, la proportion de zones aquatiques dans le carré.
(R2=0,0594) (Tab. 1).
Tableau 1 : Les degrés de libertés des variables d’occupation du sol obtenus à l’aide d’un modèle Aspatial (GAM) et un modèle spatial (GAMM). Suite à la sélection, les pentes estimée et leur erreur standard pour les variables linéaire retenues (L) sont données, pour la variable non linéaire (nL), c’est le nombre de degrés de liberté de la relation. (n)= variables non retenues codes Significativité : ‘***’ p<0,001 ;‘**’ p<0,01 ; ‘*’ p<0,05 Variables Model
Aspatial Model Spatial
M. Final
Var. Altitude 4,1 1,0 n Densité Pop 7,2 1,0 n Z. Bâti 8,8 1,0 L pente=0,27+/-0,06*** Agri Intensive 5,2 1,0 L pente=0,16+/-0,07* Agri Permanente 7,5 1,0 n Agri. Extensive 5,7 1,0 L pente=0,22+/-0,06** Agri. Hétérogène 8,6 1,0 L pente=0,21+/-0,07** Z. Forestières 5,8 2,8 n Z. Intermédiaires 2,9 1,0 n Z. Ouvertes 3,9 1,0 n Z. Humides 5,8 2,1 nL edf=1,7*** (Fig. 7) Indice Effort L pente=0,29+/-0,11**
Figure 7: graphe de la courbe lissée représentent la prédiction et l’erreur
standard de l’estimation du terme non linéaire ‘Z. Humides’ du GAMM.
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 33
Les zones aquatiques ont un effet prononcé dans le modèle, ce qui est visible sur la
cartographie des prédictions de distribution d’abondance. Les zones humides ressortent donc
très bien. (Fig. 8)
Figure 8 : Cartographie des abondances prédites pour 25km2 par le GAMM.
Attention, les variations de couleurs utilisées sont exacerbées par les valeurs extrêmes prédites.
L’évaluation des prédictions
La comparaison des valeurs prédites par le modèle final et des données observées est utilisée
pour évaluer la robustesse des prédictions, d'après une sélection aléatoire des points retirés
(Fig. 9 et Annexe 1). La comparaison par bloc est utilisée pour évaluer la capacité du modèle
à prédire dans les zones sous-échantillonnées (Fig. 9 et Annexe 1). Cette méthode de
validation permet d’avoir une idée de la probabilité d’observer les données si le modèle ajusté
est vrai.
En moyenne sur les 5 simulations du processus aléatoire 10,4 points sont en dehors de
l’enveloppe de confiance à 95% (1,4% ; n=765) contre 9,6 pour les 5 simulations du
processus par bloc (1,2% n=765). Pour tester si ces moyennes sont significativement
différentes, un test de Student, de comparaison de moyenne, est réalisé après avoir vérifié la
normalité par un test de Shapiro (p(aléatoire)=0,25 n=5 ; p(par bloc)=0,82 n=5). Les résultats du test
indiquent que le nombre de données observées en dehors de l’enveloppe de simulation à 95%
ne sont pas différentes entre les deux processus (t=0,3 ; p=0,78). La qualité des estimations est
donc similaire pour les deux processus de sélection de point (aléatoire et bloc) selon la
validation croisée.
L’estimation moyenne du modèle est proche de la droite y=x de prédiction parfaite. Le
modèle fournit donc des prédictions proches de ce qui est observé. L’estimation moyenne est
300
30
3
0
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 34
parallèle à cette droite mais le modèle a tendance à toujours sous estimer de façon constante le
nombre de couples présents. Donc la moyenne des effectifs observés est toujours légèrement
supérieure à celle prédite. Les observations sont très dispersées autour la droite y=x avec
majoritairement des valeurs faibles et quelques observations avec beaucoup de couples. Les
points sont pour l’essentiel présents au sein de l’enveloppe de prédiction à 95%. Les données
observées sont donc dans l’ensemble bien prédites par le modèle. Il est normal d’observer
cette sur-dispersion car les données suivent à peu près une Binomiale négative. C’est aussi la
raison pour laquelle la variance des prédictions augmente avec les grandes valeurs
d’abondances. Il y a un certain nombre de carrés où aucun Milan n’a été observé et dans
lesquels le modèle prédit un effectif non nul. Cette situation est très variable en fonction des
simulations mais le modèle dans l’ensemble a des difficultés à discriminer les valeurs faibles.
a) b) Figure 9 : figure présentant les résultats d’une réalisation de validation croisée suivant deux processus spatiaux :
(a) un processus aléatoire et (b) un processus par blocs. Les autres réalisations sont disponible en Annexe 1
Discussion
Le but de la démarche est de pouvoir utiliser les données de suivis issus des enquêtes à grande
échelle pour modéliser l’abondance d’une espèce. Pour ce faire, les données ont été
modélisées en deux étapes. La première étape consiste en un modèle logistique prédisant à
l’aide de variables climatiques les probabilités de présence de l’espèce. A l’aide d’un seuil de
discrimination entre les présences et les absences prédites, l’aire de répartition de l’espèce a
été définie. Dans un second temps, l’abondance a été modélisée à l’aide de variables
d’occupation du sol sur les zones de présence prédites par le modèle logistique.
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 35
Le modèle logistique des présences/absences
Les prédictions des probabilités de présence données par le modèle permettent de discriminer
des grandes zones d’absence à l’aide de variables climatiques qui déterminent la répartition
des espèces à grandes échelles (Anderson et al. 2009; Hirzel & Le Lay 2008) par des effets
sur la physiologie, la phénologie de la reproduction ou par un effet indirect en agissant sur
l’abondance des proies (Lennon et al. 2000). Cette méthode présente l’avantage de pouvoir
explorer quels facteurs limitent la répartition globale. Il semble donc que les variables
climatiques peuvent être des prédicteurs fiables de la répartition à grande échelle (Anderson et
al. 2009). Ces outils de prédiction sont de plus, facilement disponibles. Il existe une grande
quantité de données climatiques disponibles, à des échelles mondiales comme locales.
Cependant, à l’échelle locale, il semble que ce ne soit pas les plus déterminantes sur la
répartition des oiseaux (Lopez-Lopez et al. 2006).
Détermination du seuil
Les patrons de distribution pour les espèces à répartition restreinte présentent donc de grandes
zones d’absences où la probabilité de présence prédite par le modèle logistique est très faible.
Mais, au sein de ces grandes zones, il y a quelques carrés épars où l’espèce est notée
observée. Ces points en marges ou très isolés peuvent être des individus observés en
migration, des juvéniles qui sont plus mobiles (Hirzel et al. 2004), des individus non nicheurs
ou des nicheurs exceptionnels. Il peut être alors acceptable de ne pas les considérer, les
principales informations sur la sélection d'habitat étant contenues dans l'aire principale de
l'espèce.
Les études utilisant la démarche en deux étapes ne considèrent, pour la deuxième étape, que
les points où l’espèce a été observée (Welsh et al. 1996; Barry & Welsh 2002). Mais les
processus qui déterminent l’abondance déterminent aussi les absences locales. Ceci est
appuyé par les études à fine échelle qui comparent les méthodes de ‘présences strictes’ avec
des méthodes de ‘présences absences’ concluant que les prédictions à l’aide des données de
présences absences était plus précises grâce à l’information amenée par les absences (Brotons
et al. 2004). Donc pour la deuxième étape de modélisation de distribution de l’abondance à
échelle locale, il est important de considérer les absences qui sont situées au sein de l’aire de
répartition, en conservant un maximum de points de présence mais en éliminant les zones de
probabilité de présence faible prédite par le modèle. Il fallait donc choisir un seuil de
détermination de présence/absence et de caractérisation de l’aire de répartition qui prenne ceci
en considération. Parmi les articles scientifiques travaillant sur la prédiction de la répartition
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 36
spatiale d’une espèce avec l’aide de modèle logistique, beaucoup utilisent la méthode ROC
pour calculer, à différents seuils de discrimination, les capacités du modèle à discriminer les
présences et les absences. La majorité de ces études n’intègrent pas dans leurs critères de
choix de seuil une vision spatiale de la répartition. Certains maximisent le pourcentage de
présence et d’absence correctement prédits (Suarez-Seoane et al. 2002) ou bien le point qui
permette de prédire de manière égale les présences et les absences (Balbontin et al. 2008). Ces
méthodes estiment donc que les faux négatifs et les faux positifs ont des conséquences
identiques sur les prédictions. Or il y a un coût supplémentaire à retirer des présences par
rapport à conserver des absences car, dans l’aire de répartition, ces absences peuvent
correspondre à des zones non occupées avec un habitat non saturé ou non approprié. La
méthode utilisée dans cette étude prend en considération ce biais et ne s’intéresse qu’aux taux
de faux positifs qui sont plus coûteux en termes de prédiction. Ici, le choix du seuil a pris en
compte les caractéristiques spatiales de l’aire de répartition. En optimisant l’aire soustraite et
en maximisant la sensibilité, le seuil choisi a permis de retirer de grandes zones d’absences et
quelques carrés de présence isolés ou très en marge de l’aire de répartition mais sans pour
autant morceler cette dernière.
Les courbes de détermination des seuils permettent de plus de montrer chez les espèces à
répartition restreinte l’existence de deux processus déterminant la distribution, celui à grande
échelle, en retirant quelques observations en marge de l'aire principale de répartition, diminue
fortement l’aire de répartition totale. Une fois le seuil atteint, une courbe presque linéaire est
observée et correspond à une distribution quasiment uniforme, de type espèce à répartition
large comme la Buse. On peut alors considérer que ce sont les processus locaux qui agissent
sur l’abondance.
Le modèle d'abondance
Le modèle d’abondance a des performances relativement faibles pour expliquer les variations
dans l’abondance. Dans la littérature, il est rapporté que les modèles d’abondance ont des
pouvoirs explicatifs plus faibles que les modèles de présence/absence et ce quelles que soient
les méthodes utilisées (Pearce & Ferrier 2001; Nielsen et al. 2005). Ces "mauvaises"
performances sont expliquées par l’absence parmi les variables explicatives des facteurs
jouant sur l’abondance comme l’histoire du site, les interactions avec d’autres espèces…
(Nielsen et al. 2005). Dans cette étude cela peut s’expliquer par une grande variation dans la
pression d’observation qui, n’étant pas renseignée pour tous les carrés, est caractérisée par un
indice approximatif. De plus, lors du processus de modélisation, l’hypothèse est faite que
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 37
l’habitat est saturé. Or, si ce n’est pas le cas, cela ajoute du bruit car beaucoup d’habitats
propices sans oiseaux vont rendre plus difficile la détermination des habitats propices. C’est
une des explications avancée au fait que le modèle prédit des effectifs assez importants pour
beaucoup de carrés où l’espèce est absente. Une autre source d'imprécision tient au fait que
les habitats sont catégorisés grossièrement sans prendre en compte l'aspect fonctionneel
comme la qualité, l’abondance de proies… Il faudrait identifier tous les facteurs importants
pour chaque espèce et les inclure dans le modèle prédictif, mais cela est irréaliste car certains
facteurs sont difficilement accessibles et certains inconnus.
La cartographie des abondances prédites montre des effectifs prédits dépassant les 300
couples par carrés de 25km2 ce qui n’est pas réaliste. Cela peut s’expliquer par des carrés
réunissant en forte proportion deux habitats très favorables et pour lesquels le modèle n’avait
pas de données pour s’ajuster sur une telle association. Il prédit alors des valeurs aberrantes. Il
se peut aussi que ce soit une association d’habitat inconnu pour le modèle et sa prédiction est
alors hasardeuse.
Intérêts et limites de la méthode employée
Les données collectées lors d’enquêtes à grandes échelles présentent différents problèmes à
résoudre. Pour résoudre le problème d’un échantillonnage spatialement hétérogène, avec de
grandes zones sous-échantillonnées, des variables externes ont été utilisées pour affiner les
prédictions dans ces zones. Avec les méthodes classiques s’appuyant seulement sur
l’autocorrélation spatiale, comme le krigeage ordinaire, les prédictions faites hors de portée de
l’autocorrélation ne sont pas pertinentes. Avec la méthode utilisée ici, le modèle est robuste à
la prédiction dans ces zones sous-échantillonnée.
L’autocorrélation des données intervient au sein de processus à échelles différentes. La
démarche employée reprend successivement ces processus, avec un processus définissant de
grande zone de présence et de grandes zones d’absence, et à plus fine échelle, un processus
définissant les variations d’abondance au sein des grandes zones de présences. Ces deux
processus sont conditionnés par des variables de l’environnement différentes (Barry & Welsh
2002). Dans la première étape, la présence absence est modélisée à l’aide de variables
climatiques qui déterminent la répartition des espèces à grande échelle (Anderson et al. 2009;
Hirzel & Le Lay 2008). C’est ce processus qui est en partie responsable de l’importante
proportion de zéro dans le jeu de données. Un des objectifs de l’étude était de prendre en
compte cette distribution ‘Zéro enflée’, qui est un biais important en statistique si elle n’est
pas considérée. De plus en plus d’études y prêtent attention mais seulement de manière
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 38
statistique et non spatiale (Gschlossl & Czado 2008; Welsh et al. 1996; Barry & Welsh 2002).
Dans la présente étude, ce problème voulait être abordé tout en considérant l’hétérogénéité de
distribution présente dans les études de distribution de beaucoup d’espèces à grande échelle.
Ici, les grandes zones d’absence ont été ‘capturées’ par le modèle logistique ce qui a permis
de modéliser l’abondance seulement au sein de l’aire de répartition. L’autocorrélation spatiale
des variables externes utilisées parvient à neutraliser l’autocorrélation des données de
présences absences à grande échelle, satisfaisant l'hypothèse de stationnarité. Cette étape
permet de retirer les grandes zones d’absence par une méthode qui optimise la diminution de
l’aire géographique retirée et minimise la diminution de sensibilité. Pour améliorer cette
méthode, il serait intéressant de trouver un moyen de déterminer le seuil de discrimination de
‘présence-absence’ prédite de manière plus statistique. Il existe des méthodes développées en
médecine qui permettent de définir ce seuil en attribuant un coût différentiel aux ‘faux
négatifs’ et aux ‘faux positifs’. Mais l’évaluation de ce coût n’est pas simple, il faudrait
prendre en compte la probabilité de détection, la probabilité d’erreur d’identification ou de
caractérisation du statut de nicheur certain.
Dans un second temps, l’abondance est modélisée en fonction des variables locales
d’occupation du sol. Cette méthode voulait également considérer de manière explicite le
caractère spatial des données. Dans ce modèle, il a été nécessaire d’ajouter un terme
d’autocorrélation spatiale, qui a neutralisé une partie de la variabilité et des patterns observés.
Avant l’introduction du terme d’autocorrélation, les relations abondance-environnement
étaient très complexes avec des polynômes de degrés 6 qui sont devenues des relations
linéaires une fois le terme ajouté dans modèle.
Globalement, les prédictions du modèle correspondent aux données observées mais, la
variance dans les valeurs prédites est très importante, en particulier pour les fortes valeurs.
Cela tient à la distribution Binomiale Négative. Ainsi, même si en moyenne le modèle prédit
correctement les observations, la distribution Binomiale Négative n’est pas la distribution la
plus adaptée pour faire des prédictions précises de l’abondance dans une fourchette étroite du
fait d'une forte variance. Il ne semble pas y avoir de différences entre les valeurs prédites et
observées suivant les processus de validation croisée aléatoire ou par bloc. La méthode s’est
montrée robuste à la prédiction dans des zones sous-échantillonnées.
Cette méthode présente donc l’avantage de pouvoir prendre en compte l’autocorrélation
spatiale en plus des données ‘zéro enflées’ sans nécessiter trop de capacité de calcul ou de
développement contrairement aux méthodes ‘Zéro-Enflées’ qui doivent s’appuyer sur des
méthodes bayésiennes pour intégrer conjointement ces deux problèmes.
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 39
Conclusion
L’utilisation cette méthode semble limitée dans la production d’estimation précise de la
répartition d’abondance à grande échelle de par la grande variance de ses prédictions même si
en moyenne, ces dernières sont correctes.
Le modèle logistique en revanche est plus puissant que le modèle d’abondance. Si on émet
l’hypothèse que les changements globaux affectent la répartition des espèces, le modèle
logistique utilisant un GAM peut s’avérer un très bon outil pour étudier ces changements. En
effet dans ce contexte, les changements climatiques entraîneraient des changements dans les
aires de répartition. En contrôlant les courbes de réponse de l’espèce aux variables
climatiques estimées par le modèle, il est possible de voir si ces relations espèces – climat ont
changé. De plus, ce modèle est répétable dans le temps et réutilisable pour constater les
déplacements d’aire de répartition dus aux climats. En revanche, si les changements globaux
impactent l’abondance des espèces mais que cette diminution de densité ne se perçoit pas sur
la distribution, alors cette méthode est trop imprécise pour pouvoir constater des évolutions.
Cette étude a pointé les problèmes sous-jacents aux études de distribution d’abondance
spatiale qui sont rarement tous pris en considérations de manière exhaustive. Il est donc
nécessaire de poursuivre le développement de méthodes permettant de produire des
estimations précises. Mais à plus court terme, il serait intéressant de comparer sur le même
jeu de donnée, les résultats obtenus avec différentes méthodes et en particulier avec les
modèles ‘Zéro enflés’ Bayésiens.
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 40
Références
Anderson,B.J., Arroyo,B.E., Collingham,Y.C., Etheridge,B., Fernandez-De-Simon,J., Gillings,S., Gregory,R.D., Leckie,F.M., Sim,I.M.W., Thomas,C.D., Travis,J. & Redpath,S.M. (2009) Using distribution models to test alternative hypotheses about a species' environmental limits and recovery prospects. Biological Conservation, 142, 488-499.
Austin,G.E., Thomas,C.J., Houston,D.C. & Thompson,D.B.A. (1996) Predicting the spatial distribution of buzzard Buteo buteo nesting areas using a geographical information system and remote sensing. Journal of Applied Ecology, 33, 1541-1550.
Austin,M. (2007) Species distribution models and ecological theory: A critical assessment and some possible new approaches. Ecological Modelling, 200, 1-19.
Austin,M.P. (2002) Spatial prediction of species distribution: an interface between ecological theory and statistical modelling. Ecological Modelling, 157, 101-118.
Bahn,V., O'Connor,R.J. & Krohn,W.B. (2006) Importance of spatial autocorrelation in modeling bird distributions at a continental scale. Ecography, 29, 835-844.
Balbontin,J. (2005) Identifying suitable habitat for dispersal in Bonelli's eagle: An important issue in halting its decline in Europe. Biological Conservation, 126, 74-83.
Balbontin,J., Negro,J.J., Sarasola,J.H., Ferrero,J.J. & Rivera,D. (2008) Land-use changes may explain the recent range expansion of the Black-shouldered Kite Elanus caeruleus in southern Europe. Ibis, 150, 707-716.
Barbosa,A.M., Real,R. & Vargas,J.M. (2009) Transferability of environmental favourability models in geographic space: The case of the Iberian desman (Galemys pyrenaicus) in Portugal and Spain. Ecological Modelling, 220, 747-754.
Barry,S.C. & Welsh,A.H. (2002) Generalized additive modelling and zero inflated count data. Ecological Modelling, 157, 179-188.
Brotons,L., Thuiller,W., Araujo,M.B. & Hirzel,A.H. (2004) Presence-absence versus presence-only modelling methods for predicting bird habitat suitability. Ecography, 27, 437-448.
Bustamante,J. (1997) Predictive models for lesser kestrel Falco naumanni distribution, abundance and extinction in southern Spain. Biological Conservation, 80, 153-160.
Bustamante,J. & Seoane,J. (2004) Predicting the distribution of four species of raptors (Aves : Accipitridae) in southern Spain: statistical models work better than existing maps. Journal of Biogeography, 31, 295-306.
Carl,G. & Kuhn,I. (2008) Analyzing spatial ecological data using linear regression and wavelet analysis. Stochastic Environmental Research and Risk Assessment, 22, 315-324.
Dale,M.R.T., Dixon,P., Fortin,M.J., Legendre,P., Myers,D.E. & Rosenberg,M.S. (2002) Conceptual and mathematical relationships among methods for spatial analysis. Ecography, 25, 558-577.
Dormann,C.F. (2007) Effects of incorporating spatial autocorrelation into the analysis of species distribution data. Global Ecology and Biogeography, 16, 129-138.
Dormann,C.F., McPherson,J.M., Araujo,M.B., Bivand,R., Bolliger,J., Carl,G., Davies,R.G., Hirzel,A., Jetz,W., Kissling,W.D., Kuhn,I., Ohlemuller,R., Peres-Neto,P.R., Reineking,B., Schroder,B., Schurr,F.M. & Wilson,R. (2007) Methods to account for spatial autocorrelation in the analysis of species distributional data: a review. Ecography, 30, 609-628.
Dungan,J.L., Perry,J.N., Dale,M.R.T., Legendre,P., Citron-Pousty,S., Fortin,M.J., Jakomulska,A., Miriti,M. & Rosenberg,M.S. (2002) A balanced view of scale in spatial statistical analysis. Ecography, 25, 626-640.
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 41
Elith,J., Graham,C.H., Anderson,R.P., Dudik,M., Ferrier,S., Guisan,A., Hijmans,R.J., Huettmann,F., Leathwick,J.R., Lehmann,A., Li,J., Lohmann,L.G., Loiselle,B.A., Manion,G., Moritz,C., Nakamura,M., Nakazawa,Y., Overton,J.M., Peterson,A.T., Phillips,S.J., Richardson,K., Scachetti-Pereira,R., Schapire,R.E., Soberon,J., Williams,S., Wisz,M.S. & Zimmermann,N.E. (2006) Novel methods improve prediction of species' distributions from occurrence data. Ecography, 29, 129-151.
Engler,R., Guisan,A. & Rechsteiner,L. (2004) An improved approach for predicting the distribution of rare and endangered species from occurrence and pseudo-absence data. Journal of Applied Ecology, 41, 263-274.
Fargettas,A. (2003) Rapport DEA, Université Lyon 1 : Analyse et modélisation de la distribution et de l'abondance d'une communauté de prédateurs.
Ferrier,S. & Guisan,A. (2006) Spatial modelling of biodiversity at the community level. Journal of Applied Ecology, 43, 393-404.
Freeman,E. (2007) PresenceAbsence: An R Package for Presence-Absence Model Evaluation. USDA Forest Service, Rocky Mountain Research Station.
Graham,C.H., Elith,J., Hijmans,R.J., Guisan,A., Peterson,A.T. & Loiselle,B.A. (2008) The influence of spatial errors in species occurrence data used in distribution models. Journal of Applied Ecology, 45, 239-247.
Gschlossl,S. & Czado,C. (2008) Modelling count data with overdispersion and spatial effects. Statistical Papers, 49, 531-552.
Guisan,A., Edwards,T.C. & Hastie,T. (2002) Generalized linear and generalized additive models in studies of species distributions: setting the scene. Ecological Modelling, 157, 89-100.
Guisan,A., Lehmann,A., Ferrier,S., Austin,M., Overton,J.M.C., Aspinall,R. & Hastie,T. (2006) Making better biogeographical predictions of species' distributions. Journal of Applied Ecology, 43, 386-392.
Guisan,A. & Thuiller,W. (2005) Predicting species distribution: offering more than simple habitat models. Ecology Letters, 8, 993-1009.
Guisan,A., Weiss,S.B. & Weiss,A.D. (1999) GLM versus CCA spatial modeling of plant species distribution. Plant Ecology, 143, 107-122.
Guisan,A. & Zimmermann,N.E. (2000) Predictive habitat distribution models in ecology. Ecological Modelling, 135, 147-186.
Hijmans,R.J., Cameron,S.E., Parra,J.L., Jones,P.G. & Jarvis,A. (2005) Very high resolution interpolated climate surfaces for global land areas. International Journal of Climatology, 25, 1965-1978.
Hirzel,A.H., Hausser,J., Chessel,D. & Perrin,N. (2002) Ecological-niche factor analysis: How to compute habitat-suitability maps without absence data? Ecology, 83, 2027-2036.
Hirzel,A.H., Helfer,V. & Metral,F. (2001) Assessing habitat-suitability models with a virtual species. Ecological Modelling, 145, 111-121.
Hirzel,A.H. & Le Lay,G. (2008) Habitat suitability modelling and niche theory. Journal of Applied Ecology, 45, 1372-1381.
Hirzel,A.H., Le Lay,G., Helfer,V., Randin,C. & Guisan,A. (2006) Evaluating the ability of habitat suitability models to predict species presences. Ecological Modelling, 199, 142-152.
Hirzel,A.H., Posse,B., Oggier,P.A., Crettenand,Y., Glenz,C. & Arlettaz,R. (2004) Ecological requirements of reintroduced species and the implications for release policy: the case of the bearded vulture. Journal of Applied Ecology, 41, 1103-1116.
Jaberg,C. & Guisan,A. (2001) Modelling the distribution of bats in relation to landscape structure in a temperate mountain environment. Journal of Applied Ecology, 38, 1169-1181.
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 42
Keitt,T.H., Bjornstad,O.N., Dixon,P.M. & Citron-Pousty,S. (2002) Accounting for spatial pattern when modeling organism-environment interactions. Ecography, 25, 616-625.
Kuhn,I. (2007) Incorporating spatial autocorrelation may invert observed patterns. Diversity and Distributions, 13, 66-69.
Leathwick,J.R., Whitehead,D. & McLeod,M. (1996) Predicting changes in the composition of New Zealand's indigenous forests in response to global warming: A modelling approach. Environmental Software, 11, 81-90.
Legendre,P., Dale,M.R.T., Fortin,M.J., Gurevitch,J., Hohn,M. & Myers,D. (2002) The consequences of spatial structure for the design and analysis of ecological field surveys. Ecography, 25, 601-615.
Lennon,J.J., Greenwood,J.J.D. & Turner,J.R.G. (2000) Bird diversity and environmental gradients in Britain: a test of the species-energy hypothesis. Journal of Animal Ecology, 69, 581-598.
Liebhold,A.M. & Gurevitch,J. (2002) Integrating the statistical analysis of spatial data in ecology. Ecography, 25, 553-557.
Lopez-Lopez,P., Garcia-Ripolles,C., Aguilar,J.M., Garcia-Lopez,F. & Verdejo,J. (2006) Modelling breeding habitat preferences of Bonelli's eagle (Hieraaetus fasciatus) in relation to topography, disturbance, climate and land use at different spatial scales. Journal of Ornithology 147, 97-106.
Maggini,R., Lehmann,A., Zimmermann,N.E. & Guisan,A. (2006) Improving generalized regression analysis for the spatial prediction of forest communities. Journal of Biogeography, 33, 1729-1749.
Manel,S., Dias,J.M., Buckton,S.T. & Ormerod,S.J. (1999) Alternative methods for predicting species distribution: an illustration with Himalayan river birds. Journal of Applied Ecology, 36, 734-747.
Maxwell,D.L., Stelzenmüller,V., Eastwood,P.D. & Rogers,S.I. (2008) Modelling the spatial distribution of plaice (Pleuronectes platessa), sole (Solea solea) and thornback ray (Raja clavata) in UK waters for marine management and planning. Journal of Sea Research.
Miller,J., Franklin,J. & Aspinall,R. (2007) Incorporating spatial dependence in predictive vegetation models. Ecological Modelling, 202, 225-242.
Nielsen,S.E., Johnson,C.J., Heard,D.C. & Boyce,M.S. (2005) Can models of presence-absence be used to scale abundance? - Two case studies considering extremes in life history. Ecography, 28, 197-208.
Osborne,P.E., Alonso,J.C. & Bryant,R.G. (2001) Modelling landscape-scale habitat use using GIS and remote sensing: a case study with great bustards. Journal of Applied Ecology, 38, 458-471.
Palomino,D. & Carrascal,L.M. (2007) Habitat associations of a raptor community in a mosaic landscape of Central Spain under urban development. Landscape and Urban Planning, 83, 268-274.
Pearce,J. & Ferrier,S. (2001) The practical value of modelling relative abundance of species for regional conservation planning: a case study. Biological Conservation, 98, 33-43.
Pebesma,E.J. (2004) Multivariable geostatistics in S: the gstat package. Computers & Geosciences 30, 683-691..
Perry,J.N., Liebhold,A.M., Rosenberg,M.S., Dungan,J., Miriti,M., Jakomulska,A. & Citron-Pousty,S. (2002) Illustrations and guidelines for selecting statistical methods for quantifying spatial pattern in ecological data. Ecography, 25, 578-600.
Pinheiro,J., Bates,D., DebRoy,S., Sarkar,D. & the R Core team. (2008) nlme: Linear and Nonlinear Mixed Effects Models. R package version 3.1-90.
R Development Core Team. (2009) R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. http://www.R-project.org.
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 43
Randin,C.F., Dirnbock,T., Dullinger,S., Zimmermann,N.E., Zappa,M. & Guisan,A. (2006) Are niche-based species distribution models transferable in space? Journal of Biogeography, 33, 1689-1703.
Sanchez-Zapata,J.A. & Calvo,J.F. (1999) Raptor distribution in relation to landscape composition in semi-arid Mediterranean habitats. Journal of Applied Ecology, 36, 254-262.
Sanchez-Zapata,J.A., Carrete,M., Gravilov,A., Sklyarenko,S., Ceballos,O., Donazar,J.A. & Hiraldo,F. (2003) Land use changes and raptor conservation in steppe habitats of Eastern Kazakhstan. Biological Conservation, 111, 71-77.
Schabenberge,O. & Gotway,C.A. (2005) Statistical Methods for Spatial Data Analysis. Taylor & Francis Group
Scott,J.M., Heglund,P.J., Morrison,M.L., Haufler,J.B., Raphael,M.G., Wall,W.A. & Samson,F.B. (2002) Predicting Species Occurences : Issues of Accuracy and Scale. Island Press.
Segurado,P. & Araujo,M.B. (2004) An evaluation of methods for modelling species distributions. Journal of Biogeography, 31, 1555-1568.
Seoane,J., Vinuela,J., Diaz-Delgado,R. & Bustamante,J. (2003) The effects of land use and climate on red kite distribution in the Iberian peninsula. Biological Conservation, 111, 401-414.
Suarez-Seoane,S., Osborne,P.E. & Alonso,J.C. (2002) Large-scale habitat selection by agricultural steppe birds in Spain: identifying species-habitat responses using generalized additive models. Journal of Applied Ecology, 39, 755-771.
Thiollay,J.M. & Bretagnolle,V. (2004) Rapaces Nicheurs de France. Delachaux et Niestlé.
Venables,W.N. & Ripley,B.D. (2002) Modern Applied Statistics with S. Fourth Edition ; Springer, New York.
Welsh,A.H., Cunningham,R.B., Donnelly,C.F. & Lindenmayer,D.B. (1996) Modelling the abundance of rare species: Statistical models for counts with extra zeros. Ecological Modelling, 88, 297-308.
Wood,S.N. (2006) Generalized Additive Models: An Introduction with R. Chapman and Hall/CRC.
Zuur,A.F., Ieno,E.N., Walker,N.J., Saveliev,A.A. & Smith,G.M. (2009) Mixed Effetcts Models and Extensions in Ecology with R. Springer
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 44
A)
B)
ANNEXE 1 : Résultats des simulations de la validation croisée suivant le sélection aléatoire (A) ou suivant la
sélection par blocs (B)
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 45
ANNEXE 2 : Tableau de classification des variables Corine Land Cover
Sea and oceanMarine watersWater bodies
EstuariesMarine watersWater bodies
Coastal lagoonsMarine watersWater bodies
Water bodiesInland watersWater bodies
Water coursesInland watersWater bodies
Intertidal flatsMaritime wetlandsWetlands
SalinesMaritime wetlandsWetlandsHumides
Salt marshesMaritime wetlandsWetlandsZones
Peat bogsInland wetlandsWetlands
Inland marshesInland wetlandsWetlands
Glaciers and perpetual snowOpen spaces with little or no vegetation
Forest and semi natural areas
Burnt areasOpen spaces with little or no vegetation
Forest and semi natural areas
Sparsely vegetated areasOpen spaces with little or no vegetation
Forest and semi natural areasOuvertes
Bare rocksOpen spaces with little or no vegetation
Forest and semi natural areasZones
Beaches, dunes, sandsOpen spaces with little or no vegetation
Forest and semi natural areas
Transitional woodland-shrubScrub and/or herbaceous vegetation associations
Forest and semi natural areas
Sclerophyllous vegetationScrub and/or herbaceous vegetation associations
Forest and semi natural areasIntermédiaires
Moors and heathlandScrub and/or herbaceous vegetation associations
Forest and semi natural areasZones
Mixed forestForestsForest and semi natural areas
Coniferous forestForestsForest and semi natural areasForestières
Broad-leaved forestForestsForest and semi natural areasZones
Agro-forestry areasHeterogeneous agricultural areasAgricultural areas
Land principally occupied by agriculture, with significant areas of natural vegetationHeterogeneous agricultural areasAgricultural areas
Complex cultivation patternsHeterogeneous agricultural areasAgricultural areasHétérogène
Annual crops associated with permanent cropsHeterogeneous agricultural areasAgricultural areasAgriculture
Natural grasslandsScrub and/or herbaceous vegetation associations
Forest and semi natural areasExtensive
PasturesPasturesAgricultural areasAgriculture
Olive grovesPermanent cropsAgricultural areas
Fruit trees and berry plantationsPermanent cropsAgricultural areasPermanente
VineyardsPermanent cropsAgricultural areasAgriculture
Rice fieldsArable landAgricultural areas
Permanently irrigated landArable landAgricultural areasIntensive
Non-irrigated arable landArable landAgricultural areasAgriculture
Sport and leisure facilitiesArtificial, non-agricultural vegetated areasArtificial surfaces
Green urban areasArtificial, non-agricultural vegetated areasArtificial surfaces
Construction sitesMine, dump and construction sitesArtificial surfaces
Dump sitesMine, dump and construction sitesArtificial surfaces
Mineral extraction sitesMine, dump and construction sitesArtificial surfaces
AirportsIndustrial, commercial and transport unitsArtificial surfaces
Port areasIndustrial, commercial and transport unitsArtificial surfacesZones Baties
Road and rail networks and associated landIndustrial, commercial and transport unitsArtificial surfaces
Industrial or commercial unitsIndustrial, commercial and transport unitsArtificial surfaces
Discontinuous urban fabricUrban fabricArtificial surfaces
Continuous urban fabricUrban fabricArtificial surfaces
LABEL3LABEL2LABEL1vaiables
Nomenclature Corline Land CoverRegroupement des
Sea and oceanMarine watersWater bodies
EstuariesMarine watersWater bodies
Coastal lagoonsMarine watersWater bodies
Water bodiesInland watersWater bodies
Water coursesInland watersWater bodies
Intertidal flatsMaritime wetlandsWetlands
SalinesMaritime wetlandsWetlandsHumides
Salt marshesMaritime wetlandsWetlandsZones
Peat bogsInland wetlandsWetlands
Inland marshesInland wetlandsWetlands
Glaciers and perpetual snowOpen spaces with little or no vegetation
Forest and semi natural areas
Burnt areasOpen spaces with little or no vegetation
Forest and semi natural areas
Sparsely vegetated areasOpen spaces with little or no vegetation
Forest and semi natural areasOuvertes
Bare rocksOpen spaces with little or no vegetation
Forest and semi natural areasZones
Beaches, dunes, sandsOpen spaces with little or no vegetation
Forest and semi natural areas
Transitional woodland-shrubScrub and/or herbaceous vegetation associations
Forest and semi natural areas
Sclerophyllous vegetationScrub and/or herbaceous vegetation associations
Forest and semi natural areasIntermédiaires
Moors and heathlandScrub and/or herbaceous vegetation associations
Forest and semi natural areasZones
Mixed forestForestsForest and semi natural areas
Coniferous forestForestsForest and semi natural areasForestières
Broad-leaved forestForestsForest and semi natural areasZones
Agro-forestry areasHeterogeneous agricultural areasAgricultural areas
Land principally occupied by agriculture, with significant areas of natural vegetationHeterogeneous agricultural areasAgricultural areas
Complex cultivation patternsHeterogeneous agricultural areasAgricultural areasHétérogène
Annual crops associated with permanent cropsHeterogeneous agricultural areasAgricultural areasAgriculture
Natural grasslandsScrub and/or herbaceous vegetation associations
Forest and semi natural areasExtensive
PasturesPasturesAgricultural areasAgriculture
Olive grovesPermanent cropsAgricultural areas
Fruit trees and berry plantationsPermanent cropsAgricultural areasPermanente
VineyardsPermanent cropsAgricultural areasAgriculture
Rice fieldsArable landAgricultural areas
Permanently irrigated landArable landAgricultural areasIntensive
Non-irrigated arable landArable landAgricultural areasAgriculture
Sport and leisure facilitiesArtificial, non-agricultural vegetated areasArtificial surfaces
Green urban areasArtificial, non-agricultural vegetated areasArtificial surfaces
Construction sitesMine, dump and construction sitesArtificial surfaces
Dump sitesMine, dump and construction sitesArtificial surfaces
Mineral extraction sitesMine, dump and construction sitesArtificial surfaces
AirportsIndustrial, commercial and transport unitsArtificial surfaces
Port areasIndustrial, commercial and transport unitsArtificial surfacesZones Baties
Road and rail networks and associated landIndustrial, commercial and transport unitsArtificial surfaces
Industrial or commercial unitsIndustrial, commercial and transport unitsArtificial surfaces
Discontinuous urban fabricUrban fabricArtificial surfaces
Continuous urban fabricUrban fabricArtificial surfaces
LABEL3LABEL2LABEL1vaiables
Nomenclature Corline Land CoverRegroupement des
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 46
ANNEXE 3 : Matrice des corrélations de Spearman des variables climatiques et de la moyenne d’altitude.
10.170.660.500.33-0.150.450.350.50-0.67-0.36-0.41-0.010.49-0.77-0.170.52-0.290.17-0.58meanalti
0.1710.260.710.830.080.580.750.840.14-0.040.41-0.60-0.150.09-0.08-0.240.19-0.020.08meanbio19
0.660.2610.680.41-0.230.710.410.64-0.70-0.42-0.570.040.37-0.75-0.280.44-0.240.09-0.62meanbio18
0.500.710.6810.61-0.340.910.550.87-0.30-0.17-0.04-0.420.20-0.39-0.080.140.100.21-0.25meanbio17
0.330.830.410.6110.390.460.960.890.03-0.080.23-0.370.00-0.04-0.10-0.110.02-0.01-0.01meanbio16
-0.150.08-0.23-0.340.391-0.470.450.060.440.230.280.21-0.110.430.12-0.260.08-0.070.35meanbio15
0.450.580.710.910.46-0.4710.400.74-0.41-0.27-0.22-0.420.15-0.46-0.170.150.050.13-0.36meanbio14
0.350.750.410.550.960.450.4010.840.05-0.050.23-0.260.07-0.04-0.06-0.080.030.050.01meanbio13
0.500.840.640.870.890.060.740.841-0.18-0.150.06-0.380.15-0.28-0.100.050.040.12-0.17meanbio12
-0.670.14-0.70-0.300.030.44-0.410.05-0.1810.680.78-0.04-0.310.960.52-0.580.560.150.93meanbio11
-0.36-0.04-0.42-0.17-0.080.23-0.27-0.05-0.150.6810.600.240.330.550.950.100.350.520.89meanbio10
-0.410.41-0.57-0.040.230.28-0.220.230.060.780.601-0.28-0.120.700.50-0.360.430.220.77meanbio9
-0.01-0.600.04-0.42-0.370.21-0.42-0.26-0.38-0.040.24-0.2810.36-0.080.280.36-0.100.200.08meanbio8
0.49-0.150.370.200.00-0.110.150.070.15-0.310.33-0.120.361-0.480.540.86-0.090.69-0.03meanbio7
-0.770.09-0.75-0.39-0.040.43-0.46-0.04-0.280.960.550.70-0.08-0.4810.35-0.670.45-0.070.84meanbio6
-0.17-0.08-0.28-0.08-0.100.12-0.17-0.06-0.100.520.950.500.280.540.3510.260.390.720.76meanbio5
0.52-0.240.440.14-0.11-0.260.15-0.080.05-0.580.10-0.360.360.86-0.670.261-0.490.31-0.30meanbio4
-0.290.19-0.240.100.020.080.050.030.040.560.350.43-0.10-0.090.450.39-0.4910.600.52meanbio3
0.17-0.020.090.21-0.01-0.070.130.050.120.150.520.220.200.69-0.070.720.310.6010.34meanbio2
-0.580.08-0.62-0.25-0.010.35-0.360.01-0.170.930.890.770.08-0.030.840.76-0.300.520.341meanbio1
meanaltimeanbio19
meanbio18
meanbio17
meanbio16
meanbio15
meanbio14
meanbio13
meanbio12
meanbio11
meanbio10
meanbio9
meanbio8
meanbio7
meanbio6
meanbio5
meanbio4
meanbio3
meanbio2
meanbio1
10.170.660.500.33-0.150.450.350.50-0.67-0.36-0.41-0.010.49-0.77-0.170.52-0.290.17-0.58meanalti
0.1710.260.710.830.080.580.750.840.14-0.040.41-0.60-0.150.09-0.08-0.240.19-0.020.08meanbio19
0.660.2610.680.41-0.230.710.410.64-0.70-0.42-0.570.040.37-0.75-0.280.44-0.240.09-0.62meanbio18
0.500.710.6810.61-0.340.910.550.87-0.30-0.17-0.04-0.420.20-0.39-0.080.140.100.21-0.25meanbio17
0.330.830.410.6110.390.460.960.890.03-0.080.23-0.370.00-0.04-0.10-0.110.02-0.01-0.01meanbio16
-0.150.08-0.23-0.340.391-0.470.450.060.440.230.280.21-0.110.430.12-0.260.08-0.070.35meanbio15
0.450.580.710.910.46-0.4710.400.74-0.41-0.27-0.22-0.420.15-0.46-0.170.150.050.13-0.36meanbio14
0.350.750.410.550.960.450.4010.840.05-0.050.23-0.260.07-0.04-0.06-0.080.030.050.01meanbio13
0.500.840.640.870.890.060.740.841-0.18-0.150.06-0.380.15-0.28-0.100.050.040.12-0.17meanbio12
-0.670.14-0.70-0.300.030.44-0.410.05-0.1810.680.78-0.04-0.310.960.52-0.580.560.150.93meanbio11
-0.36-0.04-0.42-0.17-0.080.23-0.27-0.05-0.150.6810.600.240.330.550.950.100.350.520.89meanbio10
-0.410.41-0.57-0.040.230.28-0.220.230.060.780.601-0.28-0.120.700.50-0.360.430.220.77meanbio9
-0.01-0.600.04-0.42-0.370.21-0.42-0.26-0.38-0.040.24-0.2810.36-0.080.280.36-0.100.200.08meanbio8
0.49-0.150.370.200.00-0.110.150.070.15-0.310.33-0.120.361-0.480.540.86-0.090.69-0.03meanbio7
-0.770.09-0.75-0.39-0.040.43-0.46-0.04-0.280.960.550.70-0.08-0.4810.35-0.670.45-0.070.84meanbio6
-0.17-0.08-0.28-0.08-0.100.12-0.17-0.06-0.100.520.950.500.280.540.3510.260.390.720.76meanbio5
0.52-0.240.440.14-0.11-0.260.15-0.080.05-0.580.10-0.360.360.86-0.670.261-0.490.31-0.30meanbio4
-0.290.19-0.240.100.020.080.050.030.040.560.350.43-0.10-0.090.450.39-0.4910.600.52meanbio3
0.17-0.020.090.21-0.01-0.070.130.050.120.150.520.220.200.69-0.070.720.310.6010.34meanbio2
-0.580.08-0.62-0.25-0.010.35-0.360.01-0.170.930.890.770.08-0.030.840.76-0.300.520.341meanbio1
meanaltimeanbio19
meanbio18
meanbio17
meanbio16
meanbio15
meanbio14
meanbio13
meanbio12
meanbio11
meanbio10
meanbio9
meanbio8
meanbio7
meanbio6
meanbio5
meanbio4
meanbio3
meanbio2
meanbio1
BIO1 = Température moyenne annuelle BIO2 = Moyenne mensuelle des variations journalières BIO3 = Isothermatlité (P2/P7) (* 100) BIO4 = Saisonnalité de Température BIO5 = Maximum de Température du mois le plus chaud BIO6 = Minimum de Température du mois le plus froid BIO7 = Ecart annuelle de Température BIO8 = Moyenne de Température de la saison humide BIO9 = Moyenne de Température de la saison la plus sèche
BIO10 = Température moyenne de la saison la plus chaude BIO11 = Température moyenne de la saison la plus froide BIO12 = Précipitations annuelles BIO13 = Précipitations du mois le plus humide BIO14 = Précipitations du mois le plus sec BIO15 = Saisonnalité des Précipitations BIO16 = Précipitations de la saison humide BIO17 = Précipitations de la saison sèche BIO18 = Précipitations de la saison la plus chaude BIO19 = Précipitations de la saison la plus froide
Maxime Passerault Rapport de M2 : Les modèles de distribution
Université Lyon 1, année 2008/2009 47
Résumé
L’étude des distributions de présence et d’abondance d'organismes présente plusieurs
contraintes lors des analyses, notamment liées au caractère spatial comme l’autocorrélation,
un échantillonnage hétérogène, des distributions ‘zéro enflées’. Le but de ce stage est de
développer une démarche qui solutionne ces problèmes, entre autre en intégrant des variables
externes comme l’habitat et le climat à l'aide de GAM mixtes spatialisés. La première étape
modélise la probabilité de présence de l’espèce à large échelle et, avec l’aide d’une méthode
spatialement implicite, détermine un seuil discriminant la présence et l’absence. La deuxième
étape modélise l’abondance conditionnellement à la présence prédite, en prenant en compte
l’autocorrélation spatiale et des variables externes à fine échelle. Au final, cette démarche
parvient à considérer les différents problèmes pour donner une représentation précise de la
répartition d’abondance et étudier les facteurs qui l'affectent. Pour les développements futurs,
cette démarche gagnerait encore en robustesse en adoptant un cadre Bayésien.
Mots clés : abondance ; modèles additifs généralisés ; autocorrélation ; modèle de
distribution ; prédicteurs environnementaux
Abstract
Some problems like spatial autocorrelation, heterogeneous sampling or zero-inflated data,
frequently rise when modelling species presence and abundance. The goal of this study is to
develop a method to account for these problems, for example by integrating external variables
like habitats using spatial mixed GAM. In a first step, occurrence probabilities are modelled at
large scale, and then a cut-off between presence and absence is determinated according to the
distribution pattern. In a second step, abundance is modelled conditionally to presence
predicted at step 1, considering small scale variables like habitats. To conclude, this method
tackled main statistical problems and considered different biological aspects. In the futur, it
would be useful to integrate this approach using a Bayesian framework.
Key-words: abundance; generalized additive models; autocorrelation; distribution modelling; environmental predictors