geo web standards for biodiversity
Post on 13-May-2015
873 Views
Preview:
DESCRIPTION
TRANSCRIPT
Les standards en biodiversitéPartie 2
1er juillet 2010Natural Solutions
Ma donnéeUn gobe-mouche gris à Natural Solutions, Donnée : Elément d'information décrivant de
façon élémentaire un objet, une transaction, un événement, etc. Une donnée sert de base à une recherche, un raisonnement, etc.
Identifié par Amandine avec des jumelles Métadonnée : Donnée décrivant des caractéristiques
d'une donnée, e.g. propriété, contenu, qualité (conditions, précision, etc.), date de saisie, etc.
Partager ma donnée (1)Taxon scientificName : Muscicapa striata class : Aves order : Passeriformes genus : Muscicapa
Location country : France countryCode : FR locality : Marseilles decimalLatitude : 43.17203 decimalLongitude : 5.22445
Standard : format reconnu par une autorité ou majoritairement utilisé. Un standard permet la compatibilité des systèmes.
Standard de données
- Vocabulaire commun- Reconnu par la communauté Comprendre et utiliser la donnée
Partager ma donnée (2)
<dwc:Taxon> <dwc:scientificName>Muscicapa striata</dwc:scientificName><dwc:class>Aves</dwc:class>
<dwc:order> Passeriformes </dwc:order><dwc:genus>Muscicapa</dwc:genus>
</dwc:Taxon>< dcterms:Location > < dwc:country > France < dwc:country >
< dwc:countryCode > FR < dwc:countryCode > < dwc:locality > Marseille < dwc:locality >
< dwc:decimalLatitude > 43.17203 < dwc:decimalLatitude > < dwc:decimalLongitude > 5.22445 < dwc:decimalLongitude > </dcterms:Location >
Implémentation XML
Utiliser la donnée au sein au sein d’un programme / système informatique
Partager ma donnée (3)< protocol id = NSprotocol.1 > < title> Identification in a corridor </ title >
< creator > < individualName > < surName > Sahl </ surName >
</ individualName > </ creator >
< proceduralStep > < description > < para>Bird identification on a working place</ para > </ description > < instrumentation > binocular</ instrumentation > </ proceduralStep ></ protocol > Standard de metadonnées
Partager ma donnée (4) Protocole d’échange : les méthodes d'échange de données numériques entre plusieurs postes informatiques
3 groupes de standards• Les standards de métadonnées
Comment sont mes données?• Dublin Core • EML
• Les standard de données Quelles sont les données à partager?
• DwC • ABCD • TCS
• Les protocoles d’échangeComment je partage les données ?
• TAPIR • LSID • IPT• …
Les standards de métadonnées• Problématique– Différents types de données de biodiversité– Stockages variés– Echelles différentes– Données dispersées
• Objectif– Accéder aux jeux de données de biodiversité sur le Web
• Quelles sont les données disponibles?• Comment accéder à ces données ?
Définitions• Les métadonnées décrivent les ressources et leur accessibilité– identification– qualité– contexte spatial– distribution des jeux de données
• Utiliser un standard de métadonnées– une terminologie commune– un ensemble de définition
Eviter une perte du sens original des données
Dublin Core
• Standard de metadonnées le mieux connu actuellement• Initié en 1995• Objectif : découvrir les ressources documentaires du Web• 15 descripteurs minimums• Implémentation XML
http://dublincore.org/
Exemple
Ecological Metadata Language• Standard de metadonnées développé par la communauté
écologique
• Initié en 1997 par « Ecological Society of America »
• Objectif : fournir suffisament d’information pour être capable de réutiliser les données d’une manière scientifique
très bien structuré avec de nombreux descripteurs
• Implémentation XML
• 1500 projets, 65 milliards d’observations de tout types (i.e. organismes, climat, etc.)
http://knb.ecoinformatics.org/
Organisation EML
• Descripteurs organisés en classes décrivant : – le jeu de données (dataset) – l’origine des données (citation)– la structure des données (software)– les méthodes de création du jeu de données
(protocol)– l’accessibilité des données (access)
Exemple
http://harvardforest.fas.harvard.edu
Standard de données de biodiversité
• Standard de données ≈ Format de données ≈ Schéma de données
• Echange de données d’occurrence d’espèces – Spécimens dans les collections d’histoire naturelle et herbiers
(collections vivantes incluses)– Observations des organismes vivants sur le terrain
• 2 standards– Darwin Core– ABCD schema
TDWGTaxonomic Database Working
Group
Biodiversity Information Standards
• Une organisation internationale à but non lucratif
• Développe des standards et des protocoles pour partager les données de biodiversité
www.tdwg.org
Historique2000
TDWG/CODATA (Committee on Data for Science and Technology)Sous groupe « Access to Biological Collections Data »
Protocole de recherche des données de
biodiversité
Spécification des données des collections
biologiques
DwC + protocole
DIGIR
ABCD Schema
Projet BioCase
GBIFProtocole BioCase
Darwin Core• Définition d’un ensemble d’éléments de données (data
element) – Unité d’information de base : sens unique + valeurs distinctes – Norme ISO ISO/IEC 11179 : lisibilité et l’interchangeabilité des
données– Attributs/champs de base de données
• Objectif : partage et intégration des données d’observation primaires
• Initialement : organisation des collections de specimens • Extensible (ajout d’éléments de données) : fct des besoins
spécifiqueshttp://rs.tdwg.org/dwc/
Les catégories
• 172 éléments de données • Organisés en 8 catégories/classes
Dublin Core
taxonIDscientificNameIDtaxonConceptIDscientificNamekingdomphylumclassorderfamilygenussubgenustaxonRankscientificNameAuthorshipvernacularNamenomenclaturalCodetaxonomicStatusnomenclaturalStatustaxonRemarks…
Des metadonnées?
• Un ensemble complémentaire de termes - Record-level Terms – pour caractériser le jeu de données
institutionIDcollectionIDdatasetIDinstitutionCodecollectionCodedatasetNameownerInstitutionCodebasisOfRecord informationWithhelddataGeneralizationsdynamicProperties
Occurrence EventLocation TaxonPreservedSpecimenFossilSpecimen LivingSpecimenHumanObservation MachineObservation NomenclaturalChecklist
Nat
ure
des
donn
ées
Darwin Core Type Vocabulary Valeur de l’élément de données
Le partage
• Tous les termes sont assignés à une URIoccurenceID : http://rs.tdwg.org/dwc/terms/occurrenceID
• implementation XML + XML/RDF
Extensions
• Information spécifique à une discipline – Geospatial DecimalLatitude - DecimalLongitude – VerbatimCoordinates - …
– PaleontologieEarliestEonOrLowestEonothem – LatestEonOrHighestEonothem -
EarliestEraOrLowestErathem - …
– Nettoyage ( Curation )IdentifiedBy - DateIdentified - FieldNotes - …
Simple Darwin Core
• Sous ensemble de 46 éléments de données– Attributs des tableurs et bases de données– Pas les termes représentant les différentes
catégories (liste plate)– Partage simple des données taxonomiques et de
leurs occurrences
Exemple<dwc:Taxon>
<dwc:scientificName>Anthus correndera</dwc:scientificName><dwc:class>Aves</dwc:class>
<dwc:genus>Anthus</dwc:genus><dwc:specificEpithet>correndera</dwc:specificEpithet> <dwc:occurrenceID>urn:catalog:AUDCLO:EBIRD:OBS64515286</dwc:occurrenceID>
</dwc:Taxon>
Utilisation• Largement utilisé– GBIF (Global Biodiversity information facility)
www.gbif.org– OBIS (Ocean Biogeographic Information System)
www.iobis.org– ALA (Atlas of Living Australia)
www.ala.org.au– Inventaires : ATBI (All Taxa Biodiversity Inventories
and Monitoring) Mercantour– …
ABCD schema• Schéma hierarchique de spécification de données• Echange des données de collections
– Specimens– Observations
• Complet donc complexe 1200 éléments de données
• Capable d’intégrer des données détaillées, de sources très differentes et de domaines très spécifiques
• Suffisamment d’éléments de données pour être compatible avec beaucoup de standards
• Implémentation XMLwww.tdwg.org/activities/abcd/
Extrait
Metadonnées?
Exemple
Visualiser ABCD schema
http://www.bgbm.org/scripts/ASP/TDWG/frame.asp?config=0&configurl=http://www.bgbm.org/TDWG/CODATA/Schema/schemaviewer_configs/conf_abcd_206.xml
Extensions
• Extension pour les Geosciences (EFG) http://www.geocase.eu/
• Extension pour les données moléculaires (ADN) http://www.dnabank-network.org/
• Extension pour les herbiers http://hiscom.chah.org.au/wiki/HISPID_5
Mapping DwC – ABCD schemaDwC ABCD Schema
GlobalUniqueIdentifier DataSets/DataSet/Units/Unit/UnitGUID
DateLastModified DataSets/DataSet/Units/Unit/DateLastEdited
BasisOfRecord DataSets/DataSet/Units/Unit/RecordBasis
InstitutionCode DataSets/DataSet/Units/Unit/SourceInstitutionID
CollectionCode DataSets/DataSet/Units/Unit/SourceID
CatalogNumber DataSets/DataSet/Units/Unit/UnitID
InformationWithheld DataSets/DataSet/Units/Unit/InformationWithheld
Remarks DataSets/DataSet/Units/Unit/Notes
ScientificName DataSets/DataSet/Units/Unit/Identifications/Identification/TaxonIdentified/ScientificName/FullScientificNameString
HigherTaxon DataSets/DataSet/Units/Unit/Identifications/Identification/TaxonIdentified/HigherTaxa/HigherTaxon/HigherTaxonName
… …/…/…
Utilisation
• Largement utilisé aussi (par les mêmes?)• GBIF• ALA• …
Taxon Concept schema(Taxonomic taxon transfert schema)
• Problématique– Données de biodiversité des fournisseurs basées
généralement sur un seul référentiel taxonomique– Partager les données nécessitent d’utiliser la
même taxonomie
www.tdwg.org/standards/117/
Objectifs
• Développer un modèle abstrait de concepts taxonomiques
• Etablir des relations entre les concepts taxonomiques des fournisseurs de données
• Standard XML pour faciliter l’échange de données entre les différents fournisseurs
• faciliter l’interrogation des données
Définitions • TCS est un format d’échange de données
un moyen d’annoter les données taxonomiques communiquées
• 2 éléments clés – <TaxonConcept> : monde réel, exprime une opinion sur le
taxon et ses relations avec d’autres taxons– <TaxonName> : nomenclature abstraite, encapsule les
règles des différentes nomenclatures
Extrait
Exemple (1)<TaxonNames>
<TaxonName id="123" nomenclaturalCode="Botanical"> <Simple>Dianthus</Simple> <Rank code="gen">genus</Rank>
</TaxonName> <TaxonName id="124" nomenclaturalCode="Botanical">
<Simple>Dianthus gratianopolitanus Vill.</Simple> <Rank code="sp">species</Rank> <CanonicalName>
<Simple>Dianthus gratianopolitanus</Simple> <Genus ref="123">Dianthus</Genus>
</CanonicalName> </TaxonName>
<TaxonName id="125" nomenclaturalCode="Botanical"> <Simple>Dianthus caesius Sm.</Simple> <Rank code="sp">species</Rank> <CanonicalName>
<Simple>Dianthus caesius</Simple> <Genus ref="123">Dianthus</Genus> <SpecificEpithet>caesius</SpecificEpithet>
</CanonicalName> </TaxonName>
Exemple (2)<TaxonConcepts> <TaxonConcept id="988"> <Name scientific="true" ref="124">Dianthus gratianopolitanus Vill.</Name> <AccordingTo> <AccordingToSimple> Clapham, Tutin & Moore (1987) </AccordingToSimple> </AccordingTo>
<TaxonRelationships> <TaxonRelationship type="has synonym"> <ToTaxonConcept ref="989"/> </TaxonRelationship> </TaxonRelationships>
</TaxonConcept>
<TaxonConcept type="nominal" id="989"> < Name scientific="true" ref="125">Dianthus caesius</Name> </TaxonConcept>
Utilisation• GBIF dans son projet de « Global Names
Architecture »• TCS est utilisé pour faciliter l’échange des
données taxonomiques.
Conclusion sur les standards de données
• DwC, ABCD schema et TSC spécifiques aux collections• Moins appropriés (pour l’instant) aux observations
– Protocoles ?– Données manquantes ?– Regroupement autre que taxonomique ?– Attributs spatiaux ?
En cours d’évolutionUtilisation conjointe avec les standards de métadonnées
Et après?• Modèles de données ≠ standards de données• Besoin de transformation des modèles ou de
mise en relation (mapping) avec les standards– espèce = SpecificEpithet– alt m = MinimumElevationInMeters
• Manipulation des données peut être nécessaires– Concatenation– Parsing– Changement de granularité
Protocoles d’échange de données
Les protocoles• Protocole = comment lier ou échanger les
données• Protocoles existants
– TAPIR– LSID & RDF– DwC-A– IPT
TAPIR• Protocole pour interroger les bases de données
existantes• Remplace :– DiGIR (utilisant DwC comme standard)– BioCASe (utilisant ABCD schema comme standard)
• Indépendant du standard, mais un standard de données est nécessaire
• Utilisé principalement par GBIFwww.tdwg.org/activities/tapir
TAPIR
TAPIR
TAPIR
TAPIR
TAPIR
LSID & RDF• LSID = Life Science Identifier– Type de GUID = Global Unique Identifier– LSID = chaîne de caractères + format
http://lsids.sourceforge.net/
urn:lsid:ubio.org:namebank:11815
LSID & RDF• Utilisation :– Identification d’un objet– Retrouver les metadonnées associées (standard)
• RDF = Resource Description Framework• RDF = Format de réponse des requêtes sur le
LSID• Nombreux outils pour résoudre et échanger les
LSID http://lsid.tdwg.org/
LSID & RDF
http://lsid.tdwg.org/urn:lsid:ubio.org:namebank:11815
Darwin Core archive• Pas vraiment un protocole• Moyen de publier les données au sein du GBIF• DwC-A contient un jeu de données entier basé
sur des fichiers textes• Le format DwC-A fournit un moyen simple de
publier ses données au format DwC + extensions
• Une archive = un ensemble de fichier textes zippés
Dwc-A
Integrated Publishing Toolkit• IPT = Une application web• Publier 3 types de données de biodiversité – Données primaires– Information sur les espèces– Métadonnées sur les ressources
• À partir d’une source de données – Fichier plat– Base de données
• Pour rendre ces données visibles sur le réseau distribué du GBIF
IPT
-Transport rapide des données-Création d’index
-Clients GIS-GeoPortals
-Portails de données-Réseaux distribués-Accès aux enregistrements individuels
Catalogues de Métadonnées
Conclusion
• Partager les données de biodiversité :– Utiliser un standard de données– Utiliser un standard de metadonnées– Utiliser un protocole d’échange
Applications
top related