traiter des données peu structurées : pages web, fichiers pdf
DESCRIPTION
- Comment récupérer des informations disponibles sur le Web (outil peu structuré a priori) ? - Comment les outils que l’on utilise couramment en IST traitent ces données ? - Comment manipuler des flux Rss ? - Qu’est-ce que le Web de données et comment y accéder ?TRANSCRIPT
Ecole Technique « Tranformation des données documentaires »
Poitiers, 14-16 mars 2011
Atelier 4
Traiter des données peu structurées : pages Web, fichiers pdf
Pôle Technologies
pages Web, fichiers pdf
Introduction
Les questions :
- Comment récupérer des informations disponibles sur le Web (outil peu structuré a priori)?
- Comment les outils que l’on utilise couramment en IST traitent ces données?
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
IST traitent ces données?
- Comment manipuler des flux Rss?
- Qu’est-ce que le Web de données et comment y accéder?
Structure des données du Web
Le langage HTMLHtml : langage à balises standardisé (W3C) permettant le formatage du texte des pages Web et leur affichage au sein d’un navigateur (protocole http). Origines : 1989-1992 - Html 1.0 : 1993 – html 2.0 : 1995 – html 3.2 : 1997 – html 4.0 : 1997 – html 4.01 : 19992000-2007 : le XHTML. Passerelle entre Html et Xml. Précise la syntaxe Html. Améliore l’interpopérabilité.2011� 2014-- : Html 5 (ou simplement Html)Les CSS (Cascading Style Sheets) : indépendantes de la page web elle-même.
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Langages serveur Langages client
PHP, ASP, ColdFusion, JSP, XSP,...
Le plus courant : PHP
Javascript,VB Script, Flash, VRML, SMIL, SVG, XLTS,... Le plus courant : Javascript
Les CSS (Cascading Style Sheets) : indépendantes de la page web elle-même. Définissent l’ensemble des éléments de mise en forme � séparation contenant-contenu.Langages associés aux pages Web
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Html : les métadonnées• Le titre : encadré par les balises <title>…</title>. Obligatoire• Les « balises méta » :
– Les méta NAME=« »…CONTENT=« » : (ex : <META NAME="Description" CONTENT="Rôle et description des balises Meta"> ). Elles précisent par exemple le résumé, les mots-clés, la langue, le propriétaire de la page…
– Les méta HTTP-EQUIV=« »…CONTENT=« » : (ex : <META http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> ). Elles précisent des règles techniques destinées aux moteurs.
– Les balises sutout utilisées pour le référencement et l’affichage par les moteurs sont : title et description.
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
moteurs sont : title et description.
– Les méta Dublin Core : Elles sont décrites dans l’article Expressing Dublin Core in HTML/XHTML meta and link elements. (http://dublincore.org/documents/dcq-html/)
Toutes ces balises figurent dans la partie « en-tête » (<head>) de la page Html.Elles ne sont pas affichées sur la page
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Récupérer des donnés bibliographiques
Avec Zotero
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Avec Mendeley
• Un espace en ligne (connexion !)
• Un Mendeley Desktop sur son ordinateur
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
• http://www.mendeley.com/blog/research-tutorials/mendeleys-one-click-web-importer/
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
En ligne
Sur le PC (Desktop)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
COINSContext Objects in Span
Les logiciels tels que Zotero ou Mendeley (mais aussi WordPress, CiteULike…) s’appuient sur la méthode COinS pour récupérer les données bibliographiques
Coins est une méthode pour incorporer des citations bibliographiques non visibles dans une page web en HTML, utilisant la norme OpenURL.
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
http://www.figoblog.org/document1131.php,voir aussi http://vlib.mpg.de/sfx-coins.html
visibles dans une page web en HTML, utilisant la norme OpenURL.
Ensuite les métadonnées sont récupérables par des outilsMendeley / Zotero / Endnote ou peuvent être étendues par des possibilités de l’OpenURL
Voir les extensions de Coins
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
COINS GENERATOR
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
http://generator.ocoins.info/
Les métadonnées des fichiers pdf
Les métadonnées des fichiers PDF
• 1993-2001 Document Info
– 6 champs textuels (Titre, Auteur, Sujet, Mots-clés, Producteur du PDF, Application)
– 2 champs date (création, modification)
• Depuis 2001 (Acrobat 5.0) XMP Extensible Metadata
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
• Depuis 2001 (Acrobat 5.0) XMP Extensible Metadata Platform– Format type XML
– Se trouve aussi dans les photos
• Nature publie des articles contenant des métadonnées XMP voir exemple
Source : P Pecatte : http://blog.tuquoque.com/post/2010/01/05/metadata-PDF
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Fichier>propriétés
Dans Acrobat
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
DublinCorePrism*
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
* Publishing Requirements for Industry Standard Metadata (PRISM) http://www.prismstandard.org/about/
RéférenceEndnoteimportée
Avec Endnote
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Add folder (choisir le dossier contenant les PDF)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Créer un flux Rss à partir d’une page Web
Un outil simple : Page2rss
En ligne ou comme extension de Google Chrome
http://page2rss.com/
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
S’appuie sur le cache Google. Attention aux dates de mises à jour
URL du flux : http://page2rss.com/rss/81b5348182061d6ac0d4a56673e06142
Flux récupéré dans un agrégateur (ex : Google Reader
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Voir aussi…
http://www.ponyfish.com/
Recherche les flux existants ou propose la création
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
http://www.feedreader.com/
Ne crée pas de flux, mais détecte les flux existants même s’il ne sont pas affichés en tant que tels
Extraire et réorganiser du contenu Web
Quelques termes
• Web scraping : « extraire du contenu d'un site Web, via un script ou un programme, dans le but de le transformer ou de changer son format pour permettre son utilisation dans un autre contexte. » (http://fr.wikipedia.org/wiki/Web_scraping)
• Le mashup :
– Une application composite
– combine du contenu ou du service provenant de plusieurs applications plus
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
– combine du contenu ou du service provenant de plusieurs applications plus ou moins hétérogènes.
– Exemples : • superposition de données visuelles et sonores différentes
• Agréger du contenu provenant d'autres sites, afin de créer un site web nouveau.
Si certains éditeurs autorisent et encouragent le développement de nouvelles applications utilisant leurs données (Amazon, Google…), c’est sur la base d’accords économiques. La republication « sauvage » peut contrevenir au droit d’auteur. De plus en plus de producteurs de contenus s’en protègent en plaçant à la racine de leur site un fichier « robots.txt » spécifiant les robots autorisés à parcourir leur site.
Mashup (côté serveur)
• Web service
– programme informatique
– communication et l'échange de données entre applications et systèmes hétérogènes
– dans des environnements distribués. en temps réel
• API (Application Programming Interface ou API) est une interface fournie par un programme informatique. Elle
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
une interface fournie par un programme informatique. Elle permet l'interaction des programmes les uns avec les autres.
Mashup (côté client)
• XMLHttpRequest
• AJAX du côté client, les RSS
Un exemple de Mashup
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Illustration de Mashup des statistiques de naissances, reconnaissances, mariages et décès à Paris (2004 à 2009)À partir du site Parisdata avec GoogleMap http://paris.mapize.com/
Open Dapper : http://open.dapper.net/
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Sélection des types de contenu à conserver et attribution de noms de « champ »
Choix des « champs » à afficher dans le nouveau flux
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Transformer, fusionner, filtrer, échanger des flux
Les agrégateurs de flux : Netvibes, Google Reader, FeedReader,
logiciels de veille.
Usage : lire tous les flux en 1 seul point. Veille.
+ de Netvibes : présentation agréable (outil de diffusion) avec possibilité de lecture globale (vue « lecteur)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
+ de Google Reader : moteur de recherche interne
Echanger des flux : le format OPMLOutline Processor Markup Language
• C’est un fichier au format XML
• Adopté pour l’échange de listes
http://www.opml.org/
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
l’échange de listes de flux (et aussi de podcasts, etc)
• Répond à des spécifications
• La plupart des agrégateurs de flux proposent l’export OPML
X-Fruits
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Recevoir les flux par mailEnvoyer des informations sur une boîte mail Xfruits collaborative avec création d’un flux unique en sortieCréer un pdf à partir d’un flux
FeedRinse
Filtrage de flux
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Un outil avancé : Yahoo PipesPrincipales fonctionnalités :
• fusionner des flux, les trier, les traduire, ajouter des filtres
• extraire et combiner des contenus, introduire des éléments de géolocalisation
• rediffuser sous différents, formats, widgets
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Après avoir sauvegardé le « pipe », les formats de sortie sont accessibles
Exemple réalisé avec l’aide (précieuse) de Marie-Colette Fauré)
Exemple : à partir des pages « agenda / événements » de l’Inra et du Cirad � flux créé avec Page2Rss + ajout du flux Ifremer « dernières actualités »
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Prévisualisation du flux actualisé lors de sa création
Microformats et web sémantique
Linked Data – web de données
• L’objectif des données liées est de permettre aux gens de partager des données structurées sur le Web aussi facilement qu’ils peuvent partager des documents d’aujourd’hui.
Modèle de données RDFLiens RDF
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
• Deux principes• Modèle de données pour publier des données structurées sur le Web• utiliser des liens de ce modèle pour interconnecter les données
provenant de sources différentes
Liens RDF
Source : Traduction : How to Publish Linked Data on the Web? « Blogabriel: http://bit.ly/igfKua
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
EXTRAIRE DES DONNÉES SÉMANTIQUES DE WIKIPEDIA
Extraire des données sémantiques de wikipedia
• Wikipedia est de facto LE vocabulaire contrôlé du web
� définition pour l’ensemble des sites
• DBPEDIA est devenu l’ensemble des ressources
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
• DBPEDIA est devenu l’ensemble des ressources D’URI partagée pour les concepts pour le web sémantique
• DBPEDIA est une brique importante pour lier entre eux différentes données sémantiques
Link Open DATASETS 2007
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
LOD DATASETS 2008
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
LOD DATASETS 2010
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Voir page suivante
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
infobox
Table préformatée de données dynamiquesqui présente sommairement des informations importantes sur un sujet dans un cartouche placé en général à droite de
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
un cartouche placé en général à droite de l‘article
� Différents modèles par domaines
http://fr.wikipedia.org/wiki/Aide:Infobox
infobox infobox
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
TaxoboxTaxobox
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Les microformatsmicroformats.org
• Ensemble de données très simples, ouvertes
• Construit avec les standards existants
• Permet de s’intégrer à l’existant (le web actuel)
• S’appuie sur des modèles simples
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
• S’appuie sur des modèles simples
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Source : Travis Isaacs - microformats @ CE University 8/22/07
RDFa
• syntaxe qui vise à inclure des triples RDF dans le code des pages Web en XHTML. (=microformats)
• Utilise la syntaxe de RDF
• Utilise les attributs du XHTML• Utilise les attributs du XHTML
href, content, rel, rev, and datatype ( XHTML 1) about, role and property ( XHTML 2)
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html?CMP=OTC-TY3388567169&ATT=Introducing+RDFa
RDFa – exemple de code
Exemple 1 (en utilisant le Dublin Core)
<div xmlns:dc="http://purl.org/dc/elements/1.1/"about="http://www.example.com/books/wikinomics"><span property="dc:title">Wikinomics</span>
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html?CMP=OTC-TY3388567169&ATT=Introducing+RDFa
<span property="dc:title">Wikinomics</span><span property="dc:creator">Don Tapscott</span>
<span property="dc:date">2006-10-01</span> </div>
RDFa – exemple de codeExemple 2 RDFa peut aussi s'inscrire naturellement dans le flot du contenu :<p xmlns:dc="http://purl.org/dc/elements/1.1/"about="http://www.example.com/books/wikinomics">Dans son dernier livre <em property="dc:title"> Wikinomics</em>,<span property="dc:creator">Don Tapscott</span>
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://www.xml.com/pub/a/2007/02/14/introducing-rdfa.html?CMP=OTC-TY3388567169&ATT=Introducing+RDFa
<span property="dc:creator">Don Tapscott</span>explique les profonds changements technologiques, démographiques et économiques. Ce livre a été publiéen <span property="dc:date" content="2006-10-01">octobre 2006</span>. </p>
Rdf-a pour les moteurs de recherche
Si dans une page web ont écrit le code
<span id="sartre" about="#sartre" rel="owl:sameAs" href="http://dbpedia.org/page/Jean-Paul_Sartre"> href="http://dbpedia.org/page/Jean-Paul_Sartre"> Jean-Paul Sartre </span>
Le moteur de recherche :
indexe la page Web, mais aussi la notice de Jean-Paul Sartre en RDF dans DBpedia
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Source : http://www.lespetitescases.net/et-si-on-semantisait-un-peu-le-webhttp://radar.oreilly.com/2009/05/google-announces-support-for-m.html
Visualiser le web Sémantique
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
DBPEDIA – RELFINDER
SINDICE
On peut ajouter des ressources « RDF »
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
2- les différents objets
1- Recherche entre plusieurs termes
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
2- le graphe de relation
http://sindice.com/
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Rechercheclassique
Recherche
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Formats
RechercheSur triplet
RecherchePlus précise
Recherche Oryza sativa sur tous les formats
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
L’article dans Mendeley
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala
Recherche Oryza sativa sur le format RDF uniquement
Ecole technique "Transformation des données documentaires". Poitiers, 14-16 mars 2011.
Atelier 4. P. Aventurier, MH. Cathala