seminario de extracción de información
DESCRIPTION
Seminario de Extracción de Información. DAPPER: The Data Mapper. Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos [email protected]. INDICE. Problemática ¿ Qué es DAPPER ¿ Cómo crear un Dapp ? ¿ Cómo usar un Dapp ? Dos ejemplos prácticos - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/1.jpg)
Seminario de Extracción de Información
DAPPER: The Data Mapper
Rubén Izquierdo BeviáDepartamento de Lenguajes y Sistemas Informáticos
![Page 2: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/2.jpg)
2
INDICE1. Problemática2. ¿ Qué es DAPPER3. ¿ Cómo crear un Dapp?4. ¿ Cómo usar un Dapp?5. Dos ejemplos prácticos6. Características Interesantes7. Algunos problemas de DAPPER
![Page 3: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/3.jpg)
3
ProblemáticaEn 2008, alrededor de 160 millones de webs
Estructura heterogénea y dinámica
Datos semi-estructurados
Desarrollo manual de wrappers◦ Especializado por web◦ Muy costoso de desarrollar◦ Todavía más de mantener
![Page 4: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/4.jpg)
4
¿Qué es DAPPER?Herramienta de Extracción de
Información desde Internet
![Page 5: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/5.jpg)
5
¿Qué es DAPPER?Servicio web, gratuito (registro)No es necesario programar (entorno visual)Fases:
◦1 desarrollo del Dapp para una web◦∞ usos del Dapp sobre diferentes webs
Nos permitirá:◦Extraer la información requerida de una web◦Utilizarla de diferentes modos
![Page 6: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/6.jpg)
6
¿Cómo crear un DAPP?1. Varias muestras de webs con la
misma estructura
![Page 7: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/7.jpg)
7
¿Cómo crear un DAPP?
![Page 8: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/8.jpg)
8
¿Cómo crear un DAPP?1. Varias muestras de webs con la
misma estructura2. Definir información que queremos
![Page 9: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/9.jpg)
9
¿Cómo funciona DAPPER?TITULARSUBTITULAR
CUERPO
![Page 10: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/10.jpg)
10
¿Cómo crear un DAPP?1. Varias muestras de webs con la
misma estructura2. Definir información que queremos3. DAPPER aprende y propone
automáticamente• Información estática / dinámica• Estructura y etiquetas HTML (XPATH)
4. Refinamos el Dapp5. Guardamos el Dapp
![Page 11: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/11.jpg)
11
¿Cómo usar un DAPP? Suscribirnos mediante un lector
◦ RSS Feed (formato de redifusión de fuentes web)
◦ Atom Feed
Ponerlo en nuestra página web◦ Gadget Google◦ Módulo Netvibes◦ Widget en flash
![Page 12: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/12.jpg)
12
¿Cómo usar un DAPP? Usarlo desde un lenguaje de
programación◦ XML◦ JSON◦ YAML, XSL, CSV …
Otros◦ iCal◦ Google Map
![Page 13: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/13.jpg)
13
Ejemplo Práctico IExtraer información de noticias
del diario MARCA◦Titular◦Subtitular◦Cuerpo
Crear un widget para mi página web
![Page 14: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/14.jpg)
14
Ejemplo Práctico IICrear un buscador que use yahoo
Crear un gadget para iGoogle
![Page 15: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/15.jpg)
15
Características Interesantes
Uso de variables de entrada◦ Query para un buscador
Creación de alertas◦ Email cuando en cuerpo de noticia aparezca “Rubén
Izquierdo”
Enlazar varios Dapp◦ Dapp buscador inglés Dapp traductor
Explotación de Dapp’s◦ API JAVA◦ Python…
![Page 16: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/16.jpg)
16
Algunos problemas de DAPPERNo funciona con flash
Algunas web bloquean al robot de DAPPER
Limitación hits/segundo
Se ejecuta en el servidor de Yahoo◦Dependencia de Yahoo◦Dependencia de la carga de la red
![Page 17: Seminario de Extracción de Información](https://reader036.vdocuments.net/reader036/viewer/2022062501/56815ea8550346895dcd37a1/html5/thumbnails/17.jpg)
¿Sugerencias? ¿Preguntas?
DAPPER: The Data Mapper
Rubén Izquierdo BeviáDepartamento de Lenguajes y Sistemas Informáticos