bienvenida y charla inaugural sala€¦ · notablemente$ el$ espacio necesario para$ su...

8
Bienvenida y Charla Inaugural ( Sala Gris ) "Urban Analysis for the XXI Century: Using Big Data for Modeling Urban Dynamics" Dr. Enrique FríasMartínez (Telefónica I+D) The recent adoption of ubiquitous computing technologies has enabled the capture of large amounts of spatiotemporal data about human motion. In this context, cell phones, due to their pervasiveness, can be considered as the main sensors of human behavior and as such, can be used as proxies to study urban environments. The digital footprints obtained as a result of applying data mining techniques provide complementary information for the study of social and human dynamics. In this talk, I will present a variety of applications that highlight the potential of using the data collected by pervasive infrastructures in combination with data mining techniques for modelling urban dynamics.

Upload: others

Post on 23-Jan-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bienvenida y Charla Inaugural Sala€¦ · notablemente$ el$ espacio necesario para$ su almacenamiento y$ obtener$ también mejoras$ sustanciales en$ la$ latencia$ de$ red$ pagada$

Bienvenida y Charla Inaugural (Sala Gris)  "Urban  Analysis  for  the  XXI  Century:  Using  Big  Data  for  Modeling  Urban  Dynamics"  Dr.  Enrique  Frías-­‐Martínez  (Telefónica  I+D)  The   recent   adoption  of  ubiquitous   computing   technologies  has  enabled   the   capture  of   large  

amounts  of  spatio-­‐temporal  data  about  human  motion.  In  this  context,  cell  phones,  due  to  their  pervasiveness,  can  be  considered  as  the  main  sensors  of  human  behavior  and  as  such,  can  be  used  as  proxies  to  study  urban   environments.   The   digital   footprints   obtained   as   a   result   of  applying   data   mining   techniques   provide   complementary   information  for  the  study  of  social  and  human  dynamics.  In  this  talk,  I  will  present  a  variety   of   applications   that   highlight   the   potential   of   using   the   data  collected  by  pervasive   infrastructures   in  combination  with  data  mining  techniques  for  modelling  urban  dynamics.  

Page 2: Bienvenida y Charla Inaugural Sala€¦ · notablemente$ el$ espacio necesario para$ su almacenamiento y$ obtener$ también mejoras$ sustanciales en$ la$ latencia$ de$ red$ pagada$

It ’s a Smart World (Sala Gris)    "Supervisión   y   control   de   procesos   industriales   mediante   técnicas   de  Data  Mining"  Dr.   Manuel   Domínguez   González.   Universidad   de   León.   Grupo   de   investigación  SUPPRESS  La   evolución   tecnológica   de   la   última   década   ha   provocado   cambios  muy   importantes   en   la  automatización,   control   y   supervisión   de   los   procesos   industriales.   Las  tecnologías   que   se  manejan  hoy   en  día   facilitan   la   implementación  de  estrategias  avanzadas,   tanto  de  automatización  como  de  control,  pero  también   nos   suministran     volúmenes   elevados   de   información   del  proceso   y   de   cada   uno   de   los   sistemas   que   lo   constituyen.   Esta  información,  en  muchos  de   los  casos,  no  es  utilizada  en  su  totalidad  ni  para  la  supervisión  ni  para  una  gestión  y  explotación  más  eficiente  del  mismo.  La  utilización  de  técnicas   de   minería   de   datos   y   de   machine   learning   permiten   el   tratamiento   de   toda   la  información   disponible   de   manera   que   se   facilita   el   camino   al   desarrollo   de   herramientas  avanzadas  de  supervisión.  Estas   herramientas   permiten   la   extracción   de   conocimiento   del   proceso,   la   obtención   de  modelos   de   su   comportamiento,   la   detección   de   posibles   anomalías,   las   derivas   en   su  funcionamiento  y  en  definitiva  una  toma  de  decisiones  mas  racional  y  coherente.    “BigData  y  ciberseguridad”  Raúl  Riesco  Granadino  (Instituto  Nacional  de  Tecnologías  de  Comunicación  –  INTECO)  Frente  a   las  nuevas  amenazas  en  ciberseguridad,  es   fundamental  para  una  organización  la  aplicación  de  análisis  automáticos  avanzados  de  cada  una  de  las   fuentes   de   información   de   manera   que   se   puedan   prevenir   posibles  riesgos  y  ataques  a  los  que  hacer  frente.          "Cuando  los  árboles  nos  dejan  ver  (y  tocar)  el  bosque"  Roberto  Therón  (Universidad  de  Salamanca-­‐grupo  VisUsal)    Vivimos  una  época  en  que  la  capacidad  de  generar  datos  de  toda  índole  —redes  de  sensores,  

secuenciación   de   genoma,   transacciones   económicas   o   millones   de  interacciones   en   las   redes   sociales,   entre   otras   fuentes—   se   ha  incrementado  hasta  el  punto  de  que  el  mero  procesamiento  algorítmico  de  estos   conjuntos   de   datos   dinámicos,   cambiantes,   y   de   tamaños  desorbitados,   no   es   suficiente:   se   requiere   un   enfoque   holista,   desde   la  adquisición   o   generación   de   los   datos   hasta   su   representación,   y   la  intervención   de   expertos   humanos,   si   se   quiere   obtener   algún  

conocimiento  sobre  los  fenómenos  subyacentes  y  habilitar  la  toma  de  decisiones.      De  esta  forma,  cabe  esperar  una  determinante  incidencia  de  la  visualización  de  datos  en  todos  los  ámbitos  de   la  nueva  economía  en   la  próxima  década;   los  avances  en   las   infraestructuras,  técnicas   de   representación   e   interacción,   van   a   transformar   la   forma   en   que   se   miran  actualmente   los   datos,   generando   y   cubriendo   nuevas   necesidades,   en   las   que   cualquier  

Page 3: Bienvenida y Charla Inaugural Sala€¦ · notablemente$ el$ espacio necesario para$ su almacenamiento y$ obtener$ también mejoras$ sustanciales en$ la$ latencia$ de$ red$ pagada$

persona  será  capaz  de  tocar,  desentrañar,  adaptar  el  bosque  de  datos  hasta  transformarlo  en  una   representación  del  mundo  a  medida,   capaz  de   responder   a   necesidades   individuales   de  conocimiento  y  de  proporcionar  información  individualizada  o  colectiva.          Eficiencia  en  las  operaciones  a  través  de  la  analítica  predictiva  Carolina  García  Vázquez  &  Pedro  García  Parra  (Telefónica  Global  Resources)   Aplicando   técnicas   de   analítica   predictiva,   data   mining   y   visualización   avanzada   sobre   los  datos   almacenados   en   los   sistemas   de   información   de   una   operadora   es  posible   descubrir   patrones,   anomalías   o   relaciones  que   permiten   entender  cómo   están   funcionando   sus   unidades   de   negocio.   Mediante   este   tipo   de  análisis   sobre   las   Operaciones   de   una   Telco   podríamos   ser   capaces   de  detectar  los  aspectos  más  eficientes  de  los  procesos,  aquellos  en  los  que  cabe  un   margen   de   mejora   y   sacar   conclusiones   que   ayuden   en   la   toma   de  decisiones.  Se  comentarán  algunos  ejemplos  de  aplicación  de  estas  técnicas  dentro  del  ámbito  de  las  Operaciones  de  Telefónica.          

Page 4: Bienvenida y Charla Inaugural Sala€¦ · notablemente$ el$ espacio necesario para$ su almacenamiento y$ obtener$ también mejoras$ sustanciales en$ la$ latencia$ de$ red$ pagada$

 

New techniques for new (bigdata) problems (Sala Azul) “Democratic   instance   selection   -­‐   A   linear   complexity   instance   selection  algorithm  based  on  classifier  ensemble  concepts”  Dr.  César  García  Osorio.  Universidad  de  Burgos  -­‐  Grupo  de  Investigación  ADMIRABLE.  

Instance   selection   is   becoming   increasingly   relevant   due   to   the   huge  amount   of   data   that   is   constantly   being   produced   in   many   fields   of  research.  Although  current  algorithms  are  useful   for  fairly   large  datasets,  scaling   problems   are   found   when   the   number   of   instances   is   in   the  hundreds   of   thousands   or   millions.   When   we   face   huge   problems,  scalability   becomes   an   issue,   and   most   algorithms   are   not   applicable.  Thus,   paradoxically,   instance   selection   algorithms   are   for   the   most   part  

impracticable   for   the   same   problems   that   would   benefit   most   from   their   use.   In   this  presentation   a   new   method,   democratic   instance   selection   (DIS),   will   be   presented   which  avoid   this   difficulty   using   several   rounds   of   instance   selection   on   subsets   of   the   original  dataset.   These   rounds   are   combined   using   a   voting   scheme   to   allow   good   performance   in  terms   of   testing   error   and   storage   reduction,   while   the   execution   time   of   the   process   is  significantly   reduced.   The   method   is   particularly   efficient   when   we   use   instance   selection  algorithms  that  are  high  in  computational  cost.  The  proposed  approach  shares  the  philosophy  underlying  the  construction  of  ensembles  of  classifiers.  In  an  ensemble,  several  weak  learners  are   combined   to   form   a   strong   classifier;   in     DIS   several   weak   (in   the   sense   that   they   are  applied  to  subsets  of  the  data)  instance  selection  algorithms  are  combined  to  produce  a  strong  and  fast  instance  selection  method.      

 "Compresión,   Indexación   y   Aplicaciones   sobre   Grandes   Colecciones   de  Datos"    Miguel  A.  Martínez  Prieto  &  Javier  D.  Fernández.  DataWeb  Research,  Departamento  de  Informática,  Universidad  de  Valladolid  El   volumen,   la   velocidad   y   la   variedad   son   las   "tres   V's"   utilizadas   tradicionalmente   para   la  

descripción  del  Big  Data  en  el  ámbito  tecnológico.  Es  un  hecho  que  la  inmediatez  pasa  por  ser  capaces  de  almacenar,  organizar,  filtrar  y  analizar  estos  grandes  volúmenes   de   datos   que,   a   su   vez,   tienden   a   ser  compartidos  más  y  más  en  un  escenario  altamente  distribuido   dentro   del   cual   coexisten   datos  procedentes  de  diferentes  campos  del  conocimiento  humano.   En   otras   palabras,   las   tres   V's   están  

claramente   relacionadas   entre   sí,   por   tanto,   ¿cuál   afrontamos   primero?    Nuestro   trabajo   de  investigación   integra   las   tres   dimensiones   anteriores.   En   primer   lugar,   empleamos  codificaciones   comprimidas   para   representar   el   Big   Data,   lo   que   nos   permite   reducir  

Page 5: Bienvenida y Charla Inaugural Sala€¦ · notablemente$ el$ espacio necesario para$ su almacenamiento y$ obtener$ también mejoras$ sustanciales en$ la$ latencia$ de$ red$ pagada$

notablemente   el   espacio   necesario   para   su   almacenamiento   y   obtener   también   mejoras  sustanciales   en   la   latencia   de   red   pagada   a   la   hora   de   compartir   estas   colecciones.   Sin  embargo,  la  forma  en  la  que  codificamos  el  Big  Data  tiene  un  valor  añadido,  dado  que  permite  el   acceso   directo   a   los   datos   (sin   necesidad   de   descomprimirlos   previamente)   utilizando  estructuras  de  datos  sucintas  específicamente  diseñadas  para  ello.  Esta  decisión  nos  permite  cargar  cantidades  más  grandes  de  datos  en   los  niveles  más  altos  de   la   jerarquía  de  memoria  del   computador,   obteniendo   bases   de   datos   completamente   en   memoria   o   híbridas,  alcanzando  con  ello  una  notable  mejora  en   la  velocidad  con   la  que   la   información  puede  ser  accedida   y   extraída.      En   esta   presentación   revisaremos   los   principios   fundamentales   en   los  que  basamos  las  decisiones  anteriores  y  mostraremos  algunos  ejemplos  reales  de  compresión  e   indexación   de   grandes   conjuntos   de   datos,   prestando   especial   atención   a   nuestros  resultados  en  el  área  de  la  web  de  datos  y  la  gestión  de  colecciones  anotadas  semánticamente  (RDF)  a  gran  escala.  No  son  pocas  las  voces  que  consideran  los  modelos  semánticos  como  los  más  apropiados  para  la  gestión  de  la  variedad  del  Big  Data;  si  a  esto  le  sumamos  su  uso  masivo  en  proyectos  de  Open  Data  a  nivel   internacional,  obtenemos  que   la  gestión  eficiente  de  "Big  Semantic   Data"   puede   ser   un   elemento   clave   a   la   hora   de   optimizar   el   valor   obtenido   por  nuestras  aplicaciones.    “Contribuciones  metodológicas  y  casos  aplicados  en  el  análisis  de  datos”.  Pedro   C.   Álvarez   Esteban.   (Instituto   de   Investigación   en   Matemáticas   de   la   UVA   –  IMUVA)  En  la  exposición  se  presentará,  en  base  a  resultados  de  nuestros  equipos,  una  panorámica  de  la  evolución  de  los  procedimientos  de  Análisis  Cluster  tanto  desde  el  punto  de   vista   del   tipo   de   datos   (multivariantes,   señales,   series   temporales,...)  como  de  las  formas  asociadas  a  las  agrupaciones  y  a  la  posible  existencia  de  ruido   en   los   datos.   Comentaremos   nuestras   contribuciones   en   algoritmos  eficientes  en  la  búsqueda  de  configuraciones  de  las  agrupaciones.  También  se   presentarán   algunas   de   nuestras   experiencias   con   datos   reales  especialmente  en  temas  de  Biomedicina  (en  oftalmobiología,  proteómica  y  genómica,  señales  neurológicas,...).          Análisis  de  patologías  de  CGH  arrays  mediante  cloud.  Juan  Francisco  De  Paz  Santana.  Universidad  de  Salamanca    El   uso   de   CGH   arrays   permite   la   detección   de   regiones  cromosómicas   que   presenta   alteraciones   con   respecto   a  determinadas  muestra  que  se  toman  de  control.  La  consulta  de  alteraciones   en   regiones   cromosómicas   requiere   del   acceso   a  bases   de   datos   para   consultar   información   sobre   los   genes,  proteínas   o   variaciones   asociadas   a   las   regiones   de   interés.   El  volumen  de   información  suele  ser  bastante  elevado  por   lo  que  acceder   a   dicha   información   a   partir   de   las   bases   de   datos  públicas   presenta   problemas   de   eficiencia   y   rendimiento.   En  este  trabajo  se  ha  creado  un  sistema  que  se  conecta  a  un  cloud.  El   sistema   permite   analizar   gráficamente   la   información   de   los   CGH   arrays   y   obtiene   la  información  de  relevancia  a  partir  de  la  información  existente  en  el  cloud  acelerando  de  esta  manera  el  procesado  de  la  información.      

Page 6: Bienvenida y Charla Inaugural Sala€¦ · notablemente$ el$ espacio necesario para$ su almacenamiento y$ obtener$ también mejoras$ sustanciales en$ la$ latencia$ de$ red$ pagada$

Diseño  de  una  herramienta  de  búsqueda  de  documentos  en  base  a  diferentes  perfiles    Francisco  José  Palacios  Burgos  &  Oscar  Javier  Prieto  Izquierdo.  Escuela  Politécnica  Superior.    Universidad  Europea  Miguel  de  Cervantes.  Actualmente   la   cantidad   de   publicaciones   de   carácter   académico   accesibles   en   la  Web  hace  que  la  tarea  de  búsqueda  de  documentos  relacionados  con  una  determinada  temática  se  haya  vuelto  complicada,  al  existir  diferentes  repositorios,  cada  uno  de  ellos  con  diferentes  métodos  de  búsqueda  y  de  clasificación  de  documentos.  La  posibilidad  de  realizar  una  herramienta  que  permita  realizar  búsquedas  dentro  de  la  Web  a  partir  de  un  perfil  específico  de  investigación  del   usuario   de   manera   automática   puede   ser   una   utilidad   que   ahorre   tiempo   y   optimice  resultados.  Esta  propuesta  se  encuentra  en  una  fase  inicial  de  análisis  de  tecnologías  y  busca  proponer  un  sistema  capaz  de  generar  diferentes  perfiles  de  búsqueda  que  permitan  que  un  usuario  reciba  notificaciones  sobre  el  estado  de  investigación  de  uno  o  varios  campos  en  base  a  factores  personalizados.  Con  objeto  de  dotar  al  sistema  de  una  infraestructura  adecuada,  se  planea   evaluar   la   utilización   de   un   framework   de   cálculo   distribuido   con   capacidad   para   el  almacenamiento  de  grandes  volúmenes  de  información.  En  una  primera  fase  se  trabajará  con  el  proyecto  Apache  Hadoop  y  todo  el  stack  software  que  éste  proporciona.  Se  planea  construir  un   prototipo   funcional   del   sistema   empleando   una   distribución   Linux   para   alto   rendimiento  que  tenga  integrada  la  herramienta  desarrollada  sobre  Apache  Hadoop.  El  prototipo  se  podrá  emplear  en  modo  LiveCD  con  propósitos  educativos  o  de  testing  o  bien  en  modo   instalación  para  configurar  con  ello  un  entorno  de  producción  real.  

Page 7: Bienvenida y Charla Inaugural Sala€¦ · notablemente$ el$ espacio necesario para$ su almacenamiento y$ obtener$ también mejoras$ sustanciales en$ la$ latencia$ de$ red$ pagada$

 

Understanding Human Behaviour (Sala Gris)  “Proyecto  Ponceus”  Victor  Temprano.  MCV  &  GDP  Software  

 Ponceus  ofrece  un  análisis  de  redes  sociales   tanto  cuantitativo  como   cualitativo   así   como   la  medición   del   impacto   económico  de   una   actuación   pública   o   privada,   con   especial   hincapié   en  las    materias  de  Turismo  y  Comercio.  También  permite  conocer  la  facturación  en  una  zona  concreta  a  través  de  la  explotación  de  datos   geolocalizados   fruto   de   un   acuerdo   de   colaboración   con  una  entidad  bancaria   internacional.  Cubrimos  así,   también,  una  necesidad  de  información  en  relación  al  retorno  de  la  inversión,  

tanto  económico  como  de  imagen  de  una  acción  desarrollada  por  organismos,  tanto  públicos  como  privados.    “Descubriendo  las  estrategias  sociales  a  partir  de  los  patrones  temporales  de  comunicación  humana”  Dr.  Estebán  Moro  (Universidad  Carlos  III  de  Madrid  e  Instituto  de  Ingeniería  del  Conocimiento)  En   esta   ponencia   repasaremos   nuestro   trabajo   realizado   sobre   el   estudio   de   los   patrones  temporales   de   la   comunicación   humana.   Utilizando  grandes   bases   de   datos,   mostraremos   como   es  posible    descubrir   a   partir   de   ellos   comportamientos  universales  en  la  comunicación  y,  en  definitiva,  cómo  es  la  estructura  y  dinámica  de  las  redes  sociales.  En  particular,  mostraremos   nuestros   resultados   sobre    i)   cómo  organizamos   nuestro   tiempo   para   mantener   nuestras  relaciones   sociales   (estrategias   sociales),   ii)   como   se  difunde  mejor  una   información/rumor  en   la  sociedad,   iii)  o  qué  características  más  relevantes  del  patrón  temporal  de  las  llamadas  entre  dos  personas  predicen  la  estabilidad  de  una  relación.  Este  trabajo  se  ha  realizado  conjuntamente  con  Telefónica  I+D.    “Cell  City  2012”  Ana  Armenta  López  de  Vicuña  &  Rafael  Pellón  Gómez-­‐Calcerrada,  PDI,  Telefónica  Digital  Durante   el   año   2012,   Telefónica  Digital   realizó   una   colaboración  con  la  Universidad  de  Columbia  para  el  análisis  de  datos  anónimos  y   agregados   de   los   patrones   de   movilidad   en   México   DF,  empleando  la  visualización  como  herramienta  narrativa.    

Page 8: Bienvenida y Charla Inaugural Sala€¦ · notablemente$ el$ espacio necesario para$ su almacenamiento y$ obtener$ también mejoras$ sustanciales en$ la$ latencia$ de$ red$ pagada$

Mesa Redonda BigData: El retorno de la inversión, moderada por Dr. Rubén Lara, Area Manager de BigData en PDI, Telefónica Digital . (Sala Gris)