machine learning e internet de las...
TRANSCRIPT
Machine Learning e Internet de las Cosas
Jhon Jairo Padilla A., PhD.
Internet de las Cosas- Historia
● Concepto nacido a principios de los 2000● Base: cambio tecnológico de IPv4 a IPv6● Direcciones de 128 bits (10,000 direcciones/m2 sobre la
tierra)● Al tener tantas direcciones disponibles se pensó en darle uso
en objetos comunes: ropa, empaques de comida, electrodomésticos, juguetes, etc.
● Aparición de las WSN (tecnologías como Zigbee, autoconfigurables)
Perspectiva multi-nivel sobre las transiciones
Internet of Things- Applications
IoT-Applications
IOT
SmartCities
SmartFarming
Domotic & BMS
SmartCities
IndustrialDataNetworks
Wereables
Internet de las Cosas (Internet of Things- IoT)
IoT: Domótica
Jhon Jairo Padilla Aguilar Redes de Datos
IoT: Domótica
Jhon Jairo Padilla Aguilar Redes de Datos
IoT: Building Management Systems (BMS)
IoT: Building Management Systems (BMS)
Sensores de presencia
Sensores humedad, CO24..20mA
Medidores de energía térmica
M-Bus
Salidas digitalespara gestión
remota
Control climatización
Consumos de Agua y gas
Contadores energía
Analizadores potenciaModbus
Sensores temperaturaPT100
IoT: Gestión Eficiencia Energética en Edificios
IoT: Smart Cities
IoT: Smart Cities- Manejo de basuras
Smart Cities: Monitoreo Estructural
Smart Cities-Aplicaciones médicas
• Provisión de interfaces para discapacitados• Monitoreo de pacientes integrado• Diagnóstico• Telemonitoreo de datos fisiológicos humanos• Seguimiento de los doctores y los pacientes dentro
de un hospital• Suministro de drogas en un hospital
Jhon Jairo Padilla Aguilar, PhD.
Aplicaciones de Triage en Desastres
Jhon Jairo Padilla Aguilar, PhD.
Equipo utilizado
Jhon Jairo Padilla Aguilar, PhD.
Smart Cities: Bomberos
Jhon Jairo Padilla Aguilar, PhD.
Aplicaciones ambientales
• Seguimiento de los movimientos de pájaros, pequeños animales e insectos• Monitoreo ambiental de condiciones que afectan los cultivos y el ganado• Irrigación• Monitoreo de la tierra y exploración planetaria• Detección química/biológica• Monitoreo en entornos marinos, atmosféricos y terrestres• Investigación meteorológica o geofísica• Estudio de la contaminación• Agricultura de precisión• Mapeo de la biodiversidad ambiental• Detección de inundaciones• Detección de incendios forestales
Jhon Jairo Padilla Aguilar, PhD.
Ejemplo: Monitoreo de la Calidad de Aire
Monitoreo del Habitat: Great duck Island Nodos ubicados en madrigueras
(presencia, temp, humedad)
Nodos de seguimiento del clima
Nodos sobre tierra
Detección evento
La WSN transporta la información hasta la casa
Recolección de información y Tx a Internet
Jhon Jairo Padilla Aguilar, PhD.
Huntington Botanical Gardens•Mediciones: Cada nodo mide temperatura, humedad, cantidad de luz, tanto en el aire como en el suelo.
•Cálculos: Efectos de la lluvia en un área; si hay resequedad, se abren los aspersores (a menos que se detecte que es posible que llueva)
Jhon Jairo Padilla Aguilar, PhD.
Detección de incendios Forestales
Cada nodo tiene:• Sensores de temperatura y humedad• Sensor de presión barométrica• Unidad GPS• Acelerómetro• Sensor de intensidad de luz
Jhon Jairo Padilla Aguilar, PhD.
Vida cotidiana: Gestión del mercado de la casa
IoT: Smart Cities
IoT: Smart Farming
IoT: Smart Farming
Redes de Datos Industriales
Número de Objetos conectados para el 2020
Proyecciones en el crecimiento de la cantidad de información
Crecimiento en las fuentes de información
Big Data
• Big Data es una tecnología informática• Desarrollada para analizar y extraer información de
grandes cantidades de datos.
Surgimiento de Big Data
• Surgió debido a la gran cantidad de información que se genera en Internet cada día desde diferentes dispositivos tanto de escritorio como móviles.
• Basada en sistemas desarrollados por empresas como Yahoo y Google para las búsquedas y la extracción de información de gustos y tendencias de sus usuarios para mostrarles información adaptada a sus gustos e intereses.
Big Data- Necesidad
Big Data• El concepto de Big
Data comprende las 3 V´s:
• Volúmenes: Grandes volúmenes de datos
• Velocidad: Procesamiento de alta velocidad
• Variedad: Gran variedad de datos que son difíciles de recopilar, almacenar y procesar usando tecnologías disponibles.
Big Data sirve para:
• Recolección de datos (en tiempo real)• Almacenar Datos (confiablemente, seguramente)• Procesar Datos (Gestión de carga de trabajo)• Analizar Datos (Gestión de los metadatos)• Servir Datos (interactivamente, baja latencia)
Machine Learning
• Es una rama de la ciencia que busca el aprendizaje automático de las máquinas.
• Learning: reconocer y entender los datos de entrada y tomar decisiones inteligentes basadas en los datos.
• Los algoritmos construyen conocimiento a partir de datos específicos y experiencias pasadas, mezclándolos con principios estadísticos, teoría de probabilidades, lógica, optimización combinatoria, búsqueda, aprendizaje reforzado y teoría de control.
Ejemplo de Minería de Datos
Aplicaciones de Machine Learning
• Procesamiento de la visión• Procesamiento del lenguaje• Proyecciones (ej: tendencias del mercado)• Reconocimiento de patrones• Juegos• Data Mining• Sistemas Expertos• Robótica
Aprendizaje Supervisado
• Aprender una función a partir de datos de entrenamiento disponibles• Analiza los datos de entrenamiento y produce una función inferida
que puede usarse para mapear nuevos ejemplos.• Ejemplos:
• Clasificar e-mails como Spam• Etiquetar páginas web basadas en su contenido• Reconocimiento de voz
• Técnicas:• Redes neuronales• Support Vector Machines (SVMs)• Naive Bayes Classifiers (Usado en Mahout)
Aprendizaje no supervisado• Toma sentido con datos no etiquetados y sin tener
ningún tipo de conjunto de datos para su entrenamiento• Muy usado para análisis de datos y búsqueda de
patrones y tendencias.• Utilizado para organizar entradas similares en grupos
lógicos (Clustering).• Algunas técnicas comunes para aprendizaje no
supervisado son:• K-means• Self-organizing maps• Hierarchical Clustering
Recomendación (Recommendation)
• Es una técnica que provee recomendaciones útiles basadas en la información del usuario, tales como compras previas, clicks y ratings (calificaciones).
• Amazon usa esta técnica para desplegar una lista de ítems recomendados en los que el usuario podría estar interesado. Hay motores de Recomendación que trabajan detrás de Amazon para capturar el comportamiento del usuario y seleccionar los ítems a recomendar según sus acciones pasadas.
• Facebook usa esta técnica para sugerir “gente que usted podría conocer”.
Clasificación
• También conocida como Categorización• Es una técnica de Machine Learning que usa los datos
conocidos para determinar cómo los nuevos datos deben ser clasificados en un conjunto de categorías existentes.
• Es una forma de aprendizaje supervisado• Ejemplos:
• Servicio de correo: Yahoo y Gmail usan esto para determinar si un mensaje es Spam o va para el buzón de entrada. Analizan los hábitos del usuario.
• iTunes usa clasificación para preparar las Play lists.
Clustering
• Es usada para formar grupos o clusters de datos similares basándose en características comunes.
• Es una forma de aprendizaje no supervisado• Revisa completamente los datos de entrada y decide
bajo qué cluster debe ser agrupado.• Aplicaciones:
• Los motores de búsqueda tales como Google y Yahoo usan clustering para agrupar datos con características similares
• Los grupos de noticias usan técnicas de clustering para agrupar varios artículos basados en tópicos relacionados.
Infraestructura para aprovechamiento de los datos de IoT
Pasos para Big Data y Minería de datos
Herramientas informáticas para Big Data
Suite Hadoop: Cloudera
HDFS: Lectura/Escritura Archivos
Lectura: Escritura:
Comparación HDFS vs HBASE
HDFS• Optimizado para:
• Grandes archivos• Acceso secuencial (Alto
rendimiento)• Sólo agregar datos
• Usado para:• Tablas que son para agregar
solamente y requieren búsquedas secuenciales de la tabla completa
HBASE
• Optimizado para:• Registros pequeños• Acceso aleatorio (baja
latencia)
• Usado para:• Tablas de dimensiones que son
actualizadas frecuentemente y requieren búsquedas aleatorias de baja latencia
Cómo trabaja MapReduce: Datos del climaPaso 1:
Para visualizar cómo trabaja Map, considere las siguientes líneas de ejemplo de datos de entrada:
Paso 2:
Estas líneas son presentadas a Map como pares clave-valor.
Las claves representan el offset dentro del archivo y son ignoradas por la función Map.
Cómo trabaja MapReduce: Datos del clima
Paso 3:
La función Map extrae el año de medición y el valor de la temperature del aire. Estos están en negrilla en la figura.
Paso 4:
El resultado se presenta a MapReduce y este lo ordena por año en orden ascendente, con sus respectivos valores de temperatura para cada año.
Cómo trabaja MapReduce: Datos del clima
Paso 5: La función Reduce toma el valor máximo de temperatura en un año y lo asocia con su respectivo año
Flujo de Datos MapReduce con una sola función de reducción
Flujo de Datos MapReduce con múltiples funciones de reducción
Montaje Típico de dos niveles para clusters Hadoop
• Típicamente hay 30 a 40 servidores por rack, con un switch de 1 Gbps
• Un enlace hacia un Switch de núcleo o router con velocidades de 1Gbps o superior.
Máximo rendimiento de un Cluster Hadoop• Configurar Hadoop para
que conozca la topología de red.
• Con un solo rack no hay nada que configurar, se usa el mínimo tamaño por defecto.
• Se pueden usar Clusters multi-rack
Clusters Multi-rack en Hadoop
• Se requiere mapear los nodos a los racks. • Haciendo esto, Hadoop preferirá las transferencias dentro de racks (donde
hay mayor ancho de banda disponible) cuando ubique las tareas MapReduce en los nodos.
• También, HDFS será capaz de ubicar replicas más inteligentemente para obtener un buen equilibrio entre rendimiento y resiliencia.
• Las ubicaciones de red tales como nodos y racks se representan en un árbol que refleja la distancia de red entre ubicaciones.
• El nodo usa la ubicación de red para determinar dónde ubicar las replicas de bloques
• El monitor de trabajos (jobtracker) usa la ubicación de red para determinar donde está la replica más cercana como entrada para una tarea de Map, la cual es planificada para ejecutarse en un tasktracker.
Entrada/Salida de Datos en Hadoop
• Hadoop viene con un conjunto de primitivas para E/S de datos.
• Verifica la integridad de los datos• Realiza compresión• Pero lo hace con una gran cantidad de datos
(multiterabytes)• Otras herramientas de Hadoop forman bloques
constitutivos para desarrollar sistemas distribuidos, tales como herramientas de serialización y estructuras de datos para discos.
HUE: Interfaz Gráfica de Generación de reportes
Mahout: Motor de Machine Learning
• Mahout es quien monta y controla al elefante (hadoop)
• Es usado para crear algoritmos de Machine Learning escalables
• Implementa 3 técnicas de Machine Learning:
• Recomendación• Clasificación• Clustering
Beneficios de Mahout
• Los algoritmos de Mahout están escritos en el Top de Hadoop, por lo que trabaja bien en ambientes distribuidos.
• Usa las librerías de Apache Hadoop para ser escalable en la nube.
• Ofrece una interfaz fácil de usar para los programadores que quieren hacer data-mining en grandes volúmenes de datos.
• Incluye diferentes implementaciones de Clustering que utiliza MapReduce, tales como k-means, fuzzy k-means, Canopy, Dirichlet, y Mean-Shift.
• Soporta implementaciones de algoritmos de clasificación como: Naive Bayes y Complementary Naive Bayes.
Quienes usan Mahout?
• Adobe• Facebook• LinkedIn• FourSquare (recommender Engine para hacer las
recomendaciones de lugares cercanos)• Twitter (modelado de intereses de los usuarios)• Yahoo (reconocimiento de patrones)
Ejemplo: Big Data y Agricultura
Decisiones importantes en agricultura
Fuentes y aplicaciones de Big Data para Agricultura
Beneficios de Big Data
Líderes de la industria Agrícola en Big Data
Big Data visto como negocio en Agricultura
Big Data para Agricultura Cooperativa
Cómo cambia el Big Data el mercado?• Productores Agrícolas:
• Pros:• Decisiones más informadas buscando prácticas de producción de cultivos• Mayores rendimientos• Menores costos
• Contras:• Los sistemas de análisis de datos propietarios podrían limitar el acceso a alternativas
• Supervisores de cultivos y proveedores de servicio:• Pros:
• Nuevas oportunidades de negocio asociadas con los servicios de datos
• Contras:• Riesgo de que pequeños negocios de consultoría sean sacados del negocio presionados
por el mercado
Aspectos de Big Data como negocio
• Propiedad Intelectual• Tiene el propietario del
terreno derechos de propiedad sobre los datos de los datos de agricultura?
• Si se contrata un tercero para muestreo de suelos y fertilización, tendrá derechos de propiedad?
• Quién tiene acceso a los datos del propietario del terreno? Puede él entregar sus datos a terceras partes de su elección?
Aspectos de Big Data como negocio
• Otros Aspectos:• Protección contra ataques informáticos?• El banco de datos es independiente o puede proponer
servicios de gestión de negocios y agronomía?
Situación actual del Big Data en Agricultura• Implantación prácticamente nula en Latinoamérica• Ausencia de estandarización de la industria permite que
haya un mercado libre para servicios de datos• Los ganadores en el mercado serán aquellos que
obtengan resultados que aumentan los beneficios y que mantengan la integridad de los datos en granjas.
Dificultades para implantar Big Data en Agricultura
Hacia dónde vamos????