machine learning e internet de las...

Machine Learning e Internet de las Cosas

Jhon Jairo Padilla A., PhD.

Internet de las Cosas- Historia

● Concepto nacido a principios de los 2000● Base: cambio tecnológico de IPv4 a IPv6● Direcciones de 128 bits (10,000 direcciones/m2 sobre la

tierra)● Al tener tantas direcciones disponibles se pensó en darle uso

en objetos comunes: ropa, empaques de comida, electrodomésticos, juguetes, etc.

● Aparición de las WSN (tecnologías como Zigbee, autoconfigurables)

Perspectiva multi-nivel sobre las transiciones

Internet of Things- Applications

IoT-Applications

IOT

SmartCities

SmartFarming

Domotic & BMS

SmartCities

IndustrialDataNetworks

Wereables

Internet de las Cosas (Internet of Things- IoT)

IoT: Domótica

Jhon Jairo Padilla Aguilar Redes de Datos

IoT: Building Management Systems (BMS)

Sensores de presencia

Sensores humedad, CO24..20mA

Medidores de energía térmica

M-Bus

Salidas digitalespara gestión

remota

Control climatización

Consumos de Agua y gas

Contadores energía

Analizadores potenciaModbus

Sensores temperaturaPT100

IoT: Gestión Eficiencia Energética en Edificios

IoT: Smart Cities

IoT: Smart Cities- Manejo de basuras

Smart Cities: Monitoreo Estructural

Smart Cities-Aplicaciones médicas

• Provisión de interfaces para discapacitados• Monitoreo de pacientes integrado• Diagnóstico• Telemonitoreo de datos fisiológicos humanos• Seguimiento de los doctores y los pacientes dentro

de un hospital• Suministro de drogas en un hospital

Jhon Jairo Padilla Aguilar, PhD.

Aplicaciones de Triage en Desastres


Equipo utilizado


Smart Cities: Bomberos


Aplicaciones ambientales

• Seguimiento de los movimientos de pájaros, pequeños animales e insectos• Monitoreo ambiental de condiciones que afectan los cultivos y el ganado• Irrigación• Monitoreo de la tierra y exploración planetaria• Detección química/biológica• Monitoreo en entornos marinos, atmosféricos y terrestres• Investigación meteorológica o geofísica• Estudio de la contaminación• Agricultura de precisión• Mapeo de la biodiversidad ambiental• Detección de inundaciones• Detección de incendios forestales


Ejemplo: Monitoreo de la Calidad de Aire

Monitoreo del Habitat: Great duck Island Nodos ubicados en madrigueras

(presencia, temp, humedad)

Nodos de seguimiento del clima

Nodos sobre tierra

Detección evento

La WSN transporta la información hasta la casa

Recolección de información y Tx a Internet


Huntington Botanical Gardens•Mediciones: Cada nodo mide temperatura, humedad, cantidad de luz, tanto en el aire como en el suelo.

•Cálculos: Efectos de la lluvia en un área; si hay resequedad, se abren los aspersores (a menos que se detecte que es posible que llueva)


Detección de incendios Forestales

Cada nodo tiene:• Sensores de temperatura y humedad• Sensor de presión barométrica• Unidad GPS• Acelerómetro• Sensor de intensidad de luz


Vida cotidiana: Gestión del mercado de la casa

IoT: Smart Cities

IoT: Smart Farming

Redes de Datos Industriales

Número de Objetos conectados para el 2020

Proyecciones en el crecimiento de la cantidad de información

Crecimiento en las fuentes de información

Big Data

• Big Data es una tecnología informática• Desarrollada para analizar y extraer información de

grandes cantidades de datos.

Surgimiento de Big Data

• Surgió debido a la gran cantidad de información que se genera en Internet cada día desde diferentes dispositivos tanto de escritorio como móviles.

• Basada en sistemas desarrollados por empresas como Yahoo y Google para las búsquedas y la extracción de información de gustos y tendencias de sus usuarios para mostrarles información adaptada a sus gustos e intereses.

Big Data- Necesidad

Big Data• El concepto de Big

Data comprende las 3 V´s:

• Volúmenes: Grandes volúmenes de datos

• Velocidad: Procesamiento de alta velocidad

• Variedad: Gran variedad de datos que son difíciles de recopilar, almacenar y procesar usando tecnologías disponibles.

Big Data sirve para:

• Recolección de datos (en tiempo real)• Almacenar Datos (confiablemente, seguramente)• Procesar Datos (Gestión de carga de trabajo)• Analizar Datos (Gestión de los metadatos)• Servir Datos (interactivamente, baja latencia)

Machine Learning

• Es una rama de la ciencia que busca el aprendizaje automático de las máquinas.

• Learning: reconocer y entender los datos de entrada y tomar decisiones inteligentes basadas en los datos.

• Los algoritmos construyen conocimiento a partir de datos específicos y experiencias pasadas, mezclándolos con principios estadísticos, teoría de probabilidades, lógica, optimización combinatoria, búsqueda, aprendizaje reforzado y teoría de control.

Ejemplo de Minería de Datos

Aplicaciones de Machine Learning

• Procesamiento de la visión• Procesamiento del lenguaje• Proyecciones (ej: tendencias del mercado)• Reconocimiento de patrones• Juegos• Data Mining• Sistemas Expertos• Robótica

Aprendizaje Supervisado

• Aprender una función a partir de datos de entrenamiento disponibles• Analiza los datos de entrenamiento y produce una función inferida

que puede usarse para mapear nuevos ejemplos.• Ejemplos:

• Clasificar e-mails como Spam• Etiquetar páginas web basadas en su contenido• Reconocimiento de voz

• Técnicas:• Redes neuronales• Support Vector Machines (SVMs)• Naive Bayes Classifiers (Usado en Mahout)

Aprendizaje no supervisado• Toma sentido con datos no etiquetados y sin tener

ningún tipo de conjunto de datos para su entrenamiento• Muy usado para análisis de datos y búsqueda de

patrones y tendencias.• Utilizado para organizar entradas similares en grupos

lógicos (Clustering).• Algunas técnicas comunes para aprendizaje no

supervisado son:• K-means• Self-organizing maps• Hierarchical Clustering

Recomendación (Recommendation)

• Es una técnica que provee recomendaciones útiles basadas en la información del usuario, tales como compras previas, clicks y ratings (calificaciones).

• Amazon usa esta técnica para desplegar una lista de ítems recomendados en los que el usuario podría estar interesado. Hay motores de Recomendación que trabajan detrás de Amazon para capturar el comportamiento del usuario y seleccionar los ítems a recomendar según sus acciones pasadas.

• Facebook usa esta técnica para sugerir “gente que usted podría conocer”.

Clasificación

• También conocida como Categorización• Es una técnica de Machine Learning que usa los datos

conocidos para determinar cómo los nuevos datos deben ser clasificados en un conjunto de categorías existentes.

• Es una forma de aprendizaje supervisado• Ejemplos:

• Servicio de correo: Yahoo y Gmail usan esto para determinar si un mensaje es Spam o va para el buzón de entrada. Analizan los hábitos del usuario.

• iTunes usa clasificación para preparar las Play lists.

Clustering

• Es usada para formar grupos o clusters de datos similares basándose en características comunes.

• Es una forma de aprendizaje no supervisado• Revisa completamente los datos de entrada y decide

bajo qué cluster debe ser agrupado.• Aplicaciones:

• Los motores de búsqueda tales como Google y Yahoo usan clustering para agrupar datos con características similares

• Los grupos de noticias usan técnicas de clustering para agrupar varios artículos basados en tópicos relacionados.

Infraestructura para aprovechamiento de los datos de IoT

Pasos para Big Data y Minería de datos

Herramientas informáticas para Big Data

Suite Hadoop: Cloudera

HDFS: Lectura/Escritura Archivos

Lectura: Escritura:

Comparación HDFS vs HBASE

HDFS• Optimizado para:

• Grandes archivos• Acceso secuencial (Alto

rendimiento)• Sólo agregar datos

• Usado para:• Tablas que son para agregar

solamente y requieren búsquedas secuenciales de la tabla completa

HBASE

• Optimizado para:• Registros pequeños• Acceso aleatorio (baja

latencia)

• Usado para:• Tablas de dimensiones que son

actualizadas frecuentemente y requieren búsquedas aleatorias de baja latencia

Cómo trabaja MapReduce: Datos del climaPaso 1:

Para visualizar cómo trabaja Map, considere las siguientes líneas de ejemplo de datos de entrada:

Paso 2:

Estas líneas son presentadas a Map como pares clave-valor.

Las claves representan el offset dentro del archivo y son ignoradas por la función Map.

Cómo trabaja MapReduce: Datos del clima

Paso 3:

La función Map extrae el año de medición y el valor de la temperature del aire. Estos están en negrilla en la figura.

Paso 4:

El resultado se presenta a MapReduce y este lo ordena por año en orden ascendente, con sus respectivos valores de temperatura para cada año.

Cómo trabaja MapReduce: Datos del clima

Paso 5: La función Reduce toma el valor máximo de temperatura en un año y lo asocia con su respectivo año

Flujo de Datos MapReduce con una sola función de reducción

Flujo de Datos MapReduce con múltiples funciones de reducción

Montaje Típico de dos niveles para clusters Hadoop

• Típicamente hay 30 a 40 servidores por rack, con un switch de 1 Gbps

• Un enlace hacia un Switch de núcleo o router con velocidades de 1Gbps o superior.

Máximo rendimiento de un Cluster Hadoop• Configurar Hadoop para

que conozca la topología de red.

• Con un solo rack no hay nada que configurar, se usa el mínimo tamaño por defecto.

• Se pueden usar Clusters multi-rack

Clusters Multi-rack en Hadoop

• Se requiere mapear los nodos a los racks. • Haciendo esto, Hadoop preferirá las transferencias dentro de racks (donde

hay mayor ancho de banda disponible) cuando ubique las tareas MapReduce en los nodos.

• También, HDFS será capaz de ubicar replicas más inteligentemente para obtener un buen equilibrio entre rendimiento y resiliencia.

• Las ubicaciones de red tales como nodos y racks se representan en un árbol que refleja la distancia de red entre ubicaciones.

• El nodo usa la ubicación de red para determinar dónde ubicar las replicas de bloques

• El monitor de trabajos (jobtracker) usa la ubicación de red para determinar donde está la replica más cercana como entrada para una tarea de Map, la cual es planificada para ejecutarse en un tasktracker.

Entrada/Salida de Datos en Hadoop

• Hadoop viene con un conjunto de primitivas para E/S de datos.

• Verifica la integridad de los datos• Realiza compresión• Pero lo hace con una gran cantidad de datos

(multiterabytes)• Otras herramientas de Hadoop forman bloques

constitutivos para desarrollar sistemas distribuidos, tales como herramientas de serialización y estructuras de datos para discos.

HUE: Interfaz Gráfica de Generación de reportes

Mahout: Motor de Machine Learning

• Mahout es quien monta y controla al elefante (hadoop)

• Es usado para crear algoritmos de Machine Learning escalables

• Implementa 3 técnicas de Machine Learning:

• Recomendación• Clasificación• Clustering

Beneficios de Mahout

• Los algoritmos de Mahout están escritos en el Top de Hadoop, por lo que trabaja bien en ambientes distribuidos.

• Usa las librerías de Apache Hadoop para ser escalable en la nube.

• Ofrece una interfaz fácil de usar para los programadores que quieren hacer data-mining en grandes volúmenes de datos.

• Incluye diferentes implementaciones de Clustering que utiliza MapReduce, tales como k-means, fuzzy k-means, Canopy, Dirichlet, y Mean-Shift.

• Soporta implementaciones de algoritmos de clasificación como: Naive Bayes y Complementary Naive Bayes.

Quienes usan Mahout?

• Adobe• Facebook• LinkedIn• FourSquare (recommender Engine para hacer las

recomendaciones de lugares cercanos)• Twitter (modelado de intereses de los usuarios)• Yahoo (reconocimiento de patrones)

Ejemplo: Big Data y Agricultura

Decisiones importantes en agricultura

Fuentes y aplicaciones de Big Data para Agricultura

Beneficios de Big Data

Líderes de la industria Agrícola en Big Data

Big Data visto como negocio en Agricultura

Big Data para Agricultura Cooperativa

Cómo cambia el Big Data el mercado?• Productores Agrícolas:

• Pros:• Decisiones más informadas buscando prácticas de producción de cultivos• Mayores rendimientos• Menores costos

• Contras:• Los sistemas de análisis de datos propietarios podrían limitar el acceso a alternativas

• Supervisores de cultivos y proveedores de servicio:• Pros:

• Nuevas oportunidades de negocio asociadas con los servicios de datos

• Contras:• Riesgo de que pequeños negocios de consultoría sean sacados del negocio presionados

por el mercado

Aspectos de Big Data como negocio

• Propiedad Intelectual• Tiene el propietario del

terreno derechos de propiedad sobre los datos de los datos de agricultura?

• Si se contrata un tercero para muestreo de suelos y fertilización, tendrá derechos de propiedad?

• Quién tiene acceso a los datos del propietario del terreno? Puede él entregar sus datos a terceras partes de su elección?

Aspectos de Big Data como negocio

• Otros Aspectos:• Protección contra ataques informáticos?• El banco de datos es independiente o puede proponer

servicios de gestión de negocios y agronomía?

Situación actual del Big Data en Agricultura• Implantación prácticamente nula en Latinoamérica• Ausencia de estandarización de la industria permite que

haya un mercado libre para servicios de datos• Los ganadores en el mercado serán aquellos que

obtengan resultados que aumentan los beneficios y que mantengan la integridad de los datos en granjas.

Dificultades para implantar Big Data en Agricultura

Hacia dónde vamos????

machine learning e internet de las...

Documents