monitorizaciÓn y anÁlisis de trÁfico de red con apache hadoop
TRANSCRIPT
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICODE RED CON APACHE HADOOP
Rubén García-Valcárcel, Rafael Leira, Iván González,Jorge E. López de Vergara
[email protected], {rafael.leira, ivan.gonzalez,jorge.lopez_vergara}@uam.es
JITEL 2015 – 15 de Octubre de 2015
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Tabla de contenidos
1 Introducción
2 Estado del arte
3 Sistema propuestoArquitectura de la redSistema de capturaArquitectura del sistemaProcesamiento en Hadoop
4 ExperimentosAnálisis mediante HiveRendimiento
Sistemas utilizadosComparativa global
5 Conclusiones
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 2
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Introducción
Objetivo: Monitorización pasiva y Análisis de redes decomunicaciones.
Necesidad de un sistema escalable y fiable frente al crecimientoexponencial de las redes
Diseño de un sistema para la captura, el almacenamiento, elprocesamiento y el análisis de tráfico de red basado en Hadoop
Evaluación del sistema mediante la monitorización de la red de loslaboratorios docentes de la Escuela Politécnica Superior (en laUAM).
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 3
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Estado del arte
Herramientas habituales para la captura y procesamiento de tráficoBajas tasas de red (tcpdump, wireshark...)Altas tasas de red
APIs de alta velocidad (Intel DPDK...)Hardware dedicado (GPUs, FPGAs...)
Computación distribuidaGoogle: GFS y MapReduceApache: HDFS y YARN
Procesamiento de tráfico mediante Hadoop[RIPE]: Pesada, lenta y limitada. Librerías de terceros[Yeonhee Lee]: Heurística de fragmentado PCAP. Código liberadoincompleto
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 4
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Arquitectura de la redSistema de capturaArquitectura del sistemaProcesamiento en Hadoop
Sistema propuestoArquitectura de la red de prueba
Red interna
Internet
Sonda decaptura
Firewall
Hadoop
TAP
Servidor DNS
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 5
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Arquitectura de la redSistema de capturaArquitectura del sistemaProcesamiento en Hadoop
Sistema de capturaFlowProcess
La sonda de captura:Almacena los paquetes:
En formato PCAPTruncados a 300 bytes (por motivos de privacidad, también reduce elespacio consumido)Crea archivos de aproxidamente 1 GB
La sonda descarta los paquetes que contengan la dirección IP de lapropia sonda.
Genera archivos en texto plano con información relativa a los flujos(Netflow extendido)
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 6
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Arquitectura de la redSistema de capturaArquitectura del sistemaProcesamiento en Hadoop
Sistema propuestoArquitectura del sistema
HadoopAnálisisPreprocesamientoCaptura
PCAPs
Flujos
DNS
HTTP
HTTPS
Tareas MapReduce
Hive
PCAPs
Tablas
Gráficas
Deseria-lizador
PrediccionesWeka
Admin
Sonda decaptura
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 7
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Arquitectura de la redSistema de capturaArquitectura del sistemaProcesamiento en Hadoop
Procesamiento
Se parte del trabajo de [RIPE], pero:Se han reimplementado de los disectores de HTTP y DNSImplementación de un nuevo disector de HTTPS
Mejora de rendimientoEliminación del reensamblado TCPGuardado de los campos en estructuras fijas en lugar de una tablahash.
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 8
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Análisis mediante HiveRendimiento
ExperimentosAnálisis mediante Hive
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 9
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Análisis mediante HiveRendimiento
ExperimentosAnálisis mediante Hive
Series temporales del consumo de la red por días (periodo 20/02/15 − 01/05/15)
Series temporales del consumo de la red por horas (periodo 16/03/15 − 20/03/15)
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 10
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Análisis mediante HiveRendimiento
ExperimentosAnálisis mediante Hive
Bytes (exterior) y flujos (interior) usados por cada protocolo y puerto
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 11
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Análisis mediante HiveRendimiento
ExperimentosAnálisis mediante Hive
Las 16 asignaturas que más han consumido (periodo 02/02/15 − 01/05/15)
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 12
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Análisis mediante HiveRendimiento
ExperimentosAnálisis mediante Hive
Ordenadores encendidos cada noche (periodo 02/02/15 − 01/05/15)
Ordenadores inactivos cada semana (periodo 02/02/15 − 01/05/15)
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 13
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Análisis mediante HiveRendimiento
ExperimentosAnálisis mediante Hive
Páginas web más solicitadas vía HTTP (izquierda) y HTTPS (derecha)
agrupadas por dominio de segundo nivel
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 14
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Análisis mediante HiveRendimiento
Pruebas de rendimientoSistemas utilizados
Características de los sistemas de pruebasSistema
RAMDiscos CPU
Total Red(GB) cores (Gbps)
Hadoop
Esclavo 1 32 5x 3 TB 1x Xeon L5408 @ 2,13 GHz 4 1Esclavo 2 32 5x 3 TB 1x Xeon L5408 @ 2,13 GHz 4 1Esclavo 3 256 4x 3 TB 4x Xeon E7-4830 @ 2,13 GHz 32 1Esclavo 4 64 7x 3 TB 2x Xeon E5-2620 v3 @ 2,40 GHz 12 1Esclavo 5 64 7x 3 TB 2x Xeon E5-2620 v3 @ 2,40 GHz 12 1
Servidor Alto Rendimiento 32 RAID 0: 9x 3 TB 2x Xeon E5-2630 @ 2,6 GHz 12 -[Y. Lee] (30 nodos) 30x 19 30x 4 TB 30x 8 cores @ 2,93 GHz 240 1
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 15
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Análisis mediante HiveRendimiento
Pruebas de rendimientoComparativa global
Rendimiento de cada sistema al procesar 1 TB
Programa Gbps Gbps/core
Hadoop
Disector HTTP 7,13 0,11Disector HTTPS 7,41 0,12Disector DNS 7,72 0,12Test de lectura 4,98 0,08
Disector HTTP serie (en c) en S.A.R. 4,21 4,21 (1 core)
Versión de [Y. Lee]5 nodos 1,9 0,0530 nodos 14,0 0,06
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 16
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Conclusiones
Se ha creado una batería de consultas en Hive, y un medio paracrear nuevos análisis de la red.
El proyecto Apache Hadoop permite escalar horizontalmente confacilidad.
Con un bajo coste de desarrollo se han alcanzado 7 Gbps.
Se pretende integrar el sistema con otros de Big Data como ApacheMahout, extendiendo así sus capacidades.
No obstante Hadoop tiene limitaciones: Java,homogeneidad/heterogeneidad del clúster, etc.
Dichas limitaciones se pretenden superar investigando en el campodel almacenamiento (HDFS), así como en las posibles uniones deHadoop con hardware específico (GPUs, FPGAs...) con el objetivode crear un sistema más económico y estable.
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 17
IntroducciónEstado del arte
Sistema propuestoExperimentosConclusiones
Gracias por su atención
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 18