2016-02-24 - architetture per i big data
TRANSCRIPT
Roma - 24 Febbraio 2016Alberto Paro, BNova Technical Advisor
Architetture per i Big Data
Alberto Paro Laureato in Ingegneria Informatica (POLIMI)
Technical Advisor per BNova Autore di due libri su ElasticSearch + 6 Tech review Lavoro principalmente in Scala e su tecnologie BD (Akka, Spray.io, Playframework, Apache Spark) e NoSQL (Cassandra, ElasticSearch e MongoDB)
Evangelist linguaggio Scala e Scala.JS
Apache Hadoop
Distribuzioni Hadoop
Batch vs Streaming
Architettura Standard
Hadoop – Sfatiamo i miti Hadoop è formato da una pluralità di prodotti Hadoop è si un opensource, ma disponibile attraverso i
vendors Hadoop è un ecosistema di prodotti, non un singolo
prodotto HDFS è un File System, non è un Database Management
System (DBMS) Hive e famiglia somigliano a SQL, non lo sono
Hadoop – Sfatiamo i miti Hadoop e MapReduce sono correlati ma non hanno
bisogno l’uno dell’altro MapReduce fornisce un sistema di controllo per gli
Analytics, non gli Analytics di per sé Hadoop è utile per trattare dati di varia natura, non solo il
volume dei dati Hadoop completa il Data Warehouse, raramente lo
sostituisce Hadoop abilita diversi tipi di Analytics, non solo i Web
Analytics
Distribuzioni Hadoop – Perchè? Integrazione tra componenti Hadoop di diverse versioni Ottimizzazione delle configurazioni Sistemi di deploy semplificati Sistemi di monitoring Supporto tecnico Stabilità della soluzione => Riduzione del TCO
Distribuzioni Hadoop – Forrester Q1 2016
Cloudera
Hortonworks
Batch vs Streaming
Architettura Standard
Grazie per l’attenzione
Alberto Paro
Q&A