datarace: iot e big data (italian)

32
Previously known as Think Big. Move Fast.

Upload: davide-mauri

Post on 22-Jul-2015

251 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: Datarace: IoT e Big Data (Italian)

Previously known as

Think Big. Move Fast.

Page 2: Datarace: IoT e Big Data (Italian)

Big Data e Internet of Things. Analizzare in modo semplice,

veloce ed economico i datiDatarace: Lesson Learned & Reference

Architecture

Page 3: Datarace: IoT e Big Data (Italian)

Agenda

9.00-9.30 Registrazione e welcome coffee

9.30-9.45 Benvenuto

9.45-10.30 La Business Intelligence nella visione strategica di Microsoft

10.30-11.15 Big Data e Internet of Things. Analizzare in modo semplice, veloce ed economico i dati

11.15-12.00 Big Data nello sport: come far fruttare i propri dati

12.00-12.15 Q&A

12.15-12.45 Light Lunch

Page 4: Datarace: IoT e Big Data (Italian)

Timing Data Service

• Timing company leader a livello nazionale per numero di atleti cronometrati• oltre 350.000 atleti

• più di un 1.000.000 di tempi di gara

• Non solo atletica:• ciclismo, MTB, sci di fondo ed altre per un totale di oltre 30 discipline coperte

• Offre servizi organizzativi, come • grafica TV

• gestione delle iscrizioni

• la produzione di materiali (pettorali, volantini, buste, ecc.)

Page 5: Datarace: IoT e Big Data (Italian)

SolidQ

• Società Globale di consulenza sulla Piattaforma Dati Microsoft• Nata nel 2002 in Spagna & North America

• Divisione Italiana aperta nel 2007

• Oltre 200 professionisti in tutto il mondo• Maggior concentrazione di MVP su SQL Server

• Offre servizi di Consulenza, Advisory, Mentoring e Formazione su• Data Warehousing, Business Intelligence, Big Data & Analytics

• Performance Tuning, Performance Monitoring, Alta Disponibilità e Disaster Recovery

• Offre soluzioni di Remote DBA, Security Assessment, Check-Up, Cloud BI

Page 6: Datarace: IoT e Big Data (Italian)

Davide Mauri

• Microsoft SQL Server MVP

• Works with SQL Server from 6.5, on BI from 2003

• Specialized in Data Solution Architecture, Database Design, Performance Tuning, High-Performance Data Warehousing, BI, Big Data

• President of UGISS (Italian SQL Server UG)

• Regular Speaker @ SQL Server events

• R&D Director @ SolidQ• Consulting, Training, Mentoring, Advisory

• E-mail: [email protected]

• Twitter: @mauridb

• Blog: http://sqlblog.com/blogs/davide_mauri/default.aspx

Page 7: Datarace: IoT e Big Data (Italian)

Big Data nello sport: come far fruttare i propri dati

Page 8: Datarace: IoT e Big Data (Italian)

Come far fruttare i propri dati?

• Dal 2013 si parla di Big Data ovunque

• Tutti vogliono farlo ma• Panorama tecnologico in *forte* movimento

• Architetture in evoluzione

• Un pò di diffidenza da parte delle aziende• Tutti si ricordano la bolla del 2000 e la quantità notevole di progetti falliti

• In molti aspettano che qualcun altro faccia il primo passo

• Oltre il 40% delle aziende indica che ha ancora problemi di fonti dati non integrate• Dalla ricerca dell’Osservatorio sulla BI del Politecnico di Milano del 2014

Page 9: Datarace: IoT e Big Data (Italian)

Come far fruttare i propri dati?

• Intando, nel mondo…

Page 10: Datarace: IoT e Big Data (Italian)

Come far fruttare i propri dati?

• Come quindi mostrare a tutti che I Big Data possono essere alla portata di tutte le società?• Per essere più competitive

• Per essere più efficienti

• Per essere più coscienti

• Il progetto Datarace nasce nel 2014• TDS identificato come partner ideale

• Molti dati già raccolti

• Molte analisi possibili

• Molti dati da raccogliere• Utilizzando le stesse soluzioni che poi saranno usate per l’Internet of Things

Page 11: Datarace: IoT e Big Data (Italian)

Datarace

www.datarace.eu

Page 12: Datarace: IoT e Big Data (Italian)

Come far fruttare i propri dati?

• Obbiettivo: definire un’architettura di riferimento che potesse anche essere usata internamente • Applicazione pratica su un cliente (Online Bank) già in fase conclusione

• Obbiettivo: fare «percepire con mano» cosa sono i big data agli utenti• Big Dirty Data: nel backoffice

• Small Nice Useful Data: per l’utente finale

• Problema: nel 2014 Azure era molto diverso da ora• Sfida: progettare un’architettura modulare che potesse essere facilmente migliorata nel

tempo

• SolidQ Adaptive BI Framework: «Apply the smallest change possibile»• www.adaptivebi.it

Page 13: Datarace: IoT e Big Data (Italian)

Big Data e Internet of Things. Analizzare in modo semplice, veloce ed economico i dati

Page 14: Datarace: IoT e Big Data (Italian)

Data Science

Data Lifecycle in Life

https://seddryck.wordpress.com/

Page 15: Datarace: IoT e Big Data (Italian)

Data Science

DecisionKnowledgeInformationData

Data Lifecycle in Business

Page 16: Datarace: IoT e Big Data (Italian)

Internet Of Things

• Aumenterà ancora di più la quantità di dati a cui si avrà accesso

• Le soluzioni Big Data / Analytics saranno il “cervello” alla quale tutti I sensori(IoT) saranno collegati

• Abbiamo provato a far diventare il “saranno” in “sono”.

Page 17: Datarace: IoT e Big Data (Italian)

Problematiche

• Memorizzazione di grosse mole di dati• In modo (molto) economico

• Di facile utilizzo futuro

• Altamente scalabile (per avere tempi di elaborazione buoni)

• Difficile previsione di crescita• Esplosiva?

• Lineare?

• Facilità di fruizione delle informazioni elaborate• User Experience semplice, ma con la possibilità di “guardare dentro”

Page 18: Datarace: IoT e Big Data (Italian)

Problematiche

• Dati strutturati e semistrutturati, sicuramente non omogenei• Qualità del dato molto molto bassa

• http://www.zerounoweb.it/approfondimenti/business-intelligence/information-management-la-sfida-della-qualit-del-dato.html (C. Vercellis, P.Pasini)

• Fonti dati multiple• duplicazioni

• errori

• obsolescenza

• Complessità nella gestione economicamente sostenibili di grandi quantità di dati• Non si è sicuri che lo sforzo sia giustificato

Page 19: Datarace: IoT e Big Data (Italian)

Big Data

• C’è un modo molto semplice di spiegare e capire I Big Data:

Page 20: Datarace: IoT e Big Data (Italian)

Cloud

• Permette di avvicinarsi ai big data in modo economicamente sostenibile• Una volta fatto un progetto piccolo è facile scalare• I costi possono essere molto contenuti

• Addirittura gratis in alcuni casi: AzureML

• Rende tecnologie complesse come Hadoop (molto) più semplici di manutenere• "Despite considerable hype and reported successes for early adopters, 54 percent of survey

respondents report no plans to invest at this time”, Gartner 2015• http://www.computerworlduk.com/news/data/hadoop-big-data-adoption-fails-live-up-hype-says-gartner-

3611739/

• Attenzione però! “Il cloud è movimento”

• Processo di continuos improvement è parte del processo di sviluppo• Ogni 6/12 mesi revisione di una parte dell’architettura

Page 21: Datarace: IoT e Big Data (Italian)

Architettura ConcettualeData Sources

Fast / Easy Ingest

Collect / Stock

Batch Process

Cure / Enrich / Purify

Store

Publish

Analyze

Discover / Mine

(N)RTE Process

Page 22: Datarace: IoT e Big Data (Italian)

Arch. Logica – Load & ProcessData Sources

Sensors

ERP

Ingest

Distributed Blob Store

Event/ETL Service

Collect / Stock Batch Process

Grid Computing

Cure / Match / Purify

Grid Computing

Distilled Data

Column Store

Page 23: Datarace: IoT e Big Data (Italian)

Arch. Logica – External User Access

Distilled Data

Column Store

End User

REST Service

Cache Engine

Query Manager

Cache Engine

Key-Value Store

Cached Data Multichannel Devices

Page 24: Datarace: IoT e Big Data (Italian)

Arch. Logica – Internal User Access

Distilled Data

Column Store

End User

Excel / PowerBI

Page 25: Datarace: IoT e Big Data (Italian)

Arch. Logica – Analytics / Exploration

Distilled Data

Column Store

Exploration

Data ScientistDistributed Blob Store

Collect / Stock

Batch Process

Grid Computing

Analytics

Machine Learning

Distilled Data

Column Store

Page 26: Datarace: IoT e Big Data (Italian)

Platform Selection

• Perchè Azure?• Fornisce soluzioni a tutti i desiderata definiti nell’architettura logica

• Con costi elastici

• Abilita soluzioni ibride

• Forte integrazione con IDE conosciuti e standard de facto (Visual Studio)

• Vision coerente e di lungo periodo

• E’ un piattaforma OPEN a tutti gli effetti• Integrazione con Python, PHP, R, Hadoop, ecc. ecc.

• Riutilizzo esperienze e know-how interni

Page 27: Datarace: IoT e Big Data (Italian)

Architettura Fisica

• Data Sources• RDBMS

• JSON RESTful service

• Wikipedia

• Fast Ingest• Ad-Hoc .NET Service su Virtual Machine

• vNext: Azure Event Hub + Azure Data Factory

• Stock• Azure Blob Store per JSON

• SQL Server / SQL Azure per dati strutturatiCollect / Stock

Fast Ingest

Data Sources

Page 28: Datarace: IoT e Big Data (Italian)

Architettura Fisica

• Batch Process su Raw Stock • HDInsight + Python Scripts + Hive Queries• Batch load con SSIS + HDInsight ODBC

• Data Processing (VM + SQL Azure)• SQL Server In-Memory Engine / ColumnStore• T-SQL + SSIS• Ad-Hoc .NET Scripts (dentro SSIS)• vNext: Azure Stream Analytics

• Identity Mapping (VM)• Multi-level Fuzzy Matching algorithm in SSIS• vNext: HDInsight + Tez/Spark

Batch Process

Data Process

Data Process

Page 29: Datarace: IoT e Big Data (Italian)

Architettura Fisica

• Distilled Data• SQL Azure

• Analytics (Clustering, Forecasting)• Azure ML

• Cache Engine• Azure Redis

Distilled Data

Analytics

Analytics

Page 30: Datarace: IoT e Big Data (Italian)

Architettura Fisica

• Web Application (Azure Web Apps)• REST Service per il Query Manager

• HTML5 + Async JQuery Front End

• Data Exploration• Excel per i Data Scientist

• PowerBI per gli utilizzatori finali “evoluti” • Dove il sito web non basta

Analytics

Exploration

Page 31: Datarace: IoT e Big Data (Italian)

Risultati

• Applicazione online dall’aprile 2015• Massima efficienza nell’utilizzo delle Risorse

• Nessun problema anche dopo eventi importanti come la Maratona di Milano

• Funzionamento 24/7• Sincronizzazione con I dati sorgenti in tempo reale e batch in funzione del sorgente

stessa

Page 32: Datarace: IoT e Big Data (Italian)

Previously known as

Think Big. Move Fast.