![Page 1: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/1.jpg)
Big Data – La revolución de los datos
John Alexander Bulla TorresSQL Server MVP
Microsoft Azure
![Page 2: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/2.jpg)
Big Data Insights
@johnbulla
bit.ly/johnbulla
linkedin.com/in/johnbulla
![Page 3: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/3.jpg)
Agenda ¿Por que Big Data?
Conceptos Básicos
Microsoft y Hadoop
![Page 4: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/4.jpg)
¿Por que Big Data?
Microsoft Azure
![Page 5: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/5.jpg)
Tendencias Claves
Microsoft Azure
![Page 6: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/6.jpg)
Big Data – La revolución en los datos
6
Los datos digitales crecerán40x próxima década
En 2015, servicios de nube pública tendrán 46% de crecimiento neto en gasto de ti
Microsoft Azure
![Page 7: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/7.jpg)
![Page 8: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/8.jpg)
![Page 9: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/9.jpg)
Big Data analytics
Microsoft Azure
![Page 10: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/10.jpg)
¿Qué es Big Data?
"Big data" es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable.
Microsoft Azure
![Page 11: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/11.jpg)
¿Qué es Big Data?
Big data es una colección de conjuntos de
datos tan grande y complejo que se vuelve
difícil para trabajar con el uso de
herramientas de gestión de base de datos
tradicionales. Las dificultades incluyen la
captura, almacenamiento, búsqueda,
intercambio, análisis y visualización.
Fuente: Eduardo Castro MVP – SQL Saturday #247 Bogotá
Microsoft Azure
![Page 12: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/12.jpg)
¿Qué es Big Data?
Big Data: “ Barreras para que una
organización o equipo puedan almacenar,
procesar y acceder todos los datos que
necesitan para operar con eficiencia, tomar
decisiones, reducir riesgos, etc.”
Fuente: SolidQ
Microsoft Azure
![Page 13: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/13.jpg)
¿Qué es Big Data?
Volumen
Velocidad
Variedad
Variabilidad
Microsoft Azure
![Page 14: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/14.jpg)
Internet of Things
Audio / Video
Log Files
Text/Image
Social Sentiment
Data Market Feeds
eGov Feeds
Weather
Wikis / BlogsClick Stream Sensors / RFID / Devices
Spatial & GPS Coordinates
Modern WebMobile
Advertising CollaborationeCommerce
Digital Marketing
Search Marketing
Web Logs
Recommendations
ERP / CRM
Sales Pipeline
Payables
Payroll
Inventory
Contacts
Deal Tracking
Terabytes
(10e12)
Gigabytes
(10e9)
Exabytes
(10e18)
Petabytes
(10e15)
Velocidad | Variedad | Variabilidad
Vo
lum
en
ERP / CRM Modern Web Internet of Things
¿Qué es Big Data?
Microsoft Azure
(kB) 10e3
(MB) 10e6
(GB) 10e9
(TB) 10e12
(PB) 10e15
(EB) 10e18
(ZB) 10e21
(YB) 10e24
![Page 15: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/15.jpg)
Ejemplos de Big Data
12 Tbdía
21 PbHadoop
cluster
7 Pbmes
1 Tbtweets/dia
75
Millionscores/day
14 TbHadoop
cluster
4 BillionGraph
edg/day
7 Tbdatos/dia
Microsoft Azure
![Page 16: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/16.jpg)
Escenarios de Business Analytics
• Análisis sencillo de gran cantidad de datos no estructurados: Microsoft HDInsight
• Análisis sencillo de datos en memoria: Microsoft StreamInsight
• Análisis en profundidad: SQL Server y Self-Service BI
16Microsoft Azure
![Page 17: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/17.jpg)
Flujo de datos de un tradicional E-Commerce
![Page 18: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/18.jpg)
Nuevo flujo de Big Data de un E-Commerce
¿Cuántas vistas
para ciertos
productos aume
ntan cuando
nuestros
anuncios se ven
en TV?
![Page 19: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/19.jpg)
Conceptos básicos
Microsoft Azure
![Page 20: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/20.jpg)
Características de Big Data
![Page 21: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/21.jpg)
¿Qué es Hadoop?
• Plataforma de almacenamiento de datos y análisis para Big Data
• Open Source
• Optimizado para manejar
• Datos masivos a través de paralelismo
• Variedad de datos (Estructurados, No-estructurados, Menos estructurados)
• Uso de hardware económico
• No para OLTP / OLAP
21
![Page 22: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/22.jpg)
¿Qué es HDInsight?
• Proyecto Isotope
• HDInsight es la distribución de Microsoft de Apache Hadoop que se ejecuta en Windows.
• On premise: Instalación en Windows Server
• Cloud: Despliegue en la nube Microsoft Azure
22
![Page 23: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/23.jpg)
RDBMS vs. Hadoop
![Page 24: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/24.jpg)
![Page 25: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/25.jpg)
Distributed Storage
(HDFS)
Query
(Hive)
Distributed Processing
(MapReduce)
OD
BC
Legend■ Core Hadoop
■ Data processing
■ Data Movement
■ Packages
Ecosistema Hadoop
![Page 26: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/26.jpg)
Hadoop Core +
Hive, Pig, HBase
C#, F#, .NET
Azure Storage (WASB)
Office 365 Power BI
(Excel, PowerQuery,
PowerView,
BI Sites)
World's Data (Azure Data
Marketplace)
HDInsight y Hadoop
ODBCSqoop for SQL
ServerPowerShell
![Page 27: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/27.jpg)
HDInsight y Hadoop
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Flume
JDBC
Hive ODBC
Microsoft Azure & Windows Server
MicrosoftBI
Platform
![Page 28: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/28.jpg)
Ofertas detalladas
![Page 29: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/29.jpg)
Programando HDInsight
Hive, Pig, Mahout, Pegasus…
C#, F# Map/Reduce, Microsoft .NET management clients
PowerShell, cross-platform CLI tools
![Page 30: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/30.jpg)
Ejemplos HiveQL
•Crear una Tabla Externa
31Microsoft Azure
CREATE EXTERNAL TABLE iislogs(sdate string, stime string, ssitename string, csmethod string, csuristem string, csuriquery string, sport int, scstatus int, scbytes int, sbytes int, timetaken int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
LOCATION'wasb://[email protected]/'
select sdate, stime, csmethod, scuristem, query_params['api-version'] as api_version,query_params['search_value'] as search_value
from (select *, str_to_map(csuriquery, '&', '=') as query_paramsfrom iislogs
) version_logswhere query_params['api-version'] is not null
•Ejecutar un query para retornar datos
![Page 31: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/31.jpg)
Demo
HDInsight en Microsoft Azure
![Page 32: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/32.jpg)
![Page 33: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/33.jpg)
Libro Gratis de Microsoft Azure HDInsight
• Download the PDF (6.37 MB; 130 pages)http://aka.ms/IntroHDInsight/PDF
• Download the EPUB (8.46 MB)http://aka.ms/IntroHDInsight/EPUB
• Download the MOBI (12.8 MB)http://aka.ms/IntroHDInsight/MOBI
Recursos
![Page 34: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/34.jpg)
24 Horas PASS en Español
http://bit.ly/24hopes201440
![Page 35: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/35.jpg)
41
![Page 36: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/36.jpg)
Big Data Insights
@johnbulla
bit.ly/johnbulla
linkedin.com/in/johnbulla
![Page 37: CloudCamp - Big Data – La revolución de los datos](https://reader030.vdocuments.net/reader030/viewer/2022032714/55ab09fc1a28abcf718b45c9/html5/thumbnails/37.jpg)