azure data usando hdinsight ejemplo hadoop: madreduce, hive, pig

18
Azure Data Introducción a HDInsight Freddy Angarita C. MVP SQL Server @flacMVP | geeks.ms/blogs/fangarita/ @sqlpassmed

Upload: freddy-angarita

Post on 28-May-2015

489 views

Category:

Data & Analytics


0 download

DESCRIPTION

Presentación de HDInsight donde la nube y Big Data se encuentran. HDInsight es basado en Hadoop para proveer capacidades de almacenamiento y análisis de grandes volúmenes de datos en la nube (Azure)

TRANSCRIPT

Page 1: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

Azure DataIntroducción a HDInsight

Freddy Angarita C.MVP SQL Server@flacMVP | geeks.ms/blogs/fangarita/ @sqlpassmed

Page 2: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

ApplicationBuilding Blocks

storagebig data

caching

CDN

database

identity

media

messaging

networking

trafficcloud

services

Page 3: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

DemoConfiguración Storage y HDInsight

Page 4: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

Hadoop• Framework• Procesamiento distribuido• Modelo de programación simple• Diseñado para escalabilidad• Cada Nodo ofrece computación y

almacenamiento• Diseñada para ser tolerante a fallos

Page 5: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

Hadoop -Componentes• Framework de procesamiento• HDFS (Hadoo Distributed File System)

Page 6: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

Esquema de Datos Tecnología de Consumo

Relacionales SQL

No relacionales NoSql (Not Only SQL)

Hadoop MapReduce

Consumo de información

Page 7: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

MapReduce• Consumo de Datos mediante trabajos

(normalmente Java)• Alta Flexibilidad – Alta complejidad• Ha aumentado su adopción pero como DW

• Opciones• Hive – query en MapReduce

Page 8: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

Distribuido en el clúster• Los datos y el procesamiento se hospeda

en cada máquina• Agrega redundancia y tolerancia a fallos• El procesamiento ocurre localmente

Page 9: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

Cómo consulta

Master Node

JobTracker

TaskTracker

TaskTracker

TaskTracker

TaskTracker

TaskTracker

Page 10: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

HDFS• Replica los datos en otros nodos (128M)• NameNode: Dónde están los datos• DataNodes: Almacenamiento de la

información• Cada máquina: más procesamiento, más

almacenamiento

Page 11: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

DemoEjecutar un Job desde PowerShell

Page 12: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

DemoObtener Resultados del Job localmente

Page 13: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

DemoConectar herramientas BI (Excel)

PowerQuery http://bit.ly/1loMSko

Page 14: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

HIVE• Consultas en paralelo usando MapReduce• Lenguaje parecido a SQL – HiveQL• Ideal para procesar grandes volúmenes de datos

inmutables• No se recomienda para almacenamiento transaccional• Optimizado para• Escalabilidad• Extensibilidad• Tolerancia a Fallos

• No se considera mucho la latencia

Page 15: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

Ejecución Query HIVEEjemplo:

2012-02-03 20:26:41 SampleClass3 [ERROR] verbose detail for id 1527353937

Page 16: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

Ejecución Invoke-Hive

Page 17: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

• Alternativa para escribir MapReduce• Pasos• Carga: lee la información a usar• Transformación: Manipulación de los datos• Volcar o almacenar: Salida a pantalla o a almacenamiento

PIG

Page 18: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG

Acompáñanos mañana en EAFIT en el Bloque 19, Piso 4 desde las 9 a.m.

Evento de Comunidad