hadoop, big data e cloud computing

74
Hadoop, Big Data e Cloud Computing Hadoop Users Group SP José Papo AWS Tech Evangelist @josepapo

Upload: amazon-web-services-latin-america

Post on 25-May-2015

2.029 views

Category:

Technology


0 download

DESCRIPTION

Hadoop, Big Data e Cloud Computing . Palestra realizada no Hadoop Users Group São Paulo

TRANSCRIPT

Page 1: Hadoop, Big Data e Cloud Computing

Hadoop, Big Data

e Cloud Computing

Hadoop Users Group SP

José Papo

AWS Tech Evangelist

@josepapo

Page 2: Hadoop, Big Data e Cloud Computing
Page 3: Hadoop, Big Data e Cloud Computing
Page 4: Hadoop, Big Data e Cloud Computing

4 bytes x 1.000.000 domicílios x 1 medição/mês x 10 anos

480 MBytes

Page 5: Hadoop, Big Data e Cloud Computing

4 bytes x 1.000.000 domicílios x 1 medição/min x 10 anos

220 TBytes

Page 6: Hadoop, Big Data e Cloud Computing

Onde se vê Big Data

Mídia/

Propaganda

Anuncios Dirigidos

Processa-mento de vídeos e imagens

Óleo e Gás

Análise Sismica

Varejo

Recomen-dações

Análise de Transações

Telecom

Cobrança

Log de Ligações

Uso dos Produtos

Instituições Financeiras

Simulações de Monte

Carlo

Análise de Riscos

Segurança

Anti-virus

Detecção de Fraudes

Reconheci-mento de Imagens

Marketing e Jogos

(sobretudo social)

Analise Comporta-

mental

Análise de Uso

Métricas “In-game”

Page 7: Hadoop, Big Data e Cloud Computing

“Running 30 Hadoop machines on-premises costs less

than $500,000 vs. at least $7 million for an appliance. No

wonder everyone is looking out for Hadoop talent… It’s a

no-brainer when you plug in real numbers”.

Por que novas soluções para Big Data?

Page 8: Hadoop, Big Data e Cloud Computing

Amazon Elastic MapReduce: Clusters já criados por clientes

5.5 M clusters desde Maio de 2010

Page 9: Hadoop, Big Data e Cloud Computing

Alguns clientes do Elastic MapReduce

Page 10: Hadoop, Big Data e Cloud Computing
Page 11: Hadoop, Big Data e Cloud Computing

Sobre o Papel da AWS e

Benefícios alcançados

• 4 bilhões de requisições por mês;

• +300 mil requisições por minuto;

• +200 milhões de recomendações todos os dias;

• Spot instances: -20% custo aws.

Page 12: Hadoop, Big Data e Cloud Computing

Apontador e MapLink

e AWS

Apoio:

Page 13: Hadoop, Big Data e Cloud Computing

• Hive (~ 40 instancias spot m3.large)

90% - Utilidades diárias

• Streaming

10% - Solr, MapReduces mais complexos (MCMC, FastFourier, e.g.)

• Estrutura usada

Hive ( ~ 40 instancias spot m3.large), Elastic MapReduce S3 (aproximadamente 7 Tb de dados estruturados em diversos buckets) RDS (dados de organização dos dados do S3)

O QUE usam?

Page 14: Hadoop, Big Data e Cloud Computing

Coleta e Storage

Processamento e ETL

Buscas e Machine Learning

Visualização e Relatórios

Page 15: Hadoop, Big Data e Cloud Computing

Coleta e Storage

Processamento e ETL

Buscas e Machine Learning

Visualização e Relatórios

Page 16: Hadoop, Big Data e Cloud Computing
Page 17: Hadoop, Big Data e Cloud Computing

Relacional NoSQL

Page 18: Hadoop, Big Data e Cloud Computing
Page 19: Hadoop, Big Data e Cloud Computing

Como Cloud facilita

Coleta e Storage?

Page 20: Hadoop, Big Data e Cloud Computing

Amazon S3: Mais de 2 Trilhões de Objetos

1.1M requisições por segundo

Page 22: Hadoop, Big Data e Cloud Computing

DynamoDB é um Banco de

Dados NoSQL “as a service”

sem complexidades

Armazene e recupere qualquer quantidade de dados

Sirva níveis gigantescos de tráfego e requisições

Sem instalações de software

Não é necessário configurar clusters

Custos mínimos de administração

Page 23: Hadoop, Big Data e Cloud Computing
Page 24: Hadoop, Big Data e Cloud Computing

Coleta e Storage

Processamento e ETL

Buscas e Machine Learning

Visualização e Relatórios

Page 25: Hadoop, Big Data e Cloud Computing

"Hadoop é um storage confiável e um sistema analítico"

HDFS MapReduce

Page 26: Hadoop, Big Data e Cloud Computing
Page 27: Hadoop, Big Data e Cloud Computing
Page 28: Hadoop, Big Data e Cloud Computing

Como Cloud facilita

Processamento e ETL?

Page 29: Hadoop, Big Data e Cloud Computing

Implantar um cluster hadoop é difícil

Page 30: Hadoop, Big Data e Cloud Computing

Reduz complexidade/custo da gestão do Hadoop

Integra diretamente com Serviços AWS (EC2, S3,

DynamoDB, etc)

Facilita a elasticidade para Big Data

AMAZON ELASTIC MAPREDUCE

Page 31: Hadoop, Big Data e Cloud Computing

Elasticidade

Aumenta

para 25

instancias

Data Warehouse

(Estável)

Data Warehouse

(Processo Batch)

Diminui

para

9

instancias

Data Warehouse

(Estável)

Page 32: Hadoop, Big Data e Cloud Computing

AWS Elastic MapReduce

Map reduce

HDFS

Page 33: Hadoop, Big Data e Cloud Computing
Page 34: Hadoop, Big Data e Cloud Computing

Input data

S3, DynamoDB, Redshift

Page 35: Hadoop, Big Data e Cloud Computing

Elastic

MapReduce

Code

Input data

S3, DynamoDB, Redshift

Page 36: Hadoop, Big Data e Cloud Computing

Elastic

MapReduce

Code Name

node

Input data

S3, DynamoDB, Redshift

Page 37: Hadoop, Big Data e Cloud Computing

Elastic

MapReduce

Code Name

node

Input data

Elastic

cluster

S3, DynamoDB, Redshift

S3/HDFS

Page 38: Hadoop, Big Data e Cloud Computing

Elastic

MapReduce

Code Name

node

Input data

S3/HDFS Queries

+ BI

Via JDBC, Pig, Hive

S3, DynamoDB, Redshift

Elastic

cluster

Page 39: Hadoop, Big Data e Cloud Computing

Elastic

MapReduce

Code Name

node

Output

Input data

Queries

+ BI

Via JDBC, Pig, Hive

S3, DynamoDB, Redshift

Elastic

cluster

S3/HDFS

Page 40: Hadoop, Big Data e Cloud Computing

Output

Input data

S3, DynamoDB, Redshift

Page 41: Hadoop, Big Data e Cloud Computing
Page 42: Hadoop, Big Data e Cloud Computing

• Retailer came to Razorfish 3.5 billion records, 71 million unique cookies, 1.7 million targeted ads

required per day

Targeted Ad

User recently

purchased a

sports movie and

is searching for

video games (1.7 Million per day)

Leveraged Elastic MapReduce to analyze billions of customer clicks and impressions

Page 43: Hadoop, Big Data e Cloud Computing

DEMOS

Page 44: Hadoop, Big Data e Cloud Computing

FERRAMENTAS DE APOIO

PARA HADOOP E EMR

Page 45: Hadoop, Big Data e Cloud Computing
Page 46: Hadoop, Big Data e Cloud Computing
Page 47: Hadoop, Big Data e Cloud Computing
Page 48: Hadoop, Big Data e Cloud Computing

Amazon S3

logs

Custom

Precondition

EMR usage-by-geo job

Amazon EC2

report generation

Amazon

DynamoDB

event data

Amazon RDS

demographics

Amazon Redshift

DW table

Amazon

Redshift

DW table

Hive

script

Page 49: Hadoop, Big Data e Cloud Computing
Page 50: Hadoop, Big Data e Cloud Computing
Page 51: Hadoop, Big Data e Cloud Computing

Elastic MapReduce, DynamoDB e Hive

http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.html

Page 52: Hadoop, Big Data e Cloud Computing

Clusters Elásticos

Provisiona rápido

Stack Hadoop completo e com diversas opções

Sem o peso da gestão de hardware e clusters

Otimizações de custos com

instancias on-demand, reservadas e spot

Benefícios do Elastic MapReduce

Page 53: Hadoop, Big Data e Cloud Computing

Coleta e Storage

Processamento e ETL

Buscas e Machine Learning

Visualização e Relatórios

Page 54: Hadoop, Big Data e Cloud Computing
Page 55: Hadoop, Big Data e Cloud Computing
Page 56: Hadoop, Big Data e Cloud Computing

Como Cloud facilita

Buscas e Machine

Learning?

Page 57: Hadoop, Big Data e Cloud Computing
Page 58: Hadoop, Big Data e Cloud Computing
Page 59: Hadoop, Big Data e Cloud Computing
Page 60: Hadoop, Big Data e Cloud Computing

Coleta e Storage

Processamento e ETL

Buscas e Machine Learning

Visualização e Relatórios

Page 61: Hadoop, Big Data e Cloud Computing
Page 62: Hadoop, Big Data e Cloud Computing
Page 63: Hadoop, Big Data e Cloud Computing
Page 64: Hadoop, Big Data e Cloud Computing

Como Cloud facilita

Visualização e

Relatórios?

Page 65: Hadoop, Big Data e Cloud Computing
Page 66: Hadoop, Big Data e Cloud Computing
Page 67: Hadoop, Big Data e Cloud Computing

Soluções SaaS

interessantes para

Big Data que rodam

na Nuvem da AWS

Page 68: Hadoop, Big Data e Cloud Computing
Page 69: Hadoop, Big Data e Cloud Computing
Page 70: Hadoop, Big Data e Cloud Computing
Page 71: Hadoop, Big Data e Cloud Computing
Page 72: Hadoop, Big Data e Cloud Computing

RECURSOS TÉCNICOS

awshub.com.br

www.bigdatahpc.com

aws.amazon.com/pt/big-data

Page 73: Hadoop, Big Data e Cloud Computing
Page 74: Hadoop, Big Data e Cloud Computing

OBRIGADO! aws.typepad.com/brasil

slideshare.net/AmazonWebServicesLATAM

José Papo

AWS Tech Evangelist

@josepapo