webinar: introdução a big data
TRANSCRIPT
![Page 1: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/1.jpg)
© 2015, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Thiago Paulino, Solutions Architect
03 Março, 2016
Introdução a Big DataOpções de analytics na AWS & Casos de uso
![Page 2: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/2.jpg)
Conteúdo
• Introdução de Big Data em AWS• Big Data Analytics Opções na AWS
• Padrões de uso e anti-padrões• Performance & Custos• Durabilidade & Escalabilidade• Interfaces
• Construindo soluções Big Data – Abordagem AWS
• Cenários de exemplo
![Page 3: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/3.jpg)
Big Data na AWS
Disponibilidade Imediata. Deploy instantâneo. Sem compra de hardware, sem infra-estrutura para manter e escalar.
Seguro e confiável. Desenhado para atender requisitos rigorosos de segurança. Auditoria continua, incluindo certificações : ISO 27001, FedRAMP, DoD CSM, and PCI DSS.
Capilaridade de serviços. Mais de 50 serviços e centenas de funcionalidades para suportar virtualmente qualquer workload de big data.
Centenas de parceiros e soluções. Obtenha ajuda de nossos parceiros de consultoria ou escolha entre centenas de ferramentas em nosso marktplace
![Page 4: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/4.jpg)
Real-timeAmazon Kinesis Firehose
Object StorageAmazon S3
RDBMSAmazon RDS
NoSQLDynamoDB
Hadoop EcosystemAmazon EMR
Real-timeAWS Lambda
Amazon Kinesis Analytics
Data WarehousingAmazon Redshift
Machine LearningAmazon Machine
Learning
Business Intelligence & Data VisualizationAmazon QuickSight
Real-timeAmazon Kinesis Streams
Elastic Search AnalyticsAmazon ElasticSearch
Coleta Armazenamento Análise & Processamento
Visualização
Data ImportAmazon Import/Export
Snowball
IoTAmazon IoT
Ampla capacidade e integração
![Page 5: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/5.jpg)
Petabyte (capacidade)
Processamento paralelo
Relacional data warehouse
Gerenciado, zero admin
Menos de $1,000/TB/Year
RápidoBaratoSimples
Amazon Redshift
![Page 6: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/6.jpg)
Amazon Redshift• Padrões de uso
• Dados de vendas• Dado históricos• Dados de jogos• Dados de redes sociais• Dados de campanha de publicidade
• Performance• Processamento paralelo massivo• Armazenamento colunar• Compressão de dados• Mapeamento • Discos diretamente conectados
• Modelo de custo• Sem investimento inicial ou contratos• Backup gratuíto (storage equivalente a 100% do
storage provisionado)
Com armazenamento colunar, você acessa apenas o dado que você precisa.
![Page 7: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/7.jpg)
Amazon Redshift
• Escalabilidade & Elasticidade• Aumentar ou Diminuir - Número ou tipo de
node com alguns clicks
• Durabilidade e disponibilidade• Replicação• Backup • Automated recovery para falhas de discos &
nodes• Interfaces
• JDBC/ODBC interface com ferramentas de BI/ETL
• Amazon S3 ou DynamoDB
• Anti-padrões• Pequenos datasets• OLTP• Dados não estruturados• Blob Data
10 GigE(HPC)
IngestionBackupRestore
SQL Clients/BI Tools
128GB RAM
16TB disk
16 cores
Amazon S3
JDBC/ODBC
128GB RAM
16TB disk
16 coresCompute Node
128GB RAM
16TB disk
16 coresCompute Node
128GB RAM
16TB disk
16 coresCompute Node
LeaderNode
![Page 8: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/8.jpg)
streaming de dados
Processamento em tempo real
Armazene terabytes de dados
por hora
Amazon Kinesis
![Page 9: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/9.jpg)
Amazon Kinesis Streams• Padrões de uso – Streaming de
dados, ingestão e processamento• Data analytics em tempo real• Ingestão de dados e processamento ex.
logs• Métricas e reports em tempo real
• Performance• Throughput baseado em shards
• Modelo de custo• Sem investimento inicial ou contratos
•Pague pelo que usar•Custo hora por shard•Cobrança por 1 million de transações
PUT
![Page 10: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/10.jpg)
Amazon Kinesis Streams
• Escalabilidade e Elasticidade•Aumente o número de shards
• Durabilidade e Disponibilidade• Replicação• Cursor preservation
• Interfaces•Input – data in•Output – data out•Kinesis Firehose
• Anti-padrões•Pequenas taxas de transferência•Armazenamento de longo prazo
![Page 11: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/11.jpg)
Inicie cluster em minutos
Pague por hora e economize com
instâncias spot
MapReduce, Apache Spark, Presto
Amazon EMR
![Page 12: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/12.jpg)
Amazon EMR• Padrões de uso
• Processamento de log and analytics • Grande ETL e movimentacao de dados• Risk modeling and threat analytics• Sucesso de publicidade and click stream
analytics• Genoma• Análise preditiva• Ad-hoc data mining and analytics
• Performance • Tipo de instância• Número de instâncias
• Cost model• Pague pelas horas de execução• EC2 instance e EMR
![Page 13: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/13.jpg)
Amazon EMR
• Escalabilidade e Elasticidade• Resize de cluster• Adicione instâncias core ou task
• Durabilidade e Disponibilidade• Tolerância a falha slave node (HDFS) • Backup com S3 para resiliência do master
node• Interfaces
• Hive, Pig, Spark, Hbase, Impala, Hunk, Presto, etc..
• Anti-padrões• Pequenos data sets• ACID (Atomicity, Consistency, Isolation and
Durability)
![Page 14: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/14.jpg)
NoSQL database totalmente
gerenciado
Um dígito de Millisecond de latência
para escalar
Suporte a documento e chave-valor
AmazonDynamoDB
![Page 15: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/15.jpg)
Amazon DynamoDB• Padrões de uso
• Mobile apps, jogos, digital ad serving, votaçao em tempo real, rede de sensores, ingestão de logs
• Controle de acesso a conteudo web, carrinho de compras para e-commerce
• Gerenciamento de sessões web• Performance
• SSD• Provisione throughput por tabela
• Escalabilidade e Elasticidade•Sem limite de dados armazenados•Aumentar ou diminuir a capacidade de leitura e
escrita por tabela• Modelo de custo
• Pague pelo que usar• Provisione throughput (por hora)• Indexe dados armazenados (por GB por mês)• Data transfer in or out (por GB por mês)
Provisioned read/write performance per table. Predictable high performance scaled via console or API
![Page 16: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/16.jpg)
Amazon DynamoDB
• Durabilidade e Disponibilidade• Três Availability Zones (AZ)
• Interfaces• AWS Console• API’s• SDK’s
• Anti-padrões• Applicação de bancos de dados relacional• Joins e/ou transações complexas• BLOB data• Muitos dados com pouco I/O
AZ-A
AZ-B
AZ-C
![Page 17: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/17.jpg)
Serviço gerenciado projetado para tornar mais fácil para os desenvolvedores o uso de machine learning
Baseado na mesma tecnologia ML usado há anos por cientistas de dados internos da Amazon
Amazon Machine Learning é altamente escalavel e utiliza padrões de ML. (Análise preditiva)
Amazon Machine Learning
![Page 18: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/18.jpg)
Amazon Machine Learning
• Padrões de uso• Alertas de transações suspeitas• Personalize application content• Predição de atividade do usuário• Analise rede social
• Modelo de custo• Pague pelo que usar• Sem gerenciamento de instâncias, apenas
serviço• Performance
• Predições em tempo real Real-time predictions projetado para responder em pelo menos 100ms
• 200 transações por segundo
![Page 19: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/19.jpg)
Amazon Machine Learning• Durabilidade e Disponibilidade
• Sem janela de manutençao• Desenhado para multiplas AZ’s
• Escalabilidade e Elasticidade• Modelo de treino de ate100GB• Multiplo jobs simultâneos
• Interfaces• Origem de dados a partir do S3, RDS e
Redshift• Intereção ML via console, SDKs, e ML
API• Anti-padrões
• Grandes Data Sets > 100GB• Sequência de predição ou tasks não
supervisionada
![Page 20: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/20.jpg)
Orientado a eventos, computaçao 100% gerenciada
Sem gestão de infra-estrutura
Escalabilidade automática
AWS Lambda
![Page 21: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/21.jpg)
AWS Lambda• Padrões de uso
• Procesamento de arquivos em tempo real• Extract, Transform, Load (ETL)
• Performance• Processamento de eventos em milliseconds
• Modelos de custo• Pague pelo que usar• Sem gerênciamento de instâncias, pague
apenas pelo serviço• Lambda free tier incluí 1Milhão de
requisições gratuitas
![Page 22: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/22.jpg)
AWS Lambda• Durabilidade e Disponibilidade
• Sem janelas de manutenção ou downtime agendado
• Funções Async são executadas até 3 times caso falhem
• Escalabilidade e Elasticidade• Alta concorrência de execuções
simultânea• AWS Lambda Aloca dinamicamente
capacidade para executar os eventos.• Interfaces
• Lambda suportas Java, Node.js, e Python
• Execução por evento ou agendas• Anti-padrões
• Execuções longas de aplicações• Aplicações Stateful no Lambda
![Page 23: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/23.jpg)
Instale um cluster de Elasticsearch em
minutos
Integrado com Logstash and Kibana
Escale o seu cluster Elasticsearch
perfeitamente
Amazon Elasticsearch
Service
![Page 24: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/24.jpg)
Amazon Elasticsearch• Padrões de uso
• Análise de logs• Análise de stream de dados e/ou updates de
outros serviços AWS• Prover uma busca rica e uma boa experiência de
uso/navegação• Monitorar o uso de aplicações mobile
• Performance• Depende de multiplos fatores, incluindo tipo de
instância, workload, index, número de shards no cluster, replicas de leitura
• Configurações de disco – instance storage ou EBS storage
• Modelos de custo• Pague pelo que usar• Pague somente pela instância de elasticsearch e
disco utilizado
![Page 25: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/25.jpg)
Amazon Elasticsearch• Durabilidade e Disponibilidade
• Zone Awareness• Snapshots automático e manual.
• Escalabilidade e Elasticidade• Adicione e remova instâncias• Altere os volumes EBS conforme
crescimento• Interfaces
• AWS Console• API’s• SDK’s• Kibana and Logstash (ELK Stack)
• Anti-padrões• OLTP• Workloads que precisam de mais de 5TB de
armazenamento
Elasticsearch + Logstash + Kibana = real-time analytics & visualization
![Page 26: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/26.jpg)
Construa visualizações
Performance para processamento ad-hoc
Compartilhamento de dasboards(storyboards)
Acesso nativo com as principais
plataformas mobile
Amazon QuickSight
![Page 27: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/27.jpg)
Introdução Amazon QuickSight
Serviço em Cloud de Business Intelligence com 1/10th do custo de um software de BI tradicional
Sem esforço de TI. Sem modelagem dimensional
Auto-discovery de fonte de dados (AWS)
Rapido, processamento paralelo, Calculos em
memória
100% gerenciado
Available in Previewaws.amazon.com/quicksight
![Page 28: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/28.jpg)
Aumente ou diminua conforme
necessidade.
Pague somente pelo que usar.
Multipla opções.
Construa sua própria aplicação big
data.
Amazon EC2
![Page 29: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/29.jpg)
Abordagem AWS
• Flexivel. Use a melhor ferramenta para cada tarefa• Estrutura de dados, latência, alta capacidade de rede, padrões
de acesso.
• Escalável. Imutável (Tarefa única)• Execuções Batch/velocidade (Camadas)
• Mínimo de administração. Serviços AWS gerenciados• Sem ou com administração mínima
• Baixo custo. Big data ≠ big cost
![Page 30: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/30.jpg)
Scenario 1: Enterprise Data Warehouse
Scenario 2: Capture e analise dados de sensores
Scenario 3: Análise de sentimento de rede social
Big Data Cenários
![Page 31: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/31.jpg)
Cenário 1: Enterprise Data Warehouse
Data Warehouse Architecture
Data Sources
AmazonS3
AmazonEMR
AmazonS3
AmazonRedshift
AmazonQuickSight
![Page 32: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/32.jpg)
Cenário 2: Capture e analise dados de sensores
Data Sources
AmazonS3
AmazonRedshift
AmazonQuickSight
AmazonKinesisEnabled
App
AmazonKinesisEnabled
App
AmazonDynamoDB
RepostingDashboard
Customer Access
AmazonKinesis
1
2 3 4 5
6 7 8 9
![Page 33: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/33.jpg)
Cenário 3: Análise de sentimento Rede social
Social Media Data
AmazonEC2
AmazonLambda
AmazonML
AmazonKinesis
AmazonS3
AmazonSNS
1 2 4 5 6
3 7
![Page 34: Webinar: Introdução a Big data](https://reader036.vdocuments.net/reader036/viewer/2022081520/586fe2491a28ab18428b7b2d/html5/thumbnails/34.jpg)
Próximos passos• Assine o feed do AWS Big Data Blog
blogs.aws.amazon.com/bigdata
• Leia mais sobre o assunto, tutoriais, guias e laboratórios aws.amazon.com/big-data
• Registre-se para os próximos Webinarsaws.amazon.com/about-aws/events/monthlywebinarseries