começando com amazon redshift

23
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Daniel Bento, Arquiteto de Soluções [email protected] 02 de Junho de 2016 Começando com Redshift AWS Summit São Paulo 2016

Upload: amazon-web-services-latam

Post on 13-Apr-2017

505 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Começando com Amazon Redshift

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Daniel Bento, Arquiteto de Soluções – [email protected]

02 de Junho de 2016

Começando com Redshift

AWS Summit São Paulo 2016

Page 2: Começando com Amazon Redshift

Agenda

• Introdução

• Provisionamento

• Carga de Dados

• Fazendo Consultas

• Monitoramento de Queries

Page 3: Começando com Amazon Redshift

Introdução

Page 4: Começando com Amazon Redshift

AnalisarArmanezar

Amazon

Glacier

Amazon S3

Amazon

DynamoDB

Amazon RDS,

Amazon Aurora

AWS big data portfolio

AWS Data Pipeline

Amazon

CloudSearch

Amazon EMR Amazon EC2

Amazon

Redshift

Amazon

Machine

Learning

Amazon

Elasticsearch

Service

AWS Database

Migration Service

Amazon

QuickSight

Amazon

Kinesis

Firehose

AWS Import/Export

AWS Direct

Connect

Coletar

Amazon Kinesis

Streams

Page 5: Começando com Amazon Redshift

Data warehouse relacional

Processamento paralelo massivo – MPP

Escala de petabytes

Totalmente gerenciado

Plataformas em HDD e SSD

$1,000/TB/ano; comece com $0.25/hora

Amazon

Redshift

+ rápido

+ simples

+ barato

Page 6: Começando com Amazon Redshift

Provisionamento

Page 7: Começando com Amazon Redshift

Arquitetura do Amazon Redshift - MPP

Leader node

Simple SQL endpoint

Armazenamento de metadados (nome de tabelas, colunas, objetos)

Otimização do plano de execução de queries

Coordenação da execução de queries

Compute nodes

Storage local por colunas

Execução paralela/distribuída de todas as queries, carga de dados, backups, recuperação e redimensionamento

Comece com $0.25/hora, cresça até 2 PB

DC1: SSD; escala de 160 GB até 326 TB (Dense compute)

DS2: HDD; escala de 2 TB até 2 PB (Dense storage)

Ingestion/Backup

Backup

Restore

JDBC/ODBC

10 GigE

(HPC)

Page 8: Começando com Amazon Redshift

Amazon Redshift é rápido

Menos I/O

Armazenamento em colunas

Compressão de dados

Zone maps

Direct-attached storage

Blocos de dados grandes (1 MB)

analyze compression listing;

Table | Column | Encoding

---------+----------------+----------

listing | listid | delta

listing | sellerid | delta32k

listing | eventid | delta32k

listing | dateid | bytedict

listing | numtickets | bytedict

listing | priceperticket | delta32k

listing | totalprice | mostly32

listing | listtime | raw

10 | 13 | 14 | 26 |…

… | 100 | 245 | 324

375 | 393 | 417…

… 512 | 549 | 623

637 | 712 | 809 …

… | 834 | 921 | 959

10

324

375

623

637

959

Page 9: Começando com Amazon Redshift

Redimensionamento em poucos cliques

Page 10: Começando com Amazon Redshift

Redimensionamento

• Redimensionamento com o cluster

online (somente leitura)

• Um novo cluster é provisionado em

background

• Cópia de dados ocorre em paralelo

nó a nó

• Somente é cobrado pelo cluster de

origem

Page 11: Começando com Amazon Redshift

Carga de dados

Page 12: Começando com Amazon Redshift

Dataset está armazenado em um bucket público do S3 (redshift-

demo localizado em us-east-1).

Vários arquivos .gz

Utilizará comando copy com múltiplos arquivos em paralelo

copy lineitem from 's3://redshift-demo/tpc-

h/100/lineitem/lineitem.tbl.' CREDENTIALS

'aws_access_key_id=XXXXX;aws_secret_access_key=YYYYYY' gzip delimiter

'|';

Carga de dados – Dataset público

Page 13: Começando com Amazon Redshift

Tabela #ArquivosTamanho

arquivo(MB)Total(MB) #Linhas

customer 150 5.7 855 15,000,000

lineitem 600 37.6 22560 600,037,902

nation 1 987bytes 987bytes 25

orders 150 32.8 4920 150,000,000

part 200 2.8 560 20,000,000

partsupp 80 34.3 2744 80,000,000

region 1 267bytes 987bytes 5

supplier 100 0.56 56 1,000,000

Total 31,695MB 866,037,932

30.95GB

Carga de dados – Dataset público

Page 14: Começando com Amazon Redshift

AWS CloudCorporate Data center

Amazon S3Amazon

Redshift

Flat files

Carga de dados

Page 15: Começando com Amazon Redshift

Use o comando COPY

Cada slice pode carregar um arquivo por vez

Um único arquivo significa que somente um slice está carregando dados

Ao invés de 100MB/s, vocêsomente consegue 6.25MB/s

Use múltiplos arquivos de entrada para

maximizar o throughput

Page 16: Começando com Amazon Redshift

Use o comando COPY

Você precisa tantos arquivos quanto o número de slices

Com 16 arquivos, todos os slides estão trabalhando, assim você maximiza o throughput

Consiga 100MB/s por nó; escalelinearmente conforme vocêadiciona nós

Use múltiplos arquivos de entrada para

maximizar o throughput

Page 17: Começando com Amazon Redshift

Fazendo Consultas

Page 18: Começando com Amazon Redshift

JDBC/ODBC

Amazon Redshift

Amazon Redshift funciona com suas

ferramentas atuais de análise

Page 19: Começando com Amazon Redshift

ODBC/JDBC

BI ClientsRedshift

Page 20: Começando com Amazon Redshift

Query que localiza qual fornecedor deve ser selecionada para fazer um

pedido para uma determinada parte de uma determinada região.

Fazendo consultas – Jasper Reports

Page 21: Começando com Amazon Redshift

Monitoramento de performance de query

performance

Page 22: Começando com Amazon Redshift

Visualize os planos de execução

Page 23: Começando com Amazon Redshift

Muito Obrigado!