Cloud computing e big data

Download Cloud computing e big data

Post on 07-Nov-2014

615 views

Category:

Education

3 download

Embed Size (px)

DESCRIPTION

 

TRANSCRIPT

  • 1. Cloud Computing e Big Data Rodolpho Ugolini - @rugolini Amazon Web Services
  • 2. O que Computao em Nuvem Sem despesas de Baixo custo Pague apenas capital antecipadas pelo que usa Escalabilidade Agilidade e Time Infraestrutura simples e to Market Self-Service automtica Deploy
  • 3. Como a Amazon About Amazon Web Services Deep experience in building and ? operating global web scale systems passou a oferecer Cloud Computing?
  • 4. Trafego do ms de Novembro da amazon.com
  • 5. Quanto de capacidade devemos provisionar?
  • 6. Infrestrutura Tradicional no mais suficiente Desperdcio Ambientes de Testes Volume de Dados Picos de Demanda Eventos Sazonais Insatisfao do cliente
  • 7. Infraestrutura de computao tradicional cara e complexa
  • 8. Precisamos de capacidade ajustvel!
  • 9. ... e tora para que tudo d certo...
  • 10. Existe um outro jeito!
  • 11. Plataforma de Computao AWS Servios Bsicos Amazon Compute Storage Database Networking Zonas de Disponibilidade Pontos de Infraestrutura Distribuio CDN Global Regies
  • 12. Disponivel Globalmente Region US-WEST (N. California) EU-WEST (Ireland) GOV CLOUD ASIA PAC (Tokyo) US-EAST (Virginia)US-WEST (Oregon) ASIA PAC (Singapore) SOUTH AMERICA (Sao Paulo)
  • 13. Apoiando-se nos ombros do gigante Dados Voc Sua Aplicao Sistema Operacional Servios Bsicos Amazon Compute Storage Database Networking Zonas de Disponibilidade Pontos de Infraestrutura Distribuio CDN Global Regies
  • 14. A cada dia, a AWS adiciona o equivalente em capacidade computacional, ao que era necessrio para manter a Amazon.com de 2000
  • 15. APIs e Automao
  • 16. AutomaoEscale capacidade automaticamente
  • 17. Utility computing
  • 18. Utility computing Compute Scaling Security CDN Backup DNS Database Storage Load Balancing Workflow Monitoring Networking Messaging
  • 19. 6 am
  • 20. 10 am
  • 21. 10 am
  • 22. 10 am
  • 23. 7 pm
  • 24. 7 pm
  • 25. 7 pm
  • 26. 40 a 5000 em 3 dias Pico de 5000 instancias Numero de Instancias EC2 Divulagao Viral Lanamento da Integrao com Facebook 40 instancias 4/12/2008 4/13/2008 4/14/2008 4/15/2008 4/16/2008 4/17/2008 4/18/2008 4/19/2008 4/20/2008
  • 27. Seu Data Center pessoal
  • 28. Objetos armazenados no S3 1 Trilho 1000,000 750,000 500,000 250,000 0,000 Pico de 750 mil transaes por segundo
  • 29. A anlise de grandes volumes de dados est se tornando a grande barreira parainovao, competio e produtividade.
  • 30. O que Big Data? Gerados por computador estruturados, semi-estruturados ou no-estruturados Logs (web sites, jogos) Sensores (tempo, gua) Imagens/vdeos (cameras, segurana) Gerados por pessoas Blogs/Resenhas/Emails/Fotos Redes Sociais Facebook, Linkedin, Twitter
  • 31. Big Data est ficando cada vez maior 2.7 Zetabytes em 2012 Mais de 90% no estruturada Dados espalhados em diversos silos Precisamos de ferramentas para lidar com Big Data!
  • 32. Onde se v Big Data Marketing e Mdia/ Instituies Jogos leo e Gs Varejo Telecom SeguranaPropaganda Financeiras (sobretudo social) Analise Anti-virus Comporta- Anuncios Simulaes mental Recomen- daes de Monte Dirigidos Carlo Cobrana Log de Anlise Deteco Anlise de Ligaes Sismica de Fraudes Uso Uso dos Processa- Produtos mento de Anlise de Anlise de vdeos e Transaes Riscos Reconheci- imagens mento de Mtricas Imagens In-game
  • 33. O que Hadoop?Apache Hadoop Sistema de storage distribudo e tolerante a falhas (HDFS) Usa um algoritmo chamado MapReduce para realizar anlises estatsticas exaustivas sobre um grande conjunto de dados distribudosBenefcios-chave Custo mais baixo Escala linearmente Provado em escala Petabytes em milhares de ns Flexvel Dados podem ser armazenados com ou sem schema
  • 34. "Hadoop um storage confivel e um sistema analtico" HDFS MapReduce
  • 35. RDBMS MapReduce (Hadoop) Schema definido Schema no requerido Explora ndices para Anlises rpidas de dados e recuperao rpida performance uniforme de queries SQL apenas Suporta SQL + outras linguagensNo escala linearmente Escalabilidade linear para reads + writes
  • 36. Implantar um cluster hadoop difcilhttp://eddie.niese.net/20090313/dont-pity-incompetence/
  • 37. Big Data requer infraestrutura flexvel Infraestrutura fsica leva a hardware e software esttico e planejado para atender picos e muitas vezes acaba gerando longas filas de processamento
  • 38. +
  • 39. Data Warehouse Elstico Data Warehouse (Processo Batch) Data Warehouse Data Warehouse (Estvel) (Estvel) Diminui Aumenta para para 25 9 instancias instancias
  • 40. S3Input data
  • 41. S3 Input dataCode Elastic MapReduce
  • 42. S3 Input dataCode Elastic Name MapReduce node
  • 43. S3 Input dataCode Elastic Name MapReduce node Elastic cluster
  • 44. S3 Input dataCode Elastic Name MapReduce node HDFS Elastic cluster
  • 45. S3 Input dataCode Elastic Name MapReduce node Queries HDFS + BI Via JDBC, Pig, Hive Elastic cluster
  • 46. S3 Input dataCode Elastic Name Output MapReduce node S3 + SimpleDB Queries HDFS + BI Via JDBC, Pig, Hive Elastic cluster
  • 47. S3Input data Output S3 + SimpleDB
  • 48. OBRIGADO! aws.amazon.comRodolpho UgoliniAmazon Web Services@rugolini