big data em real time

39
Big Data em tempo real Caio Gomes / @caiocgomes 0

Upload: caio-gomes

Post on 24-May-2015

424 views

Category:

Technology


5 download

DESCRIPTION

Apresentacao para a Campus Party 2014. Nela apresento a técnicas de Big Data em tempo real, junto com os novos sistemas de processamento de stream, como kineses e storm. Também falo sobre os novos algoritmos que devem substituir o map reduce no caso de processamento de streams. ---------------------------- Presentation at 2014 Campus Party São Paulo. This presentation I present some new techniques for real time processing, and how we can construct algorithms fitted for streams of data.

TRANSCRIPT

Page 1: Big data em real time

Big Data em tempo real

Caio Gomes / @caiocgomes

0

Page 2: Big data em real time
Page 3: Big data em real time

Pesquisa Cientifica (LHC, Genética, Metereologia, Medicina ...)Mercado FinanceiroCultura (livros,revistas, jornais, filmes)IndustriaGoverno

Page 4: Big data em real time

LHC: PB de dados anuaisNYSE: 2‐3 TB por diaFacebook: 500 TB por dia!!!

Page 5: Big data em real time
Page 6: Big data em real time

processamentobaixa do custo de processamentodescoberta de novos métodos de paralelismo

armazenamentobaixa do custo do GB armazenadonovos formatos de bancos de dados

Page 7: Big data em real time
Page 8: Big data em real time
Page 9: Big data em real time

o famigerado mapreduce

Page 10: Big data em real time

como ele funciona?

Mapval listInformation : List[A]val f : A => B

val map : List[B] = {for ( information <- listInformation)yield f(information)}

Reduceval listInformation : List[A]val f : (A,A) => A

// //f(acumulado, novo elemento)//val map : List[B] = {val acumulado = Nilfor ( information <- listInformation)acumulado = f(acumulado,information)}

Page 11: Big data em real time
Page 12: Big data em real time

EMBARASSING PARALLEL

Page 13: Big data em real time

lógica de controle únicaacesso de arquivosrecuperação de falhascontrole de dependencia

Page 14: Big data em real time

separável

paralelizavelthreadsmáquinas

extensivel

despadronizado

Page 15: Big data em real time

"dado a quantidade de veículos, quanto tempo devodeixar o farol?"

Page 16: Big data em real time

acontecimentos nas açõesinfluência das outras açõesnoticias políticas

Page 17: Big data em real time

impossivel pré‐calcular!condições do momento influênciam o momento!

Page 18: Big data em real time

analisar com facilidade dados em tempo real

construir sistema mesmas liberdades mapreduce e hadoop?

Page 19: Big data em real time

1. Como: Desacomplamento2. O atual: Storm/Kinesis3. A ciência: Métodos online

Page 20: Big data em real time

Servidor/Cliente

Page 21: Big data em real time

cliente conhece o servidorservidor conhece o clientea mensagem é enviada especificamente

Page 22: Big data em real time

acomplamento do programadificuldade de escalabilidade

Page 23: Big data em real time

Servidor/Observador

Page 24: Big data em real time
Page 25: Big data em real time

observador se coloca numa lista de 'escuta'servidor ignora a existencia de clientesquando resultado é atingido, servidor envia para todos escritos na listadesacoplamento das partes permite que o número de trabalhadoresmude

Page 26: Big data em real time

Tolerancia a errosControle de carga

Page 27: Big data em real time

1. Como: Desacomplamento2. O atual: Storm/Kinesis3. A ciência: Métodos online

Page 28: Big data em real time

Streams de dados

Page 29: Big data em real time

Batch: banco de dados que permita receber todos esses dadostempo real: forma de envio que aguente um fluxo constante demensagens de diversos tamanhos

Page 30: Big data em real time

agnosticidade de linguagemcontrole de falhascontrole de en trega

Page 31: Big data em real time
Page 32: Big data em real time

1. Como: Desacomplamento2. O atual: Storm/Kinesis3. A ciência: Métodos online

Page 33: Big data em real time

como calcular?

"para minha loja, quero saber qual a taxa de vendade cada produto"

Produto Hora de vendaGame of Thrones 11:24:12PS4 11:26:22Wii U ano passadoLivro de romance X 11:23:12Livro de romance X 11:23:33

Page 34: Big data em real time
Page 35: Big data em real time

de pontos

6 Milhões de arcos5 pontos por minuto

4.5

BILHÕES

Page 36: Big data em real time

tempo real leva a necessidade de novos modelos

online: não há a necessidade de memorizar todos estados anteriores

EMA( ; �) = EMA( ; �)� + (1 + �)x t x t+1 x t

Page 37: Big data em real time

de pontos

6 Milhões de arcos2 por arco

12

milhões

Page 38: Big data em real time
Page 39: Big data em real time

obrigado!!Caio Gomes

Diretor de Inovação e Big Data

[email protected]

@caiocgomes