balogh gyorgy modern_big_data_megoldasok_sec_world_2014

31
MODERN BIG DATA MEGOLDÁSOK Balogh György Vezető fejlesztő, LogDrill Kft. SECWorld – 2014. május 7.

Upload: logdrill

Post on 24-May-2015

160 views

Category:

Technology


2 download

DESCRIPTION

György Balogh has held a presentation at the SECWorld 2014 conference about the cutting-edge yet also affordable Big Data technologies.

TRANSCRIPT

Page 1: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

MODERN BIG DATA MEGOLDÁSOK

Balogh GyörgyVezető fejlesztő, LogDrill Kft.

SECWorld – 2014. május 7.

Page 2: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

MIRŐL LESZ SZÓ

• Mi a Big Data?• Miért kell beszélnünk róla?• Paradigmaváltás az

információmenedzsmentben• Technológia és hatékonyság

Page 3: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

MI A BIG DATA?

• Hagyományos eszközökkel (pl. relációs adatbázisokkal) nem kezelhető adatmennyiség, változatosság és sebesség

• Több száz millió, még jellemzőbben: több milliárd adatsor

Ez egyszerre jelenthet biztonsági kihívást és üzleti lehetőséget.

DE TÉNY: egyre többen élnek vele.

Page 4: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014
Page 5: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

GLOBÁLIS ADATTERMELÉS

• 30 TB/mp (~ 22 000 film)

• Digitális média• Pl. Youtube (2 órányi videó feltöltése percenként)

• Kommunikáció• 3 000 üzleti email• 300 000 sms

• Web• Félmillió oldalbetöltés

• Logok• Több milliárd sor

Page 6: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

BIG DATA PIAC

Page 7: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

• Mi a Big Data?• Miért kell beszélnünk róla?• Paradigmaváltás az

információmenedzsmentben• Technológia és hatékonyság

Page 8: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

HYPE VAGY VALÓSÁG? MIÉRT MOST?

• Hosszú távú trendek:• 1980 óta kb 3,5 évente megduplázódik a

tárolt adatmennyiség• Az integrált áramkörökben levő tranzisztorok

száma 18 havonta duplázódik (Moore törvénye)

Page 9: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

EXPONENCIÁLIS NÖVEKEDÉS – DE KÜLÖNBÖZŐ ÜTEMBEN

Page 10: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

HARD DRIVE-OK: 1991 ÉS 2012

• 40 MB• 3500 RPM• 0.7 MB/sec• full scan: 1 minutes

• 4 TB ( x 100000)• 7200 RPM• 120 MB/sec ( x 170)• full scan: 8 hours ( x

480)

Page 11: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

• Mi a Big Data?• Miért kell beszélnünk róla?• Paradigmaváltás az

információmenedzsmentben• Technológia és hatékonyság

Page 12: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

Új szűk keresztmetszet: az adatelérés sebessége

Új gyakorlatok az információmenedzsmentben

Page 13: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

A GOOGLE HARDVERE 1998-BAN

Page 14: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

A GOOGLE HARDVERE 2013-BAN

• 12 adattárház világszerte• Több millió nod• Egy adattárház megépítése 600 millió $• Oregoni adattárház

• 15 000 m2• 30 000 otthonhoz elegendő áram

Page 15: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

A GOOGLE HARDVERE 2013-BAN

• Olcsó, egyszerűen beszerezhető hardverelemek• mind saját táppal

• Moduláris felépítésű adattárházak• Sztenderd tárolók• 1160 szerver tárolónként

• Hatékonyság: 11% fölött (áram transzformálása, hűtés)

Page 16: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

BIG DATA PARADIGMAVÁLTÁS

Page 17: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

• Mi a Big Data?• Miért kell beszélnünk róla?• Paradigmaváltás az

információmenedzsmentben• Technológia és hatékonyság

Page 18: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

TECHNOLÓGIÁK

• Hadoop• Google Big Query• Cloudera Impala• Apache Spark

Page 19: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

HADOOP DISTRIBUTED FILE SYSTEM (HDFS)

Page 20: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

HADOOP MAP REDUCE

Page 21: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

HADOOP

• Ki használja?• Facebook: 100 PB• Yahoo: 4000 nod• A Fortune 50 vállalatok nagy része!

• Története• A Google architektúra replikája (GFS, BigTable),

Java-ban, Apache licenccel

• Hadoop 2.0• Magas rendelkezésre állás a teljes klaszteren• Fejlett erőforrásmenedzsment-rendszerek (YARN)

Page 22: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

GOOGLE BIG QUERY

• Másodpercek alatt lefuó SQL lekérdezések TB mennyiségű adaton

• Több ezer nodon elosztott adat• Az adatbázis egyes részeit külön nodokhoz

dolgozzák fel• Többezer nod már néhány milliszekundum

alatt elvégzi a feladatot

select year, SUM(mother_age * record_weight) / SUM(record_weight) as age from publicdata:samples.natality where ever_born = 1 group by year order by year;

Page 23: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

CLOUDERA IMPALA

• Ugyanaz, mint a BigQuery, Hadoop alapon

• Standard SQL Big Data adathalmazokon• 10 millió Ft klaszteren adatok terabájtjai

elemezhetőek interaktív módon• Többszáz nodig felskálásható• Technológiai finomságok• LLVM-mel generálható futtatási idő kódok• Parquet formátum (oszlop-orientált)

Page 24: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

APACHE SPARK

• Berkeley-fejlesztés• Bizonyos feladatok elvégzésekor 100x

magasabb sebességre képes, mint a Hadoop

• Klaszteren belüli memóriában futó számítás

Page 25: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

NEM HATÉKONY MŰKÖDÉS ERŐFORRÁS PAZARLÁS

• 300 nodos klaszter• Hadoop • Hive

=

• 1 nod• Vectorwise• Leggyorsabb a világon az 1

nodon, analitikus adatbázison futtatott lekérdezések gyorsaságában

Page 26: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

HATÉKONYSÁGNÖVELÉS OKOSAN

• Veszteség nélküli adattömörítés (akár 50-szer!)

• Veszteséges tömörítés (pl. OLAP-kocka)• Cache-re építő implementációk

(aszimmetrikus trendek, memória hozzáférés szűkössége)

Page 27: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

VESZTESÉGMENTES ADATTÖMÖRÍTÉS

• Akár az 50-szeresére növelheti a a szekvenciális adatelérési sebességet (100 MB/mp 5 GB/mp)• Kevesebb adat kevesebb I/O művelet• Egyetlen CPU 5 GB/mp sebességgel képes

kitömöríteni az adatokat

• A gzip kitömöríteni nagyon lassú• Az oszlop-orientált adatbázisok elérhetik

az 5 GB/mp sebességet is (PFOR)• 2 mrd egy szám/mp! (majdnem egy egy

szám/órajel!!!)

Page 28: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

PÉLDA: VESZTESÉGES TÖMÖRÍTÉS – LOGDRILL

2011-01-08 00:00:01 X1 Y1 1.2.3.4 GET /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 200 0 0 22957 562

2011-01-08 00:00:09 X1 Y1 1.2.3.4 GET /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 200 0 0 2957 321

2011-01-08 00:01:04 X1 Y1 1.2.3.4 GET /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 200 0 0 43422 522

2011-01-08 00:01:08 X1 Y1 1.2.3.4 GET /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 200 0 0 234 425

2011-01-08 00:02:23 X1 Y1 1.2.3.4 GET /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 404 0 0 234 432

2011-01-08 00:02:45 X1 Y1 1.2.3.4 POST /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 200 0 0 4353 134

2011-01-08 00:00 GET 200 2

2011-01-08 00:01 GET 200 2

2011-01-08 00:02 GET 404 1

2011-01-08 00:02 POST 200 1

Page 29: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

CACHE AWARE PROGRAMMING

• A CPU sebessége 60%-kal nő egy év alatt• A memória sebessége csupán 10%-kal• A növekvő különbség áthidalása: a cache

többszintű kihasználásával• A cache nem megfelelő kihasználtságú

Akár 100x gyorsabb lehet!

Page 30: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

TANULSÁGOK

• A Big Data technológiai szempontból semmiképp nem hype

• A modern technológia (Impala, Spark) elérheti a klaszteres hardverkonfiguráció elméleti határát

• A hatékony Big Data megoldásokhoz egyaránt szükséges a rendelkezésre álló technológiák és az adott probléma ismerete

Page 31: Balogh gyorgy modern_big_data_megoldasok_sec_world_2014

KÖSZÖNÖM A FIGYELMET!

Q&A