balogh gyorgy modern_big_data_megoldasok_sec_world_2014

MODERN BIG DATA MEGOLDÁSOK

Balogh GyörgyVezető fejlesztő, LogDrill Kft.

SECWorld – 2014. május 7.

MIRŐL LESZ SZÓ

• Mi a Big Data?• Miért kell beszélnünk róla?• Paradigmaváltás az

információmenedzsmentben• Technológia és hatékonyság

MI A BIG DATA?

• Hagyományos eszközökkel (pl. relációs adatbázisokkal) nem kezelhető adatmennyiség, változatosság és sebesség

• Több száz millió, még jellemzőbben: több milliárd adatsor

Ez egyszerre jelenthet biztonsági kihívást és üzleti lehetőséget.

DE TÉNY: egyre többen élnek vele.

GLOBÁLIS ADATTERMELÉS

• 30 TB/mp (~ 22 000 film)

• Digitális média• Pl. Youtube (2 órányi videó feltöltése percenként)

• Kommunikáció• 3 000 üzleti email• 300 000 sms

• Web• Félmillió oldalbetöltés

• Logok• Több milliárd sor

BIG DATA PIAC

HYPE VAGY VALÓSÁG? MIÉRT MOST?

• Hosszú távú trendek:• 1980 óta kb 3,5 évente megduplázódik a

tárolt adatmennyiség• Az integrált áramkörökben levő tranzisztorok

száma 18 havonta duplázódik (Moore törvénye)

EXPONENCIÁLIS NÖVEKEDÉS – DE KÜLÖNBÖZŐ ÜTEMBEN

HARD DRIVE-OK: 1991 ÉS 2012

• 40 MB• 3500 RPM• 0.7 MB/sec• full scan: 1 minutes

• 4 TB ( x 100000)• 7200 RPM• 120 MB/sec ( x 170)• full scan: 8 hours ( x

480)

Új szűk keresztmetszet: az adatelérés sebessége

Új gyakorlatok az információmenedzsmentben

A GOOGLE HARDVERE 1998-BAN


• 12 adattárház világszerte• Több millió nod• Egy adattárház megépítése 600 millió $• Oregoni adattárház

• 15 000 m2• 30 000 otthonhoz elegendő áram


• Olcsó, egyszerűen beszerezhető hardverelemek• mind saját táppal

• Moduláris felépítésű adattárházak• Sztenderd tárolók• 1160 szerver tárolónként

• Hatékonyság: 11% fölött (áram transzformálása, hűtés)

BIG DATA PARADIGMAVÁLTÁS

TECHNOLÓGIÁK

• Hadoop• Google Big Query• Cloudera Impala• Apache Spark

HADOOP DISTRIBUTED FILE SYSTEM (HDFS)

HADOOP MAP REDUCE

HADOOP

• Ki használja?• Facebook: 100 PB• Yahoo: 4000 nod• A Fortune 50 vállalatok nagy része!

• Története• A Google architektúra replikája (GFS, BigTable),

Java-ban, Apache licenccel

• Hadoop 2.0• Magas rendelkezésre állás a teljes klaszteren• Fejlett erőforrásmenedzsment-rendszerek (YARN)

GOOGLE BIG QUERY

• Másodpercek alatt lefuó SQL lekérdezések TB mennyiségű adaton

• Több ezer nodon elosztott adat• Az adatbázis egyes részeit külön nodokhoz

dolgozzák fel• Többezer nod már néhány milliszekundum

alatt elvégzi a feladatot

select year, SUM(mother_age * record_weight) / SUM(record_weight) as age from publicdata:samples.natality where ever_born = 1 group by year order by year;

CLOUDERA IMPALA

• Ugyanaz, mint a BigQuery, Hadoop alapon

• Standard SQL Big Data adathalmazokon• 10 millió Ft klaszteren adatok terabájtjai

elemezhetőek interaktív módon• Többszáz nodig felskálásható• Technológiai finomságok• LLVM-mel generálható futtatási idő kódok• Parquet formátum (oszlop-orientált)

APACHE SPARK

• Berkeley-fejlesztés• Bizonyos feladatok elvégzésekor 100x

magasabb sebességre képes, mint a Hadoop

• Klaszteren belüli memóriában futó számítás

NEM HATÉKONY MŰKÖDÉS ERŐFORRÁS PAZARLÁS

• 300 nodos klaszter• Hadoop • Hive

=

• 1 nod• Vectorwise• Leggyorsabb a világon az 1

nodon, analitikus adatbázison futtatott lekérdezések gyorsaságában

HATÉKONYSÁGNÖVELÉS OKOSAN

• Veszteség nélküli adattömörítés (akár 50-szer!)

• Veszteséges tömörítés (pl. OLAP-kocka)• Cache-re építő implementációk

(aszimmetrikus trendek, memória hozzáférés szűkössége)

VESZTESÉGMENTES ADATTÖMÖRÍTÉS

• Akár az 50-szeresére növelheti a a szekvenciális adatelérési sebességet (100 MB/mp 5 GB/mp)• Kevesebb adat kevesebb I/O művelet• Egyetlen CPU 5 GB/mp sebességgel képes

kitömöríteni az adatokat

• A gzip kitömöríteni nagyon lassú• Az oszlop-orientált adatbázisok elérhetik

az 5 GB/mp sebességet is (PFOR)• 2 mrd egy szám/mp! (majdnem egy egy

szám/órajel!!!)

PÉLDA: VESZTESÉGES TÖMÖRÍTÉS – LOGDRILL

2011-01-08 00:00:01 X1 Y1 1.2.3.4 GET /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 200 0 0 22957 562





2011-01-08 00:02:45 X1 Y1 1.2.3.4 POST /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 200 0 0 4353 134

2011-01-08 00:00 GET 200 2

2011-01-08 00:01 GET 200 2

2011-01-08 00:02 GET 404 1

2011-01-08 00:02 POST 200 1

CACHE AWARE PROGRAMMING

• A CPU sebessége 60%-kal nő egy év alatt• A memória sebessége csupán 10%-kal• A növekvő különbség áthidalása: a cache

többszintű kihasználásával• A cache nem megfelelő kihasználtságú

Akár 100x gyorsabb lehet!

TANULSÁGOK

• A Big Data technológiai szempontból semmiképp nem hype

• A modern technológia (Impala, Spark) elérheti a klaszteres hardverkonfiguráció elméleti határát

• A hatékony Big Data megoldásokhoz egyaránt szükséges a rendelkezésre álló technológiák és az adott probléma ismerete

KÖSZÖNÖM A FIGYELMET!

Q&A

balogh gyorgy modern_big_data_megoldasok_sec_world_2014

Technology