balogh gyorgy modern_big_data_megoldasok_sec_world_2014
DESCRIPTION
György Balogh has held a presentation at the SECWorld 2014 conference about the cutting-edge yet also affordable Big Data technologies.TRANSCRIPT
MODERN BIG DATA MEGOLDÁSOK
Balogh GyörgyVezető fejlesztő, LogDrill Kft.
SECWorld – 2014. május 7.
MIRŐL LESZ SZÓ
• Mi a Big Data?• Miért kell beszélnünk róla?• Paradigmaváltás az
információmenedzsmentben• Technológia és hatékonyság
MI A BIG DATA?
• Hagyományos eszközökkel (pl. relációs adatbázisokkal) nem kezelhető adatmennyiség, változatosság és sebesség
• Több száz millió, még jellemzőbben: több milliárd adatsor
Ez egyszerre jelenthet biztonsági kihívást és üzleti lehetőséget.
DE TÉNY: egyre többen élnek vele.
GLOBÁLIS ADATTERMELÉS
• 30 TB/mp (~ 22 000 film)
• Digitális média• Pl. Youtube (2 órányi videó feltöltése percenként)
• Kommunikáció• 3 000 üzleti email• 300 000 sms
• Web• Félmillió oldalbetöltés
• Logok• Több milliárd sor
BIG DATA PIAC
• Mi a Big Data?• Miért kell beszélnünk róla?• Paradigmaváltás az
információmenedzsmentben• Technológia és hatékonyság
HYPE VAGY VALÓSÁG? MIÉRT MOST?
• Hosszú távú trendek:• 1980 óta kb 3,5 évente megduplázódik a
tárolt adatmennyiség• Az integrált áramkörökben levő tranzisztorok
száma 18 havonta duplázódik (Moore törvénye)
EXPONENCIÁLIS NÖVEKEDÉS – DE KÜLÖNBÖZŐ ÜTEMBEN
HARD DRIVE-OK: 1991 ÉS 2012
• 40 MB• 3500 RPM• 0.7 MB/sec• full scan: 1 minutes
• 4 TB ( x 100000)• 7200 RPM• 120 MB/sec ( x 170)• full scan: 8 hours ( x
480)
• Mi a Big Data?• Miért kell beszélnünk róla?• Paradigmaváltás az
információmenedzsmentben• Technológia és hatékonyság
Új szűk keresztmetszet: az adatelérés sebessége
Új gyakorlatok az információmenedzsmentben
A GOOGLE HARDVERE 1998-BAN
A GOOGLE HARDVERE 2013-BAN
• 12 adattárház világszerte• Több millió nod• Egy adattárház megépítése 600 millió $• Oregoni adattárház
• 15 000 m2• 30 000 otthonhoz elegendő áram
A GOOGLE HARDVERE 2013-BAN
• Olcsó, egyszerűen beszerezhető hardverelemek• mind saját táppal
• Moduláris felépítésű adattárházak• Sztenderd tárolók• 1160 szerver tárolónként
• Hatékonyság: 11% fölött (áram transzformálása, hűtés)
BIG DATA PARADIGMAVÁLTÁS
• Mi a Big Data?• Miért kell beszélnünk róla?• Paradigmaváltás az
információmenedzsmentben• Technológia és hatékonyság
TECHNOLÓGIÁK
• Hadoop• Google Big Query• Cloudera Impala• Apache Spark
HADOOP DISTRIBUTED FILE SYSTEM (HDFS)
HADOOP MAP REDUCE
HADOOP
• Ki használja?• Facebook: 100 PB• Yahoo: 4000 nod• A Fortune 50 vállalatok nagy része!
• Története• A Google architektúra replikája (GFS, BigTable),
Java-ban, Apache licenccel
• Hadoop 2.0• Magas rendelkezésre állás a teljes klaszteren• Fejlett erőforrásmenedzsment-rendszerek (YARN)
GOOGLE BIG QUERY
• Másodpercek alatt lefuó SQL lekérdezések TB mennyiségű adaton
• Több ezer nodon elosztott adat• Az adatbázis egyes részeit külön nodokhoz
dolgozzák fel• Többezer nod már néhány milliszekundum
alatt elvégzi a feladatot
select year, SUM(mother_age * record_weight) / SUM(record_weight) as age from publicdata:samples.natality where ever_born = 1 group by year order by year;
CLOUDERA IMPALA
• Ugyanaz, mint a BigQuery, Hadoop alapon
• Standard SQL Big Data adathalmazokon• 10 millió Ft klaszteren adatok terabájtjai
elemezhetőek interaktív módon• Többszáz nodig felskálásható• Technológiai finomságok• LLVM-mel generálható futtatási idő kódok• Parquet formátum (oszlop-orientált)
APACHE SPARK
• Berkeley-fejlesztés• Bizonyos feladatok elvégzésekor 100x
magasabb sebességre képes, mint a Hadoop
• Klaszteren belüli memóriában futó számítás
NEM HATÉKONY MŰKÖDÉS ERŐFORRÁS PAZARLÁS
• 300 nodos klaszter• Hadoop • Hive
=
• 1 nod• Vectorwise• Leggyorsabb a világon az 1
nodon, analitikus adatbázison futtatott lekérdezések gyorsaságában
HATÉKONYSÁGNÖVELÉS OKOSAN
• Veszteség nélküli adattömörítés (akár 50-szer!)
• Veszteséges tömörítés (pl. OLAP-kocka)• Cache-re építő implementációk
(aszimmetrikus trendek, memória hozzáférés szűkössége)
VESZTESÉGMENTES ADATTÖMÖRÍTÉS
• Akár az 50-szeresére növelheti a a szekvenciális adatelérési sebességet (100 MB/mp 5 GB/mp)• Kevesebb adat kevesebb I/O művelet• Egyetlen CPU 5 GB/mp sebességgel képes
kitömöríteni az adatokat
• A gzip kitömöríteni nagyon lassú• Az oszlop-orientált adatbázisok elérhetik
az 5 GB/mp sebességet is (PFOR)• 2 mrd egy szám/mp! (majdnem egy egy
szám/órajel!!!)
PÉLDA: VESZTESÉGES TÖMÖRÍTÉS – LOGDRILL
2011-01-08 00:00:01 X1 Y1 1.2.3.4 GET /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 200 0 0 22957 562
2011-01-08 00:00:09 X1 Y1 1.2.3.4 GET /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 200 0 0 2957 321
2011-01-08 00:01:04 X1 Y1 1.2.3.4 GET /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 200 0 0 43422 522
2011-01-08 00:01:08 X1 Y1 1.2.3.4 GET /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 200 0 0 234 425
2011-01-08 00:02:23 X1 Y1 1.2.3.4 GET /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 404 0 0 234 432
2011-01-08 00:02:45 X1 Y1 1.2.3.4 POST /a/b/c - 1.2.3.4 HTTP/1.1 Mozilla 200 0 0 4353 134
2011-01-08 00:00 GET 200 2
2011-01-08 00:01 GET 200 2
2011-01-08 00:02 GET 404 1
2011-01-08 00:02 POST 200 1
CACHE AWARE PROGRAMMING
• A CPU sebessége 60%-kal nő egy év alatt• A memória sebessége csupán 10%-kal• A növekvő különbség áthidalása: a cache
többszintű kihasználásával• A cache nem megfelelő kihasználtságú
Akár 100x gyorsabb lehet!
TANULSÁGOK
• A Big Data technológiai szempontból semmiképp nem hype
• A modern technológia (Impala, Spark) elérheti a klaszteres hardverkonfiguráció elméleti határát
• A hatékony Big Data megoldásokhoz egyaránt szükséges a rendelkezésre álló technológiák és az adott probléma ismerete
KÖSZÖNÖM A FIGYELMET!
Q&A