Download - Big Data -esitys, Arcada ammattikorkeakoulu
![Page 1: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/1.jpg)
Big Data28.01.2013Immo SaloEufris
![Page 2: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/2.jpg)
Eufris
• Peruste'u vuonna 2006• Koulutus-‐ ja konsultoin/palveluita, erikoistunut pilvipalveluihin
• Yri7äjä: Immo Salo• Kirjat
• “Cloud compu/ng -‐ palvelut verkossa”, WSOYPro 2010
• “Hyötyä pilvipalveluista”, Docendo 2012
• “Big Data”, Docendo 2013 (tulossa)
www.eufris.fiwww.bigdata.fi
![Page 3: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/3.jpg)
Big Data: hype nousee!
![Page 4: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/4.jpg)
Google Trends
Web 2.0Social mediaCloud computing
Big data
![Page 5: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/5.jpg)
![Page 6: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/6.jpg)
Big Data: mitä se on?
![Page 7: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/7.jpg)
Big Data-‐määritelmiä
"Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis"IDC
"Big Data is a technology that helps extract value from the digital universe.”IDC
"Techniques and technologies that make handling data at extreme scale economical."Forrester
![Page 8: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/8.jpg)
Gartnerin top 10 strategista teknologiaa 20121. Media Tablets and Beyond
2. Mobile-‐Centric Applica/ons and Interfaces
3. Contextual and Social User Experience
4. Internet of Things
5. App Stores and Marketplaces
6. Next-‐Genera/on Analy/cs
7. Big Data
8. In-‐Memory Compu/ng
9. Extreme Low-‐Energy Servers
10.Cloud Compu/ng
![Page 9: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/9.jpg)
Gartnerin top 10 strategista teknologiaa 20131. Mobile Devices Ba7les
2. Mobile Applica/ons and HTML5
3. Personal Cloud
4. Internet of Things
5. Hybrid IT and Cloud Compu/ng
6. Strategic Big Data
7. Ac/onable Analy/cs
8. Mainstream In-‐Memory Compu/ng
9. Integrated Ecosystems
10. Enterprise App Stores
![Page 10: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/10.jpg)
Big Data: datan määrä kasvaa
![Page 11: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/11.jpg)
Pari yleistä kuvaa
2012 2015 2020
![Page 12: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/12.jpg)
Mistä dataa oikein tulee?
Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com, apple.com, nokia.com
![Page 13: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/13.jpg)
Vaihtoehtoja on paljon
![Page 14: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/14.jpg)
KäyFökokemuksia
Haasteellisinta big datassa on päästä alkuun.
![Page 15: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/15.jpg)
Osaajapula uhkaa
“There will be a shortage of talent necessary for organizations to take advantage of big data. By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills as well as 1.5 million managers and analysts with the know-how to use the analysis of big data to make effective decisions.”
Lähde: McKinsey
![Page 16: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/16.jpg)
Big Data: viitekehyksiä
![Page 17: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/17.jpg)
Big Datan ABC
• Analy/cs (analy2ikka)• Data pitää jalostaa informaa2oksi, 2edoksi ja ymmärrykseksi. Visualisoin2,
konkre2soin2, ennusteiden tekeminen, tunnuslukujen laskeminen, korrelaa2oiden hakeminen...
• Bandwidth (2etoliikenne)• Suurten 2etomäärien liiku=elu on yhä useammin pullonkaula. Lähtökohtainen päätös
siitä, missä 2etoja säilytetään ja missä niitä prosessoidaan on yhtä merki=ävä kuin käytetyt teknologiat ja analyysin hyödyntämiskohteet.
• Content (sisältö)• Edelleen suuri osa 2edosta säilytetään, mu=a jätetään käy=ämä=ä tai vielä
pahempaa: heitetään hukkaan ilman ensimmäistäkään analyysia.
Lähde: Netapp.com
![Page 18: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/18.jpg)
Big Datan kolme V-‐kirjainta (3V)
• Variety (vaihtelevuus)• Dataa on strukturoitua ja strukturoimatonta. Molempia pitää pystyä hyödyntämään.
• Velocity (vauh2)• Datan määrä kasvaa vauhdilla ja sitä tulee lukema=omista lähteistä. Lähes
reaaliaikaisen analyysi tavoi=eena.
• Volume (voluumi)
• Data pitää pystyä analysoimaan ja säily=ämään myöhempää käy=öä varten.
Lähde: Netapp.com
![Page 19: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/19.jpg)
Big Data: Hadoop
![Page 20: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/20.jpg)
Google Trends: Hadoop
Onko huomiarvon huippu saavutettu?
![Page 21: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/21.jpg)
Indeed Trends: Hadoop työpaikat
Työpaikkojen tarjonta nousee nopeasti!
![Page 22: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/22.jpg)
Computerworld.com 24.01.2013
![Page 23: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/23.jpg)
Hadoop
• Avoimen lähdekoodin Apache-‐projek/, joka on ehkä tunnetuin yksi7äinen tuotenimi Big Data-‐tarjoomista
• Tarkoite7u suurten datamäärien hajaute7uun prosessoin/in
• Asennetaan palvelinklusteriin, joka on vikasietoinen eli yksi7äisen palvelimen vikaantuminen ei hai7aa
• Kolme alaprojek/a1. Hadoop Common
2. Hadoop Distributed Filesystem
3. Hadoop MapReduce
![Page 24: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/24.jpg)
Node 1. Node 2.
Node 2.Node 1.
Hadoop MapReduceDATA
“raakadata” “raakadata”
Map Map
“välitulokset” “välitulokset”
Reduce Reduce
HDFS HDFS
Sort and shuffle
![Page 25: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/25.jpg)
Master
Hadoop: arkkitehtuuri
Job tracker
Task tracker
Name node
Data node
Master
Task tracker
Data node
MapReduce
HDFS
![Page 26: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/26.jpg)
Mihin Hadoop parhaiten sopii?
• Hadoop on klusteriarkkitehtuurin toteuttava ohjelmisto
• Käyttökelpoinen kun...
• Nopeus on valttia
• Tarvitaan skaalautuvuutta!
• Vikasietoisuus on arvokasta
• Analysoitavaa dataa on paljon
• Laitteistoriippumattomuus(?) kiinnostaa
• Nopeasti kehittyvä ekosysteemi koetaan hyödylliseksi
![Page 27: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/27.jpg)
Hadoopin sisarprojekRt
• HBase• Hive• Pig• Zookeeper
Mitkä ihmeen sisarprojektit? Pelkkä Hadoop on sopimaton moniin käyttötarkoituksiin ja hyödyntää huonosti olemassa olevaa osaamista. Sisarprojektit parantavat hallittavuutta, lisäävät toiminnallisuuksia ja helpottavat käyttöä.
![Page 28: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/28.jpg)
Ketkä käyFävät Hadoopia?
• Facebook• Walmart• eBay• Yahoo
• Hadoop ei millään tavalla ole sidottu suurten yritysten käyttöön!
• http://wiki.apache.org/hadoop/PoweredBy
![Page 29: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/29.jpg)
Esimerkki: Facebook
• Kaksi isoa klusteria:• 1 100 kone7a (8 800 suori*nta, 12 PT tallennus*laa)
• 300 kone7a (2 400 suori*nta, 3 PT tallennus*laa)
Facebookilla on n. miljardi käy'äjää.
![Page 30: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/30.jpg)
Hadoop-‐ekosysteemi
• Moni startup-yritys on rakentanut liiketoimintansa Hadoopin ympärille• Cloudera
• Hortonworks
• MapR
• Hadoop on mukana suuressa osassa big data -tuotteita ja palveluita• Oracle Big Data Appliance (Cloudera)
• Teradata Aster Big Analytics Appliance (Hortonworks)
• IBM InfoSphere BigInsights (Cloudera)
• Microsoft Azure Hadoop (HDInsight) (Hortonworks)
• Amazon Web Services EMR (MapR)
![Page 31: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/31.jpg)
Big Data pilvipalveluna
![Page 32: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/32.jpg)
Pilvipalvelut ja big data
Kaksi ilmiötä, yksi tarina?
![Page 33: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/33.jpg)
Hadoop-‐pilvipalveluiden käyFöEdut
• Ei investointeja
• Nopea käyttöönotto
• Valmis konfiguraatio
• Mahdolliset rajapinnat muihin palveluihin (esim. S3-tuki)
• Mahdollisuus käyttää analysointivoimaa myös muuhun kuin organisaation omaan dataan
• Mahdolliset lisäarvoa tuottavat lisäpalvelut
Riskit
• Tietoturva
• Luottamus
• SLA
• Latenssi
• Mahdollisuus palveluehto- ja muihin sopimuksellisiin muutoksiin
• Palvelukatkokset ja muut tekniset ongelmat
• Rajoitettu kustomoitavuus
![Page 34: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/34.jpg)
Oma Hadoop-‐klusteri pilvipalveluna
• Välimuoto pilvipalveluna tarjottavalle klusterille (AWS EMR tai Microsoft Windows Azure)• Rakennetaan oma klusteri pilvipalveluna saatavilla oleville
palvelimille
Edut
• Kts. edellinen kalvo
Riskit
• Kts. edellinen kalvo
Haasteena konfigurointi ja ylläpito (kuten omassakin klusterissa, mutta pahempi)
![Page 35: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/35.jpg)
Google Cloud ja Big Data
![Page 36: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/36.jpg)
Google BigQuery• “Google BigQuery is a web service that lets you do interac2ve analysis of massive datasets
—up to billions of rows. Scalable and easy to use, BigQuery lets developers and businesses tap into powerful data analy2cs on demand.”
Tarjolla• Selainkäy7ölii7ymä
• Browser Tool
• Komentorivityökalu• bq command-‐line tool
• API
![Page 37: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/37.jpg)
Google BigQuery esimerkki
![Page 38: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/38.jpg)
Mihin Eufris on erikoistunut?• Pilvipalvelut
• Amazon Web Services
• Google Cloud
• Salesforce.com
• Big Data• Hadoop
![Page 39: Big Data -esitys, Arcada ammattikorkeakoulu](https://reader034.vdocuments.net/reader034/viewer/2022051412/548546215806b5b3588b477a/html5/thumbnails/39.jpg)
KIITOS!