hva er big data - lars marius garshol

26
Hva er Big Data? Bouvet Innsikt 2013-11-21 Lars Marius Garshol, [email protected], http://twitter.com/larsga 1

Upload: bouvet-asa

Post on 06-Jul-2015

585 views

Category:

Business


3 download

DESCRIPTION

I dette innlegget går Lars Marius gjennom noen oppsiktsvekkende eksempler på bruk av Big Data-analyse i den virkelige verden. Vi ser også på hva slags teknikker som ligger under analysen, og hvordan disse fungerer. Egentlig er dette tung matematikk og statistikk, men det går an å gi et inntrykk av hovedprinsippene nokså enkelt.

TRANSCRIPT

Page 1: Hva er Big Data - Lars Marius Garshol

Hva er Big Data?Bouvet Innsikt 2013-11-21

Lars Marius Garshol, [email protected], http://twitter.com/larsga

1

Page 2: Hva er Big Data - Lars Marius Garshol

Hvordan bli rik med lineær algebraBouvet Innsikt 2013-11-21

Lars Marius Garshol, [email protected], http://twitter.com/larsga

2

Page 3: Hva er Big Data - Lars Marius Garshol

Hva er Big Data?

3

• Egentlig– datamengder for store til å prosessere på vanlig

måte– data som ikke passer på én maskin– mer enn 10 terabyte (i følge Talend)

• Hvem har Big Data?– nesten ingen– Google, Facebook, NSA (dessverre), ...

• Big Data er også– nye analyseteknikker for data– som kan svare på helt nye typer spørsmål– noen kaller dette data science

Page 4: Hva er Big Data - Lars Marius Garshol

Om datastørrelse

4

Survey of data professionals:“what is the biggest data setyou’ve ever analyzed?”

Ca 50% var innenfor heri 2011

Dette er det Talend definerer som Big Data

Page 5: Hva er Big Data - Lars Marius Garshol

Data science?

5 http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

Page 6: Hva er Big Data - Lars Marius Garshol

Big Data-analyse vs tradisjonell

6

• Tradisjonell rapportering– svarer på forhåndsdefinerte spørsmål– overlater tolkning til mennesker– veldig høynivå– kun 2-3 dimensjoner av gangen– forholder seg ikke til enkeltdata

• Big Data-analyse– finner årsaker og sammenhenger selv– kast inn så mange dimensjoner du kan– verktøyet finner ut hvilke dimensjoner

som er viktige– forutsier resultater for enkeltdata

Page 7: Hva er Big Data - Lars Marius Garshol

Et Google-eksempel

7

• Google analyserer data om intervjuer og ansettelser i stor skala– samler masse parametre om intervjuprosessen og

hvordan de ansatte gjør det etterpå

• Noen av konklusjonene– “brainteasers” er ubrukelige i intervjuer– karakterer fra utdanning forutsier ingenting fra ca

5 år etter ansettelse– “best predictor” er å ha fått bunnscore på én av

testene Google utsetter deg for

Page 8: Hva er Big Data - Lars Marius Garshol

Mulighetene med Big Data

• Alle organisasjoner sitter på store mengder data– de kaster også enorme mengder data hver dag– data inneholder informasjon av betydelig

forretningsverdi

• Gir muligheter for mer effektivt salg, mer effektiv ressursbruk, osv

• Men er dataene virkelig så verdifulle?

Page 9: Hva er Big Data - Lars Marius Garshol

9

Page 10: Hva er Big Data - Lars Marius Garshol

10

“Earlier analytic models studied as little as 2% of transaction data. Now the company said it endeavors to analyze all of its data. In the past, the company based its security assumptions on average fraud rates for merchant categories, like grocery stores. Now it said it can analyze the actual market, right down to individual merchant terminals. That allows it to drill down on hundreds of attributes, such as average authorization volumes, average ticket sizes and frequency of purchases that turn out to be fraudulent, the company said.”

Page 11: Hva er Big Data - Lars Marius Garshol

11

“The new model was flagging a lot of otherwise innocuous ads for used cars. ... They were real cars, but they weren't really for sale. Scammers were taking pictures of cars on the street, and when a hapless customer showed up a few days later offering money, they'd steal the car and hand it over”

Page 12: Hva er Big Data - Lars Marius Garshol

12

Page 13: Hva er Big Data - Lars Marius Garshol

13

“quadrupling the average cow's milk production since your parents were born”

"When Freddie [as he is known] had no daughter records our equations predicted from his DNA that he would be the best bull," USDA research geneticist Paul VanRaden emailed me with a detectable hint of pride. "Now he is the best progeny tested bull (as predicted)."

Page 14: Hva er Big Data - Lars Marius Garshol

Some more examples

14

• Sports– basketball increasingly driven by data analytics– soccer beginning to follow

• Entertainment– House of Cards designed based on data analysis– increasing use of similar tools in Hollywood

• Engineering– Crossrail used sensors and analytics to predict

ground sinkage above tunnels. Huge cost savings.

• “Facebook is about to launch Big Data play”– starting to connect Facebook with real life

https://delicious.com/larsbot/big-data

Page 15: Hva er Big Data - Lars Marius Garshol

Utfordring: juss og etikk

• Hvor mye data er det akseptabelt å ha om enkeltpersoner?– hvilke måter er det lov å samle data på?

• Mye av dette gir voldsom Big Brother-følelse– i noen tilfeller kan dette gi omdømmeproblemer– kanskje ikke alle som er komfortable med å jobbe

med det, heller

• Her trengs det mer retningslinjer– merk: selv om man ønsker mest mulig data om

brukeren, trenger man ikke nødvendigvis vite hvem brukeren er

15

Page 16: Hva er Big Data - Lars Marius Garshol

Forutsetning #1: Data!

• Skal dette være mulig må man ha grunnlagsdata– hvem har kjøpt hva?– hvor kommer personen fra?– hvem skrev boken?– hvor har brukeren klikket?– hva har brukeren søkt på?– ...

• Flere kilder til dette– eget datagrunnlag– eksterne data– dataeksos

16

Page 17: Hva er Big Data - Lars Marius Garshol

Dataeksos?

• Kunder bruker tjenester via en rekke små interaksjoner– hver av disse er en hendelse som kan logges

• Eksempler på interaksjoner– stoppe filmen, – pause filmen, – søke på en frase, – se på en film i nettbutikken,– ...

• Alt dette er potensielt verdifulle data– “eksos” som kunder slipper ut under bruk– fanges som regel ikke inn i dag

17

Page 18: Hva er Big Data - Lars Marius Garshol

En spådom

• I nær framtid kommer mange forretnings-modeller til å legges om for å sikre tilgang til data– dvs: man legger opp butikken på en måte som sørger

for at man sitter igjen med mest mulig data

• Eksempel: Amazon Kindle– Amazon selger lesebrettene billig– de lar deg lese bøkene på alle slags plattformer– men, du må bruke deres verktøy– hvorfor?

• Fordi det gir dem dataeksosen– hvilke bøker har du gitt opp etter kapittel 2?– hvilke setninger i teksten har du understreket?– hvor lange pauser tar du i lesingen?– ...

18

Page 19: Hva er Big Data - Lars Marius Garshol

Forutsetning #2: Kvalitet

• Det er ikke nok å ha dataene– de må også ha rett form

• Og de må være integrert– data fra ulike kilder må ofte samles og sys sammen

• Og kvaliteten må være brukbar– støy går an– men jo mer støy, jo dårligere resultat

19

Page 20: Hva er Big Data - Lars Marius Garshol

20 http://www.slideshare.net/Hadoop_Summit/scaling-big-data-mining-infrastructure-twitter-experience/12

Page 21: Hva er Big Data - Lars Marius Garshol

Forutsetning #3: Mengde

• Det er ikke nok å ha dataene i rett form– man må også ha et tilstrekkelig stort datasett

• Alle som kan litt statistikk vet at du får ikke statistisk signifikans med 20 datapunkter– du må ha mer data

• Hvor mye data er nok?– det avhenger av hva du skal gjøre

21

Page 22: Hva er Big Data - Lars Marius Garshol

Mengde er ikke bare dybde

• Mengde er også bredde• Hvor er verdien i en database med

– kundenavn, adresse, telefonnummer?

• Du kan ikke analysere med kun grunndata– må ha informasjon om hva vedkommende gjør

• Dette kan kreve– integrasjon av data fra flere kilder– dataeksos– innkjøp av data– massering av data for å bygge syntetiske

dimensjoner

22

Page 23: Hva er Big Data - Lars Marius Garshol

Hvordan trekke innsikt ut av data?

23

Monthly Retail Sales in New South Wales (NSW) Retail Department Stores

Page 24: Hva er Big Data - Lars Marius Garshol

Det er matematikk alt sammen...

24

• Lineær algebra• Kalkulus• Sannsynlighetsteori• Grafteori• ...

24

Page 25: Hva er Big Data - Lars Marius Garshol

Topp 10 algoritmer

1. C4.5 regeltrær2. k-means clustering clustering3. Support vector machines klassifisering4. the Apriori algorithm handlekurv5. the EM algorithm optimalisering6. PageRank grafanalyse7. AdaBoost meta-algoritme8. k-nearest neighbours class. klassifisering9. Naïve Bayes sannsynlighet10. CART handlekurv

25From a survey at IEEE International Conference on Data Mining (ICDM) in December 2006. “Top 10 algorithms in data mining”, by X. Wu et al

Page 26: Hva er Big Data - Lars Marius Garshol

Men hvordan samle data til analyse?

• Dét skal Axel Borge snakke om etterpå

26