from big data, fast computers and complex models towards learning machines

49
Van veel data, snelle computers en complexe modellen tot zelflerende machines Max Welling Universiteit van Amsterdam 29 januari 2014 1

Upload: joergen-sandig

Post on 15-Jan-2015

1.092 views

Category:

Technology


0 download

DESCRIPTION

inaugural address of Max Welling, accepting his Full Professor status at Univerity of Amsterdam

TRANSCRIPT

Page 1: From Big Data, fast computers and complex models towards learning machines

Van  veel  data,    snelle  computers    

en  complexe  modellen      tot  zelflerende  machines  

Max  Welling  Universiteit  van  Amsterdam  

29  januari  2014  

1  

Page 2: From Big Data, fast computers and complex models towards learning machines

Big  Data  

2  

Page 3: From Big Data, fast computers and complex models towards learning machines

Hoeveel  Data  =  Big  Data?  

Totale  hoeveelheid  data  door  de  mens  gegenereerd:                                                                                                                                                        4  zeIabyte  =  4,000,000,000,000,000,000,000  byte.    Dat  is  8  miljard  harde  schijven  met  data                                                                                                                  =  een  stapel  van  de  aarde  tot  de  maan  als  elke  schijf  5  cm  dik  is.    

3  

Page 4: From Big Data, fast computers and complex models towards learning machines

De  Big  Data  Kampioen  Astronomen  zijn  de  kampioen  in  het  produceren  van  big  data:                                In  2024  ongeveer  1  exabyte  per  dag  =  evenveel  als  alle  data  tot  nu  toe  in  10  jaar  Tjd.  

4  

Page 5: From Big Data, fast computers and complex models towards learning machines

De  BeloUen  Een  veiligere  samenleving:  •  Bestrijding  van  cybercriminaliteit  en  terrorisme      Een  eerlijkere  samenleving:  •  De  elektronische  advocaat      Verbeterde  gezondheidszorg:  •  Persoonlijke  afstemming  medicaTe    

 Meer  gemak:  •  AnTcipaTe  van  behoeUen    

5  

Page 6: From Big Data, fast computers and complex models towards learning machines

De  Gevaren  Privacy  schendingen:  •  Hoe  ver  mag  de  AIVD  gaan:  balans  privacy  /  veiligheid  •  Wat  mag  Google  met  onze  data  doen?      Misbruik  poliTek:  (Big  Brother)  •  Chantage  poliTeke  tegenstanders      Misbruik  verzekering:  •  “De  kans  dat  u  kanker  ontwikkeld  voor                  uw  50e  is  70  procent,  dus  we  hebben  uw  polis  wat  verhoogd.”          Werkeloosheid:  •  Zelfrijdende  auto’s  vervangen  alle  vrachtwagenchauffeurs.  •  Computers  vervangen  artsen,  advocaten  etc.  

6  

Page 7: From Big Data, fast computers and complex models towards learning machines

Datamining:  Het  Ontsluiten  van  InformaTe  uit  Data  

data  =  gouderts  nufge  informaTe  =  goud  

machine  learning  =  drilboor  en  pikhouweel  7  

Page 8: From Big Data, fast computers and complex models towards learning machines

De  Datascope  

De  datascope:      De  computer  algoritmen  waarmee  we  de  materie  van  nullen  en  enen  kunnen  analyseren.    

+   =   +  

8  

Page 9: From Big Data, fast computers and complex models towards learning machines

Machine  Learning  +  Big  Data  

+  

10  miljoen  klanten  x  2  bezoekjes  per  week  x  52  weken  x  10  boodschappen  per  bezoek  =                                                                            ±  10  miljard  boodschappen  per  jaar  !  

Een  voorbeeld  uit  de  dagelijkse  prakTjk:                              “shoppen  bij  Appie”    

9  

Page 10: From Big Data, fast computers and complex models towards learning machines

Gordon  bij  de    Appie    

•  45  jaar  oud  •  zanger  •  man  •  woont  samen  •  …    

•  melkproduct  •  0.99  €  •  biologisch  •  1  liter  •  …  

Gordon  kocht:    •  op  29  januari  •  om  16:35  uur  •  op  de  Reguliersbreestraat  22-­‐A  •  In  Amsterdam  •  een  pak  biologische  yoghurt  •  plus  •  ……    

+  

10  

Page 11: From Big Data, fast computers and complex models towards learning machines

 Toepassing:  Persoonlijke  Aanbiedingen  

•  Aanbiedingen  op  persoonlijk  niveau  11  

Page 12: From Big Data, fast computers and complex models towards learning machines

Het  allersimpelste    machine  learning  algoritme  

⇡ ⇡

•  Gerard  Joling  lijkt  op  Gordon      •  Gerard  heeU  al  vanillevla  gekocht    

•  Vanillevla  lijkt  op  yoghurt  

•  Gerard  Joling  vindt  waarschijnlijk  lekker  12  

Page 13: From Big Data, fast computers and complex models towards learning machines

Het  alleringewikkelste    machine  learning  algoritme  

•  Een  neuraal  netwerk  getraind  bij  Google  met  vele  duizenden  computers,  op  vele              miljoenen  Youtube  videos.    •  Resultaat:  een  model  met  10  miljard  “vrijheidsgarden”  (parameters).   13  

Page 14: From Big Data, fast computers and complex models towards learning machines

Steeds  complexere  modellen      

1943:  First  NN  (+/-­‐  N=10)  

1988:  NetTalk  (+/-­‐  N=20K)  

2009:  Hinton’s  Deep  Belief  Net  (+/-­‐  N=10M)   2013:  Google/Y!    

(N=+/-­‐  10B)  

2020-­‐2050  menselijk  brein  (N=+/-­‐  100T)  

?  Groei  van  de  capaciteit  van  modellen    

Log-­‐log  plot  

14  

Page 15: From Big Data, fast computers and complex models towards learning machines

ExponenTële  groei  Hoe  vaak  moet  je  een  krant  van  0.1  mm  dik  vouwen  om  een  stapel  te  creëren      die  even  groot  is  als  de  doorsnede  van  het  gehele  universum?  

Antwoord:  

15  

Page 16: From Big Data, fast computers and complex models towards learning machines

De  Drie  Explosieve  GroeiweIen  

•  Computerkracht  (Moore’s  law)  

•  Datavolume  (Big  Data)  

•  Modellencapaciteit  (Deep  Learning)  

16  

Page 17: From Big Data, fast computers and complex models towards learning machines

Is  de  Silo  te  Groot?  

17  

Page 18: From Big Data, fast computers and complex models towards learning machines

InformaTe  

Claude  Shannon  

weinig  informaTe   veel  informaTe  

18  

Page 19: From Big Data, fast computers and complex models towards learning machines

Nufge  InformaTe  

weinig  nufge  informaTe   veel  nufge  informaTe   weinig  nufge  informaTe  

Nu#ge  informa.e:      

InformaTe  waar  we  mee  kunnen  voorspellen  

19  

Page 20: From Big Data, fast computers and complex models towards learning machines

De  InformaTe  Zeef  

20  

Page 21: From Big Data, fast computers and complex models towards learning machines

De  InformaTe  Zeef  

21  

Page 22: From Big Data, fast computers and complex models towards learning machines

22  

Wat  is  dit?  

Page 23: From Big Data, fast computers and complex models towards learning machines

23  

“Weten  =  Vergeten”  

AbstracTe  =  EssenTe  

•  Om  te  generaliseren  moet  u  de  details  vergetenen  de  essenTe  onthouden.    

Page 24: From Big Data, fast computers and complex models towards learning machines

Verminderde  Meerwaarde  

Hoe  langer  je  graaU  in  dezelfde  goudmijn,  des  te  moeilijker  het  wordt      om  het  goud  te  vinden.  

24  

Page 25: From Big Data, fast computers and complex models towards learning machines

Verminderde  meerwaarde  

De  wet  van  de  verminderde  meerwaarde  van  data:    

Hoe  meer  data  je  hebt  van  één  bron,  hoe  minder  extra  nufge  informaTe  die  bevat.  

   

25  

Page 26: From Big Data, fast computers and complex models towards learning machines

De  Paradox  

•  Er  is  niet  genoeg  nu7ge  informaTe  in  exponenTeel  groeiende  data                om  de  exponenTeel  groeiende  model  capaciteit  mee  te  vullen.    •  Gevaar:  de  extra  capaciteit  wordt  gevuld  met  ruis:  overfi7ng  

26  

Page 27: From Big Data, fast computers and complex models towards learning machines

   Overfifng:  Een  Experiment  

27  

Page 28: From Big Data, fast computers and complex models towards learning machines

De  “Stelling  van  Welling”  

Big  Data  +  Complexe  Modellen  à  Meer  Overfi7ng  

+    

28  

Page 29: From Big Data, fast computers and complex models towards learning machines

ResoluTe:  Verklein  Modelcapaciteit    

29  

Page 30: From Big Data, fast computers and complex models towards learning machines

De  wijsheid  van  de  menigte  

30  

Page 31: From Big Data, fast computers and complex models towards learning machines

Een  Experiment  

•  Schat  het  gewicht  van  de  Eiffel  toren  (in  kg)              (u  mag  niet  awijken!)    •  Sorteer  de  schafngen.    •  Neem  het  middelste  getal:  (1,2,3,4,5)  

•  Fouten  annuleren  elkaar.      

Antwoord:  

31  

Page 32: From Big Data, fast computers and complex models towards learning machines

Ensembles  van  Lijnen  

32  

Page 33: From Big Data, fast computers and complex models towards learning machines

Een  Analogie  

model  is  te  simpel   model  is  te  complex,  maar  gemiddelde  is  accuraat  

33  

Page 34: From Big Data, fast computers and complex models towards learning machines

SamenvaIend  

“Big  Data”  “Moore’s  Law”  

“Deep  Learning”   34  

Page 35: From Big Data, fast computers and complex models towards learning machines

Industry  is  Deeply  Interested  

35  

Page 36: From Big Data, fast computers and complex models towards learning machines

Vers  van  de  Pers  

Page 37: From Big Data, fast computers and complex models towards learning machines

Het  Opleiden  van  de  Menigte  

37  

•  “Massive  Open  Online  Courses”  (MOOC)  zijn  voor  iedereen  graTs  toegankelijk.  

•  100,000  studenten  over  de  hele  wereld  volgen  soms  samen  één  cursus        

Page 38: From Big Data, fast computers and complex models towards learning machines

Iedereen  kan  meedoen…  

38  

Page 39: From Big Data, fast computers and complex models towards learning machines

Crowdsourcing:  ParTcipaTe  in  de  Wetenschap  

39  

Page 40: From Big Data, fast computers and complex models towards learning machines

De  Menselijke  Computer  

40  

Page 41: From Big Data, fast computers and complex models towards learning machines

Het  Nufge  met  het  Aangename  Combineren  

Het  “ESP”  spel    

reCaptcha’s  41  

Page 42: From Big Data, fast computers and complex models towards learning machines

Online  CompeTTes  

42  

Page 43: From Big Data, fast computers and complex models towards learning machines

Iedereen  kan  winnen…  

43  

Page 44: From Big Data, fast computers and complex models towards learning machines

Data  Science  

44  

Page 45: From Big Data, fast computers and complex models towards learning machines

Machine  Learning  bruist  van  het  leven!  

ExponenTele  Groei  Bezoekers  op  NIPS  

Page 46: From Big Data, fast computers and complex models towards learning machines

BeloUen  en  Gevaren  

•  Verbeterde  gezondheidszorg    •  Een  veiliger  samenleving  

•  Meer  gemak  

•  Privacy  schendingen  

•  Misbruik    

•  Werkeloosheid  

46  

Page 47: From Big Data, fast computers and complex models towards learning machines

47  

Het  Nederlandse  Academische  Systeem  

Page 48: From Big Data, fast computers and complex models towards learning machines

48  

Page 49: From Big Data, fast computers and complex models towards learning machines

Ten  SloIe  

Ik  heb  gezegd