istra ivanje podataka: kako od (male) ume videti drvo · prikupljanje podataka istraživanje...

72
Istraživanje podataka: Kako od (male) šume videti drvo Luka Joviˇ ci´ c Matematiˇ cka gimnazija NEDELJA V5.0 INFORMATIKE 21. decembar 2018. Istraživanje podataka Luka Joviˇ ci´ c

Upload: others

Post on 23-Aug-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Istraživanje podataka: Kako od (male)šume videti drvo

Luka Jovicic

Matematicka gimnazijaNEDELJAV5.0

INFORMATIKE

21. decembar 2018.

Istraživanje podataka Luka Jovicic

Page 2: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Struganje

I Aaron SwartzI Javni podaci – (nacelno) okejI Potencijalno privatni podaci –

– izbegavati

Istraživanje podataka Luka Jovicic

Page 3: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Struganje

I Aaron SwartzI Javni podaci – (nacelno) okejI Potencijalno privatni podaci –

– izbegavati

Istraživanje podataka Luka Jovicic

Page 4: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Struganje – prica s tužnim krajem

I Aaron Swartz

I Javni podaci – (nacelno) okejI Potencijalno privatni podaci –

– izbegavati

Istraživanje podataka Luka Jovicic

Page 5: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Struganje – prica s tužnim krajem

I Aaron SwartzI Javni podaci – (nacelno) okejI Potencijalno privatni podaci –

– izbegavati

Istraživanje podataka Luka Jovicic

Page 6: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Kako stružemo

I RegEx1

I DOMI Vizuelno/OCRI ML

1https://stackoverflow.com/a/1732454/2363015Istraživanje podataka Luka Jovicic

Page 7: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Kako stružemo

I RegEx1

I DOMI Vizuelno/OCRI ML

1https://stackoverflow.com/a/1732454/2363015Istraživanje podataka Luka Jovicic

Page 8: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Kako stružemo

I RegEx1

I DOMI Vizuelno/OCRI ML

1https://stackoverflow.com/a/1732454/2363015Istraživanje podataka Luka Jovicic

Page 9: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Kako stružemo

I RegEx1

I DOMI Vizuelno/OCRI ML

1https://stackoverflow.com/a/1732454/2363015Istraživanje podataka Luka Jovicic

Page 10: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Kako stružemo

I RegEx1

I DOMI Vizuelno/OCRI ML

1https://stackoverflow.com/a/1732454/2363015Istraživanje podataka Luka Jovicic

Page 11: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Kako protiv strugaca

I Nikako!I Zahtevati loginI Rate limiting / captchaI Honeypot-oviI Dinamicki generisati HTMLI Koristiti necitljive formateI Lepo ih zamolite i nadajte se najboljem

Istraživanje podataka Luka Jovicic

Page 12: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Kako protiv strugaca

I Nikako!I Zahtevati loginI Rate limiting / captchaI Honeypot-oviI Dinamicki generisati HTMLI Koristiti necitljive formateI Lepo ih zamolite i nadajte se najboljem

Istraživanje podataka Luka Jovicic

Page 13: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Kako protiv strugaca

I Nikako!I Zahtevati loginI Rate limiting / captchaI Honeypot-oviI Dinamicki generisati HTMLI Koristiti necitljive formateI Lepo ih zamolite i nadajte se najboljem

Istraživanje podataka Luka Jovicic

Page 14: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Kako protiv strugaca

I Nikako!I Zahtevati loginI Rate limiting / captchaI Honeypot-oviI Dinamicki generisati HTMLI Koristiti necitljive formateI Lepo ih zamolite i nadajte se najboljem

Istraživanje podataka Luka Jovicic

Page 15: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Kako protiv strugaca

I Nikako!I Zahtevati loginI Rate limiting / captchaI Honeypot-oviI Dinamicki generisati HTMLI Koristiti necitljive formateI Lepo ih zamolite i nadajte se najboljem

Istraživanje podataka Luka Jovicic

Page 16: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Kako protiv strugaca

I Nikako!I Zahtevati loginI Rate limiting / captchaI Honeypot-oviI Dinamicki generisati HTMLI Koristiti necitljive formateI Lepo ih zamolite i nadajte se najboljem

Istraživanje podataka Luka Jovicic

Page 17: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Kako protiv strugaca

I Nikako!I Zahtevati loginI Rate limiting / captchaI Honeypot-oviI Dinamicki generisati HTMLI Koristiti necitljive formateI Lepo ih zamolite i nadajte se najboljem

Istraživanje podataka Luka Jovicic

Page 18: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Anscombe’s quartet

https://commons.wikimedia.org/w/index.php?curid=9838454

Istraživanje podataka Luka Jovicic

Page 19: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Anscombe’s quartet

https://commons.wikimedia.org/w/index.php?curid=9838454

Istraživanje podataka Luka Jovicic

Page 20: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Same stats, different graphs

Matejka, J., & Fitzmaurice, G. (2017, May).

Istraživanje podataka Luka Jovicic

Page 21: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Istraživanje?

I John Tukey – Exploratory data analysis (EDA)I Zahteva kreativnost i mnoštvo pitanjaI VarijacijeI Kovarijacije

Istraživanje podataka Luka Jovicic

Page 22: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Istraživanje?

I John Tukey – Exploratory data analysis (EDA)I Zahteva kreativnost i mnoštvo pitanjaI VarijacijeI Kovarijacije

Istraživanje podataka Luka Jovicic

Page 23: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Istraživanje?

I John Tukey – Exploratory data analysis (EDA)I Zahteva kreativnost i mnoštvo pitanjaI VarijacijeI Kovarijacije

Istraživanje podataka Luka Jovicic

Page 24: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Uzorak?

I (Nesavršen) deo populacijeI Istraživanjem opisujemo podatkeI Istraživanje 6=⇒ predikcijaI Bavicemo se malim podacima (small data)

Istraživanje podataka Luka Jovicic

Page 25: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Uzorak?

I (Nesavršen) deo populacijeI Istraživanjem opisujemo podatkeI Istraživanje 6=⇒ predikcijaI Bavicemo se malim podacima (small data)

Istraživanje podataka Luka Jovicic

Page 26: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Uzorak?

I (Nesavršen) deo populacijeI Istraživanjem opisujemo podatkeI Istraživanje 6=⇒ predikcijaI Bavicemo se malim podacima (small data)

Istraživanje podataka Luka Jovicic

Page 27: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Uzorak?

I (Nesavršen) deo populacijeI Istraživanjem opisujemo podatkeI Istraživanje 6=⇒ predikcijaI Bavicemo se malim podacima (small data)

Istraživanje podataka Luka Jovicic

Page 28: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Osnovni koraci

I Uvoz (import)I Cišcenje (wrangling)

I Otklanjanje grešakaI Tumacenje štrcaka (outliers)I Oblikovanje (reshaping)

I VizuelizacijaI TransformacijaI ModeliranjeI Predstavljanje

Istraživanje podataka Luka Jovicic

Page 29: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Osnovni koraci

I Uvoz (import)I Cišcenje (wrangling)

I Otklanjanje grešakaI Tumacenje štrcaka (outliers)I Oblikovanje (reshaping)

I VizuelizacijaI TransformacijaI ModeliranjeI Predstavljanje

Istraživanje podataka Luka Jovicic

Page 30: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Osnovni koraci

I Uvoz (import)I Cišcenje (wrangling)

I Otklanjanje grešakaI Tumacenje štrcaka (outliers)I Oblikovanje (reshaping)

I VizuelizacijaI TransformacijaI ModeliranjeI Predstavljanje

Istraživanje podataka Luka Jovicic

Page 31: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Osnovni koraci

I Uvoz (import)I Cišcenje (wrangling)

I Otklanjanje grešakaI Tumacenje štrcaka (outliers)I Oblikovanje (reshaping)

I VizuelizacijaI TransformacijaI ModeliranjeI Predstavljanje

Istraživanje podataka Luka Jovicic

Page 32: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Osnovni koraci

I Uvoz (import)I Cišcenje (wrangling)

I Otklanjanje grešakaI Tumacenje štrcaka (outliers)I Oblikovanje (reshaping)

I VizuelizacijaI TransformacijaI ModeliranjeI Predstavljanje

Istraživanje podataka Luka Jovicic

Page 33: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Osnovni koraci

I Uvoz (import)I Cišcenje (wrangling)

I Otklanjanje grešakaI Tumacenje štrcaka (outliers)I Oblikovanje (reshaping)

I VizuelizacijaI TransformacijaI ModeliranjeI Predstavljanje

Istraživanje podataka Luka Jovicic

Page 34: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Osnovni koraci

I Uvoz (import)I Cišcenje (wrangling)

I Otklanjanje grešakaI Tumacenje štrcaka (outliers)I Oblikovanje (reshaping)

I VizuelizacijaI TransformacijaI ModeliranjeI Predstavljanje

Istraživanje podataka Luka Jovicic

Page 35: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Osnovni koraci

I Uvoz (import)I Cišcenje (wrangling)

I Otklanjanje grešakaI Tumacenje štrcaka (outliers)I Oblikovanje (reshaping)

I VizuelizacijaI TransformacijaI ModeliranjeI Predstavljanje

Istraživanje podataka Luka Jovicic

Page 36: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

R u 5 minuta

I Pravljen za matematicare =⇒ cudnovat jezikI Vektor kao primarni tip podatakaI Funkcije imaju imenovane parametreI Funkcije su gradani prvog reda. . .I . . . ali postoje i objekti, na tri razlicita nacinaI Cesto radimo sa data frame-ovima,

a. k. a. nabudženim matricamaI tidyverse

Istraživanje podataka Luka Jovicic

Page 37: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

R u 5 minuta

I Pravljen za matematicare =⇒ cudnovat jezikI Vektor kao primarni tip podatakaI Funkcije imaju imenovane parametreI Funkcije su gradani prvog reda. . .I . . . ali postoje i objekti, na tri razlicita nacinaI Cesto radimo sa data frame-ovima,

a. k. a. nabudženim matricamaI tidyverse

Istraživanje podataka Luka Jovicic

Page 38: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

R u 5 minuta

I Pravljen za matematicare =⇒ cudnovat jezikI Vektor kao primarni tip podatakaI Funkcije imaju imenovane parametreI Funkcije su gradani prvog reda. . .I . . . ali postoje i objekti, na tri razlicita nacinaI Cesto radimo sa data frame-ovima,

a. k. a. nabudženim matricamaI tidyverse

Istraživanje podataka Luka Jovicic

Page 39: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

R u 5 minuta

I Pravljen za matematicare =⇒ cudnovat jezikI Vektor kao primarni tip podatakaI Funkcije imaju imenovane parametreI Funkcije su gradani prvog reda. . .I . . . ali postoje i objekti, na tri razlicita nacinaI Cesto radimo sa data frame-ovima,

a. k. a. nabudženim matricamaI tidyverse

Istraživanje podataka Luka Jovicic

Page 40: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

R u 5 minuta

I Pravljen za matematicare =⇒ cudnovat jezikI Vektor kao primarni tip podatakaI Funkcije imaju imenovane parametreI Funkcije su gradani prvog reda. . .I . . . ali postoje i objekti, na tri razlicita nacinaI Cesto radimo sa data frame-ovima,

a. k. a. nabudženim matricamaI tidyverse

Istraživanje podataka Luka Jovicic

Page 41: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

R u 5 minuta

I Pravljen za matematicare =⇒ cudnovat jezikI Vektor kao primarni tip podatakaI Funkcije imaju imenovane parametreI Funkcije su gradani prvog reda. . .I . . . ali postoje i objekti, na tri razlicita nacinaI Cesto radimo sa data frame-ovima,

a. k. a. nabudženim matricamaI tidyverse

Istraživanje podataka Luka Jovicic

Page 42: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

R u 5 minuta

I Pravljen za matematicare =⇒ cudnovat jezikI Vektor kao primarni tip podatakaI Funkcije imaju imenovane parametreI Funkcije su gradani prvog reda. . .I . . . ali postoje i objekti, na tri razlicita nacinaI Cesto radimo sa data frame-ovima,

a. k. a. nabudženim matricamaI tidyverse

Istraživanje podataka Luka Jovicic

Page 43: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Tibble

I Slajdove odavde pa nadalje planiram da predem krozhttps://github.com/luka-j/csw5-eda

I Tibble = fensi data frameI read_csv → tibble

I Kolone – varijable (numericke, kategoricke,tekstualne)

I Redovi – opservacijeI $ za pristup kolonama (slicno . u normalnim jezicima)

Istraživanje podataka Luka Jovicic

Page 44: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Tibble

I Slajdove odavde pa nadalje planiram da predem krozhttps://github.com/luka-j/csw5-eda

I Tibble = fensi data frameI read_csv → tibble

I Kolone – varijable (numericke, kategoricke,tekstualne)

I Redovi – opservacijeI $ za pristup kolonama (slicno . u normalnim jezicima)

Istraživanje podataka Luka Jovicic

Page 45: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Tibble

I Slajdove odavde pa nadalje planiram da predem krozhttps://github.com/luka-j/csw5-eda

I Tibble = fensi data frameI read_csv → tibble

I Kolone – varijable (numericke, kategoricke,tekstualne)

I Redovi – opservacijeI $ za pristup kolonama (slicno . u normalnim jezicima)

Istraživanje podataka Luka Jovicic

Page 46: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Tibble

I Slajdove odavde pa nadalje planiram da predem krozhttps://github.com/luka-j/csw5-eda

I Tibble = fensi data frameI read_csv → tibble

I Kolone – varijable (numericke, kategoricke,tekstualne)

I Redovi – opservacijeI $ za pristup kolonama (slicno . u normalnim jezicima)

Istraživanje podataka Luka Jovicic

Page 47: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Tibble

I Slajdove odavde pa nadalje planiram da predem krozhttps://github.com/luka-j/csw5-eda

I Tibble = fensi data frameI read_csv → tibble

I Kolone – varijable (numericke, kategoricke,tekstualne)

I Redovi – opservacijeI $ za pristup kolonama (slicno . u normalnim jezicima)

Istraživanje podataka Luka Jovicic

Page 48: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Plotovanje

I ggplot2

I “Redamo” slojeve plota, spajamo sa +

I geom, stat i scaleI geom_point – scatter plotI Overplotting

I TransparentnostI JitterI Kernel density estimateI 2d count (tabulacija)

I Više od dve dimenzije?I colorI facet

Istraživanje podataka Luka Jovicic

Page 49: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Plotovanje

I ggplot2

I “Redamo” slojeve plota, spajamo sa +

I geom, stat i scaleI geom_point – scatter plotI Overplotting

I TransparentnostI JitterI Kernel density estimateI 2d count (tabulacija)

I Više od dve dimenzije?I colorI facet

Istraživanje podataka Luka Jovicic

Page 50: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Plotovanje

I ggplot2

I “Redamo” slojeve plota, spajamo sa +

I geom, stat i scaleI geom_point – scatter plotI Overplotting

I TransparentnostI JitterI Kernel density estimateI 2d count (tabulacija)

I Više od dve dimenzije?I colorI facet

Istraživanje podataka Luka Jovicic

Page 51: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Plotovanje

I ggplot2

I “Redamo” slojeve plota, spajamo sa +

I geom, stat i scaleI geom_point – scatter plotI Overplotting

I TransparentnostI JitterI Kernel density estimateI 2d count (tabulacija)

I Više od dve dimenzije?I colorI facet

Istraživanje podataka Luka Jovicic

Page 52: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Plotovanje

I ggplot2

I “Redamo” slojeve plota, spajamo sa +

I geom, stat i scaleI geom_point – scatter plotI Overplotting

I TransparentnostI JitterI Kernel density estimateI 2d count (tabulacija)

I Više od dve dimenzije?I colorI facet

Istraživanje podataka Luka Jovicic

Page 53: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Plotovanje

I ggplot2

I “Redamo” slojeve plota, spajamo sa +

I geom, stat i scaleI geom_point – scatter plotI Overplotting

I TransparentnostI JitterI Kernel density estimateI 2d count (tabulacija)

I Više od dve dimenzije?I colorI facet

Istraživanje podataka Luka Jovicic

Page 54: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Plotovanje

I ggplot2

I “Redamo” slojeve plota, spajamo sa +

I geom, stat i scaleI geom_point – scatter plotI Overplotting

I TransparentnostI JitterI Kernel density estimateI 2d count (tabulacija)

I Više od dve dimenzije?I colorI facet

Istraživanje podataka Luka Jovicic

Page 55: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Plotovanje

I ggplot2

I “Redamo” slojeve plota, spajamo sa +

I geom, stat i scaleI geom_point – scatter plotI Overplotting

I TransparentnostI JitterI Kernel density estimateI 2d count (tabulacija)

I Više od dve dimenzije?I colorI facet

Istraživanje podataka Luka Jovicic

Page 56: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Join, filter, transform

I dplyr

I %>% – pipe operatorI a %>% b(c) ⇐⇒ b(a,c)

I Join spaja tabele koje imaju nešto zajednickoI left, right, inner, full, semi, anti

I data <- data %>% filter(!štrčak)

I Sve operacije sa kolonama se izvršavaju nad svimredovima

Istraživanje podataka Luka Jovicic

Page 57: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Join, filter, transform

I dplyr

I %>% – pipe operatorI a %>% b(c) ⇐⇒ b(a,c)

I Join spaja tabele koje imaju nešto zajednickoI left, right, inner, full, semi, anti

I data <- data %>% filter(!štrčak)

I Sve operacije sa kolonama se izvršavaju nad svimredovima

Istraživanje podataka Luka Jovicic

Page 58: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Join, filter, transform

I dplyr

I %>% – pipe operatorI a %>% b(c) ⇐⇒ b(a,c)

I Join spaja tabele koje imaju nešto zajednickoI left, right, inner, full, semi, anti

I data <- data %>% filter(!štrčak)

I Sve operacije sa kolonama se izvršavaju nad svimredovima

Istraživanje podataka Luka Jovicic

Page 59: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Join, filter, transform

I dplyr

I %>% – pipe operatorI a %>% b(c) ⇐⇒ b(a,c)

I Join spaja tabele koje imaju nešto zajednickoI left, right, inner, full, semi, anti

I data <- data %>% filter(!štrčak)

I Sve operacije sa kolonama se izvršavaju nad svimredovima

Istraživanje podataka Luka Jovicic

Page 60: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Join, filter, transform

I dplyr

I %>% – pipe operatorI a %>% b(c) ⇐⇒ b(a,c)

I Join spaja tabele koje imaju nešto zajednickoI left, right, inner, full, semi, anti

I data <- data %>% filter(!štrčak)

I Sve operacije sa kolonama se izvršavaju nad svimredovima

Istraživanje podataka Luka Jovicic

Page 61: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Linearni modeli

I George Box: “All models are wrong, but some areuseful”

I modelr

I Težimo jednostavnim (i razumljivim!) modelimaI Cilj 1 – što manje rezidualaI Cilj 2 – haoticna distribucija reziduala

Istraživanje podataka Luka Jovicic

Page 62: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Linearni modeli

I George Box: “All models are wrong, but some areuseful”

I modelr

I Težimo jednostavnim (i razumljivim!) modelimaI Cilj 1 – što manje rezidualaI Cilj 2 – haoticna distribucija reziduala

Istraživanje podataka Luka Jovicic

Page 63: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Linearni modeli

I George Box: “All models are wrong, but some areuseful”

I modelr

I Težimo jednostavnim (i razumljivim!) modelimaI Cilj 1 – što manje rezidualaI Cilj 2 – haoticna distribucija reziduala

Istraživanje podataka Luka Jovicic

Page 64: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Linearni modeli

I George Box: “All models are wrong, but some areuseful”

I modelr

I Težimo jednostavnim (i razumljivim!) modelimaI Cilj 1 – što manje rezidualaI Cilj 2 – haoticna distribucija reziduala

Istraživanje podataka Luka Jovicic

Page 65: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Linearni modeli

I George Box: “All models are wrong, but some areuseful”

I modelr

I Težimo jednostavnim (i razumljivim!) modelimaI Cilj 1 – što manje rezidualaI Cilj 2 – haoticna distribucija reziduala

Istraživanje podataka Luka Jovicic

Page 66: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Bonus: stringovi (i zašto ne)

I stringr

I Tekstualni podaci su (uglavnom) nepogodni za radI Regularni izrazi (akcenat na regularni)I Srpski jezik: gomila prefiksa, sufiksa i glasovnih

promena

Istraživanje podataka Luka Jovicic

Page 67: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Bonus: stringovi (i zašto ne)

I stringr

I Tekstualni podaci su (uglavnom) nepogodni za radI Regularni izrazi (akcenat na regularni)I Srpski jezik: gomila prefiksa, sufiksa i glasovnih

promena

Istraživanje podataka Luka Jovicic

Page 68: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Bonus: stringovi (i zašto ne)

I stringr

I Tekstualni podaci su (uglavnom) nepogodni za radI Regularni izrazi (akcenat na regularni)I Srpski jezik: gomila prefiksa, sufiksa i glasovnih

promena

Istraživanje podataka Luka Jovicic

Page 69: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Bonus: stringovi (i zašto ne)

I stringr

I Tekstualni podaci su (uglavnom) nepogodni za radI Regularni izrazi (akcenat na regularni)I Srpski jezik: gomila prefiksa, sufiksa i glasovnih

promena

Istraživanje podataka Luka Jovicic

Page 70: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Zakljucak

I Vizuelizacije su kul

I Predikcija je kul, ali ne treba zanemariti razumevanje

Istraživanje podataka Luka Jovicic

Page 71: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Zakljucak

I Vizuelizacije su kul

I Predikcija je kul, ali ne treba zanemariti razumevanje

Istraživanje podataka Luka Jovicic

Page 72: Istra ivanje podataka: Kako od (male) ume videti drvo · Prikupljanje podataka Istraživanje podataka R Praktiˇcni primeri Kraj Struganje I Aaron Swartz I Javni podaci – (nacelno)

Prikupljanje podataka Istraživanje podataka R Prakticni primeri Kraj

Bonus: https://xkcd.com/2048

Istraživanje podataka Luka Jovicic