tehniČko veleuČiliŠte u zagrebu - bib.irb.hr · tehniČko veleuČiliŠte u zagrebu politehniČki...
TRANSCRIPT
TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ
Specijalizacija informatika
Luka Petrić
PREVENTIVNO DJELOVANJE NA KRIMINALNE AKTIVNOSTI
BIG DATA TEHNOLOGIJOM
DIPLOMSKI RAD br. I 452
Zagreb, siječanj 2015.
TEHNIČKO VELEUČILIŠTE U ZAGREBU POLITEHNIČKI SPECIJALISTIČKI DIPLOMSKI STRUČNI STUDIJ
Specijalizacija informatika
Luka Petrić
JMBAG: 0246018522
PREVENTIVNO DJELOVANJE NA KRIMINALNE AKTIVNOSTI
BIG DATA TEHNOLOGIJOM
DIPLOMSKI RAD br. I 452
Povjerenstvo:
Zagreb, siječanj 2015.
I
Sažetak
Tema diplomskog rada je preventivno djelovanje na kriminalne aktivnosti big data
tehnologijom. U velikoj mjeri rad je predstavljen kroz teoretska načela sve prisutnije big data
tehnologije koja su popraćena konkretnim primjerima iz prakse.
Svaka cjelina, osim uvoda, u kojem se iznosi sama problematika rada, osim teoretskog
dijela sadrži i primjer iz prakse. Kao osnovna tema rada je prikazana konkretna primjena big
data tehnologije u prevenciji kriminaliteta. Primjer je odabran iz razloga što zahtjeva davanje
odgovora na jedno od najkompleksnijih pitanja „Što bi bilo kad bi bilo ?“ Te kao takav
zahtjeva primjenu velikih količina podataka tj. big data načela u punom smislu te riječi.
II
Sadržaj 1. Uvod ...............................................................................................................................................1
2. PODATAK KAO RESURS ....................................................................................................................3
3. OVISNOST O PODATKOVNOJ ODREĐENOSTI ....................................................................................6
3.1. Kvantificiranje ..........................................................................................................................7
4. VREDNOVANJE PODATAKA ............................................................................................................ 10
4.1. Opcionalna vrijednost podataka ............................................................................................. 11
4.2. Ponovno korištenje podataka ................................................................................................. 12
4.3. Kombinacija podataka ............................................................................................................ 14
4.4. Procjena vrijednosti podataka ................................................................................................ 15
4.5. Određivanje cijene podataka .................................................................................................. 17
5. PREDIKTIVNA ANALITIKA ............................................................................................................... 19
5.1. Što možemo predvidjeti ......................................................................................................... 19
5.2. Međuljudski odnosi i opravdanost predviđanja ...................................................................... 20
6. PREVENTIVNO POLICIJSKO DJELOVANJE ........................................................................................ 22
6.1. Izrada predviđanja .................................................................................................................. 23
6.1.1. Hot - spot analiza ............................................................................................................. 25
6.1.2. Heurističke metode ......................................................................................................... 33
6.1.3. Regresijske metode ......................................................................................................... 36
6.1.4. Near – repeat metoda ..................................................................................................... 38
6.2. Ulazne varijable metoda ......................................................................................................... 39
6.3. Vremensko prostorna analitika ............................................................................................... 42
7. PRIMJER IZ HRVATSKE ................................................................................................................... 47
ZAKLJUČAK ....................................................................................................................................... 52
Summary .......................................................................................................................................... 54
III
Popis oznaka i kratica
IBM -američka tvrtka koja je jedna od pionira u razvoju računarstva i informacijskih
tehnologija (eng. International Business Machines).
OCR -računalni program za optičko prepoznavanje znakova (eng. Optical Character
Recognition).
CAPTCHA - potpuno automatizirani javni Turingov test za razlikovanje računala od ljudi
(eng.Completely Automated Public Turing test to tell Computers and Humans Apart ).
AOL - američka multinacionalna medijska korporacija (eng. America Online).
NSA -Središnja sigurnosna služba (eng. National Security Agency/Central Security Service,
NSA/CSS).
LAPD –odjel Los Angeles policije (eng. Los Angeles Police Department)
BJA -ured za pomoć pravosuđu (eng. Bureau of Justice Assistance)
NJA -nacionalni ured za pomoć pravosuđu
GIS -geografski informacijski sustav (eng. Geographic Information System)
KDE -naziv funkcije (eng. Kernel Density Estimation )
PAI -indeks pouzdanosti procjene (eng. Prediction Accuracy Index)
ST-GAM -naziv modela (eng. Spatiotemporal Generalized Additive Model)
LST-GAM -naziv modela (eng. . Local Spatiotemporal Generalized Additive Model )
HGSS -Hrvatska gorska služba spašavanja
UNDP – program Ujedinjenih naroda za razvoj (eng. United Nations Development Program)
TK25 -osnovna službena državna karta (Topografska Karta 25)
IV
Popis slika
Slika 1 Primjer grid mapp metode
Slika 2 Rezultat korištenja Crime Stat softverskog alata
Slika 3 Primjena KDE funkcije (konturni prikaz)
Slika 4 Primjena KDE funkcije (toplinski prikaz)
Slika 5 Manualna primjena grid mapping metode
Slika 6 Quantum GIS softverski alat (dva podatkovna sloja)
Slika 7 Quantum GIS softverski alat (tri podatkovna sloja)
Slika 8 Quantum GIS softverski alat (četiri podatkovna sloja)
V
1
1. Uvod
Prema definiciji, ljudski rad se definira kao svrsishodna i svjesno organizirana
djelatnost ljudi radi postizanja nekog korisnog učinka. Dok se u apstraktnom smislu
predstavlja utrošak ljudske radne snage: intelektualnog napora, mišićnog napora, psihološkog
stresa i vremena da bi se postigao neki cilj i kao takav predstavlja sredstvo razmjene.
Vodeći se tom definicijom, primjerice, pišući ovaj diplomski rad, nedvojbeno su
prisutni svi elementi koji definiraju rad kao takav. Nadalje iz toga proizlazi da je konačni
produkt svojevrsno sredstvo razmjene, koje ima svoju vrijednost. Povlačeći paralelu između
definicije rada i ovog diplomskog rada možemo vidjeti da i ovaj diplomski rad ima svoju
vrijednosti iako predstavlja u osnovi hrpu podataka koji nužno nemaju fizičku komponentu.
Da podatci imaju vrijednost ljudi su shvatili već u najranijim danima svoga postojanja
stvarajući raznorazne slike i tekstove u kojima je bilo pohranjeno određeno znanje, određena
vrijednost. Kako se je čovjek s vremenom intelektualno razvijao možemo reći kako je i sve
više vrijednosti pohranjivao u podatke.
Ta čovjekova djelatnost traje već stoljećima, te se može primijetiti kako je s
vremenom evoluirala ne samo u smislu obima već i u načinima primjene akumulirane
vrijednosti. Evolucijski lanac stvaranja i primjene podataka najveće promjene doživljava u
današnjim danima u kojima je u potpunosti riješen, nazovimo problem stvaranja podataka, a
težnja usmjerena na samu akumuliranu vrijednost.
Razlog tome je prvenstveno pojava računala koja su u prvi mah omogućila lako
stvaranje novih podataka, a nakon toga i izvođenje kompleksnih analiza nad podacima.
Pojavom mogućnosti kompleksnih analiza koje po složenosti nadilaze čovjekove umne
sposobnosti obrade podataka, javila se i do današnjih dana neviđena mogućnost stvaranja veće
vrijednosti kombinacijom analiza nad manjim jedinicama podataka tj. mogućnost veće
iskoristivosti podataka.
Otkrivanje skrivenog potencijala u današnje vrijeme dovodi do potpune promjene u
odnosu prema podatcima, prvenstveno što otkrivanje novih, skrivenih vrijednosti podataka
ponekad ima direktan učinak i na financijskom planu, a što je još bitnije i u onom segmentu
života koji je po prioritetu iznad svih financijskih planova. Zadiranje u ta poprilično osjetljiva
2
područja života neizbježno za sobom povlači činjenicu da se u praksi ne biraju sredstva što za
posljedicu ima niz kako pozitivnih ali i, u društvu uvijek primjetnijih, negativnih efekata.
Da bih se ostvarili pozitivni efekti novog sagledavanja podatkovne vrijednosti,
nedvojbeno je potrebno riješiti probleme signifikantnih negativnih efekata koji snažno utječu
na stupanj skepticizma od strane društva. Paradoksalno je da rješenje tog problema leži
također u podatcima. Naime rješenje je u stvaranju novih zakona kojima se regulira ponašanje
na ovom području, što je ništa drugo nego stvaranje novih podataka, te u boljem upoznavanju
javnosti s pozitivnim stranama ali isto tako ne izostavljajući negativne efekte ovog novog
pristupa, što je ekvivalentno analizi podataka od strane šire javnosti o ovoj temi.
3
2. PODATAK KAO RESURS
Novi trend u pristupu podatcima najbolje je opisao IBM-ov stručnjak za podatke Jeff
Jonas rečenicom: „Pustite da vam podatci govore“. Inače veliki zagovornik Big Data1
tehnologije ovom rečenicom je naglasio postojanje ogromnih podatkovnih potencijala kojima
se trenutno raspolaže kao i postojanje mogućnosti izvlačenja dodatnih vrijednosti iz tih
podataka tj. mogućnosti da „podatci progovore“ .[1]
Taj novi pristup u radu s podatcima na prvi pogled se čini potpuno prirodan i
jednostavan zbog tehnološkog razvoja i eksponencijalnog rasta procesorske moći, što je
dijelom točno. Bez tehnoloških mogućnosti kojima danas raspolažemo ovakav pristup je
nemoguć jer nadilazi analitičke mogućnosti čovjeka. Kada ovaj pristup analiziramo kroz
prizmu jednostavnosti možemo pasti u zamku te se isto tako osloniti na moć današnjih
tehnoloških mogućnosti, preskačući jedan krucijalan korak, a to je prilagodba načina
razmišljanja na osnovu kojeg se primjenjuje tehnologija te u konačnici polučuju rezultati.
U osnovi možemo razlikovati tri temeljna pomaka u načinu razmišljanja:
- stavljanje naglaska na količini podataka, rad s ogromnim količinama podataka
- ne inzistiranje na potpunoj točnosti podataka koliko na količini
- primjena korelacijskih metoda
U mnogim situacijama društvo zadržava stari pristup podatcima, što se tiče njihove
količine i volje za skupljanjem. Jednostavno nije još razvijena svijest o slobodi u sferi
skupljanja podataka sa svih područja ljudskog djelovanja, upravo suprotno, u nekim
slučajevima naglasak se stavlja na razvoju sustava koji limitiraju količinu podataka s kojima
se radi. Nastojeći time nastaviti s primjenom zastarjelog načina gledanja na podatke koji su
podijeljeni na manje skupove ovisno o kontekstu na koji se odnose, ne aplicirajući pri tome
tehnološka dostignuća današnjice koja daju mogućnost sagledavanja skupa podataka kao
jedinstvenog entiteta koji ne robuje kontekstu koji je diktirao prvobitno prikupljanje.
Strah od rada s velikim količinama podataka potječe iz prošlosti kada je cjelokupna
obrada bila oslonjena na čovjekove umne sposobnosti. Naime postojalo je ograničenje u
1 Izraz "velika količina podataka" (eng. Big data) iz softverskog inženjerstva i računarskih nauka, opisuje setove podataka koji se povećavaju tako brzo da postaje mučno raditi pomoću "on-hand" tj. trenutno dostupnih alata za uređivanje baza podataka
4
količini podataka koje čovjek može obraditi u koliko toliko razumnom roku. Najbolji primjer
za to je provedba popisa stanovništva kao jednog posla koji nije tolerirao, u prošlosti, ali u
nekim slučajevima i danas, tako željenu mogućnost smanjenja opsega podataka. Koliko je
bilo stresno i naporno raditi s velikim količinama podataka govori i činjenica da je obrada
popisa stanovništva u Americi u 19 st. trajala 8 godina. Kako bih se doskočilo konkretno
ovom spomenutom problemu u početku se počinje pribjegavati razvoju tehničkih rješenja.
Konkretno usvojeno tehničko rješenje je predstavljala tehnologija bušenih kartica razvijena od
strane IBM-a 2 koja rezultira ostvarenjem za to vrijeme nezamislivog skoka u brzini,
smanjivši vrijeme obrade podataka popisa stanovništva na svega godinu dana. [7]
Primjena nove tehnologije dovela do drastičnog pomaka, ali je pomak u vremenu ipak
postojao. Iako je pomak sada bio dosta kraći „samo godina dana“ imao je izravan učinak na
konačnu upotrebljivost podataka koji su praktički u trenutku objavljivanja već stvar prošlosti.
[1]
Zbog takvog stanja tehnologije od ključne važnosti za relevantnost podataka bila je
potreba djelovanja na same podatke oslanjajući se na statističke metode uzorkovanja (eng.
sampling). Početna ideja je bila odabrati takav uzorak koji će najbolje reprezentirati čitav
skup podataka, što je u osnovi uključivalo intuiciju statističara koji procjenjuje valjanost
uzorka. Takav pristup pokazao se potpunim promašajem što je 1934.g. Poljski statističar Jerzy
Neyman praktično dokazao otkrivši veliku netočnost koji ovakav pristup generira.
Brzo se zaključilo da razlog velikih odstupanja leži u uplitanju subjektivizma u
formiranju uzoraka. Kako bih se taj problem riješio ubrzo je prihvaćena metoda nasumičnog
uzorkovanja, koja se pokazala iznenađujuće korisnom, i što je najvažnije rezultirala je
zadovoljavajućim stupnjem točnosti. U 19 od 20 slučajeva pogreška je iznosila oko 3%,
nevažno da li se radilo o stotinama tisuća ili stotinama milijuna podataka. [1]
Uspjeh ove metode leži u matematičkoj činjenici prema kojoj marginalna vrijednost
informacije koju nosi svaki novi podataka, kako broj podataka postaje sve veći, je sve manja.
Ova metoda je brzo našla primjenu i na području proizvodnje omogućujući napredak u
kvaliteti lakšim i jeftinijim te je postala pandan tadašnjeg mjerenja.
Iako je ovaj način mjerenja imao široko područje primjene i rezultirao zadovoljavajućim
rezultatima za mnoga područja, postojala je slaba karika koja se odnosila na „uspješnost
2 IBM je američka tvrtka koja je jedna od pionira u razvoju računarstva i informacijskih tehnologija.
5
slučajnosti“ u stvaranju uzorka koji mora biti slučajan, ali istovremeno mora na
zadovoljavajući način reprezentirati cijeli skup.
Kao što je već rečeno, metoda se oslanja na čistu matematiku smanjenja marginalne
vrijednosti što izravno diktira primjenu metode isključivo na makro razini. Nedjelotvornost
primjene metode na mikro razini onemogućila je primjenu kod primjerice analize pod
kategorija i manjih segmenata podataka. Manjkavost uzorkovanja najbolje se može predočiti
usporedbom sa starom fotografijom , koju kada gledamo iz daljine izgleda dobro ali kada
zumiramo postaje mutna i nejasna.
Spomenutom usporedbom, možemo i procijeniti prirodu uzorkovanja kao metode koja
je u biti samo alternativa koja u datom trenutku daje zadovoljavajući rezultati, ali istodobno
zanemaruje veliki spektar informacija skrivenih u dijelu podataka koje uzorak ne obuhvaća.
Metodom je naglasak stavljen samo na, za taj trenutak, interesantni dio promatranja, čime se
nastoji smanjiti cijena i vrijeme ispitivanja. Postavlja se pitanje koliko je to opravdano?
Primjerice metoda uzorkovanja je jedno vrijeme široko upotrebljavana u analiziranju
DNK 3 strukture u traganju za uzorcima koji upućuju na povećan rizik od raznoraznih
oboljenja. Metoda je davala zadovoljavajuće rezultate i u vremenskom i financijskom smislu
(cijena takvog testiranja 2007.g. iznosila je nekoliko stotina dolara). Na žalost ubrzo se
ustanovilo da je umjesto na prvi pogled ostvarene uštede u resursima ostvaren ogroman
gubitak gledajući kroz buduću primjenu prikupljenih podataka. Ovakvim načinom analize
zanemareni su svi oni podatci koji su izvan promatranih segmenata, a u kojima je u stvari
ključ napretka jer oni skrivaju ono što nam je nepoznato i kao takvo trebalo bi biti predmet
budućih istraživanja. Dokaz tome je i pomalo smiješna razlika u cijeni za „istu analizu DNK“
koja je u 2012. god. bila više od duplo veća u odnosu na 2007. god. te iznosila više od tisuću
dolara. [1]
Zanimljiv je podatak da je čovjek koji je bio pionir u mnogo čemu Steve Jobs4, ovog puta
ne u potpunosti svojom zaslugom, postao je u jednu ruku začetnik primjene novog načina
gledanja na podatke, kroz uzimanje u obzir latentne vrijednosti, zagovarajući podatkovnu
cjelinu nad segmentom. Koliko takav pristup donosi prednosti, poglavito u specifičnim
3 Dezoksiribonukleinska kiselina - DNK - je primarni genetički materijal. Ona je osnovni nosilac genetičke informacije (gena) u sveukupnom živom svijetu. 4 Steven Paul Jobs poznat je kao osnivač tvrtke Apple Computer. Bio je jedan je od najutjecajnijih ljudi u svijetu računalne industrije. Dana 30. lipnja 2004. Jobs je operiran od rijetke vrste tumora gušterače. Preminuo je 5. listopada 2011. u 56. godini.
6
djelatnostima kao što je medicina najbolje govore riječi Steve Jobs-a: „Ja ili ću biti jedan od
prvih koji će pobijediti ovu vrstu raka ili ću biti jedan od zadnjih koji je od njega umro.“ Što u
praksi potvrđuje vrijednost podataka kao cjeline a ne kao segmenta, u konkretnom slučaju to
je značilo godinu života više.
3. OVISNOST O PODATKOVNOJ ODREĐENOSTI
Kako se jasno može uočiti, čak u mnogo slučajeva i kvantificirati prednost cjeline u
odnosu na segment. S vremenom se javila potreba prikupljanja podataka o svemu, kao
svojevrsni pokušaj prikaza svijeta kroz podatke.
Važnost svih podataka i mogućnost učenja iz njih otkrio je nesuđeni brigadir
Američke ratne mornarice Matthew Fontaine Maury davne 1839.g. Maury je uvidio potencijal
u starim pomorskim dnevnicima u kojima su bili na prvi pogled bezvrijedni podatci
(temperatura mora, morske struje, trenutne vremenske prilike) koji su stvarno to i bili kada su
se promatrali pojedinačno. Sklapanjem podataka u jednu cjelinu otkrivene su pravilnosti u
kretanjima vrijednosti bitnih za planiranje plovidbe.
Kolika je bila važnost prikupljenih podataka govori i cjelokupan sustav stvoren za
učinkovitu manipulaciju zapisima (eng. logs) prikupljenih tijekom plovidbe, koja je
omogućavala identifikaciju i razmatranje svakog zapisa na osnovu više pokazatelja, što je
razumljivo u ono vrijeme bilo limitirano dostupnom tehnologijom. [1]
Pandan takve ideje upravljanja zapisima u današnje vrijeme predstavlja Googlov
algoritam PageRank. Iako se PageRank ne upotrebljava za potrebe sređivanja log zapisa,
takvu ideju je uspješno prenio na analizu web poveznica (linkova) koje grupira na temelju
dodijeljene brojčane vrijednosti u razrede kojima je reprezentirana relevantnost svake web
stranice. U utvrđivanju razreda linka tj. web stranice iskorišteno je mnogo pokazatelja kao što
su relevantnosti ključnih riječi, broj zabilježenih posjeta te čitav splet odnosa među linkovima
u smislu glasa stranice A za stranicu B kroz link sa stranice A na stranicu B. Iza ove priče
stoji i mnoštvo drugih pokazatelja koji nisu otkriveni od strane Googla kako bih se spriječio
eventualni utjecaj od strane korisnika. [4]
7
Za Maury-a možemo reći de je začetnik teorije koja vrijednost velikih količina
podataka objašnjava kroz sumiranje svih vrijednosti najmanjih jedinica od kojih se skup
sastoji. Da je to tako potvrđuje primjena takvog razmišljanja u praktičnom djelovanju nekih
najuspješnijih tvrtki današnjice, kao što Amazon, Yahoo i već spomenuti Google.
Za razliku od spomenutog razmišljanja, u današnje vrijeme se događa još jedan
evolucijski skok što se tiče svijeta podataka. Naime, da bih smo imali povod za skupljanje
podataka logično je da mora postojati i cilj zbog kojeg podatke skupljamo. U današnje
vrijeme se ta „logična veza“ povoda i cilja često gubi, i što je zanimljivo rezultira stvaranjem
ekstra vrijednosti podataka.
U današnje vrijeme uz trend povećane tendencije ka skupljanju što je moguće više, po
mogućnosti „svih podataka“ javlja se i težnja ka povezivanju podataka iz različitih područja
što praktično omogućuje ostvarenje više ciljeva iz jednog povoda. Primjer toga je istraživanje
znanstvenika Shigeomi Koshimizu-a o mogućnosti podatkovnog prikaza načina na koji
čovjek sjedi korištenjem većeg broja senzora. Kao što se može vidjeti iz predmeta
istraživanja, povod je bio isključivo znatiželja. Dok je povezivanjem s interesima u auto
industriji rezultirao stvaranjem jako sigurnog sustava protiv krađe automobila i sustava
informiranja o promjenama u stanju fokusiranosti vozača. Ovo je očiti primjer kako nešto što
naizgled nema nikakav podatkovni potencijal može producirati kvalitetne informacije. [1]
3.1. Kvantificiranje
Želja za prikazivanjem svijeta kroz podatke traje od kad postoji čovječanstvo, te
možemo reći da su metode bilježenja podataka pratile evolucijski put homo sapiensa5. Dugo
vremena sustavi prikupljanja podataka okarakterizirani su sa dvije temeljne radnje, a to je
mogućnost zapisa podataka i mogućnost interpretacije istih podataka.
Prvi šire primjenjiv sustav je rimski brojevni sustav, čija je upotreba bila dosta
ograničena iz razloga što je, u većini slučajeva, samo do neke mjere omogućavao, za
ozbiljnije korištenje podataka nužnu treću značajku sustava, a to je mogućnost provedbe
analize nad podatcima.
5 lat. Homo sapiens − umni čovjek.
8
Pojavom arapskog brojevnog sustava problem analize podataka je riješen na
zadovoljavajući način čak i za potrebe u budućnosti zbog lakog obavljanja operacija nad
sustavom od strane čovjeka, ali što je još važnije lake pretvorbe u sustave razumljive
računalu, omogućavajući time automatizaciju u provođenju matematičkih operacija.
Rješavanje problema kvantificiranja stvari i pojava uvelike je zaslužno za stupanj
napretka ostvaren do današnjih dana. Svjesni koliko je spomenuto rješenje donijelo koristi za
cijelo društvo, potencijal daljnjeg razvoja na podatkovnom planu u zadnje vrijeme počeo se
tražiti i na drugim poljima kao što su tekst, geografska lokacija, sustavi interakcije itd. u
kojima se također nastoji naći treća komponenta koja daje mogućnost analize.
Rješavanje spomenutog problema na području teksta Google je započeo 2004.g.
pokretanjem projekta koji je za cilj imao omogućiti pretraživanje i pristup svakoj knjizi putem
interneta. Prvotni pristup je bio kroz opću digitalizaciju u svim značajnijim svjetskim
knjižnicama kroz postupak skeniranja svake stranice. Tim postupkom je na zadovoljavajući
način ostvaren pristup sadržaju ali mogućnost pretraživanja ostvarena je samo do određene
razine. Korisnik je mogao pretraživanjem doći do željene knjige, ali analiza sadržaja nije bila
moguća od strane računala, već je zahtijevala analizu od strane korisnika. [1]
Rješenje ovog problema bilo je u primjeni OCR6 softvera koji ne stvara, za računalo
nerazumljivu sliku stranice, nego tekst kojeg je moguće pretraživati. [11] Otvaranjem
mogućnosti pretraživanja otvorio se je čitav spektar mogućih analiza bilo na određenom,
užem segmentu, ili čak u cjelini nad čitavim izdavaštvom (nad cijelom bazom). Stvorila se
mogućnost provođenja širokog spektra analiza nad tekstom, do te mjere da je moguće utvrditi
učestalost upotrebe određenih riječi i na taj način u nekoj mjeri prodrijeti u tokove
razmišljanja na globalnom planu. [5] U akademskom svijetu ovako nešto dočekano je s
oduševljenjem, što je bio slučaj kod većine, dok je manji dio, mahom politički vrh u nekim
zemljama bio primoran na ostavke zbog otkrivenog plagiranja. [1]
Realno gledajući, ostvarivanje ovakvih mogućnosti analiziranja, kako u pogledu
obuhvata, tako i u složenosti za mnoge bih značilo ostvarenje konačnog cilja. Uzimajući u
obzir neiscrpnu vrijednost podataka tj. njihovu latentnu vrijednost, riječ konačno gubi
značenje, te iz toga proizlazi kako prethodno spomenute analitičke mogućnosti predstavljaju
samo cilj određene faze. Tako je primjerice Google kao pionir ovakvog načina razmišljanja
6 Optičko prepoznavanje znakova (eng. Optical Character Recognition, OCR)uključuje računalni softver koji je dizajniran tako da prevodi sliku otisnutog teksta s papira (koju obično učitamo sa skenera) u editabilni teks.
9
uspješno implementirao rezultate ovih analiza u razvoju servisa za prevođenje, sagledavajući
ga kao matematički problem koji kao input koristi statistiku provedenih analiza, a kao output
daje kvalitetno prevođenje zbog kvalitetne supstitucije riječi jednog govornog područja u
drugi. Koja je isključivo proizrasla iz analitičkih sposobnosti koje tekstu daju dimenziju
podatka.
Ovakvim pristupom iz skupine podataka, nebitno kojeg su oblika, moguće je izvući
sve ono što je od interesa za korisnika. Primjerice Amazon je na osnovu istog skupa podataka
kao i Google (analizirajući digitalizirane knjižnice) stvorio poveznice između članaka u
raznim knjigama i na taj način ostvario povećanje prodaje predlažući korisnicima kupnju
literature koja je po sadržaju srodna s onom koju trenutno čitaju. [1]
Iz ovoga vidimo kako latentna vrijednost podataka uvijek postoji, a kakav će oblik poprimiti
ovisi samo o korisniku.
10
4. VREDNOVANJE PODATAKA
Koliku vrijednost imaju podatci, naročito kada na njih gledamo na globalnoj razini.
Najbolje možemo uočiti na primjeru vrijednosti koju generira upotreba jedne jedine riječi od
strane korisnika.
Naime radi se o projektu CAPTCHA7 , koji na osnovu jedne riječi generira višestruke
koristi koje u nekim pogledima nije moguće posve financijski niti izraziti. Prvobitni cilj
projekta je zaustavljanje nereda na internetu u pravom smislu te riječi zbog gomilanja spam
poruka u mail sandučićima kako poslovnih tako i privatnih računa korisnika . Cilj je postignut
kroz korištenje slikovnog prikaza teksta čitljivog čovjeku, ali ne i računalu, barem ne u
razumnim vremenskim okvirima. Korisnik je praktički upisivanjem niza znakova prikazanih u
obliku iskrivljenog teksta na slici u poseban prostor dokazao da se iza mail adrese krije
stvarna osoba a ne računalo spremno za generiranje spam poruka. [8]
Primjenom ovog rješenja postignute je ogroman napredak na polju sigurnosti što je
rezultiralo primjenom CAPTCHA u milijunskim razmjerima. Kako se radilo zaista o
ogromnom poslu sagledamo li činjenicu da milijuni ljudi svakodnevno upisuju nasumično
generirani niz znakova. Autor projekta Luise von Ahen se dosjetio kako proširiti prvobitni
CAPTCHA projekt usmjeravajući tako ogromnu aktivnost u stvaranje korisnog produkta.
Luise von Ahen pokrenuo je projekt pod nazivom ReCAPTCHA koji umjesto
slučajno generiranog niza znakova koristi po dvije riječi koje nije mogao prepoznati OCR
softver u procesu digitalizacije pisanih materijala pokrenutog od strane projekta Google
Books8 .[12]
O veličini posla koji je tim postupkom napravljen govori podatak da je trideset godina
izdavaštva New York Timesa digitalizirano unutar godine dana u razdoblju od 2012.g. do
2013.g. a samo zahvaljujući činjenici da je iskorištena vrijednost upisivanja 100 milijuna
CAPTCHA izraza svaki dan, o čemu je i sustav sam izvijestio.
7 Skraćenica CAPTCHA nastala je 2000. godine, a osmislili su je Luis von Ahn, Manuel Blum, Nicholas J. Hopper (svi sa Carnegie Mellon University), i John Langford(tada u IBM-u). Skraćenica dolazi od engleskog Completely Automated Public Turing test to tell Computers and Humans Apart (u prijevodu: potpuno automatizirani javni Turingov test za razlikovanje računala od ljudi). 8 Google knjige je Google-ova tražilica zadužena za pretragu punog teksta knjiga koje Google skenira i pohranjuje u svoju digitalnu bazu podataka. Nekada se ta usluga nazivala Google Print, a pod tim nazivom je i predstavljena na Frankfurtskom sajmu knjiga u listopadu 2004. god.
11
Razmotrimo li što to znači u financijskom smislu, dolazimo do ogromne svote koja
ovim postupkom podatkovne manipulacije postaje ništa drugo nego čista ušteda.
Pretpostavimo li da smo za ovaj posao angažirali zaposlenike. Uzmimo li da prosječno
vrijeme ispisa jednog ReCAPTCHA izraza traje 10 sekundi te se posao ponovi otprilike 100
milijuna puta dnevno. Dobivamo potrebu za više od pola milijuna radnih sati dnevno za
obavljanje ovog obima posla. Minimalna satnica u SAD-u iznosi 7.25$, što na dnevnoj bazi
iznosi 2 milijuna dolara, a godišnje nevjerojatnih 750 milijuna dolara. 2009.g. Google je
otkupio tehnologiju i inkorporirao je u cca. 200 000 web stranica, uključujući Facebook,
Twitter i Craigslist.
Priča o ReCAPTCHA tehnologiji naglašava postojanje latentne vrijednosti svakog
podatka, čak i najjednostavnije poslovne transakcije koja u eri Big Data revolucije posjeduje u
mnogo slučajeva veću vrijednost u financijskom smislu nego sama vrijednost obavljene
transakcije, ako je transakcija novčano izražena. Sve više se podatkovni resursi kompanija
promatraju kroz buduće upotrebe podataka, uzrokujući promjene čitavih poslovnih modela
kompanija. Poslovni modeli kompanija, naročito uspješnih poput Googla, Amazona,
Facebooka sve se više orijentiraju prema podatcima kao prema specifičnim materijalnim
resursima u proizvodnji , koji za razliku od klasičnih resursa ne gube na vrijednosti i gotovo
uvijek imaju neku vrijednost. Barem toliku da je trošak uklanjanja takvih podataka veći od
troška prikupljanja, koje u eri sveopće informatizacije postaje izrazito jeftino i jednostavno,
tako rekući usputno.
4.1. Opcionalna vrijednost podataka
Ujedno čini razliku između podataka kao resursa i klasičnih proizvodnih resursa.
Ostvarena je u smislu generiranja podataka za striktno određenu primarnu upotrebu koja se ne
mora podudarati s upotrebom tih istih podataka u njihovoj ne samo sekundarnoj nego
narednoj cikličkoj upotrebi.
Primarna upotreba podataka najčešće rezultira ostvarenjem vrlo male očite vrijednosti
podataka u usporedbi s ukupnom sadržanom vrijednosti. Inovativne kompanije kao što je
primjerice IBM svjesne su da svaki podatak posjeduje, ako povučemo paralelu s fizičkim
12
svijetom, svojevrsnu potencijalnu energiju. Neupitno je da energija postoji samo ju je
potrebno osloboditi kroz cikličku primjenu podatka.
IBM je primjerice za potrebe pronalaženja optimuma u izgradnji infrastrukture
opskrbe energijom električnih automobila stvorio klasični primjer višestrukog korištenja
podataka, od primarne pa sve do stadija upotrebe koja graniči s područjem kojeg analiza
obuhvaća.
Primarna upotreba ostvarena je kroz upotrebu podataka prikupljenih od strane
indikatora napunjenosti baterija u automobilima u regulaciji stabilnosti naponske mreže. Dok
je sekundarna upotreba ostvarena u kalkulaciji optimalnih lokacija postaja za punjenje i
servisiranje pri čemu su u obzir uzeti podatci o trenutnoj lokaciji vozila kao i podatci o
prijašnjoj potrošnji vozila i o vršnim opterećenjima naponske mreže. [1]
Slično kako su u navedenom primjeru povijesni podatci o vršnim naponskim
opterećenjima iskorišteni u analizi, iako su se u vrijeme prikupljanja možda činili besmisleni,
tako je potrebno gledati na sve podatke kroz prizmu buduće primjene.
4.2. Ponovno korištenje podataka
Kada govorimo o ponovnom korištenju podataka za potrebe budućnosti, iskustva su
dovela do pomalo apsurdnog zaključka. Podatci koji su se prvobitno činili najnekorisnijima i
prema kojima se odnosilo kao prema nusproduktu ujedno su skrivala i najveći potencijal
buduće upotrebe.
Primjer takvih podataka su podatci o pretraživanju web stranica. Kako su ti podatci u
potpunosti generirani od strane korisnika u sebi sadrže sve one podatke koji su interesantni
svim stranama koji na korisnike usluga pretraživača gledaju kao na potencijalne klijente. Tako
se iz tih podataka mogu iščitati preferencije klijenata u bilo kojem segmentu, trgovina (npr.
koja je boja odjeće trenutno aktualna), financije (npr. interes za turističkim lokacijama daje
pouzdanu prognozu o prihodima od turizma), tržište nekretnina (npr. ponuda i potražnja za
nekretninama određene vrste) i sl .[1]
13
Koliki se u pozadini novčani potencijal krije može se vidjeti na primjeru dvije velike
tvrtke, Amazona i telekomunikacijske tvrtke AOL9, [9] koje su upravo na području podataka
izgradile svoj uspjeh odnosno neuspjeh. Iako je tvrtka AOL kao komunikacijski posrednik
tvrtke Amazon imala veću priliku za uspjeh, zbog neznanja ili pohlepe za kratkoročnim
profitom, tvrtka je slikovito govoreći potpisala buduće propadanje prodajom prikupljenih
podataka o pretraživanjima korisnika prije i u toku kupnje na Amazon-ovim stranicama.
[1][9]
U svijetu sve više postaje pravilo da tko posjeduje podatke osvaja tržište. Google je
tako prvenstveno na osnovu podatkovne moći koju posjeduje zasjeo na vrh svjetskog tržišta, u
mnogim segmentima. U segmentima tržišta u kojima nije imao početne potencijale kao
konkurencija, kroz stvaranje monopola nad podatcima postaje lider. Početkom 2007.g.
Google se počeo interesirati za razvoj sustava prepoznavanja govora. Tržište je na tom
području već imalo lidera, tvrtku Nuance10. Tvrtka je tada za razliku od Googla imala tržišnu
moć ali ne i znanje i djelom spretnost na području podataka. Potpisivanjem ugovora s
Googlom tvrtka prihvaća ulogu vlasnika softverskih rješenja na tom području pri čemu
zanemaruje vlasništvo nad prikupljenim podatcima. Svi podatci prikupljeni od dana
potpisivanja ugovora pripali su Googlu koji na osnovu toga gradi na tržištu traženu
funkcionalnu vezu zvukovnog zapisa i odgovarajućeg teksta, te možemo reći da od autsajdera
postaje lider i u ovom segmentu. [1][13]
Zahvaljujući ovakvim novim trendovima u poslovanju koji su bazirani isključivo na
podatke, neke su se tvrtke iznenada našle na iznenađujuće dobrom položaju unutar
informacijskog vrijednosnog lanca. U tu skupinu sretnika spadaju prije svega mobilni
operateri koji na vrlo lak način prikupljaju podatke koji možda i nisu pretjerano značajni za
njihove tvrtke, ali stavljanjem u drugi kontekst od strane drugih tvrtki postaju izrazito
dragocjene. Primjerice, mobilni operateri prikupljaju podatke o lokaciji pretplatnika, taj
podatak konkretno u njihovom slučaju ima vrlo usku tehničku primjenu u preusmjeravanju
poziva. Stavljanjem takvih podataka u drugi kontekst pokreče se jedan čitavi poslovni svijet u
njihovoj pozadini. Omogućene su marketinške aktivnosti na razini svakog pretplatnika, koji
ovisno o trenutnoj lokaciji dobiva promotivni materijal, donose se planovi o rješavanju uzroka
9 eng.America Online, američka multinacionalna medijska korporacija sa sjedištem u New Yorku. Temeljni biznis korporacije je digitalna distribucija sadržaja, proizvoda i servisa korisnicima. 10 eng. Nuance Communications, američka multinacionalna softverska kompanija. Trenutni poslovni proizvodi usredotočeni na automatsko prepoznavanje govora, telefonski upravljive sustave i optičko prepoznavanje znakova.
14
prometnih gužvi, na osnovu brzine promjene lokacija pretplatnika u prometu, a u konačnici
podatci koriste u razvoju same tehnologije koja ih generira, jer predstavljaju performanse
samog sustava.
Kako se radi o relativno osjetljivim podatcima jedno vrijeme operateri nisu bili voljni
prosljeđivati takvu vrstu informacija trećim stranama, ali je u toj priči o zaštiti privatnosti ipak
na kraju presudila korist koju podatci generiraju, koja se često puta, na veliko zadovoljstvo
operatera može izraziti novčano. Tako je primjerice 2012.g. veliki Španjolski tele operater
Telefonica11 čak osnovala sestrinsku firmu Telefonica Digital Insights čija je misija isključivo
prodavanje agregiranih lokacijskih podataka korisnika trećim stranama. [1]
4.3. Kombinacija podataka
Glavna ideja koju zastupa Big Data revolucija je generiranje i obrada što većih
količina podataka. Kako bih se oformila što veća podatkovna masa stvorena je ideja o
rekombinaciji, ne nužno po sadržaju srodnih podatkovnih segmenata, u izgradnji jedne
podatkovne cjeline. U takvom pristupu jedini ograničavajući uvjet rekombinacije je
povezanost segmenata na temelju jednog atributa koji je zajednički za sve uključene
podatkovne segmente.
Konkretan primjer ovakvog pristupa je provođenje ispitivanja o utjecaju mobilnih
telefona na nastanak karcinoma, 2011.god. u Danskoj. Poučeni greškama u prethodnim
ispitivanjima zbog malih podatkovnih obuhvata, analitičari su se odlučili na uključivanje svih
raspoloživih podataka o vlasnicima mobilnih telefona od 1987.god. (kada su se pojavili prvi
mobiteli u Danskoj) do 1995.g. što je uključivalo 358 403 pretplatnika. Za konkretnu analizu
neophodno je bilo također uključiti i podatke o oboljelima od karcinoma centralnog živčanog
sustava , što je u analizu uključilo dodatnih 10 729 osoba. Kako bih se u analizu uključile
činjenice o drugačijim životnim navikama različitih slojeva društva koje na ovom području
također imaju neupitno značenje, spomenutim podatkovnim segmentima pretplatnika i
oboljelih priključeni su i podatkovni segmenti o stupnju obrazovanja i raspoloživom dohotku.
[1]
Tek nakon detaljne podatkovne pripreme pristupilo se i konkretnim analizama koje su
trebale potvrditi ili negirati tvrdnje o većoj stopi oboljenja kod mobilnih pretplatnika i
11 Španjolski telekomunikacijski operater koji je po veličini peti u svijetu.
15
odgonetnuti da li osobe koje duže vremena posjeduju mobilni telefon imaju veće šanse za
oboljenje.
Kvaliteta ovakvo provedenog ispitivanja pokazala se neupitnom. U ispitivanje je
uključen svaki registrirani slučaj oboljenja i približno svaki pretplatnik s čime nije ostavljen
prostor nikakvoj sumnji u relevantnost konačnog zaključka zbog moguće statističke pogreške
uzorka. Jedina možemo reći „greška“ je u tome što se zaključak nije podudarao s medijskim
nagađanjima o štetnosti mobilnih telefona, te je zbog toga relevantnost istraživanja ostala
upitna u javnosti, ali ne i u znanstvenim krugovima u kojima je metoda rekombinacije više
nego prepoznata.
4.4. Procjena vrijednosti podataka
Neupitno je da podatkovni potencijal može generirati dobit. Prilikom toga treba biti
oprezan i imati na umu vremensku dimenziju kojima su podatci određeni. Oslanjajući se
isključivo na podatke ne uzimajući u obzir razdoblje iz kojeg potječu dobivamo rezultate koji
ne odaju stvarnu sliku trenutnih događanja, nego je ta slika vezana za vrijeme nastanka
podataka, i kao takva je ne upotrebljiva u trenutnoj situaciji.
Takvu pojavu možemo smatrati svojevrsnim opadanjem vrijednosti podataka. Kada
podatkovna vrijednost padne ispod razine koja više ne daje dodatnu vrijednost, korištenje
takvih podatkovnih resursa treba prestati. Izostanak vremenskog praćenja podataka može
rezultirati i smanjenjem vrijednosti novih podataka zbog greške koju generiraju stari podatci
koji ako na vrijeme nisu uklonjeni ili zanemareni također ulaze u procese analize pa je ukupna
greška analize veća.
Iako je teoretski lako, na temelju dodane vrijednosti, procijeniti koji su podatci
relevantni a koji ne, u praksi to i nije baš jednostavno. Nije jednostavno iz dva razloga.
Postoje podatci koji su podložni promjenama kao primjerice preferencije kupaca.
Relevantnost takvih podataka u praksi se najčešće procjenjuje kroz traženje podatkovnih
odstupanja sadašnjih podataka od prošlih. Na primjeru preferencija kupaca, to znači da se
kupovne navike prate stalnim uspoređivanjem trenutne kupnje s kupnjom u prošlosti na
temelju čega se prognozira kupnja u budućnosti, koja može biti ispravna ili ne, a to ovisi
upravo o podatkovnim promjenama. [1]
16
Uz ovakve podatke postoje i podatci koji reprezentiraju stvari i pojave čija je promjena
vrlo rijetka, a u nekim slučajevima niti ne postoji. Ti podatci su u analizama ujedno i
najvredniji, jer njihovo korištenje praktično ne generira pogreške zbog eventualne ne
relevantnosti . Koliko su vrijedni govori i velika gramzljivost tvrtki da ih zadrži čak i unatoč
zakonskim propisima koji nalažu brisanje nekih podataka nakon određenog vremenskog
perioda. Takav je slučaj sa podatcima o povijesti pretraživanja koje prikuplja Google. Kako
bih izbjegao neusklađenost sa zakonskim odredbama, Google je uveo jednu vrst
deanonimizacije korisničkih pretraživanja tako što briše posljednji digit adrese pretraživanja
nakon devet mjeseci. Na ovaj način i dalje ima mogućnost provođenja analiza ali ne na
individualnoj razini, što je prema trenutnim odredbama unutar zakonskih okvira.
Na tom području opravdanosti ili ne opravdanosti čuvanja podataka trenutno je
aktualan slučaj „Brad from Derbyshire“ . Brad iz Derbyshirea dobio je otkaz nakon što je
njegov šef preko tražilice našao podatak o kaznenoj prijavi koju je dobio zbog vožnje u
pijanom stanju.
Zbog toga je na Europskom sudu tražio da se njegovi osobni podaci izbrišu iz Googleove
tražilice kako mu se u budućnosti ne bi događale slične situacije, smatrajući pritom da pisani
zapis o njegovoj grešci iz prošlosti onemogućava njegovo poslovno napredovanje. Sud je, na
veliko iznenađenje, presudio u njegovu korist.
Ovim slučajem Europljani su dobili pravo na „online zaborav“. Linkovi na „nebitne“
ili „vremenski nevažeće“ podatke na zahtjev korisnika mogu biti izbrisani.
Google je izjavio da će zahtjeve procesirati uzimajući u obzir nužan balans između
zaštite privatnosti i prava javnosti na pristup informacijama te da će s posebnom pažnjom
gledati na zahtjeve koji se odnose na podatke vezane uz financijske prevare, kršenja pravila
struke, kaznene prijave, osude i slično.
Naime, više od polovice zahtjeva poslanih Googleu iz Ujedinjenom Kraljevstva odnosi se na
brisanje podataka vezanih uz neke oblike kriminalne prošlosti.
Podaci su se počeli uklanjati sredinom lipnja 2014.god., a rezultati na koje će biti
primijenjena ova praksa, bit će posebno označeni.
Sve odluke o ovim slučajevima donositi isključivo osoblje Googlea, što je odmak od
Googleove prakse korištenja algoritama.
Ova će se praksa se odnosi samo na zemlje na koje se odnose odluke Europskog suda
za ljudska prava, a zahtjevi se podnose putem online formulara. Osim slike koja služi kao
17
dokaz identiteta, pojedinci koji podnose zahtjev moraju navesti linkove koji su
„problematični“, navesti državljanstvo i dati smisleno objašnjenje.
Koliko je ovo područje interesantno, govore ne baš riječi odobravanja odluke suda od
strane šefa Googla, Larry Page, koji je slučaj prokomentirao riječima „ovakve prakse
potkopavaju inovativnost i pomažu represivnim režimima“. Ali konačnu riječ će svakako
donijeti korisnici ne korištenjem ili korištenjem ove mogućnosti. [6]
4.5. Određivanje cijene podataka
Iako je vrijednost podataka, kako u poslovnom, tako i u privatnom životu prepoznata.
Došlo je do manjkavosti u utvrđivanju konkretnih cijena podataka u utvrđivanju
knjigovodstvenih vrijednosti tvrtki.
Vrijednost tvrtki čije je poslovanje bazirano isključivo na podatcima ispravno je
percipirana od strane burze, dok kada se ista tvrtka gleda kroz klasičnu knjigovodstvenu
vrijednost dolazi do drastičnog odstupanja.
Uzmemo li za primjer tvrtku Facebook, kao klasični primjer tvrtke čiji je posao
baziran isključivo na podatcima, možemo vidjeti veliko odstupanje procijenjene burzovne
vrijednosti koja iznosi cca. $ 104 milijarde i vrijednosti fizičke imovine, koja ujedno
predstavlja knjigovodstvenu vrijednost, koja iznosi $ 6.3 milijarde. Ova silna razlika u
vrijednosti predstavlja ništa, „samo podatke“ s kojima tvrtka radi.
Na izostanak vrijednosti podataka u iskazivanju knjigovodstvene vrijednosti tvrtke
(konkretno Facebook-a) upozorio je Doug Laney, predsjednik kompanije Gartner (vodeća
svjetska tvrtka za informacijsko tehnološka istraživanja). U svom istraživanju istaknuo je da
Facebook iako posjeduje „samo podatke“ u vrijednosnom smislu govoreći posjeduje 2.1
trilijun jedinica kojima trguje, kao što su lajkovi, uploadani materijali i komentari za koje se
zna da je prikupio u periodu od 2009. do 2011.god. (danas je ta brojka još impresivnija).
Nadalje u istraživanju je naveo i konkretnu vrijednost svake takve podatkovne stavke koja je
cca. 5 centa, što daje sasvim drugi pogled na Facebook gdje svaki korisnik prosječno vrijedi
100 dolara. [1]
Pojavila se potreba da se knjigovodstveni načini vrednovanja prilagode pravilima
trgovanja novom vrstom dobara kojih u trgovinskim tokovima 1930.god., kada je aktualni
18
knjigovodstveni sustav formiran, nije niti bilo. Početni koraci u rješavanju ovog problema
ostvareni su uvođenjem pojma nematerijalne imovine u knjigovodstvene kalkulacije.
Nematerijalna imovina u osnovi trebala bih obuhvaćati sve one vrijednosti koje tvrtka
posjeduje, a nemaju fizičku komponentu, kao što su brand, talent, strategija, podatci i sl.
U praksi, uvođenjem nove stavke bilance, konkretnih pomaka nije bilo iz razloga ne
postojanja nekog, možemo reći standardiziranog načina procjene vrijednosti imovine tog tipa.
Značajniji pomak se dogodio u glavama investitora koji su počeli percipirati podatkovne
potencijale tvrtki i utjecati na formiranje realnije tržišne vrijednosti.
Problem u uspostavi odgovarajućeg načina vrednovanja podataka je u činjenici da je
latentna vrijednost podataka uvijek prisutna, što implicira nemogućnost korištenja vrijednosti
generirane primarnom upotrebom kao referentne. [1]
Jedino što je na području latentne tj. skrivene, buduće vrijednosti podataka poznato to
su tehnološke mogućnosti koje neka konkretna tvrtka posjeduje u analiziranju podataka. Na
temelju tehnoloških potencijala tvrtki može se do neke mjere procijeniti stupanj korištenja
podataka i na neki način stvoriti pozitivnija klima na tržištu podataka kroz reguliranje
monopolske moći najvećih tvrtki. Naime mnogo puta se dogodilo da se tzv. sirovi podatkovni
materijal otkupi od strane velikih tvrtki kao što je Google, Amazon .. za neke male fiksne
naknade te se na temelju toga ostvari basnoslovni profit zbog netransparentnosti u načinu i
trajanju upotrebe.
Tehnološke/analitičke mogućnosti u najvećoj mjeri su zaslužne za veći stupanj
iskoristivosti podataka. Uzimanjem u obzir te činjenice u trgovini podatcima sve više se
formiraju ugovori bez fiksne naknade za korištenje, nego su naknade isključivo bazirane na
postotcima od ostvarene buduće dobiti. Kako se niti na ovaj način ne može u potpunosti
procijeniti stvarna podatkovna vrijednosti, u praksi se ide čak do te mjere da se podatci radije
proglase javnima nego da se daju ekskluzivna prava samo jednoj tvrtki na njihovo korištenje.
19
5. PREDIKTIVNA ANALITIKA
Predikitvna analitika je praksa ekstrahiranja informacija iz postojećih podataka kako bi
utvrdili uzorke, te kako bi predvidjeli buduće ishode i trendove. Prediktivni modeli se tipično
koriste za „proricanje“ vjerojatnih događaja u budućnosti s određenom razinom pouzdanosti.
Ovako pojednostavljeno predstavljanje podatkovne analitike nedvojbeno podsjeća na
proricanje budućnosti iz kristalne kugle na osnovu trenutno dostupnih podataka. Naravno, ima
nekih poveznica, međutim naše kristalne kugle su softveri za rudarenje podataka koji nam
putem određenih algoritama rudarenja podataka i povijesnih podataka „proriću“ što će se
dogoditi u budućnosti.
U poslovnom smislu prediktivna analitika služi za predviđanje nekih stvari koje nam
„obični“ alati za poslovnu inteligenciju ne mogu obaviti, a to se ponajviše odnosi na bolje
razumijevanje kupaca, proizvoda, partnera a u krajnju ruku, sa gledišta navedene teme, čitave
populacije na određenom prostoru kako bi identificirali potencijalne rizike te utvrdili
adekvatne odgovore za njihovu prevenciju.
5.1. Što možemo predvidjeti
Pravo bi pitanje bilo : „ Što ne možemo predvidjeti “ ? Veliki broj stvari je lako
predvidiv, međutim za to su potrebni kvalitetni podaci. Međutim vratimo se tristo godina
unatrag i upoznajmo Johna Graunta, prvog data scientista (znanstvenika podataka) i
znanstvenika amatera. Inače John je živio u vrijeme najveće kuge koja je tada harala i u svojoj
„knjizi“ Bills of Mortality je spojio sve podatke o umrlima i htio je na osnovu uzoraka znati tko
je umro od kuge, a tko od neke druge bolesti, te je došao do zaključaka koji su za to vrijeme
bili fascinantni. Smatra se da je J.Graunt otac statistike i rudarenja podataka, jer je po prvi puta
gledajući u podatke koje je prikupio našao ono vrijedno, a to su uzorci koje golim oko ne
možemo vidjeti. Međutim, danas su stvari nešto drugačije i danas ljude uglavnom zamjenjuju
računala i softverski proizvodi, međutim ne u potpunosti. Vratimo se na prediktivnu analitiku i
počnimo od predviđanja najkompleksnije stvari, a to su ljudi i njihova ponašanja. Smatrate da
ljudska ponašanja nisu predvidiva? Antropolozi smatraju da smo itekako predvidivi i da je naš
svaki korak lako predvidjeti. Zamislite svoj put od kuće do posla i zamislite da svaki put kad
otključate vrata od kuće, upalite auto i odete na posao zapravo kreirate podatke o svom
20
ponašanju. Da te podatke možemo nekako realno izraziti, lako bi mogli predvidjeti kad ćemo
se dignuti, otključati vrata od kuće, upaliti auto i kojim ćemo putem ići na posao. Policija Los
Angelesa 12(LAPD) je upravo ovo primijenila na svom problemu, odnosno na problemu
kriminala. Cjelokupna ideja predviđanja kriminala utemeljena je na tzv. preslikavanju poznatih
oblika ponašanja reprezentiranih kroz podatke na trenutnu situaciju. Od svih podataka iz
prošlosti su našli način kako predvidjeti sljedeći korak kriminalaca na točno određenoj lokaciji
i u točno određeno vrijeme. Zvuči nemoguće, međutim ova metoda je smanjila 5% općeg
kriminala i 20% krađa auta u LA-u. Na prvu nije puno, ali gledajući da Los Angeles nije mali
grad, ova brojka je fascinantna. Algoritam radi na jednostavan način i to na primjeru stvarnog
događaja.
Inače zanimljivo je da je ideja za stvaranje algoritama za predviđanje kriminaliteta
proizašla iz istraživanja posvećenih predviđanju potresa. Znanstvenici su u istraživanju
zaključili kako je uz današnju tehnologiju ipak nemoguće predvidjeti epicentar potresa, ali kako
se sa dosta velikim stupnjem preciznosti može predvidjeti nastanak manjih potresa koji nastaju
nakon velikih potresa. Taj otkriveni, možemo reći domino efekt, koji vjerno preslikava temeljnu
ideju o prolongiranju prošlosti na sadašnjost, znanstvenici su uspješno preslikali na predviđanje
ponašanja građana i dobili neočekivano dobre rezultate.
Koliko ovo zvučalo „uvrnuto“ to je realnost i sve će se više vremena posvećivati
izučavanju ovog područja i razvijanju novih algoritama za predviđanje stvarnih događaja.
5.2. Međuljudski odnosi i opravdanost predviđanja
Prije daljnjeg razmatranja teme korištenja prediktivnih metoda u preventivi kriminala,
potrebno je utvrditi da li tako nešto ima smisla i u praksi ili je riječ samo o pukoj teoriji.
Prediktivna analitika opravdanost na ovom području crpi iz same činjenice da se već neko
vrijeme primjenjuje u praksi u nekoliko američkih gradova. Naime kako je provođenje zakona
i pridržavanje određenih oblika ponašanja temelj ispravnog funkcioniranja bilo koje zajednice,
uvođenje novih metoda na ovom području nužno zahtjeva i ostvarenje konkretnih rezultata. S
12 Policijski odjel Los Angelesa (engleski: Los Angeles Police Department, LAPD) je policijski odjel uprave Grada Los Angelesa u američkoj federalnoj državi Kalifornija.
21
toga da navedena tehnologija nema opravdanost za sigurno ne bi dobila notu praktičnosti, nego
bi se zadržala samo na nivou teorije.
Određena predviđanja tj. točnije rečeno određene geoprostorne i statističke analize u
navedene svrhe provode se već desetljećima. Jedina je razlika što je posljednjih godina analitika
počela koristiti veće količine podataka, možemo reći počela je živjeti u duhu Big data
revolucije.
Korištenjem veće količine podataka porastao je stupanj relevantnosti analiza a time i
oslonjenost policije na IT tehnologije. Da se ne radi o nekakvoj naučnoj fantastici koja koristi
neku tajnu vrstu softvera koja je poznata samo određenom krugu ljudi, kao što je često
propagirano kroz medije. Govori i činjenica da je gotovo sav softver svoju prvobitnu primjenu
imao u komercijalne svrhe te je kao takav bio razvijen od strane privatnih softverskih kompanija
i sveučilišta.
Većina softverskih alata, možemo reći, da je imala svojevrsnu testnu fazu unutar
poslovnih okruženja velikih kompanija koje su korištenjem prediktivne analitike uspješno
mijenjale primjerice prodajne strategije i ustaljenu poslovnu praksu, na opće zadovoljstvo kako
kupaca, koji najčešće nisu bili svjesni razloga poboljšanja usluge, tako i na vlastito kroz veće
profite. (Primjer Walmart-a.)
Kako su se novi softverski paketi pokazali uspješnima u komercijalnom svijetu, njihova
primjena na području provođenja zakona značila je jednostavno rečeno ništa drugo nego
promjenu podataka uključenih u analizu. Ako je primjerice u poslovno svijetu bila riječ o analizi
podataka o prijašnjim kupovnim navikama potrošača radi prognoziranja budućih transakcija, u
svijetu prediktivnog policijskog djelovanja to uključuje podatke o dosjeima građana radi
prognoze budućih kriminalnih aktivnosti.
Glavna ideja u ovom za sada relativno novom segmentu primjene prediktivne analitike
je poboljšanje percepcije situacije na taktičkoj i strateškoj razini u razvoju strategija efikasnog
i efektivnog policijskog djelovanja. S podizanjem svjesnosti i upoznatosti s novom
tehnologijom s vremenom raste i razina razumijevanja bihevioralnih karakteristika što dovodi
do većeg stupnja preventivnosti kriminalnih djela koja je svima u interesu.
22
Pri tome treba shvatiti, kao što je ranije rečeno, da nije pronađena tzv. kristalna kugla
koja proriče budućnost. Radi se u suštini o „najobičnijoj“ prognozi koja, važno je naglasiti,
manipulira brojevima a ne kao što je u medijima pa čak i na filmskom platnu (film Minority
report13) propagirano, ljudima. Svakoj novoj tehnologiji, pa tako i ovoj, zajedničko je da
„prolazi ili pada na ljudskom faktoru“.
6. PREVENTIVNO POLICIJSKO DJELOVANJE
Iako metode predviđanja kriminala postoje već dulji niz godina, tek nedavno je nova
tehnologija omogućila prelazak sa naglašeno heurističkog pristupa na napredne matematičke
algoritme.
Potvrdu postojanja tog velikog zaokreta u funkcioniranju policijskog nadzora, prvi je u
javnost iznio William J. Bratton šef LAPD-a. Tijekom 2008.g. Bratton je naširoko javnosti
nastojao predočiti velike uspjehe novih modela predviđanja i trenutnog nadzora gradske
sigurnosti u odnosu na prijašnje metode. Osim zbog uključivanja javnosti 2008.g. bila je
značajna i po uključivanju kako stručnjaka s područja tehnologije tako s područja
zakonodavstva. Suradnja s velikim brojem vanjskih suradnika proizašla je iz uspješne
suradnje Brattona s čelnicima Ureda za pomoć pravosuđu (BJA) i Nacionalnog ureda za
pravosuđe (NJI).
U studenom 2009.g. održan je prvi simpozij koji je također imao velikog odjeka u
podizanju aktualnosti novo predstavljenih modela. Stvorio se velik interes od strane
potencijalnih vanjskih suradnika koji su pokazali volju za sudjelovanje u projektu koji ima
potencijala ne samo na nivou jednog grada (Loss Angelos-a) nego i na nivou cijele države.
Stvorena je i mreža ureda u većim gradovima u kojima su zainteresirane tvrtke mogle predati
zahtjeve za partnerstvom ponudom softverskih rješenja.
Prvi simpozij je definitivno ispunio svoju zadaću tj. stvorio svojevrsni temelj daljnjeg
razvoja kroz stvaranje stabilne mreže suradnika. Kako bi se taj veliki interes kvalitetno
usmjerio ka stvaranju što funkcionalnijeg sustava kako u tehničkom tako i u
13 triler u kojem je radnja smještena u godinu 2053. u kojoj postoji takva tehnologija koja može rekreirati ljudske snove, te ih hologramski prikazati.
23
zakonodavstvenom smislu, u lipnju 2010.g. održan je drugi simpozij. Glavne teme simpozija
su bile izazovi, uspjesi, ograničenja i skalabilnost sustava. Sudionici su se složili da je za
funkcionalnost nedvojbeno nužna podatkovna povezanost kao i razumljivo velike analitičke
mogućnosti.
U periodu poslije drugog simpozija jača medijska popraćenost ovog područja,
posebice je veliku medijsku pažnju privuklo uvođenje softverskog paketa PredPol u
gradovima Santa Cruz i Los Angeles. S velikom medijskom popraćenosti dolazi i do pojave
„pokvarenog telefona“ koja se manifestira kroz iskrivljavanje stvarnih činjenica radi stvaranja
što većeg interesa u javnosti. Tako je primjerice IBM u reklami svog softverskog rješenja dao
primjer u kojem policijski službenik ulazi u prodavaonicu neposredno prije pljačkaša.
Takva popraćenost od strane medija, u osnovi je rezultirala stvaranjem dobre podloge
za implementaciju sustava, jer je praktički stvoren novi pojam „predictive policing“ koji
odjednom postaje tema razgovora u znanstvenim, političkim, novinarskim krugovima, ali i u
javnosti. Međutim u manjoj mjeri djeluje i spomenuti „efekt pokvarenog telefona“ koji je
pratitelj svim promjenama u društvu. Javljaju se raznorazni samozvani znanstvenici koji svoje
spoznaje temelje na reklamama i novinskoj štampi te nameću sumnje u kršenje ljudskih prava
i sloboda. Ali u tom silnom medijskom prepucavanju, važna je činjenica da su svoje interese
na ovom području prepoznali analitičari i istražitelji koji su vlastite pristupe u radu u velikoj
mjeri unaprijedili. Tu su i sami policijski službenici koji mogu obavljati isti opseg poslova s
daleko manje resursa, zatim privatni sektor kroz angažman u razvoju softvera, privatne
zaštitarske kuće, vojska itd.
Program preventivnog policijskog djelovanja trenutno je uspješno implementiran u
nekoliko američkih država kao što su: California, Washington, South Carolina, Arizona,
Tennessee i Llionois. Da je potencijal prepoznat govori i podataka da je program počeo sa
implementacijom i u neameričkim državama. Primjenjuje se u nekim gradovima Ujedinjenog
kraljevstva.
6.1. Izrada predviđanja
Na osnovu ovako jednostavnog naslova, može se stvoriti pogrešna slika koja
kompleksnost problema predviđanja stavlja u drugi plan, a fokusira se samo na konačni
rezultat procjene. Iako kada gledamo konačni rezultat imamo dojam kao da se radi o
24
jedinstvenom softverskom rješenju, u stvari se radi o nizu metoda koje su u mnogo čemu
različite ali sinergijom generiraju cjelokupni sliku konkretnog problema kroz odgovore na
pitanja kada, gdje, tko i što.
Tako korištene metode možemo podijeliti u skupine s obzirom na to koje od ova četiri
odgovora daju.
-Hot spot analiza, statistička regresija, rudarenje podataka i metoda analize
periodičnosti se obično koriste kako bih se dobio odgovor na pitanje gdje će najvjerojatnije
kriminalna aktivnost nastupiti u određenom vremenskom intervalu a time i tko je potencijalno
ugrožen takvim vjerojatnim razvojem događaja.
-Vremenske i prostorno-vremenske metode se obično, kao što možemo pretpostaviti,
koriste u procjeni vremena nastanka kriminalnih dijela, a dijelom također daju procjenu
potencijalno ugrožene skupine koja se u to vrijeme također nalazi na istom području.
-Kako se predikcije odnose na određeno geografsko područje metodom procjene
rizičnosti terena u obzir se uzimaju geografske značajke područja razmatranja koje također,
ali na jednom drugom nivou, daju odgovor na pitanje gdje.
Spomenute analitičke metode osim što se razlikuju po namjeni, također se razlikuju i po
kompleksnosti. Spomenutih šest analitičkih kategorija: hot spot analiza, regresijska metoda,
rudarenje podataka, metoda analize periodičnosti, prostorno-vremenska analiza i metoda
procjene rizičnosti terena, s obzirom na kompleksnost se mogu podijeliti u četiri kategorije:
-Klasične statističke tehnike – uključuje standardne statističke procese, kao što su
većine vrsta regresijskih metoda, rudarenje podataka i analiza vremenskih serija.
-Jednostavne metode – nemaju velikih resursnih zahtjeva niti što se tiče hardverske
opreme niti velike količine ulaznih podataka. Velik broj istraživačkih metoda spada u ovu
kategoriju.
-Kompleksne aplikacije – svoju kompleksnost duguju inovativnim metodama na
kojima su bazirane a koje ujedno zahtijevaju raspoloživost velikih količina ulaznih podataka
kao i sukladno tome respektabilne hardverske performanse. Većina današnjih metoda
rudarenja podataka također zahtjeva spomenute preduvjete.
-Prilagođene metode – metode čija je upotreba isključivo orijentirana ka prediktivnom
policijskom djelovanju. Ova kategorija u osnovi obuhvaća sve do sada spomenute kategorije
25
čije metode su izmijenjene i prilagođene konkretnom području. Primjer takve prilagodbe je
klasična statistička metoda koja umjesto brojčanih rezultata stvara grafički prikaz interesnih
točaka na geografskoj karti promatranog područja.
6.1.1. Hot - spot analiza
Hot spot analiza tj. metoda predviđanja točaka interesa je jedna od najstarijih metoda
identificiranja točaka alokacije resursa u reduciranju kriminala ali i općenito jedna od prvih
metoda primijenjenih u korištenju većeg skupa podataka. Razlog dosta česte primjene je
mogućnost brzog izdvajanja one grupe podataka koja možemo reći, iskače iz okvira kojim je
određena podatkovna cjelina, koja u ovom slučaju ima i konkretnu geografsku reprezentaciju.
Hot spot analizom se u okvirima prediktivnog policijskog djelovanja identificiraju
lokacije na kojima je vjerojatnost nastupanja kriminalnih aktivnosti veća u odnosu na
cjelokupno područje promatranja. Procjena se temelji na identifikaciji uzoraka podataka koji
upućuju na kriminalnu aktivnost iz povijesne baze kriminalnih delikata. Osnovna
pretpostavka analize je konzistentnost kriminalnih aktivnosti tj. svojevrsno preslikavanje
činjeničnih stanja bliže prošlosti na trenutnu i situaciju u bližoj budućnosti.
Primjenjivost rezultata dobivenih metodom u velikoj mjeri ovisi o određivanju
spomenutog podatkovnog okvira, svojevrsne podatkovne anomalije, dijela u odnosu na skup.
Pri tome postoje dvije krajnosti. Prva krajnost je da iz skupa podataka izdvajamo podatke čija
je vrijednost strogo precizirana. Takav pristup identificira vrlo malo područje interesa te
stavlja u drugi plan sva druga područja čija je razlika u podatkovnoj određenosti možda i vrlo
mala u odnosu na precizirane vrijednosti, čime su zanemarene moguće vrlo interesantne
lokacije.
Druga krajnost bi bila kada su ti podatkovni okviri previše općenito određeni, što
dovodi do generiranja velikog broja točaka interesa koje zbog broja nije moguće adekvatno
procesirati.
Primjena metode započinje vrlo jednostavnim pristupom koji se sastoji od podjele
skupa podataka, koji je u konkretnom slučaju grafički predočen geografskom kartom
područja, na segmente stvaranjem svojevrsne mreže tzv. pristup grid mapping-a.
26
Nakon metode grid mapping-a koja je najjednostavnija i gotovo polazišna u hot spot
analizi, u konkretnom problemu lociranja mjesta interesa fokus se stavlja na složenije
matematičke metode kao što su covering ellipses i kernel density estimation, o kojima će biti
riječi u nastavku.
Grid Mapping
Kao što je već spomenuto, postupak utvrđivanja točaka interesa započinje grid
mapping metodom, koja izgleda prilično jednostavno, prije svega zbog jednostavne grafičke
reprezentacije koja nije ništa drugo nego mreža koja pokriva određeno geografsko područje,
po čemu je u konačnici metoda dobila i ime.
Pozadina priče i nije tako jednostavna jer se iza „jednostavnog grafičkog prikaza“
kriju dva moguća problema. Prvi je možemo reći teoretske prirode a odnosi se na miješanje
dvaju pojmova kako od strane analitičara tako i od krajnjih korisnika. Naime grid mapping
metoda je prvenstveno orijentirana, kao i što joj ime govori na mapiranje koje u kontekstu o
kojem raspravljamo ima značenje određivanja zastupljenosti neke pojave, odnosno vrste
kriminala na nekom području. Često se pojam mapiranja poistovjećuje s pojmom lociranja,
dakako pojam mapiranja u određenoj mjeri ne isključuje lociranje jer je mapirano područje
također određeno lokacijskim podatcima, ali ove dva pojma je potrebno razgraničiti možemo
reći zbog nesavršenosti metode kada je riječ o određivanju točne lokacije.
Prilikom pokretanja projekta kartiranja nekog područja, neovisno o tome što želimo
mapirati, na pitanje koji je cilj projekta, u velikom broju slučajeva odgovor bi bio izrada karte
nekog područja. Odgovor je potpuno logičan ali ne i u potpunosti točan. Takav odgovor bi bio
prihvatljiv prije dvadesetak godina ali ne i danas. U današnjim kartografskim projektima
grafički prikaz geografske karte ima sekundarno značenje, primarni prikaz je onaj ne grafičke
prirode, tj. onaj u bazi podataka.
Upravo zbog toga što primarno postaje podatkovno a sekundarno grafičko, u nekim
slučajevima dolazi do nedostataka kada je određivanje lokacije u pitanju. Može se dogoditi da
je mapirana točka interesa zajednička za dvije ćelije pa na taj način točka nije u potpunosti
točno lokacijski određena.
27
Kako su u pozadini podatci, pri čemu treba naglasiti da se radi o velikoj količini
podataka zbog potrebe za nalaženjem skrivenih odnosa i svojevrsnih pravila u kretanju istih.
Ne smije se zanemariti i činjenica da velika količina podataka za sobom povlači i duži
vremenski rok (od nekoliko mjeseci) na koji se razmatrani podatci odnose. Zbog toga dolazi i
do ne savršenosti i u pogledu točnosti cjelokupnog prikaza, naročito kada se dogodi tzv. „bad
lack“ koji predstavlja pojavu nekih podataka unutar spomenutih nekoliko mjeseci promatranja
koji predstavljaju iznimku a ne pravilo u kretanju parametara na nekom području, što direktno
utječe na konačni rezultat.
Tehnologija čija je primjena uobičajena u ovakvoj vrsti projekata je tehnologija
geoinformacijskog sustava. U najstrožem smislu to je računalni sustav sposoban za
integriranje, spremanje, uređivanje, analiziranje i prikazivanje geografskih informacija, i kao
takav predstavlja oruđe za izradu pametne karte koja osim grafičkog prikaza karte za koji smo
rekli da ima sekundarno značenje, dopušta korisnicima stvaranje interaktivnih upita,
analiziranje prostornih informacija i uređivanje podataka. Te skoro da predstavlja sustav po
mjeri upravo za ovakvu vrstu projekta. Međutim rad u GIS sustavima zahtjeva određenu
razinu znanja i prakse pa se ponekad koriste i drugi softverski alati. Primjerice grid mapping
prikaz moguće dobiti i primjenom, za mnoge korisnike, jednostavnijeg i pristupačnijeg
softvera kao što je Excel. Primjerice grid mapp prikaz na slijedećoj slici napravljen je pomoću
Excela.
28
slika 1 (Grid mapss prikaz počinjenih pljački u Washingtonu)
Covering Ellipses
Sukladno nazivu metoda se koristi za traženje veza između mapiranih kriminalnih
delikata kroz stvaranje elipsa koje obuhvaćaju cijeli klaster promatranih događanja na nekom
području. Metoda je dosta popularna, prije svega što omogućuje jednostavan matematički
izračun niza elipsa koje zatvaraju klastere promatranih pojava ali i dijelom što je metoda
funkcionalna u CrimeStat softveru, koji je ujedno i jedan od popularnijih softvera jer je
besplatan, a i prilagođen je za rad u windows operacijskim sustavima.
29
CrimeStat softver je možemo reći, jedan od alata GIS 14sustava jer ima mogućnost
rada s GIS datotekama a uz to je idealan upravo za spomenutu primjenu izračuna elipsa jer
zahtjeva da svi ulazni podatci imaju dodijeljene geografske koordinate pa je izračun, kao što
je rečeno matematički prilično jednostavan. Kao dodatak, koji dakako doprinosi njegovoj
širokoj primjeni je i rad u tri vrste koordinatnih sustava: sferni, projekcijski i kartezijev
koordinatni sustav.
Inicijalno formirane elipse obuhvaćale su dosta prostora koji nije od interesa s obzirom
na zastupljenost kriminala iz razloga što točke interesa (eng. hot spots) u većini slučajeva ne
formiraju idealne elipse. Međutim nove implementacije softvera eliminirale su ovaj problem
kroz prilagođavanje elipsa s obzirom na geografsku koordinatu s najvećim stupnjem
zastupljenosti promatrane pojave.
U praksi kombinira se stari inicijalni pristup formiranja elipse s obzirom na geografske
koordinate pri čemu su sve kriminalne aktivnosti geografski grupirane i novi pristup
detaljnijeg određivanja s obzirom na intenzitet (na žarište) događanja. Što u praksi znači
pouzdanije i detaljnije definiranje područja na koja se šalju policijske patrole.
Ogledni primjer ovakvog načina funkcioniranja je metoda hijerarhijskog klasteriranja
(eng. nearest neighbor hierarchical clustering). NNH identificira grupu događaja koji su
prostorno bliski. Ovom hijerarhijskom rutinom klasteriranja grupiraju se promatrane točke s
obzirom na postavljene kriterije te se utvrđuje udaljenost između svake od točaka promatranja
što rezultira grupiranjem u jedan klaster samo onih točaka koje zadovoljavaju s obzirom na
prag udaljenosti. Na slijedećoj slici je prikazan primjer generiran CrimeStat softverskim
alatom.
14 Geografski informacijski sustav (GIS) je sustav za upravljanje prostornim podacima i osobinama pridruženih njima. U najstrožem smislu to je računalni sustav sposoban za integriranje, spremanje, uređivanje, analiziranje i prikazivanje geografskih informacija.
30
slika 2 (Grafički prikaz metode hijerarhijskog klasteriranja na području Washingtona)
Iako ovakav pristup kroz dva koraka rezultira većom točnosti i fokusiranosti na
signifikantne točke, ovakav pristup karakteriziraju i dva nedostatka:
• ovakvim pristupom formira se nekoliko elipsi, koje za neiskusnog korisnika
imaju jednak prioritet što se tiče poduzimanja konkretnih mjera. Može se reći
da se za kvalitetnu primjenu zahtjeva određena razina znanja i iskustva, jer je
ponekad potrebno odabrati „najbolje“ rješenje, a uz to u startu je potrebno na
temelju vlastite intuicije predefinirati broj točaka interesa što predstavlja još
veći zahtjev na znanje i iskustvo analitičara.
• svi korišteni podatci imaju jednaku težinu u formiranju konačnog rezultata pa
metodu također karakterizira osjetljivost na korištene podatke. Takva
osjetljivost je u nekim situacijama dobra ali najčešće zbog dužeg vremena na
31
koji se promatrani podatci odnose stvara probleme jer nikada nije moguće sa
sigurnosti reći da su trendovi u kretanju pokazatelja korespondentni sa
situacijom na terenu.
Single and Dual Kernel Density Estimation
KDE također predstavlja jedan od pristupa identifikacije točaka interesa (eng. Hot
spots). Ideja je korištenjem kernel matematičke funkcije približno odrediti vjerojatnost
nastupa novih kriminalnih delikata kao i njihove potencijalne lokacije na nekom području,
matematičkim rječnikom rečeno, statistički interpolirati varijable od interesa.
KDE funkcija je takozvana eng. smooth funkcija koja za cilj ima obuhvatiti važne
obrasce u podatcima. U doslovnom smislu riječi kernel , označava jezgru ili središnji dio
predmeta.
Često se u računalnim znanostima odnosi na središnji dio operativnog sustava dok se u
geoprostornim analizama odnosi na metode koje uključuju računanja pomoću dobro
definiranog lokalnog susjedstva.
Kernel Density Estimation je tehnika generalizacije lokacija opažanja na cijelo
područje. Dok prostorna distribucija i statistika žarišta pružaju statistički pregled samih
podataka opažanja, tehnike interpolacije generaliziraju podatke opažanja na čitavo područje.
Tehnike interpolacije pružaju procjene gustoće za sve dijelove promatranog područja.
Procjena gustoće je varijabla intenziteta (eng. intensity variable) koja je procijenjena na
određenoj lokacij. Može se prikazati kao karta površina ili reljefna karta koja prikazuje
intenzitet na svim lokacijama.
Kernel funkcija se još jednostavnije može objasniti kao distribucija koja je
usredotočena na jednu točku (u ovom slučaju je to lokacija gdje je zabilježena kriminalna
aktivnost) i čija vrijednost ukazuje na relativni utjecaj vrijednosti na okolinu. Trenutno je
nekoliko kernel funkcija u upotrebi, CrimeStat nudi mogućnost korištenja čak njih pet. U
praksi se koristi više kernel funkcija iz razloga što svaka ima svoje prednosti i nedostatke, ali
32
je većini zajedničko da vjerojatnost nastupa kriminalnog događaja u budućnosti opada s
udaljenošću od lokacije koja je uzeta u razmatranje odnosno na kojoj se delikt već dogodio.
Jednostruke KDE procjene (eng. single KDE estimates) koriste samo jednu varijablu,
kriminalni incident. Zbog očite ovisnosti između broja stanovnika na nekom području i broja
kriminalnih incidenata u upotrebi su i dvostruke KDE procjene (eng. dual KDE estimates)
koja osim varijable koja predstavlja kriminalni incident u obzir uzima i gustoću naseljenosti.
Jednostruka KDE analiza rezultira procjenom da se većina kriminala događa u
gradskim središtima, što je i razumljivo zbog toga što se u obzir uzima samo jedna varijabla
koja usmjerava cijelu analizu ka sagledavanju broja kriminalnih delikata. Ponekad takva
možemo reći ne realna analiza zadovoljava ali u svrhu stvaranja realnije slike često se koristi
dvostruka KDE analiza koja u obzir uzima i tzv. rizičnu skupinu građana. To ponekad vodi do
toga da je procijenjena mogućnost nastupa nekog kriminalnog događaja daleko veća
primjerice u rubnim dijelovima grada gdje je omjer stanovnika koji su već imali doticaja s
zakonom i ukupnog broja daleko veći nego primjerice u gradskom središtu.
Kako KDE analiza ne započinje pretpostavkom koliko točaka interesa (eng. hot spots)
bi moglo biti izbjegnut je glavni nedostatak elliptical covering analize, ali osjetljivost na ne
relevantne ulazne podatke ostala je ista, pa je kod korištenja potrebno voditi računa o tome.
Kao što je već spomenuto, za primjenu u praksi od velike važnosti je i mogućnost
grafičkog prikaza rezultata ove funkcije u obliku konturnih, toplinskih ili površinskih karata.
slika 3 (Konturni prikaz segmenta površine na kojem su prikazana mjesta uličnih razbojništva u Baltmore-u )
33
slika 4 (Prikaz KDE analize nad podatcima koji predstavljaju slučaje zlostavljanja u Cologne-u , Njemačka)
2008.god. Spencer Chainey, Lisa Tompson i Sebastian Uhlig usporedili su rezultate
KDE analize sa drugim metodama mapiranja uključujući i elliptical covering analizu. Utvrdili
su kako KDE u odnosu na druge analize ima znatno veći PAI indeks (eng. prediction accuracy
index). U analizi su uspoređivali stopu pogodaka točaka kriminalnih delikata s ukupnom
površinom koja je predodređena kao prostor povećanog rizika, te se KDE analiza pokazala
kao moćan alat prediktivnog policijskog djelovanja.
6.1.2. Heurističke metode
U mnogim slučajevima tehnike preventivnog djelovanja uključuju upotrebu
heurističkih metoda.
Prema definiciji heuristika je znanost o mogućnostima znanstvenog istraživanja, i
odgovora na pitanja: Što se može naučno istražiti ? Što se ne može ? Što je aksiom ?
Heuristika obuhvaća metode i tehnike rješavanja problema, učenja i otkrivanja koji su
bazirani na iskustvu. Heurističke metode se koriste radi ubrzanja procesa pronalaženja
dovoljno dobrog rješenja u situacijama kada provođenje detaljnog istraživanja nije praktično.
Primjeri toga obuhvaćaju korištenje raznih uhodanih pravila, podatkovnog nagađanja,
intuicije i zdravog razuma.
34
Ukratko rečeno, heuristika se može definirati kao korištenje lako dostupnih
informacija, čija primjena nije strogo određena. Upravo činjenica da laka dostupnost nekih
informacija ne utječe na njihovu korisnost donijela je velike promjene u praktičnom
korištenju prediktivnih sustava od strane korisnika odnosno policijskih analitičara. Došlo je
do svojevrsne ograničenosti na jednostavne matematičke strukture u provođenju analiza iz
razloga što su policijski službenici odnosno analitičari također dio geografskih prostora na
koje se analize odnose te imaju lak pristup velikom broju informacija iz okoline. Zdrav
razum, ali i praksa potvrđuje da je nepotrebno, čak u nekim slučajevima i kontraproduktivno
inzistirati na korištenju kompleksnih matematičkih struktura i tehnika da bi se u krajnjoj liniji
potvrdile informacije koje su većini dobro poznate.
Pogledamo li kakva je praksa u primjeni sustava, možemo vidjeti obilježja kojima je
definiran heuristički pristup. Jedan policijski analitičar je ukratko opisao naj korištenije
prediktivne tehnike u praksi riječima:
-U praksi su od velike koristi tzv. trenutne analize koje s obzirom na vrijeme i dan u
tjednu obavještavaju analitičare kada je najveća vjerojatnost za nastup određene vrste
kriminalnih delikata. Većina podataka prezentiraju se u slikovnom obliku kao
primjerice mape kriminalnih aktivnosti u protekla 24 sata što daje mogućnost
policijskim službenicima da stvore osjećaj o tome što se događa u njihovom okruženju
te kvalitetno apliciraju vlastita iskustvena znanja u prevenciji istih. Također moguće je
gotovo trenutno praćenje razine uspjeha odnosno neuspjeha u njihovom radu. Moguće
je vidjeti stopu određene vrste kriminala u tekućem tjednu i usporediti je primjerice sa
istim razdobljem prošle godine. Vrlo brzo je moguće uočiti fluktuacije u kretanju
ključnih pokazatelja što daje vremenski prostor za odgovarajuće postupke.
Većina analitičara se slaže kako je usvajanje heurističkih načela u praksi pun pogodak
što se tiče jednostavnosti, vremena a u krajnju ruku i funkcionalnosti. Upravo ta tri elementa,
funkcionalnost, jednostavnost i brzina karakteriziraju svaku široko primjenjivu metodu iza
koje stoje konkretni rezultati.
Slijedeće tri metode smatraju se heurističkim, što može kod korisnika stvoriti lažnu sliku
da se radi o metodama koje zbog, kao što je rečeno, jednostavnijih matematičkih algoritama i
elementarnijih informacija, ne generiraju nužno relevantne rezultate. Unatoč takvoj slici,
praksa pokazuje visok stupanj upotrebe baš ovih metoda:
35
1. Manual identifikacija točaka interesa – koristeći ovu metodu analitičari koriste
vlastitu procjenu i iskustvo u definiranju područja koncentrirane aktivnosti. Iako je
ovo očigledan primjer neznanstvenog pristupa, bilježi visok stupanj primjene kako od
strane iskusnih tako i od analitičara početnika te ovakav pristup upotpunjen još s
određenim stupnjem pravnih znanja rezultira iznenađujuće velikim stupnjem točnosti.
2. Kvadratno tematsko mapiranje – manualna verzija grid mapping metode o kojoj je već
bilo riječi. Uključuje skup podataka koji je podijeljen s obzirom na geografsku
lokaciju gdje je nastupio što je grafički prezentirano kao skup poligona jednake
veličine čija boja determinirana heurističkim obilježjem odnosno brojem zabilježenih
incidenata. Analitičar također može na temelju vlastite procjene grupirati područja za
koja mu intuicija odnosno neki drugi pokazatelji govore da su područja visokog rizika,
kao što je prikazano na slici.
slika 5 (Tematska karta koja prikazuje područje s obzirom na broj krađa vozila)
3. Mapiranje s obzirom na područja nadležnosti –kao što ime govori, ova vrsta, možemo
reći pogleda na promatranu geografsku površinu formirana je na temelju pravnih
nadležnosti. Kao takva daje mogućnost formiranja poligona na koje je područje
podijeljeno u skladu s pravima nadležnosti, što u nekim situacijama olakšava posao,
ali u nekim unosi dodatne komplikacije. Razlog komplikacija u nekim slučajevima je u
izostavljanju onog dijela površine poligona koji je izvan umjetno stvorene granice
36
nadležnosti, a u kojem se može nalaziti žarište kriminalnih aktivnosti. Ovom metodom,
odnosno kako smo je nazvali pogledom analitičar također može odabrati dva načina
na koja će donositi zaključak o rizičnosti nekog područja, na temelju jednostavnog
brojanja kriminalnih događanja ili kroz usporedbu stopa kriminala jednog područja i
cijeloga skupa.
6.1.3. Regresijske metode
Općenito govoreći, regresija podrazumijeva analizu oblika i smjera povezanosti i
analizu u smislu nezavisnih/zavisnih varijabli sa ciljem predikcije. U regresijskom modelu
poznavanje vrijednosti nezavisnih omogućuje predikciju vrijednosti zavisnih varijabli, pri
čemu je za naše razmatranje najznačajnija činjenica da kad god postoji značajna korelacija
između dvije varijable vrijednost jedne varijable se može iskoristiti za predikciju vrijednosti
druge.
Upravo zbog te činjenice u regresijskim modelima susrećemo prednost Big Data
pristupa. Kako se radi o varijablama kojima je možemo reći opisano neko područje, potpuno
je logično da slika nekog područja, kako podatkovna u bazi podataka, tako i grafički
prikazana će biti jasnija ako je detaljnije opisana kroz što je moguće veći broj varijabli.
Primjerice, regresijski model za predikciju provala, osim što će uključivati varijablu o
broju provala na promatranom području, također može obuhvaćati čitav niz drugih varijabli
koje čak na prvi pogled niti ne moraju biti u logičnoj vezi s modelom. Tako primjerice uz
spomenutu varijablu broja provala model može uključivati broj incidenata koji spadaju u
druge vrste kriminala, slučaje kršenja javnog reda i mira, broj kućanstava, broj napuštenih
kućanstava, podatak o registriranim prijestupnicima i sl.
Regresija metode u praksi mogu biti dosta osjetljive na volatilnost podataka i na
premalu količinu podataka, premda je taj problem kroz današnji tehnološki napredak riješen.
Primjena regresije je naročito primjerena situacijama u kojima je odgovor koji se nastoji
dobiti broj. Regresija u tom slučaju, naravno ako su spomenuta dva preduvjeta ispoštovana
daje dosta preciznu predikciju u vidu konkretnog broja i vjerojatnosti odstupanja odnosno
raspona kretanja. Na primjer: ako želimo dobiti odgovor na pitanje. Koliko će se provala
37
dogoditi sljedeći tjedan ? Koristeći se regresijom odgovor može glasiti. Vjerojatno će ih biti 7,
ali sa 90-postotnom vjerojatnosti taj broj će biti između 5 i 10.
U prediktivnom policijskom djelovanju moguće je koristiti više regresijskih tehnika
koje su podijeljene s obzirom na matematičke odnose koji se ispituju na skupu ulaznih
podataka.
Tako razlikujemo tri tipa odnosa ulaznih varijabli:
Linearna regresija – linearni regresijski model predstavlja vezu između dvije ili više ulaznih
varijabli koja je matematički određena. Zašto je model dobio naziv „linearni“ ? Razlog je u
geometriji kojom je grafički predočen koja je ništa drugo nego linija koja u osnovi predstavlja
plan kretanja izlaznih varijabli modela na osnovu veličine ulaznih. U praktičnom smislu bi to
značilo da ako recimo želimo predvidjeti broj pljački sljedeći mjesec imamo sve potrebne
korake kako doći do konkretnog podatka. To može biti primjerice: broj pljački koji će se sa
određenim postotkom vjerojatnosti dogoditi slijedeći mjesec je jednak polovici broja pljački
počinjenih prošlog mjeseca plus jedna četvrtina od ukupnog broja slučajeva remećenja javnog
reda i mira prošlog mjeseca plus neka konstanta. Najčešće korištena metoda u kalkulaciji
najboljeg matematičkog odnosa ulaz i izlaza u konkretnom primjeru je metoda najmanjih
kvadrata.
Nelinearna regresija – za razliku od linearne regresije nije moguće jednostavno utvrditi
matematičku vezu između ulaza i izlaza koristeći se ponderiranim prosjecima. Za pronalazak
nelinearne veze među podatcima nije dovoljno slijediti već „postojeći recept“ nego je nužna
primjena logički a i vremenski znatno kompliciranijih algoritama.
Regression splines – iako je znatno kompliciranija od prethodno navedenih regresija,
teoretski ideju funkcioniranja je moguće jednostavno objasniti a glasila bi „podijeli pa
vladaj“. U donošenju zaključka koji se odnosi na čitav podatkovni skup ne koristi se samo
jedna regresija niti je njeno korištenje predviđeno na određenoj fazi analize. Kako se radi sa
možemo reći „zamršenim skupom podataka“ čije odnose nije lako matematički izraziti, a u
prilog toj kako smo je nazvali „zamršenosti“ pridonosi i velika količina podataka. Podatci
prije ulaska u model ne sagledavaju se samo kroz vrijednost koju imaju nego i kroz atribut
kojim su određeni. Gledajući to na primjeru procjene krađa automobila na nekom području,
pri čemu se pretpostavlja da promatrano područje nije jedna ulica ili jedan kvart. To bi značilo
da kako bi ispoštovali temeljnu ideju podatke prvo podijelimo na manje cjeline, to može biti
primjerice po geografskoj određenosti. Kako sada radimo s manjom količinom podataka,
38
djelomično smo riješili problem „zamršenosti“ što se tiče količine podataka. Drugi problem je
spomenuti atribut kojim je varijabla određena, primjerice naša pretpostavka o krađi vozila
neće biti ni približno točna ako za najveću važnost za konačnu procjenu uzmemo varijablu
„boja vozila“, a zanemarimo primjerice atribute „godina proizvodnje“ i „stanje automobila“.
Nakon što je utvrđeno koji atributi najviše utječu na donošenje odluke potencijalnog
kradljivca o krađi moguće je prijeći na konkretnu vrijednost atributa u stvaranje konačne
procjene, ali bitno je naglasiti, procjene za manji dio podataka (za jednu regiju), dok će
konačna procjena za cijelo promatrano područje biti kombinacija svih manjih segmenata.
6.1.4. Near – repeat metoda
Već smo spomenuli kako kompleksnost podataka ne garantira nužno vrijednost istih i
da u mnogo slučajeva upravo oni naizgled beznačajni podatci generiraju najviše korisnih
informacija. U nekim slučajevima isti zaključak se može prenijeti na korištene metode.
Jedna od takvih metoda je near-repeat koja nije ništa drugo nego pretpostavka da će
buduće kriminalne aktivnosti imati slične značajke što se tiče vremena i lokacije, kao
registrirani prijestupi u bliskoj prošlosti.
Primjena ove metode proizašla je iz činjenice da unutar neke skupine podataka imamo
velik broj podataka koji se ponavljaju te da pronalaženje mogućih razloga ponavljanja može
rezultirati vrlo korisnim zaključcima. U samim početcima primjene ove metode, njena
uspješnost je također bila pretpostavka, ali primjena metode u praksi opravdala je prvobitnu
pretpostavku.
Ljudi slično kao i ovdje prikazane metode također svakodnevno rade s podatcima čiju
relevantnost dokazuju svakodnevno. Potpuno je prirodno i logično da će i čovjek u svom
životu slijediti onaj podatkovni uzorak koji se je već pokazao kao „dobitna kombinacija“.
Uočavanjem te pravilnost istražiteljima se ponudila mogućnost da korištenjem ionako
dostupnih podatkovnih uzoraka svakog kriminalnog delikta sa dosta velikim stupnjem
preciznosti mogu predvidjeti atribute sljedećeg.
Da su ljudi skloni slijediti uhodane uzorke ponašanja, govore stvarni primjeri iz
policijske prakse. Primjerice američki grad San Fernando tu činjenicu potvrdio je razmatrajući
slučaje provala, otkrivši nevjerojatan pravilnost u ponavljanju te vrste zločina. U periodu od
39
2001.g. do 2005.g. u čak 100 slučajeva zabilježeno je ponavljanje kriminalnog djela u
vremenskom razmaku od 3 sata i unutar udaljenosti od 200 metara od prethodne pljačke.
Značajan stupanj ponavljanja zabilježen je i u gradu Beenleigh u Australiji gdje se
ustanovljena vjerojatnost od 7 posto da pojedinac postane žrtva pljačke za više od duplo
povećava, točnije rečeno na 16 posto, nakon nastupa prve pljačke, tj. vjerojatnost ponavljanja
ove vrste kriminalnog djela na istoj lokaciji je 16 posto.
Ovakav pristup, iako se u literaturi navodi kao metoda, kombiniran sa drugim,
prethodno objašnjenim metodama, kroz kompliciraniju matematičku podlogu generira izrazito
relevantne informacije. Informacije su do te mjere precizirane da je matematički potvrđeno da
se u gradiću Santa Clara u Californiji najviše provala događa utorkom i četvrtkom između
17:00 i 20:00 sati. Uz to su policijskim službenicima na terenu dostupne informacije Hot spot
analize što za sobom povlači i lokacije potencijalnih žrtava provalnika.
Učinkovitost ovakvog načina razmišljanja koje je bazirano na pretpostavci
prolongirane prošlosti dokazano je i u drugim slučajevima, primjerice u Japanu je ovaj način
razmišljanja učinkovito primijenjen na predviđanje potresa. Jednostavno rečeno lanac uzročno
posljedičnih veza je u većini slučajeva prisutan što se nikako ne smije zanemariti, a u
slučajevima kada slijed događaja izgleda nepovezan i zbunjujući razlog je najčešće u
„preskakanju pojedinih karika u lancu“.
6.2. Ulazne varijable metoda
O izboru ulaznih varijabli modela, odnosno o problemima koje isti može izazvati
rečeno je nešto u prethodnom poglavlju. Iako je u duhu Big Data pristupa podatcima, poželjno
koristiti što više podataka odnosno varijabli, teoretski u model je moguće staviti sve
raspoložive varijable. Problem takvog pristupa je u činjenici da kada je model pre-
kompleksan odnosno kada ima puno parametara dolazi do stvaranja slučajne greške,
takozvanog šuma u podatcima (eng. overfitting) umjesto logičnih međuodnosa. Da bi se to
izbjeglo postoje metode za izbor varijabli:
• Manual eksperimentiranje i korelacijska heuristika – cilj ove metode je
ispitivanje matematičke veze ulaznih i izlaznih varijabli modela tj. ispitivanje
40
korelacijske povezanosti. Sve varijable koje predstavljaju potencijalne
kandidate modela prolaze kroz svojevrsni filter s kojim se iz modela izbacuju
varijable s nedovoljnim stupnjem korelacije te varijable kod kojih je korelacija
očigledna. Analitičari kroz eksperimentalni pristup prilagođavaju kriterije
spomenutog filtra kako bi u model bile uvrštene samo varijable koje u
statističkom smislu pridonose stvaranju predikcije prihvatljivog stupnja
pouzdanosti.
• Stupnjevita regresija – za ovu metodu možemo reći da je strogo heuristička
zbog iterativnog građenja modela. Naime metoda tj. njena izgradnja,
jednostavno govoreći, nije ništa drugo nego postupak pokušaja i pogreški.
Tijekom svake iteracije u model se uvrštava po jedna nova varijabla koja ima
za cilj „poboljšati“ model. Nakon uvrštavanja nove varijable, ako model nije
„poboljšan“ takva varijabla se jednostavno izbacuje te situacija ostaje ne
promijenjena. Iako je ova metoda dosta kritizirana unutar znanstvenih
krugova, rezultati govore da se unatoč pomalo, možemo reći, primitivnom
načinu funkcioniranja u konačnici generiraju jako dobri prediktivni modeli.
Ova jednostavna, ali učinkovita metoda primijenjena je čak i u razvoju nekih
softverskih paketa.
• Optimizacijske metode – primjenom ove metode rješava se spomenut problem
zamršenosti oko izbora ulaznih varijabli, na jedan matematički vrlo
kompliciran način da bi ga ovdje razmatrali. Uključuje primjenu naj
suvremenijih analitičkih modela današnjice, least-angle regresiju, lasso
regresiju i elastic net regulacijsku regresiju.
41
VODEĆI POKAZATELJI REGRESIJSKE METODE
Pod pojmom vodeći pokazatelja, jednostavno rečeno, spadaju svi podatci koji
predstavljaju najveću važnost odnosno najveći izvor korisnih informacija. Iako takvi podatci
imaju ključnu važnost za uspješnost ne samo regresijske, nego i bilo koje druge prediktivne
metode to za sobom ne povlači i nužnu kompleksnost u njihovom prikupljanju i obrađivanju.
Jedini mogući ograničavajući faktor je u uočavanju takvih podataka. Osim što su takvi
podatci u velikom broju slučajeva prilično, možemo reći, „neupadljivi“ te se mogu činiti
poprilično nepotrebni i nebitni, dinamičnost okoline, konkretno promatrajući sa gledišta
prediktivnog policijskog djelovanja, zahtjeva i neprestanu potragu upravo za takvom vrstom
podataka.
Naime prosječnom podatkovnom analitičaru vremenska prognoza i kriminalne
aktivnosti su dvije poprilično nespojive stvari sve dok se nije pokazalo da visoke temperature
koreliraju s najtežim kriminalnim deliktima. Nadalje u policijskim poslovima ključna je i
proaktivnost za koju su također najbitniji relevantni pokazatelji. Neki podatci koji su bili
relevantni u neko razdoblju zbog dinamičnosti kako geografskih promjena prostora tako i
razmišljanja i prioriteta potencijalnih prestupnika, ne moraju više biti aktualni.
Problem u pronalaženju korisnik podataka tj. vodećih pokazatelja, u posljednje
vrijeme se rješava pristupom kojeg smo već dosta puta spomenuli u ovom radu, a ujedno je i
glavna filozofija Big data revolucije, a to je „po mogućnosti koristi sve podatka“. Istraživanja
su pokazala da analiza nad velikim podatkovnim serijama daje daleko bolje rezultate od
inzistiranja na kompleksnim metodama, čak se u mnogim slučajevima pokazalo da velika
podatkovna masa kompenzira i moguću irelevantnost podataka do neke mjere.
Dvojica podatkovnih analitičara Neill i Gorr činjenicu o vrijednosti velike podatkovne
mase u proaktivnom policijskom djelovanju pokazali su i praktično. U svom istraživanju
koristili su dvije skupine podataka. Jedna skupina su bili podatci o teškim kaznenim djelima, a
druga skupina su bili podatci, možemo reći potencijalnih pokazatelja, tj. podatci o manjim
prekršajima, kao što su remećenje javnog reda i mira i sl. U istraživanju skup podataka o
teškim kaznenim djelima predstavljao je skup zavisnih varijabli te su analitičari ispitivali
koliki broj tih djela je moguće bilo predvidjeti na temelju poznatih vodećih pokazatelja.
Rezultati su pokazali da je od 93 teških kaznenih djela, korištenjem vodećih podataka, bilo
42
moguće otkriti čak njih 19. Slikovito rečeno, to je kao da devetnaest puta vidimo olujni oblak
ali se ipak odlučimo ostati vani.
6.3. Vremensko prostorna analitika
Uzevši u obzir sve do sada navedeno. U segmentu vremensko prostorne analitike u
razmatranje ćemo uzeti relaciju između samog kriminalnog dijela, koji je određen već
spomenutim atributima kao što su tip, lokacija, vrijeme te otkrivena pravilnost (eng. pattern), i
atribute kojima je određena okolina unutar koje promatramo događanja. To za sobom povlači
čitav niz novih parametara kojima je okolina određena i po svojima karakteristikama
specifična u odnosu na neku drugu lokaciju (primjerice drugi grad) i kao takva utječe na
„teoretsku“ analitiku.
Ideja vremensko prostorne analitike je ove dvije navedene skupine podataka
matematičkim metodama međusobno povezati te na odgovarajući način aplicirati u praksi,
koja je uvelike diktirana podatcima koji definiraju okolinu kao takvu.
Stavke koje ulaze u grupu podataka kojima je definirana okolina su primjerice:
• trenutačno aktualni događaji (npr. koncerti, nogometne utakmice i sl.)
• godišnje doba
• vremenska prognoza
• tipovi lokacija na kojima su počinjena kaznena djela (npr. park, igralište i sl.)
• geografske veze (npr. blizu autobusne stanice, 100 metara od banke i sl.)
• demografske i ekonomske okolnosti na nekom području
Svaki podatak ima određenu vrijednost u stvaranju konačne predikcije, kao što je već
spomenuto, konačnu predikciju možemo slikovito prikazati kao lanac te naglasak nije stavljen
na svaku kariku posebno nego na skup karika, što će reći da nije toliko bitna konkretna
vrijednost jedne jedinice podatka, već je bitno da nas ta podatkovna jedinca tj. karika, vodi ka
drugom podatku koji nam je do tada možda bio nepoznat.
Uvrštavanjem ovakve vrste podataka u analizu posljedica je shvaćanja dinamičnosti
okoline u kojoj se nalazimo koja se kao takva ne može razmatrati kroz prilično statične
matematičke modele koji prvenstveno apliciraju prošla događanja. Apliciranjem podataka
43
kojima je opisana trenutna situacija a u mnogo slučajeva i situacija koja će nastupiti u bliskoj
budućnosti konačni rezultati analiza se drastično mijenjaju.
Primjerice uvrštavanjem u analizu podatak da je u tijeku nogometna utakmica u
predikciji lokacija kriminalnih djela naglasak se, osim sa poznatih lokacija već počinjenih
delikata, stavlja i na lokaciju koja se kroz prijašnja iskustva pokazala kao lokacija povezana sa
kriminalom, odnosno naglasak je stavljen na područje na kojem se kreću navijačke skupine.
Iako stvaranje ovakvih prognoza izgleda dosta komplicirano, što uistinu i je ako bih
smo tako nešto utvrđivali na „papiru“, u pozadini se nalaze najčešće jednostavne statističke
metode iz različitih oblasti statistike kao što su deskriptivna, inferencijalna i dvomjerna (eng.
bivariate statistics) statistika.
Konkretno koje će od dostupnih metoda biti iskorištene ovisi o konkretnoj situaciji i o
preferencijama analitičara. Primjerice u otkrivanju uzorka budućeg širenja kriminala,
prvenstveno pljački, autoriteti na tom području preporučuju korištenje jednostavne linearne
regresije u koju su uključene vrijednosti intervala između pojedinih pljački i vrijednost
opljačkane imovine. Suprotno tome razmišljanju pojedini analitičari pristupaju na način da u
obzir uzimaju prosječne vrijednosti mobilnosti kriminala na nekom području pa na temelju
toga određuju brzinu širenja za pojedine sektore promatranog područja.
TOPLINSKE MAPE
Kada govorimo o stvaranju bilo kakve predikcije ali i bilo kakvog plana djelovanja na
određenom geografskom prostoru, prvi korak je razmotriti ako već postoji ili stvoriti
geografsku kartu područja. U prethodnim cjelinama već smo imali priliku vidjeti kako izgleda
najčešće korišten geografski prikaz u svakodnevnom policijskom djelovanju tzv. toplinska
mapa (eng heat map). Prikaz koji smo do sada vidjeli, možemo reći da predstavlja
najjednostavniji pogled na neko područje samo kroz ništa drugo nego grafički prikaz jedne
varijable koja predstavlja broj kriminalnih incidenata u svakoj od ćelija na koje je prostor
podijeljen.
Čak i tako jednostavan prikaz, u pozadini kojeg je baza podataka koja nije ništa drugo
nego najjednostavnija Excel tablica sa podatcima od interesa, na brz i lako razumljiv način
daje hrpu korisnih informacija.
44
Uvođenjem, u ovom poglavlju razmatrane, prostorno vremenske analize u priču o
preventivnom policijskom djelovanju. U pozadini tzv. toplinskih mapa nalazi se prava baza
podataka koja sadrži velik broj atributa kojima je jednoznačno određeno svako kazneno djelo.
Kako raspolažemo čitavim nizom atributa, zaključci mogu biti raznovrsni ovisno o atributu
kojeg uzimamo u obzir. Primjerice zaključak na osnovu podataka prikupljenih od strane
Washington D.C-a je da se provale najčešće događaju u jutarnjim satima a posebice oko 7 :00
dok se pljačke najčešće događaju u večernjim satima između 20:00 i 24:00 u toku radnog
tjedna, dok tijekom vikenda najveća koncentracija pljački je između 21:00 i 4:00.
Primjenom naprednijih softverskih rješenja, zaključci mogu biti formirani i oko nekih
drugih atributa od interesa. Primjerice iz atributa o vremenu može se donijeti zaključak da u
vrijeme velikih vrućina raste broj kriminalnih aktivnosti na nekom području.
Osim egzaktnih vrijednosti atributa, najnoviji softverski alati omogućavaju, možemo
reći, analizu čitavih pod profila stvorenih na temelju iskustva i istraživanja ponašanja
određenih društvenih skupina koji su predmet promatranja. Tako da jednostavno rečeno
napredniji softverski paketi imaju sposobnost da po potrebi vrše analizu čak i na
individualnoj razini uz neupitnu relevantnost ponuđenih informacija.
ST-GAM (Spatiotemporal Generalized Additive Model)
U prethodnom poglavlju smo se dotaknuli najnovijih softverskih rješenja i njihovih
mogućnosti. ST-GAM model predstavlja glavni segment velike većine najsuvremenijih
kompleksnih metoda koje se danas koriste u praksi. Razvijen je od strane dvaju istraživača
Xiaofeng Wang-a i Donald Brown-a na Sveučilištu u Verginiji. Predstavlja svojevrsno
proširenje klasičnog mrežnog regresijskog modela, u koji se uvrštavaju prostorno-vremenski
podatci koji opisuju svaku od ćelija na koje je promatrani prostor podijeljen.
Uključivanjem prostorno-vremenskih podataka, kao što su trenutna ekonomska
situacija, geografske lokacije građevina ili infrastrukturnih postrojenja za koje praksa
pokazuje da imaju veći stupanj rizika, društvena situacija i sl. Stvara se realna slika prostora
koja u sebi sadrži ključne faktore koji su prisutni u trenutku donošenja odluke od strane
pojedinca da počini kazneno djelo. Upravo ta mogućnost stvaranja relevantne slike situacije
neposredno prije počinjenja kaznenog djela je ključ uspjeha proaktivnog djelovanja policije.
45
Za primijetiti je da se na ovaj način uključuje čitav spektar novih podataka, u stvari,
moguće je analizom obuhvatiti bilo koji podatak koji relevantno opisuje okolinu, jedini
preduvjet je da je podatak geografski određen. Geografska određenost je bitna kako bi se
podatak mogao obrađivati kroz GIS (eng. Geographic Information Systems) informacijske
sustave koima se stvara kartografski prikaz područja koji se pokazao najpogodniji u praksi.
U praksi se osim ST-GAM modela koji je dizajniran za predviđanje lokacije i vremena
kriminala za veći dio regije od interesa, također koristi i LST-GAM (eng. Local
Spatiotemporal Generalized Additive Model) model koji radi na istim principima ali definira
pater manjeg geografskog područja.
Ispitivanja ali što je još važnije, praksa je pokazala da su ova dva modela daleko
učinkovitija u odnosu na prethodno predstavljene iz razloga što se kroz modele uspjela
realizirati ideja stvarne proaktivnosti oslonjene na vremensko i prostorno određene (GIS)
podatke a ne kao što je prije slučaj bio na heuristička načela.
Analiza rizika geografskih lokacija
Analiza rizika geografskih lokacija u okvirima prostornog obuhvata koji promatramo
predstavlja skup tehnika koje imaju dva osnovna cilja: 1) izdvojiti lokacije za koje je praksa
pokazala da su direktno odnosno indirektno povezane sa kriminalnim aktivnostima i 2) na
temelju odrađenog prvog zadatka, stvoriti relevantne predikcije razine kriminaliteta u
područjima koja se nalaze blizu takvih, možemo reći, rizičnih mjesta.
Kao što smo već imali slučaj, i u ovom segmentu prediktivne analitike postoje dva
moguća pristupa. Jedan pristup je znatno jednostavniji, ali s time ponešto i ograničeniji u
okvirima nivoa relevantnosti koja se s njime postiže a predstavljen je kroz uhodana
heuristička načela, te drugi koji ima puno više potencijala što se tiče potreba u budućnosti a
zasnovan je na primjeni statističkih modela.
Pogledamo li konačni rezultat analize rizika terena, prikazan grafički, prikaz je
praktički identičan rezultatu koji je dobiven hot spot analizom, te sa stajališta krajnjeg
korisnika, koji je u ovom slučaju policijski službenik, praktički razlika niti ne postoji.
Razlika između ove dvije metode je u podatcima koji se nalaze u pozadini a u osnovi
su potpuno različiti. Hot spot metode fundamentalno spadaju u grupu klasterskih tehnika koje
u ovom slučaju na temelju klastera tj. događaja od interesa utvrđuju geografske lokacije
46
promatranih događanja koje se potom grafički prikazuju na geografskoj karti. Metode koje
ulaze u okvire analiza koje se odnose na utvrđivanje rizika promatranog područja
karakterizira klasifikacijski pristup koji procijenjeni rizik nekog područja bazira na prisutnost
lokacija okarakteriziranih kao „prijetnja“ (npr. barovi, noćni klubovi i sl.).
Heuristički pristup RT modelu
Za ovaj pristup možemo reći da oslikava aktualni način korištenja podataka. Naime u
današnje vrijeme vrijednost podataka leži u podatkovnoj cjelini, koja je sastavljena od
zasebnih podatkovnih jedinica koje bez obzira na zasebnu vrijednost, koja je najčešće
zanemariva, imaju veliku važnost u formiranju cjeline.
Takva podatkovna manipulacija upravo je najjasnije prikazana kroz ovaj model,
prvenstveno što rezultat korištenja modela ima grafičku prezentaciju kroz geografsku kartu.
Stvaranje karte nekog područja nije ništa drugo nego slaganje slojeva podataka jedan na
drugi, što u konačnici formira jedinstveni prikaz svih podataka na jednom mjestu.
U primjeni geo-informacijskih sustava (GIS) iskorišten je podatak geografske
određenosti, koji je poznat za apsolutno svaki događaj, te kao zajednički atribut povezuje
druge segmente podataka koji mogu imati posve različitu atributnu određenost .
U praksi bi to značilo da prilikom stvaranja geografske reprezentacije RT modela
najprije koristimo sloj podataka koji definiraju ćelije na koje je područje podijeljeno. Zatim na
taj sloj mreže dodajemo sloj na kojem su lokacije objekata koji predstavljaju „prijetnju“.
Slijedeći podatkovni sloj su lokacije počinjenih kriminalnih djela, te se najčešće ovisno o
njihovom broju na nekom području tj. unutar neke ćelije računa njihova koncentracija.
Kombinacijom samo ova tri sloja dobiva se prilična jasna slika situacije na nekom
području. Ovisno o tome što želimo prikazati na geografskom prikazu područja dodajemo
odnosno uklanjamo slojeve podataka. Primjerice, u gradiću Irvington (New Jersey) 2011.g.
došlo je do naglog povećanja prisutnosti vatrenog oružja na ulicama, potrebno je bilo
ustanoviti koja su to područja na kojima se sa najvećim stupnjem vjerojatnosti može očekivati
upotreba vatrenog oružja. Kombinacijom tri sloja poznatih podataka, lokacije članova bandi,
lokacije objekata u koje takav tip ljudi najčešće zalazi i područja narko kartela, dobiven je
dosta pouzdan prikaz trenutne situacije, čime je dobiven podatkovni temelj za heurističke
metode formiranja zaključaka.
47
7. PRIMJER IZ HRVATSKE
Iako je u radu naglasak stavljan na korištenje big data pristupa od strane policije, kako
bi smo spomenuli jedan ovoj tematici sličan projekt iz Hrvatske, odmaknut će mo se od teme i
upoznati se sa projektom kojeg uspješno provodi Hrvatska gorska služba spašavanja.
Naime Hrvatska gorska služba spašavanja je nositelj projekta po nazivom „Razvoj
inovativnih tehnologija u pustolovnom turizma“ financiranog sredstvima Europske unije
putem IPA programa prekogranične suradnje Hrvatska – Crna Gora. Vodeći projektni partneri
su Hrvatska gorska služba spašavanja15 (HGSS) u Republici Hrvatskoj i United Nations
Development Program (UNDP) CO Montenegro u Crnoj Gori.
Cilj projekta je, jednostavno rečeno, iskoristiti tehnološka rješenja u podizanju razine
sigurnosti u sferi pustolovnog turizma na ovim prostorima, koji je zadnjih godina doživio
procvat. Sve više turista je zainteresirano za provođenje godišnjeg odmora dalje od morske
obale, što uključuje planine, rijeke, jezera, speleo objekte, jednom riječju, geografsko
nepristupačne dijelove.
Za pokretanje projekta nije od presudne važnosti bila spomenuta geografska
nepristupačnost, već činjenica koja našu regiju stavlja u nepovoljan položaj u odnosu na
konkurente, a to je da su nam kanali „online“ distribucije i prikupljanja podataka dosta
nerazvijeni. U skladu s novim trendovima u turizmu, kroz ovaj projekt uvest će se inovacije u
kreiranju i promociji turističkih proizvoda pomoću ICT tehnologije. U okviru toga napravit će
se potpuno funkcionalan geoportal (web stranica na GIS platformi) te dvije mobilne aplikacije
koje će dovesti do lakšeg prikupljanja informacija i poboljšanja komunikacije s krajnjim
korisnicima.
Osim u ovom, trenutno aktualnom projektu, HGSS u svom radu već duže vremena
zagovara filozofiju podatkovne određenosti svih svojih aktivnosti „bilježi se doslovno svaki
korak“.
Već neko vrijeme je također aktualan projekt kartiranja planinskih dijelova Hrvatske.
Pri čemu je potrebno naglasiti, u ovom radu već nekoliko puta spomenutu činjenicu, da je
15 Hrvatska gorska služba spašavanja je nacionalna, dobrovoljna, stručna, humanitarna i nestranačka udruga javnog značaja čiji su osnovni ciljevi sprječavanje nesreća, spašavanje i pružanje prve medicinske pomoći u planini i na drugim nepristupačnim područjima.
48
konačni cilj cijele priče prikupljanja podataka stvaranje baze podataka u pozadini. Pri tome se
naravno pridržava univerzalnog pravila, „prikupi podatke po mogućnosti sve“.
Pridržavanje spomenutih pravila detaljne podatkovne određenosti, u dosta slučajeva
izgleda poprilično apsurdno i besmisleno. Primjerice izlazak kartografa na teren osim
prikupljanja GPS tragova putem GPS uređaja uključuje bilježenje najsitnijih podataka sa
terena. „Nije bitno naznačiti da je na određenoj lokaciji neka građevina, trebam znati kakve je
boje fasada“.
Koliko god to zvučalo apsurdno, još nevjerojatnije zvuče konačni rezultati koji su na
taj način ostvareni. Ne mali broj slučajeva je da su spašavatelji uspjeli „spasiti osobu“ putem
mobitela, upravo zahvaljujući ovim spomenutim krajnostima u prikupljanju podataka.
Unesrećena osoba bi samo jednim telefonskim pozivom opisala okolinu gdje se nalazi
(konkretno boju fasade) te bi spašavatelji na osnovu prikupljenih podataka u vrlo kratkom
roku utvrdili gdje se osoba nalazi te po potrebi izašli na teren ili osobu uputili na pravi put ako
se je izgubila.
U stvaranju podatkovnog prikaza područja koristi se čitav niz podataka, od vojnih
karata, satelitskih snimki, karata minsko sumnjivih područja i sl. te se ti podatci slažu jedan na
drugi. Gledajući podatke posebno malo toga se može zaključiti, dok njihovim preklapanjem
na temelju atributa geografske pozicije koja je određena geografskim koordinatama dobivamo
informacije velikog stupnja relevantnosti.
Kako slika govori više od tisuću riječi, ovdje ukratko opisano podatkovno preklapanje
možemo vidjeti na sljedećem jednostavnom primjeru.
Zamislimo situaciju da je HGSS dobio poziv od centra 112 da izađe na teren. Na
temelju poziva unesrećenog imamo pouzdanu informaciju da je osoba krenula planinarskom
stazom iz doma na Platku prema Snježniku i da se nalazi negdje na toj stazi ali ne znamo
točno gdje. Premda je to područje kvalitetno kartirano, tj. podatkovno određeno, „na stol“
stavljamo podatke koji su nam potrebni.
49
Kao prvo, spašavatelji ne moraju nužno dobro poznavati teren, pa je prvo pitanje, gdje
se točno Platak nalazi ?
slika 6 (Korištenje QGIS softverskog alata za preklapanje dvije vrste podataka)
Podatci koji su nam potrebni za odgovor na ovo pitanje su, karta Hrvatske, pri čemu su
naznačene i općine, što također može biti koristan podatak i vojna karta TK2516 koja za
trenutne potrebe akcije daje optimalnu količinu informacija, kao što se može vidjeti na slici.
Sljedeće logično pitanje je gdje se nalazi spomenuta planinarska staza.
16 Topografska karta (TK25) je osnovna službena državna karta i izrađuje se u mjerilu 1:25000. Službena državna karta kodirana je slika prirodnih i izgrađenih objekata zemljine površine koja se izrađuje za cjelokupno područje Republike Hrvatske.
50
slika 7 (Korištenje QGIS softverskog alata za preklapanje tri vrste podataka)
Odgovor na to pitanje dobivamo stavljanjem „sloja podataka“ o planinarskim stazama
na postojeća dva sloja.
Kada tako posložimo podatke imamo sve što nas zanima te možemo ljude poslati na
teren, jedino još bi bilo dobro znati da li se može barem jedan dio puta prijeći nekim
prijevoznim sredstvom. Taj podatak se nalazi u bazi podataka ili je na karti naznačen kao
oznaka klasifikacije puta prema kojoj znamo da li je put predviđen isključivo za terensko
vozilo ili je isključivo pješački ili nešto treće. Kako bi spašavatelji na terenu bili što
informiraniji u konkretnom slučaju raspolažemo i sa satelitskom snimkom područja.
51
slika 8 (Korištenje QGIS softverskog alata za preklapanje četiri vrste podataka)
Osim, možemo reći, slikovitog prikaza slaganja i povezivanja podataka, iza ovog
primjera se krije još jedna interesantna činjenica. Naime za ovaj primjer je korišteno
besplatno i svima dostupno softversko rješenje koje svatko može skinuti sa interneta. Premda
je rad u softveru poprilično jednostavan ovaj primjer ne može svatko napraviti. Postavlja se
pitanje zašto je to tako.
Na scenu stupa, već mnogo puta spomenuta u ovom radu, vrijednost podataka. Do
podataka koji su korišteni u ovom primjeru vrlo teško je doći, pa su takve podatkovne
manipulacije još uvijek u velikoj mjeri moguće samo unutar velikih tvrtki ili organizacija.
Odnos prema podatcima se s vremenom mijenja kao i zakoni kojima je uređen pristup
i korištenje istih. Pitanje je vremena kada će ovakve ali i mnogo složenije podatkovne
manipulacije biti moguće i svakom pojedincu, što će nedvojbeno utjecati, slobodno možemo
reći, na podizanje svijesti cjelokupnog društva, a razlog tomu je bolja informiranost koja stoji
iza svakog uspjeha a njena manjkavost ujedno je i razlog velikom broju neuspjeha.
52
ZAKLJUČAK
Tema razmatranja predstavlja područje koje u isto vrijeme generira, ogromni
skepticizama i veliko oduševljenje kako u znanstvenim krugovima tako i u široj javnosti.
Općenito gledano, da li će načela koje zagovara big data tehnologija pasti na plodno tlo i
zaživiti unutar neke poslovne organizacije ili neke druge organizacije kao što je policija, u
velikoj mjeri ovisi o tome kakav stav o spomenutoj tehnologiji vlada u krugovima ljudi koji o
uvođenju iste odlučuju.
Vodeći se time, slobodno možemo reći da kao i sama big data revolucija, da i njeno
prihvaćanje ovisi o informacijama, pri čemu se naglasak stavlja na cjelokupnu informacijsku
sliku a ne samo na uski segment, što je najčešći slučaj. Naime promatrajući primjerice
predmet razmatranja čisto s matematičke strane, vrlo je lako steći dojam savršenosti i
teoretske nepogrešivosti pozadinskih metoda tehnologije. Promatrajući isti slučaj sa strane
socijalnih načela društva, upravo spomenuta riječ „teoretska“ cijelu tehnologiju stavlja na
crnu listu stvari koje narušavaju ljudska prava.
Da bi smo formirali relevantnu sliku ne treba bježati od čvrstih argumenata takozvanih
pluseva i minusa koje tehnologija sa sobom donosi. Jednostavno pozitivne stvari trebamo
shvatiti kao nešto što smo uspješno apsolvirali i što je iza nas, a negativne kao poziv na stalni
tehnološki napredak. U konačnici da nema stvari s kojima nismo zadovoljni, to bi značilo da
živimo u savršenom svijetu, koji kao takav negira i potrebu za bilo kakvim napretkom.
53
Literatura
PISANA LITERATURA
1. Viktor Mayer-Schönberger and Kenneth Cukier – Big Data A Revolution That Will
Transform How We Live, Work and Think
2. Luke Harding – Snowden: Dosjei
3. Walter L. Perry, Brian Mclnnis, Carter C. Price, Susan C. Smith, John S. Hollywood
- PREDICTIVE POLICING The Role of Crime Forecasting in Law Enforcement
Operations
WEB IZVORI
4. Coursera – Big Data in Education (https://www.coursera.org/course/bigdata-edu)
8. svibnja 2014.god.
5. Google PageRank (http://www.evorion.hr/n/a/google-pagerank/) 12. svibnja 2014.god.
6. Google Ngram Viewer (https://books.google.com/ngrams) 14. svibnja 2014.god.
7. Liderpress (http://liderpress.hr/poslovna-znanja/google-europljanima-pruzio-pravo-na-
zaborav/) 8. lipnja 2014.god.
8. Wikipedija – tvrtka IBM (http://hr.wikipedia.org/wiki/IBM) 20. svibnja 2014.god.
9. Wikipedija – CAPTCHA (http://hr.wikipedia.org/wiki/Captcha) 28. svibnja 2014. god.
10. Wikipedija – tvrtka AOL (http://en.wikipedia.org/wiki/AOL) 10. lipnja 2014.god.
11. Wikipedija – projekt Tempora (http://de.wikipedia.org/wiki/Tempora)
23. lipnja 2014.god.
12. Wikipedija – optičko prepoznavanje znakova
(http://en.wikipedia.org/wiki/Optical_character_recognition) 23. lipnja 2014.god.
13. Wikipedija – ReCAPTCHA (http://en.wikipedia.org/wiki/ReCAPTCHA) 29. svibnja
2014.god.
14. Wikipedija – Nauance Communications
(http://en.wikipedia.org/wiki/Nuance_Communications) 30. svibnja 2014.god.
15. Wikipedija – GIS sustav
(http://hr.wikipedia.org/wiki/Geografski_informacijski_sustav) 20. prosinca 2014.god.
16. HGSS (http://www.gss.hr/) 22. prosinca 2014. god.
17. Geoportal (http://geoportal.dgu.hr/podaci-i-servisi/dtk25/) 27. prosinca 2014. god.
54
Summary
This paper deals with Big data technologies in predictive policing activity. It is a very
complex and comprehensive area which has been elaborated in this paper in a less complex
way. The idea was to create a view of the importance and value of data as such.
This paper has been divided into two parts. The first part is theoretical representation
of Big data technologies compared with examples from everyday life. The second part is a
concrete example of implements Big data principles in predicting policing activity.