diplomski rad otkrivanje zakonitosti u podacima u obrazovnim organizacijama

UNIVERZITET U BEOGRADU

FAKULTET ORGANIZACIONIH NAUKA

DIPLOMSKI RADTema: Otkrivanje zakonitosti u podacima u obrazovnim

organizacijama

MENTOR: STUDENT:

Doc. dr Boris Delibašić Mladen Mijatović,

261/02

BEOGRAD, 2009

SADRŽAJ:

1. UVOD..........................................................................................3

2. NASTANAK I ISTORIJSKI RAZVOJ.........................................5

2.1. DEFINICIJA OZP-A..................................................................62.2. ZADACI I FAZE OZP-A.............................................................7

3. OZP U VISOKOŠKOLSKOM OBRAZOVANJU.......................11

3.1 OTKRIVANJE ZAKONITOSTI U PODACIMA – LOGIČAN ODGOVOR NA TURBULENTNO OKRUŽENJE...........................................................113.2 PRIMERI PRIMENE OZP-A U VISOKOŠKOLSKOM OBRAZOVANJU. 123.3 PRAVCI BUDUĆEG RAZVOJA OZP-A U VISOKOŠKOLSKOM OBRAZOVANJU.............................................................................28

4. OTKRIVANJE ZAKONITOSTI U PODACIMA I VIZUELIZACIJA PODATAKA..................................................................................41

4.1 ŠTA ČINI VIZUELIZACIJU BITNOM..............................................414.2 PRIMER STUDIJE U VISOKOŠKOLSKOM OBRAZOVANJU BAZIRANE NA NAPREDNIM ALATIMA PROSTORNE VIZUELIZACIJE......................42

5. ZAKLJUČCI I BUDUĆI RAD....................................................47

6. Literatura...................................................................................49

2

1. Uvod

Razum je, od postanka sveta, najveći i neprevaziđeni dar, koji je čovek

ikada dobio. Pomoću razuma čovek opstaje, postoji, stvara i razvija se.

Znanje pak ima svoje granice, ma koliko obimno i sveobuhvatno bilo.

Razumom čovek uvek teži da, do sledećeg koraka u saznavanju, objasni

neobjašnjeno i ispuni praznine u svom znanju. Koristeći, pre svega dokaze o

zakonima prirode koje mu pruža neposredno okruženje, čovek usvaja znanje i

stiče iskustvo. Godinama i vekovima su se razvijale discipline i nauke kojima

je čovek prelazio tu granicu razumnog i saznajnog.

Preko matematike, zatim statistike a kasnije, sa razvojem računarskih

mašina, putem mašinskog učenja, data warehouse-a1 i podrške odlučivanju,

OLAP-a2, kao i povećane mogućnosti procesiranja velike količine podataka

dolazi do razvoja otkrivanja zakonitosti u podacima (OZP)3, kao discpline i

oruđa pomoću kojeg iz skupa podataka dobijamo korisne informacije.

Nastanak i razvoj OZP-a traje dvadesetak godina. Počeci se vezuju za 1989.

godinu, kada je Gregory Piatetsky-Shapiro organizovao prvu konferenciju na

temu otkrivanja znanja u bazama podataka4, koje će kasnije prerasti u

otkrivanje zakonitosti u podacima. Devedesetih godina mnoge kompanije

počinju razvoj OZP alata i standarda, pa tako na tom polju rade IBM,

Lockheed, SGI, SPSS Inc. i drugi. Danas, to je jedna od oblasti primenjene

nauke koja ima višestruku primenu, za koju su razvijeni standardi na

svetskom nivou i čiji doprinos postaje nezamenljiv u mnogim institucijama i

poljima primene. Postoje dve stvari koje su uticale na pojavu OZP-a. S jedne

strane to su stalne, nepredvidive i brze promene u okruženju organizacije i

potreba da se na njih što kvalitetnije odgovori, a OZP predviđa buduće

trendove i kretanja, dozvoljavajući da se donose proaktivne odluke, bazirane

na znanju. Sa druge strane to je pojava moćnih informacionih tehnologija koje

omogućavaju obradu podataka jer se količina podataka čuvanih u

elektronskom obliku enormno povećava u današnje vreme. Količina podataka

1 Sistemi za čuvanje i obradu velikih količina podataka, dizajnirani da, prvenstveno, omoguće formiranje izveštaja i analiza nad podacima.2 OLAP (Online analytical processing) predstavlja pristup matričnog uređivanja baze podataka koji omogućuje korisniku uvid, navigaciju, obradu i analizu višedimenzionalnim upitima nad podacima.3 Naziv “otkrivanje zakonitosti u podacima” na engleskom jeziku glasi “data mining”.4 Otkrivanje znanja u bazama podataka ili na engleskom KDD – Knowledge Discovery in Databases.

3

se duplira svakih 20 meseci, dok se broj baza podataka povećava još većim

intezitetom. Prema istraživanjima Berkli univerziteta, iz 2002. godine, procena

je bila da količina podataka koji se generišu iznosi oko jedan milion terabajta

godišnje, od kojih je velika većina u elektronskom formatu. To je značilo da je

u naredne tri godine generisano više podataka nego u čitavoj ljudskoj istoriji

do tada.

Dosta je radova objavljeno na temu OZP-a, od onih koji se bave

teorijskim osnovama do radova koji obrađuju praktičnu primenu OZP-a u

raznim sferama društvenog delovanja. Ovaj rad pokušaće da predstavi stranu

praksu u primeni OZP-a u visokoškolskim ustanovama i da tako pruži uvid u

moguće pravce razvoja njegovih aplikacija za domaće potrebe.

U nastavku, u okviru drugog poglavlja biće dati osnovni podaci o OZP-

u kao i pregled faza i zadataka OZP-a. Treće poglavlje predstavlja primere

studija i istraživanja koja su uz pomoć OZP-a vršena na nekima od stranih

univerziteta. Cilj ovoga bio je da se odgovori na pitanja zašto je potrebno

koristiti OZP i kako on može pomoći visokoškolskim ustanovama. Takođe, u

trećem poglavlju, predstavljeno je korišćenje savremenih tehnologija u

obrazovanju i aplikacija OZP-a koje će pratiti taj tehnološki napredak i

iskorišćavati sve njegove mogućnosti. Četvrto poglavlje govori o veoma

bitnom aspektu OZP-a, o vizuelizaciji podataka. Zašto je vizuelizacija bitna i

kako se praktično može primeniti, pitanja su na koja je pokušano naći

odgovore u ovom delu rada. Na kraju, peto poglavlje će sumirati zaključke do

kojih se došlo i dati pravce budućeg rada i usavršavanja ove teme.

4

2. Nastanak i istorijski razvoj

OZP se razvijao kao direktna posledica dostupnosti velikih skladišta

podataka. Prikupljanje podataka u digitalnoj formi je već šezdesetih bilo u

toku, omogućavajući u budućnosti analizu tih podataka putem računara.

Pojava relacionih baza podataka u osamdesetim zajedno sa SQL (Structured

Query Language) jezicima dozvolila je dinamičku, na-zahtev, analizu.

Devedesetih dolazi do naglog porasta broja podataka koje je moguće

procesuirati. Data warehouse (skladišta podataka) počinju da se koriste za

čuvanje istih. OZP tako postaje odgovor na izazove sa kojima se suočavamo

u obradi ogromne količine podataka. Danas je OZP disciplina koja objedinjuje

statistiku, mašinsko učenje, podršku odlučivanju, data warehouse, paralelno

procesiranje, vizuelzaciju itd. kao što vidimo na slici 2.1.

Slika 2.1

Tehnike koje su uticale

na razvoj

OZP-a, preuzeto

iz [1]

Motiva za razvoj i upotrebu OZP-a ima dosta a neki od njih su

smanjenje troškova, povećanje prihoda, otkrivanje neuobičajenih obrazaca,

automatizacija teških zadataka, otkrivanje obmana, poboljšanje iskustva

korisnika ili kupaca, predviđanje budućih trendova itd.

5

Slika 2.2

Razvoj metoda za dobijanje

informacija iz baza

podataka, preuzeto iz

[2]

2.1. Definicija OZP-a

OZP u uskom smislu znači proces sortiranja velikog broja informacija i

biranja samo relevantnih. Verovatno da nema boljeg naziva za ovaj proces od

bukvalnog prevoda engleskog naziva „data mining“ na srpski - rudarenje po

podacima. Obično se koristi za poslovne informacije i finansijske analize, ali

sve češće i od strane naučnika za izdvajanje informacija iz velikog broja

podataka generisanih u modernim eksperimentalnim i metodama

posmatranja, a u novije vreme i u bioinformatici, genetici, medicini,

bezbednosti i obrazovanju. Jedinstvenu definiciju OZP-a nećemo dati nego

ćemo umesto toga navesti nekoliko definicija koje su danas u opticaju:

“OZP je proces selekcije, klasifikacije i istraživanja velike količine

podataka da bi se otkrila pravila i veze koja su prvobitno nepoznata, sa ciljem

da se pribave jasni i korisni rezultati za vlasnika baze podataka.“ [3]

“OZP je ekstrakcija prethodno nepoznatih i potencijalno korisnih

informacija iz podataka i nauka ekstrakcije korisnih informacija iz velikog broja

podataka i baza podataka.” [4]

6

“OZP je proces pronalaženja paterna i veza u podacima. U svom

jezgru, OZP sadrži razvoj modela, koji je tipična, kompaktna reprezentacija

paterna pronađenih u podacima i primena tog modela na nove podatke.

Model se primenjuje da bismo predvideli individualno ponašanje (klasifikacija i

regresija), ponašanje segmenta populacije (klastering), odredili veze unutar

populacije (asocijacija), kao i otkrivanje atributa koji imaju najveći uticaj na

ponašanje populacije.” [5]

“OZP je proces otkrivanja smislenih korelacija, paterna i trendova

prosejavanjem velike količine uskladištenih podataka uz korišćenje

tehnologija za prepoznavanje paterna, kao i statističkih i matematičkih

tehnika.” [6]

“OZP je skup tehnika za analizu podataka, čiji je cilj da u podacima

pronađe određene zavisnosti, veze i pravila vezana za podatke i iste

protumači u novi, viši nivo kvalitetne informacije.” [7]

2.2. Zadaci i faze OZP-a

Iz definicija možemo zaključiti da je OZP proces i da je kao takav

sastavljen iz niza faza. Poznavanje svake od njih, njihovo dobro razumevanje

i izvođenje kritično je za uspešnost procesa OZP-a. Međutim da bismo bili u

stanju da to uradimo moramo se prvo upoznati i sa zadacima OZP-a. Prema

[7] najčešći i najpoznatiji zadaci OZP-a su:

1. Redukcija – smanjivanje ili izostavljanje podataka koji nisu od

značaja za istraživanje;

2. Procena – procena vrednosti određene (egzogene) promenljive

na osnovu postojećih (endogenih) promenljivih;

3. Predviđanje – slična proceni ali se koriste složenije metode

modelovanja;

4. Klasifikacija – raspoređivanje elemenata u predodređene grupe

ili klase;

7

5. Klasterovanje – stvaranje kolekcija elemenata (klastera) koji su

međusobno slični i koji su različiti u odnosu na elemente iz

drugih klastera i,

6. Asocijacija - pronalaženje pravila u bazi podataka.

Sada, kada smo saznali zadatke, možemo odrediti i koje su to faze

OZP procesa kroz koje je potrebno proći da bi smo što bolje i brže došli do

validnih, korisnih i željenih izlaznih rezultata.

U cilju standardizacije primene OZP-a od 1996. do 1998. je od strane

najuticajnijih firmi iz ove oblasti (SPSS Inc, NCR, DaimlerChrysler AG i

OHRA) stvaran CRISP-DM (Cross-Industry Standard Process for Data

Mining) kao jedinstven proces vođenja OZP-a [8]. Na slici 2.3 vidimo da se

proces sastoji iz šest faza.

Slika 2.3

Faze CRISP-

DM, preuzeto iz

[8]

Faza razumevanja poslovnog procesa (Buisness understanding phase)

se fokusira na dobro razumevanje ciljeva projekta, formulaciju ciljeva i

ograničenja u formi pogodnoj za OZP i pripremu strategije.

Faza razumevanja podataka (Data understanding phase) počinje sa

inicijalnim prikupljanjem podataka, identifikacijom problema vezanih za kvalitet

podataka, otkrivanjem prvih veza i interesantnih podskupa u podacima za

formiranje hipoteza koje se odnose na skrivene informacije.

8

Faza pripreme podataka (Data preparation phase) pokriva sve

aktivnosti vezane za formiranje konačnog seta podataka. Uključuje izbor

promenljivih i atributa koji će biti analizirani, transformaciju i čišćenje

podataka.

Faza modelovanja (Modeling phase) podrazumeva korišćenje raznih

tehnika modelovanja i podešavanje parametara modela. Obično postoji više

tehnika za isti problem i neke od njih imaju posebne zahteve po pitanju forme

podataka tako da ova faza nekada podrazumeva vraćanje na fazu pripreme

podataka.

Faza ocene (Evaluation phase) podrazumeva ocenu rezultata modela,

da li se primenom modela zaista rešavaju problemi definisani u prvoj fazi,

određuje se da li su sva bitna pitanja dovoljno razmotrena i na kraju se donosi

odluka da li će rezultati OZP-a biti korišćeni.

Faza primene rešenja (Deployment phase) je faza u kojoj se ostvaruje

korisna primena modela, jer formiranje samog modela nije i završetak rada,

modelom se dobija znanje koje dalje treba organizovati i prezentovati na

način na koji to krajnji korisnici razumeju i mogu da koriste. Ona se može

sastojati od prostog formiranja izveštaja do formiranja ponavljajućeg procesa

OZP-a. Tokom ove faze korisnik shvata svrhu primene modela.

9

Slika 2.4

Zadaci i izlazi faza

CRISP-DM

modela, preuzeto iz [8]

Na slici 2.4 boldovanim su dati zadaci svake od faza a italikom rezultati

istih.

10

3. OZP u visokoškolskom obrazovanju

OZP je disciplina koja će uskoro biti u vrhu prioriteta za istraživače i

administraciju univerziteta. Visokoškolsko obrazovanje će pronaći širu

upotrebu OZP-a nego što je ona u sferi biznisa, iz razloga što visokoškolsko

obrazovanje obuhvata tri oblasti koje OZP može značajno da unapredi i to su:

naučna istraživanja koja su vezana za stvaranje znanja, predavanja koja se

tiču prenošenja tog znanja i istraživanja vezana za donošenje odluka same

univerzitetske institucije. OZP u visokoškolskom obrazovanju se koristi pri

donošenju odluka vezanih za marketing, predviđanju vremena diplomiranja,

upisa godine, boljoj raspodeli resursa svih vrsta, unapređenju studijskih

programa, uvođenju novih smerova, predviđanju uspeha studenata itd. Ovo

su razlozi koji su otvorili jedno novo, uzbudljivo i široko područje primene

OZP-a. U ovom delu pokušaćemo predstaviti razloge koji čine OZP veoma

korisnim i atraktivnim pristupom u oblikovanju visokoškolskog obrazovanja,

upoznaćemo se sa nekim od radova iz ove oblasti i dati primere primene

drugih naprednih tehnologija sa OZP-om.

3.1 Otkrivanje zakonitosti u podacima – logičan odgovor na turbulentno

okruženje

Moderne visokoškolske ustanove funkcionišu u uslovima velike

ekspanzije u broju i raznolikosti fakulteta. Pojava privatnih fakulteta uvodi

nove igrače u sferu obrazovanja i prenosi čitavu delatnost i u polje

ekonomskog poslovanja. To znači da fakultet mora što efikasnije, efektivnije i

kvalitetnije stvarati svoj proizvod, uspešnog studenta. Pod time

podrazumevamo ceo jedan proces od povećanja broja upisnika na fakultet

putem ciljanog marketinga, preko osmišljanja i uvođenja što boljih studijskih

programa kojima će se student zadržati na istom i pomoći da se ti programi

što bolje usvoje, do ispitivanja raznih drugih aspekata studentskog ponašanja

kojima će se poboljšati njihov rad, motivisanost i količina usvojenog znanja.

Preduslov da se ovim problemima pristupi putem OZP-a je postojanje

odgovarajuće tehničke podrške.

11

Informacione tehnologije danas, u svom naglom razvoju, došle su do

tačke kada mogu da posluže kao odgovarajuća tehnička podrška procesiranju

velike količine podataka prikupljenih u fakultetskim bazama podataka o

studentima, nastavnim programima, predavačima, organizacionom i

menadžerskom osoblju i tako dalje. Ti podaci predstavljaju strateški resurs

fakulteta. Sada je znanje, koje će fakultetu pomoći da sve navedeno ostvari,

skriveno među tim podacima i moguće ga je izvući i generisati putem OZP-a.

3.2 Primeri primene OZP-a u visokoškolskom obrazovanju

Jing Luan (2001) [9] je u svojoj studiji pokušao da predvidi studente koji

će biti istrajni na studijama. Kao izlaz u svojoj studiji koristio je dve

promenljive: istrajni „P“, oni koji su upisali naredni semestar i neistrajni „NP“,

oni koji to nisu uradili. Svoje podatke podelio je na dva jednaka dela i tako

dobio trening skup podataka za validaciju rezultata i test skup podataka.

Zatim je trenirao modele sa nekoliko povezanih algoritama na tim skupovima

da identifikuje jedan ili dva modela koji su konstantno davali optimalna

predviđanja. Promenljive koje su korišćene su:

Demografske: godine, pol, nacionalnost, srednja škola, poštanski kod,

planirani fond časova rada;

Stručnost, osnovne veštine, spretnost;

Broj pohađanih kurseva po smeru i,

Broj ostvarenih poena i ocena po kursu.

Koristeći se SPSS softverom Clementine on je upotrebio Neuronske mreže

(Neural networks) i dva algoritma C5.0 i C&RT. Neuronska mreža rezultovala

je sa 61.3% tačnosti u predviđanju, takođe ni C5.0 ni C&RT nisu dali preko

65% tačnosti predviđanja tako da je bilo neophodno ispitati podatke.

Otkriveno je više karakteristika podataka koje su uticale na teškoće koje su se

pojavile, i to su bile činjenica da podaci sežu unazad više od pet godina i da

su se neki smerovi tada drugačije zvali i da su primenjivane različite

metodologije nastave kao i da studenti imaju malu lojalnost, to jest da mnogi

od njih istovremeno upisuju više koledža i prelaze sa jednog na drugi. Tada je

akcenat stavljen na predviđanje onih koji nisu istrajni jer je donešena odluka

da je bolje neke od istrajnih tretirati kao neistrajne kada se sprovodi ciljni

12

marketing nego obrnuto. Ovo je rezultiralo visokom stopom tačnosti

predviđanja i to:

Neuronska mreža 85.1% za NP (neistrajne) i 27.5% za P (istrajne).

C5.0 77.1 za NP i 45.5% za P.

C&RT 63.1% za NP i 57.2% za P.

Kao što se vidi, neuronska mreža je proizvela najbolji model ali nije proizvela

dalje informacije, ponašala se kao “crna kutija” i nikakva pravila zaključivanja

nisu otkrivena da bi se bolje shvatilo kako model radi. C5.0 je generisao i

model odlučivanja i set pravila zaključivanja. Bilo je 13 pravila za istrajne i 38

za neistrajne.

Tipično pravilo za istrajne je:

Ako je Broj pohađanih kurseva>7

i Probni status=Dobar

i Kurs primenjene umetnosti uzet=0

onda P(426, 0.743)

A za neistrajne:

Ako je Broj pohađanih kurseva>7

i Kurs osnovnih veština uzet<=1

i Probni status=Slab

i Kurs prve pomoći uzet<=0

i Istorija umetnosti>1

onda NP(104, 0.585)

Takođe veoma zanimljiv deo rada je i onaj koji objašnjava kada se koriste

nadgledani i nenadgledani algoritmi, gde se kaže da kada istraživač ima

veoma dobro znanje o domenu podataka i kada je siguran u izbor izlaznih

podataka treba koristiti nadgledane algoritme a kada to nije slučaj treba

koristiti nenadgledane algoritme. Tabela sa slike 3.2.1 daje kategorizaciju

OZP algoritama.

13

Slika 3.2.1

Kategorije OZP

algoritama preuzeto iz

[9]

Peter B. Wylie i John Samis [10] u studiji iz 2008. godine govore o

tome kako univerzitet može uštedeti u ciljnom marketingu. Zapadni univerziteti

prikupljaju priloge od diplomiranih studenata tako što šalju pisma koja

pozivaju na donaciju. Za tipičan univerzitet sa 25,000 studenata, broj

diplomaca može biti i desetostruko veći od broja upisanih. Većina univerziteta

šalje pisma redovno svim diplomiranim studentima, čak i kada oni ne

odgovore. Taj proces obično košta više od 100,000$ godišnje. Na slici 3.2.2

vidimo kolika dobit se može ostvariti ako bi koristili OZP da odredimo

diplomce kojima bi pisali i to uporedili sa rezultatima prostog pisanja svim

diplomiranim studentima.

Slika 3.2.2

Grafikon dobiti,

preuzeto iz [10]

14

Zakrivljena linija na grafikonu predstavlja optimalni nivo odgovora putem

donacija od strane diplomiranih studenata ukoliko se pisma šalju

predviđanjem potencijalnih diplomaca donatora putem OZP-a, dok je deblja

crna linija na grafiku rezultat koji je ostvaren kada su poslata pisma svim

diplomcima. U ovom slučaju, na grafiku se vidi da kada je dostignuto 30

procenata poslatih pisama populaciji predviđenoj OZP-om, 80 procenata njih

je odgovorilo donacijom.U istoj tački kada se šalju pisma celokupnoj populaciji

diplomaca stopa odgovora je samo 40 procenata, a dostiže 80 tek na 70

procenata kontaktiranih. Ako bi postavili da kontaktiranje jednog procentnog

poena populacije košta 2,500$ ušteda je (70%*2,500$)-

(30%*2,500$)=175,000$-75,000$=100,000$. Znači bez OZP-a potrošeno bi

bilo 100,000$ da bi dostigli 80% diplomaca koji odgovore na pismo putem

donacije. Luan [9] to naziva „One Percent Doctrine“(Pravilo jednog procenta),

jer na primer ako je prosečna donacija 100$, jedan procenat povećanja znači

25,000$ više na 25,000 diplomiranih studenata univerziteta. Da bi povećali

učinak slanja pisama i povećali donacije, a ujedno smanjili troškove autori su

sakupili podatke za 5 univerziteta i svakog od studenata predstavili određenim

brojem bodova koristeći standardne statističke tehnike. Nekada je broj bodova

bio baziran na samo nekoliko polja kao što su: postojanje ili nepostojanje

kućnog broja telefona u bazi podataka, postojanje ili nepostojanje e-mail

adrese u bazi, oznaka bračnog stanja, željena godina diplomiranja studenta.

Dok je u nekim slučajevima to bilo na osnovu 25 i više polja kao što su: broj

godišnjica mature na kojima su studenti bili, broj volonterskih aktivnosti posle

diplomiranja, da li je prisutno ime bračnog druga u bazi podataka, da li je

student član asocijacije diplomaca koji doniraju, poštanski kod da li postoji,

broj pogledanih e-mail poruka. Taj broj bodova po studentu nije odmah

korišćen da bi se izdvojili donatori, tako da je to pružilo priliku da se testira

njihova moć predviđanja jer broj bodova tako nije uticao na rezultate

doniranja. Zatim je urađeno sledeće:

Za svaku školu je izračunato kolike su donacije bile u periodu za koji je

rađeno bodovanje studenata (nekada je vremenski interval bio samo

par meseci, a nekada nekoliko godina).

Zabeleženo je da li je određeni student dao donaciju i kolika je ona bila.

15

Za svaki bodovni nivo izračunato je koji procenat diplomaca sa tog

nivoa je dao donaciju kao i prosečna visina donacije za taj nivo.

Za svaku od pet visokoškolskih institucija su konvertovani bodovi tako da se

dobije skala od 1 do 20 gde je svaki bodovni nivo predstavljao oko 5

procenata od uzorka za tu instituciju i zatim su na graficima predstavljeni

procenti donatora za svaki bodovni nivo. Na slikama 3.2.3a i 3.2.3b vidimo te

grafike za svaku od 5 visokoškolskih institucija.

16

Slika 3.2.3a

Pregled donacija

diplomiranih studenata (u procentima), preuzeto iz

[10]

17

Slika 3.2.3b

Pregled donacija

diplomiranih studenata (u procentima), preuzeto iz

[10]

Vidimo da kako raste broj bodova raste i procenat diplomiranih studenata iz

tih kategorija koji doniraju. Takođe na svim, sem četvrtog univerziteta, vidi se

ogromna razlika u doniranju studenata iz prvih pet, najnižih, bodovnih nivoa i

poslednjih pet, najviših. Tako najviši procenat za bodovne nivoe 1-5 iznosi

14.9% dok najniži za nivoe 16-20 iznosi 24.8%. Jedino četvrti univerzitet ima

relativno ujednačen rast donacija i visok procenat u nižim bodovnim nivoima.

Nema sumnje da je bodovanje u ovoj studiji uspelo jer su njime sa velikom

preciznošću predviđeni oni diplomci koji više doniraju, tako da ukoliko

univerziteti budu koristili ovo bodovanje pri slanju pisama ili poziva na

donaciju, moći će da fokusiraju svoje napore i resurse na diplomirane

studente u višim bodovnim nivoima. Tako će uštedeti novac i dobiti veći odziv

donacija, drugim rečima povećaće povrat investicija.

18

J. F. Superbay, J.-P. Vandamme i N. Meskens u svojoj studiji [11] iz

2006. godine pokušali su da daju odgovor na to kako predvideti studente koji

neće proći prvu godinu studija. Istraživanje je rađeno na tri Belgijska

univerziteta, na uzorku od 533 studenta. Posle analize rezultata studenata

prve godine otkriveno je da oko 60% njih padne godinu ili napusti studije.

Glavni cilj je bio da se klasifikuju studenti u tri grupe:

Nisko rizični studenti, sa velikom verovatnoćom uspeha;

Srednje rizični studenti, koji mogu uspeti ukoliko se preduzmu mere

od strane univerziteta i,

Visoko rizični studenti, koji imaju veliku verovatnoću da padnu godinu

ili napuste studije.

Kreirana je baza podataka u kojoj je svaki student opisan preko određenog

broja kriterijuma kao što su godine, nivo obrazovanja roditelja, mišljenje

studenta o univerzitetu itd. Svaki student je opisan sa 375 promenljivih od

kojih su neke dobijene putem zatvorenih upitnika poslatih studentima.

Pokušano je na osnovu ovih promenljivih da se predvidi varijabla vezana za

uspeh studenta, da se to učini što je pre moguće u školskoj godini i da se

obezbeđivanjem optimalne distribucije nastavnih resursa ograniči neuspeh

studenata. Promenljive su podeljene u 3 grupe. Prva grupa su bile one koje

se odnose na prošlost studenta (njegov identitet, socio-ekonomski status,

porodica, prethodno školovanje itd.). Druga grupa su bili faktori koji opisuju

ponašanje studenta na studijama (učestvovanje u dopunskim aktivnostima,

odlazak na konsultacije itd). Treća grupa je obuhvatala studentska shvatanja i

stavove (način na koji shvata akademske studije, profesore, kurseve itd.). Na

slici 3.2.4 vidimo vezu između proseka ocena studenta u januaru upoređene

sa uspehom na kraju godine. Lako se može primetiti razlika između dve

potpuno suprotne grupe studenata, one u kojoj su studenti čija je ukupna

ocena ispod 45% od ukupno moguće u januaru, koji su svi pali na kraju

godine (uz izuzetak dva studenta) i druge u kojoj su studenti ostvarili preko

70% od ukupne ocene u januaru, i svi su završili godinu.

19

Slika 3.2.4

Uspeh studenat

a u januaru i na kraju godine,

preuzeto iz [11]

Sledeće što je urađeno je da je konstruisana promenjliva koja će biti izlaz i

koja će opisivati zonu u kojoj se student nalazi (visok, srednji ili nizak rizik).

Sada ćemo nabrojati neke od objašnjavajućih promenljivih i njihove

korelacione koeficijente (dati u zagradama).

Iz prve grupe, faktori koji dosta utiču na uspeh, su: prosek poslednje

godine školovanja (0.337), broj časova matematike u poslednjoj godini

srednje škole (0.313), nemogućnost samostalnog finansiranja studija

(0.162), nisu pohađali kurseve ekonomije ili društvenih nauka u

srednjoj školi (0.157), nisu stariji od proseka na prvoj godini (0.157),

nepušači (0.177). Ostali faktori, kao što su pol, nivo obrazovanja

roditelja, zanimanje roditelja, broj braće ili sestara, razvedeni roditelji

itd. nisu bitno korelisani sa uspehom.

Iz druge grupe značajni su: broj časova predavanja koje pohađaju

(0.250), stalno izostajanje sa određenih predavanja (0.164), izostajanje

sa predavanja koje i većina studenata propušta (0.134), potpuno

razumevanje materije koja se izučava (0.165), neodustajanje od

gradiva koje studenta zaista zanima (0.159), shvatanje da je

neophodna izrada domaćih zadataka (0.143).

Treću grupu čine: mišljenje studenta o šansama za uspeh (0.326),

mišljenje da kurs nije previše težak (0.150), mišljenje da su loše

20

pripremljeni za studiranje (0.182), mišljenje da su napravili dobar izbor

pri upisu (0.182), dobra procena vremena potrebnog za učenje (0.159),

volja za radom u grupi pre nego samostalno (0.232).

Da bi predvideli uspeh i klasifikovali studente u jednu od tri predefinisane

kategorije koristili su stablo odlučivanja, neuronske mreže i linearnu

diskriminacionu analizu [1], [12].

Slika 3.2.5

Sumirani rezultati

klasifikacije studenata

nakon validacije nad

test delom podataka, preuzeto iz

[11]

Na slici 3.2.5 vidimo kako su pojedini algoritmi uspevali da predvide kojoj klasi

pripada određeni student. U prvoj tabeli slike 3.2.5 vidimo rezultate za stablo

odlučivanja i oni nisu posebno dobri: samo 48.65 procenta studenata prve

klase (Visok rizik) su tačno klasifikovani predviđanjem, samo 18.46 procenta

druge (Srednji rizik) i 60.34 procenta treće klase (Nizak rizik). Vidimo da je

stablo odlučivanja delimično dobro uradilo posao za dve granične klase ali je

za klasu Srednji rizik taj rezultat veoma loš (iako je to klasa koja obuhvata

najveći deo studentske populacije sa 40%, dok u klasi Visok rizik imamo 27%

i 33% u klasi Nizak rizik). Postignut je nivo ukupne tačne klasifikacije od samo

40.63%. Druga tabela slike 3.2.5 prikazuje rezultate neuronske mreže i ni oni

nisu naročito dobri ali su malo bolji od onih za stablo odlučivanja. Procenat

ukupne tačne klasifikacije dostiže 51.88%. Analizom podataka iz treće tabele

dolazi se do toga da je ukupna tačnost klasifikacije 57.35% a i pojedinačni

21

nivoi za svaku od klasa su najviši od sve tri korišćene metode. Zaključci ove

studije su bili da nivo tačnosti predviđanja koji je postignut pri validaciji

metoda nije naročit, ali da je za petinu promenljivih korišćenih u studiji

pokazano da imaju značajan uticaj na akademski uspeh. Ipak čini se da

diskriminaciona analiza, a u nešto manjoj meri i neuronske mreže, mogu

dovesti do interesantnih zaključaka, a takođe treba i povećati veličinu uzorka

u narednim ispitivanjima.

Emily H. Thomas i Nora Galambos pokušale su u svom radu [13] da

putem OZP-a daju odgovore na pitanje šta čini studente zadovoljnim, koristeći

pri tom regresionu analizu i stablo odlučivanja [12]. Ako studente smatramo

kao potrošače visokoškolskog obrazovanja, njihovo zadovoljstvo je važno za

uspeh institucije, i iz razloga što efikasne institucije treba da imaju zadovoljne

mušterije kao i iz razloga što zadovoljstvo podstiče dolazak novih mušterija.

Veličina uzorka u ovom istraživanju je bila 1698 studenata. Prikaz

studentskog mišljenja sakupio je podatke o velikom broju studentskih

karakteristika, iskustava i planova. Na primer, 44 promenljive su merile

zadovoljstvo karakteristikama univerziteta, klimatskim uslovima studentskog

doma i okolinom, kao što su: vaš osećaj pripadnosti univerzitetu, dostupnost

profesora za konsultacije i rasna tolerancija. Dok je 35 promenljivih merilo

zadovoljstvo uslugama i kapacitetima unutar studentskog doma kao što su:

biblioteka ili društvene aktivnosti fakulteta. Ovaj prikaz je uključivao i četiri

pitanja koja su pokazivala ukupno zadovoljstvo iskustvom na fakultetu:

Nagovestite vaš nivo zadovoljstva ovim fakultetom u celosti.

Ako biste mogli da ponovo upišete fakultet da li biste izabrali isti?

Koji je vaš ukupni utisak o kvalitetu obrazovanja na ovom fakultetu?

Verovatno je da ću se prebaciti na drugi fakultet ove jeseni.

Slika 3.2.6 nam pokazuje korelaciju [14] između ovih faktora.

22

Slika 3.2.6

Korelacija faktora opšteg

zadovoljstva fakultetom, preuzeto iz

[13]

Tri faktora su prilično povezani, dok verovatnoća prelaska na drugi fakultet

pokazuje slabu korelaciju sa zadovoljstvom. Da bismo razumeli zašto su

studenti različito odgovarali na pitanja o opštem zadovoljstvu fakultetom

moramo znati koja specifična iskustva prikazuju njihovi odgovori. Znajući to i

fakulteti mogu drugačije organizovati svoje prioritete da bi poboljšali

zadovoljstvo studenata. Regresiona analiza [12] je jedan od način za

identifikaciju veoma važnih uticaja, dok stablo odlučivanja nudi bogatije

objašnjenje. U model regresione analize uključeno je 17 promenljivih.

Promenljive vezane za zadovoljstvo kvalitetom obrazovanja su naročito

upečatljive. Nijedan od pokazatelja društvene integracije se ne pojavljuje

među promenljivim vezanim za zadovoljstvo kvalitetom obrazovanja, budući

da su te promenljive najvažniji pokazatelji druga dva faktora opšteg

zadovoljstva fakultetom. Verovatnoća da bi ponovo izabrali ovaj fakultet je

veoma jako uslovljena time da li je to bio njihov prvi, drugi, treći izbor.

Zadovoljstvo fakultetom u celosti jako je uslovljeno informacijama koje su

studenti prikupili pre samog upisa na fakultet, verovatno kao pokazatelj toga

koliko su ispunjena njihova očekivanja. Sa druge strane, promenljive koje su

pokazatelji mogućeg prelaska na drugi fakultet su potpuno različite od onih

vezanih za prethodna tri faktora. Te promenljive vezane su za željenu karijeru,

odsustvo određenih fakultetskih smerova i programa koje bi studenti želeli itd.

Međutim broj od 152 studenta kod kojih je primećena određena mogućnost

odlaska sa fakulteta nije bio dovoljan za ovu studiju da bi se razvio statistički

23

pouzdan model. Iz tog razloga te promenljive nisu uključene u tabelu sa slike

3.2.7.

Slika 3.2.7

Pokazatelji opšteg

zadovoljstva

fakultetom, preuzeto iz

[13]

Određeni pokazatelji zadovoljstva identifikovani u ovoj analizi nude putokaze

za razvoj programa koji će povećati to zadovoljstvo kod studenata, čime se

može poboljšati i ostvarenje ciljeva fakulteta, kao što su veći broj studenata,

njihov bolji uspeh, bolji studijski programi itd.

Regresiona analiza je identifikovala uticajne promenljive koje su najviše

povezane sa faktorima zadovoljstva dok će, nasuprot tome, stablo odlučivanja

identifikovati važne elemente studentskog iskustva koji najviše prave razliku

između zadovoljnih i nezadovoljnih. Tako, na primer, iskustvo koje najviše

razdvaja studente koji su zadovoljni kvalitetom obrazovanja od onih koji to

nisu je opažanje intelektualnog napretka. Tabela na slici 3.2.8 pokazuje

frekvenciju distribucije za prvi list stabla odlučivanja. Vidimo da je 70%

studenata odgovorilo da je kvalitet obrazovanja bio odličan (18%) ili dobar

(52%).

24

Slika 3.2.8

Veza zadovoljstva kvalitetom

obrazovanja i zapažanja

intelektualnog napretka,

preuzeto iz [13]

Međutim raspodela odgovora oko kvaliteta obrazovanja je bila veoma različita

za studente koji su prijavili visok intelektualni napredak od onih koji su prijavili

nizak. Na primer, 19% studenata su zapazili veoma velik intelektualni

napredak i ti studenti su bili veoma zadovoljni kvalitetom obrazovanja: čak

91% njih smatra da je kvalitet obrazovanja odličan (46%) ili dobar (45%). Dok

nasuprot tome, studenti koji su zapazili nizak ili nikakav intelektualni napredak

su sa samo 30% ocenili odličnim ili dobrim kvalitet obrazovanja. Algoritam

stabla odlučivanja je otkrio da nema značajnih razlika između studenata sa

niskim ili nikakvim intelektualnim napretkom pa su te dve kategorije grupisane

u jednu.

Tabela sa slike 3.2.9 pokazuje promenljive koje određuju zadovoljstvo

kvalitetom obrazovanja studenata koji su imali veoma velik intelektualni

napredak. Procenti prikazani u svakom od polja pokazuju koji deo studenata

iz te grupe je ocenio kvalitet obrazovanja kao odličan ili dobar. Tako, na

primer, među 119 studenata koji su prijavili veoma velik intelektualni napredak

i koji su takođe veoma zadovoljni kvalitetom podučavanja, njih 97% misli da je

kvalitet obrazovanja dobar ili odličan. Daljim pomeranjem kroz stablo vidimo

da je čak 100% studenata, koji su konstantno intelektualno podsticani, ocenilo

kvalitet obrazovanja kao dobar ili odličan.

25

Slika 3.2.9

Zadovoljstvo kvalitetom

obrazovanja: Studenti sa

veoma velikim intelektualnim

napretkom, preuzeto iz [13]

Nisu otkrivene nikakve značajne veze među studentima koji su manje

zadovoljni kvalitetom podučavanja, tako da ti listovi nisu imali dalja

grananja.Na slici 3.2.10 je predstavljen deo stabla odlučivanja koji pokazuje

grananja za studente koji su prijavili veliki intelektualni napredak (41% uzorka)

a na slici 3.2.11 za studente koji su prijavili nizak ili srednji intelektualni

napredak (40% uzorka).

Slika 3.2.10



velikim intelektualnim

napretkom, preuzeto iz

[13]

26

Slika 3.2.11



niskim i srednjim

intelektualnim napretkom, preuzeto iz

[13]

Sa prethodne tri slike možemo da vidimo kako različita iskustva utiču na

zadovoljstvo studenata sa različitim percepcijama intelektualnog napretka.

Vidi se da pokazatelji društvene integracije kao što je “briga za vas kao

osobu” i “osećaj pripadnosti” su mnogo važniji studentima koji su manje

akademski aktivni. Intelektualni napredak, kvalitet podučavanja i zadovoljstvo

akademskim iskustvom su promenljive koje imaju jak uticaj u regresionom

modelu i one se takođe pojavljuju i kod stabla odlučivanja kao veoma važne.

Međutim, stablo odlučivanja otkriva nove sekundarne promenljive:

intelektualnu podstaknutost za studente sa najvišim intelektualnim napretkom,

brigu o osobi i korisnost kursa za studente sa velikim intelektualnim

napretkom, veličinu nastavne grupe i osećaj pripadnosti za one sa niskim

intelektualnim napretkom.

Regresiona analiza je identifikovala veoma značajne pokazatelje za

populaciju kao celinu, dok je jedna od prednosti stabla odlučivanja njegova

mogućnost da identifikuje grupe promenljivih koje najviše utiču na podgrupe

uzorka a ne na uzorak kao celinu. Zaključci studije bili su sledeći:

Studentsko zadovoljstvo fakultetom u celosti, kvalitetom obrazovanja i

verovatnoća ponovnog izbora istog fakulteta su uslovljeni različitim

aspektima fakultetskog iskustva.

Zadovoljstvo je jako povezano sa studentskom reakcijom na

predavače.

Akademsko iskustvo i intelektualni napredak su veoma bitne

promenljive mada i osećaj pripadnosti fakultetu značajno doprinosi

ukupnom zadovoljstvu.

27

Neakademski aspekti fakulteta su bitniji studentima koji su manje

akademski angažovani.

Demografske karakteristike se nisu pojavile kao značajni pokazatelji.

Zadovoljstvo je i pod uticajem stavova o fakultetu pre upisa kao i onih

posle upisa.

Različita mišljenja o studentskom domu i njegovim servisima imaju

relativno mali uticaj.

Pojavljuje se važnost organizovanja programa koji povećavaju

društvenu integraciju novoupisanih studenata.

3.3 Pravci budućeg razvoja OZP-a u visokoškolskom obrazovanju

Razvoj čovečanstva utiče na sve pore ljudskog društva pa tako i na

visokoškolsko obrazovanje. Iako je primarna misija fakulteta - stvaranje,

očuvanje, integracija i prenošenje znanja - ostala nepromenjena, realizacija

svake od ovih uloga se drastično izmenila. U poslednje vreme, kao važne

teme, ističu se:

Važnost znanja kao ključnog faktora za bezbednost, napredak i

kvalitet života;

Globalna priroda društva;

Lakoća kojom informacione tehnologije omogućavaju brzu razmenu

informacija i,

Povećanje neformalne kolaboracije među pojedincima i ustanovama

koja zamenjuje formalne društvene strukture, među njima i fakultete.

Tako, pod uticajem informacione tehnologije, dolazimo do vremena kada se

fakulteti mogu posmatrati kao serveri znanja, koji pružaju usluge u domenu

znanja, u kojoj god formi one bile potrebne. Moguće je da će jednog dana biti

neophodno da zaposleni na fakultetu napuste svoje uloge predavača i

postanu dizajneri procesa učenja. Vekovima je intelektualni fokus fakulteta bio

njegova biblioteka, kolekcije pisanih radova koje su u sebi nosile znanja

civilizacije. Sada to znanje postoji u mnogim formama – kao tekst, grafika,

zvuk, algoritam ili virtualna simulacija – i distribuirano je širom sveta putem

mreža, dostupno gotovo svima. Danas se fakulteti sreću sa novim izazovima.

28

Kako raste potreba za visoko obrazovanim kadrovima, neke institucije

pomeraju fokus svoje delatnosti daleko od tradicionalnih geografskih oblasti

na kojima su delovale i ulaze u borbu za studente i resurse. Visokoškolsko

obrazovanje evoluira od labavo ujedinjenog sistema fakulteta i univerziteta

koji služe studentima lokalnih zajednica do industrije znanja u naglom razvoju.

I kako naše društvo postaje sve više zavisno od novih znanja, obrazovanih

ljudi i zaposlenih u obrazovanju, obrazovanje treba posmatrati kao jednu od

najaktivnijih i brzo rastućih industrija današnjeg vremena.

Prema podacima Republičkog zavoda za statistiku u Statističkom godišnjaku

Srbije za 2008. godinu u 2006/2007 školskoj godini u Srbiji je bilo 178

fakulteta i 94 više škole. Oni su organizovani unutar 14 univerziteta dok još 4

univerziteta čekaju na akreditaciju kod Republičke komisije za akreditaciju.

Postoji velika različitost u veličini, misiji, sastavu i izvorima finansiranja. U

godinama koje slede ne samo da ćemo biti svedoci pojave novih obrazovnih

ustanova, nego će doći i do toga da će neki fakulteti prestati sa radom, drugi

će se udružiti, a neki će sebi pripojiti druge. Jedno je sigurno, uspešni će

koristiti OZP.

A da bi to činili moraju se pronaći novi pravci primene OZP, koji će podržati

nove informacione tehnologije. U daljem tekstu videćemo neke od primera

primene OZP-a zajedno sa naprednim informacionim tehnologijama i time

pokazati još jednu snagu OZP-a, a to je njegova sposobnost da se prilagodi

novim uslovima i potrebama savremenog obrazovanja.

W. Hämäläinen, T.H. Laine i E. Sutinen u svom istraživanju „Data

mining in personalizing distance education courses“ [15] govore o potrebi

personalizovanja obrazovanja na daljinu koja proizilazi iz činjenice da je

potrebno nadzirati i pomagati svakom studentu posebno, nezavisno od

vremena, mesta i bilo kojih drugih ograničenja. To znači da obrazovanje na

daljinu treba da koristi OZP kako bi se mogao nadzirati proces učenja i kako

bi se mogao vršiti uticaj i promene na istom. OZP uključuje u ceo proces

ulogu eksperta, u ovom slučaju predavača, da tumači otkrića do kojih se dođe

analizom podataka sa kursa. ViSCoS (Virtual Studies of Computer Science)

program, koji je korišćen kao izvor podataka za ovo istraživanje, je program

obrazovanja na daljinu, prvobitno namenjen srednjoškolcima koji su

29

zainteresovani da obrazovanje nastave na fakultetima informacionih nauka.

Razlozi za uvođenje ovog programa 2000. godine na University of Joensuu,

Department of Computer Science, Finska, bili su sledeći:

Regrutovanje srednjoškolaca za upis na smer kompjuterskih nauka;

Stvaranje eksperimentalne platforme sa stvarnim predavačima kako

bi se ispitale mogućnosti novih tehnologija u obrazovanju i,

Privlačenje mladih ljudi izboru informacionih i komunikacionih

tehnologija kao njihove buduće karijere.

Važna uloga traženja studenata pomoću ViSCoS-a je da oni završe svoje

studije u očekivanom roku i na odgovarajući način. Međutim, kao i na svakom

programu obrazovanja na daljinu i svakom programerskom smeru, problem je

bio velik broj studenata koji odustaju. Čini se da bi bar jedan deo studenata

mogao biti zadržan, ukoliko bi se proces njihovog učenja pratio i analizirao i

time dobili podaci za ranu intervenciju. To podrazumeva model sposoban da

predvidi njihove buduće pokazatelje učinka pomoću podataka iz prethodnih

perioda vezanih za njihove uspehe, kao što su poeni sakupljeni na vežbama i

zadacima. Umesto biranja nekog ad hoc5 modela, glavni motiv ovog

istraživanja bio je konstruisanje modela na osnovu stvarnih podataka.

Autori su usvojili dualni princip deskriptivnog i predviđajućeg modelovanja koji

kombinuje paradigme OZP-a i mašinskog učenja. Ideja je bila da se u

deskriptivnoj fazi analiziraju podaci iz prethodne godine i traže veze i obrasci

kao što su korelaciona i asocijativna pravila. Ti rezultati bi bili vodič za izbor

odgovarajućeg modela i za određivanje stukture modela predviđanja. U fazi

predviđanja bi se podešavali parametri modela na osnovu ovih podataka.

Koristili su dva tipa modelovanja. Prvi je uključivao korelaciju i linearnu

regresiju a drugi asocijativna pravila i Bajesov model6.

5 Latinski pojam koji znači “za ovu svrhu” i podrazumeva rešenje za specifičan problem, koje se ne može generalizovati niti može biti prilagođeno za druge svrhe6 Thomas Bayes (1702.-1761.), Britanski matematičar i statističar.

30

Slika 3.3.1

Iterativni proces

deskriptivnog i predviđajućeg modelovanja

U konstruisanju modela korišćeni su podaci sa dva programerska kursa

(Prog1 i Prog2) koji se izučavaju putem ViSCoS programa obrazovanja na

daljinu. Podaci sadrže identifikacioni broj studenta, pol, poene na vežbama,

poene na ispitima, ukupne poene i ocene. Prikupljeni su tokom 2001/2002 i

2002/2003 školskih godina. Odabrani su sledeći atributi:

Slika 3.3.2

Atributi korišćeni u istraživanju,

preuzeto iz [15]

Kvalitativni atributi su formirani na sledeći način:

Za vežbe (A do F) malo={0,…,max/2} a mnogo={max/2+1,…,max}.

Za ukupne poene (TP1 i TP2) malo je bila vrednost kada je broj

ukupnih poena manji od 23, a mnogo svi ostali slučajevi.

31

Korelacionom analizom došlo se do rezultata sa slike 3.3.3.

Slika 3.3.3

Korelacioni koeficijenti

među atributima,

preuzeto iz [15]

Vidimo da poeni u vežbama B (Petlje i nizovi) imaju snažan uticaj na ukupan

broj poena, posebno na kursu Prog1. Dok na primer broj poena u vežbama A

(Bazične programske strukture) ima slab uticaj, verovatno iz razloga jer se

radi o najlakšim vežbama i gotovo svi studenti ih prolaze. Takođe se vidi da

vežbe E (Grafičke aplikacije) imaju veoma jak uticaj na broj poena na kursu

Prog2, što govori da rezultati studenata na sredini kursa mogu veoma pomoći

u predviđanju krajnjeg rezultata. Pol studenata nije imao značajnijeg uticaja

pa je isključen iz ove tabele (npr. njegova korelacija sa TP1/TP2 bila je 0.16).

U nastavku, na osnovu rezultata korelacione analize, je korišćena linearna

regresija za predviđanje, tj. korišćen je model višestruke linearne regresije

[16] u kojoj promenljiva koja se predviđa može zavisiti od više faktora. Na slici

3.3.4 vidimo konstruisane modele, gde nam naziv modela govori koje su

promenljive korišćene za predviđanje finalnih rezultata FR1 i FR2 (pri tom je

važilo pravilo da ako je TP>15 onda je FR=1), kao i validacione pokazatelje

modela. Kolone „Položili“ odnosno „Pali“ nam govore koliko je precizna bila

klasifikacija studenata u jedan od ta dva klastera.

Slika 3.3.4

Rezultati regresione

analize, preuzeto iz [15]

32

Vidimo da model koji uključuje samo vežbe B daje dobre rezultate predviđanja

(0.820 je tačnost za one koji će položiti i 0.560 za one koji će pasti), dok

modeli koji koriste rezultate iz vežbi E daju izuzetno dobre rezultate, kako kod

predviđanja onih koji će položiti tako i onih koji će pasti. Takođe na osnovu

poslednje dve kolone tabele izvlači se zaključak da je uticaj rezultata u

vežbama F minimalan, jer poslednja dva modela daju iste rezultate

predviđanja iako jedan od njih uključuje vežbe F a drugi ne.

Dalje u radu Hämäläinen, Laine i Sutinen koriste asocijativna pravila kao

dobar način da se ispitaju nelinearne zavisnosti među atributima. Poverenje

pravila „cf“ govori nam koliko je snažno pravilo, dok nam frekvencija ili podrška

„fr“ govori kolika je pokrivenost pravila. Na primer, asocijativno pravilo „B =

mnogo, E = mnogo, F = mnogo => FR2 = 1“ sa poverenjem c f = 0.956 i

frekvencijom fr = 0.516 govori da oko 96% studenata koji su imali „mnogo“

poena u vežbama B, E i F su prošli kurs Prog2. Takođe, frekvencija nam

govori da pravilo pokriva skoro 52% studenata. Na slici 3.3.5 su data neka od

pravila za predviđanje krajnjih rezultata. Minimalni prag frekvencije, min fr , je

određen putem X2-testa da bi se primetila samo ona pravila čija je statistička

značajnost na nivou 0.01. Ovo je bilo veoma važno jer za male količine

podataka sa nekoliko atributa frekvencija mora biti veoma visoka, da bi pravilo

imalo statističku vrednost. Za minimalno poverenje, min cf , postavljena je

vrednost 0.7.

Slika 3.3.5

Asocijativna pravila među atributima ,

preuzeto iz [15]

U nastavku, na osnovu rezultata asocijativnih pravila, koristi se Bajesov model

za predviđanje, model u kom je važila Bajesova pretpostavka da čvor list

33

zavisi samo od korenog čvora, ne i od čvorova sa njegovog nivoa. U njihovom

primeru, koreni čvor je govorio o verovatnoći polaganja/padanja kursa a

čvorovi listovi su korišćeni da ažuriraju verovatnoću kada se sakupe bodovi sa

vežbi. Konstruisana su dva modela, BM1 i BM2, svaki za po jedan od

kurseva. Strukturu modela vidimo na slici 3.3.6.

Slika 3.3.6

Struktura Bajesovih modela za

kurseve Prog1(BM1

slika a) i Prog2 (BM2 slika b) , preuzeto iz [15]

U modelu BM1 prvobitna verovatnoća prolaska kursa je postavljena na 0.5.

Uslovne verovatnoće su izračunate iz podataka pomoću formule :

(1)

i vidimo ih na slici 3.3.7.

Slika 3.3.7

Verovatnoće za Bajesove

model BM1 (slika a) i BM2

(slika b) , preuzeto iz [15]

Kada se kurs nastavio, prvenstvene verovatnoće su dopunjene novim

podacima (broju poena u vežbama A, B, C, D, E i F) pomoću Bajesovog

pravila [16], [17] i [18] :

(2)

34

Predviđanja pomoću Bajesovog modela data su na slici 3.3.8. Na početku

kursa Prog1 skoro svi studenti rade dosta vežbi i stoga se predviđa da će

položiti kurs. Međutim kada su poznati poeni sa vežbi B, predviđanja su već

veoma precizna, kako za one koji su položili tako i za one koji su pali. Poeni

sa vežbi C ne poboljšavaju rezultate predviđanja mnogo jer je samo par

studenata radilo dosta ovih vežbi. Što se tiče kursa Prog2, rezultati se mogu

predvideti odmah jer je poznat ishod kursa Prog1. Predviđanja se znatno

poboljšavaju kada su poznati rezultati sa vežbi D i E. Rezultati sa vežbi F

dovode do jednog fenomena: tačnost predviđanja opada iako imamo više

podataka. Do toga dolazi jer su vežbe E i F u snažnoj korelaciji tako da dolazi

do kršenja Bajesove pretpostavke.

Slika 3.3.8

Rezultati Bajesovih modela,

preuzeto iz [15]

Ohrabrujući rezultati ove studije su ti da je bilo moguće predvideti uspeh na

kursevima za više od 80% studenata, dok je kurs još bio u toku. Model

zasnovan na korelacijama i linearnoj regresiji je davao pesimističnija

predviđanja, tj. bolje je predviđao padanje kursa nego polaganje, dok je model

zasnovan na asocijativnim pravilima i Bajesovom modelu bio optimističniji.

Oba deskriptivna modela (korelacije i asocijacije) su otkrila statistički značajne

zavisnosti koje su kasnije mogle biti korišćene da se konstruišu modeli

predviđanja.Studija je pokušala da odgovori na probleme predviđanja

studenata koji će odustati ali isto tako može biti korišćena da predvidi

nadarene studente. Takođe njome se mogu uočiti razlike između studenata

koji odustanu i onih koji padnu na ispitu jer postoji mogućnost da te dve grupe

studenata zahtevaju različitu vrstu pomoći. Rezultati studije su pokazali

primenljivost OZP-a kako za studente, jer mogu razviti sposobnosti da

posmatraju, analiziraju i poboljšaju svoje učenje, tako i za predavače da bolje

razumeju i prate kurseve i studente na njima. Tako OZP može pomoći da se

35

proces visokoškolskog obrazovanja pomeri ka polu-automatizovanom

procesu.

Logično da se sa sve većim brojem kurseva i studija koje se odvijaju

putem interneta pojavljuje i problem varanja pri rešavanju zadataka i ispita.

Studija „Detecting cheats in online student assessments using Data Mining“

[19], urađena od strane grupe autora sa Južnoameričkih fakulteta, je pokušaj

da se pomoću OZP-a detektuje to varanje. Nove tehnologije sa sobom nose i

negativni predznak, u smislu da dozvoljavaju nalaženje novih načina varanja,

a to više nisu „prepisivanje od studenta pored“ ili „korišćenje nedozvoljenih

skripti“, nego mnogo kompleksniji načini varanja putem internet mreže. Studija

[19] pokušava da putem praćenja ponašanja studenata, u toku izrade

zadataka putem interneta, dođe do obrazaca ponašanja onih koji varaju. Prvo

je urađena analiza studentskih ličnosti, zatim je praćeno njihovo ponašanje

tokom stresnih situacija izrade zadataka kao i načini na koje studenti varaju

da bi za sebe obezbedili bolje ocene. Promenljive vezane za studenta koje su

analizirane su : prosek ocena, godine, semestar, status studenta (budžet,

samofinansiranje), smer, lične osobine, društvene aktivnosti, pretnje kaznama

itd. Ostale promenljive bile su vezane za profesore kao npr. da li su i koliko

uključeni u proces ispitivanja putem mreže; za ispite kao npr. da li su

zbunjujući, da li su odgovarajuće težine, kao i u kom su obliku dati (otvorena

pitanja, zatvorena pitanja, kviz testovi); i za tehničke detalje a to su IP adrese

sa kojih se pristupa mreži, datum i vreme pristupa, korisnička identifikacija itd.

Podaci su pribavljani putem nadzora aktivnosti na mreži i putem mrežnog

sistema testiranja. Softver koji je korišćen pri obradi podataka je Weka

(Waikato Environment for Knowledge Analysis), razvijen na University of

Waikato, Novi Zeland. Kada je decembra 2005. godine sprovedeno prvo

mrežno testiranje i kad su podaci obrađeni putem OZP-a, nisu pronađeni

nikakvi sumnjivi obrasci ponašanja koji bi ukazali na studente koji su varali.

Dva faktora su uticala na to:

Sredina u kojoj se odvijalo testiranje je bila dosta kontrolisana. To su

bile učionice u kojima su bili prisutni profesori i svi računari su bili u

okviru jedne lokalne mreže i,

36

Mala količina podataka za ispitivanje. Broj studenata koji su podvrgnuti

ovom ispitivanju je bio 97. OZP zahteva više podataka kako bi rezultati

bili pouzdani.

Međutim, ovaj rad je pokazao da OZP može biti alat za rešavanje problema

detekcije varanja kod studenata, te da se može uspešno koristiti u te svrhe.

Informacije dobijene iz takvih analiza mogu biti korišćene da se poboljša

okruženje u kom se testiranje izvodi kao i da se na studente raznim

sredstvima utiče da do varanja ne dođe.

Kako je sve češća pojava da institucije visokoškolskog obrazovanja

uspostavljaju i predavanja i učenja putem mreže, tako se razvijaju i posebni

servisi koji omogućavaju te usluge. Grupa autora u studiji [20] namenjenoj

predviđanju uspeha studenata koristi jedan od tih naprednih servisa. Radi se

o mrežnom sistemu LON-CAPA (Learning Online Network with Computer-

Assisted Personalized Approach) razvijenom na Michigan State University,

SAD, koji služi kao mrežni obrazovni sistem. Dve baze podataka su razvijene

za ovaj sistem. Prva je sadržala obrazovne resurse, kao što su web stranice,

vežbe, simulacije, zadaci, testovi i ispiti. Druga je sadržala podatke o

studentima koji su korisnici sistema. U ovoj studiji primenjen je OZP na baze

podataka sistema LON-CAPA da bi se došlo do odgovora na sledeća pitanja:

Mogu li se klasifikovati studenti? To jest, da li postoje grupe studenata

koji koriste ovaj sistem na sličan način, i ako postoje da li se za svakog

studenta može predvideti kojoj klasi pripada. Ovim informacijama se

može pomoći studentima da koriste resurse na bolji način.

Mogu li se klasifikovati problemi na koje studenti nailaze? Tako bismo

pokazali kako različite vrste problema utiču na uspeh studenata i

omogućilo bi se predavačima da razviju efikasnije i efektivnije zadatke.

Autori su se nadali da će pronaći slične obrasce korišćenja sistema i da će biti

u mogućnosti da predvide najbolje načine za dalje odvijanje nastave na

osnovu dosadašnjeg korišćenja. Kao test podaci korišćeni su podaci o 227

studenata sa kursa fizike, koji je održan na MSU u proleće 2002. godine. Ovaj

kurs je uključivao 12 domaćih zadataka sa ukupno 184 pitanja, koji su svi

rešavani putem mrežnog sistema LON-CAPA. Distribucija završnih ocena na

kraju kursa je data na slici 3.3.9.

37

Slika 3.3.9

Disribucija završnih ocena na kursu fizike

u okviru sistema LON-

CAPA, preuzeto iz [20]

Studenti se mogu grupisati na osnovu njihove završne ocene na više načina,

a u studiji su izabrana 3 sledeća:

Prema ocenama sa slike 3.3.9 u 9 klasa;

U 3 klase se studenti mogu grupisati na način da: „visoka“ klasa

predstavlja one sa ocenom od 3.5 do 4, „srednja“ one sa ocenom od 2

do 3.5 i „niska“ klasa sa studentima koji imaju ocenu manju od 2 i,

Takođe se mogu klasifikovati i u dve klase: „prošli“ gde su studenti sa

ocenom preko 2 i „pali“ gde su ocene manje ili jednake 2.

Glavni korak u klasifikaciji studenata i predviđanju njihovog učinka predstavlja

odabir promenljivih koje će se za tu klasifikaciju koristiti. Promenljive, vezane

za studente, koje su oni koristili su: ukupan broj tačnih odgovora, uspeh

rešavanja problema iz prvog pokušaja, ukupan broj pokušaja da se završi

domaći, vreme koje je utrošeno da se problem reši, uzimanje učešća u

grupnom radu u odnosu na one koji su radili samostalno, čitanje pomoćnih

materijala pre nego se pokuša izrada domaćeg, broj odustajanja od problema

u odnosu na broj studenata koji su pokušavali da urade domaći do samog

isteka vremenskog roka, vreme prvog pristupa sistemu (da li je bilo na

početku zadatka, sredinom nedelje ili u poslednjim trenucima). Za klasifikaciju

je korišćeno 6 različitih vrsta klasifikatora i to: Kvadratni Bajesov klasifikator

(Quadratic Bayesian classifier), 1-najbliži sused (1-NN) [16], k-najbliži sused

(k-NN) [16], Parzenov prozor [21], višeslojno filtriranje (MLP - multilayer

perceptron) i stablo odlučivanja. U okviru klasifikatora baziranih na stablu

odlučivanja korišćeni su: C5.0, CART, QUEST i CRUISE. Takođe je kasnije

urađena i kombinacija više klasifikatora (CMC – Combination of Multiple

Classifiers) da bi se poboljšali rezultati. Korišćen je i genetički algoritam (GA)

38

[16], [22] kako bi se optimizovale performanse pronalaženja obrazaca.

Postoje dva načina korišćenja GA od kojih jedan podrazumeva direktnu

primenu GA kao klasifikatora dok drugi koristi GA kao alat za optimizaciju

parametara drugih klasifikatora. U ovoj studiji je primenjen pristup u kom se

pomoću GA pokušava optimizovati kombinacija klasifikatora. Cilj je da se

predvide završne ocene studenata pomoću praćenja promenljivih vezanih za

studente. Rezultati klasifikacije, bez upotrebe GA, se mogu videti na slici

3.3.10. U slučaju dve klase najbolji rezultat je dao k-NN klasifikator, sa

tačnošću od 82.3%, dok kada su u pitanju tri klase ili devet klasa CART daje

najbolje rezultate. Međutim najbolje rezultate, u sva tri slučaja, je dala

kombinacija više klasifikatora ili CMC u koju su uključeni Kvadratni Bajesov

klasifikator, 1-NN, k-NN, Parzenov prozor i MLP.

Slika 3.3.10

Upoređivanje rezultata

klasifikacije bez GA, preuzeto iz

[20]

Sledila je optimizacija CMC putem GA, s tim što je iz kombinacije klasifikatora

izuzet MLP da bi se skratilo vreme izvršenja procesa, jer je MLP zahtevao oko

dva minuta vremena za izvršenje a ostala četiri klasifikatora (Kvadratni

Bajesov klasifikator, 1-NN, k-NN, Parzenov prozor) su zajedno trajala tri

sekunde.

Na slici 3.3.11 vidimo upoređenje rezultata klasifikacije putem CMC-a bez

optimizacije i sa njom.

39

Slika 3.3.11

Rezultati CMC bez

optimizacije putem GA i sa njom, preuzeto

iz [20]

Na kraju je ispitana važnost svake od promenljivih i došlo se do rezultata da

su „ukupni broj tačnih odgovora“, „dobijanje tačnog odgovora sa više od deset

pokušaja“ i „ukupan broj pokušaja“ najvažnije promenljive za klasifikaciju sa

stepenom uticaja većim od 0.9. Kao rezultat, dobijajući informacije putem

ovog istraživanja, predavači će biti u mogućnosti da rano identifikuju studente

kod kojih postoji rizik od slabih rezultata i moći će da pruže savete i pomoć na

vreme. Uspešna optimizacija klasifikacije studenata u sva tri slučaja pokazuje

prednosti korišćenja podataka sistema LON-CAPA za predviđanje konačne

ocene na osnovu promenljivih vezanih za studente i njihov rad na zadacima.

Takođe, ovakvim studijama mogu se otkriti i različiti načini i pristupi studenata

u rešavanju problema iz drugačijih oblasti (matematika, programiranje,

društvene nauke) i uočiti neke karakteristike za svaku od tih oblasti i time

shvatiti specifičnost svakog procesa pojedinačno. Kako je sve više ovakvih

kurseva i podataka dobijenih iz njih, povećavaće se i tačnost rezultata

dobijenih OZP-om.

4. Otkrivanje zakonitosti u podacima i vizuelizacija podataka

4.1 Šta čini vizuelizaciju bitnom

40

Kao veoma važan aspekt OZP javlja se činjenica da je dobijene

rezultate potrebno dobro prezentovati. Pronaći vredne informacije u podacima

je veoma težak zadatak. Moguće je sagledati samo male delove podataka,

kao što je to, na primer, slučaj sa tekstulanim vidom prezentovanja podataka

koji je težak za pregled i ograničen za prikazivanje, te kao takav čini samo

malu kap u okeanu kada imamo posla sa velikim bazama podataka. Da bi

OZP bio efikasan potrebno je da uključuje ljude u proces istraživanja

podataka i da kombinuje njihovu kreativnost, fleksibilnost i znanja sa

ogromnim skladištenim kapacitetima i proračunskim prednostima modernih

računara. Osnovna ideja vizuelizacije je da podaci budu predstavljeni u nekoj

od vizuelnih formi dozvoljavajući čoveku da dobije uvid, izvlači zaključke i

ostvari direktnu interakciju sa podacima. Prednosti koje vizuelizacija donosi

su:

Lako se obrađuju nehomogeni podaci.

Intuitivna je i ne zahteva razumevanje kompleksnih matematičkih i

statističkih algoritama i parametara.

Tehnike kojima se vizuelizacija ostvaruje mogu biti klasifikovane na sledeći

način [23] :

2D i 3D dijagrami,

Geometrijski transformisani dijagrami,

Dijagrami bazirani na sličicama,

Tačkasti dijagrami gustine i,

Napredni alati prostorne vizuelizacije.

4.2 Primer studije u visokoškolskom obrazovanju bazirane na naprednim

alatima prostorne vizuelizacije

41

U novije vreme OZP se kombinuje sa savremenim alatima vizuelizacije

podataka. Kao primer takvog istraživanja imamo studiju H. Tang-a i S.

McDonald-a [24] u kojoj se OZP integriše sa Geografskim Informacionim

Sistemom (GIS). Studija je sprovedena na Charles Sturt University u Australiji,

tačnije u regionima Viktorija (VIC)7 i Novi Južni Vels (NSW)7. Radjena je da bi

se istražila nova potencijalna tržišta za upis studenata i time maksimizovali

marketinški resursi fakulteta. Odabran je jedan od kurseva fakulteta koji

omogućava sticanje diplome u primenjenoj nauci i koji je jedinstven na tom

polju. Razlog da se odabere taj kurs bio je velika fleksibilnost upisnog

program koji je nudio studiranje na daljinu, kao i redovne i vanredne studije,

kao i činjenica da se u skorije vreme broj studenata na smeru smanjivao.

Tehnika koja je ovde korišćena je prostorni OZP koji svojim metodama

omogućava da se shvate prostorni podaci, otkriju veze među prostornim i

drugim promenljivim, uoče veze prostorne rasprostranjenosti određenog

fenomena i predvide budući trendovi tih veza. GIS omogućava da se takvi

podaci skladište, obrađuju, analiziraju i vizuelizuju. Takva upotreba GIS-a

uključuje mape rasprostranjenosti, mape prostorne klasifikacije volumetrijskih

podataka itd. Dostupnost funkcija kao što su upiti i selekcije, klasifikacija,

preklapanje mapa, mrežna analiza i kreiranje mapa, čine GIS veoma korisnim

alatom. Vizuelizacija pomoću GIS-a daje korisniku mogućnost da uvidi greške

u podacima i pomaže u vizuelnoj analizi i otkrivanju distribucije određenih

karakteristika i obrazaca ponavljanja. Studija je ciljala na pronalaženje veza

na nižim nivoima apstrakcije između upisa studenata i njihovih karakteristika,

kao, na primer, udaljenost studenta od železničke stanice manja 5km umesto

udaljenosti od 20km. Niži nivoi apstrakcije mogu otkriti specifičnije veze i to

daje korisnije i bolje informacije. Da bi efikasno pronašli veze na nižim nivoima

potrebno je postaviti visok minimum poverenja za pravilo na višim nivoima

apstrakcije i progresivno ga redukovati dok nastavljamo ka nižim nivoima.

Tako možemo izbaciti samo one promenljive koje nam nisu zanimljive na

pojedinim nivoima i ne dozvoliti da nam promaknu korisne informacije. Ovaj

proces će identifikovati veze između upisa studenata i njihovih prostornih i

demografskih karakteristika na definisanom najnižem nivou apstakcije za

7 Savezne države u okviru Australije

42

svaku od promenljivih. Tako će biti identifikovane potencijalne oblasti

studentskog tržišta i to će biti oblasti gde su sva značajna pravila prisutna.

Postoji velika količina podataka vezana za upis studenata. Podaci koji su

korisni za ovu studiju su upisni podaci studenata, podaci o popisu

stanovništva, mreža puteva i mnogi drugi. Sledeće baze podataka su

korišćene u studiji:

Upisni podaci studenata na Charles Sturt University (CSU) za godine

1999., 2000. i 2001. godinu (sa informacijama kao što su datum

rođenja, mesto stanovanja, zemlja rođenja, prethodno obrazovanje

itd.),

Podaci o popisu stanovništva iz 1996. godine,

Prostorni podaci (lokacija autoputeva, glavnih puteva i drugih klasa

putne mreže i lokacija železničkih stanica),

Lokacije drugih univerziteta i,

Statistički izveštaji i analize smerova urađene od strane samog

fakulteta za 1999. i 2000. godinu.

Promenljive koje su izabrane u ovoj studiji trebale su da prouče vezu između

upisa studenata i njihove mogućnosti putovanja, njihovog etničkog porekla i

njihovog socio-ekonomskog statusa. Slika 4.2.1 prikazuje metod korišćen da

se klasifikuju bitni atributi, baziran na različitim nivoima apstrakcije i različitom

pragu vrednosti. Za svaku promenljivu proces se ponavlja a broj ponavljanja

zavisi od minimalnog praga poverenja definisanog od strane korisnika i

stepena asocijativnih veza otkrivenih među podacima. Svako dalje

ponavljanje obezbeđuje specifičnije informacije.

43

Slika 4.2.1

Generalizacija i klasifikacija bitnih detalja podataka na

različitim nivoima,

preuzeto iz [24]

Primer proste mere dostupnosti javnih i privatnih sredstava prevoza biće

udaljenost studenata do železničkih stanica, autoputeva i udaljenost do

fakulteta i studentskog doma kroz mrežu puteva. Gotovo 100% studenata živi

u manje od 50 km udaljenosti od stanice ili autoputa, a analize studije su

klasifikovale udaljenost na različite nivoe (na primer, 10 km ili 5 km) i ispitale

njihov uticaj na upis studenata. Slika 4.2.2 prikazuje rezultate različitih nivoa

klasifikacije za udaljenost od autoputa. Isti proces može biti izveden i za druge

faktore dostupnosti sredstava prevoza (kao što je udaljenost od železničke

stanice), stoga unakrsna klasifikacija različitih promenljivih vezanih za prevoz

studenata može biti kombinovana da bi se ispitala njihova veza sa upisom

studenata. Studija je pokazala da većina studenata ima lak pristup prevoznim

sredstvima (udaljenost od stanice ili autoputa od 5 km je bila u preko 75%

slučajeva).

Slika 4.2.2

Udaljenost studenata od

autoputa, preuzeto iz

[24]

Preko 80% studenata živi na manje od 10 km udaljenosti od autoputa (viši

nivo apstrakcije; na slici 4.2.2 A) i preko 75% studenata živi na manje od 5 km

udaljenosti (niži nivo apstrakcije; na slici 4.2.2 B). Udaljenost kroz mrežu

44

puteva (najkraći put) do fakulteta i studentskog doma imao je uticaja na upis,

ali je on bio manji nego što je očekivano.

Promenljive koje su izabrane kod socio-ekonomskog statusa studenata bile

su prosečna nedeljna primanja porodice i obrazovni nivo. Preko 90%

studenata došlo je iz oblasti gde je prosek obrazovnog nivoa bio u kategoriji

‘srednji’ – sa velikom većinom ljudi koji su završili dvogodišnje visoko

školovanje ili neku od viših škola. Upisani studenti su takođe imali jaku vezu

sa prosečnim nedeljnim dohotkom porodice. Gotovo 90% njih dolazilo je iz

porodica sa srednjim dohotkom (između 500-999$).

Tako je identifikovana grupa karakteristika koje su jako povezane sa upisom

studenata. Kada su oblasti, gde te karakteristike postoje, ucrtane i na mapu

naneti preseci svih datih karakteristika, dobijeno je potencijalno tržište za

narednu godinu. Slika 4.2.3 ilustruje potencijalne marketinške oblasti za 2000.

godinu koristeći podatke sa upisa studenata iz 1999. godine.

Slika 4.2.3

Marketinške oblasti za

upis studenata na

CSU, preuzeto iz

[24]

Istorijski podaci mogu biti korišćeni da se proveri stabilnost predviđenih

rezultata kao i primenjene metodologije, te da se vrše određene ispravke

modela. Kada su upoređene stvarne lokacije studenata koji su upisali CSU

2000. godine sa onim predviđenim studijom na osnovu podataka upisa za

1999. došlo se do rezultata da je 50% studenata bilo iz oblasti koje su

predviđene i u studiji. Stvarni rezultati upisa za 2001. godinu poklapali su se

sa onim iz predviđanja putem podataka iz prethodne godine sa preko 56%.

Na slici 4.2.4 imamo stvarne podatke upisa studenata upoređene sa

predviđenim potencijalnim marketinškim oblastima definisanim pomoću

45

podataka iz prethodne godine. Može se reći da su predviđanja blizu realnosti i

da daju prilično tačne nagoveštaje izvora budućih studenata. Tako je ova

metodologija dokazala da je u stanju da predvidi značajan broj upisanih

studenata.

Slika 4.2.4

Stvarni podaci u

odnosu na potencijalna

tržišta definisana na

osnovu podataka za prethodnu

godinu

A-2000. god.

B-2001. god. ,

preuzeto iz [24]

Dalje je otkriveno da oko 50% studenata ne dolazi iz oblasti koje su imale

upisane studente u prethodnoj godini, iako su te oblasti i dalje predviđene kao

potencijalna tržišta. To dokazuje da je izvor studenata dinamička kategorija ali

da ipak može biti predviđen, a takođe može se i istraživati njegova dinamička

priroda i predvideti budući trendovi.

Tako ova studija može biti korišćena da se:

Otkriju veze među promenljivim na različitim nivoima apstrakcije,

Definišu potencijalna tržišta novih studenata i,

Predvide budući trendovi upisa.

5. Zaključci i budući rad

Da li smo sada bliže odgovoru na pitanje: Da li OZP zaista funckioniše

u visokoškolskom obrazovanju? Nadamo se da je tako i da je odgovor na to

46

pitanje potvrdan. U radu su predstavljena neka od istraživanja primene OZP-a

u obrazovanju. Fokus tih istraživanja je dosta varirao, od onih koja su

usmerena na zadovoljstvo studenata do pokušaja da se putem OZP-a gradi

nastavni plan i program. To dokazuje koliko je OZP univerzalan pristup

rešavanju problema i koliko je širok domen njegove primene. Neka od ovih

istraživanja primenljiva su i u domaćim obrazovnim institucijama. Uslov za

njihovo sprovođenje je postojanje što obuhvatnijih baza podataka, kao i

poznavanje metoda, tehnika i alata OZP-a. Još jedan veoma bitan faktor za

uspešnost OZP-a je proces modelovanja, jer slaba je korist od izvrsne baze

podataka ili najsavremenijeg softvera i hardvera ako se konstruiše

neodgovarajući model. George E. P. Box8 je rekao: „Svi modeli su netačni, ali

neki su korisni“, i baš povećanje te korisnosti jeste naš zadatak pri

modelovanju.

U radu su predstavljeni i neki veoma korisni i napredni sistemi,

primenjeni u inostranoj obrazovnoj praksi, koje bi bilo korisno pokušati

implementirati i kod nas. Tu prvenstveno mislimo na ViSCoS i LON-CAPA,

čija bi primena otvorila nove mogućnosti i domaćim obrazovnim institucijama.

Ovaj rad napisan je da bi se predstavile sve mogućnosti i koristi koje se

mogu dobiti primenom OZP-a, međutim da bi se do njih došlo potrebno je

poboljšanja hardvera i softvera ali i ljudskih resursa neophodnih da bi se

promene dogodile. William Mitchell, sa MIT univeziteta, kaže da su

„informacioni ekosistemi divlja područja koja proizvode neprekidne mutacije i

brzo eliminišu one koji nisu u mogućnosti da se adaptiraju i takmiče. Pravi

izazov nije tehnologija, nego osmišljanje i stvaranje digitalnog okruženja za

one vrste života i zajednica kojima težimo“[25]. Tako da je veoma važno da se

ispitivanja ove i drugih novih tehnologija što pre sprovode, da ne bismo došli u

situaciju da odlučujemo kako da koristimo OZP a da pritom ne razumemo

posledice naših odluka. Cilj ovog rada bi bio ostvaren ukoliko bi on

predstavljao začetak takvih istraživanja u našoj zemlji.

Budući rad i dalja istraživanja na ovu temu sprovela bi se u pravcu

ulaženja u teorijske osnove pomenutih metoda, tehnika i algoritama, kako bi

se oni što bolje objasnili i shvatila suština jer ovde primenjen prikaz daje ulaze

i izlaze iz sistema i modela dok je način rada tih sistema i modela nepoznat,

8 George Edward Pelham Box (1919- ), jedan od najpoznatijih i najuticajnijih statističara dvadesetog veka.

47

što je poznato kao fenomen „crne kutije“. Takođe planiralo bi se i sprovođenje

praktične studije primene OZP-a na nekom od domaćih fakulteta sa

korišćenjem ovde opisane CRISP-DM metodologije kao i nekih od pomenutih

algoritama i alata.

6. Literatura

[1] Brazilian Journal of Oceanography, vol. 56, No. 1, januar/march 2008,

http://www.scielo.br, pristupljeno decembra 2008.

48

[2] ICS, http://www.thebiexperts.com/offerings/consultancy/data_mining.html,

pristupljeno decembra 2008.

[3] Paolo Giudici : "Applied Data Mining : Statistical Methods for Business and

Industry" John Wiley & Sons Inc, 2003.

[4] W. Frawley, G. Piatetsky-Shapiro and C. Matheus : “Knowledge Discovery

in Databases: An Overview” , AI Magazine, 1992.

[5] Mark F. Hornick, Erik Marcade and Sunil Venkayala : “Java Data Mining:

Strategy, Standard, and Practice”, Morgan Kaufmann Publishers, 2007.

[6] Gartner Group, http://www.gartner.com/Glossary , pristupljeno novembra

2008.

[7] Darko Krulj, Milija Suknović, Milutin Čupić i Milan Martić : “Primena

algoritama data mining-a u poslovnom odlučivanju”

[8] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas

Reinartz, Colin Shearer and Rudiger Wirth : “CRISP-DM 1.0 Step-by-step

data mining guide”, SPSS Inc., 2000.

[9] Jing Luan : “Data Mining as Driven by Knowledge Management in Higher

Education”, SPSS Public Conference, UCSF, 2001.

[10] Peter B. Wylie and John Samis : “Does Data Mining Really Work for

Higher Education Fundraising”, CASE Books, 2008.

[11] J. F. Superbay, J.-P. Vandamme and N. Meskens : “Determination of

factors influencing the achievement of the first-year university students using

data mining methods“, 2006.

49

http://www.gartner.com/Glossary

[12] Mehmed Kantardžić : “Data Mining: Concepts, Models, Methods and

Algorithms”, John Wiley & Sons Inc, 2003.

[13] Emily H. Thomas and Nora Galambos : „Research in Higher Education :

What Satisfies Students? Mining Student-Opinion Data with Regression and

Decision Tree Analysis“, Human Sciences Press Inc., maj 2004.

[14] Bruce Thompson : “Correlation analysis: uses and interpretation”, Sage,

1984.

[15] W. Hämäläinen, T.H. Laine and E. Sutinen : „Data mining in personalizing

distance education courses“, Witpress, 2004.

[16] J. Han and M. Kamber : “Data Mining: Concepts and Techniques”,

Morgan Kaufmann Publishers, 2000.

[17] J. K. Ghosh, M. Delampady and T. Samanta : “An Introduction to

Bayesian Analysis: Theory and Methods”, Springer, 2006.

[18] A. Gelman, J. B. Carlin, H. S. Stern and D. B. Rubin : “Bayesian Data

Analysis”, CRC Press, 2004.

[19] José-Alberto Hernández, Alberto Ochoa, Jaime Muñoz and Genadiy

Burlak : „Detecting cheats in online student assessments using Data Mining“,

Proceedings for 2006 International Conference on Data Mining, DMIN’06, 26.-

29. jun 2006., Las Vegas, USA.

[20] B.M. Bidgoli, Deborah A. Kashy, Gerd Kortemeyer and William F. Punch :

„Predicting student performance : An application of Data Mining methods with

the educational web-based system LON-CAPA“, 33rd Frontiers in Education

Conference, 5.-8. novembar 2003., Volume 1, pages 13-18.

[21] J. P. Marques de Sa : “Pattern Recognition”, Springer, 2001.

50

[22] Daniel T. Larose : “Data mining – Methods and Models”, John Wiley &

Sons, 2006., strane 240.-265.

[23] Daniel A. Keim : “Information Visualization and Visual Data Mining”, IEEE

Transactions On Visualization And Computer Graphics, Vol. 8, No. 1, januar-

mart 2002

[24] Hong Tang and Simon McDonald : “Integrating GIS and spatial data

mining technique for target marketing of university courses”, Symposium on

Geospatial Theory, Processing and Applications, Ottawa 2002.

[25] William Mitchell: “City of Bits”, M.I.T. Press, Cambridge, 1995.

51

diplomski rad otkrivanje zakonitosti u podacima u obrazovnim organizacijama

Documents