kurasova, olga ; marcinkevičius, virginijus ; medvedev, viktor ; rapečka, aurimas „duomenų...
Post on 21-Jun-2015
381 Views
Preview:
DESCRIPTION
TRANSCRIPT
Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis
Viktor Medvedev
Vilniaus universitetas Matematikos ir informatikos institutas
viktor.medvedev@mii.vu.lt
Kompiuterininkų dienos – 2013, Šiauliai
Bendraautoriai
• Olga Kurasova, Olga.Kurasova@mii.vu.lt• Virginijus Marcinkevičius, Virginijus.Marcinkevicius@mii.vu.lt• Aurimas Rapečka, Aurimas.Rapecka@mii.vu.lt
Šis tyrimas atliktas Europos socialinio fondo finansuojamo projekto „Paslaugų interneto technologijų kūrimo ir panaudojimo našių skaičiavimų platformose teoriniai ir inžineriniai aspektai“ (Nr. VP1-3.1-ŠMM-08-K-01-010) lėšomis.
Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis
• Tyrimo objektas – duomenų tyrybos sistemos, pagrįstos saityno paslaugomis
• Tyrimo metodika – analizuojamų sistemų lyginamoji analizė.
• Tikslas – apžvelgti esamas duomenų tyrybos sistemas, pagrįstas saityno paslaugomis; parinkti kriterijus, pagal kuriuos atlikti šių sistemų lyginamąją analizę, ir išryškinti lyginamų sistemų privalumus ir trūkumus.
Atlikta sistemų lyginamoji analizė bus naudinga kuriant naują duomenų tyrybos sistemą.
Duomenų tyryba• Duomenų tyryba (angl. data mining) yra svarbi žinių
radimo duomenų bazėse proceso dalis. • Kurį laiką tyrimai buvo nukreipti į duomenų tyrybos metodų
kūrimą ir jų taikymą. • Duomenų tyrybos sistemos kuriamos naudojant paslaugų
architektūrą (angl. Service-Oriented Architecture, SOA).
Duomenų tyryba• Yra bandymų sukurti duomenų tyrybos algoritmus, kaip
saityno paslaugas, kurios gali būti panaudotos kitose sistemose, praplečiant jų galimybes be papildomo programavimo.
• Aktuali duomenų tyrybos problema – didelių apimčių duomenų analizė, reikalaujanti ne tik specialių algoritmų, bet ir naujų technologijų.
Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis
Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis
Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis
Pagrindinės sąvokos• Paslaugų architektūra (angl. Service-Oriented
Architecture, SOA) – Išskirstytos sistemos architektūra, kai visos esybės (programiniai komponentai) yra paslaugos ir visos matomos operacijos yra keitimosi pranešimais rezultatas.
• Visos SOA sąsajos yra apibrėžiamos nepriklausomai viena nuo kitos realizacijos ir nepriklausomai nuo realizavimo platformų; SOA paslaugos gali būti iškviečiamos dinamiškai.
Pagrindinės sąvokos• Saityno paslaugos (angl. web services) – standartizuota
saityno taikomųjų programų paslauga, sukurta remiantis atviraisiais interneto standartais: – XML (duomenims žymėti), – SOAP (duomenims siųsti), – WSDL (paslaugoms aprašyti), – UDDI (paslaugų žinynams, viešiesiems registrams
sudaryti) ir atitinkanti paslaugomis grindžiamą architektūrą.
Pagrindinės sąvokos• Saityno paslaugos (angl. web services) – standartizuota
saityno taikomųjų programų paslauga, sukurta remiantis atviraisiais interneto standartais: – XML (duomenims žymėti), – SOAP (duomenims siųsti), – WSDL (paslaugoms aprašyti), – UDDI (paslaugų žinynams, viešiesiems registrams
sudaryti) ir atitinkanti paslaugomis grindžiamą architektūrą.
• Saityno paslaugos – protokolų ir standartų rinkinys, naudojamas duomenų apsikeitimui tarp aplikacijų ir sistemų.
Pagrindinės sąvokos• Saityno paslaugų apibrėžimo kalba (angl. Web Service
Definition Language, WSDL) – saityno paslaugų aprašymo kalba, kuri yra pagrįsta XML technologija ir leidžia aprašyti saityno paslaugas.
Darbų sekos (Workflows)
Saityno paslaugų realizavimo technologijos
• SOAP (Service Oriented Architecture Protocol) Microsoft• REST (Representational State Transfer)
Duomenų saugumas
Produktyvumas
Paprastumas
Jungiamumas
Palaikymas
Patikimumas
Lankstumas
SOAP
RESTful
Saugumas
Saityno paslaugų realizavimo technologijos
• SOAP (Service Oriented Architecture Protocol) Microsoft• REST (Representational State Transfer)
Rest
Saityno paslaugų architektūra
• Kuriant saityno paslaugas ir naudojant paslaugų stiliaus architektūrą dalyvauja trys veikėjai: – paslaugų registras, – paslaugų tiekėjas,– paslaugų užsakovas.
Saityno paslaugų architektūra
Paslaugų tiekėjas
Paslaugų užsakovas
Paslaugų registras
Sąsaja
Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis
• Weka4WS - Weka sistemos praplėtimas• Orange4WS – Orange sistemos praplėtimas• KNIME - įgyvendintas saityno paslaugų klientas• ClowdFlows - duomenų tyrybos saityno programos, kurios
naudojamos ir valdomos interneto naršykle• Taverna - darbų sekų valdymo sistema • DAME (DAta Mining & Exploration)- paskirstytos duomenų
tyrybos infrastruktūra, skirta didelės apimties duomenims analizuoti
Weka4WS
Orange4WS
KNIME
Taverna
ClowdFlows
Sistemų lyginimo kriterijaiKriterijus Galimos reikšmės
Informacijos perdavimo tarp saityno paslaugų būdas
SOAP,RESTful
Operacinės sistemos MS Windows,Linux,Mac OS X
Praplečiamumas Taip / Ne
Darbų sekos (Workflows) Taip / Ne
Saityno programa Taip / Ne
Duomenų tyrybos metodai klasifikavimo, grupavimo, asociatyvių taisyklių,teksto tyryba
Duomenų tyrybos sistemų palyginimas
Kriterijai
Sistemos
Inform. perdavim
as
Operacinės sistemos Pr
aplečiamumas
Darbų sekos
Saityno
programa
Duomenų tyryba
VisoSOAP
RESTful
MS Win
Linux
Mac OS X
Klasifika-vimo
Grupa- vi
mo
asociat. taisyklių
teksto tyryba
Weka4WS + – + + – – + – + + + – 7
Orange4WS + – + + + + + – + + + – 9
KNIME + – + + + + + – + + + + 10
ClowdFlows + – + + + + + + + + – + 10
Taverna + + + + + + + – –* –* –* –* 7
DAME – + + + + – – + + + – – 7
Viso 5 2 6 6 5 4 5 2 5 5 3 2
•Weka4WS, Orange4WS, KNIME, ClowdFlows: sistemose saityno paslaugos sukurtos naudojant tik SOAP informacijos perdavimo būdą. •DAME sistemoje naudojamas RESTful• Taverna galima įkelti SOAP ir RESTful saityno paslaugas.
Duomenų tyrybos sistemų palyginimas
• Visos sistemos veikia MS Windows ir Linux operacinėse sistemose, o Mac OS X sistemoje neveikia tik Weka4WS. • Orange4Ws, KNIME, ClowdFlows ir Taverna sistemose yra įgyvendinta galimybė įkelti kitur sukurtas (išorines) saityno paslaugas be papildomo programavimo. • Darbų sekos įgyvendintos visose tirtose sistemose, išskyrus DAME. • ClowdFlows ir DAME yra saityno programos.
Duomenų tyrybos sistemų palyginimas
• Visos keturios duomenų tyrybos metodų grupės (klasifikavimas, grupavimas, asociatyvios taisyklės bei teksto tyryba) yra įgyvendintos tik KNIME sistemose. ClowdFlows sistemoje kol kas nėra įgyvendinti asociatyvių taisyklių sudarymo algoritmai. • Taverna sistemoje nėra nei vieno duomenų tyrybos metodo, tačiau yra galimybė prijungti kitur sukurtas duomenų tyrybos paslaugas.• DAME yra įgyvendinti keli klasifikavimo ir grupavimo metodai.
Duomenų tyrybos sistemų palyginimas
• Pagal atliktus vertinimus didžiausiais balais įvertintos KNIME ir ClowdFlows sistemos (10 iš 12 galimų). • ClowdFlows sistemos pranašumas yra tas, kad ji yra naudojama ir valdoma interneto naršykle. Be to ji intensyviai tebevystoma, todėl ateityje tikėtinas dar didesnis funkcionalumas.
Duomenų tyrybos sistemų palyginimas
• Yra kuriamos sistemos, pagrįstos saityno paslaugomis, tačiau wsdl failai yra neprieinami (pvz, FAEHIM).• Biocatalogue (http://www.biocatalogue.org/services) - saityno paslaugų telkinys, tačiau saityno paslaugų duomenų tyrybai jame nėra.• Sistemos, pagrįstos saityno paslaugomis, yra kuriamos gavus papildomą finansavimą. Pasibaigus projektui, sistemos toliau nebevystomos.
Problemos
Išvados
• Darbe parinkti kriterijai, pagal kuriuos palygintos kelios saityno paslaugomis pagrįstos sistemos. • Lyginamoji analizė parodė, kad pagal vertinamus kriterijus aukščiausiai įvertintos KNIME ir ClowdFlows sistemos. • Atliktos lyginamosios analizės rezultatai bus panaudoti kuriant naują duomenų tyrybos sistemą, pagrįstą saityno paslaugomis.
Ačiū už dėmesį
top related