kurasova, olga ; marcinkevičius, virginijus ; medvedev, viktor ; rapečka, aurimas „duomenų...

Post on 21-Jun-2015

381 Views

Category:

Documents

5 Downloads

Preview:

Click to see full reader

DESCRIPTION

Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Duomenų tyryba ir jos taikymai“, „Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-20

TRANSCRIPT

Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

Viktor Medvedev

Vilniaus universitetas Matematikos ir informatikos institutas

viktor.medvedev@mii.vu.lt

Kompiuterininkų dienos – 2013, Šiauliai

Bendraautoriai

• Olga Kurasova, Olga.Kurasova@mii.vu.lt• Virginijus Marcinkevičius, Virginijus.Marcinkevicius@mii.vu.lt• Aurimas Rapečka, Aurimas.Rapecka@mii.vu.lt

Šis tyrimas atliktas Europos socialinio fondo finansuojamo projekto „Paslaugų interneto technologijų kūrimo ir panaudojimo našių skaičiavimų platformose teoriniai ir inžineriniai aspektai“ (Nr. VP1-3.1-ŠMM-08-K-01-010) lėšomis.

Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

• Tyrimo objektas – duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

• Tyrimo metodika – analizuojamų sistemų lyginamoji analizė.

• Tikslas – apžvelgti esamas duomenų tyrybos sistemas, pagrįstas saityno paslaugomis; parinkti kriterijus, pagal kuriuos atlikti šių sistemų lyginamąją analizę, ir išryškinti lyginamų sistemų privalumus ir trūkumus.

Atlikta sistemų lyginamoji analizė bus naudinga kuriant naują duomenų tyrybos sistemą.

Duomenų tyryba• Duomenų tyryba (angl. data mining) yra svarbi žinių

radimo duomenų bazėse proceso dalis. • Kurį laiką tyrimai buvo nukreipti į duomenų tyrybos metodų

kūrimą ir jų taikymą. • Duomenų tyrybos sistemos kuriamos naudojant paslaugų

architektūrą (angl. Service-Oriented Architecture, SOA).

Duomenų tyryba• Yra bandymų sukurti duomenų tyrybos algoritmus, kaip

saityno paslaugas, kurios gali būti panaudotos kitose sistemose, praplečiant jų galimybes be papildomo programavimo.

• Aktuali duomenų tyrybos problema – didelių apimčių duomenų analizė, reikalaujanti ne tik specialių algoritmų, bet ir naujų technologijų.

Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

Pagrindinės sąvokos• Paslaugų architektūra (angl. Service-Oriented

Architecture, SOA) – Išskirstytos sistemos architektūra, kai visos esybės (programiniai komponentai) yra paslaugos ir visos matomos operacijos yra keitimosi pranešimais rezultatas.

• Visos SOA sąsajos yra apibrėžiamos nepriklausomai viena nuo kitos realizacijos ir nepriklausomai nuo realizavimo platformų; SOA paslaugos gali būti iškviečiamos dinamiškai.

Pagrindinės sąvokos• Saityno paslaugos (angl. web services) – standartizuota

saityno taikomųjų programų paslauga, sukurta remiantis atviraisiais interneto standartais: – XML (duomenims žymėti), – SOAP (duomenims siųsti), – WSDL (paslaugoms aprašyti), – UDDI (paslaugų žinynams, viešiesiems registrams

sudaryti) ir atitinkanti paslaugomis grindžiamą architektūrą.

Pagrindinės sąvokos• Saityno paslaugos (angl. web services) – standartizuota

saityno taikomųjų programų paslauga, sukurta remiantis atviraisiais interneto standartais: – XML (duomenims žymėti), – SOAP (duomenims siųsti), – WSDL (paslaugoms aprašyti), – UDDI (paslaugų žinynams, viešiesiems registrams

sudaryti) ir atitinkanti paslaugomis grindžiamą architektūrą.

• Saityno paslaugos – protokolų ir standartų rinkinys, naudojamas duomenų apsikeitimui tarp aplikacijų ir sistemų.

Pagrindinės sąvokos• Saityno paslaugų apibrėžimo kalba (angl. Web Service

Definition Language, WSDL) – saityno paslaugų aprašymo kalba, kuri yra pagrįsta XML technologija ir leidžia aprašyti saityno paslaugas.

Darbų sekos (Workflows)

Saityno paslaugų realizavimo technologijos

• SOAP (Service Oriented Architecture Protocol) Microsoft• REST (Representational State Transfer)

Duomenų saugumas

Produktyvumas

Paprastumas

Jungiamumas

Palaikymas

Patikimumas

Lankstumas

SOAP

RESTful

Saugumas

Saityno paslaugų realizavimo technologijos

• SOAP (Service Oriented Architecture Protocol) Microsoft• REST (Representational State Transfer)

Rest

Saityno paslaugų architektūra

• Kuriant saityno paslaugas ir naudojant paslaugų stiliaus architektūrą dalyvauja trys veikėjai: – paslaugų registras, – paslaugų tiekėjas,– paslaugų užsakovas.

Saityno paslaugų architektūra

Paslaugų tiekėjas

Paslaugų užsakovas

Paslaugų registras

Sąsaja

Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis

• Weka4WS - Weka sistemos praplėtimas• Orange4WS – Orange sistemos praplėtimas• KNIME - įgyvendintas saityno paslaugų klientas• ClowdFlows - duomenų tyrybos saityno programos, kurios

naudojamos ir valdomos interneto naršykle• Taverna - darbų sekų valdymo sistema • DAME (DAta Mining & Exploration)- paskirstytos duomenų

tyrybos infrastruktūra, skirta didelės apimties duomenims analizuoti

Weka4WS

Orange4WS

KNIME

Taverna

ClowdFlows

Sistemų lyginimo kriterijaiKriterijus Galimos reikšmės

Informacijos perdavimo tarp saityno paslaugų būdas

SOAP,RESTful

Operacinės sistemos MS Windows,Linux,Mac OS X

Praplečiamumas Taip / Ne

Darbų sekos (Workflows) Taip / Ne

Saityno programa Taip / Ne

Duomenų tyrybos metodai klasifikavimo, grupavimo, asociatyvių taisyklių,teksto tyryba

Duomenų tyrybos sistemų palyginimas

Kriterijai

   

Sistemos 

Inform. perdavim

as

Operacinės sistemos Pr

aplečiamumas

Darbų sekos

Saityno

programa

Duomenų tyryba

VisoSOAP

RESTful

MS Win

Linux

Mac OS X

Klasifika-vimo

Grupa- vi

mo

asociat. taisyklių

teksto tyryba

Weka4WS + – + + – – + – + + + – 7

Orange4WS + – + + + + + – + + + – 9

KNIME + – + + + + + – + + + + 10

ClowdFlows + – + + + + + + + + – + 10

Taverna + + + + + + + – –* –* –* –* 7

DAME – + + + + – – + + + – – 7

Viso 5 2 6 6 5 4 5 2 5 5 3 2  

•Weka4WS, Orange4WS, KNIME, ClowdFlows: sistemose saityno paslaugos sukurtos naudojant tik SOAP informacijos perdavimo būdą. •DAME sistemoje naudojamas RESTful• Taverna galima įkelti SOAP ir RESTful saityno paslaugas.

Duomenų tyrybos sistemų palyginimas

• Visos sistemos veikia MS Windows ir Linux operacinėse sistemose, o Mac OS X sistemoje neveikia tik Weka4WS. • Orange4Ws, KNIME, ClowdFlows ir Taverna sistemose yra įgyvendinta galimybė įkelti kitur sukurtas (išorines) saityno paslaugas be papildomo programavimo. • Darbų sekos įgyvendintos visose tirtose sistemose, išskyrus DAME. • ClowdFlows ir DAME yra saityno programos.

Duomenų tyrybos sistemų palyginimas

• Visos keturios duomenų tyrybos metodų grupės (klasifikavimas, grupavimas, asociatyvios taisyklės bei teksto tyryba) yra įgyvendintos tik KNIME sistemose. ClowdFlows sistemoje kol kas nėra įgyvendinti asociatyvių taisyklių sudarymo algoritmai. • Taverna sistemoje nėra nei vieno duomenų tyrybos metodo, tačiau yra galimybė prijungti kitur sukurtas duomenų tyrybos paslaugas.• DAME yra įgyvendinti keli klasifikavimo ir grupavimo metodai.

Duomenų tyrybos sistemų palyginimas

• Pagal atliktus vertinimus didžiausiais balais įvertintos KNIME ir ClowdFlows sistemos (10 iš 12 galimų). • ClowdFlows sistemos pranašumas yra tas, kad ji yra naudojama ir valdoma interneto naršykle. Be to ji intensyviai tebevystoma, todėl ateityje tikėtinas dar didesnis funkcionalumas.

Duomenų tyrybos sistemų palyginimas

• Yra kuriamos sistemos, pagrįstos saityno paslaugomis, tačiau wsdl failai yra neprieinami (pvz, FAEHIM).• Biocatalogue (http://www.biocatalogue.org/services) - saityno paslaugų telkinys, tačiau saityno paslaugų duomenų tyrybai jame nėra.• Sistemos, pagrįstos saityno paslaugomis, yra kuriamos gavus papildomą finansavimą. Pasibaigus projektui, sistemos toliau nebevystomos.

Problemos

Išvados

• Darbe parinkti kriterijai, pagal kuriuos palygintos kelios saityno paslaugomis pagrįstos sistemos. • Lyginamoji analizė parodė, kad pagal vertinamus kriterijus aukščiausiai įvertintos KNIME ir ClowdFlows sistemos. • Atliktos lyginamosios analizės rezultatai bus panaudoti kuriant naują duomenų tyrybos sistemą, pagrįstą saityno paslaugomis.

Ačiū už dėmesį

top related