semantic search pada digital library online …jurnal.stmikelrahma.ac.id/assets/file/adhie tri...

15
1 SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE PUBLIC ACCESS CATALOG Adhie Tri Wahyudi Teknik Industri, Universitas Setia Budi Surakarta e-mail: [email protected] Abstract Searching facility on the Digital library Online Public Access Catalog (Digilib- OPAC) is a basic requirement for each user accessesing it; therefore it plays an important role. The observations on behaviour of the users when using Digilib-OPAC obtained a fact: the user want search result that are relevant to the user whises. This means, the user requires the search engine should be able to understand the meaning of the word/phrase/sentences entered as relevant and effective. Therefor, searching facility with ontology and semantic search technology is applied in order to solve problems of relevance of search results and the words meaning between system and users. The ontology model formed is expressed by using OWL language which contains semantic entities such as three main class i.e: Student class, Lecturer class and Publication class and three helper class i.e: Kalimat class, Stopword class and Keyword class. The rules of semantic search builts are Language processing rules using Natural Language Processing so that the system is able to understand the meaning of keyword or search sentence which are input by the users and the query SWRL rule to search the information stored in the knowledge base. The results of system testing on a number of searching phrase, for every each keyword, show providing both the precision ratio and recall ratio of 100% or 1 : 1. Thus the facility search system developed on Digilib-OPAC is considered to be effective. Keywords : semantic search, NLP, precision ratio, recall ratio, OPAC PENDAHULUAN Digital library Online Public Access Catalog (Digilib-OPAC) merupakan fasilitas yang selalu tersedia pada sistem digital library. Tujuan dari pemanfaatan fasilitas ini adalah untuk mempermudah proses penemukembalian dokumen digital yang tersimpan berdasarkan kata kunci yang diinputkan. Namun demikian, peningkatan volume informasi yang disimpan menyebabkan terjadinya kesulitan untuk menemukan, mengelola, mengakses dan memelihara informasi yang diperlukan. Hal ini mengakibatkan banyaknya kata kunci yang tersimpan dan menjadi penyebab utama timbulnya kesulitan tersebut. Terutama karena makna informasi yang disimpan hanya mampu dipahami oleh manusia, sedangkan mesin tidak [1]. Akibatnya mesin tidak mampu menginterpretasikan secara tepat informasi apa yang dibutuhkan atau dicari oleh manusia. Hal ini yang mengakibatkan hasil-hasil pencarian yang tidak relevan justru terindeks dan ditampilkan sebagai hasil pencarian. Dari hasil pengamatan terhadap perilaku user ketika sedang menggunakan Digilib- OPAC sewaktu mencari dokumen pada sebuah digital library, diperoleh suatu fakta bahwa user menginginkan hasil pencarian yang sesuai dan relevan dengan keinginan user. Sebagai contoh, ketika user menginputkan keyword sistem informasi, user menginginkan informasi penelitian yang terkait tentang sistem informasi, begitupun ketika user menginputkan keyword sistem informasi keuangan, maka user menghendaki output mengenai sistem informasi keuangan bukan penelitian sistem informasi secara umum. User menganggap bahwa keyword yang inputkan tersebut merupakan satu kesatuan meaning, bukan suatu

Upload: lamhanh

Post on 06-Feb-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

1

SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE PUBLICACCESS CATALOG

Adhie Tri WahyudiTeknik Industri, Universitas Setia Budi Surakarta

e-mail: [email protected]

AbstractSearching facility on the Digital library Online Public Access Catalog (Digilib-

OPAC) is a basic requirement for each user accessesing it; therefore it plays an importantrole. The observations on behaviour of the users when using Digilib-OPAC obtained afact: the user want search result that are relevant to the user whises. This means, the userrequires the search engine should be able to understand the meaning of theword/phrase/sentences entered as relevant and effective.

Therefor, searching facility with ontology and semantic search technology is appliedin order to solve problems of relevance of search results and the words meaning betweensystem and users. The ontology model formed is expressed by using OWL language whichcontains semantic entities such as three main class i.e: Student class, Lecturer class andPublication class and three helper class i.e: Kalimat class, Stopword class and Keywordclass. The rules of semantic search builts are Language processing rules using NaturalLanguage Processing so that the system is able to understand the meaning of keyword orsearch sentence which are input by the users and the query SWRL rule to search theinformation stored in the knowledge base.

The results of system testing on a number of searching phrase, for every eachkeyword, show providing both the precision ratio and recall ratio of 100% or 1 : 1. Thusthe facility search system developed on Digilib-OPAC is considered to be effective.Keywords : semantic search, NLP, precision ratio, recall ratio, OPAC

PENDAHULUANDigital library Online Public Access Catalog (Digilib-OPAC) merupakan fasilitas yang

selalu tersedia pada sistem digital library. Tujuan dari pemanfaatan fasilitas ini adalah untukmempermudah proses penemukembalian dokumen digital yang tersimpan berdasarkan katakunci yang diinputkan. Namun demikian, peningkatan volume informasi yang disimpanmenyebabkan terjadinya kesulitan untuk menemukan, mengelola, mengakses danmemelihara informasi yang diperlukan. Hal ini mengakibatkan banyaknya kata kunci yangtersimpan dan menjadi penyebab utama timbulnya kesulitan tersebut. Terutama karenamakna informasi yang disimpan hanya mampu dipahami oleh manusia, sedangkan mesintidak [1]. Akibatnya mesin tidak mampu menginterpretasikan secara tepat informasi apayang dibutuhkan atau dicari oleh manusia. Hal ini yang mengakibatkan hasil-hasil pencarianyang tidak relevan justru terindeks dan ditampilkan sebagai hasil pencarian.

Dari hasil pengamatan terhadap perilaku user ketika sedang menggunakan Digilib-OPAC sewaktu mencari dokumen pada sebuah digital library, diperoleh suatu fakta bahwauser menginginkan hasil pencarian yang sesuai dan relevan dengan keinginan user. Sebagaicontoh, ketika user menginputkan keyword sistem informasi, user menginginkan informasipenelitian yang terkait tentang sistem informasi, begitupun ketika user menginputkankeyword sistem informasi keuangan, maka user menghendaki output mengenai sisteminformasi keuangan bukan penelitian sistem informasi secara umum. User menganggapbahwa keyword yang inputkan tersebut merupakan satu kesatuan meaning, bukan suatu

Page 2: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

keyword yang terpecah-pecah dan diartikan sendiri-sendiri. Berikutnya ketika usermenginputkan keyword Analisa Keputusan dan Analisis Keputusan pada kolom pencarian,user menginginkan hasil pencarian yang identik, karena menganggap kedua keyword yangdiinputkan tersebut memiliki makna yang sama. Namun ternyata sistem pencarian padadigital library memberikan output yang berbeda dengan interpretasi user. Mesin menganggapkedua keyword tersebut mempunyai makna yang tidak identik. Permasalahan berikutnya,ketika user mengetikkan singkatan kata/singkatan istilah sebagai input pencarian, sistemjustru menampilkan hasil pencarian yang sama sekali tidak relevan. Artinya, sistem tidakdapat memahami persamaan makna keyword yang tersimpan dengan singkatankata/singkatan istilah yang diinputkan.

Untuk mengatasi permasalahan pemaknaan, Davies dkk. mengatakan bahwapemanfaatan teknologi semantic web mampu memberikan kemampuan pada mesinmemahami makna kata sama seperti yang dipahami oleh manusia [2]. Sedangkan, Berners-Lee mengatakan content atau informasi menjadi basis pengetahuan dapat direpresentasikandalam bentuk ontologi dalam bentuk-bentuk yang dapat dipahami dan diproses oleh mesin[3]. Berdasarkan kedua penjelasan semantic web yang dikemukakan tersebut, maka padadasarnya Semantic Web bertujuan agar isi Web yang diekpresikan di dalam bahasa alami yangdimengerti manusia, dapat juga dimengerti, diinterpretasi dan digunakan oleh perangkatlunak (software agents). Terkait dengan tema kustomasi mesin pencari, ada beberapapenelitian sejenis, seperti yang dilakukan oleh Wibisono membuat suatu aplikasipemrosesan dengan menggunakan bahasa alami (natural language processing) [4]. Pemrosesandilakukan pada basis data akademik dengan menggunakan format data XML. Aplikasi yangdihasilkan mampu memberikan informasi akademik dari sebuah permintaan berupamasukkan dalam bahasa Indonesia. Hasil dari penelitian ini adalah menguji tujuh aturanproduksi bahasa alami yang dapat diimplementasikan dalam query bahasa Indonesia untukmenghasilkan informasi yang diinginkan. Dengan demikian, basis data digital library yangtersimpan dapat dimodifikasi menjadi sebuah metadata berbasis ontologi, dengan harapanagar content atau informasi yang tersimpan dapat dipahami serupa, baik oleh mesin maupunoleh user (manusia).

Penelitian yang terkait dengan digital library, antara lain menyebutkan bahwa salahsatu karakteristik perpustakaan digital yang paling penting adalah fasilitas information retrievaluntuk memudahkan para pembaca dalam mencari data atau pun dokumen digital sepertijudul buku, pengarang, keyword dan lain-lain [5]. Namun demikian, penelitian lainmengatakan bahwa banyak tantangan bagi pengelola digital library untuk mengelola, sharingdan querying informasi yang tersimpan karena faktor penyimpanan yang terdistribusi danbersifat heterogeneous [6]. Namun, penerapan teknologi semantic web dapat memberikanpeningkatan usability dari digital library karena keunggulan-keunggulannya.

Kemudian, dalam penelitian yang dilakukan Sloni, disajikan desain penggunaansemantik web dalam mesin pencari untuk memecahkan masalah dalam menemukankembali informasi secara cerdas [7]. Dan penggabungan teknik crawler, preprocessor, searcherdan modul peringkat diyakini akan meningkatkan hasil pencarian informasi pada halamanweb. Sedangkan penerapan semantic search memiliki tujuan untuk memunculkan penemuankembali informasi secara lebih relevan dengan keinginan user, dengan mencocokkan konsepatau arti [8]. Dalam hal ini, semantic search tidak bertujuan untuk menggantikan webkonvensional tetapi mempunyai kekuatan untuk meningkatkan hasil pencarian.

Page 3: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

3

METODE PENELITIANAdapun alur penelitian yang dilakukan, mengikuti kerangka seperti yang

ditampilkan pada Gambar 1.

Gambar 1. Kerangka Penelitian

Setelah dilakukan analisis dan desain requirement untuk mendefinisikan kelemahanatau kekurangan dari sistem yang sudah ada, dan data yang diperlukan juga telah diperoleh,maka tahapan pengembangan perangkat lunak yang dilalui adalah:

3

METODE PENELITIANAdapun alur penelitian yang dilakukan, mengikuti kerangka seperti yang

ditampilkan pada Gambar 1.

Gambar 1. Kerangka Penelitian

Setelah dilakukan analisis dan desain requirement untuk mendefinisikan kelemahanatau kekurangan dari sistem yang sudah ada, dan data yang diperlukan juga telah diperoleh,maka tahapan pengembangan perangkat lunak yang dilalui adalah:

3

METODE PENELITIANAdapun alur penelitian yang dilakukan, mengikuti kerangka seperti yang

ditampilkan pada Gambar 1.

Gambar 1. Kerangka Penelitian

Setelah dilakukan analisis dan desain requirement untuk mendefinisikan kelemahanatau kekurangan dari sistem yang sudah ada, dan data yang diperlukan juga telah diperoleh,maka tahapan pengembangan perangkat lunak yang dilalui adalah:

Page 4: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

1. Pembuatan prototipea. Perancangan user interface prototype

Dilakukan rancang bangun tampilan (interface) aplikasi, seperti menu, dialog,input dan output.

b. Desain arsitekturDilakukan rancang bangun tampilan (interface) aplikasi, seperti menu, dialog,

input dan output.c. Desain ontologi, desain aturan pengolahan bahasa dan desain aturan SWRL

Pada tahapan dilakukan designing proses-proses yang terjadi pada sistem,seperti desain ontologi, desain aturan pengolahan bahasa dan desain aturan SWRL.

2. ImplementasiPada tahap ini dibangun aplikasi semantic search dengan berbasiskan ontologi dan

aturan. Untuk pembangunan basis pengetahuan ontologi menggunakan bahasa OWLdengan bantuan tools Protégé, untuk pembuatan antarmuka ETD menggunakan bahasaPHP, sedangkan untuk pengembangan proses pencarian menggunakan bahasaprogramming JAVA dengan bantuan JENA Library untuk koneksi ke basis pengetahuandan bantuan JESS API untuk mengeksekusi rule pencarian.

3. Pengujian sistemTesting atau pengujian sistem dilakukan dengan dua metode, yaitu pengujian

sistem pencarian karena unsur semantic dan pengujian sistem karena unsur informasiyang dikembalikan kepada user.

HASIL DAN PEMBAHASANAnalisis Permasalahan

Seperti yang telah dipaparkan, inti permasalahan yang mendasari untuk dilakukanpenelitian ini adalah kurang relevannya hasil pencarian yang dikembalikan oleh sistempencarian. Hasil pengamatan menunjukkan bahwa nilai precision ratio penemukembalianinformasi dengan kata kunci analisa keputusan adalah sebesar 1/90 atau 0,0001%.Rendahnya nilai precision ratio dikarenakan, sistem melakukan proses pencarian dengankeyword analisa dan keyword keputusan. Karenanya dari 90 dokumen yangditemukembalikan, hanya 1 dokumen saya yang relevan dengan keinginan user, yaitudokumen dengan subyek analisa keputusan. Sedangkan, untuk kata kunci analisis keputusannilai precision ratio atas hasil pencarian adalah sebesar 0/121 atau 0%. Yang menarik adalahsatu dokumen yang relevan dengan kata analisa keputusan tidak tertampil pada hasilpencarian kali ini. Melihat kedua hasil pengamatan tersebut, terlihat bahwa mesin tidakmampu memahami persamaan makna antara kata kunci analisa keputusan dengan analisiskeputusan, sementara user menginginkan hasil pencarian yang sama antara kedua kata kuncitersebut, karena secara makna kedua kata kunci tersebut adalah identik.

Sementara itu ketika sistem diberi inputan singkatan, yaitu sim, dengan tujuan inginmencari penelitian tentang sistem informasi manajemen, maka sistem akan memberikanhasil dengan precision ratio 10/1659 atau sekitar 0.6% atau dengan keyword lan dengan tujuaningin mencari penelitian yang serupa dengan tema jaringan komputer, maka sistem akanmemberikan hasil dengan precision ratio 10/10133 atau sekitar 0.009%. Tabel 1memperlihatkan sebagian hasil analisis pencarian. Kesimpulan yang diperoleh adalah hasilpencarian yang terlalu melebar yang menyebabkan nilai precision ratio rendah, tidak mampumengenali keyword yang berbeda namun memiliki persamaan makna dan tidak mampumengenali keyword berupa singkatan.

Page 5: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

5

Tabel 1 Analisis hasil pencarian pada digital libraryNo Kata kunci

pencarian∑ Dokumen

yangdikembalikan

∑ Dokumenrelevan yangdikembalikan

Keterangan

1 Analisa 21 212 Analisis 52 523 Keputusan 69 694 Analisa keputusan 90 1 Sistem melakukan retrieved pada

kata kunci analisa dan keputusan5 Analisis keputusan 121 0 Sistem melakukan retrieved pada

kata kunci analisis dan keputusan

Perancangan SistemPengembangan sistem pencarian usulan dilakukan dengan memanfaatkan ontologi

dan teknologi semantic search. Ontologi (owl) digunakan sebagai basis pengetahuan yangdigunakan untuk menyimpan semua koleksi digital yang dimiliki system digilital library.Sedangkan teknologi semantic search diterapkan dengan tujuan untuk memunculkanpenemuan kembali informasi secara lebih relevan dengan keinginan user, denganmencocokkan konsep atau arti.

Metode pencarian pada pengembangan sistem pencarian yang diusulkan dibagimenjadi dua bagian, yaitu simple search dan semantic search. Ketika metode pencarian simplesearch dipilih, sistem menerima parameter pencarian yang diinputkan oleh user, lalumengecek kategori pencarian (apakah meminta pencarian pada kategori buku, artikelpenelitian, Tugas Akhir atau ketiganya) kemudian menyusun representasi query berdasarkanparameter yang diterima untuk kemudian dieksekusi secara rule based dengan menggunakankonsep SWRL. Sedangkan pada metode pencarian semantic search, sistem dapat menerimaparameter pencarian yang lebih human friendly, yaitu berupa kalimat pencarian. Kalimat yangdiinputkan kemudian mengalami serangkaian proses pengolahan bahasa untukpenemukembalian informasi (information retrieval; IR). Strzalkowski pada publikasinyamengatakan bahwa, pengolahan bahasa sebagai bagian proses IR terdiri dari beberapatahap, yaitu tokenizing, filtering, stemming dan validation [9]. Output dari proses tersebutkemudian dieksekusi secara rule based dengan menggunakan konsep SWRL.

Proses pembangunan basis pengetahuan atau building ontologi merupakan bagianproses yang sangat penting karena pada bagian inilah terletak penyimpanan seluruh datayang nantinya akan digunakan memberikan solusi. Dalam hal perancangan ontologi,penelitian ini menerapkan prinsip re-usage atau memanfaatkan ontologi yang dibuat olehNurkhamid yang bersesuaian [10]. Sedangkan untuk penggunaan istilah dan terminology,digunakan standar Dublin Core, sehingga semua istilah dan terminology yang digunakansesuai dengan standar internasional yang mendukung prinsip interoperabilitas. Dengandemikian, sharing data dan informasi tidak lagi terkendala oleh rigidnya istilah yangdigunakan antara satu database dengan database lainnya. Pada publikasinya, Noy dkk.menjelaskan bahwa langkah-langkah dalam merancang suatu ontologi adalah : menentukankonsep, istilah dan domain, mendefinisikan kelas dan hirarkinya, mendefinisikan property,constraint, dan slot, serta mendefinisikan instance [11].

Ada dua kelas utama dan tiga kelas pembantu yang didefinisikan padapembangunan ontologi untuk meyimpan semua dokumen yang ada pada digital library. Duakelas utama tersebut adalah: kelas Person dan kelas Publication. Kelas Person terdiri daridua sub-kelas, yaitu Student dan Lecturer sedangkan kelas Publication terdiri dari tiga sub-kelas, yaitu finalProject, Book, dan lecturerPublication. Kelas finalProject dan kelas

Page 6: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

lecturerPublication memiliki sub-kelas lagi, yaitu undergraduateThesis, masterThesis danphdDissertation merupakan sub-kelas dari finalProject dan Article serta Journal yangmerupakan sub-kelas dari lecturerPublication. Gambar 2 memperlihatkan rancanganstruktur dan hirarki kelas ontologi yang akan dibangun. Rancangan ontology tersebutkemudian diimplementasikan dengan menggunakan bahasa OWL (Web Ontologi Language).OWL merupakan suatu bahasa yang digunakan untuk mendeskripsikan kelas, properti danrelasi antar objek dalam suatu cara yang dapat diinterpretasikan oleh mesin [12]. OWLmerupakan sebuah vocabulary namun dengan tingkatan semantik yang lebih tinggidibandingkan dengan RDF dan RDF Schema. Gambar 3 memperlihatkan implementasirancangan ontologi dalam bahasa OWL.

Kemudian untuk dapat menemukembalikan dokumen (IR) yang tersimpan padaontologi, terdapat dua aturan yang akan dibangun, yaitu aturan pengolahan kalimat perintahsecara linguistik/bahasa dan aturan query SWRL.

Aturan pengolahan kalimat perintah secara bahasa mengatur bagaimana produksikalimat perintah yang dibuat dan menentukan keteraturan kalimat untuk mengaksesinformasi pada basis pengetahuan [13] dan [14]. Kemudian [9] pada publikasinya,menyebutkan bahwa pengolahan bahasa sebagai bagian proses IR terdiri dari beberapatahap, yaitu (1) validation, (2) tokenizing atau parsing kalimat pencarian menjadi kata-kata(token), (3) filtering atau menghilangkan kata-kata yang menjadi kategori stopword ataupunkata-kata yang dianggap tidak penting seperti kata sambung dan (4) stemming atau prosesmencari root dari token-token [9]. Output dari proses stemming kemudian divalidasi menjadirepresentasi kalimat dengan aturan-aturan Natural Language Processing (NLP) dan kemudiandisusun sebuah representasi query untuk kemudian dieksekusi secara rule based denganmenggunakan konsep SWRL.

Page 7: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

7

Gambar 2 Struktur dan Hirarki Kelas Sistem ETD

Gambar 3 Implementasi Ontologi dalam bahasa OWL

7

Gambar 2 Struktur dan Hirarki Kelas Sistem ETD

Gambar 3 Implementasi Ontologi dalam bahasa OWL

7

Gambar 2 Struktur dan Hirarki Kelas Sistem ETD

Gambar 3 Implementasi Ontologi dalam bahasa OWL

Page 8: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

Mandala pada publikasinya juga menyatakan bahwa linguistik untuk sistem temukembali informasi dapat diidentifikasi dengan lima unsur, yaitu : (1). Kata perintahpencarian (kp), (2). Kata kunci yang mewakili category objek pencarian (ctg), (3). Kata kunciyang mewakili datatype property (dtp), (4). Kata kunci yang mewakili object property (obp) dan(5). Nilai dari sebuah datatype property (value) [14]. Berdasarkan kelima unsur tersebut, dapatdiidentifikasi pola kalimat (K) sebagai berikut [14]:

K kp + ctg + [dtp | obp] + value

Pada publikasinya, Mandala juga mengatakan bahwa unsur minimal kalimat yangbernilai valid untuk sistem temu kembali informasi terdiri dari: (1). Kalimat minimal harusterdiri dari kata perintah (cari, carikan, atau tampilkan), kategori pencarian (atau ctg : tesis,disertasi atau penelitian) dan nilai yang akan dicari; (2). Kalimat yang memiliki datatypeproperties (dtp) atau object properties (obp) lebih dari satu akan dinyatakan valid jika dtp atauobp tidak mempunyai makna yang sama [14]. Selain pengukuran validitas, Mandala jugamelakukan identifikasi pola kalimat pencarian untuk sistem temu kembali informasi. Polakalimat pencarian tersebut, terdiri dari [14] :

1. Tipe 1 : K kp + ctg + value.Kalimat tipe 1 terdiri dari kata pencari + kata yang mengandung unsur category

pencarian + value pencarian.2. Tipe 2 : K kp + ctg + dtp + value.

Kalimat tipe 2 terdiri dari kata pencari + kata yang mengandung unsur categorypencarian + kata yang mengandung unsur datatype pencarian + value pencarian;

3. Tipe 3 : K kp + ctg +obp +value.Kalimat tipe 3 terdiri dari kata pencari + kata yang mengandung unsur category

pencarian + kata yang mengandung unsur object property pencarian + value pencarian.4. Tipe 4 : K kp + ctg + dtp + value + obp + value

Kalimat tipe 4 terdiri dari kata pencari + kata yang mengandung unsur categorypencarian + kata yang mengandung unsur data property pencarian + value pencarian +kata yang mengandung unsur object property pencarian + value pencarian.

5. Tipe 5 : K kp + ctg + dtp + value + dtp + valueKalimat tipe 5 terdiri dari kata pencari + kata yang mengandung unsur category

pencarian + kata yang mengandung unsur data property pencarian + value pencarian +kata yang mengandung unsur data property pencarian + value pencarian.

6. Tipe 6 : K kp + ctg + obp + value + obp + value.Kalimat tipe 3 terdiri dari kata pencari + kata yang mengandung unsur category

pencarian + kata yang mengandung unsur object property pencarian + value pencarian +kata yang mengandung unsur object property pencarian + value pencarian.

Proses pengolahan bahasa yang dilakukan terhadap kalimat yang diinputkan adalah:(1) proses tokenizing, yaitu memecah setiap kata yang menyusun suatu kalimat pencarianyang diterima oleh sistem. Proses ini dilakukan dengan menggunakan algoritma yangdipublikasikan [15] yang mengandalkan karakter spasi pada kalimat untuk melakukanpemisahan kata. (2) Berbarengan dengan proses tokenizing, juga dilakukan proses filtering,atau proses menghilangkan kata yang tidak memiliki arti pada kalimat masukan. Term yangdiperoleh dari tahap tokenisasi akan dicek terhadap daftar stopword yang tersimpan padaontologi. Apabila sebuah kata termasuk dalam daftar stopword maka kata tersebut akan

Page 9: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

9

diabaikan oleh sistem dan tidak akan diproses lebih lanjut. Sebaliknya jika terdapat katayang tidak termasuk didalam daftar stopword maka kata tersebut akan masuk pada prosesberikutnya. (3) Selanjutnya adalah Proses stemming yang pada dasarnya adalah proses untukmencari root dari sebuah kata. Pencarian root sebuah kata atau biasa disebut dengan katadasar dapat memperkecil hasil indeks tanpa harus menghilangkan makna. Beberapa termhasil stemming bisa jadi berupa kata standar pencarian. Kata standar pencarian (keyword)merupakan kata-kata yang digunakan sebagai standar acuan dalam pembentukan sebuahkalimat dan disimpan dalam sebuah kelas pada ontologi. Karenanya pada proses inidilakukan pengecekan term terhadap sebuah daftar keyword yang tersimpan pada ontologi.(4) Setelah kalimat terpotong-potong dan dirubah menjadi kata dasarnya, maka kalimattersebut dapat dicek validitas dan tipe kalimatnya berdasarkan skema yang dipublikasikanoleh [14]. Kalimat yang invalid akan ditolak oleh sistem dan ditampilkan sebagai kalimatyang tidak valid.

Hasil dari keempat proses pengolahan kalimat perintah secara linguistik/bahasa diatas, dilanjutkan dengan proses pembentukan representasi query dengan menggunakanSWRL. Aturan SWRL yang dibentuk adalah aturan dasar dalam format query SWRL untukretrieve informasi sesuai dengan parameter yang diberikan.

ctg OntologyETD:title(?f, ?t) ∧ OntologyETD:author(?f, ?a) ∧OntologyETD:department(?a, ?d) ∧ OntologyETD:programmeName(?d, ?dp) ∧OntologyETD:sinopsis(?f, ?s) ∧ OntologyETD:fullName(?a, ?af) ∧OntologyETD:hasKeyword(?f, ?kw) ∧ OntologyETD:keyword(?kw, ?k) ∧OntologyETD:adviser(?f, ?adv) ∧ OntologyETD:fullName(?adv, ?advf)filter → sqwrl:select(?f, ?t, ?af, ?dp, ?s, ?k, ?advf)

Gambar 4. Aturan dasar query SWRL

Aturan dasar query SWRL yang ditunjukkan pada Gambar 4, pada prinsipnyaadalah template untuk inisiasi semua properti ontologi yang kemudian di-generateberdasarkan parameter yang diinputkan oleh user. Query SWRL yang telah di-generate,kemudian dieksekusi oleh mesin SWRL untuk selanjutnya melakukan pencarian pada fileontologi ETD.Perancangan Sistem

Pengujian dilakukan dengan tujuan untuk mengetahui tingkat keberhasilan sistemyang dibangun. Menurut Mandala [14] pengujian dilakukan dengan cara memberikanpenilaian terhadap komponen berikut: a) Apakah sistem mampu mengenali validitaskalimat dengan tepat dan mampu merubah kalimat pencarian menjadi representasikalimat sebelum query? (b) Apakah sistem mampu mengenali value kunci dengan tepat? (c)Apakah sistem mampu menentukan statement query dengan tepat? (d) Apakah sistemmampu menghasilkan informasi yang tepat untuk setiap kalimat pencarian yangdimasukkan?

Dari keempat parameter pengujian tersebut, tingkat keberhasilan sistem pencariandiukur dengan dua cara, yaitu: pengujian kalimat perintah semantic search dan pengujianinformasi yang ditemukembalikan. Untuk pengujian kalimat perintah, sistem diujikanterhadap sejumlah kalimat perintah pencarian kepada sistem dan menghitung seberapabanyak yang dapat diproses secara tepat oleh sistem. Kalimat yang digunakan untukpengujian sistem adalah pengembangan dari pola-pola kalimat pencarian seperti yangdipublikasikan oleh Mandala [14]. Gambar 4 memperlihatkan output dari pengujian kalimat

Page 10: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

pencarian pada metode semantic search. Sedangkan Tabel 2 memperlihatkan hasil pengujiankalimat pencarian pada metode semantic search.

Gambar 5. Pengujian semantic search dengan pola kalimat a.1

Tabel 2. Pengujian kalimat pencarian pada metode semantic search

No Kalimat pencarian

Komponen pengujian : Apakah sistem mampuMengenalivaliditaskalimat

Mengenalivaluekunci

Menentukanstatementquery

Menghasilkaninformasiyang tepat

a1 Cari buku sistem √ √ √ √a2 Tampilkan tugas akhir

analisa keputusan√ √ √ √

a3 Carikan tugas akhiranalisis keputusan

√ √ √ √

b1 Cari buku dengan temasemantic web

√ √ √ √

b2 Cari publikasi dosendengan topik semantikweb

√ √ √ √

b3 Cari tugas akhir denganbahasan web semantik

√ √ √ √

b4 Cari tugas akhir denganjudul web semantic

√ √ √ √

b5 Cari buku yangmembahas semantic web

√ √ √ √

b6 Cari tugas akhir yangberhubungan dengansemantic web

√ √ √ √

b7 Cari tugas akhir yangberjudul semantic web

√ √ √ √

b8 Cari tugas akhir tentang √ √ √ √

Page 11: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

11

No Kalimat pencarian

Komponen pengujian : Apakah sistem mampuMengenalivaliditaskalimat

Mengenalivaluekunci

Menentukanstatementquery

Menghasilkaninformasiyang tepat

semantic webb9 Cari tugas akhir

mengenai semantic web√ √ √ √

c1 Cari tugas akhir yangdibimbing oleh Dr. ElySusanto

√ √ √ √

c2 Cari tugas akhir yangpembimbingnya Dr. ElySusanto

√ √ √ √

c3 Cari tugas akhir yangbimbingan dengan Dr.Ely Susanto

√ √ √ √

c4 Cari buku buatan Yunita √ √ √ √c5 Cari tugas akhir karangan

Yunita√ √ √ √

c6 Cari publikasi dosen yangdikarang oleh Yunita

√ √ √ √

c7 Cari tugas akhir yangdisusun oleh Yunita

√ √ √ √

c8 Cari semua yang dibuatoleh Yunita

√ √ √ √

d1 Cari tugas akhir yangjudulnya analisiskeputusan yangdibimbing oleh Dr. Ely

√ √ √ √

d2 Cari tugas akhir yangjudulnya analisiskeputusan yangpembimbingnya Dr. Ely

√ √ √ √

d3 Cari tugas akhir yangberhubungan analisiskeputusan karangan agus

√ √ √ √

d4 Cari tugas akhir yangtopiknya analisiskeputusan buatan agus

√ √ √ √

d5 Cari tugas akhir yangmembahas analisiskeputusan dan dibuatagus

√ √ √ √

d6 Tampilkan semua yangberjudul analisakeputusan dan dibuatagus

√ √ √ √

e1 Cari tugas akhir yangdibimbing Dr. Ely dandisusun oleh MuhammadNasikh tahun 2012

√ √ √ √

f1 Cari tugas akhir yangpembimbingnya Dr. Ely

√ √ √ √

Page 12: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

No Kalimat pencarian

Komponen pengujian : Apakah sistem mampuMengenalivaliditaskalimat

Mengenalivaluekunci

Menentukanstatementquery

Menghasilkaninformasiyang tepat

dan dibuat olehMuhammad Nasikh

f2 Cari tugas akhir yangbimbingan dengan Dr.Ely dan karanganMuhammad Nasikh

√ √ √ √

f3 Cari tugas akhir yangbimbingan dengan Dr.Ely dan buatanMuhammad Nasikh

√ √ √ √

f4 Cari tugas akhir yangpembimbingnya Dr. Elydan disusun olehMuhammad Nasikh

√ √ √ √

Hasil pengujian menunjukkan bahwa sistem mampu: (1) mengenali validitas kalimatdengan tepat, (2) mampu merubah kalimat pencarian menjadi representasi kalimat sebelumquery, (3) mampu mengenali value kunci dengan tepat, (4) mampu menentukan statementquery dengan tepat dan (5) mampu menghasilkan informasi yang tepat untuk setiap kalimatpencarian yang dimasukkan.

Pengujian sistem temu kembali informasi[16] mengatakan bahwa untuk mengukur efektifitas sistem temu kembali informasi

terdapat dua rasio umum yang biasa dipergunakan, yaitu precision (ukuran kemampuansebuah sistem untuk menampilkan hanya dokumen yang relevan) dan recall (ukurankemampuan sistem untuk menampilkan seluruh dokumen yang relevan). Untuk mengukurrasio precision dan recall, maka perlu mengetahui jumlah dokumen relevan terhadap suatukata kunci (keyword) yang tersimpan pada ontologi. Kemudian dilakukan pengujianberdasarkan kata kunci tersebut dan dihitung jumlah dokumen yang dikembalikan danjumlah dokumen yang dikembalikan yang relevan terhadap kata kunci yang dicari. Tabel 3memperlihatkan hasil pengujian tersebut.

Tabel 3. Inisiasi kata kunci (keyword) pada dokumen yang tersimpanNo Kata kunci ∑ dokumen

relevan tersimpanpada database

∑ Dokumenyang

dikembalikan

∑ Dokumenrelevan yangdikembalikan

1 Analisa keputusan 1 1 12 Analisis keputusan 1 1 13 Semantic 3 3 34 Semantik 5 5 55 Semantic web 2 2 26 Semantik web 2 2 27 Web semantik 2 2 28 Web 7 7 7

Page 13: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

13

Dari Tabel 3 tersebut, maka dapat dihitung rasio precision dan rasio recall untuksetiap kata kunci, seperti:

Selanjutnya hasil perhitungan rasio precision dan recall ditampilkan pada Tabel 4.

Tabel 4 Tabel perhitungan rasio precision dan recallNo Kata kunci pencarian rasio precision Rasio recall1 Analisa keputusan 100% 100%2 Analisis keputusan 100% 100%3 Semantic 100% 100%4 Semantik 100% 100%5 Semantic web 100% 100%6 Semantik web 100% 100%7 Web semantik 100% 100%8 Web 100% 100%

Pada tabel 4 terlihat bahwa hasil perhitungan rasio precision untuk setiap kata kunciadalah 100%. Begitupun untuk hasil perhitungan rasio recall. Dengan demikian, merujukpada pernyataan Harrod dan Prytherch dalam [17] yang mengatakan “bahwa suatu sistemtemu balik informasi dapat dikatakan efektif apabila rasio recall dan precision sama besarnya(1:1)”, maka sistem semantic search yang dikembangkan pada penelitian ini dapat dikatakanefektif.

KESIMPULANBerdasarkan hasil penelitian yang telah dilakukan dapat disimpulkan:

1. Model ontologi dapat digunakan untuk menyimpan data dan metadata dokumen digitallibrary dan membantu meningkatkan efektivitas hasil pencarian.

2. Dari hasil pengujian dengan menginputkan sejumlah kalimat perintah pencarian, sistemmengenali kalimat perintah yang diinputkan dan memberikan informasi yang relevanmaknanya terhadap yang diinginkan user.

3. Aturan pengolahan bahasa dan aturan query yang diimplementasikan memberikanhasil perhitungan rasio precision dan rasio recall pada setiap pengujian kata kunci yangsama besar yaitu 100%, yang berarti sistem dapat dikatakan efektif.

SARANPenelitian ini berkonsentrasi untuk meningkatkan hasil pencarian dari sistem

pencarian digital library, dan karenanya pada penelitian selanjutnya diharapkan dapat

Page 14: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

ditambahkan suatu metode/mekanisme berupa koreksi otomatis sebagai alternatifperbaikan kesalahan, jika kalimat yang dimasukkan tidak valid.

DAFTAR PUSTAKA[1] Al-Kalani, F., Awad, M.G., dan Hani, N.B., 2010, Semantic Web: Improving Search

Using RDF Instead of XML, Global Journal of Computer Science and Technology, Vol. 10Issue 15, Hal 23-26.

[2] Davies, J., Fensel, D., dan van Harmelen, F., 2002, Towards the Semantic web -Ontology-Driven Knowledge Management, John Wiles and Sons, Ltd, Chichester.

[3] Berners-Lee, T., 2001., The Semantic web., The Scientific American.

[4] Wibisono, S., 2010, Aplikasi Pengolah Bahasa Alami untuk query Basisdata Akademikdengan format data XML, Tesis, Universitas Gadjah Mada.

[5] Hui-fang, Q., 2009, Construction of University Digital library Resources under theNetwork Environment, IEEE Computer Society Proceedings of International Conference onNetworking and Digital Society, hlm. 12-15.

[6] Kruk, S.R., Zimmerman, K., dan Sapkota, B., No Date, Semantically Enhanced SearchServices in Digital Libraries, Digital Enterprise Research Institute, Deri Galway, Ireland.

[7] Sloni, D.K., dan Mahawar, N.K., 2010, Design a Customize Search Engine: SemanticWeb, International Journal of Soft Computing and Engineering (IJSCE), Vol. I.

[8] Unni, M., dan Baskaran, K., 2011, Overview of Approaches to Semantic Web Search,International Journal of Computer Science and Communication (IJCSC), No. 2, Vol. 2, Hal 345-349.

[9] Strzalkowski, T., Carballo, J.P., Karlgren, J., Hulth, A., Tapanainen, P., dan Lahtinen, T.,1999, Natural Language Information Retrieval,http://trec.nist.gov/pubs/trec8/papers/ge8adhoc2.pdf, diakses tanggal 26 Maret 2012.

[10] Nurkhamid, 2009, Aplikasi bibliografi perpustakaan berbasis teknologi semantic web,Tesis, Universitas Gadjah Mada.

[11] Noy, N.F., dan McGuinness, D.L., 2001, Ontologi Development 101 : A Guide toCreating Your First Ontologi, http://protege.stanford.edu/publications/ontologi_development/ ,diakses pada tanggal 7 Februari 2012.

[12] Breitman, K. K., Casanova, M. A., dan Truszkowski, W., 2007, Semantic Web : Concepts,Technologies and Applications, Springer, London.

Page 15: SEMANTIC SEARCH PADA DIGITAL LIBRARY ONLINE …jurnal.stmikelrahma.ac.id/assets/file/Adhie Tri Wahyudi... · dilakukan pada basis data akademik dengan menggunakan format ... keyword

15

[13] Liddy, E.D., 2001, Natural Language Processing, In Enclopedia of Library and InformationScience-2nd Edition, Marcel Decker Inc., NY., USA.

[14] Mandala, R., 1999, Temu Kembali Informasi dengan Bantuan Analisis Linguistik,Proceeding of Information Processing and Management.

[15] Tala, Z., 2003, A Study of Stemming Effect on Information Retrieval in BahasaIndonesia, Theses, Institute for Logic, Language and Computation, Universiteit vanAmsterdam, The Nedherlands.

[16] Grossman, D. A. dan Frieder, O., 2004, Information Retrieval : Algorithms and Heuristics,Springer.

[17] Mustangimah, 1998, Efektifitas system temu kembali informasi dan analisisbibliometrik: aplikasi pada dokumen bidang nuklir berbahasa Indonesia, Tesis,Universitas Indonesia