prediksi jaringan interaksi antarentitas objek...
Post on 09-Mar-2019
222 Views
Preview:
TRANSCRIPT
i
PENELITIAN HIBAH DISERTASI DOKTOR DIKTI 2015/2016
(PROGRAM DOKTOR ILMU KOMPUTER UNIVERSITAS INDONESIA)
LAPORAN AKHIR
PREDIKSI JARINGAN INTERAKSI ANTARENTITAS
OBJEK MELALUI PENDEKATAN BI-CLUSTERING
Nama : Mujiono
NPM : 1206200975
Promotor : Prof. T Basaruddin, Drs., MSc., Ph.D
Kopromotor : Mohamad Ivan Fanany., Ph.D
PROGRAM DOKTOR ILMU KOMPUTER
FAKULTAS ILMU KOMPUTER
UNIVERSITAS MERCU BUANA
2016
Kampus Universitas Mercu Buana
Jl. Meruya Selatan No.1
Jakarta, Indonesia11650
i
ABSTRAKSI
Salah satu kandungan informasi yang penting tersebut antara lain entitas nama obat
dan interaksi antarobat. Interaksi obat (Drug to Drug Interaction/DDI) adalah suatu kejadian
penggunaan lebih dari satu obat jika obat yang satu mempengaruhi efek obat yang lain atau
sebaliknya. Interaksi obat dapat meningkatkan atau menurunkan efek obat lain yang
dipengaruhi, atau bahkan bisa membahayakan pasien. Pemahaman atas interaksi obat sangat
diperlukan baik untuk keperluan pembuatan obat baru atau pengendalian peredaran. Proses
pembuatan dan pendistribusian obat memerlukan biaya yang besar, namun tidak jarang
banyak obat – obatan yang telah terlanjur beredar di masyarakat harus ditarik kembali karena
kemudian diketahui obat tersebut dapat membahayakan pengguna akibat kemungkinan
interaksi antarobat. Di negara kita permasalahan yang dihadapi terkait peredaran obat lebih
kompleks karena luasnya wilayah peredaran sementara partisipasi masyarakat dalam proses
pemantauan dan pelaporan masih terbatas akibat belum tersedianya media yang cukup mudah
untuk mereka gunakan.
Berangkat dari tantangan yang masih terbuka dalam mengekstraksi DDI serta
permasalahan lokal terkait DDI, pada studi ini dilakukan penelitian tahapan – tahapan
eksperimen untuk mengekstraksi interaksi antarentitas dari dokumen medis. Untuk
menyelesaikan permasalahan ini diusulkan dan telah diujicoba pendekatan untuk: ekstraksi
entitas utama dari dokumen, ekstraksi relasi antarentitas dalam dokumen, dan ekstraksi
interaksi antarentitas antardokumen. Untuk keperluan ekstraksi entitas dan relasi antarentitas
dalam dokumen digunakan pendekatan rule based. Pendekatan berbasis pembelajaran mesin
juga telah diujicoba untuk ekstraksi entitas. Sementara untuk ekstraksi interaksi antarentitas
digunakan pendekatan bi-clustering. Pendekatan rule based dilakukan dengan cara
menemukan pola yang paling umum untuk menemukan target entitas dari dokumen training.
Pola paling umum tersebut kemudian digunakan untuk ekstraksi entitas dari dari
dokumen/data testing. Kontribusi utama dari pendekatan pembelajaran mesin adalah
representasi dan formulasi dataset yang mampu menyelesaikan permasalahan-permasalahan
yang belum ditangani oleh metode sebelumnya. Representasi dataset dari dokumen ini
didasarkan pada karakteristik vector word embedding hasil training dari model word2vect.
Pada penelitian ini digunakan dua jenis dataset, dataset lokal dan open dataset. Dataset local
berupa label obat nasional, sementara open dataset berupa narasi dokumen medis MedLine
dan DrugBank.
Berdasarakan hasil beberapa eksperimen, pendekatan-pendekatan yang diusulkan
pada penelitian ini menunjukkan hasil kinerja akurasi yang baik. Rata-rata akurasi f-score
untuk ekstraksi entitas lebih dari 0.75. Pencapaian terbaik ditunjukkan oleh pendekatan mesin
pembelajaran menggunakan model LSTM dengan nilai rata-rata f-score 0.86. Nilai ini
merupakan yang terbaik dibandingkan dengan metode yang ada. Pendekatan bi-clustering
yang diterapkan pada dataset sintetis menghasilkan akurasi match-score rata-rata di atas
0.87.
Sampai dengan tahap ini telah dilakukan eksperimen-eksperimen: ekstraksi nama obat
dari open dataset MedLine & DrugBank, ekstraksi relasi entitas nama obat dan kandungan
obat dari dataset label obat, dan eksperimen algoritme bi-clustering yang diusulkan untuk
dataset sintetis. Dari penelitian ini telah dihasilkan 2 artikel jurnal internasional (terbit), 1
artikel jurnal internasional (under review) dan 2 artikel konferensi internasional.
Kata Kunci: entitas, interaksi antarentitas, bi-set, MedLine, DrugBank
ii
Daftar Isi
ABSTRAKSI................................................................................................................................. i
Daftar Isi .................................................................................................................................... ii
Daftar Gambar ........................................................................................................................... v
Daftar Tabel ............................................................................................................................... v
BAB 1. PENDAHULUAN ............................................................................................... 1-1
1.1. Latar Belakang ........................................................................................................ 1-1
1.1.1 Interaksi Antarentitas Objek ............................................................................ 1-1
1.1.2 Ekstraksi Entitas Medis.................................................................................... 1-3
1.1.3 DDI (Drug-Drug Interaction) ........................................................................... 1-4
1.2. Rumusan Permasalahan........................................................................................... 1-5
1.3. Tujuan Penelitian..................................................................................................... 1-7
1.4. Lingkup Permasalahan ............................................................................................ 1-8
1.5. Kontribusi Penelitian ............................................................................................... 1-9
1.5.1 Ekstraksi Entitas Biomedis .............................................................................. 1-9
1.5.2 Interaksi Antarentitas ..................................................................................... 1-11
1.6. Sistematika Penulisan Laporan Akhir ................................................................... 1-12
1.6.1 Bab 1. Pendahuluan ....................................................................................... 1-12
1.6.2 Bab 2. Penelitian Terkait............................................................................... 1-12
1.6.3 Bab 3. Metodologi Penelitian ........................................................................ 1-13
1.6.4 Hasil Eksperimen ........................................................................................... 1-14
1.6.5 Pembahasan.................................................................................................... 1-14
1.6.6 Kesimpulan .................................................................................................... 1-14
BAB 2. METODOLOGI PENELITIAN .......................................................................... 2-1
2.1. Framework Penelitian ............................................................................................. 2-1
2.2. Supervised Learning : Ekstraksi Entitas Medis....................................................... 2-2
2.2.1 Framework ....................................................................................................... 2-4
2.2.2 Analisis Data Training ..................................................................................... 2-5
2.2.3 Analisis Word Embedding ............................................................................... 2-7
2.2.4 Representasi Fitur dan Format Data ................................................................ 2-8
2.2.5 Pemilihan Kandidat Nama Obat .................................................................... 2-11
2.2.6 Dataset............................................................................................................ 2-11
2.3. Unsupervised: Ekstraksi Entitas Medis ................................................................. 2-12
2.3.1 Analisis Data .................................................................................................. 2-12
2.3.2 Objektif .......................................................................................................... 2-12
2.3.3 Pembangkitan Pola (Pattern Generation) ....................................................... 2-13
iii
2.4. Unsupervised : Ekstraksi Relasi Entitas ................................................................ 2-15
2.4.1 Objektif .......................................................................................................... 2-16
2.4.2 Pattern Learning Untuk Ekstraksi Objek dan Relasi AntarObjek ................. 2-16
2.4.3 Pembentukan Pola Relasi ............................................................................... 2-17
2.4.4 Pemilihan Pola ............................................................................................... 2-18
2.5. Unsupervised : Categorical Data Bi-Clustering .................................................... 2-18
2.5.1 Ruang Sampel Data Terkategoris .................................................................. 2-18
2.5.2 Hamming Distance Untuk Penyusunan Kelompok Sampel .......................... 2-19
2.5.3 Pembobotan Untuk Kondisi Ekstrim ............................................................. 2-20
2.5.4 Penyusunan Kelompok Tahap Berikutnya..................................................... 2-20
2.6. Categorical Data Bi-Clustering ............................................................................ 2-21
2.6.1 Objektif Bi-Clustering ................................................................................... 2-21
2.6.2 Tahapan Penemuan Bi-Set ............................................................................. 2-22
2.6.3 Penyusunan Bi-Set ......................................................................................... 2-23
BAB 3. HASIL EKSPERIMEN & PEMBAHASAN ....................................................... 3-1
3.1. Supervised Learning : Ekstraksi Entitas Medis....................................................... 3-1
3.1.1 Kinerja Akurasi Open Dataset ......................................................................... 3-1
3.1.2 Kesimpulan ...................................................................................................... 3-7
3.2. Rule Based Learning untuk Ekstraksi Entitas Nama Obat ...................................... 3-8
3.2.1 Material Dataset & Evaluasi ............................................................................ 3-8
3.2.2 Evaluasi ............................................................................................................ 3-8
3.2.3 Uji Coba dan Hasil Pattern Scoring 1 .............................................................. 3-9
3.2.4 Hasil Uji Coba Pattern Scoring 2 ................................................................... 3-10
3.3. Ekstraksi Relasi AntarEntitas ................................................................................ 3-11
3.3.1 Dataset & Pre Processing ............................................................................... 3-12
3.3.2 Skenario Uji Coba .......................................................................................... 3-12
3.3.3 Evaluasi .......................................................................................................... 3-14
3.3.4 Hasil Eksperimen dan Analisisnya ................................................................ 3-14
3.3.5 Pola dan Hasil Ekstraksi Relasi ..................................................................... 3-15
3.3.6 Akurasi Teknik Pattern Scoring ..................................................................... 3-17
3.3.7 Kinerja Pola Individual .................................................................................. 3-19
3.3.8 Kesimpulan .................................................................................................... 3-25
3.4. Categorical Bi-Clustering Berdasarkan Jarak Acuan ............................................ 3-25
3.4.1 Skenario Eksperimen ..................................................................................... 3-26
3.4.2 Metode Pembanding ...................................................................................... 3-27
3.4.3 Evaluasi .......................................................................................................... 3-30
3.4.4 Data Uji .......................................................................................................... 3-31
iv
3.4.5 Hasil Uji Coba................................................................................................ 3-35
3.4.6 Komparasi Dengan Metode Sebelumnya....................................................... 3-40
3.5. Pembahasan ........................................................................................................... 3-40
BAB 4. KESIMPULAN ................................................................................................... 4-1
4.1. Kontribusi ................................................................................................................ 4-1
4.2. Keterbatasan dan Permasalahan Baru ..................................................................... 4-1
4.3. Penelitian Lanjutan .................................................................................................. 4-2
Daftar Pustaka ........................................................................................................................... A
Daftar Keluaran : Artikel Jurnal ............................................................................................... G
Daftar Publikasi Penelitian Laporan Disertasi Doktor .............................................................. H
Daftar Publikasi Penelitian Lainnya ......................................................................................... H
Akhir Dokumen ......................................................................................................................... J
v
Daftar Gambar
Gambar 1-1 Ilustrasi permasalahan dan solusi .................................................................... 1-7
Gambar 2-1 Kerangka Global Penelitian.............................................................................. 2-2 Gambar 2-2 Framework eksperimen ekstraksi nama obat pada MedLine & DrugBank ...... 2-4 Gambar 2-3 Distribusi token pada data training MedLine ................................................... 2-5 Gambar 2-4 Distribusi token pada data training DrugBank................................................. 2-6 Gambar 2-5 Contoh Penerapan Pengetahuan Luar Umum Pada Ekstrasksi Relasi Obat .... 2-12
Gambar 2-6 Representasi Relasi AntarObjek ...................................................................... 2-13 Gambar 2-7 Framework ekstraksi MO-SO .......................................................................... 2-17 Gambar 2-8 Matrik biner M, representasi relasi sampel dengan attribut ............................ 2-22 Gambar 2-9 Framework Penemuan Bi-Set dengan Bi-Clustering ....................................... 2-23
Gambar 2-10 Segmentasi hasil bi-clustering dan proses multi join .................................... 2-24 Gambar 3-1 Kinerja Dua Teknik Pembobotan Pola ........................................................... 3-10 Gambar 3-2 Kinerja 340 dataset vs 900 dataset ................................................................... 3-11
Gambar 3-3 Skenario Uji Coba............................................................................................ 3-13 Gambar 3-4 Evaluasi kinerja relasi objek utama dan objek pendukung .............................. 3-14 Gambar 3-5 Kinerja 100 % pola untuk ekstraksi objek utama ............................................ 3-17 Gambar 3-6 Kinerja 100 % pola untuk ekstraksi objek pendukung .................................... 3-18
Gambar 3-7 Kinerja ekstraksi objek utama dengan pola berdasarkan skor bobot dalam
presentase ............................................................................................................................. 3-19
Gambar 3-8 Kinerja ekstraksi SO dengan pola berdasarkan skor bobot dalam presentase . 3-19 Gambar 3-9 Rerata kuantitas realasi objek yang berhasil diekstraksi ................................. 3-21 Gambar 3-10 Rerata presentase relasi objek terekstraksi .................................................... 3-21
Gambar 3-11 Rerata presisi masing-masing grup pola ........................................................ 3-23 Gambar 3-12 Rerata Recall dan F-Score hasil ekstraksi MO .............................................. 3-23
Gambar 3-13 Rerata akurasi ekstraksi relasi objek pendukung ........................................... 3-24 Gambar 3-14 Tahapan Algoritme BiBit .............................................................................. 3-28
Gambar 3-15 Cara Kerja Algoritme Bimax ......................................................................... 3-30 Gambar 3-16 Pengelompokan data uji ................................................................................. 3-31 Gambar 3-17 Karakteristik Data Sintentitas ........................................................................ 3-32
Gambar 3-18 Perbandingan rerata Match Score untuk Dataset Overlapping ...................... 3-38
Gambar 3-19 Perbandingan rerata waktu komputasi untuk Dataset Overlap ...................... 3-38 Gambar 3-20 Perbandingan rerata Match Score untuk Dataset Disjoin .............................. 3-39 Gambar 3-21 Perbandingan rerata waktu komputasi untuk Dataset Disjoin ....................... 3-39
Daftar Tabel
Tabel 2-1 Frekuensi kemunculan token pada masing-masing 1/3 posisi, MedLine .............. 2-6 Tabel 2-2 Frekuensi kemunculan token pada masing-masing 1/3 posisi, DrugBank ............ 2-6
Tabel 2-3 Beberapa kemiripan jarak kosinus antardua jenis token ....................................... 2-7 Tabel 2-4 Rata-rata jarak Euclidian dan kosinus di antara dua grup token ........................... 2-8 Tabel 2-5 Contoh kalimat pada data training dan nama obat yang terkandung di dalamnya 2-9 Tabel 2-6 Beberapa formulasi tuple dataset DrugBank hasil teknik pertama ....................... 2-9 Tabel 2-7 Representasi tuple dataset teknik pertama dan labelnya ....................................... 2-9
Tabel 2-8 Contoh representasi data teknik yang ke dua ...................................................... 2-10 Tabel 2-9 Contoh representasi data teknik yang ke tiga ...................................................... 2-10 Tabel 3-1 Kinerja Akurasi MLP-NN atas tiga skenario pemilihan kandidat obat ................. 3-2
Tabel 3-2 Kinerja Akurasi dampak dari perbedakan teknik penyusunan data ...................... 3-3 Tabel 3-3 Kinerja Akurasi dampak dari penambahan volume data training word2vect ....... 3-3 Tabel 3-4 Kinerja Akurasi MLP, DBN, dan SAE ................................................................. 3-4
vi
Tabel 3-5 Kinerja Akurasi tekni representasi data yang ketiga dengan LSTM ..................... 3-5 Tabel 3-6 Kinerja Akurasi pendekatan yang diusulkan dibandingkan state of the art .......... 3-6 Tabel 3-7 Kinerja Akurasi MLP-NN untuk dokumen label obat .......................................... 3-7 Tabel 3-8 Contoh sebagian kandidat pola hasil training ...................................................... 3-15 Tabel 3-9 Contoh sebagian ekstraksi objek utama dan objek pendukung yang dihasilkan . 3-15
Tabel 3-10 Komposisi dataset disjoin .................................................................................. 3-33 Tabel 3-11 Komposisi dataset overlap ................................................................................. 3-33 Tabel 3-12 Hasil uji coba rerata uuntuk dataset overlapping .............................................. 3-37 Tabel 3-13 Hasil uji coba rerata untuk dataset disjoin ......................................................... 3-39 Tabel 3-14 Komparasi kinerja Match Score untuk dataset overlapping .............................. 3-40
Tabel 3-15 Komparasi kinerja Match Score untuk dataset disjoint ..................................... 3-40
1-1
BAB 1. PENDAHULUAN
Pada bagian ini dijelaskan beberapa hal yaitu: latar belakang yang mendasari penelitian,
rumusan permasalahan yang akan diselesaikan, dan penelitian yang sudah dilakukan.
Sebagian hasil studi literatur pada bagian ini beserta penelitian awal mengenai interaksi
antarobat berdasarkan kandungan obat telah dipublikasikan pada prosiding konferensi :
Translation and Classification Algorithm of FDA-Drugs to DOEN2011 Class Therapy to
Estimate Drug-Drug Interaction, The 2nd International Conference on Information
Systems for Business Competitiveness 2013 (ICISBC) 2013, 5-6 December 2013,
Semarang.
1.1. Latar Belakang
1.1.1 Interaksi Antarentitas Objek
Salah satu pengetahuan yang bisa diperoleh dari berbagai data digital adalah interaksi
antarinformasi yang terkandung di dalamnya. Contoh interaksi tersebut antara lain
interaksi antarobat, interaksi antarpeneliti, interaksi antara supplier dan vendor, interaksi
antara anggota keluarga, atau interaksi antara pelamar kerja dan pencari pekerja. Secara
umum pada laporan akhir ini interaksi semacam ini disebut dengan interaksi antarentitas
objek (content) yang terkandung di dalam sumber data digital.
Penelitian mengenai interaksi informasi ini telah dilakukan untuk berbagai bidang
pengetahuan atau dalam kehidupan praktis. Biomedis merupakan bidang dengan penelitian
interaksi informasi paling umum terutama untuk interaksi obat. Penelitian interaksi
antarentitas yang digunakan untuk mengetahui jaringan interaksi antarobat dengan
berbagai metode dan dengan menggunakan sumber data terstruktur atau tidak terstruktur
(dokumen) disajikan pada beberapa makalah antara lain: (Takarabe et al. 2008; Takarabe
et al. 2010; Li et al. 2012; Mata et al. 2011; Vilar et al. 2013; Yamanishi et al. 2008; Polak,
Brandys, and Mendyk 2005; Sadikin and Wasito 2013). Penelitian pada bidang ini
menggunakan dataset yang sudah matang dan terstruktur. Sedangkan pada kenyataannya
sumber data bervariasi seperti dokumen dan citra yang tidak terstruktur belum banyak
dieksplorasi.
Studi interaksi antarobat seperti yang diusulkan oleh Takarabe et a. l(Takarabe et al. 2008)
didekati dengan metode berdasarkan klasifikasi ATC (Anatomical Classification
Chemical). Sedangkan pada penelitian yang kedua, Takarabe et al. (Takarabe et al. 2010),
1-2
analisis jaringan interaksi antarobat dilakukan dengan menyarikan informasi dari label obat
berupa risiko, indikasi, kontra indikasi dan kandungan enzim. Seperti pada [1] proses
klasifikasi dilakukan berdasarkan standar klasifikasi ATC yang merupakan basis
klasifikasi obat standar dari WHO. Sementara Mujiono et al. [8] menggunakan pendekatan
classification based untuk memprediksi interaksi antara obat. Sebagai basis klasifikasi,
pada penelitian ini digunakan DOEN 2011 dan basis data dari FDA-Drugs sebagai data uji.
Pendekatan pembelajaran mesin untuk memprediksi interaksi antarobat diusulkan pada
studi yang dilakukan oleh He Z et al. [3]. Data uji dan data latih yang digunakan pada
percobaan ini adalah basis data KEGG. Jacinto Mata et al. [4] melakukan uji coba beberapa
metode pembelajaran mesin yang dikombinasikan dengan NLP untuk memprediksi
interaksi antarobat dengan menggunakan dataset korpus DDI. Penelitian interaksi
antarobat diuraikan pada makalah Vilar S et al. [5] dengan menggunakan basis data obat
DrugBank. Interaksi antara komposisi obat dengan target protein yang baru dengan
menggunaakan basis data obat KEGG BRITE, BRENDA, SuperTarget, dan DrugBank
dapat dilihat pada paper Polak et al. [7]. Sun et al. [11], melakukan penelitian untuk
mendapatkan informasi jaringan relasi antarinformasi yang berbeda-beda. Meskipun
digunakan terminologi “heteregoneous information”, namun dataset yang digunakan
berupa DBLB (Digital Bibliographic Library Browser) dan entitas objek yang menjadi
fokus penelitian adalah: terminologi, venue, paper, dan author.
Mayoritas metode yang diusulkan pada panelitian-penelitian di atas terutama hanya
diterapkan untuk sumber data yang ditangani berupa basis data terstruktur. Sementara
sumber data interaksi antarisi dengan format data tidak terstruktur justru lebih banyak.
Penggunaan basis klasifikasi untuk menyusun interaksi antarentitas objek hanya
menyelesaikan sebagian permasalahan karena metode ini hanya dapat diterapkan untuk
entitas objek -entitas objek yang jelas pengklasifikasiannya. Sementara penggunanaan
pendekatan NLP hanya cocok untuk dataset berbahasa tertentu.
Zuo et al. (Xiang Zuo, Alvin Chin, Xiaoguang Fan, Bin Xu, Dezhi Hong, Ying Wang 2012)
melakukan studi awal untuk memperkirakan pola relasi/hubungan antara peserta
konferensi dengan menggunakan dataset yang dituai dari aplikasi media sosial bergerak
(mobile social application). Penelitian awal ini bertujuan untuk mengetahui bagaimana
pola hubungan yang dilakukan secara online berpengaruh kepada pola hubungan secara off
line dan sebaliknya. Meskipun diklaim menjanjikan hasil penelitian ini menunjukkan
1-3
bahwa akurasi prediksinya tidak baik dan bergantung pada teknologi yang komunikasi
digunakan. Pola jaringan interaksi lain yang diteliti antara lain adalah jaringan interaksi
pembelajaran (Daping et al. 2012) dan jaringan interaksi pada pengembangan perangkat
lunak (Schröter 2010). Keduanya mengandalkan pola interaksi antarpengguna atau
pengembang aplikasi dalam menggunakan internet. Kedua penelitian ini menghasilkan
metode penerapan pola interaksi yang hanya sesuai untuk satu domain spesifik tertentu.
1.1.2 Ekstraksi Entitas Medis
Salah satu dampak perkembangan teknologi informasi adalah tersedianya sumber data
yang melimpah di berbagai area, termasuk pada domain medis. Sumber data format teks
mengandung berbagai infromasi yang bernilai untuk berbagai keperluan. Pemahaman
mengenai interaksi antarobat, sebagai contoh, merupakan aspek yang sangat penting dalam
pembuatan obat baru maupun untuk pengendalian distribusi obat di pasaran. Proses
produksi produk medis merupakan aktivitas yang kompleks dan memerlukan biaya yang
besar. Di sisi lain, sering terjadi obat-obatan yang terlanjur beredar di pasaran ditarik
kembali, karena ditemukan unsur interaksi obat yang berbahaya bagi kesehatan (Sadikin
and Wasito 2013).
Ekstraksi objek atau informasi dari sumber data yang tidak terstruktur berupa teks
merupakan studi yang masih terbuka pada area data mining karena berbagai alasan. Seiring
dengan semakin bertambahnya volume korpus, perkembangan bahasa alami yang
digunakan, format data yang tidak terstruktur, maka kesulitan dalam ekstraksi informasi
tersebut semakin bertambah (H. Tang and Ye, n.d.). Keterbatasan dataset yang teranotasi
merupakan permasalahan lain yang harus ditangani. Beberapa informasi berharga yang
terkandung dalam dokumen medis antara lain adalah nama obat, kandungan obat, brand
obat, serta relasi antarentitas medis seperti interaksi antarobat dan relasi antarobat dan
komponen kimiawinya.
Salah satu informasi berharga yang terkandung dalam dokumen medis adalah entitas obat
(nama obat). Pengenalan nama obat merupakan aktivitas utama yang harus diselesaikan
karena penemuan nama obat merupakan elemen yang esensial dalam menyelesaikan
permasalahan ekstraksi informasi yang lain (S. Zhang and Elhadad 2013; Korkontzelos et
al. 2015). Di antara aktivitas yang merupakan turunan studi dari pengenalan obat adalah
interaksi antarobat (Segura-Bedmar, Martinez, and Herrero-Zazo 2013), reaksi negatif
1-4
penggunaan obat (Sampathkumar, Chen, and Luo 2014), atau aplikasi-aplikasi yang lain
(penemuan kembali informasi, sistem pengambilan keputusan, atau pembuatan / penemuan
obat yang baru) (Segura-bedmar and Martı 2008).
Dibandingkan dengan permsalahan pengenalan nama entitas yang lain seperti personal,
lokasi, kejadian, atau waktu, pengenalan nama obat lebih kompleks. Beberapa tantangan
yang harus diselesaikan untuk penyelesaian persoalan tersebut antara lain: teks nama obat
lebih tidak terstruktur, sementara banyaknya entitas selalu bertambah dari waktu ke waktu
(Keretna et al. 2015). Dengan demikian, sulit untuk menyediakan kamus yang selalu
update dan melingkupi seluruh leksikon yang ada (Pal and Gosal 2015). Permasalahan
kedua adalah penamaan entitas obat yang bervariasi. Singkatan maupun akronim yang
umum untuk nama obat, menambah kesulitan untuk menentukan konsep yang diacu oleh
terminologi nama obat tertentu tersebut. Permasalahan ketiga adalah hal yang umum jika
nama obat merupakan kombinasi antara simbul kata dan bukan kata (S. Liu et al. 2015).
Keempat, satu entitas tunggal nama obat yang direpresentasikan oleh lebih dari satu token
merupakan hal yang lebih banyak ditemui dari pada nama entitas yang lain. (Grego and
Couto 2013). Karena permasalahan kompleksitas dalam menangani multiple token ini,
bahkan dalam studinya untuk mengekstraksi nama obat dari dataset the MedLine &
DrugBank, Bjorne et al. (Björne, Kaewphan, and Salakoski 2013) mengabaikan kasus
tersebut dengan dasar bahwa drug multiple token hanya sekitar 18 % dari semua nama obat
yang ada. Nama obat biasanya juga lebih panjang dari terminologi umum. Permasalahan
berikutnya adalah, untuk beberapa kasus, nama obat merupakan kombinasi antara istilah
medis dan non medis. Keterbatasan dataset yang teranotasi juga merupakan permasalahan
yang dihadapi dalam studi ekstraksi nama obat ini.
1.1.3 DDI (Drug-Drug Interaction)
Pemahaman atas interaksi obat (DDI) merupakan hal yang sangat krusial baik untuk
keperluan pembuatan obat yang baru maupun pengendalian obat yang beredar di pasaran.
Proses untuk sampai menghasilkan suatu produk obat merupakan aktivitas yang rumit dan
dengan biaya besar. Namun tidak jarang banyak obat – obatan ditarik dari peredaran
karena baru diketahui bahwa akibat interaksi antarobat tersebut justru membahayakan bagi
kesehatan (Zhisong He et al. 2010), (Noreddin 2012). Oleh karena itu banyak penelitian
dilakukan untuk mendapatkan cara bagaimana pengetahuan dan pemahaman interaksi
1-5
antarobat dapat diperoleh dengan cara efisien dan efektif. Salah satu cara pemahaman yang
efisien dan efektif ini adalah dengan penelitian secara in-silico (Srisailam, Raj Kumar, and
Veeresham 2010; Kyubum Lee et al. 2012; Boyce and Gardner 2012).
Sampai dengan saat ini di Indonesia belum ditemukan basis data terstruktur yang mudah
diakses publik untuk obat dan jamu yang beredar di masyarakat meskipun pemerintah telah
mengeluarkan SK Menteri Kesehatan tentang Daftar Obat Esensial (Sadikin and Wasito
2013). Informasi mengenai obat yang beredar tersebut tersebar dalam berbagai format
antara lain dokumen berupa situs produsen obat atau jamu, dokumen hard copy brosur atau
leaflet informasi obat atau jamu atauh bahkan dalam kemasan obat atau jamu yang tidak
terstruktur. Dengan demikian diperlukan metoda atau alat yang mampu membaca dan
mengambil informasi dari berbagai sumber dengan berbagai format tersebut untuk
keperluan penyusunan interaksi antarobat atau jamu.
Sedemikian pentingnya ekstraksi nama obat dan juga interaksi antarobat dari dokumen
medis, hingga khusus untuk hal ini telah diadakan berbagai kompetisi. Beberapa kompetisi
ekstraksi nama obat dan interaksi antarobat tersebut antara lain:
The medication extraction challenge organized by the Center of Informatics for
Integrating Biology and Beside (i2b2) in 2009 (Deléger, Grouin, and
Zweigenbaum 2010),
The chemical and drug named entity recognition (CHEMDNER) challenge of the
Critical Assessment of Information Extraction systems in Biology in 2013
(Krallinger et al. 2015)
The Drug Recognation and drug-drug interaction (DDIExtraction) challenge in
2013 (Segura-Bedmar, Martinez, and Herrero-Zazo 2013)
1.2. Rumusan Permasalahan
Dari semua literatur yang sudah dikemukakan pada paragraf sebelumnya dapat dipahami
bahwa jaringan interaksi antarentitas merupakan salah satu kandungan informasi penting yang
bisa ditemukan dalam proses penemuan informasi. Proses penemuan kandungan informasi
berupa jaringan interaksi ini masih menghadapi beberapa kendala yang masih berpotensi
untuk dieksplorasi lebih lanjut. Kendala-kendala tersebut antara lain:
1-6
Keberagaman format data yang belum banyak ditangani. Mayoritas penelitian pada
bidang ini menggunakan dataset yang sudah matang dan terstruktur. Sedangkan pada
kenyataannya sumber data bervariasi seperti dokumen dan citra yang tidak terstruktur
belum banyak dieksplorasi.
Lokalisasi (localization) sumber data. Kebanyakan penelitian yang telah dilakukan
mengenai interaksi antarentitas objek diterapkan pada permasalahan atau dataset
bersifat lokal (seperti basis data obat KEGG Brite USA, JAPIC Jepang).
Tidak semua dataset tersedia dalam kondisi memadai sesuai kebutuhan, sementara di
sisi lain kebutuhan penggalian informasi jaringan interaksi antarentitas objek untuk
domain atau area geografis tertentu tidak seharusnya menunggu kesiapan dataset.
Mayoritas penelitian pada makalah-makalah yang disajikan di atas menggunakan data
yang sudah jadi atau menggunakan data simulasi/data buatan. Sementara masih
banyak domain atau area yang belum siap dengan dataset yang sesuai dengan
karakteristik domain atau area tersebut.
Khusus untuk ekstraksi entitas medis, nama obat, masih terbuka tantangan untuk
diselesaikan antara lain: teks nama obat lebih tidak terstruktur, entitas selalu
bertambah dari waktu ke waktu (Keretna et al. 2015), (Pal and Gosal 2015); penamaan
entitas obat yang lebih;hal yang umum jika nama obat merupakan kombinasi antara
simbol kata dan bukan kata (S. Liu et al. 2015); satu entitas tunggal nama obat yang
direpresentasikan oleh lebih dari satu token (Grego and Couto 2013), (Björne,
Kaewphan, and Salakoski 2013) .
Untuk sampai pada ekstraksi interaksi antarentitas, maka tahap pertama yang harus
diselesaikan adalah ekstraksi entitas. Pada penelitian ini diselesaikan permasalahan interaksi
antarentitas medis khususnya interaksi antarobat. Lebih spesifik untuk ekstraksi nama obat
dari dokumen klinis, beberapa permasalahan yang berpotensi untuk diselesaikan adalah:
1. Ketergantungan pada pengetahuan luar
2. Kebutuhan akan handcrafted feature yang tidak selalu tersedia
3. Kecepatan penembahan terminologi baru
4. Nama entitas medis yang lebih panjang, lebih umum daripada nama entitas domain
yang lain
5. Nama entitas medis yang merupakan kombinasi antara huruf kata (word char) dan non
kata
6. Multiple token untuk satu entitas tunggal
1-7
Berangkat dari kenyataan bahwa dalam sumber data berbagai format terdapat entitas objek -
entitas objek yang secara semantik berinteraksi satu dengan yang lainnya berdasarkan relasi
konteks tertentu, namun interaksi tersebut belum atau tidak terlihat karena berbagai batasan
maka secara umum permasalahan yang diselesaikan pada penelitian ini adalah: ekstraksi -
relasi klastering
Bagaimana mengekstraksi dan mengelompokkan himpunan entitas yang diprediksi
berinteraksi satu sama lain berdasarkan relasinya, menggunakan korpus dokumen medis
sebagai studi kasus.
Ilustrasi permasalahan dan solusi yang diharapkan digambarkan pada Gambar 1-1 di bawah.
Gambar 1-1 Ilustrasi permasalahan dan solusi
Solusi yang diinginkan adalah terbentuk struktur interaksi antarentitas objek yang berelasi
berdasarkan konteks relasi. Permasalahan yang akan diselesaikan tersebut dibagi-bagi
menjadi sub permasalahan-sub permasalahan:
Bagaimana menyusun pendekatan ekstraksi nama entitas medis yang mampu
menyelesaian permasalahan-permasalahan ekstraksi entitas medis di atas.
Bagaimana menyusun pendekatan ekstraksi relasi antarentitas dari dokumen medis
Bagaimana menyusun pendekatan yang digunakan untuk mengekstraksi informasi
interaksi antarentitas yang terdapat dalam dokumen teks yang berbeda.
1.3. Tujuan Penelitian
1. Menghasilkan metode yang bisa digunakan untuk melakukan ekstraksi entitas dari korpus
open dataset
1-8
2. Menghasilkan metode yang bisa digunakan untuk membantu pemahaman sintak dan
semantik dokumen terkait dengan relasi antara entitas objek utama dengan entitas objek
pendukung.
3. Menerapkan metode dan algoritme ekstraksi entitas dan relasi antarentitas pada dataset
korpus label obat Nasional.
4. Menerapkan metode dan algoritme ekstraksi entitas dan relasi antarentitas pada dataset
korpus label obat Nasional.
5. Menganalisa dan mengevaluasi kinerja masing-masing metode dan algoritme yang
dihasilkan
1.4. Lingkup Permasalahan
Pada penelitian ini permasalahan dibatasi pada:
1. Open dataset yang menjadi objek penelitian adalah dokumen medis DrugBank &
MedLine (https://www.cs.york.ac.uk/semeval-2013/index.html#) dan label obat
Nasional.
2. Interaksi antarentitas dibatasi pada entitas nama obat dan kandungan obat
3. Interaksi antarobat didasarkan pada kemiripan / kesamaan kandungan obat yang
dimiliki. Dasar pengetahuan untuk interaksi antarobat ini adalah bahwa Pengetahuan
awal yang sudah dibuktikan adalah bahwa jika semakin banyak properti sama yang
dimiliki oleh dua obat maka potensi interaksi antara dua obat tersebut semakin besar
(Noreddin 2012). Properti obat tersebut antara lain adalah : kandungan kimiawi, organ
biologis yang menjadi target penyembuhan, indikasi, kontra indikasi, maupun jalur
penemuan / pembuatan (pathway) obat. Pada penelitian ini fokus studi properti obat
adalah pada : kandungan kimiawai, indikasi, kontra indikasi, dan efek samping obat.
= masuk
4. Yang dimaksud dengan interaksi berdasarkan relasi dalam penelitian ini adalah
hubungan antara entitas objek yang bersifat semantik bukan relasi atau keterkaitan fisik
seperti interaksi karena medan magnit antara objek /benda dalam dunia nyata.
5. Ekstraksi relasi pada penelitian ini difokuskan untuk domain medis berupa dokumen
label obat–obatan.
6. Karakteristik relasi berupa hubungan bersifat one-to-one atau one-to-many antarentitas
objek yang direpresentasikan dengan [0,1], 0 jika tidak ada relasi dan 1 jika ada relasi.
Hal ini menunjukkan data bersifat kategoris, oleh karena itu Bi-clustering yang akan
menjadi subyek kajian pada penelitian ini adalah Categorical Data Bi-clustering.
1-9
7. Format dokumen dalam corpus sebagai masukan dibatasi pada format HTML, *.pdf,
*.doc (format hasil word processor), atau *.txt.
8. Hasil akhir penelitian ini berupa model atau prototipe aplikasi yang siap
dikembangkan, bukan merupakan perangkat lunak siap pakai.
1.5. Kontribusi Penelitian
Sampai dengan tahap ini, penelitian ini telah menghasilkan usulan metode penyelesaian
permasalahan ekstraksi entitas medis (dalam hal ini nama obat), penyelesaian relasi antarobat
dan kandungan obat, serta bi-clustering yang diterapkan pada data terkategorisasi. Dalam
penelitian ini digunakan dua model pendekatan yaitu supervised dan unsupervised.
Pendekatan supervised yang digunakan pada penelitian ini mampu menyelesaikan
permasalahan-permasalahan:
Multi token untuk entitas tunggal yang belum diselesaikan pada penelitian terdahulu.
Ketergantungan terhadap pengetahuan luar.
Keperluan akan handcrafted feature
Dari sisi akurasi diperlihatkan bahwa teknik yang memperlakukan kalimat sebagai sequence
dengan model LSTM mampu memberikan kinerja akurasi terbaik dengan nilai rata-rata f-
score adalah 0.8645.
Dari pendekatan unsupervised, metode rule based yang digunakan memiliki kelebihan-
kelebihan:
Ekstraksi relasi yang independen terhadap bahasa alami.
Tidak diperlukan pre-processing seperti umumnya diperlukan untuk pengolahan
bahasa alami antara lain: sentence parsing, stop word removal, atau POS Tagging.
Tidak diperlukan pengetahuan mengenai ontology atau hierarchical knowledge base.
Metode bi-clustering dan multi set join yang diusulkan menghasilkan kinerja yang
lebih baik dari metode sebelumnya.
1.5.1 Ekstraksi Entitas Biomedis
Dilihat dari hasil berbagai studi sebelumnya mengenai ekstraksi entitas nama obat dari
open dataset dokumen klinis, terdapat beberapa tantangan atau kelemahan yang belum
ditangani oleh studi sebelumnya. Secara umum hampir semua state of the art menggunakan
pengetahuan luar tertentu yang tidak selalu tersedia. Batasan yang lain adalah kebutuhan
1-10
akan handcrafted feature, sementara tidak semua dataset mengandung handcrafted feature
tersebut. Tantangan yang lain adalah bagaimana menangani satu nama obat tunggal yang
direpresentasikan oleh lebih dari satu token (multi token).
Pada studi dan eksperimen ini, diusulkan dan diujicoba tiga teknik baru dalam
merepresentasikan data dan penggunaannya dalam klasifikasi untuk menyelesaikan
permasalahan-permasalahan:
1. Ketergantungan pada pengetahuan luar
2. Kebutuhan akan handcrafted feature yang tidak selalu tersedia
3. Kecepatan penembahan terminologi baru
4. Nama entitas medis yang lebih panjang, lebih umum daripada nama entitas domain
yang lain
5. Nama entitas medis yang merupakan kombinasi antara huruf kata (word char) dan
non-kata
6. Multiple token untuk satu entitas tunggal
Ketiga teknik representasi data yang baru ini berdasarkan pada karakteristik dari
representasi vector dari token-token pada dataset dan karakteristisk distribusi kemunculan
token pada data training. Ketiga teknik yang diusulkan ini tidak memerlukan pengetahuan
eksternal lain maupun handcrafted feature. Representasi data yang pertama dan yang
kedua merupakan satu tuple yang merepresentasikan deretan token. Deretan token ini
diperlakukan secara terpisah/independen terhadap tuple deretan token yang lain. Perbedaan
teknik pertama dan kedua adalah pada perlakuan terhadap deretan token. Pada teknik
pertama, semua kalimat dalam dataset disusun sebagai satu deret sementara pada teknik
yang kedua tiap deret untuk tiap kalimat.
Untuk menangani permasalahan multiple token yang merepresentasikan satu entitas
tunggal, eksperimen ini tidak memperlakukan satu token target yang dikelilingi oleh token-
token yang lain seperti penelitian sebelumnya, melainkan memperlakukan sekumpulan
token sekaligus sebagai satu target. Dengan teknik seperti ini, maka sederetan token
sekaligus bisa diprediksi apakah sebagai nama obat atau bukan nama obat. Teknik
representasi data yang pertama dan kedua dievaluasi menggunakan tiga model
pembelajaran mesin yaitu: MLP (Multi Layer Perception), DBN (Deep Belief Network),
dan SAE (Sparse Auto Encoder).
1-11
Teknik yang ketiga memperlakukan deretan token dalam kalimat dokumen medis sebagai
sequence. Teknik representasi data ini disusun berdasarkan karakteristik sequence dari
kalimat-kalimat pada dokumen medis. Sebagai pola sequence, maka output pada posisi
current dipengaruhi pula oleh input pada posisi sebelumnya. Pada teknik yang kedua ini
representasi pengaruh tersebut diwujudkan berupa penambahan fitur jarak Ecludian di
antara token-token yang berdekatan. Teknik representasi data yang ketiga ini dievaluasi
menggunakan model RNN-LSTM. Berdasarkan hasil evaluasi, penggunaan teknik yang
kedua dan model LSTM ini menghasilkan kinerja yang lebih baik daripada metode-metode
yang telah ada untuk mengekstraksi nama obat dari dokumen klinis. Ketiga teknik
representasi data tersebut didasarkan pada karekteristik nilai word2vect (Mikolov,
Corrado, et al. 2013) dalam hal ini adalah nilai jarak kosinus dan jarak euclidean
antarvektor token.
Penyelesaian Permasalahan Localization
Untuk ekstraksi entitas medis dokumen label obat yang merupakan dataset lokal,
digunakan pendekatan rule based. Pendekatan rule based ini disusun dengan
memanfaatkan karakteristik pola di sekeliling token target. Penerapan studi ini ditujukan
untuk menangani permasalahan keterbatasan pendekatan yang digunakan untuk dataset
bersifat lokal dan keterbatasan pengetahuan luar yang relevan. Rule based yang diujicoba
pada penelitian ini juga digunakan untuk mengekstraksi entitas-entitas yang saling berelasi
dalam satu dokumen. Pada uji coba ini digunakan dataset label obat yang diperoleh dari
berbagai situs produsen obat dalam negeri dan BPOM. Keunggulan pendekatan berbasis
rule yang diusulkan pada penelitian ini adalah: tidak diperlukan pengetahuan luar dan tidak
diperlukan tahapan pre prosecessing seperti yang umumnya digunakan pada teks bahasa
alami seperti sentence parsing, stop word removal atau POS Tagging.
1.5.2 Interaksi Antarentitas
Untuk menyelesaikan permasalahan ekstraksi interaksi antarentitas, pada penelitian ini
diusulkan pendekatan bi-clustering. Bi-clustering merupakan pendekatan untuk
menyelesaikan permasalahan clustering dari lebih dari satu sudut pandang (variabel). Hasil
ekstraksi relasi antarentitas pada tahap sebelumnya direpresentasikan dalam matrik biner
M yang nilai dalam matrik tersebut adalah 0 atau 1. Baris pada matriks merepresentasikan
entitas utama dalam dokumen, sementara kolom adalah entitas-entitas lain yang
1-12
terkandung dalam entitas utama tersebut (disebut entitas pendukung). Jika Mij bernilai 1
maka entitas ke-i mengandung entitas ke-j, atau entitas ke-j berelasi dengan entitas ke-i.
Interaksi terjadi antara entitas baris ke-p dan baris ke q, jika p dan q secara bersama berelasi
dengan satu atau lebih entitas pada kolom.
Pada penelitian ini diusulkan algoritme bi-clustering untuk binary categorical data. Usulan
algoritme bi-clustering ini didasarkan dan merupakan modifikasi dari hamming distance.
Hamming-distance merupakan pendekatan yang umum digunakan untuk menganalisis
kemiripan atau perbedaan data-data beratribut kategoris. Secara umum pendekatan yang
digunakan pada penelitian ini adalah: menghitung jarak masing-masing sampel dengan
titik acuan, mengelompokkan sampel dengan jarak yang sama ke dalam satu grup, dan
menemukan bi-clustering berupa Bi-Set dari kelompok jarak tersebut. Untuk menguji
algoritme bi-clustering yang diusulkan ini, selain digunakan riil data juga digunakan data
sintetis. Data sintetis digunakan untuk membandingkan kelebihan dan kekurangan
algoritme yang diusulkan dengan metode bi-clustering yang telah diusulkan sebelumnya.
1.6. Sistematika Penulisan Laporan Akhir
Laporan akhir ini disusun menurut sistematika sebagai berikut:
1.6.1 Bab 1. Pendahuluan
Bab 1 Pendahuluan menjelaskan latar belakang, rumusam masalah, pertanyaan penelitian,
tujuan dan manfaat penelitian, ruang lingkup dan batasan penelitian, kontribusi hasil
penelitian, serta sistematika penulisan. Latar belakang berisi penjelasan landasan yang
menjadi dasar usulan penelitian. Tujuan yang diharapkan dicapai dari hasil penelitian ini
dijelaskan pada sub bagian tujuan penelitian. Rumusan masalah dan pertanyaan penelitian
berisi permasalahan umum yang akan diselesaikan dan daftar pertanyaan antara yang harus
dijawab untuk menyelesaikan permasalahan yang diusulkan. Kontribusi menguraikan
kontribusi yang dihasilkan dari pelaksanaan penelitian. Ruang lingkup dan batasan
penelitian menjelaskan item-item yang menjadi fokus pada penelitian.
1.6.2 Bab 2. Penelitian Terkait
Bab ini menguraikan hasil penelitian-penelitian sebelumnya yang terkait dengan
peneliltian yang dilakukan. Pembahasan penelitian sebelumnya mencakup penelitian
mengenai ekstraksi entitas, esktraksi entitas medis, eksraksi entitas objek berbasis rule,
1-13
interaksi antarentitas, drug-drug interaction (DDI), bi-clustering, dan pengelompokan
atribut terkategori.
1.6.3 Bab 3. Metodologi Penelitian
Bab 3 Metodologi Penelitian berisi kerangka kerja penelitian dan dataset yang digunakan
dalam penelitian. Kerangka kerja penelitian menjelaskan kerangka kerja global dan
tahapan-tahapan penelitian yang diselesaikan. Tahapan penelitian pada bab ini dibahas
secara global dan rinci tiap-tiap aktivitas eksperimen. Framework global didasarkan pada
karakteristik dua jenis dataset yang digunakan. Sementara rincian kerangka kerja masing-
masing aktivitas terdiri dari kerangka kerja:ekstraksi entitas obat dan ektraksi klasififikasi
informasi DDI berbasis supervised learning, ekstraksi entitas obat dan interaksi antarobat
berbasis unsupervised learning. Dataset yang digunakan dalam penelitian ini terdiri atas
dua jenis: korpus label obat nasional dan open dataset kumpulan korpus yang diambil dari
basis data DrugBank dan abstraks literatur medis MedLine. Pendekatan supervised
diimplementasikan dengan mengusulkan teknik representasi data yang baru. Teknik
representasi data ini kemudian diuji dengan beberapa model pembelajaran: MLP, DBN,
SAE, dan LSTM. Pendekatan unsupervised diimplementasikan dengan mengusulkan
metode berbasis rule yang memanfaatkan regular expression.
Solusi yang diusulkan untuk keperluan ekstraksi relasi antarobjek ini adalah model
pendekatan berbasi rule. Seperti halnya pendekatan ekstraksi entitas medis dari korpus
label obat Nasional, pendekatan unsupervised ini diimplementasikan dengan
memanfaatkan regular expression. Ekstraksi interaksi antarobat menggunakan pendekatan
bi-clustering dengan representasi data kategoris. Pada penelitian ini diusulkan modifikasi
hamming-distance sebagai acuan untuk melakukan bi-clustering. Untuk menguji metode
yang diusulkan ini digunakan dua jenis dataset binary categorical data yaitu dataset
sintetis dan dataset engekstraksi relasi antarobjek obat dan kandungan obat dari dataset
korpus label obat Nasional.
Pendekatan supervised learning juga digunakan untuk mengidentifikasi ada atau tidak ada
DDI dalam kalimat dalam open dataset DrugBank. Tantangan utama dalam penyelesaian
permasalahan identifikasi DDI ini adalah bagaimana merepresentasikan data dari kalimat
medis yang secara struktur sintak maupun dimensinya sangat bervariasi. Pendekatan yang
dilakukan pada penelitian ini adalah dengan hanya memilih jenis kata yang memberikan
1-14
arti secara semantik pada kalimat tersebut. Jenis kata yang diasumsikan memberikan arti
adalah kata-kata yang termasuk pada kategori kata kerja atau kata sifat.
1.6.4 Hasil Eksperimen
Hasil eksperimen untuk masing-masing aktivitas penyelesaian sub permasalahan dibahas
pada bab 4. Untuk ekstraksi nama obat dari teks, secara umum pendekatan supervised
memberikan hasil yang lebih baik. Penerapan pendekatan unsupervised untuk data label
obat menghasilkan nilai f-score di atas 0.9, sementara nilai f-score pendekatan supervised
0.8. Jika dibandingkan dengan metode yang sudah ada, metode bi-clustering yang
diusulkan pada penelitian ini memberikan hasil lebih baik untuk data sintetetis matriks
dengan densitas yang sedang.
1.6.5 Pembahasan
Pembahasan yang disajikan pada bab 5 menjelaskan ringkasan analisi semua eksperimen
yang telah dilakukan. …???
1.6.6 Kesimpulan
Bagian terakhir laporan akhir kesimpulan, keterbatasan dan permasalahan baru, dan
penelitian lanjutan. Kesimpulan berisi penjelasan laporan akhir secara keseluruhan dalam
kaitannya dengan tujuan penelitian. Beberapa keterbatasan pendekatan-pendekatan yang
diusulkan serta permasalahan baru yang timbul dari penelitian ini dikemukan pada subbab
6.2 Keterbatasan dan Permasalahan Baru. Potensi penelitian lanjutan terkait ekstraksi
entitas dan interaksi antar entitas disajikan pada bagian akhir bab ini.
2-1
BAB 2. METODOLOGI PENELITIAN
Pada bagian ini disajikan metode penelitian, tahapan penelitian dan penjelasan masing-masing
tahap penelitian yang sudah dilakukan. Metode penelitian yang digunakan pada penelitian ini
adalah metode eksperimen yang akan menguji efektifitas pendekaan interaksi antarentitas
sebagai teknik reduksi dimensi untuk keperluan document clustering.
2.1. Framework Penelitian
Untuk menyelesaikan penyusunan interaksi antarentitas medis, tahapan-tahapan penelitian
adalah: ekstraksi entitas, ekstraksi relasi antarentitas, dan penyusunan interaksi antarentitas.
Framework penelitian ini disajikan seperti gambar 2-1. Untuk penyelesaian masing-masing
permasalahan dilakukan dengan menggunakan pendekakatan supervised dan unsupervised.
Untuk pendekatan unsupervised, tahap ekstraksi entitas dan relasi entitas digunakan model
rule based yang merupakan adaptasi dan modifikasi dari metode bootstrapping untuk
menghasilkan pola seperti yang diusulkan pada [63], [65], [75]. Modifikasi dan perbaikan
pada penelitian ini adalah pada cara membangkitkan pola baru berdasarkan perhitungan nilai
secara statistik dan penggunaan pengetahuan luar yang tidak tergantung pada Bahasa atau
format, seperti pada usulan sebelumnya seperti yang diajukan oleh Thelen [66]. Sedangkan
pada tahapan penyusunan interaksi antarentitas medis digunakan metode bi-clustering.
Eksperimen pendekatan unsupervised ini dilakukan dengan menggunakan dataset lokal
berupa dokumen label obat.
Pendekatan rule based untuk ekstraksi entitas dan relasi hanya berhasil baik untuk dataset teks
dengan struktur yang cukup teratur. Sementara untuk dataset teks dengan struktur lebih acak
seperti narasi / kalimat bahasa alami, pendekatan rule based tidak sesuai. Oleh karena itu pada
penelitian ini untuk data tidak terstruktur tersebut digunakan pendekatan supervised. Model
supervised yang sudah diimplementasikan sampai dengan saat ini adalah MLP, DBN, SAE,
dan LSTM. Model supervised ini digunakan untuk esktraksi entitas obat dari open dataset
teks. Dataset yang digunakan untuk semua model pembelajaran ini adalah open dataset
DrugBank dan MedLine.
2-2
Gambar 2-1 Kerangka Global Penelitian
2.2. Supervised Learning : Ekstraksi Entitas Medis
Pada ekseperimen ini dilakukan evaluasi terhadap ke tiga teknik representasi data dan teknik
klasifikasi seperti disebutkan di bagian penelitian yang sudah dilakukan, untuk mengekstraksi
entitas nama obat dari dokumen medis. Representasi data pertama dan ke dua disusun dengan
membuat instan dari dataset berupa satu tuple dari 5 vektor token/kata. Pada teknik pertama
tiap token disusun dari deretan token yang disusun dari semua kalimat pada dataset.
Sedangkan pada teknik kedua tiap kalimat diperlakukan sebagai satu deretan dengan padding
di bagian akhir kalimat. Representasi pertama dan ke dua ini dievaluasi dengan menggunakan
NN standard dalam hal ini: MLP, DBN, dan SAE. Representasi ke tiga didasarkan pada
asumsi bahwa susunan kata pada kalimat dokumen medis merupakan sequence. Representasi
data ke tiga dievaluasi menggunakan model Recurrent NN LSTM. Ketiga teknik representasi
data ini didasarkan pada karakteristik nilai vektor word2vect yaitu jarak kosinus dan jarak
euclidian antara vektor token. Selain didasarkan pada karakteristik nilai vektornya, untuk
teknik pertama dan ke dua juga dipertimbangkan distribusi kemunculan token pada data
training. Berdasarkan pertimbangan ini dilakukan tiga skenario uji coba yaitu:
2-3
1. Menggunakan semua token dalam data test
2. Memilih hanya 2/3 bagian dari data test
3. Memilih x/y bagian dari data test dengan (x<y) setelah dilakukan klastering
menggunakna k-means sebanyak y kluster.
Vektor token pada eksperimen ini dibuat dengan menggunakan metode word embedding dari
Mikolov et al [76]. Kontribusi utama dari hasil eksperimen ini adalah:
1. Diusulkan representasi data yang baru dalam mengekstraksi entitas dari kalimat dalam
dokumen yang independen terhadap pengetahuan luar, dan
2. Teknik ekstraksi entitas yang mendasarkan pada karakteristik distribusi kemunculan
kata-kata dalam data training.
Teknik representasi data ini dievaluasi dengan menggunakan open dataset medis dari
DrugBank dan MedLine yang diperoleh dari SemEval 2013 Competition task 9.1
(http://www.cs.york.ac.uk/semeval-2013/task9/). Open dataset ini digunakan juga oleh [33],
[34], [62]. Format kedua dataset medis tersebut merupakan kalimat dalam Bahasa Inggris
yang sebagian dari kalimat tersebut mengandung entitas nama obat. Dari eksperimen yang
telah dilakukan berturut-turut dihasilkan kinerja nilai terbaik f-score 0.6870 untuk MLP,
0.6700 untuk DBN, dan 0.6820 untuk SAE. Sementara penggunaan LSTM pada teknik
represenatsi yang ke tiga menghasilkan kinerja terbaik dengan nilai f-score 0.9430. Rata-rata
nilai f-score teknik ini adalah 0.8645 yang merupakan kinerja terbaik dibandingkan metode-
metode sebelumnya.
Dengan teknik penyusuanan representasi data seperti di atas, usulan pendekatan ini
mempunyai kelebihan-kelebihan:
1. Kemampuan untuk mengidentifikasi satu entitas tunggal yang terdiri dari multi token
2. Tidak tergantung pada pengetahuan luar tertentu yang seringkali tidak tersedia untuk
beberapa kasus bahasa alami
3. Tidak diperlukan hand-crafted feature tambahan seperti : tipe karakter, fitur ortografis
(huruf besar, huruf kecil, atau campuran di antaranya), atau posisi token dalam
kalimat.
2-4
2.2.1 Framework
Secara umum usulan pendekatan ini terdiri dari 2 tahapan utama. Tahap pertama adalah
representasi data untuk memformulasikan fitur token. Tahap selanjutnya adalah training
model, testing dan evaluasi hasil uji coba. Keseluruhan pendekatan yang diusulkan
diperlihatkan seperti gambar 2-2.
Gambar 2-2 Framework eksperimen ekstraksi nama obat pada MedLine & DrugBank
Pada tahap formulasi fitur terdapat sub tahapan word2vect training untuk menghasilkan
vektor token. Pada tahap ini dilakukan dua skenario eksperimen training word2vect
berdasarkan kuantitas dataset yaitu: a. hanya menggunakan dataset untuk training
word2vect, dan b. menambahkan kamus wiki
(https://code.google.com/archive/p/word2vec/). Dua skenario ini digunakan untuk melihat
dampak perbedaan volume data training. Pada sub tahapan penyusunan format data
dilakukan dilakukan tiga skenario eksperimen. Teknik pertama dan kedua diterapkan pada
model NN standard yaitu MLP, DBN, dan SAE. Eksekusi eksperimen ini dilakukan dengan
menggunakan library matlab deep-learning master tools box [77] yang didownload dari
https://github.com/rasmusbergpalm/DeepLearnToolbox.
Pada eksperimen representasi data ke tiga, keseluruhan kalimat diperlakukan sebagai
sequence. Model yang digunakan adalah RNN- LSTM. Berdasarkan hasil kinerja pada
teknik pertama dan kedua, penambahan kamus wiki pada saat training word2vect
menghasilkan akurasi yang lebih baik. Oleh karena itu maka pada eksperimen ke tiga hanya
digunakan representasi vektor token dari data hasil training dengan menambahkan kamus
wiki tersebut. Untuk eksperimen LSTM ini digunakan modifikasi library LSTM dari Otte
et.el [78].
2-5
2.2.2 Analisis Data Training
Secara umum baik pada dataset DrugBank maupun MedLine, kuantitas token nama obat
sebagai target jauh lebih banyak dibandingkan dengan token non-obat. Segura et al [79]
menyajikan kondisi statistik data secara umum. Eksplorasi lebih rinci dari karakteristik
data training disajikan pada bagian ini. Kalimat-kalimat pada data training MedLine
mengandung 25.783 token yang terdiri dari 4.003 token unik. Distribusi kemunculan
token-token unik ini tidak seragam tetapi didominasi oleh bagian kecil dari token unik
tersebut. Jika semua token unik disusun terurut berdasarkan banyaknya kemunculan pada
kalimat-kalimat, distribusi kuartilnya diperlihatkan seperti pada gambar. Q1
merepresentasikan token nomer 1 s.d. 1001 dengan total kemunculan sebanyak 20.688, Q2
merepresentasikan token nomer 1002 s.d 2002 dengan total kemunculan sebanyak 2.849,
Q3 merepresentasikan token nomer 2003 to 3002 dengan total kemunculan sebanyak
1.264, and Q4 merepresentasikan token nomer 3003 to 4003 dengan total kemunculan
sebanyak 1.000. Dapat disimpulkan bahwa mayoritas kemunculan didominasi oleh
sebagian kecil dari keseluruhan token.
Gambar 2-3 Distribusi token pada data training MedLine
Analisis lebih lanjut atas data traininig menunjukkan bahwa hampir semua token nama
obat sangat jarang muncul. Jika kumpulan token dalam data training dikelompokkan
menjadi tiga bagian berdasarkan jumlah kemunculan hasilnya seperti diperlihatkan pada
tabel 2-1.
2-6
Tabel 2-1 Frekuensi kemunculan token pada masing-masing 1/3 posisi, MedLine
Nama obat sebagai target terdapat pada 2/3 bagian dengan kemunculan token yang lebih
sedikit. Pola yang sama untuk data training the DrugBank seperti ditunjukkan pada gambar
2-3 dan tabel 2-2. Jika dilihat lebih jauh pada distribusi token terlihat bahwa hampir semua
target nama obat terdapat pada 1/3 bagian yang paling jarang muncul. Hal ini dapat
dipahami, karena pada 2/3 bagian yang lain merupakan token dari kata-kata yang umum
seperti stop words ("of", "the", "a", "end", "to", "where", "as", "from", and such kind of
words) atau token-token untuk kata yang umum dalam domain medis seperti:
"administrator", "patient", "effect", "dose", dan lain-lain.
Gambar 2-4 Distribusi token pada data training DrugBank
Tabel 2-2 Frekuensi kemunculan token pada masing-masing 1/3 posisi, DrugBank
2-7
2.2.3 Analisis Word Embedding
Untuk merepresentasikan dataset digunakan training model word embeding (word2vect)
seperti yang diusulkan oleh Mikolov et al. [72]. Training untuk word2vect dilakukan
setelah kalimat-kalimat dalam kedua dataset digabung. Skema training word2vect yang
digunakan adalah model CBOW, dengan panjang jendela konteks 5, dan dimensi vektor
masing-masing token 100. Setelah dilakukan training atas kumpulan kata pada korpus,
dapat diestimasi kemiripan atau ketidakmiripan antarkata tersebut. Ringkasan analisis atas
hasil representasi word2vect yang digunakan sebagai acuan dalam penyusunan teknik
representasi data tersebut dibahas pada bagian ini.
Dengan mengambil sebagian sampel vektor target nama obat dan non nama obat,
diperlihatkan bahwa vektor token nama obat memiliki kemiripan (berdasarkan jarak
kosinus) lebih dekat dengan vektor token nama obat lainnya dibandingkan dengan vektor
token non obat. Demikian juga vektor token non obat lebih mirip dengan vektor non obat.
Beberapa contoh kasus kemiripan tersebut disajikan pada tabel 2-3. Analisis juga dilakukan
dengan menghitung jarak euclidian dari antara token. Tabel 2-4 menunjukkan jarak
euclidian rata-rata dan jarak kosinus rata-rata antara obat-obat, obat non obat, dan non obat-
non obat. Jarak rata-rata tersebut menunjukkan bahwa secara intuitif dapat dilakukan
pengelompokan / pemisahan antara grup obat dan grup non obat berdasarkan representasi
nilai vektornya.
Tabel 2-3 Beberapa kemiripan jarak kosinus antardua jenis token
2-8
Tabel 2-4 Rata-rata jarak Euclidian dan kosinus di antara dua grup token
2.2.4 Representasi Fitur dan Format Data
Berdasarkan analisis karakteristik data training dan word embedding di atas, dilakukan
formulasi representasi dan format data. Teknik pertama dan ke dua dilakukan dengan
menyusun formasi satu data masukan sebagai model N-gram dengan N=5. Panjang tuple 5
token ini digunakan untuk mengantisipasi banyaknya token maksimum, yaitu 5, yang
mewakili satu entitas tunggal nama obat. Untuk mengidentifikasi satu input data apakah
sebagai obat atau non obat, digunakan skema multi klasifikasi yang mengklasifikasikan satu
input data ke dalam 1 di antara 6 kelas. Kelas nomer 1 mewakili deretan 5 token bukan nama
obat, sementara kelas-kelas yang lain merepresentasikan nama obat sekaligus berapa banyak
token penyusunnya.
2.2.4.1 Teknik Pertama
Teknik pertama disusun dengan cara sebagai berikut. Pada tahap pertama semua kalimat
dalam dataset disusun sebagai satu deretan token. Misalnya deretan token tersebut adalah : t1
t2 t3 t4 t5 t6 t7 t8...tn dengan n adalah banyaknya token dalam deretan, maka format dataset
adalah berturut-turut : t1 t2 t3 t4 t5;t2 t3 t4 t5 t6;…..tn-4 tn-3 tn-2 tn-1 tn. Beberapa contoh
kalimat dan nama obat yang terkandung di dalamnya disajikan pada tabel 2-5. Diambil dari
training dataset DrugBank, tabel 2-6 merupakan data awal dari dataset dengan contoh 3 kolom
yang relevan dengan penelitian ini yaitu: sentences, character drug position, dan drug name.
Tabel 2-6 memberikan ilustrasi beberapa dataset dan labelnya sebagai hasil dari data asal tabel
2-5. Dalam dataset, mengacu pada kolom drug name, tuple dataset nomor 6 diidentifikasi
sebagai obat, sementara tuple dataset lain diklasifikasin sebagai token non obat. Ilustrasi lebih
lengkap untuk tuple-tuple dataset hasil dari teknik pertama disajikan seperti tabel 2-7.
2-9
Tabel 2-5 Contoh kalimat pada data training dan nama obat yang terkandung di
dalamnya
Tabel 2-6 Beberapa formulasi tuple dataset DrugBank hasil teknik pertama
Tabel 2-7 Representasi tuple dataset teknik pertama dan labelnya
2.2.4.2 Teknik Ke Dua
Teknik ke dua dilakukan dengan cara yang sama seperti pada teknik pertama dengan
perbedaan pada perlakuan terhadap kalimat-kalimat dalam dataset. Teknik ke dua disusun
dengan memperlakukan tiap kalimat sebagai satu deretan dengan menambahkan padding
2-10
karakter“*” pada akhir deretan. Penambahan padding ini dilakukan agar tetap mengikutkan
semua token dengan panjang tuple tetap 5. Dengan penerapan teknik ke dua ini contoh tuple
yang dihasilkan seperti tabel 2-8.
Tabel 2-8 Contoh representasi data teknik yang ke dua
2.2.4.3 Teknik Ke Tiga
Secara alami kalimat dalam bahasa manusia merupakan pola sequence yang kata-kata pada
posisi saat ini (current position) dipengaruhi oleh kata sebelumnya. Dari analisis nilai
word2vect secara intiuitif grup token obat dan grup token non obat dapat dipisahkan
berdasarkan jarak euclidian-nya. Oleh karena itu jarak euclidian digunakan untuk
merepresentasikan pengaruh dari token sebelumnya terhadap token saat ini. Dataset masukan
ke xi direpresentasikan sebagai [xvi xdi] yang merupakan vektor hasil konkatenasi antara nilai
word2vect xvi dan jarak euclidian dengan token sebelumnya, xdi. Setiap x merupakan vektor
baris dengan panjang 200. Nilai 100 pertama adalah word2vector dan 100 sisanya adalah nilai
jarak euclidian dengan token sebelumnya. Untuk token pada posisi pertama semua nilai xdi =
0. Dengan menggunakan model LSTM penyelesaian permasalahan ekstraksi nama obat dari
dokumen medis adalah klasifikasi biner yang diterapkan pada tiap token dalam sequence.
Formulasi sequence token dan kelas masing-masing disajikan seperti tabel 2-9. Setiap kata
yang merepresentasikan nama obat seperti 'plenaxis', 'cytochrome', and 'p-450,' diidentifikasi
sebagai 1, sementara token yang lain diidentifikasi sebagai 0.
Tabel 2-9 Contoh representasi data teknik yang ke tiga
2-11
2.2.5 Pemilihan Kandidat Nama Obat
Dalam dataset training token yang diidentifikasi sebagai entitas nama obat hanya
merupakan sebagian kecil dari keseluruhan token. Pada data uji MedLine kuantitas token
obat hanya 171 dari 2.000 (kurang dari 10%), sementara pada DrugBank 180 dari 5.252
[12]. Secara umum dapat dilihat bahwa sebagian besar token merupakan token non obat
dan token pengganggu (noise) sepert stop word, karakter khusus atau karakter numerik.
Berdasarkan kondisi ini maka juga diusulkan skenario pemilihan kandidat obat untuk
mengeliminiasi noise. Dilakukan dua mekanisme pemilihan kandidat obat yaitu: pemilihan
berdasarkan distribusi kemunculan pada data training, dan dipilih x/y bagian dari token
yang sudah dikluster. Pada skenario pertama, hanya 2/3 bagian token yang muncul pada
2/3 bawah seperti tabel 2-1 dan tabel 2-2, sementera pada skenario kedua, dipilih x/y (x <
y) bagian dari total token setelah token-token diklaster ke dalam y kelompok.
2.2.6 Dataset
Untuk validasi pendekatan yang diusulkan digunakan open dataset DrugBank dan
MedLine (http://www.cs.york.ac.uk/semeval-2013/task9/) yang juga digunakan pada
studi-studi sebelumnya. Sebagai dataset tambahan juga digunakan dokumen label obat
yang diperoleh dari situs-situs produsen obat dan BPOM yaitu :
1. http://www.kalbemed.com/,
2. http://www.dechacare.com/
3. http://infoobatindonesia.com/obat/
4. http://www.kalbemed.com/
5. http://www.dechacare.com/
6. http://infoobatindonesia.com/obat/, and
7. http://www.pom.go.id/webreg/index.php/home/produk/01.
2-12
2.3. Unsupervised: Ekstraksi Entitas Medis
2.3.1 Analisis Data
Dataset yang digunakan sebagai kasus penyelesaian ekstraksi interaksi antarentitas ini
berupa dokumen-dokumen label obat yang diperoleh dari berbagai situs
produsen/distributor obat dan BPOM. Label obat berisi informasi-informasi yang generik
antara lain: nama obat, kandungan obat, dosis, indikasi, kontra indikasi, dan peringatan.
Dilihat dari format teksnya, struktur susunan tokennya relatif teratur. Struktur yang relatif
teratur ini kurang lebih mengikuti pola tertentu. Hal inilah yang menjadi pertimbangan
penggunaan rule based.
2.3.2 Objektif
Pada uji coba rule based learning tahap pertama ditujukan untuk mengekstraksi objek
utama berupa nama obat. Pembelajaran pola diterapkan pada dataset berupa dokumen label
obat untuk obat-obatan yang beredar di Indonesia. Untuk memandu pembelajaran guna
mendapatkan pola, digunakan pengetahuan luar berupa koleksi kata dalam Indonesian
WordNet yang dipublikasikan oleh PAN Localization project. Indonesian WordNet
merupakan kumpulan lebih dari 1.000.000 kata dalam Bahasa Indonesia yang
dikumpulkan dari berbagai sumber seperti : agensi kantor berita, penerbit media daring,
blog internet, situs-situs web, dll. Karena berdasarkan asumsi bahwa nama obat yang
beredar di Indonesia sebagian besar yang unik dan tidak umum digunakan dalam
penggunaan dalam Bahasa Indonesia sehari-hari, maka digunakan WordNet Indonesia
sebagai panduan untuk menentukan apakah kata tertentu adalah nama obat atau bukan.
Framework ekstraksi objek nama obat diilustrasikan dalam gambar 2-5. Masukan lain dari
kerangka kerja ini di samping WordNet adalah pola awal (initial pattern) yang dimasukkan
secara manual.
Gambar 2-5 Contoh Penerapan Pengetahuan Luar Umum Pada Ekstrasksi Relasi Obat
2-13
2.3.3 Pembangkitan Pola (Pattern Generation)
Untuk mengekstraks relasi objek didefinisikan relasi antarobjek seperti yang diilustrasikan
pada gambar 2-6. Suatu relasi terdiri satu objek utama dan satu atau lebih objek
pendukungnya. Dalam dokumen tertentu hubungan antara objek utama dan objek
pendukungnya ditandai dengan istilah relasi. Istilah relasi adalah kata tertentu, umumnya
kata kerja, yang menggambarkan hubungan apa yang terdefinisi antara objek utama dan
objek pendukungnya. Misalnya dalam obat dokumen label obat-obat, nama obat adalah
objek utama, komponen/kandungan kimia adalah objek pendukung, dan "komposisi" atau
“kandungan” adalah istilah relasi.
Gambar 2-6 Representasi Relasi AntarObjek
Pada pembangkitan pola ini baik objek utama maupun objek pendukung diidentifikasi
sebagai suatu target yang dikeliling oleh pola frase tertentu (regular expression/regex).
Dengan demikian untuk tiap target diapit oleh regex kiri dan regex kanan. Secara
bersamaan regex kiri dan regex kanan objek utama membentuk regex kiri pola secara
keseluruhan. Sedangkan regex kiri dan regex kanan objek-objek pendukung membentuk
regex kanan pola secara keseluruhan. Seperti disebutkan sebelumnya, pada pendekatan ini
pola disusun dengan mengidentifikasi target berupa frase yang tidak ada di daftar
WordNet. Sekali frase tersebut diidentifikasi, maka frase-frase lain yang terletak di sekitar
target tersebut digunakan sebagai regex dari calon pola (candidate pattern).
2.3.3.1 Pemilihan Pola (Pattern Selection)
Dengan mekanisme pemilihan pola seperti dijelaskan sebelumnya, maka kandidat pola
yang diperoleh bisa sangat banyak tergantung banyaknya data training. Jika semua
kandidat pola digunakan sebagai pola dan diterapkan pada data uji, maka banyaknya pola
tersebut akan mengakibatkan penggunaan sumber daya komputasi yang berlebih. Untuk
mereduksi kebutuhan sumber daya komputasi dipilih hanya kandidat-kandidat pola yang
memenuhis syarat kuantifikasi tertentu. Syarat kuantifikasi ini direpresentasikan dengan
suatu nilai pola (pattern score). Pattern score ini ditentukan berdasarkan probabilitas
kemunculan regex kiri maupun regex kanan yang mengelilingi / di sekitar target. Paragraf-
2-14
paragraf berikut menyajikan penjelasan teknik dan representasi formal terkait pattern
scoring. Pada penelitian ini telah dilakukan dua teknik pembobotan untuk mendapatkan
nilai pola.
2.3.3.2 Pembobotan Pola (Pattern Scoring) #1
Definisi
Setiap pola terdiri dari Left Tuple (LT), Relation-Term, dan Right Tuple (RT)
LT-L = {(lt-l)1, (lt-l)2,.... (lt-l)n}; (lt-l)j adalah regex ke j dari left-tuple
N = banyaknya LT-L, N >= n ; N = n jika (flt-l)j = 1 untuk 0<j≤ n
(flt-l)j = frekuensi (lt-l)j pada data training, maka
Pj(lt-l) =(flt-l)j /N , ∑ 𝑃𝑗𝑁𝑗 = 1 (1)
LT-R = {(lt-r)1, (lt-r)2,. .. (lt-r) m}; (lt-r)i adalah regex ke k dari right-tuple
M = banyaknya LT-R, M >= m; M = m if (flt-r)k = 1 for 0<k ≤ m
(flt-r)k = frekuensi of (lt-r)k pada data training, maka
Pk(lt-r) =(flt-r)k /M , ∑ 𝑃𝑘𝑀𝑘 = 1 (2)
Pattern Scoring (PS) Tupple Probabilities = Join probabilities dari regex kiri dan regex
kanan. Untuk tupel kiri, skor pola dihitung dengan:
PSi = Pi (Left-Tuplei) = Pj(lt-l) * Pk(lt-r) ; ∑ 𝑃𝑆𝑖𝑛∗𝑚𝑖 = 1 (3)
∀i, i {1,2...n*m}; ∀j, j {1,2...n} ; ∀k, k {1,2...m};
2.3.3.3 Pembobotan Pola (Pattern Scoring) #2
Teknik pembobotan pola berikutnya yang diusulkan pada penelitian ini adalah dengan
melakukan penyesuaian (adjustment) pada persamaan (3). Dengan memperlakukan left
regex dan right regex sebagai peubah yang saling independen satu dengan lainnya seperti
persamaan di atas, pola kiri -yang mengitari target objek utama- yang bisa diperoleh
sebanyak J * K, dengan J adalah maksimum banyaknya left regex dari left tuple dan K
maksimum banyaknya right regex pada left tuple. Pada teknik yang ke dua ini tidak semua
right regex dipasangkan dengan tiap left regex, melainkan beberapa right regex
diapasangkan dengan left regex tertentu. Formulasi untuk kasus ini kurang lebih seperti
conditional probabilities. Definisi formal teknik yang kedua ini, PSi, adalah:
PSi = Pi((lt-l)j|(lt-r)k) , ∑ 𝑃𝑆𝑖𝑠𝑖 = 1 (4)
∃i, i {1,2...n*m}, i≤s≤ n*m; ∀j, j {1,2...n} ; ∃k, k {1,2...m},k≤ m;
2.3.3.4 Algoritme
2-15
Berdasarkan framework ekstraksi objek dan teknik pembobotan pola sebelumnya,
algoritme yang digunakan untuk membangkitkan pola menggunakan dataset training
disajikan pada sub bab ini. Digunakan blok algoritme yang sama untuk kedua teknik
pembobotan sebelumnya, perbedaan hanya pada blok mekanisme update score. Algoritme
yang disajikan pada bagian berikut berdasarkan teknik pembobotan yang ke dua.
Input (training_set, WordNet, initialPattern)
Output (NewPatternList <Left_Regex, Target, Right_Regex, Prob. of
Pattern>)
Algorithm
NewPatternList Null
for all documents in training_set do
if the document contains initialPattern.relation-term
then
Get-term-in left of relation-term that is
not in WordNet
Get Left_Regex, count its frequency
Get Right_Regex, count its frequency for
the Left_Regex
for all pairs of Left_Regex and Right_Regex do
Perform NewPatternList and Calculate P(R|L)
Reorder on P(R|L) New Pattern in NewPatternList
Output NewPatternList
2.4. Unsupervised : Ekstraksi Relasi Entitas
Pada studi ekstraksi relasi antarobjek ini didasarkan pada pendefinisian konsep relasi antara
objek utama (Main Object/MO) dan objek pendukungnya (Supporting Object/SO).
Keberadaan objek pendukung tergantung pada keberadaan objek utama, namun tidak
sebaliknya. Dengan demikian dalam satu dokumen tidak dimungkinkan ada SO jika tidak ada
MO. Sebaliknya bisa terjadi ada MO tanpa diperlukan adanya SO. Contoh nyata kasus ini
adalah pada dokumen label obat. Nama obat adalah objek utama sedangkan kandungan obat,
indikasi, kontra indikasi, atau kegunaan obat merupakan objek pendukung. Untuk dokumen
brosur pemasaran produk, nama produk yang dipasarkan adalah objek utama. Sedangkan
objek pendukungnya antara lain spesifikasi produk, dimensi produk, atau harga dasar. Contoh
lain untuk dokumen kartu keluarga, objek utama adalah kepala keluarga sedangkan anggota
keluarga yang lain adalah objek pendukung.
2-16
Bagian ini merupakan kelanjutan dari riset sebelumnya. Jika pada riset sebelumnya, bagian
2.3, hanya mengekstraksi objek utama, maka pada bagian ini objektif risetnya adalah untuk
membangun model yang dapat diterapkan untuk keperluan melakukan ekstraksi MO dan SO.
Uji coba dilakukan untuk mengekstraksi nama obat dan kandungan obat dari kumpulan
dokumen label obat yang diunduh dari internet. Untuk keperluan ini digunakan pembelajaran
pola berdasarkan ekspresi regular teks di sekeliling teks entitas yang menjadi target. Untuk
membangkitkan pola dari data training yang akan diterapkan pada data testing, digunakan
WordNet Bahasa Indonesia sebagai pengetahuan luar.
2.4.1 Objektif
Objektif dari serangkaian penelitian ini adalah untuk mendapatkan estimasi potensi
interaksi antara entitas yang diekstraksi dari data semi terstruktur (dokumen) berdasarkan
relasi antarentitas tersebut. Pada penelitian ini objek sinonim dengan entitas, karena dari
sisi definisi entitas merupakan objek atau sekumpulan objek dalam dunia nyata [80]. Untuk
mendapatkan hasil keluaran yang dimaksud, didefinisikan suatu releasi antara objek utama
(Main Object/MO) dan objek pendukung (Supporting Object/SO). Pada konteks relasi
seperti ini, sebagai MO misalnya adalah penjual, pembeli, atau nama obat dan lain
sebagainya. Sementara SO adalah produk atau jasa yang djual atau dibeli, atau kandungan
obat jika MO nya nama obat.
2.4.2 Pattern Learning Untuk Ekstraksi Objek dan Relasi AntarObjek
Melanjutkan eksperimen seperti dijelaskan pada bagian 2.3., pada uji coba ini ekstraksi
objek dan relasinya dilakukan untuk mengekstraksi obat dan kandungan-kandungannya
dari dokumen label obat-obatan yang didistribusikan di pasar Indonesia. Digunakan
WordNet Bahasa Indonesia seperti dipublikasikan di proyek PAN Localization sebagai
pengetahuan luar. Framework ekstraksi objek dengan relasinya diiulustrasikan seperti
gambar 2-7. Masukan lain untuk Pattern Learning, selain WordNet adalah pola awal
(initial pattern) yang dibuat secara manual. Pola awal ini harus mengandung kata-kata
yang merepresentasikan relasi. Dalam Bahasa Indonesia, contoh kata yang
merepresantasikan relasi antara nama obat dan komponen kandungan obatnya, misalnya:
“kandungan” atau “komposisi”. Pola awal disusun dengan format:
Pola awal := <pola-kiri>###<kata-relasi>#<pola-kanan>
<pola-kiri>:=<nomor-pola>####(pola target MO)#<kemunculan pola>#<bobot pola>#####
<kata-relasi>:=komposisi\s*|kandungan\s*
2-17
<pola-kanan>:=#0#0#####(pola target SO)#<no pattern bagian kiri>#<probabilitas
kemunculan pola>
Contoh daftar pola awal yang digunakan pada eksekusi eksperimen ini sebagai berikut:
1####.*#1#0##-###kandungan\s*#0#0###-##(.*)#1#0
0####.*#1#0##-###komposisi\s*#0#0###-##(.*)#1#0
2####.*#1#0##-###kandungan\s*#0#0###-##(.*\d+\s+\w+\s+\w+)#1#0
3####.*#1#0##-###kandungan\s*#0#0###-##(.*\d+\s+\w+)#1#0
Gambar 2-7 Framework ekstraksi MO-SO
2.4.3 Pembentukan Pola Relasi
Definisi formal relasi pada penelitian ini adalah :
M merupakan sekumpulan main objek, M = {m1, m2,…. mp}
Si himpunan objek pendukung untuk main objek mi, Si = {si1, si2,…. sic}
Suatu relasi ri didefinisikan sebagai kumpulan tupel: ri (mi, Si) dan R sekumpulan relasi: R
= {r1, r2,…… rn}, dengan mi M, sik Si dan ri adalah relasi mi dengan sik.
Contohnya pada relasi antara nama obat dan kompoenen obat, instance dari skema relasi
tersebut adalah:
mi = vomilat; si = {vitamin b6, piridoksin hcl, folat acid} and ri = “komposisi”, dan relasi
tersebut bisa dibaca sebagai “Nama obat vomilat mengandung vitamin b6, piridoksin hcl,
dan folat acid “
Baik untuk objek utama maupun objek pendukung, keduanya diidentifikasi sebagai kata
target yang diapit oleh ekpresi reguler (regex) tertentu. Regex tersebut disusun atas regex
2-18
bagian kiri dan regex bagian kanan. Pola keseluruhan merupakan bentukan dari regex
bagian kiri dan regex bagian kanan. Seperti dijelaskan pada bagian sebelumnya,
pendekatan ini membangkitkan pola dengan cara mengidintifikasi kata tertentu yang tidak
ada di WordNet Indonesia. Jika kata tertentu yang memenuhi kriteria tersebut ditemukan,
maka string literal yang mengapit kata-kata tersebut digunakan untuk sebagai regex dan
regex tersebut diidentifikasi sebagai kandadidat pola.
2.4.4 Pemilihan Pola
Pemilihan pola dilakukan dengan cara pembobotan berdasarkan probabilitas kemunculan
pola dari data training. Seperti dijelaskan pada bagian 2.3.2, prioritas pola disusun
berdasarkan nilai probabilitas yang dihasilkan dari condionally probability antara pola
bagian kiri dan pola bagian kanan. Masing-masing pola kiri, target, pola kanan dihitung
nilai probabilitasnya, kemudian berturut-turut dihitung pola bagian kiri relasi dan pola
bagian kanan relasi. Kedua bagian tersebut pada akhirnya digunakan untuk membentuk
pola akhir sebagai berikut.
Skor pola bagian kiri relasi
Definisi formal skor pola bagian kiri relasi, L-PSi, adalah:
L-PSi = Pi((lt-l)j|(lt-r)k) , (3)
∃i, i {1,2...n*m}, i≤s≤ n*m; ∀j, j {1,2...n} ; ∃k, k {1,2...m},k≤ m;
Skor pola bagian kanan relasi
Skor pola bagian kanan, R-PS, diturunkan dengan cara yang sama dengan L-PS
sebelumnya. Definisi akhir skor pola bagian kanan relasi, R-PSi, adalah:
R-PSi = Pi((rt-l)j|(rt-r)k) (4)
Dan skor keseluruhan pola, PS adalah :
PSi = Pi((L-PS)j|(R-PS)k) (5)
2.5. Unsupervised : Categorical Data Bi-Clustering
2.5.1 Ruang Sampel Data Terkategoris
Mengacu kepada Peng Zhang [81], Adendberg menyatakan bahwa hanya ada dua nilai
untuk membedakan dua atribut dalam sampel data terkategori yaitu sama atau tidak sama.
Dengan demikian jika ada dua sampel X1 dan X2, maka dua nilai tersebut adalah salah satu
di antara X1 = X2 atau (exclussive or) X1 X2, Xi adalah parameter pengukuran atribut
2-19
untuk sampel ke i. Instansiasi attribut tersebut adalah gender yang hanya bisa bernilai salah
satu di antara laki-laki atau perempuan.
Secara umum, jika misalnya terdapat sebanyak p untuk sampel tertentu dan atribut ke j,
1<=j <=p, terkategori ke dalam mj yang merupakan himpunan bagian dari himpunan level
attribut Aj = {aj1..ajm}, maka ruang sampel data terkategori didefinisikan sebagai :
= A1 A2 …. Ap, dengan ajl dinyatakan sebagai state atau modalitas.
Himpunan data terkategorisasi
X = (x1, x2, …..xn)T, xi= (ai1, ai2, …..aip), i = 1,2,…n;
n = banyaknya sample,
p = banyaknya attribute untuk tiap sample. aij Aj.
Untuk data terkategori dengan setiap attributnya hanya bernilai satu di antara dua {0,1}
atau {T,F}, disebut dengan data kategori biner. Dan untuk data katogori biner maka Aj
{0,1}.
2.5.2 Hamming Distance Untuk Penyusunan Kelompok Sampel
Hamming Distance (HD), untuk binary categorical data
𝑑(𝑥𝑖𝑞 , 𝑥𝑗𝑞 ) = {0, 𝑥𝑖𝑞 = 𝑥𝑗𝑞
1, 𝑥𝑖𝑞 ≠ 𝑥𝑗𝑞
dij= 𝑑(𝑥𝑖 , 𝑥𝑗 ) = ∑ 𝑑(𝑥𝑖𝑞 , 𝑥𝑗𝑞 )𝑞=𝑝𝑞=1 , 0<= dij<= p
Definisi (1)
C = (c1, c2, …..cp), Cj {0,1}, dan C ∈ X adalah center dari sample X jika :
∑ 𝑑(𝐶, 𝑋) = 𝑎𝑟𝑔𝑚𝑖𝑛(𝑠 ∈ 𝑋) ∑ 𝑑(𝑠, 𝑋)
Proof
Center adalah elemen yang paling banyak mempunyai kesamaan attribut dengan
semua elemen yang lain dalam X, maka 𝑐𝑞 paling sering muncul pada posisi q
untuk semua xi , maka 𝑑(𝑐𝑞 , 𝑥𝑖𝑞) minimal dan karenanya ∑ 𝑑(𝐶, 𝑋) minimal.
Definisi (2)
R ∈ X adalah acuan (based reference) jarak untuk semua elemen sample xi ∈ X, i
∈ {1,2, … 𝑛}
2-20
D = (0, 1, 2….p) adalah vector jarak yang mungkin untuk semua si ∈ terhadap
R sembarang
d = (d0, d1, d2….dq) D adalah vector jarak actual dari semua xi ∈ X terhadap R
sembarang, dengan d0 < d1 < d2….dq.
Jika ditentukan bahwa R=C, dan
Vdt X adalah koleksi sample xi ∈ X yang berjarak dt terhadap R , i ∈ {1,2, … 𝑛}, t ∈
{1,2, … 𝑞}, maka
1. Karena semua xi ∈ Vdt berjarak sama terhadap R maka semua xi ∈ Vdt
kemungkinan besar paling mirip satu sama lainnya dibandingkan dengan xk ∉ Vdt,
atau dengan xk yang berjarak tidak sama terhadap R.
2. Berdasarkan no 1, maka banyaknya kandidat kluster = dengan banyaknya dt = |dt|
dengan Vdt {} dan max (|dt|) = q
2.5.3 Pembobotan Untuk Kondisi Ekstrim
Jika misalnya R = (0,0,0,0,0), dan xi = (1,1,0,0,0) dan xk = (0,0,1,1,0) maka dengan
perhitungan jarak acuan seperti di atas, akan menghasilkan jarak R-xi = R-xk,, dan akan
menghasilkan xi = xk, sementara kedua sampel tersebut aktualnya sama sekali berbeda.
Untuk menangani kondisi ekstrim seperti ini, maka pada usulan pendekatan ini perhitungan
jarak tersebut disempurnakan dengan pemberian bobot. Pemberian bobot dilakukan
dengan mempertimbangkan posisi attribut yaitu posisi paling kiri diberikan bobot paling
besar. Dengan pembobotan ini, maka perhitungan Hamming Distance menjadi :
𝑑(𝑥𝑖𝑞 , 𝑥𝑗𝑞 ) = {0 + 1/𝑞, 𝑥𝑖𝑞 = 𝑥𝑗𝑞
1, 𝑥𝑖𝑞 ≠ 𝑥𝑗𝑞
2.5.4 Penyusunan Kelompok Tahap Berikutnya
Tugas berikutnya setelah menyusun kandidat kelompok (klaster) adalah bagaimana
menyusun kandidat kelompok tersebut ke dalam kelompok lebih besar dengan anggota
lebih banyak dan banyak kelompok lebih sedikit. Teknik untuk menyelesaikan tugas
tersebut dijelaskan pada bagian berikut.
Jika diatur sedemikian rupa sehinga d0 < d1 < d2<……dq, maka Vdt paling mungkin
bergabung dengan Vdt-1 atau Vdt+1 , berdasarkan kondisi berikut :
1. Jika dt-dt-1 < dt+1-dt Vdt bergabung dengan Vdt-1
2. Jika dt-dt-1 > dt+1-dt Vdt bergabung dengan Vdt + 1
2-21
3. Jika dt-dt-1 = dt+1-dt Ditentukan “kedekatan” Vdt apakah ke Vdt-1 atau Vdt + 1
Kemudian disusun
Y = (y1,..y2…yq)T
Yj = (dj, wj), j ∈ {1,2, … 𝑞}
𝑤𝑗 = {𝑑𝑗−1, 𝑘𝑎𝑠𝑢𝑠 1
𝑑𝑗+1, 𝑘𝑎𝑠𝑢𝑠 2
Kasus no 3, ditentukan sample dan attribute baru untuk masing-masing Vdt.
Y = (y1,..y2…yq)T
Yj = (dj, wj), j ∈ {1,2, … 𝑞}
𝑤𝑗 = {𝑑𝑗−1, 𝑦𝑖 ~ 𝑘𝑒 𝑦𝑖−1
𝑑𝑗+1, 𝑦𝑖 ~ 𝑦𝑖+1
~ : lebih dekat, dihitung dengan :
1. Hitung bobot jarak dt-1 = f(d(vdt, vdt-1)) , untuk semua vdt ∈ Vdt untuk semua vdt-1 ∈
Vdt-1
2. Hitung bobot jarak dt+1 = f(d(vdt, vdt+1)) , untuk semua vdt ∈ Vdt untuk semua vdt+1
∈ Vdt+1
if dt-1 < dt+1 𝑦𝑖 ~ 𝑘𝑒 𝑦𝑖−1, else 𝑦𝑖 ~ 𝑦𝑖+1
Untuk membentuk kelompok berikutnya yang lebih besar, selanjutnya diselesaikan dengan
hirarchical clustering (agglomerative clustering) terhadap :
Y = (y1,..y2…yq)T
Yj = (dj, wj), j ∈ {1,2, … 𝑞}
2.6. Categorical Data Bi-Clustering
2.6.1 Objektif Bi-Clustering
Definisi
S = {s1,s2…sm}, himpunan sample
G = {g1,g2,….gn}, himpunan attribute/properti
Objektif Bi-Clustering:
Menemukan sekumpulan (K) Bi-Set B = {b1, b2…bK} , bi = (Si, Gi), Si S, Gi G
merupakan sekumpulan sample si yang dipengaruhi (mengandung) oleh sekumpulan
property Gi. bi didefinisikan sebagai vektor boolean:
<si>,<gi>= < si1 ,si2 , ….sim>,< gi1 ,gi2 , ….gin>,
2-22
sik =1, jika sk Si , atau 0 jika tidak
gik =1, jika gk Gi , atau 0 jika tidak
Misalnya terdapat data awal seperti berikut
g1 g2 g3 g4 g5
s1 1 1 0 1 0
s2 0 0 1 0 1
s3 0 1 1 1 0
s4 0 1 1 0 1
s5 0 1 1 0 1
s6 1 1 0 1 0
Gambar 2-8 Matrik biner M, representasi relasi sampel dengan attribut
Maka contoh dari hasil Bi-Clustering untuk dataset di atas
b1= <s4,s5><g2,g3,g5>=<0,0,0,1,1,0,><0,1,1,0,1>
b2= <s1,s6><g1,g2,g4>=<1,0,0,0,0,1><1,1,0,1,0>
….
…..
bK =…………………..
2.6.2 Tahapan Penemuan Bi-Set
Tahapan penemuan Bi-set dilakukan melalui dua tahap utama: clustering baris dan kolom
secara simultan (proses bi-clustering) menggunakan metode yang diusulkan pada peneltian
ini dan kemudian penyusunan Bi-Set. Selanjutnya metode bi-clustering dalam penelitian
ini disebut dengan Distance-Based (DB) Bi-Clustering. DB-Bi Clustering akan
menghasilkan segmen–segmen dalam matrik dengan ukuran masing-masing sesuai
banyaknya anggota tiap klaster dalam baris dan kolom. Dari segmen-segmen ini kemudian
dilakukan penyusunan Bi-Set dengan cara penggabungan Bi-Set-Bi-Set dalam satu segmen
dan selanjutnya dengan segmen tetangganya (disebut dengan Multi Set Join / MS Join).
Gambar 2-9 menunjukkan ilustrasi tahapan penemuan Bi-Set dari matiks biner M.
Keluaran dari proses ini secara keseluruhan adalah himpunan Bi-Set.
2-23
Gambar 2-9 Framework Penemuan Bi-Set dengan Bi-Clustering
2.6.3 Penyusunan Bi-Set
Pada penelitian ini penyusunan Bi-Set dilakukan dengan menggabungkan Bi-Set yang
terbentuk pada tiap segmen setelah proses bi-clustering. Proses bi-clustering menghasilkan
matriks yang terbagi secara lojik berdasarkan baris dan kolom sebagai hasil klastering baris
dan kolom, gambar 2-10. Proses multi join dilakukan dimulai dengan menggabungkan bi-
set-bi-set pada segmen yang sedang diperiksa, dan dilanjutkan dengan segmen tetangga
secara vertikal dan horizontal. Dua bi-set b1 = <s11, s12…s1x><g11, g12,…g1y> dan b2 =
<s21, s22…s2x><g21, g22,…g2y> digabungkan menjadi b3 dengan aturan sebagai berikut :
1. Jika <s11, s12…s1x> <s21, s22…s2x> b3 = <s21, s22…s2x> <<g11, g12,…g1y> <g21,
g22,…g2y>>
2. Jika <s21, s22…s2x> <s11, s12…s1x> b3 = <s11, s12…s1x> <<g11, g12,…g1y> <g21,
g22,…g2y>>
3. Jika <g11, g12,…g1y> <g21, g22,…g2y> b3 =<<s21, s22…s2x> <s21, s22…s2x>>< g21,
g22,…g2y>
4. Jika <g21, g22,…g2y> <g11, g12,…g1y> b3 =<<s21, s22…s2x> <s21, s22…s2x>><g11,
g12,…g1y>
2-24
Gambar 2-10 Segmentasi hasil bi-clustering dan proses multi join
3-1
BAB 3. HASIL EKSPERIMEN & PEMBAHASAN
3.1. Supervised Learning : Ekstraksi Entitas Medis
Bagian ini menjelaskan tahap pertama uji coba yaitu mengekstraksi objek (entitas)
utama berupa nama obat dari data uji dokumen medis dengan menggunakan
pendekatan mesin pembelajaran. Untuk validasi pendekatan yang diusulkan
digunakan open dataset DrugBank dan MedLine yang juga digunakan pada studi-
studi sebelumnya. Sebagai dataset tambahan, juga digunakan dokumen label obat
yang diperoleh dari situs-situs produsen obat dan BPOM. Dari eksperimen ini
dihasilkan artikel jurnal:
A New Data Representation Based on Training Data Characteristics to Extract
Drug Named-Entity in Medical Text,
Jurnal Computational Intelligence and Neuroscience (under review).
3.1.1 Kinerja Akurasi Open Dataset
Padat tabel 3-1, 3-2, 3-3, dan 3-4 penomoran (1), (2) pada (3) kolom paling kiri
menunjukkan skenario pemilihan kandidat obat yaitu:
(1) Semua data uji dipilih
(2) 2/3 bagaian dari data uji dipilih, dan
(3) 2/3 bagian dari 3 klaster MedLine atau 3/4 bagian dari 4 klaster
DrugBank yang dipilih
Secara umum jika dilihat dari kinerja akurasi (accuracy) saja, yaitu ketepatan
memprediksi semua kelas, semua teknik representasi data menghasilkan akurasi
yang baik yaitu di atas 0.8600. Tetapi jika ukuran kinerja hanya dilihat dari f-
score, yaitu hanya mempertimbangkan keberhasilan memprediksi token-token
yang termasuk kelas obat, maka kinerja f-score tersebut bervariasi di antara 0.43
s.d 0.86. Kondisi kinerja akurasi yang tinggi sementara f-score yang relatif
rendah ini karena tidak seimbangnya volume token obat dibandingkan token
non obat (token obat kurang dari 10% keseluruhan token). Dengan demikian
dalam dataset, terkandung banyak noise dan porsi kebenaran prediksi kelas
lebih banyak pada kelas non target yang tidak termasuk dalam hitungan f-score.
3-2
3.1.1.1 Kinerja MLP-NN
Paramater learning yg digunakan pada eksperimen MLP-NN ini adalah ukuran
NN = 500 node input, dua hidden layer masing-masing 100 node, dan 6 node
fungsi softmax untuk node output, activation function = sigmoid, learning rate
= 1, momentum = 0.5, serta epoch = 100. Digunakan skenario mini batch pada
training dengan ukuran batch 100. Hasil eksperimen dengan tiga skenario
pemilihan kandidat obat untuk MedLine dan DrugBank disajikan seperti tabel
3-1. Seperti yang digunakan pada studi-studi sebelumnya, pada eksperimen ini
digunakan f-score sebagai parameter pengukur akurasi. Pada dataset MedLine
akurasi terbaik diperoleh pada skenario pemilihan kandidat yang ketiga dengan
nilai f-score 0.439516. Sementara pada DrugBank hasil terbaik dihasilkan oleh
pemilihan skenario yang ke dua dengan f-score is 0.641745. Secara umum
DrugBank memberikan hasil yang lebih baik. Skenario pemillihan kandidat
obat juga memberikan kontribusi peningkatan f-score. Peningkatan akurasi f-
score ini disebabkan oleh tingkat recall yang rata-rata lebih baik.
Tabel 3-1 Kinerja Akurasi MLP-NN atas tiga skenario pemilihan kandidat
obat
Dampak dari teknik representasi data berdasarkan penyusunan deretan token
serta volume data training untuk word2vect disajikan seperti tabel 3-2 dan 3-3.
Secara umum dapat disimpulkan bahwa perlakuan satu kalimat menjadi satu
deretan token memberikan hasil yang lebih baik, baik untuk MedLine maupun
DrugBank. Hasil eksperimen setelah dilakukan penambahan data training untuk
word2vector dengan kamus wiki diperlihatkan seperti tabel 3-4. Hasil
3-3
eksperimen ini juga mengkonfirmasikan bahwa penambahan volume training
word2vect memperbaiki kualitas word2vect dan pada akhirnya memperbaiki
kinerja ekstraksi nama obat. Hasil terbaik diberikan oleh skenario 2/3 bagian
data yang dipilih dengan kinerja terbaiknya f-score 0.684646757.
Tabel 3-2 Kinerja Akurasi dampak dari perbedakan teknik penyusunan data
Tabel 3-3 Kinerja Akurasi dampak dari penambahan volume data training
word2vect
3.1.1.2 Kinerja DBN & SAE
Pade eksperimen DBN digunakan dua tingkat RBM dengan masing-masing 500
nodes visible unit, 100 node hidden layer pada RBM pertama dan 100 100 pada
RBM kedua (top stack), sementara parameter learning yang digunakan adalah :
momentum = 0, dan alpha= 1, dengan skenario mini batch berukuran 100.
Batasan RBM atas data masukan adalah bahwa nilai input data harus dalam
rentang [0..1]. Hal ini karena pada awalnya RBM didisain untuk tipe data biner.
Oleh karena nilai vektor word2vect yang digunakan pada eksperimen ini
berkisar antara [-1..1], maka terlebih dahulu dilakukan normalisasi data menjadi
[0..1] sebelum dilakukan training RBM.
3-4
Arsitektur SAE yang digunakan pada eksperimen ini terdiri dari dua tingkat
AutoEncoder (AE) dengan konfigurasi node sebagai berikut. Tingkat pertama,
AE dengan 500 unit visible unit, 100 hidden layer, 500 output layer; yang ke
dua digunakan AE dengan 100 nodes visible unit, 100 nodes hidden unit, dan
100 nodes unit output. Parameter learning yang digunakan pada SAE pertama
dan SAE atas berturut-turut: activation function ‘sigmoid’ dan ‘tanh’, learning
rate = 1 dan 2, momentum = 0.5 dan 0.5; sparsity target=0. 05 dan 0.05; dengan
ukuran batch 100 untuk kedua AE.
Dari skenario-skenario eksperimen berdasarkan teknik representasi data dan
volume data training word2vect, secara umum skenario ke 4 memberikan hasil
terbaik. Skenario dengan hasil terbaik ini kemudian diterapkan untuk DBN dan
SAE. Hasil eksperimen seperti ditunjukkan pada tabel 3-4. Terdapat perbedaan
kinerja antara dataset MedLine dan DrugBank ketika dievaluasi dengan model
MLP, DBN, dan SAE. Hasil terbaik diberikan oleh dataset MedLine untuk SAE,
sementara DrugBank oleh MLP. DBN memberikan kinerja lebih rendah secara
rata-rata baik untuk MedLine maupun DrugBank. Hal ini kemungkinan
disebabkan oleh pengaruh proses normalisasi vektor word2vect menjadi dalam
rentang [0..1], sementara nilai aslinya di antara [-1..1]. Akurasi terbaik
diberikan oleh SAE dengan skenario pemilihan kandidat partisi, dengan nilai f-
score 0.686192469.
Tabel 3-4 Kinerja Akurasi MLP, DBN, dan SAE
3-5
3.1.1.3 Kinerja LSTM
Eksperimen dengan menggunakan LSTM dilakukan beberapa kali dengan
perubahan setting pada learning parameternya. Pada bagian ini ditampilkan
hasil yang terbaik. Kinerja terbaik unuk LSTM diperoleh dari konfigurasi 2
nodes input layer, 2 nodes hidden layer, dan satu node output layer. Dengan
parameter yang digunakan adalah: learning rate = 0.001, momentum = 0.9, dan
epoch = 30, input dimension = 200, dan time sequence frame 2. Berdasarkan
hasil eksperimen perlakuan kalimat-kalimat pada dokumen medis sebagai
sequence untuk mengekstraksi nama obat memberikan hasil yang terbaik seperti
disajikan pada tabel 4-14.
Tabel 3-5 Kinerja Akurasi tekni representasi data yang ketiga dengan LSTM
3.1.1.4 Komparasi dengan state of the art
Seperti diuraikan pada bagian sebelumnya, penelitian mengenai ekstraksi nama
obat sudah banyak dilakukan. Mayoritas dari metode-metode tersebut
menggunakan pengetahuan luar. Ringkasan kinerja akurasi berbagai
pendekatan disajikan pada tabel 3-6. Di antara state of the art, pendekatan teknik
representasi data sequence yang diterapkan pada LSTM memberikan hasil yang
terbaik. Ketidaktergantungan kepada pengetahuan luar juga merupakan
keunggulan yang lain.
3-6
Tabel 3-6 Kinerja Akurasi pendekatan yang diusulkan dibandingkan state of
the art
Pendekatan F-score Remark
The Best of SemEval 2013
[12]
0.7150 -
[33] 0.5700 With external knowledge, ChEBI
[60] 0.7200 With external knowledge, DINTO
[62] 0.7200 Additional feature, BIO
[34] 0.6000 Single token only
MLP-
SentenceSequence+Wiki(rerata)
/Penelitian ini
0.6580 Without external knowledge
DBN-
SentenceSequence+Wiki(rerata)
/Penelitian ini
0.6430 Without external knowledge
SAE-SentenceSequence+Wiki(rerata)
/Penelitian ini
0.6480 Without external knowledge
LSTM-AllSentenceSequence+Wiki+
EuclidianDistance(rerata)/Penelitian
Ini
0.8645 Without external knowledge
3.1.1.5 Kinerja Akurasi Pada Dataset Label Obat
Pada eksperiman selanjutnya digunakan korpus label obat-obatan yang beredar
di pasaran. Terkait dengan korpus label obat ini, belum / tidak ditemukan
pengetahuan luar tertentu yang bisa digunakan. Dihadapkan pada kasus seperti
ini, metode yang diusulkan pada eksperimen ini lebih sesuai dibandingkan
dengan pendekatan lainnya. Berbeda dengan dataset DrugBanks atau Medline
yang merupakan open dataset teranotasi, label obat ini dikumpulkan dari
berbagai situs produsen, distributor obat, maupun BPOM. Karakteristik lainnya
dari label obat ini adalah bahwa susunan kata/kalimat di dalamnya lebih
terstruktur. Setelah dilakukan preprocessing, dataset dianotasi secara manual.
Total instan tupel yang dihasilkan dari dataset ini adalah sebanyak 1.046.200.
Pada eksperimen ini diterapkan skenario cross-validation untuk memilih data
training dan data testing dengan komposisi 80 % sebagai data training dan
sisanya sebagai data testing. Dilakukan cross-validation sebanyak 10 iterasi
pada eksperimen ini. Hasil uji coba disajikan seperti pada tabel 4-16,
menunjukkan bahwa kinerja akurasinya sangat baik (di atas 0.9). Kinerja yang
sangat baik ini kemungkinan karena kalimat-kalimat dalam teks yang lebih
terstruktur.
3-7
Tabel 3-7 Kinerja Akurasi MLP-NN untuk dokumen label obat
3.1.2 Kesimpulan
Pada studi ini diusulkan pendekatan baru dalam representasi data dan cara
klasifikasi untuk mengekstraksi nama obat dari dokumen medis berupa open
dataset. Pendekatan yang diusulkan mampu menyelesaikan permasalahan multi
token untuk entitas tunggal yang tidak diselesaikan pada penelitian sebelumnya.
Teknik ini juga menyelesaikan permasalahan ketergantungan terhadap
pengetahuan luar. Secara alami kata-kata dalam kalimat mengikuti aturan
sequence yaitu kondisi pada posisi saat ini dipengaruhi oleh kondisi
sebelumnya. Dalam kasus kalimat keberadaan kata saat ini dipengaruhi kata
sebelumnya. Tiga teknik representasi dan penggunannya dalam klasifikasi
adalah: teknik pertama dan kedua memperlakukan kalimat sebagai pola non
sequence yang dievaluasi dengan menggunakan non-sequence NN (MLP, DBN,
SAE), teknik yang ketiga memperlakukan kalimat sebagai sequence untuk
menyiapkan data input bagi sequence NN dalam hal ini LSTM. Kinerja akurasi
3-8
terbaik diperoleh dari model LSTM untuk rerpresentasi data sequence dengan
nilai f-score adalah 0.8645. Kinerja ini merupakan yang terbaik di antara state
of the art.
3.2. Rule Based Learning untuk Ekstraksi Entitas Nama Obat
Eksperimen ini menghasilkan artikel pada konferensi internasional:
Toward Object Interaction Mining By Starting With Object Extraction Based
on Pattern Learning Method, 2014 Asia-Pacific Materials Science and
Information Technology Conference (APMSIT 2014
3.2.1 Material Dataset & Evaluasi
3.2.1.1 Data Uji & Pra Pemrosesan
Validasi terhadap pendekatan yang diusulkan pada penelitian ini dilakukan
dengan menerapkannya pada dataset berupa label / kemasan obat yang
diperoleh dari berbagai situs di internet. Situs-situs tersebut merupakan situs
produsen obat atau regulator yang berwenang terhadap obat. Beberapa situs
tersebut adalah:
http://www.kalbemed.com/,
http://www.dechacare.com/,
http://infoobatindonesia.com/obat/, dan
http://www.pom.go.id/webreg/index.php/home/produk/01.
Label obat ditulis dalam Bahasa Indonesia dan secara umum berisi: nama obat,
kandungan / komposisi obat, indikasi, kontra indikasi, aturan pakai, dan kalimat
peringatan. Dikarenakan label obat di-grab menggunakan robot maka semua
formatnya dalam bentuk htm atau html. Untuk melakukan pembersihan data
(cleansing) sehingga diperoleh teks yang terdiri dari hanya isi nya saja,
digunakan robot html parser yang disediakan di
http://sourceforge.net/projects/htmlparser/. Ground truth dari data uji dibuat
secara manual.
3.2.2 Evaluasi
Untuk melakukan evaluasi kinerja dari metode ekstraksi objek berdasarkan pola
ini, digunakan kriteria yang umum digunakan di bidang mesin pembelajaran
3-9
yaitu akurasi. Akurasi diukur dengan parameter-parameter: presisi (precision),
recall, dan f-score. Penghitungan parameter-parameter tersebut diformulaikan
sebagai berikut. Misalnya C = {C1, C2, C3, ...Cn} adalah sekumpulan nama obat
(drug-name) yang berhasil diekstraksi oleh metode dari sekumpulan dokumen
label obat D, dan K= {K1, K2, K3,...Kl} adalah sekumpulan nama obat
sebenarnya dalam kumpulan dokumen D, dengan mengadaptasi dari [52], tiga
paremeter tersebut dihitung dengan formula sebagai berikut :
Precision(𝐾𝑖, 𝐶𝑗) =True Positive
True Positive+False Positive =
|KiCj|
|Cj| (5)
Recall(𝐾𝑖, 𝐶𝑗) =True Positive
True Positive+False Negative =
|KiCj|
|Ki| (6)
degan |Ki|, |Cj|, dan |Ki Cj| berturut-turut menyatakan nama obat dalam K,
C, dan dalam K maupun C. Komputasi f-score dihitung dengan rumus:
F − Score (𝐾𝑖, 𝐶𝑗) =2∗Precision (Ki,Cj)∗Recall (Ki,Cj)
Precision (Ki,Cj)+ Recall (Ki,Cj) (7)
3.2.3 Uji Coba dan Hasil Pattern Scoring 1
3.2.3.1 Skenario Uji Coba
Skenario ujicoba pada penelitian ini disusun berdasarkan teknik penilaian pola
(pattern scoring technique ) dan volume dari dataset. Sebagai hasil dari eksekusi
pembelajaran pola, dihasilkan banyak pola dari kedua teknik pembobatan pola
tersebut (Pattern Scoring #1 dan Pattern Scoring #2). Pola-pola yang dihasilkan
tersebut diurutkan berdasarkan bobot pola dengan bobot paling besar di atas.
Secara intuisi dapat dipahami bahwa kuantitas / banyaknya pola yang dihasilkan
oleh patterns scoring #1 lebih tinggi jika dibandingkan dengan pattern scoring
#2. Untuk melakukan evaluasi kinerja masing-masing teknik tersebut diambil
sebanyak N pola yang dihasilkan yang menempati urutan teratas. N adalah
banyaknya pola yang dihasilkan oleh pattern scoring #2. Kemudian hasil lebih
baik dari dua uji coba ini, dalam kasus ini adalah pattern scoring #2, digunakan
untuk melakukan uji coba berikutnya dengan melakukan penyesuaian terhadap
volume data uji yang digunakan. Untuk kedua skenario pengujian data uji
dipilah menjadi dua bagian. Bagian pertama digunakan sebagai data latih dan
bagian ke dua digunakan sebagai data uji. Metode pemilahan yang digunakan
3-10
adalah K-fold cross validation dengan K = 10 . Dengan demikan dilakukan
masing-masing 10 iterasi untuk masing-masing skenario pengujian.
3.2.4 Hasil Uji Coba Pattern Scoring 2
3.2.4.1 Skenario Uji Berdasarkan Teknik Pembobotan Pola
Kinerja (performance) kedua teknik pembobotan pola disajikan seperti gambar
3-1 di bawah. Secara umum teknik pembobotan ke dua lebih baik dari sisi
kinerja dibandingkan dengan teknik pembobotan yang pertama. Pada teknik
pembobotan yang pertama nilai minimum, maksimum, dan rerata nya masing-
masing adalah : 0,204225, 0,338862, 0,269687 sementara untuk teknik
pembobotan pola yang ke dua masing-masing: 0,581335, 0,444444, 0,709677.
Nilai kinerja yang rendah dari pembobotan teknik pertama ini dapat dipahami,
karena tidak ada pola yang dihasilkan digunakan untuk mengekstraksi target
berupa objek nama obat. Dari 900 dataset yang digunakan total pola yang
dihasilkan oleh teknik pembobotan yang pertama adalah 498, sedangkan yang
dihasilkan oleh teknik pembobotan ke dua sebanyak 101.
Gambar 3-1 Kinerja Dua Teknik Pembobotan Pola
3.2.4.2 Skenario Uji Berdasarkan Pengaturan Kuantitas Data Uji
Pada uji coba skenario ke dua dilakukan analisis dengan membandingkan
kinerja-kinerja yang dihasilkan dari penyesuaian volume dataset. Dengan
skenario ini uji coba pertama dilakukan terhadap 340 dokumen label obat
3-11
sedangkan pada uji coba ke dua digunakan 900 dataset. Hasil uji coba skenario
ke dua ini diperlihatkan seperti gambar 3-2 berikut. Dari ilustrasi gambar
terlihat bahwa kinerja terhadap 900 dataset lebih baik jika dibandingkan dengan
340 dataset. Secara rata-rata terlihat bahwa semakin banyak data yang
digunakan sebagai data training maka kinerja metode ini semakin baik. Gambar
3-2 menyajikan kinerja kedua hasil eksperimen tersebut. Kinerja untuk dataset
900 dokumen label obat lebih baik untuk semua parameter: precision, recall,
dan f-score. Dari 10 kali iterasi 900 dataset lebih baik di 9 iterasi.
Gambar 3-2 Kinerja 340 dataset vs 900 dataset
3.3. Ekstraksi Relasi AntarEntitas
Bagian ini menjelaskan hasil penelitian yang dilakukan untuk mengekstraksi relasi
antarentitas (objek) dari kumpulan dokumen. Relasi antarentitas ini dibatasi pada
relasi objek utama tunggal dengan beberapa objek pendukungnya. Hasil penelitian
sebagian sudah dipublikasikan dalam jurnal internasional:
A Novel Rule Based Approach For Entity Relations Extraction, Journal Of
Theoretical And Applied Information Technology (E-ISSN 1817-
3195 / ISSN 1992-8645) (Scopus Indexed), Vol 74 April 2015
Ekstraksi relasi antarobjek ini merupakan kelanjutan riset yang diuraikan pada
bagian 3.2.
3-12
3.3.1 Dataset & Pre Processing
Dataset dikumpulkan dari internet dengan mengambil dokumen label obat dari
berbagai situs produsen maupun BPOM. Web site-web site yang menjadi
sumber dataset adalah:
http://www.kalbemed.com/,
http://www.dechacare.com/,
http://infoobatindonesia.com/obat/,
http://medicastore.com/, dan
http://www.pom.go.id/webreg/index.php/home/produk/01.
Dokumen label obat tersebut ditulis dalam Bahasa Indonesia dan secara umum
isinya antara lain nama obat, komponen/kandungan obat, indikasi, kontra
indikasi, aturan pemakaian (dosage), dan peringatan penggunaan. Semua
dokumen dalam format html atau htm. Untuk mengekstraksi isi web site dan
memisahkan nya dari tag-tag html digunakan aplikasi html parser yang diunduh
dan dimodifikasi dari http://sourceforge.net/projects/htmlparser/. Total
dokumen label obat yang digunakan pada uji coba ini sebanyak 15.616 berkas.
Ground truth untuk uji coba dan evaluasi kinerja disusun secara manual.
3.3.2 Skenario Uji Coba
Pada eksperimen ini dataset yang dikumpulkan displit menjadi dua bagian.
Bagian pertama digunakan sebagai data training dan bagian ke dua digunakan
sebagai data uji. Mekanisme splitting dilakukan dengan metode K-fold cross
validation dengan K = 10. Dengan demikian dataset terdiri dari 10% data uji
dan 90 % data training. Karenanya terdapat 10 iterasi untuk masin-masing
skenario uji. Kandidat pola yang dihasilkan pada tahap training dengan disusun
terurut mengecil berdasarkan skor pola. Skor pola dikonversi menjadi bobot
pola dalam presentase, sehingga total bobot sama dengan 1 (100 %).
Dari kandidat pola kemudian dipilih N pola teratas untuk mengekstraksi objek
utama dan objek pendukungnya dari dokumen label obat. Secara intuisi dapat
dipahami bahwa kandidat pola dengan bobot lebih tinggi akan menghasilkan /
3-13
mengekstraksi lebih banyak objek utama atau objek pendukung. Objektif
skenario uji coba ini adalah:
1) Untuk melakukan evaluasi atas kinerja (performance ) dari teknik pattern
scoring. Kinerja tersebut direpresentasikan dengan akurasi dari objek
utama dan atau objek pendukung yang diperoleh, dan
2) Melakukan evaluasi kinerja untuk tiap individu pola. Untuk melakukan
evaluasi kinerja pola secara individum diambil sebanyak N kandidat pola
yang ada di posisi teratas.
Dalam melakukan evaluasi kinerja teknik pattern scoring, iterasi pencarian
untuk ekstraksi objek utama dan objek pendukung dihentikan saat pertama kali
objek-objek tersebut ditemukan. Oleh karena itu, dengan prioritas penggunaan
pola yang berada pada daftar atas, dimungkinkan untuk tidak mengeksekusi
semua pola. Sementara dalam pengujian kinerja pola secara individu semua
pola terpilih digunakan untuk mencoba menemukan objek yang menjadi target.
Dengan demikian dimungkinkan untuk satu pasangan objek utama dan objek
pendukung ditemukan lebih dari sekali. Gambaran skenario pengujian ini
diperlihatkan pada gambar 3-3 berikut.
Gambar 3-3 Skenario Uji Coba
3-14
3.3.3 Evaluasi
Kinerja teknik pembobotan pola maupun kinerja masing-masing pola dievaluasi
berdasarkan akurasinya dengan parameter: precision, recall, dan f-score. Cara
perhitungan ketiga kriteria tersebut dijelaskan pada poin 3.3.2.
3.3.4 Hasil Eksperimen dan Analisisnya
Gambaran metode evaluasi relasi objek utama dan objek pendukungnya
diilustrasikan seperti gambar 3-4 berikut.
Gambar 3-4 Evaluasi kinerja relasi objek utama dan objek pendukung
Paramater penilaian dan evaluasi akurasi objek utama dan objek pendukung
dihitung dengan formula sebagai berikut:
M = {m1, m2…. mp} adalah sekumpulan objek utama yang diekstraksi dari data uji
oleh metode ini, dan
N = {n1, n2…. nq} adalah sekumpulan objek utama dari golden thrut, maka
MO − Precision(𝑁, 𝑀) =True Positive
True Positive+False Positive =
|NM|
|M| (9)
MO − Recall(𝑁, 𝑀) =True Positive
True Positive+False Negative =
|NM|
|N| (10)
MO − FScore (𝑁, 𝑀) =2∗Precision (N,M)∗Recall (N,M)
Precision (N,M)+ Recall (N M) (11)
Si = {s1, s2…. sx} adalah sekumpulan objek pendukung untuk objek utama mi yang
diekstraksi oleh metode ini dari data uji
Ti = {t1, t2….ty} adalah sekumpulan objek pendukung dalam ground-truth, maka
3-15
SO − Precision(𝑇𝑖, 𝑆𝑖) =True Positive
True Positive+False Positive =
|𝑇𝑖𝑆𝑖|
|𝑆𝑖| (12)
SO − Recall(𝑇𝑖, 𝑆𝑖) =True Positive
True Positive+False Negative =
|𝑇𝑖𝑆𝑖|
|𝑇𝑖| (13)
SOi − FScore (𝑇𝑖, 𝑆𝑖) =2∗Precision (𝑇𝑖,𝑆𝑖)∗Recall (𝑇𝑖,𝑆𝑖)
Precision (𝑇𝑖,𝑆𝑖)+ Recall (𝑇𝑖,𝑆𝑖) , 1 ≤ i ≤q (14)
Rerata SO-Precision adalah
𝐴𝑣𝑔𝑆𝑂 − 𝑃𝑟𝑒𝑐 =1
𝑞∑ (𝑆𝑂 − 𝑃𝑟𝑒𝑐)𝑖
𝑞𝑖=1 (15)
Rerata SO-Recall adalah
𝐴𝑣𝑔𝑆𝑂 − 𝑅𝑒𝑐 =1
𝑞∑ (𝑆𝑂 − 𝑅𝑒𝑐𝑎𝑙𝑙)𝑖
𝑞𝑖=1 (16)
Dan rerata SO-FScore adalah
𝐴𝑣𝑔𝑆𝑂 − 𝐹𝑆𝑐𝑜𝑟𝑒 =1
𝑞∑ (𝑆𝑂 − 𝐹𝑠𝑐𝑜𝑟𝑒)𝑖
𝑞𝑖=1 (17)
3.3.5 Pola dan Hasil Ekstraksi Relasi
Sebagian kecil hasil pembelajaran pola dan penerapan pola yang dihasilkan
disajikan pada bagian ini. Tabel 3-8 berikut merupakan ilustrasi pola yang
dihasilkan.
Tabel 3-8 Contoh sebagian kandidat pola hasil training
Keterangan, format pola adalah:
<id-pattern>#<pola-kiri-bagian-kiri><no-file>#(MO-target)<pola-kanan-bagian-kiri># <pattern-kiri-bagian-kanan>#(SO-target)<pattern-kanan-bagian-kanan>#<id-pattern-bagian-kiri>#<probabilitas-kemunculan-pola>
1#3#.*produk\s+(.*)\s+bentuk.*#(.*)\s+merk.*#1#0.01727521
2#0#(.*)\s+tablet.*#(.*)\s+\d+.*#2#0.012136266
3#1#(.*)\s+\d+.*#(.*)\s+\d+.*#3#0.009941241
4#0#(.*)\s+tablet.*#(.*)\s+indikasi.*#4#0.008208803
5#1#(.*)\s+\d+.*#(.*)\s+indikasi.*#5#0.005557702
6#2#(.*)\s+golongan.*#(.*)\s+indikasi.*#6#0.003093184
7#5#.*produk\s+(.*)\s+\d+.*#(.*)\s+merk.*#7#3.70169E-4
8#2#(.*)\s+golongan.*#.*mg\s+(.*)\s+\d+.*#8#0.002196027
……
5410#157#.*kuku\s+(.*)\s+g.*#.*dengan\s+(.*)\s+yang.*#5410#4.0E-9
Sedangkan tabel 3-9 menunjukkan sebagian objek utama dan objek pendukung
yang dihasilkan
Tabel 3-9 Contoh sebagian ekstraksi objek utama dan objek pendukung yang
dihasilkan
3-16
Keterangan, format pola adalah:
<Nomor Iterasi>#<id-pattern>#<nama file>#<objek utama>###<objek pendukung1>#<objek pendukung2>#....<objek pendukung N>
187#1#2.txt#1#3tc### lamivudine
…….
1985#1#112.txt#1#actemra### tocilizumab
1987#1#113.txt#1#actemra### tocilizumab
1989#1#114.txt#1#actemra### tocilizumab
1991#1#115.txt#1#actemra### tocilizumab
1993#1#116.txt#1#actemra### tocilizumab
1995#1#117.txt#1#actemra### tocilizumab
1997#1#118.txt#1#actemra### tocilizumab
1999#1#119.txt#1#actemra### tocilizumab
2001#1#120.txt#1#actemra### tocilizumab
2007#5#121.txt#1#actemra injection### tocilizumab
2013#5#122.txt#1#actemra injection### tocilizumab
2123#109#123.txt#1#acthib###
5864#3740#124.txt#1#acticoat###
5873#8#125.txt#1#syrup 120 ml###pseudoephedrine hcl#dextromethorphan hbr
5882#8#126.txt#1#syrup 60 ml###pseudoephedrine hcl#dextromethorphan hbr
5883#0#127.txt#1#syrup 120 ml#####
5884#0#128.txt#1#syrup 60 ml##### triprolidine hcl
5885#0#129.txt#1#sirup 60 ml### dextromethorphan hbr# pseudoephedrine hcl# triprolidine hcl
5886#0#130.txt#1#syrup 120 ml#####
5887#0#131.txt#1#syrup 60 ml#####
5889#1#132.txt#1#actilyse### alteplase
5891#1#133.txt#1#actilyse### alteplase
5893#1#134.txt#1#actilyse### alteplase
5895#1#135.txt#1#actilyse### alteplase
5897#1#136.txt#1#actilyse### alteplase
5899#1#137.txt#1#actilyse### alteplase
5901#1#138.txt#1#actilyse### alteplase
5908#6#139.txt#1#actilyse infus### type plasminogen activator
5910#1#140.txt#1#actonel askes### risedronate sodium
6123#212#141.txt#1#biologi### risedronate sodium
6125#1#142.txt#1#actonel### risedronate sodium
6127#1#143.txt#1#actonel### risedronate sodium
6163#35#144.txt#1#terapi pelihara pemasukan###### rp# rp## telp# sms# bb##
6165#1#145.txt#1#actoplatin### carboplatin
6167#1#146.txt#1#actoplatin### carboplatin
6169#1#147.txt#1#actoplatin### carboplatin
6171#1#148.txt#1#actos### pioglitazone hcl
6173#1#149.txt#1#actos### pioglitazone hcl
6229#55#150.txt#1#actosmet### metformin
6285#55#151.txt#1#actosmet### metformin
6287#1#152.txt#1#actosmet### hydrochloride pioglitazone hcl
6343#55#153.txt#1#actosmet### metformin
……
891524#1#15614.txt#1#tarivid### ofloxacin
3-17
3.3.6 Akurasi Teknik Pattern Scoring
3.3.6.1 Uji Coba Pertama
Eksperimen pertama untuk mengevaluasi pendekatan pattern scoring approach
dilakukan dengan menerapkan total bobot skor pola sebanyak 1 (100%) dari
pola-pola yang dihasilkan pada tahap training untuk ekstraksi objek utama dan
objek pendukungnya pada tahap testing. Dengan menggunakan total bobot pola
100% dimungkinkan untuk mencoba semua pola dalam daftar. Karena
penggunaan skenario10-fold cross validation untuk mencoba data test, maka
dilakukan 10 iterasi pada uji coba ini. Visualiasi hasil penerapan bobot total pola
100% untuk 10 iterasi tersebut serta reratanya digambarkan seperti gambar 3-5
dan 3-6. Kinerja maksimum dicapai pada iterasi no #9 dengan nilai f-score =
0.906848426. Sementara kinerja minimum dengan nilai f-score 0.87913486
terjadi pada iterasi nomor #3. Rerata f-score untuk uji coba ini sebesar
0.895959151. Selengkapnya mengenai kinerja f-score MO ini diperlihatkan
pada gambar 3-5. Kinerja ekstraksi objek pendukung disajikan pada gambar 3-
6. Kinerja ekstraksi objek pendukung (komponen obat) terlihat cukup bagus
karena rerata f-Score untuk semua iterasi masih di atas 0.75. Pada uji coba
ekstraksi objek pendukung kinerja terbaik dihasilkan dari iterasi pertama.
Sedangkan kinerja terburuk pada iterasi nomor tiga dengan masing-masing f-
score berturut-turut 0.815213733 dan 0.785470285.
Gambar 3-5 Kinerja 100 % pola untuk ekstraksi objek utama
3-18
Gambar 3-6 Kinerja 100 % pola untuk ekstraksi objek pendukung
3.3.6.2 Eksperimen Ke Dua
Eksperimen ke dua digunakan untuk menguji kinerja teknik pembobotan pola.
Pada eksperimen ini dilakukan eksekusi 5 sub eksperimen. Setiap sub
eksperimen masing-masing menerapkan bobot score total: 90%, 80%, 70%,
60%, dan 50%. Dilakukan 10 iterasi untuk masing-masing total score tersebut.
Perbandingan rata-rata hasil akurasi untuk masing-masing total score
diperlihatkan pada gambar 3-7 dan 3-8. Pengurangan persentase total skor
menunjukkan implikasi bahwa banyaknya pola yang dicoba pada tiap sub
eksperimen juga berkurang. Namun demikian dari hasil akurasi menunjukkan
bahwa pengurangan banyaknya pola yang dicoba tidak secara proporsional
mengurangi tingkat akurasinya. Hal ini disebabkan oleh pengaturan kandidat
pola berdasarkan besarnya nilai bobot pola, dengan bobot besar ditempatkan
pada daftar atas. Hasil ini sekaligus mengkonfirmasi bahwa teknik pembobotan
pola fisibel untuk diterapkan. Gambar 3-7 menunjukkan kinerja tiap bobot pola
dalam persentase pada ekstraksi objek utama. Rata-rata presisi dari 10 iterasi
cukup stabil untuk bobot 100% sampai dengan 50% dengan nilai presisi sekitar
0.9. Sementara nilai rerata recall cenderung menurun. Meski nilai rerata recall
menurun seiring penurunan presentase bobot, namun nilainya masih mendekati
3-19
0.6 untuk bobot pola 50%. Kecenderungan yang sama atas kinerja ini juga
diperlihatkan pada hasil ekstraksi objek pendukung seperti pada gambar 3-8.
Gambar 3-7 Kinerja ekstraksi objek utama dengan pola berdasarkan skor bobot dalam
presentase
Gambar 3-8 Kinerja ekstraksi SO dengan pola berdasarkan skor bobot dalam presentase
3.3.7 Kinerja Pola Individual
3-20
Evaluasi ini dilakukan untuk memvalidasi kinerja tiap pola yang dihasilkan
pada tahap training. Karena objektif dari evaluasi ini adalah untuk menguji
setiap pola yang dihasilkan, maka setiap pola hasil training digunakan untuk
mencoba ekstraksi seluruh anggota data uji. Dengan demikian dilakukan
percobaan pencarian sebanyak P * D, dengan P adalah banyaknya seluruh pola
dan D banyaknya seluruh anggota data uji. Dari tahap training pada uji coba
dihasilkan sangat banyak pola. Oleh karenanya untuk kepentingan visualisasi,
keseluruhan polah dikelompokkan ke dalam empat grup mengikuti pola quartil.
Setiap grup terdiri dari 25% dari banyaknya pola keseluruhan. Penyusunan grup
dilakukan dengan mengurutkan menurun berdasarkan bobot nilai skor masing-
masing dan memberikan identitas berupa nomor unik untuk masing-masing
pola. Mekanisme pengaturan grup adalah: 25 % kelompok pertama di masukkan
pada grup Q1, 25 % ke dua dalam Q2, 25 % ke tiga di Q3, dan 25 % terakhir
dalam grup Q4. Kriteria yang digunakan untuk evaluasi pada uji coba ini adalah:
1) Kuantitas relasi objek yang berhasil diekstraksi, dan
2) Kinerja : precision, recall, dan f-score
Seperti uji coba sebelumnya setiap eksperimen dilakukan sebanyak 10 iterasi.
3.3.7.1 Kuantitas Objek Terekstraksi
Banyaknya objek yang berhasil diekstraksi oleh tiap grup pola diilustrasikan
seperti gambar 3-9 dan 3-10. Dua grafik pada gambar tersebut menunjukkan
hasil rerata banyaknya objek yang diekstrak untuk 10 kali iterasi. Hasil tersebut
menjustifikasi bahwa metode pemilihan pola dan penyusunan pola berdasarkan
bobot nilai skor cukup baik untuk digunakan sebagai pendekatan ekstraksi relasi
antarobjek. Dua puluh lima persen grup pertama memberikan hasil paling baik
yaitu 53 % dari total keseluruhan hasil ekstraksi relasi. Jika digunakan hanya
50% pola pertama, akan menghasilkan sekitar 73% dari total relasi objek. Dua
puluh lima persen grup terakhir hanya berkontribusi sebesar 7% relasi objek.
3-21
Gambar 3-9 Rerata kuantitas realasi objek yang berhasil diekstraksi
Gambar 3-10 Rerata presentase relasi objek terekstraksi
3.3.7.2 Akurasi
Parameter ke dua untuk evaluasi kinerja pola secara individu adalah akurasi.
Tiga grafik terakhir pada bagian ini menyajikan gambaran akurasi ekstraksi
objek utama dan objek pendukungnya. Grafik pada gambar 3-11 dan 3-12
menunjukkan akurasi ekstraksi MO. Sementara grafik 3-13 merupakan ilustrasi
akurasi ekstraksi SO. Cara penyajian hasil nilai parameter akurasi ekstraksi MO
berbeda dengan penyajian seperti gambar 3-6 yang menyatukan tiga parameter
akurasi. Pada grafik 3-11 dan 3-12 presisi dipisahkan baik dengan recall dan f-
score, karene perbedaan nilai yang terlalu jauh, sehingga tidak fisibel dalam satu
grafik. Rerata nilai presisi untsuk ekstraksi objek utama terlihat cukup baik, di
atas 0.75 untuk grup pola Q1. Sementara nilai recall yang didapatkan sangat
rendah demikian juga untuk f-score. Kecenderungan yang sama dihasilkan oleh
grup pola Q2, Q3, dan Q4. Penjelasan untuk perbedaan nilai yang jauh ini
3-22
adalah: karena evaluasi ini diterapkan untuk setiap individu pola dan maksimal
objek utama yang bisa diekstraksi oleh satu pola tertentu sebanyak 501,
banyaknya minimum pola adalah 0, dan reratanya adalah 9. Karena untuk tiap
eksperimen banyaknya anggota dataset bervariasi antara 1598 sampai dengan
1699, maka secaa kuantitas objek utama yang diekstraksi memberikan nilai
recall yang rendah. Namun demikian meskipun nilai recallnya rendah, precisi
yang dihasillkan masih cukup baik yaitu di atas 0.75 untuk grup pola Q1. Sama
seperti evaluasi kuantitas akurasi dari hasil ekstraksi objek utama juga
mengkonfirmasi bahwa metode pemilihan pola yang mengatur pola dengan
bobot tinggi di bagian atas daftar dan menjadikannya sebagai prioritas cukup
fisibel untuk ekstraksi relasi MO-SO dari data uji.
Akurasi ekstraksi objek pendukung diperlihatkan pada gambar 3-13. Untuk
evaluasi ini setiap grup pola memberikan hasil yang relatif mirip. Nilai f-score
masing-masing sekitar 0.24. Meskipun nilai f-score grup pola terakhir Q4
merupakan yang tertinggi di antara grup pola yang lain, perbedaan di antara
pencapaian f-score grup-grup tersebut tidak terlalu signifikan yaitu hanya
sekitar 0.021. Hasil evaluasi ini juga mengkonfirmasi bahwa tidak diperlukan
untuk mengeksekusi semua pola yang dihasilkan untuk mengekstrak objek
pendukung, karena cukup dengan mengeksekusi sebagian dari keseluruhan pola
dengan bobot nilai skor di daftar atas akan memberikan hasil lebih baik seperti
ditunjukkan pada gambar 3-6.
3-23
Gambar 3-11 Rerata presisi masing-masing grup pola
Gambar 3-12 Rerata Recall dan F-Score hasil ekstraksi MO
3-24
Gambar 3-13 Rerata akurasi ekstraksi relasi objek pendukung
3-25
3.3.8 Kesimpulan
Bagian 3.2 dan 3.3 menguraikan pendekatan berbasis rule (rule based) untuk ekstraksi
relasi antarobjek yang terkandung dalam dokumen semi terstruktur. Dari evaluasi atas
kinerja diperlihatkan bahwa metode pemilihan pola dengan pembobotan beserta
pengaturannya fisibel untuk dieksplorasi lebih jauh dengen beberapa modifikasi dan
penyempurnaan. Potensi penerapan metode ini untuk dataset lain adalah misalnya
untuk mengekstraksi objek atau relasinya dari dokumen yang dibuat oleh mesin.
Dokumen seperti ini sangat banyak tersebar di internet seperti disajikan oleh hampir
semua portal berita. Meskipun pendekatan ini memiliki beberapa keunggulan antara
lain: tidak diperlukan text pre processing seperti stop word removal, independensi
terhadap struktur Bahasa Alami, atau keperluan atas prior knowledge, namun juga
mengandung beberapa kelemahan seperti ketergantungan atas external knowledge atau
keterbatasan kompatibilitasnya untuk semi-structured documents.
Untuk area ini pada penelitian selanjutnya beberapa potensi penyempurnaan dan
modifikasi bisa diterapkan untuk metode yang diusulkan ini. Modifikasi dan
penyempurnaan ini antara lain: penggunaan pengetahuan internal dari dataset
menggantikan pengetahan luar untuk membantu menyusun pola, uji coba penerapan
untuk dataset domain yang lain seperti brosur produk dan jasa, atau portal-portal berita.
Penyempurnaan lain yang cukup prospektif misalnya ekstraksi objek yang terkandung
dalam dokumen berdasarkan karakteristik objek tersebut termasuk posisi relatif objek
dari permulaan dokumen, atau frekuensi kemunculuan objek dalam dokumen, dan jenis
kata (frasa) dari objek utama.
3.4. Categorical Bi-Clustering Berdasarkan Jarak Acuan
Bagian ini membahas hasil pengujian pendekatan bi-clustering yang digunakan untuk
menemukan Bi-Set. Dasar pendekatan adalah hamming-distance yang umum digunakan
untuk menganalisis kemiripan atau perbedaan data-data beratribut kategorikal. Secara
umum tahapan pendekatan yang digunakan adalah: menghitung jarak masing-masing
sampel dengan titik acuan, mengelompokkan sampel dengan jarak yang sama ke dalam
satu grup, dan menemukan bi-clustering berupa Bi-Set dari kelompok jarak tersebut.
Untuk menguji pendekatan yang dibuat, digunakan data sintetis yang terdiri dari dua jenis.
Metode penyusunan data sintetis tersebut juga diuraikan pada bagian ini. Skenario uji coba
3-26
pendekatan yang diusulkan pada penelitian ini disusun berdasarkan metode yang diuji dan
jenis data uji. Parameter evaluasi yang digunakan adalah Match Score dan waktu
komputasi. Dari penelitian ini dihasilkan delapan varian metode. Ke delapan varian
metode tersebut ditambah dengan 4 metode lain masing-masing diuji dengan 20 jenis data
yang terdiri dari 96 dataset. Empat metode lain terdiri dari 2 murni metode yang sudah ada
dan 2 hasil modifikasi metode yang sudah ada. Dengan demikian pada dalam uji coba
dilakukan sebanyak 96 * 12 = 1152 eksperimen.
Sebagian dari materi pada bagian ini telah dipublikasikan sebagai artikel pada juranal :
A Distance-Based Approach for Binary-Categorical Data Bi-Clustering.
Internetworking Indonesia Journal, (Scopus Indexed) Vol.8/No.1 (2016)
3.4.1 Skenario Eksperimen
3.4.1.1 Metode Yang Dibandingkan
Pada uji coba varian DB Bi-Clustering-MS Join dilakukan dengan menguji 8 (delapan)
varian DB Bi-Clustering-MS Join, 3 varian Bitmap, dan 1 algoritme Bimax. Ringkasan
dua belas metode tersebut disajikan pada tabel di bawah.
#Id Method Phase I Phase II
Distance Based-MSJoint
Distance Based Bi-Clustering Biset Searching
Distance Varian Cluster Number Multi Set (MS) Joint Row Column
1 Fixed Distance MaxNumber o MaxNumber
2 Fixed Distance Cutoff n < MaxNumber
o MaxNumber
3 Fixed Distance MaxNumber o Cutoff n < MaxNumber
4 Fixed Distance Cutoff n < MaxNumber
o Cutoff n < MaxNumber
5 Minimum Distance
MaxNumber o MaxNumber
6 Minimum Distance
Cutoff n < MaxNumber
o MaxNumber
7 Minimum Distance
MaxNumber o Cutoff n < MaxNumber
8 Minimum Distance
Cutoff n < MaxNumber
o Cutoff n < MaxNumber
3-27
#Id Method Phase I Phase II
9 BitmapSearching* (Domingo, 2011), (Mujiono)
- Biset Searching: minimum row, minimum column
10 BitmapSearching (Domingo, 2011)
Encoding Biset Searching: minimum row, minimum column
Windows Encoding = N
minimum row = r
minimum column = c
11 BitmapSearching (Domingo, 2011)
DistanceBased Bi-Clustering (Mujiono) Biset Searching: minimum row, minimum column
12 Bimax (Prelic, 2006)
-
3.4.1.2 Varian Metode Yang Diusulkan (DB Bi Clustering-MS Join)
Eksperimen dilakukan dengan membandingkan varian metode yang diusulkan dengan
metode penemuan bi-set lainnya yang sudah diusulkan sebelumnya. Dari metode yang
diusulkan di penelitian ini dipilih delapan varian berdasarkan pemilihan :
1) Based Reference, sampel acuan sembarang untuk menentukan jarak dari
sampel acuan R ke sampel tertentu Xi dipilih satu di antara dua cara:
a. ditentukan secara fixed yaitu R = xi= (ai1, ai2, …..aip), dengan ai1 = 0
untuk semua l <= p (g1, g2, (Prelic, 2006), (Dominggo 2011),
(Khalid, 2013)
b. ditentukan dari center data C yaitu R = C
2) Cutoff banyaknyaknya klaster, pilihan banyaknya klaster merupakan salah
satu parameter yang dimasukkan secara manual. Karena bi-cluster
melakukan clustering secara simultan dari sisi baris dan kolom, maka cutoff
ini bisa dipililih cutoff baris atau cutoff kolom atau keduanya. Masing-
masing pilihan cutff antara 1 (dianggap satu klaster) s.d c= |Vdt| seperti
dijelaskan pada bagian 2.6.2. Pada penelitian ini dipilih c dan c1 = div(c ).
3.4.2 Metode Pembanding
Dua pendekatan yang telah diusulkan oleh peneliti sebelumnya guna keperluan
menemukan himpunan Bi-Set dari data matriks biner adalah Bit-Pattern Biclustering
Algorithm (BiBit) [82] dan Bimax [83]. Kedua metode ini dan modifikasi dari
pendekatan yang pertama digunakan sebagai metode pembanding dari ke-delapan
3-28
varian DB-Biclustering-MS Join. Penjelasan ringkas dari metode-metode pembanding
tersebut dijelaskan pada bagian berikut.
3.4.2.1 BiBit
Pendekatan BiBit bekerja berdasarkan sifat kesamaan bilangan biner dari matriks
Biner. Setiap dua baris matriks biner digunakan untuk membentuk bi-set awal. Jika bi-
set awal ini belum ada dalam daftar yang sudah ditemukan maka bi-set tersebut masuk
ke dalam himpunan daftar Bi-Set. Selanjutnya bi-set yang ditemukan ini digunakan
untuk membandingan semua baris yang tersisa lainnya. Sebelum penyamaan tersebut
dilakukan terlebih dahulu dilakukan encoding. Tahapan BiBit dengan demikian, terdiri
dari dua fase : encoding dan searching, seperti terlihat pada gambar 3-14 [82].
Diperlukan parameter masukan, selain matriks biner B, berupa minimum baris dan
minimum kolom yang dikehendaki untuk setiap Bi-Set yang ditemukan. Pada uji coba
ini algoritme BiBit di-coding ulang dengan dalam script matlab.
Gambar 3-14 Tahapan Algoritme BiBit
3.4.2.2 Modifikasi BiBit
Melewati Fase Encoding
Untuk mndapatkan salah satu varian dari pendekatan BiBit, dilakuan dua modifikasi
pada algoritmenya. Modifikasi pertama dilakukan dengan menghilangkan fase
encoding untuk mengkonversi bilangan biner menjadi bilangan bulat. Dengan demikian
tahapan hanya digunakan fase “Searching” yang diimplementasikan dengan scrip
matlab.
Penggunaan Fase Bi-Clustering
3-29
Modifikasi ke dua dari pendekatan BiBit adalah dengan terlebih dahulu dilakukan Bi-
Clustering menggunakan DB-Bi Clustering dan selanjutnya dieksekusi algoritme BiBit
Searching hasil modifikasi model pertama seperti dijelaskan pada bagian sebelumnya.
3.4.2.3 Bimax
Algoritme penemuan Bi-Set Bimax diusulkan oleh Prelic et al [83]. Algoritme ini
merupakan pendekatan yang menjadi mofel referensi untuk pembandingan dan evaluasi
berbagai metode biclustering seperti dijelaskan antara lain pada [84], [85], [86], dan
[87]. Algoritme Bimax pada awalnya digunakan untuk menemukan Bi-Set pada data
ekspresi gen. Suatu bicluster / Bi-Set (G, C) berkorespondensi dengan suatu subset gen
dengan G ⊆ {1, .., n} yang secara gabungan berkorespondesi atas suatu subset sampel
C ⊆ {1, .., m}. Atau pengertian lain, pasangan (G, C) merupakan sub matriks E dengan
semua elemannya bernilai 1. Seperti definisi objektif bi-clustering dijelaskan pada
bagian sebelumnya, setiap elemen eij yang semuanya bernilai 1 merepresentasikan satu
bicluster. Algoritme Bimax bekerja berdasar prinsip divide and conquer. Ilustrasi cara
kerja algoritme Bimax diperlihatkan pada gambar 6-5. Matriks biner masukan E
dipecah menjadi dua sub matriks yang lebih kecil dengan kemungkinan overlapping U
dan V. Tahap pertama kolom matriks dipecah menjadi sub kolom CU dan CV, dan
menggunakan baris pertama sebagai template. Selanjutnya berturut-turut baris-baris
pada E diurutkan dengan cara: terurut menurun (komponen dengan nilai 1 di atas) tetapi
hanya untuk gen yang berelasi dengan kondisi sampel pada CU, kemudian diurutkan
berdasarkn CU dan CV sekaligus, dan terakhir gen-gen berkorespondensi hanya pada
kondisi sample CV. Baris (gen) kemudian diperlakukan sama yaitu dipecah menjadi
GU, GW, dan GV yang selanjutnya dikombinasikan dengan sampel kondisi CU dan CV
menghasilkan sub matriks U dan V yang kemudian didekomposi secara rekursif. Proses
rekusif berhenti pada kondisi jika pada tiap U dan V yang dihasilkan tidak ditemukan
lagi komponen eij yang bernilai 0 (semua bernilai 1) dan pada tahap itu ditemukan 1 bi-
cluster.
Pada uji coba ini, eksekusi algoritme Bimax menggunakan tools box BiClustering yang
dibuat oleh [84]. Implementasi tools box ini berupa eksekutable file library C.
3-30
Gambar 3-15 Cara Kerja Algoritme Bimax
3.4.3 Evaluasi
Untuk menilai kinerja pendekatan biclustering untuk menemukan Bi-Set ini digunakan
parameter nilai kesesuaian (Match Score/MS). Parameter MS ini juga digunakan untuk
evaluasi dua metode pembanding yang digunakan: BiBit dan Bimax seperti ditunjukkan
pada [83] dan [82]. Berikut definisi dan penjelasan MS.
Definisi
Diacu dari [83], MS digunakan sebagai parameter evaluasi kinerja biclustering untuk yang
diterapkan untuk matriks biner representasi gen.
Misalnya, G1,G2 ⊆ {1, . . . ,n} dua himpunan dua gen. MS G1 dan G2 didefinisikan sebagai
fungsi :
SG(G1,G2) = |G1 ∩G2| / |G1 ∪ G2|
Yang mencerminkan karakteristik keterkaitan antara dua himpunan gen.
Nilai MS akan simetris dalam arti SG(G1,G2) = SG(G2,G1) dan bernilai antara 0 (jika kedua
himpunan saling terpisah ) sampai dengan 1 (jika kedua himpunan identik).
MS pada penelitian ini dimodifikasi dengan melibatkan attribut, sehingga menjadi :
Misalnya dua bi-set b1 = (S1, G1), S1 S, G1 G dan b2 = (S2, G2), S2 S, G2 G,
Nilai kesesuaian (Match Score / MS) b1 terhadap b2 adalah
Sc (b1,b2) = | b1b2|/| b1b2|
= ½ {(|< s11 ,…s1m> < s21 , ...s2m>|/ |< s11 , ….s1m> < s21 , ….s2m>|) + (|< g11 ,
….g1n> < g21 , ….g2n>|/|< g11 , ….g1n> < g21 , ….g2n>|)}
3-31
MS untuk himpunan dua himpunan bisat B1, B2 , MS B1 terhadap B2
Sc(B1,B2) = ∑ 𝑎𝑟𝑔𝑚𝑎𝑥(𝑏𝑗∈𝐵2)(𝑆𝑐(𝑏𝑖,𝑏𝑗))(𝑏𝑖 ∈𝐵1)
|𝐵1|
3.4.4 Data Uji
Data uji yang digunakan pada penelitian ini terdiri dari dua jenis yaitu data uji sintetis dan
data uji riil (experimental). Pengelompokan masing-masing data uji diperlihatkan pada
gambar 6-6 berikut. Data sintetis berdasarkan kompleksitasnya dibagi berdasarkan biset
yang ditanam di dalam data sintetis. Biset yang ditanam tersebut bisa bersifat disjoin atau
overlap satu dengan yang lainnya. Sedangkan data uji eksperimental terdiri dari data obat
dan kandungannya, dengan opsi perluasan data-data yang lain. Penjelasan mengenai data
sintetis diuraikan ada bagian ini.
Gambar 3-16 Pengelompokan data uji
3.4.4.1 Data Sintetis
Untuk menguji 12 metode biclustering seperti dijelaskan pada bagian sebelumnya
digunakan data uji sintetis dan data uji real. Pada bagian ini dijelaskan data uji sintetis.
Data uji sintetis yang digunakan pada penelitian ini merupakan modifikasi dari dataset
pada [82]. Dua jenis data sintetis yang digunakan berdasarkan biset yang ditanam ke
data uji tersebut. Dua jenis biset dalam matriks adalah: disjoint dan overlap.
Karakteristik data sintetis yang digunakan diilustrasikan seperti gambar 3-17.
Karakteristik dataset sintetis direpresentasikan dengan empat atribut, masing-masing:
kompleksitas, dimensi awal matriks, ukuran biset-berupa bujur sangkar-yang
ditanampkan pada dataset, dan ukuran maksimum overlapping baris maupun kolom
3-32
untuk dataset dengan biset overlap. Kompleksitas dataset dilihat berdasarkan sifat biset
yang ditanamkan yaitu: biset yang disjoint dan biset yang saling overlap. Kedua jenis
dataset tersebut mempunyai dua atribut yang sama yaitu ukuran matriks dan ukuran
biset awal, sedangan ukuran overlapping hanya dimiliki oleh matriks dataset dengan
biset overlap. Kedua atribut awal ditentukan secara manual, sedangkan attribute ke tiga
ditentukan secara random dengan batasan maksimum ukuran yang dimasukkan secara
manual. Dimensi matrik (size) adalah baris sekaligus kolom yang merupakan nilai awal
ukuran matriks. Ukuran matrik maksimum adalah size+O. Ukuran biset bujur sangkar
(M) merupkan ukuran awal biset yang didefinisikan sebagai sub matriks bujur sangkar
dengan semua nilai elemen sub matrik tersebut adalah 1 (satu). Posisi awal sub matriks,
pojok kiri atas, ditentukan secara random. Ukuran maksimum overlapping (O)
merupakan ukuran baris atau kolom yang overlap antara dua sub matriks bi-set. Nilai
overlapping sebenarnya ditentukan secara random. Nilai sebenarnya dari ukuran
overlapping pada akhirnya akan menentukan ukuran matrik sebenarnya.
Gambar 3-17 Karakteristik Data Sintentitas
3.4.4.2 Bi-set Disjoint:
Komposisi dataset disjoin terdiri dari 6 anggota dataset. Dengan demikian terdapat 6 * 12
Methods = 72 eksperimen. Komposisi dataset disjoin tersebut seperti tabel di bawah.
3-33
Tabel 3-10 Komposisi dataset disjoin
Dataset ID Size Maksimum Biset Size Remark
1 Disj50x50_5 50 x 50 5 x 5 Posisi & Real Biset Size digenerate Random
2 Disj50x50_10 50 x 50 10 x 10
3 Disj50x50_25 50 x 50 25 x 25
4 Dis100x100_10 100x100 10 x 10
5 Dis100x100_20 100x100 20 x 20
6 Dis100x100_25 100x100 25 x 25
3.4.4.3 Bi-set Overlapping
Komposisi dataset disjoin terdiri dari 18 varian dataset total 90 anggota dataset. Dengan
demikian terdapat 90 * 12 Methods = 1080 eksperimen. Komposisi dataset disjoin tersebut
seperti tabel di bawah.
Tabel 3-11 Komposisi dataset overlap
Varian #ID (18)
Data #ID (90) Dataset ID Size
Main Biset Size
Maks Overlap Varian
1 1 S20_C4_O2 20 x 20 4^2 2 Exp1 S20_C4_O2
2 Exp2 S20_C4_O2
3 Exp3 S20_C4_O2
4 Exp4 S20_C4_O2
5 Exp5 S20_C4_O2
2 6 S20_C5_O3 20 x 20 5^2 3 Exp1 S20_C5_O3
7 Exp2 S20_C5_O3
8 Exp3 S20_C5_O3
9 Exp4 S20_C5_O3
10 Exp5 S20_C5_O3
3 11 S60_C4_O2 60 x 60 4^2 2 Exp1 S60_C4_O2
12 Exp2 S60_C4_O2
13 Exp3 S60_C4_O2
14 Exp4 S60_C4_O2
15 Exp5 S60_C4_O2
4 16 S60_C5_O3 60 x 60 5^2 3 Exp1 S60_C4_O2
17 Exp2 S60_C4_O2
18 Exp3 S60_C4_O2
19 Exp4 S60_C4_O2
20 Exp5 S60_C4_O2
5 21 S60_C10_O8 60 x 60 10^2 8 Exp1 S60_C10_O8
22 Exp2 S60_C10_O8
23 Exp3 S60_C10_O8
24 Exp4 S60_C10_O8
25 Exp5 S60_C10_O8
3-34
Varian #ID (18)
Data #ID (90) Dataset ID Size
Main Biset Size
Maks Overlap Varian
6 26 S60_C15_O12 60 x 60 15^2 12 Exp1 S60_C15_O12
27 Exp2 S60_C15_O12
28 Exp3 S60_C15_O12
29 Exp4 S60_C15_O12
30 Exp5 S60_C15_O12
7 31 S60_C20_O18 60 x 60 20^2 18 Exp1 S60_C20_O18
32 Exp2 S60_C20_O18
33 Exp3 S60_C20_O18
34 Exp4 S60_C20_O18
35 Exp5 S60_C20_O18
8 36 S80_C4_O2 80 x 80 4^2 2 Exp1 S80_C4_O2
37 Exp2 S80_C4_O2
38 Exp3 S80_C4_O2
39 Exp4 S80_C4_O2
40 Exp5 S80_C4_O2
9 41 S80_C5_O3 80 x 80 5^2 3 Exp1 S80_C5_O3
42 Exp2 S80_C5_O3
43 Exp3 S80_C5_O3
44 Exp4 S80_C5_O3
45 Exp5 S80_C5_O3
10 46 S80_C10_O8 80 x 80 10^2 8 Exp1 S80_C10_O8
47 Exp2 S80_C10_O8
48 Exp3 S80_C10_O8
49 Exp4 S80_C10_O8
50 Exp5 S80_C10_O8
11 51 S80_C20_O18 80 x 80 20^2 18 Exp1 S80_C20_O18
52 Exp2 S80_C20_O18
53 Exp3 S80_C20_O18
54 Exp4 S80_C20_O18
55 Exp5 S80_C20_O18
12 56 S80_C40_O35 80 x 80 40^2 35 Exp1 S80_C40_O35
57 Exp2 S80_C40_O35
58 Exp3 S80_C40_O35
59 Exp4 S80_C40_O35
60 Exp5 S80_C40_O35
13 61 S100_C4_O2 100 x 100 4^2 2 Exp1 S100_C4_O2
62 Exp2 S100_C4_O2
63 Exp3 S100_C4_O2
64 Exp4 S100_C4_O2
65 Exp5 S100_C4_O2
3-35
Varian #ID (18)
Data #ID (90) Dataset ID Size
Main Biset Size
Maks Overlap Varian
14 66 S100_C5_O3 100 x 100 5^2 3 Exp1 S100_C5_O3
67 Exp2 S100_C5_O3
68 Exp3 S100_C5_O3
69 Exp4 S100_C5_O3
70 Exp5 S100_C5_O3
15 71 S100_C10_O8 100 x 100 10^2 8 Exp1 S100_C10_O8
72 Exp2 S100_C10_O8
73 Exp3 S100_C10_O8
74 Exp4 S100_C10_O8
75 Exp5 S100_C10_O8
16 76 S100_C20_O18 100 x 100 20^2 12 Exp1 S100_C20_O18
77 Exp2 S100_C20_O18
78 Exp3 S100_C20_O18
79 Exp4 S100_C20_O18
80 Exp5 S100_C20_O18
17 81 S100_C25_O24 100 x 100 25^2 24 Exp1 S100_C25_O24
82 Exp2 S100_C25_O24
83 Exp3 S100_C25_O24
84 Exp4 S100_C25_O24
85 Exp5 S100_C25_O24
18 86 S100_C50_O48 100 x 100 48^2 48 Exp1 S100_C50_O48
87 Exp2 S100_C50_O48
88 Exp3 S100_C50_O48
89 Exp4 S100_C50_O48
90 Exp5 S100_C50_O48
3.4.5 Hasil Uji Coba
Pada bagian ini hanya disajikan rerata dari semua uji coba. Sementara hasil uji coba rinci
disertakan sbagai lampiran. Masing-masing kinerja rerata Match Score untuk dataset
overlap dan disjoin disajikan pada tabel 3-12 dan 3-13. Untuk dataset overlap dari nilai
rerata Match Score yang diperoleh terlihat bahwa metode nomer 12 (Bimax) menunjukkan
kinerja yang paling baik dengan nilai rerata 0.9542. Pencapaian kinerja terbaik dari varian
metode yang diusulkan pada penelitian ini dengan nilai 0.8723 yang diperoleh oleh varian
no 5 dan 6. Sedangkan metoda pembanding lainnya (BiBit) memperoleh nilai rerata match
3-36
score lebih rendah. Kondisi berbeda terlihat pada dataset disjoin. Untuk dataset ini metode
yang diusulkan bekerja lebih baik daripada kedua metode pembanding. Sementara dari
sisi kinerja waktu komputasi metode Bimax selalu lebih baik. Hal ini karena metode
Bimax sudah diimplementasikan dalam library Matlab-C (Mex), sedangkan metode yang
lain dijalankan dengan script matlab.
3-37
Tabel 3-12 Hasil uji coba rerata uuntuk dataset overlapping
Dataset #1 Dataset #2 Dataset #3 Dataset #4 Average
Avg. Time Avg. MS Avg. Time Avg. MS Avg. Time Avg. MS Avg. Time Avg. MS Avg. Time Avg. MS
Method 1 0.224499512 0.873927627 2.490000305 0.867086223 5.55000061 0.873886582 12.84070028 0.867089923 5.276300176 0.870497589
Method 2 0.962300873 0.873927627 159.1591196 0.867086223 476.0693204 0.881008456 321.9054672 0.861488004 239.524052 0.870877577
Method 3 0.87069931 0.716130873 131.2169589 0.754361635 307.0060394 0.781817969 334.9505333 0.78182183 193.5110577 0.758533077
Method 4 1.184199524 0.741504734 482.1886801 0.735118549 513.9909607 0.74401596 997.0047288 0.743143833 498.5921423 0.740945769
Method 5 0.624499512 0.873927627 60.83999939 0.867086223 118.1312805 0.881008456 305.488367 0.867089923 121.2710366 0.872278057
Method 6 1.937599945 0.873927627 141.7394406 0.867086223 1171.8772 0.881008456 439.172966 0.867089923 438.6818017 0.872278057
Method 7 1.251000214 0.715865305 89.04345894 0.756154809 660.2365591 0.778401116 526.5249326 0.767384181 319.2639877 0.754451353
Method 8 4.193199921 0.727863772 247.1635202 0.72904541 522.4526004 0.745018205 3171.647966 0.743616672 986.3643216 0.736386015
Method 9 1.13990097 0.859466896 87.85736053 0.751564695 316.7953601 0.734637885 698.3195666 0.714120678 276.0280471 0.764947539
Method 10 0.1 0 4384.28 0.646498991 1064.7 0.627231477 14526.23333 0.631024281 4993.828333 0.476188687
Method 11 0.744900513 0.853460877 105.4829199 0.808518081 269.6892798 0.783987335 0 0 93.97927505 0.611491573
Method 12 0 0.955130478 0 0.962350286 0 0.934918333 0.066666667 0.964453992 0.016666667 0.954213272
3-38
Gambar 3-18 Perbandingan rerata Match Score untuk Dataset Overlapping
Gambar 3-19 Perbandingan rerata waktu komputasi untuk Dataset Overlap
0
0.2
0.4
0.6
0.8
1
1.2
Mat
ch S
core
Average Match Score SN_CN_ON Random
0
1000
2000
3000
4000
5000
6000
Tim
e (s
)
Average Computation Time Data SN_CN_ON Random
3-39
Tabel 3-13 Hasil uji coba rerata untuk dataset disjoin
Time MS
Method 1 1.785714 1
Method 5 126 0.871429
Method 9 44.5 1
Method 12 0 0.578571
Gambar 3-20 Perbandingan rerata Match Score untuk Dataset Disjoin
Gambar 3-21 Perbandingan rerata waktu komputasi untuk Dataset Disjoin
3-40
3.4.6 Komparasi Dengan Metode Sebelumnya
Hasil komparasi dengen metode pembanding untuk dataset sintetis diperlihatkan seperti
tabel 3-14 dan 3-15 di bawah.
Tabel 3-14 Komparasi kinerja Match Score untuk dataset overlapping
Ranking
Overlapping Data Time Perform.
1 Method 12, Bimax, (Prelic, 2006) 1 1 * Executable file in C
2 Method 5 & 6, Bi-Clust+ MS Join (usulan) 3 2 comparable
3 Method 2 & 1, Bi-Clust+ MS Join (usulan) 2 3
4 Method 10 , BitMapSearch (Dominggo, 2011) 12 12 Kasus p mod w <> 0, tidak tertangani
Tabel 3-15 Komparasi kinerja Match Score untuk dataset disjoint
Ranking
Disjoint Data Time Perform.
1 Method 1, Bi-Clust+ MS Join (usulan) 2 1
2 Method 9, Modified BitmapSearch (Dominggo, 2011) (usulan) 3 1
3 Method 5, Bi-Clust+ MS Join (usulan) 4 2
4 Method 12, Bimax, (Prelic, 2006) 1 3
3.5. Pembahasan
Sampai dengan tahap ini dari semua hasil eksperimen yang telah dilakukan, pendekatan-
pendekatan yang diusulkan mampu menyelesaikan permasalahan ekstraksi entitas,
ekstraksi relasi antarentitas dalam dokumen, dan penyusunan interaksi antarentitas dengan
menggunakan data sintetis. Pendekatan model rule based yang digunakan pada tahap
ekstraksi entitas dan ekstraksi antarentitas mampu menghasilkan kinerja yang baik dengan
nilai f-score di atas 0,75. Pendekatan rule based ini digunakan karena mempertimbangkan
struktur teks dataset yang menunjukkan adanya pola tertentu. Pendekatan rule based juga
digunakan untuk menangani permasalahan localization yang tidak ditangani oleh metode-
metode yang sudah ada.
Meskipun memberikan hasil kinerja yang baik, namun pendekatan ini mengandung
kelemahan di antaranya jika dihadapkan pada dataset yang tidak terstruktur seperti format
bahasa alami dalam dataset. Kekurangan yang lain adalah ketergantungan pada
pengetahuan luar yang digunakan untuk memandu pencarian pola. Tujuan ekstraksi entitas
3-41
pada penelitian ini adalah menemukan entitas utama (kunci) yang merupakan topik utama
dalam dokumen. Pada penelitian ini entitas utama dan entitas pendukung adalah nama obat
dan kandungan obat. Nama obat dan kandungan obat bukan merupakan istilah yang umum
digunakan dalam tata bahasa Bahasa Indonesia sehingga memungkinkan penggunaan
basis data kosa kata Bahasa Indonesia sebagai pengetahuan luar. Jika entitas utama yang
diinginkan adalah termasuk dalam kota kasa yang umum dalam Bahasa Indonesia, maka
pendekatan ini tidak akan efektif unuk digunakan. Demikian juga pendekatan ini tidak bisa
digunakan untuk dataset bersifat global, misalnya label obat dalam Bahasa Inggris.
Sebagai komplemen dari pendekatan rule based di atas, diusulkan pendekatan berbasis
mesin pembelajaran. Kontribusi utama pada pendekatan berbasis pembelajaran ini adalah
bagaimana menginterpretasikan data set dan memformulasikannya sehingga dapat
digunakan untuk menyelesaikan permasalahan-permasalahan dalam ekstraksi entitas yang
tidak ditangani oleh metode-metode yang telah ada. Selain menyelesaikan permasahaan-
permasalahan yang masih belum ditangani, metode yang diusulkan ini juga memberikan
hasil yang lebih baik dibandingkan metode-metode yang telah ada. Permasalahan yang
bisa ditangani oleh metode ini adalah: multi token untuk satu entitas tunggal, keperluan
akan pengetahuan luar, dan kebutuhan handcrafted feature. Hasil lebih baik dari
interpretasi dan formulasi dataset yang diusulkan ini ditunjukkan dengan akurasi rata-rata
f-score terbaik di atas 0.86. Pemanfaatan model word embedding word2vect yang
digunakan dalam penyusunan dan formula dataset metode usulan ini juga memberikan
hasil lebih baik dibandingkan dengan pendekatan rule based. Dalam penerapan model
mesin pembelajaran ini dihadapi tantangan berupa tidak seimbangnya kelas target (token
obat) dengan kelas non target (token non obat). Ketidakseimbangan ini mengakibatkan
nilai f-score rendah meskipun akurasi tinggi, karena kebanyakan prediksi yang tepat ada
pada kelas non target yang tidak termasuk dalam hitungan f-score.
Untuk penyusunan interaksi antarentitas dari dokumen yang berbeda, diusulkan
pendekatan bi-clustering untuk binary categorical data. Bi-clustering digunakan untuk
menemukan Bi-Set yang merepresentasikan kemiripan semantik sekolompok entitas
utama (yang mewakili dokumen) berdasarkan entitas pendukung / penyusunnya.
Pengujian metode yang diusulkan untuk keperluan bi-clustering ini menggunakan dataset
3-42
sintetis untuk membandingkan kinerjanya dengan metode yang sudah ada sebelumnya. Uji
coba dari dua jenis data sintetis, kompleks (Bi-set overlapping) dan sederhana (Bi-Set
disjoin), memperlihatkan bahwa metode yang diusulkan ini menghasilkan kinerja
seimbang dengan metode terbaik yang telah ada. Meskipun menghasilkan kinerja yang
baik dengan dataset sintetis, keandalannya masih perlu diuji coba dengan dataset riil
misalnya data ekspresi gen. Kelemahan lainnya yang ditemukan pada saat uji coba adalah
waktu komputasi yang tidak fisibel untuk matriks ukuran 500 * 500 atau lebih.
Secara keseluruhan penerapan rule based untuk ekstraksi entitas relasi antarentitas,
penerapan model pembelajaran mesin untuk ekstraksi entitas, dan penyusunan algoritme
bi-clustering telah mencakup semua tahapan guna menyelesaikan permasalahan reduksi
dimensi dokumen untuk keperluan document clustering. Penelitian berikutnya yang perlu
diselesaikan adalah menguji bi-clustering dengan dataset riil. Berdasarkan hasil
eksperimen pendekatan pembelajaran mesin untuk ekstraksi entitas yang lebih baik dan
kemampuan menyelesaikan permasalahan model rule based, maka eksplorasi pendekatan
mesin pembelajaran untuk ekstraksi interaksi antarentitas fisibel untuk dilakukan.
4-1
BAB 4. KESIMPULAN
4.1.Kontribusi
Sampai dengan tahap ini dari penelitian ini telah dihasilkan usulan metode penyelesaian
permasalahan ekstraksi entitas medis (dalam hal ini nama obat), penyelesaian relasi
antarobat dan kandungan obat, serta bi-clustering yang diterapkan pada data
terkategorisasi. Serangkaian metode ini digunakan untuk keperluan reduksi dimensi dalam
penyelesaian permasalahan document clustering. Dalam penelitian ini digunakan dua
model pendekatan yaitu supervised dan unsupervised. Dari pendekatan unsupervised,
metode rule based yang digunakan memiliki kelebihan-kelebihan:
Ekstraksi relasi yang independen terhadap bahasa alami.
Tidak diperlukan pre processing seperti umumnya diperlukan untuk pengolahan
bahasa alami antarlain: sentence parsing, stop word removal, atau POS Tagging.
Tidak diperlukan pengetahuan mengenai ontology atau hierarchical knowledge
base.
Metode bi-clustering dan multi set join yang diusulkan menghasilkan kinerja yang
lebih baik dari metode sebelumnya.
Pendekatan supervised yang digunakan pada penelitian ini mampu menyelesaikan
permasalahan-permasalahan :
Multi token untuk entitas tunggal yang belum diselesaikan pada penelitian
terdahulu.
Ketergantungan terhadap pengetahuan luar.
Keperluan akan handcrafted feature
Dari sisi akurasi diperlihatkan bahwa teknik yang memperlakukan kalimat sebagai
sequence dengan model LSTM mampu memberikan kinerja akurasi terbaik dengan nilai
rata-rata f-score adalah 0.8645.
4.2.Keterbatasan dan Permasalahan Baru
Dari eksperimen yang dilakukan, beberapa keterbatasan dan permasalahan yang belum
diselesaikan panelitian ini antara lain:
4-2
Pendekatan rule based dengan menggunakan pattern scoring hanya sesuai untuk
dataset teks dengan struktur yang teratur.
Metode Bi-clustering yang diusulkan menghasilkan kinerja akurasi kurang baik
dibandingkan dengan satu metode sebelumnya dalam menangani dataset yang
lebih kompleks.
Untuk menangani matrik berukuran 500 x 500 atau lebih metode bi-clustering
yang diusulkan memerlukan waktu komputasi lama dan tidak cukup efisien
dibandingkan dengan metode Bimax
Metode Bi-clustering belum teruji untuk menangani biset yang overlapping, yang
banyak terdapat pada real dataset misalnya ekpresi gen.
Pada penerapan model mesin pembelajaran untuk ekstraksi entitas nama obat,
nilai f-score yang diperoleh tidak sejalan dengan tingginya akurasi yang
didapatkan karena noise token non target yang jauh lebih banyak dari token target.
Oleh karenanya, usaha untuk mengurangi noise terbuka untuk dieksplorasi
sehingga meningkatkan nilai f-score.
4.3.Penelitian Lanjutan
Dari hasil penelitian ini terbuka penelitian lanjutan untuk keperluan-keperluan:
Eksplorasi pendekatan pembelajaran mesin untuk ekstraksi interaksi antarentitas,
mengingat pendekatan pembelajaran mesin untuk ekstraksi entitas memberikan hasil
yang lebih baik
Penyusunan simulasi interaksi antarobat dengan memanfaatkan berbagi format data
yaitu: data terstruktur, data semi terstruktur (dokumen) dan data tidak terstruktur
(gambar, citra).
Penyiapan sistem informasi simulasi, pengendalian, dan pemantauan interaksi
antarobat yang mampu mengakomodasi keterlibatan masyarakat luas dalam proses
tersebut antara lain melalui pengiriman data obat (berupa dokumen, gambar)
menggunakan media SMS, Chat, email, atau messaging yang lain.
Pengembangan aplikasi yang dapat diimplementasikan untuk menguji interaksi
antarobat yang diajukan untuk dipasarkan di masyarakat
4-3
Pengembangan aplikasi yang dapat diimplementasikan untuk membantu pemantauan
dan pengawasan obat yang akan atau sudah beredar di masyarakat di mana obat
tersebut mungkin berbahaya karena interaksi.
Pengembangan aplikasi yang dapat diimplementasikan untuk mengakomodasi
keterlibatan masyarakat dalam pengendalian dan pengawasan obat yang beredar di
pasaran.
Penelitian prediksi interaksi antarobat dengan masukan berbagai format data yang
berisi informasi indikasi, kontra inidikasi dan kandungan obat ini diharapkan
mempercepat penelitian lanjutan yang mempertimbangkan aspek – aspek informasi
yang lain seperti : hubungan penyakit dengan obat, hubungan obat dengan organ
tubuh target pengobatan, atau hubungan antara penyakit – obat – dan faktor genetis.
A
Daftar Pustaka
[1] P. Interaksi, “Interaksi Antibiotik,” pp. 1–4, 2011.
[2] M. Takarabe, S. Okuda, M. Itoh, T. Tokimatsu, S. Goto, and M. Kanehisa, “Network
analysis of adverse drug interactions.,” Genome Inform., vol. 20, pp. 252–9, Jan. 2008.
[3] M. Takarabe, D. Shigemizu, S. Goto, M. Kotera, and M. Kanehisa,
“CHARACTERIZATION AND CLASSIFICATION OF ADVERSE DRUG,” J.
Genome Inf., no. Japic Id, pp. 167–175, 2010.
[4] E. P. Ivanova, V. K. Truong, J. Y. Wang, C. C. Berndt, R. T. Jones, I. I. Yusuf, I. Peake,
H. W. Schmidt, C. Fluke, D. Barnes, and R. J. Crawford, Guidelines for ATC
classification and DDD assignment, vol. 70, no. 3. 2010.
[5] BPOM, “Badan Pengawas Obat dan Makanan,” BPOM, 2010. .
[6] “5. health.detik.com-2010-12-01-bpom-tarik-6-obat-pelangsing-karena-bisa-bikin-
stroke.pdf.” .
[7] V. F. Bararah, “BPOM Tarik 6 Obat Pelangsing Karena Bisa Bikin Stroke,” detik.com,
2010. [Online]. Available:
http://health.detik.com/read/2010/12/01/155614/1506878/763/bpom-tarik-6-obat-
pelangsing-karena-bisa-bikin-stroke. [Accessed: 01-Jan-2016].
[8] G. Com, H. Www, and G. Com, “BPOM Tarik 59 Jamu Berbahan Kimia Obat,”
Kompas.com, 2013. [Online]. Available:
http://health.kompas.com/read/2013/11/08/1331226/BPOM.Tarik.59.Jamu.Berbahan.
Kimia.Obat.
[9] Tempo.com, “Polisi Tangkap Pengedar Kosmetik Palsu,” 2013. [Online]. Available:
https://nasional.tempo.co/read/news/2013/01/02/058451671/polisi-tangkap-pengedar-
kosmetik-palsu. [Accessed: 01-Jan-2016].
[10] G. M. Finesso, “Jamu dan Obat Kuat Mengandung BKO Masih Berdedar,” 2013.
[Online]. Available:
http://regional.kompas.com/read/2013/02/19/17425517/Jamu.dan.Obat.Kuat.Mengand
ung.BKO.Masih.Berdeda.
[11] A. Noreddin, READINGS IN ADVANCED PHARMACOKINETICS – THEORY ,
METHODS AND APPLICATIONS Edited by Ayman Noreddin. 2012.
[12] I. Segura-Bedmar, P. Martinez, and M. Herrero-Zazo, “Semeval-2013 task 9: Extraction
of drug-drug interactions from biomedical texts (ddiextraction 2013),” in Proceedings
of the Seventh International Workshop on Semantic Evaluation (SemEval 2013) vol. 2,
Association for Computational Linguistics, 2013, vol. 2, no. SemEval, pp. 341–350.
[13] H. Li, C. Liu, L. Burge, K. Dae Ko, and W. Southerland, “Predicting protein-protein
interactions using full Bayesian network,” 2012 IEEE Int. Conf. Bioinforma. Biomed.
Work., pp. 544–550, Oct. 2012.
[14] J. Mata, R. Santano, D. Blanco, M. Lucero, and M. J. Maña, “A Machine Learning
Approach to Extract Drug – Drug Interactions in an Unbalanced Dataset,” in the 1st
Challenge task on Drug-Drug Interaction Extraction (DDIExtraction2011), 2011, pp.
6–12.
[15] S. Vilar, E. Uriarte, L. Santana, N. P. Tatonetti, and C. Friedman, “Detection of drug-
B
drug interactions by modeling interaction profile fingerprints.,” PLoS One, vol. 8, no. 3,
p. e58321, Jan. 2013.
[16] Y. Yamanishi, M. Araki, A. Gutteridge, W. Honda, and M. Kanehisa, “Prediction of
drug-target interaction networks from the integration of chemical and genomic spaces.,”
Bioinformatics, vol. 24, no. 13, pp. i232–40, Jul. 2008.
[17] S. Polak, J. Brandys, and a. Mendyk, “Neural System for in silico Drug-Drug Interaction
Screening,” Int. Conf. Comput. Intell. Model. Control Autom. Int. Conf. Intell. Agents,
Web Technol. Internet Commer., vol. 2, pp. 75–80, 2005.
[18] M. Sadikin and I. Wasito, “Translation and Classification Algorithm of FDA-Drugs to
DOEN2011 Class Therapy to Estimate Drug-Drug Interaction,” in The 2nd
International Conference on Information Systems for Business Competitiveness 2013
(ICISBC 2013), 2013, no. Icisbc, pp. 1–5.
[19] S. P. Out and M. Baru, “Interaksi Obat Anti Biotika, Majalah Online Manajemen
Modern dan Kesehatan Masyarakat,” 2011. [Online]. Available:
http://www.itokindo.org/. [Accessed: 01-Jan-2016].
[20] “Interaksi Obat Anti Biotika,” Majalah Online Manajemen Modern dan Kesehatan
Masyarakat, 2013. [Online]. Available: www.itokindo.org.
[21] R. Boyce and G. Gardner, “Using Natural Language Processing to Identify
Pharmacokinetic Drug- Drug Interactions Described in Drug Package Inserts,” in the
2012 Workshop on Biomedical Natural Language Processing (BioNLP 2012), 2012, no.
BioNLP, pp. 206–213.
[22] U. Maulik, A. Mukhopadhyay, M. Bhattacharyya, L. Kaderali, B. Brors, S.
Bandyopadhyay, and R. Eils, “Mining quasi-bicliques from HIV-1-human protein
interaction network: a multiobjective biclustering approach.,” IEEE/ACM Trans.
Comput. Biol. Bioinform., vol. 10, no. 2, pp. 423–35, 2012.
[23] Z. He, J. Zhang, X.-H. Shi, L.-L. Hu, X. Kong, Y.-D. Cai, and K.-C. Chou, “Predicting
drug-target interaction networks based on functional groups and biological features.,”
PLoS One, vol. 5, no. 3, p. e9603, Jan. 2010.
[24] K. Lee, S. Lee, M. Jeon, J. Choi, and J. Kang, “Drug-drug interaction analysis using
heterogeneous biological information network,” 2012 IEEE Int. Conf. Bioinforma.
Biomed., pp. 1–5, Oct. 2012.
[25] H. Tang and J. Ye, “A Survey for Information Extraction Method.”
[26] S. Zhang and N. Elhadad, “Unsupervised biomedical named entity recognition :
Experiments with clinical and biological texts,” J. Biomed. Inform., vol. 46, pp. 1088–
1098, 2013.
[27] I. Korkontzelos, D. Piliouras, A. W. Dowsey, and S. Ananiadou, “Artificial Intelligence
in Medicine Boosting drug named entity recognition using an aggregate classifier,”
Artif. Intell. Med., vol. 65, pp. 145–153, 2015.
[28] H. Sampathkumar, X. Chen, and B. Luo, “Mining Adverse Drug Reactions from online
healthcare forums using Hidden Markov Model,” pp. 1–18, 2014.
[29] I. Segura-bedmar and P. Martı, “Drug name recognition and classification in biomedical
texts A case study outlining approaches underpinning automated systems,” Drug
Discov. Today, vol. 13, no. September, 2008.
C
[30] S. Keretna, C. Peng, D. Creighton, and K. Bashir, “Enhancing medical named entity
recognition with an extended segment representation technique,” Comput. Methods
Programs Bimoedicine, vol. 9, pp. 88–100, 2015.
[31] G. Pal and S. Gosal, “A Survey of Biological Entity Recognition Approaches,” Int. J.
Recent Innov. Trends Comput. Commun., vol. 3, no. 9, 2015.
[32] S. Liu, B. Tang, Q. Chen, X. Wang, and X. Fan, “Feature engineering for drug name
recognition in biomedical texts: Feature conjunction and feature selection,” Comput.
Math. Methods Med., vol. 2015, 2015.
[33] T. Grego and F. M. Couto, “LASIGE : using Conditional Random Fields and ChEBI
ontology,” in 7th International Workshop on Semantic Evaluation (SemEval 2013).,
2013, vol. 2, no. SemEval, pp. 660–666.
[34] J. Björne, S. Kaewphan, and T. Salakoski, “UTurku : Drug Named Entity Recognition
and Drug-Drug Interaction Extraction Using SVM Classification and Domain
Knowledge,” in Second Joint Conferernce on Lexical and Computational Semantic,
2013, vol. 2, no. SemEval, pp. 651–659.
[35] B. R. Zeeberg, W. Feng, G. Wang, M. D. Wang, A. T. Fojo, M. Sunshine, S.
Narasimhan, D. W. Kane, W. C. Reinhold, S. Lababidi, K. J. Bussey, J. Riss, J. C.
Barrett, and J. N. Weinstein, “GoMiner: a resource for biological interpretation of
genomic and proteomic data.,” Genome Biol., vol. 4, no. 4, p. R28, Jan. 2003.
[36] L. Jing, M. K. Ng, and J. Z. Huang, “Knowledge-based vector space model for text
clustering,” Knowl. Inf. Syst., vol. 25, no. 1, pp. 35–55, Oct. 2009.
[37] M. Rafi, “Document Clustering based on Topic Maps,” vol. 12, no. 1, pp. 32–36, 2010.
[38] C.-L. Chen, F. S. C. Tseng, and T. Liang, “An integration of fuzzy association rules and
WordNet for document clustering,” Knowl. Inf. Syst., vol. 28, no. 3, pp. 687–708, Nov.
2010.
[39] D. Chen and K. J. Holyoak, “Learning and Generalization of Abstract Semantic
Relations : Preliminary Investigation of Bayesian Approaches,” in The 32nd Annual
Conference of the Cognitive Science Society, 2010, pp. 871–876.
[40] T. M and P. Thangaraj, “Fuzzy Ontology for Distributed Document Clustering based on
Genetic Algorithm,” Appl. Math. Inf. Sci., vol. 7, no. 4, pp. 1563–1574, Jul. 2013.
[41] M. W. Berry and M. Castellanos, “Survey of Text Mining : Clustering , Classification ,
and Retrieval , Second Edition,” 2007.
[42] S. Fodeh, B. Punch, and P.-N. Tan, “On ontology-driven document clustering using core
semantic features,” Knowl. Inf. Syst., vol. 28, no. 2, pp. 395–421, Jan. 2011.
[43] F. P. Romero, A. Peralta, A. Soto, J. a. Olivas, and J. Serrano-Guerrero, “Fuzzy
optimized self-organizing maps and their application to document clustering,” Soft
Comput., vol. 14, no. 8, pp. 857–867, Jul. 2009.
[44] S. Paliwal and V. Pudi, “Investigating Usage of Text Segmentation and Inter-passage
Similarities,” in MLDM 2012, 2012, pp. 555–565.
[45] H. S. Nguyen, “Unsupervised Similarity Learning from Textual Data ∗,” vol. 119, pp.
319–337, 2012.
[46] M. Steinbach, “A Comparison of Document Clustering Techniques,” in KDD Workshop
D
on Text Mining, 2000., 2000, pp. 1–20.
[47] I. Stankov, D. Todorov, and R. Setchi, “Enhanced cross-domain document clustering
with a semantically enhanced text stemmer ( SETS ),” Int. J. Knowledge-based Intell.
Eng. Syst., vol. 17, pp. 113–126, 2013.
[48] T. F. Gharib, M. M. Fouad, A. Mashat, and I. Bidawi, “Self Organizing Map -based
Document Clustering Using WordNet Ontologies,” vol. 9, no. 1, pp. 88–95, 2012.
[49] M. Batet, “Ontology-based semantic clustering,” Universitat Rovira i Virgili, 2011.
[50] R. Elmasri, J. Fu, and F. Ji, “Multi-level Conceptual Modeling for Biomedical Data and
Ontologies Integration,” Twent. IEEE Int. Symp. Comput. Med. Syst., pp. 589–594, Jun.
2007.
[51] L.-C. Chen, P.-J. Kuo, and I.-E. Liao, “Ontology-based library recommender system
using MapReduce,” Cluster Comput., no. August 2013, Jan. 2014.
[52] G. G. Dagher and B. C. M. Fung, “Subject-based Semantic Document Clustering for
Digital Forensic Investigations,” J. Data Knowlege Eng., vol. 86, no. October 2013,
2013.
[53] B. Aljaber, N. Stokes, J. Bailey, and J. Pei, “Document clustering of scientific texts using
citation contexts,” Inf. Retr. Boston., vol. 13, no. 2, pp. 101–131, Aug. 2009.
[54] A. Kalogeratos and A. Likas, “Text document clustering using global term context
vectors,” Knowl. Inf. Syst., vol. 31, no. 3, pp. 455–474, May 2011.
[55] T. H. Cao, T. M. Tang, and C. K. Chau, “Chapter 10 Text Clustering with Named
Entities : A Model , Experimentation and Realization,” in Data Mining: Found. & Intell.
Paradigms, D. E. Holmes and L. C. Jain, Eds. Berlin Heidelberg: Springer-Verlag Berlin
Heidelberg, 2012, pp. 267–287.
[56] B. Brosseau-Villeneuve, J.-Y. Nie, and N. Kando, “Latent word context model for
information retrieval,” Inf. Retr. Boston., vol. 17, no. 1, pp. 21–51, Mar. 2013.
[57] C. C. Aggarwal and C. Zhai, Mining Text Data. Boston, MA: Springer US, 2012.
[58] W. Hu, G. Tian, X. Li, and S. Maybank, “An Improved Hierarchical Dirichlet Process-
Hidden Markov Model and Its Application to Trajectory Modeling and Retrieval,” Int.
J. Comput. Vis., vol. 105, no. 3, pp. 246–268, Jun. 2013.
[59] L. R. Biggers, C. Bocovich, R. Capshaw, B. P. Eddy, L. H. Etzkorn, and N. a. Kraft,
Configuring latent Dirichlet allocation based feature location. 2012.
[60] I. Segura-bedmar and P. Mart, “Exploring Word Embedding for Drug Name
Recognition,” in The Sixth International Workshop on Health Text Mining and
Information Analysis, 2015, no. September, pp. 64–72.
[61] Y. Chen, T. A. Lasko, Q. Mei, J. C. Denny, and H. Xu, “A study of active learning
methods for named entity recognition in clinical text,” J. Biomed. Inform., vol. 58, pp.
11–18, 2015.
[62] A. Ben, F. Mahbub, A. Karanasiou, Y. Mrabet, A. Lavelli, and P. Zweigenbaum, “Text
mining for pharmacovigilance : Using machine learning for drug name recognition and
drug – drug interaction extraction and classification,” vol. 58, pp. 122–132, 2015.
[63] C. Niu, W. Li, J. Ding, and R. K. Srihari, “A Bootstrapping Approach to Named Entity
Classification Using Successive Learners,” in Proceedings of the 41st Annual Meeting
E
of the Association for Computational Linguistics, 2003, vol. 1, no. July, pp. 335–342.
[64] F. Xu, “Bootstrapping Relation Extraction from Semantic Seeds.”
[65] E. Umamaheswari and T. V Geetha, “LEARNING EVENT PATTERNS FROM NEWS
TEXT USING BOOTSTRAPPING,” in International Conference on Information
System Security And Cognitive Science, 2013, no. July, pp. 48–54.
[66] M. Thelen and E. Riloff, “A bootstrapping method for learning semantic lexicons using
extraction pattern contexts,” in Proceedings of the ACL-02 conference on Empirical
methods in natural language processing-EMNLP ’02, 2002, vol. 10, no. Emnlp, pp.
214–221.
[67] T. Liu and T. Strzalkowski, “Bootstrapping Events and Relations from Text Polish
Academy of Sciences,” in The 13th Conference of the European Chapter of the
Association for Computational Linguistics, 2012, no. 1996, pp. 296–305.
[68] E. Agichtein and L. Gravano, “Snowball : Extracting Relations from Large Plain-Text
Collections,” in DL ’00 Proceedings of the fifth ACM conference on Digital libraries,
2000, pp. 85–94.
[69] W. Lin, R. Yangarber, and R. Grishman, “Bootstrapped Learning of Semantic Classes
from Positive and Negative Examples,” in Proceedings of the ICML-2003 Workshop on
The Continuum from Labeled to Unlabeled Data, 2003.
[70] S. Patwardhan and E. Riloff, “Learning Domain-Specific Information Extraction
Patterns from the Web,” in Proceedings of the Workshop on Information Extraction
Beyond The Document, 2006, no. July, pp. 66–73.
[71] R. Huang and E. Riloff, “Multi-faceted Event Recognition with Bootstrapped
Dictionaries,” in Proceedings of NAACL-HLT 2013, 2013, no. June, pp. 41–51.
[72] T. Mikolov, G. Corrado, K. Chen, and J. Dean, “Efficient Estimation of Word
Representations in Vector Space,” arXiv Prepr. arXiv1301.3781, vol. 3, pp. 1–12, 2013.
[73] X. W. Xiang Zuo, Alvin Chin, Xiaoguang Fan, Bin Xu, Dezhi Hong, Ying Wang,
“Connecting People at a Conference- A Study of Influence Between Offline and Online
Using a Mobile Social Application,” in 2012 IEEE International Conference on Green
Computing and Communications, Conference on Internet of Things, and Conference on
Cyber, Physical and Social Computing, 2012, pp. 277–284.
[74] Y. Sun, J. Han, C. C. Aggarwal, and N. V Chawla, “When Will It Happen ? —
Relationship Prediction in Heterogeneous Information Networks,” in WSDM’12, 2012.
[75] A. Sun, “A Two-stage Bootstrapping Algorithm for Relation Extraction,” New York,
NY, USA, 2009.
[76] T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Distributed Representations of Words
and Phrases and their Compositionality,” arXiv Prepr. arXiv1301.3781, pp. 1–9, 2013.
[77] R. B. Palm, “Prediction as a candidate for learning deep hierarchical models of data,”
2012.
[78] S. Otte, D. Krechel, and M. Liwicki, “JANNLab Neural Network Framework for Java,”
in Poster Proceedings Conference {MLDM} 2013, 2013, pp. 39–46.
[79] M. Herrero-zazo, I. Segura-bedmar, P. Martínez, and T. Declerck, “The DDI corpus :
An annotated corpus with pharmacological substances and drug – drug interactions,” J.
F
Biomed. Inform., vol. 46, pp. 914–920, 2013.
[80] Y. Chen, “Omni-word Feature and Soft Constraint for Chinese Relation Extraction,” in
The 52 Annual Meeting of the Association for Computianal Linguistics, 2014, pp. 572–
581.
[81] P. Zhang, X. Wang, and P. X.-K. Song, “Clustering Categorical Data Based on Distance
Vectors,” J. Am. Stat. Assoc., vol. 101, no. 473, pp. 355–367, 2006.
[82] D. S. Rodriguez-Baena, A. J. Perez-Pulido, and J. S. Aguilar-Ruiz, “A biclustering
algorithm for extracting bit-patterns from binary datasets,” Bioinformatics, vol. 27, no.
19. pp. 2738–2745, 2011.
[83] B. Peter, A. Prelić, S. Bleuler, P. Zimmermann, A. Wille, P. Bühlmann, W. Gruissem,
L. Hennig, L. Thiele, E. Zitzler, A. Prelic, A. Wille, and P. B, “Comparison of
Biclustering Methods : A Systematic Comparison and Evaluation of Biclustering
Methods for Gene Expression Data,” Bioinformatics, vol. 22, no. 9, pp. 1122–112930,
2006.
[84] J. Gupta, S. Singh, and N. Verma, “MTBA: MATLAB Toolbox for Biclustering
Analysis,” in MTBA: MATLAB Toolbox for Biclustering Analysis, 2013, vol. 1, no. July,
pp. 94–97.
[85] D. S. Rodriguez-baena, A. J. Perez-pulido, and S. Jesus, “A biclustering algorithm for
extracting bit – patterns from binary datasets,” pp. 1–8, 2011.
[86] H. C. Chen, W. Zou, Y. J. Tien, and J. J. Chen, “Identification of Bicluster Regions in a
Binary Matrix and Its Applications,” PLoS One, vol. 8, no. 8, 2013.
[87] K. Benabdeslem and K. Allab, “Bi-clustering continuous data with self-organizing
map,” Neural Comput. Appl., vol. 22, pp. 1551–1562, 2013.
G
Daftar Keluaran : Artikel Jurnal
H
Daftar Publikasi Penelitian Laporan Disertasi Doktor
Journal Articles 1. Mujiono Sadikin, Mohamad Ivan Fanany, T. Basaruddin “A New
Data Representation Based on Training Data Characteristics to
Extract Drug Named-Entity in Medical Text”, Journal of
Computational Intelligence and Neuroscience, vol. 2016, Article ID
3483528, 16 pages, 2016. doi:10.1155/2016/3483528., (Scopus
Indexed)
2. Mujiono Sadikin, Ito Wasito, “A Novel Rule Based Approach For
Entity Relations Extraction”, Journal Of Theoretical And Applied
Information Technology (E-ISSN 1817-3195 / ISSN 1992-8645)
(Scopus Indexed), Vol 74 April 2015 issues of JATIT
Daftar Publikasi Penelitian Lainnya
Journal Articles 1. Mujiono Sadikin, “A Distance-Based Approach for Binary-
Categorical Data Bi-Clustering” Internetworking Indonesia Journal,
(Scopus Indexed) Vol.8/No.1 (2016)
2. Mujiono Sadikin, “A Binary Matrix Synthetic Data and Its Bi-set
Ground Truth Generator’, International Research Journal of
Computer Science (IRJCS), Volume 2, Issue 11 November -2015
3. Arief F Huda, Ito Wasito, T. Basaruddin, Mujiono S,. “Spatial
Clustering Algorithm Based on Neighboring Structure Approach”,
JCIT: Journal of Convergence Information Technology, Vol. 8, No.
16, pp. 25 ~ 38, 2013
Conference
Proceeding
1. Mujiono Sadikin, Ito Wasito., Toward Object Interaction Mining By
Starting With Object Extraction Based on Pattern Learning Method.,
2014 Asia-Pacific Materials Science and Information Technology
Conference (APMSIT 2014) Shanghai, Tiongkok, 13-14 Juni 2014
2. Sadikin, Mujiono., Wasito, Ito.,Translation and Classification
Algorithm of FDA-Drugs to DOEN2011 Class Therapy to Estimate,
The 2nd International Conference on Information Systems for
Business Competitiveness 2013 (ICISBC) 2013, December 5-6 ,
Semarang . The revision and expanded of the paper is being reviewed
by the journal editor of International Journal of Telemedicine and
Clinical Practice
3. Teny Handhayani, Ito Wasito, Mujiono Sadikin, and Ranny., Kernel
Based Integration of Gene Expression and DNA Copy Number,
Proceeding of 2013 International Conference on Advance Computer
I
Science and Information System, September 28-29, Bali Indonesia,
http://icacsis.cs.ui.ac.id/
4. Ranny, Ito Wasito, Mujiono Sadikin, and Teny Handhayani,
Predictive Genotype based on Phenotype using The Association
Rules Mining, Proceeding of 2013 International Conference on
Advance Computer Science and Information System, September 28-
29, Bali Indonesia, http://icacsis.cs.ui.ac.id/
5. Sadikin, Mujiono., Wasito, Ito., Fractal Dimension As A Data
Dimensionality Reduction Method For Anomaly Detection In Time
Series. The 7th International Conference on Information &
Communication Technology and Systems (ICTS) 2013, 15-16 May
2013, Surabaya
6. Sadikin, Mujiono. ,Veritawati , Ionia., Wasito, Ito., Fractal
Dimension Approach for Clustering of DNA Sequences Based on
Internucleotide Distance, 2013 International Conference of
Information and Communication Technology (ICoICT) , 20-22
March 2013, Bandung
7. Yulita N, Intan., Wasito, Ito., Sadikin, Mujiono. , gCLUPS: Graph
Clustering Based on Pairwise Similarity. 2013 International
Conference of Information and Communication Technology
(ICoICT) , 20-22 March 2013, Bandung
8. Veritawati , Ionia., Wasito, Ito., Sadikin, Mujiono. , Sparse Data for
Document Clustering. 2013 International Conference of Information
and Communication Technology (ICoICT) , 20-22 March 2013,
Bandung
J
Akhir Dokumen
top related