prediksi jaringan interaksi antarentitas objek...

PENELITIAN HIBAH DISERTASI DOKTOR DIKTI 2015/2016

(PROGRAM DOKTOR ILMU KOMPUTER UNIVERSITAS INDONESIA)

LAPORAN AKHIR

PREDIKSI JARINGAN INTERAKSI ANTARENTITAS

OBJEK MELALUI PENDEKATAN BI-CLUSTERING

Nama : Mujiono

NPM : 1206200975

Promotor : Prof. T Basaruddin, Drs., MSc., Ph.D

Kopromotor : Mohamad Ivan Fanany., Ph.D

PROGRAM DOKTOR ILMU KOMPUTER

FAKULTAS ILMU KOMPUTER

UNIVERSITAS MERCU BUANA

Kampus Universitas Mercu Buana

Jl. Meruya Selatan No.1

Jakarta, Indonesia11650

ABSTRAKSI

Salah satu kandungan informasi yang penting tersebut antara lain entitas nama obat

dan interaksi antarobat. Interaksi obat (Drug to Drug Interaction/DDI) adalah suatu kejadian

penggunaan lebih dari satu obat jika obat yang satu mempengaruhi efek obat yang lain atau

sebaliknya. Interaksi obat dapat meningkatkan atau menurunkan efek obat lain yang

dipengaruhi, atau bahkan bisa membahayakan pasien. Pemahaman atas interaksi obat sangat

diperlukan baik untuk keperluan pembuatan obat baru atau pengendalian peredaran. Proses

pembuatan dan pendistribusian obat memerlukan biaya yang besar, namun tidak jarang

banyak obat – obatan yang telah terlanjur beredar di masyarakat harus ditarik kembali karena

kemudian diketahui obat tersebut dapat membahayakan pengguna akibat kemungkinan

interaksi antarobat. Di negara kita permasalahan yang dihadapi terkait peredaran obat lebih

kompleks karena luasnya wilayah peredaran sementara partisipasi masyarakat dalam proses

pemantauan dan pelaporan masih terbatas akibat belum tersedianya media yang cukup mudah

untuk mereka gunakan.

Berangkat dari tantangan yang masih terbuka dalam mengekstraksi DDI serta

permasalahan lokal terkait DDI, pada studi ini dilakukan penelitian tahapan – tahapan

eksperimen untuk mengekstraksi interaksi antarentitas dari dokumen medis. Untuk

menyelesaikan permasalahan ini diusulkan dan telah diujicoba pendekatan untuk: ekstraksi

entitas utama dari dokumen, ekstraksi relasi antarentitas dalam dokumen, dan ekstraksi

interaksi antarentitas antardokumen. Untuk keperluan ekstraksi entitas dan relasi antarentitas

dalam dokumen digunakan pendekatan rule based. Pendekatan berbasis pembelajaran mesin

juga telah diujicoba untuk ekstraksi entitas. Sementara untuk ekstraksi interaksi antarentitas

digunakan pendekatan bi-clustering. Pendekatan rule based dilakukan dengan cara

menemukan pola yang paling umum untuk menemukan target entitas dari dokumen training.

Pola paling umum tersebut kemudian digunakan untuk ekstraksi entitas dari dari

dokumen/data testing. Kontribusi utama dari pendekatan pembelajaran mesin adalah

representasi dan formulasi dataset yang mampu menyelesaikan permasalahan-permasalahan

yang belum ditangani oleh metode sebelumnya. Representasi dataset dari dokumen ini

didasarkan pada karakteristik vector word embedding hasil training dari model word2vect.

Pada penelitian ini digunakan dua jenis dataset, dataset lokal dan open dataset. Dataset local

berupa label obat nasional, sementara open dataset berupa narasi dokumen medis MedLine

dan DrugBank.

Berdasarakan hasil beberapa eksperimen, pendekatan-pendekatan yang diusulkan

pada penelitian ini menunjukkan hasil kinerja akurasi yang baik. Rata-rata akurasi f-score

untuk ekstraksi entitas lebih dari 0.75. Pencapaian terbaik ditunjukkan oleh pendekatan mesin

pembelajaran menggunakan model LSTM dengan nilai rata-rata f-score 0.86. Nilai ini

merupakan yang terbaik dibandingkan dengan metode yang ada. Pendekatan bi-clustering

yang diterapkan pada dataset sintetis menghasilkan akurasi match-score rata-rata di atas

Sampai dengan tahap ini telah dilakukan eksperimen-eksperimen: ekstraksi nama obat

dari open dataset MedLine & DrugBank, ekstraksi relasi entitas nama obat dan kandungan

obat dari dataset label obat, dan eksperimen algoritme bi-clustering yang diusulkan untuk

dataset sintetis. Dari penelitian ini telah dihasilkan 2 artikel jurnal internasional (terbit), 1

artikel jurnal internasional (under review) dan 2 artikel konferensi internasional.

Kata Kunci: entitas, interaksi antarentitas, bi-set, MedLine, DrugBank

Daftar Isi

ABSTRAKSI................................................................................................................................. i

Daftar Isi .................................................................................................................................... ii

Daftar Gambar ........................................................................................................................... v

Daftar Tabel ............................................................................................................................... v

BAB 1. PENDAHULUAN ............................................................................................... 1-1

1.1. Latar Belakang ........................................................................................................ 1-1

1.1.1 Interaksi Antarentitas Objek ............................................................................ 1-1

1.1.2 Ekstraksi Entitas Medis.................................................................................... 1-3

1.1.3 DDI (Drug-Drug Interaction) ........................................................................... 1-4

1.2. Rumusan Permasalahan........................................................................................... 1-5

1.3. Tujuan Penelitian..................................................................................................... 1-7

1.4. Lingkup Permasalahan ............................................................................................ 1-8

1.5. Kontribusi Penelitian ............................................................................................... 1-9

1.5.1 Ekstraksi Entitas Biomedis .............................................................................. 1-9

1.5.2 Interaksi Antarentitas ..................................................................................... 1-11

1.6. Sistematika Penulisan Laporan Akhir ................................................................... 1-12

1.6.1 Bab 1. Pendahuluan ....................................................................................... 1-12

1.6.2 Bab 2. Penelitian Terkait............................................................................... 1-12

1.6.3 Bab 3. Metodologi Penelitian ........................................................................ 1-13

1.6.4 Hasil Eksperimen ........................................................................................... 1-14

1.6.5 Pembahasan.................................................................................................... 1-14

1.6.6 Kesimpulan .................................................................................................... 1-14

BAB 2. METODOLOGI PENELITIAN .......................................................................... 2-1

2.1. Framework Penelitian ............................................................................................. 2-1

2.2. Supervised Learning : Ekstraksi Entitas Medis....................................................... 2-2

2.2.1 Framework ....................................................................................................... 2-4

2.2.2 Analisis Data Training ..................................................................................... 2-5

2.2.3 Analisis Word Embedding ............................................................................... 2-7

2.2.4 Representasi Fitur dan Format Data ................................................................ 2-8

2.2.5 Pemilihan Kandidat Nama Obat .................................................................... 2-11

2.2.6 Dataset............................................................................................................ 2-11

2.3. Unsupervised: Ekstraksi Entitas Medis ................................................................. 2-12

2.3.1 Analisis Data .................................................................................................. 2-12

2.3.2 Objektif .......................................................................................................... 2-12

2.3.3 Pembangkitan Pola (Pattern Generation) ....................................................... 2-13

2.4. Unsupervised : Ekstraksi Relasi Entitas ................................................................ 2-15

2.4.1 Objektif .......................................................................................................... 2-16

2.4.2 Pattern Learning Untuk Ekstraksi Objek dan Relasi AntarObjek ................. 2-16

2.4.3 Pembentukan Pola Relasi ............................................................................... 2-17

2.4.4 Pemilihan Pola ............................................................................................... 2-18

2.5. Unsupervised : Categorical Data Bi-Clustering .................................................... 2-18

2.5.1 Ruang Sampel Data Terkategoris .................................................................. 2-18

2.5.2 Hamming Distance Untuk Penyusunan Kelompok Sampel .......................... 2-19

2.5.3 Pembobotan Untuk Kondisi Ekstrim ............................................................. 2-20

2.5.4 Penyusunan Kelompok Tahap Berikutnya..................................................... 2-20

2.6. Categorical Data Bi-Clustering ............................................................................ 2-21

2.6.1 Objektif Bi-Clustering ................................................................................... 2-21

2.6.2 Tahapan Penemuan Bi-Set ............................................................................. 2-22

2.6.3 Penyusunan Bi-Set ......................................................................................... 2-23

BAB 3. HASIL EKSPERIMEN & PEMBAHASAN ....................................................... 3-1

3.1. Supervised Learning : Ekstraksi Entitas Medis....................................................... 3-1

3.1.1 Kinerja Akurasi Open Dataset ......................................................................... 3-1

3.1.2 Kesimpulan ...................................................................................................... 3-7

3.2. Rule Based Learning untuk Ekstraksi Entitas Nama Obat ...................................... 3-8

3.2.1 Material Dataset & Evaluasi ............................................................................ 3-8

3.2.2 Evaluasi ............................................................................................................ 3-8

3.2.3 Uji Coba dan Hasil Pattern Scoring 1 .............................................................. 3-9

3.2.4 Hasil Uji Coba Pattern Scoring 2 ................................................................... 3-10

3.3. Ekstraksi Relasi AntarEntitas ................................................................................ 3-11

3.3.1 Dataset & Pre Processing ............................................................................... 3-12

3.3.2 Skenario Uji Coba .......................................................................................... 3-12

3.3.3 Evaluasi .......................................................................................................... 3-14

3.3.4 Hasil Eksperimen dan Analisisnya ................................................................ 3-14

3.3.5 Pola dan Hasil Ekstraksi Relasi ..................................................................... 3-15

3.3.6 Akurasi Teknik Pattern Scoring ..................................................................... 3-17

3.3.7 Kinerja Pola Individual .................................................................................. 3-19

3.3.8 Kesimpulan .................................................................................................... 3-25

3.4. Categorical Bi-Clustering Berdasarkan Jarak Acuan ............................................ 3-25

3.4.1 Skenario Eksperimen ..................................................................................... 3-26

3.4.2 Metode Pembanding ...................................................................................... 3-27

3.4.3 Evaluasi .......................................................................................................... 3-30

3.4.4 Data Uji .......................................................................................................... 3-31

3.4.5 Hasil Uji Coba................................................................................................ 3-35

3.4.6 Komparasi Dengan Metode Sebelumnya....................................................... 3-40

3.5. Pembahasan ........................................................................................................... 3-40

BAB 4. KESIMPULAN ................................................................................................... 4-1

4.1. Kontribusi ................................................................................................................ 4-1

4.2. Keterbatasan dan Permasalahan Baru ..................................................................... 4-1

4.3. Penelitian Lanjutan .................................................................................................. 4-2

Daftar Pustaka ........................................................................................................................... A

Daftar Keluaran : Artikel Jurnal ............................................................................................... G

Daftar Publikasi Penelitian Laporan Disertasi Doktor .............................................................. H

Daftar Publikasi Penelitian Lainnya ......................................................................................... H

Akhir Dokumen ......................................................................................................................... J

Daftar Gambar

Gambar 1-1 Ilustrasi permasalahan dan solusi .................................................................... 1-7

Gambar 2-1 Kerangka Global Penelitian.............................................................................. 2-2 Gambar 2-2 Framework eksperimen ekstraksi nama obat pada MedLine & DrugBank ...... 2-4 Gambar 2-3 Distribusi token pada data training MedLine ................................................... 2-5 Gambar 2-4 Distribusi token pada data training DrugBank................................................. 2-6 Gambar 2-5 Contoh Penerapan Pengetahuan Luar Umum Pada Ekstrasksi Relasi Obat .... 2-12

Gambar 2-6 Representasi Relasi AntarObjek ...................................................................... 2-13 Gambar 2-7 Framework ekstraksi MO-SO .......................................................................... 2-17 Gambar 2-8 Matrik biner M, representasi relasi sampel dengan attribut ............................ 2-22 Gambar 2-9 Framework Penemuan Bi-Set dengan Bi-Clustering ....................................... 2-23

Gambar 2-10 Segmentasi hasil bi-clustering dan proses multi join .................................... 2-24 Gambar 3-1 Kinerja Dua Teknik Pembobotan Pola ........................................................... 3-10 Gambar 3-2 Kinerja 340 dataset vs 900 dataset ................................................................... 3-11

Gambar 3-3 Skenario Uji Coba............................................................................................ 3-13 Gambar 3-4 Evaluasi kinerja relasi objek utama dan objek pendukung .............................. 3-14 Gambar 3-5 Kinerja 100 % pola untuk ekstraksi objek utama ............................................ 3-17 Gambar 3-6 Kinerja 100 % pola untuk ekstraksi objek pendukung .................................... 3-18

Gambar 3-7 Kinerja ekstraksi objek utama dengan pola berdasarkan skor bobot dalam

presentase ............................................................................................................................. 3-19

Gambar 3-8 Kinerja ekstraksi SO dengan pola berdasarkan skor bobot dalam presentase . 3-19 Gambar 3-9 Rerata kuantitas realasi objek yang berhasil diekstraksi ................................. 3-21 Gambar 3-10 Rerata presentase relasi objek terekstraksi .................................................... 3-21

Gambar 3-11 Rerata presisi masing-masing grup pola ........................................................ 3-23 Gambar 3-12 Rerata Recall dan F-Score hasil ekstraksi MO .............................................. 3-23

Gambar 3-13 Rerata akurasi ekstraksi relasi objek pendukung ........................................... 3-24 Gambar 3-14 Tahapan Algoritme BiBit .............................................................................. 3-28

Gambar 3-15 Cara Kerja Algoritme Bimax ......................................................................... 3-30 Gambar 3-16 Pengelompokan data uji ................................................................................. 3-31 Gambar 3-17 Karakteristik Data Sintentitas ........................................................................ 3-32

Gambar 3-18 Perbandingan rerata Match Score untuk Dataset Overlapping ...................... 3-38

Gambar 3-19 Perbandingan rerata waktu komputasi untuk Dataset Overlap ...................... 3-38 Gambar 3-20 Perbandingan rerata Match Score untuk Dataset Disjoin .............................. 3-39 Gambar 3-21 Perbandingan rerata waktu komputasi untuk Dataset Disjoin ....................... 3-39

Daftar Tabel

Tabel 2-1 Frekuensi kemunculan token pada masing-masing 1/3 posisi, MedLine .............. 2-6 Tabel 2-2 Frekuensi kemunculan token pada masing-masing 1/3 posisi, DrugBank ............ 2-6

Tabel 2-3 Beberapa kemiripan jarak kosinus antardua jenis token ....................................... 2-7 Tabel 2-4 Rata-rata jarak Euclidian dan kosinus di antara dua grup token ........................... 2-8 Tabel 2-5 Contoh kalimat pada data training dan nama obat yang terkandung di dalamnya 2-9 Tabel 2-6 Beberapa formulasi tuple dataset DrugBank hasil teknik pertama ....................... 2-9 Tabel 2-7 Representasi tuple dataset teknik pertama dan labelnya ....................................... 2-9

Tabel 2-8 Contoh representasi data teknik yang ke dua ...................................................... 2-10 Tabel 2-9 Contoh representasi data teknik yang ke tiga ...................................................... 2-10 Tabel 3-1 Kinerja Akurasi MLP-NN atas tiga skenario pemilihan kandidat obat ................. 3-2

Tabel 3-2 Kinerja Akurasi dampak dari perbedakan teknik penyusunan data ...................... 3-3 Tabel 3-3 Kinerja Akurasi dampak dari penambahan volume data training word2vect ....... 3-3 Tabel 3-4 Kinerja Akurasi MLP, DBN, dan SAE ................................................................. 3-4

Tabel 3-5 Kinerja Akurasi tekni representasi data yang ketiga dengan LSTM ..................... 3-5 Tabel 3-6 Kinerja Akurasi pendekatan yang diusulkan dibandingkan state of the art .......... 3-6 Tabel 3-7 Kinerja Akurasi MLP-NN untuk dokumen label obat .......................................... 3-7 Tabel 3-8 Contoh sebagian kandidat pola hasil training ...................................................... 3-15 Tabel 3-9 Contoh sebagian ekstraksi objek utama dan objek pendukung yang dihasilkan . 3-15

Tabel 3-10 Komposisi dataset disjoin .................................................................................. 3-33 Tabel 3-11 Komposisi dataset overlap ................................................................................. 3-33 Tabel 3-12 Hasil uji coba rerata uuntuk dataset overlapping .............................................. 3-37 Tabel 3-13 Hasil uji coba rerata untuk dataset disjoin ......................................................... 3-39 Tabel 3-14 Komparasi kinerja Match Score untuk dataset overlapping .............................. 3-40

Tabel 3-15 Komparasi kinerja Match Score untuk dataset disjoint ..................................... 3-40

BAB 1. PENDAHULUAN

Pada bagian ini dijelaskan beberapa hal yaitu: latar belakang yang mendasari penelitian,

rumusan permasalahan yang akan diselesaikan, dan penelitian yang sudah dilakukan.

Sebagian hasil studi literatur pada bagian ini beserta penelitian awal mengenai interaksi

antarobat berdasarkan kandungan obat telah dipublikasikan pada prosiding konferensi :

Translation and Classification Algorithm of FDA-Drugs to DOEN2011 Class Therapy to

Estimate Drug-Drug Interaction, The 2nd International Conference on Information

Systems for Business Competitiveness 2013 (ICISBC) 2013, 5-6 December 2013,

Semarang.

1.1. Latar Belakang

1.1.1 Interaksi Antarentitas Objek

Salah satu pengetahuan yang bisa diperoleh dari berbagai data digital adalah interaksi

antarinformasi yang terkandung di dalamnya. Contoh interaksi tersebut antara lain

interaksi antarobat, interaksi antarpeneliti, interaksi antara supplier dan vendor, interaksi

antara anggota keluarga, atau interaksi antara pelamar kerja dan pencari pekerja. Secara

umum pada laporan akhir ini interaksi semacam ini disebut dengan interaksi antarentitas

objek (content) yang terkandung di dalam sumber data digital.

Penelitian mengenai interaksi informasi ini telah dilakukan untuk berbagai bidang

pengetahuan atau dalam kehidupan praktis. Biomedis merupakan bidang dengan penelitian

interaksi informasi paling umum terutama untuk interaksi obat. Penelitian interaksi

antarentitas yang digunakan untuk mengetahui jaringan interaksi antarobat dengan

berbagai metode dan dengan menggunakan sumber data terstruktur atau tidak terstruktur

(dokumen) disajikan pada beberapa makalah antara lain: (Takarabe et al. 2008; Takarabe

et al. 2010; Li et al. 2012; Mata et al. 2011; Vilar et al. 2013; Yamanishi et al. 2008; Polak,

Brandys, and Mendyk 2005; Sadikin and Wasito 2013). Penelitian pada bidang ini

menggunakan dataset yang sudah matang dan terstruktur. Sedangkan pada kenyataannya

sumber data bervariasi seperti dokumen dan citra yang tidak terstruktur belum banyak

dieksplorasi.

Studi interaksi antarobat seperti yang diusulkan oleh Takarabe et a. l(Takarabe et al. 2008)

didekati dengan metode berdasarkan klasifikasi ATC (Anatomical Classification

Chemical). Sedangkan pada penelitian yang kedua, Takarabe et al. (Takarabe et al. 2010),

analisis jaringan interaksi antarobat dilakukan dengan menyarikan informasi dari label obat

berupa risiko, indikasi, kontra indikasi dan kandungan enzim. Seperti pada [1] proses

klasifikasi dilakukan berdasarkan standar klasifikasi ATC yang merupakan basis

klasifikasi obat standar dari WHO. Sementara Mujiono et al. [8] menggunakan pendekatan

classification based untuk memprediksi interaksi antara obat. Sebagai basis klasifikasi,

pada penelitian ini digunakan DOEN 2011 dan basis data dari FDA-Drugs sebagai data uji.

Pendekatan pembelajaran mesin untuk memprediksi interaksi antarobat diusulkan pada

studi yang dilakukan oleh He Z et al. [3]. Data uji dan data latih yang digunakan pada

percobaan ini adalah basis data KEGG. Jacinto Mata et al. [4] melakukan uji coba beberapa

metode pembelajaran mesin yang dikombinasikan dengan NLP untuk memprediksi

interaksi antarobat dengan menggunakan dataset korpus DDI. Penelitian interaksi

antarobat diuraikan pada makalah Vilar S et al. [5] dengan menggunakan basis data obat

DrugBank. Interaksi antara komposisi obat dengan target protein yang baru dengan

menggunaakan basis data obat KEGG BRITE, BRENDA, SuperTarget, dan DrugBank

dapat dilihat pada paper Polak et al. [7]. Sun et al. [11], melakukan penelitian untuk

mendapatkan informasi jaringan relasi antarinformasi yang berbeda-beda. Meskipun

digunakan terminologi “heteregoneous information”, namun dataset yang digunakan

berupa DBLB (Digital Bibliographic Library Browser) dan entitas objek yang menjadi

fokus penelitian adalah: terminologi, venue, paper, dan author.

Mayoritas metode yang diusulkan pada panelitian-penelitian di atas terutama hanya

diterapkan untuk sumber data yang ditangani berupa basis data terstruktur. Sementara

sumber data interaksi antarisi dengan format data tidak terstruktur justru lebih banyak.

Penggunaan basis klasifikasi untuk menyusun interaksi antarentitas objek hanya

menyelesaikan sebagian permasalahan karena metode ini hanya dapat diterapkan untuk

entitas objek -entitas objek yang jelas pengklasifikasiannya. Sementara penggunanaan

pendekatan NLP hanya cocok untuk dataset berbahasa tertentu.

Zuo et al. (Xiang Zuo, Alvin Chin, Xiaoguang Fan, Bin Xu, Dezhi Hong, Ying Wang 2012)

melakukan studi awal untuk memperkirakan pola relasi/hubungan antara peserta

konferensi dengan menggunakan dataset yang dituai dari aplikasi media sosial bergerak

(mobile social application). Penelitian awal ini bertujuan untuk mengetahui bagaimana

pola hubungan yang dilakukan secara online berpengaruh kepada pola hubungan secara off

line dan sebaliknya. Meskipun diklaim menjanjikan hasil penelitian ini menunjukkan

bahwa akurasi prediksinya tidak baik dan bergantung pada teknologi yang komunikasi

digunakan. Pola jaringan interaksi lain yang diteliti antara lain adalah jaringan interaksi

pembelajaran (Daping et al. 2012) dan jaringan interaksi pada pengembangan perangkat

lunak (Schröter 2010). Keduanya mengandalkan pola interaksi antarpengguna atau

pengembang aplikasi dalam menggunakan internet. Kedua penelitian ini menghasilkan

metode penerapan pola interaksi yang hanya sesuai untuk satu domain spesifik tertentu.

1.1.2 Ekstraksi Entitas Medis

Salah satu dampak perkembangan teknologi informasi adalah tersedianya sumber data

yang melimpah di berbagai area, termasuk pada domain medis. Sumber data format teks

mengandung berbagai infromasi yang bernilai untuk berbagai keperluan. Pemahaman

mengenai interaksi antarobat, sebagai contoh, merupakan aspek yang sangat penting dalam

pembuatan obat baru maupun untuk pengendalian distribusi obat di pasaran. Proses

produksi produk medis merupakan aktivitas yang kompleks dan memerlukan biaya yang

besar. Di sisi lain, sering terjadi obat-obatan yang terlanjur beredar di pasaran ditarik

kembali, karena ditemukan unsur interaksi obat yang berbahaya bagi kesehatan (Sadikin

and Wasito 2013).

Ekstraksi objek atau informasi dari sumber data yang tidak terstruktur berupa teks

merupakan studi yang masih terbuka pada area data mining karena berbagai alasan. Seiring

dengan semakin bertambahnya volume korpus, perkembangan bahasa alami yang

digunakan, format data yang tidak terstruktur, maka kesulitan dalam ekstraksi informasi

tersebut semakin bertambah (H. Tang and Ye, n.d.). Keterbatasan dataset yang teranotasi

merupakan permasalahan lain yang harus ditangani. Beberapa informasi berharga yang

terkandung dalam dokumen medis antara lain adalah nama obat, kandungan obat, brand

obat, serta relasi antarentitas medis seperti interaksi antarobat dan relasi antarobat dan

komponen kimiawinya.

Salah satu informasi berharga yang terkandung dalam dokumen medis adalah entitas obat

(nama obat). Pengenalan nama obat merupakan aktivitas utama yang harus diselesaikan

karena penemuan nama obat merupakan elemen yang esensial dalam menyelesaikan

permasalahan ekstraksi informasi yang lain (S. Zhang and Elhadad 2013; Korkontzelos et

al. 2015). Di antara aktivitas yang merupakan turunan studi dari pengenalan obat adalah

interaksi antarobat (Segura-Bedmar, Martinez, and Herrero-Zazo 2013), reaksi negatif

penggunaan obat (Sampathkumar, Chen, and Luo 2014), atau aplikasi-aplikasi yang lain

(penemuan kembali informasi, sistem pengambilan keputusan, atau pembuatan / penemuan

obat yang baru) (Segura-bedmar and Martı 2008).

Dibandingkan dengan permsalahan pengenalan nama entitas yang lain seperti personal,

lokasi, kejadian, atau waktu, pengenalan nama obat lebih kompleks. Beberapa tantangan

yang harus diselesaikan untuk penyelesaian persoalan tersebut antara lain: teks nama obat

lebih tidak terstruktur, sementara banyaknya entitas selalu bertambah dari waktu ke waktu

(Keretna et al. 2015). Dengan demikian, sulit untuk menyediakan kamus yang selalu

update dan melingkupi seluruh leksikon yang ada (Pal and Gosal 2015). Permasalahan

kedua adalah penamaan entitas obat yang bervariasi. Singkatan maupun akronim yang

umum untuk nama obat, menambah kesulitan untuk menentukan konsep yang diacu oleh

terminologi nama obat tertentu tersebut. Permasalahan ketiga adalah hal yang umum jika

nama obat merupakan kombinasi antara simbul kata dan bukan kata (S. Liu et al. 2015).

Keempat, satu entitas tunggal nama obat yang direpresentasikan oleh lebih dari satu token

merupakan hal yang lebih banyak ditemui dari pada nama entitas yang lain. (Grego and

Couto 2013). Karena permasalahan kompleksitas dalam menangani multiple token ini,

bahkan dalam studinya untuk mengekstraksi nama obat dari dataset the MedLine &

DrugBank, Bjorne et al. (Björne, Kaewphan, and Salakoski 2013) mengabaikan kasus

tersebut dengan dasar bahwa drug multiple token hanya sekitar 18 % dari semua nama obat

yang ada. Nama obat biasanya juga lebih panjang dari terminologi umum. Permasalahan

berikutnya adalah, untuk beberapa kasus, nama obat merupakan kombinasi antara istilah

medis dan non medis. Keterbatasan dataset yang teranotasi juga merupakan permasalahan

yang dihadapi dalam studi ekstraksi nama obat ini.

1.1.3 DDI (Drug-Drug Interaction)

Pemahaman atas interaksi obat (DDI) merupakan hal yang sangat krusial baik untuk

keperluan pembuatan obat yang baru maupun pengendalian obat yang beredar di pasaran.

Proses untuk sampai menghasilkan suatu produk obat merupakan aktivitas yang rumit dan

dengan biaya besar. Namun tidak jarang banyak obat – obatan ditarik dari peredaran

karena baru diketahui bahwa akibat interaksi antarobat tersebut justru membahayakan bagi

kesehatan (Zhisong He et al. 2010), (Noreddin 2012). Oleh karena itu banyak penelitian

dilakukan untuk mendapatkan cara bagaimana pengetahuan dan pemahaman interaksi

antarobat dapat diperoleh dengan cara efisien dan efektif. Salah satu cara pemahaman yang

efisien dan efektif ini adalah dengan penelitian secara in-silico (Srisailam, Raj Kumar, and

Veeresham 2010; Kyubum Lee et al. 2012; Boyce and Gardner 2012).

Sampai dengan saat ini di Indonesia belum ditemukan basis data terstruktur yang mudah

diakses publik untuk obat dan jamu yang beredar di masyarakat meskipun pemerintah telah

mengeluarkan SK Menteri Kesehatan tentang Daftar Obat Esensial (Sadikin and Wasito

2013). Informasi mengenai obat yang beredar tersebut tersebar dalam berbagai format

antara lain dokumen berupa situs produsen obat atau jamu, dokumen hard copy brosur atau

leaflet informasi obat atau jamu atauh bahkan dalam kemasan obat atau jamu yang tidak

terstruktur. Dengan demikian diperlukan metoda atau alat yang mampu membaca dan

mengambil informasi dari berbagai sumber dengan berbagai format tersebut untuk

keperluan penyusunan interaksi antarobat atau jamu.

Sedemikian pentingnya ekstraksi nama obat dan juga interaksi antarobat dari dokumen

medis, hingga khusus untuk hal ini telah diadakan berbagai kompetisi. Beberapa kompetisi

ekstraksi nama obat dan interaksi antarobat tersebut antara lain:

The medication extraction challenge organized by the Center of Informatics for

Integrating Biology and Beside (i2b2) in 2009 (Deléger, Grouin, and

Zweigenbaum 2010),

The chemical and drug named entity recognition (CHEMDNER) challenge of the

Critical Assessment of Information Extraction systems in Biology in 2013

(Krallinger et al. 2015)

The Drug Recognation and drug-drug interaction (DDIExtraction) challenge in

2013 (Segura-Bedmar, Martinez, and Herrero-Zazo 2013)

1.2. Rumusan Permasalahan

Dari semua literatur yang sudah dikemukakan pada paragraf sebelumnya dapat dipahami

bahwa jaringan interaksi antarentitas merupakan salah satu kandungan informasi penting yang

bisa ditemukan dalam proses penemuan informasi. Proses penemuan kandungan informasi

berupa jaringan interaksi ini masih menghadapi beberapa kendala yang masih berpotensi

untuk dieksplorasi lebih lanjut. Kendala-kendala tersebut antara lain:

Keberagaman format data yang belum banyak ditangani. Mayoritas penelitian pada

bidang ini menggunakan dataset yang sudah matang dan terstruktur. Sedangkan pada

kenyataannya sumber data bervariasi seperti dokumen dan citra yang tidak terstruktur

belum banyak dieksplorasi.

Lokalisasi (localization) sumber data. Kebanyakan penelitian yang telah dilakukan

mengenai interaksi antarentitas objek diterapkan pada permasalahan atau dataset

bersifat lokal (seperti basis data obat KEGG Brite USA, JAPIC Jepang).

Tidak semua dataset tersedia dalam kondisi memadai sesuai kebutuhan, sementara di

sisi lain kebutuhan penggalian informasi jaringan interaksi antarentitas objek untuk

domain atau area geografis tertentu tidak seharusnya menunggu kesiapan dataset.

Mayoritas penelitian pada makalah-makalah yang disajikan di atas menggunakan data

yang sudah jadi atau menggunakan data simulasi/data buatan. Sementara masih

banyak domain atau area yang belum siap dengan dataset yang sesuai dengan

karakteristik domain atau area tersebut.

Khusus untuk ekstraksi entitas medis, nama obat, masih terbuka tantangan untuk

diselesaikan antara lain: teks nama obat lebih tidak terstruktur, entitas selalu

bertambah dari waktu ke waktu (Keretna et al. 2015), (Pal and Gosal 2015); penamaan

entitas obat yang lebih;hal yang umum jika nama obat merupakan kombinasi antara

simbol kata dan bukan kata (S. Liu et al. 2015); satu entitas tunggal nama obat yang

direpresentasikan oleh lebih dari satu token (Grego and Couto 2013), (Björne,

Kaewphan, and Salakoski 2013) .

Untuk sampai pada ekstraksi interaksi antarentitas, maka tahap pertama yang harus

diselesaikan adalah ekstraksi entitas. Pada penelitian ini diselesaikan permasalahan interaksi

antarentitas medis khususnya interaksi antarobat. Lebih spesifik untuk ekstraksi nama obat

dari dokumen klinis, beberapa permasalahan yang berpotensi untuk diselesaikan adalah:

1. Ketergantungan pada pengetahuan luar

2. Kebutuhan akan handcrafted feature yang tidak selalu tersedia

3. Kecepatan penembahan terminologi baru

4. Nama entitas medis yang lebih panjang, lebih umum daripada nama entitas domain

yang lain

5. Nama entitas medis yang merupakan kombinasi antara huruf kata (word char) dan non

6. Multiple token untuk satu entitas tunggal

Berangkat dari kenyataan bahwa dalam sumber data berbagai format terdapat entitas objek -

entitas objek yang secara semantik berinteraksi satu dengan yang lainnya berdasarkan relasi

konteks tertentu, namun interaksi tersebut belum atau tidak terlihat karena berbagai batasan

maka secara umum permasalahan yang diselesaikan pada penelitian ini adalah: ekstraksi -

relasi klastering

Bagaimana mengekstraksi dan mengelompokkan himpunan entitas yang diprediksi

berinteraksi satu sama lain berdasarkan relasinya, menggunakan korpus dokumen medis

sebagai studi kasus.

Ilustrasi permasalahan dan solusi yang diharapkan digambarkan pada Gambar 1-1 di bawah.

Gambar 1-1 Ilustrasi permasalahan dan solusi

Solusi yang diinginkan adalah terbentuk struktur interaksi antarentitas objek yang berelasi

berdasarkan konteks relasi. Permasalahan yang akan diselesaikan tersebut dibagi-bagi

menjadi sub permasalahan-sub permasalahan:

Bagaimana menyusun pendekatan ekstraksi nama entitas medis yang mampu

menyelesaian permasalahan-permasalahan ekstraksi entitas medis di atas.

Bagaimana menyusun pendekatan ekstraksi relasi antarentitas dari dokumen medis

Bagaimana menyusun pendekatan yang digunakan untuk mengekstraksi informasi

interaksi antarentitas yang terdapat dalam dokumen teks yang berbeda.

1.3. Tujuan Penelitian

1. Menghasilkan metode yang bisa digunakan untuk melakukan ekstraksi entitas dari korpus

open dataset

2. Menghasilkan metode yang bisa digunakan untuk membantu pemahaman sintak dan

semantik dokumen terkait dengan relasi antara entitas objek utama dengan entitas objek

pendukung.

3. Menerapkan metode dan algoritme ekstraksi entitas dan relasi antarentitas pada dataset

korpus label obat Nasional.

4. Menerapkan metode dan algoritme ekstraksi entitas dan relasi antarentitas pada dataset

5. Menganalisa dan mengevaluasi kinerja masing-masing metode dan algoritme yang

dihasilkan

1.4. Lingkup Permasalahan

Pada penelitian ini permasalahan dibatasi pada:

1. Open dataset yang menjadi objek penelitian adalah dokumen medis DrugBank &

MedLine (https://www.cs.york.ac.uk/semeval-2013/index.html#) dan label obat

Nasional.

2. Interaksi antarentitas dibatasi pada entitas nama obat dan kandungan obat

3. Interaksi antarobat didasarkan pada kemiripan / kesamaan kandungan obat yang

dimiliki. Dasar pengetahuan untuk interaksi antarobat ini adalah bahwa Pengetahuan

awal yang sudah dibuktikan adalah bahwa jika semakin banyak properti sama yang

dimiliki oleh dua obat maka potensi interaksi antara dua obat tersebut semakin besar

(Noreddin 2012). Properti obat tersebut antara lain adalah : kandungan kimiawi, organ

biologis yang menjadi target penyembuhan, indikasi, kontra indikasi, maupun jalur

penemuan / pembuatan (pathway) obat. Pada penelitian ini fokus studi properti obat

adalah pada : kandungan kimiawai, indikasi, kontra indikasi, dan efek samping obat.

= masuk

4. Yang dimaksud dengan interaksi berdasarkan relasi dalam penelitian ini adalah

hubungan antara entitas objek yang bersifat semantik bukan relasi atau keterkaitan fisik

seperti interaksi karena medan magnit antara objek /benda dalam dunia nyata.

5. Ekstraksi relasi pada penelitian ini difokuskan untuk domain medis berupa dokumen

label obat–obatan.

6. Karakteristik relasi berupa hubungan bersifat one-to-one atau one-to-many antarentitas

objek yang direpresentasikan dengan [0,1], 0 jika tidak ada relasi dan 1 jika ada relasi.

Hal ini menunjukkan data bersifat kategoris, oleh karena itu Bi-clustering yang akan

menjadi subyek kajian pada penelitian ini adalah Categorical Data Bi-clustering.

7. Format dokumen dalam corpus sebagai masukan dibatasi pada format HTML, *.pdf,

*.doc (format hasil word processor), atau *.txt.

8. Hasil akhir penelitian ini berupa model atau prototipe aplikasi yang siap

dikembangkan, bukan merupakan perangkat lunak siap pakai.

1.5. Kontribusi Penelitian

Sampai dengan tahap ini, penelitian ini telah menghasilkan usulan metode penyelesaian

permasalahan ekstraksi entitas medis (dalam hal ini nama obat), penyelesaian relasi antarobat

dan kandungan obat, serta bi-clustering yang diterapkan pada data terkategorisasi. Dalam

penelitian ini digunakan dua model pendekatan yaitu supervised dan unsupervised.

Pendekatan supervised yang digunakan pada penelitian ini mampu menyelesaikan

permasalahan-permasalahan:

Multi token untuk entitas tunggal yang belum diselesaikan pada penelitian terdahulu.

Ketergantungan terhadap pengetahuan luar.

Keperluan akan handcrafted feature

Dari sisi akurasi diperlihatkan bahwa teknik yang memperlakukan kalimat sebagai sequence

dengan model LSTM mampu memberikan kinerja akurasi terbaik dengan nilai rata-rata f-

score adalah 0.8645.

Dari pendekatan unsupervised, metode rule based yang digunakan memiliki kelebihan-

kelebihan:

Ekstraksi relasi yang independen terhadap bahasa alami.

Tidak diperlukan pre-processing seperti umumnya diperlukan untuk pengolahan

bahasa alami antara lain: sentence parsing, stop word removal, atau POS Tagging.

Tidak diperlukan pengetahuan mengenai ontology atau hierarchical knowledge base.

Metode bi-clustering dan multi set join yang diusulkan menghasilkan kinerja yang

lebih baik dari metode sebelumnya.

1.5.1 Ekstraksi Entitas Biomedis

Dilihat dari hasil berbagai studi sebelumnya mengenai ekstraksi entitas nama obat dari

open dataset dokumen klinis, terdapat beberapa tantangan atau kelemahan yang belum

ditangani oleh studi sebelumnya. Secara umum hampir semua state of the art menggunakan

pengetahuan luar tertentu yang tidak selalu tersedia. Batasan yang lain adalah kebutuhan

akan handcrafted feature, sementara tidak semua dataset mengandung handcrafted feature

tersebut. Tantangan yang lain adalah bagaimana menangani satu nama obat tunggal yang

direpresentasikan oleh lebih dari satu token (multi token).

Pada studi dan eksperimen ini, diusulkan dan diujicoba tiga teknik baru dalam

merepresentasikan data dan penggunaannya dalam klasifikasi untuk menyelesaikan

permasalahan-permasalahan:

1. Ketergantungan pada pengetahuan luar

2. Kebutuhan akan handcrafted feature yang tidak selalu tersedia

3. Kecepatan penembahan terminologi baru

4. Nama entitas medis yang lebih panjang, lebih umum daripada nama entitas domain

yang lain

5. Nama entitas medis yang merupakan kombinasi antara huruf kata (word char) dan

non-kata

6. Multiple token untuk satu entitas tunggal

Ketiga teknik representasi data yang baru ini berdasarkan pada karakteristik dari

representasi vector dari token-token pada dataset dan karakteristisk distribusi kemunculan

token pada data training. Ketiga teknik yang diusulkan ini tidak memerlukan pengetahuan

eksternal lain maupun handcrafted feature. Representasi data yang pertama dan yang

kedua merupakan satu tuple yang merepresentasikan deretan token. Deretan token ini

diperlakukan secara terpisah/independen terhadap tuple deretan token yang lain. Perbedaan

teknik pertama dan kedua adalah pada perlakuan terhadap deretan token. Pada teknik

pertama, semua kalimat dalam dataset disusun sebagai satu deret sementara pada teknik

yang kedua tiap deret untuk tiap kalimat.

Untuk menangani permasalahan multiple token yang merepresentasikan satu entitas

tunggal, eksperimen ini tidak memperlakukan satu token target yang dikelilingi oleh token-

token yang lain seperti penelitian sebelumnya, melainkan memperlakukan sekumpulan

token sekaligus sebagai satu target. Dengan teknik seperti ini, maka sederetan token

sekaligus bisa diprediksi apakah sebagai nama obat atau bukan nama obat. Teknik

representasi data yang pertama dan kedua dievaluasi menggunakan tiga model

pembelajaran mesin yaitu: MLP (Multi Layer Perception), DBN (Deep Belief Network),

dan SAE (Sparse Auto Encoder).

Teknik yang ketiga memperlakukan deretan token dalam kalimat dokumen medis sebagai

sequence. Teknik representasi data ini disusun berdasarkan karakteristik sequence dari

kalimat-kalimat pada dokumen medis. Sebagai pola sequence, maka output pada posisi

current dipengaruhi pula oleh input pada posisi sebelumnya. Pada teknik yang kedua ini

representasi pengaruh tersebut diwujudkan berupa penambahan fitur jarak Ecludian di

antara token-token yang berdekatan. Teknik representasi data yang ketiga ini dievaluasi

menggunakan model RNN-LSTM. Berdasarkan hasil evaluasi, penggunaan teknik yang

kedua dan model LSTM ini menghasilkan kinerja yang lebih baik daripada metode-metode

yang telah ada untuk mengekstraksi nama obat dari dokumen klinis. Ketiga teknik

representasi data tersebut didasarkan pada karekteristik nilai word2vect (Mikolov,

Corrado, et al. 2013) dalam hal ini adalah nilai jarak kosinus dan jarak euclidean

antarvektor token.

Penyelesaian Permasalahan Localization

Untuk ekstraksi entitas medis dokumen label obat yang merupakan dataset lokal,

digunakan pendekatan rule based. Pendekatan rule based ini disusun dengan

memanfaatkan karakteristik pola di sekeliling token target. Penerapan studi ini ditujukan

untuk menangani permasalahan keterbatasan pendekatan yang digunakan untuk dataset

bersifat lokal dan keterbatasan pengetahuan luar yang relevan. Rule based yang diujicoba

pada penelitian ini juga digunakan untuk mengekstraksi entitas-entitas yang saling berelasi

dalam satu dokumen. Pada uji coba ini digunakan dataset label obat yang diperoleh dari

berbagai situs produsen obat dalam negeri dan BPOM. Keunggulan pendekatan berbasis

rule yang diusulkan pada penelitian ini adalah: tidak diperlukan pengetahuan luar dan tidak

diperlukan tahapan pre prosecessing seperti yang umumnya digunakan pada teks bahasa

alami seperti sentence parsing, stop word removal atau POS Tagging.

1.5.2 Interaksi Antarentitas

Untuk menyelesaikan permasalahan ekstraksi interaksi antarentitas, pada penelitian ini

diusulkan pendekatan bi-clustering. Bi-clustering merupakan pendekatan untuk

menyelesaikan permasalahan clustering dari lebih dari satu sudut pandang (variabel). Hasil

ekstraksi relasi antarentitas pada tahap sebelumnya direpresentasikan dalam matrik biner

M yang nilai dalam matrik tersebut adalah 0 atau 1. Baris pada matriks merepresentasikan

entitas utama dalam dokumen, sementara kolom adalah entitas-entitas lain yang

terkandung dalam entitas utama tersebut (disebut entitas pendukung). Jika Mij bernilai 1

maka entitas ke-i mengandung entitas ke-j, atau entitas ke-j berelasi dengan entitas ke-i.

Interaksi terjadi antara entitas baris ke-p dan baris ke q, jika p dan q secara bersama berelasi

dengan satu atau lebih entitas pada kolom.

Pada penelitian ini diusulkan algoritme bi-clustering untuk binary categorical data. Usulan

algoritme bi-clustering ini didasarkan dan merupakan modifikasi dari hamming distance.

Hamming-distance merupakan pendekatan yang umum digunakan untuk menganalisis

kemiripan atau perbedaan data-data beratribut kategoris. Secara umum pendekatan yang

digunakan pada penelitian ini adalah: menghitung jarak masing-masing sampel dengan

titik acuan, mengelompokkan sampel dengan jarak yang sama ke dalam satu grup, dan

menemukan bi-clustering berupa Bi-Set dari kelompok jarak tersebut. Untuk menguji

algoritme bi-clustering yang diusulkan ini, selain digunakan riil data juga digunakan data

sintetis. Data sintetis digunakan untuk membandingkan kelebihan dan kekurangan

algoritme yang diusulkan dengan metode bi-clustering yang telah diusulkan sebelumnya.

1.6. Sistematika Penulisan Laporan Akhir

Laporan akhir ini disusun menurut sistematika sebagai berikut:

1.6.1 Bab 1. Pendahuluan

Bab 1 Pendahuluan menjelaskan latar belakang, rumusam masalah, pertanyaan penelitian,

tujuan dan manfaat penelitian, ruang lingkup dan batasan penelitian, kontribusi hasil

penelitian, serta sistematika penulisan. Latar belakang berisi penjelasan landasan yang

menjadi dasar usulan penelitian. Tujuan yang diharapkan dicapai dari hasil penelitian ini

dijelaskan pada sub bagian tujuan penelitian. Rumusan masalah dan pertanyaan penelitian

berisi permasalahan umum yang akan diselesaikan dan daftar pertanyaan antara yang harus

dijawab untuk menyelesaikan permasalahan yang diusulkan. Kontribusi menguraikan

kontribusi yang dihasilkan dari pelaksanaan penelitian. Ruang lingkup dan batasan

penelitian menjelaskan item-item yang menjadi fokus pada penelitian.

1.6.2 Bab 2. Penelitian Terkait

Bab ini menguraikan hasil penelitian-penelitian sebelumnya yang terkait dengan

peneliltian yang dilakukan. Pembahasan penelitian sebelumnya mencakup penelitian

mengenai ekstraksi entitas, esktraksi entitas medis, eksraksi entitas objek berbasis rule,

interaksi antarentitas, drug-drug interaction (DDI), bi-clustering, dan pengelompokan

atribut terkategori.

1.6.3 Bab 3. Metodologi Penelitian

Bab 3 Metodologi Penelitian berisi kerangka kerja penelitian dan dataset yang digunakan

dalam penelitian. Kerangka kerja penelitian menjelaskan kerangka kerja global dan

tahapan-tahapan penelitian yang diselesaikan. Tahapan penelitian pada bab ini dibahas

secara global dan rinci tiap-tiap aktivitas eksperimen. Framework global didasarkan pada

karakteristik dua jenis dataset yang digunakan. Sementara rincian kerangka kerja masing-

masing aktivitas terdiri dari kerangka kerja:ekstraksi entitas obat dan ektraksi klasififikasi

informasi DDI berbasis supervised learning, ekstraksi entitas obat dan interaksi antarobat

berbasis unsupervised learning. Dataset yang digunakan dalam penelitian ini terdiri atas

dua jenis: korpus label obat nasional dan open dataset kumpulan korpus yang diambil dari

basis data DrugBank dan abstraks literatur medis MedLine. Pendekatan supervised

diimplementasikan dengan mengusulkan teknik representasi data yang baru. Teknik

representasi data ini kemudian diuji dengan beberapa model pembelajaran: MLP, DBN,

SAE, dan LSTM. Pendekatan unsupervised diimplementasikan dengan mengusulkan

metode berbasis rule yang memanfaatkan regular expression.

Solusi yang diusulkan untuk keperluan ekstraksi relasi antarobjek ini adalah model

pendekatan berbasi rule. Seperti halnya pendekatan ekstraksi entitas medis dari korpus

label obat Nasional, pendekatan unsupervised ini diimplementasikan dengan

memanfaatkan regular expression. Ekstraksi interaksi antarobat menggunakan pendekatan

bi-clustering dengan representasi data kategoris. Pada penelitian ini diusulkan modifikasi

hamming-distance sebagai acuan untuk melakukan bi-clustering. Untuk menguji metode

yang diusulkan ini digunakan dua jenis dataset binary categorical data yaitu dataset

sintetis dan dataset engekstraksi relasi antarobjek obat dan kandungan obat dari dataset

Pendekatan supervised learning juga digunakan untuk mengidentifikasi ada atau tidak ada

DDI dalam kalimat dalam open dataset DrugBank. Tantangan utama dalam penyelesaian

permasalahan identifikasi DDI ini adalah bagaimana merepresentasikan data dari kalimat

medis yang secara struktur sintak maupun dimensinya sangat bervariasi. Pendekatan yang

dilakukan pada penelitian ini adalah dengan hanya memilih jenis kata yang memberikan

arti secara semantik pada kalimat tersebut. Jenis kata yang diasumsikan memberikan arti

adalah kata-kata yang termasuk pada kategori kata kerja atau kata sifat.

1.6.4 Hasil Eksperimen

Hasil eksperimen untuk masing-masing aktivitas penyelesaian sub permasalahan dibahas

pada bab 4. Untuk ekstraksi nama obat dari teks, secara umum pendekatan supervised

memberikan hasil yang lebih baik. Penerapan pendekatan unsupervised untuk data label

obat menghasilkan nilai f-score di atas 0.9, sementara nilai f-score pendekatan supervised

0.8. Jika dibandingkan dengan metode yang sudah ada, metode bi-clustering yang

diusulkan pada penelitian ini memberikan hasil lebih baik untuk data sintetetis matriks

dengan densitas yang sedang.

1.6.5 Pembahasan

Pembahasan yang disajikan pada bab 5 menjelaskan ringkasan analisi semua eksperimen

yang telah dilakukan. …???

1.6.6 Kesimpulan

Bagian terakhir laporan akhir kesimpulan, keterbatasan dan permasalahan baru, dan

penelitian lanjutan. Kesimpulan berisi penjelasan laporan akhir secara keseluruhan dalam

kaitannya dengan tujuan penelitian. Beberapa keterbatasan pendekatan-pendekatan yang

diusulkan serta permasalahan baru yang timbul dari penelitian ini dikemukan pada subbab

6.2 Keterbatasan dan Permasalahan Baru. Potensi penelitian lanjutan terkait ekstraksi

entitas dan interaksi antar entitas disajikan pada bagian akhir bab ini.

BAB 2. METODOLOGI PENELITIAN

Pada bagian ini disajikan metode penelitian, tahapan penelitian dan penjelasan masing-masing

tahap penelitian yang sudah dilakukan. Metode penelitian yang digunakan pada penelitian ini

adalah metode eksperimen yang akan menguji efektifitas pendekaan interaksi antarentitas

sebagai teknik reduksi dimensi untuk keperluan document clustering.

2.1. Framework Penelitian

Untuk menyelesaikan penyusunan interaksi antarentitas medis, tahapan-tahapan penelitian

adalah: ekstraksi entitas, ekstraksi relasi antarentitas, dan penyusunan interaksi antarentitas.

Framework penelitian ini disajikan seperti gambar 2-1. Untuk penyelesaian masing-masing

permasalahan dilakukan dengan menggunakan pendekakatan supervised dan unsupervised.

Untuk pendekatan unsupervised, tahap ekstraksi entitas dan relasi entitas digunakan model

rule based yang merupakan adaptasi dan modifikasi dari metode bootstrapping untuk

menghasilkan pola seperti yang diusulkan pada [63], [65], [75]. Modifikasi dan perbaikan

pada penelitian ini adalah pada cara membangkitkan pola baru berdasarkan perhitungan nilai

secara statistik dan penggunaan pengetahuan luar yang tidak tergantung pada Bahasa atau

format, seperti pada usulan sebelumnya seperti yang diajukan oleh Thelen [66]. Sedangkan

pada tahapan penyusunan interaksi antarentitas medis digunakan metode bi-clustering.

Eksperimen pendekatan unsupervised ini dilakukan dengan menggunakan dataset lokal

berupa dokumen label obat.

Pendekatan rule based untuk ekstraksi entitas dan relasi hanya berhasil baik untuk dataset teks

dengan struktur yang cukup teratur. Sementara untuk dataset teks dengan struktur lebih acak

seperti narasi / kalimat bahasa alami, pendekatan rule based tidak sesuai. Oleh karena itu pada

penelitian ini untuk data tidak terstruktur tersebut digunakan pendekatan supervised. Model

supervised yang sudah diimplementasikan sampai dengan saat ini adalah MLP, DBN, SAE,

dan LSTM. Model supervised ini digunakan untuk esktraksi entitas obat dari open dataset

teks. Dataset yang digunakan untuk semua model pembelajaran ini adalah open dataset

DrugBank dan MedLine.

Gambar 2-1 Kerangka Global Penelitian

2.2. Supervised Learning : Ekstraksi Entitas Medis

Pada ekseperimen ini dilakukan evaluasi terhadap ke tiga teknik representasi data dan teknik

klasifikasi seperti disebutkan di bagian penelitian yang sudah dilakukan, untuk mengekstraksi

entitas nama obat dari dokumen medis. Representasi data pertama dan ke dua disusun dengan

membuat instan dari dataset berupa satu tuple dari 5 vektor token/kata. Pada teknik pertama

tiap token disusun dari deretan token yang disusun dari semua kalimat pada dataset.

Sedangkan pada teknik kedua tiap kalimat diperlakukan sebagai satu deretan dengan padding

di bagian akhir kalimat. Representasi pertama dan ke dua ini dievaluasi dengan menggunakan

NN standard dalam hal ini: MLP, DBN, dan SAE. Representasi ke tiga didasarkan pada

asumsi bahwa susunan kata pada kalimat dokumen medis merupakan sequence. Representasi

data ke tiga dievaluasi menggunakan model Recurrent NN LSTM. Ketiga teknik representasi

data ini didasarkan pada karakteristik nilai vektor word2vect yaitu jarak kosinus dan jarak

euclidian antara vektor token. Selain didasarkan pada karakteristik nilai vektornya, untuk

teknik pertama dan ke dua juga dipertimbangkan distribusi kemunculan token pada data

training. Berdasarkan pertimbangan ini dilakukan tiga skenario uji coba yaitu:

1. Menggunakan semua token dalam data test

2. Memilih hanya 2/3 bagian dari data test

3. Memilih x/y bagian dari data test dengan (x<y) setelah dilakukan klastering

menggunakna k-means sebanyak y kluster.

Vektor token pada eksperimen ini dibuat dengan menggunakan metode word embedding dari

Mikolov et al [76]. Kontribusi utama dari hasil eksperimen ini adalah:

1. Diusulkan representasi data yang baru dalam mengekstraksi entitas dari kalimat dalam

dokumen yang independen terhadap pengetahuan luar, dan

2. Teknik ekstraksi entitas yang mendasarkan pada karakteristik distribusi kemunculan

kata-kata dalam data training.

Teknik representasi data ini dievaluasi dengan menggunakan open dataset medis dari

DrugBank dan MedLine yang diperoleh dari SemEval 2013 Competition task 9.1

(http://www.cs.york.ac.uk/semeval-2013/task9/). Open dataset ini digunakan juga oleh [33],

[34], [62]. Format kedua dataset medis tersebut merupakan kalimat dalam Bahasa Inggris

yang sebagian dari kalimat tersebut mengandung entitas nama obat. Dari eksperimen yang

telah dilakukan berturut-turut dihasilkan kinerja nilai terbaik f-score 0.6870 untuk MLP,

0.6700 untuk DBN, dan 0.6820 untuk SAE. Sementara penggunaan LSTM pada teknik

represenatsi yang ke tiga menghasilkan kinerja terbaik dengan nilai f-score 0.9430. Rata-rata

nilai f-score teknik ini adalah 0.8645 yang merupakan kinerja terbaik dibandingkan metode-

metode sebelumnya.

Dengan teknik penyusuanan representasi data seperti di atas, usulan pendekatan ini

mempunyai kelebihan-kelebihan:

1. Kemampuan untuk mengidentifikasi satu entitas tunggal yang terdiri dari multi token

2. Tidak tergantung pada pengetahuan luar tertentu yang seringkali tidak tersedia untuk

beberapa kasus bahasa alami

3. Tidak diperlukan hand-crafted feature tambahan seperti : tipe karakter, fitur ortografis

(huruf besar, huruf kecil, atau campuran di antaranya), atau posisi token dalam

kalimat.

2.2.1 Framework

Secara umum usulan pendekatan ini terdiri dari 2 tahapan utama. Tahap pertama adalah

representasi data untuk memformulasikan fitur token. Tahap selanjutnya adalah training

model, testing dan evaluasi hasil uji coba. Keseluruhan pendekatan yang diusulkan

diperlihatkan seperti gambar 2-2.

Gambar 2-2 Framework eksperimen ekstraksi nama obat pada MedLine & DrugBank

Pada tahap formulasi fitur terdapat sub tahapan word2vect training untuk menghasilkan

vektor token. Pada tahap ini dilakukan dua skenario eksperimen training word2vect

berdasarkan kuantitas dataset yaitu: a. hanya menggunakan dataset untuk training

word2vect, dan b. menambahkan kamus wiki

(https://code.google.com/archive/p/word2vec/). Dua skenario ini digunakan untuk melihat

dampak perbedaan volume data training. Pada sub tahapan penyusunan format data

dilakukan dilakukan tiga skenario eksperimen. Teknik pertama dan kedua diterapkan pada

model NN standard yaitu MLP, DBN, dan SAE. Eksekusi eksperimen ini dilakukan dengan

menggunakan library matlab deep-learning master tools box [77] yang didownload dari

https://github.com/rasmusbergpalm/DeepLearnToolbox.

Pada eksperimen representasi data ke tiga, keseluruhan kalimat diperlakukan sebagai

sequence. Model yang digunakan adalah RNN- LSTM. Berdasarkan hasil kinerja pada

teknik pertama dan kedua, penambahan kamus wiki pada saat training word2vect

menghasilkan akurasi yang lebih baik. Oleh karena itu maka pada eksperimen ke tiga hanya

digunakan representasi vektor token dari data hasil training dengan menambahkan kamus

wiki tersebut. Untuk eksperimen LSTM ini digunakan modifikasi library LSTM dari Otte

et.el [78].

2.2.2 Analisis Data Training

Secara umum baik pada dataset DrugBank maupun MedLine, kuantitas token nama obat

sebagai target jauh lebih banyak dibandingkan dengan token non-obat. Segura et al [79]

menyajikan kondisi statistik data secara umum. Eksplorasi lebih rinci dari karakteristik

data training disajikan pada bagian ini. Kalimat-kalimat pada data training MedLine

mengandung 25.783 token yang terdiri dari 4.003 token unik. Distribusi kemunculan

token-token unik ini tidak seragam tetapi didominasi oleh bagian kecil dari token unik

tersebut. Jika semua token unik disusun terurut berdasarkan banyaknya kemunculan pada

kalimat-kalimat, distribusi kuartilnya diperlihatkan seperti pada gambar. Q1

merepresentasikan token nomer 1 s.d. 1001 dengan total kemunculan sebanyak 20.688, Q2

merepresentasikan token nomer 1002 s.d 2002 dengan total kemunculan sebanyak 2.849,

Q3 merepresentasikan token nomer 2003 to 3002 dengan total kemunculan sebanyak

1.264, and Q4 merepresentasikan token nomer 3003 to 4003 dengan total kemunculan

sebanyak 1.000. Dapat disimpulkan bahwa mayoritas kemunculan didominasi oleh

sebagian kecil dari keseluruhan token.

Gambar 2-3 Distribusi token pada data training MedLine

Analisis lebih lanjut atas data traininig menunjukkan bahwa hampir semua token nama

obat sangat jarang muncul. Jika kumpulan token dalam data training dikelompokkan

menjadi tiga bagian berdasarkan jumlah kemunculan hasilnya seperti diperlihatkan pada

tabel 2-1.

Tabel 2-1 Frekuensi kemunculan token pada masing-masing 1/3 posisi, MedLine

Nama obat sebagai target terdapat pada 2/3 bagian dengan kemunculan token yang lebih

sedikit. Pola yang sama untuk data training the DrugBank seperti ditunjukkan pada gambar

2-3 dan tabel 2-2. Jika dilihat lebih jauh pada distribusi token terlihat bahwa hampir semua

target nama obat terdapat pada 1/3 bagian yang paling jarang muncul. Hal ini dapat

dipahami, karena pada 2/3 bagian yang lain merupakan token dari kata-kata yang umum

seperti stop words ("of", "the", "a", "end", "to", "where", "as", "from", and such kind of

words) atau token-token untuk kata yang umum dalam domain medis seperti:

"administrator", "patient", "effect", "dose", dan lain-lain.

Gambar 2-4 Distribusi token pada data training DrugBank

Tabel 2-2 Frekuensi kemunculan token pada masing-masing 1/3 posisi, DrugBank

2.2.3 Analisis Word Embedding

Untuk merepresentasikan dataset digunakan training model word embeding (word2vect)

seperti yang diusulkan oleh Mikolov et al. [72]. Training untuk word2vect dilakukan

setelah kalimat-kalimat dalam kedua dataset digabung. Skema training word2vect yang

digunakan adalah model CBOW, dengan panjang jendela konteks 5, dan dimensi vektor

masing-masing token 100. Setelah dilakukan training atas kumpulan kata pada korpus,

dapat diestimasi kemiripan atau ketidakmiripan antarkata tersebut. Ringkasan analisis atas

hasil representasi word2vect yang digunakan sebagai acuan dalam penyusunan teknik

representasi data tersebut dibahas pada bagian ini.

Dengan mengambil sebagian sampel vektor target nama obat dan non nama obat,

diperlihatkan bahwa vektor token nama obat memiliki kemiripan (berdasarkan jarak

kosinus) lebih dekat dengan vektor token nama obat lainnya dibandingkan dengan vektor

token non obat. Demikian juga vektor token non obat lebih mirip dengan vektor non obat.

Beberapa contoh kasus kemiripan tersebut disajikan pada tabel 2-3. Analisis juga dilakukan

dengan menghitung jarak euclidian dari antara token. Tabel 2-4 menunjukkan jarak

euclidian rata-rata dan jarak kosinus rata-rata antara obat-obat, obat non obat, dan non obat-

non obat. Jarak rata-rata tersebut menunjukkan bahwa secara intuitif dapat dilakukan

pengelompokan / pemisahan antara grup obat dan grup non obat berdasarkan representasi

nilai vektornya.

Tabel 2-3 Beberapa kemiripan jarak kosinus antardua jenis token

Tabel 2-4 Rata-rata jarak Euclidian dan kosinus di antara dua grup token

2.2.4 Representasi Fitur dan Format Data

Berdasarkan analisis karakteristik data training dan word embedding di atas, dilakukan

formulasi representasi dan format data. Teknik pertama dan ke dua dilakukan dengan

menyusun formasi satu data masukan sebagai model N-gram dengan N=5. Panjang tuple 5

token ini digunakan untuk mengantisipasi banyaknya token maksimum, yaitu 5, yang

mewakili satu entitas tunggal nama obat. Untuk mengidentifikasi satu input data apakah

sebagai obat atau non obat, digunakan skema multi klasifikasi yang mengklasifikasikan satu

input data ke dalam 1 di antara 6 kelas. Kelas nomer 1 mewakili deretan 5 token bukan nama

obat, sementara kelas-kelas yang lain merepresentasikan nama obat sekaligus berapa banyak

token penyusunnya.

2.2.4.1 Teknik Pertama

Teknik pertama disusun dengan cara sebagai berikut. Pada tahap pertama semua kalimat

dalam dataset disusun sebagai satu deretan token. Misalnya deretan token tersebut adalah : t1

t2 t3 t4 t5 t6 t7 t8...tn dengan n adalah banyaknya token dalam deretan, maka format dataset

adalah berturut-turut : t1 t2 t3 t4 t5;t2 t3 t4 t5 t6;…..tn-4 tn-3 tn-2 tn-1 tn. Beberapa contoh

kalimat dan nama obat yang terkandung di dalamnya disajikan pada tabel 2-5. Diambil dari

training dataset DrugBank, tabel 2-6 merupakan data awal dari dataset dengan contoh 3 kolom

yang relevan dengan penelitian ini yaitu: sentences, character drug position, dan drug name.

Tabel 2-6 memberikan ilustrasi beberapa dataset dan labelnya sebagai hasil dari data asal tabel

2-5. Dalam dataset, mengacu pada kolom drug name, tuple dataset nomor 6 diidentifikasi

sebagai obat, sementara tuple dataset lain diklasifikasin sebagai token non obat. Ilustrasi lebih

lengkap untuk tuple-tuple dataset hasil dari teknik pertama disajikan seperti tabel 2-7.

Tabel 2-5 Contoh kalimat pada data training dan nama obat yang terkandung di

dalamnya

Tabel 2-6 Beberapa formulasi tuple dataset DrugBank hasil teknik pertama

Tabel 2-7 Representasi tuple dataset teknik pertama dan labelnya

2.2.4.2 Teknik Ke Dua

Teknik ke dua dilakukan dengan cara yang sama seperti pada teknik pertama dengan

perbedaan pada perlakuan terhadap kalimat-kalimat dalam dataset. Teknik ke dua disusun

dengan memperlakukan tiap kalimat sebagai satu deretan dengan menambahkan padding

karakter“*” pada akhir deretan. Penambahan padding ini dilakukan agar tetap mengikutkan

semua token dengan panjang tuple tetap 5. Dengan penerapan teknik ke dua ini contoh tuple

yang dihasilkan seperti tabel 2-8.

Tabel 2-8 Contoh representasi data teknik yang ke dua

2.2.4.3 Teknik Ke Tiga

Secara alami kalimat dalam bahasa manusia merupakan pola sequence yang kata-kata pada

posisi saat ini (current position) dipengaruhi oleh kata sebelumnya. Dari analisis nilai

word2vect secara intiuitif grup token obat dan grup token non obat dapat dipisahkan

berdasarkan jarak euclidian-nya. Oleh karena itu jarak euclidian digunakan untuk

merepresentasikan pengaruh dari token sebelumnya terhadap token saat ini. Dataset masukan

ke xi direpresentasikan sebagai [xvi xdi] yang merupakan vektor hasil konkatenasi antara nilai

word2vect xvi dan jarak euclidian dengan token sebelumnya, xdi. Setiap x merupakan vektor

baris dengan panjang 200. Nilai 100 pertama adalah word2vector dan 100 sisanya adalah nilai

jarak euclidian dengan token sebelumnya. Untuk token pada posisi pertama semua nilai xdi =

0. Dengan menggunakan model LSTM penyelesaian permasalahan ekstraksi nama obat dari

dokumen medis adalah klasifikasi biner yang diterapkan pada tiap token dalam sequence.

Formulasi sequence token dan kelas masing-masing disajikan seperti tabel 2-9. Setiap kata

yang merepresentasikan nama obat seperti 'plenaxis', 'cytochrome', and 'p-450,' diidentifikasi

sebagai 1, sementara token yang lain diidentifikasi sebagai 0.

Tabel 2-9 Contoh representasi data teknik yang ke tiga

2.2.5 Pemilihan Kandidat Nama Obat

Dalam dataset training token yang diidentifikasi sebagai entitas nama obat hanya

merupakan sebagian kecil dari keseluruhan token. Pada data uji MedLine kuantitas token

obat hanya 171 dari 2.000 (kurang dari 10%), sementara pada DrugBank 180 dari 5.252

[12]. Secara umum dapat dilihat bahwa sebagian besar token merupakan token non obat

dan token pengganggu (noise) sepert stop word, karakter khusus atau karakter numerik.

Berdasarkan kondisi ini maka juga diusulkan skenario pemilihan kandidat obat untuk

mengeliminiasi noise. Dilakukan dua mekanisme pemilihan kandidat obat yaitu: pemilihan

berdasarkan distribusi kemunculan pada data training, dan dipilih x/y bagian dari token

yang sudah dikluster. Pada skenario pertama, hanya 2/3 bagian token yang muncul pada

2/3 bawah seperti tabel 2-1 dan tabel 2-2, sementera pada skenario kedua, dipilih x/y (x <

y) bagian dari total token setelah token-token diklaster ke dalam y kelompok.

2.2.6 Dataset

Untuk validasi pendekatan yang diusulkan digunakan open dataset DrugBank dan

MedLine (http://www.cs.york.ac.uk/semeval-2013/task9/) yang juga digunakan pada

studi-studi sebelumnya. Sebagai dataset tambahan juga digunakan dokumen label obat

yang diperoleh dari situs-situs produsen obat dan BPOM yaitu :

1. http://www.kalbemed.com/,

2. http://www.dechacare.com/

3. http://infoobatindonesia.com/obat/

4. http://www.kalbemed.com/

5. http://www.dechacare.com/

6. http://infoobatindonesia.com/obat/, and

7. http://www.pom.go.id/webreg/index.php/home/produk/01.

2.3. Unsupervised: Ekstraksi Entitas Medis

2.3.1 Analisis Data

Dataset yang digunakan sebagai kasus penyelesaian ekstraksi interaksi antarentitas ini

berupa dokumen-dokumen label obat yang diperoleh dari berbagai situs

produsen/distributor obat dan BPOM. Label obat berisi informasi-informasi yang generik

antara lain: nama obat, kandungan obat, dosis, indikasi, kontra indikasi, dan peringatan.

Dilihat dari format teksnya, struktur susunan tokennya relatif teratur. Struktur yang relatif

teratur ini kurang lebih mengikuti pola tertentu. Hal inilah yang menjadi pertimbangan

penggunaan rule based.

2.3.2 Objektif

Pada uji coba rule based learning tahap pertama ditujukan untuk mengekstraksi objek

utama berupa nama obat. Pembelajaran pola diterapkan pada dataset berupa dokumen label

obat untuk obat-obatan yang beredar di Indonesia. Untuk memandu pembelajaran guna

mendapatkan pola, digunakan pengetahuan luar berupa koleksi kata dalam Indonesian

WordNet yang dipublikasikan oleh PAN Localization project. Indonesian WordNet

merupakan kumpulan lebih dari 1.000.000 kata dalam Bahasa Indonesia yang

dikumpulkan dari berbagai sumber seperti : agensi kantor berita, penerbit media daring,

blog internet, situs-situs web, dll. Karena berdasarkan asumsi bahwa nama obat yang

beredar di Indonesia sebagian besar yang unik dan tidak umum digunakan dalam

penggunaan dalam Bahasa Indonesia sehari-hari, maka digunakan WordNet Indonesia

sebagai panduan untuk menentukan apakah kata tertentu adalah nama obat atau bukan.

Framework ekstraksi objek nama obat diilustrasikan dalam gambar 2-5. Masukan lain dari

kerangka kerja ini di samping WordNet adalah pola awal (initial pattern) yang dimasukkan

secara manual.

Gambar 2-5 Contoh Penerapan Pengetahuan Luar Umum Pada Ekstrasksi Relasi Obat

2.3.3 Pembangkitan Pola (Pattern Generation)

Untuk mengekstraks relasi objek didefinisikan relasi antarobjek seperti yang diilustrasikan

pada gambar 2-6. Suatu relasi terdiri satu objek utama dan satu atau lebih objek

pendukungnya. Dalam dokumen tertentu hubungan antara objek utama dan objek

pendukungnya ditandai dengan istilah relasi. Istilah relasi adalah kata tertentu, umumnya

kata kerja, yang menggambarkan hubungan apa yang terdefinisi antara objek utama dan

objek pendukungnya. Misalnya dalam obat dokumen label obat-obat, nama obat adalah

objek utama, komponen/kandungan kimia adalah objek pendukung, dan "komposisi" atau

“kandungan” adalah istilah relasi.

Gambar 2-6 Representasi Relasi AntarObjek

Pada pembangkitan pola ini baik objek utama maupun objek pendukung diidentifikasi

sebagai suatu target yang dikeliling oleh pola frase tertentu (regular expression/regex).

Dengan demikian untuk tiap target diapit oleh regex kiri dan regex kanan. Secara

bersamaan regex kiri dan regex kanan objek utama membentuk regex kiri pola secara

keseluruhan. Sedangkan regex kiri dan regex kanan objek-objek pendukung membentuk

regex kanan pola secara keseluruhan. Seperti disebutkan sebelumnya, pada pendekatan ini

pola disusun dengan mengidentifikasi target berupa frase yang tidak ada di daftar

WordNet. Sekali frase tersebut diidentifikasi, maka frase-frase lain yang terletak di sekitar

target tersebut digunakan sebagai regex dari calon pola (candidate pattern).

2.3.3.1 Pemilihan Pola (Pattern Selection)

Dengan mekanisme pemilihan pola seperti dijelaskan sebelumnya, maka kandidat pola

yang diperoleh bisa sangat banyak tergantung banyaknya data training. Jika semua

kandidat pola digunakan sebagai pola dan diterapkan pada data uji, maka banyaknya pola

tersebut akan mengakibatkan penggunaan sumber daya komputasi yang berlebih. Untuk

mereduksi kebutuhan sumber daya komputasi dipilih hanya kandidat-kandidat pola yang

memenuhis syarat kuantifikasi tertentu. Syarat kuantifikasi ini direpresentasikan dengan

suatu nilai pola (pattern score). Pattern score ini ditentukan berdasarkan probabilitas

kemunculan regex kiri maupun regex kanan yang mengelilingi / di sekitar target. Paragraf-

paragraf berikut menyajikan penjelasan teknik dan representasi formal terkait pattern

scoring. Pada penelitian ini telah dilakukan dua teknik pembobotan untuk mendapatkan

nilai pola.

2.3.3.2 Pembobotan Pola (Pattern Scoring) #1

Definisi

Setiap pola terdiri dari Left Tuple (LT), Relation-Term, dan Right Tuple (RT)

LT-L = {(lt-l)1, (lt-l)2,.... (lt-l)n}; (lt-l)j adalah regex ke j dari left-tuple

N = banyaknya LT-L, N >= n ; N = n jika (flt-l)j = 1 untuk 0<j≤ n

(flt-l)j = frekuensi (lt-l)j pada data training, maka

Pj(lt-l) =(flt-l)j /N , ∑ 𝑃𝑗𝑁𝑗 = 1 (1)

LT-R = {(lt-r)1, (lt-r)2,. .. (lt-r) m}; (lt-r)i adalah regex ke k dari right-tuple

M = banyaknya LT-R, M >= m; M = m if (flt-r)k = 1 for 0<k ≤ m

(flt-r)k = frekuensi of (lt-r)k pada data training, maka

Pk(lt-r) =(flt-r)k /M , ∑ 𝑃𝑘𝑀𝑘 = 1 (2)

Pattern Scoring (PS) Tupple Probabilities = Join probabilities dari regex kiri dan regex

kanan. Untuk tupel kiri, skor pola dihitung dengan:

PSi = Pi (Left-Tuplei) = Pj(lt-l) * Pk(lt-r) ; ∑ 𝑃𝑆𝑖𝑛∗𝑚𝑖 = 1 (3)

∀i, i {1,2...n*m}; ∀j, j {1,2...n} ; ∀k, k {1,2...m};

2.3.3.3 Pembobotan Pola (Pattern Scoring) #2

Teknik pembobotan pola berikutnya yang diusulkan pada penelitian ini adalah dengan

melakukan penyesuaian (adjustment) pada persamaan (3). Dengan memperlakukan left

regex dan right regex sebagai peubah yang saling independen satu dengan lainnya seperti

persamaan di atas, pola kiri -yang mengitari target objek utama- yang bisa diperoleh

sebanyak J * K, dengan J adalah maksimum banyaknya left regex dari left tuple dan K

maksimum banyaknya right regex pada left tuple. Pada teknik yang ke dua ini tidak semua

right regex dipasangkan dengan tiap left regex, melainkan beberapa right regex

diapasangkan dengan left regex tertentu. Formulasi untuk kasus ini kurang lebih seperti

conditional probabilities. Definisi formal teknik yang kedua ini, PSi, adalah:

PSi = Pi((lt-l)j|(lt-r)k) , ∑ 𝑃𝑆𝑖𝑠𝑖 = 1 (4)

∃i, i {1,2...n*m}, i≤s≤ n*m; ∀j, j {1,2...n} ; ∃k, k {1,2...m},k≤ m;

2.3.3.4 Algoritme

Berdasarkan framework ekstraksi objek dan teknik pembobotan pola sebelumnya,

algoritme yang digunakan untuk membangkitkan pola menggunakan dataset training

disajikan pada sub bab ini. Digunakan blok algoritme yang sama untuk kedua teknik

pembobotan sebelumnya, perbedaan hanya pada blok mekanisme update score. Algoritme

yang disajikan pada bagian berikut berdasarkan teknik pembobotan yang ke dua.

Input (training_set, WordNet, initialPattern)

Output (NewPatternList <Left_Regex, Target, Right_Regex, Prob. of

Pattern>)

Algorithm

NewPatternList Null

for all documents in training_set do

if the document contains initialPattern.relation-term

Get-term-in left of relation-term that is

not in WordNet

Get Left_Regex, count its frequency

Get Right_Regex, count its frequency for

the Left_Regex

for all pairs of Left_Regex and Right_Regex do

Perform NewPatternList and Calculate P(R|L)

Reorder on P(R|L) New Pattern in NewPatternList

Output NewPatternList

2.4. Unsupervised : Ekstraksi Relasi Entitas

Pada studi ekstraksi relasi antarobjek ini didasarkan pada pendefinisian konsep relasi antara

objek utama (Main Object/MO) dan objek pendukungnya (Supporting Object/SO).

Keberadaan objek pendukung tergantung pada keberadaan objek utama, namun tidak

sebaliknya. Dengan demikian dalam satu dokumen tidak dimungkinkan ada SO jika tidak ada

MO. Sebaliknya bisa terjadi ada MO tanpa diperlukan adanya SO. Contoh nyata kasus ini

adalah pada dokumen label obat. Nama obat adalah objek utama sedangkan kandungan obat,

indikasi, kontra indikasi, atau kegunaan obat merupakan objek pendukung. Untuk dokumen

brosur pemasaran produk, nama produk yang dipasarkan adalah objek utama. Sedangkan

objek pendukungnya antara lain spesifikasi produk, dimensi produk, atau harga dasar. Contoh

lain untuk dokumen kartu keluarga, objek utama adalah kepala keluarga sedangkan anggota

keluarga yang lain adalah objek pendukung.

Bagian ini merupakan kelanjutan dari riset sebelumnya. Jika pada riset sebelumnya, bagian

2.3, hanya mengekstraksi objek utama, maka pada bagian ini objektif risetnya adalah untuk

membangun model yang dapat diterapkan untuk keperluan melakukan ekstraksi MO dan SO.

Uji coba dilakukan untuk mengekstraksi nama obat dan kandungan obat dari kumpulan

dokumen label obat yang diunduh dari internet. Untuk keperluan ini digunakan pembelajaran

pola berdasarkan ekspresi regular teks di sekeliling teks entitas yang menjadi target. Untuk

membangkitkan pola dari data training yang akan diterapkan pada data testing, digunakan

WordNet Bahasa Indonesia sebagai pengetahuan luar.

2.4.1 Objektif

Objektif dari serangkaian penelitian ini adalah untuk mendapatkan estimasi potensi

interaksi antara entitas yang diekstraksi dari data semi terstruktur (dokumen) berdasarkan

relasi antarentitas tersebut. Pada penelitian ini objek sinonim dengan entitas, karena dari

sisi definisi entitas merupakan objek atau sekumpulan objek dalam dunia nyata [80]. Untuk

mendapatkan hasil keluaran yang dimaksud, didefinisikan suatu releasi antara objek utama

(Main Object/MO) dan objek pendukung (Supporting Object/SO). Pada konteks relasi

seperti ini, sebagai MO misalnya adalah penjual, pembeli, atau nama obat dan lain

sebagainya. Sementara SO adalah produk atau jasa yang djual atau dibeli, atau kandungan

obat jika MO nya nama obat.

2.4.2 Pattern Learning Untuk Ekstraksi Objek dan Relasi AntarObjek

Melanjutkan eksperimen seperti dijelaskan pada bagian 2.3., pada uji coba ini ekstraksi

objek dan relasinya dilakukan untuk mengekstraksi obat dan kandungan-kandungannya

dari dokumen label obat-obatan yang didistribusikan di pasar Indonesia. Digunakan

WordNet Bahasa Indonesia seperti dipublikasikan di proyek PAN Localization sebagai

pengetahuan luar. Framework ekstraksi objek dengan relasinya diiulustrasikan seperti

gambar 2-7. Masukan lain untuk Pattern Learning, selain WordNet adalah pola awal

(initial pattern) yang dibuat secara manual. Pola awal ini harus mengandung kata-kata

yang merepresentasikan relasi. Dalam Bahasa Indonesia, contoh kata yang

merepresantasikan relasi antara nama obat dan komponen kandungan obatnya, misalnya:

“kandungan” atau “komposisi”. Pola awal disusun dengan format:

Pola awal := <pola-kiri>###<kata-relasi>#<pola-kanan>

<pola-kiri>:=<nomor-pola>####(pola target MO)#<kemunculan pola>#<bobot pola>#####

<kata-relasi>:=komposisi\s*|kandungan\s*

<pola-kanan>:=#0#0#####(pola target SO)#<no pattern bagian kiri>#<probabilitas

kemunculan pola>

Contoh daftar pola awal yang digunakan pada eksekusi eksperimen ini sebagai berikut:

1####.*#1#0##-###kandungan\s*#0#0###-##(.*)#1#0

0####.*#1#0##-###komposisi\s*#0#0###-##(.*)#1#0

2####.*#1#0##-###kandungan\s*#0#0###-##(.*\d+\s+\w+\s+\w+)#1#0

3####.*#1#0##-###kandungan\s*#0#0###-##(.*\d+\s+\w+)#1#0

Gambar 2-7 Framework ekstraksi MO-SO

2.4.3 Pembentukan Pola Relasi

Definisi formal relasi pada penelitian ini adalah :

M merupakan sekumpulan main objek, M = {m1, m2,…. mp}

Si himpunan objek pendukung untuk main objek mi, Si = {si1, si2,…. sic}

Suatu relasi ri didefinisikan sebagai kumpulan tupel: ri (mi, Si) dan R sekumpulan relasi: R

= {r1, r2,…… rn}, dengan mi M, sik Si dan ri adalah relasi mi dengan sik.

Contohnya pada relasi antara nama obat dan kompoenen obat, instance dari skema relasi

tersebut adalah:

mi = vomilat; si = {vitamin b6, piridoksin hcl, folat acid} and ri = “komposisi”, dan relasi

tersebut bisa dibaca sebagai “Nama obat vomilat mengandung vitamin b6, piridoksin hcl,

dan folat acid “

Baik untuk objek utama maupun objek pendukung, keduanya diidentifikasi sebagai kata

target yang diapit oleh ekpresi reguler (regex) tertentu. Regex tersebut disusun atas regex

bagian kiri dan regex bagian kanan. Pola keseluruhan merupakan bentukan dari regex

bagian kiri dan regex bagian kanan. Seperti dijelaskan pada bagian sebelumnya,

pendekatan ini membangkitkan pola dengan cara mengidintifikasi kata tertentu yang tidak

ada di WordNet Indonesia. Jika kata tertentu yang memenuhi kriteria tersebut ditemukan,

maka string literal yang mengapit kata-kata tersebut digunakan untuk sebagai regex dan

regex tersebut diidentifikasi sebagai kandadidat pola.

2.4.4 Pemilihan Pola

Pemilihan pola dilakukan dengan cara pembobotan berdasarkan probabilitas kemunculan

pola dari data training. Seperti dijelaskan pada bagian 2.3.2, prioritas pola disusun

berdasarkan nilai probabilitas yang dihasilkan dari condionally probability antara pola

bagian kiri dan pola bagian kanan. Masing-masing pola kiri, target, pola kanan dihitung

nilai probabilitasnya, kemudian berturut-turut dihitung pola bagian kiri relasi dan pola

bagian kanan relasi. Kedua bagian tersebut pada akhirnya digunakan untuk membentuk

pola akhir sebagai berikut.

Skor pola bagian kiri relasi

Definisi formal skor pola bagian kiri relasi, L-PSi, adalah:

L-PSi = Pi((lt-l)j|(lt-r)k) , (3)

∃i, i {1,2...n*m}, i≤s≤ n*m; ∀j, j {1,2...n} ; ∃k, k {1,2...m},k≤ m;

Skor pola bagian kanan relasi

Skor pola bagian kanan, R-PS, diturunkan dengan cara yang sama dengan L-PS

sebelumnya. Definisi akhir skor pola bagian kanan relasi, R-PSi, adalah:

R-PSi = Pi((rt-l)j|(rt-r)k) (4)

Dan skor keseluruhan pola, PS adalah :

PSi = Pi((L-PS)j|(R-PS)k) (5)

2.5. Unsupervised : Categorical Data Bi-Clustering

2.5.1 Ruang Sampel Data Terkategoris

Mengacu kepada Peng Zhang [81], Adendberg menyatakan bahwa hanya ada dua nilai

untuk membedakan dua atribut dalam sampel data terkategori yaitu sama atau tidak sama.

Dengan demikian jika ada dua sampel X1 dan X2, maka dua nilai tersebut adalah salah satu

di antara X1 = X2 atau (exclussive or) X1 X2, Xi adalah parameter pengukuran atribut

untuk sampel ke i. Instansiasi attribut tersebut adalah gender yang hanya bisa bernilai salah

satu di antara laki-laki atau perempuan.

Secara umum, jika misalnya terdapat sebanyak p untuk sampel tertentu dan atribut ke j,

1<=j <=p, terkategori ke dalam mj yang merupakan himpunan bagian dari himpunan level

attribut Aj = {aj1..ajm}, maka ruang sampel data terkategori didefinisikan sebagai :

= A1 A2 …. Ap, dengan ajl dinyatakan sebagai state atau modalitas.

Himpunan data terkategorisasi

X = (x1, x2, …..xn)T, xi= (ai1, ai2, …..aip), i = 1,2,…n;

n = banyaknya sample,

p = banyaknya attribute untuk tiap sample. aij Aj.

Untuk data terkategori dengan setiap attributnya hanya bernilai satu di antara dua {0,1}

atau {T,F}, disebut dengan data kategori biner. Dan untuk data katogori biner maka Aj

{0,1}.

2.5.2 Hamming Distance Untuk Penyusunan Kelompok Sampel

Hamming Distance (HD), untuk binary categorical data

𝑑(𝑥𝑖𝑞 , 𝑥𝑗𝑞 ) = {0, 𝑥𝑖𝑞 = 𝑥𝑗𝑞

1, 𝑥𝑖𝑞 ≠ 𝑥𝑗𝑞

dij= 𝑑(𝑥𝑖 , 𝑥𝑗 ) = ∑ 𝑑(𝑥𝑖𝑞 , 𝑥𝑗𝑞 )𝑞=𝑝𝑞=1 , 0<= dij<= p

Definisi (1)

C = (c1, c2, …..cp), Cj {0,1}, dan C ∈ X adalah center dari sample X jika :

∑ 𝑑(𝐶, 𝑋) = 𝑎𝑟𝑔𝑚𝑖𝑛(𝑠 ∈ 𝑋) ∑ 𝑑(𝑠, 𝑋)

Center adalah elemen yang paling banyak mempunyai kesamaan attribut dengan

semua elemen yang lain dalam X, maka 𝑐𝑞 paling sering muncul pada posisi q

untuk semua xi , maka 𝑑(𝑐𝑞 , 𝑥𝑖𝑞) minimal dan karenanya ∑ 𝑑(𝐶, 𝑋) minimal.

Definisi (2)

R ∈ X adalah acuan (based reference) jarak untuk semua elemen sample xi ∈ X, i

∈ {1,2, … 𝑛}

D = (0, 1, 2….p) adalah vector jarak yang mungkin untuk semua si ∈ terhadap

R sembarang

d = (d0, d1, d2….dq) D adalah vector jarak actual dari semua xi ∈ X terhadap R

sembarang, dengan d0 < d1 < d2….dq.

Jika ditentukan bahwa R=C, dan

Vdt X adalah koleksi sample xi ∈ X yang berjarak dt terhadap R , i ∈ {1,2, … 𝑛}, t ∈

{1,2, … 𝑞}, maka

1. Karena semua xi ∈ Vdt berjarak sama terhadap R maka semua xi ∈ Vdt

kemungkinan besar paling mirip satu sama lainnya dibandingkan dengan xk ∉ Vdt,

atau dengan xk yang berjarak tidak sama terhadap R.

2. Berdasarkan no 1, maka banyaknya kandidat kluster = dengan banyaknya dt = |dt|

dengan Vdt {} dan max (|dt|) = q

2.5.3 Pembobotan Untuk Kondisi Ekstrim

Jika misalnya R = (0,0,0,0,0), dan xi = (1,1,0,0,0) dan xk = (0,0,1,1,0) maka dengan

perhitungan jarak acuan seperti di atas, akan menghasilkan jarak R-xi = R-xk,, dan akan

menghasilkan xi = xk, sementara kedua sampel tersebut aktualnya sama sekali berbeda.

Untuk menangani kondisi ekstrim seperti ini, maka pada usulan pendekatan ini perhitungan

jarak tersebut disempurnakan dengan pemberian bobot. Pemberian bobot dilakukan

dengan mempertimbangkan posisi attribut yaitu posisi paling kiri diberikan bobot paling

besar. Dengan pembobotan ini, maka perhitungan Hamming Distance menjadi :

𝑑(𝑥𝑖𝑞 , 𝑥𝑗𝑞 ) = {0 + 1/𝑞, 𝑥𝑖𝑞 = 𝑥𝑗𝑞

1, 𝑥𝑖𝑞 ≠ 𝑥𝑗𝑞

2.5.4 Penyusunan Kelompok Tahap Berikutnya

Tugas berikutnya setelah menyusun kandidat kelompok (klaster) adalah bagaimana

menyusun kandidat kelompok tersebut ke dalam kelompok lebih besar dengan anggota

lebih banyak dan banyak kelompok lebih sedikit. Teknik untuk menyelesaikan tugas

tersebut dijelaskan pada bagian berikut.

Jika diatur sedemikian rupa sehinga d0 < d1 < d2<……dq, maka Vdt paling mungkin

bergabung dengan Vdt-1 atau Vdt+1 , berdasarkan kondisi berikut :

1. Jika dt-dt-1 < dt+1-dt Vdt bergabung dengan Vdt-1

2. Jika dt-dt-1 > dt+1-dt Vdt bergabung dengan Vdt + 1

3. Jika dt-dt-1 = dt+1-dt Ditentukan “kedekatan” Vdt apakah ke Vdt-1 atau Vdt + 1

Kemudian disusun

Y = (y1,..y2…yq)T

Yj = (dj, wj), j ∈ {1,2, … 𝑞}

𝑤𝑗 = {𝑑𝑗−1, 𝑘𝑎𝑠𝑢𝑠 1

𝑑𝑗+1, 𝑘𝑎𝑠𝑢𝑠 2

Kasus no 3, ditentukan sample dan attribute baru untuk masing-masing Vdt.

Y = (y1,..y2…yq)T

Yj = (dj, wj), j ∈ {1,2, … 𝑞}

𝑤𝑗 = {𝑑𝑗−1, 𝑦𝑖 ~ 𝑘𝑒 𝑦𝑖−1

𝑑𝑗+1, 𝑦𝑖 ~ 𝑦𝑖+1

~ : lebih dekat, dihitung dengan :

1. Hitung bobot jarak dt-1 = f(d(vdt, vdt-1)) , untuk semua vdt ∈ Vdt untuk semua vdt-1 ∈

2. Hitung bobot jarak dt+1 = f(d(vdt, vdt+1)) , untuk semua vdt ∈ Vdt untuk semua vdt+1

∈ Vdt+1

if dt-1 < dt+1 𝑦𝑖 ~ 𝑘𝑒 𝑦𝑖−1, else 𝑦𝑖 ~ 𝑦𝑖+1

Untuk membentuk kelompok berikutnya yang lebih besar, selanjutnya diselesaikan dengan

hirarchical clustering (agglomerative clustering) terhadap :

Y = (y1,..y2…yq)T

Yj = (dj, wj), j ∈ {1,2, … 𝑞}

2.6. Categorical Data Bi-Clustering

2.6.1 Objektif Bi-Clustering

Definisi

S = {s1,s2…sm}, himpunan sample

G = {g1,g2,….gn}, himpunan attribute/properti

Objektif Bi-Clustering:

Menemukan sekumpulan (K) Bi-Set B = {b1, b2…bK} , bi = (Si, Gi), Si S, Gi G

merupakan sekumpulan sample si yang dipengaruhi (mengandung) oleh sekumpulan

property Gi. bi didefinisikan sebagai vektor boolean:

<si>,<gi>= < si1 ,si2 , ….sim>,< gi1 ,gi2 , ….gin>,

sik =1, jika sk Si , atau 0 jika tidak

gik =1, jika gk Gi , atau 0 jika tidak

Misalnya terdapat data awal seperti berikut

g1 g2 g3 g4 g5

s1 1 1 0 1 0

s2 0 0 1 0 1

s3 0 1 1 1 0

s4 0 1 1 0 1

s5 0 1 1 0 1

s6 1 1 0 1 0

Gambar 2-8 Matrik biner M, representasi relasi sampel dengan attribut

Maka contoh dari hasil Bi-Clustering untuk dataset di atas

b1= <s4,s5><g2,g3,g5>=<0,0,0,1,1,0,><0,1,1,0,1>

b2= <s1,s6><g1,g2,g4>=<1,0,0,0,0,1><1,1,0,1,0>

bK =…………………..

2.6.2 Tahapan Penemuan Bi-Set

Tahapan penemuan Bi-set dilakukan melalui dua tahap utama: clustering baris dan kolom

secara simultan (proses bi-clustering) menggunakan metode yang diusulkan pada peneltian

ini dan kemudian penyusunan Bi-Set. Selanjutnya metode bi-clustering dalam penelitian

ini disebut dengan Distance-Based (DB) Bi-Clustering. DB-Bi Clustering akan

menghasilkan segmen–segmen dalam matrik dengan ukuran masing-masing sesuai

banyaknya anggota tiap klaster dalam baris dan kolom. Dari segmen-segmen ini kemudian

dilakukan penyusunan Bi-Set dengan cara penggabungan Bi-Set-Bi-Set dalam satu segmen

dan selanjutnya dengan segmen tetangganya (disebut dengan Multi Set Join / MS Join).

Gambar 2-9 menunjukkan ilustrasi tahapan penemuan Bi-Set dari matiks biner M.

Keluaran dari proses ini secara keseluruhan adalah himpunan Bi-Set.

Gambar 2-9 Framework Penemuan Bi-Set dengan Bi-Clustering

2.6.3 Penyusunan Bi-Set

Pada penelitian ini penyusunan Bi-Set dilakukan dengan menggabungkan Bi-Set yang

terbentuk pada tiap segmen setelah proses bi-clustering. Proses bi-clustering menghasilkan

matriks yang terbagi secara lojik berdasarkan baris dan kolom sebagai hasil klastering baris

dan kolom, gambar 2-10. Proses multi join dilakukan dimulai dengan menggabungkan bi-

set-bi-set pada segmen yang sedang diperiksa, dan dilanjutkan dengan segmen tetangga

secara vertikal dan horizontal. Dua bi-set b1 = <s11, s12…s1x><g11, g12,…g1y> dan b2 =

<s21, s22…s2x><g21, g22,…g2y> digabungkan menjadi b3 dengan aturan sebagai berikut :

1. Jika <s11, s12…s1x> <s21, s22…s2x> b3 = <s21, s22…s2x> <<g11, g12,…g1y> <g21,

g22,…g2y>>

2. Jika <s21, s22…s2x> <s11, s12…s1x> b3 = <s11, s12…s1x> <<g11, g12,…g1y> <g21,

g22,…g2y>>

3. Jika <g11, g12,…g1y> <g21, g22,…g2y> b3 =<<s21, s22…s2x> <s21, s22…s2x>>< g21,

g22,…g2y>

4. Jika <g21, g22,…g2y> <g11, g12,…g1y> b3 =<<s21, s22…s2x> <s21, s22…s2x>><g11,

g12,…g1y>

Gambar 2-10 Segmentasi hasil bi-clustering dan proses multi join

BAB 3. HASIL EKSPERIMEN & PEMBAHASAN

3.1. Supervised Learning : Ekstraksi Entitas Medis

Bagian ini menjelaskan tahap pertama uji coba yaitu mengekstraksi objek (entitas)

utama berupa nama obat dari data uji dokumen medis dengan menggunakan

pendekatan mesin pembelajaran. Untuk validasi pendekatan yang diusulkan

digunakan open dataset DrugBank dan MedLine yang juga digunakan pada studi-

studi sebelumnya. Sebagai dataset tambahan, juga digunakan dokumen label obat

yang diperoleh dari situs-situs produsen obat dan BPOM. Dari eksperimen ini

dihasilkan artikel jurnal:

A New Data Representation Based on Training Data Characteristics to Extract

Drug Named-Entity in Medical Text,

Jurnal Computational Intelligence and Neuroscience (under review).

3.1.1 Kinerja Akurasi Open Dataset

Padat tabel 3-1, 3-2, 3-3, dan 3-4 penomoran (1), (2) pada (3) kolom paling kiri

menunjukkan skenario pemilihan kandidat obat yaitu:

(1) Semua data uji dipilih

(2) 2/3 bagaian dari data uji dipilih, dan

(3) 2/3 bagian dari 3 klaster MedLine atau 3/4 bagian dari 4 klaster

DrugBank yang dipilih

Secara umum jika dilihat dari kinerja akurasi (accuracy) saja, yaitu ketepatan

memprediksi semua kelas, semua teknik representasi data menghasilkan akurasi

yang baik yaitu di atas 0.8600. Tetapi jika ukuran kinerja hanya dilihat dari f-

score, yaitu hanya mempertimbangkan keberhasilan memprediksi token-token

yang termasuk kelas obat, maka kinerja f-score tersebut bervariasi di antara 0.43

s.d 0.86. Kondisi kinerja akurasi yang tinggi sementara f-score yang relatif

rendah ini karena tidak seimbangnya volume token obat dibandingkan token

non obat (token obat kurang dari 10% keseluruhan token). Dengan demikian

dalam dataset, terkandung banyak noise dan porsi kebenaran prediksi kelas

lebih banyak pada kelas non target yang tidak termasuk dalam hitungan f-score.

3.1.1.1 Kinerja MLP-NN

Paramater learning yg digunakan pada eksperimen MLP-NN ini adalah ukuran

NN = 500 node input, dua hidden layer masing-masing 100 node, dan 6 node

fungsi softmax untuk node output, activation function = sigmoid, learning rate

= 1, momentum = 0.5, serta epoch = 100. Digunakan skenario mini batch pada

training dengan ukuran batch 100. Hasil eksperimen dengan tiga skenario

pemilihan kandidat obat untuk MedLine dan DrugBank disajikan seperti tabel

3-1. Seperti yang digunakan pada studi-studi sebelumnya, pada eksperimen ini

digunakan f-score sebagai parameter pengukur akurasi. Pada dataset MedLine

akurasi terbaik diperoleh pada skenario pemilihan kandidat yang ketiga dengan

nilai f-score 0.439516. Sementara pada DrugBank hasil terbaik dihasilkan oleh

pemilihan skenario yang ke dua dengan f-score is 0.641745. Secara umum

DrugBank memberikan hasil yang lebih baik. Skenario pemillihan kandidat

obat juga memberikan kontribusi peningkatan f-score. Peningkatan akurasi f-

score ini disebabkan oleh tingkat recall yang rata-rata lebih baik.

Tabel 3-1 Kinerja Akurasi MLP-NN atas tiga skenario pemilihan kandidat

Dampak dari teknik representasi data berdasarkan penyusunan deretan token

serta volume data training untuk word2vect disajikan seperti tabel 3-2 dan 3-3.

Secara umum dapat disimpulkan bahwa perlakuan satu kalimat menjadi satu

deretan token memberikan hasil yang lebih baik, baik untuk MedLine maupun

DrugBank. Hasil eksperimen setelah dilakukan penambahan data training untuk

word2vector dengan kamus wiki diperlihatkan seperti tabel 3-4. Hasil

eksperimen ini juga mengkonfirmasikan bahwa penambahan volume training

word2vect memperbaiki kualitas word2vect dan pada akhirnya memperbaiki

kinerja ekstraksi nama obat. Hasil terbaik diberikan oleh skenario 2/3 bagian

data yang dipilih dengan kinerja terbaiknya f-score 0.684646757.

Tabel 3-2 Kinerja Akurasi dampak dari perbedakan teknik penyusunan data

Tabel 3-3 Kinerja Akurasi dampak dari penambahan volume data training

word2vect

3.1.1.2 Kinerja DBN & SAE

Pade eksperimen DBN digunakan dua tingkat RBM dengan masing-masing 500

nodes visible unit, 100 node hidden layer pada RBM pertama dan 100 100 pada

RBM kedua (top stack), sementara parameter learning yang digunakan adalah :

momentum = 0, dan alpha= 1, dengan skenario mini batch berukuran 100.

Batasan RBM atas data masukan adalah bahwa nilai input data harus dalam

rentang [0..1]. Hal ini karena pada awalnya RBM didisain untuk tipe data biner.

Oleh karena nilai vektor word2vect yang digunakan pada eksperimen ini

berkisar antara [-1..1], maka terlebih dahulu dilakukan normalisasi data menjadi

[0..1] sebelum dilakukan training RBM.

Arsitektur SAE yang digunakan pada eksperimen ini terdiri dari dua tingkat

AutoEncoder (AE) dengan konfigurasi node sebagai berikut. Tingkat pertama,

AE dengan 500 unit visible unit, 100 hidden layer, 500 output layer; yang ke

dua digunakan AE dengan 100 nodes visible unit, 100 nodes hidden unit, dan

100 nodes unit output. Parameter learning yang digunakan pada SAE pertama

dan SAE atas berturut-turut: activation function ‘sigmoid’ dan ‘tanh’, learning

rate = 1 dan 2, momentum = 0.5 dan 0.5; sparsity target=0. 05 dan 0.05; dengan

ukuran batch 100 untuk kedua AE.

Dari skenario-skenario eksperimen berdasarkan teknik representasi data dan

volume data training word2vect, secara umum skenario ke 4 memberikan hasil

terbaik. Skenario dengan hasil terbaik ini kemudian diterapkan untuk DBN dan

SAE. Hasil eksperimen seperti ditunjukkan pada tabel 3-4. Terdapat perbedaan

kinerja antara dataset MedLine dan DrugBank ketika dievaluasi dengan model

MLP, DBN, dan SAE. Hasil terbaik diberikan oleh dataset MedLine untuk SAE,

sementara DrugBank oleh MLP. DBN memberikan kinerja lebih rendah secara

rata-rata baik untuk MedLine maupun DrugBank. Hal ini kemungkinan

disebabkan oleh pengaruh proses normalisasi vektor word2vect menjadi dalam

rentang [0..1], sementara nilai aslinya di antara [-1..1]. Akurasi terbaik

diberikan oleh SAE dengan skenario pemilihan kandidat partisi, dengan nilai f-

score 0.686192469.

Tabel 3-4 Kinerja Akurasi MLP, DBN, dan SAE

3.1.1.3 Kinerja LSTM

Eksperimen dengan menggunakan LSTM dilakukan beberapa kali dengan

perubahan setting pada learning parameternya. Pada bagian ini ditampilkan

hasil yang terbaik. Kinerja terbaik unuk LSTM diperoleh dari konfigurasi 2

nodes input layer, 2 nodes hidden layer, dan satu node output layer. Dengan

parameter yang digunakan adalah: learning rate = 0.001, momentum = 0.9, dan

epoch = 30, input dimension = 200, dan time sequence frame 2. Berdasarkan

hasil eksperimen perlakuan kalimat-kalimat pada dokumen medis sebagai

sequence untuk mengekstraksi nama obat memberikan hasil yang terbaik seperti

disajikan pada tabel 4-14.

Tabel 3-5 Kinerja Akurasi tekni representasi data yang ketiga dengan LSTM

3.1.1.4 Komparasi dengan state of the art

Seperti diuraikan pada bagian sebelumnya, penelitian mengenai ekstraksi nama

obat sudah banyak dilakukan. Mayoritas dari metode-metode tersebut

menggunakan pengetahuan luar. Ringkasan kinerja akurasi berbagai

pendekatan disajikan pada tabel 3-6. Di antara state of the art, pendekatan teknik

representasi data sequence yang diterapkan pada LSTM memberikan hasil yang

terbaik. Ketidaktergantungan kepada pengetahuan luar juga merupakan

keunggulan yang lain.

Tabel 3-6 Kinerja Akurasi pendekatan yang diusulkan dibandingkan state of

the art

Pendekatan F-score Remark

The Best of SemEval 2013

0.7150 -

[33] 0.5700 With external knowledge, ChEBI

[60] 0.7200 With external knowledge, DINTO

[62] 0.7200 Additional feature, BIO

[34] 0.6000 Single token only

SentenceSequence+Wiki(rerata)

/Penelitian ini

0.6580 Without external knowledge

SentenceSequence+Wiki(rerata)

/Penelitian ini

SAE-SentenceSequence+Wiki(rerata)

/Penelitian ini

LSTM-AllSentenceSequence+Wiki+

EuclidianDistance(rerata)/Penelitian

3.1.1.5 Kinerja Akurasi Pada Dataset Label Obat

Pada eksperiman selanjutnya digunakan korpus label obat-obatan yang beredar

di pasaran. Terkait dengan korpus label obat ini, belum / tidak ditemukan

pengetahuan luar tertentu yang bisa digunakan. Dihadapkan pada kasus seperti

ini, metode yang diusulkan pada eksperimen ini lebih sesuai dibandingkan

dengan pendekatan lainnya. Berbeda dengan dataset DrugBanks atau Medline

yang merupakan open dataset teranotasi, label obat ini dikumpulkan dari

berbagai situs produsen, distributor obat, maupun BPOM. Karakteristik lainnya

dari label obat ini adalah bahwa susunan kata/kalimat di dalamnya lebih

terstruktur. Setelah dilakukan preprocessing, dataset dianotasi secara manual.

Total instan tupel yang dihasilkan dari dataset ini adalah sebanyak 1.046.200.

Pada eksperimen ini diterapkan skenario cross-validation untuk memilih data

training dan data testing dengan komposisi 80 % sebagai data training dan

sisanya sebagai data testing. Dilakukan cross-validation sebanyak 10 iterasi

pada eksperimen ini. Hasil uji coba disajikan seperti pada tabel 4-16,

menunjukkan bahwa kinerja akurasinya sangat baik (di atas 0.9). Kinerja yang

sangat baik ini kemungkinan karena kalimat-kalimat dalam teks yang lebih

terstruktur.

Tabel 3-7 Kinerja Akurasi MLP-NN untuk dokumen label obat

3.1.2 Kesimpulan

Pada studi ini diusulkan pendekatan baru dalam representasi data dan cara

klasifikasi untuk mengekstraksi nama obat dari dokumen medis berupa open

dataset. Pendekatan yang diusulkan mampu menyelesaikan permasalahan multi

token untuk entitas tunggal yang tidak diselesaikan pada penelitian sebelumnya.

Teknik ini juga menyelesaikan permasalahan ketergantungan terhadap

pengetahuan luar. Secara alami kata-kata dalam kalimat mengikuti aturan

sequence yaitu kondisi pada posisi saat ini dipengaruhi oleh kondisi

sebelumnya. Dalam kasus kalimat keberadaan kata saat ini dipengaruhi kata

sebelumnya. Tiga teknik representasi dan penggunannya dalam klasifikasi

adalah: teknik pertama dan kedua memperlakukan kalimat sebagai pola non

sequence yang dievaluasi dengan menggunakan non-sequence NN (MLP, DBN,

SAE), teknik yang ketiga memperlakukan kalimat sebagai sequence untuk

menyiapkan data input bagi sequence NN dalam hal ini LSTM. Kinerja akurasi

terbaik diperoleh dari model LSTM untuk rerpresentasi data sequence dengan

nilai f-score adalah 0.8645. Kinerja ini merupakan yang terbaik di antara state

of the art.

3.2. Rule Based Learning untuk Ekstraksi Entitas Nama Obat

Eksperimen ini menghasilkan artikel pada konferensi internasional:

Toward Object Interaction Mining By Starting With Object Extraction Based

on Pattern Learning Method, 2014 Asia-Pacific Materials Science and

Information Technology Conference (APMSIT 2014

3.2.1 Material Dataset & Evaluasi

3.2.1.1 Data Uji & Pra Pemrosesan

Validasi terhadap pendekatan yang diusulkan pada penelitian ini dilakukan

dengan menerapkannya pada dataset berupa label / kemasan obat yang

diperoleh dari berbagai situs di internet. Situs-situs tersebut merupakan situs

produsen obat atau regulator yang berwenang terhadap obat. Beberapa situs

tersebut adalah:

http://www.kalbemed.com/,

http://www.dechacare.com/,

http://infoobatindonesia.com/obat/, dan

http://www.pom.go.id/webreg/index.php/home/produk/01.

Label obat ditulis dalam Bahasa Indonesia dan secara umum berisi: nama obat,

kandungan / komposisi obat, indikasi, kontra indikasi, aturan pakai, dan kalimat

peringatan. Dikarenakan label obat di-grab menggunakan robot maka semua

formatnya dalam bentuk htm atau html. Untuk melakukan pembersihan data

(cleansing) sehingga diperoleh teks yang terdiri dari hanya isi nya saja,

digunakan robot html parser yang disediakan di

http://sourceforge.net/projects/htmlparser/. Ground truth dari data uji dibuat

secara manual.

3.2.2 Evaluasi

Untuk melakukan evaluasi kinerja dari metode ekstraksi objek berdasarkan pola

ini, digunakan kriteria yang umum digunakan di bidang mesin pembelajaran

yaitu akurasi. Akurasi diukur dengan parameter-parameter: presisi (precision),

recall, dan f-score. Penghitungan parameter-parameter tersebut diformulaikan

sebagai berikut. Misalnya C = {C1, C2, C3, ...Cn} adalah sekumpulan nama obat

(drug-name) yang berhasil diekstraksi oleh metode dari sekumpulan dokumen

label obat D, dan K= {K1, K2, K3,...Kl} adalah sekumpulan nama obat

sebenarnya dalam kumpulan dokumen D, dengan mengadaptasi dari [52], tiga

paremeter tersebut dihitung dengan formula sebagai berikut :

Precision(𝐾𝑖, 𝐶𝑗) =True Positive

True Positive+False Positive =

|KiCj|

|Cj| (5)

Recall(𝐾𝑖, 𝐶𝑗) =True Positive

True Positive+False Negative =

|KiCj|

|Ki| (6)

degan |Ki|, |Cj|, dan |Ki Cj| berturut-turut menyatakan nama obat dalam K,

C, dan dalam K maupun C. Komputasi f-score dihitung dengan rumus:

F − Score (𝐾𝑖, 𝐶𝑗) =2∗Precision (Ki,Cj)∗Recall (Ki,Cj)

Precision (Ki,Cj)+ Recall (Ki,Cj) (7)

3.2.3 Uji Coba dan Hasil Pattern Scoring 1

3.2.3.1 Skenario Uji Coba

Skenario ujicoba pada penelitian ini disusun berdasarkan teknik penilaian pola

(pattern scoring technique ) dan volume dari dataset. Sebagai hasil dari eksekusi

pembelajaran pola, dihasilkan banyak pola dari kedua teknik pembobatan pola

tersebut (Pattern Scoring #1 dan Pattern Scoring #2). Pola-pola yang dihasilkan

tersebut diurutkan berdasarkan bobot pola dengan bobot paling besar di atas.

Secara intuisi dapat dipahami bahwa kuantitas / banyaknya pola yang dihasilkan

oleh patterns scoring #1 lebih tinggi jika dibandingkan dengan pattern scoring

#2. Untuk melakukan evaluasi kinerja masing-masing teknik tersebut diambil

sebanyak N pola yang dihasilkan yang menempati urutan teratas. N adalah

banyaknya pola yang dihasilkan oleh pattern scoring #2. Kemudian hasil lebih

baik dari dua uji coba ini, dalam kasus ini adalah pattern scoring #2, digunakan

untuk melakukan uji coba berikutnya dengan melakukan penyesuaian terhadap

volume data uji yang digunakan. Untuk kedua skenario pengujian data uji

dipilah menjadi dua bagian. Bagian pertama digunakan sebagai data latih dan

bagian ke dua digunakan sebagai data uji. Metode pemilahan yang digunakan

adalah K-fold cross validation dengan K = 10 . Dengan demikan dilakukan

masing-masing 10 iterasi untuk masing-masing skenario pengujian.

3.2.4 Hasil Uji Coba Pattern Scoring 2

3.2.4.1 Skenario Uji Berdasarkan Teknik Pembobotan Pola

Kinerja (performance) kedua teknik pembobotan pola disajikan seperti gambar

3-1 di bawah. Secara umum teknik pembobotan ke dua lebih baik dari sisi

kinerja dibandingkan dengan teknik pembobotan yang pertama. Pada teknik

pembobotan yang pertama nilai minimum, maksimum, dan rerata nya masing-

masing adalah : 0,204225, 0,338862, 0,269687 sementara untuk teknik

pembobotan pola yang ke dua masing-masing: 0,581335, 0,444444, 0,709677.

Nilai kinerja yang rendah dari pembobotan teknik pertama ini dapat dipahami,

karena tidak ada pola yang dihasilkan digunakan untuk mengekstraksi target

berupa objek nama obat. Dari 900 dataset yang digunakan total pola yang

dihasilkan oleh teknik pembobotan yang pertama adalah 498, sedangkan yang

dihasilkan oleh teknik pembobotan ke dua sebanyak 101.

Gambar 3-1 Kinerja Dua Teknik Pembobotan Pola

3.2.4.2 Skenario Uji Berdasarkan Pengaturan Kuantitas Data Uji

Pada uji coba skenario ke dua dilakukan analisis dengan membandingkan

kinerja-kinerja yang dihasilkan dari penyesuaian volume dataset. Dengan

skenario ini uji coba pertama dilakukan terhadap 340 dokumen label obat

sedangkan pada uji coba ke dua digunakan 900 dataset. Hasil uji coba skenario

ke dua ini diperlihatkan seperti gambar 3-2 berikut. Dari ilustrasi gambar

terlihat bahwa kinerja terhadap 900 dataset lebih baik jika dibandingkan dengan

340 dataset. Secara rata-rata terlihat bahwa semakin banyak data yang

digunakan sebagai data training maka kinerja metode ini semakin baik. Gambar

3-2 menyajikan kinerja kedua hasil eksperimen tersebut. Kinerja untuk dataset

900 dokumen label obat lebih baik untuk semua parameter: precision, recall,

dan f-score. Dari 10 kali iterasi 900 dataset lebih baik di 9 iterasi.

Gambar 3-2 Kinerja 340 dataset vs 900 dataset

3.3. Ekstraksi Relasi AntarEntitas

Bagian ini menjelaskan hasil penelitian yang dilakukan untuk mengekstraksi relasi

antarentitas (objek) dari kumpulan dokumen. Relasi antarentitas ini dibatasi pada

relasi objek utama tunggal dengan beberapa objek pendukungnya. Hasil penelitian

sebagian sudah dipublikasikan dalam jurnal internasional:

A Novel Rule Based Approach For Entity Relations Extraction, Journal Of

Theoretical And Applied Information Technology (E-ISSN 1817-

3195 / ISSN 1992-8645) (Scopus Indexed), Vol 74 April 2015

Ekstraksi relasi antarobjek ini merupakan kelanjutan riset yang diuraikan pada

bagian 3.2.

3.3.1 Dataset & Pre Processing

Dataset dikumpulkan dari internet dengan mengambil dokumen label obat dari

berbagai situs produsen maupun BPOM. Web site-web site yang menjadi

sumber dataset adalah:

http://www.kalbemed.com/,

http://www.dechacare.com/,

http://infoobatindonesia.com/obat/,

http://medicastore.com/, dan

http://www.pom.go.id/webreg/index.php/home/produk/01.

Dokumen label obat tersebut ditulis dalam Bahasa Indonesia dan secara umum

isinya antara lain nama obat, komponen/kandungan obat, indikasi, kontra

indikasi, aturan pemakaian (dosage), dan peringatan penggunaan. Semua

dokumen dalam format html atau htm. Untuk mengekstraksi isi web site dan

memisahkan nya dari tag-tag html digunakan aplikasi html parser yang diunduh

dan dimodifikasi dari http://sourceforge.net/projects/htmlparser/. Total

dokumen label obat yang digunakan pada uji coba ini sebanyak 15.616 berkas.

Ground truth untuk uji coba dan evaluasi kinerja disusun secara manual.

3.3.2 Skenario Uji Coba

Pada eksperimen ini dataset yang dikumpulkan displit menjadi dua bagian.

Bagian pertama digunakan sebagai data training dan bagian ke dua digunakan

sebagai data uji. Mekanisme splitting dilakukan dengan metode K-fold cross

validation dengan K = 10. Dengan demikian dataset terdiri dari 10% data uji

dan 90 % data training. Karenanya terdapat 10 iterasi untuk masin-masing

skenario uji. Kandidat pola yang dihasilkan pada tahap training dengan disusun

terurut mengecil berdasarkan skor pola. Skor pola dikonversi menjadi bobot

pola dalam presentase, sehingga total bobot sama dengan 1 (100 %).

Dari kandidat pola kemudian dipilih N pola teratas untuk mengekstraksi objek

utama dan objek pendukungnya dari dokumen label obat. Secara intuisi dapat

dipahami bahwa kandidat pola dengan bobot lebih tinggi akan menghasilkan /

mengekstraksi lebih banyak objek utama atau objek pendukung. Objektif

skenario uji coba ini adalah:

1) Untuk melakukan evaluasi atas kinerja (performance ) dari teknik pattern

scoring. Kinerja tersebut direpresentasikan dengan akurasi dari objek

utama dan atau objek pendukung yang diperoleh, dan

2) Melakukan evaluasi kinerja untuk tiap individu pola. Untuk melakukan

evaluasi kinerja pola secara individum diambil sebanyak N kandidat pola

yang ada di posisi teratas.

Dalam melakukan evaluasi kinerja teknik pattern scoring, iterasi pencarian

untuk ekstraksi objek utama dan objek pendukung dihentikan saat pertama kali

objek-objek tersebut ditemukan. Oleh karena itu, dengan prioritas penggunaan

pola yang berada pada daftar atas, dimungkinkan untuk tidak mengeksekusi

semua pola. Sementara dalam pengujian kinerja pola secara individu semua

pola terpilih digunakan untuk mencoba menemukan objek yang menjadi target.

Dengan demikian dimungkinkan untuk satu pasangan objek utama dan objek

pendukung ditemukan lebih dari sekali. Gambaran skenario pengujian ini

diperlihatkan pada gambar 3-3 berikut.

Gambar 3-3 Skenario Uji Coba

3.3.3 Evaluasi

Kinerja teknik pembobotan pola maupun kinerja masing-masing pola dievaluasi

berdasarkan akurasinya dengan parameter: precision, recall, dan f-score. Cara

perhitungan ketiga kriteria tersebut dijelaskan pada poin 3.3.2.

3.3.4 Hasil Eksperimen dan Analisisnya

Gambaran metode evaluasi relasi objek utama dan objek pendukungnya

diilustrasikan seperti gambar 3-4 berikut.

Gambar 3-4 Evaluasi kinerja relasi objek utama dan objek pendukung

Paramater penilaian dan evaluasi akurasi objek utama dan objek pendukung

dihitung dengan formula sebagai berikut:

M = {m1, m2…. mp} adalah sekumpulan objek utama yang diekstraksi dari data uji

oleh metode ini, dan

N = {n1, n2…. nq} adalah sekumpulan objek utama dari golden thrut, maka

MO − Precision(𝑁, 𝑀) =True Positive

|M| (9)

MO − Recall(𝑁, 𝑀) =True Positive

|N| (10)

MO − FScore (𝑁, 𝑀) =2∗Precision (N,M)∗Recall (N,M)

Precision (N,M)+ Recall (N M) (11)

Si = {s1, s2…. sx} adalah sekumpulan objek pendukung untuk objek utama mi yang

diekstraksi oleh metode ini dari data uji

Ti = {t1, t2….ty} adalah sekumpulan objek pendukung dalam ground-truth, maka

SO − Precision(𝑇𝑖, 𝑆𝑖) =True Positive

|𝑇𝑖𝑆𝑖|

|𝑆𝑖| (12)

SO − Recall(𝑇𝑖, 𝑆𝑖) =True Positive

|𝑇𝑖𝑆𝑖|

|𝑇𝑖| (13)

SOi − FScore (𝑇𝑖, 𝑆𝑖) =2∗Precision (𝑇𝑖,𝑆𝑖)∗Recall (𝑇𝑖,𝑆𝑖)

Precision (𝑇𝑖,𝑆𝑖)+ Recall (𝑇𝑖,𝑆𝑖) , 1 ≤ i ≤q (14)

Rerata SO-Precision adalah

𝐴𝑣𝑔𝑆𝑂 − 𝑃𝑟𝑒𝑐 =1

𝑞∑ (𝑆𝑂 − 𝑃𝑟𝑒𝑐)𝑖

𝑞𝑖=1 (15)

Rerata SO-Recall adalah

𝐴𝑣𝑔𝑆𝑂 − 𝑅𝑒𝑐 =1

𝑞∑ (𝑆𝑂 − 𝑅𝑒𝑐𝑎𝑙𝑙)𝑖

𝑞𝑖=1 (16)

Dan rerata SO-FScore adalah

𝐴𝑣𝑔𝑆𝑂 − 𝐹𝑆𝑐𝑜𝑟𝑒 =1

𝑞∑ (𝑆𝑂 − 𝐹𝑠𝑐𝑜𝑟𝑒)𝑖

𝑞𝑖=1 (17)

3.3.5 Pola dan Hasil Ekstraksi Relasi

Sebagian kecil hasil pembelajaran pola dan penerapan pola yang dihasilkan

disajikan pada bagian ini. Tabel 3-8 berikut merupakan ilustrasi pola yang

dihasilkan.

Tabel 3-8 Contoh sebagian kandidat pola hasil training

Keterangan, format pola adalah:

<id-pattern>#<pola-kiri-bagian-kiri><no-file>#(MO-target)<pola-kanan-bagian-kiri># <pattern-kiri-bagian-kanan>#(SO-target)<pattern-kanan-bagian-kanan>#<id-pattern-bagian-kiri>#<probabilitas-kemunculan-pola>

1#3#.*produk\s+(.*)\s+bentuk.*#(.*)\s+merk.*#1#0.01727521

2#0#(.*)\s+tablet.*#(.*)\s+\d+.*#2#0.012136266

3#1#(.*)\s+\d+.*#(.*)\s+\d+.*#3#0.009941241

4#0#(.*)\s+tablet.*#(.*)\s+indikasi.*#4#0.008208803

5#1#(.*)\s+\d+.*#(.*)\s+indikasi.*#5#0.005557702

6#2#(.*)\s+golongan.*#(.*)\s+indikasi.*#6#0.003093184

7#5#.*produk\s+(.*)\s+\d+.*#(.*)\s+merk.*#7#3.70169E-4

8#2#(.*)\s+golongan.*#.*mg\s+(.*)\s+\d+.*#8#0.002196027

……

5410#157#.*kuku\s+(.*)\s+g.*#.*dengan\s+(.*)\s+yang.*#5410#4.0E-9

Sedangkan tabel 3-9 menunjukkan sebagian objek utama dan objek pendukung

yang dihasilkan

Tabel 3-9 Contoh sebagian ekstraksi objek utama dan objek pendukung yang

dihasilkan

Keterangan, format pola adalah:

187#1#2.txt#1#3tc### lamivudine

…….

1985#1#112.txt#1#actemra### tocilizumab

2007#5#121.txt#1#actemra injection### tocilizumab

2013#5#122.txt#1#actemra injection### tocilizumab

2123#109#123.txt#1#acthib###

5864#3740#124.txt#1#acticoat###

5873#8#125.txt#1#syrup 120 ml###pseudoephedrine hcl#dextromethorphan hbr

5882#8#126.txt#1#syrup 60 ml###pseudoephedrine hcl#dextromethorphan hbr

5883#0#127.txt#1#syrup 120 ml#####

5884#0#128.txt#1#syrup 60 ml##### triprolidine hcl

5885#0#129.txt#1#sirup 60 ml### dextromethorphan hbr# pseudoephedrine hcl# triprolidine hcl

5886#0#130.txt#1#syrup 120 ml#####

5887#0#131.txt#1#syrup 60 ml#####

5889#1#132.txt#1#actilyse### alteplase

5908#6#139.txt#1#actilyse infus### type plasminogen activator

5910#1#140.txt#1#actonel askes### risedronate sodium

6123#212#141.txt#1#biologi### risedronate sodium

6125#1#142.txt#1#actonel### risedronate sodium

6127#1#143.txt#1#actonel### risedronate sodium

6163#35#144.txt#1#terapi pelihara pemasukan###### rp# rp## telp# sms# bb##

6165#1#145.txt#1#actoplatin### carboplatin

6171#1#148.txt#1#actos### pioglitazone hcl

6173#1#149.txt#1#actos### pioglitazone hcl

6229#55#150.txt#1#actosmet### metformin

6287#1#152.txt#1#actosmet### hydrochloride pioglitazone hcl

……

891524#1#15614.txt#1#tarivid### ofloxacin

3.3.6 Akurasi Teknik Pattern Scoring

3.3.6.1 Uji Coba Pertama

Eksperimen pertama untuk mengevaluasi pendekatan pattern scoring approach

dilakukan dengan menerapkan total bobot skor pola sebanyak 1 (100%) dari

pola-pola yang dihasilkan pada tahap training untuk ekstraksi objek utama dan

objek pendukungnya pada tahap testing. Dengan menggunakan total bobot pola

100% dimungkinkan untuk mencoba semua pola dalam daftar. Karena

penggunaan skenario10-fold cross validation untuk mencoba data test, maka

dilakukan 10 iterasi pada uji coba ini. Visualiasi hasil penerapan bobot total pola

100% untuk 10 iterasi tersebut serta reratanya digambarkan seperti gambar 3-5

dan 3-6. Kinerja maksimum dicapai pada iterasi no #9 dengan nilai f-score =

0.906848426. Sementara kinerja minimum dengan nilai f-score 0.87913486

terjadi pada iterasi nomor #3. Rerata f-score untuk uji coba ini sebesar

0.895959151. Selengkapnya mengenai kinerja f-score MO ini diperlihatkan

pada gambar 3-5. Kinerja ekstraksi objek pendukung disajikan pada gambar 3-

6. Kinerja ekstraksi objek pendukung (komponen obat) terlihat cukup bagus

karena rerata f-Score untuk semua iterasi masih di atas 0.75. Pada uji coba

ekstraksi objek pendukung kinerja terbaik dihasilkan dari iterasi pertama.

Sedangkan kinerja terburuk pada iterasi nomor tiga dengan masing-masing f-

score berturut-turut 0.815213733 dan 0.785470285.

Gambar 3-5 Kinerja 100 % pola untuk ekstraksi objek utama

Gambar 3-6 Kinerja 100 % pola untuk ekstraksi objek pendukung

3.3.6.2 Eksperimen Ke Dua

Eksperimen ke dua digunakan untuk menguji kinerja teknik pembobotan pola.

Pada eksperimen ini dilakukan eksekusi 5 sub eksperimen. Setiap sub

eksperimen masing-masing menerapkan bobot score total: 90%, 80%, 70%,

60%, dan 50%. Dilakukan 10 iterasi untuk masing-masing total score tersebut.

Perbandingan rata-rata hasil akurasi untuk masing-masing total score

diperlihatkan pada gambar 3-7 dan 3-8. Pengurangan persentase total skor

menunjukkan implikasi bahwa banyaknya pola yang dicoba pada tiap sub

eksperimen juga berkurang. Namun demikian dari hasil akurasi menunjukkan

bahwa pengurangan banyaknya pola yang dicoba tidak secara proporsional

mengurangi tingkat akurasinya. Hal ini disebabkan oleh pengaturan kandidat

pola berdasarkan besarnya nilai bobot pola, dengan bobot besar ditempatkan

pada daftar atas. Hasil ini sekaligus mengkonfirmasi bahwa teknik pembobotan

pola fisibel untuk diterapkan. Gambar 3-7 menunjukkan kinerja tiap bobot pola

dalam persentase pada ekstraksi objek utama. Rata-rata presisi dari 10 iterasi

cukup stabil untuk bobot 100% sampai dengan 50% dengan nilai presisi sekitar

0.9. Sementara nilai rerata recall cenderung menurun. Meski nilai rerata recall

menurun seiring penurunan presentase bobot, namun nilainya masih mendekati

0.6 untuk bobot pola 50%. Kecenderungan yang sama atas kinerja ini juga

diperlihatkan pada hasil ekstraksi objek pendukung seperti pada gambar 3-8.

Gambar 3-7 Kinerja ekstraksi objek utama dengan pola berdasarkan skor bobot dalam

presentase

Gambar 3-8 Kinerja ekstraksi SO dengan pola berdasarkan skor bobot dalam presentase

3.3.7 Kinerja Pola Individual

Evaluasi ini dilakukan untuk memvalidasi kinerja tiap pola yang dihasilkan

pada tahap training. Karena objektif dari evaluasi ini adalah untuk menguji

setiap pola yang dihasilkan, maka setiap pola hasil training digunakan untuk

mencoba ekstraksi seluruh anggota data uji. Dengan demikian dilakukan

percobaan pencarian sebanyak P * D, dengan P adalah banyaknya seluruh pola

dan D banyaknya seluruh anggota data uji. Dari tahap training pada uji coba

dihasilkan sangat banyak pola. Oleh karenanya untuk kepentingan visualisasi,

keseluruhan polah dikelompokkan ke dalam empat grup mengikuti pola quartil.

Setiap grup terdiri dari 25% dari banyaknya pola keseluruhan. Penyusunan grup

dilakukan dengan mengurutkan menurun berdasarkan bobot nilai skor masing-

masing dan memberikan identitas berupa nomor unik untuk masing-masing

pola. Mekanisme pengaturan grup adalah: 25 % kelompok pertama di masukkan

pada grup Q1, 25 % ke dua dalam Q2, 25 % ke tiga di Q3, dan 25 % terakhir

dalam grup Q4. Kriteria yang digunakan untuk evaluasi pada uji coba ini adalah:

1) Kuantitas relasi objek yang berhasil diekstraksi, dan

2) Kinerja : precision, recall, dan f-score

Seperti uji coba sebelumnya setiap eksperimen dilakukan sebanyak 10 iterasi.

3.3.7.1 Kuantitas Objek Terekstraksi

Banyaknya objek yang berhasil diekstraksi oleh tiap grup pola diilustrasikan

seperti gambar 3-9 dan 3-10. Dua grafik pada gambar tersebut menunjukkan

hasil rerata banyaknya objek yang diekstrak untuk 10 kali iterasi. Hasil tersebut

menjustifikasi bahwa metode pemilihan pola dan penyusunan pola berdasarkan

bobot nilai skor cukup baik untuk digunakan sebagai pendekatan ekstraksi relasi

antarobjek. Dua puluh lima persen grup pertama memberikan hasil paling baik

yaitu 53 % dari total keseluruhan hasil ekstraksi relasi. Jika digunakan hanya

50% pola pertama, akan menghasilkan sekitar 73% dari total relasi objek. Dua

puluh lima persen grup terakhir hanya berkontribusi sebesar 7% relasi objek.

Gambar 3-9 Rerata kuantitas realasi objek yang berhasil diekstraksi

Gambar 3-10 Rerata presentase relasi objek terekstraksi

3.3.7.2 Akurasi

Parameter ke dua untuk evaluasi kinerja pola secara individu adalah akurasi.

Tiga grafik terakhir pada bagian ini menyajikan gambaran akurasi ekstraksi

objek utama dan objek pendukungnya. Grafik pada gambar 3-11 dan 3-12

menunjukkan akurasi ekstraksi MO. Sementara grafik 3-13 merupakan ilustrasi

akurasi ekstraksi SO. Cara penyajian hasil nilai parameter akurasi ekstraksi MO

berbeda dengan penyajian seperti gambar 3-6 yang menyatukan tiga parameter

akurasi. Pada grafik 3-11 dan 3-12 presisi dipisahkan baik dengan recall dan f-

score, karene perbedaan nilai yang terlalu jauh, sehingga tidak fisibel dalam satu

grafik. Rerata nilai presisi untsuk ekstraksi objek utama terlihat cukup baik, di

atas 0.75 untuk grup pola Q1. Sementara nilai recall yang didapatkan sangat

rendah demikian juga untuk f-score. Kecenderungan yang sama dihasilkan oleh

grup pola Q2, Q3, dan Q4. Penjelasan untuk perbedaan nilai yang jauh ini

adalah: karena evaluasi ini diterapkan untuk setiap individu pola dan maksimal

objek utama yang bisa diekstraksi oleh satu pola tertentu sebanyak 501,

banyaknya minimum pola adalah 0, dan reratanya adalah 9. Karena untuk tiap

eksperimen banyaknya anggota dataset bervariasi antara 1598 sampai dengan

1699, maka secaa kuantitas objek utama yang diekstraksi memberikan nilai

recall yang rendah. Namun demikian meskipun nilai recallnya rendah, precisi

yang dihasillkan masih cukup baik yaitu di atas 0.75 untuk grup pola Q1. Sama

seperti evaluasi kuantitas akurasi dari hasil ekstraksi objek utama juga

mengkonfirmasi bahwa metode pemilihan pola yang mengatur pola dengan

bobot tinggi di bagian atas daftar dan menjadikannya sebagai prioritas cukup

fisibel untuk ekstraksi relasi MO-SO dari data uji.

Akurasi ekstraksi objek pendukung diperlihatkan pada gambar 3-13. Untuk

evaluasi ini setiap grup pola memberikan hasil yang relatif mirip. Nilai f-score

masing-masing sekitar 0.24. Meskipun nilai f-score grup pola terakhir Q4

merupakan yang tertinggi di antara grup pola yang lain, perbedaan di antara

pencapaian f-score grup-grup tersebut tidak terlalu signifikan yaitu hanya

sekitar 0.021. Hasil evaluasi ini juga mengkonfirmasi bahwa tidak diperlukan

untuk mengeksekusi semua pola yang dihasilkan untuk mengekstrak objek

pendukung, karena cukup dengan mengeksekusi sebagian dari keseluruhan pola

dengan bobot nilai skor di daftar atas akan memberikan hasil lebih baik seperti

ditunjukkan pada gambar 3-6.

Gambar 3-11 Rerata presisi masing-masing grup pola

Gambar 3-12 Rerata Recall dan F-Score hasil ekstraksi MO

Gambar 3-13 Rerata akurasi ekstraksi relasi objek pendukung

3.3.8 Kesimpulan

Bagian 3.2 dan 3.3 menguraikan pendekatan berbasis rule (rule based) untuk ekstraksi

relasi antarobjek yang terkandung dalam dokumen semi terstruktur. Dari evaluasi atas

kinerja diperlihatkan bahwa metode pemilihan pola dengan pembobotan beserta

pengaturannya fisibel untuk dieksplorasi lebih jauh dengen beberapa modifikasi dan

penyempurnaan. Potensi penerapan metode ini untuk dataset lain adalah misalnya

untuk mengekstraksi objek atau relasinya dari dokumen yang dibuat oleh mesin.

Dokumen seperti ini sangat banyak tersebar di internet seperti disajikan oleh hampir

semua portal berita. Meskipun pendekatan ini memiliki beberapa keunggulan antara

lain: tidak diperlukan text pre processing seperti stop word removal, independensi

terhadap struktur Bahasa Alami, atau keperluan atas prior knowledge, namun juga

mengandung beberapa kelemahan seperti ketergantungan atas external knowledge atau

keterbatasan kompatibilitasnya untuk semi-structured documents.

Untuk area ini pada penelitian selanjutnya beberapa potensi penyempurnaan dan

modifikasi bisa diterapkan untuk metode yang diusulkan ini. Modifikasi dan

penyempurnaan ini antara lain: penggunaan pengetahuan internal dari dataset

menggantikan pengetahan luar untuk membantu menyusun pola, uji coba penerapan

untuk dataset domain yang lain seperti brosur produk dan jasa, atau portal-portal berita.

Penyempurnaan lain yang cukup prospektif misalnya ekstraksi objek yang terkandung

dalam dokumen berdasarkan karakteristik objek tersebut termasuk posisi relatif objek

dari permulaan dokumen, atau frekuensi kemunculuan objek dalam dokumen, dan jenis

kata (frasa) dari objek utama.

3.4. Categorical Bi-Clustering Berdasarkan Jarak Acuan

Bagian ini membahas hasil pengujian pendekatan bi-clustering yang digunakan untuk

menemukan Bi-Set. Dasar pendekatan adalah hamming-distance yang umum digunakan

untuk menganalisis kemiripan atau perbedaan data-data beratribut kategorikal. Secara

umum tahapan pendekatan yang digunakan adalah: menghitung jarak masing-masing

sampel dengan titik acuan, mengelompokkan sampel dengan jarak yang sama ke dalam

satu grup, dan menemukan bi-clustering berupa Bi-Set dari kelompok jarak tersebut.

Untuk menguji pendekatan yang dibuat, digunakan data sintetis yang terdiri dari dua jenis.

Metode penyusunan data sintetis tersebut juga diuraikan pada bagian ini. Skenario uji coba

pendekatan yang diusulkan pada penelitian ini disusun berdasarkan metode yang diuji dan

jenis data uji. Parameter evaluasi yang digunakan adalah Match Score dan waktu

komputasi. Dari penelitian ini dihasilkan delapan varian metode. Ke delapan varian

metode tersebut ditambah dengan 4 metode lain masing-masing diuji dengan 20 jenis data

yang terdiri dari 96 dataset. Empat metode lain terdiri dari 2 murni metode yang sudah ada

dan 2 hasil modifikasi metode yang sudah ada. Dengan demikian pada dalam uji coba

dilakukan sebanyak 96 * 12 = 1152 eksperimen.

Sebagian dari materi pada bagian ini telah dipublikasikan sebagai artikel pada juranal :

A Distance-Based Approach for Binary-Categorical Data Bi-Clustering.

Internetworking Indonesia Journal, (Scopus Indexed) Vol.8/No.1 (2016)

3.4.1 Skenario Eksperimen

3.4.1.1 Metode Yang Dibandingkan

Pada uji coba varian DB Bi-Clustering-MS Join dilakukan dengan menguji 8 (delapan)

varian DB Bi-Clustering-MS Join, 3 varian Bitmap, dan 1 algoritme Bimax. Ringkasan

dua belas metode tersebut disajikan pada tabel di bawah.

#Id Method Phase I Phase II

Distance Based-MSJoint

Distance Based Bi-Clustering Biset Searching

Distance Varian Cluster Number Multi Set (MS) Joint Row Column

1 Fixed Distance MaxNumber o MaxNumber

2 Fixed Distance Cutoff n < MaxNumber

o MaxNumber

3 Fixed Distance MaxNumber o Cutoff n < MaxNumber

4 Fixed Distance Cutoff n < MaxNumber

o Cutoff n < MaxNumber

5 Minimum Distance

MaxNumber o MaxNumber

6 Minimum Distance

Cutoff n < MaxNumber

o MaxNumber

7 Minimum Distance

MaxNumber o Cutoff n < MaxNumber

8 Minimum Distance

Cutoff n < MaxNumber

o Cutoff n < MaxNumber

#Id Method Phase I Phase II

9 BitmapSearching* (Domingo, 2011), (Mujiono)

- Biset Searching: minimum row, minimum column

10 BitmapSearching (Domingo, 2011)

Encoding Biset Searching: minimum row, minimum column

Windows Encoding = N

minimum row = r

minimum column = c

11 BitmapSearching (Domingo, 2011)

DistanceBased Bi-Clustering (Mujiono) Biset Searching: minimum row, minimum column

12 Bimax (Prelic, 2006)

3.4.1.2 Varian Metode Yang Diusulkan (DB Bi Clustering-MS Join)

Eksperimen dilakukan dengan membandingkan varian metode yang diusulkan dengan

metode penemuan bi-set lainnya yang sudah diusulkan sebelumnya. Dari metode yang

diusulkan di penelitian ini dipilih delapan varian berdasarkan pemilihan :

1) Based Reference, sampel acuan sembarang untuk menentukan jarak dari

sampel acuan R ke sampel tertentu Xi dipilih satu di antara dua cara:

a. ditentukan secara fixed yaitu R = xi= (ai1, ai2, …..aip), dengan ai1 = 0

untuk semua l <= p (g1, g2, (Prelic, 2006), (Dominggo 2011),

(Khalid, 2013)

b. ditentukan dari center data C yaitu R = C

2) Cutoff banyaknyaknya klaster, pilihan banyaknya klaster merupakan salah

satu parameter yang dimasukkan secara manual. Karena bi-cluster

melakukan clustering secara simultan dari sisi baris dan kolom, maka cutoff

ini bisa dipililih cutoff baris atau cutoff kolom atau keduanya. Masing-

masing pilihan cutff antara 1 (dianggap satu klaster) s.d c= |Vdt| seperti

dijelaskan pada bagian 2.6.2. Pada penelitian ini dipilih c dan c1 = div(c ).

3.4.2 Metode Pembanding

Dua pendekatan yang telah diusulkan oleh peneliti sebelumnya guna keperluan

menemukan himpunan Bi-Set dari data matriks biner adalah Bit-Pattern Biclustering

Algorithm (BiBit) [82] dan Bimax [83]. Kedua metode ini dan modifikasi dari

pendekatan yang pertama digunakan sebagai metode pembanding dari ke-delapan

varian DB-Biclustering-MS Join. Penjelasan ringkas dari metode-metode pembanding

tersebut dijelaskan pada bagian berikut.

3.4.2.1 BiBit

Pendekatan BiBit bekerja berdasarkan sifat kesamaan bilangan biner dari matriks

Biner. Setiap dua baris matriks biner digunakan untuk membentuk bi-set awal. Jika bi-

set awal ini belum ada dalam daftar yang sudah ditemukan maka bi-set tersebut masuk

ke dalam himpunan daftar Bi-Set. Selanjutnya bi-set yang ditemukan ini digunakan

untuk membandingan semua baris yang tersisa lainnya. Sebelum penyamaan tersebut

dilakukan terlebih dahulu dilakukan encoding. Tahapan BiBit dengan demikian, terdiri

dari dua fase : encoding dan searching, seperti terlihat pada gambar 3-14 [82].

Diperlukan parameter masukan, selain matriks biner B, berupa minimum baris dan

minimum kolom yang dikehendaki untuk setiap Bi-Set yang ditemukan. Pada uji coba

ini algoritme BiBit di-coding ulang dengan dalam script matlab.

Gambar 3-14 Tahapan Algoritme BiBit

3.4.2.2 Modifikasi BiBit

Melewati Fase Encoding

Untuk mndapatkan salah satu varian dari pendekatan BiBit, dilakuan dua modifikasi

pada algoritmenya. Modifikasi pertama dilakukan dengan menghilangkan fase

encoding untuk mengkonversi bilangan biner menjadi bilangan bulat. Dengan demikian

tahapan hanya digunakan fase “Searching” yang diimplementasikan dengan scrip

matlab.

Penggunaan Fase Bi-Clustering

Modifikasi ke dua dari pendekatan BiBit adalah dengan terlebih dahulu dilakukan Bi-

Clustering menggunakan DB-Bi Clustering dan selanjutnya dieksekusi algoritme BiBit

Searching hasil modifikasi model pertama seperti dijelaskan pada bagian sebelumnya.

3.4.2.3 Bimax

Algoritme penemuan Bi-Set Bimax diusulkan oleh Prelic et al [83]. Algoritme ini

merupakan pendekatan yang menjadi mofel referensi untuk pembandingan dan evaluasi

berbagai metode biclustering seperti dijelaskan antara lain pada [84], [85], [86], dan

[87]. Algoritme Bimax pada awalnya digunakan untuk menemukan Bi-Set pada data

ekspresi gen. Suatu bicluster / Bi-Set (G, C) berkorespondensi dengan suatu subset gen

dengan G ⊆ {1, .., n} yang secara gabungan berkorespondesi atas suatu subset sampel

C ⊆ {1, .., m}. Atau pengertian lain, pasangan (G, C) merupakan sub matriks E dengan

semua elemannya bernilai 1. Seperti definisi objektif bi-clustering dijelaskan pada

bagian sebelumnya, setiap elemen eij yang semuanya bernilai 1 merepresentasikan satu

bicluster. Algoritme Bimax bekerja berdasar prinsip divide and conquer. Ilustrasi cara

kerja algoritme Bimax diperlihatkan pada gambar 6-5. Matriks biner masukan E

dipecah menjadi dua sub matriks yang lebih kecil dengan kemungkinan overlapping U

dan V. Tahap pertama kolom matriks dipecah menjadi sub kolom CU dan CV, dan

menggunakan baris pertama sebagai template. Selanjutnya berturut-turut baris-baris

pada E diurutkan dengan cara: terurut menurun (komponen dengan nilai 1 di atas) tetapi

hanya untuk gen yang berelasi dengan kondisi sampel pada CU, kemudian diurutkan

berdasarkn CU dan CV sekaligus, dan terakhir gen-gen berkorespondensi hanya pada

kondisi sample CV. Baris (gen) kemudian diperlakukan sama yaitu dipecah menjadi

GU, GW, dan GV yang selanjutnya dikombinasikan dengan sampel kondisi CU dan CV

menghasilkan sub matriks U dan V yang kemudian didekomposi secara rekursif. Proses

rekusif berhenti pada kondisi jika pada tiap U dan V yang dihasilkan tidak ditemukan

lagi komponen eij yang bernilai 0 (semua bernilai 1) dan pada tahap itu ditemukan 1 bi-

cluster.

Pada uji coba ini, eksekusi algoritme Bimax menggunakan tools box BiClustering yang

dibuat oleh [84]. Implementasi tools box ini berupa eksekutable file library C.

Gambar 3-15 Cara Kerja Algoritme Bimax

3.4.3 Evaluasi

Untuk menilai kinerja pendekatan biclustering untuk menemukan Bi-Set ini digunakan

parameter nilai kesesuaian (Match Score/MS). Parameter MS ini juga digunakan untuk

evaluasi dua metode pembanding yang digunakan: BiBit dan Bimax seperti ditunjukkan

pada [83] dan [82]. Berikut definisi dan penjelasan MS.

Definisi

Diacu dari [83], MS digunakan sebagai parameter evaluasi kinerja biclustering untuk yang

diterapkan untuk matriks biner representasi gen.

Misalnya, G1,G2 ⊆ {1, . . . ,n} dua himpunan dua gen. MS G1 dan G2 didefinisikan sebagai

fungsi :

SG(G1,G2) = |G1 ∩G2| / |G1 ∪ G2|

Yang mencerminkan karakteristik keterkaitan antara dua himpunan gen.

Nilai MS akan simetris dalam arti SG(G1,G2) = SG(G2,G1) dan bernilai antara 0 (jika kedua

himpunan saling terpisah ) sampai dengan 1 (jika kedua himpunan identik).

MS pada penelitian ini dimodifikasi dengan melibatkan attribut, sehingga menjadi :

Misalnya dua bi-set b1 = (S1, G1), S1 S, G1 G dan b2 = (S2, G2), S2 S, G2 G,

Nilai kesesuaian (Match Score / MS) b1 terhadap b2 adalah

Sc (b1,b2) = | b1b2|/| b1b2|

= ½ {(|< s11 ,…s1m> < s21 , ...s2m>|/ |< s11 , ….s1m> < s21 , ….s2m>|) + (|< g11 ,

….g1n> < g21 , ….g2n>|/|< g11 , ….g1n> < g21 , ….g2n>|)}

MS untuk himpunan dua himpunan bisat B1, B2 , MS B1 terhadap B2

Sc(B1,B2) = ∑ 𝑎𝑟𝑔𝑚𝑎𝑥(𝑏𝑗∈𝐵2)(𝑆𝑐(𝑏𝑖,𝑏𝑗))(𝑏𝑖 ∈𝐵1)

|𝐵1|

3.4.4 Data Uji

Data uji yang digunakan pada penelitian ini terdiri dari dua jenis yaitu data uji sintetis dan

data uji riil (experimental). Pengelompokan masing-masing data uji diperlihatkan pada

gambar 6-6 berikut. Data sintetis berdasarkan kompleksitasnya dibagi berdasarkan biset

yang ditanam di dalam data sintetis. Biset yang ditanam tersebut bisa bersifat disjoin atau

overlap satu dengan yang lainnya. Sedangkan data uji eksperimental terdiri dari data obat

dan kandungannya, dengan opsi perluasan data-data yang lain. Penjelasan mengenai data

sintetis diuraikan ada bagian ini.

Gambar 3-16 Pengelompokan data uji

3.4.4.1 Data Sintetis

Untuk menguji 12 metode biclustering seperti dijelaskan pada bagian sebelumnya

digunakan data uji sintetis dan data uji real. Pada bagian ini dijelaskan data uji sintetis.

Data uji sintetis yang digunakan pada penelitian ini merupakan modifikasi dari dataset

pada [82]. Dua jenis data sintetis yang digunakan berdasarkan biset yang ditanam ke

data uji tersebut. Dua jenis biset dalam matriks adalah: disjoint dan overlap.

Karakteristik data sintetis yang digunakan diilustrasikan seperti gambar 3-17.

Karakteristik dataset sintetis direpresentasikan dengan empat atribut, masing-masing:

kompleksitas, dimensi awal matriks, ukuran biset-berupa bujur sangkar-yang

ditanampkan pada dataset, dan ukuran maksimum overlapping baris maupun kolom

untuk dataset dengan biset overlap. Kompleksitas dataset dilihat berdasarkan sifat biset

yang ditanamkan yaitu: biset yang disjoint dan biset yang saling overlap. Kedua jenis

dataset tersebut mempunyai dua atribut yang sama yaitu ukuran matriks dan ukuran

biset awal, sedangan ukuran overlapping hanya dimiliki oleh matriks dataset dengan

biset overlap. Kedua atribut awal ditentukan secara manual, sedangkan attribute ke tiga

ditentukan secara random dengan batasan maksimum ukuran yang dimasukkan secara

manual. Dimensi matrik (size) adalah baris sekaligus kolom yang merupakan nilai awal

ukuran matriks. Ukuran matrik maksimum adalah size+O. Ukuran biset bujur sangkar

(M) merupkan ukuran awal biset yang didefinisikan sebagai sub matriks bujur sangkar

dengan semua nilai elemen sub matrik tersebut adalah 1 (satu). Posisi awal sub matriks,

pojok kiri atas, ditentukan secara random. Ukuran maksimum overlapping (O)

merupakan ukuran baris atau kolom yang overlap antara dua sub matriks bi-set. Nilai

overlapping sebenarnya ditentukan secara random. Nilai sebenarnya dari ukuran

overlapping pada akhirnya akan menentukan ukuran matrik sebenarnya.

Gambar 3-17 Karakteristik Data Sintentitas

3.4.4.2 Bi-set Disjoint:

Komposisi dataset disjoin terdiri dari 6 anggota dataset. Dengan demikian terdapat 6 * 12

Methods = 72 eksperimen. Komposisi dataset disjoin tersebut seperti tabel di bawah.

Tabel 3-10 Komposisi dataset disjoin

Dataset ID Size Maksimum Biset Size Remark

1 Disj50x50_5 50 x 50 5 x 5 Posisi & Real Biset Size digenerate Random

2 Disj50x50_10 50 x 50 10 x 10

3 Disj50x50_25 50 x 50 25 x 25

4 Dis100x100_10 100x100 10 x 10

5 Dis100x100_20 100x100 20 x 20

6 Dis100x100_25 100x100 25 x 25

3.4.4.3 Bi-set Overlapping

Komposisi dataset disjoin terdiri dari 18 varian dataset total 90 anggota dataset. Dengan

demikian terdapat 90 * 12 Methods = 1080 eksperimen. Komposisi dataset disjoin tersebut

seperti tabel di bawah.

Tabel 3-11 Komposisi dataset overlap

Varian #ID (18)

Data #ID (90) Dataset ID Size

Main Biset Size

Maks Overlap Varian

1 1 S20_C4_O2 20 x 20 4^2 2 Exp1 S20_C4_O2

2 Exp2 S20_C4_O2

3 Exp3 S20_C4_O2

4 Exp4 S20_C4_O2

5 Exp5 S20_C4_O2

2 6 S20_C5_O3 20 x 20 5^2 3 Exp1 S20_C5_O3

7 Exp2 S20_C5_O3

8 Exp3 S20_C5_O3

9 Exp4 S20_C5_O3

10 Exp5 S20_C5_O3

3 11 S60_C4_O2 60 x 60 4^2 2 Exp1 S60_C4_O2

12 Exp2 S60_C4_O2

13 Exp3 S60_C4_O2

14 Exp4 S60_C4_O2

15 Exp5 S60_C4_O2

4 16 S60_C5_O3 60 x 60 5^2 3 Exp1 S60_C4_O2

17 Exp2 S60_C4_O2

18 Exp3 S60_C4_O2

19 Exp4 S60_C4_O2

20 Exp5 S60_C4_O2

5 21 S60_C10_O8 60 x 60 10^2 8 Exp1 S60_C10_O8

22 Exp2 S60_C10_O8

23 Exp3 S60_C10_O8

24 Exp4 S60_C10_O8

25 Exp5 S60_C10_O8

Varian #ID (18)

Main Biset Size

Maks Overlap Varian

6 26 S60_C15_O12 60 x 60 15^2 12 Exp1 S60_C15_O12

27 Exp2 S60_C15_O12

28 Exp3 S60_C15_O12

29 Exp4 S60_C15_O12

30 Exp5 S60_C15_O12

7 31 S60_C20_O18 60 x 60 20^2 18 Exp1 S60_C20_O18

32 Exp2 S60_C20_O18

33 Exp3 S60_C20_O18

34 Exp4 S60_C20_O18

35 Exp5 S60_C20_O18

8 36 S80_C4_O2 80 x 80 4^2 2 Exp1 S80_C4_O2

37 Exp2 S80_C4_O2

38 Exp3 S80_C4_O2

39 Exp4 S80_C4_O2

40 Exp5 S80_C4_O2

9 41 S80_C5_O3 80 x 80 5^2 3 Exp1 S80_C5_O3

42 Exp2 S80_C5_O3

43 Exp3 S80_C5_O3

44 Exp4 S80_C5_O3

45 Exp5 S80_C5_O3

10 46 S80_C10_O8 80 x 80 10^2 8 Exp1 S80_C10_O8

47 Exp2 S80_C10_O8

48 Exp3 S80_C10_O8

49 Exp4 S80_C10_O8

50 Exp5 S80_C10_O8

11 51 S80_C20_O18 80 x 80 20^2 18 Exp1 S80_C20_O18

52 Exp2 S80_C20_O18

53 Exp3 S80_C20_O18

54 Exp4 S80_C20_O18

55 Exp5 S80_C20_O18

12 56 S80_C40_O35 80 x 80 40^2 35 Exp1 S80_C40_O35

57 Exp2 S80_C40_O35

58 Exp3 S80_C40_O35

59 Exp4 S80_C40_O35

60 Exp5 S80_C40_O35

13 61 S100_C4_O2 100 x 100 4^2 2 Exp1 S100_C4_O2

62 Exp2 S100_C4_O2

63 Exp3 S100_C4_O2

64 Exp4 S100_C4_O2

65 Exp5 S100_C4_O2

Varian #ID (18)

Main Biset Size

Maks Overlap Varian

14 66 S100_C5_O3 100 x 100 5^2 3 Exp1 S100_C5_O3

67 Exp2 S100_C5_O3

68 Exp3 S100_C5_O3

69 Exp4 S100_C5_O3

70 Exp5 S100_C5_O3

15 71 S100_C10_O8 100 x 100 10^2 8 Exp1 S100_C10_O8

72 Exp2 S100_C10_O8

73 Exp3 S100_C10_O8

74 Exp4 S100_C10_O8

75 Exp5 S100_C10_O8

16 76 S100_C20_O18 100 x 100 20^2 12 Exp1 S100_C20_O18

77 Exp2 S100_C20_O18

78 Exp3 S100_C20_O18

79 Exp4 S100_C20_O18

80 Exp5 S100_C20_O18

17 81 S100_C25_O24 100 x 100 25^2 24 Exp1 S100_C25_O24

82 Exp2 S100_C25_O24

83 Exp3 S100_C25_O24

84 Exp4 S100_C25_O24

85 Exp5 S100_C25_O24

18 86 S100_C50_O48 100 x 100 48^2 48 Exp1 S100_C50_O48

87 Exp2 S100_C50_O48

88 Exp3 S100_C50_O48

89 Exp4 S100_C50_O48

90 Exp5 S100_C50_O48

3.4.5 Hasil Uji Coba

Pada bagian ini hanya disajikan rerata dari semua uji coba. Sementara hasil uji coba rinci

disertakan sbagai lampiran. Masing-masing kinerja rerata Match Score untuk dataset

overlap dan disjoin disajikan pada tabel 3-12 dan 3-13. Untuk dataset overlap dari nilai

rerata Match Score yang diperoleh terlihat bahwa metode nomer 12 (Bimax) menunjukkan

kinerja yang paling baik dengan nilai rerata 0.9542. Pencapaian kinerja terbaik dari varian

metode yang diusulkan pada penelitian ini dengan nilai 0.8723 yang diperoleh oleh varian

no 5 dan 6. Sedangkan metoda pembanding lainnya (BiBit) memperoleh nilai rerata match

score lebih rendah. Kondisi berbeda terlihat pada dataset disjoin. Untuk dataset ini metode

yang diusulkan bekerja lebih baik daripada kedua metode pembanding. Sementara dari

sisi kinerja waktu komputasi metode Bimax selalu lebih baik. Hal ini karena metode

Bimax sudah diimplementasikan dalam library Matlab-C (Mex), sedangkan metode yang

lain dijalankan dengan script matlab.

Tabel 3-12 Hasil uji coba rerata uuntuk dataset overlapping

Dataset #1 Dataset #2 Dataset #3 Dataset #4 Average

Avg. Time Avg. MS Avg. Time Avg. MS Avg. Time Avg. MS Avg. Time Avg. MS Avg. Time Avg. MS

Method 1 0.224499512 0.873927627 2.490000305 0.867086223 5.55000061 0.873886582 12.84070028 0.867089923 5.276300176 0.870497589

Method 2 0.962300873 0.873927627 159.1591196 0.867086223 476.0693204 0.881008456 321.9054672 0.861488004 239.524052 0.870877577

Method 3 0.87069931 0.716130873 131.2169589 0.754361635 307.0060394 0.781817969 334.9505333 0.78182183 193.5110577 0.758533077

Method 4 1.184199524 0.741504734 482.1886801 0.735118549 513.9909607 0.74401596 997.0047288 0.743143833 498.5921423 0.740945769

Method 5 0.624499512 0.873927627 60.83999939 0.867086223 118.1312805 0.881008456 305.488367 0.867089923 121.2710366 0.872278057

Method 6 1.937599945 0.873927627 141.7394406 0.867086223 1171.8772 0.881008456 439.172966 0.867089923 438.6818017 0.872278057

Method 7 1.251000214 0.715865305 89.04345894 0.756154809 660.2365591 0.778401116 526.5249326 0.767384181 319.2639877 0.754451353

Method 8 4.193199921 0.727863772 247.1635202 0.72904541 522.4526004 0.745018205 3171.647966 0.743616672 986.3643216 0.736386015

Method 9 1.13990097 0.859466896 87.85736053 0.751564695 316.7953601 0.734637885 698.3195666 0.714120678 276.0280471 0.764947539

Method 10 0.1 0 4384.28 0.646498991 1064.7 0.627231477 14526.23333 0.631024281 4993.828333 0.476188687

Method 11 0.744900513 0.853460877 105.4829199 0.808518081 269.6892798 0.783987335 0 0 93.97927505 0.611491573

Method 12 0 0.955130478 0 0.962350286 0 0.934918333 0.066666667 0.964453992 0.016666667 0.954213272

Gambar 3-18 Perbandingan rerata Match Score untuk Dataset Overlapping

Gambar 3-19 Perbandingan rerata waktu komputasi untuk Dataset Overlap

Average Match Score SN_CN_ON Random

Average Computation Time Data SN_CN_ON Random

Tabel 3-13 Hasil uji coba rerata untuk dataset disjoin

Time MS

Method 1 1.785714 1

Method 5 126 0.871429

Method 9 44.5 1

Method 12 0 0.578571

Gambar 3-20 Perbandingan rerata Match Score untuk Dataset Disjoin

Gambar 3-21 Perbandingan rerata waktu komputasi untuk Dataset Disjoin

3.4.6 Komparasi Dengan Metode Sebelumnya

Hasil komparasi dengen metode pembanding untuk dataset sintetis diperlihatkan seperti

tabel 3-14 dan 3-15 di bawah.

Tabel 3-14 Komparasi kinerja Match Score untuk dataset overlapping

Ranking

Overlapping Data Time Perform.

1 Method 12, Bimax, (Prelic, 2006) 1 1 * Executable file in C

2 Method 5 & 6, Bi-Clust+ MS Join (usulan) 3 2 comparable

3 Method 2 & 1, Bi-Clust+ MS Join (usulan) 2 3

4 Method 10 , BitMapSearch (Dominggo, 2011) 12 12 Kasus p mod w <> 0, tidak tertangani

Tabel 3-15 Komparasi kinerja Match Score untuk dataset disjoint

Ranking

Disjoint Data Time Perform.

1 Method 1, Bi-Clust+ MS Join (usulan) 2 1

2 Method 9, Modified BitmapSearch (Dominggo, 2011) (usulan) 3 1

3 Method 5, Bi-Clust+ MS Join (usulan) 4 2

4 Method 12, Bimax, (Prelic, 2006) 1 3

3.5. Pembahasan

Sampai dengan tahap ini dari semua hasil eksperimen yang telah dilakukan, pendekatan-

pendekatan yang diusulkan mampu menyelesaikan permasalahan ekstraksi entitas,

ekstraksi relasi antarentitas dalam dokumen, dan penyusunan interaksi antarentitas dengan

menggunakan data sintetis. Pendekatan model rule based yang digunakan pada tahap

ekstraksi entitas dan ekstraksi antarentitas mampu menghasilkan kinerja yang baik dengan

nilai f-score di atas 0,75. Pendekatan rule based ini digunakan karena mempertimbangkan

struktur teks dataset yang menunjukkan adanya pola tertentu. Pendekatan rule based juga

digunakan untuk menangani permasalahan localization yang tidak ditangani oleh metode-

metode yang sudah ada.

Meskipun memberikan hasil kinerja yang baik, namun pendekatan ini mengandung

kelemahan di antaranya jika dihadapkan pada dataset yang tidak terstruktur seperti format

bahasa alami dalam dataset. Kekurangan yang lain adalah ketergantungan pada

pengetahuan luar yang digunakan untuk memandu pencarian pola. Tujuan ekstraksi entitas

pada penelitian ini adalah menemukan entitas utama (kunci) yang merupakan topik utama

dalam dokumen. Pada penelitian ini entitas utama dan entitas pendukung adalah nama obat

dan kandungan obat. Nama obat dan kandungan obat bukan merupakan istilah yang umum

digunakan dalam tata bahasa Bahasa Indonesia sehingga memungkinkan penggunaan

basis data kosa kata Bahasa Indonesia sebagai pengetahuan luar. Jika entitas utama yang

diinginkan adalah termasuk dalam kota kasa yang umum dalam Bahasa Indonesia, maka

pendekatan ini tidak akan efektif unuk digunakan. Demikian juga pendekatan ini tidak bisa

digunakan untuk dataset bersifat global, misalnya label obat dalam Bahasa Inggris.

Sebagai komplemen dari pendekatan rule based di atas, diusulkan pendekatan berbasis

mesin pembelajaran. Kontribusi utama pada pendekatan berbasis pembelajaran ini adalah

bagaimana menginterpretasikan data set dan memformulasikannya sehingga dapat

digunakan untuk menyelesaikan permasalahan-permasalahan dalam ekstraksi entitas yang

tidak ditangani oleh metode-metode yang telah ada. Selain menyelesaikan permasahaan-

permasalahan yang masih belum ditangani, metode yang diusulkan ini juga memberikan

hasil yang lebih baik dibandingkan metode-metode yang telah ada. Permasalahan yang

bisa ditangani oleh metode ini adalah: multi token untuk satu entitas tunggal, keperluan

akan pengetahuan luar, dan kebutuhan handcrafted feature. Hasil lebih baik dari

interpretasi dan formulasi dataset yang diusulkan ini ditunjukkan dengan akurasi rata-rata

f-score terbaik di atas 0.86. Pemanfaatan model word embedding word2vect yang

digunakan dalam penyusunan dan formula dataset metode usulan ini juga memberikan

hasil lebih baik dibandingkan dengan pendekatan rule based. Dalam penerapan model

mesin pembelajaran ini dihadapi tantangan berupa tidak seimbangnya kelas target (token

obat) dengan kelas non target (token non obat). Ketidakseimbangan ini mengakibatkan

nilai f-score rendah meskipun akurasi tinggi, karena kebanyakan prediksi yang tepat ada

pada kelas non target yang tidak termasuk dalam hitungan f-score.

Untuk penyusunan interaksi antarentitas dari dokumen yang berbeda, diusulkan

pendekatan bi-clustering untuk binary categorical data. Bi-clustering digunakan untuk

menemukan Bi-Set yang merepresentasikan kemiripan semantik sekolompok entitas

utama (yang mewakili dokumen) berdasarkan entitas pendukung / penyusunnya.

Pengujian metode yang diusulkan untuk keperluan bi-clustering ini menggunakan dataset

sintetis untuk membandingkan kinerjanya dengan metode yang sudah ada sebelumnya. Uji

coba dari dua jenis data sintetis, kompleks (Bi-set overlapping) dan sederhana (Bi-Set

disjoin), memperlihatkan bahwa metode yang diusulkan ini menghasilkan kinerja

seimbang dengan metode terbaik yang telah ada. Meskipun menghasilkan kinerja yang

baik dengan dataset sintetis, keandalannya masih perlu diuji coba dengan dataset riil

misalnya data ekspresi gen. Kelemahan lainnya yang ditemukan pada saat uji coba adalah

waktu komputasi yang tidak fisibel untuk matriks ukuran 500 * 500 atau lebih.

Secara keseluruhan penerapan rule based untuk ekstraksi entitas relasi antarentitas,

penerapan model pembelajaran mesin untuk ekstraksi entitas, dan penyusunan algoritme

bi-clustering telah mencakup semua tahapan guna menyelesaikan permasalahan reduksi

dimensi dokumen untuk keperluan document clustering. Penelitian berikutnya yang perlu

diselesaikan adalah menguji bi-clustering dengan dataset riil. Berdasarkan hasil

eksperimen pendekatan pembelajaran mesin untuk ekstraksi entitas yang lebih baik dan

kemampuan menyelesaikan permasalahan model rule based, maka eksplorasi pendekatan

mesin pembelajaran untuk ekstraksi interaksi antarentitas fisibel untuk dilakukan.

BAB 4. KESIMPULAN

4.1.Kontribusi

Sampai dengan tahap ini dari penelitian ini telah dihasilkan usulan metode penyelesaian

permasalahan ekstraksi entitas medis (dalam hal ini nama obat), penyelesaian relasi

antarobat dan kandungan obat, serta bi-clustering yang diterapkan pada data

terkategorisasi. Serangkaian metode ini digunakan untuk keperluan reduksi dimensi dalam

penyelesaian permasalahan document clustering. Dalam penelitian ini digunakan dua

model pendekatan yaitu supervised dan unsupervised. Dari pendekatan unsupervised,

metode rule based yang digunakan memiliki kelebihan-kelebihan:

Ekstraksi relasi yang independen terhadap bahasa alami.

Tidak diperlukan pre processing seperti umumnya diperlukan untuk pengolahan

bahasa alami antarlain: sentence parsing, stop word removal, atau POS Tagging.

Tidak diperlukan pengetahuan mengenai ontology atau hierarchical knowledge

Metode bi-clustering dan multi set join yang diusulkan menghasilkan kinerja yang

lebih baik dari metode sebelumnya.

Pendekatan supervised yang digunakan pada penelitian ini mampu menyelesaikan

permasalahan-permasalahan :

Multi token untuk entitas tunggal yang belum diselesaikan pada penelitian

terdahulu.

Ketergantungan terhadap pengetahuan luar.

Keperluan akan handcrafted feature

Dari sisi akurasi diperlihatkan bahwa teknik yang memperlakukan kalimat sebagai

sequence dengan model LSTM mampu memberikan kinerja akurasi terbaik dengan nilai

rata-rata f-score adalah 0.8645.

4.2.Keterbatasan dan Permasalahan Baru

Dari eksperimen yang dilakukan, beberapa keterbatasan dan permasalahan yang belum

diselesaikan panelitian ini antara lain:

Pendekatan rule based dengan menggunakan pattern scoring hanya sesuai untuk

dataset teks dengan struktur yang teratur.

Metode Bi-clustering yang diusulkan menghasilkan kinerja akurasi kurang baik

dibandingkan dengan satu metode sebelumnya dalam menangani dataset yang

lebih kompleks.

Untuk menangani matrik berukuran 500 x 500 atau lebih metode bi-clustering

yang diusulkan memerlukan waktu komputasi lama dan tidak cukup efisien

dibandingkan dengan metode Bimax

Metode Bi-clustering belum teruji untuk menangani biset yang overlapping, yang

banyak terdapat pada real dataset misalnya ekpresi gen.

Pada penerapan model mesin pembelajaran untuk ekstraksi entitas nama obat,

nilai f-score yang diperoleh tidak sejalan dengan tingginya akurasi yang

didapatkan karena noise token non target yang jauh lebih banyak dari token target.

Oleh karenanya, usaha untuk mengurangi noise terbuka untuk dieksplorasi

sehingga meningkatkan nilai f-score.

4.3.Penelitian Lanjutan

Dari hasil penelitian ini terbuka penelitian lanjutan untuk keperluan-keperluan:

Eksplorasi pendekatan pembelajaran mesin untuk ekstraksi interaksi antarentitas,

mengingat pendekatan pembelajaran mesin untuk ekstraksi entitas memberikan hasil

yang lebih baik

Penyusunan simulasi interaksi antarobat dengan memanfaatkan berbagi format data

yaitu: data terstruktur, data semi terstruktur (dokumen) dan data tidak terstruktur

(gambar, citra).

Penyiapan sistem informasi simulasi, pengendalian, dan pemantauan interaksi

antarobat yang mampu mengakomodasi keterlibatan masyarakat luas dalam proses

tersebut antara lain melalui pengiriman data obat (berupa dokumen, gambar)

menggunakan media SMS, Chat, email, atau messaging yang lain.

Pengembangan aplikasi yang dapat diimplementasikan untuk menguji interaksi

antarobat yang diajukan untuk dipasarkan di masyarakat

Pengembangan aplikasi yang dapat diimplementasikan untuk membantu pemantauan

dan pengawasan obat yang akan atau sudah beredar di masyarakat di mana obat

tersebut mungkin berbahaya karena interaksi.

Pengembangan aplikasi yang dapat diimplementasikan untuk mengakomodasi

keterlibatan masyarakat dalam pengendalian dan pengawasan obat yang beredar di

pasaran.

Penelitian prediksi interaksi antarobat dengan masukan berbagai format data yang

berisi informasi indikasi, kontra inidikasi dan kandungan obat ini diharapkan

mempercepat penelitian lanjutan yang mempertimbangkan aspek – aspek informasi

yang lain seperti : hubungan penyakit dengan obat, hubungan obat dengan organ

tubuh target pengobatan, atau hubungan antara penyakit – obat – dan faktor genetis.

Daftar Pustaka

[1] P. Interaksi, “Interaksi Antibiotik,” pp. 1–4, 2011.

[2] M. Takarabe, S. Okuda, M. Itoh, T. Tokimatsu, S. Goto, and M. Kanehisa, “Network

analysis of adverse drug interactions.,” Genome Inform., vol. 20, pp. 252–9, Jan. 2008.

[3] M. Takarabe, D. Shigemizu, S. Goto, M. Kotera, and M. Kanehisa,

“CHARACTERIZATION AND CLASSIFICATION OF ADVERSE DRUG,” J.

Genome Inf., no. Japic Id, pp. 167–175, 2010.

[4] E. P. Ivanova, V. K. Truong, J. Y. Wang, C. C. Berndt, R. T. Jones, I. I. Yusuf, I. Peake,

H. W. Schmidt, C. Fluke, D. Barnes, and R. J. Crawford, Guidelines for ATC

classification and DDD assignment, vol. 70, no. 3. 2010.

[5] BPOM, “Badan Pengawas Obat dan Makanan,” BPOM, 2010. .

[6] “5. health.detik.com-2010-12-01-bpom-tarik-6-obat-pelangsing-karena-bisa-bikin-

stroke.pdf.” .

[7] V. F. Bararah, “BPOM Tarik 6 Obat Pelangsing Karena Bisa Bikin Stroke,” detik.com,

2010. [Online]. Available:

http://health.detik.com/read/2010/12/01/155614/1506878/763/bpom-tarik-6-obat-

pelangsing-karena-bisa-bikin-stroke. [Accessed: 01-Jan-2016].

[8] G. Com, H. Www, and G. Com, “BPOM Tarik 59 Jamu Berbahan Kimia Obat,”

Kompas.com, 2013. [Online]. Available:

http://health.kompas.com/read/2013/11/08/1331226/BPOM.Tarik.59.Jamu.Berbahan.

Kimia.Obat.

[9] Tempo.com, “Polisi Tangkap Pengedar Kosmetik Palsu,” 2013. [Online]. Available:

https://nasional.tempo.co/read/news/2013/01/02/058451671/polisi-tangkap-pengedar-

kosmetik-palsu. [Accessed: 01-Jan-2016].

[10] G. M. Finesso, “Jamu dan Obat Kuat Mengandung BKO Masih Berdedar,” 2013.

[Online]. Available:

http://regional.kompas.com/read/2013/02/19/17425517/Jamu.dan.Obat.Kuat.Mengand

ung.BKO.Masih.Berdeda.

[11] A. Noreddin, READINGS IN ADVANCED PHARMACOKINETICS – THEORY ,

METHODS AND APPLICATIONS Edited by Ayman Noreddin. 2012.

[12] I. Segura-Bedmar, P. Martinez, and M. Herrero-Zazo, “Semeval-2013 task 9: Extraction

of drug-drug interactions from biomedical texts (ddiextraction 2013),” in Proceedings

of the Seventh International Workshop on Semantic Evaluation (SemEval 2013) vol. 2,

Association for Computational Linguistics, 2013, vol. 2, no. SemEval, pp. 341–350.

[13] H. Li, C. Liu, L. Burge, K. Dae Ko, and W. Southerland, “Predicting protein-protein

interactions using full Bayesian network,” 2012 IEEE Int. Conf. Bioinforma. Biomed.

Work., pp. 544–550, Oct. 2012.

[14] J. Mata, R. Santano, D. Blanco, M. Lucero, and M. J. Maña, “A Machine Learning

Approach to Extract Drug – Drug Interactions in an Unbalanced Dataset,” in the 1st

Challenge task on Drug-Drug Interaction Extraction (DDIExtraction2011), 2011, pp.

6–12.

[15] S. Vilar, E. Uriarte, L. Santana, N. P. Tatonetti, and C. Friedman, “Detection of drug-

drug interactions by modeling interaction profile fingerprints.,” PLoS One, vol. 8, no. 3,

p. e58321, Jan. 2013.

[16] Y. Yamanishi, M. Araki, A. Gutteridge, W. Honda, and M. Kanehisa, “Prediction of

drug-target interaction networks from the integration of chemical and genomic spaces.,”

Bioinformatics, vol. 24, no. 13, pp. i232–40, Jul. 2008.

[17] S. Polak, J. Brandys, and a. Mendyk, “Neural System for in silico Drug-Drug Interaction

Screening,” Int. Conf. Comput. Intell. Model. Control Autom. Int. Conf. Intell. Agents,

Web Technol. Internet Commer., vol. 2, pp. 75–80, 2005.

[18] M. Sadikin and I. Wasito, “Translation and Classification Algorithm of FDA-Drugs to

DOEN2011 Class Therapy to Estimate Drug-Drug Interaction,” in The 2nd

International Conference on Information Systems for Business Competitiveness 2013

(ICISBC 2013), 2013, no. Icisbc, pp. 1–5.

[19] S. P. Out and M. Baru, “Interaksi Obat Anti Biotika, Majalah Online Manajemen

Modern dan Kesehatan Masyarakat,” 2011. [Online]. Available:

http://www.itokindo.org/. [Accessed: 01-Jan-2016].

[20] “Interaksi Obat Anti Biotika,” Majalah Online Manajemen Modern dan Kesehatan

Masyarakat, 2013. [Online]. Available: www.itokindo.org.

[21] R. Boyce and G. Gardner, “Using Natural Language Processing to Identify

Pharmacokinetic Drug- Drug Interactions Described in Drug Package Inserts,” in the

2012 Workshop on Biomedical Natural Language Processing (BioNLP 2012), 2012, no.

BioNLP, pp. 206–213.

[22] U. Maulik, A. Mukhopadhyay, M. Bhattacharyya, L. Kaderali, B. Brors, S.

Bandyopadhyay, and R. Eils, “Mining quasi-bicliques from HIV-1-human protein

interaction network: a multiobjective biclustering approach.,” IEEE/ACM Trans.

Comput. Biol. Bioinform., vol. 10, no. 2, pp. 423–35, 2012.

[23] Z. He, J. Zhang, X.-H. Shi, L.-L. Hu, X. Kong, Y.-D. Cai, and K.-C. Chou, “Predicting

drug-target interaction networks based on functional groups and biological features.,”

PLoS One, vol. 5, no. 3, p. e9603, Jan. 2010.

[24] K. Lee, S. Lee, M. Jeon, J. Choi, and J. Kang, “Drug-drug interaction analysis using

heterogeneous biological information network,” 2012 IEEE Int. Conf. Bioinforma.

Biomed., pp. 1–5, Oct. 2012.

[25] H. Tang and J. Ye, “A Survey for Information Extraction Method.”

[26] S. Zhang and N. Elhadad, “Unsupervised biomedical named entity recognition :

Experiments with clinical and biological texts,” J. Biomed. Inform., vol. 46, pp. 1088–

1098, 2013.

[27] I. Korkontzelos, D. Piliouras, A. W. Dowsey, and S. Ananiadou, “Artificial Intelligence

in Medicine Boosting drug named entity recognition using an aggregate classifier,”

Artif. Intell. Med., vol. 65, pp. 145–153, 2015.

[28] H. Sampathkumar, X. Chen, and B. Luo, “Mining Adverse Drug Reactions from online

healthcare forums using Hidden Markov Model,” pp. 1–18, 2014.

[29] I. Segura-bedmar and P. Martı, “Drug name recognition and classification in biomedical

texts A case study outlining approaches underpinning automated systems,” Drug

Discov. Today, vol. 13, no. September, 2008.

[30] S. Keretna, C. Peng, D. Creighton, and K. Bashir, “Enhancing medical named entity

recognition with an extended segment representation technique,” Comput. Methods

Programs Bimoedicine, vol. 9, pp. 88–100, 2015.

[31] G. Pal and S. Gosal, “A Survey of Biological Entity Recognition Approaches,” Int. J.

Recent Innov. Trends Comput. Commun., vol. 3, no. 9, 2015.

[32] S. Liu, B. Tang, Q. Chen, X. Wang, and X. Fan, “Feature engineering for drug name

recognition in biomedical texts: Feature conjunction and feature selection,” Comput.

Math. Methods Med., vol. 2015, 2015.

[33] T. Grego and F. M. Couto, “LASIGE : using Conditional Random Fields and ChEBI

ontology,” in 7th International Workshop on Semantic Evaluation (SemEval 2013).,

2013, vol. 2, no. SemEval, pp. 660–666.

[34] J. Björne, S. Kaewphan, and T. Salakoski, “UTurku : Drug Named Entity Recognition

and Drug-Drug Interaction Extraction Using SVM Classification and Domain

Knowledge,” in Second Joint Conferernce on Lexical and Computational Semantic,

2013, vol. 2, no. SemEval, pp. 651–659.

[35] B. R. Zeeberg, W. Feng, G. Wang, M. D. Wang, A. T. Fojo, M. Sunshine, S.

Narasimhan, D. W. Kane, W. C. Reinhold, S. Lababidi, K. J. Bussey, J. Riss, J. C.

Barrett, and J. N. Weinstein, “GoMiner: a resource for biological interpretation of

genomic and proteomic data.,” Genome Biol., vol. 4, no. 4, p. R28, Jan. 2003.

[36] L. Jing, M. K. Ng, and J. Z. Huang, “Knowledge-based vector space model for text

clustering,” Knowl. Inf. Syst., vol. 25, no. 1, pp. 35–55, Oct. 2009.

[37] M. Rafi, “Document Clustering based on Topic Maps,” vol. 12, no. 1, pp. 32–36, 2010.

[38] C.-L. Chen, F. S. C. Tseng, and T. Liang, “An integration of fuzzy association rules and

WordNet for document clustering,” Knowl. Inf. Syst., vol. 28, no. 3, pp. 687–708, Nov.

[39] D. Chen and K. J. Holyoak, “Learning and Generalization of Abstract Semantic

Relations : Preliminary Investigation of Bayesian Approaches,” in The 32nd Annual

Conference of the Cognitive Science Society, 2010, pp. 871–876.

[40] T. M and P. Thangaraj, “Fuzzy Ontology for Distributed Document Clustering based on

Genetic Algorithm,” Appl. Math. Inf. Sci., vol. 7, no. 4, pp. 1563–1574, Jul. 2013.

[41] M. W. Berry and M. Castellanos, “Survey of Text Mining : Clustering , Classification ,

and Retrieval , Second Edition,” 2007.

[42] S. Fodeh, B. Punch, and P.-N. Tan, “On ontology-driven document clustering using core

semantic features,” Knowl. Inf. Syst., vol. 28, no. 2, pp. 395–421, Jan. 2011.

[43] F. P. Romero, A. Peralta, A. Soto, J. a. Olivas, and J. Serrano-Guerrero, “Fuzzy

optimized self-organizing maps and their application to document clustering,” Soft

Comput., vol. 14, no. 8, pp. 857–867, Jul. 2009.

[44] S. Paliwal and V. Pudi, “Investigating Usage of Text Segmentation and Inter-passage

Similarities,” in MLDM 2012, 2012, pp. 555–565.

[45] H. S. Nguyen, “Unsupervised Similarity Learning from Textual Data ∗,” vol. 119, pp.

319–337, 2012.

[46] M. Steinbach, “A Comparison of Document Clustering Techniques,” in KDD Workshop

on Text Mining, 2000., 2000, pp. 1–20.

[47] I. Stankov, D. Todorov, and R. Setchi, “Enhanced cross-domain document clustering

with a semantically enhanced text stemmer ( SETS ),” Int. J. Knowledge-based Intell.

Eng. Syst., vol. 17, pp. 113–126, 2013.

[48] T. F. Gharib, M. M. Fouad, A. Mashat, and I. Bidawi, “Self Organizing Map -based

Document Clustering Using WordNet Ontologies,” vol. 9, no. 1, pp. 88–95, 2012.

[49] M. Batet, “Ontology-based semantic clustering,” Universitat Rovira i Virgili, 2011.

[50] R. Elmasri, J. Fu, and F. Ji, “Multi-level Conceptual Modeling for Biomedical Data and

Ontologies Integration,” Twent. IEEE Int. Symp. Comput. Med. Syst., pp. 589–594, Jun.

[51] L.-C. Chen, P.-J. Kuo, and I.-E. Liao, “Ontology-based library recommender system

using MapReduce,” Cluster Comput., no. August 2013, Jan. 2014.

[52] G. G. Dagher and B. C. M. Fung, “Subject-based Semantic Document Clustering for

Digital Forensic Investigations,” J. Data Knowlege Eng., vol. 86, no. October 2013,

[53] B. Aljaber, N. Stokes, J. Bailey, and J. Pei, “Document clustering of scientific texts using

citation contexts,” Inf. Retr. Boston., vol. 13, no. 2, pp. 101–131, Aug. 2009.

[54] A. Kalogeratos and A. Likas, “Text document clustering using global term context

vectors,” Knowl. Inf. Syst., vol. 31, no. 3, pp. 455–474, May 2011.

[55] T. H. Cao, T. M. Tang, and C. K. Chau, “Chapter 10 Text Clustering with Named

Entities : A Model , Experimentation and Realization,” in Data Mining: Found. & Intell.

Paradigms, D. E. Holmes and L. C. Jain, Eds. Berlin Heidelberg: Springer-Verlag Berlin

Heidelberg, 2012, pp. 267–287.

[56] B. Brosseau-Villeneuve, J.-Y. Nie, and N. Kando, “Latent word context model for

information retrieval,” Inf. Retr. Boston., vol. 17, no. 1, pp. 21–51, Mar. 2013.

[57] C. C. Aggarwal and C. Zhai, Mining Text Data. Boston, MA: Springer US, 2012.

[58] W. Hu, G. Tian, X. Li, and S. Maybank, “An Improved Hierarchical Dirichlet Process-

Hidden Markov Model and Its Application to Trajectory Modeling and Retrieval,” Int.

J. Comput. Vis., vol. 105, no. 3, pp. 246–268, Jun. 2013.

[59] L. R. Biggers, C. Bocovich, R. Capshaw, B. P. Eddy, L. H. Etzkorn, and N. a. Kraft,

Configuring latent Dirichlet allocation based feature location. 2012.

[60] I. Segura-bedmar and P. Mart, “Exploring Word Embedding for Drug Name

Recognition,” in The Sixth International Workshop on Health Text Mining and

Information Analysis, 2015, no. September, pp. 64–72.

[61] Y. Chen, T. A. Lasko, Q. Mei, J. C. Denny, and H. Xu, “A study of active learning

methods for named entity recognition in clinical text,” J. Biomed. Inform., vol. 58, pp.

11–18, 2015.

[62] A. Ben, F. Mahbub, A. Karanasiou, Y. Mrabet, A. Lavelli, and P. Zweigenbaum, “Text

mining for pharmacovigilance : Using machine learning for drug name recognition and

drug – drug interaction extraction and classification,” vol. 58, pp. 122–132, 2015.

[63] C. Niu, W. Li, J. Ding, and R. K. Srihari, “A Bootstrapping Approach to Named Entity

Classification Using Successive Learners,” in Proceedings of the 41st Annual Meeting

of the Association for Computational Linguistics, 2003, vol. 1, no. July, pp. 335–342.

[64] F. Xu, “Bootstrapping Relation Extraction from Semantic Seeds.”

[65] E. Umamaheswari and T. V Geetha, “LEARNING EVENT PATTERNS FROM NEWS

TEXT USING BOOTSTRAPPING,” in International Conference on Information

System Security And Cognitive Science, 2013, no. July, pp. 48–54.

[66] M. Thelen and E. Riloff, “A bootstrapping method for learning semantic lexicons using

extraction pattern contexts,” in Proceedings of the ACL-02 conference on Empirical

methods in natural language processing-EMNLP ’02, 2002, vol. 10, no. Emnlp, pp.

214–221.

[67] T. Liu and T. Strzalkowski, “Bootstrapping Events and Relations from Text Polish

Academy of Sciences,” in The 13th Conference of the European Chapter of the

Association for Computational Linguistics, 2012, no. 1996, pp. 296–305.

[68] E. Agichtein and L. Gravano, “Snowball : Extracting Relations from Large Plain-Text

Collections,” in DL ’00 Proceedings of the fifth ACM conference on Digital libraries,

2000, pp. 85–94.

[69] W. Lin, R. Yangarber, and R. Grishman, “Bootstrapped Learning of Semantic Classes

from Positive and Negative Examples,” in Proceedings of the ICML-2003 Workshop on

The Continuum from Labeled to Unlabeled Data, 2003.

[70] S. Patwardhan and E. Riloff, “Learning Domain-Specific Information Extraction

Patterns from the Web,” in Proceedings of the Workshop on Information Extraction

Beyond The Document, 2006, no. July, pp. 66–73.

[71] R. Huang and E. Riloff, “Multi-faceted Event Recognition with Bootstrapped

Dictionaries,” in Proceedings of NAACL-HLT 2013, 2013, no. June, pp. 41–51.

[72] T. Mikolov, G. Corrado, K. Chen, and J. Dean, “Efficient Estimation of Word

Representations in Vector Space,” arXiv Prepr. arXiv1301.3781, vol. 3, pp. 1–12, 2013.

[73] X. W. Xiang Zuo, Alvin Chin, Xiaoguang Fan, Bin Xu, Dezhi Hong, Ying Wang,

“Connecting People at a Conference- A Study of Influence Between Offline and Online

Using a Mobile Social Application,” in 2012 IEEE International Conference on Green

Computing and Communications, Conference on Internet of Things, and Conference on

Cyber, Physical and Social Computing, 2012, pp. 277–284.

[74] Y. Sun, J. Han, C. C. Aggarwal, and N. V Chawla, “When Will It Happen ? —

Relationship Prediction in Heterogeneous Information Networks,” in WSDM’12, 2012.

[75] A. Sun, “A Two-stage Bootstrapping Algorithm for Relation Extraction,” New York,

NY, USA, 2009.

[76] T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Distributed Representations of Words

and Phrases and their Compositionality,” arXiv Prepr. arXiv1301.3781, pp. 1–9, 2013.

[77] R. B. Palm, “Prediction as a candidate for learning deep hierarchical models of data,”

[78] S. Otte, D. Krechel, and M. Liwicki, “JANNLab Neural Network Framework for Java,”

in Poster Proceedings Conference {MLDM} 2013, 2013, pp. 39–46.

[79] M. Herrero-zazo, I. Segura-bedmar, P. Martínez, and T. Declerck, “The DDI corpus :

An annotated corpus with pharmacological substances and drug – drug interactions,” J.

Biomed. Inform., vol. 46, pp. 914–920, 2013.

[80] Y. Chen, “Omni-word Feature and Soft Constraint for Chinese Relation Extraction,” in

The 52 Annual Meeting of the Association for Computianal Linguistics, 2014, pp. 572–

[81] P. Zhang, X. Wang, and P. X.-K. Song, “Clustering Categorical Data Based on Distance

Vectors,” J. Am. Stat. Assoc., vol. 101, no. 473, pp. 355–367, 2006.

[82] D. S. Rodriguez-Baena, A. J. Perez-Pulido, and J. S. Aguilar-Ruiz, “A biclustering

algorithm for extracting bit-patterns from binary datasets,” Bioinformatics, vol. 27, no.

19. pp. 2738–2745, 2011.

[83] B. Peter, A. Prelić, S. Bleuler, P. Zimmermann, A. Wille, P. Bühlmann, W. Gruissem,

L. Hennig, L. Thiele, E. Zitzler, A. Prelic, A. Wille, and P. B, “Comparison of

Biclustering Methods : A Systematic Comparison and Evaluation of Biclustering

Methods for Gene Expression Data,” Bioinformatics, vol. 22, no. 9, pp. 1122–112930,

[84] J. Gupta, S. Singh, and N. Verma, “MTBA: MATLAB Toolbox for Biclustering

Analysis,” in MTBA: MATLAB Toolbox for Biclustering Analysis, 2013, vol. 1, no. July,

pp. 94–97.

[85] D. S. Rodriguez-baena, A. J. Perez-pulido, and S. Jesus, “A biclustering algorithm for

extracting bit – patterns from binary datasets,” pp. 1–8, 2011.

[86] H. C. Chen, W. Zou, Y. J. Tien, and J. J. Chen, “Identification of Bicluster Regions in a

Binary Matrix and Its Applications,” PLoS One, vol. 8, no. 8, 2013.

[87] K. Benabdeslem and K. Allab, “Bi-clustering continuous data with self-organizing

map,” Neural Comput. Appl., vol. 22, pp. 1551–1562, 2013.

Daftar Keluaran : Artikel Jurnal

Daftar Publikasi Penelitian Laporan Disertasi Doktor

Journal Articles 1. Mujiono Sadikin, Mohamad Ivan Fanany, T. Basaruddin “A New

Data Representation Based on Training Data Characteristics to

Extract Drug Named-Entity in Medical Text”, Journal of

Computational Intelligence and Neuroscience, vol. 2016, Article ID

3483528, 16 pages, 2016. doi:10.1155/2016/3483528., (Scopus

Indexed)

2. Mujiono Sadikin, Ito Wasito, “A Novel Rule Based Approach For

Entity Relations Extraction”, Journal Of Theoretical And Applied

Information Technology (E-ISSN 1817-3195 / ISSN 1992-8645)

(Scopus Indexed), Vol 74 April 2015 issues of JATIT

Daftar Publikasi Penelitian Lainnya

Journal Articles 1. Mujiono Sadikin, “A Distance-Based Approach for Binary-

Categorical Data Bi-Clustering” Internetworking Indonesia Journal,

(Scopus Indexed) Vol.8/No.1 (2016)

2. Mujiono Sadikin, “A Binary Matrix Synthetic Data and Its Bi-set

Ground Truth Generator’, International Research Journal of

Computer Science (IRJCS), Volume 2, Issue 11 November -2015

3. Arief F Huda, Ito Wasito, T. Basaruddin, Mujiono S,. “Spatial

Clustering Algorithm Based on Neighboring Structure Approach”,

JCIT: Journal of Convergence Information Technology, Vol. 8, No.

16, pp. 25 ~ 38, 2013

Conference

Proceeding

1. Mujiono Sadikin, Ito Wasito., Toward Object Interaction Mining By

Starting With Object Extraction Based on Pattern Learning Method.,

2014 Asia-Pacific Materials Science and Information Technology

Conference (APMSIT 2014) Shanghai, Tiongkok, 13-14 Juni 2014

2. Sadikin, Mujiono., Wasito, Ito.,Translation and Classification

Algorithm of FDA-Drugs to DOEN2011 Class Therapy to Estimate,

The 2nd International Conference on Information Systems for

Business Competitiveness 2013 (ICISBC) 2013, December 5-6 ,

Semarang . The revision and expanded of the paper is being reviewed

by the journal editor of International Journal of Telemedicine and

Clinical Practice

3. Teny Handhayani, Ito Wasito, Mujiono Sadikin, and Ranny., Kernel

Based Integration of Gene Expression and DNA Copy Number,

Proceeding of 2013 International Conference on Advance Computer

Science and Information System, September 28-29, Bali Indonesia,

http://icacsis.cs.ui.ac.id/

4. Ranny, Ito Wasito, Mujiono Sadikin, and Teny Handhayani,

Predictive Genotype based on Phenotype using The Association

Rules Mining, Proceeding of 2013 International Conference on

Advance Computer Science and Information System, September 28-

29, Bali Indonesia, http://icacsis.cs.ui.ac.id/

5. Sadikin, Mujiono., Wasito, Ito., Fractal Dimension As A Data

Dimensionality Reduction Method For Anomaly Detection In Time

Series. The 7th International Conference on Information &

Communication Technology and Systems (ICTS) 2013, 15-16 May

2013, Surabaya

6. Sadikin, Mujiono. ,Veritawati , Ionia., Wasito, Ito., Fractal

Dimension Approach for Clustering of DNA Sequences Based on

Internucleotide Distance, 2013 International Conference of

Information and Communication Technology (ICoICT) , 20-22

March 2013, Bandung

7. Yulita N, Intan., Wasito, Ito., Sadikin, Mujiono. , gCLUPS: Graph

Clustering Based on Pairwise Similarity. 2013 International

Conference of Information and Communication Technology

(ICoICT) , 20-22 March 2013, Bandung

8. Veritawati , Ionia., Wasito, Ito., Sadikin, Mujiono. , Sparse Data for

Document Clustering. 2013 International Conference of Information

and Communication Technology (ICoICT) , 20-22 March 2013,

Bandung

Akhir Dokumen

prediksi jaringan interaksi antarentitas objek...

Documents

interaksi radiasi dengan materi · interaksi radiasi dg...

self hypnosis - hipnoterapi.ws filewebinar agenda ! why-!...

interaksi manusia dunia sekitar -...

interaksi tamadun

analisis sentimen menggunakan latent dirichlet...

isi interaksi obat (study kasus interaksi obat).docx

interaksi manusia dan komputer pendahuluan interaksi manusia...

interaksi - interaksi musikal pada...

interaksi elektronik

perbandingan analisis klasifikasi antara...

interaksi gen

interaksi simbolik

bantuan interaksi global dan pemahaman satu sama lain...

interaksi obat -...

inisiatif, kebijakan dan program menuju pembangunan...

interaksi 1

diagram interaksi

definisi interaksi

interaksi populasi

belajar interaksi