analisis qsar

15
QSAR 2 : ANALISIS QSAR I. TUJUAN PERCOBAAN 1. Melakukan perhitungan dan pemilihan deskriptor terhadap dataset seri senyawa inhibitor COX-2 2. Melakukan analisis QSAR terhadap dataset seri senyawa inhibitor COX-2 II. DASAR TEORI Salah satu cara yang paling umum untuk menyatakan hubungan antara struktur dan aktivitas secara kuantitatif adalah dengan membuat hubungan linier. Untuk memperoleh hubungan linier tersebut dilakukan dengan analisis regresi multivariat. Analisis regresi multilinier dalam QSAR menghubungkan salah satu atau lebih variabel bebas x (parameter sifat fisikokima struktur yang dalam QSAR disebut prediktor atau deskriptor) dengan suatu variabel tidak bebas y (parameter aktivitas biologis). Variabel tak bebas mengandung suku nilai kesalahan (error, ε), sedangkan variabel bebas secara ideal disusun untuk tidak mengandung suatu kesalahan apapun. Dalam kenyatannya, hal ini hanyalah suatu pendekatan karena parameter sifat fisikokimia juga mengandung kesalahan eksperimen, hanya saja kesalahan yang terjadi lebih kecil daripada kesalahan eksperimen pada parameter aktivitas biologis atau dianggap konstan. Dalam banyak kasus kesalahan yang terjadi pada variabel bebas telah diketahui. Deskriptor adalah parameter-parameter yang mengkarakterisasi sifat struktural. Dalam QSAR, deskriptor merupakan kuantifikasi sifat struktural yang diperlukan untuk menghubungkan dengan aktivitas biologis. Deskriptor dapat diperoleh dari percobaan eksperimental atau komputasional. Bagus atau tidaknya model-model persamaan regresi multilinear yang diperoleh diukur dari parameter-parameter statistik : koefisien korelasi (r atau r 2 ), standar eror (s), dan kriteria 1

Upload: muhammad-rizky

Post on 17-Jan-2016

61 views

Category:

Documents


5 download

DESCRIPTION

analisis qsar

TRANSCRIPT

Page 1: analisis QSAR

QSAR 2 : ANALISIS QSAR

I. TUJUAN PERCOBAAN1. Melakukan perhitungan dan pemilihan deskriptor terhadap dataset seri senyawa

inhibitor COX-22. Melakukan analisis QSAR terhadap dataset seri senyawa inhibitor COX-2

II. DASAR TEORI

Salah satu cara yang paling umum untuk menyatakan hubungan antara struktur dan aktivitas secara kuantitatif adalah dengan membuat hubungan linier. Untuk memperoleh hubungan linier tersebut dilakukan dengan analisis regresi multivariat.

Analisis regresi multilinier dalam QSAR menghubungkan salah satu atau lebih variabel bebas x (parameter sifat fisikokima struktur yang dalam QSAR disebut prediktor atau deskriptor) dengan suatu variabel tidak bebas y (parameter aktivitas biologis). Variabel tak bebas mengandung suku nilai kesalahan (error, ε), sedangkan variabel bebas secara ideal disusun untuk tidak mengandung suatu kesalahan apapun. Dalam kenyatannya, hal ini hanyalah suatu pendekatan karena parameter sifat fisikokimia juga mengandung kesalahan eksperimen, hanya saja kesalahan yang terjadi lebih kecil daripada kesalahan eksperimen pada parameter aktivitas biologis atau dianggap konstan. Dalam banyak kasus kesalahan yang terjadi pada variabel bebas telah diketahui.

Deskriptor adalah parameter-parameter yang mengkarakterisasi sifat struktural. Dalam QSAR, deskriptor merupakan kuantifikasi sifat struktural yang diperlukan untuk menghubungkan dengan aktivitas biologis. Deskriptor dapat diperoleh dari percobaan eksperimental atau komputasional.

Bagus atau tidaknya model-model persamaan regresi multilinear yang diperoleh diukur dari parameter-parameter statistik : koefisien korelasi (r atau r2), standar eror (s), dan kriteria Fisher (F). Persamaan yang powerful ditandai dari nilai r yang mendekati 1, nilai s kecil, dan nilai F besar (secara relatif). Model-model terbaik inilah yang dipilih menjadi kandidat persamaan QSAR.

Disamping itu, untuk menguji konsistensi (reliabilitas) model persamaan QSAR dalam melakukan prediksi terhadap molekul lain dilakukan dengan uji validasi silang. Model-model persamaan terbaik yang paling valid setelah diuji validasi silang inilah yang kemudian kita pilih menjadi persamaan QSAR.

III. LANGKAH KERJA DAN PEMBAHASAN

1

Page 2: analisis QSAR

QuaSAR Wizard

Aplikasi QuaSAR di MOE digunakan untuk menganalisis data eksperimental dan menyusun model numerik dari data untuk tujuan prediksi dan interpretasi.

Jika hasil percoban untuk sejumlah m molekul telah diperoleh, yi menyatakan hasil percobaan untuk molekul i dan mi menyatakan molekul i, maka sekumpulan data ini disebut sebagai dataset atau training set.

Untuk membangun suatu model numerik yang bergantung pada molekul perlu disusun suatu representasi numerik dari molekul. Walaupun tabel koneksi representasi dari molekul (seperti daftar atom dan ikatan) juga merupakan numerik, hal ini tidak dapat dijadikan untuk membangun suatu model, perlu represntasi yang lebih sederhana daripada itu. Molekul dideksripsikan sebagai deskriptor untuk tujuan pembangunan model. Deskriptor dapat berupa kuantitas apa saja yang bergantung pada molekul, seperti berat molekul, volume van der Waals, momen dipol dan jumlah atom karbon. Diasumsikan bahwa xij menyatakan deskriptor ke j dari molekul dan xi menyatakan vektor dari n deskriptor dari molekul i.

Suatu model adalah rumus numerikal yang diparameterisasi menggunakan training set. Rumus numerik ini menampung, sebagai masukan (input), suatu vektor dari deskriptor molekular yang digunakan untuk memprediksi hasil percobaan. Aplikasi QuaSAR di MOE mencakup dua model di bawah ini:

I. Model Regresi Linear (Linear Regression Models). Suatu model linear dimana hasil percobaan diekspresikan sebagai kombinasi linear dari deskriptor ditambah konstanta. Parameter, atau koefisien, dari model ditentukan dengan suatu cara tertentu sehingga rata-rata kuadrat kesalahan (mean squared error) antara hasil percobaan dari training set dan dari model yang dibangun dapat diminimalisasi.

II. Model Biner (Binary Models). Model biner mengasumsikan bahwa hasil percobaan merupakan binary value (1 atau 0), merepresentasikan Lolos/Tidak atau Aktif/Inaktif nya molekul tersebut. Model biner menggunakan training set untuk mengestimasikan probabilitas bahwa suatu molekul baru nantinya akan memberikan hasil percobaan sebesar 1 .

Metode kemometri yang digunakan dalam percobaan ini adalah metode statistik MLR (Multi Linear Regression) karena senyawa yang dikaji relatif banyak.

Kualitas dari suatu model dinyatakan secara statistik (seperti koefisien korelasi maupun persen akurasi ). Hal ini berarti bahwa suatu asumsi dasar untuk pembangunan suatu model adalah kenyataan bahwa training set merupakan suatu representasi, atau dengan kata lain, harus memiliki sejumlah besar sampel yang cukup sehingga hasilnya tidak bias. Lebih tepatnya, metode ini mengasumsikan bahwa training set dapat dimodelkan secara independen dan variabel acaknya terdistribusi secara identik.

Setelah suatu model telah dibangun, perlu dilakukan pengujian untuk menentukan seberapa besar kekuatan prediksi dari model tersebut. Model yang mampu untuk mereproduksi hasil percobaan dari training set mungkin tidak akan bekerja baik untuk molekul baru. Fenomena

2

Page 3: analisis QSAR

ini dikenal dengan nama overfitting dan biasanya menandakan adanya parameter yang terlalu banyak pada model tersebut atau jumlah data pada training set tidak cukup besar. Aplikasi QuaSAR juga mencakup metode untuk menghilangkan outlier (molekul training set dengan eror model yang sangat besar) dan validasi silang (cross validation). Validasi silang merupakan suatu prosedur dimana sejumlah porsi dari training set dikeluarkan dari pembangunan model dan secara berurutan digunakan untuk mensimulasi pembentukan molekul “baru”.

Langkah pertama yang dilakukan adalah memilih database yang akan dianalisis dengan memanggil modul QuaSAR Wizard (MOE->Tools->QuaSAR Wizard) setelah sebelumnya diatur current working directorynya. Opsi Open in Viewer juga diseleksi agar hasilnya nanti terbuka di Database Viewer, setelah itu klik Next untuk membuka kotak dialog berikutnya.

3

Page 4: analisis QSAR

Langkah kedua adalah melakukan perhitungan deskriptor dengan memastikan bahwa pada :Select Activity Field : PIC50Select : All 2D and 3D descriptors (no MOPAC)

kemudian klik Calculate selected descriptors. Namun langkah ini tidak dilakukan karena perhitungan deskriptor telah dilakukan pada percobaan sebelumnya, sehingga langsung di-klik Next untuk menuju kotak dialog berikutnya.

4

Page 5: analisis QSAR

Pada kotak dialog yang ketiga dalam MOE QuaSAR Wizard ini memberikan pilihan untuk memecah data menjadi training set dan test set dalam porsi tertentu. Training set adalah suatu set data yang akan diolah regresinya (fitting) dalam analisis regresi, sedangkan test set adalah satu set data yang independen terhadap data training, namun mengikuti pola distibusi probabilitas yang sama seperti data training. Pendekatan semacam ini dilakukan untuk meminimalisi masalah overfitting, dimana persamaan yang diperoleh melalui analisis regresi mampu menjelaskan suatu hubungan pada data training yang tidak berlaku secara umum. Hal ini biasanya disebabkan oleh model yang terlalu kompleks, misalnya terlalu banyak parameter dibandingkan banyak data yang ada.Pemecahan dataset menjadi training set dan test set dilakukan jika dalam database mengandung banyak sekali jumlah molekul (>40). Dalam kasus ini hanya ada 25 molekul dalam database sehingga tidak diperlukan pemecahan database. Bagian test database di un-check dan fraction in training ditulis sebesar 1.0 (tidak ada yang dipecah). Setelah tahapan ini akan terbentuk file database baru dengan nama yang sama berakhiran train.mdb.

5

Page 6: analisis QSAR

Kotak dialog selanjutnya memberikan pilihan untuk refinement descriptor, artinya pemilihan deskriptor yang esensial dalam QSAR Langkah ini sifatnya opsional namun dapat mempersingkat waktu analisis dalam pencarian persamaan QSAR nantinya. Fungsi semacam ini juga dapat diakses melalui QuaSAR Contingency (DBV->Compute->Descriptors->Contingency). Pada dasarnya QuaSAR Contingency akan melakukan analisis kontigensi bivariat untuk tiap deskriptor dan aktivitasnya. Output dari analisis ini adalah suatu tabel koefisien yang dapat digunakan untuk memilih deskriptor yang esensial. Pada kotak dialog diatas terlihat bahwa deskriptor yang esensial setelah dijalankan perintah “Prune Descriptors by Contingency” akan berwarna terseleksi (berwarna biru). Setelah proses ini selesai maka suatu tabel koefisien akan ditampilkan dalam suatu text editor (biasanya Notepad) yang berisi beberapa parameter yang dapat menjadi acuan untuk penentuan deskriptor esensial, seperti koefisien kontingensi C, Cramer’s V, koefisien ketidakpastian U dan koefisien korelasi R2. Contoh dari tampilan outputnya adalah seperti dibawah ini.

6

Page 7: analisis QSAR

Deskriptor yang tidak terseleksi (tidak esensial) dapat dihapus satu persatu secara manual di Database Viewer (pada file yang berakhiran train.mdb) sebelum kotak dialog keempat ini ditutup (Close).

QuaSAR Evolution

7

Page 8: analisis QSAR

QuaSAR Evolution digunakan untuk meng-generate persamaan-persamaan QSAR berdasarkan deskriptor yang telah diseleksi sebelumnya. QuaSAR Evolution ini menggunakan Genetic Algorithm untuk menyeleski deskriptor yang paling esensial serta mengoptimasi persamaan QSAR. Genetic algorithm merupakan suatu teknik pencarian yang meniru proses seleksi alam dalam prosesnya, seperti penurunan sifat, mutasi, seleksi dan crossover. Initial length dalam hal ini merupakan jumlah deskriptor yang akan dikombinasi dalam proses genetic algorithm, dimulai dari angka terkecil yaitu 2 dan dilanjutkan sampai seterusnya. Parameter lain dibiarkan seperti default. Untuk memulai proses evolusi tombol “Run” diklik. Setelah proses evolusi selesai, akan diperoleh database baru yang berisi model-model QSAR kombinasi 2 deskriptor berakhiran _eq.mdb. Proses ini diulang terus dengan mengganti initial length dengan bilangan yang lebih besar (3, 4, dan seterusnya) sampai diperoleh persamaan QSAR yang dirasa cukup memuaskan. Validasi silang dengan metode Leave One Out dilakukan setelah mendapatkan persamaan QSAR tertentu. Hasil dari validasi silang ini akan muncul di database viewer sebagai Y prediksi. Perhitungan parameter statistik untuk uji validasi silang yaitu PRESS dilakukan secara terpisah di Microsoft Excel.

Compute->Analysis->Correlation Plot dengan sumbu x adalah Y prediksi dari persamaan QSAR terpilih dan sumbu y adalah nilai pIC50

IV. HASIL DAN PEMBAHASAN

Model persamaan QSAR terpilih (2, 3 dan 4 deskriptor)

No Persamaan RMSE RR LOF/s F PRESS1 8.74688 + -0.604587 * a_acc + -0.9667

* vsurf_ID10,3113 0,6348 0,1373 19,1165 3,017152

2 8.55376 + 0.121782 * RDF085v + - 0,2582 0,7487 0,1209 20,8540 2,1542395

8

Page 9: analisis QSAR

0.715518 * a_acc + -0.959595 * vsurf_ID1

3 9.05011 + 0.17977 * RDF130e + -0.724473 * a_acc + -1.08416 * vsurf_ID1

0,2643 0,7367 0,1209 19,5817 2,763742

4 8.29264 + 0.0534239 * RDF085u + -0.646948 * a_acc + -0.924766 * vsurf_ID1

0,2698 0,7256 0,1260 18,5059 2,412864

5 8.49946 + 0.116956 * RDF085v + 0.0728364 * RDF100u + -0.849022 * a_acc + -0.913227 * vsurf_ID1

0,2177 0,8213 0,1025 22,9791 1,642189

6 8.15021 + 0.00506883 * DASA + 0.0668748 * RDF085u + -0.735665 * a_acc + -0.82944 * vsurf_ID1

0,2179 0,8210 0,1027 22,9295 1,883164

7 9.3283 + -0.122672 * RDF030u + -0.195805 * RDF085m + 0.491133 * RDF085v + -0.929373 * a_acc

0,2191 0,8190 0,1038 22,6259 2,458861

Deskriptor esensial (yang sering muncul) : a_acc, vsurf_ID1

Model persamaan terpilih : persamaan 5

a_acc merupakan pharmacophore feature descriptors, yang menyatakan jumlah atom penerima (akseptor) ikatan hidrogen (tidak termasuk atom asidik namun termasuk atom baik yang berperan baik sebagai donor maupun akseptor ikatan hidrogen, seperti –OH)

vsurf_ID1 merupakan kelompok deskriptor luas permukaan, volume dan bentuk. Deskriptor dalam kelompok ini bergantung kepada konektivitas struktur dan konformasi. Vsurf_ID* menyatakan hydrophopic integy moment (ada 8 deskriptor).

Parameter statistik yang pertama dinilai dari persamaan QSAR yang diperoleh yaitu koefisien determinasi (r2) yang menjelaskan berapa % aktivitas biologis yang dapat dijelaskan hubungannya dengan parameter sifat kimia fisik (deskriptor) yang digunakan. Nilai r2 berada antara 0-1. Semakin mendekati 1 nilai r maka persamaan tersebut memiliki hubungan yang tinggi antara variabel bebas dan variabel tak bebasnya. Dalam persamaan QSAR terpilih diatas, persamaan ke-5 lah yang memiliki nilai r2 paling tinggi yaitu sebesar 0,8213. Parameter statistik yang berikutnya adalah SE (Standard Error) atau dalam MOE disebut sebagai LOF (lack of fit) yang menjelaskan tingkat kesalahan persamaan QSAR yang diperoleh. Semakin kecil nilai SE maka model persamaan regresi tersebut semakin baik. Dalam persamaan QSAR terpilih di atas, persamaan ke-5 lah yang memiliki nilai LOF/SE paling kecil, yaitu sebesar 0,1025. Selanjutnya parameter harga Anova (F) berfungsi untuk melihat pengaruh secara keseluruhan variabel bebas terhadap variabel tak bebas, digunakan untuk menguji apakah persamaan yang didapatkan ada hubungan linearitasnya atau hanya sebuah kebetulan. Persamaan QSAR dianalisis dengan membandingkan nilai Fhitung dengan Ftabel. Jika Fhitung > Ftabel atau nilai Fhitung/Ftabel >1 maka persamaan tersebut ada hubungan linearitas bukan hanya sebuah kebetulan semata. Semakin besar nilai

9

Page 10: analisis QSAR

Fhitung/Ftabel maka semakin signifikan persamaan tersebut. Dalam persamaan QSAR terpilih di atas, persamaan ke-5 lah yang memiliki harga F paling besar yaitu sebesar 22,9791.

Penggunaan parameter diatas seperti r2, SE dan F secara statistik telah mencukupi untuk memilih model persamaan terbaik tetapi belum dapat memberikan gambaran yang nyata tentang kemampuan prediksi dari masing-masing model persamaan yang diperoleh hasil perhitungan statistik Multi Linear Regression (MLR). Prediction Residual Sum of Squares (PRESS) digunakan sebagai parameter uji selanjutnya untuk mengetahui kemampuan prediksi model-model persamaan tersebut, menurut Draper dan Smith (1981) semakin kecil nilai PRESS suatu model persamaan QSAR maka kemampuannya untuk memprediksi aktivitas biologi semakin baik. Nilai PRESS diperoleh dengan metode Leave One Out. Dari persamaan QSAR diatas persamaan ke-5 lah yang memiliki harga PRESS terkecil yaitu sebesar 1,642189. Dengan berbagai pertimbangan parameter statistik diatas, persamaan ke-5 lah yang dipilih sebagai persamaan QSAR terbaik.

SCAFFOLD

Analog 3-substitutusi 2-methyl-6-methylsulfonylindole

10

Page 11: analisis QSAR

Nilai pIC50 yang berarti -log (IC50) menggambarkan konsentrasi yang dibutuhkan untuk menghambat separo dari aktivitas biologis, biasanya digunakan untuk mengukur efektivitas suatu senyawa terhadap aktivitas biologis tertentu. Nilai pIC50 yang semakin besar mengindikasikan potensi suatu senyawa yang lebih besar. Berdasarkan hasil eksperimen diatas, nilai pIC50 yang paling besar adalah pada senyawa 13a dengan substituen S-fenil-F (di posisi 4). Jika dibandingkan dengan persamaan QSAR terpilih :

IC50 = 8.49946 + 0.116956 * RDF085v + 0.0728364 * RDF100u + -0.849022 * a_acc + -0.913227 * vsurf_ID1

Atom elektronegatif seperti flour, nitrogen dan oksigen merupakan akseptor ikatan hidrogen. Hal ini berkorelasi dengan persamaan QSAR diatas khususnya pada deskriptor a_acc. Semakin banyak jumlah atom akseptor ikatan hidrogen, maka semakin kecil nilai IC50nya atau dengan kata lain semakin besar nilai pIC50 nya. Flour merupakan atom dengan elektronegatifitas terbesar (4.0) jadi semakin mudah menjadi akseptor ikatan hidrogennya, sehingga aktivitasnya semakin kuat. Sulfur juga merupakan atom dengan elektronegatifitas relatif kuat yaitu sebesar 2,5. Hal ini menunjukkan bahwa persamaan QSAR yang terpilih berkorelasi dengan aktivitas biologis (data eksperimental).

Analog 2-substitutusi-6-methylsulfonyl-3-thioaryloxyindole

11

Page 12: analisis QSAR

Hal yang serupa juga berlaku untuk analog senyawa diatas. Senyawa yang memiliki harga p IC50 terbesar adalah senyawa 24g, yang memiliki atom dengan elektronegatifitas kuat yaitu Cl dan gugus CN.

V. KESIMPULAN

1. Persamaan QSAR terpilih

IC50 = 8.49946 + 0.116956 * RDF085v + 0.0728364 * RDF100u + -0.849022 * a_acc + -0.913227 * vsurf_ID1

2. Parameter statistik dari persamaan QSAR terpilih : r2 = 0,8213, LOF = 0,1025, F = 22,9791, PRESS = 1,642189

3. Deskriptor esensial : a_acc, vsurf_ID14. Terdapat hubungan antara persamaan QSAR yang diperoleh dengan aktivitas biologis

hasil eksperimental

VI. DAFTAR PUSTAKA

Leach, A.R., 1996, Molecular Modelling : Principles and Aplications, Addison Wishley, Longman, London

Molecular Operating Environment (MOE), 2010.10; Chemical Computing Group Inc., 1010 Sherbooke St.West, Suite #910, Montreal, QC, Canada, H3A, 2R7, 2010.

Pranowo, H. D. 2002. Kimia Komputasi. Pusat Kimia Komputasi Indonesia-Austria Kimia FMIPA UGM. Yogyakarta.

Sardjoko, 1993, Rancangan Obat, UGM Press, Yogyakarta.

12