setisi 2015

19
Rekomendasi Anime dengan Latent Semantic Indexing Berbasis Sinopsis Genre OLEH: RUDY ADITYA ABARJA

Upload: prodi-tk-if-politeknik-tedc-bandung

Post on 09-Aug-2015

14 views

Category:

Science


1 download

TRANSCRIPT

Rekomendasi Anime dengan Latent Semantic Indexing Berbasis Sinopsis GenreOLEH:

RUDY ADITYA ABARJA

Latar BelakangSaat ini jumlah anime yang beredar sangatlah banyak.Penikmat anime kebingunan untuk mencari anime yang cocok dengan selera mereka karana keterbatasan informasi mengenai anime.

TujuanMenentukan faktor yang menentukan ketetepatan penemuan rekomendasi anime.Membuat sistem yang dapat memberi rekomendasi yang objektif.

Latent Semantic Indexing atau LSI adalah metode indexing yang berbasis Singular Value Decomposition (SVD) dari matriks term-document. SVD adalah prosedur matematis untuk mengubah matriks term-document sedemikian rupa sehingga pola asosiatif intriksik utama dalam dalam koleksi dokumen terungkap.

Latent Semantic Indexing

www.anime-planet.comAnime-planet adalah salah satu situs terlengkap berbahasa Inggris yang berisi informasi mengenai anime dan manga.

Kelebihan: Anime-Planet memiliki kekayaan informasi statistik berdasarkan masukan dari komunitas penggunanya,

seperti: jumlah akses, rating, dsb.

Kekurangan: Fitur pencarian yang hanya memberikan hasil terhadap penelusuran yang terbatas pada judul.Pemberian rekomendasi, hasilnya diambil melalui informasi yang diberikan oleh komunitas dan tag

topik, tanpa proses analisis tekstual.

Pengambilan DataMenggunakan aplikasi web crawler HTTrack pada situs

www.anime-planet.comPeriode pengambilan data:Tanggal 1 April 2014 sampai dengan 7 April 2014o18.492 halaman dan memiliki ukuran total 1,8GB

Tanggal 1 Mei 2014 sampai dengan 5 Mei 2014 o18.492 halaman dan memiliki ukuran total 1,82GB

Penyaringan DataPenyaringan dilakukan dengan aplikasi JavaData disimpan dalam bentuk object file JavaObject file Java disaring dengan menggunakan aplikasi yang dibuat

Penyaringan DataSyarat data valid:Sampel : harus memiliki general genre Tester : harus memiliki general genre dan memiliki rekomendasi dari

user

Hasil penyaringan data2.511 judul anime valid sebagai sampel (sebelum Musim Dingin 2014)29 judul anime valid sebagai tester (periode Musim Dingin 2014)12.717 term 22 genre

ScoringSimilarity

Similarity= cosinesimilarity* 10000

RankingRanking= 5557 – rankinganime

RatingRating= ( ) * 10000

User statisticUser statistic = (watched - dropped) + (watching - stalled) + (want watch – won’t watch)

Metode Scoring Metode 1 = similarity

Metode 2 = similarity + ranking

Metode 3 = similarity + rating

Metode 4 = similarity + user statistic

Metode 5 = similarity + ranking + rating

Metode 6 = similarity + ranking + user statistic

Metode 7 = similarity + rating + user statistic

Metode 8 = similarity + ranking + rating + user statistic

EksperimenMembandingkan hasil pencarian dengan hasil rekomendasi pengguna situs anime-planet

Membandingkan hasil pencarian dengan hasil rekomendasi yang menerapkan algoritma VSM (Vector Space Model) dengan pembobotan TF/IDF.Algortima VSM membandingkan antar anime berdasarkan sinopsis saja

Percobaan LSIJika salah hasil rekomendasi sama dengan hasil rekomendasi pengguna, maka dianggap benarPenentuan genre menggunakan nilai k : 2, 5, 10, 15, 22 (mulai dari 2, lalu naik kelipatan 5 sampai jumlah

genre maksimal)Konfigurasi terbaik dari penentuan genre akan dipakai dalam rekomendasi judulHasil rekomendasi top-5, top-10, top-15, top-20, top-25Untuk hasil yang cocok dilihat apakah ada term dalam sinopsis yang muncul dalam komentar

rekomendasi pengguna

Hasil Eksperimen Pengaruh Jumlah Dimensi Untuk Pemberian GenrePengaruh jumlah dimensi (nilai k)pada matriks LSI,

Hasil yang terbaik k = 22 dengan top 3 dan k = 22 dengan top 5, tetapi yang dipilih adalah top 3 karena lebih spesifik

Hasil Eksperimen Pemberian Rekomendasi JudulLSI

Rata-rata akurasi keseluruhan 20.09%Metode rekomendasi dengan akurasi terbaik adalah metode 1 (similaritas) dengan rata-rata akurasi

21.38%

VSM with TF/IDFRata-rata akurasi keseluruhan 14.48%Metode rekomendasi dengan akurasi terbaik adalah metode 3 (similaritas dan rating) dengan rata-rata

akurasi 21.38%Metode 1 (sinopsis similarity) hanya memiliki rata-rata akurasi 3.45%. Dari konfigurasi top-5 sampai top-

25 hanya ada 1 judul yang cocok. Hal ini membuktikan nilai similaritas dari VSM tidak memliki kontribusi berarti

KesimpulanUntuk membangun aplikasi mesin rekomendasi anime, dibutuhkan data-data anime yang lengkap. Data-data berupa judul, sinopsis, dan genre dibutuhkan untuk menciptakan hubungan antar anime dalam pembuatan indeks. Data tersebut dapat diambil dari situs tentang anime, seperti www.anime-planet.com.

Hasil pemberian genre dengan menggunakan LSI lebih menjanjikan karena dapat memberikan rekomendasi genre yang cocok dengan query anime. Genre memiliki peran yang sangat penting dalam menciptakan hubungan (relasi domain) antar anime.

Hasil rekomendasi mesin dengan menggunakan LSI masih belum dapat mendekati rekomendasi manusia yang bersifat sangat subjektif.

Hasil eksperimen menunjukkan bahwa informasi rating dari komunitas memiliki faktor yang lebih menentukan dibandingkan faktor komunitas lainnya, seperti ranking ataupun user statistics.

Rekomendasi dari manusia (komunitas) meskipun berdasarkan pada pendapat subyektif, masih tetap memiliki unsur objektivitas, sehingga ada kemungkinan rekomendasi mesin dapat sesuai dengan rekomendasi manusia. Hal tersebut dapat dilihat dari adanya kata-kata yang beririsan antara sinopsis anime yang direkomendasikan dan komentar dari pengguna.

SaranMelakukan pembelajaran untuk menilai kualitas rekomendasi berbasis komunitas. Hal ini dapat bermanfaat untuk mengaitkan keterkaitan antara subyektivitas dari penggunan dan pengaruhnya terhadap pemberian rekomendasi.

Membuat proses indeksasi secara lebih up-to-date, yaitu dengan membentuk indeks melalui teknik incremental, sehingga perubahan-perubahan yang ada dalam sumber data dapat langsung ditangani.

TERIMA KASIH