metin madenciliği ile cümleleri kategorilendirme
TRANSCRIPT
![Page 1: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/1.jpg)
VERİ MADENCİLİĞİ DÖNEM PROJESİ
![Page 2: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/2.jpg)
Merhaba!Oğuzcan [email protected]
![Page 3: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/3.jpg)
İÇERİK
▸ Projenin Tanımı▸ Proje Tasarımı▸ Kullanılan
Teknolojiler▸ Literatür Araştırması▸ İşlem Basamakları▸ Proje
Değerlendirmesi
![Page 4: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/4.jpg)
1.Projenin Tanımı Proje hakkında
kısa bilgiler
![Page 5: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/5.jpg)
Proje Tanımı
▸ Cümlelerin belirli kategorilere göre sınıflandırılması
▸ Twitter verileri kullanılabilir
▸ Gazete , dergi , blog verileri kullanılabilinir
![Page 6: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/6.jpg)
2.Projenin Tasarımı Projenin
basamakları
![Page 7: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/7.jpg)
Öğrenme Datası
Oluşturma
Datayı Öğrenme
Verilerin Kaydedilmesi
Test Datası
OluşturmaTest Sonuç
![Page 8: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/8.jpg)
KDD Process
![Page 9: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/9.jpg)
İş Planıİş Tanımı Projedeki Yüzdesi Durumu
Literatür Taraması %10 Tamamlandı
Proje Tasarımı %5 Tamamlandı
Twitter Bağlantısı ve Data Oluşturma %5 Tamamlandı
Data Temizleme %20 Tamamlandı
Database Bağlantısı ve Dataları
Ekleme%10 Tamamlandı
Veri Madenciliği Teknik Seçimi %5 Tamamlandı
Veri Madenciliği Tekniğini Kodlama %15 Tamamlandı
Tahmin Üretme %10 Tamamlandı
Başarı ve Hata Oranı Hesaplama %10 Tamamlandı
Literatürdeki Algoritmayla Karşılaştırma %10 Tamamlanmadı
![Page 10: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/10.jpg)
3.Kullanılan Teknolojiler
Programlama dili, versiyon
kontrol sistemi vb.
![Page 11: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/11.jpg)
▸ Projede Java Programlama Dili kullanılmıştır
▸ Twitter4j - Twitter verilerini kullanabilmek için
▸ MySQL – Veri saklamak için
▸ Zemberek – Türkçe kelime köklerini bulmak için
▸ «Git» versiyon kontrol sistemi
![Page 12: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/12.jpg)
4.Benzer Çalışmalar
Kullanılan teknolojiler ve
yapılar
![Page 13: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/13.jpg)
▸ Frekans analizi en çok kullanılan yöntem
▸ Makine öğrenmesinin çeşitli teknikleri kullanılmış
▸ Türkiye’de yapılan çalışmalarda Zemberek popüler
▸ Hata oranı hesaplamalarında «Accuracy» ve «Error Rate» tekniklerinden faydalanılmış
![Page 14: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/14.jpg)
Literatür - 1
▸ Kocaeli Üniversitesi▸ Metin Madenciliği ile soru
cevaplama sistemi▸ Kullanıcıdan alınan soru ön
işlemeye tabi tutulur ve anahtar sözcükler belirlenir.
▸ Anahtar sözcüklerin önemine göre uygun cevap aranır.
![Page 15: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/15.jpg)
Literatür - 1
▸ Ön işleme ; edat, bağlaç, ünlem çıkarılmış
▸ XML dosyasında tutulan istenmeyen sözcükler metinde aranmış ve çıkarılmış
▸ Sözcüklerin anahtar cümlede az geçmesi o cümle için belirleyici olduklarını gösterir
![Page 16: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/16.jpg)
Literatür - 1
▸ Cevaplar veri tabanında hazır halde
▸ Burada kosinüs benzerliği ile cevap aranır
![Page 17: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/17.jpg)
Literatür - 2
▸ Sosyal Ağlarda Akan Veri Madenciliği
▸ Temel olarak veri madenciliği aşamaları açıklanmıştır.
▸ Örnek olarak; boy, kilo bilgilerine göre cinsiyet belirleme tekniği anlatılmış
![Page 18: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/18.jpg)
Literatür - 2
▸ KNN Algoritması kullanılmış.
▸ Burada Kilo, Boy ve cinsiyete göre tablo oluşturulmuş.
▸ Oluşturulan tabloya yeni gelen verinin cinsiyeti hesaplanırken en yakın 3 komşuya bakılmış ve karar verilmiştir.
![Page 19: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/19.jpg)
Literatür - 3
▸ Sosyal Ağlarda Veri Madenciliği
▸ Amaç; sosyal medyanın veri kaynağı olarak kullanılmasını anlatmak.
![Page 20: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/20.jpg)
Literatür - 3
▸ Çizge teoremi ; graph yaklaşımı , Facebook kim kimle arkadaş ?
▸ Kümeleme yöntemi -Küme merkezlerinin belirlenmesi -Merkez dışındakilerin mesafeye göre sınıflandırılması -Sınıflandırma sonuçlarına göre merkezin değişmesi -Kararlı hal
![Page 21: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/21.jpg)
Literatür - 3
▸ Fikir madenciliği; - Olumlu, olumsuz yorum - Duygu analizi - Uzun yıllardır yapılan, mail spam mi? çalışmaları.
![Page 22: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/22.jpg)
5.İşlem Basamakları
Data toplama, temizleme ,
öğrenme..
![Page 23: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/23.jpg)
Data oluşturma
▸ Kategoriler oluşturulurken en çok okunan gazeteler kullanılmıştır (öğrenme)
▸ Test Dataları-Twitter-Gazete
![Page 24: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/24.jpg)
Kategoriler
▸ Spor , Sağlık , Teknoloji , Magazin , Ekonomi
▸ Unknown
▸ Sampling random olarak alınmıştır
![Page 25: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/25.jpg)
Data Temizleme
▸ Gazetelerden alınanlar – noktalama işaretleri
▸ Twitterdan alınanlar-
{"@","RT","http",")","(","#",":","/","*","=","- ","<",">","'"} (temizlendi)
- {"RT","?"} (çıkarıldı)
▸ Tüm datalar lowercase halinde
![Page 26: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/26.jpg)
Sistem Öğrenmesi
▸ Gazete verileri
▸ Gazetelerden alınan kategori örnekleri içerisinde geçen kelimelerin frekansları hesaplanır.
▸ Frekans değerleri kelimelerin ağırlığı olacaktır.
![Page 27: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/27.jpg)
Sistem Öğrenmesi
▸ Gelen test verileri için her kategori üzerinde değeri hesaplanır. (Ağırlıklar çarpımı)
▸ Çıkan sonuçlar büyük olduğundan normalizasyon yapılır.
▸ Değeri en yüksek kategori belirlenir.
▸ «0» olan sonuçlar dahil edilmez.
![Page 28: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/28.jpg)
Test Asaması
▸ Test dataları ile öğrenme dataları birbirinden farklı
▸ Test dataları hem twitter hem de gazetelerden alınmıştır
▸ Hata oranı hesaplanırken gazetelerden alınan 45 cümle örneği kullanılmıştır
▸ Bu cümleler rastgele seçilmiştir
![Page 29: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/29.jpg)
Hata Oranı ve Model Değerlendirmesi
0,733 accuracy0,267 error rate
![Page 30: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/30.jpg)
Basarı OranlarıToplam Başarılı Başarısız
Magazin 10 8 2
Spor 11 7 4
Teknoloji 8 6 2
Ekonomi 8 6 2
Sağlık 8 6 2
![Page 31: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/31.jpg)
73,3%Total success!
![Page 32: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/32.jpg)
Daha Neler Yapılabilir ?
![Page 33: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/33.jpg)
Neler Eklenebilir / Değiştirilebilir ?
▸ Öğrenme datası arttırılmalı
▸ Öğrenme datasına Twitter’dan veri eklenebilir
▸ Literatür uygulamalarıyla karşılaştırma (Başarı oranları)
▸ Veri toplamak için otomasyon yazılabilinir
![Page 35: Metin Madenciliği ile Cümleleri Kategorilendirme](https://reader035.vdocuments.net/reader035/viewer/2022081507/5871294f1a28abe4448b6c67/html5/thumbnails/35.jpg)
KAYNAKLAR
▸ Seker,S. E. (2015). Sosyal Ağlarda Veri
Madenciliği,YBS Ansiklopedi ▸ Seker,S. E. (2014). Sosyal Ağlarda Akan Veri
Madenciliği,YBS Ansiklopedi ▸ Sevinç I, Duru,N, Karagöz Ş, Sağır M. Metin
Madenciliği ile Soru Cevaplama Sistem, Kocaeli Üniversitesi
▸ Bilgisayar Kavramları , Sadi Evren Şeker