newsminer ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

77
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΠΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ: 2007 - 2008 NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ Επιβλέπων Γιάννης Θεοδωρίδης, Αναπληρωτής Καθηγητής Νίκος Πελέκης, Διδάσκων ΠΔ 407/80 Φοιτητής Διονύσης Νινιός

Upload: leala

Post on 13-Jan-2016

43 views

Category:

Documents


0 download

DESCRIPTION

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΠΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ : 2007 - 2008. NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ. Επιβλέπων Γιάννης Θεοδωρίδης, Αναπληρωτής Καθηγητής Νίκος Πελέκης, Διδάσκων ΠΔ 407/80 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΜΠΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ

ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ: 2007 - 2008

NewsMinerΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ

ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

Επιβλέπων Γιάννης Θεοδωρίδης, Αναπληρωτής ΚαθηγητήςΝίκος Πελέκης, Διδάσκων ΠΔ 407/80

Φοιτητής Διονύσης Νινιός

Page 2: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΚΟΠΟΣ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

ΤΟ ΣΥΣΤΗΜΑ NEWSMINER

CASE STUDY

ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

ΚΥΡΙΑ ΣΗΜΕΙΑ

Page 3: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΚΥΡΙΑ ΣΗΜΕΙΑ

ΣΚΟΠΟΣ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

ΤΟ ΣΥΣΤΗΜΑ NEWSMINER

CASE STUDY

ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

Page 4: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

Διαδίκτυο

ΣΚΟΠΟΣ

Πολλές χρήσεις

Τεράστιος όγκος αδόμητης πληροφορίας

Δυσκολία εύρεσης χρήσιμης πληροφορίας

Ενημέρωση Δημοφιλής χρήση Διαδικτύου

Πολλοί Διαδικτυακοί φορείς ενημέρωσης

Διαφορετικές ειδήσεις και όψεις ειδήσεων

Page 5: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

Η ανάπτυξη ενός συστήματος

Ολοκληρωμένου

Αυτοματοποιημένου

Εύρεση άρθρων από Διαδίκτυο

Ομαδοποίηση άρθρων σε θέματα

Παρουσίαση θεμάτων - άρθρων

ΣΚΟΠΟΣ

Page 6: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΚΥΡΙΑ ΣΗΜΕΙΑ

ΣΚΟΠΟΣ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

ΤΟ ΣΥΣΤΗΜΑ NEWSMINER

CASE STUDY

ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

Page 7: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

Εύρεση δομημένης πληροφορίας [1], [2]

Κατηγοριοποίηση σελίδων [3], [4], [5]

Συγκέντρωση πολλών πηγών [6], [7]

Στοιχεία χρήστη [8], [9]

Κοινωνιολογικά δεδομένα [10], [11]

Page 8: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

Διάχυση πληροφορίας σε κοινωνικά δίκτυα [12], [13], [14]

Εύρεση κοινοτήτων σε κοινωνικά δίκτυα [15], [16]

Παρουσίαση δεδομένων [17]

Page 9: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

CEBIL

Page 10: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

PALO

Page 11: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

NEEMO

Page 12: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

GOOGLE NEWS

Page 13: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ

Εξαγωγή πληροφορίας από WEB σελίδες

Ερευνητικές Εργασίες

Εφαρμογή σε μεγάλο όγκο δεδομένων

Λήψη ικανοποιητικών αποτελεσμάτων

NewsMiner

Εφαρμογή σε περιορισμένο όγκο δεδομένων

Λήψη αποτελεσμάτων με μεγάλη ακρίβεια

Page 14: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ

Κατηγοριοποίηση σελίδων

Ερευνητικές Εργασίες

Χρήση περιεχομένου σελίδας

Ταξινόμηση σε γενικές κατηγορίες

NewsMiner

Χρήση επεξεργασμένου περιεχομένου σελίδας

Ταξινόμηση σε βάθος

Page 15: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ

Cebil - PaloΊδιο στόχο με NewsMiner

Άγνωστες τεχνικές λειτουργίας

NeemoΠαρόμοιο στόχο - τεχνικές με NewsMiner

Google NewsΤαξινόμηση σε γενικές κατηγορίες

Page 16: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΚΥΡΙΑ ΣΗΜΕΙΑ

ΣΚΟΠΟΣ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

ΤΟ ΣΥΣΤΗΜΑ NEWSMINER

CASE STUDY

ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

Page 17: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΔΟΜΗ NEWSMINER

NC1

NC2

NCK

ΕΥΡΕΣΗ ΝΕΩΝ

ΑΡΘΡΩΝ

ΤΑΞΙΝΟΜΗΣΗΝΕΩΝ ΑΡΘΡΩΝ

ΒΑΣΗΑΡΘΡΩΝ

ΕΠΙΚΑΙΡΟΤΗΤΑΣ

ΑΠΟΘΗΚΗΠΑΛΑΙΩΝΑΡΘΡΩΝ

ΔΙΕΠΑΦΗ ΧΡΗΣΤΗΝEWSCHANNELS

NEWS MINER

Page 18: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ

Γενικά χαρακτηριστικά

Εννοιολογικός – Λογικός – Φυσικός

Σχεδιασμός

Υλοποίηση ρουτινών στη βάση δεδομένων

Page 19: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΓΕΝΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ

Εκμετάλλευση RSS FEEDS

Εξαγωγή στοιχείων άρθρου

Αυτοματοποίηση

Ταχύτητα εκτέλεσης

Page 20: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

RSS_URLS OLD_CATEGORIESCat_Urls NEWS_CATEGORIESOld-New

NC-Url

Tags

Tag_Url Tag_Title Tag_Cat

Tag_Date Tag_New

Rss_Url

Order-Nr CD Dscr CD Dscr

RSS_DATA

Data-Url

RSS_EXTRACT_DATAData-

ExtrData

AA

Rss

Dt_Insert

Dt_Update

Flg_Done

Html_Text

DescrDt_Update_html_Data

Dt_Update_Html_Text

Dt_Insert

Pubdate

AA

Flg_Done

Title

Html_Data

Link_Url

Cat-ExtrData

LOAD_ERRORS

AA

Dt

Proc_Name

AA_Proc

Descr

Err_Code

NEWS_CARRIERS

Pattern_Start

Pattern_End

Flg_Kind

Old_Pattern

New_Pattern

Tag

Flg_KindCD

Url_Name

Name

Tags

Tag_Start1

Tag_Start2

Tag_Start3

Patterns_OutTitle_Replace Tags_Out

Patterns_End

Charset

Patterns_Replace

Pattern_Old

Pattern_New

AA

Page 21: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

RSS_URLS

CD_CARRIERRSS_URL ORDER_NRTAG_NEWTAG_DATETAG_TITLETAG_URLTAG_CATDEFAULT_CAT

PATTERNS_OUT

AACD_CARRIERPATTER_STARTPATTERN_ENDFLG_KIND

NEWS_CARRIERS

CD NAMEURL_NAMETAG_START1TAG_START2TAG_START3CHARSET

RSS_DATA

AARSSRSS_URLFLG_DONEDT_INSERTDT_UPDATE

NEWS_CATEGORIES

CD DSCR

LOAD_ERRORS

AA DTPROC_NAMEAA_PROCDESCRERR_CODE

TAGS_OUT

CD_CARRIERTAGFLG_KIND

PATTERNS_REPLACE

CD_CARRIERPATTERN_OLDPATTERN_NEW

PATTERNS_END

CD_CARRIERPATTERN_END

RSS_EXTRACT_DATA

AAAA_RSS_DATACD_CARRIERTITLELINK_URLPUBDATECATDESCRHTML_DATAHTML_TEXTFLG_DONEDT_INSERTDT_UPDATE_HTML_DATADT_UPDATE_HTML_TEXTCD_CAT

TITLE_REPLACE

CD_CARRIER OLD_PATTERNNEW_PATTERN

: Primary Key

: Foreign Key

OLD_CATEGORIES

CD DSCRCD_CAT_NEW

Page 22: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ

ΕΙΣΑΓΩΓΗ RSS

ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ ΑΠO

RSS

ΑΠΟΘΗΚΕΥΣΗ HTML ΑΡΘΡΟΥ

ΕΞΑΓΩΓΗ ΚΑΙ ΑΠΟΘΗΚΕΥΣΗ

ΚΕΙΜΕΝΟΥ ΑΡΘΡΟΥ

Χρήση RSS Feeds

Really Simple Syndication

XML τυποποίηση

Αναπαράσταση πληροφοριών συνεχώς μεταβαλλόμενων

Βασικές πληροφορίες είδησης (URL, τίτλος, δημοσίευση κ.α.)

Page 23: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ

<item rdf:about="http://www.in.gr/news/article.asp?lngEntityID=1025323"> <title>Δύο κορίτσια εννέα ετών πνίγηκαν σε πισίνα κατασκήνωσης στη Λάρισα</title> <link>http://www.in.gr/news/article.asp?lngEntityID=1025323</link> <description>Σε ένα τραγικό όσο και πρωτοφανές περιστατικό, δύο 9χρονα κοριτσάκια πνίγηκαν το απόγευμα της Παρασκευής σε πισίνα ιδιωτικής κατασκήνωσης στο νομό Λάρισας, κάτω από αδιευκρίνιστες συνθήκες. Συνελήφθησαν οι ιδιοκτήτες της κατασκήνωσης και διενεργείται προανάκριση από τις Αρχές.</description> <dc:date>Fri, 19 Jun 2009 19:21:00 UTC</dc:date> <dc:source>ΑΠΕ-ΜΠΕ</dc:source> </item>

Δομή RSS Feeds

Page 24: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

Επιλογή γενικών κατηγοριών άρθρων

ΕΛΛΑΔΑ ΟΙΚΟΝΟΜΙΑ

ΑΘΛΗΤΙΚΑ ΚΟΣΜΟΣ

ΕΠΙΣΤΗΜΗ ΠΟΛΙΤΙΣΜΟΣ

ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ

Page 25: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ RSS ΥΠΑΡΧΕΙ; ΤΕΛΟΣ

ΕΥΡΕΣΗ ΣΥΝΟΛΟΥ ΧΑΡΑΚΤΗΡΩΝ

ΠΡΟΒΛΗΜΑ;

ΔΙΑΒΑΣΜΑ ΚΑΙ ΑΠΟΘΗΚΕΥΣΗ

ΠΕΡΙΕΧΟΜΕΝΟΥ RSS

ΠΡΟΒΛΗΜΑ;

ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ

OXI

NAI

NAI

OXI

NAI

OXI

Page 26: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ RSS ΥΠΑΡΧΕΙ; ΤΕΛΟΣ

ΕΥΡΕΣΗ ΕΠΟΜΕΝΗΣ

ΕΙΔΗΣΗΣ ΣΕ RSS

OXI

NAI

ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΠΌ RSS

ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΗΜΕΡΟΜΗΝΙΑΣ

ΠΡΟΒΛΗΜΑ;

ΕΠΕΞΕΡΓΑΣΙΑ ΤΙΤΛΟΥ

ΥΠΑΡΧΕΙ;

ΠΡΟΒΛΗΜΑ;

ΕΥΡΕΣΗ ΝΕΑΣ ΚΑΤΗΓΟΡΙΑΣ

ΠΡΟΒΛΗΜΑ;

ΕΧΕΙ ΕΙΣΑΧΘΕΙ

ΞΑΝΑ;

ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ

ΕΙΣΑΓΩΓΗ ΕΙΔΗΣΗΣ

ΠΡΟΒΛΗΜΑ;

NAI

OXI

NAI

OXI

OXI

NAI

NAI

NAI

OXI

OXI

NAI

OXI

Page 27: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ ΑΡΘΡΟΥ ΥΠΑΡΧΕΙ;

ΔΙΑΒΑΣΜΑ ΣΥΝΟΛΟΥ

ΧΑΡΑΚΤΗΡΩΝ

OXI

NAI

ΠΡΟΒΛΗΜΑ;

ΔΙΑΒΑΣΜΑ ΚΑΙ ΑΠΟΘΗΚΕΥΣΗ HTML ΑΡΘΡΟΥ

ΠΡΟΒΛΗΜΑ;

ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ

ΕΛΕΓΧΟΣ ΕΠΙΤΥΧΟΥΣ

ΟΛΟΚΛΗΡΩΣΗΣ

ΠΡΟΒΛΗΜΑ;

ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ

ΤΕΛΟΣ

NAI

NAI

NAI

OXI

OXI

OXI

Page 28: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ ΑΡΘΡΟΥ ΥΠΑΡΧΕΙ;

ΑΦΑΙΡΕΣΗ ΕΙΔΙΚΩΝ ΧΑΡΑΚΤΗΡΩΝ

OXI

NAI

ΠΡΟΒΛΗΜΑ;ΕΝΗΜΕΡΩΣΗ

ΠΙΝΑΚΑ ΛΑΘΩΝ

ΕΛΕΓΧΟΣ ΕΠΙΤΥΧΟΥΣ

ΟΛΟΚΛΗΡΩΣΗΣ

ΠΡΟΒΛΗΜΑ;

ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ

ΤΕΛΟΣ

NAI

NAI

OXI

OXI

ΑΦΑΙΡΕΣΗ ΣΥΝΕΧΟΜΕΝΩΝ ΚΕΝΩΝ

ΕΥΡΕΣΗ ΑΡΧΗΣ-ΤΕΛΟΥΣ ΚΕΙΜΕΝΟΥ ΑΡΘΡΟΥ

ΑΦΑΙΡΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΒΑΣΗ PATTERNS

ΑΦΑΙΡΕΣΗ ΜΙΣΩΝ TAGS

ΑΦΑΙΡΕΣΗ TAGS ΚΑΙ ΠΕΡΙΕΧΟΜΕΝΩΝ ΤΟΥΣ

ΑΦΑΙΡΕΣΗ ΟΛΩΝ ΤΩΝ TAGS

ΑΦΑΙΡΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΒΑΣΗ PATTERNS

ΑΝΤΙΚΑΤΑΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΦΑΙΡΕΣΗ ΣΥΝΕΧΟΜΕΝΩΝ ΚΕΝΩΝ

ΑΦΑΙΡΕΣΗ ΚΕΝΟΥ ΣΕ ΑΡΧΗ - ΤΕΛΟΣ

ΑΦΑΙΡΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟ ΤΕΛΟΣ ΑΡΘΡΟΥ

ΕΙΣΑΓΩΓΗ ΚΕΙΜΕΝΟΥ ΑΡΘΡΟΥ

ΠΡΟΒΛΗΜΑ;OXI NAI

Page 29: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ

NEWS_TOPICS

AA_TOPIC Κωδικός θέματος (συστάδας)

AA_FIRST Κωδικός ενός σχετικού άρθρου

RELATIVE Πλήθος σχετικών άρθρων

NEWS_TOPICS_DTL

AA_TOPIC Κωδικός θέματος

AA_ITEM Κωδικός άρθρου

OLD_ITEMS

AA_OLD Παλαιό άρθρο

AA_NEW Σχετικό ενεργό άρθρο

Page 30: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ

ΤΕΛΟΣ

ΕΥΡΕΣΗ ΝΕΩΝ ΑΡΘΡΩΝ

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΑΡΘΡΩΝ

ΕΝΗΜΕΡΩΣΗ ΤΕΛΙΚΩΝ ΠΙΝΑΚΩΝ

ΕΥΡΕΣΗ ΥΠΟΛΟΙΠΩΝ

ΑΡΘΡΩΝ

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΑΡΘΡΩΝ

ΕΝΗΜΕΡΩΣΗ ΤΕΛΙΚΩΝ ΠΙΝΑΚΩΝ

ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ

ΕΓΓΡΑΦΩΝ

ΕΚΠΑΙΔΕΥΣΗ ΜΟΝΤΕΛΟΥ

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ

Page 31: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

Δημιουργία διαδικασίας συνολικής ενημέρωσης

Χρήση jobs ORACLE

Ωριαία ενημέρωση συστήματος

Ημερήσια διαγραφή παλαιών άρθρων (3:00 π.μ.)

ΑΥΤΟΜΑΤΟΠΟΙΗΣΗ

Page 32: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΚΟΠΟΣ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

ΤΟ ΣΥΣΤΗΜΑ NEWSMINER

CASE STUDY

ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

ΚΥΡΙΑ ΣΗΜΕΙΑ

Page 33: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

CASE STUDYΕπισκόπηση περιβάλλοντος εργασίας

Προετοιμασία διαδικασίας

Κατηγοριοποίηση

Συσταδοποίηση

Ένταξη σε παραγωγική λειτουργία

Ανάπτυξη Διεπαφής

Page 34: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

ORACLE 11G

ORACLE TEXT

ORACLE APPLICATION EXPRESS

Page 35: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

ORACLE 11G

Δημοφιλές εμπορικό ΣΔΒΔ

Ενσωματωμένες διαδικασίες Data Mining

Πακέτο UTL_HTTP για HTTP requests

Τύπος δεδομένων CLOB

Δυνατότητες αυτοματοποίησης διαδικασιών

Page 36: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

ORACLE TEXT

Αναζήτηση σε μεγάλες στατικές συλλογές εγγράφων: CONTEXT ευρετήριο

Αναζήτηση μικρότερων μεταβαλλόμενων συλλογών εγγραφών: CTX_CAT ευρετήριο

Ομαδοποίηση εγγράφων

Page 37: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

Ομαδοποίηση εγγράφων

Βάσει κανόνων

Με επίβλεψη (κατηγοριοποίηση)

Χωρίς επίβλεψη (συσταδοποίηση)

Page 38: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

Βάσει κανόνων

Δημιουργία κλάσεων και κανόνων από χρήστη

Ευρετήριο CTX_RULE σε κανόνες

Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES

Page 39: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

Με επίβλεψη

Δημιουργία κλάσεων από χρήστη και κανόνων από σύστημα

Ευρετήριο CTX_RULE σε κανόνες και CONTEXT σε εκπαιδευτικό σύνολο

Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES

Δέντρα Απόφασης και SVM

Page 40: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

Χωρίς επίβλεψη

Δημιουργία κλάσεων και κανόνων από σύστημα

K-MEANS

Page 41: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ORACLE APPLICATION EXPRESS

Εργαλείο ανάπτυξης WEB database centric εφαρμογών

Αποθηκευμένο σε βάση δεδομένων (215 πίνακες και 200 PLS/SQL αντικείμενα)

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

Page 42: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

Page 43: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΠΡΟΕΤΟΙΜΑΣΙΑ

In.gr, Καθημερινή, Ελεύθερος Τύπος

Παραμετροποίηση συστήματος

Χρήση διαδικασίας ενημέρωσης

Δημιουργία δεδομένων εκπαίδευσης και ελέγχου (12 μέρες, 766 άρθρα ΕΛΛΑΔΑ, 315 θέματα)

Page 44: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΠΡΟΕΤΟΙΜΑΣΙΑ

ΣΥΣΤΑΔΟΠΟΙΗΣΗ

ΤΕΛΟΣ

ΕΞΑΓΩΓΗ ΝΕΩΝ ΟΡΩΝ

ΕΝΗΜΕΡΩΣΗ ΛΙΣΤΑΣ

OXI

NAIΚΟΙΝΕΣ ΛΕΞΕΙΣ;

Δημιουργία λίστας κοινών λέξεων

Page 45: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ

ΤΕΛΙΚΗ;ΕΥΡΕΣΗ

ΕΠΟΜΕΝΗΣ ΗΜΕΡΟΜΗΝΙΑΣ

NAI

ΑΠΟΘΗΚΕΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

ΔΗΜΙΟΥΡΓΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ

ΔΕΔΟΜΕΝΩΝ

ΕΠΟΜΕΝΗ ΤΙΜΗ ΠΑΡΑΜΕΤΡΟΥ

OXI

ΤΕΛΟΣ

ΥΠΑΡΧΕΙ;

NAI

OXI

ΔΗΜΙΟΥΡΓΙΑ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ ΜΟΝΤΕΛΟΥ

ΑΡΧΙΚΟΠΟΙΗΣΗ

Page 46: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

ΔΕΝΤΡΑ ΑΠΟΦΑΣΗΣ

Επιλογή ανάμεσα σε δυο εναλλακτικές αποφάσεις

Ορατοί κανόνες

Μετασχηματίζονται σε ειδικές αναζητήσεις

Αντιστοίχηση εγγράφων με κατηγορίες

Συγκεκριμένες παράμετροι

Page 47: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.THRESHOLD Ελάχιστο όριο εμπιστοσύνης κανόνων

MAX_TERMSΜέγιστος αριθμός όρων κανόνων ανά κλάση

MEMORY_SIZEΧρησιμοποιούμενη μνήμη

NT_THRESHOLDΕλάχιστο όριο αρχικής επιλογής όρων

TERM_THRESHOLDΕλάχιστο όριο τελικής επιλογής όρων

PRUNE_LEVELΕπίπεδο κλαδέματος δέντρου απόφασης

Page 48: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΚΡΙΤΗΡΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΔΟΚΙΜΩΝ

Συνολικό ποσοστό επιτυχίας

Ποσοστό επιτυχίας ενεργών θεμάτων

Ποσοστό επιτυχίας νέων θεμάτων

Πολλαπλές κατηγοριοποιήσεις

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

Page 49: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

MAX_TERMS(20-200, βήμα 10)

<=

MAX_TERMS(30-50, βήμα 1)

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

Page 50: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

NT_THRESHOLD(0.05-0.9, βήμα 0.05)

<=

TERM_THRESHOLD(10-100, βήμα 5)

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

Page 51: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

TERM_THRESHOLD(25-35, βήμα 1)

<=

THRESHOLD(5-95, βήμα 5)

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

Page 52: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

THRESHOLD(5-20, βήμα 1)

<=

PRUNE_LEVEL(5-100, βήμα 5)

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

Page 53: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

PRUNE_LEVEL(5-80, βήμα 1)

<=

ΣΥΝΟΛΟ ΕΝΕΡΓΑ ΝΕΑ ΠΟΛΛΑΠΛΕΣ

70% 55% 80% 3%

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

Page 54: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

SUPPORT VECTOR MACHINE

Μηχανική μάθηση (στατιστική εκπαίδευση)

Αόρατοι κανόνες

Μετασχηματίζονται σε ειδικές αναζητήσεις

Αντιστοίχηση εγγράφων με κατηγορίες (πιθανότητα)

Συγκεκριμένες παράμετροι

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

Page 55: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

MAX_DOCTERMSΜέγιστος αριθμός όρων ανά κείμενο

MAX_FEATURESΜέγιστος συνολικός αριθμός διακριτών χαρακτηριστικών

THEME_ON – TOKEN_ON – STEM_ONΓλωσσολογικές παράμετροι

MEMORY_SIZEΧρησιμοποιούμενη μνήμη

SECTION_WEIGHTΒάρη σε τμήματα του εγγράφου (HTML, XML)

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

Page 56: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

MAX_FEATURES(1.000-30.000, βήμα 1.000)

<=

Όριο πιθανότητας 30%

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

Page 57: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

Όριο πιθανότητας 25%<=

Όριο πιθανότητας 35%

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

Page 58: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

MAX_DOCTERMS100

<=

MAX_DOCTERMS120

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

Page 59: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΑΛΟΓΡΙΘΜΟΣ ΣΥΝΟΛΟ ΕΝΕΡΓΑ ΝΕΑ ΠΟΛΛΑΠΛΕΣ

DECISION TREE

70% 55% 80% 3%

SVM 75% 65% 81.5% 9%

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

Page 60: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΥΣΤΑΔΟΠΟΙΗΣΗ

K – MEANS

Μέτρηση απόστασης μεταξύ σημείων

Ιεραρχική συσταδοποίηση

Εύρεση κλάσεων και εγγράφων (ποσοστό)

Συγκεκριμένες παράμετροι

Page 61: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

MAX_DOCTERMSΜέγιστος αριθμός όρων ανά κείμενο

MAX_FEATURESΜέγιστος συνολικός αριθμός διακριτών χαρακτηριστικών

THEME_ON – TOKEN_ON – STEM_ONΓλωσσολογικές παράμετροι

MEMORY_SIZEΧρησιμοποιούμενη μνήμη

SECTION_WEIGHTΒάρη σε τμήματα του εγγράφου (HTML, XML)

CLUSTER_NUM

Πλήθος τελικών συστάδων

ΣΥΣΤΑΔΟΠΟΙΗΣΗ

Page 62: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

MAX_FEATURES(1.000 – 30.000, βήμα 1.000)

<=

MAX_FEATURES(100 – 2.000, βήμα 100)

=>

ΣΥΣΤΑΔΟΠΟΙΗΣΗ

Page 63: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

MAX_DOCTERMS 40<=

MAX_DOCTERMS 60 =>

ΣΥΣΤΑΔΟΠΟΙΗΣΗ

Page 64: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

MAX_DOCTERMS 70<=

MAX_FEATURES(1 – 100, βήμα 5)

=>

ΣΥΣΤΑΔΟΠΟΙΗΣΗ

Page 65: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΕΝΤΑΞΗ ΣΕ ΠΑΡΑΓΩΓΗ

Επιλογή μοντέλων

SVM (MAX_FEATURES = 1000, MAX_DOCTERMS = 100)

K – MEANS (CLUSTER_NUM = 20, MAX_DOCTERMS = 70

MAX_FEATURES = 80)

Ενημέρωση διαδικασιών συστήματος

Page 66: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΔΙΕΠΑΦΗ

Page 67: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΔΙΕΠΑΦΗ

Page 68: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΔΙΕΠΑΦΗ

Page 69: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΔΙΕΠΑΦΗ

Page 70: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΔΙΕΠΑΦΗ

Page 71: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΥΜΠΕΡΑΣΜΑΤΑΕξόρυξη γνώσης από WEB Δύσκολη και χρονοβόρα διαδικασία

Προετοιμασία δεδομένων

Ταξινόμηση δεδομένων

Αξιολόγηση συστήματος

Διαδικασία ενημέρωσης: Εξαιρετικά

Ταξινόμηση άρθρων: Ικανοποιητικά

Page 72: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΣΥΜΠΕΡΑΣΜΑΤΑΔυσκολίες σε ταξινόμηση άρθρων Αδόμητη πληροφορία

Γλωσσολογικές δυσκολίες

Ταξινόμηση σε βάθος

Μικρός αριθμός άρθρων ανά κατηγορία

Μεταβαλλόμενα δεδομένα και κατηγορίες

Page 73: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

Χρήση λεξικού συνωνύμων

Δημιουργία stemmer βάσει κανόνων

Εμπλουτισμός λίστας κοινών λέξεων

Περιεκτικότερη αναπαράσταση άρθρων

Χρήση του τίτλου της είδησης

Περαιτέρω δοκιμές σε αλγόριθμους

ΕΠΕΚΤΑΣΕΙΣ

Page 74: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΑΝΑΦΟΡΕΣ[1] Davi de Castro Reis, Paulo B. Golgher, Altigran S. da Silva, Alberto H.

F. Laender: Automatic Web News Extraction Using Tree Edit Distance. International Conference on World Wide Web, (2004)

[2] Cai-Nicolas Ziegler, Michal Skubacz: Content Extraction from News Pages Using Particle Swarm Optimization on Linguistic and Structural Features. IEEE / WIC / ACM International Conference on Web Intelligence, (2007)

[3] Smriti Bhagat, Irina Rozenbaum, Graham Cormode: Applying Link-based Classification to Label Blogs. WEBKDD International Conference, (2007)

[4] Eric Glover, Kostas Tsioutsiouliklis, Steve Lawrence, David Pennock, Gary Flake: Using Web Structure for Classifying and Describing Web Pages. International Conference on World Wide Web, (2002)

[5] Beibei Li, Beibei Li, Jun Zhang: Enhancing Clustering Blog Documents by Utilizing Author / Reader Comments. ACMSE International Conference (2007)

Page 75: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΑΝΑΦΟΡΕΣ[6] Ismail Sengor Altingovde, Rifat Ozcan, Suleyman Cetintas, Hakan

Yilmaz, Özgür Ulusoy: An Automatic Approach to Construct Domain-Specific Web Portals. CIKM International Conference, (2007)

[7] Benjamin E. Teitler, Michael D. Lieberman, Daniele Panozzo, Jagan Sankaranarayanan, Hanan Samet, Jon Sperling: NewsStand: A New View on News. ACM GIS International Conference, (2008)

[8] Riddhiman Ghosh, Mohamed Dekhil: Discovering User Profiles. International Conference on World Wide Web, (2009)

[9] Evgeniy Gabrilovich, Susan Dumais, Eric Horvitz: Newsjunkie: Providing Personalized Newsfeeds via Analysis of Information Novelty. International Conference on World Wide Web, (2004)

[10] Matthew S. Smith: Social Capital in Online Communities. PIKM International Workshop, (2008)

[11] Xin Li, Lei Guo, Yihong (Eric) Zhao: Tag-based Social Interest Discovery. International Conference on World Wide Web, (2008)

Page 76: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

ΑΝΑΦΟΡΕΣ[12] Lei Zhang, Wanqing Tu: Six Degrees of Separation in Online Society.

WebSci International Conference, (2009)

[13] S. Navlakha, R. Rastogi, and N. Shrivastava: Graph summarization with bounded error. ACM SIGMOD International Conference, (2008)

[14] Masahiro Kimura, Hiroshi Motoda: Blocking Links to Minimize Contamination Spread in a Social Network. ACM Transactions on Knowledge Discovery from Data: Vol. 3, (2009)

[15] J.M. Kleinberg: Authoritative sources in a hyperlinked environment. ACM: Vol. 46.

[16] M. Toyoda, M. Kitsuregawa: Extracting evolution of web communities from a series of web archives. ACM Conference on Hypertext and Hypermedia, (2003)

[17] Marc Smith, Vladimir Barash: Social SQL: Tools for exploring social databases. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, (2008)

Page 77: NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

NEWS MINER

ΕΡΩΤΗΣΕΙΣ ;