newsminer ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ
DESCRIPTION
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΠΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ : 2007 - 2008. NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ. Επιβλέπων Γιάννης Θεοδωρίδης, Αναπληρωτής Καθηγητής Νίκος Πελέκης, Διδάσκων ΠΔ 407/80 - PowerPoint PPT PresentationTRANSCRIPT
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ
ΜΠΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ
ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ: 2007 - 2008
NewsMinerΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ
ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ
Επιβλέπων Γιάννης Θεοδωρίδης, Αναπληρωτής ΚαθηγητήςΝίκος Πελέκης, Διδάσκων ΠΔ 407/80
Φοιτητής Διονύσης Νινιός
ΣΚΟΠΟΣ
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
ΤΟ ΣΥΣΤΗΜΑ NEWSMINER
CASE STUDY
ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ
ΚΥΡΙΑ ΣΗΜΕΙΑ
ΚΥΡΙΑ ΣΗΜΕΙΑ
ΣΚΟΠΟΣ
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
ΤΟ ΣΥΣΤΗΜΑ NEWSMINER
CASE STUDY
ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ
Διαδίκτυο
ΣΚΟΠΟΣ
Πολλές χρήσεις
Τεράστιος όγκος αδόμητης πληροφορίας
Δυσκολία εύρεσης χρήσιμης πληροφορίας
Ενημέρωση Δημοφιλής χρήση Διαδικτύου
Πολλοί Διαδικτυακοί φορείς ενημέρωσης
Διαφορετικές ειδήσεις και όψεις ειδήσεων
Η ανάπτυξη ενός συστήματος
Ολοκληρωμένου
Αυτοματοποιημένου
Εύρεση άρθρων από Διαδίκτυο
Ομαδοποίηση άρθρων σε θέματα
Παρουσίαση θεμάτων - άρθρων
ΣΚΟΠΟΣ
ΚΥΡΙΑ ΣΗΜΕΙΑ
ΣΚΟΠΟΣ
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
ΤΟ ΣΥΣΤΗΜΑ NEWSMINER
CASE STUDY
ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
Εύρεση δομημένης πληροφορίας [1], [2]
Κατηγοριοποίηση σελίδων [3], [4], [5]
Συγκέντρωση πολλών πηγών [6], [7]
Στοιχεία χρήστη [8], [9]
Κοινωνιολογικά δεδομένα [10], [11]
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
Διάχυση πληροφορίας σε κοινωνικά δίκτυα [12], [13], [14]
Εύρεση κοινοτήτων σε κοινωνικά δίκτυα [15], [16]
Παρουσίαση δεδομένων [17]
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
CEBIL
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
PALO
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
NEEMO
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
GOOGLE NEWS
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ
Εξαγωγή πληροφορίας από WEB σελίδες
Ερευνητικές Εργασίες
Εφαρμογή σε μεγάλο όγκο δεδομένων
Λήψη ικανοποιητικών αποτελεσμάτων
NewsMiner
Εφαρμογή σε περιορισμένο όγκο δεδομένων
Λήψη αποτελεσμάτων με μεγάλη ακρίβεια
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ
Κατηγοριοποίηση σελίδων
Ερευνητικές Εργασίες
Χρήση περιεχομένου σελίδας
Ταξινόμηση σε γενικές κατηγορίες
NewsMiner
Χρήση επεξεργασμένου περιεχομένου σελίδας
Ταξινόμηση σε βάθος
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ
Cebil - PaloΊδιο στόχο με NewsMiner
Άγνωστες τεχνικές λειτουργίας
NeemoΠαρόμοιο στόχο - τεχνικές με NewsMiner
Google NewsΤαξινόμηση σε γενικές κατηγορίες
ΚΥΡΙΑ ΣΗΜΕΙΑ
ΣΚΟΠΟΣ
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
ΤΟ ΣΥΣΤΗΜΑ NEWSMINER
CASE STUDY
ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ
ΔΟΜΗ NEWSMINER
NC1
NC2
NCK
ΕΥΡΕΣΗ ΝΕΩΝ
ΑΡΘΡΩΝ
ΤΑΞΙΝΟΜΗΣΗΝΕΩΝ ΑΡΘΡΩΝ
ΒΑΣΗΑΡΘΡΩΝ
ΕΠΙΚΑΙΡΟΤΗΤΑΣ
ΑΠΟΘΗΚΗΠΑΛΑΙΩΝΑΡΘΡΩΝ
ΔΙΕΠΑΦΗ ΧΡΗΣΤΗΝEWSCHANNELS
NEWS MINER
ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ
Γενικά χαρακτηριστικά
Εννοιολογικός – Λογικός – Φυσικός
Σχεδιασμός
Υλοποίηση ρουτινών στη βάση δεδομένων
ΓΕΝΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ
Εκμετάλλευση RSS FEEDS
Εξαγωγή στοιχείων άρθρου
Αυτοματοποίηση
Ταχύτητα εκτέλεσης
RSS_URLS OLD_CATEGORIESCat_Urls NEWS_CATEGORIESOld-New
NC-Url
Tags
Tag_Url Tag_Title Tag_Cat
Tag_Date Tag_New
Rss_Url
Order-Nr CD Dscr CD Dscr
RSS_DATA
Data-Url
RSS_EXTRACT_DATAData-
ExtrData
AA
Rss
Dt_Insert
Dt_Update
Flg_Done
Html_Text
DescrDt_Update_html_Data
Dt_Update_Html_Text
Dt_Insert
Pubdate
AA
Flg_Done
Title
Html_Data
Link_Url
Cat-ExtrData
LOAD_ERRORS
AA
Dt
Proc_Name
AA_Proc
Descr
Err_Code
NEWS_CARRIERS
Pattern_Start
Pattern_End
Flg_Kind
Old_Pattern
New_Pattern
Tag
Flg_KindCD
Url_Name
Name
Tags
Tag_Start1
Tag_Start2
Tag_Start3
Patterns_OutTitle_Replace Tags_Out
Patterns_End
Charset
Patterns_Replace
Pattern_Old
Pattern_New
AA
RSS_URLS
CD_CARRIERRSS_URL ORDER_NRTAG_NEWTAG_DATETAG_TITLETAG_URLTAG_CATDEFAULT_CAT
PATTERNS_OUT
AACD_CARRIERPATTER_STARTPATTERN_ENDFLG_KIND
NEWS_CARRIERS
CD NAMEURL_NAMETAG_START1TAG_START2TAG_START3CHARSET
RSS_DATA
AARSSRSS_URLFLG_DONEDT_INSERTDT_UPDATE
NEWS_CATEGORIES
CD DSCR
LOAD_ERRORS
AA DTPROC_NAMEAA_PROCDESCRERR_CODE
TAGS_OUT
CD_CARRIERTAGFLG_KIND
PATTERNS_REPLACE
CD_CARRIERPATTERN_OLDPATTERN_NEW
PATTERNS_END
CD_CARRIERPATTERN_END
RSS_EXTRACT_DATA
AAAA_RSS_DATACD_CARRIERTITLELINK_URLPUBDATECATDESCRHTML_DATAHTML_TEXTFLG_DONEDT_INSERTDT_UPDATE_HTML_DATADT_UPDATE_HTML_TEXTCD_CAT
TITLE_REPLACE
CD_CARRIER OLD_PATTERNNEW_PATTERN
: Primary Key
: Foreign Key
OLD_CATEGORIES
CD DSCRCD_CAT_NEW
ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ
ΕΙΣΑΓΩΓΗ RSS
ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ ΑΠO
RSS
ΑΠΟΘΗΚΕΥΣΗ HTML ΑΡΘΡΟΥ
ΕΞΑΓΩΓΗ ΚΑΙ ΑΠΟΘΗΚΕΥΣΗ
ΚΕΙΜΕΝΟΥ ΑΡΘΡΟΥ
Χρήση RSS Feeds
Really Simple Syndication
XML τυποποίηση
Αναπαράσταση πληροφοριών συνεχώς μεταβαλλόμενων
Βασικές πληροφορίες είδησης (URL, τίτλος, δημοσίευση κ.α.)
ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ
<item rdf:about="http://www.in.gr/news/article.asp?lngEntityID=1025323"> <title>Δύο κορίτσια εννέα ετών πνίγηκαν σε πισίνα κατασκήνωσης στη Λάρισα</title> <link>http://www.in.gr/news/article.asp?lngEntityID=1025323</link> <description>Σε ένα τραγικό όσο και πρωτοφανές περιστατικό, δύο 9χρονα κοριτσάκια πνίγηκαν το απόγευμα της Παρασκευής σε πισίνα ιδιωτικής κατασκήνωσης στο νομό Λάρισας, κάτω από αδιευκρίνιστες συνθήκες. Συνελήφθησαν οι ιδιοκτήτες της κατασκήνωσης και διενεργείται προανάκριση από τις Αρχές.</description> <dc:date>Fri, 19 Jun 2009 19:21:00 UTC</dc:date> <dc:source>ΑΠΕ-ΜΠΕ</dc:source> </item>
Δομή RSS Feeds
Επιλογή γενικών κατηγοριών άρθρων
ΕΛΛΑΔΑ ΟΙΚΟΝΟΜΙΑ
ΑΘΛΗΤΙΚΑ ΚΟΣΜΟΣ
ΕΠΙΣΤΗΜΗ ΠΟΛΙΤΙΣΜΟΣ
ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ
ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ RSS ΥΠΑΡΧΕΙ; ΤΕΛΟΣ
ΕΥΡΕΣΗ ΣΥΝΟΛΟΥ ΧΑΡΑΚΤΗΡΩΝ
ΠΡΟΒΛΗΜΑ;
ΔΙΑΒΑΣΜΑ ΚΑΙ ΑΠΟΘΗΚΕΥΣΗ
ΠΕΡΙΕΧΟΜΕΝΟΥ RSS
ΠΡΟΒΛΗΜΑ;
ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ
OXI
NAI
NAI
OXI
NAI
OXI
ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ RSS ΥΠΑΡΧΕΙ; ΤΕΛΟΣ
ΕΥΡΕΣΗ ΕΠΟΜΕΝΗΣ
ΕΙΔΗΣΗΣ ΣΕ RSS
OXI
NAI
ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ
ΑΠΌ RSS
ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΗΜΕΡΟΜΗΝΙΑΣ
ΠΡΟΒΛΗΜΑ;
ΕΠΕΞΕΡΓΑΣΙΑ ΤΙΤΛΟΥ
ΥΠΑΡΧΕΙ;
ΠΡΟΒΛΗΜΑ;
ΕΥΡΕΣΗ ΝΕΑΣ ΚΑΤΗΓΟΡΙΑΣ
ΠΡΟΒΛΗΜΑ;
ΕΧΕΙ ΕΙΣΑΧΘΕΙ
ΞΑΝΑ;
ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ
ΕΙΣΑΓΩΓΗ ΕΙΔΗΣΗΣ
ΠΡΟΒΛΗΜΑ;
NAI
OXI
NAI
OXI
OXI
NAI
NAI
NAI
OXI
OXI
NAI
OXI
ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ ΑΡΘΡΟΥ ΥΠΑΡΧΕΙ;
ΔΙΑΒΑΣΜΑ ΣΥΝΟΛΟΥ
ΧΑΡΑΚΤΗΡΩΝ
OXI
NAI
ΠΡΟΒΛΗΜΑ;
ΔΙΑΒΑΣΜΑ ΚΑΙ ΑΠΟΘΗΚΕΥΣΗ HTML ΑΡΘΡΟΥ
ΠΡΟΒΛΗΜΑ;
ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ
ΕΛΕΓΧΟΣ ΕΠΙΤΥΧΟΥΣ
ΟΛΟΚΛΗΡΩΣΗΣ
ΠΡΟΒΛΗΜΑ;
ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ
ΤΕΛΟΣ
NAI
NAI
NAI
OXI
OXI
OXI
ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ ΑΡΘΡΟΥ ΥΠΑΡΧΕΙ;
ΑΦΑΙΡΕΣΗ ΕΙΔΙΚΩΝ ΧΑΡΑΚΤΗΡΩΝ
OXI
NAI
ΠΡΟΒΛΗΜΑ;ΕΝΗΜΕΡΩΣΗ
ΠΙΝΑΚΑ ΛΑΘΩΝ
ΕΛΕΓΧΟΣ ΕΠΙΤΥΧΟΥΣ
ΟΛΟΚΛΗΡΩΣΗΣ
ΠΡΟΒΛΗΜΑ;
ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ
ΤΕΛΟΣ
NAI
NAI
OXI
OXI
ΑΦΑΙΡΕΣΗ ΣΥΝΕΧΟΜΕΝΩΝ ΚΕΝΩΝ
ΕΥΡΕΣΗ ΑΡΧΗΣ-ΤΕΛΟΥΣ ΚΕΙΜΕΝΟΥ ΑΡΘΡΟΥ
ΑΦΑΙΡΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΒΑΣΗ PATTERNS
ΑΦΑΙΡΕΣΗ ΜΙΣΩΝ TAGS
ΑΦΑΙΡΕΣΗ TAGS ΚΑΙ ΠΕΡΙΕΧΟΜΕΝΩΝ ΤΟΥΣ
ΑΦΑΙΡΕΣΗ ΟΛΩΝ ΤΩΝ TAGS
ΑΦΑΙΡΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΒΑΣΗ PATTERNS
ΑΝΤΙΚΑΤΑΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ
ΑΦΑΙΡΕΣΗ ΣΥΝΕΧΟΜΕΝΩΝ ΚΕΝΩΝ
ΑΦΑΙΡΕΣΗ ΚΕΝΟΥ ΣΕ ΑΡΧΗ - ΤΕΛΟΣ
ΑΦΑΙΡΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟ ΤΕΛΟΣ ΑΡΘΡΟΥ
ΕΙΣΑΓΩΓΗ ΚΕΙΜΕΝΟΥ ΑΡΘΡΟΥ
ΠΡΟΒΛΗΜΑ;OXI NAI
ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ
NEWS_TOPICS
AA_TOPIC Κωδικός θέματος (συστάδας)
AA_FIRST Κωδικός ενός σχετικού άρθρου
RELATIVE Πλήθος σχετικών άρθρων
NEWS_TOPICS_DTL
AA_TOPIC Κωδικός θέματος
AA_ITEM Κωδικός άρθρου
OLD_ITEMS
AA_OLD Παλαιό άρθρο
AA_NEW Σχετικό ενεργό άρθρο
ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ
ΤΕΛΟΣ
ΕΥΡΕΣΗ ΝΕΩΝ ΑΡΘΡΩΝ
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΑΡΘΡΩΝ
ΕΝΗΜΕΡΩΣΗ ΤΕΛΙΚΩΝ ΠΙΝΑΚΩΝ
ΕΥΡΕΣΗ ΥΠΟΛΟΙΠΩΝ
ΑΡΘΡΩΝ
ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΑΡΘΡΩΝ
ΕΝΗΜΕΡΩΣΗ ΤΕΛΙΚΩΝ ΠΙΝΑΚΩΝ
ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ
ΕΓΓΡΑΦΩΝ
ΕΚΠΑΙΔΕΥΣΗ ΜΟΝΤΕΛΟΥ
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ
Δημιουργία διαδικασίας συνολικής ενημέρωσης
Χρήση jobs ORACLE
Ωριαία ενημέρωση συστήματος
Ημερήσια διαγραφή παλαιών άρθρων (3:00 π.μ.)
ΑΥΤΟΜΑΤΟΠΟΙΗΣΗ
ΣΚΟΠΟΣ
ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ
ΤΟ ΣΥΣΤΗΜΑ NEWSMINER
CASE STUDY
ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ
ΚΥΡΙΑ ΣΗΜΕΙΑ
CASE STUDYΕπισκόπηση περιβάλλοντος εργασίας
Προετοιμασία διαδικασίας
Κατηγοριοποίηση
Συσταδοποίηση
Ένταξη σε παραγωγική λειτουργία
Ανάπτυξη Διεπαφής
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
ORACLE 11G
ORACLE TEXT
ORACLE APPLICATION EXPRESS
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
ORACLE 11G
Δημοφιλές εμπορικό ΣΔΒΔ
Ενσωματωμένες διαδικασίες Data Mining
Πακέτο UTL_HTTP για HTTP requests
Τύπος δεδομένων CLOB
Δυνατότητες αυτοματοποίησης διαδικασιών
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
ORACLE TEXT
Αναζήτηση σε μεγάλες στατικές συλλογές εγγράφων: CONTEXT ευρετήριο
Αναζήτηση μικρότερων μεταβαλλόμενων συλλογών εγγραφών: CTX_CAT ευρετήριο
Ομαδοποίηση εγγράφων
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
Ομαδοποίηση εγγράφων
Βάσει κανόνων
Με επίβλεψη (κατηγοριοποίηση)
Χωρίς επίβλεψη (συσταδοποίηση)
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
Βάσει κανόνων
Δημιουργία κλάσεων και κανόνων από χρήστη
Ευρετήριο CTX_RULE σε κανόνες
Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
Με επίβλεψη
Δημιουργία κλάσεων από χρήστη και κανόνων από σύστημα
Ευρετήριο CTX_RULE σε κανόνες και CONTEXT σε εκπαιδευτικό σύνολο
Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES
Δέντρα Απόφασης και SVM
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
Χωρίς επίβλεψη
Δημιουργία κλάσεων και κανόνων από σύστημα
K-MEANS
ORACLE APPLICATION EXPRESS
Εργαλείο ανάπτυξης WEB database centric εφαρμογών
Αποθηκευμένο σε βάση δεδομένων (215 πίνακες και 200 PLS/SQL αντικείμενα)
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ
ΠΡΟΕΤΟΙΜΑΣΙΑ
In.gr, Καθημερινή, Ελεύθερος Τύπος
Παραμετροποίηση συστήματος
Χρήση διαδικασίας ενημέρωσης
Δημιουργία δεδομένων εκπαίδευσης και ελέγχου (12 μέρες, 766 άρθρα ΕΛΛΑΔΑ, 315 θέματα)
ΠΡΟΕΤΟΙΜΑΣΙΑ
ΣΥΣΤΑΔΟΠΟΙΗΣΗ
ΤΕΛΟΣ
ΕΞΑΓΩΓΗ ΝΕΩΝ ΟΡΩΝ
ΕΝΗΜΕΡΩΣΗ ΛΙΣΤΑΣ
OXI
NAIΚΟΙΝΕΣ ΛΕΞΕΙΣ;
Δημιουργία λίστας κοινών λέξεων
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ
ΤΕΛΙΚΗ;ΕΥΡΕΣΗ
ΕΠΟΜΕΝΗΣ ΗΜΕΡΟΜΗΝΙΑΣ
NAI
ΑΠΟΘΗΚΕΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ
ΔΗΜΙΟΥΡΓΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ
ΔΕΔΟΜΕΝΩΝ
ΕΠΟΜΕΝΗ ΤΙΜΗ ΠΑΡΑΜΕΤΡΟΥ
OXI
ΤΕΛΟΣ
ΥΠΑΡΧΕΙ;
NAI
OXI
ΔΗΜΙΟΥΡΓΙΑ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ ΜΟΝΤΕΛΟΥ
ΑΡΧΙΚΟΠΟΙΗΣΗ
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
ΔΕΝΤΡΑ ΑΠΟΦΑΣΗΣ
Επιλογή ανάμεσα σε δυο εναλλακτικές αποφάσεις
Ορατοί κανόνες
Μετασχηματίζονται σε ειδικές αναζητήσεις
Αντιστοίχηση εγγράφων με κατηγορίες
Συγκεκριμένες παράμετροι
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.THRESHOLD Ελάχιστο όριο εμπιστοσύνης κανόνων
MAX_TERMSΜέγιστος αριθμός όρων κανόνων ανά κλάση
MEMORY_SIZEΧρησιμοποιούμενη μνήμη
NT_THRESHOLDΕλάχιστο όριο αρχικής επιλογής όρων
TERM_THRESHOLDΕλάχιστο όριο τελικής επιλογής όρων
PRUNE_LEVELΕπίπεδο κλαδέματος δέντρου απόφασης
ΚΡΙΤΗΡΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΔΟΚΙΜΩΝ
Συνολικό ποσοστό επιτυχίας
Ποσοστό επιτυχίας ενεργών θεμάτων
Ποσοστό επιτυχίας νέων θεμάτων
Πολλαπλές κατηγοριοποιήσεις
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
MAX_TERMS(20-200, βήμα 10)
<=
MAX_TERMS(30-50, βήμα 1)
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
NT_THRESHOLD(0.05-0.9, βήμα 0.05)
<=
TERM_THRESHOLD(10-100, βήμα 5)
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
TERM_THRESHOLD(25-35, βήμα 1)
<=
THRESHOLD(5-95, βήμα 5)
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
THRESHOLD(5-20, βήμα 1)
<=
PRUNE_LEVEL(5-100, βήμα 5)
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
PRUNE_LEVEL(5-80, βήμα 1)
<=
ΣΥΝΟΛΟ ΕΝΕΡΓΑ ΝΕΑ ΠΟΛΛΑΠΛΕΣ
70% 55% 80% 3%
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.
SUPPORT VECTOR MACHINE
Μηχανική μάθηση (στατιστική εκπαίδευση)
Αόρατοι κανόνες
Μετασχηματίζονται σε ειδικές αναζητήσεις
Αντιστοίχηση εγγράφων με κατηγορίες (πιθανότητα)
Συγκεκριμένες παράμετροι
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
MAX_DOCTERMSΜέγιστος αριθμός όρων ανά κείμενο
MAX_FEATURESΜέγιστος συνολικός αριθμός διακριτών χαρακτηριστικών
THEME_ON – TOKEN_ON – STEM_ONΓλωσσολογικές παράμετροι
MEMORY_SIZEΧρησιμοποιούμενη μνήμη
SECTION_WEIGHTΒάρη σε τμήματα του εγγράφου (HTML, XML)
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
MAX_FEATURES(1.000-30.000, βήμα 1.000)
<=
Όριο πιθανότητας 30%
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
Όριο πιθανότητας 25%<=
Όριο πιθανότητας 35%
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
MAX_DOCTERMS100
<=
MAX_DOCTERMS120
=>
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
ΑΛΟΓΡΙΘΜΟΣ ΣΥΝΟΛΟ ΕΝΕΡΓΑ ΝΕΑ ΠΟΛΛΑΠΛΕΣ
DECISION TREE
70% 55% 80% 3%
SVM 75% 65% 81.5% 9%
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM
ΣΥΣΤΑΔΟΠΟΙΗΣΗ
K – MEANS
Μέτρηση απόστασης μεταξύ σημείων
Ιεραρχική συσταδοποίηση
Εύρεση κλάσεων και εγγράφων (ποσοστό)
Συγκεκριμένες παράμετροι
MAX_DOCTERMSΜέγιστος αριθμός όρων ανά κείμενο
MAX_FEATURESΜέγιστος συνολικός αριθμός διακριτών χαρακτηριστικών
THEME_ON – TOKEN_ON – STEM_ONΓλωσσολογικές παράμετροι
MEMORY_SIZEΧρησιμοποιούμενη μνήμη
SECTION_WEIGHTΒάρη σε τμήματα του εγγράφου (HTML, XML)
CLUSTER_NUM
Πλήθος τελικών συστάδων
ΣΥΣΤΑΔΟΠΟΙΗΣΗ
MAX_FEATURES(1.000 – 30.000, βήμα 1.000)
<=
MAX_FEATURES(100 – 2.000, βήμα 100)
=>
ΣΥΣΤΑΔΟΠΟΙΗΣΗ
MAX_DOCTERMS 40<=
MAX_DOCTERMS 60 =>
ΣΥΣΤΑΔΟΠΟΙΗΣΗ
MAX_DOCTERMS 70<=
MAX_FEATURES(1 – 100, βήμα 5)
=>
ΣΥΣΤΑΔΟΠΟΙΗΣΗ
ΕΝΤΑΞΗ ΣΕ ΠΑΡΑΓΩΓΗ
Επιλογή μοντέλων
SVM (MAX_FEATURES = 1000, MAX_DOCTERMS = 100)
K – MEANS (CLUSTER_NUM = 20, MAX_DOCTERMS = 70
MAX_FEATURES = 80)
Ενημέρωση διαδικασιών συστήματος
ΔΙΕΠΑΦΗ
ΔΙΕΠΑΦΗ
ΔΙΕΠΑΦΗ
ΔΙΕΠΑΦΗ
ΔΙΕΠΑΦΗ
ΣΥΜΠΕΡΑΣΜΑΤΑΕξόρυξη γνώσης από WEB Δύσκολη και χρονοβόρα διαδικασία
Προετοιμασία δεδομένων
Ταξινόμηση δεδομένων
Αξιολόγηση συστήματος
Διαδικασία ενημέρωσης: Εξαιρετικά
Ταξινόμηση άρθρων: Ικανοποιητικά
ΣΥΜΠΕΡΑΣΜΑΤΑΔυσκολίες σε ταξινόμηση άρθρων Αδόμητη πληροφορία
Γλωσσολογικές δυσκολίες
Ταξινόμηση σε βάθος
Μικρός αριθμός άρθρων ανά κατηγορία
Μεταβαλλόμενα δεδομένα και κατηγορίες
Χρήση λεξικού συνωνύμων
Δημιουργία stemmer βάσει κανόνων
Εμπλουτισμός λίστας κοινών λέξεων
Περιεκτικότερη αναπαράσταση άρθρων
Χρήση του τίτλου της είδησης
Περαιτέρω δοκιμές σε αλγόριθμους
ΕΠΕΚΤΑΣΕΙΣ
ΑΝΑΦΟΡΕΣ[1] Davi de Castro Reis, Paulo B. Golgher, Altigran S. da Silva, Alberto H.
F. Laender: Automatic Web News Extraction Using Tree Edit Distance. International Conference on World Wide Web, (2004)
[2] Cai-Nicolas Ziegler, Michal Skubacz: Content Extraction from News Pages Using Particle Swarm Optimization on Linguistic and Structural Features. IEEE / WIC / ACM International Conference on Web Intelligence, (2007)
[3] Smriti Bhagat, Irina Rozenbaum, Graham Cormode: Applying Link-based Classification to Label Blogs. WEBKDD International Conference, (2007)
[4] Eric Glover, Kostas Tsioutsiouliklis, Steve Lawrence, David Pennock, Gary Flake: Using Web Structure for Classifying and Describing Web Pages. International Conference on World Wide Web, (2002)
[5] Beibei Li, Beibei Li, Jun Zhang: Enhancing Clustering Blog Documents by Utilizing Author / Reader Comments. ACMSE International Conference (2007)
ΑΝΑΦΟΡΕΣ[6] Ismail Sengor Altingovde, Rifat Ozcan, Suleyman Cetintas, Hakan
Yilmaz, Özgür Ulusoy: An Automatic Approach to Construct Domain-Specific Web Portals. CIKM International Conference, (2007)
[7] Benjamin E. Teitler, Michael D. Lieberman, Daniele Panozzo, Jagan Sankaranarayanan, Hanan Samet, Jon Sperling: NewsStand: A New View on News. ACM GIS International Conference, (2008)
[8] Riddhiman Ghosh, Mohamed Dekhil: Discovering User Profiles. International Conference on World Wide Web, (2009)
[9] Evgeniy Gabrilovich, Susan Dumais, Eric Horvitz: Newsjunkie: Providing Personalized Newsfeeds via Analysis of Information Novelty. International Conference on World Wide Web, (2004)
[10] Matthew S. Smith: Social Capital in Online Communities. PIKM International Workshop, (2008)
[11] Xin Li, Lei Guo, Yihong (Eric) Zhao: Tag-based Social Interest Discovery. International Conference on World Wide Web, (2008)
ΑΝΑΦΟΡΕΣ[12] Lei Zhang, Wanqing Tu: Six Degrees of Separation in Online Society.
WebSci International Conference, (2009)
[13] S. Navlakha, R. Rastogi, and N. Shrivastava: Graph summarization with bounded error. ACM SIGMOD International Conference, (2008)
[14] Masahiro Kimura, Hiroshi Motoda: Blocking Links to Minimize Contamination Spread in a Social Network. ACM Transactions on Knowledge Discovery from Data: Vol. 3, (2009)
[15] J.M. Kleinberg: Authoritative sources in a hyperlinked environment. ACM: Vol. 46.
[16] M. Toyoda, M. Kitsuregawa: Extracting evolution of web communities from a series of web archives. ACM Conference on Hypertext and Hypermedia, (2003)
[17] Marc Smith, Vladimir Barash: Social SQL: Tools for exploring social databases. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, (2008)
NEWS MINER
ΕΡΩΤΗΣΕΙΣ ;