carlo bianchini - univ. udine 1 gli strumenti per la ricerca i portali i motori di ricerca le...
TRANSCRIPT
Carlo Bianchini - Univ. Udine 1
Gli strumenti per la ricerca
• I portali
• I motori di ricerca
• Le directory
Carlo Bianchini - Univ. Udine 2
I portali
Definizione:
• Un portale è un prodotto editoriale in linea
che svolge la funzione di punto privilegiato di
accesso al Web per gli utenti e che fornisce
loro risorse informative, servizi di
comunicazione personale e strumenti con i
quali localizzare e raggiungere i contenuti e i
servizi in linea di cui hanno bisogno
Carlo Bianchini - Univ. Udine 3
Origine dei portali
Le ragioni di nascita dei portali sono da individuare
nei seguenti fattori:
• grande mobilità degli utenti di Internet
• grande popolarità dei motori di ricerca, dei
provider di accesso, dei servizi editoriali o
informativi, dei servizi di community (chat, forum)
e dei siti aziendali
• pubblicità pagata in relazione al numero di utenti
di un sito
Carlo Bianchini - Univ. Udine 4
Sviluppo dei portali
Due tendenze di sviluppo:
• A) sempre maggiore integrazione di servizi di
navigazione e offerta generale di contenuti
• B) posizionamento di dominanza in un settore di
nicchia e offerta specializzata di contenuti
Due tipologie di portali:
• A) Meta-portali (portali orizzontali o megaportali)
• B) Portali di secondo livello (portali verticali)
Carlo Bianchini - Univ. Udine 5
I megaportali
• Definizione: sono portali nel senso classico: punti di
accesso alla rete che offrono strumenti di ricerca,
contenuti e servizi ad ampio spettro tematico.
• Punti di ingresso alla rete e di ricerca di
informazione (Virgilio, Kataweb, Arianna)
• Natura profit
• Necessità di alto numero di utenti
• Indagini di mercato sui profili degli utenti
Carlo Bianchini - Univ. Udine 6
I megaportali 2
Cercano di espandere la loro offerta informativa:
• “a monte”: proponendosi come Internet Providers, a costi minori
o nulli
• “a valle”: con offerta di servizi– strumenti di ricerca (directory e motori di ricerca)– canali – offerta di contenuti proprietari (notizie giornalistiche o contenuti
verticali)– intrattenimento– Informazioni di servizio (meteo, oroscopo, annunci, programmazione
tv e cinema, consultazione banche dati o elenchi telefonici ecc.)– personalizzazioni, creazione di agende personalizzate, servizi di
commercio elettronico proprietari
Carlo Bianchini - Univ. Udine 7
I portali di secondo livello (verticali)
• Definizione: siti che offrono contenuti, servizi e
(non sempre) strumenti di ricerca dedicati a
particolari domini tematici (sport, cinema,
informatica, finanza ecc.) o rivolti a ben definiti
gruppi sociali e comunità
• Corporate Portals: vasta gamma di informazioni
di proprietà del gestore, dei suoi partner
commerciali o di terzi (evoluzione delle Intranet
aziendali)
Carlo Bianchini - Univ. Udine 8
I portali di secondo livello (verticali) 2
• Portale locale: siti dedicati ai bisogni e alle
necessità di una comunità di utenti spazialmente
definita (tipicamente le reti civiche)
• Portale di comunità: dedicati a segmenti di utenza
effettuata in base a caratteristiche demografiche (ad
es. età o etnia) o occupazionali (ad es.
www.farmacia.it)
• Portale di interesse: siti fortemente specializzati,
indirizzati indistintamente a chiunque abbia interesse
per un argomento specifico (ad es. www.moto.it)
Carlo Bianchini - Univ. Udine 9
I Portali italiani
• Siti italiani più visitati:1. Italia On Line2. Virgilio3. Tiscalinet4. Tin.it5. KataWeb6. Yahoo.it7. Supereva8. Jumpy
Portali verticali: Alice, Il Sole 24 Ore, Sportal
Carlo Bianchini - Univ. Udine 10
Gli strumenti per la ricerca
I motori di ricerca (o Search Engines)Modalità di ricerca– ricerca basata sulla potenza di calcolo– tecnica a controllo di stringhe– elevato numero di risposte
Le Directory– Modalità di ricerca– analisi diretta dei siti– organizzazione classificata delle informazioni– numero di risposte selezionato
Carlo Bianchini - Univ. Udine 11
Motori di ricerca per parole
• Funzioni: 1) navigare (spiders o crawlers); 2)
indicizzare
• Basati su robot (sistemi di indicizzazione
automatica):• Raccolta di archivi immensi• Ricerca per parola• Ordinamento in base alla ‘rilevanza’
• Problema: fare individuare ad una macchina
omonimie, sinonimie ed equivalenze semantiche
Carlo Bianchini - Univ. Udine 12
Motori di ricerca per parole 2
• Altavista (www.altavista.com o .it)– 1100 milioni di pagine– 25 milioni di utenti al mese (marzo 2003)– Individua la lingua dei documenti (unico) e ‘traduce’
• Google (www.google.com oppure www.google.it)– 1,2 miliardo di pagine– PageRank (2 miliardi di variabili)
• Northern Light (www.northernlight.com) Nuovo
motore per ‘ricerche bibliografiche’
Carlo Bianchini - Univ. Udine 13
Ordinamento in base alla ‘rilevanza’
• Frequenza = n. occorrenze dei termini utilizzati per la ricerca
all'interno della singola pagina recuperata
• Densità = rapporto fra il n. occorrenze dei termini all'interno
della pagina e il totale delle parole contenute nella pagina
• Rarità = rapporto inverso fra il numero di occorrenze dei
termini utilizzati per la ricerca all'interno del database del
motore e il totale delle parole contenute nel database stesso.
Alcuni motori dispongono anche di una lista di stopwords che
vengono ignorate
• Compresenza = presenza, nella pagina, di più d'uno dei
termini richiesti o addirittura di tutti.
Carlo Bianchini - Univ. Udine 14
Ordinamento in base alla ‘rilevanza’ 2
• Prossimità = presenza, nella pagina, di più d'uno dei termini richiesti - o addirittura di tutti - nella medesima frase o comunque vicini fra loro
• Priorità = ordine in cui sono stati immessi i termini nel form di ricerca
• Posizione = presenza dei termini in particolari zone della pagina
• Aggiornamento = a parità di requisiti, alcuni motori privilegiano le pagine più recenti
• Popolarità = numero dei link "in entrata" provenienti da altre pagine contenute nel database del motore
• Tariffazione = è possibile, pagando, garantire una posizione di rilievo alle proprie pagine nella schermata di risposta
Carlo Bianchini - Univ. Udine 15
Metadati e Metatag
Per il recupero dell’informazione si utilizzano:
• Metadata ("dati sui dati", ovvero informazioni,
general-mente strutturate e scandite in campi,
relative a documenti primari "a testo pieno" o full-
text)
• Metatag (sono quei tag, o marcatori, del
linguaggio HTML che possono venire inseriti, con
funzione di metadata, nella parte nascosta HEAD
del file a cui si riferiscono
Carlo Bianchini - Univ. Udine 16
Metadati e Metatag 2
• AUTHOR: più chi stende la
pagina HTML che chi scrive il
contenuto
• COPYRIGHT: Dichiarazione
espli-cita e sintetica sui diritti
relativi al documento
• GENERATOR = Indica il
software utilizzato per creare il
file HTML
• ROBOT = Indica ai software di
ricerca dei motori se e come
tenere conto della pagina
• TITLE: E' il metatag più
utilizzato e più "pesante"
per i motori di ricerca
• DESCRIPTION = Breve
descri-zione del contenuto
della pagina
• KEYWORD = Ulteriori
parole chiave ritenute
particolarmente
significative
Carlo Bianchini - Univ. Udine 17
Le Directory
• Siti a selezione ‘manuale’ di risorse di qualità
• Giustapposizione di classe e soggetto
• Ricorso a strutture gerarchiche (spesso mal
strutturate)
• Fattore umano (qualità e dimensioni)
• Validità limitata nel tempo
• Un esempio: Yahoo (www.yahoo.com oppure .it)
Carlo Bianchini - Univ. Udine 18
I motori di ricerca di seconda generazione
Google (www.google.it)
• Si basa su macchine che effettuano la ricerca
delle parole chiave all’interno delle pagine
registrate dal motore come i motori di prima
generazione
• Si differenzia nel modo di valutare i risultati
ottenuti (ranking) grazie al nuovo algoritmo
PageRank (TM)
Carlo Bianchini - Univ. Udine 19
I motori di ricerca di terza generazione
Teoma (www.teoma.com)
• Si basa su macchine che effettuano la ricerca delle parole chiave all’interno delle pagine registrate dal motore come i motori di prima generazione
• Si differenzia nel modo di valutare i risultati ottenuti (ranking) grazia ad una nuovo algoritmo più restrittivo (Subject-specific popularity)
• Si differenzia nel modo di presentare i risultati (document clustering)
Carlo Bianchini - Univ. Udine 20
Document clustering
• Classificazione dei documenti: i documenti vengono
scandagliati nei contenuti e presentati suddivisi per
argomento e per rilevanza.
• Il processo è suddiviso in tre fasi:– Data mining
– Text mining
– Web mining
Carlo Bianchini - Univ. Udine 21
Data, Text Web mining
• Data mining: processo di estrazione di conoscenza da banche dati di grandi dimensioni attraverso l’applicazione di algoritmi che individuano le associazioni tra informazioni
• Text mining: estrazione e mappatura di informazioni direttamente dai testi, per realizzare una mappa cartografica delle informazioni
• Web mining: applicazione simultanea dei precedenti per la ricerca di associazioni sul piano dei contenuti, della struttura e dell’uso delle informazioni
Carlo Bianchini - Univ. Udine 22
Altri motori di terza generazione
• Vivisimo (http://vivisimo.com )
• WiseNut (http://www.wisenut.com )
• Clusty (http://www.clusty.com )
• Turbo10 (http://turbo10.com )
• Kart00 (http://www.kartoo.com )