carlo bianchini - univ. udine 1 gli strumenti per la ricerca i portali i motori di ricerca le...

22
Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Upload: cristiana-paoli

Post on 02-May-2015

215 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 1

Gli strumenti per la ricerca

• I portali

• I motori di ricerca

• Le directory

Page 2: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 2

I portali

Definizione:

• Un portale è un prodotto editoriale in linea

che svolge la funzione di punto privilegiato di

accesso al Web per gli utenti e che fornisce

loro risorse informative, servizi di

comunicazione personale e strumenti con i

quali localizzare e raggiungere i contenuti e i

servizi in linea di cui hanno bisogno

Page 3: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 3

Origine dei portali

Le ragioni di nascita dei portali sono da individuare

nei seguenti fattori:

• grande mobilità degli utenti di Internet

• grande popolarità dei motori di ricerca, dei

provider di accesso, dei servizi editoriali o

informativi, dei servizi di community (chat, forum)

e dei siti aziendali

• pubblicità pagata in relazione al numero di utenti

di un sito

Page 4: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 4

Sviluppo dei portali

Due tendenze di sviluppo:

• A) sempre maggiore integrazione di servizi di

navigazione e offerta generale di contenuti

• B) posizionamento di dominanza in un settore di

nicchia e offerta specializzata di contenuti

Due tipologie di portali:

• A) Meta-portali (portali orizzontali o megaportali)

• B) Portali di secondo livello (portali verticali)

Page 5: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 5

I megaportali

• Definizione: sono portali nel senso classico: punti di

accesso alla rete che offrono strumenti di ricerca,

contenuti e servizi ad ampio spettro tematico.

• Punti di ingresso alla rete e di ricerca di

informazione (Virgilio, Kataweb, Arianna)

• Natura profit

• Necessità di alto numero di utenti

• Indagini di mercato sui profili degli utenti

Page 6: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 6

I megaportali 2

Cercano di espandere la loro offerta informativa:

• “a monte”: proponendosi come Internet Providers, a costi minori

o nulli

• “a valle”: con offerta di servizi– strumenti di ricerca (directory e motori di ricerca)– canali – offerta di contenuti proprietari (notizie giornalistiche o contenuti

verticali)– intrattenimento– Informazioni di servizio (meteo, oroscopo, annunci, programmazione

tv e cinema, consultazione banche dati o elenchi telefonici ecc.)– personalizzazioni, creazione di agende personalizzate, servizi di

commercio elettronico proprietari

Page 7: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 7

I portali di secondo livello (verticali)

• Definizione: siti che offrono contenuti, servizi e

(non sempre) strumenti di ricerca dedicati a

particolari domini tematici (sport, cinema,

informatica, finanza ecc.) o rivolti a ben definiti

gruppi sociali e comunità

• Corporate Portals: vasta gamma di informazioni

di proprietà del gestore, dei suoi partner

commerciali o di terzi (evoluzione delle Intranet

aziendali)

Page 8: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 8

I portali di secondo livello (verticali) 2

• Portale locale: siti dedicati ai bisogni e alle

necessità di una comunità di utenti spazialmente

definita (tipicamente le reti civiche)

• Portale di comunità: dedicati a segmenti di utenza

effettuata in base a caratteristiche demografiche (ad

es. età o etnia) o occupazionali (ad es.

www.farmacia.it)

• Portale di interesse: siti fortemente specializzati,

indirizzati indistintamente a chiunque abbia interesse

per un argomento specifico (ad es. www.moto.it)

Page 9: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 9

I Portali italiani

• Siti italiani più visitati:1. Italia On Line2. Virgilio3. Tiscalinet4. Tin.it5. KataWeb6. Yahoo.it7. Supereva8. Jumpy

Portali verticali: Alice, Il Sole 24 Ore, Sportal

Page 10: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 10

Gli strumenti per la ricerca

I motori di ricerca (o Search Engines)Modalità di ricerca– ricerca basata sulla potenza di calcolo– tecnica a controllo di stringhe– elevato numero di risposte

Le Directory– Modalità di ricerca– analisi diretta dei siti– organizzazione classificata delle informazioni– numero di risposte selezionato

Page 11: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 11

Motori di ricerca per parole

• Funzioni: 1) navigare (spiders o crawlers); 2)

indicizzare

• Basati su robot (sistemi di indicizzazione

automatica):• Raccolta di archivi immensi• Ricerca per parola• Ordinamento in base alla ‘rilevanza’

• Problema: fare individuare ad una macchina

omonimie, sinonimie ed equivalenze semantiche

Page 12: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 12

Motori di ricerca per parole 2

• Altavista (www.altavista.com o .it)– 1100 milioni di pagine– 25 milioni di utenti al mese (marzo 2003)– Individua la lingua dei documenti (unico) e ‘traduce’

• Google (www.google.com oppure www.google.it)– 1,2 miliardo di pagine– PageRank (2 miliardi di variabili)

• Northern Light (www.northernlight.com) Nuovo

motore per ‘ricerche bibliografiche’

Page 13: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 13

Ordinamento in base alla ‘rilevanza’

• Frequenza = n. occorrenze dei termini utilizzati per la ricerca

all'interno della singola pagina recuperata

• Densità = rapporto fra il n. occorrenze dei termini all'interno

della pagina e il totale delle parole contenute nella pagina

• Rarità = rapporto inverso fra il numero di occorrenze dei

termini utilizzati per la ricerca all'interno del database del

motore e il totale delle parole contenute nel database stesso.

Alcuni motori dispongono anche di una lista di stopwords che

vengono ignorate

• Compresenza = presenza, nella pagina, di più d'uno dei

termini richiesti o addirittura di tutti.

Page 14: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 14

Ordinamento in base alla ‘rilevanza’ 2

• Prossimità = presenza, nella pagina, di più d'uno dei termini richiesti - o addirittura di tutti - nella medesima frase o comunque vicini fra loro

• Priorità = ordine in cui sono stati immessi i termini nel form di ricerca

• Posizione = presenza dei termini in particolari zone della pagina

• Aggiornamento = a parità di requisiti, alcuni motori privilegiano le pagine più recenti

• Popolarità = numero dei link "in entrata" provenienti da altre pagine contenute nel database del motore

• Tariffazione = è possibile, pagando, garantire una posizione di rilievo alle proprie pagine nella schermata di risposta

Page 15: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 15

Metadati e Metatag

Per il recupero dell’informazione si utilizzano:

• Metadata ("dati sui dati", ovvero informazioni,

general-mente strutturate e scandite in campi,

relative a documenti primari "a testo pieno" o full-

text)

• Metatag (sono quei tag, o marcatori, del

linguaggio HTML che possono venire inseriti, con

funzione di metadata, nella parte nascosta HEAD

del file a cui si riferiscono

Page 16: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 16

Metadati e Metatag 2

• AUTHOR: più chi stende la

pagina HTML che chi scrive il

contenuto

• COPYRIGHT: Dichiarazione

espli-cita e sintetica sui diritti

relativi al documento

• GENERATOR = Indica il

software utilizzato per creare il

file HTML

• ROBOT = Indica ai software di

ricerca dei motori se e come

tenere conto della pagina

• TITLE: E' il metatag più

utilizzato e più "pesante"

per i motori di ricerca

• DESCRIPTION = Breve

descri-zione del contenuto

della pagina

• KEYWORD = Ulteriori

parole chiave ritenute

particolarmente

significative

Page 17: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 17

Le Directory

• Siti a selezione ‘manuale’ di risorse di qualità

• Giustapposizione di classe e soggetto

• Ricorso a strutture gerarchiche (spesso mal

strutturate)

• Fattore umano (qualità e dimensioni)

• Validità limitata nel tempo

• Un esempio: Yahoo (www.yahoo.com oppure .it)

Page 18: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 18

I motori di ricerca di seconda generazione

Google (www.google.it)

• Si basa su macchine che effettuano la ricerca

delle parole chiave all’interno delle pagine

registrate dal motore come i motori di prima

generazione

• Si differenzia nel modo di valutare i risultati

ottenuti (ranking) grazie al nuovo algoritmo

PageRank (TM)

Page 19: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 19

I motori di ricerca di terza generazione

Teoma (www.teoma.com)

• Si basa su macchine che effettuano la ricerca delle parole chiave all’interno delle pagine registrate dal motore come i motori di prima generazione

• Si differenzia nel modo di valutare i risultati ottenuti (ranking) grazia ad una nuovo algoritmo più restrittivo (Subject-specific popularity)

• Si differenzia nel modo di presentare i risultati (document clustering)

Page 20: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 20

Document clustering

• Classificazione dei documenti: i documenti vengono

scandagliati nei contenuti e presentati suddivisi per

argomento e per rilevanza.

• Il processo è suddiviso in tre fasi:– Data mining

– Text mining

– Web mining

Page 21: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 21

Data, Text Web mining

• Data mining: processo di estrazione di conoscenza da banche dati di grandi dimensioni attraverso l’applicazione di algoritmi che individuano le associazioni tra informazioni

• Text mining: estrazione e mappatura di informazioni direttamente dai testi, per realizzare una mappa cartografica delle informazioni

• Web mining: applicazione simultanea dei precedenti per la ricerca di associazioni sul piano dei contenuti, della struttura e dell’uso delle informazioni

Page 22: Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory

Carlo Bianchini - Univ. Udine 22

Altri motori di terza generazione

• Vivisimo (http://vivisimo.com )

• WiseNut (http://www.wisenut.com )

• Clusty (http://www.clusty.com )

• Turbo10 (http://turbo10.com )

• Kart00 (http://www.kartoo.com )