universita’ degli studi di torinogoy/materiale/1718/tesisardo.pdf · principali tecniche di...
TRANSCRIPT
1
UNIVERSITA’ DEGLI STUDI DI TORINO
FACOLTA’ DI LETTERE E FILOSOFIA
CORSO DI LAUREA SPECIALISTICA IN
COMUNICAZIONE NELLA SOCIETA’
DELL’INFORMAZIONE
TESI DI LAUREA
Search engine optimization nel percorso evolutivo dei
motori di ricerca e nel Web semantico.
Candidato: Relatore:
Andrea Sardo Prof.ssa Anna Goy
ANNO ACCADEMICO 2007/2008
2
3
INDICE
INTRODUZIONE…………………………………..….7
Scenario………………………………………….……..7
Che cos’è un motore di ricerca…….…………………...9
Obiettivi della tesi……………………….……………..11
CAPITOLO I……………………………………..…….14
1.1 Prima di Google.……………….……..………..14
1.2 I motori di seconda generazione…….………...16
1.2.1 L’avvento di Google………………...………...16
1.2.2 Yahoo e le directories…...……….…………….19
1.2.3 Gli altri……………………….………..………20
1.3 I metamotori…………………...………….......24
1.4 Il clustering………………………....................25
1.5 Scenari futuri………….………………...…….29
1.6 Dentro Google: interfaccia utente...…………..34
CAPITOLO II……………………………………………39
2.0 Dentro il motore………………………………….39
4
2.1 La ricerca……………………................................39
2.2 L’Information Retrieval……….....…………….…43
2.2.1 Automatic text analysis…………………………...45
2.2.2 Retrieval strategies……………………………….51
2.3 L’IR nei motori di ricerca sul Web………..………64
2.3.1 Nuovi approcci nella ricerca……………………....65
CAPITOLO III……………………………….…………68
3.0 Introduzione…………………………………..……68
3.1 Un po’ di storia dei motori di ricerca………..……..68
3.2 Un’idea semplice: le citazioni……………...………70
3.3 L’algoritmo PageRank…………………..…………74
3.3.1 Presupposti matematici…………………….………75
3.3.2 La formula del PageRank……………… ………….77
3.3.3 Random surfer model………………………….…...79
3.3.4 Qualità dei risultati………………………………...81
3.3.5 PageRank in continuità con l’IR…………………....84
3.4 Debolezze del sistema basato sulla link analysis.…..88
3.5 Gli aggiornamenti……………………………..…….90
3.5.1 Algoritmo HillTop……………………………….…91
3.5.2 Algoritmo TrustRank…………………………….…96
3.6 Nuovi orizzonti della ricerca sul We….……………103
3.6.1 Il Web semantico ……………………………..……104
3.6.2 Agenti intelligenti?....................................................107
5
CAPITOLO IV………………………………………...…..110
4.0 Introduzione…………………………………………..110
4.1 Search engine optimization………………...…….......114
4.2 Le variabili di pagina…………………………………116
4.3 Fattori strutturali………………………………….…..122
4.4 Link factors……………………………………..…….126
4.5 Content factors………………………………………..129
4.6 Altri fattori……………………………………...…….132
4.7 Spam e sovraottimizzazione………………………….134
CONCLUSIONI……………………...…………...…….....139
BIBLIOGRAFIA………………………………….….....…144
6
7
INTRODUZIONE
Scenario
Che sia ricordato per la sua origine dal termine googol, coniato
dal matematico Sirotta per rappresentare l’esorbitante numero
uno seguito da cento zeri, o dal goggles – occhiale protettivo -
della lingua inglese, con il quale si sottolinea la sua capacità di
rendere più nitida la visione all’interno della confusa e
labirintica struttura della Rete, Google1 esula da definizioni
esaustive o possibilità di catalogazione. Quello che hanno creato
Larry Page e Sergey Brin nella seconda metà degli anni Novanta
non ha “solamente” ridettato per intero i metodi di fruizione e i
criteri di archiviazione dell’informazione sul Web. La
conseguenza più importante della loro intuizione sta infatti
proprio nella premessa teorica da essi successivamente
sviluppata: quella secondo cui un motore di ricerca basato
sull’attribuzione di un valore matematico alle relazioni tra siti
Web produca risultati migliori rispetto alle tecniche empiriche
usate in precedenza.
Questo modo di pensare ha permesso, in primo luogo, di
sistematizzare tramite una serie di regole formali
l’indicizzazione dei siti all’interno dei motori di ricerca,
migliorandola in termini di razionalità e fugando in parte quel
senso di indeterminata sconfinatezza che si avverte di fronte alla
ragnatela mondiale. In secondo luogo, tale approccio ha dato un
senso e una spinta allo sviluppo del Web sotto il punto di vista
commerciale, portandolo a essere un medium di punta per la
pubblicità. Se prima i banner e il direct marketing avevano
lasciato l’impressione che Internet avesse potenzialità blande
1 http://www.google.com.
8
sotto il profilo promozionale, un’indicizzazione sensata e
razionale dei siti, insieme alla nascita di sistemi come Adwords2
e Adsense3 hanno dato concreti saggi del potere della visibilità,
che ha incominciato a fare gola a tutti.
In un Web 2.04 che ha ulteriormente acuito la tendenza social
già preannunciata nel primo boom della Rete, gli addetti ai
lavori (e non solo loro) si sono mossi immediatamente, per
cogliere le opportunità economiche derivanti da questa
transizione. Da un lato, le aziende hanno intuito l’importanza
dell’essere presenti online con una posizione di preminenza
rispetto ai concorrenti. Dall’altro, i motori di ricerca hanno
fornito la struttura per pianificare l’ingresso in Internet a
tavolino, programmando investimenti e risultati. In mezzo, tante
società di consulenza che si premurano di implementare le
strategie dei propri clienti sui motori.
Come spesso accade, la corsa all’oro ha portato ad eccessi ed
esagerazioni. Chi richiede una campagna di Web marketing,
spesso ignorandone gli strumenti operativi, pretende risultati
immediati ed improbabili. D’altro canto, sul Web sono spuntate
come funghi le società che si occupano di SEO, Search Engine
Optimization. Alcune sono molto serie e ottengono risultati
credibili e persistenti. Ma molte altre promettono la luna,
2 AdWords è il servizio che Google offre agli inserzionisti per inserire il proprio sito all'interno dei risultati di ricerca, in uno speciale spazio dedicato dal nome “collegamenti sponsorizzati”. Il servizio non è gratuito, ha un costo per click, stabilito in precedenza dall'inserzionista, che viene scalato dal budget a disposizione ogni volta che un utente clicca sull'annuncio (pay-per-click). Tra le varie possibilità di personalizzazione degli annunci, particolarmente interessante per questa ricerca risulta quella di scegliere le parole chiave per la visualizzazione dell'annuncio (http://it.wikipedia.org/wiki/Google#AdWords) 3 AdSense è il canale pubblicitario di Google che permette di guadagnare con il proprio sito. È un algoritmo che scansiona in automatico il contenuto delle pagine Web e pubblica in una sezione dedicata gli annunci più pertinenti al sito. La remunerazione è basata principalmente sul sistema del pay-per-click: Google paga qualche centesimo di dollaro ogni volta che un utente clicca sull'annuncio AdSense (http://it.wikipedia.org/wiki/Google#AdSense)
4 Il Web 2.0, secondo una definizione comune e semplificatoria, differisce dal concetto iniziale di Web, retroattivamente etichettato Web 1.0, perché si discosta dai classici siti web statici, dall'e-mail, dall'uso dei motori di ricerca, dalla navigazione lineare e teorizza una rete più dinamica e interattiva. Esempi di tale dinamicità sono dati dal social commerce - l'evoluzione dell'E-Commerce in senso interattivo – e dai social network, che consentono una maggiore partecipazione degli utenti attraverso blog, forum, sistemi di feedback ecc. (it.wikipedia.org/wiki/Web_2.0)
9
operano con metodi discutibili (passibili di penalità da parte del
motore di ricerca) e in generale non portano a concreti
miglioramenti in termini di visibilità.
L’unico modo a nostra disposizione per districarci in questa
spirale speculativa, consiste nel conoscere e studiare
approfonditamente i meccanismi interni che regolano il
funzionamento di un motore di ricerca. Questo significa, nello
specifico, comprendere le logiche e le dinamiche proprie
dell’Information Retrieval5 e applicarle al contesto dei motori di
ricerca: in breve, determinare quali sono gli elementi chiave nel
processo di ricerca e indicizzazione delle pagine Web, in che
modo sono tra di loro interconnessi e tali conoscenze possano
essere utili per ottenere maggiore visibilità.
Che cos’è un motore di ricerca
Prima di addentrarci in questioni tecniche, è opportuno
introdurre alcuni concetti la cui menzione, tutt’altro che
puramente nozionistica, è fondamentale per la comprensione
successiva. Inoltre, la definizione di tali elementi
apparentemente ovvi può essere utile a sgombrare il campo da
eventuali equivoci o ambiguità.
Innanzitutto, che cos’è un motore di ricerca e come funziona a
livello macroscopico?
Un motore di ricerca, o search engine, è “un sistema
automatico, che analizza un insieme di dati e restituisce un
indice dei contenuti disponibili, classificandoli in base a formule
matematiche che ne indichino il grado di rilevanza data una
5 L'information retrieval (IR) è l'insieme delle tecniche utilizzate per il recupero mirato dell’informazione in formato elettronico. Per "informazione" si intendono tutti i documenti, i metadati, i file presenti all'interno di banche dati online.
10
determinata chiave di ricerca”6. In parole semplici, il motore
analizza dei dati in input, forniti dall’utente, ed effettua una
ricerca su tale base, offrendo come output una lista di voci,
poste in ordine decrescente d’importanza, in base ai criteri di
restituzione dell’output con i quali è stato impostato.
È statisticamente provato che l' 85% degli utenti di Internet si
serve dei motori di ricerca per effettuare le proprie ricerche sul
Web7. I motori di ricerca svolgono un importante servizio di IR.
Quando, a partire dagli anni Novanta, Internet cominciò a
riempirsi di milioni di documenti, si avverti l'esigenza di
catalogarli, riordinarli, indicizzarli. In altri termini, era
necessario adottare un sistema "bibliotecario" per consentire agli
utenti di rinvenire in tempi brevi le informazioni desiderate.
Parlando di catalogazione, è opportuno chiarire sin da subito un
possibile elemento di confusione. Spesso, infatti, si parla
indistintamente di motori di ricerca per indicare qualunque
strumento per il reperimento dell’informazione. Ma esistono in
realtà differenze ragguardevoli sia nel modo di organizzare la
ricerca, sia in quello di presentare i risultati.
Per questo introduciamo ora il concetto di directory. Perché
troppo spesso le directories vengono integrate nella definizione
onninclusiva di “motore di ricerca”, mentre si tratta di strumenti
completamente diversi. Esse sono archivi di dati ordinati in
maniera gerarchica, secondo un sistema di cartelle e
sottocartelle, divise per argomento. Già da queste poche righe si
può intuire come questi due approcci viaggino per strade diverse
e portino ad altrettanto differenti risultati.
6 Lett., http://it.wikipedia.org/wiki/Motori_di_ricerca 7 Fonte: www.seoguida.com/motori-ricerca
11
Obiettivi della tesi
Tale digressione ci aiuta a focalizzare l’oggetto di questa tesi.
Abbiamo fin qui tratteggiato due modi per razionalizzare
l’informazione sul Web, entrambi efficaci pur partendo da
presupposti agli antipodi. Il primo approccio si propone, in
seguito a una query8 da parte dell’utente, di filtrare l’enorme
quantità di risorse disponibili e ordinarle in base a criteri
variabili di rilevanza. Tale attività viene effettuata agendo
sull’engine, sulla macchina, grazie a dei programmi, detti
algoritmi, che reperiscono i dati, selezionano quelli rispondenti
ai criteri della richiesta, presentano infine il materiale sotto
forma di liste ordinate; il secondo è un approccio umano,
editoriale, che organizza i contenuti con un sistema gerarchico
di natura semantica. Senza trascurare le funzionalità e
potenzialità generate dalle directories, noi ci concentreremo
sull’analisi degli elementi che regolano l’operatività dei motori
di ricerca, al fine di comprendere come avviene dal punto di
vista tecnico il posizionamento9 dei siti. Vale comunque la pena
di sottolineare che le due metodologie si intersecano in più punti
e non potranno dunque essere trattate in maniera completamente
indipendente l’una dall’altra.
Nella prima parte di questo lavoro, dopo una necessaria
introduzione storico/contestuale, che ci porterà ad inquadrare lo
scenario attuale, ci occuperemo di esplorare l’interfaccia di un
motore di ricerca. Vedremo ciò che accade a livello
macroscopico e come vi si relaziona l’utente.
Nella seconda parte comprenderemo, attraverso uno studio sulle
principali tecniche di retrieval, come sono nati i primi motori di
ricerca, quali sono i loro principi di funzionamento, quali
8 Il termine query, in informatica viene utilizzato per indicare l'interrogazione di un database in modo da ottenere dei dati contenuti in uno o più database. In senso lato, designa una richiesta di informazioni da parte di un attore umano a un sistema automatico. 9 Per posizionamento s’intende l’attività di migliorare o stabilizzare la posizione di un sito all’interno delle graduatorie dei motori di ricerca in base a un determinato criterio di ricerca .
12
strategie vengono messe in atto per il reperimento e la
classificazione dell’informazione.
Nel terzo capitolo studieremo l’applicazione delle strategie di
retrieval ai motori di ricerca: vedremo come il loro impiego sia
stato complicato dalla continua crescita del Web e
conseguentemente integrato da altri metodi di classificazione.
Seguiremo i cambiamenti del paradigma della ricerca sul Web
fino ai nostri giorni, illustrando l’evoluzione tecnologica dei
motori di ricerca nell’ultimo decennio, guidata
dall’affermazione quasi monopolistica di Google.
L’analisi ad ampio raggio, effettuata in questi capitoli sul mondo
dei motori di ricerca, ci consentirà certamente di acquisire
maggiore dimestichezza e familiarità con uno strumento entrato
nell’uso comune della nostra vita quotidiana, ma del quale molto
spesso non siamo in grado di sfruttare pienamente le
potenzialità. Nel far questo, percorreremo le tappe significative
del sentiero evolutivo dei motori di ricerca, apprezzandone le
innovazioni metodologiche e tecnologiche più interessanti,
arrivando a tracciare gli scenari che si prospettano nel futuro
immediato. Giungeremo infine all’ultimo capitolo, nel quale gli
argomenti trattati troveranno il loro naturale ambito di
applicazione in un settore di grande attualità: osserveremo che la
conoscenza dei criteri di classificazione dei documenti sui
motori di ricerca è uno strumento fondamentale per chi cerca
visibilità sul Web. Il SEO è l’ambito ove si concentrano tali
conoscenze: cercheremo di esporne le linee guida mediando tra
le esigenze, non sempre facilmente conciliabili, di un
posizionamento efficace e di un orientamento collaborativo allo
sviluppo semantico Web.
13
14
CAPITOLO I
1.1 Prima di Google
A un occhio profano, i motori di ricerca si configurano
semplicemente come strumenti che permettono di ricercare
materiale su Internet, attraverso la digitazione di una stringa di
testo da parte dell’utente, in risposta alla quale essi restituiscono
una serie di risultati, messi in ordine in base a complicatissimi e
poco conosciuti criteri di catalogazione.
Ma tali criteri sono davvero così indecifrabili e difficili da
interpretare? Senza eccessivi sforzi di memoria, possiamo
ripercorrere la prima fase della storia dei motori di ricerca,
significativamente denominata “prima di Google”, proprio per
sottolineare quanto le novità giunte da Mountain View abbiano
rivoluzionato lo scenario precedente.
I primi motori di ricerca, sorti nella prima metà degli anni
Novanta, utilizzavano il semplice criterio delle keywords (parole
chiave), inserite dagli stessi webmaster all'interno delle loro
pagine, attraverso i meta tag10. Tale sistema permetteva di
collegare le parole ricercate a pagine Web, i cui meta tag
segnalavano la presenza dei contenuti richiesti. Infine, veniva
stilata dal motore una lista di riferimenti ordinati secondo
pertinenza e rilevanza. La rilevanza, spesso rappresentata anche
con una percentuale posta accanto all'indirizzo di ciascun sito
Web trovato, nei motori di prima generazione veniva
determinata da una serie di algoritmi che prendeva in
considerazione un insieme di fattori, tra cui:
10 I meta tag, il cui funzionamento verrà approfondito in seguito, sono informazioni sui dati di una pagina web; sono inseriti nel codice HTML della pagina stessa, per fornire informazioni ai motori di ricerca.A differenza di ogni altro tag inseribile in una pagina web, i meta tag non forniscono al browser alcun dato di formattazione della pagina, per cui il loro influsso sul layout finale è nullo; sono perciò totalmente invisibili all'utente se non attraverso la visualizzazione del codice sorgente in HTML (http://it.wikipedia.org/wiki/Meta_tag)
15
- occorrenze del termine di ricerca nella pagina (frequenza);
- rapporto tra occorrenze e totale di parole della pagina
(densità);
- vicinanza dei termini di ricerca (prossimità);
- frequenza di aggiornamento delle pagine;
- posizione dei termini in alcune parti della pagina Web
(metatag del campo "head", nel campo "title" o, all'interno del
"body", nei tag "H" e "href", ecc.)
Erano i tempi di Altavista, Infoseek, ed Excite.
Per poter apparire ai primi posti nella lista di risultati, si
diffondeva l'uso dello spam11: termini con lo stesso colore dello
sfondo in modo da non essere visualizzati nel browser ma
percepiti dallo spider, utilizzo di pagine di reindirizzamento,
utilizzo improprio di parole chiave, segnalazioni continue della
stessa pagina al motore.
Un approccio apparentemente funzionale veniva così smontato
da programmatori smaliziati, che cominciarono, con l’obiettivo
di rendere più visibili e visitate le loro pagine Web, a dichiarare
nelle stesse decine di parole chiave, rendendo di fatto nulla
l'utilità di questo strumento (prevista, peraltro, nelle stesse
specifiche di HTML). Contemporaneamente, i motori di ricerca
più in voga (in particolar modo Altavista) iniziarono a vendere
le posizioni alte dei loro risultati di ricerca, mischiando, nella
presentazione dei risultati, siti rispondenti ai criteri di ricerca
con clienti rispondenti a criteri commerciali.
Questa situazione non molto rosea preparò il terreno per
l'avvento di Google.
11 Il termine spam, entrato ormai nel linguaggio comune, include qualsiasi forma di pubblicità indesiderata che si riceva su Internet. Per estensione, il termine può indicare anche l’attività di sabotaggio o manipolazione degli strumenti della Rete (siti, motori di ricerca, e-mail, ecc…) per scopi impropri.
16
1.2 I motori di seconda generazione
Occorre innanzitutto fare una panoramica sui leader del settore:
verso la fine degli anni Novanta molti siti hanno ritenuto
opportuno dotarsi di motori di ricerca interni, per facilitare il
reperimento di informazioni all’interno del sito stesso. Ma non
sono questi i motori di ricerca che ci interessano: noi vogliamo
occuparci dei motori veri e propri, URL alle quali si approda
appositamente per ricercare contenuti all’interno dell’intero
Web. Questi ultimi sono più interessanti per la nostra ricerca
non tanto per il principio di funzionamento (che è lo stesso di
quelli piccoli e che analizzeremo in seguito), quanto per la loro
particolare struttura e per l’enorme capacità di elaborazione di
cui sono in possesso, che li rende imprescindibili nello scenario
attuale di Internet: pensiamo a come il concetto stesso di
ipertesto sarebbe limitato, senza uno strumento che ci collega ai
contenuti mediante un’espressione, una stringa di testo. Inoltre, i
motori ci aiutano a introdurre la questione della visibilità in
Rete, che sta alla base del SEO e che è il vero propulsore del
nuovo, straordinario, sviluppo della Rete stessa dal punto di
vista commerciale.
1.2.1 L’avvento di Google
Sviluppato da due giovani ricercatori dell'universita' di Stanford,
Sergey Brin e Larry Page, Google e' stato lanciato in rete nel
settembre del 1999. Da allora, ha avuto una crescita
esponenziale, diventando in tempi rapidi il primo motore di
ricerca al mondo.
I dati ormai parlano chiaro: primo motore di ricerca utilizzato in
assoluto, 40% del mercato (che diventa 50/55% considerando i
17
motori che utilizzano le sue tecnologie), 300 milioni di utenti,
fatturato di 3 miliardi di dollari12.
Come ricordato precedentemente, la prerogativa che ha premiato
Google, innalzandolo in pochi anni a leader mondiale, consiste
nela sua rivoluzionaria idea di inserire negli algoritmi di ricerca
i link come variabile di calcolo della rilevanza. In realtà vari
fattori concorrono con differenti percentuali all’algoritmo, ma il
valore aggiunto consiste nel considerare i collegamenti tra siti,
chiaramente testuali, come elementi matematici. Questa, la
motivazione più tecnica. Naturalmente i fattori che hanno
concorso al successo di Google sono molteplici, a partire da una
progettazione user-friendly, per passare a un continuo
aggiornamento, in particolar modo per ciò che riguarda
l’algoritmo di ricerca e le parti che lo compongono. Infine, un
approccio commerciale, che ha portato ad esempio nel
Novembre 2006 alla discussa acquisizione del principale
concorrente per la condivisione di audiovisivi, YouTube.
Tornando al vero punto di svolta di Google, esso è
universalmente conosciuto col nome PageRank, altro gioco di
parole tra il cognome di uno degli autori e la prerogativa di
questo algoritmo di assegnare un valore (rank) ad ogni pagina
Web (page). L’algoritmo PageRank risulta tuttora uno tra gli
elementi più importanti per la classificazione delle pagine Web.
Sin dal momento della sua introduzione esso fece sentire il suo
peso, in particolare nella lotta allo spam, che ebbe da quel
momento maggiori difficoltà operative, essendo diventato a quel
punto inutile il suo annidamento nel codice sorgente di un sito. I
metatag videro da quel momento diminuire la loro importanza,
mentre ne acquistarono moltissima i link verso il sito, visto il
loro contributo di autorevolezza e rilevanza. Ma lasciamo che
Google descriva il concetto di Page Rank con “le sue stesse
parole”:
12 Fonte: http://www.primaonline.it/opinioni
18
“PageRank in dettaglio
Basato sullo specifico carattere "democratico" del
Web, PageRank sfrutta la vastissima rete di
collegamenti associati alle singole pagine per
determinarne il valore. In pratica, Google interpreta
un collegamento dalla pagina A alla pagina B come
un "voto" espresso dalla prima in merito alla
seconda. Tuttavia, non si limita a calcolare il
numero di voti, o collegamenti, assegnati a una
pagina. Oltre a effettuare questo calcolo, Google
prende in esame la pagina che ha assegnato il voto.
I voti espressi da pagine "importanti" hanno più
rilevanza e quindi contribuiscono a rendere
"importanti" anche le pagine collegate.
PageRank assegna ai siti Web importanti e di alta
qualità un "voto" più elevato di cui Google tiene
conto ogni volta che esegue una ricerca. È evidente
che oltre ad essere importanti, le pagine devono
corrispondere ai termini ricercati. Quindi, Google
integra PageRank con sofisticate procedure di
ricerca testo per trovare le pagine che sono rilevanti
e rispondono ai criteri di ricerca indicati.”13
E’ una storia breve quella dei motori di ricerca, ma la velocità e
l’entità dei cambiamenti tra queste due prime generazioni, il
passaggio dal posizionamento per keyword al PageRank,
passando per l’affinamento delle directories, rendono abissale la
distanza. Ora, prima di focalizzare il nostro discorso su Google,
13Guida alle funzioni di ricerca di Google, http://www.google.it/intl/it/why_use.html, 2008.
19
vediamo chi erano i competitors al momento del suo ingresso in
scena e nell’immediato seguito.
1.2.2 Yahoo e le directories
Yahoo è sempre stato il principale e naturale antagonista di
Google, sia in quanto preesistente, sia perché ha sposato un
approccio alla ricerca dell’informazione completamente diverso.
Yahoo nasce nel 1994, come poi avverà anche per Google, da un
progetto universitario dei suoi fondatori, David Filo e Jerry
Yang, che stavano sviluppando un deposito di link per tenere
traccia dei loro interessi su Internet. Quando tale deposito si
rivelò troppo grande e poco gestibile, i due decisero di
suddividerlo in categorie e sottocategorie, per argomenti. Il
progetto fu battezzato Jerry’s Guide to the World Wide Web, ma
dopo breve tempo acquisì il nome definitivo Yahoo (Yet Another
Hierarchical Officious Oracle) e cominciò a ricevere milioni di
visite giornaliere. Divenuto rapidamente azienda di successo,
Yahoo ha mantenuto la sua struttura a directory, servendosi di
società esterne per il servizio di ricerca (nell'ultimo periodo,
prima della trasformazione del 2004, la ricerca su Web veniva
rendirizzata su Google).
Superata la crisi delle dotcom dopo il 200014, Yahoo ha
compreso l’importanza di sviluppare un motore di ricerca
proprietario, che è stato elaborato e lanciato negli anni
14 Nel marzo 2000 una grossa crisi investì il mercato della cosiddetta “New economy”, costituita dalle attività, le imprese e gli investimenti basati sulle nuove tecnologie informatiche e telematiche gestibili su Internet. I motivi sono da ricercarsi nella nevrotica circolazione di enormi somme di denaro proveniente da venture capital e diretto alle imprese start-up, sulle quali il mercato azionario ha perso il controllo portando il sistema a un punto di collasso. Colossali cifre di denaro e numerosissime aziende sono state spazzate via da questa congiuntura, senza tuttavia provocare grosse inversioni di tendenza nel settore.
20
successivi, anche grazie ad alcune importanti acquisizioni15 e
che ha permesso al gruppo di diventare oggi la seconda fonte
utilizzata per effettuare ricerche sul Web. Ciò che ci interessa
particolarmente è la filosofia che Yahoo rappresenta, quella
ovvero di una selezione dei risultati filtrata dalla valutazione
umana piuttosto che gestita in maniera automatizzata.
Questo implica, per le directories come Yahoo, affidare le
proprie graduatorie a una catalogazione gerarchica
dell’informazione, spesso coadiuvata dall’intervento editoriale
umano, contrapposto all’oggetività “cieca” del calcolo
computazionale. L’indubbio vantaggio di una maggiore
selettività dell’informazione e di una struttura ad albero che
impone rigore e razionalità al caos del World Wide Web, viene
tuttavia limitato da un dominio di risultati circoscritto alla sola
struttura classificatoria.
Vedremo in seguito come la terza generazione dei motori,
insieme all’evoluzione dei linguaggi di programmazione al
servizio del Web, tenteranno una conciliazione tra i punti di
forza delle due tendenze nel Web semantico e negli studi sugli
agenti intelligenti.
1.2.3 Gli altri
Nel recente passato, tra i concorrenti di successo di Google si è
imposto anche Msn. Si tratta del tentativo Microsoft di porre
freno al dominio incontrastato di Google. Nel passato il colosso
informatico utilizzava tecnologie fornite da aziende esterne,
privilegiando la struttura a directory come Yahoo; ha poi
15 Le acquisizioni in questione sono Inktomi e Overture. Inktomi era azienda leader per la fornitura di servizi di ricerca su Web prima del 2000; Overture invece era una società proprietaria di un sistema di gestione dell’online advertising .
21
ammesso di aver perso una grande opportunità non sviluppando,
a suo tempo, una tecnologia di ricerca proprietaria.
Nel novembre del 2004, dopo 18 mesi di lavori, viene rilasciata
la versione beta16 del nuovo motore sviluppato dagli ingegneri
microsoft, MSN search, basato su un algoritmo totalmente
nuovo. Al momento MSN dichiara di aver indicizzato nel suo
database 5 miliardi di pagine Web, contro gli oltre 8 miliardi
dichiarati da Google..
Il pregio di MSN Search e' quello di superare l'approccio
generalista adottato da altri motori di ricerca, attraverso alcuni
strumenti di personalizzazione.
La sezione "settings" o "opzioni" permette di personalizzare i
risultati di ricerca secondo diversi parametri potendo scegliere di
visualizzare solo i siti in una determinata lingua, di far
visualizzare più di 10 risultati per pagina, raggrupparli per sito, e
filtrare i risultati.
La ricerca avanzata consente inoltre di limitare i risultati ad un
particolare dominio, lingua o paese e dispone di un particolare
filtro chiamato "ranking" o "valutazione risultati".
Ad oggi, Google, Yahoo e Msn sono le risorse più utilizzate per
reperire informazioni in Rete. Tuttavia la scena è costellata di
comprimari, che pur offrendo servizi del tutto simili a quelli
finora descritti, si differenziano ciascuno per qualche particolare
funzionalità. Passiamo in rassegna i più interessanti:
- dmoz: è l’acronimo di directory Mozilla, nasce nel 1998 con il
nome di NewHoo (ci ricorda qualcosa?), ma è conosciuto anche
come ODP (Open Directory Project).
L’idea si deve a un gruppo di volontari, con l'obiettivo di creare
una directory ragionata di risorse internet, gestite da specialisti 16 La versione beta è una versione di prova di un software, già testato dagli esperti, che viene messo a disposizione del pubblico, nell’ottica di individuare eventuali nuovi bug o incompatibilità del software stesso.
22
nelle singole aree. La forza di tale metodologia è di tipo
qualitativo e collaborativo: i volontari (detti editori), cresciuti
esponenzialmente in numero, esplorano continuamente la Rete
e, rispettando i criteri di editing ODP, ordinano e catalogano i
contenuti.
ODP è attualmente la directory utilizzata da siti come AltaVista,
Google, Lycos, Teoma e molti altri, come possiamo osservare
nella figura 1, ove le freccie verdi puntano verso i motori che si
servono di dmoz come catalogo.
Figura 1 Diffusione dell’utilizzo della directory dmoz presso i motori di ricerca.
Chiunque sia interessato a collaborare, partecipando attivamente
alla costruzione della directory, può scegliere un argomento e
fare richiesta di diventare editore per quella categoria. Oggi il
catalogo ospita addirittura 600.000 categorie e, per quanto sia
stato acquistato da Netscape (poi assorbita da AOL), ha
mantenuto fede al suo nome, conservando accesso gratuito, una
struttura editoriale decentrata, e la filosofia open source
all’origine del suo successo.
23
-Teoma e' stato sviluppato dal 1998 alla Rutgers University e
riprende la tecnologia su cui si basa il relevance ranking di
Google, cercando di perfezionarla. Come tutti i motori, una
volta inserite le parole chiave, Teoma cerca nel Web i siti che le
contengono. Ma, una volta individuati i siti, applicherà solo a un
gruppo, definito community, l'analisi dei link. Questo poiché
tale comunità, composta da siti di argomento attinente a quello
cercato, genera risultati più rilevanti e affidabili di quelli di altri
sistemi che applicano l'analisi dei link a tutto il Web (tale
concetto viene denominato Subject-Specific Popularity). In altre
parole, la posizione in graduatoria viene determinata dalla
quantità e dall’importanza dei link provenienti dalla stessa area
contestuale. Possiamo descrivere questo come il tentativo pilota
di mischiare le potenzialità di un motore con quelle di una
directory. Vedremo nel terzo capitolo, allorché ci occuperemo
dello sviluppo di Google, come l’intuizione dell’importanza
dell’area tematica venga integrata negli algoritmi di topic
distillation.
Nel 2001 Teoma viene acquisita da Ask Jeeves, poi divenuta
Ask.com, alla quale vengono trasferiti gli algoritmi di ricerca.
La peculiarità di Ask consisteva nel permettere ai suoi utenti di
ottenere delle risposte, interrogando il database con domande in
linguaggio naturale. Col tempo, e in seguito all’acquisizione di
Teoma, si è poi standardizzato ai motori di ricerca tradizionali,
e oggi presenta un’interfaccia del tutto simile a quella di Google.
- In continuità logica col precedente, Answers, nato nel 2005,
non è un vero e proprio motore di ricerca; si tratta piuttosto di un
motore enciclopedico. Digitando i termini di ricerca, Answers
non restituisce collegamenti ipertestuali (“Not lists of links... just
the information you're looking for”, è lo slogan), bensì vere e
proprie risposte, ottenute cercando e recuperando definizioni da
database enciclopedici. Attinge infatti a un centinaio di fonti:
24
enciclopedie, database, biblioteche, dizionari, atlanti. Tra questi,
siti affidabili e aggiornati come Columbia University Press,
Wikipedia, Houghton-Mifflin ecc.
Answers fornisce anche Click Answer, un software scaricabile
gratuitamente, che permette di collegare ogni termine
visualizzato sullo schermo alla definizione o ad altre
informazioni. Ancor più notevole, Wiki-Answer, una
funzionalità basata sulla filosofia wiki di knowledge sharing17,
attraverso cui qualunque utente abbia accesso alle risorse, può
aggiungerne di nuove o integrare le vecchie con nuove
informazioni.
Le caratteristiche di Answers fanno guardare a un futuro del
settore in cui la presenza umana, già presente a vari livelli nelle
strategie di indicizzazione attuali, si farà sempre più pressante e
necessaria, integrando le componenti automatiche dei motori di
ricerca e sopperendo ove queste siano troppo rigide, per venire
incontro alle molteplici necessità di informazione “intelligente”
da parte dell’utente.
1.3 I metamotori
Discorso a parte meritano i metamotori, il cui sviluppo è
trasversale rispetto agli elementi trattati finora. I metamotori
sono portali che non hanno un proprio database e aggregano i
risultati dei motori di ricerca principali, servendosi degli archivi
di questi ultimi. Nei primi sviluppi di Internet, quando le banche
dati dei motori erano piuttosto limitate, i metamotori furono
accolti con molto entusiasmo. Come prima impressione
17 Tale filosofia sta alla base ad esempio della nota enciclopedia libera online, Wikipedia (http://www.wikipedia.org). Il successo del knowledge sharing (condivisione della conoscenza) è determinato dalla partecipazione attiva da parte degli utenti, ai quali viene data la possibilità d’inserimento di nuove voci (sottoposte naturalmente a un monitoraggio editoriale).
25
sembravano strumenti ottimali, nell’ottica di snellire il processo
di reperimento ("perché cercare prima con un motore poi con un
altro, quando si può effettuare la ricerca contemporaneamente su
tutti?"). In realtà la loro efficacia è molto discutibile. Il
principale difetto è l'effetto di "minimo comun denominatore",
ovvero il fatto che possono usare solo le funzioni che i motori da
loro interrogati hanno in comune, finendo quindi per utilizzare
solo la parte più elementare di ciascun motore.
Tuttavia in questo filone rientrano un paio di progetti, di buon
successo per quanto riguarda il bacino d’utenza e di enorme
portata per il futuro dei motori di ricerca. Ci riferiamo alle
iniziative nate alla Carnegie Mellon University, che hanno dato
alla luce prima Vivìsimo, quindi Clusty.
1.4 Il clustering
Fondato nel 2000 da alcuni ricercatori della sopra menzionata
università di Pittsburgh, Vivìsimo si autodefinisce “clustering
engine”.
Questo perché, alla base del suo funzionamento, c’è il principio
che racchiude tentativi, esperimenti e speranze di poter
sviluppare dei motori di ricerca intelligenti. Tale principio
prende il nome di clustering, e come suggerisce il nome,
consiste nel processo di raggruppamento delle pagine e dei
documenti trovati nel Web secondo categorie (clusters)
semantiche.
Secondo questa modalità di presentazione dei risultati, viene
visualizzato non solo l’elenco delle pagine Web più significative
in base alla query inserita dall’utente, ma anche una serie di
cartelle tematiche, che rappresentano vari filoni attinenti
all’oggetto della ricerca, e che permettono all’ utente di
26
restringere o approfondire la ricerca in base a parametri
consigliati dal sistema.
Vivìsimo, “motore per il raggruppamento dei documenti” è il
pioniere del clustering, nonchè strumento che aggrega le risorse
della Rete su un determinato argomento, rendendole fruibili
attraverso cartelle tematiche create in tempo reale.
Esempio. Desideriamo ottenere informazioni sul tema “motori
di ricerca”. Inseriamo la query nella maschera, e otteniamo dei
risultati divisi in due sezioni. La prima, che occupa la parte
centrale della videata, propone in ordine di importanza alcune
pagine Web scelte che trattano dell’argomento inserito. La
seconda sezione dei risultati è posta sulla sinistra e propone una
serie di cartelle, in cui i risultati della ricerca sono ordinati in
base ad argomenti e sotto-argomenti. Grazie a questa sezione
possiamo decidere quale sotto-argomento visitare: là troveremo
altre pagine Web selezionate da Vivísimo e sempre relative ai
motori di ricerca.
Sviluppato da Vivìsimo e lanciato nel 2004, merita una
menzione anche Clusty, metamotore il cui nome sottolinea
ancora una volta la funzione di raggruppamento dei risultati di
ricerca.
Clusty si comporta come un normale metamotore, indicizzando
nella parte centrale della pagina i risultati fornitigli dai database
che a sua volta interroga, ma in più, come osserviamo sulla parte
sinistra della schermata, clusterizza tali risultati in base
all’argomento, proponendo alcune categorie di prossimità
concettuale alla query (fig.2): nel nostro caso, per la keyword
“motori di ricerca”, Clusty seleziona i clusters
“posizionamento”, “search engine”, “campagne, servizi”,
“realizzazione siti”, e molti altri.
27
Figure 2-4 Diverse opzioni di raggruppamento dei risultati offerte da Clusty
E’ intuitivo capire come tale strumento possa rivelarsi
fondamentale, nel caso in cui l’utente non abbia ben chiaro il
focus della propria ricerca, o lo voglia ulteriormente specificare.
Inoltre, come osserviamo nelle figure 3 e 4, possiamo scegliere
altre opzioni di raggruppamento dei risultati, che vengono
aggregati rispettivamente per fonti (altri motori di ricerca,
directories, articoli), o per dominio (nazionali, commerciali,
governativi, ecc…).
28
Avveneristico nel suo genere è infine l’esempio di Kartoo.com,
un metamotore costruito con intelligenza e creatività (e l’aiuto
dell’editor Flash), che si avvale delle tecniche di clustering per
offrire i suoi risultati sotto forma di mappe dinamiche. Cosa
significa?
Osserviamo la figura 5:
Figura 5 La risposta di Kart00 a una query
In seguito a un nostro input (il solito “motori di ricerca”),
Kartoo costruisce, oltre all’elenco di risultati raggruppati per
argomento (a sinistra), un’animazione Flash con una mappa di
documenti, che rappresentano i siti, di diversa grandezza a
seconda dell’importanza. Tali documenti sono sensibili al
passaggio del mouse, in corrispondenza del quale mostrano
quali link li legano agli altri items sulla mappa;
contemporaneamente sulla sinistra della pagina scompaiono i
clusters, per lasciare spazio ad un’anteprima della pagina Web
che andremmo a visualizzare cliccando.
29
Questi esempi di clustering ci portano a fare due considerazioni
di fondamentale importanza sull’argomento.
La prima è che tale logica di aggregazione dei risultati
rappresenta l’esempio meglio riuscito della convergenza tra
motori in senso stretto e directories, sfruttando la velocità e
l’ampio raggio d’azione dei primi, e la struttura razionale e
semantica dei secondi.
La seconda riflessione riguarda le conseguenze del clustering
stesso: esso mette in luce un nuovo approccio dei motori di
ricerca, focalizzato su una selezione dell’informazione per
concetti e categorie, avvicinandosi all’ottica semantica; tale
svolta, unita alla possibilità di una maggiore personalizzazione
dei contenuti proposti all’utente, raggiungibile grazie
all’aumento dell’interattività e alla conseguente creazione di
profili d’utenza, apre il dibattito al tema dell’intelligenza
artificiale applicata ai motori di ricerca.
1.5 Scenari futuri
Giunti a questo punto, abbiamo osservato come la ricerca di
informazione sui motori, vista molto spesso dal lato utente come
un’operazione di banale semplicità, consistente nella digitazione
di alcuni caratteri in una maschera, è in realtà il frutto di una
complessa progettazione e offre importanti spunti di riflessione:
in primo luogo per quanto concerne le diverse modalità di
raggiungimento dell’obiettivo (il reperimento
dell’informazione), che è ciò di cui ci siamo occupati finora; ma
pensiamo soprattutto alle conseguenze che tali modalità hanno
sul prossimo sviluppo del Web.
30
Lo scenario che si profila pare muoversi nella direzione di un
mix nell’utilizzo delle tecniche finora analizzate, volto a
sfruttarne le prerogative di successo ed eliminarne i punti deboli.
Nello specifico, l’elevata automazione degli algoritmi dei motori
di ricerca permette rapidità e reiterazione di indicizzazione
irraggiungibili, ma pecca di scarsa elasticità; le directories hanno
una struttura ordinata, e permettono una progressiva scrematura
del rumore (ossia, l’informazione inutile), inoltre, come nel caso
di dmoz, permettono quella classificazione qualitativa dei
risultati che al momento soltanto l’essere umano è in grado di
fornire; tuttavia, la loro grossa lacuna strutturale consiste nei
tempi di censimento del Web estremamente lenti, fattore che
impedisce di tenere il passo con l’espansione del Web stesso,
nonostante i sempre maggiori sforzi di collaboratori e volontari.
Il clustering, dal canto suo, pur proponendo una buona
mediazione tra le due possibilità sopra elencate, non sempre
offre un grado di rilevanza accettabile rispetto all’informazione
cercata, inoltre non sempre i clusters sono gli strumenti più
adatti per approfondire la ricerca. Non è raro scoprire che alcune
delle pagine Web presentate siano in realtà irrilevanti, se non
addirittura fuorvianti. Della precarietà dei metamotori come
strumento di precisione nella ricerca abbiamo già parlato poco
fa.
Ma allora, come combinare le virtù dei vari fronti, nell’ottica di
un Web nel quale, secondo una celebre frase di Daniel Read del
team Ask Jeeves, "gli utenti si aspettano che il motore di ricerca
legga nella loro mente"18? Come integrare “contenuti
multimediali e descrizioni semantiche, così da permetterne una
classificazione ed un’indicizzazione accurata e compatibile con
le tecnologie d’elaborazione automatica”19, come preconizza il
padre del Web, Tim Berners-Lee? Come rendere, in breve, i
motori di ricerca uno strumento intelligente, che assecondi le
18 Mirella Herrmann, Strumenti di ricerca in Internet, KF e-learning, maggio 2005 19 John Battelle, The Search, Cortina, 2007.
31
reali richieste dell’utente, che impari dai suoi comportamenti,
che preveda le sue scelte?
La risposta a tali interrogativi è ancora lungi dall’essere stata
fornita, ma dobbiamo annotare negli ultimi anni dei tentativi
mossi in tale direzione:
- Web semantico
Il Web è una massa di informazioni eterogenee e catalogate in
tanti modi diversi. Il Web semantico si propone di dare una
struttura al caos di risorse presenti in rete per facilitarne il
reperimento. Lo strumento utilizzato a questo scopo si chiama
XML, acronimo di Extensible Markup Language. Si tratta di un
metalinguaggio che consente di fornire una struttura ai
documenti e di inserire informazioni sui propri contenuti. L’xml
viene utilizzato per creare una rete di metadati, che descrivono
gli elementi del documento dal punto di vista semantico, dando
cioè informazioni qualitative. Di conseguenza, quando un
motore scandaglia una pagina Web, in presenza di tags xml esso
riesce a “comprendere” ciò che legge.
Se noi leggiamo "Paola Rossi" percepiamo che la stringa di
parole si riferisce al nome di una persona di sesso femminile e
probabilmente di nazionalità italiana: obiettivo del Web
semantico è di rendere accessibili anche ad una macchina questo
tipo di informazioni.
Queste informazioni sono quindi inserite preventivamente, al
momento della creazione delle pagine, secondo precise regole
semantiche, e vanno a far parte della struttura del documento.
- Machine Learning
Questo concetto, conosciuto in italiano come apprendimento
automatico, costituisce uno dei fronti principali della ricerca
sull’intelligenza artificiale. Esso consiste nell’idea che i sistemi
32
informatici, di cui i motori di ricerca fanno naturalmente parte,
possano essere “addestrati” ad apprendere, dunque essere in
grado di migliorare le proprie performances basandosi su
risultati precedenti. La grande portata teorica dell’argomento lo
rende un punto focale per molte applicazioni della Computer
Science - tanto per rendere l’idea, ne elenchiamo alcune:
processamento dei linguaggi naturali, riconoscimento di modelli
sintattici, diagnosi mediche, bioinformatica e informatica
chimica, prevenzione di frodi informatiche, analisi del mercato
azionario, classificazione di sequenze di DNA, riconoscimento
vocale e grafico, riconoscimento visuale, giochi e robotica.
E’ chiaro che l’ambito che ci interessa più da vicino è quello dei
motori di ricerca: come viene istruita la macchina? Esistono
degli algoritmi che le permettano di elaborare i nostri
comportamenti e imparare da essi, in modo da formare dei
“profili utente” da poter utilizzare nelle ricerche successive?
La risposta è naturalmente si. Molti motori di ricerca hanno
sviluppato una serie di opzioni per personalizzare la ricerca,
attraverso “agenti intelligenti”, che identificano il profilo
dell'utente sulla base dell'analisi delle preferenze e degli
interessi espressi durante le precedenti navigazioni: i risultati
delle ricerche successive si adegueranno al profilo costruito.
Quelli che abbiamo appena definito agenti intelligenti, sono in
realtà gli stessi algoritmi che rendono possibile il data mining.
Tale processo consiste nell’estrazione di conoscenza, sotto
forma di informazioni strutturate e tra loro collegate, estrazione
che avviene metaforicamente “picconando” banche dati di
grandi dimensioni. Lo scopo è quello di rendere disponibili
schemi o relazioni tra dati che esistono già, ma rimarrebbero
invisibili, o comunque nascoste.
Ora, il data mining è applicato a grossi database. Ma esistono
strumenti che applicano tali tecniche di estrazione cognitiva ai
testi in linguaggio naturale. Entriamo nell’ambito del text
33
mining, procedimento volto a catturare l’informazione testuale
implicita contenuta in un’insieme di documenti.
Si intuisce immediatamente l’importanza di tali attività, che
possiamo sintetizzare sotto il nome di Web mining, nell’ambito
delle ricerche in Internet: infatti, è proprio monitorando e
analizzando le banche dati così createsi, che è possibile
determinare dei pattern. Tali schemi ci conducono, da un lato, a
prevedere, guidare e assecondare con sempre maggior
precisione le scelte dell’utente. Non a caso si parla di
collaborative e cognitive filtering20: l'assunzione fondamentale
dietro a questi concetti è che ogni singolo utente che ha mostrato
un certo insieme di preferenze continuerà a mostrarle in futuro.
Ne consegue la creazione di profili utente, effettuata dal sistema
a partire da modelli di comportamento collettivi, in un continuo
processo di affinamento, attraverso il quale l’utente riceve
contenuti e informazioni specifiche.
Dall’altro lato, il Web mining permette di estrapolare da un
database sconfinato come quello del Web, dei documenti legati
da un filo di coerenza, da associazioni testuali, da analogie
linguistiche o tematiche, è insomma in grado di creare relazioni
scandagliando un universo di dati inestricabili. Come ad
esempio proporre all’utente siti con caratteristiche simili, ma
invece che slegati l’uno dall’altro, aggregati in raggruppamenti
logici. A ben pensarci, è proprio ciò che accade nel clustering.
Nei capitoli successivi, ove il funzionamento dei motori di
ricerca diverrà via via più chiaro, vedremo quali sono i risultati
raggiunti dal settore del machine learning nell’ambito della
ricerca su Internet. Quelli finora analizzati rappresentano gli
20 Per collaborative filtering (filtraggio collaborativo, spesso abbreviato con le lettere "CF") si intende una classe di strumenti e meccanismi che consentono il recupero di informazioni relative agli interessi di un insieme dato di utenti a partire da una massa ampia e tuttavia indifferenziata di conoscenza, offrendo la possibilità di effettuare inferenze predittive su tale insieme. Lo stesso meccanismo governa il cognitive filtering, filtraggio cognitivo, con la differenza che qui la selezione avviene analizzando i contenuti dei documenti.
34
approcci di maggiore successo e vengono largamente utilizzati
nei motori di ricerca.
1.6 Dentro Google: interfaccia utente
Ora che abbiamo evidenziato come i motori concorrano e
reagiscano al profilarsi di modelli di utenza, è giunto il momento
di introdurre come ciò avvenga a livello pratico. Quali sono
ovvero, le funzionalità, le possibilità di personalizzazione, le
modalità di presentazione dei risultati, le opportunità di aiuto e
interattività e più in generale gli elementi che ci troviamo di
fronte quando effettuiamo una ricerca sul Web.
Questo ci permetterà di familiarizzare con alcuni concetti (molti
sono, come spesso capita sigle) che incontreremo molto spesso
trattando di search engine optimization.
Si è scelto come esempio Google in quanto motore di ricerca più
diffuso in assoluto, che ci permette pertanto di generalizzare
maggiormente le considerazioni che facciamo in questa sede.
Ci connettiamo all’URL www.google.com, e veniamo
automaticamente reindirizzati, grazie a uno script in php, alla
pagina contestuale della nostra lingua. Ecco un primo esempio
di personalizzazione della ricerca: Google invia la sua
homepage in base alla lingua predefinita del browser, dunque
noi atterreremo su www.google.it.
Giungiamo a questo punto sulla pagina iniziale di Google, che si
presenta così (figura 6):
35
Figura 6 La homepage di Google Italia
La prima cosa da sottolineare è la semplicità di questa
homepage, che vuole comunicare con immediatezza la funzione
primaria del sito: ricercare dati. Un logo, una maschera per
inserire stringhe alfanumeriche, due opzioni di ricerca (locale o
globale) di carattere linguistico, cinque variabili di dati, per
restringere il campo di ricerca. La grafica molto spartana,
l’assenza di elementi con un ricercato appeal, risuonano come
un messaggio: “Qui ci interessa che l’utente trovi quello che sta
cercando. Punto”. Per molti addetti ai lavori questa filosofia
pratica, insieme alla qualità, alla velocità e all’estensione
dell’indice di Google, stanno alla base del suo successo.
Ovviamente sarebbe tutto troppo banale: questa apparente
semplicità, che permette l’utilizzo dello strumento a qualunque
persona, ha alla base un’architettura complessa e a più livelli,
ma è importante che l’interfaccia sia user-friendly.
Digitando una chiave di ricerca nella maschera, siamo di fronte
a due possibilità: i bottoni “cerca con Google” e “mi sento
fortunato”. Scegliendo la prima opzione, veniamo indirizzati alla
36
pagina di presentazione dei risultati, disposti in ordine di
rilevanza in base ai criteri del Page Rank, di cui analizzeremo le
variabili nel prossimo capitolo. Tale pagina prende il nome di
SERP, acronimo di Search Engine Result Page. Naturalmente,
nella maggior parte dei casi troveremo migliaia di siti
rispondenti alla nostra selezione, di conseguenza la SERP sarà
costituita da molte pagine che potremo scorrere fintanto che non
troveremo la risorsa a noi più congeniale.
La seconda opzione permette di saltare lo step della SERP, in
quanto rappresenta quella situazione in cui stiamo cercando
qualcosa di molto preciso, o estremamente noto, dunque siamo
certi che il motore lo troverà senza possibilità di equivoci o
risorse simili. Premiamo quindi “mi sento fortunato” e
atterriamo direttamente sul sito in cima alla graduatoria di
Google, quello che troveremmo in prima posizione nella SERP.
Tornando a quest’ultima, possiamo osservare nella figura 6 che
essa è suddivisa in due parti principali: al di sotto di un sintetico
resoconto sulla quantità delle risorse reperite e sul tempo
impiegato per effettuare l’operazione, sulla sinistra vengono
collocati i risultati naturali, ottenuti dal Motore esplorando il
Web e classificati per grado d’importanza. Sulla destra invece si
posizionano i risultati sponsorizzati, corrispondenti a una lista di
siti che hanno pagato il motore di ricerca, pur di ottenere quella
visibilità della prima pagina della SERP che non sono stati in
grado di raggiungere, o che vogliono potenziare con annunci
promozionali.
37
Figura 7 La pagina di risultati ottenuta su Google con la query “motori di ricerca”
A tal proposito, è interessante osservare che l’opzione “mi sento
fortunato”, oltre a rappresentare uno strumento utilizzato da una
parte minima dei suoi utenti (le statistiche rilevano l’1%)21,
inibisce per questi ultimi la possibilità di visualizzare gli
annunci pubblicitari che Google inserisce nelle pagine con gli
esiti della ricerca.
Eppure il doppio svantaggio, usabilistico ed economico, non
dissuade Google dall’intento di mantenere la funzionalità. Le
ragioni di questa scelta sono “ideologiche”, come ha spiegato
Sergej Brin, co-fondatore della compagnia californiana assieme
a Larry Page: “il fine è quello di aspirare a dare agli utenti a
colpo sicuro proprio ciò che cercano senza costringerli a
sceglierlo tra varie opportunità alternative.” In sostanza: Google
aspira a soddisfare al primo colpo la richiesta degli utilizzatori.
Si tratta ovviamente di un obiettivo utopico, dal momento che
21 Articolo “Il tasto Mi Sento Fortunato” , http://pixelgratis.com/articoli/web-marketing/il-tasto--mi-sento-fortunato.html, 2008.
38
spesso l’utente è anzi alla ricerca di più fonti da confrontare,
piuttosto che di un unico risultato.
Ma come precisa Marissa Mayer, la vice presidente di Google
per il settore search & user experience, “lo scopo di Google è
quello di unire intelligenze sulla base di propri interessi e
inclinazioni, e che l’ottenimento di profitti è solo una
conseguenza e non un fine di ogni operazione messa a segno”22.
Quest’affermazione è un punto cruciale della questione che
andiamo ad approfondire: da un lato Google, e più in generale i
motori di ricerca, puntano il loro futuro su un crescente
orientamento collaborativo, che li vede immersi nel Web 2.0 e
in interattività con la loro utenza. Il capitolo terzo illustrerà
come le tecnologie di ricerca alla base di Google siano parte
integrante di questo processo evolutivo.
Dall’altro lato, è inevitabile che uno strumento di così
fondamentale importanza nel contesto sociale attuale, attiri
investimenti e guadagni. Nell’ultimo capitolo analizzeremo i
risvolti di quest’aspetto sui fattori di cambiamento dei motori,
addentrandoci nella realtà del SEO e cercando di capirne il ruolo
in questo scenario.
22 Lett., J.Battelle, “Google e gli altri”, 2006.
39
CAPITOLO II
2.0 Dentro il motore
Finora la nostra analisi ci ha permesso di esaminare i motori di
ricerca da un punto di vista “superficiale”, mostrandoci come
essi si relazionano con l’utente. Ma questo non è sufficiente per
capire i meccanismi che stanno alla base del loro
funzionamento. A tal scopo, dobbiamo ora approfondire il punto
di vista tecnologico, attraverso una descrizione delle più
importanti caratteristiche dell’information retrieval, che ci
condurrà a una più agile comprensione di come l’informazione
venga immagazzinata, ricercata e messa a disposizione di chi la
richiede. L’obiettivo è quello di comprendere, attraverso un
excursus sugli approcci all'IR, l’evoluzione dei motori di ricerca
da semplici interfacce per il reperimento dell’informazione, alle
piattaforme di navigazione che sono diventate attualmente,
passando per gli algoritmi che le hanno svincolate dalla pura
ricerca testuale, legandole ad altre variabili come i link.
2.1 La ricerca
Che cos’è, in realtà, un motore di ricerca? Quali sono le sue
parti costituenti? Come reperisce e come gestisce le ingenti
masse di informazione che poi presenterà ai suoi utenti?
E’ rispondendo a tali interrogativi che faremo una conoscenza
più approfondita del nostro oggetto di analisi.
Tanto per cominciare, un motore di ricerca è un sistema che
mette in relazione le parole inserite da un utente (queries) ad un
database di pagine Web che ha creato(indice), generando
40
successivamente una lista di URL (con una sintesi del
contenuto) che si riferisce alle pagine Web ritenute rilevanti
rispetto alla richiesta dell’utente.
Il motore di ricerca si compone di tre elementi fondamentali: il
crawler, l’indice e il runtime system, o processore di query,
ovvero l’interfaccia e il software correlato che collegano le
richieste dell’utente all’indice. Il runtime system gestisce anche
questione primarie relative alla pertinenza e alla graduatoria dei
risultati. Ognuna di queste componenti contribuisce alla qualità
e alla velocità del motore, e ci sono centinaia di fattori in
ciascuna di esse che influiscono sull’esperienza globale della
ricerca. Ma i fondamentali sono più o meno gli stessi per tutti i
motori. Secondo le parole di Tim Bray, pioniere del settore, “il
fatto è che, dagli anni Settanta ad oggi, non ci sono stati rilevanti
passi avanti nella scienza fondamentale che studia il modo in cui
fare ricerche”23Quello che è cambiato riguarda piuttosto la
dimensione dei database e il modo di effettuare le query,
divenuto via via sempre più simile al linguaggio naturale.
Abbiamo introdotto un termine nuovo, crawler. E’ a partire da
questa funzione che comincia il reperimento dei risultati. Il
crawler, denominato alternativamente spider, robot o bot, è un
programma specializzato, il cui compito consiste nell’effettuare
una copia testuale di tutti i documenti che visita, inserendoli in
un indice. Il crawler si basa su una lista iniziale di indirizzi,
fornita dal motore di ricerca. Durante l'analisi di un documento,
identifica tutti i link presenti nel stesso e li aggiunge alla sua
lista. Tale ciclo viene ripetuto fino al completamento dell’intera
struttura ipertestuale
Pur essendo programmi basati su tecniche complesse, il lavoro
dei crawlers ha una logica piuttosto semplice: essi si collegano
senza sosta ai vari URL e riportano indietro ciò che trovano. I
crawlers sono inoltre la parte meno visibile di un motore di
ricerca, ma la più importante: quanti più siti riescono a
23 Lett., J.Battelle, “Google e gli altri”, 2006
41
contattare e quanto più spesso lo fanno, tanto più completo
risulterà l’indice e tanto più rilevanti saranno le SERP.
I primi crawlers scoprivano e indicizzavano solo i titoli delle
pagine Web, quelli odierni agiscono sull’intero contenuto della
pagina, sui metadati e su diversi tipi di file testuali e
multimediali.
Il crawler spedisce i suoi dati a un enorme database, chiamato
indice. L’indice è una sorta di lista di domini, a ciascuno dei
quali vengono associate le pagine che lo compongono e i dati
che lo riguardano (parole contenute, links, ecc…). L’indice
viene a questo punto invertito, di modo che l’associazione
funzioni anche al contrario. Tale passo è fondamentale, poiché
le liste di parole che vengono così create, sono successivamente
associate ai vari domini e sono pronte per essere presentate
come risposta alle query. Senza l’inversione il database saprebbe
che un URL contiene determinati termini, ma non saprebbe
rintracciare l’URL a partire dal suo contenuto.
Figura 8 La rappresentazione logica di un indice inverso
Come osserviamo nella figura 8, la struttura logica dell’indice
inverso è costituita da tre componenti: a sinistra, una lista dei
termini presenti nel documento; al centro la posting list,ovvero
una lista associata con ognuno dei termini, nella quale si trova
42
l’indicazione binaria circa la presenza di un certo termine in un
determinato documento, (spesso accompagnata da alcune
informazioni aggiuntive che velocizzano il reperimento); a
destra, l’indice dei documenti analizzati dal crawler.
Queste funzionalità rappresentano approssimativamente le basi
minime di un motore di ricerca. Fino alla fine degli anni
Novanta non ci si era spinti oltre questi aspetti. A partire da
quella data tuttavia, l’indice è divenuto un’importante terreno
d’innovazione per le società operanti nel settore, nonché il
fulcro della “ricetta segreta”. L’indice contiene infatti le
informazioni sui siti Web, che vengono poi interpretate
attraverso algoritmi e modelli statistici, durante la fase che
prende il nome di analisi dell’indice. Durante questa fase, grazie
a un sistema di metadati, i dati contenuti nell’indice vengono
etichettati con ulteriori informazioni (lingua, genere, tasso di
aggiornamento e così via). Questi metadati risultano decisivi
per consentire al motore di ricerca di offrire dati più rilevanti.
La fase successiva consiste nella creazione di un ponte tra le
richieste dell’utente e l’indice così formatosi. Tale funzione
viene eseguita da due elementi: l’indice runtime, un database sul
quale vengono riversati i dati analizzati, indicizzati ed
etichettati, e il query server, un software che inoltra i quesiti
dell’utente dall’interfaccia all’indice runtime. Il query server e
l’indice runtime costituiscono rispettivamente il front end e il
back end di un motore di ricerca.
Ora che abbiamo brevemente definito la struttura del motore di
ricerca, facciamo un passo indietro e uno in profondità, poiché
per comprendere i fattori di successo dei motori di ricerca
contemporanei, dobbiamo addentrarci nel cuore dell’IR. I
paragrafi successivi analizzano gli aspetti che hanno maggiori
punti di contatto con la ricerca di informazione sul Web: tale
43
analisi ci condurrà a indagare sul come le operazioni appena
descritte vengano eseguite.
2.2 L’Information Retrieval24
L’interesse per l’IR esiste da molto tempo prima di Internet: il
termine è stato coniato da Calvin Mooers, padre di uno dei primi
linguaggi di programmazione (il TRAC), alla fine degli anni '40
del Novecento. Tale disciplina nasce in un contesto a metà tra
l’informatica e la biblioteconomia, la scienza che si occupa della
catalogazione di grossi archivi attraverso metodi che assegnino
ai vari elementi presenti degli identificativi univoci.
Qual è il nodo cruciale che lega l’IR ai motori di ricerca? Un
buon punto di partenza è cominciare a chiederci che cos’è in
fondo Internet, se non un enorme archivio di documenti,
trattabili in fondo come testi. A questo possiamo aggiungere che al 31/01/2008, le stima
ufficiale delle pagine Web si attesta a quota 44,46 miliardi25.
L’84%delle risorse ricercabili su queste danno accesso a
documenti testuali.26 Ora probabilmente il legame è più chiaro.
La crescita esponenziale di database online di documenti in
linguaggio naturale, ha reso sempre più complessa una ricerca
efficace ed efficiente dell’informazione desiderata dall’utente.
Abbiamo usato questi due termini, efficace ed efficiente, non a
caso: l’obiettivo primario dell’IR è quello di rendere rapida,
semplice e valida la ricerca dei documenti all’interno degli
archivi: la misura di quanto questo avvenga in maniera ottimale
24 Questa sezione è basata sul testo: C.D. Manning, Prabhakar Raghavan, Hinrich Schütze, “An introduction to Information Retrieval”, 2008 25 Fonte: http://www.worldwidewebsize.com 26 Fonte: Masoud Mohammadian, Intelligent Agents for Data Mining and Information Retrieval, Idea Group Publishing, 2004
44
è data da due parametri, solitamente indicati come effectiveness
ed efficiency.
Il concetto di effectiveness si riferisce al grado di soddisfazione,
da parte del sistema, del bisogno d’informazione dell’utente,
riguarda dunque la rilevanza della risposta rispetto alla richiesta.
L’efficiency invece corrisponde al consumo di risorse da parte
del sistema: CPU, memoria centrale e memoria di massa
richieste, tempi di risposta: ha dunque a che fare con la potenza
di calcolo della macchina utilizzata e con gli algoritmi di ricerca
che vengono implementati.
I due parametri in base ai quali viene universalmente valutata
l’effectiveness di un sistema di information retrieval si
chiamano precision e recall.
La precision designa la proporzione di documenti effettivamente
rilevanti in rapporto al totale dei documenti restituiti dal sistema
in risposta ad una query dell’utente.
Il recall corrisponde alla proporzione dei documenti rilevanti
restituiti dal sistema in rapporto al totale dei documenti rilevanti
(restituiti e non) presenti nella collezione esaminata.
In linea teorica, possiamo immaginare un sistema perfetto,
costituito da precision e recall perfetti, ove il numero di
documenti rilevanti corrisponda esattamente a quello dei
documenti restituiti. Purtroppo la realtà è diversa, i sistemi di IR
sono imprecisi, e i due parametri risultano spesso inversamente
proporzionali, dunque ad un’alta precision, susseguente ad una
45
selezione molto specifica, corrisponde un basso recall, è
probabile cioè che molti documenti rilevanti non siano stati
recuperati. L’opposto accade nel caso di alto recall: un gran
numero di documenti restituiti, dei quali molto pochi davvero
rilevanti. Nel diagramma in figura 9 osserviamo graficamente la
relazione tra i due parametri.
2.2.1 Automatic text analysis
Ora che abbiamo visto alcune tra le più importanti variabili in
gioco nell’IR, torniamo al cuore della questione. Siamo di fronte
a una grande mole di informazioni, il cui reperimento risulta
complesso, in quanto abbiamo a disposizione degli strumenti di
calcolo “numerico” a fronte a di dati in forma testuale, ossia non
strutturata. I problemi principali riguardano innanzitutto la
difficoltà di interpretazione delle ambiguità dei linguaggi
naturali da parte di un sistema informatico, in secondo luogo la
vaghezza e l’imprecisione del bisogno informativo espresso
dall’utente. La soluzione viene affidata a metodi automatici che
migliorino l’accuratezza e la velocità di ricerca e di
organizzazione dei documenti.
Figura 9 La relazione tra Precision e Recall
46
In che modo? E’ necessario che il calcolatore, più che agire
direttamente sul testo dei documenti, ne generi una
rappresentazione che abbia una forma idonea ad un’analisi
automatizzata. In poche parole, costruisce un modello del testo.
Tale modello deve rappresentare, in forma schematica, il
contenuto del documento in esame.
Lo schema di cui parliamo è una lista di termini estrapolati dal
documento, che ne rappresentino sinteticamente il contenuto. A
partire da questa lista, si procederà poi alla creazione del
modello, come vedremo in seguito. Con quale criterio viene
creata la lista? Secondo uno dei punti basilari della teoria
dell’IR, la frequenza con la quale un termine ricorre all’interno
di un testo, è un indice significativo della sua importanza
all’interno del testo stesso.27 Di conseguenza, un buon modello
del documento potrebbe essere una lista delle parole
maggiormente ricorrenti al suo interno. Tuttavia, è facile
obiettare che esistono parole, come congiunzioni ed articoli, che
hanno una grande ricorrenza all’interno dei testi, senza però
caratterizzarli semanticamente.
Come stabilire allora quali siano i termini di un testo che il
sistema deve considerare come indici significativi? La risposta
sta nella legge di Zipf28, che mette in relazione la frequenza con
cui le varie parole compaiono in un testo, con il loro rank, ossia
la posizione che occupano in un’ideale scala delle frequenze.
Secondo tale legge, il prodotto tra queste due variabili è
approssimativamente costante.29 La distribuzione dei termini di
un testo di media lunghezza che si ricava da questa legge è la
seguente:
27 La teoria dell’IR, http://www.volocom.it/doc/info_retrieval.pdf 28 G.K.Zipf, "Human Behaviour and the Principle of Least-Effort", 1949. 29 Legge di Zipf, http://it.wikipedia.org/wiki/Legge_di_Zipf.
47
� Elevatissima frequenza di pochi termini (sono gli articoli
e le congiunzioni di cui sopra);
� Un numero considerevole, anche se non elevatissimo, di
elementi che occupano posizioni intermedie sulla scala
delle frequenze d’utilizzo;
� Un altissimo numero di elementi con frequenza tendente
a zero. Se ci riferiamo al linguaggio, si tratta di tutte
quelle parole che non vengono quasi mai utilizzate.
Tali considerazioni, poi applicate da Luhn ai propri studi30,
hanno poi portato all’introduzione di due valori di soglia
(cut-off), uno superiore e uno inferiore. Le parole che stanno
oltre il valore di soglia superiore vengono considerate troppo
comuni, mentre quelle al di sotto della soglia inferiore
vengono considerate troppo rare; in entrambi i casi questi
termini non danno un contributo significativo al contenuto
del testo. Nella figura 10 osserviamo graficamente la curva
iperbolica che rappresenta la legge di Zipf: sulle ascisse
troviamo il rank delle parole, sulle ordinate la frequenza
delle stesse; la zona grigia al centro è costituita dai termini
rilevanti all’interno di un testo, che raggiungono il picco di
rilevanza all’apice della cosiddetta funzione di risoluzione,
rappresentata dall’iperbole tratteggiata .
30 H.P. Luhn, “The automatic creation of literature abstract”, IBM Journal, 1958.
48
Figura 10 Curva di Zipf e funzione di risoluzione
Giungiamo così all’assunzione che il resolving power delle
parole, ossia la loro facoltà di discriminare il contenuto dei
documenti, raggiunga un picco in una posizione nel rank order
circa a metà tra i due valori di cut-off e tenda a zero all’incirca in
corrispondenza dei due sopraccitati valori di soglia.
Ovviamente i valori di soglia non sono stabiliti univocamente,
ma vengono fissati di volta in volta in maniera convenzionale.
A questo punto, resta ancora da capire come vengano modellati i
documenti in modo che possano essere analizzati in un sistema
automatico di IR.
Potremmo pensare al nostro modello come a una lista di class
names, dove ogni class name rappresenta una classe di parole
presenti nel testo esaminato (vedremo più avanti in che modo)
che fanno tutte riferimento ad un medesimo concetto; tali class
names diventeranno poi le parole significative che rappresentano
il contenuto del documento.
La costruzione del modello avviene in tre fasi:
1. Rimozione delle parole che compaiono troppo
frequentemente;
2. Rimozione dei suffissi (suffix striping o stemming);
49
3. Individuazione delle radici (o stem) comuni a più parole
(questa operazione viene generalmente indicata come
conflation).
La rimozione delle parole con un’alta frequenza di occorrenze
(tali parole sono conosciute in letteratura come stop words) è un
modo per implementare il cut-off di cui si è parlato con
riferimento alla figura 10; l’eliminazione delle stop words
costituisce un passo necessario nella progettazione di un sistema
di IR. I vantaggi di questa operazione sono molteplici:
innanzitutto si rimuovono dei termini che non sono significativi
per il contenuto del testo in quanto compaiono praticamente in
tutti i documenti: tali termini non interferiranno
durante la fase di ricerca e recupero; in secondo luogo si
diminuisce la dimensione del documento, generalmente tra il
30% e il 50%, con un chiaro risparmio di risorse e tempi di
elaborazione.
La seconda fase consiste nella rimozione dei suffissi dalle
parole; tale operazione viene detta suffix striping oppure
stemming; l’approccio standard adottato negli algoritmi di suffix
striping più utilizzati consiste nell’avere una lista completa dei
suffissi e nel rimuovere il più possibile quelli più lunghi, ad
esempio le parole “smoke, smoker, smoking” diventano tutte
rappresentanti della radice “smok-”.
Purtroppo la rimozione incontrollata dei suffissi può produrre
degli errori grossolani:
EQUAL � EQ �???
Per evitare errori di questo tipo è opportuno introdurre delle
regole (di tipo quasi “grammaticale”) più restrittive: il suffisso
verrà rimosso soltanto se tali regole saranno rispettate. Ad
esempio si impedisce che lo stem ottenuto dalla rimozione del
50
suffisso sia più corto di un certo numero di caratteri, oppure che
termini con determinate lettere o sequenze di lettere.
L’assunzione che sta alla base del terzo passo (conflation) è che,
nel contesto dell’IR, se due parole hanno la stessa radice o stem,
allora si riferiscono al stesso concetto e possono essere
indicizzate come un’unica entità. Questa assunzione va bene
nella maggioranza dei casi, ma anche qui può portare talvolta ad
errori marchiani in quanto parole molto simili possono avere
significati completamente diversi (ad esempio “pain” e “paint”).
Poiché non esiste un metodo economico per effettuare una
simile distinzione, si mette in conto che permarrà una certa
percentuale di errore e si assume che tale percentuale di errore
non infici troppo l’efficacia del sistema. Si utilizzano dunque
degli algoritmi di conflation che generano una serie di classi,
una per ogni diverso stem che è stato ottenuto.
Alla fine si ottiene un modello dei documenti costituito da una
lista di class names, che vengono solitamente chiamati index
term o keyword.
Ora che il modello è stato creato, il passo successivo è la
rappresentazione di questo pseudo-documento in una forma
congeniale all’elaborazione del sistema: una volta effettuata tale
operazione su un’intera collezione di documenti, come vengono
ritrovate le rappresentazioni? Quali strategie esistono per
ordinare i documenti, una volta noti i termini comuni ai
documenti stessi ed alla query? E come influiscono tali strategie
sul modo di formulare le richieste al sistema e sul tipo di
risposte che questo fornisce come output? A tali domande
cercheremo di rispondere nel paragrafo seguente.
51
2.2.2 Retrieval strategies
Il sistema di IR ha a questo punto una collezione di dati, che
sono rappresentazioni dei documenti adattate alla sua visione.
Ora, prima di costruire l’indice di cui abbiamo parlato nel
paragrafo 2.1, il sistema deve seguire una tecnica per la
rappresentazione dei documenti a sua disposizione. Per eseguire
questo passo, esistono diverse strade. Il modello booleano
rappresenta i documenti tramite insiemi e la ricerca viene
effettuata attraverso operazioni su tali insiemi. I modelli
algebrici rappresentano i documenti e le query con vettori e
matrici, che, utilizzando un numero finito di operazioni
algebriche, vengono trasformati in una misura numerica, la
quale esprime il grado di somiglianza dei documenti con la
query. Infine, i modelli probabilistici utilizzano teoremi e
inferenze tratte dal calcolo della probabilità per rappresentare i
termini della ricerca.
Boolean Retrieval
Tradizionalmente il progetto logico e l’implementazione dei
sistemi di IR sono stati influenzati dalla tecnologia dei database:
il recupero dei documenti è stata trattato di conseguenza come
una variante del recupero dei dati all’interno di una base di dati.
Un gran numero di sistemi di IR è dunque basato sulla logica
booleana. Tale strategia si serve degli operatori booleani come
AND, OR e NOT per collegare i termini della query.
L'informazione associata ad un documento è composta da due
valori possibili: un documento può essere rilevante (1) o
irrilevante (0), in base alla presenza o assenza di un termine
richiesto all'interno del documento. I pregi principali di questo
modello sono la velocità e la facilità d’implementazione, che ne
hanno permesso una rapida introduzione nel mondo online.
Tuttavia l’eccessiva semplicità è anche all’origine dei principali
52
problemi: il sistema restituisce tutti i documenti che soddisfano
la query, ma essendo la strategia di ricerca basata su un criterio
di decisione binario, non esiste alcuna nozione di grado di
rilevanza. L’approccio booleano non tiene in nessun conto il
contributo apportato da ogni singolo termine alla
caratterizzazione del testo: una qualsiasi parola o appartiene,
oppure non appartiene ad un documento. Inoltre, avendo tutti i
documenti pari grado d’importanza, non esiste alcun
ordinamento logico. Per questo motivo, a meno che l’utente non
abbia ben chiaro che cosa sta cercando, tale metodologia si
rivela poco flessibile e qualitativamente inadeguata.
Extended boolean retrieval
Le lacune della strategia booleana pongono l’accento su una
variabile di grande importanza per l’organizzazione dei dati in
uscita: l’ordinamento o ranking. Il modello booleano è stato
dunque esteso e raffinato per colmare questo aspetto della
questione. Nel modello booleano esteso vengono mantenute le
caratteristiche appena descritte di rappresentazione binaria dei
dati, ma a queste viene aggiunta la variabile del peso (weight)
associato ai vari termini del testo: in questo modo il peso dei
termini ne riflette in qualche maniera l’importanza relativa
all’interno del documento; tali pesi permettono inoltre di
adottare dei criteri di ordinamento dei documenti trovati, infatti
in fase di ricerca non ci si affida più soltanto ad una
corrispondenza esatta tra i termini presenti nella richiesta e
quelli del documento, ma si lavora sui pesi degli index term
mentre gli operatori booleani presenti nella query acquistano un
valore numerico da associare ai pesi.
In altre parole, ad ogni documento non sarà più asseganto un
valore booleano, true o false, a seconda che i suoi termini
soddisfino o meno la condizione espressa dalla query, bensì un
53
valore numerico variabile all’interno di un intervallo predefinito
che permetterà di costruire una graduatoria dei documenti
rilevanti.
Nella tabella in figura 11 visualizziamo graficamente tale
concetto. Se indichiamo con WX e WY i pesi associati a due
termini X e Y si ha:
Il modo più semplice per assegnare un peso ai termini del testo è
in base alla term frequency, ossia alla frequenza con cui il
termine ricorre all’interno dei vari documenti, anche se tale
assunto è semplicistico e fuorviante, in quanto prevede che il
termine sia più importante se compare molte volte. Esistono
tuttavia modelli simili a questo che ne raffinano le parti grezze
con operazioni quali ad esempio la normalizzazione dei pesi.31
Bisogna in ogni caso riconoscere a questo modello l’indubbio
pregio di permettere, contrariamente al precedente, la creazione
di una graduatoria di rilevanza dei documenti grazie alle
operazioni sui pesi, che producono valori relativi e non più
binari.
31 Per approfondimenti, vedi anche Euclidean Weighted Boolean Model.
Figura 11
Modello booleano e booleano esteso a confronto
54
Vector Space Model
Tra i modelli algebrici, il più importante e conosciuto è
certamente il Vector Space Model, introdotto nella prima metà
degli anni Settanta da uno dei padri dell’IR, Gerhard Salton32.
Tale modello riconosce che l’uso di pesi binari è troppo limitato
ai fini di un buon matching tra query e risultati correlati. A
questo proposito, introduce il concetto di somiglianza tra questi
ultimi, rappresentandoli come vettori all’interno di uno spazio
multidimensionale. Per la precisione, parliamo di uno spazio n-
dimensionale, dove ogni dimensione è associata ad un diverso
index term presente nella collezione di docuenti.
Ogni documento viene quindi rappresentato mediante un vettore
(t1, t2, ..., tn) dove, nel caso più semplice, t vale 1 se il
documento contiene il termine i-esimo e 0 in caso contrario; la
stessa rappresentazione verrà adottata per le query sottoposte al
sistema.
Supponiamo ad esempio di avere una collezione di documenti
caratterizzata da questi sette index term: “tesi, motori, ricerca,
SEO, information, retrieval, tecniche”: se avessimo la query
“tecniche di information retrieval per i motori di ricerca”, questa
verrebbe rappresentata mediante il vettore:
q = ( 0 , 1 , 1 , 0 , 1 , 1 , 1 )
dove un componente vale 1 se il corrispondente termine è
presente nella query e 0 se non è presente. I documenti che
compongono la collezione possono essere rappresentati nello
stesso modo. Ad esempio potremmo trovarci di fronte ai
seguenti vettori, corrispondenti ai documenti d1, d2 e d3:
d1 = ( 1 , 1 , 0 , 1 , 0 , 1 , 0 )
d2 = ( 0 , 1 , 1 , 1 , 0 , 0 , 1 )
d3 = ( 0 , 0 , 1 , 0 , 1 , 1 , 1 ) 32 G. Salton, A. Wong, and C. S. Yang (1975), "A Vector Space Model for Automatic Indexing," Communications of the ACM, vol. 18, nr. 11, pagine 613–620. (in questo articolo il VSM fu presentato per la prima volta)
55
Per determinare quale documento sia soddisfa meglio la query,
si calcola la somiglianza tra i vettori che rappresentano i
documenti e il vettore che rappresenta la query. Per calcolare
tale somiglianza, il metodo più utilizzato calcola l’angolo tra il
vettore che rappresenta la query ed i vettori che rappresentano i
vari documenti: quanto più è piccolo l’angolo tra due vettori,
tanto più i due vettori (nel nostro caso la query ed un
documento) sono considerati simili. Uno dei modi per ottenere
la misura precedente consiste nel calcolare il prodotto scalare tra
i vettori; nel caso preso in esame si avrebbe quindi
da cui risulta che il documento d3 è quello più similare alla
query.
Per migliorare la qualità di questo modello si utilizzano dei
vettori pesati (weighted vectors), in cui i vari elementi non sono
più soltanto 0 e 1, ma dei numeri indicanti l’importanza di quel
particolare termine per il documento corrente. Abbiamo già
visto in precedenza che si potrebbe utilizzare come peso il
numero di occorrenze di ogni termine all’interno dei documenti,
ma abbiamo già anche notato come questa misura non sia
ottimale in quanto tiene conto soltanto della frequenza intra-
documenti e non di quella inter-documenti. Per gli scopi dell’IR
un index term risulta utile se esplica due funzioni:
1. è rilevante rispetto al contenuto del documento, quindi aiuta a
recuperare il documento in fase di ricerca (recall function, intra-
document);
56
2. permette di distinguere un documento, o un gruppo di essi,
dal resto della collezione in modo da non restituirne un numero
troppo elevato, comprendente sia testi rilevanti, sia non rilevanti
(precision function, interdocument).
Queste osservazioni suggeriscono di usare delle misure di
frequenza relative per privilegiare i termini che hanno un alto
numero di occorrenze in alcuni documentidella collezione, ma
che risultano essere poco frequenti nel complesso di tutti i
documenti. Il più noto schema di pesatura dei termini che tiene
conto di questi fattori è quello indicato con
tf * idf
dove tf corrisponde alla term frequency, ossia alla frequenza di
ricorrenza di un termine all’interno di un documento, mentre idf
designa l’ inverse document frequency, ovvero l’inverso della
frequenza di un termine nei documenti della collezione.
L’importanza dell’idf consiste nel fatto che i termini che
compaiono in molti documenti non sono utili per discriminare
tra documenti rilevanti e non.
Una volta ottenuta una pesatura dei vettori, il grado di similarità
di un documento con la query viene calcolato attraverso il
coseno dell’angolo formato dal vettore che rappresenta la query
e da quelli rappresentanti i vari documenti. I valori così ottenuti
vengono poi posti in ordine decrescente e indicano la
graduatoria di similarità dei documenti della collezione con la
query.
A livello teorico, la macchia di questo paradigma è l’ipotesi che
i termini siano mutuamente indipendenti. Il risultato più
importante raggiunto consiste in una maggiore precisione
dell’insieme dei documenti restituiti, dal punto di vista delle
necessità informative, rispetto al modello booleano. Questo
perché i vettori consentono un matching anche parziale con la
57
query, estendendo l’ambito della ricerca. Inoltre, l’utente può
sottoporre le richieste usando il linguaggio normale oppure con
un semplice elenco di parole anzichè con formule ed operatori
per lui innaturali.
Probabilistic retrieval
I modelli probabilistici sono caratterizzati dall’applicazione
formale della teoria delle probabilità alla logica IR: l’idea chiave
è di classificare i documenti in ordine di probabilità di rilevanza
rispetto all’informazione richiesta.
Il modello probabilistico è simile al Vector Space Model in
quanto i documenti e le query vengono rappresentati mediante
vettori; la differenza sta nel fatto che, anzichè recuperare i
documenti basandosi sulla loro similarità con la query, il
modello probabilistico ordina i documenti in base alla
probabilità che essi siano rilevanti per la query. Questa
probabilità viene calcolata utilizzando un insieme di documenti
per i quali è noto a priori se siano rilevanti oppure no.
In pratica, i pesi associati agli index term che costituiscono la
collezione vengono calcolati basandosi sulla loro distribuzione
nei documenti che vengono osservati come campione. Se
assumiamo che le distribuzioni dei vari termini siano
reciprocamente indipendenti (come nel Vector Space Model: il
che come intuiamo non è in realtà del tutto vero), la probabilità
che un documento sia rilevante rispetto ad una query può essere
calcolata sommando i pesi associati ai termini comuni tra tale
documento e la query; tali pesi indicano infatti la probabilità che
i termini della query compaiano in un documento rilevante, ma
non in uno non rilevante.
Gli svantaggi principali di questo modello risultano essere la
necessità di ipotizzare una iniziale separazione tra documenti
58
rilevanti e non; il fatto che il modello non prende in
considerazione la frequenza di occorrenza dei termini indice nel
documento; l’ipotesi di indipendenza tra i termini indice.
Latent Semantic Indexing (LSI)
La rappresentazione spazio-vettoriale gode di un certo numero
di vantaggi, tra i quali l’intuizione di trattare uniformemente
queries e documenti come vettori, il calcolo dei risultati basato
su un parametro neutro come la similarità del coseno, la facoltà
di pesare termini differenti in maniera differente. Tuttavia, tale
modello soffre dell’incapacità di affrontare due nodi focali dei
linguaggi naturali: la sinonimia e la polisemia.
La sinonimia è quella caratteristica del linguaggio per la quale
esistono più espressioni per riferirsi a uno stesso significato,
idea o concetto. La polisemia, viceversa, designa quelle
espressioni che possiedono diversi significati.
La sinonimia può causare una riduzione del recall per una data
ricerca, laddove alcuni documenti rilevanti vengono tralasciati
solo perché i termini utilizzati nella query non corrispondono a
quelli presenti nei documenti, pur essendoci un’affinità
concettuale tra gli uni e gli altri. Per cercare di ridurre il
problema della sinonimia si è sovente fatto ricorso a tecniche di
term expansion come i thesauri33; queste tecniche portano ad un
miglioramento del recall, accompagnato però da una
diminuzione della precision dovuta alla polisemia: infatti i
termini introdotti possono avere più significati e quindi
recuperare anche documenti irrilevanti ai fini della ricerca
corrente.
33 Si tratta di tecniche che hanno lo scopo di raffinare una ricerca. La term expansion, o espansione della query, riformula una ricerca per migliorare la performance di retrieval, aggiungendo termini o correggendo automaticamente quelli inseriti dall’utente. Una delle possibilità per implementare questa tecnica si serve dei Thesauri, collezioni di termini di cui si sfruttano le relazioni associative. Ad esempio a un termine di ricerca può essere sostituito o aggiunto un sinonimo.
59
La polisemia incide dunque negativamente sulla precision delle
ricerche, in quanto vengono restituiti anche dei documenti che,
essendo legati a significati diversi da quello inteso nella query,
risultano irrilevanti per l’argomento in esame. La polisemia
risulta assai più difficile da affrontare, poiché costituisce
un’ambiguità intrinseca nei linguaggi naturali.
Le tecniche di Latent Semantic Indexing, risalenti alla fine degli
anni Ottanta, mettono l’accento su questo problema e
propongono un modello basato sui concetti contenuti nei
documenti anzichè sui singoli termini.
Il Latent Semantic Indexing (LSI34) si basa su una
rappresentazione algebrica dei documenti e utilizza una tecnica
matriciale conosciuta come Singular Value Decomposition
(SVD). Alla base di questa tecnica c’è la consapevolezza che in
qualsiasi collezione, sia pure di dimensioni modeste, una
matrice termini-documenti è formata da migliaia di righe e
colonne. Il presupposto è dunque quello di ridurre questa
complessità: ciò avviene attraverso una low-rank approximation
(approssimazione del grado di precisione) Ck della matrice C,
tale che il valore approssimatorio k sia di parecchi ordini di
grandezza minore del rango originale di C. In altre parole, si
procede a una generalizzazione, inferendo che la matrice
originaria( C), formata dai termini del documento, possa essere
sostituita con un’approssimazione della stessa, formata dai
concetti. L’obiettivo è duplice: mantenere la qualità dei risultati
invariata e modellare le relazioni che intercorrono tra i vari
termini.
Il primo passo nel processo di singular value decomposition
(SVD, vedi figura 12) consiste nel generare una matrice termini
per documenti C; ogni termine analizzato è rappresentato da una
riga e ogni documento è rappresentato da una colonna ; ogni
34 A volte ci si riferisce al LSA (Latent semantic analysis) per richiamare lo stesso modello.
60
incrocio nella matrice C rappresenta quindi la frequenza di un
determinato termine nel documento corrispondente.
Il metodo di Singular Value Decomposition viene utilizzato per
decomporre la matrice C in tre matrici separate: la prima è la
matrice T termini per concetti (che vengono convenzionalmente
indicati con la lettera m), la seconda è la matrice S, concetti per
concetti (diagonale, di dimensione m x m, dove m è il rango di
C) e la terza è una matrice concetti per documenti.
La matrice S può poi essere ridotta alle dimensioni k x k (con
k<m) in modo da avere un’approssimazione della matrice
originale C; il valore di k può allora essere considerato come il
numero di concetti su cui vogliamo mappare i documenti della
collezione. In teoria questa approssimazione risulterebbe
positiva in quanto, oltre a ridurre le dimensioni della matrice,
con un notevole risparmio di risorse, eliminerebbe il rumore
(noise) contenuto nei documenti e manterrebbe soltanto le
caratteristiche concettuali più salienti. Il valore di k dovrebbe
essere sufficientemente grande da catturare tutti i concetti
importanti e, allo stesso tempo, sufficientemente piccolo da
escludere tutti i dettagli poco rilevanti. In parole povere, quello
che viene creato con la SVD è uno spazio ridotto costituito da
una selezione dei pattern associativi più comuni, mentre quelli
più rari vengono ignorati.
C
Figura 12
Singular Value Decomposition
61
Una volta effettuate decomposizione ed approssimazione, è
possibile utilizzare il modello per le ricerche. In questo modello
una query, così come un qualsiasi documento, è inizialmente un
semplice insieme di parole; una query viene vista come uno
pseudo-documento che deve essere mappato nello spazio dei
concetti; una volta sistemata la query nello spazio si procederà a
restituire i documenti ad essa più vicini. Per poter confrontare
una query o pseudo-documento q con gli altri documenti della
collezione dobbiamo quindi partire dal vettore dei termini Xq
che la rappresenta, da questo dobbiamo derivare una
rappresentazione Dq nello spazio dei concetti equivalente ad una
colonna della matrice D. A questo punto è possibile calcolare il
coseno dell’angolo formato dal vettore rappresentante la query e
i vari vettori rappresentanti i documenti della collezione,
esattamente come avviene nello Vector Space Model e restituire
quelli per cui il coseno supera un certo valore di soglia.
Il Latent Semantic Indexing non è altro che un metodo di
retrieval basato su informazioni di tipo statistico; esso cerca di
determinare uno spazio di concetti artificiali analizzando se e
quanto di frequente determinate parole vengono usate insieme.
Ad esempio, è probabile che le parole “macchina” e
“automobile” compaiano in una collezione di documenti sempre
accompagnati dagli stessi termini (“motore”, “modello”,
“veicolo”, “carrozzeria”, “cilindrata”, ecc.), quindi tali termini
avranno una rappresentazione similare nello spazio dei concetti.
Questo metodo presenta una serie di problemi: il primo è dato
dalla sua complessità, che può condurre a risultati giustificabili
dal punto di vista matematico, ma meno da quello del linguaggio
naturale; un altro problema è legato alle prestazioni di questo
sistema: l’algoritmo SVD è direttamente proporzionale alla
somma dei termini e dei documenti, oltre che al parametro k
(corrispondente al numero di dimensioni dello spazio dei
concetti). Questo comporta il peggioramento della qualità del
sistema nel momento in cui vengono aggiunti nuovi documenti
62
nella collezione e il conseguente ricalcolo della
rappresentazione.
Quest’ultimo particolare rende il metodo LSI inadatto per grandi
collezioni che vengono aggiornate frequentemente (in quanto
bisognerebbe applicare l’algoritmo SVD ogni volta che viene
aggiunto o eliminato un documento della collezione e quindi
cambia la matrice C).
Tuttavia, ciò non ha impedito un utilizzo mirato di questa
tecnica nei motori di ricerca moderni, i quali si avvalgono della
sua predisposizione alla risoluzione delle problematiche di
interpretazione dei linguaggi naturali da parte dei sistemi
automatizzati.
Genetic Algorithm
Nel corso degli ultimi anni si è cercato, nel campo
dell’information retrieval, di passare dai performance system,
cioè sistemi che si limitavano ad eseguire le operazioni per le
quali erano stati programmati (quindi senza alcuna capacità di
autoapprendimento), ai machine learning system, cioè a sistemi
in grado di “imparare” direttamente dagli esempi che venivano
loro trasmessi. Tra questi tentativi, merita una menzione il
paradigma degli algoritmi genetici, basato su processi naturali,
in cui sopravvivono gli elementi che meglio si adattano alle
condizioni imposte.
Un algoritmo genetico si può riassumere in una serie
abbastanza standard di passi:
1. Si inizia con una collezione più o meno casuale di elementi
(detti organismi);
2. Si eliminano gli elementi poco “adatti”, nel nostro caso quelli
che risulterebbero in un basso valore di precision/recall;
63
3. Si hanno degli accoppiamenti tra i vari individui (nel nostro
caso, parliamo dei vettori: ciò consiste nell’effettuare degli
incroci tra i loro elementi) e si sostituisce una generazione con
quella dei suoi discendenti (crossover) ;
4. Si introducono delle mutazioni casuali su alcuni organismi di
partenza (sempre nel caso di vettori ciò equivale ad avere un
peso che cambia in maniera random) ;
5. Si ripete il processo dal punto 2 fino a che la popolazione non
raggiunge il livello di qualità desiderato.
Esempio di applicazione: il relevance feedback
Con le tecniche di relevance feedback l’utente sottopone una
query al sistema e questo risponde proponendo una serie di
documenti in risposta, invitando altresì l’utente a inviare un
feedback sulla rilevanza dei documenti fornito. A questo punto
il sistema procede ad un’ analisi dei documenti che l’utente
considera rilevanti, in modo da estrarre i concetti presenti in tali
documenti e propone all’utente stesso una nuova query di
ricerca (o modifica automaticamente quella originaria) che
dovrebbe, teoricamente, eseguire una ricerca più mirata su tutta
la collezione.
Il paradigma genetico, che non affrontiamo nel dettaglio, ci
interessa perché è una tra le prime applicazioni del campo del
machine learning all’IR, per cui segna un po’ il punto di svolta,
tra un approccio in cui i risultati sono dati dall’esecuzione di una
serie di operazioni da parte del sistema, a uno in cui
quest’ultimo effettua autonomamente delle inferenze
interpretando la volontà dell’utente, in qualche modo imparando
dal suo comportamento.
64
2.3 L’IR nei motori di ricerca sul Web
Le strategie di retrieval finora trattate sono state sviluppate ed
hanno piena applicabilità nel contesto di collezioni di documenti
di una certa estensione. Un contesto relativamente semplice, che
contempla prettamente dati di natura testuale. Cosa accade ora,
se vogliamo generalizzare il discorso all’intero ambito del Web
e dei grossi cambiamenti di cui è stato protagonista quest’ultimo
nel corso dell’ultimo decennio? Certamente il discorso si fa più
complesso.
La prima generazione di motori di ricerca ha trasportato le
tecniche di ricerca classiche presentate poc’anzi, derivanti
dall’ambito del retrieval su collezioni di piccola-media scala, al
dominio del Web, cercando di ampliarne la scala di
applicabilità. L’approccio più usato consiste nell’utilizzare il
modello vector space opportunamente modificato, magari in
collaborazione con tecniche di LSI per ridurre il numero di
dimensioni dello spazio vettoriale.
I primi motori di ricerca dovettero confrontarsi con indici
contenenti decine di milioni di documenti e con problemi di
risposta a queries e di ranking mai affrontati fino a quel
momento. Grazie anche al grosso impiego di risorse hardware, i
risultati furono piuttosto soddisfacenti per quanto riguarda la
quantità di pagine indicizzate, che copriva una buona parte della
Rete. Tuttavia la qualità e la rilevanza dei risultati lasciava
molto a desiderare, per due ragioni principali.
La prima ragione è intrinseca al Web, la cui crescita esplosiva
ed esponenziale è dovuta alla creazione decentralizzata del
contenuto. Questo fatto presuppone documenti in centinaia di
linguaggi naturali e dialetti, con conseguenti variazioni dello
stemming e delle altre operazioni automatiche sui testi.
L’eterogeneità dunque, se da una parte porta a un’estrema (e
positiva) democratizzazione del Web, dall’altra porta grosse
difficoltà per l’implementazione di sistemi di ricerca efficaci.
65
La seconda ragione è un corollario del primo, in quanto riguarda
il problema dell’autorevolezza dei contenuti. L’avvento dei
primi motori di ricerca ha infatti visto la nascita e la
proliferazione di contenuti spam, ben nascosti nel codice HTML
delle pagine dai web authors più navigati, con l’obiettivo di far
spiccare sui motori i propri siti rispetto agli altri, ma lungi
naturalmente dall’essere coerenti con l’argomento cercato.
Un terzo punto, che però avrà a che fare anche con i motori di
ricerca più progrediti, è la trasformazione del Web da collezione
di documenti testuali a database multimediale, in cui si verifica
una convergenza di tutti i media tradizionali, fatto che complica
ulteriormente i compiti di chi deve organizzare e razionalizzare
l’informazione disponibile.
Tali problemi hanno richiesto l’introduzione di nuove tecniche
che riportassero l’IR al passo con l’evoluzione del Web, in
modo da combattere lo spam e assicurare la qualità dei risultati
di ricerca. Dunque, se le tecniche di retrieval classico
continuano a essere necessarie per la ricerca sul Web, da sole
non sono tuttavia più sufficienti.
2.3.1 Nuovi approcci nella ricerca
Oltre alle sopraccitate ragioni dell’estensione e del vorticoso e
incessante ritmo di crescita della Rete, vi è un’altra questione
che ha posto il discorso sull’information retrieval un po’ in
secondo piano. Per comprenderla a fondo, occorre ripercorrere a
grandi linee la storia dei motori di ricerca dagli albori della loro
giovane storia, fino ai più recenti sviluppi.
All’inizio, verso la metà degli anni Novanta, i motori di ricerca
si basavano quasi esclusivamente sulle tecniche derivate dall’IR,
dunque il loro meccanismo di funzionamento aveva un iter
simile a quello descritto di seguito: i crawlers navigavano le
pagine, riportavano i testi, isolavano i termini e gli stem, quindi
si procedeva alla creazione dell’indice, da cui venivano ottenute
66
le graduatorie da presentare dinanzi alle queries degli utenti.
Detto molto grossolanamente, questo processo è comune a
qualsiasi motore di ricerca, con variabili contestuali.
Poi, poco prima del Duemila, le complicazioni cui abbiamo
accennato nel paragrafo precedente, le ricordiamo –
decentralizzazione e multilinguismo nella creazione dei
contenuti, conseguente caos testuale, moltiplicazione dei formati
di archiviazione dell’informazione, possibilità di ingannare gli
spider con etichette fuorvianti rispetto al reale contenuto - hanno
reso impraticabile la prosecuzione lungo questa via. L’accento è
caduto sul problema dell’autorevolezza del contenuto, la
valutazione della quale non poteva essere effettuata dai vigenti
sistemi di ricerca, che si limitavano ad archiviare dati e
presentarli in forma strutturata. Non a caso, è a questo punto che
vengono in aiuto, grazie alla Forza dei Molti, come la chiama
Battelle35, le prime iniziative biblioteconomiche di Internet, di
cui dmoz è ad oggi l’esempio più longevo e riuscito. Ma l’opera
umana rimaneva chiaramente una risorsa, seppur intelligente,
inadeguata ai mostruosi ritmi di crescita del Web.
Era necessario, di fronte a questa esplosione del contenuto, un
approccio alla ricerca diverso, che facesse tesoro delle
conoscenze ereditate dall’IR, incorporandole però in un
paradigma più appropriato ai nuovi orizzonti venuti a
manifestarsi in Rete. Una nuova generazione di motori di ricerca
che, da un lato, guardasse alla questione dell’autorevolezza, per
risolvere i problemi legati allo spam content e alla rilevanza,
dall’altro venisse incontro alle necessità di personalizzazione del
contenuto e di intelligenza della ricerca emerse a corollario.
Il primo problema viene affrontato da Google, che si presenta
nel 1998 con un’idea tanto semplice quanto rivoluzionaria:
l’inserimento nell’ordine di presentazione dei risultati di un
35 J.Battelle, “Google e gli altri”, 2006
67
fattore “autorevolezza”, di cui spiegheremo in seguito le parti
fondanti.
Per quanto riguarda invece gli agenti intelligenti per la ricerca,
candidati a comprendere le necessità dell’utente a partire dalle
intenzioni di quest’ultimo, possiamo affermare che questa fase
sia tuttora in corso. La crescita del Web 2.0, con la dinamicità,
l’interattività dei suoi contenuti e l’affermazione dei social
network ha spinto in maniera decisiva lo sviluppo di questo
filone, così come quello del Web semantico. Ma, in virtù della
struttura stessa del Web attuale, i tentativi in questa direzione si
configurano in maniera tutt’altro che unitaria e monodirezionale.
Se i motori potenziano le infrastrutture per la ricerca, offrendo
funzionalità sempre più avanzate, i giochi ora si muovono anche
dal basso, lato utente. Ormai è chiaro il ruolo chiave della
collaborazione dell’utenza nell’archiviazione dei contenuti,
nell’ottica di rendere gli stessi maggiormente visibili.
La crescita dell’importanza di Internet nelle vite degli individui
ha fatto acquistare a questi ultimi la consapevolezza di quanto,
anche in questo ambito “esistere corrisponda ad essere
percepiti”36. E’ nel momento stesso in cui l’utenza prende
coscienza di avere un ruolo attivo nel processo della ricerca, che
il Web fa un salto di qualità in un’ottica semantica, aiutando i
motori ad esprimersi al massimo delle potenzialità.
Nel prossimo capitolo chiariremo queste considerazioni mentre
approfondiremo il discorso sul Web semantico, partendo dalle
innovazioni portate da Google e giungendo alle conseguenze del
Web 2.0 nell’ambito della ricerca.
36 “Esse est percipi”. G. Berkeley, “Trattato sui princípi della conoscenza umana”, 1710.
68
CAPITOLO III
3.0 Introduzione
Abbiamo concluso il capitolo precedente accennando al fatto
che Google ha rappresentato un punto di svolta per il campo dei
motori di ricerca. E questo certamente non è un mistero, se
guardiamo la sua vertiginosa ascesa, che lo ha portato
dall’essere una tesi di dottorato di due studenti universitari, alla
fine dello scorso millennio, al colosso quotato in borsa e
dominatore indiscusso del settore divenuto oggi.
Ma la storia che noi vogliamo raccontare qui non riguarda il suo
sviluppo economico-finanziario: ciò che ci interessa è capire
quali innovazioni siano state apportate da Google nell’ambito
della ricerca sul Web, come queste abbiano mutato lo scenario
nel corso dell’ultimo decennio e come si configuri la ricerca
oggi, alla luce dei nuovi fronti aperti dal Web 2.0.
3.1 Un po’ di storia dei motori di ricerca
Quanto si è detto sull’IR e sui problemi sorti in seguito alla sua
applicazione ai motori di ricerca, ha illustrato il punto critico
della questione, quello ovvero di un approccio basato
esclusivamente sulla ricerca testuale.
Facciamo ora un passo indietro, per inquadrare storicamente e
dal punto di vista evolutivo l’ingresso di Google su Internet.
Il motore di ricerca universalmente indicato come il primo nato
sul Web si chiamava Archie, fu creato nel 1990 da uno studente
americano di nome Alan Emtage, risale dunque a un momento
69
precedente alla diffusione globale di Internet. Il suo utilizzo era
quasi esclusivamente per scopi accademici, da qui il suo nome
(analisi di archivi accessibili pubblicamente di documentazioni
tecniche), ma la su architettura era del tutto simile a quella dei
motori attuali: possedeva un crawler, costruiva un indice e aveva
un’interfaccia di ricerca.
Nel 93 uscì Veronica, praticamente identico ad Archie ma
basato sul protocollo di trasferimento file Gopher, che andava a
sostituire l’FTP utilizzato su Archie, permettendo in tal modo il
collegamento diretto con il documento richiesto invece che con
la macchina che lo ospitava.
Archie e Veronica non possedevano capacità semantiche: non
indicizzavano l’intero testo del documento, ma solamente il
titolo. Per questo motivo, con lo sviluppo del Web tra il 93 e il
96, che portò i siti esistenti da 130 a 600 mila, questi due
prototipi caddero in disgrazia.
Il primo motore di ricerca in grado di indicizzare l’intero
contenuto della pagina si chiamava WebCrawler e vide la luce
nel 1994, grazie a Brian Pinkerton, un ricercatore
dell’Università di Washington. Questi stava costruendo un Web
browser che incorporasse funzionalità di ricerca, ed ebbe la
buona intuizione che un crawler lavora esattamente nello stesso
modo: costruì così WebCrawler, che l’anno successivo fu
venduto ad AOL, gigante delle telecomunicazioni americano
che in quegli anni intuì le potenzialità degli investimenti sui
motori di ricerca. Ciò che ebbe tempo di fare Pinkerton fu un
test, in cui interrogò l’indice costruito dal suo WebCrawler, su
quali siti avessero il maggior numero di link in ingresso37. Tale
test rivelò forse la sua intuizione sull’importanza di una
variabile che sarebbe diventata centrale negli anni a seguire.
In seguito, più o meno tutti ricordiamo com’è andata. La
seconda metà degli anni 90 ha visto l’ascesa dei colossi, motori 37 A soddisfazione dell’eventuale curiosità, il primo in graduatoria all’epoca era la home page del progetto WWW del CERN di Ginevra.
70
di ricerca che incorporavano e miglioravano la tecnologia di
WebCrawler, grazie a mezzi sempre più potenti. Ricordiamo ad
esempio AltaVista, il primo gigante della ricerca, il cui sistema
di ricerca, creato dal francese Louis Monier, era formato da un
migliaio di crawlers che scandagliavano contemporaneamente
l’intero contenuto del Web. Un’opera mastodontica, senza
precedenti. Altri nomi che certamente riecheggiano ancora nelle
nostre orecchie sono quelli di Lycos, o Excite. Protagonisti per
qualche anno, poi finiti quasi nel dimenticatoio. Perché?
La spiegazione va cercata, da una parte, nel fatto che questi
colossi non hanno creduto profondamente nella ricerca come
paradigma dominante nel Web degli anni successivi al loro
insediamento: per questo motivo essi si sono trasformati ben
presto in portali multifunzionali, all’interno dei quali la ricerca
era solo un servizio tra i tanti, un attività di secondo piano.
Dall’altra parte, la loro inadeguatezza tecnica alle nuove sfide
portate dagli spammers, unita alla bolla speculativa che ha
sconvolto le aziende dotcom a cavallo del Millennio, con
conseguenti giochi di acquisizioni plurime e incrociate, ha
ripulito il campo dagli avversari all’emergente Google, che forte
del suo orientamento alla ricerca pura (ricordiamo la semplicità
della sua interfaccia grafica) e dei suoi algoritmi innovativi, si è
imposto con una rapidità sorprendente e in maniera duratura.
3.2 Un’idea semplice: le citazioni
Abbiamo parlato in precedenza di una intuizione semplice ma
geniale, che ha permesso a Google di risolvere l’impasse
creatasi a un certo punto della storia sul problema
dell’autorevolezza. Ebbene, qual è quest’idea e com’è nata?
Prendiamo anche qui la cosa alla lontana, poiché è interessante
osservare come quasi sempre i sistemi informatici replicano
realtà esistenti nella cultura umana.
71
Dunque, siamo a Stanford, rinomata università statunitense, è il
1995 quando i due dottorandi Larry Page e Sergey Brin
decidono di sviluppare la loro tesi di dottorato insieme.
L’argomento è l’analisi della struttura di link del Web come
grafo. Un grafo, come osserviamo nella figura 13, è un insieme
di elementi detti nodi o vertici (indicati con le lettere), collegati
tra di loro da archi o lati, che possiedono un orientamento o
direzione.
Larry Page teorizzò che il Web fosse il più grande grafo mai
creato, nel quale le pagine rappresentavano i nodi e i link gli
archi. Tale idea ebbe un certo successo, tanto che attualmente è
parecchio in uso la rappresentazione del Web come bowtie Web
graph, (per la sua caratteristica forma a cravattino, come
osserviamo nella figura 14), costituito da tre categorie principali.
La parte centrale, chiamata SCC (strongly connected
component) rappresenta il core delle pagine strettamente e
singolarmente connesse. Le due parti laterali, IN e OUT,
rappresentano rispettivamente i nodi che puntano verso il core
senza poter essere raggiunti da esso, e quelli che possono essere
raggiunti dal core senza puntare ad esso. Le rimanenti pagine
formano i tubes, pagine fuori dal SCC che conducono
Figura 13: la struttura di un grafo
72
direttamente da IN ad OUT, e i tendrils, che sono dei vicoli
ciechi da IN e verso OUT.
L’osservazione della struttura del Web graph suggerì a Page
l’intuizione che, se i motori di ricerca esistenti avevano già
implementato un efficace sistema per seguire i link che
conducono da SCC verso OUT, non erano ancora in grado di
analizzare il flusso di collegamenti da IN verso il core. In altre
parole, non era possibile sapere di una pagina Web quali fossero
i link in ingresso, che puntavano verso di essa.
Un altro fatto, di natura più “accademica”, convinse Page a
lavorare in questa direzione. Il mondo delle pubblicazioni
scientifiche si basa su uno strumento di valutazione chiamato
peer review, in cui esperti del mondo universitario recensiscono
e giudicano i lavori del loro campo di riferimento, conferendo
autorevolezza agli stessi. Inoltre nella stessa ottica grande
importanza rivestono le citazioni e le annotazioni. Le prime
costruiscono una rete di collegamenti tra i vari lavori ed è
immediato osservare che un articolo è tanto più significativo e
rilevante quanti più sono gli altri articoli che lo citano. Le
annotazioni costituiscono una sorta di commento alle citazioni,
delle quali qualificano il riferimento.
Il parallelo con il Web è talmente scontato da farci chiedere
come sia stato possibile non arrivarci prima. Eppure
probabilmente è naturale che la strada per risolvere le falle di un
Figura 14: il Bowtie Web graph
73
sistema come il Web, nato nel mondo accademico, fosse
indicata proprio da una riflessione metodologica sulle
fondamenta di questo mondo stesso: la citazione del proprio
lavoro da parte degli altri ne costituisce il fondamento
scientifico più attendibile.
Queste premesse spiegano la nascita di BackRub, progetto con il
quale Page vuole monitorare i link all’inverso (i back links
appunto), ovvero non da una pagina verso l’esterno, com’era già
possibile fare tramite i crawlers esistenti, ma dall’esterno verso
una pagina. L’audacia di questo progetto mastodontico
(all’epoca in cui Page si mise a lavorare sul suo crawler, il Web
contava circa 10 milioni di documenti e probabilmente qualche
centinaio di milione di link), attirò l’attenzione di Sergey Brin. I
due, nonostante la consapevolezza delle ingenti risorse hardware
necessarie per la realizzazione di un sistema che a quel punto
esulava dal semplice discorso universitario, portarono avanti le
loro ricerche, animati dalla bontà delle premesse teoriche.
Nel marzo del 1996 Page puntò il crawler sulla sua home page
di Stanford e lo lascio libero di scandagliare il Web. BackRub
riportava per ogni pagina Web una lista dei link che puntavano
verso di essa. Una volta setacciato il Web e acquisito un grafo,
serviva a quel punto un sistema di classificazione per ordinare la
lista così ottenuta. L’implementazione di questo sistema ha
comportato complessi calcoli ricorsivi, dal momento che per
ottenere una misura relativa, pesata, di ogni pagina andavano
conteggiati non solo i link complessivi, ma anche i link presenti
sulle pagine da cui questi provenivano .
Questa fase, superata brillantemente grazie alle doti
matematiche di Brin, fu fondamentale per la nascita
dell’algoritmo più importante nella storia dei motori di ricerca,
tanto da essere conosciuto anche al di fuori dell’ambito
specializzato: PageRank.
74
3.3 L’algoritmo PageRank
Il progetto BackRub aveva a questo punto raggiunto il culmine
della sua parabola: Page e Brin erano riusciti a creare un sistema
che riusciva a tenere in considerazione sia il numero di link in
ingresso di un determinato sito, sia il numero di link in ingresso
di ciascuno dei siti che puntano verso quel determinato sito. Un
sistema di questo genere permette di calcolare, di pesare, per
usare un termine ereditato dall’IR, l’importanza relativa di
ciascun link e ciascuna pagina. A questo punto BackRub venne
messo online, nell’agosto del 1996, con il nome di Google. La
versione prototipica del motore di ricerca fu allestita, come
sappiamo dagli innumerevoli e ormai quasi mitologici racconti,
nella stanza dello studentato di Page e consisteva di un paio di
server autoprodotti, costruiti con pezzi del Lego38.
In figura 15 sono invece le statistiche, disponibili sulla stessa
pagina, sulle dimensioni del lavoro effettuato da BackRub, che
presenta dei risultati già notevoli.
Figura 15 Statistiche sulla prima scansione di BackRub
38 E’ ancora visibile all’URL http://backrub.c63.be/1997/index.htm.
75
Dunque il progetto BackRub sfociò presto nell’algoritmo
PageRank, basato sulla link popularity, nome che assunse il
sistema che nel costruire le graduatorie di presentazione dei
risultati, premia i link provenienti da fonti importanti,
penalizzando gli altri. Come viene calcolato PageRank? Come
viene stabilito quali sono le fonti importanti? La ricerca testuale
viene completamente eliminata?
A questi interrogativi cercheremo di rispondere nel prossimo
paragrafo, analizzando a fondo le caratteristiche di PageRank.
.
3.3.1 Presupposti matematici
E’ importante sottolineare ancora una volta che la più grande
novità teorica rappresentata dall’approccio di Google, consiste
nello svincolare il ranking dei risultati dai criteri on-the page,
prerogativa che i motori di ricerca di prima generazione
ereditavano dall’information retrieval, fra i quali rivestiva
grande importanza l’occorrenza delle parole chiave all’interno
dei documenti HTML.
Page e Brin hanno introdotto un sistema che valuta fattori off-
the page, quali sono i link, per migliorare la qualità dei risultati
di ricerca. Tale valutazione avviene per mezzo di un algoritmo,
PageRank appunto, che calcola il valore di una pagina tramite
una formula. Si tratta dunque di una valutazione di tipo
matematico.
Vediamo dunque nel dettaglio come si struttura l’algoritmo
PageRank, partendo dalle affermazioni degli autori, che ci
aiuteranno a inquadrare meglio il significato e le proporzioni del
loro lavoro. Le premesse sulle quali si basa il loro motore di
ricerca sono disponibili in una sorta di manifesto, divenuto
ormai piuttosto noto, dal titolo “The anatomy of a large-scale
76
hypertextual web search engine”39. In questo documento, di cui
riportiamo alcuni stralci di seguito, vengono presentate le
premesse teoriche, metodologiche e le specifiche tecniche che
hanno portato alla costruzione di Google.
Brin e Page, su PageRank:
A method assigns importance ranks to nodes in a linked
database, such as any database of documents containing
citations, the world wide Web or any other hypermedia
database40. The rank assigned to a document is calculated from
the ranks of documents citing it. In addition, the rank of a
document is calculated from a constant representing the
probability that a browser through the database will randomly
jump to the document. The method is particularly useful in
enhancing the performance of search engine results for
hypermedia databases, such as the world wide Web, whose
documents have a large variation in quality. 41
Un metodo che assegna una classificazione di importanza a documenti contenuti in
un archivio, come ad esempio ogni archivio che contenga citazioni e rimandi, il Web
o tutti gli altri database ipermediali. Il valore assegnato ad un documento è calcolato
partendo dal valore dei documenti che lo richiamano. Inoltre, la classificazione di un
documento è calcolata prendendo in riferimento una costante che rappresenta la
probabilità che una navigazione all'interno del database trovi casualmente il
documento Il metodo è assai utile per implementare la qualità dei risultati di un
motore di ricerca per archivi ipermediali come ad esempio il Web, all'interno del
quale la qualità dei documenti è molto variabile.42
39 S.Brin, L.Page, “The anatomy of a large-scale hypertextual web search engine”, 1997. 40 Per database ipermediali s’intendono quegli archivi, composti da documenti in differenti formati, che sono collegati a documenti presenti in altri archivi dello stesso tipo. 41 Cit lett. “The anatomy of a large-scale hypertextual web search engine”, 1997 42 La traduzione presente e le successive sono a cura dell’autore.
77
Tre sono i punti focali espressi nel brano citato:
1. La classificazione avviene in base ai link in ingresso
2. Nel calcolo viene considerato un parametro, costante,
che rappresenta la possibilità che con una navigazione casuale,
venga selezionato un documento. Le conseguenze di questa
considerazione sono molto importanti, le analizzeremo tra breve.
3. L’obiettivo è quello di migliorare la qualità dei risultati.
Cerchiamo di capire le implicazioni di ciascuno di questi tre
punti nel dettaglio.
3.3.2 La formula del PageRank
E’ giunto a questo punto il momento di esprimere il primo punto
in maniera formale. PageRank è stato descritto da Page e Brin in
svariate pubblicazioni e persino brevettato. La formula utilizzata
è la seguente:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
dove
· PR(A) è il PageRank della pagina A,
· PR(Tn) è il PageRank delle pagine Tn che contengono link
alla pagina A,
· C(Tn) è il numero di link verso altri siti (outbound) contenuti
dalle pagine Tn e
· d è la costante matematica di cui parlavamo al punto 2 del
paragrafo precedente, che può essere fissata tra 0 e 1 (ma che gli
autori impostano solitamente a 0,85).
78
I valori di PageRank vengono calcolati usando tecniche di tipo
matriciale in cui si costruisce una matrice dei link presenti tra le
pagine Web che costituiscono il repository su cui si lavora43.
Osservando la formula, la prima osservazione importante è che
il PageRank non classifica i siti Internet nel loro insieme, ma
viene determinato il valore di ogni singola pagina Web. Inoltre,
come abbiamo detto in più occasioni, il valore PageRank della
pagina A è calcolato partendo dal valore PageRank delle pagine
che contengono collegamenti ipertestuali ad A.
Una esame più accurato ci permette di notare che il PageRank
delle pagine Ti che contengono link alla pagina A non
influenzano il PageRank della pagina A uniformemente.
All'interno dell'algoritmo, il PageRank di A è determinato anche
dai link verso l'esterno C(T) contenuti nella pagina T. Nella
fattispecie, più collegamenti verso altri siti possiede T, meno la
pagina A beneficerà di un link proveniente dalla pagina T.
Tuttavia, un link proveniente da T verso A incrementerà sempre
(anche se in misura variabile) il PageRank di A.
Infine, la somma dei valori PageRank (come visto, ridotti
proporzionalmente rispetto al numero di link verso l'esterno)
delle pagine Ti è moltiplicato per il fattore di aggiustamento d
che può essere fissato tra 0 e 1. Conseguentemente, l'incremento
del valore PageRank di una pagina A, dovuto al fatto che A è
linkata dalle pagine Ti viene ulteriormente ridotto.
In sostanza sono due i fattori che abbassano il PageRank iniziale
di A: il primo è dovuto al fatto che eventualmente le pagine Ti
non contengano link solo ad A, ma anche ad altre pagine, di
conseguenza il PageRank di A, derivante dai link provenienti da
T va “normalizzato”. Il secondo è dovuto alla costante d, che
43 Un repository è un ambiente di un sistema informativo in cui vengono gestiti i metadati tramite tabelle relazionali (http://it.wikipedia.org/repository)
79
introduce il random surfer model di cui ci occupiamo nel
paragrafo seguente.
3.3.3 Random surfer model – il modello del navigatore casuale
Abbiamo più volte accennato a questo parametro d, definendolo
come una costante o un “fattore di aggiustamento”. Ma cosa
rappresenta d in realtà? Per capirlo, ci rifacciamo ancora una
volta alle parole di Page e Brin:
PageRank can be thought of as a model of user behavior. We
assume there is a "random surfer" who is given a Web page at
random and keeps clicking on links, never hitting "back" but
eventually gets bored and starts on another random page. The
probability that the random surfer visits a page is its PageRank.
And, the d damping factor is the probability at each page the
"random surfer" will get bored and request another random
page44.
Page Rank può essere pensato come un modello di comportamento
dell’utente. Assumiamo ci sia un navigatore casuale, cui sia assegnata
casualmente una pagina Web, e che questi continui a cliccare sui link, senza
mai premere il bottone “Indietro”, ma a un certo punto si stufi e ricominci
da un’altra pagina a caso. La probabilità che un navigatore visiti una pagina
è il suo PageRank. Il fattore di smorzamento d è la probabilità, su ogni
pagina, che il navigatore si stufi e richieda un’altra pagina a caso.
I due autori offrono una rappresentazione intuitiva
dell’algoritmo PageRank, come di un modello del
comportamento di un utente, il quale segue i link presenti in una
pagina senza seguire una logica o verificarne in contenuti. C'è
una determinata probabilità che il navigatore casuale visiti una
pagina Web, che costituisce proprio il valore di PageRank di
quest’ultima.
44 Cit lett. “The anatomy of a large-scale hypertextual web search engine”, 1997.
80
La probabilità che lo stesso navigatore segua un link è data
unicamente dal numero di collegamenti presenti su quella
pagina. Questo chiarisce, come abbiamo spiegato poc’anzi,
perché il PageRank di una pagina T non venga completamente
trasferito alla pagina A attraverso il collegamento ipertestuale,
ma sia calcolato anche in base al numero di link presenti su T (in
poche parole, essendo un calcolo di probabilità, se T possiede un
solo link, e questo link è verso A, c'è il 100% di possibilità che il
navigatore casuale finisca su A; se T possiede 100 link, e uno
solo è verso A, ci sarà l'1% di possibilità che giunga a A).
Quindi, la probabilità che ha una pagina di essere visitata, è data
dalla somma delle probabilità che il navigatore casuale segua i
link verso di essa. A questo punto entra in gioco il nostro
parametro d, che sta per damping factor e rappresenta la
probabilità che il random surfer non segua all'infinito i
collegamenti presenti su una pagina, ma a volte si annoi e salti
casualmente ad un'altra pagina.
Più alto è d, più facilmente e a lungo il navigatore continuerà a
seguire i link. Siccome l'utente salta ad un'altra pagina a caso
dopo che ha terminato di seguire i collegamenti, la probabilità è
quindi assunta come costante (1-d) all'interno dell'algoritmo.
Senza contare i link verso la pagina, le probabilità che un
navigatore raggiunga la pagina sono sempre fissate a (1-d), così
che la pagina ottenga un valore minimo di PageRank.
Si noti che i PageRank formano una distribuzione di probabilità
sulle pagine Web, cosicché la somma di tutti i PageRank sarà
uguale ad uno.
81
3.3.4 Qualità dei risultati
Rimane da affrontare il terzo punto, che riguarda quella qualità
dei risultati che difettava nei sistemi precedenti e che parrebbe
essere risolta da PageRank. Vediamo come.
Il random surfer model, a dir la verità piuttosto approssimativo
per quanto riguarda il comportamento dei navigatori (che, si
suppone, nella realtà non agiscano guidati esclusivamente dal
caso), introduce la duplice valenza, quantitativa (link popularity)
e qualitativa (link quality), di PageRank, secondo un’altra
giustificazione intuitiva proposta dagli autori:
Another intuitive justification is that a page can have a high
PageRank if there are many pages that point to it, or if there are
some pages that point to it and have a high PageRank.
Intuitively, pages that are well cited from many places around
the Web are worth looking at. Also, pages that have perhaps
only one citation from something like the Yahoo! homepage are
also generally worth looking at. If a page was not high quality,
or was a broken link, it is quite likely that Yahoo’s homepage
would not link to it. PageRank handles both these cases and
everything in between by recursively propagating weights
through the link structure of the Web45.
[…] Una pagina può avere un alto PageRank se esistono molte pagine che
puntano ad essa, oppure se esistono alcune pagine che puntano ad essa e
hanno un alto PageRank. Intuitivamente, le pagine che sono ben citate da
molte fonti sul Web valgono la pena di essere viste. Anche le pagine che
hanno magari una sola citazione da fonti quali la home page di Yahoo!
valgono in genere la pena di essere viste. Se una pagina non fosse di alta
qualità, o se avesse dei collegamenti interrotti, è alquanto probabile che non
sarebbe citata dalla home page di Yahoo!. PageRank tiene conto di entrambi
45 Cit lett. “The anatomy of a large-scale hypertextual web search engine”, 1997
82
questi casi e di ogni caso intermedio, propagando ricorsivamente i pesi [di
ciascun link] attraverso la struttura ipertestuale del Web.
Ciò che migliora PageRank rispetto al modello presentato nel
progetto BackRub, che già incorporava misure quantitative
dell’importanza citazionale, quale il semplice conteggio dei
back link, è infatti l’aspetto qualitativo della misura di
importanza. Tale peculiarità risiede nel fatto che, in base alla
definizione di PageRank, non tutti i collegamenti hanno lo
stesso peso (poiché PageRank è calcolato ricorsivamente per
ogni pagina, prendendo in considerazione l’intera mappa dei
collegamenti del Web) e nel fatto che il peso di un collegamento
proveniente da una data pagina è inversamente proporzionale al
numero di collegamenti uscenti da quella stessa pagina (poiché
PageRank è normalizzato secondo questo valore, al
denominatore nella formula originale).
Alla prova dei fatti, PageRank si è dimostrato uno strumento ec-
cellente per discernere il contenuto Web di qualità, e quindi
migliorare il recall dei risultati delle ricerche incrementandone
la precision.
Ricordiamo quanto abbiamo detto a proposito della precision nel
capitolo precedente: essa è stata definita come il rapporto fra il
numero di documenti rilevanti restituiti in seguito a una query di
ricerca e il totale dei documenti restituiti; la precision è
inversamente proporzionale al recall definito invece come il
rapporto fra il numero di documenti rilevanti restituiti e il totale
dei documenti rilevanti. Per definizione, esiste quindi un
compromesso (trade-off) irriducibile fra precisione e recall, una
limitazione che si è ulteriormente inasprita all’aumentare delle
dimensioni degli indici dei motori di ricerca.
PageRank ha permesso di superare questa limitazione,
dimostrando la possibilità di ottenere una buona precisione dei
risultati anche per query molto generiche eseguite sull’intero
83
Web. Questo anche a costo di una diminuzione del recall, poiché
sappiamo che gli utenti consultano al massimo le prime pagine
restituite in seguito a una query, di conseguenza è
importantissimo avere i documenti qualitativamente più rilevanti
ai primi posti, massimizzando la precision.
As the collection size grows, we need tools that have very high
precision (number of relevant documents returned, say in the
top tens of results). Indeed, we want our notion of "relevant" to
only include the very best documents since there may be tens of
thousands of slightly relevant documents. This very high
precision is important even at the expense of recall (the total
number of relevant documents the system is able to return)46.
[…] A mano a mano che la collezione [di documenti del Web] cresce di dimensioni,
c’è bisogno di strumenti [di ricerca] dotati di alta precisione (numero di documenti
rilevanti restituiti, diciamo entro le prime decine di risultati). In effetti, la nostra
nozione di “rilevante” deve includere solo i documenti migliori in assoluto giacché
potrebbero esistere decine di migliaia di documenti scarsamente rilevanti. Questa
altissima precision è importante anche al costo di sacrificare il recall (il numero
totale di documenti rilevanti che il sistema è in grado di restituire).
Inoltre, la proprietà straordinaria dell’algoritmo PageRank
consiste nella sua scalabilità intrinseca. Essendo infatti basato su
un’equazione ricorsiva, la precisione del calcolo aumenta
all’aumentare del numero dei link, di conseguenza quello che si
era rivelato come il problema più grande per i motori di ricerca,
ovvero la continua crescita dimensionale del Web, viene
trasformato da PageRank in un fattore favorevole.
Naturalmente questa intuizione spiega gran parte del vantaggio
competitivo acquisito da Google nello stesso periodo in cui la
precisione dei maggiori di ricerca soccombeva miseramente
davanti a un indice sempre più vasto e difficile da gestire.
46 Cit lett. “The anatomy of a large-scale hypertextual web search engine”, 1997
84
3.3.5 PageRank in continuità con l’IR
Ora che abbiamo presentato le principali caratteristiche di
PageRank, ci fermiamo un attimo a fare il punto sulla
situazione, dal punto di vista dell’evoluzione che ci interessa
analizzare nel campo della ricerca. Riprendiamo ancora una
volta gli scritti dei creatori di Google:
Things that work well on TREC often do not produce good
results on the Web. For example, the standard vector space
model tries to return the document that most closely
approximates the query, given that both query and document are
vectors defined by their word occurrence. On the Web, this
strategy often returns very short documents that are the query
plus a few words. For example, we have seen a major search
engine return a page containing only "Bill Clinton Sucks" and
picture from a "Bill Clinton" query. Some argue that on the
Web, users should specify more accurately what they want and
add more words to their query. We disagree vehemently with
this position. If a user issues a query like "Bill Clinton" they
should get reasonable results since there is a enormous amount
of high quality information available on this topic. Given
examples like these, we believe that the standard information
retrieval work needs to be extended to deal effectively with the
Web47.
Le cose che funzionano bene sui sulle collezioni di piccole dimensioni, spesso
non producono buoni risultati sul Web. Per esempio, il modello standard di
spazio vettoriale cerca di recuperare il documento che più si avvicina la
query, assumendo che sia la query che i documenti siano vettori definiti
dalla loro occorrenza di parole. Per esempio, abbiamo visto un grande
motore di ricerca restituire una pagina contenente solo "Bill Clinton Sucks"
47 Cit lett. “The anatomy of a large-scale hypertextual web search engine”, 1997.
85
e un'immagine alla query "Bill Clinton”.. Alcuni sostengono che sul Web, gli
utenti dovrebbero specificare più esattamente ciò che vogliono e aggiungere
più parole per la loro ricerca. Dissentiamo veementemente con questa
posizione. Se un utente invia una query come "Bill Clinton", dovrebbe
ottenere risultati ragionevoli dal momento che vi è una quantità enorme di
informazioni di alta qualità disponibili su questo argomento. Dati esempi
come questi, riteniamo che L'IR standard debba essere esteso per far fronte
in modo efficace alle problematiche sorte sul Web.
Queste frasi chiariscono definitivamente la relazione tra
PageRank e l’IR nell’ambito della ricerca sul Web. Il nuovo
paradigma, basato sulla link analysis, non soppianta
definitivamente le tecniche precedenti, di cui vengono
conservate la capacità di analisi testuale ed estrapolazione del
contenuto. Nella creazione dell’indice, permangono operazioni
quali stemming48, eliminazione delle stop words, conflation.
L’inoltro delle query avviene attraverso operatori booleani che
sfuggono alla vista dell’utente, ma che contribuiscono alla
selezione dei documenti, interagendo con operatori matematici
nel calcolo del peso degli index term.
Tuttavia, ai fini della restituzione di un ranking
qualitativamente valido, il sistema basato sul calcolo dei link si
rivela sicuramente più efficace e adatto al Web. Qui viene
riportato un riferimento al Vector Space Model, che basandosi
sulla rappresentazione vettoriale di query e documenti, seleziona
come maggiormente rilevanti quei documenti che si avvicinano,
a livello testuale e letterale, maggiormente alla query.
Questo concetto di rilevanza è chiaramente inadeguato al Web,
ove l’utente cerca documenti che assomiglino a livello
contenutistico alla loro query. Qui entra in gioco PageRank, che
stila una classifica di importanza dei siti basata
sull’autorevolezza conferita loro dai link. Non è ancora un
approccio basato sul contenuto, ma fornisce perlomeno un
86
livello di astrazione dei risultati, che non sono più
completamente vincolati alla analisi automatica del testo.
Il sistema di ranking proposto da Google non si basa
esclusivamente sull’algoritmo PageRank, bensì utilizza
quest’ultimo per migliorare la qualità dei risultati. Possiamo dire
che l’algoritmo PageRank venga integrato nel processo di
ricerca, offrendo le sue elevate prestazioni di ranking una volta
che i documenti sono stati già selezionati e immessi nell’indice
con le tecniche di ricerca da noi ormai conosciute. PageRank
costituisce un fattore di quel sistema ben più ampio che parte
dalla query dell’utente, prosegue con l’interrogazione dell’indice
e si conclude con la restituzione di una lista di risultati
all’utente. Un fattore che opera principalmente alla fine di
questo processo, con compiti di ordinamento dei risultati.
PageRank è stato infatti costruito sull’ipotesi secondo cui
un’ulteriore selezione/ordinamento secondo criteri di importanza
di un insieme di documenti preselezionati secondo criteri di
rilevanza avrebbe influito positivamente sulla precision dei
risultati, soprattutto in presenza di un indice molto vasto.
Google maintains much more information about Web documents
than typical search engines. Every hitlist includes position, font,
and capitalization information. Additionally, we factor in hits
from anchor text and the PageRank of the document. Combining
all of this information into a rank is difficult. We designed our
ranking function so that no particular factor can have too much
influence. First, consider the simplest case -- a single word
query. In order to rank a document with a single word query,
Google looks at that document's hit list for that word. Google
considers each hit to be one of several different types (title,
anchor, URL, plain text large font, plain text small font, ...),
each of which has its own type-weight. The type-weights make
up a vector indexed by type. Google counts the number of hits of
87
each type in the hit list. Then every count is converted into a
count-weight. We take the dot product of the vector of count-
weights with the vector of type-weights to compute an IR score
for the document. Finally, the IR score is combined with
PageRank to give a final rank to the document49.
Google mantiene molta più informazione sui documenti Web rispetto ai
classici motori di ricerca. Ogni lista di matching50 include informazioni su
posizione, carattere e formattazione. In più, nel calcolo vengono immessi il
matching dell’anchor text e il PageRank del documento. Combinare tutte
queste informazioni in una classifica è difficile. Abbiamo creato la nostra
funzione in modo che nessun fattore abbia troppa influenza. Consideriamo il
caso più semplice – una query di una sola parola. Per assegnare una
posizione a un documento con una query di una sola parola, Google
controlla la lista di matching del documento per quella parola. Google
considera ogni corrispondenza come una dei diversi tipi (titolo, ancora,
URL, caratteri grandi nel testo, caratteri piccoli nel testo, ecc…), ognuna
delle quali ha il suo peso-di-tipo. I pesi-di-tipo individuano un vettore, uno
per tipo. Google conta il numero di match di ogni tipo nella lista di
matching. Poi ogni risultato viene convertito in un peso-di-conteggio.
Eseguiamo il prodotto scalare del vettore dei pesi-di-conteggio per il vettore
dei pesi-di-tipo per calcolare un punteggio di IR per il documento. Infine, il
punteggio di IR vien combinato con il PageRank per assegnare la posizione
definitiva al documento.
Come si evince dagli scritti di Page e Brin, molte sono le
variabili che vengono prese in considerazione nell’analisi
testuale dei documenti: presenza della keyword cercata
all’interno della URL e del titolo; tipologia di formattazione del
testo cercato all’interno del documento; informazioni
ipertestuali contenute nel testo àncora51 (non soltanto in
riferimento alla pagina che lo contiene, ma anche in riferimento
alla pagina cui è diretto). Il sistema di ranking è studiato in
modo che nessuno di questi fattori abbia un’influenza decisiva
rispetto agli altri: vengono costituiti due vettori, uno 49 Cit lett. “The anatomy of a large-scale hypertextual web search engine”, 1997 50 Ci si riferisce, qui, alla corrispondenza della query con i vari parametri considerati da Google. 51 Il testo ancora rappresenta, all’interno di una pagina Web, quel testo cliccabile, che possiede un collegamento ipertestuale. Viene contenuto all’interno dei tag HTML <a > e </a>
88
rappresentante i valori pesati dei vari parametri, l’altro i valori
pesati di conteggio, il cui prodotto scalare determina un
punteggio IR, per così dire, del documento. Tale punteggio
viene infine combinato col punteggio PageRank della pagina e
costituisce il rank finale del documento.
3.3.6 Debolezze del sistema basato sulla link analysis
Esistono differenti correnti di pensiero riguardo
all’impenetrabilità di PageRank ai tentativi di manipolazione: se
da un lato appare relativamente semplice aumentare il punteggio
di un sito aumentandone artificiosamente i link in ingresso, di
certo è anche vero che Google non è rimasta a guardare di fronte
alla proliferazione di queste ed altre tecniche black hat52. Infatti,
per meglio prevenire potenziali strumentalizzazioni commerciali
di PageRank, l’algoritmo principale è stato integrato con una
serie di algoritmi secondari che ne complicano il reverse-
engineering, vale a dire quelle tecniche empiriche che mirano a
svelare, attraverso un processo induttivo per tentativi ed errori,
l’esatto funzionamento dei meccanismi di ranking di Google in
modo da poterne manipolare liberamente i risultati. Inoltre, per
scoraggiare ulteriormente tali tentativi, Google negli ultimi anni
ha da un lato continuato a rilasciare aggiornamenti migliorativi o
correttivi, dall’altro ha inflitto pesanti provvedimenti ai siti
colpevoli di aver forzato il ranking, ad esempio escludendoli
dall’indice, o, per utilizzare un termine del gergo specializzato,
bannandoli. Sebbene la formula originale di PageRank sia nota
(anche grazie al fatto che l’algoritmo è stato depositato
sottoforma di brevetto), i dettagli tecnici pubblicamente
disponibili sui meccanismi di ranking effettivamente utilizzati
da Google sono volutamente rimasti nell’ombra. Questo
52 Letteralmente, cappello nero. L’espressione si riferisce a quelle tecniche (spesso illegali), volte a compromettere la sicurezza dei sistemi informatici per ottenerne un qualche vantaggio in termini di accessibilità o vantaggio competitivo nei confronti della concorrenza.
89
atteggiamento da parte degli autori risulta comprensibile in
un’ottica di conservazione di una buona qualità dei risultati e,
indirettamente, dell’esperienza dei suoi utenti. Naturalmente tale
gestione monodirezionale è stata aspramente criticata come
dispotica e celatrice di faziosità da parte di molti addetti ai
lavori, in particolar modo nell’ambito SEO, ove la credibilità
professionale è data dalla capacità di interpretare gli algoritmi
dei motori di ricerca.
Tuttavia, al di là delle posizioni individuali, esaminando la
consecutio dei vari aggiornamenti, è possibile intuire una certa
coerenza nell’evoluzione del sistema di ranking di Google dal
1998 ad oggi. Una coerenza con lo sviluppo del settore della
ricerca sul Web, che si muove da un lato per affinare la lotta allo
spam, dall’altro per risolvere una delle principali lacune emerse
nel corso di questa analisi, che sicuramente non sarà sfuggita a
un occhio attento. Il fatto, ovvero, che la ricerca fino a questo
momento si è curata pochissimo del fattore contenutistico dei
risultati forniti. Certo, il paradigma basato sull’unione tra analisi
testuale e dei link è riuscito nell’intento di offrire risultati
contraddistinti da maggiore rilevanza rispetto alle query,
introducendo un sistema capace di computare automaticamente
l’autorevolezza della fonte. Questo è il cuore del problema: tale
autorevolezza, basata appunto su un criterio arbitrario e “non
intelligente” quale può essere un calcolo matematico, non
garantisce che i primi posti siano occupati dai siti davvero più
rilevanti dal punto di vista semantico, questo sia che l’errore sia
provocato da eventuali manipolazioni esterne, sia da carenze
endemiche del sistema stesso. La risoluzione di tali lacune può
avvenire solo attraverso l’introduzione di fattori che prendano in
considerazione il contenuto come parametro discriminante ai
fini del posizionamento. Le directories seguono già dall’inizio
della loro storia questo tipo di orientamento, ma per raggiungere
l’obiettivo si avvalgono prettamente dell’opera umana. I motori
di ricerca rispondono a loro modo, agendo sulla tecnologia.
90
Esaminiamo dunque questi nuovi sviluppi, prima con i
provvedimenti adottati da Google, poi più in generale nel Web
attuale.
3.4 Gli aggiornamenti
Gli sforzi di Google nell’apportare migliorie al sistema
originario si muovono, come abbiamo appena osservato, nella
duplice direzione di stroncare i tentativi di manipolazione dei
suoi algoritmi e di migrazione verso un sistema che tenga conto
dei contenuti nel calcolo del ranking. Tali sforzi si configurano
sotto forma di aggiornamenti rilasciati periodicamente, che
hanno l’effetto di rimescolare ogni volta l’ordine costituito.
Naturalmente, nel ridefinire le regole del gioco, una percentuale
random di errori si è sempre verificata, per questo motivo il
rilascio degli aggiornamenti è sempre vissuto con una certa dose
di terrore dagli addetti ai lavori, per lo stesso motivo i loro nomi
richiamano eventi naturali di grosse proporzioni. Vediamoli in
successione.
FLORIDA UPDATE - NOVEMBRE 2003
Il 16 novembre del 2003, un aggiornamento che ebbe l'effetto di
un tornado (e quindi 'Florida') fece sparire (o apparire in
1000esima posizione) migliaia di siti.
Allo stesso tempo, i risultati delle pagine di ricerca apparirono
qualitativamente scarsi, con siti mediocri posti alle primissime
posizioni e siti famosi e qualitativamente ottimi scalzati dalle
precedenti posizioni e gettati al fondo dell'archivio.
Fu l'effetto combinato dell'epocale introduzione dello stemming
e della OOP – Over Optimization Penalty, con la quale Google
penalizza quei siti che si avvalgono di una ripetizione esagerata
delle keywords su tutti i meta tag, al fine di migliorare la propria
posizione nella graduatoria. Approfondiremo tale aspetto nel
prossimo capitolo.
91
AUSTIN UPDATE - FEBBRAIO 2004
Forse meno drammatico del precedente, ma altrettanto
importante. Durante questo update si osservò l'applicazione del
nuovo algoritmo HillTop che, in combinazione con il PageRank,
fornisce risultati più rilevanti per l'utente, ridefinendo un peso
semantico e tematico dei link in uscita e in entrata.
3.4.1 Algoritmo HillTop
Una delle innovazioni principali apportate da Google allo
schema di ranking originario è quella che riguarda
l’incorporazione di tecniche di topic distillation. Queste tecniche
fanno riferimento alle ricerche sull’estrazione di informazioni
tematiche a partire dall’analisi della struttura ipertestuale del
Web.
In particolare la teoria degli hub e authority53 proposta da
Kleinberg (padre dell’algoritmo HITS) è stata utilizzata per
integrare PageRank con algoritmi più sofisticati che tengono
conto dell’informazione tematica (argomenti o topic) che è
possibile inferire dal contenuto delle pagine indicizzate e dalla
struttura dei loro collegamenti.
53 Questa teoria propone uno schema basato sui concetti di authority e di hub, rispettivamente pagine autorevoli per la query che ci interessa e punti focali, cioè pagine che puntano a pagine autorevoli. Questa teoria ha dato origine all’algoritmo HITS (Hyperlink-Induced Topic Search), in cui una pagina con alto valore di hub sarà una pagina che contiene collegamenti a pagine di qualità (ossia con alto valore di authority) e simmetricamente una pagina con un alto valore di authority sarà un pagina puntata da molti buoni hub.
92
L’algoritmo HillTop, datato 2001, porta la firma di Krishna
Bharat54e rappresenta il tentativo più serio di immettere variabili
tematiche nel calcolo del ranking di Google.
Prima dell'introduzione di HillTop, come sappiamo,
l'assegnazione di un livello di autorevolezza ad un documento
dipendeva esclusivamente dal Pagerank. In poche parole, tutti i
link in entrata, da qualsiasi sorgente, erano ugualmente validi ai
fini della rilevanza di un documento. Ma, se ad esempio un sito
con un alto PageRank in quanto “popolare” e quindi con molti
link in ingresso tratta vari argomenti, ciò non significa che per
ognuno di essi sia autorevole allo stesso modo.
[…] il PageRank ha il limite di non poter distinguere fra pagine
autorevoli in generale e pagine autorevoli relativamente
all’argomento della ricerca. In particolare un sito autorevole in
generale può contenere una pagina che soddisfa una certa
query ma che non è autorevole rispetto all’argomento. 55
HillTop invece, assegna ai link un valore maggiore o minore a
seconda dell'argomento trattato dalla pagina da cui proviene il
link. I link in ingresso provenienti da risorse pertinenti, per
tema, avranno un valore positivo. Quelli invece provenienti da
pagine non correlate, avranno valore minimo.
L’algoritmo HillTop integra le funzionalità di PageRank: ove
quest’ultimo pone attenzione alla qualità e quantità di link che
una pagina Web riceve, l’algoritmo HillTop valuta solamente gli
54 Ingegnere di Google e creatore di Google news. Insieme a George A. Mihaila, Krishna Bharat pubblica nel 2002 “ When experts agree: using non-affiliated experts to rank popular topics”.Khrisna Barat aveva già pubblicato “Improved algorithms for topic distillation in a hyperlinked environment” sulla filtrazione e raffinazione del topic di un documento e “The Term Vector Database: fast access to indexing terms for Web pages” sulla creazione di vettori di termini. 55K.Bharat, “Improved algorithms for topic distillation in a hyperlinked environment”, 2002
93
inbound link56 da pagine considerate “esperte” sulle ricerche
effettuate dall’utente.
HillTop introduce il concetto di expert sites, utilizzato per
implementare questa distinzione tra i link.
Il requisito fondamentale di un documento esperto è che esso
contenga numerosi link che puntino a pagine correlate alla
ricerca eseguita dall’utente e che non siano affiliate fra loro.
Quindi per prima cosa l’algoritmo HillTop deve saper
distinguere quando due siti diversi appartengono alla stessa
organizzazione. HillTop giudica due siti affiliati fra loro quando
si verifichi almeno una delle due seguenti condizioni:
- I due siti dividono gli ultimi tre ottetti di un indirizzo IP57
- La sezione più a destra e non generica del nome del dominio
è la stessa58.
La relazione di affiliazione è inoltre transitiva, per cui se i siti A
e B sono rilevati come affiliati ed i siti B e C sono rilevati come
affiliati, allora i siti A e C saranno considerati affiliati anche
senza ulteriori “prove a carico” del fatto.
Prima ancora di selezionare i documenti esperti viene costruito
uno specifico indice di affiliazioni fra i vari siti, dove a tutti
quelli che vengono ritenuti affiliati, in base ai criteri già
specificati, viene assegnato uno stesso codice identificativo, per
verificarne velocemente l’affiliazione. Dopo aver creato l’indice
delle affiliazioni viene creato un nuovo indice, quello dei
documenti esperti. Questo indice viene ricavato analizzando il
56 Espressione alternativa di “link in ingresso”. 57 Tale fatto presuppone la probabilità che i due siti appartengano alla stessa organizzazione, dal momento che gli indirizzi IP vengono assegnati in tranche alle varie organizzazioni che ne fanno richiesta.
58 Per esempio comparando "www.ibm.com" e "www.ibm.co.mx" vengono ignorati i suffissi “.com” e “.co.mx”, per cui le sezioni più a destra, delimitate da un punto risulteranno essere “ibm” in entrambi i casi e i due siti saranno considerati affiliati.
94
database principale del motore ed estraendone i documenti che
vengono considerati buone sorgenti di link tematizzati, partendo
da quelli che hanno un numero di link in uscita superiore ad una
determinata soglia. Questi vengono confrontati con l’indice
delle affiliazioni: se i link in questione puntano a siti non
affiliati, allora il documento è considerato un documento
esperto.
Nella fase d’analisi dei documenti esperti, l’algoritmo HillTop
esamina solo alcune parti di essi, parti che nel gergo specifico di
questo algoritmo sono chiamate “frasi chiave”. Le frasi chiave
di HillTop non hanno niente a che vedere con le keywords
utilizzate dagli utenti per effettuare una ricerca. La definizione
di frase chiave nell’ambito di HillTop è una parte di testo che
qualifica uno o più link in uscita. HillTop associa ad ogni link in
uscita alcune frasi chiave presenti in specifiche parti della
struttura del documento:
-Il testo contenuto nel tag title del documento viene associato a
tutti i link in uscita;
-Il testo contenuto nelle intestazioni (per esempio fra i tag
<h1></h1>) viene associato a tutti i link in uscita successivi al
tag fino a che nel codice del documento non viene trovata una
intestazione di uguale o maggiore importanza;
-Il testo contenuto nell’àncora o nel title di un link invece viene
associato esclusivamente a quel link.
I documenti esperti sono inseriti in uno speciale indice inverso
organizzato per keyword, nel quale esiste un record per ogni
associazione fra una keyword ed una frase chiave di un
documento esperto.
Quando l’utente esegue una ricerca, l’algoritmo seleziona una
lista di documenti esperti rilevanti rispetto ad essa. Per essere
95
considerato rilevante rispetto ad una ricerca, il documento
esperto deve contenere almeno un link che abbia tutte le parole
della ricerca nelle frasi chiave che lo qualificano.
Ai documenti esperti viene assegnato un punteggio basato sul
numero, sul tipo di frasi chiave (tag title, intestazione, ecc.)
contenenti le keywords della ricerca e sulla percentuale di testo
che le keywords rappresentano all’interno di ogni frase. I
duecento documenti con punteggi più alti vengono scelti come
documenti esperti per la ricerca in questione.
A questo punto l’algoritmo HillTop esamina tutti i documenti a
cui puntano i link contenuti negli esperti selezionati ed estrae
tutti quelli che ricevono un link da almeno due esperti non
affiliati fra loro. Questi documenti sono definiti bersagli e sono
quelli che saranno ordinati nei risultati che verranno forniti agli
utenti.
Ogni associazione fra una frase chiave contenuta in un esperto e
un documento bersaglio trasmette a quest’ultimo un punteggio
proporzionale a quello del documento esperto. La sommatoria
dei punteggi ricevuti dai documenti esperti corrisponderà al
punteggio finale del documento bersaglio.
Per un corretto funzionamento tale algoritmo ha comunque la
necessità di considerare un alto numero di documenti esperti, in
caso contrario il suo utilizzo è inefficace. Ciò comunque
rappresenta un limite relativo, in quanto su chiavi di ricerca non
molto popolari sarà meno necessaria la consultazione di
documenti esperti ai fini dell’ordinamento e HillTop non verrà
utilizzato.
E’ importante sottolineare che, per quanto l’algoritmo HillTop
introduca una componente per così dire semantica nel calcolo
96
del valore delle pagine Web, nel senso che considera l’attinenza
tematica come una variabile importante della risposta alle query,
esso rimane in continuità con PageRank in quanto è anch’esso
un algoritmo basato sull’analisi dei link. La differenza tra i due
consiste semmai sul tipo di autorevolezza derivata dall’analisi,
basata sugli inbound link in PageRank, basata sul contenuto in
HillTop.
3.4.2TrustRank
L’introduzione di questo algoritmo ha seguito un iter svincolato
dall’Austin update, tuttavia il suo obiettivo finale rientra nei
tentativi effettuati in questo periodo per eliminare lo spam dagli
indici. TrustRank si basa infatti sullo studio “Combating Web
spam with TrustRank”59 firmato da alcuni ricercatori del
dipartimento di Computer Science della Stanford University,
pubblicato nel 2004 dallo Stanford Daily Newspaper e
aggiornato il 27 febbraio 2005. Lo scopo del TrustRank è quello
di distinguere, attraverso l’implementazione di un algoritmo
ricorsivo, i siti e le pagine Web utili dallo spam. Il
funzionamento di TrustRank è basato su una procedura
algoritmica integrata con l’intervento umano. La lettura
successiva chiarirà meglio questo concetto.
TrustRank opera, in parole povere, sull’individuazione di un
nucleo molto ristretto di siti, selezionati in base al loro status di
siti non dediti allo spam, alla loro fiducia per utilizzare il
concetto che dà il nome all’algoritmo, e alla successiva,
proporzionale propagazione di tale fiducia, attraverso i link, agli
altri siti che compongono la rete. Negli obiettivi dei suoi
ideatori, tale algoritmo si configura come un metodo per
promuovere nelle graduatorie i siti con un elevato punteggio di
59 Gyongyi, Garcia-Molina, Pedersen,“Combating Web Spam with TrustRank”, 2004.
97
fiducia, dunque scevri di spam e distanti più link possibile dai
siti spam.
L’implementazione dell’algoritmo si articola in tre tappe
fondamentali:
1)La selezione automatica di un insieme molto piccolo di
pagine, dette seeds, delle quali non sia ancora stato verificato lo
status di spam;
2)La disamina, da parte di un essere umano, di tutte le pagine
appartenenti all’insieme e la successiva divisione in “buone”
(pagine che non effettuano spam) e “cattive” (pagine che
effettuano spam).
3)La processazione, da parte dell’algoritmo, dell’intero indice
del motore di ricerca e l’assegnazione a ciascuna pagina che vi è
contenuta di un punteggio di fiducia, basato sul grado di
vicinanza alle pagine seme “buone” nel grafo del Web.
Partiamo con la selezione dei seeds. Nell’implementazione
dell’algoritmo, una delle questioni più pressanti per gli ideatori è
stato il limite di grandezza dell’insieme delle pagine seme,
necessario per minimizzare il ricorso all’intervento umano (detto
Oracolo), dispendioso sia in termini di tempo sia di risorse.
Nello stesso tempo, vi era la necessità di selezionare pagine che
consentissero una buona propagazione della fiducia, attraverso i
loro link in uscita, verso il maggior numero possibile di pagine
buone e rilevanti. Dunque pagine ricche di link in uscita.
La soluzione più intuitiva e naturale è quindi divenuta il calcolo
del “PageRank inverso”, basandosi il punteggio di questo sui
link in uscita di ciascuna pagina. La prima fase per la selezione
delle pagine seme da sottoporre alla valutazione dell’Oracolo è
dunque consistita nel calcolo del PageRank inverso di tutte le
pagine dell’indice del motore utilizzando il solito damping
factor già incontrato in precedenza (corrispondente a 0,85) ed
98
effettuando 20 iterazioni che hanno permesso di ottenere un
risultato sufficientemente stabile.
Una volta calcolato il PageRank inverso di tutti i siti, i punteggi
ottenuti sono stati ordinati in una graduatoria, che attraverso
successive scremature (ad esempio, filtraggio di contenuti
duplicati) è andata a costituire il nucleo di pagine seme, 1250 in
totale, sottoposte all’esame dell’Oracolo. Di questi, 178 sono
stati riconosciuti come esenti da spam e hanno formato l’insieme
delle pagine seme buone. I criteri di selezione dell’Oracolo sono
stati estremamente rigorosi, infatti i siti scelti non risultavano
soltanto esenti da spam, ma erano anche siti chiaramente
riconducibili ad istituzioni. Questo ultimo accorgimento è stato
preso per garantire longevità all’insieme delle pagine seme,
ipotizzando che i siti gestiti da una qualche organizzazione (ed i
loro contenuti) siano più “stabili” e coerenti a medio-lungo
termine.
Dal punto di vista matematico, viene invece naturale chiedersi
come sia stato possibile differenziare nell’algoritmo le pagine
buone da quelle spam. Ebbene, ciò è stato implementato
semplicemente inserendo nella formula una variabile che
chiameremo F, come fiducia, che può assumere due valori in
base allo status della pagina: 1 per le pagine buone, 0 per quelle
spam.
A questo punto, restava da implementare un meccanismo di
propagazione della fiducia attraverso i nodi del grafo: un sistema
che tenesse conto di due presupposti fondamentali assunti degli
autori dello studio. Il primo prevede che non vi siano link dai
seeds selezionati verso pagine spam; il secondo che più ci si
allontana dall’insieme di pagine seme buone e più aumenta la
probabilità di trovare un link ad una pagina spam. Il sistema che
ha realizzato tali presupposti prende il nome di trust attenuation
e consiste dunque in una progressiva diminuzione della quantità
di fiducia trasmessa da un link all’altro, proporzionale
99
all’allontanamento del link dal nucleo originario. Per effettuare
tale operazione, si sono prese in considerazione due strade.
Nella prima, chiamata trust dampening, lo smorzamento della
fiducia (testualmente) viene calcolato in maniera esponenziale.
Esaminando la figura 16A, la pagina 1 appartiene all’insieme
originario e contiene un link che punta alla pagina 2 alla quale
passa un valore di fiducia β minore di 1. Alla pagina 3 che
invece è raggiungibile direttamente dalla pagina 2 viene
trasmesso un valore di fiducia uguale a β*β e via dicendo. Nel
caso in cui le pagine ricevano fiducia da link multipli, può
essere assegnato ad esse il valore maggiore trasmesso da una
singola pagina oppure una media di tutti i valori.
Figura 16 a-b Metodi di propagazione della fiducia
La seconda possibilità, illustrata in figura 16B, prende il nome
di trust splitting (slittamento) e si traduce in una trasmissione
della fiducia commisurata al numero di outbound link presenti
su una pagina. Tale metodo si basa sull’assunto (discutibile se
100
vogliamo) che la qualità di un link sia inversamente
proporzionale al numero di link presenti sulla pagina. Quindi se
una pagina ha un valore di fiducia T e contiene ω link ad altre
pagine, ad ognuna di queste sarà trasmesso un valore di fiducia
uguale a T/ω.
Nella figura 16B la pagina 1, appartenente all’insieme
originario, contiene due link in uscita, così assegna a ciascuna
delle pagine a cui punta un valore pari a 0,5 (la metà della sua
fiducia). Anche la pagina 2 appartiene allo stesso insieme, ma
contiene tre link in uscita, quindi trasmette a ciascuna delle
pagine a cui punta un valore pari a 0,333 (un terzo della sua
fiducia). La pagina 3 riceverà quindi una fiducia totale pari a
0,5+0,333=0,833.
I due approcci appena descritti possono anche essere combinati.
In questo caso, sempre riferendosi alla figura 16 la pagina 3
riceverebbe un punteggio di β*(0,5+0,333).
Esaminiamo dunque la formula del TrustRank.
dove
- TR(A) è il TrustRank della pagina A;
- TR(T) è il TrustRank delle pagine Ti che linkano alla
pagina A;
- C(docN) è il numero di link verso altri siti (outbound)
contenuti dalle pagine Ti;
- d è il damping factor, o fattore di attenuazione uniforme;
TR(T1) TR(Tn)
TR(A)= (1-d) + d * F * ---------- + … + ---------- C(T1) C(Tn)
101
F è il valore della fiducia, assegnato manualmente nella fase
precedente: 1 nel caso di siti “buoni” e 0 in caso di spam.
Gli ideatori dell’algoritmo hanno sperimentato il funzionamento
dell’algoritmo TrustRank sull’indice di Altavista nell’Agosto
2003. Visto il successo ottenuto dall’esperimento, nel marzo del
2005 la tecnologia è stato brevettata e incorporata da Google.
Nel 2005 la tecnologia TrustRank è stata brevettata e
incorporata da Google. La sua introduzione si configura come
uno degli sforzi di maggior successo per la lotta di Google allo
spam, di fatto è ammissione di tutti gli addetti ai lavori la
maggiore pulizia delle pagine dei risultati dai siti spam.
E’ tuttavia da annotare, come sottolineato dal partito dei suoi
detrattori, che il ricorso all’algoritmo TrustRank costituisce una
piccola sconfitta di Google contro lo spam: è la prima incoerente
concessione all’intervento umano di un motore di ricerca che per
sua stessa ammissione ha sempre puntato su procedure
automatizzate. Più che di debolezza, questo appare un segno di
elasticità mentale di fronte alle minacce apportate dallo spam
alla pulizia dei risultati.
JAGGER UPDATE - OTTOBRE NOVEMBRE 2005
E' l'ultimo aggiornamento in ordine di tempo, suddiviso in due
parti (Jagger part I e Jagger part II60). I provvedimenti che fanno
parte di questo update non fanno altro che confermare
l’orientamento di Google verso la lotta allo spam content e alla
manipolazione dei risultati e il perseguimento di graduatorie
basate sulla pulizia dei contenuti. Ad alcuni questa posizione
assunta dal motore di ricerca potrebbe apparire come un cambio
60 Secondo alcune fonti tale update consta anche di una terza parte, Jagger part III. (http://www.webmasterworld.com)
102
di rotta rispetto agli inizi, ove l’importanza di un sito veniva
decretata unicamente dai link in ingresso. In realtà la nostra
analisi dimostra che quello di Google è stato solamente un
continuo adeguarsi alle sfide imposte dall’evoluzione del Web:
Brin e Page hanno trovato un buon sistema (quello basato sulla
link analysis e su PageRank) per ordinare i documenti del Web;
poi di fronte ai tentativi di manomissione dell’oggettività di tale
sistema, pur mantenendone la stabilità della struttura, hanno
virato verso un approccio basato sul contenuto, seguendo e
contribuendo ai cambiamenti del Web in questa direzione. In fin
dei conti è sempre stata una lettura intelligente dell’evolversi
delle cose, che ha permesso a Google di dominare la scena dei
motori di ricerca (e non solo) dai suoi esordi fino ai nostri
giorni.
Passando alle novità pratiche introdotte nel Jagger update, esse
riguardano la penalizzazione da parte del motore di ricerca di
tecniche considerate scorrette, atte ad innalzare il PageRank.
Una di queste consiste nelle link farms. Le link farms sono
gruppi di siti che si accordano, mediante apposite pagine, la cui
funzione unica funzione è quella di raccogliere links, per
scambiare links con gli altri membri, ricevendo links in cambio
dagli stessi. Oltre alle link farms sono stati penalizzati siti con
grandi quantità di links scambiati, per cui possiamo affermare
che l’update Jagger abbia decretato la morte ufficiale della
tecnica di scambio links come strategia di incremento del
PageRank.
Altra categoria penalizzata da questo aggiornamento riguarda i
cosiddetti mini-siti o mini-networks. La strategia utilizzata in
questo caso implica un crescente numero di siti Web diversi che
linkano tra loro per dare ai motori di ricerca l’impressione che il
sito leader (bersaglio di tutti i link) sia più popolare e quindi più
importante del suo reale valore.
103
Infine è stata decisa una canonicalization61 per eliminare le URL
duplicate. Tale processo ha sancito la scelta definitiva di un
nome unico per una risorsa. Come tutti sanno, esistono svariati
modi di richiamare una risorsa Web. Ad esempio:
http://www.pippo.com
http://pippo.com
http://www.pippo.com/index.htm
vengono a partire da questo aggiornamento considerati come
un’unica risorsa, invece che tre duplicate62.
3.5 Nuovi orizzonti della ricerca sul Web
Abbiamo fin qui analizzato il modo in cui i sistemi di IR siano
stati integrati nei motori di ricerca, raffinati ed affiancati da
nuove tecnologie più adatte a selezionare i contenuti ricercati
dall’utente. Abbiamo constatato come nell’ultimo ventennio i
progressi ottenuti nel settore vadano ben oltre l’immaginabile;
inoltre alle minacce portate all’integrità dei sistemi di ricerca,
sono state contrapposte efficaci contromisure.
Ma il Web è un ambito in continuo mutamento, crescono le sue
potenzialità e con esse evolvono anche i bisogni informativi di
chi lo utilizza. D’altronde le nostre vite sono sempre più
indissolubilmente legate a Internet, che ormai ricopre un ruolo
fondamentale in qualsiasi nostra attività, dalla quotidianità
professionale, all’universo relazionale, dalla formazione alla
sfera informativa, all’intrattenimento e via dicendo. In un
61 In informatica, tale termine indici il processo di conversione di dati che hanno più possibili rappresentazioni in una rappresentazione “standard” canonica.
62 Questo poiché i tre URL appartengono allo stesso dominio (pippo.com) e rappresentano tutti e tre la homepage dell’immaginario sito.
104
orizzonte di questo genere, è assolutamente imprescindibile un
miglioramento delle tecnologie di ricerca, che devono essere
sempre più precise, più veloci, pronte a consegnarci a richiesta
esattamente la risorsa che stiamo cercando. Tale possibilità non
è solo un’utopia. Certo, è ancora molto lontana dall’essere
raggiunta, ma le energie nel campo della ricerca sono
attualmente impegnate nel raggiungimento di questo obiettivo
nel più breve tempo possibile. Come? Lo vedremo in questi
paragrafi conclusivi.
3.4.1 Il Web semantico
All’origine della migrazione dei motori di ricerca verso un
approccio che privilegi la qualità dei contenuti, vi è certamente
la motivazione logica sopra descritta, che contempla la necessità
di rispondere alle esigenze di precisione e velocità degli utenti,
filtrando contemporaneamente il rumore (spam, contenuti
duplicati, documenti di scarso interesse). Molto è già stato fatto
in questa direzione, ma l’evoluzione si fermerebbe qui senza un
progetto ad ampio respiro, che miri alla perfezione della ricerca.
La ricerca si configura sempre più come vera e propria
interfaccia di navigazione, alla quale gli utenti si rivolgono non
più come a un oracolo (com’era agli albori), ma come a una
segretaria personale alla quale si richieda di organizzare molti
aspetti della propria vita, presumendo che essa sappia muoversi
con relativa autonomia a partire dall’analisi dei nostri click
precedenti. Questa iperbole rappresenta le aspettative che gli
utenti probabilmente avranno dall’ambito della ricerca in un
futuro non molto lontano. Senza un’infrastruttura del Web che
assecondi tali possibilità, o perlomeno ne prospetti la
realizzazione, ciò sarebbe impossibile, probabilmente anche solo
da pensare. Questa infrastruttura concettuale si chiama Web
semantico, nasce ufficialmente nel 2001 da un’idea che viene
105
universalmente attribuita a Tim Berners-Lee, ma che in realtà è
stata solamente definita da quest’ultimo in un famoso articolo
sullo Scientific American. Si può infatti affermare che il Web
semantico è un progetto che appartiene all’intera collettività di
Internet.
[…]il Web Semantico è un’estensione di quello attuale, in cui
alle informazioni viene attribuito un significato definito, che
permette a computer e utenti umani di lavorare meglio insieme.
[…] darà struttura al contenuto significativo delle pagine Web,
creando un ambiente dove gli agenti software possano svolgere
velocemente compiti complessi per i loro utenti63
In breve, esso consiste nella trasformazione del Web in un
ambiente in cui i documenti (pagine HTML, file, immagini, e
così via) contengano informazioni e dati (metadati) che ne
definiscano il contesto semantico in un formato adatto
all'interrogazione, all'interpretazione e, più in generale,
all'elaborazione automatica.64
Abbiamo già accennato a questo argomento nel primo capitolo,
lo riprendiamo qui per comprenderne a fondo le conseguenze
per lo scenario della ricerca attuale e futuro.
L’implementazione del Web semantico presuppone che
qualsiasi dato sul Web sia corredato da metadati che ne
descrivano il contenuto, di modo che l’elaboratore ne possa
comprendere la natura. Tale possibilità costituisce già una realtà
grazie al linguaggio di marcatura XML (eXtensible Markup
Language) L’ XML permette la creazione di marcatori (tag),
all’interno dei documenti, in grado di definire una struttura
coerente, non ambigua, che rifletta lo specifico dominio
63 Tim Berners –Lee,The Semantic Web, Scientific American Magazine, maggio 2001. (http://www.sciam.com/article.cfm?id=the-semantic-web) 64 it.wikipedia.org/wiki/Web_semantico
106
semantico del documento. Ad esempio, una possibile
descrizione XML di Mario Rossi potrebbe essere la seguente:
<rubrica>
<nome>Mario</nome>
<cognome>Rossi</cognome>
</rubrica>
L’XML è però di per sé insufficiente affinché l’elaboratore
possa comprendere le relazioni semantiche tra i dati e i loro
descrittori. Con XML possiamo dire che il contenuto di <nome>
dovrà essere una stringa di caratteri, e non una serie di numeri o
altri nodi XML, ma non possiamo definire cosa sia un nome.
b
Ci vuole un ulteriore passo avanti, quello che ci permette di fare
una particolare applicazione XML, chiamata RDF. L’RDF, o
Resource Description Framework, è stato specificatamente
creato, secondo una raccomandazione del W3C65, per la
descrizione dei metadati relativi alle risorse, al fine di
permettere la condivisione di informazioni sul Web. Esso
standardizza la definizione di relazioni tra informazioni
ricorrendo agli strumenti tipici del Web (ad es. URI, le risorse).
Tali relazioni, dette statements (asserzioni), consistono in
associazioni di una proprietà con una risorsa, attraverso
espressioni “soggetto-predicato-oggetto”.
Di fatto RDF consente una descrizione del contenuto semantico
delle risorse e una relazione tra loro.
Con RDF possiamo dire alla macchina qualcosa del tipo "esiste
un animale di tipo uomo con nome Mario"; "animale" e "uomo"
sono classi di risorse, di cui Mario è un’istanza.
65 Associazione fondata nel 1994, da Tim-Berners-Lee, al Massachusset Institute of Technlogy, in collaborazione con il CERN (il laboratorio dal quale egli proveniva), con il nome di World Wide Web Consortium (abbreviato W3C), con lo scopo di migliorare gli esistenti protocolli e linguaggi per il WWW e di aiutare il Web a sviluppare tutte le sue potenzialità. (www.w3.org)
107
Pur essendo un linguaggio potente per la rappresentazione della
conoscenza, tuttavia RDF non ha alcun modo di operare
inferenze o deduzioni. È necessario infatti un ulteriore gradino
che consenta di "ragionare" sul significato. Questo è possibile
grazi all'uso delle cosiddette ontologie. Un’ontologia, termine
preso in prestito dalla filosofia, rappresenta in questo caso un
documento o file che definisce formalmente le relazioni tra i
termini di un determinato campo del sapere umano. Queste
ontologie sono formate da una parte tassonomica, che definisce i
concetti e li mette in relazione gerarchica tra loro, e da una serie
di regole di deduzione, che permettono al computer di effettuare
inferenze in base alle necessità espresse dall’utente. Nel progetto
originario del Web semantico le ontologie, collegate alle pagine
Web tramite link, permetteranno al motore di ricerca (logico) di
interpretare semanticamente le nostre richieste e fornirci liste di
risultati sempre più aderenti all’obiettivo della nostra ricerca.
3.4.2 Agenti intelligenti?
La reale potenzialità del Web semantico si realizzerà quando le
persone avranno creato molti programmi in grado di
raccogliere contenuti Web da fonti diverse, di elaborare le
informazioni e scambiare i risultati con altri programmi.
L’efficacia di simili agenti software aumenterà in modo
esponenziale quanti più contenuti leggibili per le macchine e
servizi automatizzati (che includono altri agenti) saranno
disponibili. 66
La realizzazione del Web semantico contempla, oltre alla
costruzione dell’infrastruttura basata su RDF e ontologie, anche
la creazione di agenti software “intelligenti”, ossia programmi
che raccolgano informazioni da diverse fonti nel Web, in grado 66 Tim Berners –Lee,The Semantic Web, Scientific American Magazine, maggio 2001. (http://www.sciam.com/article.cfm?id=the-semantic-web)
108
sia di rielaborarli sia di scambiare i risultati con altri programmi.
Software con una certa autonomia, capaci di farsi un’idea degli
obiettivi del loro utente a partire dalla sua localizzazione
geografica, dal suo social network, dalle sue scelte precedenti,
capaci di tradurre i click in "query semantiche", grazie all'uso di
ontologie, di offrirgli esattamente, e solamente, i dati che stava
cercando.
Tali scenari possono apparire come fantascienza, eppure molte
delle cose che abbiamo finora descritto sono già in atto. Il Web
semantico viene spesso associato alla ricerca sull’intelligenza
artificiale (knowledge representation e reasoning), poiché a ben
vedere la sua piena realizzazione implica la comprensione da
parte delle macchine delle intenzioni di ricerca dell’utente,
trasformando la stessa in un’attività quasi passiva.
In realtà, la ricerca svolta nell’ambito dell’intelligenza artificiale
è solo una faccia della medaglia del Web semantico. L’altra
faccia è rappresentata da un’approccio
“partecipativo/collaborativo”, che presuppone una creazione dal
basso, che coinvolge la partecipazione degli stessi utenti.
D’altronde, il Web semantico altro non è che “una maniera di
descrivere le cose in modo che il computer le possa capire”67.
Molto si sta muovendo da questo punto di vista: l’ulteriore
slancio all’ampliamento del Web dato dalla proliferazione dei
blog ha registrato una forte tendenza a un’etichettatura
spontanea di qualsiasi contenuto, tendenza dimostrata da
fenomeni quali il tagging68 e le folksonomie69.
67 Paul Ford, “August 2009: how Google beat Amazon and eBay to the semantic Web”, 2002
68 L'attività di tagging consiste nell'attribuzione di una o più parole chiave, dette tag, che individuano l'area tematica di un certo documento o file. È un'attività sempre più diffusa su tutti i siti per catalogarli meglio e proporre altre informazioni correlate agli utenti. Molti software per gestire blog supportano gli standard che si sono sviluppati attorno ai tags, in modo che gestendo contenuti si memorizzino subito le parole chiave.
69 Neologismo derivato dall’inglese folksonomy che descrive una categorizzazione collaborativa di informazioni mediante l'utilizzo di parole chiave (o tag) scelte liberamente. La folksonomia produce risultati che riflettono in maniera più definita l'informazione secondo il modello concettuale della popolazione di riferimento.
109
La nascita di una sorta di intelligenza collettiva, che partecipa
alla costruzione di un Web meglio strutturato, potrebbe
semplificare di molto la realizzazione del Web semantico e
l’implementazione degli agenti intelligenti.
Tale scenario coinvolge da vicino, come abbiamo visto,
l’evoluzione dei motori di ricerca, che preparano l’avvento del
Web semantico lavorando su una presentazione dei risultati
sempre più attenta alla qualità concettuale e alla
categorizzazione tematica dei contenuti.
E il SEO come reagisce a queste trasformazioni? Nel corso degli
ultimi anni, questo è stato il settore non-accademico
maggiormente interessato dai cambiamenti avvenuti nell’ambito
dei motori di ricerca, spesso vivendo in contrasto con gli stessi,
in alcuni casi macchiandosi di pratiche scorrette per raggiungere
gli scopi prefissati. Nel prossimo capitolo vogliamo utilizzare le
conoscenze emerse da questa approfondita analisi del mondo
della ricerca ed applicarle al SEO, indicandone un possibile
approccio collaborativo con i motori di ricerca, nell’ottica di un
riconoscimento come processo cognitivo prima che come
attività commerciale.
110
CAPITOLO IV
4.0 Introduzione
La panoramica che abbiamo fatto nei capitoli precedenti
sull’ambito della ricerca sul Web può considerarsi come una
grossa introduzione all’argomento di cui ci occupiamo in questo
capitolo conclusivo. Comprendere le logiche del funzionamento
dei motori di ricerca, partendo dalle sue radici, risiedenti nell’IR
e via via avvicinandoci alle tecnologie più attuali, ci permette,
da un lato, di avere le idee più chiare su quanto si cela sotto le
maschere di ricerca che utilizziamo quotidianamente,
trasformandoci in utenti più consapevoli e in grado di utilizzare
più sapientemente il potente strumento a nostra disposizione. Il
Vector Space Model ci insegna, ad esempio, che fornire più
chiavi di ricerca quando effettuiamo una query, aumenta le
possibilità di raggiungere più in fretta la risorsa cercata, dal
momento che l’eventuale co-occorrenza dei termini sullo stesso
vettore restringe il numero di documenti che rispondano alla
ricerca effettuata.
Dall’altro lato, l’indagine sui criteri di classificazione dei
documenti sui motori di ricerca è uno strumento imprescindibile
per chi voglia ottenere visibilità sugli stessi. E’ esattamente a
questo tipo di esigenza che risponde un settore emerso con
sempre maggiore evidenza negli ultimi anni: il SEO.
Acronimo di Search Engine Optimization, a cavallo tra
informatica e marketing, il SEO si occupa principalmente di
operare sui siti dei propri clienti, facendo in modo che essi
emergano nelle graduatorie dei principali motori di ricerca
(espressione che attualmente ha il suo sinonimo in Google). Tale
attività si traduce in pratica in tre direzioni operative:
111
– analisi sul sito cliente, in modo da coglierne gli SWOT70
e individuarne le strategie per implementare un piano di
comunicazione efficace;
– ottimizzazione del codice delle pagine che compongono
il sito, al fine di renderlo “Google friendly”;
– promozione del sito attraverso i canali pubblicitari
presenti sul Web, con l’obiettivo finale di raggiungere
una posizione stabile e idonea alle aspettative del cliente.
L’attività di SEO ha sin dalla sua nascita vissuto un rapporto
conflittuale con il mondo dei motori di ricerca e con quello
accademico. Vi sono due motivazioni principali all’origine del
conflitto: la prima, introdotta nel capitolo precedente, riguarda
l’accusa, mossa dal SEO ai motori di ricerca (intendiamo anche
qui Google), di gestire le proprie graduatorie e algoritmi in
modo dispotico e incurante delle ripercussioni sui siti, in termini
economici e di visibilità, degli aggiustamenti periodicamente
effettuati.
In direzione opposta, la seconda ragione riguarda la diffidenza
dei motori di ricerca nei confronti dell’attività SEO, in parte
giustificata dall’utilizzo di alcune tecniche scorrette, etichettate
con la denominazione di black hat SEO, considerate alla stregua
dello spam nell’intento di manipolazione delle graduatorie.
Nel corso degli anni le reciproche posizioni si sono un po’
ammorbidite, in virtù della riduzione al minimo dell’ efficacia
delle tecniche scorrette, risultato della crescente impermeabilità
dei motori di ricerca allo spam e alla lenta ma inesorabile
avanzata del paradigma semantico. Oggi appare perlomeno più
semplice, navigando per il Web, distinguere tra SEO affidabile e
attività atte alla “circonvenzione di incapaci”.
A parte i claims ridondanti e improbabili che si accompagnano a
queste ultime (primo sui motori di ricerca in 10 giorni, e
70 L’analisi SWOT è utilizzata in ambito pubblicitario ed economico, all’atto della pianificazione strategica e di comunicazione riguardante un determinato prodotto. L’acronimo è formato dalle iniziali degli elementi presi in considerazione durante l’analisi: Strenghts (punti di forza), Weaknesses (punti deboli), Opportunities (opportunità) e Threats (minacce) per il prodotto in questione.
112
simili…), la differenza tra i due consiste principalmente nel fatto
che se nel primo caso si parte da un background teorico simile a
quello da noi costruito nei capitoli precedenti, in costante
aggiornamento, la cui applicazione è frutto di un’analisi mirata
alla situazione e consapevole, nel secondo caso si tratta della
mera ripetizione di trucchetti informatici, che non tengono
minimamente conto del contesto in cui vengono applicati e
rischiano di produrre più danni (penalizzazioni, esclusione dagli
indici) che benefici.
Ora, pur non rientrando tra gli obiettivi né tra le ambizioni di
questo lavoro quello di giudicare la validità e la liceità di tali
attività, possiamo tuttavia affermare che un’ottimizzazione
conforme alle norme del W3C e alle guidelines71 di Google sia
attualmente l’unico atteggiamento costruttivo e collaborativo
nell’ottica evolutiva di un Web ove la ricerca diventi davvero
perfetta. Sulla rete il dibattito è apertissimo, tra chi si erge a
difesa di un SEO eticamente corretto, che segua le direttive
sopra indicate (white hat SEO), e portavoci e simpatizzanti del
black hat SEO, i quali sostengono che essendo Google
un’azienda privata, che dunque cura i propri interessi economici,
anche le attività ad essa legate possano fare altrettanto, curando
quelli dei propri clienti, anche a costo di forzare i meccanismi
del motore di ricerca.
Qui ci poniamo da un punto di vista diverso. La nostra presa di
posizione in favore di un SEO conforme alle regole non è dettata
né da un atteggiamento di stolida prostrazione nei confronti di
Google, di cui naturalmente riconosciamo le logiche di profitto,
né da una forma di moralismo di fronte alle pratiche black hat
SEO, le cui motivazioni economiche sono altrettanto ovvie e
71 Le guidelines sono un insieme di raccomandazioni sviluppate sistematicamente, sulla base di conoscenze continuamente aggiornate e valide, redatto allo scopo di rendere appropriato e ad un elevato standard un comportamento. Non si tratta di procedure obbligatorie (come protocolli o codici), ma di norme di riferimento. (http://it.wikipedia.org/wiki/Linea_guida)
113
ammissibili. Tuttavia, qui noi parliamo di evoluzione della
ricerca. La ricerca perfetta, quella prevista nel Web semantico,
non può ottenere la sua piena realizzazione in presenza di
contenuti fuorvianti e manipolazioni del sistema. D’altronde, le
pratiche eticamente scorrette, oltre a rallentare questo processo
comunque inesorabile, perché partito dal basso, non sortiscono
comunque effetti se non sul breve periodo. La rapidità effimera
di questi risultati piace ai clienti (che ottengono effetti
immediati) e alle stesse aziende (che così possono fare più
contratti con lo stesso cliente), ma avrà chiaramente vita breve
nel momento in cui le aziende che si affidano al SEO diverranno
più scaltre e lungimiranti, comprendendo che ciò che paga è la
persistenza di determinati risultati.. Tale persistenza può essere
raggiunta solo attraverso il rispetto di queste regole standard,
condivise dai motori di ricerca, dagli utenti e dal SEO.
Dunque, il nostro atteggiamento è guidato semplicemente dalla
volontà di dare da un lato dignità scientifica, universalità e
riconoscibilità al SEO, dall’altro dalla consapevolezza che
l’evoluzione della ricerca e la strada verso il Web semantico
passa dall’accettazione di questi standard.
Non è detto che Google esisterà per sempre. Tante start-up72 la
incalzano quotidianamente, ma gli standard sopravvivranno
all’eventuale tramonto di Google, perché permetteranno la
costruzione di un’infrastruttura del Web in un “linguaggio”
condiviso, indipendente dunque dalla piattaforma che ne
analizzi i dati.
Vediamo allo stato attuale delle cose quali sono questi standard
e quali sono le specifiche per effettuare un’attività di SEO
conforme alle regole. Ma prima, è necessaria una breve
premessa metodologica.
72 Le start-up companies sono, nel gergo economico, aziende appena costituite che presentano un alto rischio, ma anche grandi prospettive di guadagno, in virtù dei pochi capitali utilizzati e della rapidità di espansione dei settori in cui solitamente operano (le information technologies in primis).
114
L’attività di SEO, che ha ormai radici decennali, ha seguito un
percorso evolutivo di continuo e progressivo adeguamento alle
linee guida e ai nuovi algoritmi dei motori di ricerca. Il SEO
rappresenta da questo punto di vista il primo test importante per
ogni aggiornamento degli algoritmi e ogni novità introdotta dai
motori.
Nella descrizione delle tecniche che compongono questa branca,
abbiamo deciso di seguire una prospettiva di trattazione per
argomento, piuttosto che una storica. Consapevoli del fatto che
ciò sia in contrasto con la metodologia adottata finora, alla base
di questa decisione vi è la convinzione che un’approccio di
questi tipo permetta di presentare la materia in maniera più
organica, senza perderne di vista le dimensioni temporali e i
rapporti con l’evoluzione dei motori di ricerca.
4.1 Search engine optimization
Possiamo far risalire la nascita dell’attività di SEO
all’introduzione dell’algoritmo PageRank. Fino a quel momento,
il posizionamento nelle graduatorie dei motori di ricerca era
vincolato principalmente alla presenza dei meta-tag nel codice
delle pagine Web e in generale a fattori on-page73, dunque
rappresentava una competenza attribuibile principalmente ai
webmasters, i quali dovevano curarsi del fatto che gli spiders
potessero leggere e indicizzare i loro siti.
L’introduzione di PageRank rappresenta naturalmente un punto
di svolta, poiché il fulcro dell’attenzione si sposta su fattori off-
page quali la link popularity, dunque l’operazione più redditizia
per ottenere una posizione di rilievo nelle SERP (lo ricordiamo,
trattasi delle pagine fornite dal motore di ricerca in risposta a
73 Con on-page si indicano quei fattori che, nella struttura di un sito, riguardano il codice delle pagine Web. Di contro i fattori off-page si riferiscono a questioni esterne al codice.
115
una query) è costituita da un aumento massiccio degli inbound
link, per ottenere un incremento del proprio PageRank.
Così come la prima fase ha visto la nascita di pratiche
ingannevoli basate sul codice, che tendevano a distorcere
l’utilizzo dei tag per raggiungere la vetta delle SERP, così anche
questa seconda fase ha rilevato l’utilizzo improprio dei link allo
stesso scopo.
Le correzioni in corsa di Google hanno riportato un po’
d’ordine; inoltre lo sviluppo del SEO come attività professionale
derivata dallo studio dei motori di ricerca ha iniziato a
dimostrare che una buona ottimizzazione delle pagine, secondo
diversi criteri logici e pratici, poteva superare gli aleatori
benefici di un alto PageRank. Negli ultimi anni i webmaster
sono progressivamente diventati consapevoli del fatto che il
PageRank altro non è che un'entità numerica, talvolta confusa
con il reale valore dei propri contenuti, più spesso considerata
un premio per un'ottima campagna promozionale, quasi sempre
assimilata, erroneamente alla popolarità reale del proprio sito.
Questa consapevolezza ha definitivamente demolito molte delle
leggende su PageRank, nonostante esse circolino tuttora tra i
neofiti e gli inesperti del settore. PageRank non garantisce un
ottimo posizionamento, se parallelamente alla popolarità delle
proprie pagine non esiste una strategia di ottimizzazione che
renda il proprio sito indicizzabile e valutabile correttamente e
una popolarità del sito che non si limiti alla link popularity, ma
ad un effettivo successo di pubblico e di accessi.
I paragrafi successivi, che concludono questo lavoro, vogliono
fornire una panoramica sulle tecniche esistenti per rendere un
sito semplice da indicizzare e archiviare, renderne efficace e
logica la struttura dei contenuti e delle pagine, compilarne al
meglio ogni tag, evitando errori e forzature che si pongono
contro la naturale evoluzione semantica del Web.
E’ opportuno sottolineare ancora una volta la continuità di tale
attività con le conoscenze sulle modalità di funzionamento dei
116
motori di ricerca, derivanti dallo studio dell’IR, e con
l'applicazione di princìpi elementari e avanzati di Web
marketing. Il SEO deve porsi al crocevia tra queste discipline,
diventando un punto di riferimento per la creazione di progetti
Web coerenti sotto il profilo formale, comunicativo e
professionale.
4.2 Le variabili di pagina
Iniziamo la nostra rassegna dalla progettazione formale del sito.
Come si è accennato in precedenza, prerogativa primaria di un
sito che voglia essere ben posizionato sui motori di ricerca, è
una buona leggibilità e una facile accessibilità agli spiders degli
stessi. Se infatti, per qualche motivo, lo spider non riuscisse ad
accedere al codice del sito, questo implicherebbe l’impossibiltà
di inserire quest’ultimo nell’indice, con la conseguente
esclusione dalle graduatorie. Tale funzione viene espletata da
alcuni tag e meta tag, pezzi di codice invisibili all’utente ma non
al crawler, che definiscono l’accesso dei motori di ricerca ai
contenuti di un sito. Per questo motivo, questa fase di
progettazione va effettuata con grande cura.
L’attenzione sui tag ha visto un progressivo calo in
corrispondenza dell’emergere della classificazione basata sulla
link analysis; la diffusione dei blog e degli editor per la
progettazione Web (ad esempio, Macromedia Dreamweaver),
che incorporano funzionalità di inserimento automatico dei tag,
hanno dato un’ulteriore spinta in tal senso. Tuttavia, la crescita
d’importanza dei contenuti, emblema dell’ultima fase evolutiva
del Web, ha riportato a un ruolo di grande importanza i metatag,
nella loro funzione di descrizione dei contenuti della pagina. Li
analizziamo qui di seguito, con l’obiettivo di stabilire alcune
117
norme pratiche, di semplice applicabilità e sicuro successo
nell’opera di ottimizzazione del codice.
Title tag
Ciò che viene inserito al’interno del tag title, compare
sull’intestazione del browser (per intenderci, la barra blu, in alto
a sinistra), nonché sulla SERP a indicare l’istanza della pagina
Web.Vanno inserite qui le parole chiave più significative e
descrittive per il sito, o i contenuti della pagina in questione,
senza perdere spazio con frasi commerciali (il classico
“benvenuti sul sito” ad esempio) oppure con stop words che
Google tende ad ignorare.
La sintassi è la seguente:
<html>
<head>
<title>Seo cafè, blog di Andrea Sardo</title>
</head>
Questo tag gioca un ruolo chiave per il posizionamento del sito:
quando cerca nell'indice, Google guarda il contenuto del tag title
come prima cosa. Inoltre effettua un matching tra le parole
contenute nel tag title e quelle contenute nel testo e nei link della
pagina, quindi è consigliabile una certa coerenza tra le due.
L'azione di confronto di Google è un aspetto da prendere in
massima considerazione: la rilevanza delle parole chiave di una
pagina parte da qui. Se si desidera posizionare una pagina per
determinate parole chiave, le stesse devono necessariamente
trovarsi anche nel title tag.
Naturalmente, risulta assai dannoso inserire troppe parole chiave
all'interno del title, poiché la rilevanza che viene data alle
keywords presenti nel titolo si diluisce man mano che altre
118
keywords vengono aggiunte. In sostanza, alla prima keyword
verrà dato un valore massimo, che diminuisce sensibilmente per
la seconda, per la terza e così via. Se la pagina necessita di
troppe parole per descrivere i contenuti, sarà opportuno dividerla
in più pagine.
Molta attenzione va anche data all'ordine con cui le parole
chiave vengono inserite: ad esempio voli torino e torino voli
daranno all'utente SERP differenti.
Come sappiamo, Google ignora le stop words come
preposizioni, articoli, congiunzioni, che sono quindi da evitare
se non in una particolare situazione. Ossia, quando hanno un
ruolo determinante nel formare un’espressione che si vuole
posizionare, (esempio: Lord OF THE rings): in questo caso
andranno ovviamente inserite.
Lo spider non è case sensitive, dunque le lettere maiuscole o
minuscole sono considerate senza distinzione.
Vanno tuttavia accuratamente evitati:
1. La ripetizione esasperata della stessa parola chiave: rischia
di essere considerata spam;
2. Il mancato riempimento del tag: la pagina verrà di default
intitolata “untitled document” e verrà annullato un
importante fattore di posizionamento;
3. L’inserimento di parole chiave estranee al contesto e ai
contenuti della pagina: prima o poi il fatto verrà rilevato
dagli spiders e si andrà incontro a penalizzazioni da parte
del motore di ricerca74.
74 Sono sconsigliate anche le cosiddette poison words: queste ultime non causano la cancellazione dall'indice ma potrebbero penalizzare il ranking, pochè sono in conflitto con importanti utilities del Web. Tipiche poison word sono: Bookmarks, Links, Resources, Directory, Search Engine, Forum, BBS.
119
Meta tags
I meta tags sono dei tag HTML studiati appositamente per
fornire informazioni aggiuntive (meta-informazioni) su un
documento ipertestuale. Il loro inserimento NELdocumento si
effettua all’interno dei tag <HEAD> e </HEAD> e vanno
dunque considerati parte dell’intestazione dello stesso. La
sintassi dei meta tag prevede due attributi principali (name e
content, atti a definirne tipologia e proprietà) e nessuna chiusura.
Il ruolo dei meta tags ai fini del posizionamento è stato oggetto
di dibattiti e controversie, poichè nei primi motori di ricerca
questi costituivano l’unico mezzo a disposizione per descrivere i
contenuti dei siti, al di fuori del contenuto visualizzabile dagli
utenti. Dunque, un buon modo per sintetizzare i temi trattati
nella pagina Web, nonché il luogo ideale ove posizionare le
keywords in base alle quali si volesse posizionare il proprio sito.
La facilità di utilizzo improprio di questo strumento ne ha via
via svilito l’importanza e la considerazione da parte dei motori
di ricerca, cosicché attualmente gli spider di Google sono
impostati in modo da attribuir loro un valore vicino allo zero.
L'utilizzo dei meta tag non migliora quindi in maniera rilevante
il posizionamento su Google e va aggiunto che, proprio per la
ragione appena descritta, un uso scorretto e fuorviante degli
stessi può causare penalizzazione o cancellazione permanente
dall'indice. Ciò premesso, esistono tuttavia alcuni meta tag che
ricoprono ancora una funzione importante: il primo di essi è il
meta tag description, ossia una breve descrizione, leggermente
più estesa del title, del contenuto della pagina.
Questo tag è importante, perché la sua definizione ne implicherà
l’inclusione da parte di Google nella SERP, tra il title e la url del
sito di riferimento. Se esso non viene definito, al suo posto
saranno visualizzate le prime linee di testo che lo spider trova
nella pagina. Questo testo può essere anche molto confuso,
120
perché lo spider includerà qui anche testi inseriti in link, bottoni
di navigazione e altri elementi che trova all'inizio della pagina.
Dunque il meta tag description offre non soltanto la possibilità
di rafforzare le keywords (per l’utente) e di individuare o
confermare il topic della pagina (per il motore), ma anche quella
di presentare un claim attraente per una prima visualizzazione,
una sorta di invito all’ingresso.
La sintassi corretta del meta tag description è la seguente:
<META NAME =description CONTENT=" Un punto d’incontro per
condividere informazioni su SEO, Google, Web design e Information Retrieval a
Torino ">
Quanto al content, è consigliabile inserire le keywords in un
contesto discorsivo, una frase che ben rappresenti il senso della
pagina , evitando di utilizzare più di 200 caratteri (per non
sforare lo spazio riservato da Google a tale frase, concludendo
col punto (per evitare che lo spider prelevi le parti di testo
successivo.
Vi sono poi altri due meta tags che meritano particolare
attenzione. Il primo, il meta tag keyword, di cui riportiamo un
esempio per mostrarne la sintassi,
<META NAME ="keywords" CONTENT = "SEO, motori di ricerca,
Information retrieval, Torino">
serve ad indicare agli spiders i termini in base ai quali si vuole
essere posizionati in seguito ad una query dell’utente. La
definizione delle keywords va affidata ad un’attenta analisi
comunicativa del sito e della concorrenza, al fine di scegliere le
più efficaci per il proprio segmento di riferimento. La crucialità
di questa scelta è evidenziata dall’esistenza di svariati tools che
permettono di analizzare le potenzialità di una parola chiave
121
rispetto al settore, valutandone il “tasso di inflazione” e la
conseguente difficoltà di posizionamento75.
Differentemente dai precedenti due, il meta tag robots non ha lo
scopo di fornire informazioni inerenti i contenuti della pagina
Web. Al contrario, si tratta di un modo per comunicare con lo
spider del motore di ricerca e invitarlo a seguire alcune direttive
circa l'uso della pagina Web prelevata.
Attualmente, le direttive impartibili allo spider sono due ed
hanno i seguenti scopi:
1. Richiesta di includere (index) o non includere (noindex) i
contenuti della pagina nell'archivio del motore di ricerca.
2. Richiesta di seguire (follow) o non seguire (nofollow) tutti i
link presenti nella pagina, al fine di individuare altre pagine
del sito Web
I due tipi di direttive possono essere combinati a piacere e
inclusi nel contenuto del tag robots, separandoli con una
virgola.
Il seguente esempio invita lo spider a catalogare la pagina e a
seguirne tutti i link trovati al suo interno:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
Si può chiedere allo spider di non seguire i link ad alcune pagine
private del sito, non dedicate al pubblico lettore, tuttavia è
sconsigliato inibire l’indicizzazione agli spider, poiché ciò
potrebbe essere interpretato dagli stessi come sintomo di
potenziale spam.
Una raccomandazione importante da fare circa i contenuti del
meta tag robots è quella di non indicare direttive in conflitto tra
di loro (ad esempio index e noindex contemporaneamente).
75 Un altro strumento utile da consultare in questa fase potrebbe essere Google Zeitgeist, che pubblica mensilmente la classifica delle keywords più cercate e rappresenta dunque un interessante specchio statistico dei bisogni informativi dell’utenza.
122
4.3 Fattori strutturali
Le specifiche finora fornite rappresentano, come abbiamo
scoperto, consigli utili per costruire siti “Google friendly”, ma
possono ritenersi per lo più superate, dal momento che la loro
considerazione da parte del motore di ricerca è marginale. Vi
sono tuttavia altre specifiche relative alle variabili di pagina, che
riguardano, più che il codice, la struttura delle stesse e la cui
osservazione costituisce buona norma per la progettazione,
nonché fonte di migliore posizionamento, dal momento che
durante la fase di indicizzazione vengono attribuiti dal motore di
ricerca punteggi positivi a qualità come quelle elencate di
seguito.
Codice pulito e validato
Esisitono alcuni tools, denominati validators, approvati dal
W3C, che permettono di verificare online la correttezza,
snellezza e la pulizia del codice. Gli standard ideali utilizzati
attualmente sono rappresentati dall’XHTML76 e i CSS77, questi
ultimi preferibilmente richiamati da un file esterno e non inseriti
all’interno del codice.
Uso degli heading
Questi tags segnalano la particolare importanza di alcune
porzioni di testo all’interno del body, consentendone anche una
formattazione evidenziata. Possono anche rivelarsi utili per
76 L'XHTML (acronimo di eXtensible HyperText Markup Language) è un linguaggio di markup che associa alcune proprietà dell'XML con le caratteristiche dell'HTML: un file XHTML è un pagina HTML scritta in conformità con lo standard XML. Tale convergenza favorisce il mantenimento dei tag HTML in un contesto più rigoroso come quello dell’XML, con il duplice obiettivo di produrre pagine Web con meno errori e di preparare un’architettura del Web che supporti la svolta semantica. 77 I CSS (dall'inglese Cascading Style Sheets), detti semplicemente fogli di stile, vengono usati per definire la rappresentazione di documenti HTML e XHTML. Le regole per comporre i fogli di stile sono contenute in un insieme di direttive (Recommendations) emanate a partire dal 1996 dal W3C. L'introduzione dei fogli di stile si è resa necessaria per separare i contenuti dalla formattazione, permettere una programmazione più fluida e gestibile, sia per gli autori delle pagine HTML che per gli utenti.
123
suddividere in paragrafi ordinati per importanza i contenuti di
una pagina. Gli heading vengono espressi nella seguente forma:
<h1>…….</h1>
Le specifiche HTML impongono che siano al massimo sei, posti
in ordine gerarchico (ove il meno importante e più piccolo sarà
<h6>) e mai annidati l’uno dentro l’altro: ciò significa che
ciascun tag verrà chiuso quando se ne vuole inserire un altro.
Ciascuno degli heading è preposto, secondo gli standard del
W3C, a una determinata funzione:
• h1 o h2 per titoli delle pagine;
• h2 o h3 per i sottotitoli (abstract) delle pagine
• h4 o h5 per i testi delle pagine
• h5 o h6 per note, approfondimenti, copyright, nome autore, data
pubblicazione.
L’utilizzo dei tag heading ad un testo implica l'applicazione di
una misura predeterminata al carattere, che aiuta l'utente a capire
immediatamente le gerarchie d’importanza nel contenuto della
pagina e segnala agli spiders quali porzioni di testo sono
preminenti.
No flash, no javascript
L’utilizzo di tali software è in molte occasioni giustificato dalle
funzionalità e dall’estetica del sito, tuttavia gli script in
questione sono un problema, in quanto gli spiders non li sanno
interpretare se non in piccolissima misura. Sono, di fatto, delle
“barriere architettoniche” alla completa accessibilità e
permeabilità del sito all’attività di crawling.
124
Sitemap
La mappa del sito è uno strumento importante, consigliato
direttamente da Google attraverso uno strumento dedicato
(Google Sitemaps). Questo strumento, la cui implementazione
avviene attraverso un file XML, garantisce non solo un’aiuto
per gli utenti che dovessero incontrare difficoltà nel reperire le
informazioni ricercate, ma anche per gli spider, in quanto
permette di riassumere l’architettura del sito, oltre a ribadire i
link, anche attraverso un uso di anchor text78 complementari.
Architettura del sito
Così come il testo delle singole pagine va formattato e impostato
secondo precise gerarchie, al fine di ottenere una struttura di
pagina snella e facilmente “digeribile” dagli spiders, altrettanto
tale progettazione ordinata deve riflettersi sull’architettura del
sito. Uno degli errori più comuni è quello di voler inserire più
contenuti possibili in una sola pagina, la home page, che si
presume essere la più visitata, linkata e preziosa dal punto di
vista del ranking. Questa miopia progettuale ha tre grossi
inconvenienti: innanzitutto, in termini di peso, dal momento che
pagine eccessivamente grandi (si stima oltre i 100 Kb) risultano
indigeste agli spiders; in secondo luogo in termini di
navigabilità, ove una pagina troppo ricca di informazioni
frustrerebbe le risorse di attenzione dell’utente, che passerebbe il
tempo a cercare i contenuti piuttosto che a fruirli; infine in
termini semantici, poichè tale quantità di informazione
provocherebbe un calo della tematizzazione dei contenuti, con
prevedibili ricadute sulla rilevanza della pagina rispetto a chiavi
di ricerca specifiche.
78 L’anchor text è il testo cliccabile di un collegamento ipertestuale. Esso dovrebbe offrire all’utente un’informazione descrittiva o contestuale della destinazione del link. La relazione con il reale testo dell’URL del link non deve necessariamente essere letterale. Ad esempio il link alla pagina http://www.esempio.it può essere rappresentato semplicemente con l’anchor text “Esempio”.
125
Tali ragioni inducono ad affermare che anche l’organizzazione
dei contenuti del sito in un sistema gerarchico di natura
tematica, con una struttura a directories, come quella che
osserviamo in figura 16, porta notevoli vantaggi nel processo di
indicizzazione e conseguentemente al posizionamento del sito.
Bisogna sottolineare che una struttura di questo genere, oltre
agli indubbi benefici derivanti da una maggiore tematizzazione
delle pagine, che aumentando la rilevanza di ogni singola pagina
rispetto a specifiche keywords, aumenta il ranking sia delle
pagine stesse, sia del sito nel complesso, porta anche vantaggi
Figura 17
Struttura a directories di un sito
126
per quanto riguarda il linking interno del sito, prerogativa di cui
approfondiremo tra poco l’importanza. Non per ultimo, tale
organizzazione è conforme alle Guidelines di Google, ulteriore
motivo per la sua implementazione in un’ottica SEO.
In base a questo schema, i collegamenti che partono dall'home
page, detti collegamenti di primo livello, dovranno condurre
l’utente (e ovviamente gli spiders) alle aree secondarie del sito,
divise in base ad uno schema logico di contenuti. I collegamenti
che partono dalle aree secondarie, o collegamenti di secondo
livello, condurranno alle pagine interne che trattano dello stesso
argomento, e così via. Tutte le pagine dovranno contenere un
link a pagine di livello superiore e, opzionalmente, alla home
page.
Queste sono le indicazioni più importanti per quanto riguarda le
variabili di pagina, costituiscono ovvero quei fattori da prendere
in considerazione durante la fase di costruzione formale di un
sito ottimizzato per il posizionamento sui motori di ricerca.
Naturalmente, il lavoro di SEO non si ferma qui. Nei prossimi
paragrafi sposteremo il focus della nostra analisi sulle altre
variabili che influenzano il posizionamento.
4.4 Link factors
In base alle considerazioni fatte nel capitolo precedente, risulta
chiaro che i link di un sito rivestono un ruolo molto importante
nel decretare la posizione di un sito, o di una sua pagina, nelle
graduatorie di rilevanza di un motore di ricerca. Questa
importanza è giustificata, a livello teorico, dal fatto che questo
meccanismo citazionale, alla base dalla struttura ipertestuale del
Web, stabilisce relazioni tematiche tra le risorse, favorendo la
127
saturazione dei bisogni informativi dell’utente. Purtroppo, nella
pratica, tale corrispondenza tra collegamenti e attinenza tematica
è difficile da implementare, sia per la varietà delle possibili
affinità semantiche tra le risorse, sia per la proliferazione di
pratiche atte ad aumentare in maniera innaturale il ranking.
Come abbiamo osservato, Google ha costantemente aggiornato i
propri algoritmi per offrire un posizionamento secondo criteri di
sempre maggiore trasparenza dei risultati naturali. Questo
processo ha richiesto l’introduzione di algoritmi come HillTop e
Trustrank, nonché un’evoluzione del concetto di link popularity,
basato inizialmente sulla quantità dei link, passato
successivamente a un approccio basato sulla qualità, ovvero sul
maggiore rilievo assunto dall’attinenza semantica nel calcolo del
valore dei link.
Passiamo dunque in rassegna i fattori legati ai link di cui Google
tiene maggiormente conto per la determinazione del valore degli
stessi, osservando come alcuni aspetti di squilibrio nel calcolo
dell’importanza dei link siano stati corretti grazie
all’introduzione degli aggiornamenti.
Anchor text del link
L’anchor text è un parametro fondamentale per gli spiders,
poiché rappresenta il primo segnale di attinenza tematica con la
pagina cui punta. Il valore del link per il sito che lo riceve
aumenta dunque proporzionalmente all’esattezza, all’attinenza e
alla specificità dei termini utilizzati in questa stringa rispetto alle
keyword di una query. A conforto di questa tesi, nella
determinazone del soggetto tematico di un sito, concorrono tanto
i testi contenuti all'interno di esso, quanto l’anchor text dei suoi
link in ingresso. Se molti link puntano al sito con la stessa
stringa nell' anchor text, il documento avrà maggiori possibilità
di ranking per quella query. La dimostrazione di quanto appena
128
detto trova conferma nel fenomeno del Googlebombing79, una
pratica che utilizzando in maniera distorta la forza dell’anchor
text, ha messo più volte Google in crisi.
Testo attorno al link
Il parametro successivo a livello logico è il testo stesso che giace
attorno al link. Tale testo concorre all’attribuzione di forza al
link in misura pari alla sua coerenza con il link stesso e con la
pagina verso cui il link è direzionato.
Linking interno
La struttura dei link interni di un sito può influenzare il ranking
dello stesso in virtù della sua organizzazione. Come abbiamo
accennato in precedenza, la buona navigabilità di un sito si
ottiene a partire da una suddivisione dei contenuti in sistemi
gerarchici di cartelle e sottocartelle. L'importanza di una
specifica pagina nella architettura globale di un sito Web, può
essere misurata attraverso l'importanza e la profondità delle altre
pagine del sito che si riferiscono alla pagina in questione. Una
pagina interna ben collegata ad altri documenti nel sito, sarà
senz'altro considerata più importante di una pagina oscurata o
rimossa o isolata. Tale ordine, oltre a costituire virtù apprezzata
dagli utenti e dagli spiders, ottiene riconoscimento in termini di
posizionamento.
Link popularity
La link popularity globale del sito, associabile all’algoritmo
PageRank, misurava semplicemente il peso ed il numero di link
79 L’esempio più famoso risale alla fine del 2003, quando numerosi bloggers si misero d’accordo per linkare la home page della biografia ufficiale del presidente USA George W. Bush con l’anchor text miserabile failure. Pur non contenendo questi due termini in alcun punto del codice, questa pagina balzò in testa per le ricerche legate a quelle keywords. Dall'inizio del 2007 Google ha aggiornato l'algoritmo di Googlebot, per evitare gli effetti del Googlebombing. La lunga attesa per tale riparazione viene spiegata da Google con la volontà di voler risolvere il problema a livello tecnico, grazie alla scalabilità degli algoritmi, piuttosto che manualmente.
129
diretti verso un unico dominio. L’ottica è quantitativa, per cui un
grande numero di link provenienti da siti molto importanti
bastava di per sé a innalzare smisuratamente il valore di
PageRank di un sito.
Lo squilibrio di tale valutazione ha portato all’introduzione
dell’algoritmo HillTop, che ha trasformato la link popularity in
una concetto legato all’area tematica. L'area tematica viene
misurata da Google come un gruppo di siti i cui link reciproci
trattano un argomento correlato. Link da siti della stessa area
tematica portano attualmente grande valore al sito stesso, mentre
è stato svilito il peso dei link provenienti da aree che trattano
altri argomenti.
Naturalmente, al fianco di questo fattore si pone il trust di
ciascun sito, introdotto con l’algoritmo TrustRank, che specifica
ulteriormente il concetto di qualità dei link, vincolandola oltre
che all’area tematica, anche alla fiducia che si riceve. Come
abbiamo appreso nel capitolo precedente, i link sono sempre più
uno strumento per certificare l’attendibilità del sito e sempre
meno un mezzo per valutare la qualità dello stesso, compito che
oramai è demandato (giustamente) ai contenuti.
4.5 Content factors
La nostra analisi evolutiva sui motori di ricerca ci ha reso chiara
in più di un’occasione la tendenza semantica che ne ha
contraddistinto le ultime fasi. Content is king, recita uno dei
motti più in voga sulla rete. Appare naturale uno sviluppo in
questo senso, d’altronde ricordiamo che la missione primaria dei
motori di ricerca è quella di aiutare l’utente a colmare i propri
bisogni informativi all’interno della grande banca dati costituita
dal Web: questo non può avvenire senza una crescita in termini
130
di precisione, di rilevanza, di attinenza tematica delle risposte
fornite alle query. Si potrà obiettare che lo sviluppo
commerciale del Web abbia stravolto le rotte strategiche della
ricerca, tuttavia è incontestabile che i motori di ricerca siano
tuttora il principale strumento di navigazione ed è altrettanto
innegabile che, siano pure non prettamente accademici i suoi
scopi, Google abbia confermato nel corso degli anni la sua
posizione di leader tecnologico del settore.
Detto questo, vogliamo qui affrontare quegli aspetti semantici
delle pagine Web di maggiore rilievo per il posizionamento.
Ricerca semantica
Un esempio della semantizzazione dei motori di ricerca è
l’applicazione di questa tecnica ereditata dall’IR: una pagina
ottiene rilevanza per una data ricerca pur non contenendo alcuna
keyword della query. Questo avviene grazie all’Latent Semantic
Indexing, che permette di associare e presentare diversi
documenti non in base alla soddisfazione esatta della chiave di
ricerca, ma al contesto e al significato della query. Ciò
naturalmente non significa comprensione del testo, ma
associazione statistica di termini provenienti dalla stessa area
semantica, effettuata attraverso la registrazione delle ricerche
degli utenti e l’autoaggiornamento dell’archivio di riferimenti80.
Il duplice pregio di questa tecnica è l’elusione del keyword
stuffing (ripetizione ossessiva di una keyword per aumentarne la
rilevanza rispetto alle query di proprio interesse) e la possibilità
aperta ad una scrittura discorsiva dei contenuti, legata
maggiormente al contesto e all’argomento che al rispetto di
regole formali.
Apriamo qui un inciso, ricordando quanto la scrittura delle
pagine Web sia stata in passato vincolata a concetti quali la
80 Ad esempio, cercando informazioni su "Alessandro Del Piero", la LSI potrà visualizzare anche risultati pertinenti a "Juventus", "Serie A", "Champions League". Il software, ovviamente non sa assolutamente chi sia Alessandro Del Piero, ma basandosi sulle ricerche passate e sui comportamenti degli utenti, associa -con minima possibilità di errore- il termine ricercato con altri pertinenti come contesto e semantica.
131
keyword density (ovvero la percentuale di occorrenza di una
keyword all’interno di un documento), keyword proximity o
prominence81, sempre in equilibrio precario tra lo stuffing,
considerato spam, e fantomatici valori minimi per poter essere
indicizzati rispetto una determinata chiave.
La svolta semantica, che tende a privilegiare la qualità
informativa di un documento, congiuntamente all’importanza
crescente assunta dal network tematico di appartenenza di un
sito, vedono il ranking sempre più legato al contenuto e, pur
ancora lontani dall essere “intelligenti” nel senso pieno del
termine, certamente i motori di ricerca offrono oggi risultati
basati maggiormente sul senso.
Inoltre, molto di quanto avviene nel Web a livello semantico è
guidato dall’entusiasmo degli utenti stessi, che iniziano a
utilizzare alcuni formati standard82, supportati dai motori di
ricerca, per l’inserimento, all’interno del codice HTML, di
relazioni tra i contenuti online, di modo che i collegamenti tra
questi non siano solo più ipertestuali, ma basati anche sul
rapporto di senso che li lega. L’utilizzo di tali standard permette
ad esempio di esplicitare che la relazione tra i due estremi di un
link è di amicizia, o collaborazione professionale:
<a href= “http://www.amico.it rel=friend>Il sito di
Luca<a>;
Oppure è possibile includere l’attributo class nei tags HTML per
definire alcune categorie di contenuto, in modo da offrire un
ventaglio sempre più ampio di coordinate per la ricerca, come ad
esempio data, indirizzo, località, giudizio del recensore di un
ristorante e via dicendo.
81 Per keyword prominence si intende la vicinanza tra la keyword e l'inizio di una generica zona di riferimento (testo, titolo, ecc…); la proximity indica invece la vicinanza reciproca delle keywords prese in considerazione
82 Esempi di tali formati sono XFN, hAtom, hCard, hCalendar e hReview (Franco Dalfovo, http://blog.posizionamento-sui-motori-di-ricerca.com/seo/seo-semantico, marzo 2008; http://microformats.org/wiki/hreview)
132
<td class=”hreview”>
<span><span class=”rating”>5</span> stelle su
5</span>
<h4 class=”summary”>In questo ristorante si
consiglia il vino rosso</h4>
<abbr class=”dtreviewed” title=”20050418T2300-
0700″>April 18, 2005</abbr>
<span class=”adr”>
<span class=”locality”>Torino</span>
</span>
</td>
Unicità dei contenuti
Un altro effetto della “rivoluzione semantica” è l’introduzione,
da parte di Google, dell’ormai celebre filtro antiduplicazione. Il
suo funzionamento, controverso e dibattuto83, consiste
comunque nell’esclusione dalle SERP di quei contenuti che
vengono totalmente copiati o replicati su più pagine, con
l’obiettivo di proporre dei risultati il più possibile vari e
originali. Pur con le riserve dovute a un’implementazione ancora
approssimativa, questo appare un chiaro segno del fatto che
sono premiati i contributi unici e il contenuto originale, a scapito
della proliferazione di doppioni, che oltretutto è antitetica con la
struttura del Web, ove il meccanismo della citazione dovrebbe
inibire sul nascere questa pratica.
4.6 Altri fattori
Includiamo in questo paragrafo una breve rassegna di quei
fattori, che non rientrano nelle categorie finora presentate, il cui
reale peso è poco influente o non del tutto verificato. Si tratta
principalmente di fattori che mettono in relazione il
posizionamento con la variabile temporale.
83 Tale filtro sembra funzionare meglio in presenza di SERP più popolate, perché in questo caso il tasso di probabilità che il motore possa proporre contenuti non replicati sale in modo esponenziale. Inoltre, in alcune occasioni il filtro non funziona in maniera coerente. http://www.seotalk.it/2008/03/sul-filtro-antiduplicazione.html
133
Frequenza di aggiornamento dei contenuti
Il crawler utilizzato da Google, comunemente conosciuto col
nome Googlebot, si compone di due tipologie di crawlers
diversi: Deepbot, che viene lanciato una volta al mese, e
Freshbot, che effettua la sua scansione quotidianamente. La
compresenza di tali elementi lascia supporre che vi sia una
relazione tra l’aggiornamento frequente dei contenuti e un
migliore posizionamento. Tale convinzione ha persino portato
alcuni webmaster all’utilizzo di script schedulati che
aggiungano contenuti random, o prelevati da altri siti al fine di
mantenere costante la produzione di contenuti aggiornati. Inutile
dire che il monitoraggio costante da parte di Google conduce un
tale comportamento all’esclusione dall’indice.
Anzianità del sito, anzianità dei link
Il cosiddetto age factor fa parte dei fattori “di vecchia
generazione”, la cui considerazione appare attualmente passata
in secondo piano. Il principio di funzionamento di questo
criterio è l’assegnazione un valore di ranking all’età di un sito e
di un link, partendo dal presupposto che da quanto più tempo
questi sono presenti sul Web, tanto maggiore sarà la loro
stabilità ed affidabilità rispetto a siti e link appena pubblicati.
L’anzianità si rivela decisiva per decidere la priorità di ranking
tra siti, ove altri parametri importanti come link popularity e
qualità dei contenuti siano stati analizzati e la situazione sia
ancora in pareggio. Oppure come salvagente di portali molto
generici (news, finanza) che non godono dei vantaggi del
ranking legato alla tematizzazione.
In generale, anche se non sappiamo in che misura esatta ciò
avvenga, è certo che esista una relazione tra l’asse temporale e
le graduatorie dei risultati, se non altro in virtù del fatto che il
Web è in continua evoluzione e i motori di ricerca devono tenere
in continuo (quotidiano) aggiornamento i propri indici, dei quali
134
fanno parte la data di creazione di un documento e le sue
successive modifiche.
4.7 Spam e sovraottimizzazione
Abbiamo lasciato volutamente per ultimo il discorso su spam e
sovraottimizzazione, poiché essi sono temi trasversali al
posizionamento. Coinvolgono, ovvero, tutte le aree SEO di cui
abbiamo trattato finora. In questo paragrafo analizzeremo i
tentativi di ottimizzare i siti con tecniche ingannevoli per gli
algoritmi dei motori di ricerca, con lo scopo di aumentare
artificialmente la visibilità, spesso ignorando necessità
informative, navigabilità del sito e rispetto delle guidelines;
molte di queste tecniche e le relative contromisure adottate da
Google le abbiamo già affrontate in ordine sparso durante la
trattazione. Le riuniamo qui per dovere di completezza.
Link spamdexing84
Tra le prime pratiche utilizzate per creare spam al fine di
manipolare artificialmente il posizionamento, vi sono quelle
basate sui link. Esse sono nate prima, nella fase di decollo dei
motori basati sulla link popularity, e tramontate prima, con il
subentrare di altri parametri nel calcolo della rilevanza e
l’introduzione di appositi filtri.
La tecnica principale si chiama link farm, consiste nella
creazione, per lo più automatizzata, di un gruppo di siti che si
linkano reciprocamente con migliaia di collegamenti. I motori di
ricerca hanno debellato le link farm identificando specifici
attributi associati alle loro pagine ed escludendo queste ultime
dall’indice e dalle SERP.
84 Con il termine spamdexing viene spesso definita l’azione ingannevole nei confronti degli indici dei motori di ricerca.
135
Esiste poi un’altra pratica, la compravendita di link, sul cui
funzionamento poco c’è da dire: la facilità di identificazione è
qui data dalla frequente decontestualizzazione dei link acquistati
rispetto al tema del sito e alla loro conseguente svalutazione.
Shadow Domain
Tale tecnica, consiste nello sfruttamento dell’alta rilevanza
assegnata da Google alla descrittività del nome del dominio85.
Viene registrato un dominio-ombra, creato appositamente per
attirare traffico, grazie alle keywords presenti sul nome del
dominio stesso. Tale traffico viene rediretto su un altro sito;
talvolta i contenuti dello shadow domain sono interamente
replicati da quelli del dominio principale, in questo caso si parla
di mirror domain. In entrambi i casi le sanzioni variano da forti
penalizzazioni di ranking all’esclusione dall’indice.
Cloaking
Si tratta di un metodo per presentare contenuti differenti a
seconda dell'indirizzo IP che ne fa richiesta. Questa tecnica non
sarebbe teoricamente da considerare spam, dal momento che
forme minori di cloaking vengono messe in atto ad esempio per
far visualizzare versioni diverse dello stesso sito a seconda del
browser dell'utente, o della risoluzione del monitor. Tuttavia, ne
è nato anche un utilizzo fraudolento, consistente nella
presentazione agli spider della versione ottimizzata di un sito
che, quando visionato dall'utente, appare completamente
diverso. Tale tecnica viene considerata in maniera molto rigida e
la sua scoperta comporta l’immediata cancellazione dall’indice.
85 Per esempio, http://www.posizionamento-sui-motori-di-ricerca.it, un sito che nel nome del dominio descrive già il topic.
136
Keyword Stuffing
Già incontrata in precedenza, consiste in sostanza nell’eccessivo
ricorso alle parole chiave. Tale abuso è attualmente caduto in
disgrazia rispetto al passato, quando le parole chiave venivano
ripetute ossessivamente in ogni punto della pagina al fine di
aumentare la rilevanza, o addirittura venivano create pagine
(doorway page) con testo invisibile e contenuto composto dalle
sole keywords. Il freno a tale pratica è stato posto
dall’introduzione negli algoritmi di elementi che calcolano un
keyword pattern, sono cioè in grado, durante l’analisi testuale di
un documento, di valutare la normale distanza che le keywords
devono avere l’una dall’altra per formare un testo coerente: in
questo modo si riesce a stabilire, con buona probabilità, se un
documento è stato scritto in modo naturale o se sono state messe
in atto tecniche di stuffing. Ogni pratica di creazione di testi che
porti un documento ad allontanarsi significativamente da questa
coerenza ne provoca penalizzazione e potenziale esclusione
dalle pagine dei risultati.
Doorway pages
Un sunto di tutte le tecniche di spamdexing è costituito dalle
doorway pages86. Tale pratica consiste nella costruzione di
pagine Web ottimizzate per i motori di ricerca e non per gli
utenti, con lo scopo di aumentare il traffico verso un determinato
sito, come avviene nel caso dello shadow domain. Il
meccanismo prevede nella maggior parte dei casi la creazione,
tramite appositi tools, di pagine autogenerate, focalizzate su
un’unica keyword o frase keyword, dunque prive di senso logico 86 L’utilizzo di tale tecnica ha fatto nel passato vittime illustri: nel 2006 il sito Bmw.de è stato temporaneamente escluso dall’indice, salvo essere poi reintegrato in brevissimo tempo, tra le polemiche per la percezione popolare di un trattamento preferenziale da parte di Google.
137
e di utilità alcuna, oppure pagine con contenuti duplicati (vedi
mirror domain), che se cliccate redirigono alla pagina del sito
sul quale si vuole creare traffico. L’utilizzo del termine doorway
ha ormai assunto questa accezione negativa per via della sua
quasi identificazione con il cloaking, prerogativa non totalmente
priva di fondamento. Bisogna tuttavia riconoscere che è
possibile lavorare su doorway pages in maniera limpida, senza
essere ingannevoli per l’indice né per l’utente: attraverso la
creazione di landing pages87 in numero limitato, di reale utilità
per l’utente, di argomento attinente al sito principale, che
colleghino tramite link allo stesso. In questo modo si può
aumentare la link popularity del proprio sito, essere presenti sui
motori in base a più keywords, tutto risparmiando agli utenti
aspettative fuorvianti rispetto ai reali contenuti, permettendo
loro di scegliere se atterrare o meno sul sito principale
(possibilità impedita dalla redirezione automatica), evitando
infine di ibridare tale tecnica con il cloaking ottenendo l’accusa
di spam e penalizzazioni varie.
Il filtro Sandbox
La sua stessa esistenza è spesso messa in dubbio, tuttavia la
maggior parte degli addetti ai lavori sono concordi
nell’affermare l’introduzione di tale filtro negli algoritmi di
Google a partire dal marzo 2004. Tale filtro consiste in una sorta
di sala d’attesa, nella quale i nuovi siti vengono inseriti nella
prima fase della loro indicizzazione. Questa fase permette agli
spiders di Google di studiare il comportamento dei siti neonati,
per verificarne l’eventuale intenzionalità di spam, evitando in tal
modo squilibri nelle graduatorie dovute a nuovi ingressi.
87 Una landing page è la pagina preparata per un sito in modo che l’utente“atterri” (inglese, landing) su di essa ciccando su un link o una pubblicità. E’ dunque una pagina “esterna” al sito, che propone contenuti ottimizzati per una specifica keyword. Il vantaggio offerto dalla landing page è la possibilità estrema di personalizzazione, che ne permette una creazione il più "verticale" possibile, più vicino possibile a quanto cercato sul motore di ricerca.
138
Naturalmente il filtro Sandbox è tanto più forte quanto più la
chiave principale del nuovo sito è competitiva. Anche la sua
durata, variabile tra i tre e i sei mesi, pare essere legata alla
competitività del settore in cui il sito va ad inserirsi.
Per ultimo, menzioniamo il servizio Abuse di Google, che
permette la segnalazione da parte degli utenti del sito o dei siti
che sono sospettati di agire in maniera scorretta. Il sito verrà
analizzato dal Google antispam team ed eventualmente
penalizzato. Tradizionalmente, le segnalazioni che pervengono
al servizio Abuse non implicano diretta cancellazione, poiché
Google preferisce agire sugli algoritmi, applicando ulteriori filtri
agli spider, piuttosto che eliminare manualmente le
manipolazioni.
139
CONCLUSIONI
Il mondo SEO non è certamente soltanto legato ad aspetti tecnici
e informatici. Le competenze messe in gioco in questa
professione spaziano dal campo pubblicitario a quello
economico, dal marketing alla statistica, alla semiotica. La
definizione di una campagna di search engine optimization è un
progetto di comunicazione a 360 gradi. Pur consapevole di
questo fatto, la presente trattazione esula nei suoi scopi da una
disamina di tutti gli aspetti che coinvolgono il lato marketing e
le tematiche legate alla pubblicità sui motori di ricerca.
E’ pur vero che il SEO è profondamente connesso ad aspetti
commerciali, cosi com’è altrettanto chiaro che il posizionamento
sui motori di ricerca preveda, oltre che un attento studio delle
variabili legate al sito, un confronto con le piattaforme
promozionali esistenti sul Web, di cui Adwords e Adsense
rappresentano solo gli esempi più noti al grande pubblico. Molte
altre sono le variabili da considerare per integrare l’attività di
SEO in una strategia comunicativa realmente efficace, da una
padronanza di strumenti statistici per l’analisi dei
comportamenti e la profilazione dell’utenza; a una capacità di
analisi economica, che permetta di percepire i motori di ricerca
come un mercato concorrenziale ove i siti sono prodotti da
“vendere”, alla stesura di un copy88 adatto al target di
riferimento, e così via.
Tali premesse chiariscono definitivamente la prospettiva di
questo lavoro, che ha lasciato in disparte gli argomenti sopra
menzionati non per cecità rispetto al settore di riferimento.
Tuttavia, ci interessava approfondire in questa sede le
88 In questa accezione, ci si riferisce al testo di un messaggio pubblicitario.
140
interconnessioni tra SEO e motori di ricerca sotto il punto di
vista della loro evoluzione tecnologica. Come abbiamo appreso
nel corso di queste pagine, i due ambiti si sono nel corso di
questi anni mutuamente influenzati, reciprocamente trasformati,
l’uno reagendo agli aggiornamenti dell’altro, vivendo però una
situazione di continuo contrasto, non da ultimo sotto il profilo
ideologico. Google, in rappresentanza dei motori di ricerca, si è
sempre posto in un’ottica normativa e sanzionatoria, con
l’obiettivo di mantenere i propri indici impermeabili a
stravolgimenti esterni, il SEO ha talvolta scavalcato i confini
della liceità, confondendo la libertà concessa dal medium con
l’utilizzo distorto di uno strumento a disposizione della
collettività89.
L’approccio che qui si vuole promuovere contempla il
superamento di questa logica dialettica, in favore di un’ulteriore
evoluzione dei motori di ricerca in senso semantico e
intelligente. Battelle la chiama la ricerca perfetta. Si tratta
fondamentalmente di fornire all’utente risposte sempre più
precise, in linguaggio naturale, di creare una forma di
comprensione, da parte del motore di ricerca, delle richieste che
riceve.
Si è naturalmente ancora molto lontani da tutto questo. Tuttavia,
dal lato motori di ricerca, le cose si stano muovendo. Ad
esempio IBM sta lavorando allo sviluppo di un progetto,
chiamato WebFountain, che avvalendosi di un enorme carico di
metadati90, permette di selezionare i documenti con criteri di
89 Secondo molti addetti ai lavori, l’atteggiamento difensivo di Google è volto a proteggere i propri interessi economici più che la qualità dei risultati. Tale accusa, apparsa a dire il vero piuttosto giustificata in alcune occasioni, non rende tuttavia leciti i continui tentativi di manipolazione degli algoritmi del motore di ricerca più utilizzato al mondo. Bisogna ricordare che esso è diventato l’attuale gigante economico partendo dall’eccellenza dimostrata negli anni nel campo della ricerca sul Web; la sua ascesa è stata inoltre democratica, decretata dalla preferenza degli utenti: è questo valore di servizio per la collettività che rende ingiustificabile la manipolazione. E’pur vero che Google muove montagne di denaro, è altrettanto certo che spetta agli utenti decretarne eventualmente la caduta, smettendo di utlizzarlo nel momento in cui ne percepissero una latenza di affidabilità. (n.d.A). 90 WebFountain gestisce un sistema di etichette che permette la classificazione di un documento in base a una trentina di parametri: tale sistema può essere esteso con nuove etichette da parte degli utenti. La capacità di elaborazione è altrettanto sorprendente: l’intero Web può essere indicizzato, etichettato e rietichettato in meno di 24 ore.
141
personalizzazione molto avanzati ed effettuando delle query di
una precisione attualmente impensabile.
Dal lato utente, è chiara la volontà di un’evoluzione in questo
senso. La diffusione ormai capillare dei blog e dei social
network ha dato impulso alla creazione spontanea, originata dal
basso, delle folksonomie, che altro non sono che
categorizzazioni del contenuto del Web. Il vantaggio in termini
semantici di tale fenomeno è il modo naturale, democratico e
intelligente, in quanto creato dall’uomo, con cui le associazioni
acquistano forma e senso.
Il SEO, di fronte a tutto questo, ha una grossa responsabilità. Il
suo ruolo di tramite tra utenti e motori di ricerca è cruciale, non
possono essere le motivazioni commerciali a nasconderne
l’importanza, poiché il fattore economico coinvolge tutti gli
attori in campo. La nuova condotta del SEO deve partire da
questa presa di coscienza per attivare un rapporto collaborativo
con i motori di ricerca. Questo non significa naturalmente
perdersi in dilemmi etici o annientare qualsiasi atteggiamento
critico nei confronti della macchina da guadagni costruita a
Mountain View. Significa semplicemente comprendere che lo
sviluppo semantico e intelligente del Web è interesse della
collettività: questo passa dall’accettazione e dalla condivisione
di regole per la proposizione dei contenuti del Web all’utenza.
Lo studio approfondito e in costante aggiornamento di tali
regole, la sua applicazione sui siti che ne fanno richiesta, il
perseguimento di una comunicazione efficace e accessibile
costituiscono i fondamenti deontologici del SEO. Si parla inoltre
di Web marketing 2.0, allorché si interiorizza il passaggio da
una rete competitiva a una rete collaborativa, ove alla visibilità
si accompagni la cura della dimensione sociale. Naturalmente
tale mutamento culturale deve essere assecondato anche dagli
utenti, i quali devono rivolgersi al SEO come a uno strumento
per migliorare il sito nelle sue molteplici variabili comunicative,
142
non come a una bacchetta magica alla quale si chiede anche di
cambiare le regole del gioco.
I vantaggi di tale approccio sarebbero evidenti per tutte le parti
in causa. Un SEO coinvolto nella progettazione del sito
vedrebbe esteso il proprio campo di operatività ad una fase
cruciale come la costruzione, contribuendo in virtù delle proprie
conoscenze a rendere tale fase immediatamente coerente con gli
obiettivi di posizionamento e di relazione del sito, in parole
povere Google e semantic friendly. Gli utenti che si rivolgano al
SEO avendo compresa l’importanza del suo inserimento nel
processo di pianificazione, potrebbero monitorare i risultati dei
propri investimenti in maniera più sensata, senza correre ai
ripari di fronte all presa di coscienza di non essere percepiti sul
Web, chiedendo al SEO risultati impossibili in tempi esigui e
con metodi illeciti. Il Web stesso, sostenuto da una struttura
governata da un tale ordine, avrebbe la piattaforma ideale per
uno sviluppo decisamente più rapido delle proprie aspirazioni
semantiche.
L’utilizzo di scorciatoie e manipolazioni si configura come una
mancata comprensione delle responsabilità di un’approccio SEO
collaborativo nei confronti dell’evoluzione intelligente del Web.
143
144
BIBLIOGRAFIA
• Addante Francesco, I motori di ricerca: come funzionano, la
storia,
http://www.modugno.it/archivio/2004/04/i_motori_di_ric_5.php
, Aprile 2004.
• Baeza-Yates R., Ribeiro-Neto B.. Modern Information
Retrieval, ACM Press, 1999.
• Battelle John, Google e gli altri: come hanno trasformato la
nostra cultura e riscritto le regole del business, Raffaello
Cortina, 2006.
• Berners –Lee Tim, The Semantic Web, Scientific American
Magazine, http://www.sciam.com/article.cfm?id=the-semantic-
web, 2001.
• Bertini Enrico, Web Semantico: che cosa si prepara per il dopo
Google? http://www.stalkked.com/2007/10/20/web-semantico-
che-cosa-si-prepara-per-il-dopo-google-parte-1, Ottobre 2007.
• Brin S., Page L., The Anatomy of a Large-Scale Hypertextual
Web Search Engine, Computer Science Department,Stanford
University, http://infolab.stanford.edu/pub/papers/google.pdf,
1997.
• Cardone Cristina, I professionisti del Web: la figura del SEO,
http://www.blographik.it/2008/03/06/professionisti-web-
copywriter, Marzo 2008.
145
• Cariello Salvatore, Considerazioni personali sul mondo SEO e
web marketing, http://www.seotalk.it, 2008.
• Celino Irene, Oltre il Web 2.0: il Semantic Web per la gestione
dei contenuti. Motori di ricerca semantici, Middleware Unit &
Semantics Open Lab CEFRIEL, http://swa.cefriel.it, Aprile
2007.
• Chiffi Giovanni, Le fasi di indicizzazione,
http://www.chiffi.com/?s=algoritmi, Novembre 2006.
• Cutts Matt, Matt Cutts: Gadgets, Google, and SEO,
http://www.mattcutts.com/blog, 2008.
• Dalfovo Franco, Seo semantico, http://blog.posizionamento-sui-
motori-di-ricerca.com/seo/seo-semantico, marzo 2008.
• Donato Debora, Leopardi Stefano, Millozzi Stefano, Tsaparas
Panayiotis, Mining the inner structure of the Web graph,
http://www.cs.helsinki.fi/u/tsaparas/publications/WebDB.pdf,
Giugno 2005.
• Fiorentini Barbara, L’informazione in rete. Document clustering
e nuovi motori di ricerca. Una prospettiva basata sull’analisi
per concetti e la categorizzazione. Biblioteche 0ggi,
http://www.bibliotecheoggi.it/2005/20050501901.pdf, Giugno
2005.
• Ford Paul, August 2009: how Google beat Amazon and eBay to
the semantic Web, http://ftrain.com/google_takes_all.html, 2002.
• Gargiullo Giulio, Glossario motori ricerca,
http://www.glossario-motori-ricerca.com, Maggio 2005.
146
• Grignani Elisa, Teoria e tecniche della catalogazione e
classificazione, Università degli studi di Parma, http://dspace-
unipr.cilea.it/bitstream/1889/367/2/ricerca1intro.ppt, 2005.
• Gyongyi Zoltan, Garcia-Molina Hector, Pedersen Jan,
Combating Web Spam with TrustRank, 2004.
http://www.vldb.org/conf/2004/RS15P3.PDF.
• Herrmann Mirella, Strumenti e tecniche di ricerca in Internet,
Working Paper Stoa.
http://eprints.stoa.it/188/01/Tecniche_di_ricerca_in_Internet.pdf
, 2005.
• Larsen Jan, MOLE text analysis group, THOR Center for
Neuroinformatics,
http://isp.imm.dtu.dk/thor/projects/multimedia/textmining/index.
html, 1999.
• Lewandowski Dirk, Web searching, search engines and
Information Retrieval, Department of Information Science
Duesseldorf,
http://eprints.rclis.org/archive/00004620/01/isu_preprint.pdf,
2005.
• Manning C.D., Raghavan Prabhakar, Schütze Hinrich, An
introduction to Information Retrieval, Cambridge University
Press, 2008.
• Mohammadian Masoud, Intelligent Agents for Data Mining and
Information Retrieval, Idea Group Publishing, 2004.
147
• Nipoti Francesca, Usabilità e Web semantico,
http://antonietta.philo.unibo.it/blog/?p=388, Novembre 2007.
• Ridi Riccardo, Nozioni di Information Retrieval,
http://lettere2.unive.it/ridi/info-retr.pdf, Gennaio 2007.
• Rogers Ian, The Google Pagerank algorithm and how it works,
http://www.ianrogers.net/google-page-rank, 2002.
• Salton G., Wong A., and Yang C. S., A Vector Space Model for
Automatic Indexing,
http://portal.acm.org/citation.cfm?id=361220, 1975.
• Signore Oreste, Information Retrieval Systems,
http://www.weblab.isti.cnr.it/education/ssfs/lezioni/IRS.pdf,
2001.
• Staff writer, Algoritmi di Google per l’indicizzazione di siti
Web: algoritmo HillTop,
http://www.1stonthenet.info/index.php/algoritmi-di-google-
indicizzazione-siti-web-algoritmo-hilltop, Giugno 2007.
• Staff writer, Come funzionano? "Spider", indicizzazione e
ranking, http://www.abc-
motoridiricerca.it/index2.php?option=com_content&do_pdf=1&
id=39, ABC Motori di ricerca, Settembre 2006.
• Staff writer, hReview 0.3, http://microformats.org/wiki/hreview,
gennaio 2008.
148
• Staff writer, Il tasto "Mi sento Fortunato",
http://pixelgratis.com/articoli/web-marketing/il-tasto--mi-sento-
fortunato.html, Gennaio 2008.
• Staff writer, Information Retrieval,
http://www.volocom.it/doc/info_retrieval.pdf, 2008.
• Staff writer, Mappa dei motori e delle directory,
http://www.motoridiricerca.it/mappa-motori.htm, Febbraio
2005.
• Staff writer, Svelato l’algoritmo di Google? Il teorema di
Randfish, http://www.magnificaweb.it/algoritmo-di-google-
teorema-di-randfish, Ottobre 2006.
• Sullivan Danny, How Search Engines Rank Web Page, Search
Engine Watch,
http://searchenginewatch.com/showPage.html?page=2167961,
Marzo 2007.
• Taverniti Giorgio, Vector Model,
http://www.giorgiotave.it/wikigt/os/Vector_model, 2005.
• Torre Ilaria, La personalizzazione su Web,
http://www.di.unito.it/~ilatorre/sy/SIC2006_5.pdf, 2006.
149