universita’ degli studi di torinogoy/materiale/1718/tesisardo.pdf · principali tecniche di...

1

UNIVERSITA’ DEGLI STUDI DI TORINO

FACOLTA’ DI LETTERE E FILOSOFIA

CORSO DI LAUREA SPECIALISTICA IN

COMUNICAZIONE NELLA SOCIETA’

DELL’INFORMAZIONE

TESI DI LAUREA

Search engine optimization nel percorso evolutivo dei

motori di ricerca e nel Web semantico.

Candidato: Relatore:

Andrea Sardo Prof.ssa Anna Goy

ANNO ACCADEMICO 2007/2008

3

INDICE

INTRODUZIONE…………………………………..….7

Scenario………………………………………….……..7

Che cos’è un motore di ricerca…….…………………...9

Obiettivi della tesi……………………….……………..11

CAPITOLO I……………………………………..…….14

1.1 Prima di Google.……………….……..………..14

1.2 I motori di seconda generazione…….………...16

1.2.1 L’avvento di Google………………...………...16

1.2.2 Yahoo e le directories…...……….…………….19

1.2.3 Gli altri……………………….………..………20

1.3 I metamotori…………………...………….......24

1.4 Il clustering………………………....................25

1.5 Scenari futuri………….………………...…….29

1.6 Dentro Google: interfaccia utente...…………..34

CAPITOLO II……………………………………………39

2.0 Dentro il motore………………………………….39

4

2.1 La ricerca……………………................................39

2.2 L’Information Retrieval……….....…………….…43

2.2.1 Automatic text analysis…………………………...45

2.2.2 Retrieval strategies……………………………….51

2.3 L’IR nei motori di ricerca sul Web………..………64

2.3.1 Nuovi approcci nella ricerca……………………....65

CAPITOLO III……………………………….…………68

3.0 Introduzione…………………………………..……68

3.1 Un po’ di storia dei motori di ricerca………..……..68

3.2 Un’idea semplice: le citazioni……………...………70

3.3 L’algoritmo PageRank…………………..…………74

3.3.1 Presupposti matematici…………………….………75

3.3.2 La formula del PageRank……………… ………….77

3.3.3 Random surfer model………………………….…...79

3.3.4 Qualità dei risultati………………………………...81

3.3.5 PageRank in continuità con l’IR…………………....84

3.4 Debolezze del sistema basato sulla link analysis.…..88

3.5 Gli aggiornamenti……………………………..…….90

3.5.1 Algoritmo HillTop……………………………….…91

3.5.2 Algoritmo TrustRank…………………………….…96

3.6 Nuovi orizzonti della ricerca sul We….……………103

3.6.1 Il Web semantico ……………………………..……104

3.6.2 Agenti intelligenti?....................................................107

5

CAPITOLO IV………………………………………...…..110

4.0 Introduzione…………………………………………..110

4.1 Search engine optimization………………...…….......114

4.2 Le variabili di pagina…………………………………116

4.3 Fattori strutturali………………………………….…..122

4.4 Link factors……………………………………..…….126

4.5 Content factors………………………………………..129

4.6 Altri fattori……………………………………...…….132

4.7 Spam e sovraottimizzazione………………………….134

CONCLUSIONI……………………...…………...…….....139

BIBLIOGRAFIA………………………………….….....…144

7

INTRODUZIONE

Scenario

Che sia ricordato per la sua origine dal termine googol, coniato

dal matematico Sirotta per rappresentare l’esorbitante numero

uno seguito da cento zeri, o dal goggles – occhiale protettivo -

della lingua inglese, con il quale si sottolinea la sua capacità di

rendere più nitida la visione all’interno della confusa e

labirintica struttura della Rete, Google1 esula da definizioni

esaustive o possibilità di catalogazione. Quello che hanno creato

Larry Page e Sergey Brin nella seconda metà degli anni Novanta

non ha “solamente” ridettato per intero i metodi di fruizione e i

criteri di archiviazione dell’informazione sul Web. La

conseguenza più importante della loro intuizione sta infatti

proprio nella premessa teorica da essi successivamente

sviluppata: quella secondo cui un motore di ricerca basato

sull’attribuzione di un valore matematico alle relazioni tra siti

Web produca risultati migliori rispetto alle tecniche empiriche

usate in precedenza.

Questo modo di pensare ha permesso, in primo luogo, di

sistematizzare tramite una serie di regole formali

l’indicizzazione dei siti all’interno dei motori di ricerca,

migliorandola in termini di razionalità e fugando in parte quel

senso di indeterminata sconfinatezza che si avverte di fronte alla

ragnatela mondiale. In secondo luogo, tale approccio ha dato un

senso e una spinta allo sviluppo del Web sotto il punto di vista

commerciale, portandolo a essere un medium di punta per la

pubblicità. Se prima i banner e il direct marketing avevano

lasciato l’impressione che Internet avesse potenzialità blande

1 http://www.google.com.

8

sotto il profilo promozionale, un’indicizzazione sensata e

razionale dei siti, insieme alla nascita di sistemi come Adwords2

e Adsense3 hanno dato concreti saggi del potere della visibilità,

che ha incominciato a fare gola a tutti.

In un Web 2.04 che ha ulteriormente acuito la tendenza social

già preannunciata nel primo boom della Rete, gli addetti ai

lavori (e non solo loro) si sono mossi immediatamente, per

cogliere le opportunità economiche derivanti da questa

transizione. Da un lato, le aziende hanno intuito l’importanza

dell’essere presenti online con una posizione di preminenza

rispetto ai concorrenti. Dall’altro, i motori di ricerca hanno

fornito la struttura per pianificare l’ingresso in Internet a

tavolino, programmando investimenti e risultati. In mezzo, tante

società di consulenza che si premurano di implementare le

strategie dei propri clienti sui motori.

Come spesso accade, la corsa all’oro ha portato ad eccessi ed

esagerazioni. Chi richiede una campagna di Web marketing,

spesso ignorandone gli strumenti operativi, pretende risultati

immediati ed improbabili. D’altro canto, sul Web sono spuntate

come funghi le società che si occupano di SEO, Search Engine

Optimization. Alcune sono molto serie e ottengono risultati

credibili e persistenti. Ma molte altre promettono la luna,

2 AdWords è il servizio che Google offre agli inserzionisti per inserire il proprio sito all'interno dei risultati di ricerca, in uno speciale spazio dedicato dal nome “collegamenti sponsorizzati”. Il servizio non è gratuito, ha un costo per click, stabilito in precedenza dall'inserzionista, che viene scalato dal budget a disposizione ogni volta che un utente clicca sull'annuncio (pay-per-click). Tra le varie possibilità di personalizzazione degli annunci, particolarmente interessante per questa ricerca risulta quella di scegliere le parole chiave per la visualizzazione dell'annuncio (http://it.wikipedia.org/wiki/Google#AdWords) 3 AdSense è il canale pubblicitario di Google che permette di guadagnare con il proprio sito. È un algoritmo che scansiona in automatico il contenuto delle pagine Web e pubblica in una sezione dedicata gli annunci più pertinenti al sito. La remunerazione è basata principalmente sul sistema del pay-per-click: Google paga qualche centesimo di dollaro ogni volta che un utente clicca sull'annuncio AdSense (http://it.wikipedia.org/wiki/Google#AdSense)

4 Il Web 2.0, secondo una definizione comune e semplificatoria, differisce dal concetto iniziale di Web, retroattivamente etichettato Web 1.0, perché si discosta dai classici siti web statici, dall'e-mail, dall'uso dei motori di ricerca, dalla navigazione lineare e teorizza una rete più dinamica e interattiva. Esempi di tale dinamicità sono dati dal social commerce - l'evoluzione dell'E-Commerce in senso interattivo – e dai social network, che consentono una maggiore partecipazione degli utenti attraverso blog, forum, sistemi di feedback ecc. (it.wikipedia.org/wiki/Web_2.0)

9

operano con metodi discutibili (passibili di penalità da parte del

motore di ricerca) e in generale non portano a concreti

miglioramenti in termini di visibilità.

L’unico modo a nostra disposizione per districarci in questa

spirale speculativa, consiste nel conoscere e studiare

approfonditamente i meccanismi interni che regolano il

funzionamento di un motore di ricerca. Questo significa, nello

specifico, comprendere le logiche e le dinamiche proprie

dell’Information Retrieval5 e applicarle al contesto dei motori di

ricerca: in breve, determinare quali sono gli elementi chiave nel

processo di ricerca e indicizzazione delle pagine Web, in che

modo sono tra di loro interconnessi e tali conoscenze possano

essere utili per ottenere maggiore visibilità.

Che cos’è un motore di ricerca

Prima di addentrarci in questioni tecniche, è opportuno

introdurre alcuni concetti la cui menzione, tutt’altro che

puramente nozionistica, è fondamentale per la comprensione

successiva. Inoltre, la definizione di tali elementi

apparentemente ovvi può essere utile a sgombrare il campo da

eventuali equivoci o ambiguità.

Innanzitutto, che cos’è un motore di ricerca e come funziona a

livello macroscopico?

Un motore di ricerca, o search engine, è “un sistema

automatico, che analizza un insieme di dati e restituisce un

indice dei contenuti disponibili, classificandoli in base a formule

matematiche che ne indichino il grado di rilevanza data una

5 L'information retrieval (IR) è l'insieme delle tecniche utilizzate per il recupero mirato dell’informazione in formato elettronico. Per "informazione" si intendono tutti i documenti, i metadati, i file presenti all'interno di banche dati online.

10

determinata chiave di ricerca”6. In parole semplici, il motore

analizza dei dati in input, forniti dall’utente, ed effettua una

ricerca su tale base, offrendo come output una lista di voci,

poste in ordine decrescente d’importanza, in base ai criteri di

restituzione dell’output con i quali è stato impostato.

È statisticamente provato che l' 85% degli utenti di Internet si

serve dei motori di ricerca per effettuare le proprie ricerche sul

Web7. I motori di ricerca svolgono un importante servizio di IR.

Quando, a partire dagli anni Novanta, Internet cominciò a

riempirsi di milioni di documenti, si avverti l'esigenza di

catalogarli, riordinarli, indicizzarli. In altri termini, era

necessario adottare un sistema "bibliotecario" per consentire agli

utenti di rinvenire in tempi brevi le informazioni desiderate.

Parlando di catalogazione, è opportuno chiarire sin da subito un

possibile elemento di confusione. Spesso, infatti, si parla

indistintamente di motori di ricerca per indicare qualunque

strumento per il reperimento dell’informazione. Ma esistono in

realtà differenze ragguardevoli sia nel modo di organizzare la

ricerca, sia in quello di presentare i risultati.

Per questo introduciamo ora il concetto di directory. Perché

troppo spesso le directories vengono integrate nella definizione

onninclusiva di “motore di ricerca”, mentre si tratta di strumenti

completamente diversi. Esse sono archivi di dati ordinati in

maniera gerarchica, secondo un sistema di cartelle e

sottocartelle, divise per argomento. Già da queste poche righe si

può intuire come questi due approcci viaggino per strade diverse

e portino ad altrettanto differenti risultati.

6 Lett., http://it.wikipedia.org/wiki/Motori_di_ricerca 7 Fonte: www.seoguida.com/motori-ricerca

11

Obiettivi della tesi

Tale digressione ci aiuta a focalizzare l’oggetto di questa tesi.

Abbiamo fin qui tratteggiato due modi per razionalizzare

l’informazione sul Web, entrambi efficaci pur partendo da

presupposti agli antipodi. Il primo approccio si propone, in

seguito a una query8 da parte dell’utente, di filtrare l’enorme

quantità di risorse disponibili e ordinarle in base a criteri

variabili di rilevanza. Tale attività viene effettuata agendo

sull’engine, sulla macchina, grazie a dei programmi, detti

algoritmi, che reperiscono i dati, selezionano quelli rispondenti

ai criteri della richiesta, presentano infine il materiale sotto

forma di liste ordinate; il secondo è un approccio umano,

editoriale, che organizza i contenuti con un sistema gerarchico

di natura semantica. Senza trascurare le funzionalità e

potenzialità generate dalle directories, noi ci concentreremo

sull’analisi degli elementi che regolano l’operatività dei motori

di ricerca, al fine di comprendere come avviene dal punto di

vista tecnico il posizionamento9 dei siti. Vale comunque la pena

di sottolineare che le due metodologie si intersecano in più punti

e non potranno dunque essere trattate in maniera completamente

indipendente l’una dall’altra.

Nella prima parte di questo lavoro, dopo una necessaria

introduzione storico/contestuale, che ci porterà ad inquadrare lo

scenario attuale, ci occuperemo di esplorare l’interfaccia di un

motore di ricerca. Vedremo ciò che accade a livello

macroscopico e come vi si relaziona l’utente.

Nella seconda parte comprenderemo, attraverso uno studio sulle

principali tecniche di retrieval, come sono nati i primi motori di

ricerca, quali sono i loro principi di funzionamento, quali

8 Il termine query, in informatica viene utilizzato per indicare l'interrogazione di un database in modo da ottenere dei dati contenuti in uno o più database. In senso lato, designa una richiesta di informazioni da parte di un attore umano a un sistema automatico. 9 Per posizionamento s’intende l’attività di migliorare o stabilizzare la posizione di un sito all’interno delle graduatorie dei motori di ricerca in base a un determinato criterio di ricerca .

goy

Linea

12

strategie vengono messe in atto per il reperimento e la

classificazione dell’informazione.

Nel terzo capitolo studieremo l’applicazione delle strategie di

retrieval ai motori di ricerca: vedremo come il loro impiego sia

stato complicato dalla continua crescita del Web e

conseguentemente integrato da altri metodi di classificazione.

Seguiremo i cambiamenti del paradigma della ricerca sul Web

fino ai nostri giorni, illustrando l’evoluzione tecnologica dei

motori di ricerca nell’ultimo decennio, guidata

dall’affermazione quasi monopolistica di Google.

L’analisi ad ampio raggio, effettuata in questi capitoli sul mondo

dei motori di ricerca, ci consentirà certamente di acquisire

maggiore dimestichezza e familiarità con uno strumento entrato

nell’uso comune della nostra vita quotidiana, ma del quale molto

spesso non siamo in grado di sfruttare pienamente le

potenzialità. Nel far questo, percorreremo le tappe significative

del sentiero evolutivo dei motori di ricerca, apprezzandone le

innovazioni metodologiche e tecnologiche più interessanti,

arrivando a tracciare gli scenari che si prospettano nel futuro

immediato. Giungeremo infine all’ultimo capitolo, nel quale gli

argomenti trattati troveranno il loro naturale ambito di

applicazione in un settore di grande attualità: osserveremo che la

conoscenza dei criteri di classificazione dei documenti sui

motori di ricerca è uno strumento fondamentale per chi cerca

visibilità sul Web. Il SEO è l’ambito ove si concentrano tali

conoscenze: cercheremo di esporne le linee guida mediando tra

le esigenze, non sempre facilmente conciliabili, di un

posizionamento efficace e di un orientamento collaborativo allo

sviluppo semantico Web.

goy

Linea

14

CAPITOLO I

1.1 Prima di Google

A un occhio profano, i motori di ricerca si configurano

semplicemente come strumenti che permettono di ricercare

materiale su Internet, attraverso la digitazione di una stringa di

testo da parte dell’utente, in risposta alla quale essi restituiscono

una serie di risultati, messi in ordine in base a complicatissimi e

poco conosciuti criteri di catalogazione.

Ma tali criteri sono davvero così indecifrabili e difficili da

interpretare? Senza eccessivi sforzi di memoria, possiamo

ripercorrere la prima fase della storia dei motori di ricerca,

significativamente denominata “prima di Google”, proprio per

sottolineare quanto le novità giunte da Mountain View abbiano

rivoluzionato lo scenario precedente.

I primi motori di ricerca, sorti nella prima metà degli anni

Novanta, utilizzavano il semplice criterio delle keywords (parole

chiave), inserite dagli stessi webmaster all'interno delle loro

pagine, attraverso i meta tag10. Tale sistema permetteva di

collegare le parole ricercate a pagine Web, i cui meta tag

segnalavano la presenza dei contenuti richiesti. Infine, veniva

stilata dal motore una lista di riferimenti ordinati secondo

pertinenza e rilevanza. La rilevanza, spesso rappresentata anche

con una percentuale posta accanto all'indirizzo di ciascun sito

Web trovato, nei motori di prima generazione veniva

determinata da una serie di algoritmi che prendeva in

considerazione un insieme di fattori, tra cui:

10 I meta tag, il cui funzionamento verrà approfondito in seguito, sono informazioni sui dati di una pagina web; sono inseriti nel codice HTML della pagina stessa, per fornire informazioni ai motori di ricerca.A differenza di ogni altro tag inseribile in una pagina web, i meta tag non forniscono al browser alcun dato di formattazione della pagina, per cui il loro influsso sul layout finale è nullo; sono perciò totalmente invisibili all'utente se non attraverso la visualizzazione del codice sorgente in HTML (http://it.wikipedia.org/wiki/Meta_tag)

goy

Linea

15

- occorrenze del termine di ricerca nella pagina (frequenza);

- rapporto tra occorrenze e totale di parole della pagina

(densità);

- vicinanza dei termini di ricerca (prossimità);

- frequenza di aggiornamento delle pagine;

- posizione dei termini in alcune parti della pagina Web

(metatag del campo "head", nel campo "title" o, all'interno del

"body", nei tag "H" e "href", ecc.)

Erano i tempi di Altavista, Infoseek, ed Excite.

Per poter apparire ai primi posti nella lista di risultati, si

diffondeva l'uso dello spam11: termini con lo stesso colore dello

sfondo in modo da non essere visualizzati nel browser ma

percepiti dallo spider, utilizzo di pagine di reindirizzamento,

utilizzo improprio di parole chiave, segnalazioni continue della

stessa pagina al motore.

Un approccio apparentemente funzionale veniva così smontato

da programmatori smaliziati, che cominciarono, con l’obiettivo

di rendere più visibili e visitate le loro pagine Web, a dichiarare

nelle stesse decine di parole chiave, rendendo di fatto nulla

l'utilità di questo strumento (prevista, peraltro, nelle stesse

specifiche di HTML). Contemporaneamente, i motori di ricerca

più in voga (in particolar modo Altavista) iniziarono a vendere

le posizioni alte dei loro risultati di ricerca, mischiando, nella

presentazione dei risultati, siti rispondenti ai criteri di ricerca

con clienti rispondenti a criteri commerciali.

Questa situazione non molto rosea preparò il terreno per

l'avvento di Google.

11 Il termine spam, entrato ormai nel linguaggio comune, include qualsiasi forma di pubblicità indesiderata che si riceva su Internet. Per estensione, il termine può indicare anche l’attività di sabotaggio o manipolazione degli strumenti della Rete (siti, motori di ricerca, e-mail, ecc…) per scopi impropri.

goy

Linea

16

1.2 I motori di seconda generazione

Occorre innanzitutto fare una panoramica sui leader del settore:

verso la fine degli anni Novanta molti siti hanno ritenuto

opportuno dotarsi di motori di ricerca interni, per facilitare il

reperimento di informazioni all’interno del sito stesso. Ma non

sono questi i motori di ricerca che ci interessano: noi vogliamo

occuparci dei motori veri e propri, URL alle quali si approda

appositamente per ricercare contenuti all’interno dell’intero

Web. Questi ultimi sono più interessanti per la nostra ricerca

non tanto per il principio di funzionamento (che è lo stesso di

quelli piccoli e che analizzeremo in seguito), quanto per la loro

particolare struttura e per l’enorme capacità di elaborazione di

cui sono in possesso, che li rende imprescindibili nello scenario

attuale di Internet: pensiamo a come il concetto stesso di

ipertesto sarebbe limitato, senza uno strumento che ci collega ai

contenuti mediante un’espressione, una stringa di testo. Inoltre, i

motori ci aiutano a introdurre la questione della visibilità in

Rete, che sta alla base del SEO e che è il vero propulsore del

nuovo, straordinario, sviluppo della Rete stessa dal punto di

vista commerciale.

1.2.1 L’avvento di Google

Sviluppato da due giovani ricercatori dell'universita' di Stanford,

Sergey Brin e Larry Page, Google e' stato lanciato in rete nel

settembre del 1999. Da allora, ha avuto una crescita

esponenziale, diventando in tempi rapidi il primo motore di

ricerca al mondo.

I dati ormai parlano chiaro: primo motore di ricerca utilizzato in

assoluto, 40% del mercato (che diventa 50/55% considerando i

goy

Linea

17

motori che utilizzano le sue tecnologie), 300 milioni di utenti,

fatturato di 3 miliardi di dollari12.

Come ricordato precedentemente, la prerogativa che ha premiato

Google, innalzandolo in pochi anni a leader mondiale, consiste

nela sua rivoluzionaria idea di inserire negli algoritmi di ricerca

i link come variabile di calcolo della rilevanza. In realtà vari

fattori concorrono con differenti percentuali all’algoritmo, ma il

valore aggiunto consiste nel considerare i collegamenti tra siti,

chiaramente testuali, come elementi matematici. Questa, la

motivazione più tecnica. Naturalmente i fattori che hanno

concorso al successo di Google sono molteplici, a partire da una

progettazione user-friendly, per passare a un continuo

aggiornamento, in particolar modo per ciò che riguarda

l’algoritmo di ricerca e le parti che lo compongono. Infine, un

approccio commerciale, che ha portato ad esempio nel

Novembre 2006 alla discussa acquisizione del principale

concorrente per la condivisione di audiovisivi, YouTube.

Tornando al vero punto di svolta di Google, esso è

universalmente conosciuto col nome PageRank, altro gioco di

parole tra il cognome di uno degli autori e la prerogativa di

questo algoritmo di assegnare un valore (rank) ad ogni pagina

Web (page). L’algoritmo PageRank risulta tuttora uno tra gli

elementi più importanti per la classificazione delle pagine Web.

Sin dal momento della sua introduzione esso fece sentire il suo

peso, in particolare nella lotta allo spam, che ebbe da quel

momento maggiori difficoltà operative, essendo diventato a quel

punto inutile il suo annidamento nel codice sorgente di un sito. I

metatag videro da quel momento diminuire la loro importanza,

mentre ne acquistarono moltissima i link verso il sito, visto il

loro contributo di autorevolezza e rilevanza. Ma lasciamo che

Google descriva il concetto di Page Rank con “le sue stesse

parole”:

12 Fonte: http://www.primaonline.it/opinioni

goy

Linea

18

“PageRank in dettaglio

Basato sullo specifico carattere "democratico" del

Web, PageRank sfrutta la vastissima rete di

collegamenti associati alle singole pagine per

determinarne il valore. In pratica, Google interpreta

un collegamento dalla pagina A alla pagina B come

un "voto" espresso dalla prima in merito alla

seconda. Tuttavia, non si limita a calcolare il

numero di voti, o collegamenti, assegnati a una

pagina. Oltre a effettuare questo calcolo, Google

prende in esame la pagina che ha assegnato il voto.

I voti espressi da pagine "importanti" hanno più

rilevanza e quindi contribuiscono a rendere

"importanti" anche le pagine collegate.

PageRank assegna ai siti Web importanti e di alta

qualità un "voto" più elevato di cui Google tiene

conto ogni volta che esegue una ricerca. È evidente

che oltre ad essere importanti, le pagine devono

corrispondere ai termini ricercati. Quindi, Google

integra PageRank con sofisticate procedure di

ricerca testo per trovare le pagine che sono rilevanti

e rispondono ai criteri di ricerca indicati.”13

E’ una storia breve quella dei motori di ricerca, ma la velocità e

l’entità dei cambiamenti tra queste due prime generazioni, il

passaggio dal posizionamento per keyword al PageRank,

passando per l’affinamento delle directories, rendono abissale la

distanza. Ora, prima di focalizzare il nostro discorso su Google,

13Guida alle funzioni di ricerca di Google, http://www.google.it/intl/it/why_use.html, 2008.

goy

Linea

19

vediamo chi erano i competitors al momento del suo ingresso in

scena e nell’immediato seguito.

1.2.2 Yahoo e le directories

Yahoo è sempre stato il principale e naturale antagonista di

Google, sia in quanto preesistente, sia perché ha sposato un

approccio alla ricerca dell’informazione completamente diverso.

Yahoo nasce nel 1994, come poi avverà anche per Google, da un

progetto universitario dei suoi fondatori, David Filo e Jerry

Yang, che stavano sviluppando un deposito di link per tenere

traccia dei loro interessi su Internet. Quando tale deposito si

rivelò troppo grande e poco gestibile, i due decisero di

suddividerlo in categorie e sottocategorie, per argomenti. Il

progetto fu battezzato Jerry’s Guide to the World Wide Web, ma

dopo breve tempo acquisì il nome definitivo Yahoo (Yet Another

Hierarchical Officious Oracle) e cominciò a ricevere milioni di

visite giornaliere. Divenuto rapidamente azienda di successo,

Yahoo ha mantenuto la sua struttura a directory, servendosi di

società esterne per il servizio di ricerca (nell'ultimo periodo,

prima della trasformazione del 2004, la ricerca su Web veniva

rendirizzata su Google).

Superata la crisi delle dotcom dopo il 200014, Yahoo ha

compreso l’importanza di sviluppare un motore di ricerca

proprietario, che è stato elaborato e lanciato negli anni

14 Nel marzo 2000 una grossa crisi investì il mercato della cosiddetta “New economy”, costituita dalle attività, le imprese e gli investimenti basati sulle nuove tecnologie informatiche e telematiche gestibili su Internet. I motivi sono da ricercarsi nella nevrotica circolazione di enormi somme di denaro proveniente da venture capital e diretto alle imprese start-up, sulle quali il mercato azionario ha perso il controllo portando il sistema a un punto di collasso. Colossali cifre di denaro e numerosissime aziende sono state spazzate via da questa congiuntura, senza tuttavia provocare grosse inversioni di tendenza nel settore.

goy

Linea

20

successivi, anche grazie ad alcune importanti acquisizioni15 e

che ha permesso al gruppo di diventare oggi la seconda fonte

utilizzata per effettuare ricerche sul Web. Ciò che ci interessa

particolarmente è la filosofia che Yahoo rappresenta, quella

ovvero di una selezione dei risultati filtrata dalla valutazione

umana piuttosto che gestita in maniera automatizzata.

Questo implica, per le directories come Yahoo, affidare le

proprie graduatorie a una catalogazione gerarchica

dell’informazione, spesso coadiuvata dall’intervento editoriale

umano, contrapposto all’oggetività “cieca” del calcolo

computazionale. L’indubbio vantaggio di una maggiore

selettività dell’informazione e di una struttura ad albero che

impone rigore e razionalità al caos del World Wide Web, viene

tuttavia limitato da un dominio di risultati circoscritto alla sola

struttura classificatoria.

Vedremo in seguito come la terza generazione dei motori,

insieme all’evoluzione dei linguaggi di programmazione al

servizio del Web, tenteranno una conciliazione tra i punti di

forza delle due tendenze nel Web semantico e negli studi sugli

agenti intelligenti.

1.2.3 Gli altri

Nel recente passato, tra i concorrenti di successo di Google si è

imposto anche Msn. Si tratta del tentativo Microsoft di porre

freno al dominio incontrastato di Google. Nel passato il colosso

informatico utilizzava tecnologie fornite da aziende esterne,

privilegiando la struttura a directory come Yahoo; ha poi

15 Le acquisizioni in questione sono Inktomi e Overture. Inktomi era azienda leader per la fornitura di servizi di ricerca su Web prima del 2000; Overture invece era una società proprietaria di un sistema di gestione dell’online advertising .

goy

Linea

21

ammesso di aver perso una grande opportunità non sviluppando,

a suo tempo, una tecnologia di ricerca proprietaria.

Nel novembre del 2004, dopo 18 mesi di lavori, viene rilasciata

la versione beta16 del nuovo motore sviluppato dagli ingegneri

microsoft, MSN search, basato su un algoritmo totalmente

nuovo. Al momento MSN dichiara di aver indicizzato nel suo

database 5 miliardi di pagine Web, contro gli oltre 8 miliardi

dichiarati da Google..

Il pregio di MSN Search e' quello di superare l'approccio

generalista adottato da altri motori di ricerca, attraverso alcuni

strumenti di personalizzazione.

La sezione "settings" o "opzioni" permette di personalizzare i

risultati di ricerca secondo diversi parametri potendo scegliere di

visualizzare solo i siti in una determinata lingua, di far

visualizzare più di 10 risultati per pagina, raggrupparli per sito, e

filtrare i risultati.

La ricerca avanzata consente inoltre di limitare i risultati ad un

particolare dominio, lingua o paese e dispone di un particolare

filtro chiamato "ranking" o "valutazione risultati".

Ad oggi, Google, Yahoo e Msn sono le risorse più utilizzate per

reperire informazioni in Rete. Tuttavia la scena è costellata di

comprimari, che pur offrendo servizi del tutto simili a quelli

finora descritti, si differenziano ciascuno per qualche particolare

funzionalità. Passiamo in rassegna i più interessanti:

- dmoz: è l’acronimo di directory Mozilla, nasce nel 1998 con il

nome di NewHoo (ci ricorda qualcosa?), ma è conosciuto anche

come ODP (Open Directory Project).

L’idea si deve a un gruppo di volontari, con l'obiettivo di creare

una directory ragionata di risorse internet, gestite da specialisti 16 La versione beta è una versione di prova di un software, già testato dagli esperti, che viene messo a disposizione del pubblico, nell’ottica di individuare eventuali nuovi bug o incompatibilità del software stesso.

goy

Linea

22

nelle singole aree. La forza di tale metodologia è di tipo

qualitativo e collaborativo: i volontari (detti editori), cresciuti

esponenzialmente in numero, esplorano continuamente la Rete

e, rispettando i criteri di editing ODP, ordinano e catalogano i

contenuti.

ODP è attualmente la directory utilizzata da siti come AltaVista,

Google, Lycos, Teoma e molti altri, come possiamo osservare

nella figura 1, ove le freccie verdi puntano verso i motori che si

servono di dmoz come catalogo.

Figura 1 Diffusione dell’utilizzo della directory dmoz presso i motori di ricerca.

Chiunque sia interessato a collaborare, partecipando attivamente

alla costruzione della directory, può scegliere un argomento e

fare richiesta di diventare editore per quella categoria. Oggi il

catalogo ospita addirittura 600.000 categorie e, per quanto sia

stato acquistato da Netscape (poi assorbita da AOL), ha

mantenuto fede al suo nome, conservando accesso gratuito, una

struttura editoriale decentrata, e la filosofia open source

all’origine del suo successo.

goy

Linea

23

-Teoma e' stato sviluppato dal 1998 alla Rutgers University e

riprende la tecnologia su cui si basa il relevance ranking di

Google, cercando di perfezionarla. Come tutti i motori, una

volta inserite le parole chiave, Teoma cerca nel Web i siti che le

contengono. Ma, una volta individuati i siti, applicherà solo a un

gruppo, definito community, l'analisi dei link. Questo poiché

tale comunità, composta da siti di argomento attinente a quello

cercato, genera risultati più rilevanti e affidabili di quelli di altri

sistemi che applicano l'analisi dei link a tutto il Web (tale

concetto viene denominato Subject-Specific Popularity). In altre

parole, la posizione in graduatoria viene determinata dalla

quantità e dall’importanza dei link provenienti dalla stessa area

contestuale. Possiamo descrivere questo come il tentativo pilota

di mischiare le potenzialità di un motore con quelle di una

directory. Vedremo nel terzo capitolo, allorché ci occuperemo

dello sviluppo di Google, come l’intuizione dell’importanza

dell’area tematica venga integrata negli algoritmi di topic

distillation.

Nel 2001 Teoma viene acquisita da Ask Jeeves, poi divenuta

Ask.com, alla quale vengono trasferiti gli algoritmi di ricerca.

La peculiarità di Ask consisteva nel permettere ai suoi utenti di

ottenere delle risposte, interrogando il database con domande in

linguaggio naturale. Col tempo, e in seguito all’acquisizione di

Teoma, si è poi standardizzato ai motori di ricerca tradizionali,

e oggi presenta un’interfaccia del tutto simile a quella di Google.

- In continuità logica col precedente, Answers, nato nel 2005,

non è un vero e proprio motore di ricerca; si tratta piuttosto di un

motore enciclopedico. Digitando i termini di ricerca, Answers

non restituisce collegamenti ipertestuali (“Not lists of links... just

the information you're looking for”, è lo slogan), bensì vere e

proprie risposte, ottenute cercando e recuperando definizioni da

database enciclopedici. Attinge infatti a un centinaio di fonti:

goy

Linea

24

enciclopedie, database, biblioteche, dizionari, atlanti. Tra questi,

siti affidabili e aggiornati come Columbia University Press,

Wikipedia, Houghton-Mifflin ecc.

Answers fornisce anche Click Answer, un software scaricabile

gratuitamente, che permette di collegare ogni termine

visualizzato sullo schermo alla definizione o ad altre

informazioni. Ancor più notevole, Wiki-Answer, una

funzionalità basata sulla filosofia wiki di knowledge sharing17,

attraverso cui qualunque utente abbia accesso alle risorse, può

aggiungerne di nuove o integrare le vecchie con nuove

informazioni.

Le caratteristiche di Answers fanno guardare a un futuro del

settore in cui la presenza umana, già presente a vari livelli nelle

strategie di indicizzazione attuali, si farà sempre più pressante e

necessaria, integrando le componenti automatiche dei motori di

ricerca e sopperendo ove queste siano troppo rigide, per venire

incontro alle molteplici necessità di informazione “intelligente”

da parte dell’utente.

1.3 I metamotori

Discorso a parte meritano i metamotori, il cui sviluppo è

trasversale rispetto agli elementi trattati finora. I metamotori

sono portali che non hanno un proprio database e aggregano i

risultati dei motori di ricerca principali, servendosi degli archivi

di questi ultimi. Nei primi sviluppi di Internet, quando le banche

dati dei motori erano piuttosto limitate, i metamotori furono

accolti con molto entusiasmo. Come prima impressione

17 Tale filosofia sta alla base ad esempio della nota enciclopedia libera online, Wikipedia (http://www.wikipedia.org). Il successo del knowledge sharing (condivisione della conoscenza) è determinato dalla partecipazione attiva da parte degli utenti, ai quali viene data la possibilità d’inserimento di nuove voci (sottoposte naturalmente a un monitoraggio editoriale).

goy

Linea

25

sembravano strumenti ottimali, nell’ottica di snellire il processo

di reperimento ("perché cercare prima con un motore poi con un

altro, quando si può effettuare la ricerca contemporaneamente su

tutti?"). In realtà la loro efficacia è molto discutibile. Il

principale difetto è l'effetto di "minimo comun denominatore",

ovvero il fatto che possono usare solo le funzioni che i motori da

loro interrogati hanno in comune, finendo quindi per utilizzare

solo la parte più elementare di ciascun motore.

Tuttavia in questo filone rientrano un paio di progetti, di buon

successo per quanto riguarda il bacino d’utenza e di enorme

portata per il futuro dei motori di ricerca. Ci riferiamo alle

iniziative nate alla Carnegie Mellon University, che hanno dato

alla luce prima Vivìsimo, quindi Clusty.

1.4 Il clustering

Fondato nel 2000 da alcuni ricercatori della sopra menzionata

università di Pittsburgh, Vivìsimo si autodefinisce “clustering

engine”.

Questo perché, alla base del suo funzionamento, c’è il principio

che racchiude tentativi, esperimenti e speranze di poter

sviluppare dei motori di ricerca intelligenti. Tale principio

prende il nome di clustering, e come suggerisce il nome,

consiste nel processo di raggruppamento delle pagine e dei

documenti trovati nel Web secondo categorie (clusters)

semantiche.

Secondo questa modalità di presentazione dei risultati, viene

visualizzato non solo l’elenco delle pagine Web più significative

in base alla query inserita dall’utente, ma anche una serie di

cartelle tematiche, che rappresentano vari filoni attinenti

all’oggetto della ricerca, e che permettono all’ utente di

goy

Linea

26

restringere o approfondire la ricerca in base a parametri

consigliati dal sistema.

Vivìsimo, “motore per il raggruppamento dei documenti” è il

pioniere del clustering, nonchè strumento che aggrega le risorse

della Rete su un determinato argomento, rendendole fruibili

attraverso cartelle tematiche create in tempo reale.

Esempio. Desideriamo ottenere informazioni sul tema “motori

di ricerca”. Inseriamo la query nella maschera, e otteniamo dei

risultati divisi in due sezioni. La prima, che occupa la parte

centrale della videata, propone in ordine di importanza alcune

pagine Web scelte che trattano dell’argomento inserito. La

seconda sezione dei risultati è posta sulla sinistra e propone una

serie di cartelle, in cui i risultati della ricerca sono ordinati in

base ad argomenti e sotto-argomenti. Grazie a questa sezione

possiamo decidere quale sotto-argomento visitare: là troveremo

altre pagine Web selezionate da Vivísimo e sempre relative ai

motori di ricerca.

Sviluppato da Vivìsimo e lanciato nel 2004, merita una

menzione anche Clusty, metamotore il cui nome sottolinea

ancora una volta la funzione di raggruppamento dei risultati di

ricerca.

Clusty si comporta come un normale metamotore, indicizzando

nella parte centrale della pagina i risultati fornitigli dai database

che a sua volta interroga, ma in più, come osserviamo sulla parte

sinistra della schermata, clusterizza tali risultati in base

all’argomento, proponendo alcune categorie di prossimità

concettuale alla query (fig.2): nel nostro caso, per la keyword

“motori di ricerca”, Clusty seleziona i clusters

“posizionamento”, “search engine”, “campagne, servizi”,

“realizzazione siti”, e molti altri.

goy

Linea

27

Figure 2-4 Diverse opzioni di raggruppamento dei risultati offerte da Clusty

E’ intuitivo capire come tale strumento possa rivelarsi

fondamentale, nel caso in cui l’utente non abbia ben chiaro il

focus della propria ricerca, o lo voglia ulteriormente specificare.

Inoltre, come osserviamo nelle figure 3 e 4, possiamo scegliere

altre opzioni di raggruppamento dei risultati, che vengono

aggregati rispettivamente per fonti (altri motori di ricerca,

directories, articoli), o per dominio (nazionali, commerciali,

governativi, ecc…).

goy

Linea

28

Avveneristico nel suo genere è infine l’esempio di Kartoo.com,

un metamotore costruito con intelligenza e creatività (e l’aiuto

dell’editor Flash), che si avvale delle tecniche di clustering per

offrire i suoi risultati sotto forma di mappe dinamiche. Cosa

significa?

Osserviamo la figura 5:

Figura 5 La risposta di Kart00 a una query

In seguito a un nostro input (il solito “motori di ricerca”),

Kartoo costruisce, oltre all’elenco di risultati raggruppati per

argomento (a sinistra), un’animazione Flash con una mappa di

documenti, che rappresentano i siti, di diversa grandezza a

seconda dell’importanza. Tali documenti sono sensibili al

passaggio del mouse, in corrispondenza del quale mostrano

quali link li legano agli altri items sulla mappa;

contemporaneamente sulla sinistra della pagina scompaiono i

clusters, per lasciare spazio ad un’anteprima della pagina Web

che andremmo a visualizzare cliccando.

goy

Linea

29

Questi esempi di clustering ci portano a fare due considerazioni

di fondamentale importanza sull’argomento.

La prima è che tale logica di aggregazione dei risultati

rappresenta l’esempio meglio riuscito della convergenza tra

motori in senso stretto e directories, sfruttando la velocità e

l’ampio raggio d’azione dei primi, e la struttura razionale e

semantica dei secondi.

La seconda riflessione riguarda le conseguenze del clustering

stesso: esso mette in luce un nuovo approccio dei motori di

ricerca, focalizzato su una selezione dell’informazione per

concetti e categorie, avvicinandosi all’ottica semantica; tale

svolta, unita alla possibilità di una maggiore personalizzazione

dei contenuti proposti all’utente, raggiungibile grazie

all’aumento dell’interattività e alla conseguente creazione di

profili d’utenza, apre il dibattito al tema dell’intelligenza

artificiale applicata ai motori di ricerca.

1.5 Scenari futuri

Giunti a questo punto, abbiamo osservato come la ricerca di

informazione sui motori, vista molto spesso dal lato utente come

un’operazione di banale semplicità, consistente nella digitazione

di alcuni caratteri in una maschera, è in realtà il frutto di una

complessa progettazione e offre importanti spunti di riflessione:

in primo luogo per quanto concerne le diverse modalità di

raggiungimento dell’obiettivo (il reperimento

dell’informazione), che è ciò di cui ci siamo occupati finora; ma

pensiamo soprattutto alle conseguenze che tali modalità hanno

sul prossimo sviluppo del Web.

goy

Linea

30

Lo scenario che si profila pare muoversi nella direzione di un

mix nell’utilizzo delle tecniche finora analizzate, volto a

sfruttarne le prerogative di successo ed eliminarne i punti deboli.

Nello specifico, l’elevata automazione degli algoritmi dei motori

di ricerca permette rapidità e reiterazione di indicizzazione

irraggiungibili, ma pecca di scarsa elasticità; le directories hanno

una struttura ordinata, e permettono una progressiva scrematura

del rumore (ossia, l’informazione inutile), inoltre, come nel caso

di dmoz, permettono quella classificazione qualitativa dei

risultati che al momento soltanto l’essere umano è in grado di

fornire; tuttavia, la loro grossa lacuna strutturale consiste nei

tempi di censimento del Web estremamente lenti, fattore che

impedisce di tenere il passo con l’espansione del Web stesso,

nonostante i sempre maggiori sforzi di collaboratori e volontari.

Il clustering, dal canto suo, pur proponendo una buona

mediazione tra le due possibilità sopra elencate, non sempre

offre un grado di rilevanza accettabile rispetto all’informazione

cercata, inoltre non sempre i clusters sono gli strumenti più

adatti per approfondire la ricerca. Non è raro scoprire che alcune

delle pagine Web presentate siano in realtà irrilevanti, se non

addirittura fuorvianti. Della precarietà dei metamotori come

strumento di precisione nella ricerca abbiamo già parlato poco

fa.

Ma allora, come combinare le virtù dei vari fronti, nell’ottica di

un Web nel quale, secondo una celebre frase di Daniel Read del

team Ask Jeeves, "gli utenti si aspettano che il motore di ricerca

legga nella loro mente"18? Come integrare “contenuti

multimediali e descrizioni semantiche, così da permetterne una

classificazione ed un’indicizzazione accurata e compatibile con

le tecnologie d’elaborazione automatica”19, come preconizza il

padre del Web, Tim Berners-Lee? Come rendere, in breve, i

motori di ricerca uno strumento intelligente, che assecondi le

18 Mirella Herrmann, Strumenti di ricerca in Internet, KF e-learning, maggio 2005 19 John Battelle, The Search, Cortina, 2007.

goy

Linea

31

reali richieste dell’utente, che impari dai suoi comportamenti,

che preveda le sue scelte?

La risposta a tali interrogativi è ancora lungi dall’essere stata

fornita, ma dobbiamo annotare negli ultimi anni dei tentativi

mossi in tale direzione:

- Web semantico

Il Web è una massa di informazioni eterogenee e catalogate in

tanti modi diversi. Il Web semantico si propone di dare una

struttura al caos di risorse presenti in rete per facilitarne il

reperimento. Lo strumento utilizzato a questo scopo si chiama

XML, acronimo di Extensible Markup Language. Si tratta di un

metalinguaggio che consente di fornire una struttura ai

documenti e di inserire informazioni sui propri contenuti. L’xml

viene utilizzato per creare una rete di metadati, che descrivono

gli elementi del documento dal punto di vista semantico, dando

cioè informazioni qualitative. Di conseguenza, quando un

motore scandaglia una pagina Web, in presenza di tags xml esso

riesce a “comprendere” ciò che legge.

Se noi leggiamo "Paola Rossi" percepiamo che la stringa di

parole si riferisce al nome di una persona di sesso femminile e

probabilmente di nazionalità italiana: obiettivo del Web

semantico è di rendere accessibili anche ad una macchina questo

tipo di informazioni.

Queste informazioni sono quindi inserite preventivamente, al

momento della creazione delle pagine, secondo precise regole

semantiche, e vanno a far parte della struttura del documento.

- Machine Learning

Questo concetto, conosciuto in italiano come apprendimento

automatico, costituisce uno dei fronti principali della ricerca

sull’intelligenza artificiale. Esso consiste nell’idea che i sistemi

goy

Linea

32

informatici, di cui i motori di ricerca fanno naturalmente parte,

possano essere “addestrati” ad apprendere, dunque essere in

grado di migliorare le proprie performances basandosi su

risultati precedenti. La grande portata teorica dell’argomento lo

rende un punto focale per molte applicazioni della Computer

Science - tanto per rendere l’idea, ne elenchiamo alcune:

processamento dei linguaggi naturali, riconoscimento di modelli

sintattici, diagnosi mediche, bioinformatica e informatica

chimica, prevenzione di frodi informatiche, analisi del mercato

azionario, classificazione di sequenze di DNA, riconoscimento

vocale e grafico, riconoscimento visuale, giochi e robotica.

E’ chiaro che l’ambito che ci interessa più da vicino è quello dei

motori di ricerca: come viene istruita la macchina? Esistono

degli algoritmi che le permettano di elaborare i nostri

comportamenti e imparare da essi, in modo da formare dei

“profili utente” da poter utilizzare nelle ricerche successive?

La risposta è naturalmente si. Molti motori di ricerca hanno

sviluppato una serie di opzioni per personalizzare la ricerca,

attraverso “agenti intelligenti”, che identificano il profilo

dell'utente sulla base dell'analisi delle preferenze e degli

interessi espressi durante le precedenti navigazioni: i risultati

delle ricerche successive si adegueranno al profilo costruito.

Quelli che abbiamo appena definito agenti intelligenti, sono in

realtà gli stessi algoritmi che rendono possibile il data mining.

Tale processo consiste nell’estrazione di conoscenza, sotto

forma di informazioni strutturate e tra loro collegate, estrazione

che avviene metaforicamente “picconando” banche dati di

grandi dimensioni. Lo scopo è quello di rendere disponibili

schemi o relazioni tra dati che esistono già, ma rimarrebbero

invisibili, o comunque nascoste.

Ora, il data mining è applicato a grossi database. Ma esistono

strumenti che applicano tali tecniche di estrazione cognitiva ai

testi in linguaggio naturale. Entriamo nell’ambito del text

goy

Linea

33

mining, procedimento volto a catturare l’informazione testuale

implicita contenuta in un’insieme di documenti.

Si intuisce immediatamente l’importanza di tali attività, che

possiamo sintetizzare sotto il nome di Web mining, nell’ambito

delle ricerche in Internet: infatti, è proprio monitorando e

analizzando le banche dati così createsi, che è possibile

determinare dei pattern. Tali schemi ci conducono, da un lato, a

prevedere, guidare e assecondare con sempre maggior

precisione le scelte dell’utente. Non a caso si parla di

collaborative e cognitive filtering20: l'assunzione fondamentale

dietro a questi concetti è che ogni singolo utente che ha mostrato

un certo insieme di preferenze continuerà a mostrarle in futuro.

Ne consegue la creazione di profili utente, effettuata dal sistema

a partire da modelli di comportamento collettivi, in un continuo

processo di affinamento, attraverso il quale l’utente riceve

contenuti e informazioni specifiche.

Dall’altro lato, il Web mining permette di estrapolare da un

database sconfinato come quello del Web, dei documenti legati

da un filo di coerenza, da associazioni testuali, da analogie

linguistiche o tematiche, è insomma in grado di creare relazioni

scandagliando un universo di dati inestricabili. Come ad

esempio proporre all’utente siti con caratteristiche simili, ma

invece che slegati l’uno dall’altro, aggregati in raggruppamenti

logici. A ben pensarci, è proprio ciò che accade nel clustering.

Nei capitoli successivi, ove il funzionamento dei motori di

ricerca diverrà via via più chiaro, vedremo quali sono i risultati

raggiunti dal settore del machine learning nell’ambito della

ricerca su Internet. Quelli finora analizzati rappresentano gli

20 Per collaborative filtering (filtraggio collaborativo, spesso abbreviato con le lettere "CF") si intende una classe di strumenti e meccanismi che consentono il recupero di informazioni relative agli interessi di un insieme dato di utenti a partire da una massa ampia e tuttavia indifferenziata di conoscenza, offrendo la possibilità di effettuare inferenze predittive su tale insieme. Lo stesso meccanismo governa il cognitive filtering, filtraggio cognitivo, con la differenza che qui la selezione avviene analizzando i contenuti dei documenti.

goy

Linea

34

approcci di maggiore successo e vengono largamente utilizzati

nei motori di ricerca.

1.6 Dentro Google: interfaccia utente

Ora che abbiamo evidenziato come i motori concorrano e

reagiscano al profilarsi di modelli di utenza, è giunto il momento

di introdurre come ciò avvenga a livello pratico. Quali sono

ovvero, le funzionalità, le possibilità di personalizzazione, le

modalità di presentazione dei risultati, le opportunità di aiuto e

interattività e più in generale gli elementi che ci troviamo di

fronte quando effettuiamo una ricerca sul Web.

Questo ci permetterà di familiarizzare con alcuni concetti (molti

sono, come spesso capita sigle) che incontreremo molto spesso

trattando di search engine optimization.

Si è scelto come esempio Google in quanto motore di ricerca più

diffuso in assoluto, che ci permette pertanto di generalizzare

maggiormente le considerazioni che facciamo in questa sede.

Ci connettiamo all’URL www.google.com, e veniamo

automaticamente reindirizzati, grazie a uno script in php, alla

pagina contestuale della nostra lingua. Ecco un primo esempio

di personalizzazione della ricerca: Google invia la sua

homepage in base alla lingua predefinita del browser, dunque

noi atterreremo su www.google.it.

Giungiamo a questo punto sulla pagina iniziale di Google, che si

presenta così (figura 6):

goy

Linea

35

Figura 6 La homepage di Google Italia

La prima cosa da sottolineare è la semplicità di questa

homepage, che vuole comunicare con immediatezza la funzione

primaria del sito: ricercare dati. Un logo, una maschera per

inserire stringhe alfanumeriche, due opzioni di ricerca (locale o

globale) di carattere linguistico, cinque variabili di dati, per

restringere il campo di ricerca. La grafica molto spartana,

l’assenza di elementi con un ricercato appeal, risuonano come

un messaggio: “Qui ci interessa che l’utente trovi quello che sta

cercando. Punto”. Per molti addetti ai lavori questa filosofia

pratica, insieme alla qualità, alla velocità e all’estensione

dell’indice di Google, stanno alla base del suo successo.

Ovviamente sarebbe tutto troppo banale: questa apparente

semplicità, che permette l’utilizzo dello strumento a qualunque

persona, ha alla base un’architettura complessa e a più livelli,

ma è importante che l’interfaccia sia user-friendly.

Digitando una chiave di ricerca nella maschera, siamo di fronte

a due possibilità: i bottoni “cerca con Google” e “mi sento

fortunato”. Scegliendo la prima opzione, veniamo indirizzati alla

goy

Linea

36

pagina di presentazione dei risultati, disposti in ordine di

rilevanza in base ai criteri del Page Rank, di cui analizzeremo le

variabili nel prossimo capitolo. Tale pagina prende il nome di

SERP, acronimo di Search Engine Result Page. Naturalmente,

nella maggior parte dei casi troveremo migliaia di siti

rispondenti alla nostra selezione, di conseguenza la SERP sarà

costituita da molte pagine che potremo scorrere fintanto che non

troveremo la risorsa a noi più congeniale.

La seconda opzione permette di saltare lo step della SERP, in

quanto rappresenta quella situazione in cui stiamo cercando

qualcosa di molto preciso, o estremamente noto, dunque siamo

certi che il motore lo troverà senza possibilità di equivoci o

risorse simili. Premiamo quindi “mi sento fortunato” e

atterriamo direttamente sul sito in cima alla graduatoria di

Google, quello che troveremmo in prima posizione nella SERP.

Tornando a quest’ultima, possiamo osservare nella figura 6 che

essa è suddivisa in due parti principali: al di sotto di un sintetico

resoconto sulla quantità delle risorse reperite e sul tempo

impiegato per effettuare l’operazione, sulla sinistra vengono

collocati i risultati naturali, ottenuti dal Motore esplorando il

Web e classificati per grado d’importanza. Sulla destra invece si

posizionano i risultati sponsorizzati, corrispondenti a una lista di

siti che hanno pagato il motore di ricerca, pur di ottenere quella

visibilità della prima pagina della SERP che non sono stati in

grado di raggiungere, o che vogliono potenziare con annunci

promozionali.

goy

Linea

37

Figura 7 La pagina di risultati ottenuta su Google con la query “motori di ricerca”

A tal proposito, è interessante osservare che l’opzione “mi sento

fortunato”, oltre a rappresentare uno strumento utilizzato da una

parte minima dei suoi utenti (le statistiche rilevano l’1%)21,

inibisce per questi ultimi la possibilità di visualizzare gli

annunci pubblicitari che Google inserisce nelle pagine con gli

esiti della ricerca.

Eppure il doppio svantaggio, usabilistico ed economico, non

dissuade Google dall’intento di mantenere la funzionalità. Le

ragioni di questa scelta sono “ideologiche”, come ha spiegato

Sergej Brin, co-fondatore della compagnia californiana assieme

a Larry Page: “il fine è quello di aspirare a dare agli utenti a

colpo sicuro proprio ciò che cercano senza costringerli a

sceglierlo tra varie opportunità alternative.” In sostanza: Google

aspira a soddisfare al primo colpo la richiesta degli utilizzatori.

Si tratta ovviamente di un obiettivo utopico, dal momento che

21 Articolo “Il tasto Mi Sento Fortunato” , http://pixelgratis.com/articoli/web-marketing/il-tasto--mi-sento-fortunato.html, 2008.

goy

Linea

38

spesso l’utente è anzi alla ricerca di più fonti da confrontare,

piuttosto che di un unico risultato.

Ma come precisa Marissa Mayer, la vice presidente di Google

per il settore search & user experience, “lo scopo di Google è

quello di unire intelligenze sulla base di propri interessi e

inclinazioni, e che l’ottenimento di profitti è solo una

conseguenza e non un fine di ogni operazione messa a segno”22.

Quest’affermazione è un punto cruciale della questione che

andiamo ad approfondire: da un lato Google, e più in generale i

motori di ricerca, puntano il loro futuro su un crescente

orientamento collaborativo, che li vede immersi nel Web 2.0 e

in interattività con la loro utenza. Il capitolo terzo illustrerà

come le tecnologie di ricerca alla base di Google siano parte

integrante di questo processo evolutivo.

Dall’altro lato, è inevitabile che uno strumento di così

fondamentale importanza nel contesto sociale attuale, attiri

investimenti e guadagni. Nell’ultimo capitolo analizzeremo i

risvolti di quest’aspetto sui fattori di cambiamento dei motori,

addentrandoci nella realtà del SEO e cercando di capirne il ruolo

in questo scenario.

22 Lett., J.Battelle, “Google e gli altri”, 2006.

goy

Linea

39

CAPITOLO II

2.0 Dentro il motore

Finora la nostra analisi ci ha permesso di esaminare i motori di

ricerca da un punto di vista “superficiale”, mostrandoci come

essi si relazionano con l’utente. Ma questo non è sufficiente per

capire i meccanismi che stanno alla base del loro

funzionamento. A tal scopo, dobbiamo ora approfondire il punto

di vista tecnologico, attraverso una descrizione delle più

importanti caratteristiche dell’information retrieval, che ci

condurrà a una più agile comprensione di come l’informazione

venga immagazzinata, ricercata e messa a disposizione di chi la

richiede. L’obiettivo è quello di comprendere, attraverso un

excursus sugli approcci all'IR, l’evoluzione dei motori di ricerca

da semplici interfacce per il reperimento dell’informazione, alle

piattaforme di navigazione che sono diventate attualmente,

passando per gli algoritmi che le hanno svincolate dalla pura

ricerca testuale, legandole ad altre variabili come i link.

2.1 La ricerca

Che cos’è, in realtà, un motore di ricerca? Quali sono le sue

parti costituenti? Come reperisce e come gestisce le ingenti

masse di informazione che poi presenterà ai suoi utenti?

E’ rispondendo a tali interrogativi che faremo una conoscenza

più approfondita del nostro oggetto di analisi.

Tanto per cominciare, un motore di ricerca è un sistema che

mette in relazione le parole inserite da un utente (queries) ad un

database di pagine Web che ha creato(indice), generando

goy

Linea

40

successivamente una lista di URL (con una sintesi del

contenuto) che si riferisce alle pagine Web ritenute rilevanti

rispetto alla richiesta dell’utente.

Il motore di ricerca si compone di tre elementi fondamentali: il

crawler, l’indice e il runtime system, o processore di query,

ovvero l’interfaccia e il software correlato che collegano le

richieste dell’utente all’indice. Il runtime system gestisce anche

questione primarie relative alla pertinenza e alla graduatoria dei

risultati. Ognuna di queste componenti contribuisce alla qualità

e alla velocità del motore, e ci sono centinaia di fattori in

ciascuna di esse che influiscono sull’esperienza globale della

ricerca. Ma i fondamentali sono più o meno gli stessi per tutti i

motori. Secondo le parole di Tim Bray, pioniere del settore, “il

fatto è che, dagli anni Settanta ad oggi, non ci sono stati rilevanti

passi avanti nella scienza fondamentale che studia il modo in cui

fare ricerche”23Quello che è cambiato riguarda piuttosto la

dimensione dei database e il modo di effettuare le query,

divenuto via via sempre più simile al linguaggio naturale.

Abbiamo introdotto un termine nuovo, crawler. E’ a partire da

questa funzione che comincia il reperimento dei risultati. Il

crawler, denominato alternativamente spider, robot o bot, è un

programma specializzato, il cui compito consiste nell’effettuare

una copia testuale di tutti i documenti che visita, inserendoli in

un indice. Il crawler si basa su una lista iniziale di indirizzi,

fornita dal motore di ricerca. Durante l'analisi di un documento,

identifica tutti i link presenti nel stesso e li aggiunge alla sua

lista. Tale ciclo viene ripetuto fino al completamento dell’intera

struttura ipertestuale

Pur essendo programmi basati su tecniche complesse, il lavoro

dei crawlers ha una logica piuttosto semplice: essi si collegano

senza sosta ai vari URL e riportano indietro ciò che trovano. I

crawlers sono inoltre la parte meno visibile di un motore di

ricerca, ma la più importante: quanti più siti riescono a

23 Lett., J.Battelle, “Google e gli altri”, 2006

41

contattare e quanto più spesso lo fanno, tanto più completo

risulterà l’indice e tanto più rilevanti saranno le SERP.

I primi crawlers scoprivano e indicizzavano solo i titoli delle

pagine Web, quelli odierni agiscono sull’intero contenuto della

pagina, sui metadati e su diversi tipi di file testuali e

multimediali.

Il crawler spedisce i suoi dati a un enorme database, chiamato

indice. L’indice è una sorta di lista di domini, a ciascuno dei

quali vengono associate le pagine che lo compongono e i dati

che lo riguardano (parole contenute, links, ecc…). L’indice

viene a questo punto invertito, di modo che l’associazione

funzioni anche al contrario. Tale passo è fondamentale, poiché

le liste di parole che vengono così create, sono successivamente

associate ai vari domini e sono pronte per essere presentate

come risposta alle query. Senza l’inversione il database saprebbe

che un URL contiene determinati termini, ma non saprebbe

rintracciare l’URL a partire dal suo contenuto.

Figura 8 La rappresentazione logica di un indice inverso

Come osserviamo nella figura 8, la struttura logica dell’indice

inverso è costituita da tre componenti: a sinistra, una lista dei

termini presenti nel documento; al centro la posting list,ovvero

una lista associata con ognuno dei termini, nella quale si trova

42

l’indicazione binaria circa la presenza di un certo termine in un

determinato documento, (spesso accompagnata da alcune

informazioni aggiuntive che velocizzano il reperimento); a

destra, l’indice dei documenti analizzati dal crawler.

Queste funzionalità rappresentano approssimativamente le basi

minime di un motore di ricerca. Fino alla fine degli anni

Novanta non ci si era spinti oltre questi aspetti. A partire da

quella data tuttavia, l’indice è divenuto un’importante terreno

d’innovazione per le società operanti nel settore, nonché il

fulcro della “ricetta segreta”. L’indice contiene infatti le

informazioni sui siti Web, che vengono poi interpretate

attraverso algoritmi e modelli statistici, durante la fase che

prende il nome di analisi dell’indice. Durante questa fase, grazie

a un sistema di metadati, i dati contenuti nell’indice vengono

etichettati con ulteriori informazioni (lingua, genere, tasso di

aggiornamento e così via). Questi metadati risultano decisivi

per consentire al motore di ricerca di offrire dati più rilevanti.

La fase successiva consiste nella creazione di un ponte tra le

richieste dell’utente e l’indice così formatosi. Tale funzione

viene eseguita da due elementi: l’indice runtime, un database sul

quale vengono riversati i dati analizzati, indicizzati ed

etichettati, e il query server, un software che inoltra i quesiti

dell’utente dall’interfaccia all’indice runtime. Il query server e

l’indice runtime costituiscono rispettivamente il front end e il

back end di un motore di ricerca.

Ora che abbiamo brevemente definito la struttura del motore di

ricerca, facciamo un passo indietro e uno in profondità, poiché

per comprendere i fattori di successo dei motori di ricerca

contemporanei, dobbiamo addentrarci nel cuore dell’IR. I

paragrafi successivi analizzano gli aspetti che hanno maggiori

punti di contatto con la ricerca di informazione sul Web: tale

goy

Linea

43

analisi ci condurrà a indagare sul come le operazioni appena

descritte vengano eseguite.

2.2 L’Information Retrieval24

L’interesse per l’IR esiste da molto tempo prima di Internet: il

termine è stato coniato da Calvin Mooers, padre di uno dei primi

linguaggi di programmazione (il TRAC), alla fine degli anni '40

del Novecento. Tale disciplina nasce in un contesto a metà tra

l’informatica e la biblioteconomia, la scienza che si occupa della

catalogazione di grossi archivi attraverso metodi che assegnino

ai vari elementi presenti degli identificativi univoci.

Qual è il nodo cruciale che lega l’IR ai motori di ricerca? Un

buon punto di partenza è cominciare a chiederci che cos’è in

fondo Internet, se non un enorme archivio di documenti,

trattabili in fondo come testi. A questo possiamo aggiungere che al 31/01/2008, le stima

ufficiale delle pagine Web si attesta a quota 44,46 miliardi25.

L’84%delle risorse ricercabili su queste danno accesso a

documenti testuali.26 Ora probabilmente il legame è più chiaro.

La crescita esponenziale di database online di documenti in

linguaggio naturale, ha reso sempre più complessa una ricerca

efficace ed efficiente dell’informazione desiderata dall’utente.

Abbiamo usato questi due termini, efficace ed efficiente, non a

caso: l’obiettivo primario dell’IR è quello di rendere rapida,

semplice e valida la ricerca dei documenti all’interno degli

archivi: la misura di quanto questo avvenga in maniera ottimale

24 Questa sezione è basata sul testo: C.D. Manning, Prabhakar Raghavan, Hinrich Schütze, “An introduction to Information Retrieval”, 2008 25 Fonte: http://www.worldwidewebsize.com 26 Fonte: Masoud Mohammadian, Intelligent Agents for Data Mining and Information Retrieval, Idea Group Publishing, 2004

goy

Linea

44

è data da due parametri, solitamente indicati come effectiveness

ed efficiency.

Il concetto di effectiveness si riferisce al grado di soddisfazione,

da parte del sistema, del bisogno d’informazione dell’utente,

riguarda dunque la rilevanza della risposta rispetto alla richiesta.

L’efficiency invece corrisponde al consumo di risorse da parte

del sistema: CPU, memoria centrale e memoria di massa

richieste, tempi di risposta: ha dunque a che fare con la potenza

di calcolo della macchina utilizzata e con gli algoritmi di ricerca

che vengono implementati.

I due parametri in base ai quali viene universalmente valutata

l’effectiveness di un sistema di information retrieval si

chiamano precision e recall.

La precision designa la proporzione di documenti effettivamente

rilevanti in rapporto al totale dei documenti restituiti dal sistema

in risposta ad una query dell’utente.

Il recall corrisponde alla proporzione dei documenti rilevanti

restituiti dal sistema in rapporto al totale dei documenti rilevanti

(restituiti e non) presenti nella collezione esaminata.

In linea teorica, possiamo immaginare un sistema perfetto,

costituito da precision e recall perfetti, ove il numero di

documenti rilevanti corrisponda esattamente a quello dei

documenti restituiti. Purtroppo la realtà è diversa, i sistemi di IR

sono imprecisi, e i due parametri risultano spesso inversamente

proporzionali, dunque ad un’alta precision, susseguente ad una

goy

Linea

45

selezione molto specifica, corrisponde un basso recall, è

probabile cioè che molti documenti rilevanti non siano stati

recuperati. L’opposto accade nel caso di alto recall: un gran

numero di documenti restituiti, dei quali molto pochi davvero

rilevanti. Nel diagramma in figura 9 osserviamo graficamente la

relazione tra i due parametri.

2.2.1 Automatic text analysis

Ora che abbiamo visto alcune tra le più importanti variabili in

gioco nell’IR, torniamo al cuore della questione. Siamo di fronte

a una grande mole di informazioni, il cui reperimento risulta

complesso, in quanto abbiamo a disposizione degli strumenti di

calcolo “numerico” a fronte a di dati in forma testuale, ossia non

strutturata. I problemi principali riguardano innanzitutto la

difficoltà di interpretazione delle ambiguità dei linguaggi

naturali da parte di un sistema informatico, in secondo luogo la

vaghezza e l’imprecisione del bisogno informativo espresso

dall’utente. La soluzione viene affidata a metodi automatici che

migliorino l’accuratezza e la velocità di ricerca e di

organizzazione dei documenti.

Figura 9 La relazione tra Precision e Recall

goy

Linea

46

In che modo? E’ necessario che il calcolatore, più che agire

direttamente sul testo dei documenti, ne generi una

rappresentazione che abbia una forma idonea ad un’analisi

automatizzata. In poche parole, costruisce un modello del testo.

Tale modello deve rappresentare, in forma schematica, il

contenuto del documento in esame.

Lo schema di cui parliamo è una lista di termini estrapolati dal

documento, che ne rappresentino sinteticamente il contenuto. A

partire da questa lista, si procederà poi alla creazione del

modello, come vedremo in seguito. Con quale criterio viene

creata la lista? Secondo uno dei punti basilari della teoria

dell’IR, la frequenza con la quale un termine ricorre all’interno

di un testo, è un indice significativo della sua importanza

all’interno del testo stesso.27 Di conseguenza, un buon modello

del documento potrebbe essere una lista delle parole

maggiormente ricorrenti al suo interno. Tuttavia, è facile

obiettare che esistono parole, come congiunzioni ed articoli, che

hanno una grande ricorrenza all’interno dei testi, senza però

caratterizzarli semanticamente.

Come stabilire allora quali siano i termini di un testo che il

sistema deve considerare come indici significativi? La risposta

sta nella legge di Zipf28, che mette in relazione la frequenza con

cui le varie parole compaiono in un testo, con il loro rank, ossia

la posizione che occupano in un’ideale scala delle frequenze.

Secondo tale legge, il prodotto tra queste due variabili è

approssimativamente costante.29 La distribuzione dei termini di

un testo di media lunghezza che si ricava da questa legge è la

seguente:

27 La teoria dell’IR, http://www.volocom.it/doc/info_retrieval.pdf 28 G.K.Zipf, "Human Behaviour and the Principle of Least-Effort", 1949. 29 Legge di Zipf, http://it.wikipedia.org/wiki/Legge_di_Zipf.

goy

Linea

47

� Elevatissima frequenza di pochi termini (sono gli articoli

e le congiunzioni di cui sopra);

� Un numero considerevole, anche se non elevatissimo, di

elementi che occupano posizioni intermedie sulla scala

delle frequenze d’utilizzo;

� Un altissimo numero di elementi con frequenza tendente

a zero. Se ci riferiamo al linguaggio, si tratta di tutte

quelle parole che non vengono quasi mai utilizzate.

Tali considerazioni, poi applicate da Luhn ai propri studi30,

hanno poi portato all’introduzione di due valori di soglia

(cut-off), uno superiore e uno inferiore. Le parole che stanno

oltre il valore di soglia superiore vengono considerate troppo

comuni, mentre quelle al di sotto della soglia inferiore

vengono considerate troppo rare; in entrambi i casi questi

termini non danno un contributo significativo al contenuto

del testo. Nella figura 10 osserviamo graficamente la curva

iperbolica che rappresenta la legge di Zipf: sulle ascisse

troviamo il rank delle parole, sulle ordinate la frequenza

delle stesse; la zona grigia al centro è costituita dai termini

rilevanti all’interno di un testo, che raggiungono il picco di

rilevanza all’apice della cosiddetta funzione di risoluzione,

rappresentata dall’iperbole tratteggiata .

30 H.P. Luhn, “The automatic creation of literature abstract”, IBM Journal, 1958.

goy

Linea

48

Figura 10 Curva di Zipf e funzione di risoluzione

Giungiamo così all’assunzione che il resolving power delle

parole, ossia la loro facoltà di discriminare il contenuto dei

documenti, raggiunga un picco in una posizione nel rank order

circa a metà tra i due valori di cut-off e tenda a zero all’incirca in

corrispondenza dei due sopraccitati valori di soglia.

Ovviamente i valori di soglia non sono stabiliti univocamente,

ma vengono fissati di volta in volta in maniera convenzionale.

A questo punto, resta ancora da capire come vengano modellati i

documenti in modo che possano essere analizzati in un sistema

automatico di IR.

Potremmo pensare al nostro modello come a una lista di class

names, dove ogni class name rappresenta una classe di parole

presenti nel testo esaminato (vedremo più avanti in che modo)

che fanno tutte riferimento ad un medesimo concetto; tali class

names diventeranno poi le parole significative che rappresentano

il contenuto del documento.

La costruzione del modello avviene in tre fasi:

1. Rimozione delle parole che compaiono troppo

frequentemente;

2. Rimozione dei suffissi (suffix striping o stemming);

goy

Linea

49

3. Individuazione delle radici (o stem) comuni a più parole

(questa operazione viene generalmente indicata come

conflation).

La rimozione delle parole con un’alta frequenza di occorrenze

(tali parole sono conosciute in letteratura come stop words) è un

modo per implementare il cut-off di cui si è parlato con

riferimento alla figura 10; l’eliminazione delle stop words

costituisce un passo necessario nella progettazione di un sistema

di IR. I vantaggi di questa operazione sono molteplici:

innanzitutto si rimuovono dei termini che non sono significativi

per il contenuto del testo in quanto compaiono praticamente in

tutti i documenti: tali termini non interferiranno

durante la fase di ricerca e recupero; in secondo luogo si

diminuisce la dimensione del documento, generalmente tra il

30% e il 50%, con un chiaro risparmio di risorse e tempi di

elaborazione.

La seconda fase consiste nella rimozione dei suffissi dalle

parole; tale operazione viene detta suffix striping oppure

stemming; l’approccio standard adottato negli algoritmi di suffix

striping più utilizzati consiste nell’avere una lista completa dei

suffissi e nel rimuovere il più possibile quelli più lunghi, ad

esempio le parole “smoke, smoker, smoking” diventano tutte

rappresentanti della radice “smok-”.

Purtroppo la rimozione incontrollata dei suffissi può produrre

degli errori grossolani:

EQUAL � EQ �???

Per evitare errori di questo tipo è opportuno introdurre delle

regole (di tipo quasi “grammaticale”) più restrittive: il suffisso

verrà rimosso soltanto se tali regole saranno rispettate. Ad

esempio si impedisce che lo stem ottenuto dalla rimozione del

goy

Linea

50

suffisso sia più corto di un certo numero di caratteri, oppure che

termini con determinate lettere o sequenze di lettere.

L’assunzione che sta alla base del terzo passo (conflation) è che,

nel contesto dell’IR, se due parole hanno la stessa radice o stem,

allora si riferiscono al stesso concetto e possono essere

indicizzate come un’unica entità. Questa assunzione va bene

nella maggioranza dei casi, ma anche qui può portare talvolta ad

errori marchiani in quanto parole molto simili possono avere

significati completamente diversi (ad esempio “pain” e “paint”).

Poiché non esiste un metodo economico per effettuare una

simile distinzione, si mette in conto che permarrà una certa

percentuale di errore e si assume che tale percentuale di errore

non infici troppo l’efficacia del sistema. Si utilizzano dunque

degli algoritmi di conflation che generano una serie di classi,

una per ogni diverso stem che è stato ottenuto.

Alla fine si ottiene un modello dei documenti costituito da una

lista di class names, che vengono solitamente chiamati index

term o keyword.

Ora che il modello è stato creato, il passo successivo è la

rappresentazione di questo pseudo-documento in una forma

congeniale all’elaborazione del sistema: una volta effettuata tale

operazione su un’intera collezione di documenti, come vengono

ritrovate le rappresentazioni? Quali strategie esistono per

ordinare i documenti, una volta noti i termini comuni ai

documenti stessi ed alla query? E come influiscono tali strategie

sul modo di formulare le richieste al sistema e sul tipo di

risposte che questo fornisce come output? A tali domande

cercheremo di rispondere nel paragrafo seguente.

goy

Linea

51

2.2.2 Retrieval strategies

Il sistema di IR ha a questo punto una collezione di dati, che

sono rappresentazioni dei documenti adattate alla sua visione.

Ora, prima di costruire l’indice di cui abbiamo parlato nel

paragrafo 2.1, il sistema deve seguire una tecnica per la

rappresentazione dei documenti a sua disposizione. Per eseguire

questo passo, esistono diverse strade. Il modello booleano

rappresenta i documenti tramite insiemi e la ricerca viene

effettuata attraverso operazioni su tali insiemi. I modelli

algebrici rappresentano i documenti e le query con vettori e

matrici, che, utilizzando un numero finito di operazioni

algebriche, vengono trasformati in una misura numerica, la

quale esprime il grado di somiglianza dei documenti con la

query. Infine, i modelli probabilistici utilizzano teoremi e

inferenze tratte dal calcolo della probabilità per rappresentare i

termini della ricerca.

Boolean Retrieval

Tradizionalmente il progetto logico e l’implementazione dei

sistemi di IR sono stati influenzati dalla tecnologia dei database:

il recupero dei documenti è stata trattato di conseguenza come

una variante del recupero dei dati all’interno di una base di dati.

Un gran numero di sistemi di IR è dunque basato sulla logica

booleana. Tale strategia si serve degli operatori booleani come

AND, OR e NOT per collegare i termini della query.

L'informazione associata ad un documento è composta da due

valori possibili: un documento può essere rilevante (1) o

irrilevante (0), in base alla presenza o assenza di un termine

richiesto all'interno del documento. I pregi principali di questo

modello sono la velocità e la facilità d’implementazione, che ne

hanno permesso una rapida introduzione nel mondo online.

Tuttavia l’eccessiva semplicità è anche all’origine dei principali

goy

Linea

52

problemi: il sistema restituisce tutti i documenti che soddisfano

la query, ma essendo la strategia di ricerca basata su un criterio

di decisione binario, non esiste alcuna nozione di grado di

rilevanza. L’approccio booleano non tiene in nessun conto il

contributo apportato da ogni singolo termine alla

caratterizzazione del testo: una qualsiasi parola o appartiene,

oppure non appartiene ad un documento. Inoltre, avendo tutti i

documenti pari grado d’importanza, non esiste alcun

ordinamento logico. Per questo motivo, a meno che l’utente non

abbia ben chiaro che cosa sta cercando, tale metodologia si

rivela poco flessibile e qualitativamente inadeguata.

Extended boolean retrieval

Le lacune della strategia booleana pongono l’accento su una

variabile di grande importanza per l’organizzazione dei dati in

uscita: l’ordinamento o ranking. Il modello booleano è stato

dunque esteso e raffinato per colmare questo aspetto della

questione. Nel modello booleano esteso vengono mantenute le

caratteristiche appena descritte di rappresentazione binaria dei

dati, ma a queste viene aggiunta la variabile del peso (weight)

associato ai vari termini del testo: in questo modo il peso dei

termini ne riflette in qualche maniera l’importanza relativa

all’interno del documento; tali pesi permettono inoltre di

adottare dei criteri di ordinamento dei documenti trovati, infatti

in fase di ricerca non ci si affida più soltanto ad una

corrispondenza esatta tra i termini presenti nella richiesta e

quelli del documento, ma si lavora sui pesi degli index term

mentre gli operatori booleani presenti nella query acquistano un

valore numerico da associare ai pesi.

In altre parole, ad ogni documento non sarà più asseganto un

valore booleano, true o false, a seconda che i suoi termini

soddisfino o meno la condizione espressa dalla query, bensì un

goy

Linea

53

valore numerico variabile all’interno di un intervallo predefinito

che permetterà di costruire una graduatoria dei documenti

rilevanti.

Nella tabella in figura 11 visualizziamo graficamente tale

concetto. Se indichiamo con WX e WY i pesi associati a due

termini X e Y si ha:

Il modo più semplice per assegnare un peso ai termini del testo è

in base alla term frequency, ossia alla frequenza con cui il

termine ricorre all’interno dei vari documenti, anche se tale

assunto è semplicistico e fuorviante, in quanto prevede che il

termine sia più importante se compare molte volte. Esistono

tuttavia modelli simili a questo che ne raffinano le parti grezze

con operazioni quali ad esempio la normalizzazione dei pesi.31

Bisogna in ogni caso riconoscere a questo modello l’indubbio

pregio di permettere, contrariamente al precedente, la creazione

di una graduatoria di rilevanza dei documenti grazie alle

operazioni sui pesi, che producono valori relativi e non più

binari.

31 Per approfondimenti, vedi anche Euclidean Weighted Boolean Model.

Figura 11

Modello booleano e booleano esteso a confronto

goy

Linea

54

Vector Space Model

Tra i modelli algebrici, il più importante e conosciuto è

certamente il Vector Space Model, introdotto nella prima metà

degli anni Settanta da uno dei padri dell’IR, Gerhard Salton32.

Tale modello riconosce che l’uso di pesi binari è troppo limitato

ai fini di un buon matching tra query e risultati correlati. A

questo proposito, introduce il concetto di somiglianza tra questi

ultimi, rappresentandoli come vettori all’interno di uno spazio

multidimensionale. Per la precisione, parliamo di uno spazio n-

dimensionale, dove ogni dimensione è associata ad un diverso

index term presente nella collezione di docuenti.

Ogni documento viene quindi rappresentato mediante un vettore

(t1, t2, ..., tn) dove, nel caso più semplice, t vale 1 se il

documento contiene il termine i-esimo e 0 in caso contrario; la

stessa rappresentazione verrà adottata per le query sottoposte al

sistema.

Supponiamo ad esempio di avere una collezione di documenti

caratterizzata da questi sette index term: “tesi, motori, ricerca,

SEO, information, retrieval, tecniche”: se avessimo la query

“tecniche di information retrieval per i motori di ricerca”, questa

verrebbe rappresentata mediante il vettore:

q = ( 0 , 1 , 1 , 0 , 1 , 1 , 1 )

dove un componente vale 1 se il corrispondente termine è

presente nella query e 0 se non è presente. I documenti che

compongono la collezione possono essere rappresentati nello

stesso modo. Ad esempio potremmo trovarci di fronte ai

seguenti vettori, corrispondenti ai documenti d1, d2 e d3:

d1 = ( 1 , 1 , 0 , 1 , 0 , 1 , 0 )

d2 = ( 0 , 1 , 1 , 1 , 0 , 0 , 1 )

d3 = ( 0 , 0 , 1 , 0 , 1 , 1 , 1 ) 32 G. Salton, A. Wong, and C. S. Yang (1975), "A Vector Space Model for Automatic Indexing," Communications of the ACM, vol. 18, nr. 11, pagine 613–620. (in questo articolo il VSM fu presentato per la prima volta)

goy

Linea

55

Per determinare quale documento sia soddisfa meglio la query,

si calcola la somiglianza tra i vettori che rappresentano i

documenti e il vettore che rappresenta la query. Per calcolare

tale somiglianza, il metodo più utilizzato calcola l’angolo tra il

vettore che rappresenta la query ed i vettori che rappresentano i

vari documenti: quanto più è piccolo l’angolo tra due vettori,

tanto più i due vettori (nel nostro caso la query ed un

documento) sono considerati simili. Uno dei modi per ottenere

la misura precedente consiste nel calcolare il prodotto scalare tra

i vettori; nel caso preso in esame si avrebbe quindi

da cui risulta che il documento d3 è quello più similare alla

query.

Per migliorare la qualità di questo modello si utilizzano dei

vettori pesati (weighted vectors), in cui i vari elementi non sono

più soltanto 0 e 1, ma dei numeri indicanti l’importanza di quel

particolare termine per il documento corrente. Abbiamo già

visto in precedenza che si potrebbe utilizzare come peso il

numero di occorrenze di ogni termine all’interno dei documenti,

ma abbiamo già anche notato come questa misura non sia

ottimale in quanto tiene conto soltanto della frequenza intra-

documenti e non di quella inter-documenti. Per gli scopi dell’IR

un index term risulta utile se esplica due funzioni:

1. è rilevante rispetto al contenuto del documento, quindi aiuta a

recuperare il documento in fase di ricerca (recall function, intra-

document);

goy

Linea

56

2. permette di distinguere un documento, o un gruppo di essi,

dal resto della collezione in modo da non restituirne un numero

troppo elevato, comprendente sia testi rilevanti, sia non rilevanti

(precision function, interdocument).

Queste osservazioni suggeriscono di usare delle misure di

frequenza relative per privilegiare i termini che hanno un alto

numero di occorrenze in alcuni documentidella collezione, ma

che risultano essere poco frequenti nel complesso di tutti i

documenti. Il più noto schema di pesatura dei termini che tiene

conto di questi fattori è quello indicato con

tf * idf

dove tf corrisponde alla term frequency, ossia alla frequenza di

ricorrenza di un termine all’interno di un documento, mentre idf

designa l’ inverse document frequency, ovvero l’inverso della

frequenza di un termine nei documenti della collezione.

L’importanza dell’idf consiste nel fatto che i termini che

compaiono in molti documenti non sono utili per discriminare

tra documenti rilevanti e non.

Una volta ottenuta una pesatura dei vettori, il grado di similarità

di un documento con la query viene calcolato attraverso il

coseno dell’angolo formato dal vettore che rappresenta la query

e da quelli rappresentanti i vari documenti. I valori così ottenuti

vengono poi posti in ordine decrescente e indicano la

graduatoria di similarità dei documenti della collezione con la

query.

A livello teorico, la macchia di questo paradigma è l’ipotesi che

i termini siano mutuamente indipendenti. Il risultato più

importante raggiunto consiste in una maggiore precisione

dell’insieme dei documenti restituiti, dal punto di vista delle

necessità informative, rispetto al modello booleano. Questo

perché i vettori consentono un matching anche parziale con la

goy

Linea

57

query, estendendo l’ambito della ricerca. Inoltre, l’utente può

sottoporre le richieste usando il linguaggio normale oppure con

un semplice elenco di parole anzichè con formule ed operatori

per lui innaturali.

Probabilistic retrieval

I modelli probabilistici sono caratterizzati dall’applicazione

formale della teoria delle probabilità alla logica IR: l’idea chiave

è di classificare i documenti in ordine di probabilità di rilevanza

rispetto all’informazione richiesta.

Il modello probabilistico è simile al Vector Space Model in

quanto i documenti e le query vengono rappresentati mediante

vettori; la differenza sta nel fatto che, anzichè recuperare i

documenti basandosi sulla loro similarità con la query, il

modello probabilistico ordina i documenti in base alla

probabilità che essi siano rilevanti per la query. Questa

probabilità viene calcolata utilizzando un insieme di documenti

per i quali è noto a priori se siano rilevanti oppure no.

In pratica, i pesi associati agli index term che costituiscono la

collezione vengono calcolati basandosi sulla loro distribuzione

nei documenti che vengono osservati come campione. Se

assumiamo che le distribuzioni dei vari termini siano

reciprocamente indipendenti (come nel Vector Space Model: il

che come intuiamo non è in realtà del tutto vero), la probabilità

che un documento sia rilevante rispetto ad una query può essere

calcolata sommando i pesi associati ai termini comuni tra tale

documento e la query; tali pesi indicano infatti la probabilità che

i termini della query compaiano in un documento rilevante, ma

non in uno non rilevante.

Gli svantaggi principali di questo modello risultano essere la

necessità di ipotizzare una iniziale separazione tra documenti

goy

Linea

58

rilevanti e non; il fatto che il modello non prende in

considerazione la frequenza di occorrenza dei termini indice nel

documento; l’ipotesi di indipendenza tra i termini indice.

Latent Semantic Indexing (LSI)

La rappresentazione spazio-vettoriale gode di un certo numero

di vantaggi, tra i quali l’intuizione di trattare uniformemente

queries e documenti come vettori, il calcolo dei risultati basato

su un parametro neutro come la similarità del coseno, la facoltà

di pesare termini differenti in maniera differente. Tuttavia, tale

modello soffre dell’incapacità di affrontare due nodi focali dei

linguaggi naturali: la sinonimia e la polisemia.

La sinonimia è quella caratteristica del linguaggio per la quale

esistono più espressioni per riferirsi a uno stesso significato,

idea o concetto. La polisemia, viceversa, designa quelle

espressioni che possiedono diversi significati.

La sinonimia può causare una riduzione del recall per una data

ricerca, laddove alcuni documenti rilevanti vengono tralasciati

solo perché i termini utilizzati nella query non corrispondono a

quelli presenti nei documenti, pur essendoci un’affinità

concettuale tra gli uni e gli altri. Per cercare di ridurre il

problema della sinonimia si è sovente fatto ricorso a tecniche di

term expansion come i thesauri33; queste tecniche portano ad un

miglioramento del recall, accompagnato però da una

diminuzione della precision dovuta alla polisemia: infatti i

termini introdotti possono avere più significati e quindi

recuperare anche documenti irrilevanti ai fini della ricerca

corrente.

33 Si tratta di tecniche che hanno lo scopo di raffinare una ricerca. La term expansion, o espansione della query, riformula una ricerca per migliorare la performance di retrieval, aggiungendo termini o correggendo automaticamente quelli inseriti dall’utente. Una delle possibilità per implementare questa tecnica si serve dei Thesauri, collezioni di termini di cui si sfruttano le relazioni associative. Ad esempio a un termine di ricerca può essere sostituito o aggiunto un sinonimo.

goy

Linea

59

La polisemia incide dunque negativamente sulla precision delle

ricerche, in quanto vengono restituiti anche dei documenti che,

essendo legati a significati diversi da quello inteso nella query,

risultano irrilevanti per l’argomento in esame. La polisemia

risulta assai più difficile da affrontare, poiché costituisce

un’ambiguità intrinseca nei linguaggi naturali.

Le tecniche di Latent Semantic Indexing, risalenti alla fine degli

anni Ottanta, mettono l’accento su questo problema e

propongono un modello basato sui concetti contenuti nei

documenti anzichè sui singoli termini.

Il Latent Semantic Indexing (LSI34) si basa su una

rappresentazione algebrica dei documenti e utilizza una tecnica

matriciale conosciuta come Singular Value Decomposition

(SVD). Alla base di questa tecnica c’è la consapevolezza che in

qualsiasi collezione, sia pure di dimensioni modeste, una

matrice termini-documenti è formata da migliaia di righe e

colonne. Il presupposto è dunque quello di ridurre questa

complessità: ciò avviene attraverso una low-rank approximation

(approssimazione del grado di precisione) Ck della matrice C,

tale che il valore approssimatorio k sia di parecchi ordini di

grandezza minore del rango originale di C. In altre parole, si

procede a una generalizzazione, inferendo che la matrice

originaria( C), formata dai termini del documento, possa essere

sostituita con un’approssimazione della stessa, formata dai

concetti. L’obiettivo è duplice: mantenere la qualità dei risultati

invariata e modellare le relazioni che intercorrono tra i vari

termini.

Il primo passo nel processo di singular value decomposition

(SVD, vedi figura 12) consiste nel generare una matrice termini

per documenti C; ogni termine analizzato è rappresentato da una

riga e ogni documento è rappresentato da una colonna ; ogni

34 A volte ci si riferisce al LSA (Latent semantic analysis) per richiamare lo stesso modello.

goy

Linea

60

incrocio nella matrice C rappresenta quindi la frequenza di un

determinato termine nel documento corrispondente.

Il metodo di Singular Value Decomposition viene utilizzato per

decomporre la matrice C in tre matrici separate: la prima è la

matrice T termini per concetti (che vengono convenzionalmente

indicati con la lettera m), la seconda è la matrice S, concetti per

concetti (diagonale, di dimensione m x m, dove m è il rango di

C) e la terza è una matrice concetti per documenti.

La matrice S può poi essere ridotta alle dimensioni k x k (con

k<m) in modo da avere un’approssimazione della matrice

originale C; il valore di k può allora essere considerato come il

numero di concetti su cui vogliamo mappare i documenti della

collezione. In teoria questa approssimazione risulterebbe

positiva in quanto, oltre a ridurre le dimensioni della matrice,

con un notevole risparmio di risorse, eliminerebbe il rumore

(noise) contenuto nei documenti e manterrebbe soltanto le

caratteristiche concettuali più salienti. Il valore di k dovrebbe

essere sufficientemente grande da catturare tutti i concetti

importanti e, allo stesso tempo, sufficientemente piccolo da

escludere tutti i dettagli poco rilevanti. In parole povere, quello

che viene creato con la SVD è uno spazio ridotto costituito da

una selezione dei pattern associativi più comuni, mentre quelli

più rari vengono ignorati.

C

Figura 12

Singular Value Decomposition

goy

Linea

61

Una volta effettuate decomposizione ed approssimazione, è

possibile utilizzare il modello per le ricerche. In questo modello

una query, così come un qualsiasi documento, è inizialmente un

semplice insieme di parole; una query viene vista come uno

pseudo-documento che deve essere mappato nello spazio dei

concetti; una volta sistemata la query nello spazio si procederà a

restituire i documenti ad essa più vicini. Per poter confrontare

una query o pseudo-documento q con gli altri documenti della

collezione dobbiamo quindi partire dal vettore dei termini Xq

che la rappresenta, da questo dobbiamo derivare una

rappresentazione Dq nello spazio dei concetti equivalente ad una

colonna della matrice D. A questo punto è possibile calcolare il

coseno dell’angolo formato dal vettore rappresentante la query e

i vari vettori rappresentanti i documenti della collezione,

esattamente come avviene nello Vector Space Model e restituire

quelli per cui il coseno supera un certo valore di soglia.

Il Latent Semantic Indexing non è altro che un metodo di

retrieval basato su informazioni di tipo statistico; esso cerca di

determinare uno spazio di concetti artificiali analizzando se e

quanto di frequente determinate parole vengono usate insieme.

Ad esempio, è probabile che le parole “macchina” e

“automobile” compaiano in una collezione di documenti sempre

accompagnati dagli stessi termini (“motore”, “modello”,

“veicolo”, “carrozzeria”, “cilindrata”, ecc.), quindi tali termini

avranno una rappresentazione similare nello spazio dei concetti.

Questo metodo presenta una serie di problemi: il primo è dato

dalla sua complessità, che può condurre a risultati giustificabili

dal punto di vista matematico, ma meno da quello del linguaggio

naturale; un altro problema è legato alle prestazioni di questo

sistema: l’algoritmo SVD è direttamente proporzionale alla

somma dei termini e dei documenti, oltre che al parametro k

(corrispondente al numero di dimensioni dello spazio dei

concetti). Questo comporta il peggioramento della qualità del

sistema nel momento in cui vengono aggiunti nuovi documenti

goy

Linea

62

nella collezione e il conseguente ricalcolo della

rappresentazione.

Quest’ultimo particolare rende il metodo LSI inadatto per grandi

collezioni che vengono aggiornate frequentemente (in quanto

bisognerebbe applicare l’algoritmo SVD ogni volta che viene

aggiunto o eliminato un documento della collezione e quindi

cambia la matrice C).

Tuttavia, ciò non ha impedito un utilizzo mirato di questa

tecnica nei motori di ricerca moderni, i quali si avvalgono della

sua predisposizione alla risoluzione delle problematiche di

interpretazione dei linguaggi naturali da parte dei sistemi

automatizzati.

Genetic Algorithm

Nel corso degli ultimi anni si è cercato, nel campo

dell’information retrieval, di passare dai performance system,

cioè sistemi che si limitavano ad eseguire le operazioni per le

quali erano stati programmati (quindi senza alcuna capacità di

autoapprendimento), ai machine learning system, cioè a sistemi

in grado di “imparare” direttamente dagli esempi che venivano

loro trasmessi. Tra questi tentativi, merita una menzione il

paradigma degli algoritmi genetici, basato su processi naturali,

in cui sopravvivono gli elementi che meglio si adattano alle

condizioni imposte.

Un algoritmo genetico si può riassumere in una serie

abbastanza standard di passi:

1. Si inizia con una collezione più o meno casuale di elementi

(detti organismi);

2. Si eliminano gli elementi poco “adatti”, nel nostro caso quelli

che risulterebbero in un basso valore di precision/recall;

goy

Linea

63

3. Si hanno degli accoppiamenti tra i vari individui (nel nostro

caso, parliamo dei vettori: ciò consiste nell’effettuare degli

incroci tra i loro elementi) e si sostituisce una generazione con

quella dei suoi discendenti (crossover) ;

4. Si introducono delle mutazioni casuali su alcuni organismi di

partenza (sempre nel caso di vettori ciò equivale ad avere un

peso che cambia in maniera random) ;

5. Si ripete il processo dal punto 2 fino a che la popolazione non

raggiunge il livello di qualità desiderato.

Esempio di applicazione: il relevance feedback

Con le tecniche di relevance feedback l’utente sottopone una

query al sistema e questo risponde proponendo una serie di

documenti in risposta, invitando altresì l’utente a inviare un

feedback sulla rilevanza dei documenti fornito. A questo punto

il sistema procede ad un’ analisi dei documenti che l’utente

considera rilevanti, in modo da estrarre i concetti presenti in tali

documenti e propone all’utente stesso una nuova query di

ricerca (o modifica automaticamente quella originaria) che

dovrebbe, teoricamente, eseguire una ricerca più mirata su tutta

la collezione.

Il paradigma genetico, che non affrontiamo nel dettaglio, ci

interessa perché è una tra le prime applicazioni del campo del

machine learning all’IR, per cui segna un po’ il punto di svolta,

tra un approccio in cui i risultati sono dati dall’esecuzione di una

serie di operazioni da parte del sistema, a uno in cui

quest’ultimo effettua autonomamente delle inferenze

interpretando la volontà dell’utente, in qualche modo imparando

dal suo comportamento.

goy

Linea

64

2.3 L’IR nei motori di ricerca sul Web

Le strategie di retrieval finora trattate sono state sviluppate ed

hanno piena applicabilità nel contesto di collezioni di documenti

di una certa estensione. Un contesto relativamente semplice, che

contempla prettamente dati di natura testuale. Cosa accade ora,

se vogliamo generalizzare il discorso all’intero ambito del Web

e dei grossi cambiamenti di cui è stato protagonista quest’ultimo

nel corso dell’ultimo decennio? Certamente il discorso si fa più

complesso.

La prima generazione di motori di ricerca ha trasportato le

tecniche di ricerca classiche presentate poc’anzi, derivanti

dall’ambito del retrieval su collezioni di piccola-media scala, al

dominio del Web, cercando di ampliarne la scala di

applicabilità. L’approccio più usato consiste nell’utilizzare il

modello vector space opportunamente modificato, magari in

collaborazione con tecniche di LSI per ridurre il numero di

dimensioni dello spazio vettoriale.

I primi motori di ricerca dovettero confrontarsi con indici

contenenti decine di milioni di documenti e con problemi di

risposta a queries e di ranking mai affrontati fino a quel

momento. Grazie anche al grosso impiego di risorse hardware, i

risultati furono piuttosto soddisfacenti per quanto riguarda la

quantità di pagine indicizzate, che copriva una buona parte della

Rete. Tuttavia la qualità e la rilevanza dei risultati lasciava

molto a desiderare, per due ragioni principali.

La prima ragione è intrinseca al Web, la cui crescita esplosiva

ed esponenziale è dovuta alla creazione decentralizzata del

contenuto. Questo fatto presuppone documenti in centinaia di

linguaggi naturali e dialetti, con conseguenti variazioni dello

stemming e delle altre operazioni automatiche sui testi.

L’eterogeneità dunque, se da una parte porta a un’estrema (e

positiva) democratizzazione del Web, dall’altra porta grosse

difficoltà per l’implementazione di sistemi di ricerca efficaci.

goy

Linea

65

La seconda ragione è un corollario del primo, in quanto riguarda

il problema dell’autorevolezza dei contenuti. L’avvento dei

primi motori di ricerca ha infatti visto la nascita e la

proliferazione di contenuti spam, ben nascosti nel codice HTML

delle pagine dai web authors più navigati, con l’obiettivo di far

spiccare sui motori i propri siti rispetto agli altri, ma lungi

naturalmente dall’essere coerenti con l’argomento cercato.

Un terzo punto, che però avrà a che fare anche con i motori di

ricerca più progrediti, è la trasformazione del Web da collezione

di documenti testuali a database multimediale, in cui si verifica

una convergenza di tutti i media tradizionali, fatto che complica

ulteriormente i compiti di chi deve organizzare e razionalizzare

l’informazione disponibile.

Tali problemi hanno richiesto l’introduzione di nuove tecniche

che riportassero l’IR al passo con l’evoluzione del Web, in

modo da combattere lo spam e assicurare la qualità dei risultati

di ricerca. Dunque, se le tecniche di retrieval classico

continuano a essere necessarie per la ricerca sul Web, da sole

non sono tuttavia più sufficienti.

2.3.1 Nuovi approcci nella ricerca

Oltre alle sopraccitate ragioni dell’estensione e del vorticoso e

incessante ritmo di crescita della Rete, vi è un’altra questione

che ha posto il discorso sull’information retrieval un po’ in

secondo piano. Per comprenderla a fondo, occorre ripercorrere a

grandi linee la storia dei motori di ricerca dagli albori della loro

giovane storia, fino ai più recenti sviluppi.

All’inizio, verso la metà degli anni Novanta, i motori di ricerca

si basavano quasi esclusivamente sulle tecniche derivate dall’IR,

dunque il loro meccanismo di funzionamento aveva un iter

simile a quello descritto di seguito: i crawlers navigavano le

pagine, riportavano i testi, isolavano i termini e gli stem, quindi

si procedeva alla creazione dell’indice, da cui venivano ottenute

goy

Linea

66

le graduatorie da presentare dinanzi alle queries degli utenti.

Detto molto grossolanamente, questo processo è comune a

qualsiasi motore di ricerca, con variabili contestuali.

Poi, poco prima del Duemila, le complicazioni cui abbiamo

accennato nel paragrafo precedente, le ricordiamo –

decentralizzazione e multilinguismo nella creazione dei

contenuti, conseguente caos testuale, moltiplicazione dei formati

di archiviazione dell’informazione, possibilità di ingannare gli

spider con etichette fuorvianti rispetto al reale contenuto - hanno

reso impraticabile la prosecuzione lungo questa via. L’accento è

caduto sul problema dell’autorevolezza del contenuto, la

valutazione della quale non poteva essere effettuata dai vigenti

sistemi di ricerca, che si limitavano ad archiviare dati e

presentarli in forma strutturata. Non a caso, è a questo punto che

vengono in aiuto, grazie alla Forza dei Molti, come la chiama

Battelle35, le prime iniziative biblioteconomiche di Internet, di

cui dmoz è ad oggi l’esempio più longevo e riuscito. Ma l’opera

umana rimaneva chiaramente una risorsa, seppur intelligente,

inadeguata ai mostruosi ritmi di crescita del Web.

Era necessario, di fronte a questa esplosione del contenuto, un

approccio alla ricerca diverso, che facesse tesoro delle

conoscenze ereditate dall’IR, incorporandole però in un

paradigma più appropriato ai nuovi orizzonti venuti a

manifestarsi in Rete. Una nuova generazione di motori di ricerca

che, da un lato, guardasse alla questione dell’autorevolezza, per

risolvere i problemi legati allo spam content e alla rilevanza,

dall’altro venisse incontro alle necessità di personalizzazione del

contenuto e di intelligenza della ricerca emerse a corollario.

Il primo problema viene affrontato da Google, che si presenta

nel 1998 con un’idea tanto semplice quanto rivoluzionaria:

l’inserimento nell’ordine di presentazione dei risultati di un

35 J.Battelle, “Google e gli altri”, 2006

goy

Linea

67

fattore “autorevolezza”, di cui spiegheremo in seguito le parti

fondanti.

Per quanto riguarda invece gli agenti intelligenti per la ricerca,

candidati a comprendere le necessità dell’utente a partire dalle

intenzioni di quest’ultimo, possiamo affermare che questa fase

sia tuttora in corso. La crescita del Web 2.0, con la dinamicità,

l’interattività dei suoi contenuti e l’affermazione dei social

network ha spinto in maniera decisiva lo sviluppo di questo

filone, così come quello del Web semantico. Ma, in virtù della

struttura stessa del Web attuale, i tentativi in questa direzione si

configurano in maniera tutt’altro che unitaria e monodirezionale.

Se i motori potenziano le infrastrutture per la ricerca, offrendo

funzionalità sempre più avanzate, i giochi ora si muovono anche

dal basso, lato utente. Ormai è chiaro il ruolo chiave della

collaborazione dell’utenza nell’archiviazione dei contenuti,

nell’ottica di rendere gli stessi maggiormente visibili.

La crescita dell’importanza di Internet nelle vite degli individui

ha fatto acquistare a questi ultimi la consapevolezza di quanto,

anche in questo ambito “esistere corrisponda ad essere

percepiti”36. E’ nel momento stesso in cui l’utenza prende

coscienza di avere un ruolo attivo nel processo della ricerca, che

il Web fa un salto di qualità in un’ottica semantica, aiutando i

motori ad esprimersi al massimo delle potenzialità.

Nel prossimo capitolo chiariremo queste considerazioni mentre

approfondiremo il discorso sul Web semantico, partendo dalle

innovazioni portate da Google e giungendo alle conseguenze del

Web 2.0 nell’ambito della ricerca.

36 “Esse est percipi”. G. Berkeley, “Trattato sui princípi della conoscenza umana”, 1710.

goy

Linea

68

CAPITOLO III

3.0 Introduzione

Abbiamo concluso il capitolo precedente accennando al fatto

che Google ha rappresentato un punto di svolta per il campo dei

motori di ricerca. E questo certamente non è un mistero, se

guardiamo la sua vertiginosa ascesa, che lo ha portato

dall’essere una tesi di dottorato di due studenti universitari, alla

fine dello scorso millennio, al colosso quotato in borsa e

dominatore indiscusso del settore divenuto oggi.

Ma la storia che noi vogliamo raccontare qui non riguarda il suo

sviluppo economico-finanziario: ciò che ci interessa è capire

quali innovazioni siano state apportate da Google nell’ambito

della ricerca sul Web, come queste abbiano mutato lo scenario

nel corso dell’ultimo decennio e come si configuri la ricerca

oggi, alla luce dei nuovi fronti aperti dal Web 2.0.

3.1 Un po’ di storia dei motori di ricerca

Quanto si è detto sull’IR e sui problemi sorti in seguito alla sua

applicazione ai motori di ricerca, ha illustrato il punto critico

della questione, quello ovvero di un approccio basato

esclusivamente sulla ricerca testuale.

Facciamo ora un passo indietro, per inquadrare storicamente e

dal punto di vista evolutivo l’ingresso di Google su Internet.

Il motore di ricerca universalmente indicato come il primo nato

sul Web si chiamava Archie, fu creato nel 1990 da uno studente

americano di nome Alan Emtage, risale dunque a un momento

goy

Linea

69

precedente alla diffusione globale di Internet. Il suo utilizzo era

quasi esclusivamente per scopi accademici, da qui il suo nome

(analisi di archivi accessibili pubblicamente di documentazioni

tecniche), ma la su architettura era del tutto simile a quella dei

motori attuali: possedeva un crawler, costruiva un indice e aveva

un’interfaccia di ricerca.

Nel 93 uscì Veronica, praticamente identico ad Archie ma

basato sul protocollo di trasferimento file Gopher, che andava a

sostituire l’FTP utilizzato su Archie, permettendo in tal modo il

collegamento diretto con il documento richiesto invece che con

la macchina che lo ospitava.

Archie e Veronica non possedevano capacità semantiche: non

indicizzavano l’intero testo del documento, ma solamente il

titolo. Per questo motivo, con lo sviluppo del Web tra il 93 e il

96, che portò i siti esistenti da 130 a 600 mila, questi due

prototipi caddero in disgrazia.

Il primo motore di ricerca in grado di indicizzare l’intero

contenuto della pagina si chiamava WebCrawler e vide la luce

nel 1994, grazie a Brian Pinkerton, un ricercatore

dell’Università di Washington. Questi stava costruendo un Web

browser che incorporasse funzionalità di ricerca, ed ebbe la

buona intuizione che un crawler lavora esattamente nello stesso

modo: costruì così WebCrawler, che l’anno successivo fu

venduto ad AOL, gigante delle telecomunicazioni americano

che in quegli anni intuì le potenzialità degli investimenti sui

motori di ricerca. Ciò che ebbe tempo di fare Pinkerton fu un

test, in cui interrogò l’indice costruito dal suo WebCrawler, su

quali siti avessero il maggior numero di link in ingresso37. Tale

test rivelò forse la sua intuizione sull’importanza di una

variabile che sarebbe diventata centrale negli anni a seguire.

In seguito, più o meno tutti ricordiamo com’è andata. La

seconda metà degli anni 90 ha visto l’ascesa dei colossi, motori 37 A soddisfazione dell’eventuale curiosità, il primo in graduatoria all’epoca era la home page del progetto WWW del CERN di Ginevra.

goy

Linea

70

di ricerca che incorporavano e miglioravano la tecnologia di

WebCrawler, grazie a mezzi sempre più potenti. Ricordiamo ad

esempio AltaVista, il primo gigante della ricerca, il cui sistema

di ricerca, creato dal francese Louis Monier, era formato da un

migliaio di crawlers che scandagliavano contemporaneamente

l’intero contenuto del Web. Un’opera mastodontica, senza

precedenti. Altri nomi che certamente riecheggiano ancora nelle

nostre orecchie sono quelli di Lycos, o Excite. Protagonisti per

qualche anno, poi finiti quasi nel dimenticatoio. Perché?

La spiegazione va cercata, da una parte, nel fatto che questi

colossi non hanno creduto profondamente nella ricerca come

paradigma dominante nel Web degli anni successivi al loro

insediamento: per questo motivo essi si sono trasformati ben

presto in portali multifunzionali, all’interno dei quali la ricerca

era solo un servizio tra i tanti, un attività di secondo piano.

Dall’altra parte, la loro inadeguatezza tecnica alle nuove sfide

portate dagli spammers, unita alla bolla speculativa che ha

sconvolto le aziende dotcom a cavallo del Millennio, con

conseguenti giochi di acquisizioni plurime e incrociate, ha

ripulito il campo dagli avversari all’emergente Google, che forte

del suo orientamento alla ricerca pura (ricordiamo la semplicità

della sua interfaccia grafica) e dei suoi algoritmi innovativi, si è

imposto con una rapidità sorprendente e in maniera duratura.

3.2 Un’idea semplice: le citazioni

Abbiamo parlato in precedenza di una intuizione semplice ma

geniale, che ha permesso a Google di risolvere l’impasse

creatasi a un certo punto della storia sul problema

dell’autorevolezza. Ebbene, qual è quest’idea e com’è nata?

Prendiamo anche qui la cosa alla lontana, poiché è interessante

osservare come quasi sempre i sistemi informatici replicano

realtà esistenti nella cultura umana.

goy

Linea

71

Dunque, siamo a Stanford, rinomata università statunitense, è il

1995 quando i due dottorandi Larry Page e Sergey Brin

decidono di sviluppare la loro tesi di dottorato insieme.

L’argomento è l’analisi della struttura di link del Web come

grafo. Un grafo, come osserviamo nella figura 13, è un insieme

di elementi detti nodi o vertici (indicati con le lettere), collegati

tra di loro da archi o lati, che possiedono un orientamento o

direzione.

Larry Page teorizzò che il Web fosse il più grande grafo mai

creato, nel quale le pagine rappresentavano i nodi e i link gli

archi. Tale idea ebbe un certo successo, tanto che attualmente è

parecchio in uso la rappresentazione del Web come bowtie Web

graph, (per la sua caratteristica forma a cravattino, come

osserviamo nella figura 14), costituito da tre categorie principali.

La parte centrale, chiamata SCC (strongly connected

component) rappresenta il core delle pagine strettamente e

singolarmente connesse. Le due parti laterali, IN e OUT,

rappresentano rispettivamente i nodi che puntano verso il core

senza poter essere raggiunti da esso, e quelli che possono essere

raggiunti dal core senza puntare ad esso. Le rimanenti pagine

formano i tubes, pagine fuori dal SCC che conducono

Figura 13: la struttura di un grafo

72

direttamente da IN ad OUT, e i tendrils, che sono dei vicoli

ciechi da IN e verso OUT.

L’osservazione della struttura del Web graph suggerì a Page

l’intuizione che, se i motori di ricerca esistenti avevano già

implementato un efficace sistema per seguire i link che

conducono da SCC verso OUT, non erano ancora in grado di

analizzare il flusso di collegamenti da IN verso il core. In altre

parole, non era possibile sapere di una pagina Web quali fossero

i link in ingresso, che puntavano verso di essa.

Un altro fatto, di natura più “accademica”, convinse Page a

lavorare in questa direzione. Il mondo delle pubblicazioni

scientifiche si basa su uno strumento di valutazione chiamato

peer review, in cui esperti del mondo universitario recensiscono

e giudicano i lavori del loro campo di riferimento, conferendo

autorevolezza agli stessi. Inoltre nella stessa ottica grande

importanza rivestono le citazioni e le annotazioni. Le prime

costruiscono una rete di collegamenti tra i vari lavori ed è

immediato osservare che un articolo è tanto più significativo e

rilevante quanti più sono gli altri articoli che lo citano. Le

annotazioni costituiscono una sorta di commento alle citazioni,

delle quali qualificano il riferimento.

Il parallelo con il Web è talmente scontato da farci chiedere

come sia stato possibile non arrivarci prima. Eppure

probabilmente è naturale che la strada per risolvere le falle di un

Figura 14: il Bowtie Web graph

73

sistema come il Web, nato nel mondo accademico, fosse

indicata proprio da una riflessione metodologica sulle

fondamenta di questo mondo stesso: la citazione del proprio

lavoro da parte degli altri ne costituisce il fondamento

scientifico più attendibile.

Queste premesse spiegano la nascita di BackRub, progetto con il

quale Page vuole monitorare i link all’inverso (i back links

appunto), ovvero non da una pagina verso l’esterno, com’era già

possibile fare tramite i crawlers esistenti, ma dall’esterno verso

una pagina. L’audacia di questo progetto mastodontico

(all’epoca in cui Page si mise a lavorare sul suo crawler, il Web

contava circa 10 milioni di documenti e probabilmente qualche

centinaio di milione di link), attirò l’attenzione di Sergey Brin. I

due, nonostante la consapevolezza delle ingenti risorse hardware

necessarie per la realizzazione di un sistema che a quel punto

esulava dal semplice discorso universitario, portarono avanti le

loro ricerche, animati dalla bontà delle premesse teoriche.

Nel marzo del 1996 Page puntò il crawler sulla sua home page

di Stanford e lo lascio libero di scandagliare il Web. BackRub

riportava per ogni pagina Web una lista dei link che puntavano

verso di essa. Una volta setacciato il Web e acquisito un grafo,

serviva a quel punto un sistema di classificazione per ordinare la

lista così ottenuta. L’implementazione di questo sistema ha

comportato complessi calcoli ricorsivi, dal momento che per

ottenere una misura relativa, pesata, di ogni pagina andavano

conteggiati non solo i link complessivi, ma anche i link presenti

sulle pagine da cui questi provenivano .

Questa fase, superata brillantemente grazie alle doti

matematiche di Brin, fu fondamentale per la nascita

dell’algoritmo più importante nella storia dei motori di ricerca,

tanto da essere conosciuto anche al di fuori dell’ambito

specializzato: PageRank.

74

3.3 L’algoritmo PageRank

Il progetto BackRub aveva a questo punto raggiunto il culmine

della sua parabola: Page e Brin erano riusciti a creare un sistema

che riusciva a tenere in considerazione sia il numero di link in

ingresso di un determinato sito, sia il numero di link in ingresso

di ciascuno dei siti che puntano verso quel determinato sito. Un

sistema di questo genere permette di calcolare, di pesare, per

usare un termine ereditato dall’IR, l’importanza relativa di

ciascun link e ciascuna pagina. A questo punto BackRub venne

messo online, nell’agosto del 1996, con il nome di Google. La

versione prototipica del motore di ricerca fu allestita, come

sappiamo dagli innumerevoli e ormai quasi mitologici racconti,

nella stanza dello studentato di Page e consisteva di un paio di

server autoprodotti, costruiti con pezzi del Lego38.

In figura 15 sono invece le statistiche, disponibili sulla stessa

pagina, sulle dimensioni del lavoro effettuato da BackRub, che

presenta dei risultati già notevoli.

Figura 15 Statistiche sulla prima scansione di BackRub

38 E’ ancora visibile all’URL http://backrub.c63.be/1997/index.htm.

75

Dunque il progetto BackRub sfociò presto nell’algoritmo

PageRank, basato sulla link popularity, nome che assunse il

sistema che nel costruire le graduatorie di presentazione dei

risultati, premia i link provenienti da fonti importanti,

penalizzando gli altri. Come viene calcolato PageRank? Come

viene stabilito quali sono le fonti importanti? La ricerca testuale

viene completamente eliminata?

A questi interrogativi cercheremo di rispondere nel prossimo

paragrafo, analizzando a fondo le caratteristiche di PageRank.

.

3.3.1 Presupposti matematici

E’ importante sottolineare ancora una volta che la più grande

novità teorica rappresentata dall’approccio di Google, consiste

nello svincolare il ranking dei risultati dai criteri on-the page,

prerogativa che i motori di ricerca di prima generazione

ereditavano dall’information retrieval, fra i quali rivestiva

grande importanza l’occorrenza delle parole chiave all’interno

dei documenti HTML.

Page e Brin hanno introdotto un sistema che valuta fattori off-

the page, quali sono i link, per migliorare la qualità dei risultati

di ricerca. Tale valutazione avviene per mezzo di un algoritmo,

PageRank appunto, che calcola il valore di una pagina tramite

una formula. Si tratta dunque di una valutazione di tipo

matematico.

Vediamo dunque nel dettaglio come si struttura l’algoritmo

PageRank, partendo dalle affermazioni degli autori, che ci

aiuteranno a inquadrare meglio il significato e le proporzioni del

loro lavoro. Le premesse sulle quali si basa il loro motore di

ricerca sono disponibili in una sorta di manifesto, divenuto

ormai piuttosto noto, dal titolo “The anatomy of a large-scale

goy

Linea

76

hypertextual web search engine”39. In questo documento, di cui

riportiamo alcuni stralci di seguito, vengono presentate le

premesse teoriche, metodologiche e le specifiche tecniche che

hanno portato alla costruzione di Google.

Brin e Page, su PageRank:

A method assigns importance ranks to nodes in a linked

database, such as any database of documents containing

citations, the world wide Web or any other hypermedia

database40. The rank assigned to a document is calculated from

the ranks of documents citing it. In addition, the rank of a

document is calculated from a constant representing the

probability that a browser through the database will randomly

jump to the document. The method is particularly useful in

enhancing the performance of search engine results for

hypermedia databases, such as the world wide Web, whose

documents have a large variation in quality. 41

Un metodo che assegna una classificazione di importanza a documenti contenuti in

un archivio, come ad esempio ogni archivio che contenga citazioni e rimandi, il Web

o tutti gli altri database ipermediali. Il valore assegnato ad un documento è calcolato

partendo dal valore dei documenti che lo richiamano. Inoltre, la classificazione di un

documento è calcolata prendendo in riferimento una costante che rappresenta la

probabilità che una navigazione all'interno del database trovi casualmente il

documento Il metodo è assai utile per implementare la qualità dei risultati di un

motore di ricerca per archivi ipermediali come ad esempio il Web, all'interno del

quale la qualità dei documenti è molto variabile.42

39 S.Brin, L.Page, “The anatomy of a large-scale hypertextual web search engine”, 1997. 40 Per database ipermediali s’intendono quegli archivi, composti da documenti in differenti formati, che sono collegati a documenti presenti in altri archivi dello stesso tipo. 41 Cit lett. “The anatomy of a large-scale hypertextual web search engine”, 1997 42 La traduzione presente e le successive sono a cura dell’autore.

goy

Linea

77

Tre sono i punti focali espressi nel brano citato:

1. La classificazione avviene in base ai link in ingresso

2. Nel calcolo viene considerato un parametro, costante,

che rappresenta la possibilità che con una navigazione casuale,

venga selezionato un documento. Le conseguenze di questa

considerazione sono molto importanti, le analizzeremo tra breve.

3. L’obiettivo è quello di migliorare la qualità dei risultati.

Cerchiamo di capire le implicazioni di ciascuno di questi tre

punti nel dettaglio.

3.3.2 La formula del PageRank

E’ giunto a questo punto il momento di esprimere il primo punto

in maniera formale. PageRank è stato descritto da Page e Brin in

svariate pubblicazioni e persino brevettato. La formula utilizzata

è la seguente:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

dove

· PR(A) è il PageRank della pagina A,

· PR(Tn) è il PageRank delle pagine Tn che contengono link

alla pagina A,

· C(Tn) è il numero di link verso altri siti (outbound) contenuti

dalle pagine Tn e

· d è la costante matematica di cui parlavamo al punto 2 del

paragrafo precedente, che può essere fissata tra 0 e 1 (ma che gli

autori impostano solitamente a 0,85).

goy

Linea

78

I valori di PageRank vengono calcolati usando tecniche di tipo

matriciale in cui si costruisce una matrice dei link presenti tra le

pagine Web che costituiscono il repository su cui si lavora43.

Osservando la formula, la prima osservazione importante è che

il PageRank non classifica i siti Internet nel loro insieme, ma

viene determinato il valore di ogni singola pagina Web. Inoltre,

come abbiamo detto in più occasioni, il valore PageRank della

pagina A è calcolato partendo dal valore PageRank delle pagine

che contengono collegamenti ipertestuali ad A.

Una esame più accurato ci permette di notare che il PageRank

delle pagine Ti che contengono link alla pagina A non

influenzano il PageRank della pagina A uniformemente.

All'interno dell'algoritmo, il PageRank di A è determinato anche

dai link verso l'esterno C(T) contenuti nella pagina T. Nella

fattispecie, più collegamenti verso altri siti possiede T, meno la

pagina A beneficerà di un link proveniente dalla pagina T.

Tuttavia, un link proveniente da T verso A incrementerà sempre

(anche se in misura variabile) il PageRank di A.

Infine, la somma dei valori PageRank (come visto, ridotti

proporzionalmente rispetto al numero di link verso l'esterno)

delle pagine Ti è moltiplicato per il fattore di aggiustamento d

che può essere fissato tra 0 e 1. Conseguentemente, l'incremento

del valore PageRank di una pagina A, dovuto al fatto che A è

linkata dalle pagine Ti viene ulteriormente ridotto.

In sostanza sono due i fattori che abbassano il PageRank iniziale

di A: il primo è dovuto al fatto che eventualmente le pagine Ti

non contengano link solo ad A, ma anche ad altre pagine, di

conseguenza il PageRank di A, derivante dai link provenienti da

T va “normalizzato”. Il secondo è dovuto alla costante d, che

43 Un repository è un ambiente di un sistema informativo in cui vengono gestiti i metadati tramite tabelle relazionali (http://it.wikipedia.org/repository)

goy

Linea

79

introduce il random surfer model di cui ci occupiamo nel

paragrafo seguente.

3.3.3 Random surfer model – il modello del navigatore casuale

Abbiamo più volte accennato a questo parametro d, definendolo

come una costante o un “fattore di aggiustamento”. Ma cosa

rappresenta d in realtà? Per capirlo, ci rifacciamo ancora una

volta alle parole di Page e Brin:

PageRank can be thought of as a model of user behavior. We

assume there is a "random surfer" who is given a Web page at

random and keeps clicking on links, never hitting "back" but

eventually gets bored and starts on another random page. The

probability that the random surfer visits a page is its PageRank.

And, the d damping factor is the probability at each page the

"random surfer" will get bored and request another random

page44.

Page Rank può essere pensato come un modello di comportamento

dell’utente. Assumiamo ci sia un navigatore casuale, cui sia assegnata

casualmente una pagina Web, e che questi continui a cliccare sui link, senza

mai premere il bottone “Indietro”, ma a un certo punto si stufi e ricominci

da un’altra pagina a caso. La probabilità che un navigatore visiti una pagina

è il suo PageRank. Il fattore di smorzamento d è la probabilità, su ogni

pagina, che il navigatore si stufi e richieda un’altra pagina a caso.

I due autori offrono una rappresentazione intuitiva

dell’algoritmo PageRank, come di un modello del

comportamento di un utente, il quale segue i link presenti in una

pagina senza seguire una logica o verificarne in contenuti. C'è

una determinata probabilità che il navigatore casuale visiti una

pagina Web, che costituisce proprio il valore di PageRank di

quest’ultima.

44 Cit lett. “The anatomy of a large-scale hypertextual web search engine”, 1997.

goy

Linea

80

La probabilità che lo stesso navigatore segua un link è data

unicamente dal numero di collegamenti presenti su quella

pagina. Questo chiarisce, come abbiamo spiegato poc’anzi,

perché il PageRank di una pagina T non venga completamente

trasferito alla pagina A attraverso il collegamento ipertestuale,

ma sia calcolato anche in base al numero di link presenti su T (in

poche parole, essendo un calcolo di probabilità, se T possiede un

solo link, e questo link è verso A, c'è il 100% di possibilità che il

navigatore casuale finisca su A; se T possiede 100 link, e uno

solo è verso A, ci sarà l'1% di possibilità che giunga a A).

Quindi, la probabilità che ha una pagina di essere visitata, è data

dalla somma delle probabilità che il navigatore casuale segua i

link verso di essa. A questo punto entra in gioco il nostro

parametro d, che sta per damping factor e rappresenta la

probabilità che il random surfer non segua all'infinito i

collegamenti presenti su una pagina, ma a volte si annoi e salti

casualmente ad un'altra pagina.

Più alto è d, più facilmente e a lungo il navigatore continuerà a

seguire i link. Siccome l'utente salta ad un'altra pagina a caso

dopo che ha terminato di seguire i collegamenti, la probabilità è

quindi assunta come costante (1-d) all'interno dell'algoritmo.

Senza contare i link verso la pagina, le probabilità che un

navigatore raggiunga la pagina sono sempre fissate a (1-d), così

che la pagina ottenga un valore minimo di PageRank.

Si noti che i PageRank formano una distribuzione di probabilità

sulle pagine Web, cosicché la somma di tutti i PageRank sarà

uguale ad uno.

goy

Linea

81

3.3.4 Qualità dei risultati

Rimane da affrontare il terzo punto, che riguarda quella qualità

dei risultati che difettava nei sistemi precedenti e che parrebbe

essere risolta da PageRank. Vediamo come.

Il random surfer model, a dir la verità piuttosto approssimativo

per quanto riguarda il comportamento dei navigatori (che, si

suppone, nella realtà non agiscano guidati esclusivamente dal

caso), introduce la duplice valenza, quantitativa (link popularity)

e qualitativa (link quality), di PageRank, secondo un’altra

giustificazione intuitiva proposta dagli autori:

Another intuitive justification is that a page can have a high

PageRank if there are many pages that point to it, or if there are

some pages that point to it and have a high PageRank.

Intuitively, pages that are well cited from many places around

the Web are worth looking at. Also, pages that have perhaps

only one citation from something like the Yahoo! homepage are

also generally worth looking at. If a page was not high quality,

or was a broken link, it is quite likely that Yahoo’s homepage

would not link to it. PageRank handles both these cases and

everything in between by recursively propagating weights

through the link structure of the Web45.

[…] Una pagina può avere un alto PageRank se esistono molte pagine che

puntano ad essa, oppure se esistono alcune pagine che puntano ad essa e

hanno un alto PageRank. Intuitivamente, le pagine che sono ben citate da

molte fonti sul Web valgono la pena di essere viste. Anche le pagine che

hanno magari una sola citazione da fonti quali la home page di Yahoo!

valgono in genere la pena di essere viste. Se una pagina non fosse di alta

qualità, o se avesse dei collegamenti interrotti, è alquanto probabile che non

sarebbe citata dalla home page di Yahoo!. PageRank tiene conto di entrambi

45 Cit lett. “The anatomy of a large-scale hypertextual web search engine”, 1997

goy

Linea

goy

Linea

goy

Casella di testo

Il Page Rank

goy

Linea

82

questi casi e di ogni caso intermedio, propagando ricorsivamente i pesi [di

ciascun link] attraverso la struttura ipertestuale del Web.

Ciò che migliora PageRank rispetto al modello presentato nel

progetto BackRub, che già incorporava misure quantitative

dell’importanza citazionale, quale il semplice conteggio dei

back link, è infatti l’aspetto qualitativo della misura di

importanza. Tale peculiarità risiede nel fatto che, in base alla

definizione di PageRank, non tutti i collegamenti hanno lo

stesso peso (poiché PageRank è calcolato ricorsivamente per

ogni pagina, prendendo in considerazione l’intera mappa dei

collegamenti del Web) e nel fatto che il peso di un collegamento

proveniente da una data pagina è inversamente proporzionale al

numero di collegamenti uscenti da quella stessa pagina (poiché

PageRank è normalizzato secondo questo valore, al

denominatore nella formula originale).

Alla prova dei fatti, PageRank si è dimostrato uno strumento ec-

cellente per discernere il contenuto Web di qualità, e quindi

migliorare il recall dei risultati delle ricerche incrementandone

la precision.

Ricordiamo quanto abbiamo detto a proposito della precision nel

capitolo precedente: essa è stata definita come il rapporto fra il

numero di documenti rilevanti restituiti in seguito a una query di

ricerca e il totale dei documenti restituiti; la precision è

inversamente proporzionale al recall definito invece come il

rapporto fra il numero di documenti rilevanti restituiti e il totale

dei documenti rilevanti. Per definizione, esiste quindi un

compromesso (trade-off) irriducibile fra precisione e recall, una

limitazione che si è ulteriormente inasprita all’aumentare delle

dimensioni degli indici dei motori di ricerca.

PageRank ha permesso di superare questa limitazione,

dimostrando la possibilità di ottenere una buona precisione dei

risultati anche per query molto generiche eseguite sull’intero

goy

Linea

83

Web. Questo anche a costo di una diminuzione del recall, poiché

sappiamo che gli utenti consultano al massimo le prime pagine

restituite in seguito a una query, di conseguenza è

importantissimo avere i documenti qualitativamente più rilevanti

ai primi posti, massimizzando la precision.

As the collection size grows, we need tools that have very high

precision (number of relevant documents returned, say in the

top tens of results). Indeed, we want our notion of "relevant" to

only include the very best documents since there may be tens of

thousands of slightly relevant documents. This very high

precision is important even at the expense of recall (the total

number of relevant documents the system is able to return)46.

[…] A mano a mano che la collezione [di documenti del Web] cresce di dimensioni,

c’è bisogno di strumenti [di ricerca] dotati di alta precisione (numero di documenti

rilevanti restituiti, diciamo entro le prime decine di risultati). In effetti, la nostra

nozione di “rilevante” deve includere solo i documenti migliori in assoluto giacché

potrebbero esistere decine di migliaia di documenti scarsamente rilevanti. Questa

altissima precision è importante anche al costo di sacrificare il recall (il numero

totale di documenti rilevanti che il sistema è in grado di restituire).

Inoltre, la proprietà straordinaria dell’algoritmo PageRank

consiste nella sua scalabilità intrinseca. Essendo infatti basato su

un’equazione ricorsiva, la precisione del calcolo aumenta

all’aumentare del numero dei link, di conseguenza quello che si

era rivelato come il problema più grande per i motori di ricerca,

ovvero la continua crescita dimensionale del Web, viene

trasformato da PageRank in un fattore favorevole.

Naturalmente questa intuizione spiega gran parte del vantaggio

competitivo acquisito da Google nello stesso periodo in cui la

precisione dei maggiori di ricerca soccombeva miseramente

davanti a un indice sempre più vasto e difficile da gestire.

46 Cit lett. “The anatomy of a large-scale hypertextual web search engine”, 1997

goy

Linea

84

3.3.5 PageRank in continuità con l’IR

Ora che abbiamo presentato le principali caratteristiche di

PageRank, ci fermiamo un attimo a fare il punto sulla

situazione, dal punto di vista dell’evoluzione che ci interessa

analizzare nel campo della ricerca. Riprendiamo ancora una

volta gli scritti dei creatori di Google:

Things that work well on TREC often do not produce good

results on the Web. For example, the standard vector space

model tries to return the document that most closely

approximates the query, given that both query and document are

vectors defined by their word occurrence. On the Web, this

strategy often returns very short documents that are the query

plus a few words. For example, we have seen a major search

engine return a page containing only "Bill Clinton Sucks" and

picture from a "Bill Clinton" query. Some argue that on the

Web, users should specify more accurately what they want and

add more words to their query. We disagree vehemently with

this position. If a user issues a query like "Bill Clinton" they

should get reasonable results since there is a enormous amount

of high quality information available on this topic. Given

examples like these, we believe that the standard information

retrieval work needs to be extended to deal effectively with the

Web47.

Le cose che funzionano bene sui sulle collezioni di piccole dimensioni, spesso

non producono buoni risultati sul Web. Per esempio, il modello standard di

spazio vettoriale cerca di recuperare il documento che più si avvicina la

query, assumendo che sia la query che i documenti siano vettori definiti

dalla loro occorrenza di parole. Per esempio, abbiamo visto un grande

motore di ricerca restituire una pagina contenente solo "Bill Clinton Sucks"

47 Cit lett. “The anatomy of a large-scale hypertextual web search engine”, 1997.

goy

Linea

85

e un'immagine alla query "Bill Clinton”.. Alcuni sostengono che sul Web, gli

utenti dovrebbero specificare più esattamente ciò che vogliono e aggiungere

più parole per la loro ricerca. Dissentiamo veementemente con questa

posizione. Se un utente invia una query come "Bill Clinton", dovrebbe

ottenere risultati ragionevoli dal momento che vi è una quantità enorme di

informazioni di alta qualità disponibili su questo argomento. Dati esempi

come questi, riteniamo che L'IR standard debba essere esteso per far fronte

in modo efficace alle problematiche sorte sul Web.

Queste frasi chiariscono definitivamente la relazione tra

PageRank e l’IR nell’ambito della ricerca sul Web. Il nuovo

paradigma, basato sulla link analysis, non soppianta

definitivamente le tecniche precedenti, di cui vengono

conservate la capacità di analisi testuale ed estrapolazione del

contenuto. Nella creazione dell’indice, permangono operazioni

quali stemming48, eliminazione delle stop words, conflation.

L’inoltro delle query avviene attraverso operatori booleani che

sfuggono alla vista dell’utente, ma che contribuiscono alla

selezione dei documenti, interagendo con operatori matematici

nel calcolo del peso degli index term.

Tuttavia, ai fini della restituzione di un ranking

qualitativamente valido, il sistema basato sul calcolo dei link si

rivela sicuramente più efficace e adatto al Web. Qui viene

riportato un riferimento al Vector Space Model, che basandosi

sulla rappresentazione vettoriale di query e documenti, seleziona

come maggiormente rilevanti quei documenti che si avvicinano,

a livello testuale e letterale, maggiormente alla query.

Questo concetto di rilevanza è chiaramente inadeguato al Web,

ove l’utente cerca documenti che assomiglino a livello

contenutistico alla loro query. Qui entra in gioco PageRank, che

stila una classifica di importanza dei siti basata

sull’autorevolezza conferita loro dai link. Non è ancora un

approccio basato sul contenuto, ma fornisce perlomeno un

goy

Linea

86

livello di astrazione dei risultati, che non sono più

completamente vincolati alla analisi automatica del testo.

Il sistema di ranking proposto da Google non si basa

esclusivamente sull’algoritmo PageRank, bensì utilizza

quest’ultimo per migliorare la qualità dei risultati. Possiamo dire

che l’algoritmo PageRank venga integrato nel processo di

ricerca, offrendo le sue elevate prestazioni di ranking una volta

che i documenti sono stati già selezionati e immessi nell’indice

con le tecniche di ricerca da noi ormai conosciute. PageRank

costituisce un fattore di quel sistema ben più ampio che parte

dalla query dell’utente, prosegue con l’interrogazione dell’indice

e si conclude con la restituzione di una lista di risultati

all’utente. Un fattore che opera principalmente alla fine di

questo processo, con compiti di ordinamento dei risultati.

PageRank è stato infatti costruito sull’ipotesi secondo cui

un’ulteriore selezione/ordinamento secondo criteri di importanza

di un insieme di documenti preselezionati secondo criteri di

rilevanza avrebbe influito positivamente sulla precision dei

risultati, soprattutto in presenza di un indice molto vasto.

Google maintains much more information about Web documents

than typical search engines. Every hitlist includes position, font,

and capitalization information. Additionally, we factor in hits

from anchor text and the PageRank of the document. Combining

all of this information into a rank is difficult. We designed our

ranking function so that no particular factor can have too much

influence. First, consider the simplest case -- a single word

query. In order to rank a document with a single word query,

Google looks at that document's hit list for that word. Google

considers each hit to be one of several different types (title,

anchor, URL, plain text large font, plain text small font, ...),

each of which has its own type-weight. The type-weights make

up a vector indexed by type. Google counts the number of hits of

goy

Linea

goy

Linea

87

each type in the hit list. Then every count is converted into a

count-weight. We take the dot product of the vector of count-

weights with the vector of type-weights to compute an IR score

for the document. Finally, the IR score is combined with

PageRank to give a final rank to the document49.

Google mantiene molta più informazione sui documenti Web rispetto ai

classici motori di ricerca. Ogni lista di matching50 include informazioni su

posizione, carattere e formattazione. In più, nel calcolo vengono immessi il

matching dell’anchor text e il PageRank del documento. Combinare tutte

queste informazioni in una classifica è difficile. Abbiamo creato la nostra

funzione in modo che nessun fattore abbia troppa influenza. Consideriamo il

caso più semplice – una query di una sola parola. Per assegnare una

posizione a un documento con una query di una sola parola, Google

controlla la lista di matching del documento per quella parola. Google

considera ogni corrispondenza come una dei diversi tipi (titolo, ancora,

URL, caratteri grandi nel testo, caratteri piccoli nel testo, ecc…), ognuna

delle quali ha il suo peso-di-tipo. I pesi-di-tipo individuano un vettore, uno

per tipo. Google conta il numero di match di ogni tipo nella lista di

matching. Poi ogni risultato viene convertito in un peso-di-conteggio.

Eseguiamo il prodotto scalare del vettore dei pesi-di-conteggio per il vettore

dei pesi-di-tipo per calcolare un punteggio di IR per il documento. Infine, il

punteggio di IR vien combinato con il PageRank per assegnare la posizione

definitiva al documento.

Come si evince dagli scritti di Page e Brin, molte sono le

variabili che vengono prese in considerazione nell’analisi

testuale dei documenti: presenza della keyword cercata

all’interno della URL e del titolo; tipologia di formattazione del

testo cercato all’interno del documento; informazioni

ipertestuali contenute nel testo àncora51 (non soltanto in

riferimento alla pagina che lo contiene, ma anche in riferimento

alla pagina cui è diretto). Il sistema di ranking è studiato in

modo che nessuno di questi fattori abbia un’influenza decisiva

rispetto agli altri: vengono costituiti due vettori, uno 49 Cit lett. “The anatomy of a large-scale hypertextual web search engine”, 1997 50 Ci si riferisce, qui, alla corrispondenza della query con i vari parametri considerati da Google. 51 Il testo ancora rappresenta, all’interno di una pagina Web, quel testo cliccabile, che possiede un collegamento ipertestuale. Viene contenuto all’interno dei tag HTML <a > e </a>

goy

Linea

88

rappresentante i valori pesati dei vari parametri, l’altro i valori

pesati di conteggio, il cui prodotto scalare determina un

punteggio IR, per così dire, del documento. Tale punteggio

viene infine combinato col punteggio PageRank della pagina e

costituisce il rank finale del documento.

3.3.6 Debolezze del sistema basato sulla link analysis

Esistono differenti correnti di pensiero riguardo

all’impenetrabilità di PageRank ai tentativi di manipolazione: se

da un lato appare relativamente semplice aumentare il punteggio

di un sito aumentandone artificiosamente i link in ingresso, di

certo è anche vero che Google non è rimasta a guardare di fronte

alla proliferazione di queste ed altre tecniche black hat52. Infatti,

per meglio prevenire potenziali strumentalizzazioni commerciali

di PageRank, l’algoritmo principale è stato integrato con una

serie di algoritmi secondari che ne complicano il reverse-

engineering, vale a dire quelle tecniche empiriche che mirano a

svelare, attraverso un processo induttivo per tentativi ed errori,

l’esatto funzionamento dei meccanismi di ranking di Google in

modo da poterne manipolare liberamente i risultati. Inoltre, per

scoraggiare ulteriormente tali tentativi, Google negli ultimi anni

ha da un lato continuato a rilasciare aggiornamenti migliorativi o

correttivi, dall’altro ha inflitto pesanti provvedimenti ai siti

colpevoli di aver forzato il ranking, ad esempio escludendoli

dall’indice, o, per utilizzare un termine del gergo specializzato,

bannandoli. Sebbene la formula originale di PageRank sia nota

(anche grazie al fatto che l’algoritmo è stato depositato

sottoforma di brevetto), i dettagli tecnici pubblicamente

disponibili sui meccanismi di ranking effettivamente utilizzati

da Google sono volutamente rimasti nell’ombra. Questo

52 Letteralmente, cappello nero. L’espressione si riferisce a quelle tecniche (spesso illegali), volte a compromettere la sicurezza dei sistemi informatici per ottenerne un qualche vantaggio in termini di accessibilità o vantaggio competitivo nei confronti della concorrenza.

goy

Linea

89

atteggiamento da parte degli autori risulta comprensibile in

un’ottica di conservazione di una buona qualità dei risultati e,

indirettamente, dell’esperienza dei suoi utenti. Naturalmente tale

gestione monodirezionale è stata aspramente criticata come

dispotica e celatrice di faziosità da parte di molti addetti ai

lavori, in particolar modo nell’ambito SEO, ove la credibilità

professionale è data dalla capacità di interpretare gli algoritmi

dei motori di ricerca.

Tuttavia, al di là delle posizioni individuali, esaminando la

consecutio dei vari aggiornamenti, è possibile intuire una certa

coerenza nell’evoluzione del sistema di ranking di Google dal

1998 ad oggi. Una coerenza con lo sviluppo del settore della

ricerca sul Web, che si muove da un lato per affinare la lotta allo

spam, dall’altro per risolvere una delle principali lacune emerse

nel corso di questa analisi, che sicuramente non sarà sfuggita a

un occhio attento. Il fatto, ovvero, che la ricerca fino a questo

momento si è curata pochissimo del fattore contenutistico dei

risultati forniti. Certo, il paradigma basato sull’unione tra analisi

testuale e dei link è riuscito nell’intento di offrire risultati

contraddistinti da maggiore rilevanza rispetto alle query,

introducendo un sistema capace di computare automaticamente

l’autorevolezza della fonte. Questo è il cuore del problema: tale

autorevolezza, basata appunto su un criterio arbitrario e “non

intelligente” quale può essere un calcolo matematico, non

garantisce che i primi posti siano occupati dai siti davvero più

rilevanti dal punto di vista semantico, questo sia che l’errore sia

provocato da eventuali manipolazioni esterne, sia da carenze

endemiche del sistema stesso. La risoluzione di tali lacune può

avvenire solo attraverso l’introduzione di fattori che prendano in

considerazione il contenuto come parametro discriminante ai

fini del posizionamento. Le directories seguono già dall’inizio

della loro storia questo tipo di orientamento, ma per raggiungere

l’obiettivo si avvalgono prettamente dell’opera umana. I motori

di ricerca rispondono a loro modo, agendo sulla tecnologia.

90

Esaminiamo dunque questi nuovi sviluppi, prima con i

provvedimenti adottati da Google, poi più in generale nel Web

attuale.

3.4 Gli aggiornamenti

Gli sforzi di Google nell’apportare migliorie al sistema

originario si muovono, come abbiamo appena osservato, nella

duplice direzione di stroncare i tentativi di manipolazione dei

suoi algoritmi e di migrazione verso un sistema che tenga conto

dei contenuti nel calcolo del ranking. Tali sforzi si configurano

sotto forma di aggiornamenti rilasciati periodicamente, che

hanno l’effetto di rimescolare ogni volta l’ordine costituito.

Naturalmente, nel ridefinire le regole del gioco, una percentuale

random di errori si è sempre verificata, per questo motivo il

rilascio degli aggiornamenti è sempre vissuto con una certa dose

di terrore dagli addetti ai lavori, per lo stesso motivo i loro nomi

richiamano eventi naturali di grosse proporzioni. Vediamoli in

successione.

FLORIDA UPDATE - NOVEMBRE 2003

Il 16 novembre del 2003, un aggiornamento che ebbe l'effetto di

un tornado (e quindi 'Florida') fece sparire (o apparire in

1000esima posizione) migliaia di siti.

Allo stesso tempo, i risultati delle pagine di ricerca apparirono

qualitativamente scarsi, con siti mediocri posti alle primissime

posizioni e siti famosi e qualitativamente ottimi scalzati dalle

precedenti posizioni e gettati al fondo dell'archivio.

Fu l'effetto combinato dell'epocale introduzione dello stemming

e della OOP – Over Optimization Penalty, con la quale Google

penalizza quei siti che si avvalgono di una ripetizione esagerata

delle keywords su tutti i meta tag, al fine di migliorare la propria

posizione nella graduatoria. Approfondiremo tale aspetto nel

prossimo capitolo.

goy

Linea

91

AUSTIN UPDATE - FEBBRAIO 2004

Forse meno drammatico del precedente, ma altrettanto

importante. Durante questo update si osservò l'applicazione del

nuovo algoritmo HillTop che, in combinazione con il PageRank,

fornisce risultati più rilevanti per l'utente, ridefinendo un peso

semantico e tematico dei link in uscita e in entrata.

3.4.1 Algoritmo HillTop

Una delle innovazioni principali apportate da Google allo

schema di ranking originario è quella che riguarda

l’incorporazione di tecniche di topic distillation. Queste tecniche

fanno riferimento alle ricerche sull’estrazione di informazioni

tematiche a partire dall’analisi della struttura ipertestuale del

Web.

In particolare la teoria degli hub e authority53 proposta da

Kleinberg (padre dell’algoritmo HITS) è stata utilizzata per

integrare PageRank con algoritmi più sofisticati che tengono

conto dell’informazione tematica (argomenti o topic) che è

possibile inferire dal contenuto delle pagine indicizzate e dalla

struttura dei loro collegamenti.

53 Questa teoria propone uno schema basato sui concetti di authority e di hub, rispettivamente pagine autorevoli per la query che ci interessa e punti focali, cioè pagine che puntano a pagine autorevoli. Questa teoria ha dato origine all’algoritmo HITS (Hyperlink-Induced Topic Search), in cui una pagina con alto valore di hub sarà una pagina che contiene collegamenti a pagine di qualità (ossia con alto valore di authority) e simmetricamente una pagina con un alto valore di authority sarà un pagina puntata da molti buoni hub.

goy

Linea

92

L’algoritmo HillTop, datato 2001, porta la firma di Krishna

Bharat54e rappresenta il tentativo più serio di immettere variabili

tematiche nel calcolo del ranking di Google.

Prima dell'introduzione di HillTop, come sappiamo,

l'assegnazione di un livello di autorevolezza ad un documento

dipendeva esclusivamente dal Pagerank. In poche parole, tutti i

link in entrata, da qualsiasi sorgente, erano ugualmente validi ai

fini della rilevanza di un documento. Ma, se ad esempio un sito

con un alto PageRank in quanto “popolare” e quindi con molti

link in ingresso tratta vari argomenti, ciò non significa che per

ognuno di essi sia autorevole allo stesso modo.

[…] il PageRank ha il limite di non poter distinguere fra pagine

autorevoli in generale e pagine autorevoli relativamente

all’argomento della ricerca. In particolare un sito autorevole in

generale può contenere una pagina che soddisfa una certa

query ma che non è autorevole rispetto all’argomento. 55

HillTop invece, assegna ai link un valore maggiore o minore a

seconda dell'argomento trattato dalla pagina da cui proviene il

link. I link in ingresso provenienti da risorse pertinenti, per

tema, avranno un valore positivo. Quelli invece provenienti da

pagine non correlate, avranno valore minimo.

L’algoritmo HillTop integra le funzionalità di PageRank: ove

quest’ultimo pone attenzione alla qualità e quantità di link che

una pagina Web riceve, l’algoritmo HillTop valuta solamente gli

54 Ingegnere di Google e creatore di Google news. Insieme a George A. Mihaila, Krishna Bharat pubblica nel 2002 “ When experts agree: using non-affiliated experts to rank popular topics”.Khrisna Barat aveva già pubblicato “Improved algorithms for topic distillation in a hyperlinked environment” sulla filtrazione e raffinazione del topic di un documento e “The Term Vector Database: fast access to indexing terms for Web pages” sulla creazione di vettori di termini. 55K.Bharat, “Improved algorithms for topic distillation in a hyperlinked environment”, 2002

goy

Linea

93

inbound link56 da pagine considerate “esperte” sulle ricerche

effettuate dall’utente.

HillTop introduce il concetto di expert sites, utilizzato per

implementare questa distinzione tra i link.

Il requisito fondamentale di un documento esperto è che esso

contenga numerosi link che puntino a pagine correlate alla

ricerca eseguita dall’utente e che non siano affiliate fra loro.

Quindi per prima cosa l’algoritmo HillTop deve saper

distinguere quando due siti diversi appartengono alla stessa

organizzazione. HillTop giudica due siti affiliati fra loro quando

si verifichi almeno una delle due seguenti condizioni:

- I due siti dividono gli ultimi tre ottetti di un indirizzo IP57

- La sezione più a destra e non generica del nome del dominio

è la stessa58.

La relazione di affiliazione è inoltre transitiva, per cui se i siti A

e B sono rilevati come affiliati ed i siti B e C sono rilevati come

affiliati, allora i siti A e C saranno considerati affiliati anche

senza ulteriori “prove a carico” del fatto.

Prima ancora di selezionare i documenti esperti viene costruito

uno specifico indice di affiliazioni fra i vari siti, dove a tutti

quelli che vengono ritenuti affiliati, in base ai criteri già

specificati, viene assegnato uno stesso codice identificativo, per

verificarne velocemente l’affiliazione. Dopo aver creato l’indice

delle affiliazioni viene creato un nuovo indice, quello dei

documenti esperti. Questo indice viene ricavato analizzando il

56 Espressione alternativa di “link in ingresso”. 57 Tale fatto presuppone la probabilità che i due siti appartengano alla stessa organizzazione, dal momento che gli indirizzi IP vengono assegnati in tranche alle varie organizzazioni che ne fanno richiesta.

58 Per esempio comparando "www.ibm.com" e "www.ibm.co.mx" vengono ignorati i suffissi “.com” e “.co.mx”, per cui le sezioni più a destra, delimitate da un punto risulteranno essere “ibm” in entrambi i casi e i due siti saranno considerati affiliati.

goy

Linea

94

database principale del motore ed estraendone i documenti che

vengono considerati buone sorgenti di link tematizzati, partendo

da quelli che hanno un numero di link in uscita superiore ad una

determinata soglia. Questi vengono confrontati con l’indice

delle affiliazioni: se i link in questione puntano a siti non

affiliati, allora il documento è considerato un documento

esperto.

Nella fase d’analisi dei documenti esperti, l’algoritmo HillTop

esamina solo alcune parti di essi, parti che nel gergo specifico di

questo algoritmo sono chiamate “frasi chiave”. Le frasi chiave

di HillTop non hanno niente a che vedere con le keywords

utilizzate dagli utenti per effettuare una ricerca. La definizione

di frase chiave nell’ambito di HillTop è una parte di testo che

qualifica uno o più link in uscita. HillTop associa ad ogni link in

uscita alcune frasi chiave presenti in specifiche parti della

struttura del documento:

-Il testo contenuto nel tag title del documento viene associato a

tutti i link in uscita;

-Il testo contenuto nelle intestazioni (per esempio fra i tag

<h1></h1>) viene associato a tutti i link in uscita successivi al

tag fino a che nel codice del documento non viene trovata una

intestazione di uguale o maggiore importanza;

-Il testo contenuto nell’àncora o nel title di un link invece viene

associato esclusivamente a quel link.

I documenti esperti sono inseriti in uno speciale indice inverso

organizzato per keyword, nel quale esiste un record per ogni

associazione fra una keyword ed una frase chiave di un

documento esperto.

Quando l’utente esegue una ricerca, l’algoritmo seleziona una

lista di documenti esperti rilevanti rispetto ad essa. Per essere

goy

Linea

95

considerato rilevante rispetto ad una ricerca, il documento

esperto deve contenere almeno un link che abbia tutte le parole

della ricerca nelle frasi chiave che lo qualificano.

Ai documenti esperti viene assegnato un punteggio basato sul

numero, sul tipo di frasi chiave (tag title, intestazione, ecc.)

contenenti le keywords della ricerca e sulla percentuale di testo

che le keywords rappresentano all’interno di ogni frase. I

duecento documenti con punteggi più alti vengono scelti come

documenti esperti per la ricerca in questione.

A questo punto l’algoritmo HillTop esamina tutti i documenti a

cui puntano i link contenuti negli esperti selezionati ed estrae

tutti quelli che ricevono un link da almeno due esperti non

affiliati fra loro. Questi documenti sono definiti bersagli e sono

quelli che saranno ordinati nei risultati che verranno forniti agli

utenti.

Ogni associazione fra una frase chiave contenuta in un esperto e

un documento bersaglio trasmette a quest’ultimo un punteggio

proporzionale a quello del documento esperto. La sommatoria

dei punteggi ricevuti dai documenti esperti corrisponderà al

punteggio finale del documento bersaglio.

Per un corretto funzionamento tale algoritmo ha comunque la

necessità di considerare un alto numero di documenti esperti, in

caso contrario il suo utilizzo è inefficace. Ciò comunque

rappresenta un limite relativo, in quanto su chiavi di ricerca non

molto popolari sarà meno necessaria la consultazione di

documenti esperti ai fini dell’ordinamento e HillTop non verrà

utilizzato.

E’ importante sottolineare che, per quanto l’algoritmo HillTop

introduca una componente per così dire semantica nel calcolo

goy

Linea

96

del valore delle pagine Web, nel senso che considera l’attinenza

tematica come una variabile importante della risposta alle query,

esso rimane in continuità con PageRank in quanto è anch’esso

un algoritmo basato sull’analisi dei link. La differenza tra i due

consiste semmai sul tipo di autorevolezza derivata dall’analisi,

basata sugli inbound link in PageRank, basata sul contenuto in

HillTop.

3.4.2TrustRank

L’introduzione di questo algoritmo ha seguito un iter svincolato

dall’Austin update, tuttavia il suo obiettivo finale rientra nei

tentativi effettuati in questo periodo per eliminare lo spam dagli

indici. TrustRank si basa infatti sullo studio “Combating Web

spam with TrustRank”59 firmato da alcuni ricercatori del

dipartimento di Computer Science della Stanford University,

pubblicato nel 2004 dallo Stanford Daily Newspaper e

aggiornato il 27 febbraio 2005. Lo scopo del TrustRank è quello

di distinguere, attraverso l’implementazione di un algoritmo

ricorsivo, i siti e le pagine Web utili dallo spam. Il

funzionamento di TrustRank è basato su una procedura

algoritmica integrata con l’intervento umano. La lettura

successiva chiarirà meglio questo concetto.

TrustRank opera, in parole povere, sull’individuazione di un

nucleo molto ristretto di siti, selezionati in base al loro status di

siti non dediti allo spam, alla loro fiducia per utilizzare il

concetto che dà il nome all’algoritmo, e alla successiva,

proporzionale propagazione di tale fiducia, attraverso i link, agli

altri siti che compongono la rete. Negli obiettivi dei suoi

ideatori, tale algoritmo si configura come un metodo per

promuovere nelle graduatorie i siti con un elevato punteggio di

59 Gyongyi, Garcia-Molina, Pedersen,“Combating Web Spam with TrustRank”, 2004.

goy

Linea

97

fiducia, dunque scevri di spam e distanti più link possibile dai

siti spam.

L’implementazione dell’algoritmo si articola in tre tappe

fondamentali:

1)La selezione automatica di un insieme molto piccolo di

pagine, dette seeds, delle quali non sia ancora stato verificato lo

status di spam;

2)La disamina, da parte di un essere umano, di tutte le pagine

appartenenti all’insieme e la successiva divisione in “buone”

(pagine che non effettuano spam) e “cattive” (pagine che

effettuano spam).

3)La processazione, da parte dell’algoritmo, dell’intero indice

del motore di ricerca e l’assegnazione a ciascuna pagina che vi è

contenuta di un punteggio di fiducia, basato sul grado di

vicinanza alle pagine seme “buone” nel grafo del Web.

Partiamo con la selezione dei seeds. Nell’implementazione

dell’algoritmo, una delle questioni più pressanti per gli ideatori è

stato il limite di grandezza dell’insieme delle pagine seme,

necessario per minimizzare il ricorso all’intervento umano (detto

Oracolo), dispendioso sia in termini di tempo sia di risorse.

Nello stesso tempo, vi era la necessità di selezionare pagine che

consentissero una buona propagazione della fiducia, attraverso i

loro link in uscita, verso il maggior numero possibile di pagine

buone e rilevanti. Dunque pagine ricche di link in uscita.

La soluzione più intuitiva e naturale è quindi divenuta il calcolo

del “PageRank inverso”, basandosi il punteggio di questo sui

link in uscita di ciascuna pagina. La prima fase per la selezione

delle pagine seme da sottoporre alla valutazione dell’Oracolo è

dunque consistita nel calcolo del PageRank inverso di tutte le

pagine dell’indice del motore utilizzando il solito damping

factor già incontrato in precedenza (corrispondente a 0,85) ed

goy

Linea

98

effettuando 20 iterazioni che hanno permesso di ottenere un

risultato sufficientemente stabile.

Una volta calcolato il PageRank inverso di tutti i siti, i punteggi

ottenuti sono stati ordinati in una graduatoria, che attraverso

successive scremature (ad esempio, filtraggio di contenuti

duplicati) è andata a costituire il nucleo di pagine seme, 1250 in

totale, sottoposte all’esame dell’Oracolo. Di questi, 178 sono

stati riconosciuti come esenti da spam e hanno formato l’insieme

delle pagine seme buone. I criteri di selezione dell’Oracolo sono

stati estremamente rigorosi, infatti i siti scelti non risultavano

soltanto esenti da spam, ma erano anche siti chiaramente

riconducibili ad istituzioni. Questo ultimo accorgimento è stato

preso per garantire longevità all’insieme delle pagine seme,

ipotizzando che i siti gestiti da una qualche organizzazione (ed i

loro contenuti) siano più “stabili” e coerenti a medio-lungo

termine.

Dal punto di vista matematico, viene invece naturale chiedersi

come sia stato possibile differenziare nell’algoritmo le pagine

buone da quelle spam. Ebbene, ciò è stato implementato

semplicemente inserendo nella formula una variabile che

chiameremo F, come fiducia, che può assumere due valori in

base allo status della pagina: 1 per le pagine buone, 0 per quelle

spam.

A questo punto, restava da implementare un meccanismo di

propagazione della fiducia attraverso i nodi del grafo: un sistema

che tenesse conto di due presupposti fondamentali assunti degli

autori dello studio. Il primo prevede che non vi siano link dai

seeds selezionati verso pagine spam; il secondo che più ci si

allontana dall’insieme di pagine seme buone e più aumenta la

probabilità di trovare un link ad una pagina spam. Il sistema che

ha realizzato tali presupposti prende il nome di trust attenuation

e consiste dunque in una progressiva diminuzione della quantità

di fiducia trasmessa da un link all’altro, proporzionale

goy

Linea

99

all’allontanamento del link dal nucleo originario. Per effettuare

tale operazione, si sono prese in considerazione due strade.

Nella prima, chiamata trust dampening, lo smorzamento della

fiducia (testualmente) viene calcolato in maniera esponenziale.

Esaminando la figura 16A, la pagina 1 appartiene all’insieme

originario e contiene un link che punta alla pagina 2 alla quale

passa un valore di fiducia β minore di 1. Alla pagina 3 che

invece è raggiungibile direttamente dalla pagina 2 viene

trasmesso un valore di fiducia uguale a β*β e via dicendo. Nel

caso in cui le pagine ricevano fiducia da link multipli, può

essere assegnato ad esse il valore maggiore trasmesso da una

singola pagina oppure una media di tutti i valori.

Figura 16 a-b Metodi di propagazione della fiducia

La seconda possibilità, illustrata in figura 16B, prende il nome

di trust splitting (slittamento) e si traduce in una trasmissione

della fiducia commisurata al numero di outbound link presenti

su una pagina. Tale metodo si basa sull’assunto (discutibile se

goy

Linea

100

vogliamo) che la qualità di un link sia inversamente

proporzionale al numero di link presenti sulla pagina. Quindi se

una pagina ha un valore di fiducia T e contiene ω link ad altre

pagine, ad ognuna di queste sarà trasmesso un valore di fiducia

uguale a T/ω.

Nella figura 16B la pagina 1, appartenente all’insieme

originario, contiene due link in uscita, così assegna a ciascuna

delle pagine a cui punta un valore pari a 0,5 (la metà della sua

fiducia). Anche la pagina 2 appartiene allo stesso insieme, ma

contiene tre link in uscita, quindi trasmette a ciascuna delle

pagine a cui punta un valore pari a 0,333 (un terzo della sua

fiducia). La pagina 3 riceverà quindi una fiducia totale pari a

0,5+0,333=0,833.

I due approcci appena descritti possono anche essere combinati.

In questo caso, sempre riferendosi alla figura 16 la pagina 3

riceverebbe un punteggio di β*(0,5+0,333).

Esaminiamo dunque la formula del TrustRank.

dove

- TR(A) è il TrustRank della pagina A;

- TR(T) è il TrustRank delle pagine Ti che linkano alla

pagina A;

- C(docN) è il numero di link verso altri siti (outbound)

contenuti dalle pagine Ti;

- d è il damping factor, o fattore di attenuazione uniforme;

TR(T1) TR(Tn)

TR(A)= (1-d) + d * F * ---------- + … + ---------- C(T1) C(Tn)

goy

Linea

101

F è il valore della fiducia, assegnato manualmente nella fase

precedente: 1 nel caso di siti “buoni” e 0 in caso di spam.

Gli ideatori dell’algoritmo hanno sperimentato il funzionamento

dell’algoritmo TrustRank sull’indice di Altavista nell’Agosto

2003. Visto il successo ottenuto dall’esperimento, nel marzo del

2005 la tecnologia è stato brevettata e incorporata da Google.

Nel 2005 la tecnologia TrustRank è stata brevettata e

incorporata da Google. La sua introduzione si configura come

uno degli sforzi di maggior successo per la lotta di Google allo

spam, di fatto è ammissione di tutti gli addetti ai lavori la

maggiore pulizia delle pagine dei risultati dai siti spam.

E’ tuttavia da annotare, come sottolineato dal partito dei suoi

detrattori, che il ricorso all’algoritmo TrustRank costituisce una

piccola sconfitta di Google contro lo spam: è la prima incoerente

concessione all’intervento umano di un motore di ricerca che per

sua stessa ammissione ha sempre puntato su procedure

automatizzate. Più che di debolezza, questo appare un segno di

elasticità mentale di fronte alle minacce apportate dallo spam

alla pulizia dei risultati.

JAGGER UPDATE - OTTOBRE NOVEMBRE 2005

E' l'ultimo aggiornamento in ordine di tempo, suddiviso in due

parti (Jagger part I e Jagger part II60). I provvedimenti che fanno

parte di questo update non fanno altro che confermare

l’orientamento di Google verso la lotta allo spam content e alla

manipolazione dei risultati e il perseguimento di graduatorie

basate sulla pulizia dei contenuti. Ad alcuni questa posizione

assunta dal motore di ricerca potrebbe apparire come un cambio

60 Secondo alcune fonti tale update consta anche di una terza parte, Jagger part III. (http://www.webmasterworld.com)

goy

Linea

102

di rotta rispetto agli inizi, ove l’importanza di un sito veniva

decretata unicamente dai link in ingresso. In realtà la nostra

analisi dimostra che quello di Google è stato solamente un

continuo adeguarsi alle sfide imposte dall’evoluzione del Web:

Brin e Page hanno trovato un buon sistema (quello basato sulla

link analysis e su PageRank) per ordinare i documenti del Web;

poi di fronte ai tentativi di manomissione dell’oggettività di tale

sistema, pur mantenendone la stabilità della struttura, hanno

virato verso un approccio basato sul contenuto, seguendo e

contribuendo ai cambiamenti del Web in questa direzione. In fin

dei conti è sempre stata una lettura intelligente dell’evolversi

delle cose, che ha permesso a Google di dominare la scena dei

motori di ricerca (e non solo) dai suoi esordi fino ai nostri

giorni.

Passando alle novità pratiche introdotte nel Jagger update, esse

riguardano la penalizzazione da parte del motore di ricerca di

tecniche considerate scorrette, atte ad innalzare il PageRank.

Una di queste consiste nelle link farms. Le link farms sono

gruppi di siti che si accordano, mediante apposite pagine, la cui

funzione unica funzione è quella di raccogliere links, per

scambiare links con gli altri membri, ricevendo links in cambio

dagli stessi. Oltre alle link farms sono stati penalizzati siti con

grandi quantità di links scambiati, per cui possiamo affermare

che l’update Jagger abbia decretato la morte ufficiale della

tecnica di scambio links come strategia di incremento del

PageRank.

Altra categoria penalizzata da questo aggiornamento riguarda i

cosiddetti mini-siti o mini-networks. La strategia utilizzata in

questo caso implica un crescente numero di siti Web diversi che

linkano tra loro per dare ai motori di ricerca l’impressione che il

sito leader (bersaglio di tutti i link) sia più popolare e quindi più

importante del suo reale valore.

goy

Linea

103

Infine è stata decisa una canonicalization61 per eliminare le URL

duplicate. Tale processo ha sancito la scelta definitiva di un

nome unico per una risorsa. Come tutti sanno, esistono svariati

modi di richiamare una risorsa Web. Ad esempio:

http://www.pippo.com

http://pippo.com

http://www.pippo.com/index.htm

vengono a partire da questo aggiornamento considerati come

un’unica risorsa, invece che tre duplicate62.

3.5 Nuovi orizzonti della ricerca sul Web

Abbiamo fin qui analizzato il modo in cui i sistemi di IR siano

stati integrati nei motori di ricerca, raffinati ed affiancati da

nuove tecnologie più adatte a selezionare i contenuti ricercati

dall’utente. Abbiamo constatato come nell’ultimo ventennio i

progressi ottenuti nel settore vadano ben oltre l’immaginabile;

inoltre alle minacce portate all’integrità dei sistemi di ricerca,

sono state contrapposte efficaci contromisure.

Ma il Web è un ambito in continuo mutamento, crescono le sue

potenzialità e con esse evolvono anche i bisogni informativi di

chi lo utilizza. D’altronde le nostre vite sono sempre più

indissolubilmente legate a Internet, che ormai ricopre un ruolo

fondamentale in qualsiasi nostra attività, dalla quotidianità

professionale, all’universo relazionale, dalla formazione alla

sfera informativa, all’intrattenimento e via dicendo. In un

61 In informatica, tale termine indici il processo di conversione di dati che hanno più possibili rappresentazioni in una rappresentazione “standard” canonica.

62 Questo poiché i tre URL appartengono allo stesso dominio (pippo.com) e rappresentano tutti e tre la homepage dell’immaginario sito.

goy

Linea

104

orizzonte di questo genere, è assolutamente imprescindibile un

miglioramento delle tecnologie di ricerca, che devono essere

sempre più precise, più veloci, pronte a consegnarci a richiesta

esattamente la risorsa che stiamo cercando. Tale possibilità non

è solo un’utopia. Certo, è ancora molto lontana dall’essere

raggiunta, ma le energie nel campo della ricerca sono

attualmente impegnate nel raggiungimento di questo obiettivo

nel più breve tempo possibile. Come? Lo vedremo in questi

paragrafi conclusivi.

3.4.1 Il Web semantico

All’origine della migrazione dei motori di ricerca verso un

approccio che privilegi la qualità dei contenuti, vi è certamente

la motivazione logica sopra descritta, che contempla la necessità

di rispondere alle esigenze di precisione e velocità degli utenti,

filtrando contemporaneamente il rumore (spam, contenuti

duplicati, documenti di scarso interesse). Molto è già stato fatto

in questa direzione, ma l’evoluzione si fermerebbe qui senza un

progetto ad ampio respiro, che miri alla perfezione della ricerca.

La ricerca si configura sempre più come vera e propria

interfaccia di navigazione, alla quale gli utenti si rivolgono non

più come a un oracolo (com’era agli albori), ma come a una

segretaria personale alla quale si richieda di organizzare molti

aspetti della propria vita, presumendo che essa sappia muoversi

con relativa autonomia a partire dall’analisi dei nostri click

precedenti. Questa iperbole rappresenta le aspettative che gli

utenti probabilmente avranno dall’ambito della ricerca in un

futuro non molto lontano. Senza un’infrastruttura del Web che

assecondi tali possibilità, o perlomeno ne prospetti la

realizzazione, ciò sarebbe impossibile, probabilmente anche solo

da pensare. Questa infrastruttura concettuale si chiama Web

semantico, nasce ufficialmente nel 2001 da un’idea che viene

goy

Linea

105

universalmente attribuita a Tim Berners-Lee, ma che in realtà è

stata solamente definita da quest’ultimo in un famoso articolo

sullo Scientific American. Si può infatti affermare che il Web

semantico è un progetto che appartiene all’intera collettività di

Internet.

[…]il Web Semantico è un’estensione di quello attuale, in cui

alle informazioni viene attribuito un significato definito, che

permette a computer e utenti umani di lavorare meglio insieme.

[…] darà struttura al contenuto significativo delle pagine Web,

creando un ambiente dove gli agenti software possano svolgere

velocemente compiti complessi per i loro utenti63

In breve, esso consiste nella trasformazione del Web in un

ambiente in cui i documenti (pagine HTML, file, immagini, e

così via) contengano informazioni e dati (metadati) che ne

definiscano il contesto semantico in un formato adatto

all'interrogazione, all'interpretazione e, più in generale,

all'elaborazione automatica.64

Abbiamo già accennato a questo argomento nel primo capitolo,

lo riprendiamo qui per comprenderne a fondo le conseguenze

per lo scenario della ricerca attuale e futuro.

L’implementazione del Web semantico presuppone che

qualsiasi dato sul Web sia corredato da metadati che ne

descrivano il contenuto, di modo che l’elaboratore ne possa

comprendere la natura. Tale possibilità costituisce già una realtà

grazie al linguaggio di marcatura XML (eXtensible Markup

Language) L’ XML permette la creazione di marcatori (tag),

all’interno dei documenti, in grado di definire una struttura

coerente, non ambigua, che rifletta lo specifico dominio

63 Tim Berners –Lee,The Semantic Web, Scientific American Magazine, maggio 2001. (http://www.sciam.com/article.cfm?id=the-semantic-web) 64 it.wikipedia.org/wiki/Web_semantico

goy

Linea

106

semantico del documento. Ad esempio, una possibile

descrizione XML di Mario Rossi potrebbe essere la seguente:

<rubrica>

<nome>Mario</nome>

<cognome>Rossi</cognome>

</rubrica>

L’XML è però di per sé insufficiente affinché l’elaboratore

possa comprendere le relazioni semantiche tra i dati e i loro

descrittori. Con XML possiamo dire che il contenuto di <nome>

dovrà essere una stringa di caratteri, e non una serie di numeri o

altri nodi XML, ma non possiamo definire cosa sia un nome.

b

Ci vuole un ulteriore passo avanti, quello che ci permette di fare

una particolare applicazione XML, chiamata RDF. L’RDF, o

Resource Description Framework, è stato specificatamente

creato, secondo una raccomandazione del W3C65, per la

descrizione dei metadati relativi alle risorse, al fine di

permettere la condivisione di informazioni sul Web. Esso

standardizza la definizione di relazioni tra informazioni

ricorrendo agli strumenti tipici del Web (ad es. URI, le risorse).

Tali relazioni, dette statements (asserzioni), consistono in

associazioni di una proprietà con una risorsa, attraverso

espressioni “soggetto-predicato-oggetto”.

Di fatto RDF consente una descrizione del contenuto semantico

delle risorse e una relazione tra loro.

Con RDF possiamo dire alla macchina qualcosa del tipo "esiste

un animale di tipo uomo con nome Mario"; "animale" e "uomo"

sono classi di risorse, di cui Mario è un’istanza.

65 Associazione fondata nel 1994, da Tim-Berners-Lee, al Massachusset Institute of Technlogy, in collaborazione con il CERN (il laboratorio dal quale egli proveniva), con il nome di World Wide Web Consortium (abbreviato W3C), con lo scopo di migliorare gli esistenti protocolli e linguaggi per il WWW e di aiutare il Web a sviluppare tutte le sue potenzialità. (www.w3.org)

goy

Linea

107

Pur essendo un linguaggio potente per la rappresentazione della

conoscenza, tuttavia RDF non ha alcun modo di operare

inferenze o deduzioni. È necessario infatti un ulteriore gradino

che consenta di "ragionare" sul significato. Questo è possibile

grazi all'uso delle cosiddette ontologie. Un’ontologia, termine

preso in prestito dalla filosofia, rappresenta in questo caso un

documento o file che definisce formalmente le relazioni tra i

termini di un determinato campo del sapere umano. Queste

ontologie sono formate da una parte tassonomica, che definisce i

concetti e li mette in relazione gerarchica tra loro, e da una serie

di regole di deduzione, che permettono al computer di effettuare

inferenze in base alle necessità espresse dall’utente. Nel progetto

originario del Web semantico le ontologie, collegate alle pagine

Web tramite link, permetteranno al motore di ricerca (logico) di

interpretare semanticamente le nostre richieste e fornirci liste di

risultati sempre più aderenti all’obiettivo della nostra ricerca.

3.4.2 Agenti intelligenti?

La reale potenzialità del Web semantico si realizzerà quando le

persone avranno creato molti programmi in grado di

raccogliere contenuti Web da fonti diverse, di elaborare le

informazioni e scambiare i risultati con altri programmi.

L’efficacia di simili agenti software aumenterà in modo

esponenziale quanti più contenuti leggibili per le macchine e

servizi automatizzati (che includono altri agenti) saranno

disponibili. 66

La realizzazione del Web semantico contempla, oltre alla

costruzione dell’infrastruttura basata su RDF e ontologie, anche

la creazione di agenti software “intelligenti”, ossia programmi

che raccolgano informazioni da diverse fonti nel Web, in grado 66 Tim Berners –Lee,The Semantic Web, Scientific American Magazine, maggio 2001. (http://www.sciam.com/article.cfm?id=the-semantic-web)

goy

Linea

108

sia di rielaborarli sia di scambiare i risultati con altri programmi.

Software con una certa autonomia, capaci di farsi un’idea degli

obiettivi del loro utente a partire dalla sua localizzazione

geografica, dal suo social network, dalle sue scelte precedenti,

capaci di tradurre i click in "query semantiche", grazie all'uso di

ontologie, di offrirgli esattamente, e solamente, i dati che stava

cercando.

Tali scenari possono apparire come fantascienza, eppure molte

delle cose che abbiamo finora descritto sono già in atto. Il Web

semantico viene spesso associato alla ricerca sull’intelligenza

artificiale (knowledge representation e reasoning), poiché a ben

vedere la sua piena realizzazione implica la comprensione da

parte delle macchine delle intenzioni di ricerca dell’utente,

trasformando la stessa in un’attività quasi passiva.

In realtà, la ricerca svolta nell’ambito dell’intelligenza artificiale

è solo una faccia della medaglia del Web semantico. L’altra

faccia è rappresentata da un’approccio

“partecipativo/collaborativo”, che presuppone una creazione dal

basso, che coinvolge la partecipazione degli stessi utenti.

D’altronde, il Web semantico altro non è che “una maniera di

descrivere le cose in modo che il computer le possa capire”67.

Molto si sta muovendo da questo punto di vista: l’ulteriore

slancio all’ampliamento del Web dato dalla proliferazione dei

blog ha registrato una forte tendenza a un’etichettatura

spontanea di qualsiasi contenuto, tendenza dimostrata da

fenomeni quali il tagging68 e le folksonomie69.

67 Paul Ford, “August 2009: how Google beat Amazon and eBay to the semantic Web”, 2002

68 L'attività di tagging consiste nell'attribuzione di una o più parole chiave, dette tag, che individuano l'area tematica di un certo documento o file. È un'attività sempre più diffusa su tutti i siti per catalogarli meglio e proporre altre informazioni correlate agli utenti. Molti software per gestire blog supportano gli standard che si sono sviluppati attorno ai tags, in modo che gestendo contenuti si memorizzino subito le parole chiave.

69 Neologismo derivato dall’inglese folksonomy che descrive una categorizzazione collaborativa di informazioni mediante l'utilizzo di parole chiave (o tag) scelte liberamente. La folksonomia produce risultati che riflettono in maniera più definita l'informazione secondo il modello concettuale della popolazione di riferimento.

goy

Linea

109

La nascita di una sorta di intelligenza collettiva, che partecipa

alla costruzione di un Web meglio strutturato, potrebbe

semplificare di molto la realizzazione del Web semantico e

l’implementazione degli agenti intelligenti.

Tale scenario coinvolge da vicino, come abbiamo visto,

l’evoluzione dei motori di ricerca, che preparano l’avvento del

Web semantico lavorando su una presentazione dei risultati

sempre più attenta alla qualità concettuale e alla

categorizzazione tematica dei contenuti.

E il SEO come reagisce a queste trasformazioni? Nel corso degli

ultimi anni, questo è stato il settore non-accademico

maggiormente interessato dai cambiamenti avvenuti nell’ambito

dei motori di ricerca, spesso vivendo in contrasto con gli stessi,

in alcuni casi macchiandosi di pratiche scorrette per raggiungere

gli scopi prefissati. Nel prossimo capitolo vogliamo utilizzare le

conoscenze emerse da questa approfondita analisi del mondo

della ricerca ed applicarle al SEO, indicandone un possibile

approccio collaborativo con i motori di ricerca, nell’ottica di un

riconoscimento come processo cognitivo prima che come

attività commerciale.

goy

Linea

110

CAPITOLO IV

4.0 Introduzione

La panoramica che abbiamo fatto nei capitoli precedenti

sull’ambito della ricerca sul Web può considerarsi come una

grossa introduzione all’argomento di cui ci occupiamo in questo

capitolo conclusivo. Comprendere le logiche del funzionamento

dei motori di ricerca, partendo dalle sue radici, risiedenti nell’IR

e via via avvicinandoci alle tecnologie più attuali, ci permette,

da un lato, di avere le idee più chiare su quanto si cela sotto le

maschere di ricerca che utilizziamo quotidianamente,

trasformandoci in utenti più consapevoli e in grado di utilizzare

più sapientemente il potente strumento a nostra disposizione. Il

Vector Space Model ci insegna, ad esempio, che fornire più

chiavi di ricerca quando effettuiamo una query, aumenta le

possibilità di raggiungere più in fretta la risorsa cercata, dal

momento che l’eventuale co-occorrenza dei termini sullo stesso

vettore restringe il numero di documenti che rispondano alla

ricerca effettuata.

Dall’altro lato, l’indagine sui criteri di classificazione dei

documenti sui motori di ricerca è uno strumento imprescindibile

per chi voglia ottenere visibilità sugli stessi. E’ esattamente a

questo tipo di esigenza che risponde un settore emerso con

sempre maggiore evidenza negli ultimi anni: il SEO.

Acronimo di Search Engine Optimization, a cavallo tra

informatica e marketing, il SEO si occupa principalmente di

operare sui siti dei propri clienti, facendo in modo che essi

emergano nelle graduatorie dei principali motori di ricerca

(espressione che attualmente ha il suo sinonimo in Google). Tale

attività si traduce in pratica in tre direzioni operative:

111

– analisi sul sito cliente, in modo da coglierne gli SWOT70

e individuarne le strategie per implementare un piano di

comunicazione efficace;

– ottimizzazione del codice delle pagine che compongono

il sito, al fine di renderlo “Google friendly”;

– promozione del sito attraverso i canali pubblicitari

presenti sul Web, con l’obiettivo finale di raggiungere

una posizione stabile e idonea alle aspettative del cliente.

L’attività di SEO ha sin dalla sua nascita vissuto un rapporto

conflittuale con il mondo dei motori di ricerca e con quello

accademico. Vi sono due motivazioni principali all’origine del

conflitto: la prima, introdotta nel capitolo precedente, riguarda

l’accusa, mossa dal SEO ai motori di ricerca (intendiamo anche

qui Google), di gestire le proprie graduatorie e algoritmi in

modo dispotico e incurante delle ripercussioni sui siti, in termini

economici e di visibilità, degli aggiustamenti periodicamente

effettuati.

In direzione opposta, la seconda ragione riguarda la diffidenza

dei motori di ricerca nei confronti dell’attività SEO, in parte

giustificata dall’utilizzo di alcune tecniche scorrette, etichettate

con la denominazione di black hat SEO, considerate alla stregua

dello spam nell’intento di manipolazione delle graduatorie.

Nel corso degli anni le reciproche posizioni si sono un po’

ammorbidite, in virtù della riduzione al minimo dell’ efficacia

delle tecniche scorrette, risultato della crescente impermeabilità

dei motori di ricerca allo spam e alla lenta ma inesorabile

avanzata del paradigma semantico. Oggi appare perlomeno più

semplice, navigando per il Web, distinguere tra SEO affidabile e

attività atte alla “circonvenzione di incapaci”.

A parte i claims ridondanti e improbabili che si accompagnano a

queste ultime (primo sui motori di ricerca in 10 giorni, e

70 L’analisi SWOT è utilizzata in ambito pubblicitario ed economico, all’atto della pianificazione strategica e di comunicazione riguardante un determinato prodotto. L’acronimo è formato dalle iniziali degli elementi presi in considerazione durante l’analisi: Strenghts (punti di forza), Weaknesses (punti deboli), Opportunities (opportunità) e Threats (minacce) per il prodotto in questione.

112

simili…), la differenza tra i due consiste principalmente nel fatto

che se nel primo caso si parte da un background teorico simile a

quello da noi costruito nei capitoli precedenti, in costante

aggiornamento, la cui applicazione è frutto di un’analisi mirata

alla situazione e consapevole, nel secondo caso si tratta della

mera ripetizione di trucchetti informatici, che non tengono

minimamente conto del contesto in cui vengono applicati e

rischiano di produrre più danni (penalizzazioni, esclusione dagli

indici) che benefici.

Ora, pur non rientrando tra gli obiettivi né tra le ambizioni di

questo lavoro quello di giudicare la validità e la liceità di tali

attività, possiamo tuttavia affermare che un’ottimizzazione

conforme alle norme del W3C e alle guidelines71 di Google sia

attualmente l’unico atteggiamento costruttivo e collaborativo

nell’ottica evolutiva di un Web ove la ricerca diventi davvero

perfetta. Sulla rete il dibattito è apertissimo, tra chi si erge a

difesa di un SEO eticamente corretto, che segua le direttive

sopra indicate (white hat SEO), e portavoci e simpatizzanti del

black hat SEO, i quali sostengono che essendo Google

un’azienda privata, che dunque cura i propri interessi economici,

anche le attività ad essa legate possano fare altrettanto, curando

quelli dei propri clienti, anche a costo di forzare i meccanismi

del motore di ricerca.

Qui ci poniamo da un punto di vista diverso. La nostra presa di

posizione in favore di un SEO conforme alle regole non è dettata

né da un atteggiamento di stolida prostrazione nei confronti di

Google, di cui naturalmente riconosciamo le logiche di profitto,

né da una forma di moralismo di fronte alle pratiche black hat

SEO, le cui motivazioni economiche sono altrettanto ovvie e

71 Le guidelines sono un insieme di raccomandazioni sviluppate sistematicamente, sulla base di conoscenze continuamente aggiornate e valide, redatto allo scopo di rendere appropriato e ad un elevato standard un comportamento. Non si tratta di procedure obbligatorie (come protocolli o codici), ma di norme di riferimento. (http://it.wikipedia.org/wiki/Linea_guida)

113

ammissibili. Tuttavia, qui noi parliamo di evoluzione della

ricerca. La ricerca perfetta, quella prevista nel Web semantico,

non può ottenere la sua piena realizzazione in presenza di

contenuti fuorvianti e manipolazioni del sistema. D’altronde, le

pratiche eticamente scorrette, oltre a rallentare questo processo

comunque inesorabile, perché partito dal basso, non sortiscono

comunque effetti se non sul breve periodo. La rapidità effimera

di questi risultati piace ai clienti (che ottengono effetti

immediati) e alle stesse aziende (che così possono fare più

contratti con lo stesso cliente), ma avrà chiaramente vita breve

nel momento in cui le aziende che si affidano al SEO diverranno

più scaltre e lungimiranti, comprendendo che ciò che paga è la

persistenza di determinati risultati.. Tale persistenza può essere

raggiunta solo attraverso il rispetto di queste regole standard,

condivise dai motori di ricerca, dagli utenti e dal SEO.

Dunque, il nostro atteggiamento è guidato semplicemente dalla

volontà di dare da un lato dignità scientifica, universalità e

riconoscibilità al SEO, dall’altro dalla consapevolezza che

l’evoluzione della ricerca e la strada verso il Web semantico

passa dall’accettazione di questi standard.

Non è detto che Google esisterà per sempre. Tante start-up72 la

incalzano quotidianamente, ma gli standard sopravvivranno

all’eventuale tramonto di Google, perché permetteranno la

costruzione di un’infrastruttura del Web in un “linguaggio”

condiviso, indipendente dunque dalla piattaforma che ne

analizzi i dati.

Vediamo allo stato attuale delle cose quali sono questi standard

e quali sono le specifiche per effettuare un’attività di SEO

conforme alle regole. Ma prima, è necessaria una breve

premessa metodologica.

72 Le start-up companies sono, nel gergo economico, aziende appena costituite che presentano un alto rischio, ma anche grandi prospettive di guadagno, in virtù dei pochi capitali utilizzati e della rapidità di espansione dei settori in cui solitamente operano (le information technologies in primis).

114

L’attività di SEO, che ha ormai radici decennali, ha seguito un

percorso evolutivo di continuo e progressivo adeguamento alle

linee guida e ai nuovi algoritmi dei motori di ricerca. Il SEO

rappresenta da questo punto di vista il primo test importante per

ogni aggiornamento degli algoritmi e ogni novità introdotta dai

motori.

Nella descrizione delle tecniche che compongono questa branca,

abbiamo deciso di seguire una prospettiva di trattazione per

argomento, piuttosto che una storica. Consapevoli del fatto che

ciò sia in contrasto con la metodologia adottata finora, alla base

di questa decisione vi è la convinzione che un’approccio di

questi tipo permetta di presentare la materia in maniera più

organica, senza perderne di vista le dimensioni temporali e i

rapporti con l’evoluzione dei motori di ricerca.

4.1 Search engine optimization

Possiamo far risalire la nascita dell’attività di SEO

all’introduzione dell’algoritmo PageRank. Fino a quel momento,

il posizionamento nelle graduatorie dei motori di ricerca era

vincolato principalmente alla presenza dei meta-tag nel codice

delle pagine Web e in generale a fattori on-page73, dunque

rappresentava una competenza attribuibile principalmente ai

webmasters, i quali dovevano curarsi del fatto che gli spiders

potessero leggere e indicizzare i loro siti.

L’introduzione di PageRank rappresenta naturalmente un punto

di svolta, poiché il fulcro dell’attenzione si sposta su fattori off-

page quali la link popularity, dunque l’operazione più redditizia

per ottenere una posizione di rilievo nelle SERP (lo ricordiamo,

trattasi delle pagine fornite dal motore di ricerca in risposta a

73 Con on-page si indicano quei fattori che, nella struttura di un sito, riguardano il codice delle pagine Web. Di contro i fattori off-page si riferiscono a questioni esterne al codice.

115

una query) è costituita da un aumento massiccio degli inbound

link, per ottenere un incremento del proprio PageRank.

Così come la prima fase ha visto la nascita di pratiche

ingannevoli basate sul codice, che tendevano a distorcere

l’utilizzo dei tag per raggiungere la vetta delle SERP, così anche

questa seconda fase ha rilevato l’utilizzo improprio dei link allo

stesso scopo.

Le correzioni in corsa di Google hanno riportato un po’

d’ordine; inoltre lo sviluppo del SEO come attività professionale

derivata dallo studio dei motori di ricerca ha iniziato a

dimostrare che una buona ottimizzazione delle pagine, secondo

diversi criteri logici e pratici, poteva superare gli aleatori

benefici di un alto PageRank. Negli ultimi anni i webmaster

sono progressivamente diventati consapevoli del fatto che il

PageRank altro non è che un'entità numerica, talvolta confusa

con il reale valore dei propri contenuti, più spesso considerata

un premio per un'ottima campagna promozionale, quasi sempre

assimilata, erroneamente alla popolarità reale del proprio sito.

Questa consapevolezza ha definitivamente demolito molte delle

leggende su PageRank, nonostante esse circolino tuttora tra i

neofiti e gli inesperti del settore. PageRank non garantisce un

ottimo posizionamento, se parallelamente alla popolarità delle

proprie pagine non esiste una strategia di ottimizzazione che

renda il proprio sito indicizzabile e valutabile correttamente e

una popolarità del sito che non si limiti alla link popularity, ma

ad un effettivo successo di pubblico e di accessi.

I paragrafi successivi, che concludono questo lavoro, vogliono

fornire una panoramica sulle tecniche esistenti per rendere un

sito semplice da indicizzare e archiviare, renderne efficace e

logica la struttura dei contenuti e delle pagine, compilarne al

meglio ogni tag, evitando errori e forzature che si pongono

contro la naturale evoluzione semantica del Web.

E’ opportuno sottolineare ancora una volta la continuità di tale

attività con le conoscenze sulle modalità di funzionamento dei

116

motori di ricerca, derivanti dallo studio dell’IR, e con

l'applicazione di princìpi elementari e avanzati di Web

marketing. Il SEO deve porsi al crocevia tra queste discipline,

diventando un punto di riferimento per la creazione di progetti

Web coerenti sotto il profilo formale, comunicativo e

professionale.

4.2 Le variabili di pagina

Iniziamo la nostra rassegna dalla progettazione formale del sito.

Come si è accennato in precedenza, prerogativa primaria di un

sito che voglia essere ben posizionato sui motori di ricerca, è

una buona leggibilità e una facile accessibilità agli spiders degli

stessi. Se infatti, per qualche motivo, lo spider non riuscisse ad

accedere al codice del sito, questo implicherebbe l’impossibiltà

di inserire quest’ultimo nell’indice, con la conseguente

esclusione dalle graduatorie. Tale funzione viene espletata da

alcuni tag e meta tag, pezzi di codice invisibili all’utente ma non

al crawler, che definiscono l’accesso dei motori di ricerca ai

contenuti di un sito. Per questo motivo, questa fase di

progettazione va effettuata con grande cura.

L’attenzione sui tag ha visto un progressivo calo in

corrispondenza dell’emergere della classificazione basata sulla

link analysis; la diffusione dei blog e degli editor per la

progettazione Web (ad esempio, Macromedia Dreamweaver),

che incorporano funzionalità di inserimento automatico dei tag,

hanno dato un’ulteriore spinta in tal senso. Tuttavia, la crescita

d’importanza dei contenuti, emblema dell’ultima fase evolutiva

del Web, ha riportato a un ruolo di grande importanza i metatag,

nella loro funzione di descrizione dei contenuti della pagina. Li

analizziamo qui di seguito, con l’obiettivo di stabilire alcune

117

norme pratiche, di semplice applicabilità e sicuro successo

nell’opera di ottimizzazione del codice.

Title tag

Ciò che viene inserito al’interno del tag title, compare

sull’intestazione del browser (per intenderci, la barra blu, in alto

a sinistra), nonché sulla SERP a indicare l’istanza della pagina

Web.Vanno inserite qui le parole chiave più significative e

descrittive per il sito, o i contenuti della pagina in questione,

senza perdere spazio con frasi commerciali (il classico

“benvenuti sul sito” ad esempio) oppure con stop words che

Google tende ad ignorare.

La sintassi è la seguente:

<html>

<head>

<title>Seo cafè, blog di Andrea Sardo</title>

</head>

Questo tag gioca un ruolo chiave per il posizionamento del sito:

quando cerca nell'indice, Google guarda il contenuto del tag title

come prima cosa. Inoltre effettua un matching tra le parole

contenute nel tag title e quelle contenute nel testo e nei link della

pagina, quindi è consigliabile una certa coerenza tra le due.

L'azione di confronto di Google è un aspetto da prendere in

massima considerazione: la rilevanza delle parole chiave di una

pagina parte da qui. Se si desidera posizionare una pagina per

determinate parole chiave, le stesse devono necessariamente

trovarsi anche nel title tag.

Naturalmente, risulta assai dannoso inserire troppe parole chiave

all'interno del title, poiché la rilevanza che viene data alle

keywords presenti nel titolo si diluisce man mano che altre

118

keywords vengono aggiunte. In sostanza, alla prima keyword

verrà dato un valore massimo, che diminuisce sensibilmente per

la seconda, per la terza e così via. Se la pagina necessita di

troppe parole per descrivere i contenuti, sarà opportuno dividerla

in più pagine.

Molta attenzione va anche data all'ordine con cui le parole

chiave vengono inserite: ad esempio voli torino e torino voli

daranno all'utente SERP differenti.

Come sappiamo, Google ignora le stop words come

preposizioni, articoli, congiunzioni, che sono quindi da evitare

se non in una particolare situazione. Ossia, quando hanno un

ruolo determinante nel formare un’espressione che si vuole

posizionare, (esempio: Lord OF THE rings): in questo caso

andranno ovviamente inserite.

Lo spider non è case sensitive, dunque le lettere maiuscole o

minuscole sono considerate senza distinzione.

Vanno tuttavia accuratamente evitati:

1. La ripetizione esasperata della stessa parola chiave: rischia

di essere considerata spam;

2. Il mancato riempimento del tag: la pagina verrà di default

intitolata “untitled document” e verrà annullato un

importante fattore di posizionamento;

3. L’inserimento di parole chiave estranee al contesto e ai

contenuti della pagina: prima o poi il fatto verrà rilevato

dagli spiders e si andrà incontro a penalizzazioni da parte

del motore di ricerca74.

74 Sono sconsigliate anche le cosiddette poison words: queste ultime non causano la cancellazione dall'indice ma potrebbero penalizzare il ranking, pochè sono in conflitto con importanti utilities del Web. Tipiche poison word sono: Bookmarks, Links, Resources, Directory, Search Engine, Forum, BBS.

119

Meta tags

I meta tags sono dei tag HTML studiati appositamente per

fornire informazioni aggiuntive (meta-informazioni) su un

documento ipertestuale. Il loro inserimento NELdocumento si

effettua all’interno dei tag <HEAD> e </HEAD> e vanno

dunque considerati parte dell’intestazione dello stesso. La

sintassi dei meta tag prevede due attributi principali (name e

content, atti a definirne tipologia e proprietà) e nessuna chiusura.

Il ruolo dei meta tags ai fini del posizionamento è stato oggetto

di dibattiti e controversie, poichè nei primi motori di ricerca

questi costituivano l’unico mezzo a disposizione per descrivere i

contenuti dei siti, al di fuori del contenuto visualizzabile dagli

utenti. Dunque, un buon modo per sintetizzare i temi trattati

nella pagina Web, nonché il luogo ideale ove posizionare le

keywords in base alle quali si volesse posizionare il proprio sito.

La facilità di utilizzo improprio di questo strumento ne ha via

via svilito l’importanza e la considerazione da parte dei motori

di ricerca, cosicché attualmente gli spider di Google sono

impostati in modo da attribuir loro un valore vicino allo zero.

L'utilizzo dei meta tag non migliora quindi in maniera rilevante

il posizionamento su Google e va aggiunto che, proprio per la

ragione appena descritta, un uso scorretto e fuorviante degli

stessi può causare penalizzazione o cancellazione permanente

dall'indice. Ciò premesso, esistono tuttavia alcuni meta tag che

ricoprono ancora una funzione importante: il primo di essi è il

meta tag description, ossia una breve descrizione, leggermente

più estesa del title, del contenuto della pagina.

Questo tag è importante, perché la sua definizione ne implicherà

l’inclusione da parte di Google nella SERP, tra il title e la url del

sito di riferimento. Se esso non viene definito, al suo posto

saranno visualizzate le prime linee di testo che lo spider trova

nella pagina. Questo testo può essere anche molto confuso,

120

perché lo spider includerà qui anche testi inseriti in link, bottoni

di navigazione e altri elementi che trova all'inizio della pagina.

Dunque il meta tag description offre non soltanto la possibilità

di rafforzare le keywords (per l’utente) e di individuare o

confermare il topic della pagina (per il motore), ma anche quella

di presentare un claim attraente per una prima visualizzazione,

una sorta di invito all’ingresso.

La sintassi corretta del meta tag description è la seguente:

<META NAME =description CONTENT=" Un punto d’incontro per

condividere informazioni su SEO, Google, Web design e Information Retrieval a

Torino ">

Quanto al content, è consigliabile inserire le keywords in un

contesto discorsivo, una frase che ben rappresenti il senso della

pagina , evitando di utilizzare più di 200 caratteri (per non

sforare lo spazio riservato da Google a tale frase, concludendo

col punto (per evitare che lo spider prelevi le parti di testo

successivo.

Vi sono poi altri due meta tags che meritano particolare

attenzione. Il primo, il meta tag keyword, di cui riportiamo un

esempio per mostrarne la sintassi,

<META NAME ="keywords" CONTENT = "SEO, motori di ricerca,

Information retrieval, Torino">

serve ad indicare agli spiders i termini in base ai quali si vuole

essere posizionati in seguito ad una query dell’utente. La

definizione delle keywords va affidata ad un’attenta analisi

comunicativa del sito e della concorrenza, al fine di scegliere le

più efficaci per il proprio segmento di riferimento. La crucialità

di questa scelta è evidenziata dall’esistenza di svariati tools che

permettono di analizzare le potenzialità di una parola chiave

121

rispetto al settore, valutandone il “tasso di inflazione” e la

conseguente difficoltà di posizionamento75.

Differentemente dai precedenti due, il meta tag robots non ha lo

scopo di fornire informazioni inerenti i contenuti della pagina

Web. Al contrario, si tratta di un modo per comunicare con lo

spider del motore di ricerca e invitarlo a seguire alcune direttive

circa l'uso della pagina Web prelevata.

Attualmente, le direttive impartibili allo spider sono due ed

hanno i seguenti scopi:

1. Richiesta di includere (index) o non includere (noindex) i

contenuti della pagina nell'archivio del motore di ricerca.

2. Richiesta di seguire (follow) o non seguire (nofollow) tutti i

link presenti nella pagina, al fine di individuare altre pagine

del sito Web

I due tipi di direttive possono essere combinati a piacere e

inclusi nel contenuto del tag robots, separandoli con una

virgola.

Il seguente esempio invita lo spider a catalogare la pagina e a

seguirne tutti i link trovati al suo interno:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">

Si può chiedere allo spider di non seguire i link ad alcune pagine

private del sito, non dedicate al pubblico lettore, tuttavia è

sconsigliato inibire l’indicizzazione agli spider, poiché ciò

potrebbe essere interpretato dagli stessi come sintomo di

potenziale spam.

Una raccomandazione importante da fare circa i contenuti del

meta tag robots è quella di non indicare direttive in conflitto tra

di loro (ad esempio index e noindex contemporaneamente).

75 Un altro strumento utile da consultare in questa fase potrebbe essere Google Zeitgeist, che pubblica mensilmente la classifica delle keywords più cercate e rappresenta dunque un interessante specchio statistico dei bisogni informativi dell’utenza.

122

4.3 Fattori strutturali

Le specifiche finora fornite rappresentano, come abbiamo

scoperto, consigli utili per costruire siti “Google friendly”, ma

possono ritenersi per lo più superate, dal momento che la loro

considerazione da parte del motore di ricerca è marginale. Vi

sono tuttavia altre specifiche relative alle variabili di pagina, che

riguardano, più che il codice, la struttura delle stesse e la cui

osservazione costituisce buona norma per la progettazione,

nonché fonte di migliore posizionamento, dal momento che

durante la fase di indicizzazione vengono attribuiti dal motore di

ricerca punteggi positivi a qualità come quelle elencate di

seguito.

Codice pulito e validato

Esisitono alcuni tools, denominati validators, approvati dal

W3C, che permettono di verificare online la correttezza,

snellezza e la pulizia del codice. Gli standard ideali utilizzati

attualmente sono rappresentati dall’XHTML76 e i CSS77, questi

ultimi preferibilmente richiamati da un file esterno e non inseriti

all’interno del codice.

Uso degli heading

Questi tags segnalano la particolare importanza di alcune

porzioni di testo all’interno del body, consentendone anche una

formattazione evidenziata. Possono anche rivelarsi utili per

76 L'XHTML (acronimo di eXtensible HyperText Markup Language) è un linguaggio di markup che associa alcune proprietà dell'XML con le caratteristiche dell'HTML: un file XHTML è un pagina HTML scritta in conformità con lo standard XML. Tale convergenza favorisce il mantenimento dei tag HTML in un contesto più rigoroso come quello dell’XML, con il duplice obiettivo di produrre pagine Web con meno errori e di preparare un’architettura del Web che supporti la svolta semantica. 77 I CSS (dall'inglese Cascading Style Sheets), detti semplicemente fogli di stile, vengono usati per definire la rappresentazione di documenti HTML e XHTML. Le regole per comporre i fogli di stile sono contenute in un insieme di direttive (Recommendations) emanate a partire dal 1996 dal W3C. L'introduzione dei fogli di stile si è resa necessaria per separare i contenuti dalla formattazione, permettere una programmazione più fluida e gestibile, sia per gli autori delle pagine HTML che per gli utenti.

123

suddividere in paragrafi ordinati per importanza i contenuti di

una pagina. Gli heading vengono espressi nella seguente forma:

<h1>…….</h1>

Le specifiche HTML impongono che siano al massimo sei, posti

in ordine gerarchico (ove il meno importante e più piccolo sarà

<h6>) e mai annidati l’uno dentro l’altro: ciò significa che

ciascun tag verrà chiuso quando se ne vuole inserire un altro.

Ciascuno degli heading è preposto, secondo gli standard del

W3C, a una determinata funzione:

• h1 o h2 per titoli delle pagine;

• h2 o h3 per i sottotitoli (abstract) delle pagine

• h4 o h5 per i testi delle pagine

• h5 o h6 per note, approfondimenti, copyright, nome autore, data

pubblicazione.

L’utilizzo dei tag heading ad un testo implica l'applicazione di

una misura predeterminata al carattere, che aiuta l'utente a capire

immediatamente le gerarchie d’importanza nel contenuto della

pagina e segnala agli spiders quali porzioni di testo sono

preminenti.

No flash, no javascript

L’utilizzo di tali software è in molte occasioni giustificato dalle

funzionalità e dall’estetica del sito, tuttavia gli script in

questione sono un problema, in quanto gli spiders non li sanno

interpretare se non in piccolissima misura. Sono, di fatto, delle

“barriere architettoniche” alla completa accessibilità e

permeabilità del sito all’attività di crawling.

124

Sitemap

La mappa del sito è uno strumento importante, consigliato

direttamente da Google attraverso uno strumento dedicato

(Google Sitemaps). Questo strumento, la cui implementazione

avviene attraverso un file XML, garantisce non solo un’aiuto

per gli utenti che dovessero incontrare difficoltà nel reperire le

informazioni ricercate, ma anche per gli spider, in quanto

permette di riassumere l’architettura del sito, oltre a ribadire i

link, anche attraverso un uso di anchor text78 complementari.

Architettura del sito

Così come il testo delle singole pagine va formattato e impostato

secondo precise gerarchie, al fine di ottenere una struttura di

pagina snella e facilmente “digeribile” dagli spiders, altrettanto

tale progettazione ordinata deve riflettersi sull’architettura del

sito. Uno degli errori più comuni è quello di voler inserire più

contenuti possibili in una sola pagina, la home page, che si

presume essere la più visitata, linkata e preziosa dal punto di

vista del ranking. Questa miopia progettuale ha tre grossi

inconvenienti: innanzitutto, in termini di peso, dal momento che

pagine eccessivamente grandi (si stima oltre i 100 Kb) risultano

indigeste agli spiders; in secondo luogo in termini di

navigabilità, ove una pagina troppo ricca di informazioni

frustrerebbe le risorse di attenzione dell’utente, che passerebbe il

tempo a cercare i contenuti piuttosto che a fruirli; infine in

termini semantici, poichè tale quantità di informazione

provocherebbe un calo della tematizzazione dei contenuti, con

prevedibili ricadute sulla rilevanza della pagina rispetto a chiavi

di ricerca specifiche.

78 L’anchor text è il testo cliccabile di un collegamento ipertestuale. Esso dovrebbe offrire all’utente un’informazione descrittiva o contestuale della destinazione del link. La relazione con il reale testo dell’URL del link non deve necessariamente essere letterale. Ad esempio il link alla pagina http://www.esempio.it può essere rappresentato semplicemente con l’anchor text “Esempio”.

125

Tali ragioni inducono ad affermare che anche l’organizzazione

dei contenuti del sito in un sistema gerarchico di natura

tematica, con una struttura a directories, come quella che

osserviamo in figura 16, porta notevoli vantaggi nel processo di

indicizzazione e conseguentemente al posizionamento del sito.

Bisogna sottolineare che una struttura di questo genere, oltre

agli indubbi benefici derivanti da una maggiore tematizzazione

delle pagine, che aumentando la rilevanza di ogni singola pagina

rispetto a specifiche keywords, aumenta il ranking sia delle

pagine stesse, sia del sito nel complesso, porta anche vantaggi

Figura 17

Struttura a directories di un sito

126

per quanto riguarda il linking interno del sito, prerogativa di cui

approfondiremo tra poco l’importanza. Non per ultimo, tale

organizzazione è conforme alle Guidelines di Google, ulteriore

motivo per la sua implementazione in un’ottica SEO.

In base a questo schema, i collegamenti che partono dall'home

page, detti collegamenti di primo livello, dovranno condurre

l’utente (e ovviamente gli spiders) alle aree secondarie del sito,

divise in base ad uno schema logico di contenuti. I collegamenti

che partono dalle aree secondarie, o collegamenti di secondo

livello, condurranno alle pagine interne che trattano dello stesso

argomento, e così via. Tutte le pagine dovranno contenere un

link a pagine di livello superiore e, opzionalmente, alla home

page.

Queste sono le indicazioni più importanti per quanto riguarda le

variabili di pagina, costituiscono ovvero quei fattori da prendere

in considerazione durante la fase di costruzione formale di un

sito ottimizzato per il posizionamento sui motori di ricerca.

Naturalmente, il lavoro di SEO non si ferma qui. Nei prossimi

paragrafi sposteremo il focus della nostra analisi sulle altre

variabili che influenzano il posizionamento.

4.4 Link factors

In base alle considerazioni fatte nel capitolo precedente, risulta

chiaro che i link di un sito rivestono un ruolo molto importante

nel decretare la posizione di un sito, o di una sua pagina, nelle

graduatorie di rilevanza di un motore di ricerca. Questa

importanza è giustificata, a livello teorico, dal fatto che questo

meccanismo citazionale, alla base dalla struttura ipertestuale del

Web, stabilisce relazioni tematiche tra le risorse, favorendo la

127

saturazione dei bisogni informativi dell’utente. Purtroppo, nella

pratica, tale corrispondenza tra collegamenti e attinenza tematica

è difficile da implementare, sia per la varietà delle possibili

affinità semantiche tra le risorse, sia per la proliferazione di

pratiche atte ad aumentare in maniera innaturale il ranking.

Come abbiamo osservato, Google ha costantemente aggiornato i

propri algoritmi per offrire un posizionamento secondo criteri di

sempre maggiore trasparenza dei risultati naturali. Questo

processo ha richiesto l’introduzione di algoritmi come HillTop e

Trustrank, nonché un’evoluzione del concetto di link popularity,

basato inizialmente sulla quantità dei link, passato

successivamente a un approccio basato sulla qualità, ovvero sul

maggiore rilievo assunto dall’attinenza semantica nel calcolo del

valore dei link.

Passiamo dunque in rassegna i fattori legati ai link di cui Google

tiene maggiormente conto per la determinazione del valore degli

stessi, osservando come alcuni aspetti di squilibrio nel calcolo

dell’importanza dei link siano stati corretti grazie

all’introduzione degli aggiornamenti.

Anchor text del link

L’anchor text è un parametro fondamentale per gli spiders,

poiché rappresenta il primo segnale di attinenza tematica con la

pagina cui punta. Il valore del link per il sito che lo riceve

aumenta dunque proporzionalmente all’esattezza, all’attinenza e

alla specificità dei termini utilizzati in questa stringa rispetto alle

keyword di una query. A conforto di questa tesi, nella

determinazone del soggetto tematico di un sito, concorrono tanto

i testi contenuti all'interno di esso, quanto l’anchor text dei suoi

link in ingresso. Se molti link puntano al sito con la stessa

stringa nell' anchor text, il documento avrà maggiori possibilità

di ranking per quella query. La dimostrazione di quanto appena

128

detto trova conferma nel fenomeno del Googlebombing79, una

pratica che utilizzando in maniera distorta la forza dell’anchor

text, ha messo più volte Google in crisi.

Testo attorno al link

Il parametro successivo a livello logico è il testo stesso che giace

attorno al link. Tale testo concorre all’attribuzione di forza al

link in misura pari alla sua coerenza con il link stesso e con la

pagina verso cui il link è direzionato.

Linking interno

La struttura dei link interni di un sito può influenzare il ranking

dello stesso in virtù della sua organizzazione. Come abbiamo

accennato in precedenza, la buona navigabilità di un sito si

ottiene a partire da una suddivisione dei contenuti in sistemi

gerarchici di cartelle e sottocartelle. L'importanza di una

specifica pagina nella architettura globale di un sito Web, può

essere misurata attraverso l'importanza e la profondità delle altre

pagine del sito che si riferiscono alla pagina in questione. Una

pagina interna ben collegata ad altri documenti nel sito, sarà

senz'altro considerata più importante di una pagina oscurata o

rimossa o isolata. Tale ordine, oltre a costituire virtù apprezzata

dagli utenti e dagli spiders, ottiene riconoscimento in termini di

posizionamento.

Link popularity

La link popularity globale del sito, associabile all’algoritmo

PageRank, misurava semplicemente il peso ed il numero di link

79 L’esempio più famoso risale alla fine del 2003, quando numerosi bloggers si misero d’accordo per linkare la home page della biografia ufficiale del presidente USA George W. Bush con l’anchor text miserabile failure. Pur non contenendo questi due termini in alcun punto del codice, questa pagina balzò in testa per le ricerche legate a quelle keywords. Dall'inizio del 2007 Google ha aggiornato l'algoritmo di Googlebot, per evitare gli effetti del Googlebombing. La lunga attesa per tale riparazione viene spiegata da Google con la volontà di voler risolvere il problema a livello tecnico, grazie alla scalabilità degli algoritmi, piuttosto che manualmente.

129

diretti verso un unico dominio. L’ottica è quantitativa, per cui un

grande numero di link provenienti da siti molto importanti

bastava di per sé a innalzare smisuratamente il valore di

PageRank di un sito.

Lo squilibrio di tale valutazione ha portato all’introduzione

dell’algoritmo HillTop, che ha trasformato la link popularity in

una concetto legato all’area tematica. L'area tematica viene

misurata da Google come un gruppo di siti i cui link reciproci

trattano un argomento correlato. Link da siti della stessa area

tematica portano attualmente grande valore al sito stesso, mentre

è stato svilito il peso dei link provenienti da aree che trattano

altri argomenti.

Naturalmente, al fianco di questo fattore si pone il trust di

ciascun sito, introdotto con l’algoritmo TrustRank, che specifica

ulteriormente il concetto di qualità dei link, vincolandola oltre

che all’area tematica, anche alla fiducia che si riceve. Come

abbiamo appreso nel capitolo precedente, i link sono sempre più

uno strumento per certificare l’attendibilità del sito e sempre

meno un mezzo per valutare la qualità dello stesso, compito che

oramai è demandato (giustamente) ai contenuti.

4.5 Content factors

La nostra analisi evolutiva sui motori di ricerca ci ha reso chiara

in più di un’occasione la tendenza semantica che ne ha

contraddistinto le ultime fasi. Content is king, recita uno dei

motti più in voga sulla rete. Appare naturale uno sviluppo in

questo senso, d’altronde ricordiamo che la missione primaria dei

motori di ricerca è quella di aiutare l’utente a colmare i propri

bisogni informativi all’interno della grande banca dati costituita

dal Web: questo non può avvenire senza una crescita in termini

130

di precisione, di rilevanza, di attinenza tematica delle risposte

fornite alle query. Si potrà obiettare che lo sviluppo

commerciale del Web abbia stravolto le rotte strategiche della

ricerca, tuttavia è incontestabile che i motori di ricerca siano

tuttora il principale strumento di navigazione ed è altrettanto

innegabile che, siano pure non prettamente accademici i suoi

scopi, Google abbia confermato nel corso degli anni la sua

posizione di leader tecnologico del settore.

Detto questo, vogliamo qui affrontare quegli aspetti semantici

delle pagine Web di maggiore rilievo per il posizionamento.

Ricerca semantica

Un esempio della semantizzazione dei motori di ricerca è

l’applicazione di questa tecnica ereditata dall’IR: una pagina

ottiene rilevanza per una data ricerca pur non contenendo alcuna

keyword della query. Questo avviene grazie all’Latent Semantic

Indexing, che permette di associare e presentare diversi

documenti non in base alla soddisfazione esatta della chiave di

ricerca, ma al contesto e al significato della query. Ciò

naturalmente non significa comprensione del testo, ma

associazione statistica di termini provenienti dalla stessa area

semantica, effettuata attraverso la registrazione delle ricerche

degli utenti e l’autoaggiornamento dell’archivio di riferimenti80.

Il duplice pregio di questa tecnica è l’elusione del keyword

stuffing (ripetizione ossessiva di una keyword per aumentarne la

rilevanza rispetto alle query di proprio interesse) e la possibilità

aperta ad una scrittura discorsiva dei contenuti, legata

maggiormente al contesto e all’argomento che al rispetto di

regole formali.

Apriamo qui un inciso, ricordando quanto la scrittura delle

pagine Web sia stata in passato vincolata a concetti quali la

80 Ad esempio, cercando informazioni su "Alessandro Del Piero", la LSI potrà visualizzare anche risultati pertinenti a "Juventus", "Serie A", "Champions League". Il software, ovviamente non sa assolutamente chi sia Alessandro Del Piero, ma basandosi sulle ricerche passate e sui comportamenti degli utenti, associa -con minima possibilità di errore- il termine ricercato con altri pertinenti come contesto e semantica.

131

keyword density (ovvero la percentuale di occorrenza di una

keyword all’interno di un documento), keyword proximity o

prominence81, sempre in equilibrio precario tra lo stuffing,

considerato spam, e fantomatici valori minimi per poter essere

indicizzati rispetto una determinata chiave.

La svolta semantica, che tende a privilegiare la qualità

informativa di un documento, congiuntamente all’importanza

crescente assunta dal network tematico di appartenenza di un

sito, vedono il ranking sempre più legato al contenuto e, pur

ancora lontani dall essere “intelligenti” nel senso pieno del

termine, certamente i motori di ricerca offrono oggi risultati

basati maggiormente sul senso.

Inoltre, molto di quanto avviene nel Web a livello semantico è

guidato dall’entusiasmo degli utenti stessi, che iniziano a

utilizzare alcuni formati standard82, supportati dai motori di

ricerca, per l’inserimento, all’interno del codice HTML, di

relazioni tra i contenuti online, di modo che i collegamenti tra

questi non siano solo più ipertestuali, ma basati anche sul

rapporto di senso che li lega. L’utilizzo di tali standard permette

ad esempio di esplicitare che la relazione tra i due estremi di un

link è di amicizia, o collaborazione professionale:

<a href= “http://www.amico.it rel=friend>Il sito di

Luca<a>;

Oppure è possibile includere l’attributo class nei tags HTML per

definire alcune categorie di contenuto, in modo da offrire un

ventaglio sempre più ampio di coordinate per la ricerca, come ad

esempio data, indirizzo, località, giudizio del recensore di un

ristorante e via dicendo.

81 Per keyword prominence si intende la vicinanza tra la keyword e l'inizio di una generica zona di riferimento (testo, titolo, ecc…); la proximity indica invece la vicinanza reciproca delle keywords prese in considerazione

82 Esempi di tali formati sono XFN, hAtom, hCard, hCalendar e hReview (Franco Dalfovo, http://blog.posizionamento-sui-motori-di-ricerca.com/seo/seo-semantico, marzo 2008; http://microformats.org/wiki/hreview)

132

<td class=”hreview”>

<span><span class=”rating”>5</span> stelle su

5</span>

<h4 class=”summary”>In questo ristorante si

consiglia il vino rosso</h4>

<abbr class=”dtreviewed” title=”20050418T2300-

0700″>April 18, 2005</abbr>

<span class=”adr”>

<span class=”locality”>Torino</span>

</span>

</td>

Unicità dei contenuti

Un altro effetto della “rivoluzione semantica” è l’introduzione,

da parte di Google, dell’ormai celebre filtro antiduplicazione. Il

suo funzionamento, controverso e dibattuto83, consiste

comunque nell’esclusione dalle SERP di quei contenuti che

vengono totalmente copiati o replicati su più pagine, con

l’obiettivo di proporre dei risultati il più possibile vari e

originali. Pur con le riserve dovute a un’implementazione ancora

approssimativa, questo appare un chiaro segno del fatto che

sono premiati i contributi unici e il contenuto originale, a scapito

della proliferazione di doppioni, che oltretutto è antitetica con la

struttura del Web, ove il meccanismo della citazione dovrebbe

inibire sul nascere questa pratica.

4.6 Altri fattori

Includiamo in questo paragrafo una breve rassegna di quei

fattori, che non rientrano nelle categorie finora presentate, il cui

reale peso è poco influente o non del tutto verificato. Si tratta

principalmente di fattori che mettono in relazione il

posizionamento con la variabile temporale.

83 Tale filtro sembra funzionare meglio in presenza di SERP più popolate, perché in questo caso il tasso di probabilità che il motore possa proporre contenuti non replicati sale in modo esponenziale. Inoltre, in alcune occasioni il filtro non funziona in maniera coerente. http://www.seotalk.it/2008/03/sul-filtro-antiduplicazione.html

133

Frequenza di aggiornamento dei contenuti

Il crawler utilizzato da Google, comunemente conosciuto col

nome Googlebot, si compone di due tipologie di crawlers

diversi: Deepbot, che viene lanciato una volta al mese, e

Freshbot, che effettua la sua scansione quotidianamente. La

compresenza di tali elementi lascia supporre che vi sia una

relazione tra l’aggiornamento frequente dei contenuti e un

migliore posizionamento. Tale convinzione ha persino portato

alcuni webmaster all’utilizzo di script schedulati che

aggiungano contenuti random, o prelevati da altri siti al fine di

mantenere costante la produzione di contenuti aggiornati. Inutile

dire che il monitoraggio costante da parte di Google conduce un

tale comportamento all’esclusione dall’indice.

Anzianità del sito, anzianità dei link

Il cosiddetto age factor fa parte dei fattori “di vecchia

generazione”, la cui considerazione appare attualmente passata

in secondo piano. Il principio di funzionamento di questo

criterio è l’assegnazione un valore di ranking all’età di un sito e

di un link, partendo dal presupposto che da quanto più tempo

questi sono presenti sul Web, tanto maggiore sarà la loro

stabilità ed affidabilità rispetto a siti e link appena pubblicati.

L’anzianità si rivela decisiva per decidere la priorità di ranking

tra siti, ove altri parametri importanti come link popularity e

qualità dei contenuti siano stati analizzati e la situazione sia

ancora in pareggio. Oppure come salvagente di portali molto

generici (news, finanza) che non godono dei vantaggi del

ranking legato alla tematizzazione.

In generale, anche se non sappiamo in che misura esatta ciò

avvenga, è certo che esista una relazione tra l’asse temporale e

le graduatorie dei risultati, se non altro in virtù del fatto che il

Web è in continua evoluzione e i motori di ricerca devono tenere

in continuo (quotidiano) aggiornamento i propri indici, dei quali

134

fanno parte la data di creazione di un documento e le sue

successive modifiche.

4.7 Spam e sovraottimizzazione

Abbiamo lasciato volutamente per ultimo il discorso su spam e

sovraottimizzazione, poiché essi sono temi trasversali al

posizionamento. Coinvolgono, ovvero, tutte le aree SEO di cui

abbiamo trattato finora. In questo paragrafo analizzeremo i

tentativi di ottimizzare i siti con tecniche ingannevoli per gli

algoritmi dei motori di ricerca, con lo scopo di aumentare

artificialmente la visibilità, spesso ignorando necessità

informative, navigabilità del sito e rispetto delle guidelines;

molte di queste tecniche e le relative contromisure adottate da

Google le abbiamo già affrontate in ordine sparso durante la

trattazione. Le riuniamo qui per dovere di completezza.

Link spamdexing84

Tra le prime pratiche utilizzate per creare spam al fine di

manipolare artificialmente il posizionamento, vi sono quelle

basate sui link. Esse sono nate prima, nella fase di decollo dei

motori basati sulla link popularity, e tramontate prima, con il

subentrare di altri parametri nel calcolo della rilevanza e

l’introduzione di appositi filtri.

La tecnica principale si chiama link farm, consiste nella

creazione, per lo più automatizzata, di un gruppo di siti che si

linkano reciprocamente con migliaia di collegamenti. I motori di

ricerca hanno debellato le link farm identificando specifici

attributi associati alle loro pagine ed escludendo queste ultime

dall’indice e dalle SERP.

84 Con il termine spamdexing viene spesso definita l’azione ingannevole nei confronti degli indici dei motori di ricerca.

135

Esiste poi un’altra pratica, la compravendita di link, sul cui

funzionamento poco c’è da dire: la facilità di identificazione è

qui data dalla frequente decontestualizzazione dei link acquistati

rispetto al tema del sito e alla loro conseguente svalutazione.

Shadow Domain

Tale tecnica, consiste nello sfruttamento dell’alta rilevanza

assegnata da Google alla descrittività del nome del dominio85.

Viene registrato un dominio-ombra, creato appositamente per

attirare traffico, grazie alle keywords presenti sul nome del

dominio stesso. Tale traffico viene rediretto su un altro sito;

talvolta i contenuti dello shadow domain sono interamente

replicati da quelli del dominio principale, in questo caso si parla

di mirror domain. In entrambi i casi le sanzioni variano da forti

penalizzazioni di ranking all’esclusione dall’indice.

Cloaking

Si tratta di un metodo per presentare contenuti differenti a

seconda dell'indirizzo IP che ne fa richiesta. Questa tecnica non

sarebbe teoricamente da considerare spam, dal momento che

forme minori di cloaking vengono messe in atto ad esempio per

far visualizzare versioni diverse dello stesso sito a seconda del

browser dell'utente, o della risoluzione del monitor. Tuttavia, ne

è nato anche un utilizzo fraudolento, consistente nella

presentazione agli spider della versione ottimizzata di un sito

che, quando visionato dall'utente, appare completamente

diverso. Tale tecnica viene considerata in maniera molto rigida e

la sua scoperta comporta l’immediata cancellazione dall’indice.

85 Per esempio, http://www.posizionamento-sui-motori-di-ricerca.it, un sito che nel nome del dominio descrive già il topic.

136

Keyword Stuffing

Già incontrata in precedenza, consiste in sostanza nell’eccessivo

ricorso alle parole chiave. Tale abuso è attualmente caduto in

disgrazia rispetto al passato, quando le parole chiave venivano

ripetute ossessivamente in ogni punto della pagina al fine di

aumentare la rilevanza, o addirittura venivano create pagine

(doorway page) con testo invisibile e contenuto composto dalle

sole keywords. Il freno a tale pratica è stato posto

dall’introduzione negli algoritmi di elementi che calcolano un

keyword pattern, sono cioè in grado, durante l’analisi testuale di

un documento, di valutare la normale distanza che le keywords

devono avere l’una dall’altra per formare un testo coerente: in

questo modo si riesce a stabilire, con buona probabilità, se un

documento è stato scritto in modo naturale o se sono state messe

in atto tecniche di stuffing. Ogni pratica di creazione di testi che

porti un documento ad allontanarsi significativamente da questa

coerenza ne provoca penalizzazione e potenziale esclusione

dalle pagine dei risultati.

Doorway pages

Un sunto di tutte le tecniche di spamdexing è costituito dalle

doorway pages86. Tale pratica consiste nella costruzione di

pagine Web ottimizzate per i motori di ricerca e non per gli

utenti, con lo scopo di aumentare il traffico verso un determinato

sito, come avviene nel caso dello shadow domain. Il

meccanismo prevede nella maggior parte dei casi la creazione,

tramite appositi tools, di pagine autogenerate, focalizzate su

un’unica keyword o frase keyword, dunque prive di senso logico 86 L’utilizzo di tale tecnica ha fatto nel passato vittime illustri: nel 2006 il sito Bmw.de è stato temporaneamente escluso dall’indice, salvo essere poi reintegrato in brevissimo tempo, tra le polemiche per la percezione popolare di un trattamento preferenziale da parte di Google.

137

e di utilità alcuna, oppure pagine con contenuti duplicati (vedi

mirror domain), che se cliccate redirigono alla pagina del sito

sul quale si vuole creare traffico. L’utilizzo del termine doorway

ha ormai assunto questa accezione negativa per via della sua

quasi identificazione con il cloaking, prerogativa non totalmente

priva di fondamento. Bisogna tuttavia riconoscere che è

possibile lavorare su doorway pages in maniera limpida, senza

essere ingannevoli per l’indice né per l’utente: attraverso la

creazione di landing pages87 in numero limitato, di reale utilità

per l’utente, di argomento attinente al sito principale, che

colleghino tramite link allo stesso. In questo modo si può

aumentare la link popularity del proprio sito, essere presenti sui

motori in base a più keywords, tutto risparmiando agli utenti

aspettative fuorvianti rispetto ai reali contenuti, permettendo

loro di scegliere se atterrare o meno sul sito principale

(possibilità impedita dalla redirezione automatica), evitando

infine di ibridare tale tecnica con il cloaking ottenendo l’accusa

di spam e penalizzazioni varie.

Il filtro Sandbox

La sua stessa esistenza è spesso messa in dubbio, tuttavia la

maggior parte degli addetti ai lavori sono concordi

nell’affermare l’introduzione di tale filtro negli algoritmi di

Google a partire dal marzo 2004. Tale filtro consiste in una sorta

di sala d’attesa, nella quale i nuovi siti vengono inseriti nella

prima fase della loro indicizzazione. Questa fase permette agli

spiders di Google di studiare il comportamento dei siti neonati,

per verificarne l’eventuale intenzionalità di spam, evitando in tal

modo squilibri nelle graduatorie dovute a nuovi ingressi.

87 Una landing page è la pagina preparata per un sito in modo che l’utente“atterri” (inglese, landing) su di essa ciccando su un link o una pubblicità. E’ dunque una pagina “esterna” al sito, che propone contenuti ottimizzati per una specifica keyword. Il vantaggio offerto dalla landing page è la possibilità estrema di personalizzazione, che ne permette una creazione il più "verticale" possibile, più vicino possibile a quanto cercato sul motore di ricerca.

138

Naturalmente il filtro Sandbox è tanto più forte quanto più la

chiave principale del nuovo sito è competitiva. Anche la sua

durata, variabile tra i tre e i sei mesi, pare essere legata alla

competitività del settore in cui il sito va ad inserirsi.

Per ultimo, menzioniamo il servizio Abuse di Google, che

permette la segnalazione da parte degli utenti del sito o dei siti

che sono sospettati di agire in maniera scorretta. Il sito verrà

analizzato dal Google antispam team ed eventualmente

penalizzato. Tradizionalmente, le segnalazioni che pervengono

al servizio Abuse non implicano diretta cancellazione, poiché

Google preferisce agire sugli algoritmi, applicando ulteriori filtri

agli spider, piuttosto che eliminare manualmente le

manipolazioni.

139

CONCLUSIONI

Il mondo SEO non è certamente soltanto legato ad aspetti tecnici

e informatici. Le competenze messe in gioco in questa

professione spaziano dal campo pubblicitario a quello

economico, dal marketing alla statistica, alla semiotica. La

definizione di una campagna di search engine optimization è un

progetto di comunicazione a 360 gradi. Pur consapevole di

questo fatto, la presente trattazione esula nei suoi scopi da una

disamina di tutti gli aspetti che coinvolgono il lato marketing e

le tematiche legate alla pubblicità sui motori di ricerca.

E’ pur vero che il SEO è profondamente connesso ad aspetti

commerciali, cosi com’è altrettanto chiaro che il posizionamento

sui motori di ricerca preveda, oltre che un attento studio delle

variabili legate al sito, un confronto con le piattaforme

promozionali esistenti sul Web, di cui Adwords e Adsense

rappresentano solo gli esempi più noti al grande pubblico. Molte

altre sono le variabili da considerare per integrare l’attività di

SEO in una strategia comunicativa realmente efficace, da una

padronanza di strumenti statistici per l’analisi dei

comportamenti e la profilazione dell’utenza; a una capacità di

analisi economica, che permetta di percepire i motori di ricerca

come un mercato concorrenziale ove i siti sono prodotti da

“vendere”, alla stesura di un copy88 adatto al target di

riferimento, e così via.

Tali premesse chiariscono definitivamente la prospettiva di

questo lavoro, che ha lasciato in disparte gli argomenti sopra

menzionati non per cecità rispetto al settore di riferimento.

Tuttavia, ci interessava approfondire in questa sede le

88 In questa accezione, ci si riferisce al testo di un messaggio pubblicitario.

140

interconnessioni tra SEO e motori di ricerca sotto il punto di

vista della loro evoluzione tecnologica. Come abbiamo appreso

nel corso di queste pagine, i due ambiti si sono nel corso di

questi anni mutuamente influenzati, reciprocamente trasformati,

l’uno reagendo agli aggiornamenti dell’altro, vivendo però una

situazione di continuo contrasto, non da ultimo sotto il profilo

ideologico. Google, in rappresentanza dei motori di ricerca, si è

sempre posto in un’ottica normativa e sanzionatoria, con

l’obiettivo di mantenere i propri indici impermeabili a

stravolgimenti esterni, il SEO ha talvolta scavalcato i confini

della liceità, confondendo la libertà concessa dal medium con

l’utilizzo distorto di uno strumento a disposizione della

collettività89.

L’approccio che qui si vuole promuovere contempla il

superamento di questa logica dialettica, in favore di un’ulteriore

evoluzione dei motori di ricerca in senso semantico e

intelligente. Battelle la chiama la ricerca perfetta. Si tratta

fondamentalmente di fornire all’utente risposte sempre più

precise, in linguaggio naturale, di creare una forma di

comprensione, da parte del motore di ricerca, delle richieste che

riceve.

Si è naturalmente ancora molto lontani da tutto questo. Tuttavia,

dal lato motori di ricerca, le cose si stano muovendo. Ad

esempio IBM sta lavorando allo sviluppo di un progetto,

chiamato WebFountain, che avvalendosi di un enorme carico di

metadati90, permette di selezionare i documenti con criteri di

89 Secondo molti addetti ai lavori, l’atteggiamento difensivo di Google è volto a proteggere i propri interessi economici più che la qualità dei risultati. Tale accusa, apparsa a dire il vero piuttosto giustificata in alcune occasioni, non rende tuttavia leciti i continui tentativi di manipolazione degli algoritmi del motore di ricerca più utilizzato al mondo. Bisogna ricordare che esso è diventato l’attuale gigante economico partendo dall’eccellenza dimostrata negli anni nel campo della ricerca sul Web; la sua ascesa è stata inoltre democratica, decretata dalla preferenza degli utenti: è questo valore di servizio per la collettività che rende ingiustificabile la manipolazione. E’pur vero che Google muove montagne di denaro, è altrettanto certo che spetta agli utenti decretarne eventualmente la caduta, smettendo di utlizzarlo nel momento in cui ne percepissero una latenza di affidabilità. (n.d.A). 90 WebFountain gestisce un sistema di etichette che permette la classificazione di un documento in base a una trentina di parametri: tale sistema può essere esteso con nuove etichette da parte degli utenti. La capacità di elaborazione è altrettanto sorprendente: l’intero Web può essere indicizzato, etichettato e rietichettato in meno di 24 ore.

141

personalizzazione molto avanzati ed effettuando delle query di

una precisione attualmente impensabile.

Dal lato utente, è chiara la volontà di un’evoluzione in questo

senso. La diffusione ormai capillare dei blog e dei social

network ha dato impulso alla creazione spontanea, originata dal

basso, delle folksonomie, che altro non sono che

categorizzazioni del contenuto del Web. Il vantaggio in termini

semantici di tale fenomeno è il modo naturale, democratico e

intelligente, in quanto creato dall’uomo, con cui le associazioni

acquistano forma e senso.

Il SEO, di fronte a tutto questo, ha una grossa responsabilità. Il

suo ruolo di tramite tra utenti e motori di ricerca è cruciale, non

possono essere le motivazioni commerciali a nasconderne

l’importanza, poiché il fattore economico coinvolge tutti gli

attori in campo. La nuova condotta del SEO deve partire da

questa presa di coscienza per attivare un rapporto collaborativo

con i motori di ricerca. Questo non significa naturalmente

perdersi in dilemmi etici o annientare qualsiasi atteggiamento

critico nei confronti della macchina da guadagni costruita a

Mountain View. Significa semplicemente comprendere che lo

sviluppo semantico e intelligente del Web è interesse della

collettività: questo passa dall’accettazione e dalla condivisione

di regole per la proposizione dei contenuti del Web all’utenza.

Lo studio approfondito e in costante aggiornamento di tali

regole, la sua applicazione sui siti che ne fanno richiesta, il

perseguimento di una comunicazione efficace e accessibile

costituiscono i fondamenti deontologici del SEO. Si parla inoltre

di Web marketing 2.0, allorché si interiorizza il passaggio da

una rete competitiva a una rete collaborativa, ove alla visibilità

si accompagni la cura della dimensione sociale. Naturalmente

tale mutamento culturale deve essere assecondato anche dagli

utenti, i quali devono rivolgersi al SEO come a uno strumento

per migliorare il sito nelle sue molteplici variabili comunicative,

142

non come a una bacchetta magica alla quale si chiede anche di

cambiare le regole del gioco.

I vantaggi di tale approccio sarebbero evidenti per tutte le parti

in causa. Un SEO coinvolto nella progettazione del sito

vedrebbe esteso il proprio campo di operatività ad una fase

cruciale come la costruzione, contribuendo in virtù delle proprie

conoscenze a rendere tale fase immediatamente coerente con gli

obiettivi di posizionamento e di relazione del sito, in parole

povere Google e semantic friendly. Gli utenti che si rivolgano al

SEO avendo compresa l’importanza del suo inserimento nel

processo di pianificazione, potrebbero monitorare i risultati dei

propri investimenti in maniera più sensata, senza correre ai

ripari di fronte all presa di coscienza di non essere percepiti sul

Web, chiedendo al SEO risultati impossibili in tempi esigui e

con metodi illeciti. Il Web stesso, sostenuto da una struttura

governata da un tale ordine, avrebbe la piattaforma ideale per

uno sviluppo decisamente più rapido delle proprie aspirazioni

semantiche.

L’utilizzo di scorciatoie e manipolazioni si configura come una

mancata comprensione delle responsabilità di un’approccio SEO

collaborativo nei confronti dell’evoluzione intelligente del Web.

144

BIBLIOGRAFIA

• Addante Francesco, I motori di ricerca: come funzionano, la

storia,

http://www.modugno.it/archivio/2004/04/i_motori_di_ric_5.php

, Aprile 2004.

• Baeza-Yates R., Ribeiro-Neto B.. Modern Information

Retrieval, ACM Press, 1999.

• Battelle John, Google e gli altri: come hanno trasformato la

nostra cultura e riscritto le regole del business, Raffaello

Cortina, 2006.

• Berners –Lee Tim, The Semantic Web, Scientific American

Magazine, http://www.sciam.com/article.cfm?id=the-semantic-

web, 2001.

• Bertini Enrico, Web Semantico: che cosa si prepara per il dopo

Google? http://www.stalkked.com/2007/10/20/web-semantico-

che-cosa-si-prepara-per-il-dopo-google-parte-1, Ottobre 2007.

• Brin S., Page L., The Anatomy of a Large-Scale Hypertextual

Web Search Engine, Computer Science Department,Stanford

University, http://infolab.stanford.edu/pub/papers/google.pdf,

1997.

• Cardone Cristina, I professionisti del Web: la figura del SEO,

http://www.blographik.it/2008/03/06/professionisti-web-

copywriter, Marzo 2008.

145

• Cariello Salvatore, Considerazioni personali sul mondo SEO e

web marketing, http://www.seotalk.it, 2008.

• Celino Irene, Oltre il Web 2.0: il Semantic Web per la gestione

dei contenuti. Motori di ricerca semantici, Middleware Unit &

Semantics Open Lab CEFRIEL, http://swa.cefriel.it, Aprile

2007.

• Chiffi Giovanni, Le fasi di indicizzazione,

http://www.chiffi.com/?s=algoritmi, Novembre 2006.

• Cutts Matt, Matt Cutts: Gadgets, Google, and SEO,

http://www.mattcutts.com/blog, 2008.

• Dalfovo Franco, Seo semantico, http://blog.posizionamento-sui-

motori-di-ricerca.com/seo/seo-semantico, marzo 2008.

• Donato Debora, Leopardi Stefano, Millozzi Stefano, Tsaparas

Panayiotis, Mining the inner structure of the Web graph,

http://www.cs.helsinki.fi/u/tsaparas/publications/WebDB.pdf,

Giugno 2005.

• Fiorentini Barbara, L’informazione in rete. Document clustering

e nuovi motori di ricerca. Una prospettiva basata sull’analisi

per concetti e la categorizzazione. Biblioteche 0ggi,

http://www.bibliotecheoggi.it/2005/20050501901.pdf, Giugno

2005.

• Ford Paul, August 2009: how Google beat Amazon and eBay to

the semantic Web, http://ftrain.com/google_takes_all.html, 2002.

• Gargiullo Giulio, Glossario motori ricerca,

http://www.glossario-motori-ricerca.com, Maggio 2005.

146

• Grignani Elisa, Teoria e tecniche della catalogazione e

classificazione, Università degli studi di Parma, http://dspace-

unipr.cilea.it/bitstream/1889/367/2/ricerca1intro.ppt, 2005.

• Gyongyi Zoltan, Garcia-Molina Hector, Pedersen Jan,

Combating Web Spam with TrustRank, 2004.

http://www.vldb.org/conf/2004/RS15P3.PDF.

• Herrmann Mirella, Strumenti e tecniche di ricerca in Internet,

Working Paper Stoa.

http://eprints.stoa.it/188/01/Tecniche_di_ricerca_in_Internet.pdf

, 2005.

• Larsen Jan, MOLE text analysis group, THOR Center for

Neuroinformatics,

http://isp.imm.dtu.dk/thor/projects/multimedia/textmining/index.

html, 1999.

• Lewandowski Dirk, Web searching, search engines and

Information Retrieval, Department of Information Science

Duesseldorf,

http://eprints.rclis.org/archive/00004620/01/isu_preprint.pdf,

2005.

• Manning C.D., Raghavan Prabhakar, Schütze Hinrich, An

introduction to Information Retrieval, Cambridge University

Press, 2008.

• Mohammadian Masoud, Intelligent Agents for Data Mining and

Information Retrieval, Idea Group Publishing, 2004.

147

• Nipoti Francesca, Usabilità e Web semantico,

http://antonietta.philo.unibo.it/blog/?p=388, Novembre 2007.

• Ridi Riccardo, Nozioni di Information Retrieval,

http://lettere2.unive.it/ridi/info-retr.pdf, Gennaio 2007.

• Rogers Ian, The Google Pagerank algorithm and how it works,

http://www.ianrogers.net/google-page-rank, 2002.

• Salton G., Wong A., and Yang C. S., A Vector Space Model for

Automatic Indexing,

http://portal.acm.org/citation.cfm?id=361220, 1975.

• Signore Oreste, Information Retrieval Systems,

http://www.weblab.isti.cnr.it/education/ssfs/lezioni/IRS.pdf,

2001.

• Staff writer, Algoritmi di Google per l’indicizzazione di siti

Web: algoritmo HillTop,

http://www.1stonthenet.info/index.php/algoritmi-di-google-

indicizzazione-siti-web-algoritmo-hilltop, Giugno 2007.

• Staff writer, Come funzionano? "Spider", indicizzazione e

ranking, http://www.abc-

motoridiricerca.it/index2.php?option=com_content&do_pdf=1&

id=39, ABC Motori di ricerca, Settembre 2006.

• Staff writer, hReview 0.3, http://microformats.org/wiki/hreview,

gennaio 2008.

148

• Staff writer, Il tasto "Mi sento Fortunato",

http://pixelgratis.com/articoli/web-marketing/il-tasto--mi-sento-

fortunato.html, Gennaio 2008.

• Staff writer, Information Retrieval,

http://www.volocom.it/doc/info_retrieval.pdf, 2008.

• Staff writer, Mappa dei motori e delle directory,

http://www.motoridiricerca.it/mappa-motori.htm, Febbraio

2005.

• Staff writer, Svelato l’algoritmo di Google? Il teorema di

Randfish, http://www.magnificaweb.it/algoritmo-di-google-

teorema-di-randfish, Ottobre 2006.

• Sullivan Danny, How Search Engines Rank Web Page, Search

Engine Watch,

http://searchenginewatch.com/showPage.html?page=2167961,

Marzo 2007.

• Taverniti Giorgio, Vector Model,

http://www.giorgiotave.it/wikigt/os/Vector_model, 2005.

• Torre Ilaria, La personalizzazione su Web,

http://www.di.unito.it/~ilatorre/sy/SIC2006_5.pdf, 2006.

universita’ degli studi di torinogoy/materiale/1718/tesisardo.pdf · principali tecniche di...

Documents