associazioni semantiche per il computational journalism

33
Relazione Finale del Progetto svolto per il corso di Intelligenza Artificiale A.A. 2012/2013 Professoressa Bandini Professor Palmonari Associazioni semantiche per il Computational Journalism: l’importanza delle valutazioni di esperti di dominio Valeria Gennari [758677] Riccardo Pietra [720918]

Upload: valeria-gennari

Post on 24-May-2015

631 views

Category:

Technology


0 download

DESCRIPTION

Progetto finale per il corso di Intelligenza Artificiale - prof. Palmonari, Unimib

TRANSCRIPT

Page 1: Associazioni semantiche per il Computational Journalism

Relazione  Finale  del  Progetto  svolto  per  il  corso  di  Intelligenza  Artificiale

A.A.  2012/2013

Professoressa  BandiniProfessor  Palmonari

Associazioni  semantiche  per  il  Computational  Journalism:  l’importanza  delle  valutazioni  di  

esperti  di  dominio

Valeria  Gennari  [758677]Riccardo  Pietra  [720918]

Page 2: Associazioni semantiche per il Computational Journalism

2

INDICE

1  Descrizione  del  dominio..................................................................................................................4

1.1  Computational  journalism.............................................................................................................4

1.2  Linked  open  data...........................................................................................................................6

1.3  Dbpedia  .........................................................................................................................................6

1.4  Dbpedia  spotlight..........................................................................................................................7

2  Descrizione  del  lavoro  di  tesi.........................................................................................................8  

2.1  Introduzione  –  spiegazione  generale...........................................................................................8

2.2  Estrazione  della  base  documentale.............................................................................................8

2.3  Annotazione  della  base  documentale.........................................................................................9

2.4  Estrazione  del  grafo  massimale...................................................................................................9

2.5  Valutazione  dei  percorsi  e  selezione  del  grafo  ridotto...............................................................9

3  Descrizione  del  nostro  lavoro  di  valutazione...............................................................................11

3.1  Dataset  e  metriche  di  valutazione...............................................................................................11

3.2  Analisi  dei  risultati........................................................................................................................12

4  Conclusioni  personali  sul  lavoro  svolto........................................................................................17

4.1  Le  nostre  valutazioni  a  confronto  e  parametri  utilizzati............................................................17

4.2  Valutazione  generale  dei  risultati  prodotti  dall’algoritmo........................................................19

4.3  Possibili  usi  futuri  del  Computational  journalism........................................................................21

4.4  Oltre  il  Computational  journalism,  possibili  usi  delle  associazioni  semantiche........................22

4.5  La  visualizzazione  grafica  delle  associazioni  semantiche.........................................................27

Note  e  bibliografia  ..........................................................................................................................32

Page 3: Associazioni semantiche per il Computational Journalism

3

INDICE  DELLE  FIGURE

Figura  1.  Guida  grafica  al  Data  journalism..........................................................................................5

Figura  2.  Tabella  riassuntiva  dell’articolo  di  sport............................................................................12

Figura  3.  Tabella  riassuntiva  dell’articolo  di  tecnologia...................................................................12

Figura  4.  Tabella  riassuntiva  dell’articolo  di  politica........................................................................12

Figura  5.  Precisione  +@K%  Articolo  sport........................................................................................13

Figura  6.  Precisione  -­‐@K%  Articolo  sport.........................................................................................13

Figura  7.  Precisione  +@K%  Articolo  politica.....................................................................................14

Figura  8.  Precisione  -­‐@k%  Articolo  politica......................................................................................14

Figura  9.  Precisione  +@K%  Articolo  tecnologia...............................................................................15

Figura  10.  Precisione  +@K%  Articolo  tecnologia.............................................................................15

Figura  11.  Tabella  dell’articolo  Obama  Campaign  Endgame:  grunt  Work  and  Cold  Math.................17

Figura  12.  Tabella  dell’articolo  Romney  is  Upbeat,  but  Math  is  the  Same........................................18

Figura  13.  Tabella  dell’articolo  Efforts  to  Curb  Social  Spending  Face  Resistance..............................18

Figura  14.  Infografica  coi  dati  estratti  dal  portale  Rimozione  Macerie..........................................24

Figura  15:  Risultati  della  ricerca  “Bacon”  su  Google.......................................................................26

Figura  16:  Ricerca  successiva  su  Google  -­‐    Sommario  delle  informazioni  sul  personaggio  d’interesse  e  ricerche  correlate.......................................................................................................26

Figura  17:  Alcune  associazioni  semantiche  su  Excel........................................................................28

Figura  18:  Esempio  di  proprietà  estratte,  su  Excel..........................................................................29

Page 4: Associazioni semantiche per il Computational Journalism

4

1  Descrizione  del  dominio

1.1  Computational  Journalism  o  Data-­‐driven  Journalism

Data-­‐driven  journalism  is  a  journalistic  process  based  on  analyzing  and  filtering  large  data  sets  for  the  purpose  of  creating  a  new  story.  [1]  

Il  Computational  journalism  consiste  in  un’attività  giornalistica  basata  sull’analisi  e  sul  filtraggio  di  grandi  quantità  di  dati,   liberamente  disponibili  online,  per   la   creazione   di  una  nuova  storia  giornalistica;   prevede   l’applicazione   di   software   e   tecnologie   nelle   attività   riguardanti   il  giornalismo.  

Il  processo  si  divide  in  quattro  fasi  fondamentali:

• Ricerca,  recupero  dati  dal  web• Filtraggio  dei  dati  recuperati  e  trasformazione  delle  informazioni  in  dati  strutturati• Visualizzazione  attraverso  particolari  tool  grafici  (interfaccia  per  il  giornalista)• Pubblicazione   di   una   nuova   storia   giornalistica,   sulla   base   dei   dati   precedentemente  

selezionati.

Per   quanto   riguarda   le   due   fasi   iniziali,   esistono   diverse   tecniche   per   portarle   a   termine,  metodologie   legate   alle   scienze   sociali   e   a   quelle   informatiche   –   tecniche   statistiche,   di  correlazione,   di   visualizzazione   mashup,   di   parsing   e   di   co-­‐creazione   –   che   permettono   il  recupero  di  informazioni  rilevanti  secondo  diverse  metriche  e  giudizi.

La  diffusione  del  Computational  journalism  permetterebbe  un  miglioramento  delle  qualità  delle  notizie   giornalistiche   e   delle   notizie   digitali,   un   utilizzo   più   efficace   dei   dati   pubblicamente  disponibili  sul  web  e  una  riduzione  dei  tempi  di  ricerca  delle  informazioni  d’interesse.

Il  Data-­‐driven   journalism   (DDJ)   è   un  approccio  innovativo  e  come  tale  deve  ancora  percorrere  molta  strada  per  essere  migliorato.  [2]   È   importante  sottolineare  come  esso  non  automatizzi  ogni  compito   fondamentale   del   lavoro   giornalistico  e   quindi   non  sostituisca   i   giornalisti   che  lavorano  per  una  particolare  testata.  Esso,   infatti,  è  incentrato  sull’importanza  del  giornalista,  ma  consente  di  semplificare  alcune  attività,  permettendo  un  risparmio  di  tempo  e  un  aumento  delle  qualità  di  nuove  storie  giornalistiche  prodotte.

Page 5: Associazioni semantiche per il Computational Journalism

5

Figura  1.  Guida  grafica  al  Data  journalism

L’immagine   è   tratta   dalla   presentazione   [3]   del   libro   The  Data   Journalism  Handbook   [4]   che  nasce   come   progetto   collettivo   e   open   source   al   Mozfest   2011   di   Londra.     Co-­‐creato   da  moltissimi   personaggi   influenti   nel   settore   -­‐   membri   dell’Open   knowledge   Foundation,  giornalisti  del  Guardian,  della  BBC,  ricercatori  ecc.  -­‐  il  libro,  che  in  Italia  è  stato  presentato  al  

Page 6: Associazioni semantiche per il Computational Journalism

6

Festival   del   Giornalismo   di   Perugia,   è   una   guida   tascabile   e   alla   portata   di   tutti   per   il  Data  journalism:  fornisce  consigli  utili,   strumenti  e   dritte   su   come   iniziare,   cosa  fare,  dove   trovare   i  dati  e  come  sfruttarli.  La  figura  riassume  brevemente  gli  attori  principali,  i  loro  ruoli  e  i  passaggi  cruciali  per  creare  una  storia  giornalistica  con  i  Linked  Data.  

1.2  Linked  Open  Data

Linked   data  describes  a  method   of  publishing  structured   data   so   that   it   can   be   interlinked   and  become  more  useful.  [5]

Il  termine  Linked  Open  Data  (LOD)  si  riferisce  a  un  insieme  di  pratiche  per  la  pubblicazione  e  il  collegamento   di   dati   strutturati   sul   web,   che   sono   state   adottate   nel   tempo  da  un  numero  crescente  di  fornitori  di  dati.  Ciò  ha  portato  alla  nascita  del  Web  of  Data,  uno  spazio  dati  globale  all’interno   del   web.   La   particolarità   dell’approccio   LOD   sta   nel   formato   con   cui   i   dati   sono  descritti,  ovvero   il  Resource  Description   Framework   (RDF),  che  è  caratterizzato  da  una  codifica  dei  dati  sotto  forma  di  triple  costituite  da  soggetto,  predicato  e  oggetto.  Il  soggetto  e  l’oggetto  possono   essere   descritti   da   Uniform   Resource   Identifier   (URI),   oppure   l’oggetto   può   essere  descritto  da   un   letterale,   il   predicato   risulta   caratterizzato   da   un  URI   e   permette   di  definire  come  sono  relazionati  tra  loro  soggetto  e  oggetto.  Ciò  permette  di  svolgere  una  relazione  tra  diverse  entità  appartenenti  a  diverse  fonti  dati,  poiché  ogni  entità  è  descritta  in  termini  simili  e  confrontabili   (in   accordo   con   determinati   principi,   conosciuti   e   condivisi).   Per   usare   una  metafora,  è  come   se   la  stessa  lingua  fosse  espressa  diversamente.  Ad  esempio  Ontology  Web  Language  (OWL)  -­‐  e   le  sue  molteplici  versioni,  molto  differenti  tra  loro  (OWL  DL,  OWL  lite,  OWL  Full,   OWL   2DL)   -­‐   è   un   linguaggio   di  markup   per   rappresentare   esplicitamente   significato   e  semantica  di  termini  con  vocabolari  e  relazioni  tra  gli  stessi.  È  quindi  in  grado  di  fornire  diversi  gradi  di  espressività  nella  modellazione  d’interesse.  Grazie   a   linguaggi  come  questo  chiunque  può  pubblicare  vocabolari  appositamente  creati  ed  essi  a  loro  volta  possono  essere  collegati  ad  altri  già  esistenti.

1.3  Dbpedia

Dbpedia  è  un  progetto  che  mira  all’estrazione  dei  dati  presenti  in  Wikipedia  e  alla  conversione  di  questi   in   dati   strutturati,   in  modo   tale   che   le   tecniche   del   Semantic   Web   possano  essere  impiegate  sulla  base  di  conoscenza  strutturata.  

Per  raggiungere  questo  scopo,  sono  necessari  i  seguenti  passi:

• Sviluppo  di  un  framework  per  l’estrazione  delle  informazioni,  conversione  del  contenuto  di  Wikipedia  in  RDF

• Il  dataset  RDF  multi  dominio  che  viene  creato,  rappresentante  il  contenuto  informativo  di  Wikipedia,  potrà  essere  utilizzato  da  diverse  applicazioni  del  Semantic  web

• Il  dataset  Dbpedia  verrà  interconnesso  con  altri  dataset,  realizzando  una  visione  globale  del  Semantic  web

• Una  serie  di   interfacce   e  moduli  d’accesso,   renderanno  i  dati  accessibili  tramite  servizi  web.

Page 7: Associazioni semantiche per il Computational Journalism

7

Ognuna  delle  entità  contenute  nel  dataset  risulta  identificata  univocamente  da  un  URI,  il  quale  rappresenta  l’indirizzo  della  risorsa.  Esistono  tre  modi  per  poter  accedere  al  dataset  di  Dbpedia:  

• Linked  Data  • il  protocollo  SPARQL  (SPARQL  Protocol  and  RDF  Query  Language)• il  download  dei  dump  RDF.

Poiché  le   informazioni  all’interno  di  Dbpedia  sono  in  continuo  aggiornamento  (o  almeno  parte  di  esse),  è  stato  realizzato  Dbpedia  Live,  il  quale  ha  il  compito  di  eseguire  una  sincronizzazione  di  Dbpedia  con  Wikipedia.

1.4  Dbpedia  Spotlight

Dbpedia  spotlight   è   un  progetto  che  mira  a  collegare   documenti  testuali   con  LOD.   In  questa  direzione   è   stato   realizzato   Namer   Entity   Recognizer   (NER),   un   sistema   che   permette   di  annotare  automaticamente  documenti  testuali  sulla  base  di  URI  presenti  in  Dbpedia.  

Questo  approccio  si  può  dividere  fondamentalmente  in  tre  fasi:

• Individuazione   delle   frasi   nel   testo   che   potrebbero   contenere   delle   entità   presenti  all’interno  di  Dbpedia

• Definizione  di  un  mapping  fra  le  entità  contenute  nelle  frasi  e  i  loro  candidati  selezionati,  i  quali  permetteranno  di  disambiguare  il  loro  significato

• Utilizzo   del   contesto   delle   frasi   per   la   scelta   dei   migliori   candidati,   i   quali   verranno  selezionati   anche   sulla   base   dei   parametri   definiti   in   precedenza   e   specificati  inizialmente  dall’utente.

Dbpedia  Spotlight   risulta  molto  flessibile  in  quanto  permette  di  selezionare  in  base  alle  proprie  esigenze  i  valori  dei  seguenti  parametri:  

• Importanza  (numero  di  volte  in  cui  l’entità  è  menzionata  in  Wikipedia)• Disambiguazione  (basata  sul  contesto  del  documento  testuale)  • Annotazione  (scelta  dei  tipi  di  termini  grammaticali  da  selezionare)• Ambiguità  contestuale  • Confidenza.

Lo  strumento  si  presenta  attraverso  una  semplice   interfaccia  web  all’interno  della  quale   sarà  possibile   definire   ogni   singolo   parametro   per   la   ricerca   di   entità   su   uno   o   più   documenti  testuali.

Page 8: Associazioni semantiche per il Computational Journalism

8

2  Descrizione  del  lavoro  di  tesi

2.1  Introduzione  –  Spiegazione  generale

La  tesi  del  collega  Polidoro  -­‐  cui  siamo  stati  “affiancati”   -­‐  ha  come  scopo  la  realizzazione  di  un  sistema   software   che,   dato   un   insieme   di   documenti   testuali   (principalmente   articoli  giornalistici)   sia   in  grado  di  associare  un  contesto   fattuale  agli  stessi   sulla  base   dei  data  LOD  Cloud.   Questo   permetterà   di   associare   dei   dati   fattuali,   i   quali   costituiranno   un  approfondimento  contestuale  di  un  articolo.  In  altre  parole,  il  software  lanciato  troverà,  grazie  ad  un  algoritmo,  alcune  entità  presenti  nell’articolo,  entità  cui  sarà  associato  un  URI  sul  dataset  Dbpedia.  Proprio  grazie  alle  informazioni  presenti  su  Dbpedia,  riguardo  a  una  particolare  entità,  saranno  trovati  dei  collegamenti  con  altre  entità,  presenti  nell’articolo,  o  anche  solo  presenti  sul  dataset.  L’approccio  realizzato  è  stato  denominato  Data  Context  Extraction  for  News  Articles  (DaCENA).

Quest’approccio  si  basa  su  un  processo  composto  idealmente  da  quattro  passi:

• Estrazione  della  base  documentale• Annotazione  della  base  documentale• Estrazione  del  grafo  massimale• Valutazione  dei  percorsi  e  selezione  del  grafo  ridotto

I  documenti  testuali  usati  sono  stati  tre  articoli  giornalistici  presenti  sul  sito  web  del  New  York  Times,  i  tre  articoli  trattano  tre  temi  diversi:  sport,  politica  e  tecnologia.

2.2  Estrazione  della  base  documentale

Per   quanto   riguarda   l’estrazione   della  base  documentale,   cioè   il  recupero  del  corpo  testuale  dell’articolo,  un  problema  è   subito  evidente:   attorno  all’articolo  in  sé,  sulle  pagine  web  di  una  testata   giornalistica  ospitante   appunto   un  articolo,   appare   molto  materiale   testuale   (articoli  collegati,   pubblicità,   moduli   di   accesso,   impostazioni…)   e   questo   può   causare   problemi   al  processo  automatico  di  estrazione  della  base  documentale.  Ovviamente  un  algoritmo  non  ha  la  capacità  selettiva  che  può  avere  un  utente  umano  nello  scindere  il  corpo  dell’articolo  dalle  altre  annotazioni   testuali   presenti   sulla   pagina  web.   Per   risolvere   questo   problema,   il   software   si  basa  sul  linguaggio  HTML  con  cui  è  definita  la  formattazione  grafica  della  pagina  attraverso  dei  tag  univoci.  È  quindi  possibile  notare  come  all’interno  di  ogni  sorgente  html,  ogni  parte  testuale  contenuta  nelle  pagine  web  possa  essere   identificata  sulla  base  dell’apposito  tag  HTML  in  cui  essa  è  contenuta.

Il  processo  di  recupero  automatizzato  della  parte  testuale  d’interesse  all’interno  della  sorgente  HTML   viene   denominato   web   scraping.   Questa   è   una   tecnica   software   che   permette  l’estrazione  delle   informazioni  presenti   all’interno  delle  pagine  web.   Fondamentalmente  web  scraping,   simulando   l’esplorazione   di   un  utente   all’interno   di   una   pagina  web,   è   in  grado   di  recuperare  le  informazioni  di  interesse  tramite  una  richiesta  al  relativo  portale  web  attraverso  il  protocollo   http.   Questa   tecnica   si   focalizza   sulla   trasformazione   dei   dati   non   strutturati  presenti   sul   web,   codificati   attraverso   il   formato   HTML,   in   dati   strutturati,   i   quali   possono  essere  memorizzati  ed  analizzati.  

Page 9: Associazioni semantiche per il Computational Journalism

9

All’interno  di  questo  primo  passo  relativo  all’estrazione  della  base  documentale,  il  web  scraping  è  stato  realizzato  sulla  base  di  un  parser   html,  che  permette   l’estrazione  e   la  pulizia  del  corpo  testuale  dell’articolo  giornalistico.

2.3  Annotazione  della  base  documentale

L’annotazione   consiste   nell’identificazione  delle   entità   riportate   all’interno   del   testo,   le   quali  verranno  individuate  tramite  le  entità  definite  all’interno  di  Dbpedia.  Per  questo  processo  verrà  utilizzato   un   sistema   NER,   ovvero   Dbpedia   Spotlight,   il   corpo   dell’articolo   estratto   verrà  inoltrato  in  input  a  Dbpedia  Spotlight  che  lo  analizzerà  e  provvederà  ad  annotarlo.

All’interno  di  questo  processo,  è  stato  deciso  di  chiedere  allo  strumento  di  fornire  un  output  in  formato   XML   (Extensible   Market   Language),   che   sia   caratterizzato   da   un   insieme   di   entità  riconosciute  nell’articolo  associate  al  relativo  URI  dell’entità  presente  in  Dbpedia.  

2.4  Estrazione  del  grafo  massimale

Il   grafo  massimale   contiene   tutti   i   percorsi   emersi   fra   le   entità   recuperate   dall’articolo.   Per  continuare   il   processo   di   estrazione   del   grafo   massimale,   è   necessario   identificare   l’entità  sorgente   dell’articolo,   in   modo   tale   da   poter   ricercare   associazioni   semantiche   tra   l’entità  sorgente  (cioè  quella  definita  come  la  più  citata  all’interno  dell’articolo)  e  le  restanti,  riducendo  la  ricerca  tra  coppie  di  entità  più  rilevanti  nei  confronti  dell’articolo.Per   ogni   coppia   di   entità   (entità   sorgente   –   entità   arbitraria   altra)   saranno   ricercate   delle  associazioni   semantiche   caratterizzate   da:   una   singola   proprietà,   una   sequenza   di   due  proprietà  con  un’entità  intermedia   sconosciuta,  una  sequenza  di  tre  proprietà  con  due  entità  intermedie   sconosciute.  È   inoltre   importante  evidenziare   come  ognuna  delle   proprietà   stanti  fra  una  coppia  di  entità,  possa  essere  entrante  o  uscente,  rispetto  alle  entità  stesse.Una  volta  completata  la  ricerca  delle  associazioni  semantiche  fra  l’entità  sorgente  e  le  restanti,  si  avrà  a  disposizione  il  grafo  massimale  relativo  all’articolo  giornalistico  analizzato.

2.5  Valutazione  dei  percorsi  e  selezione  del  grafo  ridotto

L’insieme   delle   query   inviate   all’enpoint   di   Dbpedia   Live,   basato   sulla   ricerca   di   tutte   le  associazioni  semantiche  presenti  tra  coppie  di  entità  definite,  ha  restituito  un  grafo  massimale  ampio,   caratterizzato   da   un   minimo   di   650   ca   fino   a   un   massimo   di   8500   ca   associazioni  semantiche   per   ogni  articolo.   Data   la  vastità  delle  associazioni  semantiche   in  output,  diventa  necessario   individuare   quelle   rilevanti   tra   coppie   di   entità   sulla   base   di   un   ranking   fornito  all’utente.  

La   valutazione   sarà   basata   su   alcune   metriche   formali   scelte,   ovvero   Rarity,   Popularity   e  Context.   Le   prime   due   permettono   di   effettuare   considerazioni   numeriche   sulle   proprietà   e  sulle  entità     identificate  all’interno  delle   associazioni  semantiche,  mentre  l’ultima  permette  di  prendere  in  considerazione  le  classi  a  cui  appartengono  le  entità  analizzate.  Illustriamole  un  po’  più  nel  dettaglio.  

Page 10: Associazioni semantiche per il Computational Journalism

10

• Rarity   permette   di   considerare   rilevanti   quelle   associazioni   che   contengono   delle  proprietà   ontologiche   che   occorrono   meno   frequentemente   all’interno   di   Dbpedia,  poiché   saranno   considerate   le   più   informative   rispetto   alle   restanti   caratterizzate   da  un’alta  frequenza  di  utilizzo

• Popularity   permette   invece   di   considerare   le   entità   presenti   all’interno   di   ogni  associazione  semantica  (anziché  le  proprietà  ontologiche,  come  fa  Rarity),  privilegiando  quelle   associazioni   semantiche   che   contengono   entità   più   popolari   all’interno   di  Dbpedia.  La  popolarità  di  un’entità,  in  Dbpedia,  è  definita  come  la  somma  del  numero  di  proprietà  entranti  ed  uscenti  dalla  stessa

• Context  permette   infine  di  considerare   la  semantica  delle  entità   identificate   all’interno  delle  associazioni  semantiche  recuperate  in  precedenza,  privilegiando  quelle  contenenti  delle   entità   correlate   al   contesto   giornalistico.   Ovvero,   per   ogni   entità   recuperata  dovranno  essere   recuperate   le   classi   alle  quali  essa   appartiene   all’interno  di  Dbpedia.  Attraverso   opportuni   calcoli,   otterremo  ogni   associazione   semantica   associata   con   la  propria  rilevanza  nei  confronti  del  contesto  dell’articolo  giornalistico.

Poiché  le  rilevanze  ricavate  sono  caratterizzate  da  una  diversa  scala  di  valori,  risulta  necessario  effettuare   una  normalizzazione  degli   stessi   tra  un  valore  minimo  pari   a   0  un  valore   massimo  pari   a   1.   Attraverso   le   rilevanze   ricavate   e   normalizzate   sarà   possibile   procedere   a   una  combinazione   delle   stesse   tra   loro   sulla   base   del   valore   massimo   e   medio   risultante   tra   le  diverse   coppie   e   tra   tutte   e   tre   le   rilevanze   delle   rispettive   metriche.   Questo   permetterà  un’estrazione   dei   grafi   ridotti   caratterizzati   dalle   associazioni   semantiche   più   rilevanti   nei  confronti  di  ogni  metrica,  di  ogni  combinazione  e  dell’approccio  Random  basato  su  estrazione  casuale.

Page 11: Associazioni semantiche per il Computational Journalism

11

3  Descrizione  del  nostro  lavoro  di  valutazione

3.1  Dataset  e  metriche  di  valutazione

I  tre  articoli  da  noi  valutati  trattano  argomenti  diversi,  vediamoli  ora  più  nel  dettaglio.  L’articolo  riferito  all’ambito  sportivo  dal  titolo  Can  Del  Piero   Inspire  Juventus  to  Glory:  Old  Lady  Puts  Hopes  On  One  Young  Star  [6]  descrive  i  trascorsi  di  Alessandro  Del  Piero  con  la  maglie  della  Juventus.  L’articolo  politico  Obama  Campaign  Endgame:  grunt  Work  and  Cold  Math  [7]  tratta  la  campagna  politica  affrontata  da  Obama  per  le  elezioni  2012.  Infine,   l’articolo  riguardante   la  tecnologia  dal  titolo  Apple  profit  Rises  24%  on  Sales  of  iPhone  5  [8]  tratta  i  profitti  di  Apple  riguardanti  la  vendita  di  iPhone  5.

Lo   strumento,   per   ogni   articolo   selezionato,   ha   eseguito   i   passi   già   descritti,   restituendo   le  rilevanze  delle  associazioni  semantiche  nei  confronti  delle  metriche  Rarity,  Popularity,  Context  e  delle  loro  rispettive  combinazioni  e  un  insieme  di  numeri  generati  casualmente,   i  quali  saranno  utilizzati   per   una   selezione   casuale   secondo   l’approccio   Random.   Questo   rappresenta   la  valutazione  delle  associazioni  semantiche  ricavate,  da  parte  della  macchina.

La  valutazione  da  parte  nostra  è  invece  avvenuta  attraverso  la  costruzione  di  un  Gold  Standard  e   quindi  mediante   giudizi  di   rilevanza   espressi  sulle   associazioni   semantiche   caratterizzanti   il  grafo  massimale  estratto  per  ogni  articolo.  È   stato  questo  dunque   il  nostro  ruolo.  Avendo  noi  un   background   formativo   adeguato,   poiché   provenienti   da   un   corso   di   laurea   triennale   in  Scienze   della   Comunicazione,   il   nostro   compito   è   stato   quello   di   valutare   ogni   associazione  semantica   presente   in   ognuno   dei   grafi  massimali,   output   del   lavoro   dell’algoritmo,   con   un  giudizio  che  andasse   da   0   a   3,   dove   0  significa  che   l’associazione   semantica   è   stata   valutata  errata,   1   che   è   stata   valutata  poco   interessante/significativa,   fino   a   3   che   indica  un  percorso  interessante,   sia   per   le   entità  presenti   sia  per   le   proprietà   che   le   relazionano.   Il   giudizio   0   è  stato  dato  solo  a  quelle  associazioni  semantiche  in  cui  l’entità  estratta  dall’articolo  (cioè  quella  all’estrema  destra  della  riga)  fosse  considerata  sbagliata,  non  idonea  cioè  ad  una  relazione  con  l’entità   principale   estratta   dall’articolo   (ovvero   la   prima   a   sinistra   nella   riga   che   esprime  l’associazione  semantica).  Per  riuscire  a  valutare  queste  relazioni,  è   stato  fatto  un  importante  lavoro   di   ricerca   di   informazioni   (sempre   sul   web)   riguardanti   le   entità   citate   nelle  numerosissime  associazioni  semantiche  presenti  nei  tre  grafi  massimali.  Una  volta  compiuta  la  valutazione   è   stato   possibile   ottenere   i   grafi   massimali   analizzati   dal   punto   di   vista   della  rilevanza  delle  associazioni  semantiche  contenute  nei  confronti  degli  articoli  giornalistici.    

A   questo   punto   viene   fatto   un   confronto   fra   le   nostre   valutazioni   e   quelle   riportate   dalla  macchina  secondo   le  metriche  Rarity,   Popularity,  Context,   le   loro  rispettive   combinazioni  e  un  insieme   di   numeri   generati   casualmente,   i   quali   saranno  utilizzati   per   una   selezione   casuale  secondo  l’approccio  Random.  Per  le  nostre  valutazioni,  sono  state  selezionate  quelle  valutate  3  (Precisione+@K%)  e  separatamente  quelle  valutate  2  e  3  (Precisione-­‐@K%).  

I   due   gruppi   sono   stati   quindi   associati   ad   ogni   metrica   (della   valutazione   da   parte   della  macchina)  e  ad  ogni    combinazione  delle  metriche  fra  loro  (a  diverse  percentuali  sul  totale  delle  associazioni  semantiche  ricavate).

Page 12: Associazioni semantiche per il Computational Journalism

12

3.2  Analisi  dei  risultati

Di  seguito  vengono  presentate  le  tabelle  relative  alle  nostre  valutazioni  dei  tre  articoli  di  Sport,  Tecnologia  e  Politica:

Figura  2.  Tabella  riassuntiva  dell’articolo  di  Sport

Figura  3.  Tabella  riassuntiva  dell’articolo  di  Tecnologia

Figura  4.  Tabella  riassuntiva  dell’articolo  di  Politica

Page 13: Associazioni semantiche per il Computational Journalism

13

La   prima   voce   presente   in   tutte   e   tre   le   tabelle   si   riferisce   al   numero   totale   di   associazioni  semantiche   trovate   dall’algoritmo.  Ogni   associazione   semantica   è   caratterizzata  da  un’entità  iniziale  (uguale  per  tutte),  un’entità  finale  e  una  proprietà  che  le  lega.    Fra  le  due  entità  possono  comparirne   di   nuove   (entità   intermedie),   legate   alla   prima,   all’ultima  e   fra  di   loro  attraverso  diverse  proprietà.  Se  un’associazione  è  costituita  da  due  entità  e  una  proprietà  che  le  relaziona,  si  dice  che  ha  lunghezza  1,  se  invece  ci  sono  tre   entità  e  quindi  due  proprietà  che   le   legano  si  dice   che   ha   lunghezza   2.   Il   numero   delle   proprietà   presenti   nel   percorso   trovato   (che   sarà  sempre   inferiore  di  un’unità   rispetto  al  numero  delle   entità  coinvolte   in  quella   associazione)  conta  come  “lunghezza”  dell’associazione  semantica  in  questione.

Di  seguito   invece   presentiamo   i   grafici  relativi   al   confronto  fra   le   nostre   valutazioni   e   quelle  derivate  dalle  metriche  Rarity,  Context,  Random  e  le  loro  combinazioni.  Le  associazione  valutate  vengono   prese   a   una   certa   percentuale   sul   loro   totale.   Fra   queste   si   può   vedere   quale  percentuale  sia  stata  considerata  rilevante  dalla  macchina,  secondo  la  metrica  considerata.

Figura  5.  Precisione  +@K%  Articolo  sport

Attraverso   la  figura  5  si  evidenzia  come  la  metrica  Rarity   risulti  mediamente  migliore  rispetto  alle  restanti.  Al  75%  risulta  migliore  la  metrica  Popularity.

Figura  6.  Precisione  -­‐@K%  Articolo  sport

Page 14: Associazioni semantiche per il Computational Journalism

14

Attraverso   la   figura   6   si   evidenzia   come   la   metrica   Context   e   la   combinazione   sulla  base  del  massimo   tra   le   metriche   Popularity   e   Context   risultino   mediamente   migliori   rispetto   alle  restanti.   Fino  al  25%  la  metrica  Context   supera  le   restanti,   in  modo  differente   al  50%   e   al   75%,  rispettivamente,   la  combinazione  sulla  base  del  massimo  tra  Rarity,   Context   e  Popularity   e   la  combinazione  sulla  base  della  media  tra  Popularity  e  Context  risultano  migliori.

Figura  7.  Precisione  +@K%  Articolo  politica

In  figura  7,  si  può  notare  che  la  metrica  Rarity  risulti  mediamente  migliore  rispetto  alle  restanti.  Al  25%  risulta  migliore  la  metrica  Context.

Figura  8.  Precisione  -­‐@k%  Articolo  politica

Dalla  figura  8  si  evince  che  la  metrica  Rarity  risulta  nettamente  migliore  rispetto  alle  altre.

Page 15: Associazioni semantiche per il Computational Journalism

15

Figura  9.  Precisione  +@K%  Articolo  tecnologia

La  figura  9  invece  evidenzia  come  la  combinazione  sulla  base  del  massimo  tra  le  metriche  Rarity  e  Context  risulti  mediamente  migliore  rispetto  alle  restanti.  Fino  al  10%,  la  stessa  risulta  migliore  rispetto   alle   restanti,   differentemente   al   25%   risulta   migliore   la   combinazione   sulla   base   del  massimo   tra   le   metriche   Popularity   e   Context   ed   infine   al   50%   e   al   75%   risultano   migliori   la  metrica  Popularity  e  la  combinazione  sulla  base  della  media  tra  le  metriche  Popularity  e  Context.

Figura  10.  Precisione  +@K%  Articolo  tecnologia

Interpretando  il  grafico  in  figura  10,  si  deduce  che  la  combinazione  sulla  base  della  media  tra  le  metriche   Popularity   e   Context   risulti  mediamente   migliore   rispetto  alle   restanti.   La   stessa   è  migliore   anche   al  5%  ma  al  10%  e  al  25%  ,   rispettivamente,  la  metrica  Context  e  Rarity   risultano  migliori   rispetto   alle   restanti.   Infine   al   50%   e   al   75%,   la  metrica   Popularity   risulta   la   migliore  insieme  alla  combinazione  sulla  base  della  media  tra  le  metriche  Popularity  e  Context.

È   importante   sottolineare   che   le   nostre   valutazioni  sono  tendenze   di  giudizio   personale,   che  dipendono  quindi  dalla  soggettività  di  chi  valuta.   L’analisi  dei  risultati  dati  dal  confronto  delle  nostre   valutazioni  con  quelle   della  macchina  mostra   come   l’ambito  di  cui   tratta   l’articolo   sia  rilevante   per   la   capacità  di  giudizio  delle  metriche:   nell’ambito  politico  le   combinazioni   tra   le  metriche   non   riescono   a   raggiungere   mediamente   gli   stessi   risultati   ottenuti   dalla   metrica  Rarity  (la  più  precisa),  così  come  risulta  anche  dall’analisi  riguardante  l’articolo  sportivo.  

Page 16: Associazioni semantiche per il Computational Journalism

16

Per   quanto   riguarda   l’articolo   in   ambito   tecnologico,   quello   che   esaminava   le   vendite   e   gli  introiti   dell’iPhone   5,   risulta   invece   migliore   la   combinazione   sulla   base   della   media   tra   le  metriche  Popularity  e  Context.

Page 17: Associazioni semantiche per il Computational Journalism

17

4  Conclusioni  personali  sul  lavoro  svolto

4.1  Le  nostre  valutazioni  a  confronto

Gli   argomenti   e   i   giudizi   trattati   finora   riguardavano   il   nostro   ruolo   di   valutatori   delle  associazioni  semantiche  recuperate  nei  tre  articoli  analizzati  nella   tesi.  Dagli   incontri  col  Prof.  Palmonari   è   però   risultata   interessante   l’idea  di  andare  oltre   l’attività   in  collaborazione   con  il  collega  Polidoro.  Abbiamo  dunque  deciso  di  proseguire  il  nostro  lavoro  di  valutatori  su  altri  due  articoli,   che   avessero   come   tema   la  politica.    Questa   decisione   è   stata  presa   per   cercare   di  valutare  meglio  l’algoritmo  che  ha  prodotto  i  risultati  (l’articolo  di  politica  analizzato  per   la  tesi  di  Alessio  era   quello   con   le   valutazioni   più   basse),   in  un   ambito,   quello  della   politica,   che   ci  sembrava  quello   più   interessante   e   “caldo”.    Abbiamo   inoltre   deciso   che   le   valutazioni  per   i  nuovi  articoli  sarebbero  state  doppie,  a  differenza  della  prima  fase  di  lavoro  in  cui  ogni  articolo  era  stato  valutato  da  uno  solo  di  noi.  Riccardo  ha  quindi  analizzato  il  primo  articolo  di  politica,  valutato  precedentemente  da  Valeria,  siamo  poi  passati  alle  valutazioni  di  altri  due  articoli  e   li  abbiamo  in  seguito  messi  a  confronto  per  verificare  l’uniformità  dei  giudizi  dati  singolarmente.  Le   valutazioni  di  una  sola   persona  sono   interessanti,   e   sono  state   utili  per   il   lavoro  di   tesi  di  Polidoro,  ma  di  certo  non  bastano  in  linea  generale,  possono   insomma  essere  considerate  un  buon   punto   di   partenza.   Due   persone   –   con   giudizi,   conoscenze,   parametri   di   valutazione  ovviamente  diversi  –  offrirebbero  un’analisi  più  varia.  Abbiamo   dunque   proseguito   il   nostro   progetto   lavorando   in   quest’ottica:   con   valutazioni  incrociate   l’analisi   delle   associazioni   porterà   a   risultati   e   riflessioni   a   riguardo   di   più   ampio  respiro.  

Gli   articoli   che   trattavano   argomenti   politici   sono   stati   dunque   tre:   il   primo,   come   abbiamo  detto,  è  lo  stesso  utilizzato  nella  tesi  (Obama  Campaign  Endgame:  grunt  Work  and  Cold  Math,  dal  sito  web  del  New  York  Times),  gli  altri  due,  sempre  provenienti  dal  sito  web  del  New  York  Times,  titolavano:   Romney   is  Upbeat,   but   Math   is   the  Same   [9]e  Efforts   to   Curb   Social   Spending   Face  Resistance  [10].  Il  primo  dei  due  si  focalizzava  sulla  campagna  elettorale  di  Romney  e  sui  numeri  delle  previsioni,  che  davano  la  sfida  aperta  fino  all’ultimo.  Il  secondo  invece  sui  provvedimenti  riguardo  a  Social  Security  e  Medicare  che  il  rieletto  presidente  Obama  cercherà  di  apportare.

Come   già   detto,   ognuno   di   noi   ha   valutato   singolarmente   le   quasi   19000   associazioni  semantiche   estratte   in   totale   dai  tre   articoli.   Ecco  delle   tabelle   che   riassumono   le   differenze  quantitative  fra  le  due  valutazioni.

Valeria Riccardo

1 2090 2638

2 1337 873

3 107 23

0 4 4

Figura  11.  Tabella  dell’articolo  Obama  Campaign  Endgame:  grunt  Work  and  Cold  Math

Page 18: Associazioni semantiche per il Computational Journalism

18

Valeria Riccardo

1 4630 4477

2 1223 1382

3 10 1

0 0 3

Figura  12.  Tabella  dell’articolo  Romney  is  Upbeat,  but  Math  is  the  Same

Valeria Riccardo

1 8419 8157

2 858 1090

3 69 99

0 0 0

Figura  13.  Tabella  dell’articolo  Efforts  to  Curb  Social  Spending  Face  Resistance

Nessuna  associazione  semantica  ricavata  dall’articolo  sopra  citato  è  stata  valutata  0.

Come  si  può  osservare  dai  risultati  riportati  nelle  tabelle  di  queste  tre  figure,  le  valutazioni  sono  state  abbastanza  simili  ma  non  identiche.  È  chiaro  che,  data  la  grandissima  mole  di  associazioni  semantiche  da  valutare,  non  sempre  abbiamo  seguito  lo  stesso  metro  di  giudizio.  

Ma,  in  linea  generale,  si  è  cercato  di  seguire  queste  regole  comuni  che  avevamo  in  precedenza  tra  di  noi  accordato:  

• Valutare   0  solo  quei   percorsi  di   associazioni   aventi   l’entità   finale   in   disaccordo  con   la  prima  (entità  principale)  

• Valutare   1   quei   percorsi   che   risultano   caratterizzati   da   entità   e   proprietà   coerenti   e  logicamente   connesse   fra   loro   ma   che   non   danno   luogo   a   delle   associazioni  particolarmente  interessanti  

• Valutare  2  quei  percorsi  che,   oltre   a  essere  corretti  da  un  punto  di  vista   logico,   danno  luogo   ad  associazioni  singolari   in  quanto  alcune   entità   o   proprietà  coinvolte   risultano  (per  rarità  o  importanza  o  popolarità)  particolarmente  interessanti,  

• Infine,  valutare  3  quei  percorsi  che,  oltre  a  essere  corretti  da  un  punto  di  vista  logico  e  a  contenere   entità   e   o   proprietà   interessanti,   sono   considerati   particolarmente   affini   e  quindi  congruenti  per  contenuto  all’articolo  da  cui  l’entità  principale  è  stata  estrapolata.

Vediamo  ora  alcuni  esempi  tratti  dall’articolo  Efforts  to  Curb  Social  Spending  Face  Resistance  per  chiarire  meglio   i   parametri  di   giudizio   usati   e   per   notare   possibili  differenze   che   potrebbero  comunque  scaturire  tra  le  valutazioni  di  due  diversi  esperti  di  dominio.

Page 19: Associazioni semantiche per il Computational Journalism

19

Il  percorso  <dbp:Barack_Obama>      dbProp:party  >      dbp:Democratic_party_(United_States)>  può  essere  valutato  3  per   la  popolarità  della  notizia  rappresentata  dal  percorso  e  per   l’affinità  con  gli  argomenti  trattati  nell’articolo.  Lo  stesso  può  anche  essere  valutato  2,  in  quanto  esso  è  sì   coerente   con   l’articolo   e   popolare,   ma   allo   stesso   tempo,   rappresenta   una   notizia   ormai  conosciuta   da   tempo   e   quindi   non   rara,   anzi   banale.   Già   da   questo   esempio   si   può   notare    come,  nonostante  le  regole  generali  osservate  siano  le  stesse,  i  giudizi  possono  però  differire  a  seconda  di  chi  li  esprime.  

Il   percorso  <dbp:Barack_Obama>       dbProp:president   <     <dbp:David_Jane>    dbProp:party   <    <dbp:Democratic_Party_(United_States)>     è   stato   valutato   1   perché   esprime   delle   relazioni  logiche,   reali,   ma   non   particolarmente   interessanti   né   originali   o   popolari.   Il   percorso  difficilmente  potrà  essere  giudicato  con  un  valore  più  alto.  

Il  percorso  <dbp:Barack_Obama>    dbProp:president  <    <dbp:John_Boehner>  è  stato  valutato  da   entrambi   3   per   l’importanza   dell’entità   citata   (Boehner   è   presidente   della   camera   dei  deputati)  e  perché  la  stessa  entità  è  citata  nell’articolo  da  cui  quella  principale  è  estrapolata.  Il  percorso   è   dunque   congruente   con   l’articolo   giornalistico   a   cui   è   collegato   e   l’argomento  importante.

Quasi  mai  è   successo,   analizzando   e   confrontando   le   nostre   valutazioni,   di   trovare   percorsi  valutati  1  da  un  esperto  di  dominio  e  3  dall’altro.  È  successo  invece  spesso  di  trovare  percorsi  valutati  2  o  3  a  seconda  di  chi  ha  espresso  il  giudizio  e,  ancora  più   spesso,  quelli  valutati  1  e   2.  Fra   le   associazioni   recuperate   dall’articolo   Efforts   to   Curb   Social   Spending   Face  Resistance  ne  troviamo  parecchie   che  collegano  l’entità   principale   a   uno  dei  propri  mestieri,   ovvero  quello  dell’avvocato.   Uno   di   noi   due   ha   deciso   di   valutare   quelle   associazioni   con   un   2  perché   ha  ritenuto  che   il   fatto  che  Obama   fosse,   oltre   che   politico  e   autore   di   scritti,   anche  avvocato,  abbastanza  interessante  e  originale  (non  tutti  d’altronde  lo  sanno),  l’altro  di  noi  due  ha  invece  deciso  di  valutare   questi  stessi  percorsi  con  un  1  perché  non  ha   ritenuto  che   il   collegamento  <Obama>   mestiere   >   <avvocato>   fosse   abbastanza   originale   da   poter   essere   valutato  diversamente.

Nel   complesso,  e   data   la   grande   quantità   di  dati  da   analizzare,   riteniamo  che   i   nostri  giudizi  siano   stati   abbastanza   uniformi,   o   quantomeno   facilmente   confrontabili.   Da   un’analisi  dettagliata  risulta  evidente  che  i  due  valutatori  hanno  seguito  delle  metriche  basate  su  giudizi  di   popolarità,   originalità   e   contestualizzazione   dati   alle   entità   e   alle   proprietà   citate   nei  percorsi.  

È   possibile   notare   macrodifferenze   come   quella   citata   nel   paragrafo   precedente   (Obama  avvocato:   interessante/banale)   ma   nel   complesso   c’è   stato  un  buon   livello   di   accordo   nella  valutazione   dei   percorsi,   soprattutto   quelli   contenenti   entità   salienti   (perché,   ad   esempio,  citate  nell’articolo  relativo  oppure  per  la  loro  popolarità).    

4.2  Valutazione  generale  dei  risultati  prodotti  dall’algoritmo

Come  già  scritto  in  precedenza,  le  associazioni  semantiche  estrapolate  dai  tre  articoli  di  politica  sono  state  quasi  19000  (per   la  precisione,  18749)  mentre  quelle  estrapolate   dai  tre  articoli  su  cui  la  tesi  si  è  basata  sono  state  9114.   Fra   i  cinque  articoli  citati,  quello  con  meno  associazioni  semantiche  recuperate  è  stato  Apple  profit  Rises  24%  on  Sales  of  iPhone  5con  890  percorsi,  il  più  ricco  invece  è  stato  Efforts  to  Curb  Social  Spending  Face  Resistance  con  ben  9346  percorsi.  

Page 20: Associazioni semantiche per il Computational Journalism

20

Nel  ruolo  di  esperti  di  dominio  entrambi  ci  siamo  resi  conto  che  questi  numeri  sono  troppo  alti,  soprattutto  se  si  considera  che  i  percorsi  valutati  con  1  sono  la  maggioranza  per  tutti  gli  articoli  analizzati.   Guardando   le   tabelle   riportate   precedentemente   (sia   quelle   che   riguardano   i   tre  articoli   valutati  per   il   lavoro   di   tesi,   sia   quelle   sul   confronto   delle   valutazioni   nei   tre   articoli  politici)   si  può  facilmente  evincere  quanto  appena  detto.   Il   fatto  che  molti  dei  percorsi   siano  stati  valutati   1   significa   che   la  maggior   parte   dei  “cammini”   ricavati  dalle   associazioni   fra   le  entità  sono  stati  valutati  giusti  ma  poco  interessanti,  perché  comuni  e/o  ripetitivi  oppure  perché  totalmente  privi  di  interesse.  

Le  associazioni  con  valore   1   quindi   sono  molte,  ma   valutarle   1   è  riduttivo  e   in  un  certo  senso  fuorviante:   sarebbe   a   nostro   parere   utile   un   ulteriore   discriminazione   sugli   1,   poiché   la  differenza   fra   il  giudizio  comuni  e/o  ripetitivi  e   il  giudizio   totalmente  privi   di   interesse  è  molta.  Mentre   le  associazioni  considerate  comune/o   ripetitivi  [11]  hanno  ragione  di  essere  comunque  inserite   fra  quelle   ricavabili  dalle  entità  tratte  dall’articolo;  quelle  considerate  totalmente  prive  di   interesse   non   hanno   motivo   di   comparire   fra   i   percorsi   che   un   giornalista   o   un   utente  interessato   a   quell’argomento   avrebbe   piacere   di   trovare   fra   quelli   relativi   all’articolo   (o  semplicemente   all’argomento)   d’interesse.  Sarebbero   insomma,  a   nostro  parere,   un  po’   una  perdita  di  tempo,  non  un  acquisizione  di  informazioni  utili.

Prendendo   ancora   ad   esempio   l’articolo   Efforts   to   Curb   Social   Spending   Face   Resistance,  proponiamo   uno   dei   percorsi   valutati   da   entrambi   1   e   giudicato   –   sempre   da   entrambi   -­‐    totalmente  non   interessante.   A   nostro   parere   esso  dimostra   che   i   percorsi   di  questo  genere  sarebbe   meglio   e   senza   dubbio   più   utile   che   non   comparissero   come   output   dell’analisi   in  Dbpedia  delle  entità  estrapolate  dall’articolo.

<dbp:Barack_Obama>     dbProp:leader_name   <     dpb:United_States     dbpProp:country     <    dbp:Missouri_Valley_Iowa    dbProp:isPartOf  >    <dbp:Iowa>

L’informazione   contenuta   in  questo  percorso  e  riassumibile  con  “Obama  è  il   leader  degli  Stati  Uniti,   in   cui  Missouri   Valley   è  un   paese,   che   fa   parte  dello   stato   Iowa”   non  è   interessante,   né  originale,  né  collegata  in  maniera  rilevante  e  congruente  all’articolo  da  cui  le  entità  sono  state  estrapolate.

Alla  luce  di  queste  osservazioni  (in  sintesi:  i  percorsi  ricavati  sono  troppi,  e  fra  questi  molti  sono  stati  valutati  1.  Buona  parte  di  queste  associazioni  valutate  1  può  essere  considerata  totalmente  priva  di  interesse  per  chiunque  voglia  cercare  informazioni  sull’argomento  principale  da  cui  tale  associazione  è   stata  estrapolata)   siamo  giunti   alla  conclusione  che   l’algoritmo  ha  usato  delle  metriche   di   selezione   di   collegamenti   troppo   “larghe”.   In   linea   generale   però,   è   giusto  sottolineare  che  il  sistema  ha  rilevato:  

• Percorsi  interessanti:  la  maggior  parte  di  quelli  da  noi  valutati  2  e  3  • Percorsi  meno  interessanti  ma  che  comunque  potrebbero  essere  utili:  quelli  valutati  1   in  

quanto   rappresentano   informazioni   risapute   o   non   troppo   significative   (anche   se   su  questo   punto   bisogna   però   sottolineare   che   dipende   anche   dagli   utenti   che  usufruiscono  di  queste  informazioni)

• Pochissimi   percorsi  giudicati   con  0:   questo   significa  che   l’algoritmo  non   ha  quasi  mai  fallito   nel   trovare   un  collegamento  fra   l’entità   principale   e   quella   finale   del   percorso,  l’unica   pecca   è   stata   che   troppo   spesso   quel   collegamento   rappresentava  un’informazione   davvero  banale   perché   potesse   essere   presa   in  considerazione  da  un  utente  interessato  a  questi  risultati.

Page 21: Associazioni semantiche per il Computational Journalism

21

4.3  Possibili  usi  futuri  del  Computational  journalism

Nei   primi   paragrafi   abbiamo   descritto   il   Computational   oDDJ,   nello   studiarlo   ci   siamo   fatti  un’idea  dei  possibili  usi,  e  soprattutto  dei  possibili  vantaggi  che  tale  attività  potrebbe  portare  a  quella   più   ampia   del   giornalismo.   La   creazione   di   nuove   storie   giornalistiche   o   d’inchieste  quantitative   e   qualitative  da  parte   dei  giornalisti,   attraverso   la  ricerca  di   informazioni  tramite  tecniche  computazionali,  è  l’obiettivo  del  Computational  journalism.  Ad  esempio,  un  software  può  eseguire  la  scansione  di  differenti  database  e  reti  sociali,  in  modo  tale   da   identificare   e   riportare   informazioni   che   possono   essere   utilizzate   in   seguito   dai  giornalisti.

The   Guardian   ha   realizzato  un’indagine   riguardante   le   spese   dei  membri   del   parlamento  del  Regno  Unito.  Tutte  queste  informazioni  recuperate  ed  elaborate  sono  state  rese  disponibili  nel  web   all’interno   di   fogli   di   calcolo,   i   quali   sono   stati   analizzati   dagli   utenti   della   rete,  identificando   le   voci   più   interessanti.   Le   informazioni   e   le   analisi   svolte   dagli   utenti   hanno  permesso  alla  testata  in  questione,  di  realizzare  nuove  storie  giornalistiche,  rendendo  palese  il  problema.   È   importante   evidenziare   come   l’indagine   al   momento   non  sia   stata   replicata   da  nessun’altra   testata,   poiché   computazionalmente   onerosa.   Attraverso   questa   iniziativa,   The  Guardian   è   stato   in   grado   di   migliorare   la   propria   reputazione   nell’ambito   del   giornalismo  investigativo  e  allo  stesso  tempo  è  riuscito  a  portare  alla  luce  un  problema  molto  critico  [12].

Un   altro   esempio   è   costituito   da   James   Hamilton   [13]   che,   utilizzando   il   database   della  protezione  ambientale  americana  riguardante   le  emissioni  di  sostanze  chimiche  da  parte  delle  industrie,   è   stato   in   grado   di   individuare   possibili   imprecisioni   nei   dati   forniti   dalle   diverse  compagnie.   Principalmente  nella   realizzazione   di  quest’analisi,  egli   utilizzò  metodi   statistici  e  matematici.   In   questo  modo,   Hamilton   riuscì   a   scovare   le   violazioni   della   legge   di   Benford  riguardante  il  limite  delle  emissioni  tossiche.

Il   lavoro   di  Hamilton  deriva  da  una   semplice   osservazione   da   economia   dei   media:   dato   che  produrre  inchieste  e  reportage  giornalistici  è  attività  costosa,  laboriosa  (e  spesso  non  pagata  in  proporzione   dagli   investitori   pubblicitari)   è   preferibile   usare   tecnologie   digitali   in   grado   di  affiancare   il   giornalista   nel   produrre   inchieste   approfondite.   Il   Computational   Journalism,  rispondendo  agli  incredibili  cambiamenti  che  la  rivoluzione  digitale  ha  portato  nell’  accessibilità   dell’informazione   -­‐   se   utilizzato   nel   modo   migliore   e   supportato   da   strumenti  efficaci  e  sempre  meno  onerosi  -­‐  è  la  miglior  starda  percorribile  per  avere  sempre  più  qualità  e  affidabilità  nell’informazione.

Ma   non   solo   i   giornalisti   professionisti   possono   usufruire   dei   LOD   e   delle   tecniche  computazionali  tipiche  del  Computational  Journalism  per  informarsi  e  per  costruire  nuove  storie  giornalistiche.  L’auspicio  è  che  anche  uno  studente,  un  blogger,  un  politico  o  un  imprenditore  (e   altre  figure  professionali  e  non)  possano  ritenere   utile   una   ricerca  di  dati  incrociata  e   ben  sviluppata   come  quella  cui  porterebbe   un  uso  ampio  e   diffuso  del  DDJ.  La  tendenza  è   ormai  quella,   lo   dimostrano  anche   –   nel   loro   piccolo   –   i   sempre   più   numerosi   comuni   italiani   che  hanno   realizzato   il   proprio   portale   regionale   di   Open   Data   [14]   rendendo   i   dati   un   diritto  fondamentale  ed  un  bene  comune.

Un  esempio  di   strumento   per   tutti   è   stato   realizzato  da  Google   e  denominato   Living   Stories.  Esso  permette  di  raccogliere  tutte  le  versioni  di  un  fatto  di  cronaca  all’interno  di  un  articolo,  le  quali   possono   essere   consultate   sulla   base   di   una   timeline.   All’interno   dell’articolo,  costantemente  aggiornato,  vengono  creati  dei  collegamenti  a  delle  notizie  correlate.  In  questo  

Page 22: Associazioni semantiche per il Computational Journalism

22

modo   l’utente   senza   nessun   particolare   sforzo   può   prendere   visione   delle   informazioni  d’interesse,   recuperandole  nel  caso   in   cui  dovesse   creare   una   nuova  storia  giornalistica.  Una  ricerca  del  genere  potrebbe  richiedere  tempo  ma  nessun  tipo  di  tecnologia  particolare  se  non  quella  di  un  device   connesso  a  internet  e  –   dato  non  trascurabile   -­‐  nessun  tipo  di  costo  (fatta  eccezione  per  quello  che  garantisce  la  connessione  stessa).

È   importante   sottolineare   come   il  Computational   journalism   vada  oltre   una   semplice   editoria  giornalistica   online.   Non   si   tratta   di   pubblicare   articoli   e   notizie   sul   web   (non   solo,  quantomeno)  ma  anche  (e  sopratutto)  di  indicizzare  le  entità  presenti  per  poi  poterle  collegare  ad  altre  entità  presenti  in  altri  articoli  e  fatti,  i  collegamenti  saranno  proposti  secondo  il  grado  di   connessione   che   c’è   fra   le   entità,   fra   gli   articoli   e   fra   gli   argomenti   trattati,   in   un   dato  momento  storico.

Un  aspetto  importante  è,  a  nostro  avviso,  l’aggiornamento  dei  sistemi  che  permettono  queste  ricerche  computazionali.  È  evidente  che,  trattandosi  di  notizie  contemporanee  e  data  la  velocità  dell’informazione  oggi,   ci  deve  essere  un  aggiornamento  continuo  degli  articoli,   delle  entità  e  delle   proprietà,  così  come  delle  “qualità”  intrinseche   ad  ogni  entità  o  ad  ogni  proprietà;  può  succedere   infatti  che  collegamenti  ritenuti  molto  rilevanti  in  un  dato  momento,  possano  non  risultare  più  tali  in  un  altro.  È  necessario  in  altre  parole  tenere  costantemente  il  passo,  cosa  non  facile   e   su   cui   c’è   probabilmente   ancora  molto   da   lavorare.   È   un   approccio   innovativo   e   in  quanto  tale  deve  ancora  percorrere  molta  strada  per  poter  essere  migliorato.  

4.4  Oltre  il  Computational  journalism,  possibili  usi  delle  associazioni  semantiche

Come  abbiamo  detto,  sono  giornalisti  i  primi  utilizzatori  del  Computational  journalism,  ma  non  solo.  Gli  studenti  e   il  campo  della  ricerca  universitaria  potrebbero  trarre  grandi  benefici  da  un  uso  di  queste  tecniche  computazionali,  incentrate  però  non  solo  sui  fatti  e  le  notizie  dal  mondo,  ma  anche  sugli  articoli  scientifici  pubblicati  dalle  riviste  di  tutto  il  mondo.  Una  mappatura  di  tali  elementi,   con   estrazione   di   entità,   proprietà   e   creazione   di   un   grafo  massimale,   potrebbe  aiutare  i  ricercatori  nelle  loro  indagini.  È  evidente  come  uno  sforzo  del  genere  sia  impegnativo,  ma   comunque   possibile   se   basato   su   una   cooperazione   e   collaborazione   a   livello  mondiale,  ormai  possibile  grazie  alla  diffusione  di  internet,  del  cloud  che  ospita  tutte  le  piattaforme  utili  al  DDJ  e  che  permette  una  ricerca  collettiva  di  notizie  e  collegamenti  da  tutto  il  mondo.  

Citando  Tim  Berners-­‐Lee  e   i  suoi  comandamenti  del  web  semantico:  “Se  ben  strutturato,  il  web  semantico   favorisce   l’evoluzione   della   conoscenza   umana.   Il   processo   di   creazione   della  conoscenza  è  caratterizzato  da  un’eterna  tensione  tra  l’efficacia  produttiva  di  ristretti  gruppi  di  persone  che  agiscono  in  modo  indipendente  e  la  loro  necessità  di  integrarsi  con  una  comunità  più   ampia.   I   gruppi   di   dimensioni   limitate   lavorano   rapidamente   ed   efficacemente,   ma   allo  stesso  tempo  danno  vita  a  delle   sottoculture  che  male   interagiscono  con  il  pubblico  esterno.  Coordinare  un  gruppo  ampio,  tuttavia,  richiede  tempo  e  un  immane  sforzo  comunicativo.  (…)  Se   fino   ad  ora   il  mondo   ha   funzionato   in   disequilibrio   tra   questi   estremi,   il  web   semantico  consente   a   diverse   sottoculture   di   entrare   in   contatto   tra   loro   e   scambiarsi   informazioni   in  modo  semplice  e  immediato.   Il  web  semantico  può  essere  visto  come  una  sorta  di   linguaggio  logico  internazionale  a  disposizione  di  tutte  le  sotto  strutture.”[15]

È   riflettendo  su  queste  parole,   su   quanti   siano   i  gruppi  ristretti  ai  quali  i   LOD  gioverebbero  e  quanto  sia  importante  l’interazione  di  cui  parla  Tim  Berners-­‐Lee,  che  abbiamo  pensato  a  usi  dei  LOD  che  andassero  oltre  gli  scopi  classici  del  Computational  journalism,  che  prevedano  in  altre  

Page 23: Associazioni semantiche per il Computational Journalism

23

parole   l’uso  dei  LOD  in  contesti  che  non  siano  esclusivamente  quelli  del  web.  Gran  parte  delle  difficoltà   che   emergono  nello   sviluppo   del  Web  3.0  è   dovuta   alla   grande   quantità   di   dati   da  identificare  e  strutturare.  Un  utilizzo  dei  LOD  in  un  ambiente  più  ridotto  e  specifico  di  quello  del  web  potrebbe  portare  a  grandi  vantaggi  e  l’organizzazione  dovrebbe  essere  logicamente  meno  onerosa.   Un   contesto   che   sembra   adattarsi   bene   a   quanto   detto   finora   è   quello   delle   Big  Enterprises,   [16]   le   grandi   aziende,   che   spesso   hanno   una   struttura   articolata   e   una   mole  significativa  di  stakeholders,  il  che  si  traduce  ovviamente  in  una  grande  quantità  di  dati  diversi  da   catalogare.   Ci   siamo   quindi   chiesti,   come   sarebbe   possibile   integrare   l’approccio   e   la  tecnologia  LOD  con  un  ambiente  aziendale?  Quali  vantaggi  porterebbe  quest’operazione?  

Per   rispondere   alla   prima   domanda   abbiamo   individuato   una   serie   di   passi   da   compiere   per  raggiungere   quella   che   è   stata   definita   dai   pionieri   di   questa   nuova   prospettiva   Enterprise  Linked  Opend  Data  (ELOD).  [17]  Presentiamoli:

• Raccolta  e  definizione   della  topologia  dei  dati,  ovvero  quali  aree   aziendali  prendere   in  considerazione  e  come  organizzare  i  relativi  dati  in  cataloghi  

• Specificare   i  formati:  dai  più  classici  (e  meno  utili)   .pdf,   .xls  ,  .csv/tsv,  fino  ad  arrivare   ai  più  evoluti  e  sicuramente  più  efficaci  .xml,  rdf/owl

• Prelievo  dei  dati  dalle  fonti  individuate  nei  formati  scelti• Preparazione  di  una  piattaforma  centrale  di  servizi  per  l’amministrazione  dei  dati,  la  loro  

classificazione,  fusione,  indagine  e  pubblicazione• Descrizione  del  ciclo  di  vita  dei  dati  aperti.• Definizione  delle  politiche  di  sicurezza  e  permessi  d’accesso  ai  dati  aperti• Infine   pubblicazione   conclusiva   dei   dati   in   LOD,   ovvero   sfruttando   tecnologie  

semantiche   come   RDF,   OWL,   URI,   SPARQL,   per   ottenere   dati   con   una   semantica  esplicita  e  per  renderli  interconnessi  fra  di  loro  e  rintracciabili  tramite  un  URL  univoco.

Vediamo   ora   alcuni   vantaggi   particolari   di   cui   potrà   usufruire   un’azienda   che   intraprende  questo  percorso:

• I  dati  perderebbero  quella  carica  di  “potere  intrinseco”  che  hanno  ad  oggi  e  che  spesso  alimenta   controversie   sul   controllo   dei   vari   domini   di   competenza   all’interno   di   un  azienda

• Non   si   avvertirebbe   più   la   necessità   di   commissionare   le   pratiche   di   valutazione  informativa  ad  aziende  esterne

• Si  faciliterebbe  lo  sviluppo  di  nuove  applicazione  data-­‐consumer  e  di  data-­‐intergation• Si  otterrebbe  una  gestione  trasparente  del  patrimonio  informativo  dell’azienda• Si  ottimizzerebbero  i  processi  di  comunicazione  e  condivisione   dell’informazione  fra   le  

diverse  aree  aziendali.

Ovviamente   ci   sarebbero   alcune   criticità   nel   passaggio   dalla   gestione   attuale   dei   dati   di  un’azienda   a   quello   ELOD.   Per   esempio   la   sensibilizzazione   del   cliente   nei   confronti   di   tale  gestione,   la   difficoltà   iniziale   di   censire   i   dati,   ma   anche   l’opera  di  convincimento   dei   propri  dipendenti  dell’utilità   e   bontà  dell’operazione   a  fronte   di   una   facile   reticenza   a   condividere   i  propri   dati   e   la   necessità   imprescindibile   di   definire   delle   politiche   di   sicurezza   precise  sull’accesso  ai  dati.  Riteniamo  comunque  che  valga  la  pena  per  un’azienda  –  specie  se  di  grandi  dimensioni   -­‐   percorrere   tale   strada.   Realizzerebbe,   infatti,   un   vero   e   proprio   processo   di  censimento,   amministrazione,   riuso   di   tutti   quei   dati   che   di   solito   vengono   gelosamente  custoditi   o  nascosti   impedendo  così   corrette   pratiche   di   Enterprise   Information   Management  EIM  e  Knowledge  management  (KM).

Page 24: Associazioni semantiche per il Computational Journalism

24

Queste   riflessioni   si   potrebbero   applicare   –   con   le   dovute   differenze   –   a  moltissimi  contesti,  basti   pensare   alle   scuole,   alla   pubblica   amministrazione,   alla   politica…   Sono   nati   e   stanno  nascendo   moltissimi   progetti   a   riguardo,   anche   nel   nostro   Paese.   Sul   sito   della   Open  Knowledege  Fondation  Italia  è  possibile  farsi  un’idea  dello  stato  attuale  dei  lavori.  [18]  

Figura  14:  Infografica  coi  dati  estratti  dal  portale  Rimozione  Macerie

Page 25: Associazioni semantiche per il Computational Journalism

25

Sul   sito   dell’agenzia   di   prodotti   multimediali   Mister   wolf   –   web&multimedia   [19]   abbiamo  trovato  un  interessante  lavoro,  riassunto  in  Figura  14,  che  dimostra  quanto  l’utilizzo  dei  LOD  in  contesti  specifici  sia  utile.  

Spieghiamo  ora   in  breve   il  motivo   per   cui   il  progetto  di   quest’agenzia   rappresenta   a  nostro  parere  un  esempio  virtuoso,  da  applicare  in  moltissimi  altri  campi  e  contesti.   Il  progetta  mira  a  raccogliere   i   dati   inerenti   al   lavoro   di   messa   in   sicurezza   degli   edifici   e   di   rimozione   delle  macerie,   soprattutto  all’Aquila,   che   procede  ancora  oggi.   Si   stima  che   fino   a   ora  siano  state  rimosse  quasi  426000  tonnellate  di  macerie  dai  lavori  per  gli  edifici  pubblici  e  circa  273000  per  quelli   privati.   Il   sito   del   Commissariato   per   la   Ricostruzione   tiene   traccia   dei   lavori   e   delle  operazioni  svolte  con  una   serie   di  Open   data  liberamente  consultabili  dalla  cittadinanza.  Sulla  base  di  queste  informazioni,   l’agenzia  Mister  wolf    ha  realizzato  l’infrografica  di  Figura  14,  per  illustrare  il  lavoro  svolto  fino  ad  oggi  per  rimuovere  le  macerie.  L’infografica  offre  uno  sguardo  d’insieme   sullo   stato   della   rimozione   e   smaltimento   delle   macerie   nell’area   del   cratere  interessato   dal   sisma   che   ha   colpito   l’Abruzzo   nel   2009.   I   dati   si   riferiscono   alle   macerie  rimosse,  provenienti  dai  cantieri  e  destinate  ai  punti  di  conferimento  ad  opera  delle  aziende  al  Febbraio  2013.  Sono  poi  disponibili   le  percentuali  dei  cantieri  che  producono  macerie  suddivisi  per  provincia  e   i  relativi  punti  di  conferimento  dove  le  macerie  vengono  destinate  attraverso  le  aziende  incaricate  del  trasporto.  

Molti  quotidiani  online  hanno  parlato  di  questo  progetto  e  delle  informazioni  ricavate  da  esso,  i  dati  raccolti   e   analizzati  hanno  risparmiato  molto   lavoro  a   chi   se   ne   occupa   e   ne   usufruisce;  iniziative   come  queste  devono  essere  seguite  e  replicate   in  ambiti  simili  ma  non  solo,  devono  vedere   la  collaborazione   di  aziende  e   agenzie   di  questo  tipo  al  fine  di  creare   progetti  sempre  più  trasversali  e  utili  a  chiunque.  

Un  altro  campo  da  noi  indagato  in  cui  l’approccio  LOD  può  aiutare  a  migliorare  le  prestazioni  è  quello   dei   motori   di   ricerca,   e   in   particolare,   potrebbero   essere   di   enorme   aiuto   alla  problematica   delle   ricerche   correlate   e   suggerite   all’utente   da   parte   di   un   software   che  “lavorerà”   per   conto   di   un   sito   o   anche   del   browser.   Come   ben   sappiamo   spesso   accanto  all’esito  di  una   ricerca   da  noi   indagata,  compaiono  suggerimenti  e  consigli   riguardo  prodotti/informazioni   simili.   Ad  esempio,   se   cerchiamo  su   Google   un’entità   (persone,   luoghi,   cose)   a  fondo  del  sommario  di  informazioni  enciclopediche  sull’entità  che  stiamo  cercando,  compaiono  altre  entità  che  vanno  sotto  l’etichetta  di  “ricerche  correlate”.    

Page 26: Associazioni semantiche per il Computational Journalism

26

Figura  15:    Risultati  della  ricerca  “Bacon”  su  Google

La  figura   15  mostra  cosa  accade  se  da   loggati   in  Google  cerchiamo  “Bacon”:  avremo  i  classici  risultati  nella  colonna  di  sinistra  e  accanto,  in  una  nuova  colonna,  ci  verrà  chiesto  di  specificare  se  intendiamo  il  filosofo,  il  pittore  o  l’attore.  

Figura  16:  Ricerca  successiva  su  Google  -­‐  Sommario  delle  informazioni  sul  personaggio  d’interesse  e  ricerche  correlate

Page 27: Associazioni semantiche per il Computational Journalism

27

Come  mostra  la  figura  16,  supponendo  che  il  personaggio  che  interessa  a  noi  sia  Francis  Bacon  –   Pittore,   appariranno   una   serie   di   informazioni   su   quest’ultimo,   alcune   sue   opere,   ed   altri  artisti   correlati   (cercati   da   altri).   Ciò   avviene   grazie   al   Knowledge   Graph,   che   unisce   ricerca  semantica  ad  analisi  statistiche  e  algoritmi.  Il  progetto,  ancora  in  evoluzione,  migliora  quindi  la  ricerca,   grazie   alla  mappatura   di  3.5  miliardi   di   fatti   ossia   informazioni   sulle   relazioni  tra   500  milioni  di  entità.

Questa  tendenza  è  riscontrabile  anche  in  molti  siti  di  quotidiani,  che  suggeriscono  articoli  simili  per   tema  a  quello  che   si   sta   leggendo.   Ciò   accade   tramite   link  agli   articoli  visualizzabili  sulla  stessa  schermata  dell’articolo  letto  e  facilita  l’utente  nella  comprensione  globale  di  quello  che  è  il   tema   trattato.   Siti   di  e-­‐commerce   suggeriscono  prodotti   simili   a   quelli   acquistati.   YouTube  rende  sempre  più   raffinate   le  ricerche   correlate   e   i  video  consigliati  in  conformità  a  quelli  già  visti.  

È   dunque   chiaro   che   al   momento   i  motori   di   ricerca   di   questo   tipo   utilizzano   già   tecniche  piuttosto   avanzate,   basate   in  parte   su   un  sistema  di   tag   (e   di  catalogazione   secondo  queste  etichette)   e   in   parte   basate   su   algoritmi   che   cercano   collegamenti   semantici   fra   l’entità  visualizzata   ed   altre   nuove,   ipoteticamente   correlate.   Per   questo   riteniamo   che   un   uso  dell’approccio   Data   Context   Extraction   for   News   Articles   (DaCENA),   possa   essere   utile   per  migliorare   la   tendenza   generale   verso   risultati   restituiti   non   solo   sulla   base   di   reti  di   link   di  pagine  web,  ma  sempre  più  su  reti  di  conoscenza.

A   nostro   avviso   è   importante   che   il   software   lavori   non   solo   sulle   entità,   ma   anche   sulle  proprietà.   Inoltre,   che   lavori  usando   il   filtro  delle   metriche  Rarity,   Popularity   e   Context   di   cui  abbiamo  parlato  nel  secondo  capitolo.  Se  ad  esempio  un’entità  risulta  importante   secondo  la  metrica  Rarity,  il  software  dovrà  cercare  entità  correlate  ad  essa  in  maniera  forte  (considerando  cioè  la   lunghezza  del  percorso  e   l’importanza  delle  proprietà  che   legano  le  entità,   secondo  la  metrica  in  questione)  che  siano  anch’esse  particolarmente  rilevanti  secondo  la  metrica  Rarity.  

Abbiamo   già   spiegato   il   significato  delle   metriche   citate,   per   quanto  riguarda   la  metrica  del  Context  però,  riteniamo  che  in  un’operazione  come  quella  sopra  descritta,  il  software  dovrebbe  considerare   tale   metrica   come   riferita   al   contesto   temporale.   Così   se   la   ricerca   indagata  dall’utente,  da  come  esito  un’entità  rilevante  per  il  contesto  temporale  il  software  troverà  altre  entità   che,   oltre   ad   essere   legate   in  maniera   rilevante   alla   prima,   siano   anch’essere   ritenute  importanti  dato  il  preciso  momento  storico.  

Un’integrazione   dei   metodi   usati   oggi   con   l’approccio   DaCENA   è   quanto   proponiamo.   È  evidente   che   un   lavoro  di  questo   tipo  preveda  un  numero   considerevole   di   teorici   del   web  semantico,   di   tecnici   informatici   e   non   ultimi   di   esperti   di   dominio   che   lavorino   insieme   e  collaborino  per  la  creazione  di  un  software  che  permetta  ad  un  algoritmo  di  indagare   le  entità  del  database,  a  partire  da  un’entità  primaria,  al  fine  di  raggiungere  gli  scopi  sopra  illustrati.  Una  sfida   impegnativa   che   però   può   essere   senz’altro   essere   accettata,   dati   i   risultati   finora  raggiunti  e  la  portata  innovativa  di  questi  approcci.

4.5  La  visualizzazione  grafica  delle  associazioni  semantiche

Un   altro  punto  critico   riguardante   le   associazioni   semantiche   -­‐   e   il   loro  possibile   utilizzo   -­‐   è  quello  che   tocca   la  resa  grafica  dei  collegamenti   tra  entità.   Ci   siamo   chiesti   come   rendere   le  

Page 28: Associazioni semantiche per il Computational Journalism

28

informazioni  estrapolate  dagli  articoli  tramite  l’approccio  DaCENA   fruibili  da  giornalisti  –  e  non  solo   –   nel   modo   più   idoneo   ed   efficace   possibile.   Non   è   un   quesito   di   poco   conto,   se   si  considera   quanto   tuttora   non   sia   facile   persuadere   l’opinione   pubblica   della   potenza   delle  tecniche   utilizzate   per   il  DDJ   e  quanti  ancora  non  ritengano  questo  nuovo  approccio   utile   o  perlomeno  diverso  da  una  semplice  stampa  digitale  delle  notizie.  Adattarsi  –  anche  dal  punto  di  vista  dell’usabilità  –  alle  esigenze  degli  utenti,  consentendo  un  resoconto  dinamico  (e  facile  da  utilizzare)   delle   informazioni   d’interesse,   è   quindi   a   nostro   parere   una   priorità   in   grado   di  avvicinare  sempre  più  persone  a  queste  tecniche  innovative.

Come   abbiamo   notato   in   seguito   alle   valutazioni  delle   più   di  20000   associazioni   semantiche  estrapolate  dagli  articoli,   la  grande  mole   informazioni  ricavate  seguendo  l’approccio  DaCENA  può   causare   un   problema   al   giornalista   che   cerca   spunti   o   fatti   per   una   nuova   storia  giornalistica.   Oltre   alla   quantità,   un   ostacolo   che   potrebbe   frapporsi   fra   il   giornalista   e   la  comprensione  reale  di  quello  che  le  associazioni  semantiche  significano,  è  quello  di  usabilità  da  parte  dell’utente.  Quanto  egli  sia  quindi  in  grado  di  visualizzare  queste  associazioni  semantiche.  

Il  layout  grafico  restituito  dalla  macchina,  l’interfaccia  software  –  utente  è  un  punto  cruciale  per  il  buon  funzionamento  di  qualsiasi  programma.  Anche  per   i  percorsi  estratti  e   da  noi  valutati  bisogna  tenerne  conto,  considerando  la  loro  potenziale  utilità  e  al  tempo  stesso  la  complessità  dello  strumento  per  chi  non  è  addetto  ai  lavori.  

Figura  17:  Alcune  associazioni  semantiche  su  Excel

Durante   la   fase  di  valutazione   delle   associazioni,   queste   ci   sono   state   proposte   su   un   foglio  Excel,  come  mostra  la  figura  17,  un  percorso  per  riga,  e  righe  di  differenti  lunghezze  in  accordo  col  numero  delle  proprietà  e  delle  entità  presenti.  Questo  non  ci  è  sembrato  il  miglior  modo  per  presentare   i   risultati   del   software,   anche   se,   per   una   quantità   ridotta   di   percorsi   potrebbe  essere   più   facile   da   consultare.   Al   di   là   della   quantità   di   associazioni,   rimane   comunque   il  problema  di  un  interfaccia  in  grado  di  soddisfare  gli  utenti  in  modo  intuitivo  ed  ergonomico.  Nel  caso  poi  degli  usi  delle  associazioni  semantiche  in  contesti  diversi  dal  DDJ,  sorge  un  altro  punto  interrogativo:   quando  è   necessario   presentare   gli   interi   percorsi   e   quando   solo   gli   esiti   (ad  esempio,  prima  e  ultima  entità  collegate,  senza  visualizzazione  del  percorso,  in  modo  simile  alle  entity  summary  di  Google  nella  figura  16)?  

In  questo  ultimo  modulo  cercheremo  di  rispondere   ai  dubbi  e   agli   interrogativi  che   ci  siamo  posti  nelle  righe  precedenti.

Page 29: Associazioni semantiche per il Computational Journalism

29

Riguardo  al   primo   punto,   quello   di   una   buona   interfaccia   grafica,   abbiamo  pensato   ad   una  soluzione   che   potrebbe   adattarsi   alle   ricerche   di   un   giornalista,   il   quale   con   l’aiuto   di   un  software  e  di  un  database  potrà  cercare  nuovi  collegamenti  che  possano  dare  vita  a  una  storia  giornalistica.  Il  giornalista  lancerebbe  un  software  sulla  macchina  e  farebbe  “leggere”  a  questo  uno  o  più   testi  (che  potranno  essere  articoli  ma  non  solo,  anche  un  veloce  racconto  steso  per  l’occasione).   Il  software  restituirebbe  al  giornalista  un  output  simile  al  primo  dei  due  fogli  che  noi   abbiamo  trovato   sul  file   Excel,   ovvero  un  documento   che   mostri   le   entità   e   le  proprietà  estratte   dal   testo   secondo   l’approccio   DaCENA   e/o   recuperate   dal   database   per   essere  collegate  con  le  prime.  

Figura  18:  Esempio  di  entità  e  proprietà  estratte,  su  Excel

Come  mostra   la  figura  18,  nel  primo  dei  fogli  di  Excel  su   cui  abbiamo  lavorato  era  presente   la  lista  dei  concetti  riconosciuti  da  DBpedia  Spotlight.  A  questa  pagina  si  potrebbe  ispirare  l’output  per   il  giornalista,   che  una  volta   ricevuti  i  dati  potrebbe  selezionare   alcune  delle   entità   e   delle  proprietà  e  tralasciarne  altre.  Anche  qui,  ricordiamo,  serve  un’interfaccia  grafica  che  permetta  all’utente  di  dare  questi  ordini  al  software.  A  questo  scopo,   l’inserimento  di  filtri  che  cerchino  proprietà   ed   entità   rilevanti   secondo   una   determinata   metrica   potrebbero   essere   d’aiuto  all’utente.  A  quel  punto  il  software  restituirebbe  all’utente  un  grafo  massimale  relativo  al  testo,  

Page 30: Associazioni semantiche per il Computational Journalism

30

ma  in  accordo  con  le  entità  selezionate  dall’utente  stesso.  Il  grafo  massimale,  che  a  quel  punto  sarà  di  dimensioni   ridotte,  non  dovrà  però  essere  un  documento  simile   al  foglio  Excel  su   cui  abbiamo  lavorato,   quello   in  Figura   16.  Potranno  essere  un  grafico,   una   figura,   un’infografica  simile  a  quelle  analizzate   in  precedenza,  qualcosa  di  efficace  insomma  che  mostri  le  entità   e   i  collegamenti   fra   queste.   Il   giornalista,   selezionando   tramite   l’interfaccia   un’entità,   una  proprietà  o   un   intero   percorso,   accederà   ad   ulteriori   notizie   collegate   a   quella   associazione  semantica,  e  quest’ultime  potranno  essere  link  ad  ulteriori  articoli  giornalistici  (che  aiutino  per  esempio  a  spiegare  il  collegamento)  o  a  dati  presenti  in  database  esterni  e  magari  più  specifici  rispetto  al  campo  d’interesse  in  questione.Le  nostre  sono  solo  idee  e   ipotesi,  non  avendo  effettivamente  costruito  un  software  di  questo  tipo  non  siamo  in  grado  di  preventivare  costi  e  sforzi  di  un  approccio  del  genere.  Di  certo  i  costi,  specie  quelli  iniziali,  saranno  considerevoli  in  termini  di  risorse  e  applicativi.  Per  la  realizzazione  saranno   indispensabili   informatici,   esperti  di  web  semantico,  ma   anche  grafici,   ergonomisti  e  altre   figure   professionali   che   possano   collaborare   per   il   raggiungimento   di   un’interfaccia  idonea.

Analizziamo   ora   il   secondo   punto.   Se   per   un   giornalista   uno   degli   aspetti   interessanti   è  costituito  proprio  dal  percorso  nel  suo  completo,   incluse  le  proprietà  che   legano  le  entità  e   il  motivo  di  questi  collegamenti,  per  altri  utenti  l’informazione  interessante  potrebbe  essere  solo  l’esito  finale,   ovvero   l’entità   correlata   alla   prima,  eludendo   quindi   i   passaggi   che   spiegano   il  percorso   nella   sua   interezza.   Questo   è   l’approccio   che   sembra   aver   adottato   Google   con   il  Knowledge  Graph  di  cui  abbiamo  parlato  in  precedenza,   lo  dimostrano  gli  entity   summary   che  affiancano  l’esito  della  ricerca  di  un’entità  tramite  il  motore  di  ricerca  di  Google  (Figura  15).  

Ma   siamo   davvero   sicuri   che   questo   sia   valido   per   tutti   gli  utenti  che   eseguono  una   ricerca  senza  usare  un  software   particolare,  come  potrebbe   fare  un  addetto   ai   lavori?   Noi  pensiamo  che   questi   entity   summary   offerti   da   Google   (o   una   loro   versione   analoga   offerta   dal  proprietario  di  un  database  e  di  un  software  che  lo  sappia  esplorare)  possano  essere  migliorati.  Ad  esempio,   rendendoli  in  grado  di  mostrare,  su  richiesta  dell’utente,  l’intero  cammino  che  ha  portato   a   una   particolare   entità  partendo  da  un’altra.  Oppure  che   l’utente   possa  scegliere   il  grado  che  lega  entità  proposte  a  quella  originale.  Se  di  base  l’entity  summary  propone  le  entità  con  grado  1,  cioè  le  più  vicine  all’entità  primaria,  in  altre  parole  quella  che  l’utente  sta  cercando,  sarebbe  un  passaggio  in  più  e  sicuramente  innovativo  se  egli  potesse  specificare  il  numero  del  grado  che   colleghi  le  entità  estratte  e  collegate  a  quella  primaria.  Si  deve,   infatti,   tener  conto  del   fatto   che   all’aumentare   del   numero  di   grado,   le   entità   e   i   collegamenti   trovati   saranno  facilmente  meno  rilevanti  per  popolarità  ma  più  rilevanti  per  rarità.

Un'altra  caratteristica  per  migliorare   la   ricerca  potrebbe  essere  quella  che  permetta  all’utente  di  selezionare   le  proprietà  da  usare  per   trovare   i  collegamenti.  Così,  se   ad  esempio  un  utente  vuole   fare   una   ricerca   riguardo   i   parenti   del   presidente   Obama,   potrebbe   cercare   l’entità  Obama  e  poi,  tramite  un  interazione  con  l’entity  summary  ordinargli  di  mostrare  in  primo  piano  le   entità   collegata  alla  prima   con  grado  X  e   alla   proprietà  “is  a   relative  of”.  Oppure,  ancora,  l’utente   potrebbe   selezionare   una  metrica   che   filtri   le   entità   estratte   in  base   all’importanza,  secondo  gli  standard  della  metrica  stessa.  È  da  notare  che  in  tutti  questi  casi,   le  proprietà  e   i  collegamenti  completi  che  legano   le  entità,   sono  sempre   in  qualche  modo  nascosti  all’utente  ma   visibili   su   richiesta,   e   sono   in  grado   in  ogni   caso   di   interagire   con   l’utente,   che   ne   può  usufruire  per  filtrare  i  risultati  finali  in  qualsiasi  momento.

L’idea  base   che   lega  queste  nostre  proposte  è  quella  di  utilizzare   pienamente  e  nel  modo  più  efficace   le  associazioni   semantiche   che   si  possono  estrarre   attraverso  l’approccio  DaCENA,   di  mostrarne  quindi  non  solo  l’esito  (ovvero  l’entità  finale)  ma  anche  di  utilizzarne  ogni  sua  parte  

Page 31: Associazioni semantiche per il Computational Journalism

31

(proprietà,  grado,  metriche  filtranti)  per  poter  affinare  la  ricerca  a  dare  un  risultato  sempre  più  preciso   e   che   rispecchi   totalmente   quello   che   si   stava   cercando.   Il   tutto   con   un’interfaccia  idonea  che  semplifichi  al  massimo  il  dialogo  utente-­‐software.

Page 32: Associazioni semantiche per il Computational Journalism

32

NOTE  E  BIBLIOGRAFIA  

[1]  Lorenz  Mirko:  Data  driven  journalism:  What  is  there  to  learn?  (2010)  Edited  conference  documentation,  based  on  presentations  of  participants,  24  August  2010,  Amsterdam,  The  Netherlands.  

[2]  Un  interessante  video  su  come  sta  cambiando  il  giornalismo  coi  Linked  Data  http://datajournalism.stanford.edu/

[3]  Christian  Bizer,  Tom  Heath,  Tim  Berners-­‐Lee:  Linked  Data  -­‐  The  Story  So  Far.  Int.  J.  Semantic  Web  Inf.  Syst.  5(3):  1-­‐22  (2009)

[4]  http://prezi.com/zbdph3ydcece/data-­‐journalism-­‐handbook/

[5]  Jonathan  Gray,  Liliana  Bounegru  e  Lucy  Chambers:  The  data  journalism  handbook.  Creative  Commons  Attribution-­‐ShareAlike  license.  (2011)

[6]  Rob  Hughes:  Can  Del  Piero  Inspire  Juventus  to  Glory?  Old  Lady  Puts  Hopes  On  One  Young  Star.  New  York  Times  Online  (12/09/2001)  http://www.nytimes.com/2001/09/12/sports/12iht-­‐soccer_ed3__5.html  

[7]  Jim  Rutenber:  Obama  Campaign  Endgame:  Grunt  Work  and  Cold  Math.  New  York  Times  Online  (25/10/2012)  http://www.nytimes.com/2012/10/26/us/politics/for-­‐obama-­‐aides-­‐endgame-­‐takes-­‐grunt-­‐work-­‐and-­‐math.html  

[8]  Nick  Wingfield:  Apple  Profit  Rises  24%  on  Sales  of  iPhone  5.  New  York  Times  Online  (25/10/2012)  http://www.nytimes.com/2012/10/26/technology/apple-­‐profits-­‐rise-­‐24-­‐on-­‐iphone-­‐5-­‐sales.html  

[9]  Jeff  Zeleney,  Ashley  Parker:  Romney  Is  Upbeat,  but  Math  Is  the  Same.  New  York  Times  Online  (24/10/2012)  http://www.nytimes.com/2012/10/25/us/politics/romney-­‐campaign-­‐fights-­‐for-­‐electoral-­‐votes.html  

[10]  Robert  Pear:  Efforts  to  Curb  Social  Spending  Face  Resistance.  New  York  Times  Online  (26/11/2012)  http://www.nytimes.com/2012/11/27/us/politics/politics-­‐in-­‐play-­‐over-­‐safety-­‐net-­‐in-­‐deficit-­‐talks.html

[11]  Un  altro  esempio,  oltre  a  quelli  già  citati,  è  presente  nell’articolo  sulla  campagna  politica  di  Obama,  Obama  Campaign  Endgame,  grunt  Work  and  Cold  Math:  qui,  in  moltissime  associazioni,  l’entità  Obama  è  collegata  a  suoi  parenti  e  informazioni  su  questi  ultimi  (moglie,  figlie,  genitori,  ma  anche  moltissimi  cugini,  parenti  acquisiti  ecc.).  Sono  informazioni  corrette,  e  sicuramente  a  qualcuno  saranno  anche  utili,  ma  in  linea  di  massima  le  abbiamo  valutate  comuni  e  ripetitivi  ai  fini  di  un  articolo  che  non  si  occupa  della  vita  privata  di  Obama,  bensì  di  quella  pubblica.

[12]  Una  breve  presentazione  su  come  lavorano  col  Data  Journalism  e  con  i  Data  Visualisation  al  The  Guardian  http://prezi.com/ppc6r-­‐srwbdt/simon-­‐rogers-­‐data-­‐journalism-­‐presentation/  

[13]   James  Hamilton  direttore  del  DeWitt  Wallace  Center   for  Media  and  Democracy  presso   la  Duke  University  

Page 33: Associazioni semantiche per il Computational Journalism

33

[14]  Il  sito  del  Piemonte  al  momento  è  la  più  riuscita  e  strutturata  esperienza  nazionale  sul  tema  degli  open  data  http://www.dati.piemonte.it/

[15]  Tim  Berners-­‐Lee,  James  Hendler,  Ora  Lassila:  The  Semantic  Web.  Scientific  American  (2001)

[16]  Ci  riferiamo  in  particolare  a  tutte  le  attività  che  gestiscono  problematiche  note  con  il  nome  di  Enterprise  Information  Management  (EIM)  http://www.opentext.com/2/global/enterprise-­‐information-­‐management.htm  

[17]  http://gruppoimola.wordpress.com/  

[18]  http://it.okfn.org/category/linked-­‐open-­‐data/  

[19]  http://www.mister-­‐wolf.it/it/clienti-­‐lavori/lavori-­‐realizzati/133-­‐infografica-­‐con-­‐i-­‐dati-­‐sulla-­‐rimozione-­‐macerie-­‐estratti-­‐dal-­‐portale-­‐rimozione-­‐macerie.html