sistemi multimediali - ingegneria- · pdf fileelaborato finale in sistemi multimediali tool...

Click here to load reader

Post on 21-Feb-2019

216 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Sistemi Multimediali

Tool per limage annotation & retrieval

Anno Accademico 2013/2014 Candidato: De Matteo Giuseppe matr. N46/000754

A tutti coloro che hanno sempre creduto in me. Alla mia famiglia e a TE, che anche se non ci sei piu, vegli su di me ogni giorno.

Indice

Indice. III Introduzione.....4

Capitolo 1: Image retrieval and annotation..........................................................................................7

1.1 Requisiti per la gestione di archive di foto digitali personali7 1.2 Standard di metadati esistenti...............................................................................................8 1.3 Sistemi di ricerca e indicizzazione.......................................................................................9 1.4 Visual Information Retrieval.............................................................................................11

Capitolo 2: Caliph & Emir................................................................................................................13

2.1 Annotazione con Caliph..................................................................................................... 14

2.2 Recupero con Emir..............................................................................................................17

Conclusioni........................................................................................................................................23

Biblografia.........................................................................................................................................24

4

Introduzione

Al giorno d'oggi le attivit di ricerca e sviluppo sono accompagnate da una crescente

attenzione alle esigenze degli utenti nel campo del recupero multimediale. La rapida

crescita di archivi di dati multimediali innegabile. Oltre a grandi aziende, come editori

di giornali,emittenti radio o televisive ecc, che si occupano di contenuti digitali, anche un

numero crescente di utenti crea archivi multimediali per i propri video e per le proprie

foto. La tecnologia di internet e lo spazio del World Wide Web permettono di rendere

reperibili molteplici dati ad un numero sempre maggiore di individui, quindi li potremmo

considerare come dei veri e propri database distribuiti di documenti multimediali sempre

piu in estensione.

Questa evoluzione degli archivi di informazioni digitali ha prodotto in passato un numero

crescente di requisiti specializzati nel recupero intelligente delle informazioni. Sono state

globalmente convenute norme e metodi standardizzati.

Inizialmente si operava in termini di un generico Information Retrieval, dove ogni tipo di

ricerca documentale si effettuava tramite linguaggio testuale. Oggi si parla di MMIR,

MultiMedia Information Retrieval, in cui ogni genere di documento elettronico puo

essere trattato e ricercato tramite elementi di linguaggio piu adatti alla sua natura di

documento multimediale. Nei database multimediali risultano poco efficaci e troppo

riduttivi i metodi di indicizzazione e di ricerca basati sulle annotazioni terminologiche che,

5

invece, sono molto utili nel reperimento di informazioni testuali, in particolare in archivi il

cui contenuto dei documenti sostanzialmente un testo.

In sostanza,il metodo del MMIR sperimenta la possibilit di ricercare le immagini tramite

gli appropriati mezzi del linguaggio visivo stesso, i documenti sonori con i mezzi del

linguaggio dei suoni, e i video attraverso le forme di rappresentazione audiovisive.

Linnovazione apportata dal MMIR fondata sui presupposti del contet-based information

retieval (CBIR), nel quale i documenti multimediali vengono trattati tramite tecniche di

archiviazione e recupero che operano direttamente sul contenuto visivo, sonoro, o

audiovisivo degli oggetti digitali di un database.

La transizione dal term-based retrieval al content-based retrieval solleva la necessita di

metainformazioni addizionali in merito al contenuto in modo da consetinre il semantic-

retrieval. Di conseguenza i metadati devono essere generati, archiviati e indicizzati cos da

arricchire le informazioni visive. Come risultato sono stati sviluppati due tools chiamati

"Caliph & Emir.

METADATI

Poich in questo lavoro si parla a lungo di metadati, vale la pena spiegare brevemente la

loro storia e cosa sono.

I metadati sono dati che descrivono caratteristiche e propriet di un documento e sono

distiniti dal documento stesso, anche se sono inseriti nello stesso file. Proprio questultima

una delle loro principali virt: viaggiono insieme allimmagine, sono sempre disponibili.

Nel caso specifico delle immagini, i metadati permettono di inserire informazioni sia a

livello di macchina, sia a livello utente, con un programma di gestione delle immagini.

I primi ad avere lidea di inserire dati nel file immagine furono i giornalisti o meglio fu

lInternational Press and Telecommunications Council (IPTC), che sviluppo questa idea

per organizzare e per distribuire le immagini fotografiche presso i quotidiani.

Successivamente lAdobe con Photoshop cre File Info che aggiungeva ulteriori dati a

quelli proposti dallIPTC.

6

Con lavvento della fotografia digitale i principarli produttori si unirono nella Japan

Electronic and Information Industries Association (JEITA), e svilupparono un sistema di

metadati detti Exchangeable Image File Format ovvero EXIF. Questi dati riguardano le

informazioni della foto scattatata come lesposizione alla luce solare, la data, il codice

seriale dellapparecchio ecc. Questi dati non sono sufficienti per lutilizzo moderno delle

immagini digitali da parte di un professionista.

Per rimediare a questa carenza, sulla fine del 2001, la Adobe Systems Incorporated cre

una nuova tecnologia chiamata Extensible Metadata Platform (XMP), e per rendere questa

il piu possibile compatibile con tutte le piattaforme, Adobe chiese al consorzio World

Wide Consortium di definire degli standard con linclusione del XML (Extensible Markup

Language). Con questa nuova tecnologia si ampliato il numero di metadati rendendolo

virtualmente infinito e lo si reso compatibile con molte piattaforme e programmi di

gestione immagini e non solo.

7

Capitolo 1: Image annotation and retrieval

1.1. Requisiti per la gestione di archivi di foto digitali personali

Il recupero semantico di foto digitali non possibile senza metadati esistenti, che, come

detto in precedenza, descrivono il contenuto dellimmagine e l'immagine stessa.

La maggior parte delle foto digitali contengono gi alcuni metadati memorizzati nei propi

file, mentre il formato dei metadati dipende dalla fotocamera digitale con la quale sono

state scattate le foto; per esempio il modello e il produttore della fotocamera, valori di

esposizione alla luce solare, data e ora della creazione e del salvataggio vengono salvati,

nelle fotocamere digitali comuni, all'interno dei propi file utilizzando lEXIF . Questi

valori devono essere importati in una descrizione e, oltre a definire chi e dove stata

scattata limmagine, dovrebbe anche essere possibile salvare chi ha creato i metadati.

Ovviamente, deve essere integrata la possibilit di descrivere l'immagine con un breve

testo. Tuttavia l'obiettivo principale quello di creare, calcolare e salvare una descrizione

del contenuto visivo dell'immagine e, inoltre, dovrebbe essere consentito all'utente di

descrivere contenuti non visibili, come sentimenti o stati danimo,"amicizia"oamore, che

potrebbero essere associati all'immagine. Oltre al tempo e il luogo in cui la foto stata

scattata, persone, gruppi di persone e oggetti devono essere descritti per migliorare la

capacit di recupero.

Queste entit di descrizione sono interconnesse come si pu facilmente vedere nel

seguente esempio:

8

"Puffy, il cane che appartiene a mio zio Adam" .

Si definisce un cane di nome "Puffy" e una persona chiamata "Adam", che il proprietario

del cane, e ha un rapporto di parentela col narratore. Questo pu essere visualizzato in un

grafo orientato, illustrato nella figura 1. E piuttosto evidente il vantaggio di memorizzare

una descrizione in tale modo strutturato: la descrizione diventa calcolabile, per esempio,

da agenti software che potrebbero lavorare con questi grafi semantici.

Fig.1

Un altro requisito intuitivo il recupero di immagini simili, caratterizate da un basso

livello di contenuto come istogrammi di colore o texture di immagini.

Caratteristiche importanti per il recupero di immagini sono le valutazioni soggettive e

oggettive di qualit, per esempio utilizzate come vincolo di ricerca. Se il recupero avviene

in un ambiente internet o mobile, sono necessarie diverse istanze di un'immagine in varie

risoluzioni e spazi di colori.

1.2. Standard di metadati esistenti

Lo standard utiliz

View more