studio di elaborazione di immagini per la ... - infn.it immagini, non solo per la possibilità di...

95
UNIVERSITÀ DEGLI STUDI DI GENOVA Facoltà di scienze matematiche, fisiche e naturali Corso di Laurea Specialistica in Fisica STUDIO DI ELABORAZIONE DI IMMAGINI PER LA DIAGNOSI PRECOCE DELLA MALATTIA DI ALZHEIMER Candidato: Fabio Randazzo Relatori: Prof. Sandro Squarcia Dott. Andrea Chincarini Correlatore: Prof.ssa: Alessandra Gliozzi Anno Accademico 2008/2009

Upload: phamngoc

Post on 15-Feb-2019

219 views

Category:

Documents


0 download

TRANSCRIPT

UNIVERSITÀ DEGLI STUDI DI GENOVAFacoltà di scienze matematiche, fisiche e naturali

Corso di Laurea Specialistica in Fisica

STUDIO DI ELABORAZIONE DI IMMAGINIPER LA DIAGNOSI PRECOCE

DELLA MALATTIA DI ALZHEIMER

Candidato: Fabio Randazzo

Relatori:Prof. Sandro Squarcia

Dott. Andrea Chincarini

Correlatore:Prof.ssa: Alessandra Gliozzi

Anno Accademico 2008/2009

Prefazione

Nelle nazioni sviluppate, il benessere, la tecnologia e gli straordinari pro-gressi in ambito medico hanno determinato l’aumento della vita media. Al-l’inizio dello scorso secolo infatti, l’aspettativa di vita era intorno ai cinquan-ta anni, adesso supera i settanta ed è verosimilmente destinata a crescere.

La popolazione vive di più e per questo motivo è aumentata l’incidenzadelle patologie degenerative tipiche della senilità. Una delle più diffuse,quindi una delle più studiate, è la demenza di Alzheimer. Questa malattiacausa una graduale ma inesorabile atrofia del tessuto cerebrale che portaalla progressiva perdita delle capacità cognitive e funzionali dell’organismo.Anche se per adesso non è stata trovata una cura efficace è possibile, incaso di una diagnosi precoce, migliorare la qualità e l’aspettativa di vita deimalati.

Studi sperimentali hanno evidenziato che alcune zone del cervello sonocolpite dall’atrofia anticipatamente e in maniera più marcata rispetto ad al-tre, pertanto l’attenzione dei ricercatori si è concentrata su particolari areedi maggiore interesse. Una di queste è la regione ippocampale, strutturacerebrale situata nella zona mediale del lobo temporale che svolge un ruoloimportante nei meccanismi della memoria.

Attraverso lo studio di immagini cliniche morfologiche, principalmenterisonanze magnetiche, è possibile individuare l’eventuale atrofia della ma-teria cerebrale. Pertanto è fondamentale riconoscere e delimitare le diver-se strutture cerebrali in modo da poter effettuare delle analisi qualitative equantitative.

Questo procedimento, detto segmentazione, non è banale, infatti le di-

verse regioni dell’encefalo non sono ben definite anatomicamente, il loro ri-conoscimento può essere ambiguo e dipende fortemente dall’esperienza delneuroradiologo. Un programma di segmentazione automatica può essereun aiuto concreto nella diagnosi precoce.

Il progetto di ricerca MAGIC-5, all’interno del gruppo 5 dell’INFN sioccupa dell’analisi di neuroimmagini, in particolare della realizzazione diun programma di segmentazione automatica per la descrizione morfologi-ca delle strutture ippocampali il cui fine ultimo è l’individuazione precocedi un’eventuale atrofia, possibile indicatore della demenza di Alzheimer,in modo tale da fornire un parametro oggettivo in aggiunta ai diversi testneurologici.

Nella pratica clinica la segmentazione manuale è una tecnica molto di-spendiosa in termini di tempo, per cui l’automatizzazione di questo proces-so, oltre a permettere una trattazione quantitativa delle informazioni morfo-logiche, è fondamentale per estendere la base dati e per un’adeguata analisistatistica.

Data la complessità degli algoritmi e la varietà delle immagini medicheè possibile che la forma sintetizzata non rappresenti efficacemente un ippo-campo, pertanto è utile elaborare un metodo di classificazione delle formeestratte in grado di distinguere quelle segmentate correttamente da quellemeno valide, ottenendo così un indicatore dell’efficienza dei parametri disegmentazione.

L’obiettivo di questa tesi è la realizzazione di un test di consistenza all’in-terno del programma di segmentazione automatica dell’ippocampo svilup-pando, attraverso l’applicazione di tecniche statistiche di analisi dati alla fi-sica medica, un metodo per il riconoscimento di una forma tridimensionalee valutarne il grado di appartenenza a una determinata popolazione.

Indice

1 Introduzione 11.1 Le Neuroimmagini . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 La demenza di Alzheimer . . . . . . . . . . . . . . . . . . . . . 51.3 Le collaborazioni internazionali . . . . . . . . . . . . . . . . . . 71.4 L’analisi morfologica della regione ippocampale . . . . . . . . 9

2 Elaborazione dei dati I 132.1 Contestualizzazione del problema . . . . . . . . . . . . . . . . 132.2 Caso unidimensionale . . . . . . . . . . . . . . . . . . . . . . . 142.3 Caso tridimensionale . . . . . . . . . . . . . . . . . . . . . . . . 162.4 Le maschere ippocampali . . . . . . . . . . . . . . . . . . . . . 192.5 La forma media di riferimento . . . . . . . . . . . . . . . . . . . 202.6 Il programma di estrazione della forma media . . . . . . . . . 242.7 Simulazione con scatole cubiche . . . . . . . . . . . . . . . . . 27

3 Elaborazione dei dati II 313.1 Il classificatore . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.2 Deformazione sulla maschera media . . . . . . . . . . . . . . . 343.3 Differenza simmetrica . . . . . . . . . . . . . . . . . . . . . . . 353.4 Gaussiana convoluta sui template . . . . . . . . . . . . . . . . . 383.5 Le variabili statistiche . . . . . . . . . . . . . . . . . . . . . . . . 40

4 Analisi statistica I 434.1 Stima della densità di probabilità . . . . . . . . . . . . . . . . . 434.2 Il test di Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . 46

4.3 La correlazione tra le variabili . . . . . . . . . . . . . . . . . . . 48

5 Analisi statistica II 515.1 Analisi delle Componenti Principali . . . . . . . . . . . . . . . 515.2 Trattamento dei dati con la PCA . . . . . . . . . . . . . . . . . . 535.3 Test diagnostici . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.4 Training del classificatore . . . . . . . . . . . . . . . . . . . . . . 625.5 Il test di consistenza . . . . . . . . . . . . . . . . . . . . . . . . . 645.6 Verifica del classificatore . . . . . . . . . . . . . . . . . . . . . . 66

6 Riepilogo e conclusioni 71

Appendice A: Registrazione lineare di immagini digitali 75

Appendice B: Programmi in MATLAB 79

Bibliografia 85

CAPITOLO 1

Introduzione

1.1 Le Neuroimmagini

L’applicazione alla medicina delle più sofisticate scoperte scientifiche e tec-nologiche ha portato a maggiori conoscenze dell’anatomia e della fisiologiaumana e all’introduzione di innovativi strumenti diagnostici. Per gli ap-parati, le tecniche e i metodi utilizzati si è sviluppata una vera e propria“scienza medica” che necessita di competenze multidisciplinari.

In tal senso la fisica medica, avvalendosi dei principi e dei metodi dellafisica, si occupa della ricerca in relazione ai problemi della salute dell’uomoe interviene quando l’impiego di strumentazioni e tecnologie biomedicheavanzate comporta problematiche di tipo fisico-matematico.

Già da tempo, infatti, è presente per legge negli ospedali la figura delfisico sanitario, che collabora col medico nella pratica clinica occupandosidei problemi inerenti alle applicazioni dell’elettronica, all’impiego di isoto-pi radioattivi e di sorgenti di radiazione per la terapia, alla diagnosi e allaricerca.

Nell’ultimo ventennio, molti progressi della fisica applicata alla medi-cina sono stati effettuati nel campo delle immagini. Le tecniche avanzatedi analisi morfologica, come le Immagini di Risonanza Magnetica (RMI)e funzionale, come la Tomografia a Emissione di Positroni (PET) hannopermesso lo sviluppo di nuove metodiche diagnostiche e nuove procedurechirurgiche.

2 1. Introduzione

La naturale evoluzione, in questo settore, è stata la digitalizzazione delleimmagini, non solo per la possibilità di ottenere informazioni quantitative,come volume, area o distanza, ma anche per la realizzazione di una retemultimediale di condivisione delle immagini che amplia notevolmente leprospettive di diagnosi e di ricerca.

In questo contesto il neuroimaging, cioè lo studio e l’elaborazione del-le immagini dell’apparato cerebrale, è diventato una disciplina a sé stan-te. Infatti, i problemi di identificazione, segmentazione e caratterizzazio-ne automatica di regioni clinicamente rilevanti nelle neuroimmagini sonoformidabili.

Le peculiarità della regione celebrale e delle malattie ad essa connesserichiedono un costante e oneroso ricorso all’analisi manuale ad opera dineuroradiologi esperti. L’impellenza di estendere la base dati e di migliorareil riconoscimento delle patologie ha reso necessario lo sviluppo di strumentiad hoc per l’analisi e il trattamento delle neuroimmagini.

Si possono distinguere principalmente due diverse tipologie di immagi-ni: morfologiche e funzionali. Le prime forniscono informazioni sull’ana-tomia, permettono l’individuazione delle diverse regioni e il riconoscimen-to di un tessuto sano da uno malato. Le seconde, invece, evidenziano lefunzioni fisiologiche attraverso l’analisi di segnali provenienti da molecolebiologiche marcate con isotopi radioattivi.

In questo lavoro sono stati utilizzati dati contenenti informazioni morfo-logici sull’anatomia della regione cerebrale ricavati da RMI.

Le RMI cliniche [1] sono immagini tridimensionali caratterizzate da un’e-levata risoluzione (dell’ordine del millimetro) che si basano sul fenomenofisico della risonanza magnetica nucleare dei nuclei di idrogeno contenutiprincipalmente nelle molecole d’acqua.

In presenza di un campo magnetico esterno B0 il momento magneticoµ del protone precede intorno alla direzione del campo con la frequenza diLarmor νL. In queste condizioni l’irraggiamento da parte di un’onda elet-

tromagnetica con frequenza pari a νL =γB0

2π(dove γ è il momento giro-

magnetico del protone) provoca una transizione energetica dei protoni chesi trovano allo stato fondamentale. Nel caso del protone la frequenza diLarmor è pari a 42.6 MHz per ogni Tesla di campo magnetico.

Al termine dell’irraggiamento si assiste alla transizione energetica delprotone dal livello eccitato allo stato fondamentale attraverso un fotone.

Se consideriamo quindi un mezzo ricco di idrogeno, come l’acqua, im-

1. Introduzione 3

merso in un campo magnetico e sottoposto all’azione di un’onda elettroma-gnetica alla frequenza di risonanza del protone, al termine dell’irraggiamen-to, si rivela un segnale, misurabile con opportune bobine, proporzionale alladensità di nuclei di idrogeno presenti nella regione di spazio considerata.

La frazione di tempo che intercorre dal termine dell’irraggiamento alripristino dell’equilibrio termico si chiama tempo di rilassamento T1 e, aparità di altri fattori, è tanto più lento quanto più lenti sono i moti molecolaridel mezzo considerato.

Nell’acqua legata alle molecole biologiche i moti molecolari sono me-diamente più lenti che nell’acqua libera, pertanto l’applicazione di que-sta tecnica ai tessuti biologici dell’uomo permette di ricavare importantiinformazioni morfologiche in vivo.

Ponendo il paziente in una regione in cui B0 varia in modo noto da pun-to a punto, ottenendo così un’eccitazione selettiva dei vari strati corporei,e misurando T1 nelle diverse condizioni è possibile discriminare i tessuti.Associando ai vari tessuti diverse intensità dei toni di grigio, si ricavano in-formazioni tridimensionali sull’anatomia delle parti interne dell’organismo.

All’aumentare del campo magnetico aumenta la risoluzione delle RMI,ma i costi dei macchinari crescono esponenzialmente con la potenza delmagnete inoltre, in assenza di prove concrete sulla pericolosità dell’azionedi campi magnetici elevati sul tessuto biologico, si applica un principio diproporzionalità secondo cui il rischio cresce linearmente con l’esposizione.

Quindi nella pratica clinica, sia per motivi precauzionali che economici,le macchine che effettuano la risonanza lavorano con campi magnetici di 1.5Tesla, anche se, a scopo di ricerca, ne esistono di più potenti che arrivanofino a 7 Tesla1.

In ogni caso gli effetti collaterali di una risonanza magnetica sono trascu-rabili rispetto a quelli delle tecniche che coinvolgono radiazioni ionizzanticome la PET o la più usuale Tomografia Assiale Computerizzata (TAC).

Uno dei principali problemi nella trattazione delle immagini medicheè che possono avere caratteristiche che dipendono dall’ospedale di prove-nienza.

Nella pratica clinica, infatti, le modalità di acquisizione e i macchina-ri utilizzati possono essere diversi, quindi la dimensione dei voxel, cioè glielementi finiti di volume contenenti le informazioni sui tessuti biologici, è

1A scopo di ricerca sono state utilizzate, in via sperimentale, anche macchine conmagneti da 11 Tesla.

4 1. Introduzione

variabile, inoltre, poiché esistono svariati protocolli standard, la posizionein cui il paziente effettua una RMI può cambiare notevolmente da un ospe-dale all’altro, perciò occorre un’analisi preliminare per poter trattare i daticoerentemente.

Una delle applicazioni più importanti delle RMI è quella legata allo stu-dio delle malattie neurodegenerative. Esse rappresentano uno dei capitolipiù rilevanti sul piano sociale e assistenziale della medicina contemporanea,dato che il crescente numero di pazienti affetti è conseguenza dell’aumentodella popolazione anziana nel mondo occidentale.

L’aspettativa di vita media nel mondo occidentale è in costante aumento,in particolare in Italia, se nei primi anno del secolo scorso era inferiore aicinquanta anni, per i nati nel 2001, secondo le ultime proiezioni elaboratedal Ministero della Salute, sarà di quasi 77 anni per gli uomini e 83 per ledonne.

L’incidenza delle malattie neurodegenerative è pertanto destinata ad au-mentare notevolmente, con tutte le conseguenze che patologie altamenteinvalidanti come queste comportano dal punto di vista affettivo, sociale edeconomico.

In particolare la malattia di Alzheimer (AD) rappresenta da sola quasi il60% di queste malattie e colpisce milioni di persone in tutto il mondo. Èstato stimato, infatti, che nel 2010 i malati di Alzheimer saranno più di unmilione solamente in Italia, 7.3 milioni in Europa e, complessivamente, circa35 milioni a livello mondiale: un fenomeno in rapido aumento che ha datoluogo a una vera e propria emergenza sanitaria2.

Le tecniche di neuroradiologia che esaminano l’anatomia del cervellohanno un ruolo importante nello studio della malattia di Alzheimer e, an-che se non permettono da sole di formularne la diagnosi, consentono diescludere altre patologie individuabili tramite di sintomi simili [2]. Attra-verso questi esami è possibile, per esempio, escludere la presenza di tumoricerebrali, che possono causare deficit cognitivi.

Grazie alla possibilità di visualizzare i dettagli più fini della anatomia delcervello, le RMI sono efficaci nell’evidenziare le caratteristiche morfologichedi specifiche strutture cerebrali di piccole dimensioni, come l’ippocampo,e riscontrarne l’eventuale atrofia, ossia la perdita di massa e volume deltessuto biologico.

2Dati calcolati dalla Alzheimer Disease’s International (ADI) e dalla Alzheimer Europe inbase ai report del 2009.

1. Introduzione 5

L’atrofia dell’ippocampo, una struttura fondamentale per la memoria, èinfatti un possibile indicatore specifico della malattia di Alzheimer [3].

Tale possibilità apre scenari impensabili solo fino ad alcuni anni fa chevanno dall’instaurazione di misure terapeutiche finalizzate a prevenire oritardare la comparsa della demenza, alla possibilità di valutare in modoaccurato il ruolo di fattori ambientali e somatici nella patogenesi attraversostudi longitudinali.

1.2 La demenza di Alzheimer

La demenza di Alzheimer è una patologia degenerativa del cervello carat-terizzata da un processo di degradazione delle cellule cerebrali che provocaun declino progressivo e globale delle funzioni intellettive, associato a undeterioramento della personalità e delle capacità di relazione [4].

L’esordio subdolo rende difficile stabilirne con precisione l’inizio, ma dalpunto di vista epidemiologico, l’incidenza della malattia cresce rapidamen-te con l’età.

In generale con l’invecchiamento, il cervello va incontro a modificazionianatomo-funzionali anche rilevanti, non molto dissimili qualitativamenteda quelle che si osservano nella AD. In entrambi i casi, infatti, si presentauna riduzione di peso e volume dell’organo ma, nella malattia, la perdi-ta di sostanza cerebrale è molto maggiore rispetto ai controlli sani di parietà. L’atrofia è in genere diffusa, ma con più severo interessamento dei lo-bi temporali e in particolare dell’ ippocampo, struttura fondamentale neimeccanismi della memoria (Figura 1.1).

Figura 1.1: Confronto fra l’atrofia dovuta al naturale processo di invecchiamento equella patologica: in evidenza la regione ippocampale.

Col progredire della malattia, i sintomi diventano sempre più evidenti:le attività quotidiane e le relazioni sociali vengono compromesse. Di normal’evoluzione della AD viene distinta in tre fasi.

6 1. Introduzione

Nella prima fase si osserva un calo iniziale degli interessi, indifferenza eturbe della memoria di lieve entità. Il paziente è consapevole e può andareincontro a depressione, il che può rendere difficile la diagnosi differenziale.

Nella seconda fase il calo della memoria è più evidente e si aggiungo-no deficit dell’attenzione, della capacità critica e di giudizio. Compaionodifficoltà nel riconoscere i parenti e gli amici, apatia, incuria personale edisordini del linguaggio. Alla fine di questa fase si presentano probleminell’orientamento, agrafia e afasia, cioè la perdita della capacità di scrivere,parlare e comprendere le parole.

Nella terza fase, infine, si hanno gravi turbe della memoria a breve elungo termine, incapacità di riconoscere i volti anche dei più stretti familiari,difficoltà a vestirsi, a mangiare e deglutire. Se non intervengono cause colla-terali di morte, il paziente è colpito da convulsioni, poi rigidità progressiva,fino al quadro finale della paralisi totale.

La diagnosi della malattia si basa, inizialmente, sulla valutazione di sin-tomi neuropsicologici e comportamentali legati a disturbi della memoria,del linguaggio e della percezione spaziale.

Una valutazione convenzionale della memoria e delle altre funzioni ce-rebrali nell’anziano è ottenuta tramite un test, il Mini Mental State Examina-tion (MMSE) che permette di ottenere un punteggio di efficienza cognitivagenerale che discrimina la normalità dalla patologia.

L’esclusione di altre cause di demenza, come la demenza a corpi di Lewy,le forme di demenza vascolare o la demenza fronto-temporale, richiede in-vece un esame neuroradiologico, tipicamente effettuato tramite RMI. Que-st’ultima permette di individuare la malattia negli stadi iniziali e di distin-guerne forme lievi, moderate e gravi.

La malattia è dovuta a una diffusa distruzione di materia cerebrale, cau-sata principalmente dalla beta-amiloide, un frammento proteico principaleresponsabile della formazione di oligomeri e, in generale, di depositi amiloidialtamente tossici per le cellule neuronali. In particolare vengono danneg-giate le sinapsi cerebrali, con una notevole perdita delle funzioni collegateai processi cognitivi e di memoria.

Allo stato attuale delle conoscenze non esiste alcuna terapia in gradodi curare questa malattia. Quelle più diffuse sono sintomatiche, anche sesi stanno sviluppando farmaci che, somministrati nelle fasi iniziali o lie-vi, sono in grado di rallentare il peggioramento della memoria e delle ca-pacità cognitive dei pazienti. Per questo motivo una diagnosi precoce è

1. Introduzione 7

fondamentale nel migliorare la qualità e le aspettative di vita dei malati.

Molta attenzione, quindi, viene dedicata al Mild Cognitive Impairment(MCI) un deterioramento cognitivo che è caratterizzato solo da lievi distur-bi di memoria o in altre sfere cognitive e che può rappresentare uno stadioprecoce della malattia. Poiché non tutti gli MCI sviluppano una demenza, sistanno effettuando molti studi per cercare di capire quali di queste personesiano a rischio [5].

Attraverso esami come la PET e la RMI è possibile rivelare, rispettiva-mente, deficit funzionali nella corteccia associativa (Figura 1.2) e atrofiaippocampale e temporo-parietale.

Figura 1.2: Confronto fra immagini funzionali dell’attività cerebrale di un sogget-to sano e uno malato di Alzheimer: in evidenza le alterazioni dellacorteccia associativa nella regione ippocampale [6].

In realtà uno dei problemi principali è la sovrapposizione dei sintomie delle evidenze morfologiche nella AD e nella demenza fronto-temporale:l’analisi sempre più dettagliata delle immagini digitali è quindi fondamen-tale nella diagnosi differenziale delle patologie neurologiche.

L’impegno dei ricercatori si è pertanto indirizzato verso lo sviluppo dialgoritmi per l’elaborazione di immagini in modo da ottenere informazionisempre più accurate delle caratteristiche morfo-funzionali del cervello.

1.3 Le collaborazioni internazionali

Le proporzioni della diffusione della malattia di Alzheimer hanno portatoalla nascita di diverse collaborazioni internazionali con particolare interesse

8 1. Introduzione

per lo studio delle neuroimmagini in relazione alle problematiche legate allaAD.

Una delle più importanti è sicuramente la Alzheimer’s Disease Neuroima-ging Initiative (ADNI) che dal 2004 si occupa dell’elaborazione delle neu-roimmagini e della ricerca di nuovi marker biologici della AD [7].

L’obiettivo di questa collaborazione è lo studio longitudinale dei datidi pazienti affetti da AD e nella condizione di MCI in relazione a control-li sani soggetti al naturale processo di invecchiamento, attraverso l’anali-si di immagini PET, RMI ed esami clinici per individuare l’insorgenza e laprogressione di questi stati patologici.

Queste informazioni cliniche, che provengono da più di cinquanta sititra il Canada e gli Stati Uniti, sono caratterizzate da tecniche di acquisizionestandard e comprendono i dati relativi a 400 MCI, 200 AD e 200 controlli sani.

La caratteristica principale della ADNI è che tutti i dati clinici relativi alleimmagini, agli esami biologici e neurofisiologici sono a disposizione di tuttigli scienziati qualificati come risorsa comune per la ricerca. Questo facilitanotevolmente il confronto fra le diverse tecniche di analisi sviluppate e diconseguenza permette alla comunità scientifica impegnata in questo settoreun progresso più rapido e il raggiungimento di risultati migliori.

Un’altra importante collaborazione internazionale è la European Alzhei-mer’s Disease Consortium (EADC) fondata direttamente dalla CommissioneEuropea [8].

La EADC è una rete che comprende 45 centri di eccellenza in tutta Eu-ropa per ampliare le conoscenze scientifiche di base della AD, per svilup-pare un metodo per prevenire l’insorgenza della malattia e per ritardarne isintomi più gravosi per il paziente e i familiari.

Il principale obiettivo della collaborazione è la differenziazione delladiagnosi di AD, in particolar modo nel discriminarla dalle altre forme didemenza.

Particolare attenzione è dedicata a una maggiore comprensione del mildcognitive impairment per capire in quali casi si presenta come stadio inizialedella AD, di un’altra forma patologica di demenza, a causa del normale in-vecchiamento dovuto all’età oppure a causa di stati depressivi responsabilidi sintomi simili.

In questo contesto, lo studio delle strutture ippocampali è particolar-mente fecondo, infatti evidenze sperimentali hanno dimostrato che è unadelle regioni cerebrali colpite per prime dall’atrofia [9].

1. Introduzione 9

L’analisi dettagliata delle caratteristiche morfologiche attraverso leRMI in grado di rivelare le modificazioni strutturali dell’ippocampo rappre-senta quindi un valido aiuto per la diagnosi e lo studio della AD.

Sulla spinta di queste organizzazioni internazionali sono nate anche inItalia diverse collaborazioni che studiano la malattia di Alzheimer attraver-so l’elaborazione delle neuroimmagini.

1.4 L’analisi morfologica della regione ippocam-

pale

L’ippocampo è uno strato della corteccia cerebrale situato nella zona me-diale del lobo temporale e svolge una funzione importante nei meccanismidella memoria [10]. Gli esseri umani, come gli altri mammiferi, possiedonodue strutture ippocampali, una per ogni emisfero del cervello.

Come già accennato, è uno dei sistemi cerebrali colpiti per primi e in ma-niera più marcata dalla AD e subisce, sin dall’esordio della malattia, modifi-cazioni strutturali e funzionali. Da un’analisi morfologica molto dettagliataè possibile, pertanto, rivelarne l’atrofia.

Il volume liberato dai neuroni distrutti è occupato progressivamente dalliquido cerebrale che è distinguibile dalla materia grigia attraverso una RMI.In questo tipo di immagini l’acqua, componente principale del liquido ce-rebrale, risulta più scura della materia cellulare e per questo è facilmentericonoscibile. Così, attraverso la misura delle diverse intensità di grigio del-l’ippocampo e delle zone limitrofe, è possibile stimare l’eventuale grado diatrofia e confermare l’ipotesi della diagnosi di AD.

Dal punto di vista anatomico, l’ippocampo è formato principalmente damateria grigia come le strutture adiacenti e non è facilmente distinguibiledal tessuto circostante in una RMI.

Il riconoscimento e la classificazione delle aree cerebrali (segmentazione)è quindi un problema complicato dal punto di vista clinico. A occhio nu-do, infatti, non tutte le sfumature di grigio sono apprezzabili, inoltre l’ana-lisi manuale è molto lunga e non sempre a livello ospedaliero si hanno adisposizione i tempi tecnici e le risorse necessarie.

L’elaborazione delle immagini digitali permette di estrarre il maggiornumero di informazioni possibili dai dati morfologici rivelabili con una RMIe fornisce un valido aiuto nella diagnosi della AD. A tal fine, come abbia-

10 1. Introduzione

mo visto, sono nate diverse collaborazioni internazionali e associazioni chestudiano queste tematiche con particolare interesse per l’ippocampo.

In questo contesto, all’interno del gruppo 5 dell’INFN, il progetto di ri-cerca MAGIC-5, Medical Applications on a Grid Infrastructure Connection, sioccupa dello sviluppo di algoritmi utili alla diagnosi precoce di diverse pa-tologie e della realizzazione di una rete di supporto informatica (GRID) perla condivisione del database in grado di fornire elevate prestazioni computa-zionali.

In particolare il gruppo di Genova, all’interno del quale è stata realizzataquesta tesi, si occupa di neuroimaging per l’individuazione precoce della AD.L’obiettivo della ricerca è la realizzazione di un programma di segmentazio-ne automatica dell’ippocampo che, attraverso l’analisi dei livelli di grigio diimmagini mediche, sia in grado di descriverne l’atrofia [11].

Il database è formato da RMI cliniche provenienti da diversi ospedali,quindi il tipo di macchinario, le modalità di acquisizione e la posizione delpaziente, possono essere diversi e necessitano di un’elaborazione prelimi-nare.

A seconda del tipo di strumento o delle modalità di acquisizione sceltedal neuroradiologo, la risoluzione spaziale, in termini di voxel, può esseredifferente. Inoltre la dimensione stessa dei voxel può essere isotropa nelletre direzioni, dando luogo a elementi cubici, oppure anisotropa, ottenendocosì elementi a forma di parallelepipedo. Occorre pertanto ricampionare leimmagini per renderle tutte nello stesso formato. È anche necessario nor-malizzare le intensità di grigio in modo che alle diverse componenti tes-sutali, come il liquido cerebrale o la materia grigia, vengano associati glistessi valori in ogni immagine. In questo modo si rende consistente l’analisicongiunta delle RMI acquisite con metodiche diverse.

Per facilitare il riconoscimento dell’ippocampo ed eliminare i problemiriguardanti la posizione in cui il paziente effettua la risonanza, le immagi-ni vengono ruotate in modo che l’asse dell’ippocampo risulti orizzontale,secondo l’orientazione alla Ohnishi [12] (Figura 1.3 (a) e (b)).

Anche dopo queste elaborazioni iniziali, le strutture ippocampali non so-no facilmente distinguibili dal resto del lobo medio-temporale; per facilitarel’individuazione dell’ippocampo si sceglie di estrarre due scatole tridimen-sionali, dette hippocampal box (HB) contenenti l’ippocampo destro e sinistroe parte del tessuto limitrofo.

La segmentazione dell’ippocampo avviene quindi a partire da HB tridi-

1. Introduzione 11

mensionali di 30×70×30 mm3 (Figura 1.3 (c)).

Figura 1.3: Processo di estrazione delle HB. (a) Sezione sagittale di una RMI. (b) Ro-tazione della stessa immagine alla maniera di Ohnishi e individuazionedella HB. (c) In senso orario a partire da sinistra: sezione assiale, sagitta-le e due coronali (parti terminale e centrale) della HB di un ippocampodestro.

Le HB vengono successivamente elaborate attraverso altri filtri digitaliper essere confrontate con una serie di template, che sono immagini di ippo-campi segmentate manualmente da neuroradiologi esperti la cui validità èaccertata.

Il processo si divide in due fasi:

• l’analisi della forma, ossia l’individuazione della struttura ippocam-pale contenuta in una HB;

• l’analisi del volume, cioè lo studio mediante i livelli di grigio dell’in-sieme di tutti i voxel contenuti all’interno della HB, ossia tutti i voxelche descrivono l’ippocampo e i tessuti cerebrali limitrofi, con il conse-guente riconoscimento dell’eventuale grado di atrofia della strutturaconsiderata.

Attraverso HB campione si riescono a definire delle popolazioni che de-scrivono i diversi stadi dell’atrofia; in questo modo l’analisi di una nuo-va scatola ippocampale è essenzialmente uno studio di appartenenza di unoggetto a una data distribuzione statistica.

Grazie a una scelta opportuna della variabile statistica si riescono a di-scriminare gli ippocampi sani da quelli malati e a fornire un’indice di atro-fia indicativo dello stadio di evoluzione della malattia che correla con ladiagnosi clinica.

L’individuazione e la conseguente delimitazione della struttura ippo-campale all’interno di una HB (Figura 1.3 (c)) è un processo complicato.

12 1. Introduzione

Può quindi succedere che, in alcuni casi, il programma automatico segmen-ti forme molto diverse da un ippocampo e che non contengono nessunainformazione utile. Inoltre gli algoritmi di segmentazione dipendono da di-versi parametri che sono difficili da ottimizzare, se non ricorrendo di voltain volta a un oneroso lavoro manuale di validazione.

Lo scopo di questa tesi è la realizzazione di un test che sia in grado didiscriminare le forme estratte correttamente da quelle errate per fornire in-dicazioni sull’efficienza dei parametri degli algoritmi in maniera automaticae con motivazioni statisticamente valide.

CAPITOLO 2

Elaborazione dei dati I

2.1 Contestualizzazione del problema

Come detto precedentemente, lo scopo della tesi è la realizzazione di unaserie di algoritmi in grado di classificare una forma tridimensionale.

L’ipotesi fondamentale è che le immagini che rappresentano corretta-mente un ippocampo e quelle che non lo rappresentano identifichino duepopolazioni statistiche distinguibili. Per studiare queste due classi bisognatrovare una o più variabili in grado di distinguere le due distribuzioni.

Si tratta, quindi, dell’applicazione di tecniche statistiche di analisi datiallo studio di immagini mediche, per cui l’idea di base è quella di elabo-rare opportunamente un segnale per studiare la sua appartenenza a unadeterminata popolazione.

La base dati è composta da immagini digitali tridimensionali la cui com-ponente fondamentale, il voxel, è un elemento di volume che rappresentaun valore di intensità di segnale o di colore, la cui posizione nello spazio èidentificata da tre indici.

In pratica si ha a che fare con matrici tridimensionali i× j× k costituiteda elementi scalari, nel caso di immagini a toni di grigio, o vettoriali se sitratta di immagini a colori.

Le immagini sono da considerare come un vero e proprio segnale tri-dimensionale, pertanto bisogna capire come trattare un oggetto di questo

14 2. Elaborazione dei dati I

tipo e trovare degli strumenti matematici, informatici e statistici in grado difornire un’analisi coerente.

Nello studio delle strutture ippocampali bisogna confrontare tra lorodelle forme tridimensionali, pertanto l’interesse è rivolto alla definizionedi una variabile che contenga informazioni sul grado di similarità tra dueoggetti rigidi.

Per ottenere questo è necessario ricorrere a una nozione di distanza tradue superfici in uno spazio tridimensionale tale che al diminuire di questagrandezza aumenti la corrispondenza tra le due immagini.

Però, mentre in uno spazio bidimensionale la distanza minima tra duepunti è definita rigorosamente e in maniera semplice nei termini della di-stanza euclidea, la distanza minima tra due superfici nello spazio tridimen-sionale presenta difficoltà analitiche e concettuali più sottili.

Per esempio si può definire la distanza minima tra due superfici in unospazio tridimensionale come l’estremo inferiore dell’insieme delle distanzeda tutti i punti appartenenti a una delle due superfici a tutti quelli apparte-nenti all’altra.

Una definizione simile è sicuramente applicabile al problema delle strut-ture ippocampali ed è eseguibile numericamente al calcolatore, anche se ri-chiede tempi di computazione lunghi. Se però si considera, ad esempio, ilcaso in cui le due superfici si intersecano, la distanza minima così definitavale zero e si perdono molte informazioni sul grado di similarità dei dueoggetti.

Lo sviluppo di un metodo per il confronto e la classificazione di for-me tridimensionali è molto delicato e, anche se presenta diverse analogiecon l’analisi dei segnali, occorre superare alcune difficoltà dovute non so-lo alla generalizzazione al caso tridimensionale, ma anche alla non faciledefinizione di un modello parametrico di riferimento della forma in esame.

È utile, quindi, partire da un esempio unidimensionale introducendoprogressivamente le diverse problematiche incontrate.

2.2 Caso unidimensionale

In fisica l’analisi di un segnale è un problema tipicamente unidimensionaledi cui solitamente esiste un modello teorico.

Consideriamo quindi, a titolo di esempio, una famiglia di segnali cheidentifica una popolazione con determinate caratteristiche (Figura 2.1 (a)).

2. Elaborazione dei dati I 15

Supponiamo, per esempio, che sia nota dalla teoria l’esistenza di un segnaledi forma:

f (x) = ex2α sin (ωx + ϕ)

dove α, ω e ϕ sono parametri caratterizzati da un valore medio e una certadispersione.

Per capire se un nuovo segnale appartiene alla distribuzione in studio sieffettua un test statistico sui suoi parametri, per esempio con il metodo del3σ.

(a) (b)

Figura 2.1: (a) Esempio di una famiglia di segnali. (b) Esempio di un inviluppo difunzioni (in giallo) dalle quali può essere stimato un segnale medio (innero).

In alcuni casi può succedere che dalla teoria non sia possibile determi-nare una formula parametrica di riferimento. In una situazione simile sipuò pensare di estrarre in qualche modo un segnale medio di riferimento apartire da misure indipendenti ricavando una formula dall’inviluppo dellefunzioni associate alle misure indipendenti stesse (Figura 2.1 (b)).

A questo punto occorre stimare la distanza tra un generico segnale e ilsegnale medio, per esempio possiamo usare il coefficiente di correlazione diPearson:

ρxy =σxy

σxσy

dove σxy è la covarianza tra un segnale generico e il segnale medio men-tre σx e σy sono le varianze di un generico segnale e del segnale mediorispettivamente.

Si può anche definire una distanza L dei segnali s(x) dalla forma media

16 2. Elaborazione dei dati I

m(x) come:

L =∫|m(x)− s(x)| dx

e da questi dati ricavare un valore limite per un test d’appartenenza. Ov-viamente queste sono solo alcune tra le tante possibili scelte, sarà compitodi chi analizza i dati trovare la variabile che separa meglio le distribuzionidei segnali accettati e non-accettati.

(a) segnale accettato. (b) segnale rifiutato.

Figura 2.2: Esempio di un segnale accettato (a) e di un segnale rifiutato (b) in basea un valore critico della variabile L.

La figura 2.2 mostra un esempio grafico di un segnale accettato e di unorifiutato in base a un determinato valore critico della variabile L.

Lo studio delle RMI di strutture ippocampali è analogo all’esempio pre-cedente, ovvero siamo nel caso in cui una rappresentazione parametrica delsegnale non esiste o è di difficile costruzione. Occorre pertanto sviluppa-re un metodo per ricavare la forma media di un oggetto tridimensionalea partire da sue rappresentazioni indipendenti e trovare una variabile perconfrontare le immagini in esame con questa forma media che contengainformazioni sul loro grado di similarità.

2.3 Caso tridimensionale

Per classificare oggetti tridimensionali bisogna per prima cosa definire l’og-getto stesso. È necessario conoscere le caratteristiche che descrivono il ge-nerico segnale che appartiene alla distribuzione in studio, oppure ricavareuna forma media di riferimento. Nel caso in cui sia necessario ricavare unaforma media di riferimento a partire da grandezze biologiche, ossia gran-

2. Elaborazione dei dati I 17

dezze che descrivono le dimensioni di un organo o di una qualsiasi altramisura biologica, questo non è per nulla banale.

Consideriamo a titolo di esempio il problema della classificazione di unamano: le dita possono essere affusolate o tozze e il palmo più o meno largo;gli uomini hanno mediamente le mani più grandi delle donne; di norma ledita sono cinque, ma una mano con quattro dita resta pur sempre una manoe via dicendo.

La definizione di una “mano media” che descriva l’intera popolazione èquindi molto difficile, ma si può comunque pensare di ricavare una forma diriferimento per sviluppare un sistema in grado di distinguere, ad esempio,una mano da una sfera.

Anche nel caso tridimensionale, la situazione ideale è quella in cui si co-nosce dalla teoria una formula parametrica che descriva la superficie in esa-me. In questo caso i segnali, per essere classificati, vengono parametrizzatiin modo da effettuare dei test d’ipotesi sui singoli coefficienti.

Nel caso di alcune strutture cerebrali, come l’ippocampo, esistono tenta-tivi di parametrizzazione della superficie, per esempio attraverso l’utilizzodei coefficienti delle armoniche sferiche [13].

Utilizzando la base delle armoniche sferiche, si ottiene una descrizionegerarchica della superficie che comprende dettagli sempre più fini all’au-mentare del numero di coefficienti considerati.

Una superficie v(θ, ϕ) nei termini delle armoniche sferiche Yml (θ, ϕ) può

essere espressa nella forma:

v(θ, ϕ) =+∞

∑l=0

l

∑m=−l

cml Ym

l (θ, ϕ)

dove cml =

∫v(θ, ϕ) · Ym∗

l (θ, ϕ) dθ dϕ.

La descrizione mediante armoniche sferiche di una superficie è moltoaccurata ma, nel caso in esame presenta dei limiti: la forma tipica dell’ip-pocampo è allungata e presenta delle concavità per cui si deve approssi-mare l’oggetto a una forma chiusa, col rischio di perdere importanti infor-mazioni morfologiche; poiché la topologia dell’ippocampo è molto lontanadalla simmetria sferica, bisogna ricorrere all’utilizzo di un grande numerodi coefficienti, il che richiede tempi tecnici computazionali estremamenteelevati.

L’utilizzo di uno strumento così potente e sofisticato può essere adattonella realizzazione di un programma di segmentazione automatica, ma nel

18 2. Elaborazione dei dati I

caso di un test all’interno del programma stesso è oggettivamente troppo di-spendioso in termini dei tempi tecnici che un’analisi di questo tipo richiedee quindi risulta inappropriato.

Quindi se un modello della superficie in esame non esiste o è ineffi-ciente per gli scopi prefissi, come nel caso delle strutture ippocampali, sipuò pensare di ricavare una forma media di riferimento da immagini cherappresentino correttamente la classe di oggetti in studio.

Una volta ottenuta la forma media di riferimento, si passa all’analisivera e propria dei segnali attraverso l’elaborazione di una procedura diconfronto tra oggetti rigidi.

Si può ricavare, ad esempio, un’opportuna definizione della distanzatra due superfici in uno spazio tridimensionale per ottenere delle variabilistatistiche che contengano l’informazione sul grado di similarità delle formee utilizzare questo metodo per confrontare i segnali in esame con la formamedia di riferimento.

Uno dei metodi per descrivere la distanza tra due oggetti tridimensio-nali e ottenere informazioni di similarità è quello di collocare un nume-ro finito di punti, detti landmark, in corrispondenza delle zone che megliocaratterizzano la forma in questione [14].

Attraverso la matrice delle coordinate dei landmark, è possibile effettua-re operazioni matematiche su un numero finito di elementi in modo dastabilire delle relazioni numeriche tra le immagini in studio.

Questa procedura è una delle più utilizzate nel campo dell’elaborazionedi immagini, però, poiché la posizione dei landmark è arbitraria, si prestadifficilmente all’automatizzazione. Inoltre, nel caso in cui si debbano con-frontare due oggetti molto diversi tra loro, la collocazione e la scelta di que-sti punti di riferimento perde completamente di significato, poiché le zoneche caratterizzano le due forme possono non essere in relazione tra loro.

Nella realizzazione del classificatore della forma delle strutture ippo-campali si dovranno trattare, come vedremo, oggetti molto diversi tra loroquindi la tecnica dei landmark può non essere del tutto efficace.

Per le esigenze di questo lavoro è stato necessario sviluppare un metodoper il confronto delle forme rigide ricavate dalle RMI sfruttando un’oppor-tuna definizione della distanza tra due superfici in uno spazio tridimensio-nale.

2. Elaborazione dei dati I 19

2.4 Le maschere ippocampali

Le forme che devono essere classificate sono le maschere ippocampali, cherappresentano un’ulteriore elaborazione delle HB introdotte nello scorso ca-pitolo e sono immagini binarie tridimensionali, i cui voxel valgono uno nelvolume individuato dall’ippocampo e zero altrove (Figura 2.3).

(a) (b) (c)

Figura 2.3: A partire dalla HB di un ippocampo sinistro (a) si calcola, attraversoun opportuno algoritmo, quali sono i voxel che appartengono all’ippo-campo, evidenziati in rosso (b); la rappresentazione binaria dei voxel as-sociati al volume occupato dall’ippocampo è la maschera ippocampale(c).

Il primo problema da affrontare è l’estrazione di una forma media di rife-rimento a partire da immagini che raffigurino correttamente un ippocampo.Queste immagini, i template, sono una serie di 37 strutture ippocampali seg-mentate manualmente da un esperto neuroradiologo, quindi validate dalpunto di vista medico.

Come abbiamo visto, gli esseri umani hanno due ippocampi, uno de-stro e uno sinistro, che non sono perfettamente simmetrici, inoltre alcunistudi hanno dimostrato che l’atrofia causata dalla AD colpisce queste duestrutture in maniera asimmetrica con tempi e intensità diverse [15].

Pertanto, nell’analisi statistica, le RMI degli ippocampi destri e sinistrinon possono essere trattate simultaneamente (a meno di una trasformazio-ne di simmetria) ed è quindi necessario estrarre due forme medie, una de-stra e una sinistra ed elaborare i dati relativi ai due lati separatamente. Na-turalmente questo non rappresenta un problema, dato che il metodo e glialgoritmi utilizzati sono gli stessi.

Complessivamente, quindi, la base di dati da cui sarà estratta la formamedia di riferimento, è composta da 74 template, 37 per lato, che sono leuniche immagini ricavate a partire da RMI in nostro possesso che rappre-sentano efficacemente un ippocampo dal punto di vista clinico. Quindi, in

20 2. Elaborazione dei dati I

prima approssimazione, i template verranno assunti come dei segnali nonaffetti da errore.

La variabilità tra i template è dovuta infatti alla variazione inter indivi-duale ed eventualmente alla capacità di segmentazione del neuroradiolo-go, ma dal nostro punto di vista esse costituiscono un campionamento disegnali esatti, per definizione. Sarà cura dell’analisi statistica discrimina-re l’appartenenza di un’immagine a una determinata classe tenendo contodella naturale variabilità tra gli individui.

2.5 La forma media di riferimento

La forma media viene calcolata attraverso il prodotto di convoluzione C(~x)tra un’opportuna distribuzione D(~x) e la somma degli N template ti(~x).

C(~x) =∫

D(~y−~x) ∗N

∑i=1

ti(~y) d~y (2.1)

Per somma dei template si intende, nel caso di immagini digitali, la som-ma tra le matrici a essi associate. Un’operazione di questo tipo ha sensosolo se le immagini sono sovrapposte il meglio possibile e questo avvienetramite il processo di registrazione1.

La forma della distribuzione D(~x) non condiziona pesantemente il ri-sultato, poiché serve più che altro per stimare la dispersione spaziale deitemplate. In prima approssimazione, la distribuzione delle differenze volu-metriche tra gli organi nei diversi individui è stata assunta di tipo gaussiano.Pertanto sostituendo al posto di D(~x) una distribuzione G(~x) proporzionaleuna gaussiana tridimensionale, si definisce:

T(~x) =∫

G(~y−~x) ∗N

∑i=1

ti(~y) d~y (2.2)

come la gaussiana convoluta sulla somma dei template.Per capire come effettivamente si possa ricavare la forma media di una

famiglia di segnali a partire da un prodotto di convoluzione consideriamoun esempio unidimensionale. Nella figura 2.4 è riportato un grafico delprodotto di convoluzione c(x) tra una funzione gaussiana g(x) con mediaµ = 0 e deviazione standard σ = 1 e una funzione a gradino di Heavisideh(x).

1Per approfondimenti vedi Appendice A: Registrazione lineare di immagini digitali

2. Elaborazione dei dati I 21

Figura 2.4: Il prodotto di convoluzione c(x) (in viola) tra g(x) (in blu) e h(x) (inrosso) normalizzato a uno, interseca h(x) nei punti di ordinata 1

2 .

La funzione c(x), normalizzata a uno, interseca h(x) (che identifica unsegnale binario) nei punti di ordinata 1

2 , che è il valore a metà dell’ampiezzadel segnale considerato.

Supponiamo dunque di avere una famiglia di n funzioni del tipo:

Hn(x) = h(x)− h(x− xn)

caratterizzati diverse lunghezze xn e di voler identificare un segnale mediodi questa famiglia.

Si decide di ottenere la media a partire dal prodotto di convoluzioneC(x) della somma delle Hn(x) e una gaussiana g(x).

Il taglio a 12 di C(x) normalizzata a uno identifica, sull’asse x, la lun-

ghezza dell’ipotetico segnale medio mentre la sua altezza deve essere ne-cessariamente pari a uno poiché i segnali di partenza sono binari (Figura2.5).

Nel caso unidimensionale di semplici segnali si poteva calcolare banal-mente la media delle diverse x0 e ottenere un segnale medio, ma per formecomplesse tridimensionali questa tecnica può essere molto utile, soprattut-to quando si considerano forme non dotate di particolari simmetrie per lequali il calcolo classico della media risulta praticamente impossibile.

Per cui, nel caso tridimensionali delle maschere ippocampali, la formamedia 〈T〉 è il taglio a 1

2 del prodotto di convoluzione T(~x) normalizzato auno e reso in forma binaria da un’opportuna trasformazione B.

〈T〉 = B(T(~x)| 12) (2.3)

22 2. Elaborazione dei dati I

Figura 2.5: L’area evidenziata in azzurro rappresenta segnale medio ottenuto attra-verso un prodotto di convoluzione; la funzione somma delle Hn(x) (inrosso) è stata solamente graficata normalizzata a uno per evidenziarneil confronto con la distribuzione convoluta C(x).

In questo modo si ottiene una maschera della forma media i cui voxelvalgono uno dove è definito l’ippocampo medio e zero altrove proprio comeper le maschere ippocampali dei template ti.

L’importanza della forma media all’interno del test di consistenza, piùche rappresentare la popolazione dei template in modo rigoroso, è quella diservire da riferimento per l’estrazione di una variabile statistica in grado diclassificare gli ippocampi. La forma media è quindi un “ippocampo ideale”ricavato dalla serie dei template, ossia dalle uniche immagini che allo statoattuale sono valide dal punto di vista medico.

Le maschere ippocampali sono segnali binari tridimensionali finiti, per-tanto la forma del prodotto di convoluzione dipende anche dal valore dei σ

della gaussiana tridimensionale. Bisogna quindi stimare in maniera oppor-tuna la deviazione standard della distribuzione G(~x) utilizzata nel prodottodi convoluzione.

In prima approssimazione, per minimizzare i tempi di esecuzione del-l’algoritmo, si può utilizzare un’unica deviazione standard per G(~x). Si as-sume pertanto σ = σx = σy = σz, in questo modo, fissato il numero N deitemplate, la forma media dipende solo dalla scelta di σ.

L’idea è allora quella di calcolare una forma media a partire dalla 2.3 econfrontarla attraverso un test di similitudine con tutti i template utilizzandola seguente formula:

2. Elaborazione dei dati I 23

J (σ) =1N

N

∑i=1

ti ∩ 〈T(σ)〉ti ∪ 〈T(σ)〉 . (2.4)

Si calcolano una serie di 〈T(σ)〉 facendo variare σ in un dato intervallo esi sceglie come forma media quella ottenuta con il σ che massimizza J (σ).

Con un test di questo tipo si ottiene una forma media che è il più similepossibile a ogni template considerato singolarmente.

L’indice J (σ) della formula 2.4, che chiameremo indice di Jaccard adat-tato, rappresenta un’evoluzione dell’indice di Jaccard [16] che dà una misuradel grado di similarità di due insiemi A e B attraverso il rapporto tra la lorointersezione e la loro unione.

J(A, B) =A ∩ BA ∪ B

(2.5)

L’indice di Jaccard (2.5) è superiormente limitato da 1 (quando A ≡ B).Anche l’indice di Jaccard adattato è superiormente limitato da 1, ma un casodel genere si verifica solamente se tutti i template combaciano perfettamen-te tra loro, cioè se tutte le maschere ippocampali rappresentano lo stessooggetto.

Nella pratica, i valori massimi dell’indice di Jaccard adattato calcolato nelconfronto tra i template e 〈T(σ)〉 sono:

J (σ)|MAX ' 0.21 con σ = 0.4

per le maschere ippocampali dei template sinistri e:

J (σ)|MAX ' 0.18 con σ = 1

per le maschere ippocampali dei template destri.

In entrambi i casi, il rapporto è chiaramente diverso dal valore limite 1ma l’ordine di grandezza dei due valori ottenuti è lo stesso.

Questi risultati sono ragionevoli se si pensa che il confronto tra le im-magini avviene voxel per voxel, quindi le operazioni logiche della 2.4 sonoeffettuate, elemento per elemento, su matrici tridimensionali di numerositàmolto elevata.

Il grado di similitudine tra le immagini così calcolato è sensibile anche adifferenze molto piccole, dell’ordine del singolo voxel.

24 2. Elaborazione dei dati I

2.6 Il programma di estrazione della forma media

L’estrazione della forma media è un processo composto da più parti e glialgoritmi utilizzati possono essere scritti in linguaggi di programmazionediversi. Per utilizzarli in cascata e diminuire così notevolmente i tempi diesecuzione è stato utilizzato un metodo di programmazione a blocchi, lapipeline (conduttura) elaborata dal Laboratory Of Neuro Imaging (LONI) (Fi-gura 2.7) un ente di ricerca associato alla University of California, Los Angeles(UCLA) [17].

Parte degli algoritmi sono stati sviluppati utilizzando MATLAB R©, unlinguaggio di programmazione ad alto livello con un ambiente di calcolointerattivo per lo sviluppo di algoritmi, la visualizzazione e l’analisi dei datie il calcolo numerico. Questo strumento, grazie alla possibilità di utilizzareuna vasta gamma di funzioni preesistenti, permette uno sviluppo più velocedegli algoritmi rispetto ai linguaggi di programmazione tradizionali, comead esempio C, C++ e Fortran.

Per effettuare le operazioni introdotte nell’estrazione della forma media,le immagini di partenza devono essere sovrapposte tra loro il meglio pos-sibile attraverso una registrazione che mantenga invariate le caratteristichevolumetriche delle forme in esame.

Siccome gli oggetti di partenza sono descritti da matrici tridimensionali,l’allineamento delle immagini equivale a una trasformazione lineare che,nel caso generale, comporta una traslazione e una rotazione.

La registrazione lineare di immagini è il processo per determinare unatrasformazione spaziale T (~x) per confrontare due immagini digitali attra-verso il ricampionamento di un’immagine mobile m(~x) su una fissa f (~x),detta comunemente reference, attraverso un ciclo che si ripete fino al rag-giungimento della corrispondenza massima.

Per effettuare questa operazione è stato utilizzato un particolare pro-gramma di registrazione lineare, il Functional mri of brain Linear Image Regi-stration Tool (FLIRT) sviluppato dalla Functional mri of brain Software Library(FSL) dell’Università di Oxford [18].

Con la pipeline è stato possibile applicare alle immagini di partenza tuttequeste operazioni in maniera concatenata.

Nella figura 2.6 si può vedere uno schema esemplificativo dell’utilizzodella pipeline: il flusso logico dell’informazione viaggia da sinistra versodestra quindi i dati di input entrano nella conduttura, sono elaborati dal“BLOCCO I” che , per esempio, può essere un programma scritto nel lin-

2. Elaborazione dei dati I 25

Figura 2.6: Schema a blocchi esemplificativo dell’utilizzo della LONI pipeline.

guaggio di programmazione C++, sono successivamente trattati dal “BLOC-CO II”, che invece supponiamo sia un algoritmo sviluppato con MATLAB eper ultimo i file finali vengono salvati in una cartella di output.

Analizziamo adesso lo schema a blocchi dell’estrazione della forma me-dia attraverso la pipeline (Figura 2.7).

Figura 2.7: Schema a blocchi della pipeline per l’estrazione della forma media.

Seguendo il flusso logico della figura, i template e la reference, che è unoqualsiasi dei template e che serve come riferimento spaziale per la registra-zione lineare, vengono elaborate da una prima serie di algoritmi, il blocco“Curve” che calcola la curve di livello.

Questa operazione è fondamentale affinché la registrazione vada a buon

26 2. Elaborazione dei dati I

fine, infatti, la ricerca della corrispondenza massima tra due forme tridimen-sionali rappresentate da immagini di tipo binario può essere indeterminata,basti pensare al caso in cui i due oggetti siano contenuti l’uno dentro l’altro.

Le curve di livello sono ottenute attraverso una funzione di MATLAB,che si chiama bwdist, che assegna a ogni voxel non nullo un valore progres-sivo in funzione della distanza dal voxel nullo più vicino (Figura 2.8).

Figura 2.8: Esempio di maschera trattata col programma di calcolo delle curvedi livello, in questo modo le immagini possono essere registrate sullareference.

In questo modo si evidenziano le zone equidistanti ottenendo informa-zioni numeriche sulle caratteristiche tridimensionali della forma. Il pro-gramma di registrazione lineare ricava l’allineamento massimo delle im-magini in ragione della miglior corrispondenza tra le zone alle quali sonoassociati gli stessi livelli di grigio.

Successivamente le immagini vengono registrate sulla reference con il pri-mo blocco “FLIRT” che ricava la trasformazione che contiene le informazio-ni sulla rotazione e sulla traslazione da applicare a ogni immagine affinchéla corrispondenza con la reference sia massima. Le immagini così ottenutevengono scartate si salvano unicamente le matrici rototraslazionali T (~x).

Con un secondo blocco “FLIRT” si applica a ciascuna delle maschereippocampali dei template iniziali la trasformazione T (~x) corrispondente, inmodo che le immagini di input del blocco “Media” siano la rappresentazionebinaria di immagini opportunamente allineate.

Il blocco Media, seguendo il procedimento descritto nel precedente pa-ragrafo, estrae e salva sia la forma media di riferimento 〈T〉 (2.3) calcolatacon il σ che massimizza l’indice di Jaccard adattato, sia il prodotto di con-voluzione T(~x) (2.2) che, come vedremo, sarà utilizzato nel calcolo di unapossibile variabile per il test di consistenza.

Nella figura 2.9 si possono osservare a sinistra le due forme medie diriferimento delle strutture ippocampali di destra e di sinistra ricavate a par-

2. Elaborazione dei dati I 27

(a) (b)

(c) (d)

Figura 2.9: Ippocampo medio di sinistra (a) e di destra (c). Sovrapposizione di tredei 37 template registrati di sinistra (b) e destra (d).

tire dai 37 template per lato. A destra sono riportati due esempi visivi delleimmagini di tre template sovrapposte dopo il processo di registrazione.

2.7 Simulazione con scatole cubiche

È difficile capire attraverso un’analisi visiva delle maschere ippocampalidei template e della forma media da loro risultante, se l’algoritmo di estra-zione della forma media ha funzionato correttamente dal punto di vistaquantitativo.

Pertanto, per testare la correttezza del metodo di estrazione della formamedia sviluppato, è stato simulato il problema con immagini binarie raf-figuranti scatole cubiche, dello stesso formato informatico delle maschereippocampali e di dimensioni a esse confrontabili.

Sono state generate 100 scatole cubiche con spigolo 2l variabile estrattocasualmente utilizzando il seguente codice di MATLAB:

b=abs ( randn ( 1 ) ) ;

l =uint8 ( b∗5 +1) ;

28 2. Elaborazione dei dati I

dove b è il valore assoluto di un numero estratto casualmente da una distri-buzione normale con media 0 e deviazione standard 1 e l è la semiampiezzadello spigolo, calcolato moltiplicando per 5 il numero casuale b e somman-do 1 affinché l sia sempre diverso da zero; il comando “unit8” approssimail suo argomento all’intero più vicino. In questo modo il numero di voxelassociato allo spigolo di un cubo è intero ed è pari a 2l.

(a) (b) (c)

Figura 2.10: Esempi di scatole cubiche con spigolo casuale: (a) l=14 (b) l=6 (c) l=26.

In questa maniera, per ogni generazione (Figura 2.10) è possibile ricava-re il valore dello spigolo medio teorico 〈m〉 attraverso i valori di l che sonostati utilizzati.

Nella generazione di cubi da cui sono stati presi quelli della figura 2.10, ilvalore dello spigolo medio ottenuto direttamente con il calcolo della mediadei lati generati casualmente è 〈m〉 = 11.18.

Il set di cubi è generato in modo che essi siano centrati, così da non doverregistrare le immagini e provare direttamente l’efficienza dell’algoritmo diestrazione della forma media in un caso particolarmente semplice.

Il cubo medio di spigolo 〈M〉 viene quindi ottenuto attraverso l’algorit-mo contenuto nel blocco “Media” della pipeline utilizzata per le maschereippocampali.

Per confrontare il risultato ottenuto con il valore teorico, si estrae, con unopportuno algoritmo, lo spigolo della forma media 〈M〉.

Naturalmente, siccome le immagini dei cubi sono composte da voxel esono quindi a valori discreti, per lo spigolo della forma media ci si aspettaun valore intero.

Inoltre la forma media, calcolata secondo la (2.3) è resa binaria dalla tra-sformazione B, quindi a tutti i voxel che non sono nulli dopo aver effettuatoil taglio a 1

2 si associa il valore intero 1. Ciò significa che una lunghezza chesupera anche di poco un intero, viene approssimata all’intero successivo.

2. Elaborazione dei dati I 29

Ovviamente, invece che considerare appartenenti alla forma media tuttii voxel non nulli, si può fissare un valore critico superiore allo zero e quindipiù restrittivo. Nel caso delle maschere ippocampali si preferisce ottenereuna forma media che, al limite, sia sovrastimata di qualche voxel, in mododa apprezzare maggiormente la dispersione spaziale dei template, pertan-to questo criterio è stato applicato anche nel caso della simulazione con lescatole cubiche.

Nella generazione di scatole in esame è stato ottenuto un cubo mediodi spigolo 〈M〉 = 12, che è proprio il valore atteso, infatti è pari a 〈m〉approssimato non all’intero più vicino, ma a quello (n + 1)− esimo.

Alla luce di questi risultati, il metodo di estrazione della forma me-dia esposto sembra essere consistente ed è quindi stato applicato al casodegli ippocampi per ottenere un’immagine di riferimento su cui basare ilconfronto tra le maschere ippocampali.

CAPITOLO 3

Elaborazione dei dati II

3.1 Il classificatore

Nello scorso capitolo è stata ampiamente discussa l’estrazione della formamedia di riferimento, in questa sezione saranno analizzati, invece, alcunimetodi per ricavare un insieme di variabili, utili alla classificazione dellemaschere ippocampali, attraverso il confronto delle immagini con l’ippo-campo ideale.

Lo scopo del test di consistenza è quello di ottenere, per mezzo di unclassificatore, un sistema automatico per ottimizzare i parametri del pro-gramma di segmentazione. Per conseguire questo risultato bisogna svi-luppare uno strumento che, in primo luogo, sia in grado di distinguere unippocampo da una forma che palesemente si discosta da esso.

L’ipotesi fondamentale, punto di partenza di tutto questo lavoro, è cheesista una variabile descrittiva della forma tale che, la popolazione di im-magini che rappresentano un ippocampo e quella di immagini che non lorappresentano, risultino statisticamente separate.

Le forme segmentate dal programma automatico non possono essereconsiderate esatte dal punto di vista clinico; devono essere validate da unesperto neuroradiologo. Pertanto è impossibile affermare che una formasegmentata automaticamente rappresenta in maniera coerente un ippocam-po.

Ciò nonostante, tra le immagini ricavate dal programma di segmentazio-

32 3. Elaborazione dei dati II

ne, ne sono presenti molte riconducibili alla forma corretta, mentre alcunealtre sono molto dissimili da un ippocampo e possono essere consideratecome degli errori del processo di segmentazione, o più precisamente dei“non-ippocampi”.

L’estrazione delle HB a partire dalle immagini di risonanza magneticadi un’intera testa e la successiva analisi della forma dell’ippocampo è unprocedimento molto complesso. È quindi possibile che, in alcuni casi, glialgoritmi che estraggono la maschera ippocampale risultino poco efficaci.Quando ciò accade la forma ottenuta non rappresenta l’ippocampo conte-nuto all’interno della HB, bensì un oggetto vagamente sferico privo di si-gnificato dal punto di vista medico e che può quindi essere considerato unerrore del processo di segmentazione.

Attraverso un analisi visiva preliminare si possono suddividere le ma-schere ippocampali ottenute con il programma di segmentazione automati-ca in due diverse famiglie: gli ippocampi e i non-ippocampi. Questa classifi-cazione manuale è consistente poiché la differenza che intercorre tra un’im-magine che rappresenta correttamente un ippocampo e una delle formesegmentate in maniera scorretta è lampante (Figura 3.1).

(a) (b)

Figura 3.1: Esempio di un template (a) e un non-ippocampo (b): la differenza èchiara anche a un occhio inesperto.

La famiglia dei template, utilizzati nell’estrazione della forma media diriferimento, è invece quella che definisce la forma dell’ippocampo.

Complessivamente si possono quindi considerare tre diverse classi diimmagini, che identificano a loro volta tre differenti popolazioni statistiche:

• i template, maschere binarie di strutture ippocampali segmentate ma-nualmente da un neuroradiologo, quindi valide dal punto di vistaclinico, che rappresentano efficacemente la forma dell’ippocampo;

3. Elaborazione dei dati II 33

• gli ippocampi, maschere di strutture ippocampali segmentate trami-te il programma automatico, che devono essere validate dal punto divista clinico;

• i non-ippocampi, immagini in uscita dal programma automatico che,a causa di errori durante il processo di segmentazione, non sono pernulla assimilabili alla forma di un ippocampo.

Attraverso il classificatore è possibile studiare la popolazione degli ip-pocampi e ottimizzare i parametri di segmentazione in modo che le distri-buzioni di un’opportuna variabile associate alla famiglia degli ippocampi ea quella dei template siano il più simile possibile.

All’aumentare del grado di similitudine tra queste due distribuzioni au-menta la corrispondenza tra le forme segmentate automaticamente e quellevalide dal punto di vista clinico pertanto il classificatore è uno strumentoper valutare la consistenza di un modello di segmentazione.

Lo sviluppo del classificatore necessita di una nozione di distanza, ov-vero di una variabile statistica che contenga informazioni sul grado di si-milarità di due immagini in modo da poter distinguere le distribuzioni diprobabilità associate alle diverse classi.

Per prima cosa, quindi, bisogna elaborare un metodo per estrarre unavariabile in grado di descrivere le tre popolazioni attraverso il confrontodelle varie immagini con la forma media di riferimento 〈T〉 ottenuta tramitela 2.3 che rappresenta un ippocampo ideale.

Questa variabile deve essere pensata in modo da ottenere indicazioni sulgrado di similarità di una maschera ippocampale rispetto alla forma mediadi riferimento.

Nella fase di sviluppo del classificatore è sicuramente più immediatopartire da uno studio di comparazione tra i template e i non-ippocampi etrovare un insieme di variabili in grado di distinguere le due distribuzioniin modo statisticamente consistente.

Se le due popolazioni sono sufficientemente distinguibili, si può pensa-re di utilizzare questo metodo direttamente all’interno del programma disegmentazione automatica per la realizzazione di un filtro in grado di indi-viduare le forme segmentate in maniera scorretta. In questo modo si puòsegnalare la presenza di una maschera estremamente equivoca che può es-sere dovuta, per esempio, a una bassa qualità della RMI iniziale da cui èstata estratta la HB che rende inefficaci gli algoritmi di segmentazione.

34 3. Elaborazione dei dati II

3.2 Deformazione sulla maschera media

Una delle variabili statistiche che contengono informazioni sul grado disimilarità tra le immagini appartenenti alle diverse classi, è un’opportu-na definizione della distanza tra due superfici in uno spazio tridimensio-nale che valuti anche la possibilità che le due superfici in esame possanocompenetrarsi.

Il primo metodo pensato per ottenere questo tipo di informazione, quel-lo su cui inizialmente erano riposte le maggiori aspettative, è la deforma-zione delle immagini in studio sulla forma media di riferimento. I vettoridel campo di deformazione, o più semplicemente i loro moduli, fornisconouna stima della distanza, in termini spaziali, tra la maschera considerata el’ippocampo ideale anche nel caso in cui le due forme si intersecano (Figura3.2).

Figura 3.2: Azione dei vettori di deformazione della sezione sagittale di una ma-schera (in bianco) sulla forma media (in rosso) mentre la zona rosa rap-presenta la sovrapposizione delle due immagini; la figura è puramenteillustrativa.

Quest’operazione è possibile grazie a tecniche di registrazione non linea-re e di morphing.

Esistono molti software di registrazione non lineare, sviluppati da pro-fessionisti, che possono essere utilizzati quando si ha a che fare con questogenere di problematiche.

In questo caso è stato adoperato Functional mri of brain Non-linear Ima-ge Registration Tool (FNIRT) [19] uno strumento sviluppato dalla Functionalmri of brain Software Library (FSL) dell’Università di Oxford molto utilizza-to nell’analisi di immagini mediche che è l’analogo di FLIRT nel caso nonlineare.

La registrazione non lineare è molto complicata dal punto di vista in-formatico; occorre ricampionare più volte l’immagine da deformare sulla

3. Elaborazione dei dati II 35

reference anche attraverso l’elaborazione progressiva con particolari filtri di-gitali. Per far questo è necessaria una lunga fase di studio per ottimizzaretutti i parametri delle funzioni coinvolte e per capire quali tra le tante possi-bili scelte delle tecniche di interpolazione e degli algoritmi di deformazionesono più opportune.

L’applicazione dell’algoritmo di registrazione non lineare per deformarele maschere ippocampali sulla forma media non ha portato a una defor-mazione abbastanza marcata. Le maschere ippocampali, insomma, restanopraticamente immutate e in questo modo, dai vettori del campo di deforma-zione, non è possibile ottenere nessuna informazione sulla similarità con laforma media, poiché questi vettori risultano praticamente uguali per tuttele maschere.

Questo è successo principalmente perché i programmi di registrazio-ne non lineare sono pensati, generalmente, per agire su immagini grandi,cioè intere teste, mentre le maschere ippocampali sono composte da pochemigliaia di voxel e sono quindi troppo piccole.

Per questo motivo e a causa dell’eccessiva lunghezza dei tempi tecnicinecessari per il calcolo della registrazione non lineare, la strada del morphingè stata abbandonata ed è stato sviluppato un altro metodo per ottenere unavariabile distanza contenente l’informazione sul grado di similarità tra dueimmagini.

3.3 Differenza simmetrica

Vogliamo ottenere una variabile che contenga informazioni sul grado di si-milarità tra una maschera ippocampale e la forma media di riferimento eche sia al contempo efficiente dal punto di vista computazionale.

Consideriamo quindi due immagini bidimensionali A e B tra loro so-vrapposte e supponiamo di voler dare una stima sulla loro similitudine at-traverso una variabile che valuti la loro “distanza”. Una definizione di que-sta distanza è la differenza simmetrica [20] data dalla teoria degli operatori diinsieme.

In matematica, la differenza simmetrica A∆B di due insiemi è l’insiemeche contiene gli elementi che appartengono a uno solo dei due insiemi (Fi-gura 3.3) ed è definita come la differenza tra l’unione e l’intersezione deidue insiemi A e B considerati.

36 3. Elaborazione dei dati II

A∆B = (A ∪ B)− (A ∩ B) (3.1)

La differenza simmetrica è commutativa:

A∆B = B∆A

è associativa:

(A∆B)∆C = A∆(B∆C)

e vale anche la seguente proprietà:

(A∆B)∆(B∆C) = A∆C

che può essere intesa come l’analogo insiemistico della disuguaglianzatriangolare.

La differenza simmetrica, per queste sue proprietà, può essere considera-ta una buona definizione di distanza applicata al problema delle immaginidigitali.

Figura 3.3: Esempio grafico della definizione di differenza simmetrica tra duesuperfici A e B data dalla 3.1.

Applicando la definizione di differenza simmetrica al caso delle masche-re ippocampali si ottiene una nozione di distanza tra due superfici che siintersecano in uno spazio tridimensionale.

Quindi, una variabile statistica utile agli scopi del classificatore è la di-

3. Elaborazione dei dati II 37

stanza D(I) intesa come la differenza simmetrica tra una maschera qualsiasiI, appartenente a una delle classi, e l’ippocampo medio di riferimento 〈T〉 :

D(I) = 〈T〉∆ I = (〈T〉 ∪ I)− (〈T〉 ∩ I) (3.2)

In questo modo, allineando attraverso una registrazione lineare una ma-schera ippocampale qualsiasi e la forma media di riferimento, si possonoottenere delle informazioni quantitative sul loro grado di similarità.

Anche in questo caso è stata utilizzata la LONI pipeline per utilizzare incascata algoritmi elaborati con MATLAB e il programma di registrazione li-neare FLIRT, già adoperato nell’estrazione della forma media di riferimento.La figura 3.4 mostra lo schema a blocchi del calcolo della variabile differenzasimmetrica D(I).

Figura 3.4: Schema a blocchi della pipeline per l’estrazione della differenzasimmetrica tra l’immagine in studio e la forma media di riferimento.

Il flusso logico e le elaborazioni delle immagini sono molto simili a quellegià viste per l’estrazione della forma media.

Le maschere di input, passano attraverso il blocco “Curve”, che ricavale curve di livello, e vengono registrate sulla forma media di riferimento,che svolge quindi anche la funzione di reference, da un primo blocco FLIRT.Un secondo blocco FLIRT applica la matrice rototraslazionale alle immagi-ni di partenza, in modo che le operazioni insiemistiche per il calcolo dellavariabile D(I) siano effettuate su immagini binarie.

38 3. Elaborazione dei dati II

Il blocco “Diff+Curve” genera un’immagine associata a ogni maschera diinput calcolando la distanza D(I) tra la maschera in esame 〈T〉 e ne calcola lecurve di livello attraverso lo stesso algoritmo utilizzato dal blocco “Curve”,in modo da poter avere informazioni numeriche sulla distanza tra i diversivoxel.

Attraverso questa pipeline vengono quindi elaborate le maschere ippo-campali appartenenti alle famiglie dei non-ippocampi e dei template (Figura3.5) e le immagini in uscita sono da considerare come segnali tridimensio-nali che descrivono due popolazioni statistiche differenti.

(a) (b)

Figura 3.5: Esempi un template (a) e un non-ippocampo (b) trattate attraverso lapipeline per il calcolo della distanza D(I).

Questi due gruppi sono la base dati per il training del classificatore ein seguito saranno analizzati nel dettaglio gli strumenti statistici utilizzatinel tentativo di osservare efficacemente la separazione tra le distribuzioniassociate alle diverse classi.

3.4 Gaussiana convoluta sui template

Nell’ottica di ricerca di una variabile descrittiva della forma che sia nel con-tempo sensibile e di facile calcolo, abbiamo considerato un’altra variabileper ottenere informazioni riguardo al grado di similarità tra una masche-ra qualsiasi e la forma media: il valore della gaussiana convoluta sui tem-plate ottenuta tramite la (2.2) normalizzata a uno e calcolata sul bordo Bdell’immagine I in esame.

3. Elaborazione dei dati II 39

P(I) = T|B(I) (3.3)

Questa variabile, che per alleggerire la notazione chiameremo semplice-mente “perimetro”, è sicuramente meno intuitiva della differenza simme-trica, ma contiene comunque informazioni di similitudine, infatti, i valoriassociati ai voxel perimetrali appartenenti a forme simili calcolati in questomodo sono confrontabili.

Anche in questo caso, il calcolo di questa variabile è stato affidato allaLONI pipeline e il procedimento di elaborazione delle immagini è lo stessodella differenza simmetrica, a eccezione del blocco “Diff+Curve” che è so-stituito da un opportuno algoritmo, “Perimetro”, che estrae il segnale finaleattraverso la 3.3.

Per il calcolo del bordo B(I) della maschera in esame è stata utilizzatauna particolare funzione di MATLAB, bwperim, che a partire da immagi-ni bidimensionali binarie ne calcola il perimetro. In questo caso, quindi, iperimetri delle varie slice (fette) sovrapposte identificano la superficie dellamaschera ippocampale.

Tutte queste operazioni, come nel caso precedente, sono state applicatealle immagini appartenenti alle famiglie dei template e dei non-ippocampi(Figura 3.6).

(a) (b)

Figura 3.6: Esempi un template (a) e un non-ippocampo (b) trattati attraverso lapipeline per l’estrazione del perimetro P(I) calcolato secondo la 3.3.

A occhio nudo è difficile capire la differenza numerica tra i livelli di gri-gio associati ai voxel delle due immagini. Questa differenza emerge in mo-

40 3. Elaborazione dei dati II

do chiaro dagli istogrammi associati ai livelli di grigio dei voxel delle dueimmagini (Figura 3.7).

(a) (b)

Figura 3.7: Istogrammi dei livelli di grigio del perimetro di un template (a) e di unnon-ippocampo; i valori del non-ippocampo sono superiori, poiché es-sendo di dimensione minore è mediamente più vicino al massimo delladistribuzione convoluta T.

3.5 Le variabili statistiche

Le maschere ippocampali appartenenti alle diverse classi, elaborate secon-do le due metodiche illustrate negli scorsi paragrafi, costituiscono i segnalitridimensionali a cui applicare opportunamente un test statistico.

Sono matrici tridimensionali 70×90×70 (poco meno di 450000 elementi)composte quasi unicamente da zeri, a eccezione delle zone grige che assu-mono valori non nulli. Nelle immagini che raffigurano i perimetri e le diffe-renze simmetriche delle maschere ippocampali, al massimo poche migliaiadi voxel contengono valori non nulli.

Ogni immagine elaborata è stata quindi “srotolata” in un unico vetto-re a k componenti, dove k è il numero di voxel non nulli della mascheraippocampale considerata.

In ognuna delle componenti del vettore è quindi contenuto un valore diintensità di grigio che porta informazioni di distanza sul voxel associato.

Pertanto, alla fine del processo di elaborazione, a ogni immagine è as-sociato un vettore k-dimensionale contenente le variabili (relative o al peri-metro, o alla differenza simmetrica) che saranno utilizzate per uno studiostatistico di appartenenza.

3. Elaborazione dei dati II 41

Poiché le maschere ippocampali di partenza sono diverse tra loro, dinorma, il numero di componenti k sarà diverso da immagine a immagine.

MATLAB offre l’opportunità di utilizzare algoritmi preesistenti per l’u-tilizzo di molte tecniche statistiche di confronto tra distribuzioni, però i vet-tori contenenti i dati devono avere la stessa dimensione. Bisogna pertantoricampionare i vettori associati a ogni immagine, attraverso un’interpola-zione lineare, su un vettore di lunghezza prefissata; in questo caso è statoscelto di porre k = 500.

Quindi, in definitiva, da ciascuna delle due metodiche di estrazione del-le due variabili (perimetro e differenza simmetrica) si ricava un dataset sucui effettuare un’opportuna analisi statistica, composto da n vettori a 500componenti per ognuna delle classi in esame.

La fase di training del classificatore riguarda la scelta di una variabilestatistica che contenga informazioni sul grado di similarità di immagini bi-narie tridimensionali in grado di riprodurre efficacemente la classificazionevisiva.

Secondo l’ipotesi di base, le maschere ippocampali dei template e dei non-ippocampi identificano due popolazioni statistiche distinguibili, e i vetto-ri associati alla differenza simmetrica e al perimetro, se la scelta di questevariabili è stata efficace, devono riprodurre questa classificazione.

CAPITOLO 4

Analisi statistica I

4.1 Stima della densità di probabilità

Le maschere ippocampali delle famiglie dei template e dei non-ippocampisono state confrontate con la forma media attraverso i metodi descritti nelcapitolo precedente. Abbiamo a disposizione, pertanto, quattro insiemi divettori (otto se consideriamo le maschere destre e sinistre) che contengono levariabili (cioè i livelli di grigio). L’analisi statistica si basa sul confronto trai perimetri dei template e dei non-ippocampi e tra le differenze simmetrichedei template e dei non-ippocampi.

Si possono ricavare, per ciascuna delle due variabili, le distribuzioni diprobabilità dei livelli di grigio associate a ogni singolo vettore, ossia a ognisingola immagine, e le distribuzioni congiunte associate all’insieme dei vet-tori di un’intera famiglia, cioè quelle che rappresentano una classe di oggettinel suo complesso.

In questa fase di sviluppo del classificatore, si confrontano quindi ledistribuzioni che descrivono le forme che rappresentano efficacemente unippocampo e quelle che invece non lo rappresentano. Per riprodurre cor-rettamente la classificazione visiva preliminare le distribuzioni congiunteassociate alle due classi devono essere distinguibili.

Il calcolo delle densità di probabilità è stato effettuato attraverso un op-portuna funzione di MATLAB: ksdensity. Questo algoritmo, a partire da un

44 4. Analisi statistica I

insieme di dati, in questo caso i livelli di grigio contenuti nei vettori associatialle immagini elaborate, stima la densità di probabilità ad essi associata.

Questa funzione è stata utilizzata sulle matrici contenenti tutti i vettoriche descrivono una determinata famiglia di immagini, per ottenere la distri-buzione congiunta dei livelli di grigio associati a un’intera classe, oppuresu un solo vettore per ottenere la distribuzione dei livelli di grigio asso-ciati a una singola immagine. Poiché i livelli di grigio sono, per definizio-ne, maggiori di zero, la densità di probabilità deve essere ristretta a valoripositivi.

Consideriamo in primo luogo le distribuzioni congiunte associate alleclassi dei template e dei non-ippocampi che sono state ricavate a partire daivettori contenenti la variabile perimetro che è stata ottenuta secondo il pro-cedimento esposto nel paragrafo 3.4. Come si può notare dalla figura 4.1, ledue distribuzioni congiunte sono molto diverse tra loro.

(a) (b)

Figura 4.1: Grafici delle distribuzioni congiunte dei vettori associati alla variabiliperimetro delle maschere ippocampali delle strutture di sinistra (a) edestra (b).

Le distribuzioni congiunte sembrano quindi essere distinguibili in ma-niera statisticamente rilevante, anche se sono sovrapposte, la elevata diffe-renza tra la loro forma dovrebbe consentire la distinzione tra le due classi inmaniera accurata.

La figura 4.2 mostra invece i grafici dell’analisi dei vettori associati allavariabile differenza simmetrica (Paragrafo 3.3) tra la maschera in studio ela forma media di riferimento per le maschere ippocampali associate allestrutture di sinistra (a) e di destra (b).

In questo caso i grafici delle maschere degli ippocampi destri e sinistri

4. Analisi statistica I 45

(a) (b)

Figura 4.2: Confronto tra le distribuzioni congiunte della variabile differenza sim-metrica dei template e dei non-ippocampi per le strutture ippocampalidi sinistra (a) e di destra (b).

sono praticamente uguali il che porta a pensare che questa variabile, senzaulteriori elaborazioni, non sia molto significativa.

Molte componenti dei vettori, ottenuti dal calcolo delle curve di livel-lo sulla differenza simmetrica delle maschere con la forma media, hannovalore pari a uno. Questo succede perché l’algoritmo di MATLAB utilizza-to assegna a ogni voxel non nullo un valore progressivo in funzione delladistanza dal voxel nullo più vicino; pertanto nel caso in cui la differenzasimmetrica genera un’immagine “sottile” il valore uno è il più ricorrente ecopre tutte le altre informazioni statisticamente rilevanti come se fosse delrumore. Il risultato è che si perde ogni informazione di distanza contenutanei vettori.

Inserendo un treshold a uno, ovvero un filtro che considera soltanto lecomponenti dei vettori con valore maggiore di uno, si elimina il rumore e ilrisultato migliora notevolmente (Figura 4.3).

Dai grafici si può notare come la distribuzione dei template sia concentra-ta intorno a un unico valore, mentre quella dei non-ippocampi è multimo-dale. Questo significa che lo spessore medio della differenza simmetrica conla forma media è dell’ordine di un solo voxel per i template, mentre si osser-vano picchi anche a due o tre voxel per i non-ippocampi, come d’altra partesi evince dalla figura 3.5. Si ottengono quindi due distribuzioni congiuntecon caratteristiche molto differenti, in particolare la distribuzioni congiuntaassociata ai template è unimodale, mentre quella associata ai non-ippocampiè multimodale.

Anche nel caso della differenza simmetrica l’elevata diversità tra le due

46 4. Analisi statistica I

(a) (b)

Figura 4.3: Grafici delle distribuzioni delle differenze delle immagini di sinistra (a)e destra (b) dopo l’applicazione del treshold.

distribuzioni congiunte dovrebbe permettere una classificazione adeguata.

Per quantificare le informazioni ottenute attraverso lo studio delle distri-buzioni congiunte, si è utilizzato il test di Kolmogorov-Smirnov per confron-tare non solo i vettori appartenenti a famiglie diverse, ma anche quelli dellastessa classe.

4.2 Il test di Kolmogorov-Smirnov

Il test di Kolmogorov-Smirnov [22] è basato sulla statistica della seguente va-riabile:

D = supx|Fn(x)− Gm(x)|

dove −∞ < x < ∞ mentre Fn(x) e Gm(x) sono le funzioni di ripartizio-ne empiriche associate alle variabili aleatorie indipendenti X e Y rispettiva-mente.

Questo test viene usato per determinare se due campioni appartengonoalla stessa distribuzione teorica, che è proprio il genere di studio che servenel caso in esame.

Ogni vettore, preso singolarmente, può essere considerato un campionedi numerosità k = 500 di una delle distribuzioni congiunte appena ricavate.Attraverso il calcolatore si possono confrontare uno a uno i vettori delle dueclassi e vedere quanti e quali di questi appartengono alla stessa popolazioneo a due differenti popolazioni.

Ricordiamo che l’idea di base è che i template e i non-ippocampi identi-

4. Analisi statistica I 47

ficano popolazioni statistiche differenti, si può quindi formulare un’ipotesinulla H0, cioè che non vi siano differenze statistiche tra i vettori ottenuti apartire dai template e quelli ottenuti dai non-ippocampi, e un’ipotesi alterna-tiva H1 secondo la quale i campioni provengono invece da due distribuzionidistinte.

Ci si aspetta, applicando il test di Kolmogorov-Smirnov a tutti gli m vet-tori di una classe sugli n vettori dell’altra, che nella maggior parte dei casi sipossa rifiutare l’ipotesi nulla, ma in altri questa debba essere accettata, poi-ché, come si può vedere dalla figura 4.4, le distribuzioni di alcuni dei singo-li vettori appartenenti a una delle due classi possono essere relativamentesimili.

(a) (b)

Figura 4.4: (a) Grafico delle distribuzioni di sei template e sei non-ippocampi rela-tivi alla variabile differenza simmetrica. (b) Uno dei sei template e unodei sei non-ippocampi: la forma di queste due distribuzioni non è cosìdissimile.

Il risultato di questo test è stato che, contrariamente a quanto ci si aspet-tava, si rifiuta l’ipotesi nulla, con una percentuale bassissima (a volte ten-dente a zero) di errore, in tutti gli n×m casi.

Questo risultato non ha senso, poiché sia nel caso della differenza sim-metrica, sia nel caso dei perimetri, alcune distribuzioni associate ai sin-goli template e ai non-ippocampi sono relativamente simili, quindi l’ipote-si nulla, se viene rifiutata, deve essere rifiutata con un margine di errorerelativamente alto.

Se si applica il test ai due vettori la cui distribuzione di probabilità èriportata nella figura 4.4 (b) si rigetta l’ipotesi nulla con una probabilità dierrore dell’ordine di 10−22.

48 4. Analisi statistica I

Probabilità di errore di un ordine di grandezza così piccolo sono pocosignificative e addirittura si verificano più volte negli n×m casi.

Questo risultato ha quindi reso necessaria un’ulteriore analisi di control-lo, che è stata effettuata applicando il test di Kolmogorov-Smirnov a tutti ivettori appartenenti alla stessa classe.

In questo caso l’ipotesi nulla H0, ossia che i vettori appartenenti alla stes-sa classe siano campioni di un’unica popolazione, dovrebbe essere accettatanella maggior parte dei casi.

L’ipotesi nulla viene accettata in meno della metà dei casi e questo suc-cede in tutte le classi e, anche in questo caso, si riscontrano probabilità dierrore assurde, che sono dell’ordine di 10−6.

Attraverso l’utilizzo del test di Kolmogorov-Smirnov non si riescono a otte-nere informazioni quantitative sensate; questo è, almeno in parte, un proble-ma dovuto all’elevata numerosità campionaria ma, come vedremo, questorisultato è dovuto a motivazioni più sottili.

Prima di dubitare del presupposto fondamentale, cioè dell’esistenza dipopolazioni statistiche differenti per le varie tipologie di immagini, è sta-ta formulata un’ipotesi diversa legata alla natura stessa delle variabili: ilivelli di grigio che descrivono la posizione dei voxel di un oggetto rigidotridimensionale non sono indipendenti tra loro.

Ciò significa che le variabili statistiche sono dipendenti e che c’è correla-zione, pertanto un test statistico, su un insieme di dati di questo tipo, non ècorretto.

4.3 La correlazione tra le variabili

Una delle condizioni necessarie della maggior parte dei test di ipotesi è chele variabili statistiche siano indipendenti. La discrepanza tra i risultati otte-nuti con il test di Kolmogorov-Smirnov e i grafici delle densità di probabilitàassociate alle maschere ippocampali può essere spiegata proprio in questitermini.

Le componenti dei vettori ottenuti fino a ora sono correlate, almeno par-zialmente, tra loro, poiché fondamentalmente sono frazioni di oggetti rigiditridimensionali.

Sia nel caso della differenza simmetrica che nel caso del perimetro, ilvalore di un voxel è legato a quelli vicini pertanto le variabili statistiche nonsono indipendenti (Figura 4.5).

4. Analisi statistica I 49

Figura 4.5: Particolare di una maschera ippocampale elaborata: i valori di grigiodei voxel vicini sono dipendenti.

Questo è particolarmente evidente nel caso della differenza simmetrica,infatti le immagini sono trattate con la funzione che calcola le curve di livel-lo e che, come detto, assegna un valore progressivo a ogni voxel non nulloin funzione della sua distanza dallo zero più vicino. Di conseguenza, sea un voxel viene assegnato un certo valore, i suoi vicini sullo stesso pianoavranno un valore che è correlato a quello del voxel in esame. Consideria-mo a titolo di esempio la matrice a, che schematizza un’immagine binariabidimensionale, e la matrice b = bwdist(a).

a =

0 0 0 0 0 00 1 1 0 0 00 1 1 1 1 00 1 1 1 1 00 1 1 1 1 00 0 0 0 0 0

b =

0 0 0 0 0 00 1 1 0 0 00 1

√2 1 1 0

0 1 2 2 1 00 1 1 1 1 00 0 0 0 0 0

Consideriamo l’elemento di posizione (4,3) a cui è assegnato il valore 2.

In un caso simile, gli elementi attigui possono assumere soltanto un valorenecessariamente pari a 2, 1 o

√2, pertanto non sono indipendenti.

Uno dei presupposti fondamentali nella maggior parte delle analisi sta-tistiche è che le variabili siano indipendenti quindi, nella situazione attuale,è impossibile avvalersi correttamente di un test standard.

Per risolvere questo tipo di problematiche, esiste una particolare tecnicastatistica, l’ Analisi delle Componenti Principali (PCA) che sfrutta, essenzial-mente, la diagonalizzazione della matrice associata alle covarianze dei datiriducendo le variabili a un insieme di vettori indipendenti; in questo modoè possibile effettuare una trattazione statistica consistente.

Nel prossimo capitolo saranno elaborati i dati con questa particolaretecnica statistica e saranno mostrati gli ottimi risultati che si raggiungonoattraverso un’analisi coerente delle variabili.

CAPITOLO 5

Analisi statistica II

5.1 Analisi delle Componenti Principali

L’Analisi delle Componenti Principali [21] (PCA) risponde all’esigenza di rap-presentare un fenomeno k-dimensionale tramite un numero inferiore o ugua-le a k di variabili non correlate tra loro, ottenute attraverso una trasforma-zione di coordinate.

Tale tecnica consiste nell’individuare delle combinazioni lineari delle va-riabili inizialmente osservate, non correlate tra loro e con varianza massima.

Consideriamo un universo campionario X in cui si studiano n osserva-zioni indipendenti attraverso k variabili.

X =

x11 x12 . . . x1k

x21 x22 . . . x2k

. . . . . . . . . . . . . . . . . . .xn1 xn2 . . . xnk

Nel nostro caso n corrisponde al numero di immagini e k al numero di

componenti1 dei vettori ricavati dall’elaborazione delle maschere ippocam-pali a cui sono associati determinati livelli di grigio.

Pertanto una riga della matrice rappresenta un immagine di cui sono sta-ti considerati k voxel secondo le metodologie descritte negli scorsi capitoli.

Si definisce prima componente principale il vettore a varianza massima

1Si ricorda che era stato posto k = 500 per avere tutti i vettori della stessa dimensione.

52 5. Analisi statistica II

y1 a k componenti in cui la generica componente yi1 è una combinazionelineare delle xk variabili osservate:

yi1 = e11xi1 + e21xi2 + · · ·+ ek1xik =k

∑j=1

ej1xij

dove i = 1, 2 . . . n. Si può quindi scrivere:

y1 = Xe1

avendo definito e1 come il vettore dei coefficienti della combinazionelineare.

Si può dimostrare che:

var(y1) = e1T S e1

dove S è la matrice delle covarianze delle variabili xk.

Affinché il vettore dei coefficienti sia quello che rende massima la va-rianza di y1 deve essere imposto il vincolo:

var(y1) = e1T S e1 ≡ max

e1T S e1 ≡ 1

Risolvendo si ottiene che var(y1) = λ1 massimo autovalore della matriceS a cui è associato l’autovettore e1.

Il procedimento può essere ripetuto, fino a un massimo di k volte nelcaso di indipendenza lineare di tutte le variabili osservate direttamente,definendo una generica componente principale:

yj = Xej

in tal modo si ottiene var(yj) = λj, j-esimo autovalore associato all’au-tovettore ej della matrice S.

Pertanto varrà la relazione:

var(y1) = λ1 ≤ var(y1) = λ1 ≤ · · · ≤ var(yj) = λj

Di norma si sceglie il numero r di componenti principali in modo che ilrapporto R tra la somma delle prime r varianze e la somma delle varianzedi tutte le componenti principali sia superiore all’80%.

5. Analisi statistica II 53

R =

r

∑i=1

var(yi)

∑ var(yi)≥ 0.8 (5.1)

Nel nostro caso, come vedremo, basterà solamente la prima componenteprincipale per separare le distribuzioni dei template e dei non ippocampi inmaniera ottimale.

Consideriamo a titolo di esempio, un caso bidimensionale di due classidi dati ω1 e ω2 (Figura 5.1).

Figura 5.1: Esempio grafico di separazione di due classi attraverso l’analisi dellecomponenti principali.

Le due classi, raffigurate nello spazio delle variabili osservate diretta-mente x1 e x2 non sono ben distinguibili mentre attraverso l’analisi del-le componenti principali si effettua una rotazione degli assi e si ricava laproiezione sull’asse y1 con varianza massima.

In conclusione, l’idea di base del metodo PCA è quindi quella di ope-rare un cambio di variabili, cioè un cambio di base nello spazio vettorialedi dimensione k, che si traduce in una rotazione della nuvola ellissoidaleassociata ai dati in modo da poterla vedere dall’angolazione migliore.

5.2 Trattamento dei dati con la PCA

I vettori associati alle classi dei template e dei non-ippocampi sono statitrattati attraverso la PCA e i risultati ottenuti sono decisamente migliori.

54 5. Analisi statistica II

Figura 5.2: Proiezione delle distribuzioni congiunte della variabile differenza sim-metrica dei template e dei non-ippocampi di strutture sinistre sui primiquattro assi principali; la proiezione sul primo asse è la più significativa.

Dopo aver ricavato le componenti principali sono state calcolate le pro-iezioni delle distribuzioni congiunte sui primi quattro assi principali da cuiè stato verificato che, in tutti i casi, la proiezione sul primo asse principaleè la più significativa ed è sufficiente per ottenere un’ottima classificazione,come si può notare dalla figura 5.2.

D’ora in avanti, pertanto, verranno considerate le proiezioni sul primoasse principale delle distribuzioni congiunte dei template e dei non-ippocampi.

Il problema non riguarda più lo studio delle distribuzioni dei singolivettori, ma la proiezione unidimensionale sul primo asse principale delledistribuzioni congiunte, ciò significa che, dopo la PCA, a un’immagine èassociato un unico valore sull’asse principale a varianza maggiore del nuo-vo sistema di riferimento. Lo studio di appartenenza a una classe diventaun problema legato alla separazione tra le distribuzioni congiunte associatealle diverse famiglie.

Nel caso in cui si sia interessati a studiare una nuova immagine, bi-sogna proiettare la distribuzione del vettore a essa associata sulla primacomponente principale calcolata nella fase di sviluppo e valutare la suaappartenenza a una delle due classi.

5. Analisi statistica II 55

(a) (b)

Figura 5.3: Densità di probabilità dei vettori differenza trattati con la PCA associatialle strutture ippocampali di sinistra (a) e di destra (b).

Come si può notare dai grafici riportati nella figura 5.3 la separazionetra le distribuzioni di probabilità delle differenze dei template e dei non-ippocampi è ottimale.

La presenza di valori negativi sull’asse principale non stupisce, poichédopo la PCA le nuove variabili adimensionali sono una proiezione ortogo-nale, quindi non sussiste nessuna restrizione a valori positivi.

Alla luce dei grafici ottenuti, la differenza sembra quindi un buon in-dicatore per discriminare le due classi. Prima di applicare il classificato-re allo studio dei parametri di segmentazione, bisogna, per completare lafase di sviluppo, quantificare questa distinzione attraverso un opportunostrumento statistico.

Anche nel caso dei perimetri i risultati dopo l’analisi delle componentiprincipali e la proiezione delle distribuzioni congiunte sull’asse principalea varianza massima migliorano notevolmente (Figura 5.4).

La separazione tra le distribuzioni è, anche in questo caso, molto buo-na ma comunque minore rispetto a quanto visto nel caso della differenza,pertanto, anche se di poco, è meno significativa.

La variabile differenza, anche dal punto di vista intuitivo, racchiude piùinformazioni sulla diversità tra due oggetti tridimensionali. Attraverso laregistrazione le immagini vengono sovrapposte e si riesce, in questo mo-do, a esaminare tutto il volume che le due immagini non hanno in comuneandando a considerare il singolo voxel.

Questo metodo, anche se meno sofisticato rispetto al morphing (Paragrafo3.2) si è rivelato abbastanza potente da separare le popolazioni in modo piùche soddisfacente.

56 5. Analisi statistica II

(a) (b)

Figura 5.4: Densità di probabilità dei vettori perimetro trattati con la PCA associatialle strutture ippocampali di sinistra (a) e di destra (b).

5.3 Test diagnostici

Nell’attività diagnostica un test rappresenta un elemento fondamentale nelprocesso decisionale volto a confermare (o a escludere) la presenza di unadeterminata malattia già sospettata in base ai dati clinici.

Un test diagnostico è quindi una serie di procedure più o meno comples-se allo scopo di verificare un’ipotesi [23].

Se si vogliono ottenere informazioni quantitative, occorre individuaresulla scala di lettura un valore di cut off, cioè una soglia, che discrimini irisultati da dichiarare “positivi” da quelli “negativi”. Ciò consente di cate-gorizzare in positivi e negativi la gamma di tutti possibili risultati indivi-duando due differenti popolazioni statistiche.

Il problema di base che genera incertezza nell’interpretazione di un testrisiede nel fatto che, nella grande maggioranza dei casi, esiste una zona disovrapposizione fra le distribuzioni.

Figura 5.5: Distribuzione degli esiti di un ipotetico test nelle classi di individuimalati e non malati, senza sovrapposizione inter-classe.

5. Analisi statistica II 57

Se i valori associati alle due popolazioni fossero completamente separati(Figura 5.5) allora sarebbe facile individuare sulle ascisse il valore di cut offcapace di discriminare con precisione assoluta le due popolazioni.

Nella pratica si verifica sempre una sovrapposizione più o meno ampiadelle due distribuzioni (Figura 5.6) ed è perciò impossibile individuare sulleascisse un valore di cut off che consenta una classificazione perfetta, ossiatale da azzerare sia i falsi positivi che i falsi negativi.

Figura 5.6: Distribuzione degli esiti di un ipotetico test nelle classi di individuimalati e non malati, con sovrapposizione tra le due classi.

Per esempio, se il test rappresenta il risultato di un esame diagnostico peruna certa patologia, la capacità discriminante, o validità, del test a un deter-minato valore di cut off rappresenta la capacità di condurre a una diagnosipositiva nei soggetti affetti da una determinata malattia e a una diagnosinegativa nei soggetti non ammalati.

Essa può essere valutata attraverso una semplice tabella di contingenza(Tabella 5.1) confrontando il risultato fornito dal test in esame con il verostato dei pazienti. Quest’ultimo può essere già noto in partenza, oppurepuò essere stabilito per mezzo di un esame di referenza ad alta attendibilitàe che può essere considerato, in linea teorica, un test perfetto.

Tabella 5.1: Tabella di contingenza

Malato Non Malato

Positivo a bNegativo c d

Il confronto fra i risultati del test in esame e l’autentico stato di ogni in-dividuo consente di stimare due importanti parametri: la sensibilità (Se)

58 5. Analisi statistica II

ossia la probabilità che un malato risulti positivo al test e la specificità (Sp)definita come la probabilità che un individuo sano risulti negativo al test.

Se =a

(a + c)Sp =

d(d + b)

Nel campo dell’epidemiologia clinica, quando un test viene utilizzatoa scopo diagnostico, risultano più interessanti altri due parametri e cioè ilvalore predittivo di un test positivo (o valore predittivo positivo, VP+) ed ilvalore predittivo di un test negativo (o valore predittivo negativo, VP−).

Contrariamente a sensibilità e specificità, che esprimono la probabilitàche il test risulti corretto a priori, questi due parametri rappresentano in-vece una probabilità a posteriori, poiché individuano, a fronte di un certorisultato del test, la probabilità che il paziente in questione sia realmenteprovvisto (o meno) del carattere ricercato.

In particolare, VP+ indica la probabilità che quando un test risulta posi-tivo, l’individuo sia effettivamente ammalato, viceversa, VP- indica la pro-babilità che quando un test risulta negativo l’individuo sia effettivamentesano. Questi parametri possono quindi essere stimati, rispettivamente, dal-la proporzione di veri positivi sul totale dei positivi al test (VP+) e dallaproporzione di veri negativi sul totale dei negativi al test (VP−).

VP+ =a

(a + b)VP− =

d(d + c)

È facile verificare, osservando ad esempio la figura 5.6, che sensibilità especificità sono fra loro inversamente correlate in rapporto alla scelta del va-lore di cut off. Infatti, modificando quest’ultimo si può ottenere o l’aumentodella sensibilità e diminuzione della specificità, o viceversa.

Si può dimostrare che, quando la distribuzione dei valori nelle due clas-si, malati e non malati, è di tipo normale, la soglia discriminante ottimale,ossia il valore di cut off che minimizza gli errori di classificazione, è pari alvalore in ascissa corrispondente al punto di intersezione delle due distri-buzioni. Tuttavia, la scelta del cut off può non essere dettata soltanto daconsiderazioni di ordine probabilistico volte a minimizzare la proporzionedi classificazioni errate, ma è necessario basarsi anche sul prevedibile im-patto di tipo sanitario, economico, o sociale di ciascuno dei due tipi di erroridi classificazione (falsi positivi e falsi negativi).

Ad esempio, per malattie ad alta contagiosità potrebbe essere opportunominimizzare la quota di falsi negativi, e quindi privilegiare la sensibilità a

5. Analisi statistica II 59

scapito della specificità. Viceversa, in altre situazioni (per esempio malattienon contagiose, trattabili soltanto con una terapia molto costosa) il prezzodi un falso positivo sarà verosimilmente superiore rispetto a quello di unfalso negativo, e quindi il cut off verrà determinato in modo da privilegiarela specificità.

La gamma di problematiche ora accennate, può essere affrontata attra-verso l’analisi della curva ROC (Receiver Operating Characteristic o Relati-ve Operating Characteristic) una tecnica nata per lo studio del rapporto trasegnale e rumore e da molto tempo particolarmente utilizzata nel settoremedico.

L’analisi ROC viene effettuata attraverso lo studio della funzione chelega la probabilità di ottenere un risultato vero positivo nella classe deimalati-veri (ossia la sensibilità) alla probabilità di ottenere un risultato falso-positivo nella classe dei non-malati (ossia 1-specificità). La scelta di con-siderare queste variabili per graficare la curva ROC dipende dal fatto chesensibilità e 1-specificità sono direttamente proporzionali.

La relazione tra i suddetti parametri può venire raffigurata attraversouna linea che si ottiene riportando la proporzione di veri positivi in ordinatae la proporzione di falsi positivi in ascissa. Se il risultato del test è riportatosu scala continua, si possono calcolare i valori di sensibilità e 1-specificitàper ogni valore registrato.

L’unione dei punti ottenuti riportando nel piano cartesiano ciascuna cop-pia (Se) e (1-Sp) genera una curva spezzata con andamento a scaletta (ROCplot). Per interpolazione, è possibile eliminare la scalettatura (smoothing)ed ottenere una curva (ROC curve) che rappresenta una stima basata suiparametri dei dati sperimentali (Figura 5.7).

La capacità discriminante di un test, ossia la sua attitudine a separarepropriamente la popolazione in studio in “malati” e “non malati” è propor-zionale all’estensione dell’area sottesa alla curva ROC, la Area Under Curve(AUC).

Il valore massimo dell’area AUC è 1 e si ottiene nel caso di un test cheha una capacità discriminante del 100%, ossia un test che ha classificatocorrettamente tutti gli individui appartenenti alle due classi.

Tale caso limite corrisponde a una distribuzione completamente separatadella variabile nei due gruppi a confronto (Figura 5.5). L’area sottesa dallacurva ROC limite è l’area del quadrato di lato 1.

Quanto più l’area sottesa dalla curva ROC tende a 1 tanto maggiormente

60 5. Analisi statistica II

Figura 5.7: Esempio di una curva ROC

sono separate le distribuzioni delle due classi a confronto. Più l’area sotto lacurva diminuisce, più la distribuzione della variabile si sovrappone nei duegruppi.

La curva ROC per un test assolutamente incapace di distinguere le dueclassi è rappresentata dalla diagonale che passa per l’origine, con AUC=1

2 .In questo caso la distribuzione della variabile è completamente sovrappostanei due gruppi.

Per quanto riguarda l’interpretazione del valore di AUC, si può tenerepresente una classificazione della capacità discriminante di un test basata sucriteri largamente soggettivi che avviene secondo lo schema seguente:

• AUC=0.5 test non informativo

• 0.5<AUC≤0.7 test poco accurato

• 0.7<AUC≤0.9 test moderatamente accurato

• 0.9<AUC<1.0 test altamente accurato

• AUC=1.0 test perfetto

L’incertezza sull’area di una curva ROC può essere stimata dalla seguen-te formula:

5. Analisi statistica II 61

σ2AUC =

AUC · (1− AUC) + (n1 − 1) · (Q1 − AUC2) +n1 · n2

+ (n2 − 1) · (Q2 − AUC2)n1 · n2

(5.2)

ove n1 e n2 rappresentano la numerosità dei due gruppi a confronto, eQ1 e Q1:

Q1 =AUC

2− AUCQ2 =

2AUC1 + AUC

A livello clinico, capita spesso che siano a disposizione due (o più) test,basati su tecniche o principi differenti, per diagnosticare la stessa malattia eche quindi sia necessario uno studio statistico per comprendere quale sia ilpiù efficace.

Si può pensare di confrontare due test tra di loro comparando le areesottese alle corrispondenti curve ROC (Figura 5.8).

Figura 5.8: Confronto tra due test diagnostici mediante analisi ROC. Risulta eviden-te la superiorità del test A la cui curva ROC teorica si trova interamenteal di sopra di quella corrispondente al test B.

In questo modo, avvalendosi per esempio dell’indice AUC, si possonofornire risultati di tipo quantitativo; il test che possiede una capacità discri-minante superiore sarà quello la cui AUC è superiore, ossia più vicina a1.

62 5. Analisi statistica II

L’analisi delle curve ROC si è dimostrata particolarmente utile nello stu-dio delle maschere ippocampali, poiché i problemi di classificazione sonomolto simili a quelli legati ai test diagnostici.

Il riconoscimento di un oggetto tridimensionale può essere associato alrisultato di un test di tipo aut-aut e la potenza di questo strumento è tan-to maggiore quanto la capacità di classificazione è accurata, il che avvieneminimizzando il numero di falsi positivi e di falsi negativi.

5.4 Training del classificatore

Consideriamo quindi il caso delle maschere ippocampali: nella fase di svi-luppo in cui si confrontano i template con i non-ippocampi si tenta di otte-nere una curva ROC con AUC ' 1 in modo che le due distribuzioni sianocompletamente separate; nella fase di test sui parametri della segmentazio-ne in cui si confrontano i template con gli ippocampi ottenuti, il risultatoideale è una curva ROC con AUC ' 1

2 cioè il caso in cui le due distribuzionisono completamente sovrapposte.

Figura 5.9: Box plot e curva ROC dei vettori differenza trattati con la PCA associatialle strutture ippocampali di sinistra per le classi dei template e dei non-ippocampi.

Nella figura 5.9 sono stati riportati i grafici della curva ROC e dei box

5. Analisi statistica II 63

plot2 associati alla variabile differenza simmetrica per le classi dei template edei non-ippocampi di strutture ippocampali sinistre.

Nel caso della differenza simmetrica i box plot associati alle due classisono completamente separati e, calcolando l’indeterminazione3 sulla AUCattraverso l’equazione 5.2 si ottiene:

AUC = 0.99± 0.03

la distinzione tra le distribuzioni è quasi perfetta.

Nella figura 5.10 sono invece riportati i grafici della curva ROC e deibox plot associati alla variabile perimetro per le classi dei template e dei non-ippocampi di strutture ippocampali sinistre.

Figura 5.10: Box plot e curva ROC dei vettori perimetro trattati con la PCA associatialle strutture ippocampali di sinistra per le classi dei template e dei non-ippocampi.

2Un box plot è una raffigurazione semplice e schematica di una distribuzione molto usa-ta nella statistica descrittiva. Nel rettangolo centrale sono contenuti il 50% dei dati ed èindicata la mediana della distribuzione con un segmento orizzontale. I segmenti verticalidanno una stima della dispersione in modo che tra l’apice superiore e inferiore si compreso,complessivamente il 95% dei dati. I valori anomali al di fuori di questa zona sono indicaticon un asterisco.

3L’area sotto la curva ROC è superiormente limitata a 1, pertanto l’errore deve esse-re inteso come una stima dell’incertezza con cui l’area è conosciuta, in funzione dellanumerosità campionaria

64 5. Analisi statistica II

Nel caso del perimetro i box plot non sono completamente separati e siha:

AUC = 0.98± 0.03

la separazione è leggermente minore, ma comunque molto buona. Gra-zie all’utilizzo della PCA è possibile effettuare una classificazione estrema-mente accurata sia nel caso della differenza simmetrica, sia nel caso delperimetro.

I risultati ottenuti4 sono straordinariamente buoni, però non va dimen-ticato che il numero di immagini considerate per ogni classe non è moltoelevato (n = 37) e che i non-ippocampi sono stati scelti appositamente, trale forme sintetizzate dal programma di segmentazione automatica, in modoche fossero il più diversi possibili da un qualsiasi template.

La fase di training del classificatore è rivolta principalmente alla ricer-ca di una variabile in grado di descrivere questi oggetti tridimensionali e irisultati ottenuti sono da intendere in questo senso.

Le due variabili dedotte permettono di distinguere un ippocampo dauna forma qualsiasi attraverso considerazioni statisticamente consistenti;in particolar modo la differenza simmetrica sembra racchiudere il maggiornumero di informazioni spaziali.

5.5 Il test di consistenza

Attraverso la fase di sviluppo del classificatore sono state individuate duevariabili per confrontare la forma delle strutture ippocampali.

Tra le maschere estratte dal programma di segmentazione automaticaerano state individuate, attraverso un’analisi visiva preliminare, due diver-se famiglie: gli ippocampi e i non-ippocampi.

La definizione della popolazione dei non-ippocampi era stata relativa-mente semplice, poiché la differenza tra un’immagine appartenente a que-sta famiglia e un template è molto marcata.

Le altre immagini, cioè la famiglia degli ippocampi, non possono essereconsiderate corrette dal punto di vista clinico senza la validazione da partedi un neuroradiologo.

4I grafici e i risultati numerici delle analisi sulle strutture ippocampali destre e sinistresono molto simili, quindi si è preferito riportare solamente quelli di sinistra.

5. Analisi statistica II 65

La famiglia degli ippocampi comprende quindi tutte le forme segmen-tate automaticamente, fatta eccezione di quelle palesemente inconsistentiche sono state raggruppate nella famiglia dei non-ippocampi. All’interno diquesta popolazione sono quindi presenti molte immagini ragionevolmenteavvicinabili ai template e alcune altre ambigue, ma non abbastanza dissimilida una struttura ippocampale da essere catalogate come non-ippocampi.

Si può comunque tentare di rendere il più simile possibile dal punto divista statistico la famiglia degli ippocampi a quella dei template, cercando diminimizzare il numero di forme ambigue attraverso una scelta opportunadel modello di segmentazione.

È però impensabile che questa scelta possa essere effettuata attraversoun’analisi visiva, sia perché in questo modo le differenze tra le immaginiottenute con i diversi modelli, che possono essere dell’ordine del voxel, nonsono facilmente apprezzabili, sia perché il numero dei dati è elevato.

Il confronto, per mezzo del classificatore, tra la famiglia dei template equella degli ippocampi è un metodo per accertare l’efficacia dei parametridegli algoritmi coinvolti nella segmentazione automatica.

All’aumentare della sovrapposizione delle due distribuzioni migliora lacorrispondenza tra la popolazione degli ippocampi e quella dei template.

Si possono effettuare diversi cicli del programma automatico con diversiparametri di segmentazione in modo da ottenere una serie di famiglie del ti-po ippocampi. Attraverso il classificatore si studia l’area sottesa dalla curvaROC e si sceglie il modello che la minimizza.

Quindi, se la variabile utilizzata è un buon indicatore delle caratteristi-che spaziali della struttura ippocampale, il classificatore è uno strumento dicontrollo sulla consistenza del programma di segmentazione automatica.

Allo stato attuale dello sviluppo del programma di segmentazione au-tomatica, è stato utilizzato un unico modello dell’algoritmo di segmenta-zione, pertanto è impossibile fornire una serie di analisi di prova rivolteall’ottimizzazione dei parametri.

L’efficacia del test di consistenza è stata comunque verificata attraver-so l’analisi di due ulteriori sottopopolazioni estratte dalla famiglia degliippocampi.

66 5. Analisi statistica II

5.6 Verifica del classificatore

Come è già stato detto, la famiglia degli ippocampi è composta da tuttele immagini ottenute con il programma di segmentazione eccetto quelleparticolarmente diverse dai template, i non-ippocampi.

Questo gruppo comprende, per la maggior parte, immagini paragona-bili ai template e una serie di forme ambigue, ma non abbastanza da essereconsiderate non-ippocampi (Figura 5.11).

(a) (b)

Figura 5.11: Esempio di un ippocampo ambiguo (a) e un ippocampo non ambiguo(b).

Il grado di similitudine tra la famiglia dei template e quella degli ippo-campi dipende, in prima approssimazione, dal numero di immagini am-bigue. Una famiglia di ippocampi riproduce meglio la distribuzione deitemplate al diminuire del numero di forme sospette.

Si può quindi simulare l’utilizzo del classificatore come ottimizzatoredei parametri di segmentazione confrontando due sottopopolazioni dellafamiglia degli ippocampi destri e valutando quale delle due si sovrapponemaggiormente ai template.

Consideriamo quindi la popolazione degli ippocampi-B che non è altroche la stessa famiglia degli ippocampi privata delle immagini più ambiguee la famiglia degli ippocampi-A, un campione casuale della famiglia degliippocampi di numerosità pari a 20, cioè la stessa degli ippocampi B.

Queste rappresentano due insiemi di immagini elaborate per mezzo didue diversi modelli di segmentazione e supponiamo, per esempio, che glialgoritmi utilizzati per ricavare la popolazione degli ippocampi-B siano un’e-

5. Analisi statistica II 67

voluzione più sofisticata di quelli con cui sono stati elaborati gli ippocampi-A.

Il procedimento è uguale a quello seguito nella fase di training del clas-sificatore: bisogna però confrontare contemporaneamente le quattro classi:i template, gli ippocampi-A, gli ippocampi-B e i non-ippocampi. Per comeè strutturata la PCA, infatti, la matrice associata agli ippocampi-A e ai tem-plate non è uguale alla matrice associata agli ippocampi-B e ai template né equella associata ai template e ai non-ippocampi.

L’analisi delle componenti principali deve essere eseguita contempora-neamente su tutti i vettori delle quattro popolazioni interessate, infatti laforma della distribuzione congiunta di una classe può variare nel confron-to con classi diverse, poiché matrici diverse, a priori, hanno autovalori eautovettori differenti.

Pertanto le componenti principali devono essere determinate conside-rando, nel suo complesso, tutto l’insieme dei dati in studio.

La verifica del classificatore è stata eseguita quindi attraverso lo studiodelle quattro popolazioni: gli ippocampi-A, gli ippocampi-B, i template e inon-ippocampi, sfruttando le variabili ricavate dalla differenza simmetricacon la forma media di riferimento.

Dai vettori opportunamente trattati con la PCA sono state ricavate ledistribuzioni congiunte delle densità di probabilità (Figura 5.12).

(a) (b)

Figura 5.12: (a) Confronto tra le sovrapposizioni delle densità di probabilità con itemplate degli ippocampi-A e degli ippocampi-B, si può notare l’evi-dente separazione dalla classe dei non-ippocampi. (b) Visualizzazionedelle sole classi degli ippocampi-A, ippocampi-B e template.

Dal grafico delle distribuzioni congiunte (Figura 5.12 (b)) è evidente co-me la sovrapposizione tra gli ippocampi-B e i template sia più marcata.

68 5. Analisi statistica II

Sono stati inoltre graficati i box plot delle quattro classi (Figura 5.13) dacui si può notare come la mediana della classe degli ippocampi-B sia signi-ficativamente più vicina a quella dei template rispetto a quella della classedegli ippocampi-A.

Figura 5.13: Box plot di tutte le quattro classi; si può notare come gli ippocampi-Bsiano più vicini ai template rispetto agli ippocampi-A e come i templaterestino sufficientemente separati.

Per quantificare la sovrapposizione tra le distribuzioni congiunte che in-teressano questa analisi, ossia quella tra i template e gli ippocampi-A e quellatra i template e gli ippocampi-B, sono state calcolate le curve ROC da cui èstata ricavata la AUC (Figura 5.14). Attraverso il valore delle AUC calcolatedalle curve ROC associate alle diverse classi, si può quantificare quale tra ledue popolazioni sia più simile ai template, ricordando che AUC tende a 1

2

all’aumentare della sovrapposizione tra due distribuzioni.Attraverso la formula 5.2 è possibile dare una stima sull’incertezza re-

lativa a una curva ROC. Ricordando che, nel caso in esame, le numerositàdegli elementi delle classi sono n1A = n1B = 20 per gli ippocampi-A e pergli ippocampi-B e nt = 37 per i template si ottengono i seguenti valori:

• AUC(A) = 0.79± 0.09 per la curva ROC relativa al confronto tra gliippocampi-A e i template;

5. Analisi statistica II 69

Figura 5.14: Curve ROC relative al confronto con i template delle popolazioni degliippocampi-A e degli ippocampi-B.

• AUC(B) = 0.62± 0.12 per la curva ROC relativa al confronto tra gliippocampi-B e i template;

La AUC(B) associata degli ippocampi-B è più vicina al valore limite di12 rispetto a quella degli ippocampi-A e questo è esattamente il risultato au-spicato, infatti gli elementi dell’insieme degli ippocampi-B, per costruzione,sono mediamente più simili ai template rispetto agli altri.

L’incertezza su questi due valori è però piuttosto elevata, come d’altraparte ci si poteva aspettare con delle numerosità campionarie così basse.

Si fa anche notare che questo test di consistenza su due popolazioni comequelle degli ippocampi-A e degli ippocampi-B, che sono state costruite apartire dalla stessa popolazione iniziale e che differiscono per non più del25% degli elementi, porti a risultati incoraggianti. Le curve ROC associateagli ippocampi-A e agli ippocampi-B sono ben distinguibili visivamente e diconseguenza i valori della AUC, a prescindere dall’incertezza, si avvicinanomaggiormente al valore limite 1

2 al diminuire del numero di forme ambigueall’interno di una popolazione di ippocampi.

Questo significa che all’aumentare della numerosità campionaria (ossiautilizzando più immagini) il classificatore potrebbe apprezzare anche pic-

70 5. Analisi statistica II

cole variazioni del modello di segmentazione, pertanto sembra essere unostrumento sensibile e utile all’ottimizzazione dei parametri degli algoritmidel programma di segmentazione automatica.

CAPITOLO 6

Riepilogo e conclusioni

La realizzazione di un classificatore capace di distinguere forme tridimen-sionali diverse è un procedimento delicato e deve essere affrontato attraver-so una serie di passaggi successivi.

La base dati è composta dalle maschere ippocampali, immagini binarietridimensionali che raffigurano il volume occupato dall’ippocampo.

In termini statistici, un classificatore deve distinguere opportunamentele distribuzioni di probabilità associate ai gruppi in esame. In questo casosono state considerate tre popolazioni statistiche:

• i template, maschere binarie di strutture ippocampali segmentate ma-nualmente da un neuroradiologo e quindi valide dal punto di vistaclinico;

• gli ippocampi, maschere di strutture ippocampali segmentate trami-te il programma automatico, che devono essere validate dal punto divista clinico;

• i non-ippocampi, immagini in uscita dal programma automatico che,a causa di errori durante il processo di segmentazione, non sono pernulla assimilabili alla forma di un ippocampo.

Per studiare queste distribuzioni sono state ricavate delle variabili stati-stiche ottenute tramite il confronto con la forma media di riferimento, estrat-ta a partire dalla popolazione dei template, le uniche forme che, dal punto divista medico, rappresentano efficacemente le strutture ippocampali.

72 6. Riepilogo e conclusioni

Tra le possibili variabili che contengono informazioni riguardo alla di-stanza in termini spaziali tra le varie popolazioni sono state utilizzate leseguenti:

• la differenza simmetrica tra la maschera in esame e la forma media diriferimento, calcolata secondo la 3.2;

• il valore della gaussiana convoluta sulla somma dei template calcolatasul bordo dell’immagine in studio 3.3.

A ogni immagine è stato quindi associato, per ciascuna delle due va-riabili, un vettore k-dimensionale contenente i valori dei livelli di grigio(informazione sulla distanza) dei voxel non nulli.

Poiché si tratta di elaborazioni di oggetti rigidi tridimensionali, il valoredei voxel vicini è parzialmente correlato e le componenti dei vettori sonodipendenti. Per uno studio statisticamente consistente si è dovuto ricorrereall’analisi delle componenti principali.

Nella fase di sviluppo è stata controllata l’efficacia del classificatore neldistinguere le immagini appartenenti alle famiglie dei template e dei non-ippocampi.

La sovrapposizione tra queste due distribuzioni è minima e l’area sottesadalla curva ROC è molto vicina a 1: siamo prossimi al caso di separazionecompleta.

Controllata l’efficacia della scelta delle variabili si passa al confronto trala popolazione degli ippocampi e quella dei template. All’aumentare del-la sovrapposizione tra la distribuzione degli ippocampi e quella dei tem-plate migliora la corrispondenza tra le forme ottenute con il programma disegmentazione automatica e le immagini valide dal punto di vista clinico.

All’interno della classe degli ippocampi è stata individuata una sottopo-polazione, gli ippocampi-B, che contiene le immagini più simili ai template.

Si può così simulare il confronto tra due set di dati ottenuti con diversimodelli di segmentazione studiando la sovrapposizione tra i template e gliippocampi-B e quella tra i template e gli ippocampi-A, un campione casualedella famiglia degli ippocampi di numerosità pari a quella degli ippocampi-B.

Il valore dalla AUC ricavato dagli ippocampi-A è superiore a quello de-gli ippocampi-B, ciò significa che la corrispondenza tra quest’ultima popo-lazione e template è superiore, il che rispecchia la reale costruzione dellesottopopolazioni.

6. Riepilogo e conclusioni 73

Nonostante sia stato considerato un numero limitato di immagini, l’ef-ficienza del programma di segmentazione automatica sembra crescere aldiminuire delle forme ambigue sintetizzate. Il classificatore può dare unamisura di questa efficienza, come è stato dimostrato attraverso lo studiodelle popolazioni degli ippocampi-A e degli ippocampi-B.

L’utilizzo del classificatore all’interno del programma automatico per-mette l’ottiimizzazione dei parametri di segmentazione.

Questo strumento può anche essere utilizzato come filtro preliminareper l’individuazione di eventuali disfunzioni degli algoritmi. Se un’imma-gine viene catalogata nella categoria dei non-ippocampi è possibile ripeterela segmentazione per accertarsi che non si tratti di un’imprecisione del soft-ware, nel tentativo di acquisire una forma migliore e se ciò non accade si puòsegnalare la presenza di un’immagine estremamente equivoca.

Dal punto di vista della classificazione teorica delle popolazioni, si puòpensare che le forme catalogate come non-ippocampi siano in realtà del-le strutture particolarmente colpite dall’atrofia tipica della malattia di Alz-heimer e quindi notevolmente ridotte in volume. Questa eventualità nonrappresenta un problema per diverse ragioni.

Innanzi tutto il programma di segmentazione automatica è stato ideatoper l’individuazione precoce dell’atrofia, quindi le strutture interessanti daanalizzare non sono molto dissimili da un ippocampo sano. La differenza involume tra le strutture ippocampali di un soggetto sano e quelle di uno nellefasi preliminari della malattia di Alzheimer non è così elevata da giustificareuna diversità tanto marcata tra template e non-ippocampi.

Inoltre tra i template sono comprese anche strutture di pazienti malatiquindi la popolazione degli ippocampi validi dal punto di vista medicoconsidera anche i casi patologici.

Per queste ragioni i non-ippocampi possono essere considerati a tutti glieffetti degli errori nel processo di segmentazione.

In ogni caso sarebbe interessante avere a disposizione una sottoclassifi-cazione della famiglia dei template in sani e malati in modo da effettuare testincrociati tra le varie popolazioni.

Non va comunque dimenticato che il fine del classificatore è quello difornire un controllo sulla consistenza dei risultati ottenuti attraverso la partedi analisi della forma del programma di segmentazione automatica.

Lo studio dell’atrofia delle strutture ippocampali attraverso i livelli digrigio dei volumi interessanti delle RMI, le Hippocampal Box, è invece pre-

74 6. Riepilogo e conclusioni

rogativa della parte del programma di segmentazione automatica che sioccupa dell’analisi voxel per voxel del volume.

Lo scopo del classificatore è unicamente quello di confrontare oggettitridimensionali e fornire indicazioni quantitative sulla loro similitudine osulla loro diversità attraverso considerazioni statisticamente fondate.

Attraverso questo strumento, la separazione tra le distribuzioni dei tem-plate e dei non-ippocampi è quasi ideale e la sovrapposizione tra la po-polazione dei template e quella degli ippocampi migliora al diminuire del-le forme ambigue, pertanto è un indice dell’efficacia della segmentazioneautomatica.

Alla luce di queste ultime considerazioni, il classificatore risulta esse-re uno strumento funzionale, rapido e appropriato ed è pronto per essereutilizzato nell’ottimizzazione dei parametri del modello di segmentazione.

Appendice A:

Registrazione lineare di immagini digitali

Uno dei problemi più frequenti nell’elaborazione delle immagini mediche èlegato all’allineamento delle immagini attraverso il processo di registrazio-ne.

La registrazione di immagini [24] è il processo per trovare una trasfor-mazione spaziale che esegue una mappatura dei punti di un’immagine sugliomologhi di una seconda immagine (Figura 6.1).

Figura 6.1: La registrazione di immagini è il processo per trovare la mappatura diun’immagine su un’altra.

Lo schema del flusso logico e delle componenti usuali nella registrazionesono mostrati nella figura 6.2.

La registrazione è quindi un problema che riguarda l’ottimizzazione diuna trasformazione con l’obiettivo di trovare una mappatura per allineareun’immagine mobile e un’immagine fissa in modo che esse risultino più si-mili possibile. Tutto questo viene effettuato attraverso un ciclo composto dadiverse parti che si ripete fino a che l’allineamento non è eseguito secondocerti parametri definiti a priori.

76 Appendice A: Registrazione lineare di immagini digitali

Figura 6.2: Le componenti di base del processo di registrazione sono due immaginidi input, una trasformazione, un metrica, un interpolatore e ottimizzare

Le componenti principali della registrazione sono le immagini di input,una trasformazione T (x), l’interpolatore, l’ottimizzatore e la metrica.

Gli input del processo di registrazione sono due: l’immagine fissa f (x)e l’immagine mobile m(x), dove x rappresenta la posizione nello spazio n-dimensionale.

La trasformazione T (x) è la mappatura spaziale che viene eseguita apartire dai punti dello spazio dell’immagine fissa sui punti dello spazio del-l’immagine mobile. Ogni volta che un’immagine viene elaborata attraversouna trasformazione è necessario eseguire un’interpolazione dei pixel/voxelcoinvolti.

L’interpolatore è usato per ricampionare l’immagine mobile sui puntidell’immagine fissa, infatti, nel campo delle immagini digitali, ogni voltache si eseguono trasformazioni di tipo spaziale che comportano un cambiodella griglia del sistema di riferimento, come rotazioni o traslazioni, è neces-sario ricampionare i valori dei voxel del vecchio sistema di riferimento del-l’immagine mobile sulla griglia del nuovo sistema di riferimento attraversoun processo di interpolazione (Figura 6.3).

Esistono diversi metodi per eseguire l’interpolazione sui livelli di grigiodei voxel attigui coinvolti nel ricampionamento.

Nel caso della registrazione delle maschere ippocampali è stata usataun’interpolazione trilineare, che è una generalizzazione al caso tridimensio-nale dell’interpolazione lineare unidimensionale.

Questa tecnica si basa sull’interpolazione lineare dei punti all’interno diuna scatola tridimensionale, a partire dai valori assegnati ai vertici dellascatola stessa. I voxel che compongono un’immagine digitale contengonoun unico valore, pertanto l’interpolazione trilineare coinvolge un volumeformato da un certo numero di voxel per ricavare il valore da assegnare al

Appendice A: Registrazione lineare di immagini digitali 77

Figura 6.3: Per valutare il valore da associare al voxel della nuova griglia di riferi-mento (in giallo) il cui spigolo più alto a sinistra è contrassegnato daun cerchio giallo, è necessario eseguire un’interpolazione sui valori deivoxel della griglia iniziale (in bianco) i cui spigoli in alto a sinistra sonocontrassegnati da cerchi rossi

voxel centrale.

La metrica è una funzione che confronta i valori di intensità di grigiocontenuti nei voxel dell’immagine fissa con i corrispondenti valori dell’im-magine mobile trasformata da T (x).

La componente metrica del processo della registrazione S( f , T ◦m) for-nisce pertanto il criterio quantitativo su cui si basa confronto fra l’immaginefissa e l’immagine mobile trasformata.

La componente metrica è quindi l’elemento critico del processo di re-gistrazione. La selezione della funzione metrica da utilizzare è fortementedipendente dal tipo di registrazione e dalle problematiche della situazionein esame.

Nel caso delle maschere ippocampali, poiché le immagini da confrontarenon devono essere sottoposte a operazioni che possono variare le dimensio-ni iniziali, come ad esempio un processo di scalatura, è stata utilizzata unaregistrazione rigida a sei gradi di libertà.

La metrica più utilizzata con questo tipo di trasformazione è quella deiminimi quadrati.

Il valore dell’intensità di grigio A contenuto nel voxel i-esimo dell’im-magine fissa è confrontato con il valore dell’intensità di grigio B contenutonell’omologo voxel i-esimo dell’immagine mobile secondo la metrica S dei

78 Appendice A: Registrazione lineare di immagini digitali

minimi quadrati:

S( f , T ◦m) =√| A2

i − B2i |

La corrispondenza massima tra due voxel omologhi si ottiene quandoS( f , T ◦m) vale zero, ossia se le due intensità di grigio sono uguali.

La registrazione termina quando si raggiunge una situazione di compro-messo in cui la funzione metrica, considerata su tutti i voxel dell’immaginemobile, è minimizzata.

L’ottimizzatore quindi agisce sulla trasformazione T (x) e sui parametridi interpolazione per minimizzare la funzione metrica ottenendo in questomodo il miglior allineamento possibile tra l’immagine fissa e l’immaginemobile.

Appendice B:

Programmi in MATLAB

Le Curve di Livello

Le curve di livello sono ottenute attraverso una particolare funzione di MA-TLAB, bwdist, che calcola la distanza euclidea in un’immagine binaria BW.Questa trasformazione assegna a ogni pixel/voxel un numero che è la di-stanza euclidea tra il pixel/voxel considerato e il suo primo vicino non nul-lo. Per come sono strutturate le maschere ippocampali bisogna applicarequesta trasformazione al “negativo”, inteso nell’accezione fotografica, del-l’immagine in esame, quindi, dal punto di vista informatico, al file negato(~).

Consideriamo l’esempio bidimensionale di una matrice m contenentetutti zero a eccezione di alcuni elementi centrali ai quali è stato assegnatoil valore uno, in questo modo si riproduce in modo schematico il problemaapplicato a una slice di una maschera ippocampale.

m=

0 0 0 0 0 0

0 0 1 1 0 0

0 1 1 1 1 0

0 1 1 1 1 0

0 0 1 1 0 0

0 0 0 0 0 0

80 Appendice B: Programmi in MATLAB

Applicando la trasformazione bwdist al negativo di questa matrice siottiene1:

bwdist (~m) =

0 0 0 0 0 0

0 0 1 1 0 0

0 1 1 . 4 1 . 4 1 0

0 1 1 . 4 1 . 4 1 0

0 0 1 1 0 0

0 0 0 0 0 0

In seguito è riportata la funzione utilizzata per il calcolo di questa tra-sformazione su un’immagine binaria tridimensionale:

func t ion Fi l t roBWdis t ( f i l e I n p u t , f i l e O u t )

a = l o a d _ n i i ( f i l e I n p u t ) ;

b = bwdist (~ a . img ) ;

a . img = b ;

s a v e _ n i i ( a , f i l e O u t ) ;

si scarica la maschera ippocampale nel suo formato (nifti), si applica latrasformazione e si salva il file finale.

In realtà nel blocco “Curve” della pipeline sono presenti altri due algorit-mi per eseguire ulteriori elaborazioni sulle maschere ippocampali.

Il primo aggiunge una cornice tridimensionale di zeri alle immagini, inquesto modo, senza alterare minimamente i dati, si è sicuri di non perdereinformazioni durante la registrazione. È stato infatti riscontrato che alcunemaschere vengono ruotate o traslate così tanto che alcune parti sono tagliatefuori dall’immagine finale.

Pertanto l’algoritmo “Cornice” (riportato di seguito) trasforma sempli-cemente la dimensione della scatola contenente la maschera ippocampaleda 30×70×30 voxel a 50×90×50 voxel, altrimenti, se la maschera è già delladimensione desiderata, la lascia invariata.

func t ion Cornice ( f i l e I n , f i l e O u t )

a = l o a d _ n i i ( f i l e I n ) ;

diminput = s i z e ( a . img ) ;

dim = [ 5 0 , 9 0 , 5 0 ] ;

i f diminput==dim

s a v e _ n i i ( a , f i l e O u t ) ;

e l s e

1Il valore 1.4 è l’approssimazione di√

2.

Appendice B: Programmi in MATLAB 81

x=round ( ( dim ( 1 )−diminput ( 1 ) ) /2) ;

y=round ( ( dim ( 2 )−diminput ( 2 ) ) /2) ;

z=round ( ( dim ( 3 )−diminput ( 3 ) ) /2) ;

b = padarray ( a . img , [ x , y , z ] ) ;

c = make_nii ( b ) ;

s a v e _ n i i ( c , f i l e O u t ) ;

end

Il secondo algoritmo normalizza a uno le immagini trattate dal “Filtro-BWdist”. Questo è un altro accorgimento che ha migliorato le performancedella registrazione. Dopo la normalizzazione, infatti, le zone più centralidel volume degli ippocampi hanno la stessa intensità di grigio in modo ta-le che durante il processo di registrazione l’allineamento di queste parti siaprivilegiato rispetto alle zone periferiche.

In seguito è riportato il codice dell’algoritmo “Normalizza”.

func t ion Normalizza ( in , out )

a = l o a d _ n i i ( in ) ;

c = a . img ;

b = ( c−min ( c ( : ) ) ) /(max( c ( : ) )−min ( c ( : ) ) ) ;

a . img = b ;

s a v e _ n i i ( a , out ) ;

La Forma Media

Analizziamo le parti principali del programma di estrazione della formamedia.

func t ion SigmaTestAverage ( input_dir , outputshape , gauss_out )

f i leHeads=d i r ( f u l l f i l e ( input_dir , [ ’*.nii’ ] ) ) ;

NofHeads=numel ( f i leHeads ) ;

tmp= l o a d _ n i i ( f u l l f i l e ( input_dir , f i leHeads ( 1 ) . name) ) ;

ProbMask=tmp . img ;

f o r k =2: NofHeads

t e s t = l o a d _ n i i ( f u l l f i l e ( input_dir , f i leHeads ( k ) . name) ) ;

ProbMask=ProbMask+ t e s t . img ;

end

I template vengono scaricati dalla directory di input e viene eseguita laloro somma. Alla fine del ciclo for si ottiene la somma di tutte le maschereippocampali: “ProbMask”.

82 Appendice B: Programmi in MATLAB

f o r i =1:30

sigma = ( i /10) ;

v ( i , 1 ) =sigma ;

Nsigma =4;

span=−Nsigma∗ c e i l ( sigma ) : Nsigma∗ c e i l ( sigma ) ;

[ XVol , YVol , ZVol ]= ndgrid ( span , span , span ) ;

GaussVol=exp(−(XVol/sigma ) . ^ 2 ) .∗ exp(−(YVol/sigma ) . ^ 2 ) .∗ exp

(−(ZVol/sigma ) . ^ 2 ) ;

Etot=double ( convn ( ProbMask , GaussVol , ’same’ ) ) ;

normEtot =( Etot−min ( Etot ( : ) ) ) /(max( Etot ( : ) )−min ( Etot ( : ) ) ) ;

a=normEtot > = 0 . 5 ;

f o r j =1 : NofHeads

mask= l o a d _ n i i ( f u l l f i l e ( input_dir , f i leHeads ( j ) . name) ) ;

b = l o g i c a l ( mask . img ) ;

x = nnz ( a & b ) ;

y = nnz ( a | b ) ;

z ( j ) =x/y ;

v ( i , 2 ) =z ( j ) +v ( i , 2 ) ;

end

end

Viene calcolato il prodotto di convoluzione “Etot” tra la maschera som-ma ProbMask e una distribuzione proporzionale a una gaussiana tridimen-sionale “GaussVol” considerata, in termini di estensione spaziale, fino aquattro volte la sua deviazione standard σ. In prima approssimazione σ

è stata assunta isotropa nelle tre direzioni.

La maschera media “normEtot” viene ricavata normalizzando a uno ilprodotto di convoluzione Etot.

Questo processo si ripete all’aumentare di σ per valori che vanno da 0.1a 3 con un passo di 0.1 confrontando ogni volta la maschera media ottenutacon i singoli template attraverso l’indice di Jaccard adattato (2.4) “z”. I ri-sultati del test e i corrispondenti valori di σ vengono salvati in un vettore.In questo modo si risale agevolmente a quale valore di σ ha permesso diottenere il valore di z massimo.

Per evitare di dover salvare tutte e trenta le forme medie calcolate e sce-gliere solo alla fine quella definitiva, si preferisce salvare il valore ottimaledi σ e ripetere la convoluzione con questo parametro.

[ valore , pos iz ione ]=max( v ( : , 2 ) ) ;

BestSigma=v ( posizione , 1 ) ;

Appendice B: Programmi in MATLAB 83

Nsigma =4;

span=−Nsigma∗ c e i l ( sigma ) : Nsigma∗ c e i l ( sigma ) ;

[ XVol , YVol , ZVol ]= ndgrid ( span , span , span ) ;

GaussVol=exp(−(XVol/BestSigma ) . ^ 2 ) .∗ exp(−(YVol/BestSigma )

. ^ 2 ) .∗ exp(−(ZVol/BestSigma ) . ^ 2 ) ;

Etot=convn ( ProbMask , GaussVol , ’same’ ) ;

normEtot =( Etot−min ( Etot ( : ) ) ) /(max( Etot ( : ) )−min ( Etot ( : ) ) ) ;

tmp . img=normEtot ;

s a v e _ n i i ( tmp , gauss_out ) ;

d=normEtot > 0 . 5 ;

tmp . img=d ;

s a v e _ n i i ( tmp , outputshape ) ;

A questo punto viene rieffettuata la convoluzione con la σ che massimiz-za la sovrapposizione della forma media con tutti i template (“Best Sigma”)e si ottiene la distribuzione convoluta che viene salvata per il calcolo dellavariabile perimetro, dopodiché viene opportunamente salvata anche formamedia definitiva.

La differenza simmetrica

In questa sezione è riportato il programma utilizzato per calcolare la dif-ferenza simmetrica (3.2) tra una maschera ippocampale qualsiasi “in” e laforma media di riferimento “reference”.

func t ion Dif fSimmetr ica ( in , re ference , output )

a = l o a d _ n i i ( in ) ;

r e f = l o a d _ n i i ( r e f e r e n c e ) ;

c = ( ( r e f . img ) |( l o g i c a l ( a . img ) ) ) &~(( r e f . img ) &( l o g i c a l ( a . img ) ) )

;

b = bwdist (~ c ) ;

a . img = b ;

s a v e _ n i i ( a , output ) ;

La differenza simmetrica “c” è trattata con la trasformazione bwdist de-scritta precedentemente, per ottenere informazioni quantitative di distanza.

84 Appendice B: Programmi in MATLAB

Il perimetro

La variabile perimetro è il valore della distribuzione convoluta sui templatecalcolata sul bordo dell’immagine in esame (3.3).

Per ottenere il bordo delle maschere ippocampali è stata utilizzata la fun-zione di MATLAB bwperim, che a partire da un’immagine binaria estrae ilsuo perimetro ottenendo in uscita un’altra immagine binaria.

Consideriamo nuovamente l’esempio bidimensionale della matrice m eapplichiamole la funzione bwperim; il risultato è il seguente:

bwperim (m) =

0 0 0 0 0 0

0 0 1 1 0 0

0 1 0 0 1 0

0 1 0 0 1 0

0 0 1 1 0 0

0 0 0 0 0 0

l’effetto è quindi quello di ottenere il bordo dell’immagine in studio.Consideriamo quindi il codice relativo al calcolo della variabile perime-

tro.

func t ion Perimetro ( in_shape , in_gauss , out_shape )

mask= l o a d _ n i i ( in_shape ) ;

gauss= l o a d _ n i i ( in_gauss ) ;

per=bwperim ( mask . img ) ;

gauss . img(~ per ) =0;

s a v e _ n i i ( gauss , out_shape ) ;

Attraverso la funzione bwperim si calcola il perimetro della maschera inesame “mask”, dopodiché si pongono uguale a zero tutti i voxel dell’imma-gine contenente la gaussiana convoluta si template che non appartengono albordo “per” della maschera di input e si salva l’immagine così ottenuta.

Bibliografia

[1] G. Cittadini, 2003, Diagnostica per Immagini e Radioterapia, Genova,ECIG-Edizioni Culturali Internazionali Genova.

[2] G. B. Frisoni, A. Beltramello, Il Neuroimaging nella Diagnosi Malat-tia di Alzheimer: Problemi, Strumenti, Linee Guida, [Online], reperibileall’indirizzo: http://www.centroalzheimer.it/libro.pdf.

[3] P. Scheltens, D. Leys, F. Barkhof et al, 1992, Atrophy of medial temporal lo-bes on MRI in “probable” Alzheimer’s disease and normal ageing: diagnosticvalue and neuropsychological correlates, J Neurol Neurosurg & Psychiatry,October 55:967-972.

[4] C. Loeb, E. Favale, 2003, Neurologia, vol. 2, Roma, Società EditriceUniverso.

[5] P. Calvini, A. Chincarini, G. Gemme, M. A. Penco, S. Squarcia, F. Nobiliet al, 2009 Automatic Localization of the Hippocampal Region in MR Imagesto Asses Early Diagnosis of Alzheimer’s Disease in MCI Patients, MedicalPhysics vol. 36 n◦ 8 pag. 3737.

[6] University of California, Los Angeles, 2010, [Online], reperibile al-l’indirizzo: http://www.research.ucla.edu/chal/html/age_ page_4.htm.

[7] S. Molchan, 2005, The Alzheimer’s Disease Neuroimaging Initiative,[Online], reperibile all’indirizzo: http://www.adni-info.org.

86 Bibliografia

[8] European Alzheimer’s Disease Consortium, 2010, [Online], reperibileall’indirizzo: http://eadc.alzheimer-europe.org/introduction.html.

[9] B. T. Hyman, G. W. Van Hoesen, A. R. Damasio, C. L. Barnes, 1984, Al-zheimer’s disease: cell-specific pathology isolates the hippocampal formation,Science, September vol. 225 n◦ 4667 pp. 1168-1170.

[10] E. R. Kandel, J. H. Chwartz, T. M. Jessel, 1999, Fondamenti delleNeuroscienze e del Comportamento, Milano, Casa Editrice Ambrosiana.

[11] A. Chincarini et al, 2008, Unsupervised hippocampus segmentation: Tools,validation and clinical perspectives, Proc. of the 14th Annual Meeting ofthe organization for Human Brain Mapping, Melbourne, Australia,June.

[12] T. Ohnishi, H. Hoshi, S. Nagamachi, S. Jinnouchi, L. G. Flores II,S. Futami, K. Watanabe, 1995 High-resolution SPECT to Assess Hippo-campal Perfusion in Neuropsychiatric Diseases J. Nucl. Med., vol. 36, pp.1163-1169.

[13] G. Gerig, M. Styner, D. Jones, D. Weinberger, J. Lieberman, 2001, Sha-pe analysis of brain ventricles using SPHARM, MMBIA, IEEE ComputerSociety: pp. 171-178, December.

[14] S. Masecchia, 2009, Metodi statistici per l’analisi ed il riconoscimento dellaforma, tesi di laurea, Università degli studi di Napoli Federico II, facoltàdi scienze matematiche, fisiche e naturali, corso di laurea magistrale ininformatica A.A. 2008/2009.

[15] J. H. Morra, Z. Tu, L. G. Apostolova, 2009, et al, Automated map-ping of hippocampal atrophy in 1-year repeat MRI data from 490 subjectswith Alzheimer’s disease, mild cognitive impairment, and elderly controls,NeuroImage, n◦ 45 pp. S3–S15.

[16] P. Jaccard, 1901, Étude comparative de la distribution florale dans une por-tion des Alpes et des Jura, Bulletin de la Société Vaudoise des SciencesNaturelles, n◦ 37 pp. 547–579.

[17] LONI Pipeline version 4.3.3, 2009, Laboratory Of Neuro Imaging, UCLA[Online], reperibile all’indirizzo: http://www.loni.ucla.edu.

[18] M. Jenkinson, 2008, FLIRT, [Online], reperibile all’indirizzo:http://www.fmrib.ox.ac.uk/fsl/flirt/overview.html.

Bibliografia 87

[19] J. Andersson, 2007, FNIRT, [Online], reperibile all’indirizzo:http://www.fmrib.ox.ac.uk/fsl/fnirt/index.html.

[20] C. Kuratowski, 1961, Introduction to set theory and topology, London,Pergamon, pp. 34-35.

[21] I. T. Jolliffe, 2002, Principal Component Analysis, New York, Springer-Verlag.

[22] N. Smirnov, 1939, Sur les écartes de la courbe de distribution empirique,Matematiceskı̌i Sbornik, vol. 6 pp. 3-26.

[23] E. Bottarelli, S. Parodi, 2003, Un approccio per la valutazione della validitàdei test diagnostici:le curve R.O.C. (Receiver Operating Characteristic), Ann.Fac. Medic. Vet. di Parma, vol. 13, pp. 49-68.

[24] L. Ibáñez, W. Schroeder,L. Ng, J. Cates, 2005, The ITK Software Guide,[Online], reperibile all’indirizzo: http://www.itk.org.

Ringraziamenti

I mesi trascorsi a fare la tesi sono stati lunghi e intensi. Ho conosciutopersone in gamba che hanno saputo creare intorno a loro un gruppo unitoe competente nel quale sono stato accolto con un calore inaspettato;lavorare in un ambiente simile è stato stimolante e piacevole e mi ha datol’occasione di imparare un sacco di cose nuove. Ringrazio quindi il miorelatore, il professor Squarcia, per avermi dato questa opportunità, tutti imembri della sezione di Genova di Magic-5 e tutti quelli che in qualchemodo hanno avuto a che fare con il laboratorio 307, in particolare Cesare,Gianluca e Mirko.Ringrazio la professoressa Penco che mi ha seguito nella trattazionestatistica e nella fase di scrittura della tesi, sempre con eccezionalegentilezza e perizia.Ringraziamento a parte anche per Luca, che mi ha aiutato moltissimodurante tutto questo lavoro, non solo dal punto di vista tecnico einformatico.Infine Andrea, a cui va tutta la mia riconoscenza, per quello che ha fattoper me in questi mesi, per il modo in cui ha sempre messo a miadisposizione il suo tempo e le sue capacità e per avermi trattato con affettoe benevolenza dimostrandosi una guida affidabile e un ottimo maestro.

Ringrazio i miei genitori e mio fratello, che mi hanno sempre sostenuto,tutti gli amici che mi sono stati vicino,Giobbo e Big Ste, che mi hanno sopportato in casa tutti questi annie Brus, il mio compagno di squadra.