tesi magistrale - nardella di crescenzo - universita di salerno

95
UNIVERSITÀ DEGLI STUDI DI SALERNO Dipartimento di Matematica CORSO DI LAUREA MAGISTRALE IN MATEMATICA TESI DI LAUREA IN STATISTICA MATEMATICA Analisi Statistica di Dati sulla Raccolta Differenziata di Rifiuti in Campania RELATORE: Chiar.mo Prof. Antonio Di Crescenzo CORRELATORE: Chiar.mo Ing. Carlo Di Domenico CANDIDATA: Maria Grazia Nardella Matr. 0522200069 Anno Accademico 2015/2016 Tesi sviluppata presso il Laboratorio di Modelli e Metodi Matematici per le Applicazioni del Dipartimento di Matematica dell’Università degli Studi di Salerno

Upload: dinhdan

Post on 06-Feb-2017

235 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

UNIVERSITÀ DEGLI STUDI DI SALERNO

Dipartimento di MatematicaCORSO DI LAUREA MAGISTRALE IN MATEMATICA

TESI DI LAUREA IN

STATISTICA MATEMATICA

Analisi Statistica di Dati sulla RaccoltaDifferenziata di Rifiuti in Campania

RELATORE:Chiar.mo Prof.Antonio Di Crescenzo

CORRELATORE:Chiar.mo Ing.Carlo Di Domenico

CANDIDATA:Maria Grazia Nardella

Matr. 0522200069

Anno Accademico 2015/2016

Tesi sviluppata presso il Laboratorio di Modelli e Metodi Matematici per le Applicazioni delDipartimento di Matematica dell’Università degli Studi di Salerno

Page 2: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

Indice

1 Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler 11.1 Misure d’informazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Misura d’informazione di Kullback-Leibler . . . . . . . . . . . . . . . . . . . 51.3 Misura d’informazione empirica di Kullback-Leibler . . . . . . . . . . . . . . 121.4 Applicazioni nell’analisi di dati . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Test di Cramér-von Mises per due campioni indipendenti 302.1 Introduzione al test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.2 Procedura del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2.1 Tabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.3 Applicazioni nell’analisi di dati . . . . . . . . . . . . . . . . . . . . . . . . . 35

3 Analisi di correlazione e applicazioni 403.1 Correlazione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.2 Applicazioni nell’analisi di dati . . . . . . . . . . . . . . . . . . . . . . . . . 44

4 Analisi di correlazione inerente il turismo estivo in Campania 58

A Microambiente srl e il sistema SIR-MySir 72

B Distribuzione normale multivariata 86

Bibliografia 89

i

Page 3: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

Introduzione

“Non ereditiamo la terra dai nostri padri, la prendiamo in prestito dai nostri figli”, recitacosì, inclemente ma vero, un proverbio dei Nativi Americani. Perché rispettare la natura?Gli indigeni d’America rispondevano così: se non riusciamo ad innamorarci delle bellezzedell’Universo (eppure, come si fa?), preoccupiamoci almeno dei nostri figli, di quello chelasceremo alle generazioni future. In quest’ottica deve diventare una certezza, un assiomasu cui fondare ogni teoria riguardante lo sviluppo economico, la seguente considerazione:l’ambiente è un traino per l’economia, non un freno.

Green Economy (Economia Verde) e Green Growth (Crescita Verde) sono solo alcunidei termini coniati per indicare, efficacemente, un modello teorico di economia sostenibile:lo sviluppo è una forma di progresso per l’umanità, e non di regresso, solo se capace dipreservare ogni ecosistema presente in natura e la biodiversità.

L’attuale sistema economico mondiale deve inevitabilmente confrontarsi con le seguentinecessità:

- ridurre il consumo di energia e di risorse naturali;

- diminuire la produzione di rifiuti e i danni ambientali;

- servirsi prevalentemente di fonti di energia rinnovabili e procedere al più profondoriciclaggio di ogni tipo di scarto domestico e industriale, evitando il più possibile sprechidi risorse.

Analisi Statistica di Dati sulla Raccolta Differenziata di Rifiuti in Campania è un elabo-rato di tesi che ha l’obiettivo di analizzare, attraverso diversi metodi statistici, alcuni datiinerenti la raccolta differenziata di rifiuti in Campania. La finalità della tesi è mostrare comeun approccio statistico-matematico possa risultare determinante anche in un settore, ancorain crescita, quale il riciclo dei rifiuti. Misure d’informazione, test d’ipotesi sulle distribuzionidei campioni e analisi di correlazione sono i principali strumenti statistici applicati nell’e-laborato, per effettuare previsioni sulle grandezze in gioco così da trarre un’opportunità dicrescita ambientale, culturale e politica a partire dalla raccolta differenziata dei rifiuti.

ii

Page 4: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

I dati analizzati sono stati estratti dal portaleMySir, piattaforma basata su web realizzatada Microambiente srl, azienda leader in Campania nel settore ambientale. La variabileprevalentemente presa in esame è la percentuale di raccolta differenziata dell’anno 2015di ciascun comune della Campania presente sul portale, ottenuta con la semplice formulaaritmetica:

%RD = RD

RI +RD× 100

dove

RD = somma dei quantitativi dei rifiuti urbani raccolti all’origine in modo separato rispettoagli altri rifiuti urbani e raggruppati in frazioni omogenee,

RI = somma dei quantitativi dei rifiuti urbani raccolti in modo indifferenziato.Si rende noto che l’obiettivo di legge per ciascun comune, come previsto dall’articolo 205 delDlsg 152/06, è raggiungere almeno il 65% di RD.

Il primo capitolo si apre con alcune nozioni preliminari di Teoria dell’Informazione,per poi incentrarsi su una misura di discriminazione tra due variabili aleatorie X e Y as-solutamente continue e non negative: la misura d’informazione cumulativa di Kullback-Leibler, CKL(X, Y ). Si considera, poi, un’interessante applicazione della suddetta misu-ra d’informazione nell’analisi di dati, discutendo innanzitutto il problema di ottenere unasua stima attraverso una misura di discriminazione empirica. Se X = (Xi, i = 1, ..., n)e Y = (Yj, j = 1, ...,m) sono due campioni casuali indipendenti di variabili genitrici Xe Y rispettivamente, assolutamente continue e non negative, la misura d’informazione cu-mulativa di Kullback-Leibler tra X e Y è ben approssimata, sotto opportune ipotesi, dallacorrispondente misura empirica: essa è ottenuta sostituendo le funzioni di distribuzione di Xe Y con le rispettive funzioni di distribuzione empiriche dei campioni, Fn(x) = 1

n

n∑i=1

1Xi≤x

e Gm(x) = 1m

m∑j=1

1Yj≤x, definite per x ∈ R, e si indica con CKL(Fn, Gm). È stato rea-

lizzato un codice in Mathematica per calcolare CKL(Fn, Gm) ed una sua normalizzazione,NCKL(Fn, Gm), utilizzata anch’essa come misura della dissimilarità dei due campioni ca-suali: pur non avendolo dimostrato teoricamente, si verifica sperimentalmente che vale lacondizione 0 ≤ NCKL(Fn, Gm) ≤ 1, per cui può risultare più comodo utilizzare la misurad’informazione cumulativa empirica di Kullback-Leibler normalizzata. In particolare si sonoconsiderati nove campioni costituiti dalle %RD di alcuni comuni della provincia di Salerno,ottenuti suddividendo i comuni in base all’area geografica di appartenenza: per ogni coppiadi campioni sono state calcolate le misure d’informazione summenzionate.

Nel secondo capitolo viene presentato ed applicato nell’analisi di dati un test d’ipotesi, il

iii

Page 5: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

test di Cramér-von Mises per due campioni indipendenti. Il problema per X e Y , campionicasuali indipendenti, consiste nel verificare l’ipotesi nulla H0 : F = G contro l’ipotesi alter-nativa H1 : F /= G, dove F e G sono le funzioni di distribuzione continue da cui provengonoX e Y , rispettivamente. Vengono esaminate alcune applicazioni del test di Cramér-von Mi-ses, per verificare che due fissati campioni provengano dalla stessa distribuzione (incognita),mediante un codice realizzato con l’ambiente di calcolo Mathematica. In particolare, si sonoconsiderati gli stessi nove campioni di dati inerenti la percentuale di raccolta differenziata dirifiuti del primo capitolo ed è stato applicato il test ad ogni coppia di campioni. In diversetabelle si riportano gli esiti del test per tre valori di significatività, 0,10, 0,05 e 0,01. Si ottie-ne risposta affermativa (corrispondente al caso in cui venga rifiutata l’ipotesi nulla) solo perpoche coppie, tra l’altro quando il livello di significatività è 0,10 oppure 0,5; mentre, sceltoil livello di significatività pari a 0,01, si hanno tutti esiti negativi. Si può, quindi, concluderecon un’affidabilità del 99% che i campioni considerati provengano dalla stessa distribuzione.

Il terzo capitolo tratta dell’analisi di correlazione, ossia lo studio della possibile dipenden-za lineare tra due variabili aleatorie X e Y . Si rivolge l’attenzione, in particolare, all’analisidi correlazione normale: questa viene effettuata su coppie di dati (xi, yi), (i = 1,2, ..., n) chesi assume costituiscano la realizzazione di un campione casuale estratto da popolazione nor-male bivariata. Come nell’ambito della regressione lineare, il valore assunto dal coefficientedi correlazione campionario R,

r =

n∑i=1

(xi − x)(yi − y)√√√√ n∑i=1

(xi − x)2

√√√√ n∑i=1

(yi − y)2

,

gioca ancora un ruolo determinante: su di esso di basa un test d’ipotesi per verificare se duevariabili aleatorie siano scorrelate. Tale test, in particolare, è stato applicato ad alcuni datiestratti dal portaleMySir diMicroambiente. I dati yi (i = 1, ..., n), sono costituiti dalle %RDdi n = 20 comuni della provincia di Salerno, mentre i dati xi (i = 1, ..., n), sono costituiti divolta in volta da:

- le incidenze di rifiuti urbani non differenziati dei 20 comuni;

- le altitudini dei 20 comuni;

- le popolazioni dei 20 comuni;

- le densità abitative (abitanti per km2) dei 20 comuni;

iv

Page 6: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

- due indicatori indiretti della presenza di turismo per i 20 comuni.

Si stabilisce così se esiste una relazione lineare tra la %RD e le suddette grandezze, peri 20 comuni considerati. L’ipotesi nulla di non correlazione viene rifiutata solo nel primocaso, per i tre livelli di significatività 0,10, 0,05 e 0,01. Quindi è verosimile ritenere che lapercentuale di raccolta differenziata dipenda linearmente dall’incidenza di rifiuti urbani nondifferenziati; inoltre, si ottiene, com’è prevedibile, che la correlazione tra le due grandezze sianegativa. Infine, considerati gli stessi 20 comuni della provincia di Salerno, è stata effettuataun’analisi di correlazione normale per studiare la relazione tra la differenza di percentuale diraccolta differenziata di due comuni fissati e la loro distanza (si tratta della distanza in linead’aria, espressa in km, dei luoghi esatti in cui è posizionato ciascun Municipio). L’esito deltest è negativo, ossia viene accettata l’ipotesi nulla di non correlazione.

Nel quarto e ultimo capitolo è stato analizzato se ed in che modo la presenza di turismoestivo in un comune della Campania possa influenzare la sua raccolta differenziata, riferendosiin particolare all’anno 2015. Si sono considerati i 60 comuni che affacciano sul mare delletre province costiere di Caserta, Napoli e Salerno, ridotti poi a 56, escludendo i comuni chenon hanno ancora fornito i dati al sistema MySir oppure per cui i dati non sono ritenutitotalmente attendibili. Come indice della presenza di turismo estivo è stata consideratala differenza tra i kg/ab/gg di rifiuti prodotti nel mese di Agosto e quelli dell’intero anno2015 (DeltaKg), infatti la presenza di turismo sicuramente determina un incremento deikg procapite giornalieri di rifiuti. Detta DeltaRD la differenza tra la %RD del mese diAgosto e quella dell’intero anno 2015, è stata effettuata un’analisi di correlazione lineareclassica tra il DeltaKg e il DeltaRD, basata, cioè, esclusivamente sull’interpretazione delgrafico a dispersione dei dati e del coefficiente di correlazione campionario r, utilizzato comemisura quantitativa della correlazione tra queste due grandezze. L’analisi è stata ripetutaquattro volte, escludendo di volta in volta le coppie di dati ritenuti anomali rispetto aglialtri (ad esempio le coppie con DeltaKg positivo, corrispondenti evidentemente a comuninon interessati fortemente da turismo estivo) ed analizzando questi casi singolarmente. Siè giunti, così, alle seguenti conclusioni: la presenza di turismo determina un incremento deikg procapite giornalieri di rifiuti da cui, con buona probabilità, la diminuzione di %RD vidipende linearmente. Inoltre, nella maggior parte dei casi, lo scarto tra %RD di Agosto e%RD annua è contenuto quando il comune già di per sé fa una buona raccolta differenziata:qui il turista è invogliato, seppur in vacanza, a riciclare bene i rifiuti. A tutto questo, però,deve aggiungersi un’indagine approfondita sulla natura dei rifiuti prodotti dal turista: questapuò variare, purtroppo, a seconda del tipo di turismo che interessa la zona.

v

Page 7: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

Capitolo 1

Alcune applicazioni e proprietà dellamisura d’informazione diKullback-Leibler

1.1 Misure d’informazione

Per facilitare la lettura di questo elaborato, vengono riportate nozioni preliminari di Teoriadell’Informazione.

La Teoria dell’Informazione nasce principalmente per rispondere ad alcuni fondamentaliquesiti nella Teoria della Comunicazione riguardanti la compressione e la trasmissione didati. Le risposte furono date essenzialmente da due quantità connesse alla probabilità diemissione del messaggio: entropia e mutua informazione. Per l’intimo legame con la Teoriadella Comunicazione, taluni considerano la Teoria dell’Informazione come un suo sottoinsie-me, molti altri invece (cfr. Cover, Thomas [2]) sostengono fermamente che essa sia molto dipiù. Infatti, essa offre fondamentali contributi non solo alla Teoria della Comunicazione maai più svariati campi dello scibile umano, quali ingegneria elettronica, fisica e termodinamica,informatica, matematica e teoria della probabilità.

L’entropia di una sorgente di messaggi è l’informazione media contenuta in ogni mes-saggio emesso. L’informazione contenuta nel messaggio è tanto più grande quanto menoprobabile era il messaggio stesso. Un messaggio scontato, che ha un’alta probabilità di es-sere emesso dalla sorgente, contiene poca informazione, mentre un messaggio inaspettato,ossia poco probabile, contiene una grande informazione.

1

Page 8: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

Nel ci si soffermerà sull’espressione matematica di entropia e di mutua informazione, indivi-duando la sorgente dei messaggi in una variabile aleatoria discreta.

L’informazione contenuta in un evento x emesso da una sorgente X, detta anche autoin-formazione, è definita come

I(x) = − logb p(x),

dove p(x) è la probabilità che si verifichi l’evento x. Il logaritmo nasce dal fatto che attraversola notazione posizionale è possibile distinguere N eventi equiprobabili con l’utilizzo di solelogbN cifre, dove b è la base di numerazione. L’informazione di un evento, pertanto, puòessere riguardata come la quantità minima di cifre in base b da utilizzare per distinguerel’evento accaduto da tutti gli altri eventi possibili. Inoltre, il logaritmo diventa indispensabilese, considerando due eventi indipendenti, si vuole che l’entropia totale sia la somma delleentropie dei singoli eventi. Il logaritmo, infine, permette di esprimere adeguatamente l’inversaproporzionalità che deve esistere tra l’informazione e la sua probabilità, infatti:se p(x)→ 0 allora − logb p(x)→ +∞, se p(x)→ 1 allora − logb p(x)→ 0.In seguito si farà uso del logaritmo naturale, scegliendo quindi b = e.

A questo punto, considerata una variabile aleatoria X con distribuzione di probabilitàp(x), è possibile dare la definizione di entropia di X come

H(X) = −∑x

p(x) log p(x).

L’entropia, dunque, è una misura dell’incertezza media contenuta nella variabile aleatoriadiscreta X.

Si può anche introdurre l’entropia condizionale, cioè la misura d’informazione necessariaper descrivere il valore di X, noto il valore di un’altra variabile aleatoria Y , definita da

H(X|Y ) = −∑x,y

p(x, y) log p(x|y).

dove p(x, y) è la distribuzione di probabilità congiunta delle due variabili X e Y .

Invece, la diminuzione dell’incertezza su X dovuta ad un’altra variabile aleatoria Y èchiamata mutua informazione, definita da

I(X;Y ) = H(X)−H(X|Y ) =∑x,y

p(x, y) log p(x, y)p(x)p(y) ,

La mutua informazione I(X;Y ) è una misura della dipendenza tra le due variabili aleatorie;è simmetrica rispetto ad X e Y e sempre non negativa.

2

Page 9: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

La mutua informazione risulta essere un caso particolare di una quantità più generale, chia-mata entropia relativa D(p||q), che è una misura della “distanza” tra due distribuzioni diprobabilità p e q. Essa è definita come

D(p||q) =∑t

p(t) log p(t)q(t) .

Sebbene non soddisfi la disuguaglianza triangolare e non risulti simmetrica, l’entropia relativagode di alcune delle proprietà di una metrica: in particolare è sempre non negativa ed è nullase e solo p = q.

Nel seguito, i concetti precedenti verranno estesi al caso di variabili aleatorie continue.Sia, quindi, X una variabile aleatoria continua con densità di probabilità f(x) e si indichicon S il suo supporto, ossia il sottoinsieme di numeri reali per cui f(x) > 0.L’entropia differenziale di X è definita da

H(X) = −E[log(f(x))] = −∫Sf(x) log(f(x))dt, (1.1.1)

dove “log” indica il logaritmo naturale e 0 log 0 = 0 per convenzione; si osservi la definizioneha senso a patto che l’integrale al secondo membro esista e può essere anche infinita. L’entro-pia differenziale dipende esclusivamente dalla densità di probabilità della variabile aleatoria edescrive l’“uniformità” della distribuzione di X, cioè come essa si estende su tutto il dominio,indipendentemente dalla concentrazione della massa di probabilità.

Esempio 1.1.1. Sia X una variabile aleatoria continua con distribuzione uniforme su (0, a),allora

H(X) = −∫ a

0f(x) log f(x)dx = −

∫ a

0

1a

log 1adx = log a.

Si noti che per a < 1, log a < 0, quindi in questo caso l’entropia differenziale di X è negativa(situazione che non può verificarsi per l’entropia di una variabile aleatoria discreta).

Esempio 1.1.2. Sia X variabile aleatoria normale di parametri 0 e σ2, con σ ∈ R+; allora

H(X) = −∫Rf(x) log f(x)dx = −

∫Rf(x)

[− x2

2σ2 − log√

2πσ2

]dx

= E(X2)2σ2 + 1

2 log(2πσ2) = 12 + 1

2 log(2πσ2)

= 12 log e + 1

2 log(2πσ2) = 12 log(2πσ2e).

3

Page 10: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

La definizione di entropia differenziale può essere estesa anche a più variabili aleatorie.L’entropia differenziale di un insieme X1, X2, ..., Xn di variabili aleatorie, con densità con-giunta f(x1, x2, ..., xn), è definita come

H(X1, X2, ..., Xn) = −∫f(x1, x2, ...xn) log f(x1, x2, ..., xn)dx1dx2...dxn.

Esempio 1.1.3. Siano X1, X2, ..., Xn variabili aleatorie aventi distribuzione normale mul-tivariata con vettore dei valori medi m = (µ1, µ2, ..., µn)T e matrice di covarianza K (per idettagli di tale distribuzione si veda l’Appendice B); la densità di probabilità è

f(x) =

√|C−1|

(2π)n/2 exp[−1

2 (x−m)T C−1 (x−m)], (1.1.2)

allora si può verificare che l’entropia differenziale delle variabili X1, X2, ..., Xn è

H(X1, X2, ..., Xn) = 12 log(2πe)n|K|,

infatti

H(X1, X2, ..., Xn) = −∫f(x)

[−1

2(x−m)TK−1(x−m)− log(√

2π)n|K|1/2]dx

= 12 E

∑i,j

(xi − µi)(K−1)ij(xj − µj))+ 1

2 log(2π)n|K|

= 12∑i,j

E [(xi − µi)(xj − µj))] (K−1)ij + n

2 log(2π)|K|

= 12∑j

∑i

Kji(K−1)ij + n

2 log(2π)|K|

= 12∑j

(KK−1)jj + n

2 log(2π)|K|

= 12∑j

Ijj + n

2 log(2π)|K|

= n

2 + n

2 log(2π)|K| = n

2 log(2πe)|K|.

Si considerino due variabili aleatorie X e Y con densità congiunta f(x, y); è possibile

4

Page 11: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

definire l’entropia differenziale condizionale come

H(X|Y ) = −∫f(x, y) log f(x|y)dxdy.

Poiché in generalef(x|y) = f(x, y)

f(y) ,

si può scrivereH(X|Y ) = H(X, Y )−H(Y ),

a patto che al secondo membro non si presenti la forma indeterminata ∞−∞.

Anche i concetti di entropia relativa e mutua informazione possono essere estesi al casocontinuo. L’entropia relativa differenziale (o distanza di Kullback-Leibler) di X e Y è definitacome funzione delle due rispettive densità f e g:

D(f ||g) = −∫f(t) log

(f(t)g(t)

)dt. (1.1.3)

Si noti che D(f ||g) è finita se e solo se il supporto di f è contenuto nel supporto di g.L’equazione (1.1.3) fornisce una misura della differenza tra due distribuzioni, in particolareD(f ||g) “misura” quanto sia inefficiente assumere in un modello stocastico che la densità diprobabilità sia g quando invece la vera densità di probabilità è f .

Si conclude con la mutua informazione tra due variabili aleatorie di densità congiuntaf(x, y), definita come

I(X;Y ) =∫f(x, y) log f(x, y)

f(x)f(y)dxdy

Facendo uso delle sole definizioni, si verifica che la mutua informazione tra X e Y soddisfale seguenti uguaglianze:

I(X;Y ) = H(X)−H(X|Y ) = H(Y )−H(Y |X),

I(X;Y ) = D (f(x, y)||f(x)f(y)) .

1.2 Misura d’informazione di Kullback-Leibler

Nel seguito si farà riferimento aX e Y variabili aleatorie non negative assolutamente continuecon densità di probabilità f e g, rispettivamente.

5

Page 12: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

L’entropia cumulativa di X è definita da

CE(X) = −∫ +∞

0F (t) log(F (t))dt, (1.2.1)

dove F (t) = P (X ≤ t) è la funzione di distribuzione di X. Risulta evidente che la misuraappena definita si ottiene dalla (1.1.1) rimpiazzando la densità di probabilità f con la distri-buzione cumulativa F .Se la variabile aleatoria X in questione ha anche media finita e non nulla, è interessanteconsiderare l’entropia cumulativa normalizzata, definita come

NCE(X) = CE(X)E(X) = − 1

E(X)

∫ +∞

0F (t) log(F (t))dt. (1.2.2)

Si ponga l’attenzione, adesso, su alcune limitazioni superiori per l’entropia cumulativa diX, variabile aleatoria che prende valori in [0, b] con b finito: esse si otterranno applicandoalcune proprietà del logaritmo naturale. Si ricordi, innanzitutto, la disuguaglianza log-sum:date f e g funzioni positive integrabili, si ha che

∫f(x) log f(x)

g(x)dx ≥(∫

f(x)dx)

log

∫f(x)dx∫g(x)dx

;

nel contesto considerato, le due funzioni integrabili e positive scelte sono F (t) e la costante1, sicché si ottiene

∫ b

0F (t) log(F (t))dt ≥

∫ b

0F (t)dt log

∫ b

0F (t)dt∫ b

01dt

=∫ b

0F (t)dt log

∫ b

0[1− (1− F (t))]dt

b

=∫ b

0F (t)dt log

b−

∫ b

0(1− F (t))dt

b

6

Page 13: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

=∫ b

0F (t)dt log

(1− E(X)

b

),

da cui

CE(X) = −∫ b

0F (t) log(F (t))dt

≤∫ b

0F (t)dt log

∫ b

0F (t)dt∫ b

01dt

=∫ b

0F (t)dt

− log

∫ b

0[1− (1− F (t))]dt

b

= [b− E(X)]∣∣∣∣∣log

(1− E(X)

b

)∣∣∣∣∣ .Da un’altra proprietà del logaritmo, quella per cui

−u log u ≤ θ − u(log θ + 1) quando u ≥ θ e θ ∈ (0,1],si ottiene, invece, la seguente limitazione superiore per l’entropia cumulativa di X, scegliendou = F (t):

CE(X) ≤ θb− [b− E(X)](log θ + 1), con 0 < θ ≤ 1,e ponendo θ = 1 segue che

CE(X) ≤ E(X). (1.2.3)

Tale disuguaglianza può essere dimostrata per qualunque variabile aleatoria non negativa,quindi l’entropia cumulativa di X è finita se è finito il suo valore atteso E(X). Infine,ricordando la definizione di entropia cumulativa normalizzata in (1.2.2) , si ha che

NCE(X) ≤ E(X). (1.2.4)

D’ora in avanti per ogni variabile aleatoria con funzione di distribuzione cumulativa FT ,gli estremi di sinistra e di destra del suo supporto verranno indicati rispettivamente con

lT = inft ∈ R : FT > 0, rT = supt ∈ R : FT < 1.Si consideri adesso una misura di discriminazione tra due variabili aleatorie X e Y , con

funzioni di distribuzione rispettivamente F (t) e G(t), recentemente introdotta da Park.

7

Page 14: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

Definizione 1.2.1. Siano X ed Y due variabili aleatorie con medie finite, per le quali si halX = lY = l. La misura d’informazione cumulativa di Kullback-Leibler tra X e Y è definitada

CKL(X, Y ) =∫ maxrX ,rY

lF (t) log

(F (t)G(t)

)dt+ E(X)− E(Y ), (1.2.5)

a patto che l’integrale che compare al secondo membro esista e sia finito.

La misura appena definita può essere rivista come la giusta estensione per le funzioni didistribuzione cumulative della distanza di Kullback-Leibler espressa in (1.1.3). Essa vienecostruita in modo da essere non negativa. Si dimostra, infatti, la seguente.

Proposizione 1.2.2. CKL(X, Y ) ≥ 0. In particolare, CKL(X, Y ) = 0 se e solo seF (u) = G(u) quasi ovunque.

Dimostrazione. Ricordando che X e Y sono non negative, si sostituiscono ad E(X) ed E(Y )le loro espressioni in termini delle rispettive funzioni di distribuzione; facendo poi uso dellaproprietà che log x ≤ x− 1 per ogni x > 0, si ha:

∫ +∞

0F (t) log

(F (t)G(t)

)dt+

∫ +∞

0(1− F (t))dt−

∫ +∞

0(1−G(t))dt

= −∫ +∞

0F (t)dt log

(F (t)G(t)

)−∫ +∞

0F (t)dt−

∫ +∞

0G(t)dt

≥∫ +∞

0F (t)

(1− G(t)

F (t)

)dt−

∫ +∞

0F (t)dt−

∫ +∞

0G(t)dt = 0.

L’uguaglianza a 0, in particolare, si ha se e solo se la funzione integranda, che è non negativa,si annulla quasi ovunque; ciò si verifica se e solo se

log(F (t)G(t)

)= 0 quasi ovunque

infatti F (t) non può annullarsi mai nell’intervallo di integrazione, poiché quest’ultimo èristretto all’unione dei supporti delle due funzioni di distribuzione. Allora, l’uguaglianza a 0si ha se e solo se l’argomento del logaritmo vale 1 quasi ovunque, quindi, in definitiva, se esolo se F (t) = G(t) quasi ovunque.

Inoltre CKL(X, Y ) /= CKL(Y,X), come si evince dal seguente esempio.

Esempio 1.2.3. Siano Xa e Xb variabili aleatorie continue con distribuzione uniforme su(0, a) e (0, b) rispettivamente, allora CKL(Xa, Xb) /= CKL(Xb, Xa) poiché dalla definizione

8

Page 15: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

stessa segue che

CKL(Xa, Xb) =

a

2 log(a

2

)+ b− a

2 , se 0 < a < b

(a− b)2

4a , se 0 < b < a.

Segue lo studio degli effetti di trasformazioni lineari sulla misura d’informazione diKullback- Leibler.

Proposizione 1.2.4. Siano X e Y variabili aleatorie con medie finite per le quali lX = lY ;per a, c > 0 e b ≥ 0, si ha:

CKL(aX + b, cY + b) = aCKL

(X,

c

aY)

+ aE(X)− cE(Y )

= cCKL

(a

cX, Y

)+ aE(X)− cE(Y ).

Dimostrazione. Ricordando che, considerate due costanti reali non negative α e β, con α /= 0,

la funzione di distribuzione della variabile αX + β è F(x− βα

), dalla Definizione 1.2.1 si

ha:

CKL(aX + b, cY + b) =∫ +∞

0F

(t− ba

)log

F

(t− ba

)

G

(t− bc

) dt+ E(aX + b)− E(cY + b)

da cui, ponendo s := t− ba

, si ottiene

∫ +∞

0F (s) log

F (s)

G(a

cs) ds+ aE(X)− cE(Y )

essendo G(a

cs)la funzione di distribuzione della variabile aleatoria c

aY , per quanto osser-

vato inizialmente.Ponendo, invece, s := t− b

csi giunge alla seconda uguaglianza.

Per ogni coppia di variabili aleatorie X e Y i cui supporti hanno lo stesso estremo disinistra, l’inaccuratezza cumulativa è definita da

K(X, Y ) = −∫ maxrX ,rY

lF (t) logG(t)dt, (1.2.6)

9

Page 16: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

a patto che l’integrale al secondo membro esista e sia finito.

Osservazione 1.2.5. Data una coppia di variabili aleatorie X e Y con medie finite i cuisupporti hanno lo stesso estremo di sinistra e tali che CKL(X, Y ) sia finita, dalla (1.2.5), siha

CKL(X, Y ) = K(X, Y )− CE(X) + E(X)− E(Y ), (1.2.7)

dove CE(X) e K(X, Y ) sono definite rispettivamente in (1.2.1) e (1.2.6).

Per una variabile aleatoria assolutamente continua non negativaX, la funzione d’azzardoinversa è

τX(t) = f(t)F (t) , per t > 0 tale che F (t) > 0.

Osservazione 1.2.6. Se X e Y sono variabili aleatorie assolutamente continue non negative,allora CE(X) e K(X, Y ) soddisfano le seguenti uguaglianze

CE(X) = E[T

(2)X (X)

], K(X, Y ) = E

[T

(2)Y (X)

]dove

T(2)X (t) := −

∫ +∞

tlog (F (s)) =

∫ +∞

t

∫ +∞

sτX(x)dxds, t > 0,

e T (2)Y (t) è definita analogamente.

Dimostrazione. Per il Teorema di Fubini, è possibile invertire l’ordine di integrazione comesegue:

E[T

(2)X (X)

]=∫ +∞

0f(t)T (2)

X (t)dt =∫ +∞

0f(t)

(∫ +∞

tlog(F (s))ds

)dt

= −∫ +∞

0log(G(s))

(∫ s

0f(t)dt

)ds = −

∫ +∞

0F (t) logG(t)dt = K(X, Y ).

Esempio 1.2.7. Siano X e Y variabili aleatorie esponenziali con parametri rispettivamen-te 1 e µ. Dalle equazioni (1.1.3) e (1.2.5) si ottengono l’entropia relativa e la misurad’informazione cumulativa di Kullback-Leibler

IX,Y = 1µ− 1 + log µ, CKL(X, Y ) = 2− γ − 1

µ− µ+ 1

6(µ− 1)π2 − ψ(µ)

dove γ = 0,577216 è la costante di Eulero e ψ(z) = Γ′(z)/Γ(z) è la funzione digamma. Sipuò osservare che tali misure sono funzioni di µ e, come ci si aspetta, sono vicine a 0 quandoµ tende ad 1, mentre sono strettamente crescenti se µ si allontana da 1.

10

Page 17: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

Si conclude questo paragrafo mostrando un legame tra la misura d’informazione cumu-lativa di Kullback-Leibler e il Modello delle funzioni d’azzardo inverse proporzionali. In talemodello, le funzioni di distribuzione di Xϑ e X sono correlate dalla seguente equazione

Fϑ(t) = [F (t)]ϑ, ∀ t ∈ R, ϑ > 0. (1.2.8)

dove Fϑ(t) è la funzione di distribuzione della variabile Xϑ (analogamente si indicherà confϑ(t) la sua densità di probabilità).

Osservazione 1.2.8. La condizione espressa nella (1.2.8) equivale alla seguente

τXϑ(t) = ϑτX(t), ∀ t ∈ R. (1.2.9)

Dimostrazione. Si supponga che Xϑ e X soddisfino l’equazione (1.2.8). Essendo

fϑ(t) = dFϑ(t)dt

= ϑ[F (t)]ϑ−1f(t),

è sufficiente considerare la definizione stessa di τXϑper ottenere la sua proporzionalità a τX

mediante ϑ. Si supponga, ora, che sia soddisfatta l’equazione (1.2.9). Integrando ambo imembri si ha

∫ fϑ(t)Fϑ(t)dt =

∫ϑf(t)F (t)dt ⇒ log(Fϑ(t)) = ϑ log(F (t)) + c, ∀ t ∈ R, c ∈ R

⇒ log(Fϑ(t)) = log[(F (t))ϑ] + log k, ∀ t ∈ R, k ∈ R

⇒ Fϑ(t) = k[F (t)]ϑ, ∀ t ∈ R, k ∈ R

ma k = 1 in virtù di una delle due condizioni al limite per le funzioni di distribuzioni, infatti

1 = limt→∞

Fϑ(t) = limt→∞

k[F (t)]ϑ = k.

La relazione tra la misura d’informazione cumulativa di Kullback-Leibler e il modellodelle funzioni d’azzardo inverse proporzionali è espressa dalla seguente.

Proposizione 1.2.9. Se X e Xϑ sono variabili aleatorie soddisfacenti il modello dellefunzioni d’azzardo inverse proporzionali, definito dalla (1.2.6), allora

11

Page 18: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

CKL(X,Xϑ) = (ϑ− 1)CE(X) + E(X)− E(Xϑ).

Dimostrazione. Dall’equazione (1.2.8), richiamando le (1.2.1) e (1.2.6), si ha K(X,Xϑ) =ϑCE(X). La dimostrazione segue immediatamente dall’Osservazione 1.2.5.

1.3 Misura d’informazione empirica di Kullback-Leibler

In questa sezione, ci si concentrerà su di un’interessante applicazione della misura d’infor-mazione cumulativa di Kullback-Leibler nell’analisi di dati. A tal proposito, si discuterà in-nanzitutto del problema di stimare la misura d’informazione cumulativa di Kullback-Leiblerattraverso una misura di discriminazione empirica.Si considerino due campioni casuali indipendenti

X = (Xi, i = 1, ..., n) e Y = (Yj, j = 1, ...,m),

dove Xi e Yj sono a due a due copie indipendenti rispettivamente delle variabili aleatorie Xe Y , aventi la stessa unità di misura. In accordo con la Definizione 1.2.1 , si dà la seguente.

Definizione 1.3.1. Siano X e Y variabili aleatorie assolutamente continue non negative.La misura d’informazione cumulativa empirica di Kullback-Leibler di X e Y è definita da

CKL(Fn, Gm) =∫ +∞

0Fn(x) log

(Fn(x)Gm(x)

)dx+ Xn − Ym,

doveFn(x) = 1

n

n∑i=1

1Xi≤x, Gm(x) = 1m

m∑j=1

1Yj≤x, x ∈ R,

sono le funzioni di distribuzione empiriche dei campioni, mentre Xn e Ym sono le mediecampionarie.

Con lo scopo di ottenere una formula efficiente a livello computazionale per CKL(Fn, Gm),si introducono le statistiche d’ordine di entrambi i campioni, X(1) ≤ X(2) ≤ ... ≤ X(n) per Xe analogamente Y(1) ≤ Y(2) ≤ ... ≤ Y(m) per Y , ponendo Y(0) = −∞.

Osservazione 1.3.2. In accordo con l’Osservazione 1.2.5, non è difficile convincersi che lamisura d’informazione cumulativa empirica di Kullback-Leibler può essere riscritta come

CKL(Fn, Gm) = K(Fn, Gm)− CE(Fn) + Xn − Ym, (1.3.1)

12

Page 19: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

doveCE(Fn) = −

∫ +∞

0Fn(x) log

(Fn(x)

)dx è l’entropia cumulativa empirica,

mentre

K(Fn, Gm) = −∫ +∞

0Fn(x) log

(Gm(x)

)dx è l’inaccuratezza cumulativa empirica.

Risultano necessarie anche altre due osservazioni.

1. Vale la seguente espressione per l’entropia cumulativa empirica

CE(Fn) = −n−1∑i=1

Ui+1i

nlog

(i

n

),

dove U1 = X(1) e Ui = X(i) −X(i−1), per i = 1, ..., n, infatti, ricordando che Fn(x) = 0per x < x(1), Fn(x) = 1/n per x(1) ≤ x < x(2), e così via fino ad avere Fn(x) = 1 perx ≥ x(n), si ha:

∫ +∞

0Fn(x) log

(Fn(x)

)dx =

n−1∑i=1

∫ x(i+1)

x(i)

Fn(x) log(Fn(x)

)dx

=n−1∑i=1

∫ x(i+1)

x(i)

i

nlog

(i

n

)dx =

n−1∑i=1

(x(i) − x(i+1))i

nlog

(i

n

)

dove x(i) è il valore assunto dalla i-esima statistica d’ordine X(i), in corrispondenzadi una realizzazione del campione casuale X ; allora, prescindendo dalla realizzazione,si ottiene l’espressione suddetta per l’entropia cumulativa empirica. Quest’ultima,inoltre, in accordo con la (1.2.2), può essere anche normalizzata se divisa per la mediacampionaria:

NCE(X) = CE(Fn)Xn

≤ 1 (1.3.2)

2. Vale la seguente espressione per l’inaccuratezza cumulativa empirica

K(Fn, Gm) = −m−1∑j=1

∫ Y(j+1)

Y(j)

Fn(u) log(j

m

)du

= 1n

n∑j=1

Nj+1−Nj∑r=1

Xj,r +NjY(j) −Nj+1Y(j+1)

log(j

m

),

13

Page 20: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

doveNj :=

n∑i=1

1Xi≤Y(j), j = 1,2, ...,m

denota il numero di variabili del campione X che sono minori o uguali della j-esimastatistica d’ordine di Y , mentre sono state rinominate con Xj,r, r = 1,2, ..., (Nj+1−Nj),le variabili del primo campione che appartengono all’intervallo (Y(j), Y(j+1)]. Seguela dimostrazione della validità dell’uguaglianza suddetta: esplicitando la funzione didistribuzione empirica del secondo campione ed indicando con y(j) il valore assunto dallaj-esima statistica d’ordine Y(j) in corrispondenza di una realizzazione del campione Y ,si ha ∫ +∞

0Fn(u) log

(Gm(u)

)du =

m−1∑j=1

∫ Y(j+1)

Y(j)

Fn(u) log(j

m

)du

ed esplicitando anche la funzione di distribuzione empirica del primo campione siottiene

∫ +∞

0Fn(u) log

(Gm(u)

)du =

m−1∑j=1

log(j

m

) [∫ y(j+1)

y(j)

1n

n∑i=1

1X(i)≤udu

]

= 1n

m−1∑j=1

log(j

m

) [∫ y(j+1)

y(j)

n∑i=1

1X(i)≤udu

].

Resta da risolvere l’integrale tra parentesi quadre per ogni j = 1, ...,m − 1: detti xj,ri valori del primo campione compresi tra y(j) e y(j+1), per la linearità dell’integralerispetto all’intervallo, esso coincide con la somma

∫ x(j,1)

y(j)

n∑i=1

1X(i)≤udu+∫ xj,2

xj,1

n∑i=1

1X(i)≤udu+ ...+∫ y(j+1)

xj,(Nj+1−Nj )

n∑i=1

1X(i)≤udu

=∫ x(j,1)

y(j)

Njdu+∫ xj,2

xj,1(Nj + 1)du+ ...+

∫ y(j+1)

xj,(Nj+1−Nj )

Nj+1du

infatti, al variare dell’intervallo di appartenenza della variabile d’integrazione u, il nu-mero di valori del primo campione minori o uguali ad u varia da Nj a Nj+1 (tale numerosi incrementa ogni volta di 1); in definitiva si ottiene

∫ +∞

0Fn(u) log

(Gm(u)

)du = −xj,1 − y(j)Nj − xj,2 − ...− xj,(Nj+1−Nj) + y(j+1)Nj+1

14

Page 21: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

= y(j+1)Nj+1 − y(j)Nj −Nj+1−Nj∑

r=1xj,r.

Così, prescindendo dalle realizzazioni dei campioni, si giunge finalmente all’espressionedesiderata per l’inaccuratezza cumulativa empirica.

In accordo con la (1.3.2), si considera anche la misura d’informazione cumulativa empiricadi Kullback-Leibler normalizzata:

NCKL(Fn, Gm) = CKL(Fn, Gm)Xn

. (1.3.3)

Si noti che nella pratica risulta vero che 0 ≤ NCKL(Fn, Gm) ≤ 1, ecco perché si parla ancorauna volta di normalizzazione della misura di partenza; ma è bene sottolineare che questacondizione non è supportata da una dimostrazione teorica, come invece accade per l’entropiacumulativa normalizzata, e dunque per la sua analoga empirica.

Vale, infine, il seguente risultato di tipo asintotico.

Proposizione 1.3.3. Siano X e Y variabili aleatorie non negative. Se X ∈ Lp per qualchep > 1 e X ≥st Y , allora la misura d’informazione cumulativa empirica di Kullback-Leiblerdi X e Y converge alla misura d’informazione cumulativa di X e Y , cioè

CKL(Fn, Gm)→ CKL(X, Y ) per n→ +∞,m→ +∞,

dove X si dice maggiore di Y secondo l’ordinamento stocastico usuale (e lo si denota conX ≥st Y ) se F (t) ≤ G(t), per ogni t ∈ R.

Dimostrazione. Per la legge dei grandi numeri, si ha che Xn → E(X) per n → +∞ eYm → E(Y ) per m → +∞. Inoltre, per le ipotesi fatte CE(Fn) → CE(X) per n → +∞.Analogamente, facendo uso dell’assunzione che F (t) ≤ G(t), per ogni t ∈ R, è possibileprovare che K(Fn, Gm)→ K(X, Y ) per n→ +∞ e m→ +∞. La dimostrazione, pertanto,segue immediatamente dalle relazioni espresse dalle (1.2.7) e (1.3.3).

1.4 Applicazioni nell’analisi di dati

Nel seguito, vengono esaminate alcune applicazioni, nell’ambito dell’analisi di dati, di quantoesposto nel paragrafo 1.2. Nelle 1.3.1 e 1.3.2 si riporta il codice realizzato con l’ambiente dicalcolo Mathematica, compilato al fine di calcolare le varie misure introdotte nel paragrafo

15

Page 22: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

precedente, relative a due campioni fissati. Lo stesso codice, è stato utilizzato per calcolare lemisure d’informazioni empiriche per nove campioni di dati inerenti la percentuale di raccoltadifferenziata di rifiuti (si veda 1.3.3).

Applicazione 1.3.1

Un’industria produce lampadine di due diverse tipologie, A (di durata maggiore) e B: èragionevole ritenere identiche le lampadine che appartengono ad una stessa tipologia e con-siderare indipendenti tra loro le due tipologie. Per un test di affidabilità, si preleva un lottodi 17 lampadine del tipo A e uno di 14 del tipo B che vengono accese simultaneamente.Le durate, in ore, di ciascuna delle lampadine possono riguardarsi come variabili aleatorieindipendenti costituenti due campioni casuali, a loro volta indipendenti.

X = (X1, ..., Xn) è il campione di taglia n = 17 per il tipo A,

Y = (Y1, ..., Ym) è il campione di taglia m = 14 per il tipo B.

In particolare, le durate delle lampadine osservate sono:

(250, 234, 270, 245, 260, 239, 280, 243, 237, 287, 255, 270, 272, 244, 250, 272, 280) per il tipo A,

(220, 195, 235, 192, 215, 201, 241, 187, 197, 213, 232, 192, 211, 206) per il tipo B.

Segue il codice realizzato con Mathematica, di cui sopra, applicato ai campioni X e Y .

16

Page 23: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

[_ _] = [ ≤ ]

[ ≤ ]

=

=

= [[] ]

= [ ]

= []

= []

[_] = ( / ) *

=

[[[]] ]

([ ≤ ] + [ ≤ ] + [ ≤ ] +

[ ≤ ] + [ ≤ ] + [ ≤ ] + [ ≤ ] +

[ ≤ ] + [ ≤ ] + [ ≤ ] +

[ ≤ ] + [ ≤ ] + [ ≤ ])

=

=

= [[] ]

= [ ]

= []

= []

[_] = ( / ) *

=

[[[]] ]

([ ≤ ] + [ ≤ ] + [ ≤ ] +

[ ≤ ] + [ ≤ ] + [ ≤ ] +

[ ≤ ] + [ ≤ ] + [ ≤ ] +

[ ≤ ] + [ ≤ ] + [ ≤ ] + [ ≤ ])

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

17

Page 24: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

=

=

[[] [] [] - [] +

→ → → ]

220 240 260 280

0.2

0.4

0.6

0.8

1.0

Fn(u)

Gm(u)

= -

[] * [[]] ⅆ

= -

=

-

(([[ + ]] - [[]]) * ( / ) * [ / ])

= /

= -

[] [[]] ⅆ

= -

=

-

(([[ + ]] - [[]]) * ( / ) * [ / ])

= /

=

=

[[[]] [[]]]

2 Applicazione 1.3.1.nb

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

18

Page 25: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

= -[]

[]

[] [[]] ⅆ

= ( / ) *

=

-

[ / ] *

=

[[[]] < [[]] ≤ [[ + ]] [[]] ] +

[[]] * [[]] - [[ + ]] * [[ + ]]

= []

[]

[] [[] / []] ⅆ + -

= - + -

= /

=

=

[[[]] [[]]]

= -[]

[]

[] [[]] ⅆ

= ( / ) *

=

-

[ / ] *

=

[[[]] < [[]] ≤ [[ + ]] [[]] ] +

[[]] * [[]] - [[ + ]] * [[ + ]]

= []

[]

[] [[] / []] ⅆ + -

-

= - + -

-

Applicazione 1.3.1.nb 3

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

19

Page 26: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

Si sono definite innanzitutto le variabili relative ai due campioni, calcolate, le mediecampionarie, riordinati i campioni in senso crescente e considerati i valori minimi e massimi,tramite le relative funzioni di Mathematica.

Dopo aver implementato la funzione indicatrice, sono state definite le funzioni di distribu-zione empiriche relative ai due campioni ed è stato effettuato il controllo dell’ipotesi dellaProposizione 1.3.3 così da poter approssimare CKL(X, Y ) con CKL(Fn, Gm). Come si evincedal grafico, la distribuzione del primo campione si mantiene sempre al di sotto di quella delsecondo, per ogni u. Si osservi che per u minore del più piccolo dei minimi entrambe le di-stribuzioni si annullano, mentre per u maggiore del più grande dei massimi entrambe valgono1, ecco perché è sufficiente far variare u nell’intervallo sopra considerato. Si tenga conto che,per alleggerire la nomenclatura, in tutte le espressioni seguenti, sono state sostituite X e Yalle Fn e Gm, rispettivamente.

Sono state, poi, calcolate le entropie cumulative empiriche e le conseguenti entropie norma-lizzate, attraverso la definizione e con la formula esposta al punto 1. dell’Osservazione 1.3.2.

Si è ottenuta, poi, l’inaccuratezza cumulativa empirica K(Fn, Gm), anche in questo casoattraverso la definizione e con la formula del punto 2. dell’Osservazione precedentementecitata, adoperando il vettore di componenti Nj = ∑n

i=1 1Xi≤Y (j), j = 1,2, ...,m (nel codiceindicato con N1).

Infine, è stata calcolata la misura cumulativa empirica di Kullback-Leibler, attraverso ladefinizione e con la formula espressa ancora una volta nell’Osservazione 1.3.2, e la corri-spondente misura normalizzata. Risulta interessante osservare che i due risultati coincidonoperché, come già detto precedentemente, è valida l’ipotesi della Proposizione 1.3.3.

Quando questa, invece, non è verificata non si può essere certi che la misura cumulativaempirica di Kullback-Leibler costituisca una buona stima di CKL(Fn, Gm). A tal proposito,invertendo i ruoli dei due campioni, l’ipotesi suddetta non è più verificata, sicché bisognaprocedere diversamente per confermare o meno che sia possibile tale stima: nel caso in que-stione, è stata calcolata CKL(Gm, Fn) attraverso la definizione e, osservando che il suo valorenon coincide con il risultato ottenuto con la formula K(Gm, Fn) − CE(Gm) + Ym − Xn, èstato finalmente possibile concludere che CKL(Gm, Fn) non costituisca una buona stima perCKL(Y,X).

20

Page 27: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

Applicazione 1.3.2

Vengono curati 14 pazienti con due diverse terapie: a 8 di essi viene somministrato un far-maco di tipo A, a 6 un farmaco di tipo B.

Si osservano i tempi di guarigione (in giorni) di ciascun paziente, riguardandoli come valo-ri assunti da variabili aleatorie indipendenti costituenti due campioni casuali, a loro voltaindipendenti: il primo campione riporta il tempo di guarigione degli 8 pazienti curati confarmaco A, il secondo dei restanti 6 curati con farmaco B.

X = (X1, ..., Xn) è il campione di taglia n = 8 per il tipo A,

Y = (Y1, ..., Ym) è il campione di taglia m = 6 per il tipo B.

In particolare, le durate delle lampadine osservate sono:

(16, 32, 24, 26, 18, 26, 30, 28) per il tipo A,

(15, 24, 20, 24, 18, 28) per il tipo B.

Analogamente all’applicazione precedente, è stato utilizzato l’ambiente di calcolo Mathema-tica: si sono definite innanzitutto le variabili relative ai due campioni, calcolate le mediecampionarie, riordinati i campioni in senso crescente e considerati i valori minimi e massimi;poi, implementate la funzione indicatrice e le funzioni di distribuzione empiriche dei duecampioni, è stato effettuato il controllo dell’ipotesi della Proposizione 1.3.3: come si evincedal grafico, la distribuzione del primo campione si mantiene sempre al di sotto di quella delsecondo, per ogni u, quindi è possibile approssimare CKL(X, Y ) con CKL(Fn, Gm). Sonostate, poi, calcolate le entropie cumulative empiriche, l’inaccuratezza cumulativa empiricaK(Fn, Gm) e la misura cumulativa empirica di Kullback-Leibler, tutte attraverso le defi-nizioni e con le rispettive formule esposte nell’Osservazione 1.3.2. Le entropie cumulativeempiriche e la misura cumulativa empirica di Kullback-Leibler sono state anche normalizza-te. Infine, è stato osservato che, invertendo i ruoli dei campioni, CKL(Gm, Fn) non costituisceuna buona stima per CKL(Y,X).

Per completezza, segue il codice realizzato con Mathematica applicato a questi due campio-ni.

21

Page 28: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

[_ _] = [ ≤ ]

[ ≤ ]

=

=

= []

= [ ]

= []

= []

[_] = ( / ) *

=

[[[]] ]

([ ≤ ] + [ ≤ ] + [ ≤ ] +

[ ≤ ] + [ ≤ ] + [ ≤ ] + [ ≤ ])

=

=

= [[] ]

= [ ]

= []

= []

[_] = ( / ) *

=

[[[]] ]

([ ≤ ] + [ ≤ ] +

[ ≤ ] + [ ≤ ] + [ ≤ ])

=

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

22

Page 29: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

=

[[] [] [] - [] +

→ → → ]

20 25 30

0.2

0.4

0.6

0.8

1.0

Fn(u)

Gm(u)

= -

[] * [[]] ⅆ

= -

=

-

(([[ + ]] - [[]]) * ( / ) * [ / ])

= /

= -

[] [[]] ⅆ

= -

=

-

(([[ + ]] - [[]]) * ( / ) * [ / ])

= /

=

=

[[[]] [[]]]

= -[]

[]

[] [[]] ⅆ

2 Applicazione 1.3.2.nb

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

23

Page 30: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

= ( / ) *

=

-

[ / ] *

=

[[[]] < [[]] ≤ [[ + ]] [[]] ] +

[[]] * [[]] - [[ + ]] * [[ + ]]

= []

[]

[] [[] / []] ⅆ + -

= - + -

= /

=

=

[[[]] [[]]]

= -[]

[]

[] [[]] ⅆ

= ( / ) *

=

-

[ / ] *

=

[[[]] < [[]] ≤ [[ + ]] [[]] ] +

[[]] * [[]] - [[ + ]] * [[ + ]]

= []

[]

[] [[] / []] ⅆ + -

- + -

Applicazione 1.3.2.nb 3

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

24

Page 31: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

1.3.3 Applicazioni nell’analisi di dati sulla raccolta differenziatadi rifiuti

Alcuni dei comuni della provincia di Salerno presenti sulla piattaforma MySir di Microam-biente srl sono stati suddivisi in classi in base all’area geografica di appartenenza; per cia-scuno di essi si è considerata la percentuale di raccolta differenziata dell’anno 2015, ottenutacon la semplice formula aritmetica:

%RD = RD

RI +RD× 100

dove

RD = Somma dei quantitativi dei rifiuti urbani raccolti all’origine in modo separato rispettoagli altri rifiuti urbani e raggruppati in frazioni omogenee,

RI = Somma dei quantitativi dei rifiuti urbani raccolti in modo indifferenziato.

Si rende noto che l’obiettivo di legge per ciascun comune, come previsto dall’articolo 205del Dlsg 152/06, è raggiungere almeno il 65% di RD; talvolta, un valore molto alto di %RD(prossimo al 100%) può corrispondere alla non attendibilità dei dati forniti dal comune inquestione: in tal caso, o quando i dati sono parziali, il nome sarà affiancato da un asterisco(∗) .

I comuni considerati sono stati ripartiti nei seguenti 9 campioni:

• Comuni Costieri

C1 composto dalle %RD di 5 comuni della Costiera Amalfitana,

Comuni C1 %RDVietri sul Mare 47,48Cetara 41,05Minori 81,08Ravello 58,79Positano 51,73

C2 composto dalle %RD di 12 comuni, 11 comuni della Costiera Cilentana e Salerno,

25

Page 32: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

Comuni C2 %RD Comuni C2 %RDSalerno 64,05 Montecorice 63,76Pontecagnano 52,43 Pollica 76,87Eboli 49,09 Casal Velino 80,53Capaccio-Paestum 67,26 Pisciotta 66,89Agropoli 62,20 Camerota 57,32Castellabate 56,07 San Giovanni a Piro 53,89

• Comuni che non affacciano sul mare, dal territorio collinare e pianeggiante

P1 composto dalle %RD di 7 comuni della Piana del Sele,

Comuni P1 %RDSerre 45,91Altavilla Silentina 75,22Postiglione 59,93Albanella 76,49Castel San Lorenzo 77,17Aquara 57,77Trentinara 74,53

P2 composto dalle %RD di 4 comuni del Vallo di Diano,

Comuni P2 %RDSanza 64,06Casalbuono 58,89Sassano (∗) 96,44Padula 65,17

P3 composto dalle %RD di 7 comuni della Valle dell’Irno,

Comuni P3 %RDPellezzano 64,17Baronissi 80,89Mercato San Severino 62,53Fisciano 67,16Calvanico 62,52Siano 53,09Roccapiemonte 64,46

26

Page 33: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

P4 composto dalle %RD di 6 comuni dell’Agro Nocerino-Sarnese,

Comuni P4 %RDCastel San Giorgio 79,19Nocera Inferiore 36,84Pagani 18,76Sant’Egidio del Monte Albino 51,10Angri 47,96Tramonti 75,44

• Comuni che non affacciano sul mare, dal territorio prevalentemente montuoso

T1 composto dalle %RD di 6 comuni appartenenti alla Comunità Montana dei MontiPicentini,

Comuni T1 %RDGiffoni Valle Piana 71,47Castiglione dei Genovesi 74,04San Mango Piemonte 69,19San Cipriano Picentino 67,52Giffoni sei Casali 79,12Montecorvino Rovella 62,84

T2 composto dalle %RD di 23 comuni del Parco nazionale del Cilento,

Comuni T2 %RD Comuni T2 %RDMagliano Vetere 55,89 Roscigno 47,67Stio 46,39 Sant’Angelo a Fasanella 76,26Campora 52,24 Petina 91,37Moio della Civitella 79,07 Auletta 75,04Cannalonga 50,38 Buccino 77,43Valle dell’Angelo 46,66 San Gregorio Magno 40,15Roccadaspide 77,31 San Rufo 56,96Pertosa (∗) 90,17 Montano Antilia 59,89Cuccaro Vetere 80,63 Alfano 62,84Roccagloriosa 61,86 Morigerati 86,88Tortorella (∗) 98,16 Torre Orsaia 71,39Caselle in Pittari 66,99

27

Page 34: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

T3 composto dalle %RD di 4 comuni dell’Alta Valle del Sele,

Comuni T3 %RDContursi Terme 67,29Valva 67,64Laviano 67,52Castelnuovo di Conza 61,08

Considerando, poi, ogni coppia di campioni, sono state calcolate le misure d’informazione diKullback-Leibler e le relative misure normalizzate. Fissata una coppia, è stato sempre effet-tuato il controllo dell’ipotesi della Proposizione 1.3.3, come nelle due applicazioni precedenti,così da poter approssimare la misura cumulativa di Kullback-Leibler con quella empirica; neicasi in cui tale ipotesi non fosse verificata (cioè laddove nessuna delle due distribuzioni empi-riche si trovasse tutta al di sotto dell’altra), è stato comunque possibile dedurre una regola,legata alla seguente osservazione: alla non affidabilità della stima fornita dalla misura empi-rica tra i generici campioni X e Y , corrispondeva sempre l’affidabilità della stima ottenutainvertendo i ruoli dei due, e questo era sempre riconducibile al fatto che la maggior parte delgrafico della distribuzione empirica di X si trovasse al di sopra del grafico di Y .

Alla luce di tutto questo, i valori ottenuti sono stati inseriti nelle seguenti tabelle, dove lapresenza del simbolo ‘ / ’ sta ad indicare che la stima della misura d’informazione cumulativaempirica tra i due campioni è ottenuta dalla coppia di ordine inverso. Inoltre, è interessantesottolineare che la diagonale principale della tabella è nulla, poiché la misura cumulativa diKullback-Leibler tra due campioni uguali è 0.

CKL C1 C2 P1 P2 P3 P4 T1 T2 T3

C1 0 / / / / 4,9691 / 3,8950 /C2 3,9830 0 2,1865 / / 9,7373 / 1,7916 /P1 4,9725 / 0 / / 9,8225 / 0,9770 /P2 9,2656 3,1024 3,8070 0 1,6722 15,0533 / 4,0689 /P3 7,0001 1,2238 2,9939 / 0 12,7948 / 3,1872 /P4 / / / / / 0 / / /T1 12,7207 5,5871 4,3750 2,9941 3,2819 17,6255 0 5,8472 1,6131T2 / / / / / 7,83706 / 0 /T3 10,9899 4,0037 5,1528 2,2065 2,0482 16,6353 / 6,0445 0

28

Page 35: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

1 – Alcune applicazioni e proprietà della misura d’informazione di Kullback-Leibler

NCKL C1 C2 P1 P2 P3 P4 T1 T2 T3

C1 0 / / / / 0,08869 / 0,0695 /C2 0,0637 0 0,0350 / / 0,1557 / 0,0286 /P1 0,0745 / 0 / / 0,1472 / 0,0146 /P2 0,1302 0,0436 0,0535 0 0,0235 0,2116 / 0,0572 /P3 0,1077 0,0188 0,0461 / 0 0,1969 / 0,0490 /P4 / / / / / 0 / / /T1 0,1799 0,0790 0,0619 0,0423 0,0464 0,2493 0 0,0827 0,0228T2 / / / / / 0,1161 / 0 /T3 0,1668 0,0608 0,0782 0,0335 0,0311 0,2525 / 0,0917 0

29

Page 36: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

Capitolo 2

Test di Cramér-von Mises per duecampioni indipendenti

2.1 Introduzione al test

Il test di Cramér-von Mises per giudicare se un campione X = (Xi, i = 1, ..., N) provengada una distribuzione continua nota F (x) si basa sulla seguente statistica

Ω2 =∫ +∞

−∞[FN(x)− F (x)]2dF (x),

dove FN(x) è la funzione di distribuzione empirica del campione. Si consideri un secondocampione Y = (Yj, j = 1, ...,M): il problema per i due campioni X e Y consiste, invece, nelverificare l’ipotesi nulla

H0 : F = G

contro l’ipotesi alternativaH1 : F /= G,

30

Page 37: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

2 – Test di Cramér-von Mises per due campioni indipendenti

dove F e G sono le funzioni di distribuzione da cui provengono X e Y , rispettivamente, conG distribuzione continua.Un test che verifichi l’ipotesi che i due campioni provengano dalla stessa distribuzionecontinua (incognita) può essere basato su una statistica analoga a NΩ2, cioè

T = NM

N +M

∫ +∞

−∞[FN(x)− GM(x)]2dHN+M(x), (2.1.1)

dove GM(x) è la funzione di distribuzione empirica del secondo campione e HN+M(x) ètale che (N + M)HN+M(x) = NFN(x) + MGM(x). La distribuzione limite di NΩ2 è statatabulata ed è stato dimostrato che coincide con la distribuzione limite di T per N → ∞,M →∞, e N/M → λ, dove λ è una costante positiva.

2.2 Procedura del test

La distribuzione cumulativa HN+M(x) dà peso 1/(N +M) ad ognuno dei valori assunti daicampioni X e Y , x1, x2, ..., xN , y1, y2, ..., yM . Quindi, l’integrale (di Lesbesgue-Stieltjes) della(2.1.1) equivale alla somma

T = NM

(N +M)2

N∑i=1

[FN(xi)− GM(xi)]2 +M∑j=1

[FN(yj)− GM(yj)]2 . (2.2.1)

Siano ri e sj gli indici, nel campione combinato, delle osservazioni ordinate del primo e delsecondo campione, rispettivamente (i = 1, ..., N e j = 1, ...,M). Allora

FN(xi)− GM(xi) = i

N− ri − i

M∀ i e FN(yj)− GM(yj) = sj − j

N− j

M∀ j .

La probabilità che due qualsiasi osservazioni siano uguali è zero sotto l’ipotesi nulla, essendoF e G distribuzione continue. La statistica è

T = NM

(N +M)2

N∑i=1

[riM− i

( 1M

+ 1N

)]2+

M∑j=1

[sjN− j

( 1M

+ 1N

)]2 (2.2.2)

Se M = N , si può scrivere

T = 1N2

N∑i=1

(ri − 2i)2 +M∑j=1

(sj − 2j)2

. (2.2.3)

31

Page 38: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

2 – Test di Cramér-von Mises per due campioni indipendenti

In generale, invece, usando il fatto che

N∑i=1

r2i +

M∑j=1

s2j =

N+M∑k=1

k2 = (N +M)(N +M + 1)(2N + 2M + 1)6 , (2.2.4)

è possibile scrivere T come (cfr. Anderson [1])

T = U

NM(N +M) −4MN − 16(M +N) , (2.2.5)

dove U è la statisticaU = N

N∑i=1

(ri − i)2 +MM∑j=1

(sj − j)2 (2.2.6)

In definitiva, per verificare l’ipotesi nulla che i due campioni siano descritti dalla stessadistribuzione, si ordinano tutte le osservazioni, si determinano gli indici r1 < r2 < ... < rN

delle N osservazioni del primo campione e gli indici s1 < s2 < ... < sM delle M osservazionidel secondo campione, e si calcoli il valore assunto da U , u. Se u è troppo grande, si rigettal’ipotesi nulla.Quando H0 è vera, ogni ordine dei due insiemi di osservazioni è ugualmente probabile, e,quindi, ogni insieme di N interi tra 1, 2, ...,M+N ha la stessa probabilità di essere l’insiemedegli indici r1, ..., rN del primo campione. Su tale base, la distribuzione di U sotto l’ipotesinulla è stata computata per alcuni valori delle taglie dei campioni N e M , in particolare pertutte le combinazioni di N, M = 1, 2, ...,7. Poiché il numero di valori che la statistica puòassumere cresce molto rapidamente con N e M , non è possibile descrivere le distribuzionicomplete. Per N = 2, 3, 4, 5 e M = 4, 5, 6, 7, la Tabella 1 riporta i valori più grandi che Upuò assumere insieme alla probabilità che U assuma quel valore oppure uno maggiore, cioèPr(U ≥ u), che corrisponde al livello di significatività α del test. In ogni caso almeno il 10%della distribuzione cade nella coda destra.

Per N = 4, 5, 6, 7 e M = 6, 7 si riportano valori di u tali che Pr(U ≥ u) sia prossimaal 10% in Tabella 2, al 5% in Tabella 3, all’1% in Tabella 4, considerando in quest’ultimaanche il caso N = M = 8. Per le taglie moderate analizzate fino a qui le probabilità sonogià molto vicine a quelle della distribuzione limite della statistica T nella coda di destra. Inparticolare, l’ultima riga di ognuna delle Tabelle 2, 3, 4 riporta i corrispondenti valori di tper cui la probabilità limite coincide con i livello di significatività desiderato. E, per valoridi N e M maggiori di quelli considerati esplicitamente, sarà proprio t il valore critico atto arigettare o meno l’ipotesi nulla, poiché in questo caso le probabilità corrispondono quasi deltutto a quelle della distribuzione asintotica.

32

Page 39: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

2 – Test di Cramér-von Mises per due campioni indipendenti

2.2.1 Tabelle

Tabella 1: Code Destre delle DistribuzioniN M u Pr(U = u) Pr(U ≥ u) t

2 4 64 2/15 0,133333 0,4722222 5 100 2/21 0,095238 0,500000

87 2/21 0,190476 0,3142862 6 144 2/28 0,071429 0,520833

128 2/28 0,142859 0,3541672 7 196 2/36 0,055556 0,537037

177 2/36 0,111111 0,3862433 3 81 1/10 0,100000 0,5277783 4 144 2/35 0,057143 0,595238

127 2/35 0,114286 0,3928573 5 225 2/56 0,035714 0,645833

203 2/56 0,071429 0,462500191 2/56 0,107143 0,362500

3 6 324 2/84 0,023810 0,685185297 2/84 0,047619 0,518519282 2/84 0,071429 0,425926279 2/84 0,095238 0,407407276 2/84 0,119048 0,388889

3 7 441 2/120 0,016667 0,716667409 2/120 0,033333 0,564286391 2/120 0,050000 0,478572387 2/120 0,066667 0,459524383 2/120 0,083333 0,440476365 2/120 0,100000 0,354762

4 4 256 1/35 0,028571 0,687500232 1/35 0,057143 0,500000216 2/35 0,114286 0,375000

4 5 400 2/126 0,015873 0,759259369 2/126 0,031746 0,587037348 2/126 0,047619 0,470370346 2/126 0,063492 0,459259337 2/126 0,079365 0,409259336 2/126 0,095238 0,403704331 2/126 0,111111 0,375926

5 5 625 1/126 0,007937 0,850000585 1/126 0,015873 0,690000555 2/126 0,031746 0,570000535 2/126 0,047619 0,490000525 5/126 0,087302 0,450000505 3/126 0,111111 0,370000

33

Page 40: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

2 – Test di Cramér-von Mises per due campioni indipendenti

Tabella 2: Livello di Significatività Prossimo al 10%N M u Pr(U ≥ u) t

4 6 472 0,085714 0,383333468 0,104762 0,366667

4 7 634 0,096970 0,376623631 0,103030 0,366883

5 6 718 0,099567 0,372727710 0,103896 0,348485

5 7 967 0,098485 0,371825963 0,101010 0,362302

6 6 1020 0,093074 0,3750001008 0,127706 0,347222

6 7 1374 0,096737 0,3754581373 0,100233 0,373626

...1362 0,113054 0,3534801359 0,114219 0,347985

7 7 1855 0,093240 0,3826531841 0,107809 0,3622451827 0,114802 0,341837

∞ ∞ 0,10 0,34730

Tabella 3: Livello di Significatività Prossimo al 5%N M u Pr(U ≥ u) t

4 6 498 0,047619 0,491667496 0,057143 0,483333

4 7 671 0,048485 0,496753654 0,054545 0,366883

5 6 756 0,047619 0,487879755 0,051948 0,484848

5 7 1011 0,047980 0,4765871009 0,050505 0,471826

6 6 1080 0,038961 0,5138891068 0,054113 0,4861111044 0,067100 0,430556

6 7 1423 0,048951 0,4652021419 0,050117 0,457876

7 7 1925 0,048951 0,4846941911 0,055944 0,4642861897 0,068182 0,443878

∞ ∞ 0,05 0,46136

34

Page 41: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

2 – Test di Cramér-von Mises per due campioni indipendenti

Tabella 4: Livello di Significatività Prossimo all’ 1%N M u Pr(U ≥ u) t

4 6 576 0,009524 0,816667538 0,019048 0,658333

4 7 784 0,006061 0,863636739 0,012121 0,717532

5 6 851 0,008658 0,775758814 0,012987 0,663636

5 7 1123 0,007576 0,7432541119 0,010101 0,733730

6 6 1188 0,008658 0,7638891152 0,012987 0,680556

6 7 1577 0,008159 0,7472531564 0,009324 0,7234431552 0,010490 0,701465

7 7 2121 0,008159 0,7704082107 0,010490 0,7500002079 0,011655 0,709184

8 8 3472 0,009790 0,7343753456 0,010723 0,718750

∞ ∞ 0,01 0,74346

2.3 Applicazioni nell’analisi di dati

Nel seguito, vengono esaminate alcune applicazioni del test di Cramér-von Mises, per verifi-care che due fissati campioni provengano dalla stessa distribuzione (incognita). Nella 2.3.1viene riportato il codice realizzato con l’ambiente di calcolo Mathematica; lo stesso è statoutilizzato anche per svolgere il test su campioni di dati inerenti la percentuale di raccoltadifferenziata di rifiuti (si veda 2.3.2).

Applicazione 2.3.1

In un ospedale nell’anno 2014 sono stati registrati n = 5 casi di una rara malattia infettiva,mentre nel 2015 ne sono stati registratim = 7. Le età dei pazienti affetti da tale malattia sonostate riviste come valori assunti da variabili aleatorie indipendenti, costituenti il campioneX per i malati dell’anno 2014 ed il campione Y per quelli del 2015:X = 47, 41, 81, 58, 51 di taglia n = 5,Y = 64, 80, 62, 67, 63, 53, 61 di taglia m = 7.Segue l’applicazione del test di Cramèr-von Mises ai due campioni X e Y .

35

Page 42: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

[_ _] = [ ≤ ]

[ ≤ ]

=

=

= [ ]

[_] = ( / ) *

=

[[[]] ]

([ ≤ ] + [ ≤ ] +

[ ≤ ] + [ ≤ ] + [ ≤ ])

=

=

= [ ]

[_] = ( / ) *

=

[[[]] ]

([ ≤ ] + [ ≤ ] + [ ≤ ] +

[ ≤ ] + [ ≤ ] + [ ≤ ] + [ ≤ ])

= (( * ) / ( + )) *

=

([[[]]] - [[[]]]) +

=

([[[]]] - [[[]]])

[ ]

2 – Test di Cramér-von Mises per due campioni indipendenti

36

Page 43: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

= [ ]

= +

= [ ]

_ _

=

=

[[[]] ⩵ [[]] ]

=

=

[[[]] ⩵ [[]] ]

= *

=

([[]] - ) + *

=

([[]] - )

[ / ( * * ( + )) - ( * * - ) / ( * ( + )) ]

2 Applicazione 2.3.1.nb

2 – Test di Cramér-von Mises per due campioni indipendenti

37

Page 44: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

2 – Test di Cramér-von Mises per due campioni indipendenti

Poiché N = n = 5 e M = m = 7, si può far riferimento alle Tabelle 2, 3, 4 per confrontareu = 985 con gli opportuni valori critici, a seconda del livello di significatività desiderato.Per α ≈ 0,10, l’esito del test è negativo, poiché u è maggiore di 963 e 967, che sono i valoripiù grandi assunti dalla statistica U , in corrispondenza di N = 5 e M = 7, a partire daiquali la coda destra includa circa il 10% della distribuzione (cfr. Tabella 2). Per α ≈ 0,05 eα ≈ 0,01, invece, il test dà esito positivo, perché u = 985 non supera i valori di riferimento(cfr. Tabella 3 e Tabella 4).

2.3.2 Test di Cramér-von Mises per campioni di dati sulla raccoltadifferenziata di rifiuti

Si prendano in esame le %RD dei comuni della provincia di Salerno, ripartite in nove cam-pioni casuali come in 1.3.3.È stato applicato il Test di Cramér-von Mises ad ogni coppia di campioni. Nelle tabelleseguenti si riportano gli esiti del test per tre valori di significatività, 0,10, 0,05 e 0,01, e larisposta è affermativa nel caso in cui venga rigettata l’ipotesi nulla. Si noti che per ognunadelle tre tabelle, la diagonale principale sarà banalmente costituita da esiti negativi, poichési fa riferimento a due campioni uguali, ovviamente provenienti dalla stessa distribuzione.Inoltre, poiché la procedura del test è indipendente dall’ordine in cui si scelgono i campioni,la tabella risulta simmetrica, quindi è sufficiente riempire solo le celle al di sotto della diago-nale principale. Sono stati affiancati da due asterischi (∗∗) i campioni con taglia maggioredi 7, per i quali il valore di t, e non quello di u, è stato confrontato con i valori assunti dalladistribuzione asintotica della statistica T , riportati nelle ultime righe delle Tabelle 2, 3, 4.Infine, si osservi che non è stato possibile applicare il test per le coppie (T1, T2) e (T1, T3),perché presentano due componenti uguali (nelle tabelle si indicherà questa situazione con ilsimbolo ‘/ ’ ).

α ≈ 10% C1 C2 (∗∗) P1 P2 P3 P4 T1 T2 (∗∗) T3

C1 noC2(∗∗) no noP1 no no noP2 sì no no noP3 sì no no no noP4 no sì no no no noT1 sì sì no no sì no noT2(∗∗) no no no no no no / noT3 no no no no no no / no no

38

Page 45: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

2 – Test di Cramér-von Mises per due campioni indipendenti

α ≈ 5% C1 C2 (∗∗) P1 P2 P3 P4 T1 T2 (∗∗) T3

C1 noC2(∗∗) no noP1 no no noP2 no no no noP3 no no no no noP4 no no no no no noT1 no sì no no no no noT2(∗∗) no no no no no no / noT3 no no no no no no / no no

α ≈ 1% C1 C2 (∗∗) P1 P2 P3 P4 T1 T2 (∗∗) T3

C1 noC2(∗∗) no noP1 no no noP2 no no no noP3 no no no no noP4 no no no no no noT1(∗∗) no no no no no no noT2 no no no no no no / noT3 no no no no no no / no no

39

Page 46: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

Capitolo 3

Analisi di correlazione e applicazioni

Tra le finalità delle indagini statistiche rientra l’individuazione di relazioni tra grandezzecasuali atte a far sì, principalmente, che talune di queste siano predicibili a partire da altre.Si supponga di aver osservato n coppie di dati (xi, yi); nel contesto della regressione lineare,che in questa sede verrà data per scontata (cfr. Di Crescenzo, Ricciardi [5]), si può procederein due modi: si possono riguardare le coppie osservate come la realizzazione di un campionecasuale estratto da una popolazione bidimensionale, avente cioè come variabile genitriceun vettore aleatorio bidimensionale (X, Y ), oppure si assume che x1, x2, ..., xn siano dellecostanti e che l’n-pla (y1, y2, ..., yn) sia la realizzazione di un vettore casuale (Y1, Y2, ..., Yn)per il quale per ogni i il valore yi assunto da Yi dipende da xi. È conveniente adottare ilsecondo approccio quando le costanti x1, x2, ..., xn, fissate dallo sperimentatore, si riferiscanoad una grandezza deterministica; il primo approccio, invece, viene seguito se anche i valorix1, x2, ..., xn siano generati da una variabile aleatoria, nella fattispecie la variabile X . Inquest’ultimo caso all’analisi della regressione va accompagnata la cosiddetta analisi dellacorrelazione, cioè lo studio della possibile dipendenza lineare tra le due variabili X e Y .Ci si prefigge, in particolare, di rivolgere l’attenzione all’analisi della correlazione normale.

40

Page 47: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

3.1 Correlazione normale

L’analisi della correlazione normale viene effettuata su coppie di dati (xi, yi) (i = 1,2, ..., n)costituenti la realizzazione di un campione casuale estratto da popolazione normale bivariatadi valori medi µ1 e µ2, varianze σ2

1 e σ22 e coefficiente di correlazione ρ (per i dettagli di tale

distribuzione si veda l’Appendice B). Si assume pertanto che la densità congiunta dellavariabile genitrice bidimensionale (X, Y ) sia

f(x, y) = 12πσ1σ2

√1− ρ2

× exp− 1

2(1− ρ2)

[(x− µ1

σ1

)2− 2ρ

(x− µ1

σ1

)(y − µ2

σ2

)+(y − µ2

σ2

)2].

(3.1.1)

Per determinare le stime di massima verosimiglianza dei parametri presenti nella (3.1.1), siconsideri la funzione di verosimiglianza

L(µ1, µ2, σ1, σ2, ρ) =n∏i=1

f(xi, yi) =(

12πσ1σ2

√1− ρ2

)n

× exp− 1

2(1− ρ2)

n∑i=1

[(x− µ1

σ1

)2− 2ρ

(x− µ1

σ1

)(y − µ2

σ2

)+(y − µ2

σ2

)2].

(3.1.2)

Per rendere più agevole la ricerca dei punti di massimo, si passa al logaritmi naturali per poiderivare la nuova funzione logL dapprima rispetto a µ1 e µ2: imponendo che le derivate siannullino, si ottiene che le stime di massima verosimiglianza per i due valori medi sono le lemedie campionarie dei rispettivi campioni, cioè

µ1 = x, µ2 = y.

Imponendo poi che anche le derivate di logL rispetto a σ1, σ2, ρ siano nulle e sostituendonelle equazioni così ottenute µ1 e µ2 con le rispettive stime x e y, si ricava un sistema ditre equazioni in tre incognite, la cui risoluzione conduce finalmente alle stime di massimaverosimiglianza per σ1, σ2 e ρ:

σ1 =√√√√ 1n

n∑i=1

(xi − x)2 , σ2 =√√√√ 1n

n∑j=1

(yj − y)2 (3.1.3)

41

Page 48: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

ρ =

n∑i=1

(xi − x)(yi − y)√√√√ n∑i=1

(xi − x)2

√√√√ n∑i=1

(yi − y)2

(3.1.4)

È interessante osservare che ciascuna delle stime σ1 e σ2 date dalla (3.1.3) coincide conla stima di massima verosimiglianza della deviazione standard σ di una popolazione normaleunidimensionale. Inoltre, si osservi che in virtù delle formule

Sxx =n∑i=1

(xi − x)2 =n∑i=1

x2i − nx2 , Syy =

n∑i=1

(xi − y)2 =n∑i=1

y2i − ny2 ,

Sxy =n∑i=1

(xi − x)(yi − y) =n∑i=1

xiyi − nxy ,

solitamente utilizzate nel contesto della regressione lineare, le stime (3.1.3) e (3.1.4) possonoriscriversi nel seguente modo:

σ1 =√Sxxn, σ2 =

√Syyn, ρ = Sxy√

SxxSyy. (3.1.5)

È evidente che la variabile casuale cui corrisponde la stima ρ coincide con l’indice di fit (oindice di attagliamento) R, utilizzato, ancora una volta, nel contesto della regressione lineare:il valore che R assume in corrispondenza dei dati considerati viene spesso interpretato comeindicatore della bontà dell’approssimazione ottenuta mediante la retta ai minimi quadrati.Tale indice, nell’ambito della correlazione lineare, invece, è detto coefficiente di correlazionecampionario; il valore che esso assume viene solitamente denotato con la lettera r in luogodi ρ (proprio in analogia con l’indice di fit). Il calcolo di r nella pratica si semplifica usandola seguente formula alternativa

r =n

n∑i=1

xiyi −(

n∑i=1

xi

)(n∑i=1

yi

)√√√√n n∑

i=1x2i −

(n∑i=1

xi

)2√√√√n n∑

i=1y2i −

(n∑i=1

yi

)2(3.1.6)

che, come è facile verificare, coincide con la (3.1.4).

Il coefficiente di correlazione ρ gioca un ruolo fondamentale nell’analisi delle relazionilineari tra coppie (X, Y ) di variabili aleatorie, in quanto numerosi sono i problemi in cui

42

Page 49: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

stima di ρ e relativi test d’ipotesi rivestono grande interesse. Va qui ricordato che se ρ = 0le due variabili si dicono scorrelate; se, inoltre, due variabili scorrelate sono congiuntamentenormali, esse sono anche indipendenti; se, infine, risulta |ρ| = 1, con probabilità unitaria trale variabili casuali X e Y sussiste una relazione lineare del tipo Y = a+ bX.

Come riportato nell’Osservazione B.5, se X e Y sono congiuntamente normali la varianzaσ2 di Y dato X = x vale

σ2 := D2(Y |X = x) = σ22(1− ρ2),

dove σ22 = D2(Y ) e ρ è il coefficiente di correlazione di X e Y . Una relazione analoga, quindi,

sussiste tra le corrispondenti stime di massima verosimiglianza σ2, σ22 e r:

σ2 = σ22(1− r2). (3.1.7)

Si noti che la formula (3.1.7) consente di evidenziare un legame esistente tra i concetti diregressione e correlazione: è infatti evidente che risulta σ2 = 0 se e solo se |r| = 1, cioèse e solo se i dati (xi, yi) giacciono su di una retta; questa ha coefficiente angolare positivo[negativo] quando risulta r = 1 [r = −1]. Per porre in maggiore risalto il significato di r, siosservi che dalla (3.1.7) segue che

r2 = σ22 − σ2

σ22

.

Poiché σ22 costituisce una misura della fluttuazione dei dati yi mentre σ2 esprime la fluttua-

zione condizionata dei dati yi per valori x1, x2, ..., xn fissati, la differenza σ22− σ2 rappresenta

quella parte di fluttuazione totale dei dati yi che è dovuta alla relazione sussistente tra X eY .

Per il ruolo di rilevanza svolto dal coefficiente di correlazione campionario R, appareutile determinarne la distribuzione che, peraltro risulta essere piuttosto complicata; è alloraconveniente ricorrere ad una approssimazione. A tal fine, si fa uso della circostanza (qui soloaffermata e non dimostrata, per brevità) che per n grande la statistica

U = 12 log 1 +R

1−R

è approssimativamente normale con valore medio e varianza (cfr. Stuart, Ord [8])

E(U) = 12 log 1 + ρ

1− ρ, D2(U) = 1n− 3 .

43

Page 50: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

Pertanto, la variabile casuale

Z =

12 log 1 +R

1−R −12 log 1 + ρ

1− ρ1√n− 3

=√n− 32 log (1 +R)(1− ρ)

(1−R)(1 + ρ) (3.1.8)

ha approssimativamente distribuzione normale standard. Tale approssimazione risulta par-ticolarmente utile per costruire test atti alla verifica di ipotesi del tipo ρ = ρ0. Nella propo-sizione seguente, si mostra come costruire un test per verificare l’ipotesi che il coefficiente dicorrelazione ρ sia nullo.

Proposizione 3.1.1. Nella correlazione normale un test di ampiezza approssimativamenteα per verificare l’ipotesi nulla H0 : ρ = 0 contro l’ipotesi alternativa ρ /= 0 è quello che haregione critica

C = (x1, y1), (x2, y2), ..., (xn, yn) : |z| ≥ zα/2 (3.1.9)

dove z è il valore assunto dalla variabile casuale√n− 32 log 1 +R

1−R. (3.1.10)

Dimostrazione. Come visto in precedenza, la variabile (3.1.8) ha approssimativamente di-stribuzione normale standard. Quindi, sotto l’ipotesi nulla H0 : ρ = 0 la variabile aleatoria(3.1.10) ha approssimativamente distribuzione normale standard, così che sussiste la seguenterelazione:

P (|Z| ≥ zα/2 | ρ = 0) = P

(∣∣∣∣∣√n− 32 log 1 +R

1−R

∣∣∣∣∣ ≥ zα/2

)≈ α.

La regione critica (3.1.1) ha quindi all’incirca ampiezza α.

3.2 Applicazioni nell’analisi di dati

Nel seguito, vengono esaminate alcune applicazioni del test di correlazione fondato sullaProposizione 3.1.1. I dati considerati sono stati estratti dalla piattaforma MySir di Mi-croambiente srl: i comuni della provincia di Salerno presenti sul sito sono stati ripartiti inclassi in base alla provenienza di geografica. In particolare, ci si è soffermati su di un cam-pione costituito dalle %RD di 20 comuni: il comune di Salerno e tutti i comuni della costieraCilentana presenti sul sito.

44

Page 51: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

3.3.1 Analisi di correlazione inerente la raccolta differenziata dirifiuti

Si voglia stabilire se esiste una relazione lineare tra la percentuale di raccolta differenziata(%RD) dell’anno 2015 e:

• l’incidenza di rifiuti urbani non differenziati, indicati su MySir con il codice 20.03.01,in termini di kg/abitante (si farà riferimento all’anno 2015, eccetto che nei casi in cuil’anno sarà specificato esplicitamente);

• l’altitudine (espressa in metri sul livello del mare del luogo esatto in cui si trova ilMunicipio del comune);

• la popolazione (dell’anno 2015);

• la densità abitativa (abitanti per km2);

• due indicatori indiretti della presenza di turismo, ottenuti a partire dall’andamentoannuo di rifiuti pro-capite (nuovamente, si farà riferimento all’anno 2015, eccetto chenei casi in cui l’anno sarà specificato esplicitamente).

Pertanto, in ogni caso le %RD dei 20 comuni costituiscono le realizzazioni del campione(Y1, Y2, ..., Yn) con n = 20, mentre il campione di genitrice X cambierà di volta in volta.Nel seguito si analizzano i vari casi.

• Percentuale di raccolta differenziata e incidenza di rifiuti urbani non differenziati

45

Page 52: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

Tabella 3.1Comune xi (kg/ab di 20.03.01) yi (%RD)Salerno 158,51 64,05Pontecagnano 230,53 52,43Bellizzi 119,18 71,10Battipaglia 122,84 67,24Eboli 195,49 49,09Capaccio-Paestum 170,50 67,26Agropoli 230,26 62,20Castellabate 319,54 56,07Montecorice 235,37 63,76San Mauro Cilento 130,31 73,37Pollica 177,82 76,87Casal Velino 66,96 80,53Ascea 219,89 62,41Pisciotta 157,38 66,89Centola 349,73 48,37Camerota 239,71 57,32San Giovanni a Piro 171,10 53,89Santa Marina 194,29 52,89Ispani 240,91 51,99Sapri 197,79 45,43

Si noti che solo per il comune di San Giovanni a Piro è stata considerata l’incidenzadi rifiuti 20.03.01 del 2013, perché il corrispondente dato relativo all’anno 2015 non èritenuto attendibile mentre quello relativo al 2014 non è presente su MySir.

Figura 3.1: Dati della Tabella 3.1 con retta interpolante

Si può anzitutto effettuare un test per verificare se esiste correlazione tra i dati xi e yi.Come mostrato nella Proposizione 3.1.1, si assume come ipotesi nulla H0 : ρ = 0 control’ipotesi alternativa ρ /= 0. Il coefficiente di correlazione campionaria assume valorer = −0,67073, risultato che sta ad indicare l’esistenza, seppur non fortemente marcata,

46

Page 53: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

di una correlazione negativa tra i dati. Ciò si evince anche dal grafico in Figura 3.1, incui sono riportati i dati osservati e la retta interpolante y = 80,82158− 0,10015x.Poiché risulta r2 = 0,44988 si può affermare che più del 40% della fluttuazione dei datiyi è dovuta ad una relazione lineare tra le variabili X e Y che li hanno generati.Scelto inizialmente α = 0,10, la regione critica C del test, specificata dalla Proposizione3.1.1, è l’insieme costituito dalle coppie (xi, yi) tali che |z| ≥ z0,05, essendo α/2 = 0,05.Poiché si ha n = 20 e r = −0,67073, la statistica (3.1.10) assume il valore z = −3,34825.Dunque, questo eccede, in modulo, il valore z0,05 = 1,64485, così che l’ipotesi nulla dinon correlazione deve essere rigettata, concludendosi che esiste una relazione tra lapercentuale di raccolta differenziata e l’incidenza di rifiuti urbani non differenziati.L’ipotesi nulla viene rifiutata anche per la scelta dell’ampiezza di C pari ad α = 0,05:infatti, zα/2 = z0,025 = 1,95996 è ancora inferiore al valore |z| = 3,34825. Riducendoulteriormente l’ampiezza della regione critica, scegliendo cioè α = 0,01, l’ipotesi nulla dinon correlazione viene ancora rifiutata: in questo caso, infatti, zα/2 = z0,005 = 2,57583è sempre inferiore al valore di |z|.

• Percentuale di raccolta differenziata ed altitudine

Tabella 3.2Comune xi (altitudine) yi (%RD)Salerno 4 64,05Pontecagnano 28 52,43Bellizzi 60 71,10Battipaglia 72 67,24Eboli 145 49,09Capaccio-Paestum 419 67,26Agropoli 24 62,20Castellabate 35 56,07Montecorice 90 63,76San Mauro Cilento 560 73,37Pollica 370 76,87Casal Velino 170 80,53Ascea 293 62,41Pisciotta 170 66,89Centola 336 48,37Camerota 322 57,32San Giovanni a Piro 450 53,89Santa Marina 415 52,89Ispani 256 51,99Sapri 5 45,43

47

Page 54: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

Analogamente al caso precedente, viene effettuato un test per verificare se esiste cor-relazione tra i dati xi e yi. Come mostrato nella Proposizione 3.1.1, si assume comeipotesi nulla H0 : ρ = 0 contro l’ipotesi alternativa ρ /= 0; il coefficiente di correlazionecampionaria assume valore r = 0,13151, risultato che sta ad indicare quasi l’assenza dicorrelazione tra i dati. Ciò appare evidente anche dal grafico in Figura 3.2 in cui sonoriportati i dati osservati e la retta interpolante y = 59,57258 + 0,00751x.

Figura 3.2: Dati della Tabella 3.2 con retta interpolante

Poiché risulta r2 = 0,01729 si può affermare che meno del 2% della fluttuazione deidati yi è dovuta ad una relazione lineare tra le variabili X e Y che li hanno generati.Scelto α = 0,10, la regione critica C del test, specificata dalla Proposizione 3.1.1, èl’insieme costituito dalle coppie (xi, yi) tali che |z| ≥ z0,05, essendo α/2 = 0,05. Poichési ha n = 20 e r = 0,13151, la statistica (3.1.10) assume il valore z = 0,54537. Dunque,z, coincidente col suo modulo, è inferiore al valore z0,05 = 1,64485, così che l’ipotesinulla di non correlazione viene accettata, concludendosi che non esiste una relazionetra la percentuale di raccolta differenziata e l’altitudine del comune.

• Percentuale di raccolta differenziata e popolazione

Analogamente ai casi precedenti, viene effettuato un test per verificare se esiste cor-relazione tra i dati xi e yi. Come mostrato nella Proposizione 3.1.1, si assume comeipotesi nulla H0 : ρ = 0 contro l’ipotesi alternativa ρ /= 0.

48

Page 55: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

Tabella 3.3Comune xi (popolazione) yi (%RD)Salerno 139.704 64,05Pontecagnano 25.049 52,43Bellizzi 13.157 71,10Battipaglia 50.963 67,24Eboli 38.034 49,09Capaccio-Paestum 22.083 67,26Agropoli 21.035 62,20Castellabate 8.140 56,07Montecorice 2.573 63,76San Mauro Cilento 976 73,37Pollica 2.477 76,87Casal Velino 5.104 80,53Ascea 5.828 62,41Pisciotta 2.879 66,89Centola 4.958 48,37Camerota 7.290 57,32San Giovanni a Piro 3.865 53,89Santa Marina 3.204 52,89Ispani 1.006 51,99Sapri 7.056 45,43

il coefficiente di correlazione campionaria assume valore r = 0,03300, risultato che staad indicare quasi l’assenza di correlazione tra i dati.Ciò appare evidente anche dal grafico in Figura 3.3, in cui sono riportati i dati osservatie la retta interpolante y = 60,96828 + 0,0000104x.

Figura 3.3: Dati della Tabella 3.3 con retta interpolante

49

Page 56: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

Poiché risulta r2 = 0,00109 si può affermare che poco più dello 0,1% della fluttuazionedei dati yi è dovuta ad una relazione lineare tra le variabili X e Y che li hanno generati.Scelto α = 0,10, la regione critica C del test, specificata dalla Proposizione 3.1.1, èl’insieme costituito dalle coppie (xi, yi) tali che |z| ≥ z0,05, essendo α/2 = 0,05. Poichési ha n = 20 e r = 0,03300, la statistica (3.1.10) assume il valore z = 0,13611. Dunque,|z| è inferiore al valore z0,05 = 1,64485, così che l’ipotesi nulla di non correlazione vieneaccettata, concludendosi che non esiste una relazione tra la percentuale di raccoltadifferenziata e la popolazione del comune.

• Percentuale di raccolta differenziata e densità abitativa (abitanti per km2)

Tabella 3.4Comune xi (densità abitativa) yi (%RD)Salerno 2.359,06 64,05Pontecagnano 673,72 52,43Bellizzi 1.665,40 71,10Battipaglia 902,30 67,24Eboli 276,01 49,09Capaccio-Paestum 197,94 67,26Agropoli 645,04 62,20Castellabate 219,94 56,07Montecorice 116,26 63,76San Mauro Cilento 64,80 73,37Pollica 88,81 76,87Casal Velino 160,55 80,53Ascea 155,00 62,41Pisciotta 93,68 66,89Centola 105,00 48,37Camerota 103,87 57,32San Giovanni a Piro 102,32 53,89Santa Marina 113,90 52,89Ispani 122,80 51,99Sapri 509,08 45,43

Analogamente ai casi precedenti, viene effettuato un test per verificare se esiste cor-relazione tra i dati xi e yi. Come mostrato nella Proposizione 3.1.1, si assume comeipotesi nulla H0 : ρ = 0 contro l’ipotesi alternativa ρ /= 0; il coefficiente di correlazionecampionaria assume valore r = 0,12545, risultato che sta ad indicare quasi l’assenza dicorrelazione tra i dati. Ciò appare evidente anche dal grafico in Figura 3.4, in cui sonoriportati i dati osservati e la retta interpolante y = 60,25650 + 0,00207x.

Poiché risulta r2 = 0,01574 si può affermare che poco più dell’ 1% della fluttuazione deidati yi è dovuta ad una relazione lineare tra le variabili X e Y che li hanno generati.

50

Page 57: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

Figura 3.4: Dati della Tabella 3.4 con retta interpolante

Scelto α = 0,10, la regione critica C del test, specificata dalla Proposizione 3.1.1, èl’insieme costituito dalle coppie (xi, yi) tali che |z| ≥ z0,05, essendo α/2 = 0,05. Poichési ha n = 20 e r = 0,12545, la statistica (3.1.10) assume il valore z = 0,51999. Dunque,|z| è inferiore al valore z0,05 = 1,64485, così che l’ipotesi nulla di non correlazione vieneaccettata, concludendosi che non esiste una relazione tra la percentuale di raccoltadifferenziata e la densità abitativa del comune.È interessante osservare che il grafico a dispersione dei dati, insieme alla retta interpo-lante, è molto simile al grafico del caso precedente: questo sottolinea l’evidente legameche esiste tra popolazione e densità abitativa.

• Percentuale di raccolta differenziata e due indicatori indiretti della presenza di turismo

I = M − mm

, J = M −mm

,

dove con M,m, m si indicano il massimo, il minimo e la media dei kg pro-capite dirifiuti prodotti nell’anno 2015.Si noti che sono stati considerati anni precedenti al 2015 in due casi: se i dati relativial 2015 fossero assenti su MySir, oppure quando la curva dell’andamento annuo pro-capite di rifiuti del 2015 presentasse dei picchi isolati, troppo elevati o troppo bassi,dovuti a qualche situazione contingente (come smaltimento di una grande quantità dirifiuti avvenuto dopo una raccolta più duratura o problemi delle aziende dei trasporti).

51

Page 58: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

Minimo, massimo e media di kg di rifiuti pro-capiteComune m M m

Salerno 1,11 1,33 1,23Pontecagnano 1,20 1,54 1,34Bellizzi 1,09 1,24 1,13Battipaglia 0,95 1,37 1,05Eboli (2014) 0,96 1,35 1,14Capaccio-Paestum 1,05 2,92 1,72Agropoli (2014) 1,25 2,49 1,63Castellabate 1,15 4,73 2,12Montecorice 0,66 5,51 1,78San Mauro Cilento 0,31 3,65 1,34Pollica 0,98 5,95 2,20Casal Velino (2013) 0,71 2,68 1,34Ascea 0,84 4,07 1,06Pisciotta (2014) 0,61 3,76 1,41Centola 0,92 5,18 1,87Camerota 0,76 3,81 1,55San Giovanni a Piro (2013) 0,57 2,17 0,96Santa Marina 0,68 1,94 1,13Ispani 0,51 3,44 1,37Sapri 0,65 1,44 0,99

Si può facilmente intuire perché I e J possano fungere da indicatori, seppur indiretti,della presenza di turismo nel comune. Infatti, se il valore massimo di rifiuti pro-capiteè molto più grande del minimo [della media], si può dedurre che nel mese dell’annocon produzione massima di rifiuti pro-capite ci sia stata una grande quantità di turisti:pertanto, la loro produzione di rifiuti (difficilmente differenziati) avrà fortemente gra-vato sulla popolazione effettiva del comune; a tale situazione corrisponderà un valoredi I [J ] tanto più grande quanto più elevata è la differenza tra M ed m [m]. Se, invece,il massimo è molto vicino al minimo [alla media] si può dedurre che non ci sia una fortepresenza di turismo in quel comune e a questa situazione corrisponderà un valore di I[J ] molto piccolo.

Come nei casi precedenti, viene effettuato un test per verificare se esiste correlazionetra i dati xi e yi, dove gli xi sono ora i valori dell’indice I, ora i valori di J . Si comincicon I.

52

Page 59: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

Tabella 3.5Comune xi (I) yi (%RD)Salerno 0,081 64,05Pontecagnano 0,149 52,43Bellizzi 0,097 71,10Battipaglia 0,305 67,24Eboli 0,184 49,09Capaccio-Paestum 0,698 67,26Agropoli 0,528 62,20Castellabate 1,231 56,07Montecorice 2,095 63,76San Mauro Cilento 1,724 73,37Pollica 1,704 76,87Casal Velino 1,000 80,53Ascea 1,544 62,41Pisciotta 1,667 66,89Centola 1,770 48,37Camerota 1,458 57,32San Giovanni a Piro 1,260 53,89Santa Marina 0,717 52,89Ispani 1,511 51,99Sapri 0,454 45,43

Come mostrato nella Proposizione 3.1.1, si assume come ipotesi nulla H0 : ρ = 0contro l’ipotesi alternativa ρ /= 0; il coefficiente di correlazione campionaria assumevalore r = 0,14294, risultato che sta ad indicare una scarsa correlazione positiva trai dati. Ciò si evince anche osservando come i dati si dispongono attorno alla rettainterpolante y = 59,00003 + 2,13888x (si veda Figura 3.5).

Figura 3.5: Dati della Tabella 3.5 con retta interpolante

53

Page 60: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

Poiché risulta r2 = 0,02043 si può affermare che poco più del 2% della fluttuazione deidati yi è dovuta ad una relazione lineare tra le variabili X e Y che li hanno generati.Scelto α = 0,10, la regione critica C del test, specificata dalla Proposizione 3.1.1, èl’insieme costituito dalle coppie (xi, yi) tali che |z| ≥ z0,05, essendo α/2 = 0,05. Poichési ha n = 20 e r = 0,14294, la statistica (3.1.10) assume il valore z = 0,59343.Dunque, |z| è inferiore al valore z0,05 = 1,64485, così che l’ipotesi nulla di non corre-lazione deve essere accettata, concludendosi che non esiste una forte relazione tra lapercentuale di raccolta differenziata e l’indice I.Si considerino, ora, come dati xi i valori assunti dall’indice J .

Tabella 3.6Comune xi (J) yi (%RD)Salerno 0,198 64,05Pontecagnano 0,283 52,43Bellizzi 0,138 71,10Battipaglia 0,442 67,24Eboli 0,406 49,09Capaccio-Paestum 1,781 67,26Agropoli 0,992 62,20Castellabate 3,113 56,07Montecorice 7,348 63,76San Mauro Cilento 10,774 73,37Pollica 5,071 76,87Casal Velino 2,775 80,53Ascea 3,845 62,41Pisciotta 5,164 66,89Centola 4,630 48,37Camerota 4,013 57,32San Giovanni a Piro 2,897 53,89Santa Marina 1,853 52,89Ispani 5,745 51,99Sapri 1,215 45,43

Di nuovo, si assuma come ipotesi nulla H0 : ρ = 0 contro l’ipotesi alternativa ρ /= 0;il coefficiente di correlazione campionaria assume valore r = 0,24743, risultato che sta adindicare una scarsa correlazione tra i dati, ma non del tutto assente. Ciò si può dedurre ancheosservando come i dati si dispongono attorno alla retta interpolante y = 58,39080+0,88415x(si veda Figura 3.6).Poiché risulta r2 = 0,06122 si può affermare che poco più del 6% della fluttuazione dei datiyi è dovuta ad una relazione lineare tra le variabili X e Y che li hanno generati.Scelto α = 0,10, la regione critica C del test, specificata dalla Proposizione 3.1.1, è l’insieme

54

Page 61: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

Figura 3.6: Dati della Tabella 3.6 con retta interpolante

costituito dalle coppie (xi, yi) tali che |z| ≥ z0,05, essendo α/2 = 0,05. Poiché si ha n = 20 er = 0,02474, la statistica (3.1.10) assume il valore z = 1,04181.Dunque, |z| è inferiore al valore z0,05 = 1,64485, così che l’ipotesi nulla di non correlazionedeve essere accettata, concludendosi che non esiste una forte relazione tra la percentuale diraccolta differenziata e l’indice J .

3.3.2 Analisi di correlazione inerente lo scarto assoluto di raccoltadifferenziata di rifiuti

Si considerino nuovamente i 20 comuni della provincia di Salerno come in 3.3.1. Si vogliastudiare se esista una relazione tra la differenza di percentuale di raccolta differenziata didue comuni fissati e la loro distanza (si tratta della distanza in linea d’aria, espressa in km,dei luoghi esatti in cui è posizionato ciascun Municipio, misurata attraverso un’applicazionedi Google Maps).La generica xi in questo caso è la distanza tra due fissati comuni, mentre yi è la differenza trale %RD dei due stessi comuni: pertanto, si vuole verificare se tale differenza possa dipenderelinearmente dalla distanza tra i due comuni.

Facendo riferimento alla Proposizione 3.1.1, si assume come ipotesi nulla H0 : ρ = 0contro l’ipotesi alternativa ρ /= 0; il coefficiente di correlazione campionaria assume valo-re r = 0,06797, risultato che sta ad indicare una quasi nulla correlazione tra i dati. Ciòsi può dedurre anche osservando come i dati si dispongono attorno alla retta interpolantey = 10,70791 + 0,02263x (si veda Figura 3.7).

55

Page 62: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

Figura 3.7: Dati dell’Applicazione 3.3.2 con retta interpolante

Poiché risulta r2 = 0,00462 si può affermare che meno dell’1% della fluttuazione dei datiyi è dovuta ad una relazione lineare tra le variabili X e Y che li hanno generati.Scelto α = 0,10, la regione critica C del test, specificata dalla Proposizione 3.1.1, è l’insiemecostituito dalle coppie (xi, yi) tali che |z| ≥ z0,05, essendo α/2 = 0,05. Poiché si ha n = 190e r = 0,06797, la statistica (3.1.10) assume il valore

z =√

190− 32 log 1,06797

0,93203 = 0,93091.

Dunque, |z| è inferiore al valore z0,05 = 1,64485, così che l’ipotesi nulla di non correlazioneviene accettata, concludendosi che non esiste una relazione lineare tra la differenza di %RDdi due comuni e la loro distanza.

Per completezza, di seguito si riportano le tabelle con i valori, per ciascuna coppia dei20 comuni considerati, delle distanze in linea d’aria in km e dello scarto assoluto tra lecorrispondenti %RD.

56

Page 63: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

3 – Analisi di correlazione e applicazioni

Distanz

aSa

lerno

Pontec.

Bellizzi

Battip.

Eboli

Cap

acio-P.

Agrop

oli

Castella

b.Mon

tec.

S.Mau

roCil.

Pollica

Casal

V.

Ascea

Pisciotta

Centola

Cam

ero.

S.G.a

Piro

S.Marina

Ispa

niSa

pri

Salerno

0Po

ntec.

10,74

0Be

llizzi

17,23

6,57

0Ba

ttipaglia

21,16

10,49

3,89

0Eb

oli

26,17

15,69

9,25

5,67

0Cap

accio

39,55

30,16

24,96

22,08

21,63

0Agrop

oli

41,62

34,11

30,53

28,74

30,09

11,05

0Castella

bate

47,36

40,88

37,99

36,55

38,22

19,01

8,29

0Mon

tecoric

e53,19

46,55

43,77

42,10

42,99

22,58

13,00

5,61

0Sa

nMau

roCilento

56,01

48,60

44,84

42,77

43,37

22,06

14,48

9,75

5,08

0Po

llica

59,83

52,56

48,82

46,75

47,26

25,84

18,45

13,14

7,56

3,98

0Casal

Velin

o62,16

57,30

50,14

47,77

47,70

26,08

20,52

17,10

11,74

6,88

4,70

0Ascea

69,89

61,68

57,13

54,49

53,80

32,45

28,37

24,90

19,59

15,15

12,37

8,27

0Pisciotta

75,22

66,83

61,88

59,12

58,44

37,27

33,81

30,79

25,29

20,52

17,77

13,79

12,37

0Centola

83,04

74,38

69,43

66,47

65,17

44,48

41,85

38,72

33,30

28,97

26,03

22,09

13,82

8,45

0Cam

erota

89,06

80,22

75,06

72,01

70,43

50,13

48,03

45,45

39,94

35,33

32,41

24,46

20,19

14,66

6,37

0Sa

nGiovann

iaPiro

91,29

82,03

76,57

73,32

71,21

51,89

51,20

49,80

44,45

39,56

37,07

32,76

24,70

19,50

11,89

6,93

0Sa

ntaMarina

92,18

82,38

76,51

73,00

70,20

52,68

54,02

53,46

49,21

44,25

42,44

37,83

30,53

26,16

20,06

16,49

9,78

0Ispa

ni94,44

84,64

78,79

75,28

72,48

54,93

56,15

55,47

51,10

46,16

44,26

39,67

32,22

27,69

21,15

16,99

10,08

2,28

0Sa

pri

100,04

90,11

84,13

80,56

77,51

60,64

62,31

61,77

57,48

52,53

50,64

46,05

38,60

34,01

27,17

22,42

15,55

8,32

6,38

0

Differen

za%

RD

Salerno

Pontec.

Bellizzi

Battip.

Eboli

Cap

acio-P.

Agrop

oli

Castella

b.Mon

tec.

S.Mau

roCil.

Pollica

Casal

V.

Ascea

Pisciotta

Centola

Cam

ero.

S.G.a

Piro

S.Marina

Ispa

niSa

pri

Salerno

0Po

ntec.

11,62

0Be

llizzi

7,05

18,67

0Ba

ttipaglia

3,19

14,81

3,86

0Eb

oli

14,96

3,34

22,01

18,15

0Cap

accio

3,21

14,83

3,84

0,02

18,17

0Agrop

oli

1,85

9,77

8,90

5,04

13,11

5,06

0Castella

bate

7,98

3,64

15,03

11,17

6,98

11,19

6,13

0Mon

tecoric

e0,29

11,33

7,34

3,48

14,67

3,50

1,56

7,69

0Sa

nMau

roCilento

9,32

20,94

2,27

6,13

24,28

6,11

11,17

17,30

9,61

0Po

llica

12,82

24,44

5,77

9,63

27,78

9,61

14,67

20,80

13,11

3,50

0Casal

Velin

o16,48

28,10

9,43

13,29

31,44

13,27

18,33

24,46

16,77

7,16

3,66

0Ascea

1,64

9,98

8,69

4,83

13,32

4,85

0,21

6,34

1,35

10,96

14,46

18,12

0Pisciotta

2,84

14,46

4,21

0,35

17,80

0,37

4,69

10,82

3,13

6,48

9,98

13,64

4,48

0Centola

15,68

4,06

22,73

18,87

0,72

18,89

13,83

7,70

15,39

25,00

28,50

32,16

14,04

18,52

0Cam

erota

6,73

4,89

13,78

9,92

8,23

9,94

4,88

1,25

6,44

16,05

19,55

23,21

5,09

9,57

8,95

0Sa

nGiovann

iaPiro

10,16

1,46

17,21

13,35

4,80

13,37

8,31

2,18

9,87

19,48

22,98

26,64

8,52

13,00

5,52

3,43

0Sa

ntaMarina

11,16

0,46

18,21

14,35

3,80

14,37

9,31

3,18

10,87

20,48

23,98

27,64

9,52

14,00

4,52

4,43

1,00

0Ispa

ni12,06

0,44

19,11

15,25

2,90

15,27

10,21

4,08

11,77

21,38

24,88

28,54

10,42

14,90

3,62

5,33

1,90

0,90

0Sa

pri

18,62

7,00

25,67

21,81

3,66

21,83

16,77

10,64

18,33

27,94

31,44

35,10

16,98

21,46

2,94

11,89

8,46

7,46

6,56

0

57

Page 64: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

Capitolo 4

Analisi di correlazione inerente ilturismo estivo in Campania

Con l’arrivo imminente del periodo di vacanze, si vuole analizzare se ed in che modo lapresenza di turismo estivo in un comune della Campania possa influenzare la sua raccoltadifferenziata.In Campania estate è principalmente sinonimo di mare, ecco perché si sono considerati i 60comuni che affacciano sul mare, delle tre province costiere di Caserta, Napoli e Salerno, esi sono estratti alcuni dati dell’anno 2015 dal portale di Microambiente, MySir. Per tre diessi i dati non sono stati ancora forniti al sistema MySir - si tratta di Napoli, Lacco Ameno(NA), Vibonati (SA) - mentre per il comune di San Giovanni a Piro (SA) i dati non sonoritenuti totalmente attendibili, sicché sono stati esclusi dalla trattazione seguente.Ci si concentrerà, quindi, su 56 comuni, per una popolazione di 1.177.403 abitanti (corrispon-dente a circa il 20% della popolazione della Campania), con una produzione totale di rifiutinell’anno 2015 di 590.675.819 kg. La stragrande maggioranza di tali comuni ha percentualedi raccolta differenziata dell’anno 2015 compresa tra il 40% e l’85%; sono solo 3, infatti, icomuni che hanno percentuale di raccolta differenziata inferiore al 40%.

Come indice della presenza di turismo estivo si consideri la differenza tra i kg/ab/ggdi rifiuti prodotti nel mese di Agosto e quelli dell’intero anno 2015: questa quantità verrà

58

Page 65: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

4 – Analisi di correlazione inerente il turismo estivo in Campania

indicata con DeltaKg. La presenza di turismo sicuramente determina un incremento dei kgprocapite giornalieri di rifiuti, ma il danno che questi apportano al comune dipende essen-zialmente dalla loro natura! Se, infatti, i turisti producono per lo più rifiuti indifferenziati,corrispondenti prevalentemente al codice CER (Catalogo Europeo dei Rifiuti, cfr AppendiceA) 20.03.01, ci sarà chiaramente un’influenza negativa sulla bontà della raccolta differenzia-ta; in questo caso è probabile che la %RD diminuisca nel mese di Agosto. È questa l’ideaintuitiva che sta alla base del seguente interrogativo: la differenza tra la %RD del singolomese di Agosto e la %RD del 2015 (indicata con DeltaRD) può dipendere dal DeltaKg?

È stata effettuata un’analisi di correlazione lineare tra il DeltaKg e il DeltaRD, ossia siè cercato di stabilire se esiste una forma di dipendenza lineare del DeltaRD dal DeltaKg.Per ottenere una misura quantitativa della correlazione tra queste due grandezze, si utilizzeràcome indice statistico ancora una volta il coefficiente di correlazione campionario r.

Si ricorda che, dato un campione bivariato (xi, yi), i = 1, ..., n, una delle espressioni delcoefficiente di correlazione tra i dati x e y è data da

r =

n∑i=1

(xi − x)(yi − y)√√√√ n∑i=1

(xi − x)2

√√√√ n∑i=1

(yi − y)2

(4.0.1)

dove x e y sone le rispettive medie campionarie. Si osservi che se un valore xi è granderispetto ai valori tipici di x allora la differenza xi − x sarà positiva, mentre se xi è piccolorispetto a questi valori la differenza precedente sarà negativa. Si può ragionare analogamenteper i valori yi. Pertanto il prodotto (xi − x)(yi − y) sarà positivo per le osservazioni in cuixi e yi sono correlate positivamente (cioè quando, detto grossolanamente, a valori elevati[bassi] di x corrispondono valori elevati [bassi] di y); viceversa, il prodotto (xi − x)(yi − y)sarà negativo per le osservazioni in cui vi è correlazione negativa (ossia quando a valorielevati [bassi] di x corrispondo valori bassi [elevati] di y). Quindi, ci si attende che la somman∑i=1

(xi− x)(yi− y) sia positiva [negativa] se l’intero campione di dati mostra una correlazione

positiva [negativa].Alla luce di quanto osservato, quando r > 0 i dati si dicono correlati positivamente, mentrese r < 0 i dati si dicono correlati negativamente.Si noti che r è una quantità adimensionale e risulta sempre −1 ≤ r ≤ 1. Il suo valore assolutoè una misura della forza di correlazione esistente tra i valori x − i e yi: quando |r| = 1 viè una relazione lineare perfetta e i punti del diagramma di dispersione stanno tutti su una

59

Page 66: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

4 – Analisi di correlazione inerente il turismo estivo in Campania

retta (con pendenza positiva o negativa a seconda che sia r > 0 oppure r < 0). Si ritieneche la correlazione è molto intensa già per r ≥ 0,8, mentre la correlazione è molto deboleper r ≤ 0,3.

In questo caso, le xi del campione bivariato sono costituite dai DeltaKg dei 56 comuniconsiderati, mentre le yi dai DeltaRD. In Tabella 4.1 sono riportati tutti i dati esaminati.

Si specifica che in tutte le tabelle seguenti i kg procapite giornalieri e la percentuale diraccolta differenziata dell’intero anno 2015 sono indicate semplicemente con “kg/ab/gg” e“%RD” rispettivamente, mentre per riferirsi ai corrispondenti dati del solo mese di Agostoai nomi precedenti viene affiancata una “(A)”.

Tabella 4.1Prv Comune Abitanti kg tot. kg/ab annui kg/ab/gg %RD %RD(A) kg/ab/gg (A) DeltaKg DeltaRD

CE Castel Volturno 23.870 18.829.436 788,83 2,161 28,17 17,6 3,729 1,568 -10,57CE Cellole 7.872 6.676.480 848,13 2,324 69,37 47,66 4,614 2,290 -21,71CE Mondragone 27.142 13.748.703 506,55 1,388 44,90 39,58 2,039 0,651 -5,32CE Sessa Aurunca 22.631 10.302.219 455,23 1,247 70,18 67,55 1,994 0,747 -2,63NA Anacapri 6.742 3.793.003 562,59 1,541 68,35 71,51 2,035 0,494 3,16NA Bacoli 27.278 14.002.480 513,33 1,406 81,75 80,52 1,682 0,275 -1,23NA Barano d’Ischia 10.007 4.639.040 463,58 1,270 63,48 61,57 1,370 0,100 -1,91NA Capri 7.305 7.230.760 989,84 2,712 51,80 51,08 4,071 1,359 -0,72NA Casamicciola Terme 8.317 4.777.518 574,43 1,574 48,78 41,52 2,301 0,727 -7,26NA Castellammare di Stabia 64.598 28.823.409 446,20 1,222 51,47 53,84 1,289 0,066 2,37NA Ercolano 55.032 24.241.015 440,49 1,207 43,53 42,84 1,079 -0,128 -0,69NA Forio 17.279 11.038.520 638,84 1,750 29,73 30,45 2,576 0,825 0,72NA Giugliano in Campania 115.484 56.945.290 493,10 1,351 48,86 47,81 1,251 -0,100 -1,05NA Ischia 18.687 14.266.389 763,44 2,092 53,31 54,38 2,868 0,776 1,07NA Massa Lubrense 13.889 6.608.051 475,78 1,303 69,18 68,96 1,964 0,660 -0,22NA Meta 8.032 3.471.100 432,16 1,184 58,31 58,11 1,589 0,405 -0,20NA Monte di Procida 13.308 5.434.686 408,38 1,119 80,60 80,36 1,270 0,151 -0,24NA Piano di Sorrento 13.066 6.721.328 514,41 1,409 62,47 62,86 1,627 0,218 0,39NA Portici 57.900 22.142.624 382,43 1,048 61,25 59,57 0,793 -0,255 -1,68NA Pozzuoli 83.426 41.707.034 499,93 1,370 78,85 79,02 1,335 -0,035 0,17NA Procida 10.627 5.409.836 509,07 1,395 65,98 65,66 1,965 0,571 -0,32NA Sant’Agnello 8.998 4.709.710 523,42 1,434 65,38 71,30 1,842 0,408 5,92NA Serrara Fontana 3.199 1.791.152 559,91 1,534 17,10 13,31 2,309 0,775 -3,79NA Sorrento 16.612 14.142.089 851,32 2,332 63,56 63,21 3,072 0,740 -0,35NA Torre Annunziata 43.981 16.936.971 385,10 1,055 58,82 58,59 0,995 -0,060 -0,23NA Torre del Greco 87.323 42.870.811 490,95 1,345 47,73 52,02 1,359 0,014 4,29NA Vico Equense 20.879 9.546.933 457,25 1,253 66,56 66,05 1,495 0,243 -0,51SA Agropoli 21.035 12.855.290 611,14 1,674 62,20 46,62 2,179 0,505 -15,58SA Amalfi 5.341 3.823.890 715,95 1,962 66,75 67,09 2,753 0,791 0,34SA Ascea 5.828 3.410.900 585,26 1,603 62,41 62,67 4,075 2,471 0,26SA Atrani 919 388.212 422,43 1,157 85,31 90,41 1,874 0,717 5,10SA Battipaglia 50.963 19.490.888 382,45 1,048 67,24 65,22 1,074 0,026 -2,02SA Camerota 7.290 4.116.649 564,70 1,547 57,32 48,74 3,814 2,267 -8,58SA Capaccio 22.083 13.853.949 627,36 1,719 67,26 62,50 2,923 1,204 -4,76SA Casal Velino 5.104 1.779.536 348,66 0,955 80,53 71,84 2,512 1,557 -8,69SA Castellabate 8.140 6.290.500 772,79 2,117 56,07 50,6 4,727 2,610 -5,47SA Centola 4.958 3.376.233 680,97 1,866 48,37 40,47 5,180 3,315 -7,90SA Cetara 2.352 1.135.127 482,62 1,322 49,94 51,39 1,859 0,537 1,45SA Conca dei Marini 734 395.212 538,44 1,475 76,51 79,52 2,477 1,002 3,01SA Eboli 38.034 18.620.260 489,57 1,341 49,09 45,66 1,247 -0,094 -3,43SA Furore 857 310.195 361,95 0,992 60,10 60,59 1,364 0,372 0,49SA Ispani 1.006 504.760 501,75 1,375 51,99 64,54 3,444 2,069 12,55

60

Page 67: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

4 – Analisi di correlazione inerente il turismo estivo in Campania

Tabella 4.1 (continua da pagina precedente)Prv Comune Abitanti kg tot. kg/ab annui kg/ab/gg %RD %RD(A) kg/ab/gg (A) DeltaKg DeltaRD

SA Maiori 5.644 3.552.332 629,40 1,724 68,69 75,93 2,894 1,169 7,24SA Minori 2.860 1.296.782 453,42 1,242 81,08 79,92 1,612 0,370 -1,16SA Montecorice 2.573 1.675.439 651,16 1,784 63,76 59,23 5,512 3,728 -4,53SA Pisciotta 2.879 1.633.430 567,36 1,554 66,89 62,82 3,577 2,022 -4,07SA Pollica 2.477 1.992.137 804,25 2,203 77,07 68,89 5,949 3,745 -8,18SA Pontecagnano Faiano 25.049 12.233.070 488,37 1,338 52,43 49,62 1,507 0,169 -2,81SA Positano 3.985 3.817.441 957,95 2,625 51,73 59,91 4,108 1,483 8,18SA Praiano 2.068 1.139.752 551,14 1,510 70,86 76,19 2,260 0,750 5,33SA Ravello 2.475 1.570.255 634,45 1,738 58,79 58,06 2,525 0,786 -0,73SA Salerno 139.704 62.603.858 448,12 1,228 64,05 62,01 1,107 -0,121 -2,04SA San Mauro Cilento 976 479.004 490,78 1,345 73,37 75,28 4,462 3,118 1,91SA Santa Marina 3.204 1.321.550 412,47 1,130 52,89 36,49 1,937 0,807 -16,4SA Sapri 7.056 2.553.390 361,88 0,991 45,34 38,32 1,441 0,450 -7,02SA Vietri sul Mare 8.325 3.649.191 438,34 1,201 47,48 38,17 1,551 0,350 -9,31

Ecco il grafico a dispersione per i DeltaKg e DeltaRD riportati in Tabella 4.1:

Figura 4.1: Dati della Tabella 4.1 e retta interpolante

In questo caso, per gli n = 56 dati, il coefficiente di correlazione campionario r ed i coefficientidella retta di regressione m e q valgono

r = −0,224079, m = −1,330783, q = −0,725210,

sicché la correlazione tra i dati è negativa ma molto debole, infatti molti sono i dati che sidispongono lontano dalla retta. Sembrerebbe che la differenza tra %RD di Agosto e quella

61

Page 68: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

4 – Analisi di correlazione inerente il turismo estivo in Campania

dell’intero 2015 non possa essere influenzata dalla differenza tra i kg procapite giornalieri diAgosto e quelli dell’intero 2015.

A questo punto, però, si osservino meglio i singoli dati: si riscontrano diverse particolarità.Alcuni comuni hanno un DeltaKg negativo, il che sta a significare un decremento dei kgprocapite giornalieri di rifiuti nel mese di Agosto; altri, invece, presentano un DeltaRD

positivo, ossia la %RD migliora nel mese di Agosto rispetto alla media annuale. Si trattadei seguenti comuni:

Dati anomali della Tabella 4.1Prv Comune Abitanti kg/ab/gg %RD %RD (A) kg/ab/gg (A) DeltaKg DeltaRD

NA Anacapri 6.742 1,541 68,35 71,51 2,035 0,494 3,16NA Castellammare di Stabia 64.598 1,222 51,47 53,84 1,289 0,066 2,37NA Ercolano 55.032 1,207 43,53 42,84 1,079 -0,128 -0,69NA Forio 17.279 1,750 29,73 30,45 2,576 0,825 0,72NA Giugliano in Campania 115.484 1,351 48,86 47,81 1,251 -0,100 -1,05NA Ischia 18.687 2,092 53,31 54,38 2,868 0,776 1,07NA Piano di Sorrento 13.066 1,409 62,47 62,86 1,627 0,218 0,39NA Portici 57.900 1,048 61,25 59,57 0,793 -0,255 -1,68NA Pozzuoli 83.426 1,370 78,85 79,02 1,335 -0,035 0,17NA Sant’Agnello 8.998 1,434 65,38 60,10 1,842 0,408 5,92NA Torre Annunziata 43.981 1,055 58,82 58,59 0,995 -0,060 -0,23NA Torre del Greco 87.323 1,345 47,73 52,02 1,359 0,014 4,29SA Amalfi 5.341 1,962 66,75 67,09 2,753 0,791 0,34SA Ascea 5.828 1,603 62,41 62,67 4,075 2,471 0,26SA Atrani 919 1,157 85,31 90,41 1,874 0,717 5,10SA Cetara 2.352 1,322 49,94 51,39 1,859 0,537 1,45SA Conca dei Marini 734 1,475 76,51 79,52 2,477 1,002 3,01SA Eboli 38.034 1,341 49,09 45,66 1,247 -0,094 -3,43SA Furore 857 0,992 60,10 60,59 1,364 0,372 0,49SA Ispani 1.006 1,375 51,99 64,54 3,444 2,069 12,55SA Maiori 5.644 1,724 68,69 75,93 2,894 1,169 7,24SA Positano 3.985 2,625 51,73 59,91 4,108 1,483 8,18SA Praiano 2.068 1,510 70,86 76,19 2,260 0,750 5,33SA Salerno 139.704 1,228 64,05 62,01 1,107 -0,121 -2,04SA San Mauro Cilento 976 1,345 73,37 75,28 4,462 3,118 1,91

Sono evidenziati in rosso i DeltaKg negativi, in verde i DeltaRD positivi. Questi 25comuni vengono analizzati singolarmente.

Un DeltaKg negativo indica semplicemente che il comune in questione, pur essendocostiero, non è forte meta di turisti, anzi ci sarà un discreto numero di abitanti che si al-lontanano nel mese di Agosto. Tra i comuni con decremento dei kg procapite giornalieriin Agosto, il più virtuoso è sicuramente Pozzuoli: esso infatti, in corrispondenza dell’ab-bassamento di rifiuti procapite, ha un incremento, anche se piccolo, di %RD. C’era daaspettarselo da Pozzuoli, che con il 78,85% di RD, 83.426 abitanti e un centro di raccolta, èstato premiato tra i Comuni Ricicloni (cfr. Appendice A) del 2015!

62

Page 69: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

4 – Analisi di correlazione inerente il turismo estivo in Campania

Gli altri comuni che hanno un DeltaKg negativo, eccetto Eboli e Salerno, hanno anche unoscarto di %RD inferiore a −2: tale decremento di %RD può essere legato a fattori casuali ead una raccolta differenziata di per sé non ottimale, tra questi comuni, infatti, solo Porticiraggiunge il 60% di RD. Anche per Eboli la situazione è analoga, infatti la sua %RD annua èinferiore al 50%. Per Salerno si vada un po’ più nel dettaglio, essendo una provincia con piùdi 100.000 abitanti e quasi il 65% di RD annua: nel mese di Agosto i kg procapite giornalierinon raggiungono il picco massimo, bensì il minimo! Questo è sicuramente sintomo della fugadalla città di molti abitanti, ma stranamente in Agosto l’incidenza di 20.03.01 (rifiuti indif-ferenziati urbani) raggiunge quasi il suo valore massimo, infatti è seconda solo all’incidenzadi Dicembre, da anni mese di alta affluenza di turisti a Salerno vista la manifestazione “LuciD’Artista”. Come spiegare questa anomalia? Forse chi è costretto a trascorrere le vacanzein città vuole consolarsi prestando meno attenzione alla raccolta differenziata?

Si rifletta ora sui comuni caratterizzati soltanto da DeltaRD positivo.Anacapri è sicuramente un caso virtuoso: ad una raccolta differenziata già ottima (68,5% diRD) il turismo apporta solo benefici! Addentrandosi nell’analisi merceologica dei rifiuti, sipuò osservare che i rifiuti indifferenziati (CER 20.03.01) in Agosto hanno un’incidenza del28%, rispetto alla media annuale di oltre il 31%, mentre i rifiuti “organici” (biodegradibilidi mense e cucine, CER 20.01.08) hanno un’incidenza più alta in Agosto rispetto a quellaannuale, 32% contro il 25,8%. Di sicuro quello di Anacapri un tipo di turismo “ricco” chesi snoda tra strutture alberghiere a 5 stelle, ville e ristoranti di lusso, ma anche costretto aconfrontarsi con un’eccellente raccolta differenziata, che migliora di anno in anno.Per Castellammare di Stabia, invece, la situazione è differente: la raccolta differenziata èancora in fase di consolidamento, basti osservare che c’è stata una decrescita di %RD dal60% del 2014 al 51,5% del 2015. Quindi, la piccola differenza di %RD tra l’Agosto del 2015e la media annuale dello stesso anno può essere legato a fattori contingenti e casuali, e nonad una forte affluenza di turisti nel comune ad Agosto. Infatti, il valore di kg/ab/gg nonraggiunge il suo massimo in Agosto.Forio ha il picco massimo di kg/ab/gg di rifiuti nel mese di Agosto, quindi l’affluenza dituristi non è certo indifferente. Però il suo effetto sulla raccolta differenziata del comune sì!La %RD annua è pari appena al 30% e l’incidenza di rifiuti indifferenziati resta sostanzial-mente invariata nel mese di Agosto rispetto al resto dell’anno (è circa il 70%): con questipresupposti il piccolo DeltaRD positivo non può certo essere visto come una vittoria delcomune “contro” i turisti! Ischia e Piano di Sorrento, seppur con %RD piuttosto differenti(la prima del 53,3%, la seconda del 62,50%), sono accomunati da un tipo di turismo “ricco” eanche internazionale. Per entrambi l’incidenza di 20.03.01 resta invariata nel mese di Agosto

63

Page 70: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

4 – Analisi di correlazione inerente il turismo estivo in Campania

(45% per Ischia, 37% per Piano Sorrento), mentre quella di 20.01.08 aumenta di circa 5unità (dal 25% al 30% per Ischia, dal 28% al 32% per Piano Sorrento).Sant’Agnello è uno di quei comuni la cui buona e consolidata raccolta differenziata (oltre65% annuo di RD) riesce ad influenzare anche consumo critico e capacità di riciclo dei turi-sti! L’incidenza di rifiuti indifferenziati, infatti, diminuisce dal 34% annuo al 28% in Agosto,mentre aumenta l’incidenza di rifiuti “organici”, dal 35,5% annuo al 42,6% in Agosto.Per Torre del Greco non si può parlare di forte correlazione tra turismo e %RD (tra l’altro,inferiore al limite del 65% previsto dall’articolo 205 del Dlsg 152/06 ): il DeltaKg è moltopiccolo, infatti i kg/ab/gg non raggiungono il valore massimo ad Agosto ed, inoltre, l’inci-denza di 20.03.01 è del 43,8% in Agosto, più bassa della media annuale (50% circa).Amalfi, Atrani, Conca dei Marini e Praiano sono tutti Comuni Ricicloni dell’anno 2015! Nonc’è da stupirsi, quindi, per il loro DeltaRD positivo. Ad una raccolta differenziata ottimale siaggiunge un turismo per lo più “ricco” che comporta un aumento (anche se sostanzialmentepiccolo) dell’incidenza di 20.01.08 in Agosto rispetto alla media annuale, ed un decrementodell’incidenza di 20.03.01.Per Maiori la situazione è analoga ai 4 casi precedenti: buona %RD annua (68,8%) unitaad un turismo prevalentemente “ricco”. Nel mese di Agosto, aumenta l’incidenza di rifiutibiodegradabili di cucine e mense e diminuisce quella di rifiuti indifferenziati. Per Cetara,Furore e Positano, pur rimanendo in Costiera Amalfitana, si ha una %RD annua inferioreal 60%. Nonostante ciò, il turismo “ricco” che caratterizza la zona influisce positivamenteanche su questi 3 comuni, in particolare su Positano: forse il più soggetto a turismo ancheinternazionale, ha un’incidenza di 20.03.01 ad Agosto del 48%, inferiore all’incidenza annuadel 40%, mentre l’incidenza di 20.01.08 aumenta dal 26% al 33%.Infine, anche se per piccoli valori di DeltaRD, rientrano in questo gruppo di comuni ancheAscea e San Mauro Cilento: sono gli unici due centri turistici del Cilento che sono riuscitia far valere, anche nella stagione estiva, la propria %RD (discreta, 63%, per Ascea; ottima,73,7%, per San Mauro Cilento). Entrambi hanno picco massimo di rifiuti procapite giorna-lieri ad Agosto, ma nonostante ciò l’incidenza di 20.03.01 (rifiuti indifferenziati) diminuisce,pur se di poco, in questo mese. Ad aumentare sono, invece, le incidenze di 20.01.08 (rifiuti“organici”): dal 31% annuo al 37,4% in Agosto per Ascea, dal 27% al 40% per San MauroCilento.Merita una riflessione singola Ispani, comune del Cilento di circa 1.000 abitanti con il 52%di RD nell’anno 2015. Il DeltaRD pari addirittura a 12,55 dipenderà sicuramente da fattoricasuali, vista la raccolta differenziata ancora da consolidare. Basta confrontare questo valorecolDeltaKg, maggiore di 2, piuttosto elevato, dunque, perché ci sia stato un “miglioramento”

64

Page 71: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

4 – Analisi di correlazione inerente il turismo estivo in Campania

di %RD così netto!

A questo punto, per i 31 comuni rimasti, tutti caratterizzati da DeltaKg positivo eDeltaRD negativo, si ripete la stessa analisi di correlazione precedente: si tratta, adesso, dicomuni per cui ad un incremento dei rifiuti procapite nel mese di Agosto, rispetto alla mediaannuale, corrisponde un decremento della %RD. Si cerca di capire se le due situazioni sonocollegate. I comuni sono i seguenti:

Tabella 4.2Prv Comune Abitanti kg tot. kg/ab annui kg/ab/gg %RD %RD(A) kg/ab/gg (A) DeltaKg DeltaRD

CE Castel Volturno 23.870 18.829.436 788,83 2,161 28,17 17,6 3,729 1,568 -10,57CE Cellole 7.872 6.676.480 848,13 2,324 69,37 47,66 614 2,290 -21,71CE Mondragone 27.142 13.748.703 506,55 1,388 44,90 39,58 2,039 0,651 -5,32CE Sessa Aurunca 22.631 10.302.219 455,23 1,247 70,18 67,55 1,994 0,747 -2,63NA Bacoli 27.278 14.002.480 513,33 1,406 81,75 80,52 1,682 0,275 -1,23NA Barano d’Ischia 10.007 4.639.040 463,58 1,270 63,48 61,57 1,370 0,100 -1,91NA Capri 7.305 7.230.760 989,84 2,712 51,80 51,08 4,071 1,359 -0,72NA Casamicciola Terme 8.317 4.777.518 574,43 1,574 48,78 41,52 2,301 0,727 -7,26NA Massa Lubrense 13.889 6.608.051 475,78 1,303 69,18 68,96 1,964 0,660 -0,22NA Meta 8.032 3.471.100 432,16 1,184 58,31 58,11 1,589 0,405 -0,20NA Monte di Procida 13.308 5.434.686 408,38 1,119 80,60 80,36 1,270 0,151 -0,24NA Procida 10.627 5.409.836 509,07 1,395 65,98 65,66 1,965 0,571 -0,32NA Serrara Fontana 3.199 1.791.152 559,91 1,534 17,10 13,31 2,309 0,775 -3,79NA Sorrento 16.612 14.142.089 851,32 2,332 63,56 63,21 3,072 0,740 -0,35NA Vico Equense 20.879 9.546.933 457,25 1,253 66,56 66,05 1,495 0,243 -0,51SA Agropoli 21.035 12.855.290 611,14 1,674 62,20 46,62 2,179 0,505 -15,58SA Battipaglia 50.963 19.490.888 382,45 1,048 67,24 65,22 1,074 0,026 -2,02SA Camerota 7.290 4.116.649 564,70 1,547 57,32 48,74 3,814 2,267 -8,58SA Capaccio 22.083 13.853.949 627,36 1,719 67,26 62,50 2,923 1,204 -4,76SA Casal Velino 5.104 1.779.536 348,66 0,955 80,53 71,84 2,512 1,557 -8,69SA Castellabate 8.140 6.290.500 772,79 2,117 56,07 50,6 4,727 2,610 -5,47SA Centola 4.958 3.376.233 680,97 1,866 48,37 40,47 5,180 3,315 -7,90SA Minori 2.860 1.296.782 453,42 1,242 81,08 79,92 1,612 0,370 -1,16SA Montecorice 2.573 1.675.439 651,16 1,784 63,76 59,23 5,512 3,728 -4,53SA Pisciotta 2.879 1.633.430 567,36 1,554 66,89 62,82 3,577 2,022 -4,07SA Pollica 2.477 1.992.137 804,25 2,203 77,07 68,89 5,949 3,745 -8,18SA Pontecagnano Faiano 25.049 12.233.070 488,37 1,338 52,43 49,62 1,507 0,169 -2,81SA Ravello 2.475 1.570.255 634,45 1,738 58,79 58,06 2,525 0,786 -0,73SA Santa Marina 3.204 1.321.550 412,47 1,130 52,89 36,49 1,937 0,807 -16,4SA Sapri 7.056 2.553.390 361,88 0,991 45,34 38,32 1,441 0,450 -7,02SA Vietri sul Mare 8.325 3.649.191 438,34 1,201 47,48 38,17 1,551 0,350 -9,31

Ecco il grafico a dispersione per i DeltaKg e DeltaRD riportati in Tabella 4.2:

I dati, in questo secondo caso, sono più vicini tra loro e alla retta di regressione, ma nonancora in maniera intensa, come testimonia il valore del coefficiente di regressione campio-nario r = −0,351130; i coefficienti della retta interpolante, invece, sono m = −1,751323 e

65

Page 72: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

4 – Analisi di correlazione inerente il turismo estivo in Campania

Figura 4.2: Dati della Tabella 4.2 e retta interpolante

q = −3,309378. Sicuramente, però, la correlazione è diventata più forte rispetto ai 56 datiprecedenti e si è mantenuta negativa.

Tra i dati se ne possono individuare ancora alcuni anomali rispetto agli altri: ci sono,infatti, comuni per cui l’incremento di rifiuti procapite nel mese di Agosto si aggira intornoall’unità, mentre lo scarto di %RD tra il mese di Agosto e la media annuale è molto piùmarcato (in negativo)! Si tratta dei seguenti comuni:

Dati anomali della Tabella 4.2Prv Comune Abitanti kg/ab/gg %RD %RD(A) kg/ab/gg (A) DeltaKg DeltaRD

CE Castel Volturno 23.870 2,161 28,17 17,6 3,729 1,568 -10,57CE Cellole 7.872 2,324 69,37 47,66 4,614 2,290 -21,71CE Mondragone 27.142 1,388 44,90 39,58 2,039 0,651 -5,32NA Serrara Fontana 3.199 1,534 17,10 13,31 2,309 0,775 -3,79SA Agropoli 21.035 1,674 62,20 46,62 2,179 0,505 -15,58SA Santa Marina 3.204 1,130 52,89 36,49 1,937 0,807 -16,4SA Sapri 7.056 0,991 45,34 38,32 1,441 0,450 -7,02SA Vietri sul Mare 8.325 1,201 47,48 38,17 1,551 0,350 -9,31

È doveroso sottolineare che tutti i comuni appena considerati, eccetto Cellole e Agropoli,hanno una percentuale di raccolta differenziata di per sé già bassa, di molto al di sotto dellimite di 65% previsto dall’articolo 205 del Dlsg 152/06. Per arricchire l’analisi si può ra-gionare, come prima, su come varia l’incidenza di 20.03.01 (rifiuti indifferenziati) nel singolomese di Agosto rispetto alla media annuale: per Castel Volturno l’incidenza di rifiuti indif-ferenziati aumenta dal 70% annuo all’82% circa in Agosto, per Mondragone dal 52% al 58%circa, per Santa Marina addirittura dal 40% a più del 62%, per Sapri dal 54% al 62% circa

66

Page 73: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

4 – Analisi di correlazione inerente il turismo estivo in Campania

e per Vietri sul Mare dal 52% al 62%.Per Serrara Fontana l’incidenza di 20.03.01 varia di poco, “solo” dall’83% all’86%, ma citrova di fronte una situazione per nulla ottimale durante tutto l’anno: per appena poco piùdi 3.000 abitanti, 1.791.152 kg di rifiuti prodotti nel 2015 e soltanto il 17,10% di RD.Per i comuni di Cellole e Agropoli la media annua è di gran lunga migliore degli altri casi:69,37% di RD e incidenza di 20.03.01 pari al 30% per il primo, 62,20% di RD e incidenza di20.03.01 pari al 37% per il secondo; eppure, l’incidenza di rifiuti indifferenziati (20.03.01) nelmese di Agosto cresce molto, fino al 52% e al 53% rispettivamente. La spiegazione può essereindividuata nel tipo di turismo che interessa questi comuni: un turismo di tipo familiare,caratterizzato dalle numerose case vacanze con le quali il turista può spendere relativamentepoco e riciclare ancor meno! Allora, in cosa può migliorarsi l’amministrazione per indurre ituristi a partecipare attivamente alla raccolta differenziata del comune?

Si escludano, quindi, anche gli 8 comuni appena descritti, e si ripeta l’analisi di correla-zione per i rimanenti 23 comuni:

Tabella 4.3Prv Comune Abitanti kg tot. kg/ab annui kg/ab/gg %RD %RD(A) kg/ab/gg (A) DeltaKg DeltaRD

CE Sessa Aurunca 22.631 10.302.219 455,23 1,247 70,18 67,55 1,994 0,747 -2,63NA Bacoli 27.278 14.002.480 513,33 1,406 81,75 80,52 1,682 0,275 -1,23NA Barano d’Ischia 10.007 4.639.040 463,58 1,270 63,48 61,57 1,370 0,100 -1,91NA Capri 7.305 7.230.760 989,84 2,712 51,80 51,08 4,071 1,359 -0,72NA Casamicciola Terme 8.317 4.777.518 574,43 1,574 48,78 41,52 2,301 0,727 -7,26NA Massa Lubrense 13.889 6.608.051 475,78 1,303 69,18 68,96 1,964 0,660 -0,22NA Meta 8.032 3.471.100 432,16 1,184 58,31 58,11 1,589 0,405 -0,20NA Monte di Procida 13.308 5.434.686 408,38 1,119 80,60 80,36 1,270 0,151 -0,24NA Procida 10.627 5.409.836 509,07 1,395 65,98 65,66 1,965 0,571 -0,32NA Sorrento 16.612 14.142.089 851,32 2,332 63,56 63,21 3,072 0,740 -0,35NA Vico Equense 20.879 9.546.933 457,25 1,253 66,56 66,05 1,495 0,243 -0,51SA Battipaglia 50.963 19.490.888 382,45 1,048 67,24 65,22 1,074 0,026 -2,02SA Camerota 7.290 4.116.649 564,70 1,547 57,32 48,74 3,814 2,267 -8,58SA Capaccio 22.083 13.853.949 627,36 1,719 67,26 62,50 2,923 1,204 -4,76SA Casal Velino 5.104 1.779.536 348,66 0,955 80,53 71,84 2,512 1,557 -8,69SA Castellabate 8.140 6.290.500 772,79 2,117 56,07 50,6 4,727 2,610 -5,47SA Centola 4.958 3.376.233 680,97 1,866 48,37 40,47 5,180 3,315 -7,90SA Minori 2.860 1.296.782 453,42 1,242 81,08 79,92 1,612 0,370 -1,16SA Montecorice 2.573 1.675.439 651,16 1,784 63,76 59,23 5,512 3,728 -4,53SA Pisciotta 2.879 1.633.430 567,36 1,554 66,89 62,82 3,577 2,022 -4,07SA Pollica 2.477 1.992.137 804,25 2,203 77,07 68,89 5,949 3,745 -8,18SA Pontecagnano Faiano 25.049 12.233.070 488,37 1,338 52,43 49,62 1,507 0,169 -2,81SA Ravello 2.475 1.570.255 634,45 1,738 58,79 58,06 2,525 0,786 -0,73

Dal grafico a dispersione dei dati in Tabella 4.3 si deduce che la correlazione negativa di-venta finalmente più marcata: cresce la dipendenza lineare tra DeltaKg e DeltaRD, cometestimonia il valore del coefficiente di regressione campionario r = −0,757292; i coefficienti

67

Page 74: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

4 – Analisi di correlazione inerente il turismo estivo in Campania

della retta interpolante, invece, sono m = −1,88855 e q = −0,803091.

Figura 4.3: Dati della Tabella 4.3 e retta interpolante

I punti rossi sono i più distanti dalla linea di tendenza, quindi vale la pena di analizzaresingolarmente i comuni corrispondenti a queste 4 coppie di dati, ossia:

Dati anomali della Tabella 4.3Prv Comune Abitanti kg/ab/gg %RD %RD(A) kg/ab/gg (A) DeltaKg DeltaRD

NA Capri 7.305 2,712 51,80 51,08 4,071 1,359 -0,72SA Camerota 7.290 1,547 57,32 48,74 3,814 2,267 -8,58SA Casal Velino 5.104 0,955 80,53 71,84 2,512 1,557 -8,69SA Montecorice 2.573 1,784 63,76 59,23 5,512 3,728 -4,53

Per Capri e Montecorice in corrispondenza di un DeltaKg notevole, si ha un DeltaRDrelativamente piccolo, ma le situazioni dei due comuni sono sostanzialmente diverse. Capriha una %RD annua bassa, che si aggira intorno al 50% e nel mese di Agosto resta quasiinvariata, nonostante si verifichi il picco massimo di rifiuti procapite dell’anno 2015. Comepuò essere spiegata questa situazione? Analizzando l’incidenza di rifiuti indifferenziati (CER20.03.01), si osserva che il suo valore annuo (48%) coincide quasi con l’incidenza di Agosto(48,8%), mentre si fa più forte la differenza tra l’incidenza annua e quella di Agosto deirifiuti biodegradibili di cucine e mense (CER 20.01.08), che passa da una media annua del14,6% al valore di Agosto del 19,5%. Ciò è da ricondurre forse alla presenza di un turismo“ricco”, che si affida a strutture alberghiere e ristoranti di lusso: l’influenza del turismo sullaraccolta differenziata può essere addirittura positiva in questi casi, come si è riscontrato peraltri comuni dalla %RD non eccellente, quali Ischia o Positano.

68

Page 75: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

4 – Analisi di correlazione inerente il turismo estivo in Campania

Il comune di Montecorice, invece, ha una discreta %RD annua, 63,76%, di poco al di sottodel limite richiesto dalla legge. La sua diminuzione nel mese di Agosto è relativamente bassa,rispetto alla grande quantità giornaliera di rifiuti procapite in più, infatti 20.03.01 e 20.01.08aumentano “in proporzione” tra di loro: l’incidenza di rifiuti indifferenziati (20.03.01) variadal 36% annuo al 40% in Agosto, mentre l’incidenza di rifiuti organici (20.01.08) varia dal28,4% al 33%.Per Camerota e Casal Velino il problema risiede principalmente nel tipo di turismo cheinteressa i comuni della Costiera Cilentana: turismo familiare o di comitiva, caratterizzatodalle numerose case vacanze. Da Camerota ce lo si può aspettare, vista la %RD annuainferiore al 60%; ma come mai nemmeno un comune virtuoso quale Casal Velino, che ha ben80% di RD annua, riesce a coinvolgere i turisti nella propria raccolta differenziata?

Si è giunti così, con varie scremature successive, al campione finale di 19 comuni, quelliche meglio rappresentano l’idea intuitiva di correlazione tra DeltaKg e DeltaRD:

Tabella 4.4Prv Comune Abitanti kg tot. kg/ab annui kg/ab/gg %RD %RD(A) kg/ab/gg (A) DeltaKg DeltaRD

CE Sessa Aurunca 22.631 10.302.219 455,23 1,247 70,18 67,55 1,994 0,747 -2,63NA Bacoli 27.278 14.002.480 513,33 1,406 81,75 80,52 1,682 0,275 -1,23NA Barano d’Ischia 10.007 4.639.040 463,58 1,270 63,48 61,57 1,370 0,100 -1,91NA Casamicciola Terme 8.317 4.777.518 574,43 1,574 48,78 41,52 2,301 0,727 -7,26NA Massa Lubrense 13.889 6.608.051 475,78 1,303 69,18 68,96 1,964 0,660 -0,22NA Meta 8.032 3.471.100 432,16 1,184 58,31 58,11 1,589 0,405 -0,20NA Monte di Procida 13.308 5.434.686 408,38 1,119 80,60 80,36 1,270 0,151 -0,24NA Procida 10.627 5.409.836 509,07 1,395 65,98 65,66 1,965 0,571 -0,32NA Sorrento 16.612 14.142.089 851,32 2,332 63,56 63,21 3,072 0,740 -0,35NA Vico Equense 20.879 9.546.933 457,25 1,253 66,56 66,05 1,495 0,243 -0,51SA Battipaglia 50.963 19.490.888 382,45 1,048 67,24 65,22 1,074 0,026 -2,02SA Capaccio 22.083 13.853.949 627,36 1,719 67,26 62,50 2,923 1,204 -4,76SA Castellabate 8.140 6.290.500 772,79 2,117 56,07 50,6 4,727 2,610 -5,47SA Centola 4.958 3.376.233 680,97 1,866 48,37 40,47 5,180 3,315 -7,90SA Minori 2.860 1.296.782 453,42 1,242 81,08 79,92 1,612 0,370 -1,16SA Pisciotta 2.879 1.633.430 567,36 1,554 66,89 62,82 3,577 2,022 -4,07SA Pollica 2.477 1.992.137 804,25 2,203 77,07 68,89 5,949 3,745 -8,18SA Pontecagnano Faiano 25.049 12.233.070 488,37 1,338 52,43 49,62 1,507 0,169 -2,81SA Ravello 2.475 1.570.255 634,45 1,738 58,79 58,06 2,525 0,786 -0,73

Per essi, il grafico a dispersione con linea di tendenza delle coppie (DeltaKg,DeltaRD) sipresenta in questo modo:

Il modulo del coefficiente di correlazione è molto vicino ad 1, infatti si ha r = −0,881423;sicché i dati si dispongono bene in prossimità di una retta con pendenza negativa, dicoefficienti m = −2,014931 e q = −0,546821: al crescere del DeltaKg, diminuisce ilDeltaRD.

69

Page 76: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

4 – Analisi di correlazione inerente il turismo estivo in Campania

Figura 4.4: Dati della Tabella 4.4 e retta interpolante

Conclusioni

La presenza di turismo determina un incremento dei kg procapite giornalieri di rifiuti da cui,in generale e con buona approssimazione, la diminuzione di %RD vi dipende linearmente. Èalquanto probabile che DeltaRD sia poco più del doppio di DeltaKg, con il primo negativoed il secondo positivo.Nella maggior parte dei casi, lo scarto tra %RD di Agosto e %RD annua è contenuto quandoil comune già di per sé fa una buona raccolta differenziata. Così, in linea di massima, il turistaè invogliato, anche in vacanza, a riciclare bene i rifiuti.A tutto questo, però, va ad aggiungersi la natura dei rifiuti prodotti dal turista: questapuò variare a seconda della zona e a seconda del tipo di turismo che interessa la zona. Adesempio, si è osservato che la maggior parte dei comuni della Costiera Amalfitana e quellidell’isola di Capri sono caratterizzati da un incremento di %RD nel mese di Agosto, oppureda un decremento irrisorio rispetto alla grande e nota affluenza di turisti in questi comuni;ciò è dovuto, probabilmente, ad un incremento notevole di rifiuti organici in Agosto, e ad unaminore incidenza di rifiuti indifferenziati, a testimonianza di un tipo di turismo “ricco”, chesi alimenta di strutture alberghiere e ristoranti di lusso. Si è osservato, anche che i comunidella Costiera Cilentana, invece, sono per lo più caratterizzati da un decremento di %RD,in diversi casi addirittura di circa 8 unità! Così succede per comuni come Casal Velino (giàanalizzato precedentemente, con 80,53% annua di RD) o Pollica (con 77,07% annua di RD).Per quest’ultimo la diminuzione di %RD nel mese di Agosto è indubbiamente proporzionataall’incremento di kg/ab/gg di rifiuti nello stesso mese (infatti è poco più del doppio, come ci

70

Page 77: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

4 – Analisi di correlazione inerente il turismo estivo in Campania

si aspetta dall’analisi di correlazione appena effettuata), ma il problema risiede nell’incidenzadi 20.03.01 che varia dal 22% annuo al 31% in Agosto, mentre l’incidenza di 20.01.08 è piùcontenuta e varia dal 27% al 31% circa. In definitiva, ciò su cui bisogna maggiormenteriflettere è che, di fronte all’incremento di rifiuti indifferenziati, nulla possono persino icomuni con un’ottima percentuale di raccolta differenziata annua!

71

Page 78: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

Appendice A

Microambiente srl e il sistemaSIR-MySir

Questa sezione è interamente dedicata ad illustrare le principali peculiarità ed attività dellasocietà Microambiente e di uno dei suoi prodotti, il sistema SIR-MySir, fondamentale perla realizzazione di questo elaborato. Si coglie l’occasione anche per ringraziare sentitamentel’Ing. Carlo Di Domenico, per la fruttuosa ed interessante collaborazione svolta, ed il Prof.Antonio Di Crescenzo, per l’opportunità offertami.

Microambiente srl

Come si struttura - La storia

Microambiente Srl è una società operante nel contesto nazionale e internazionale, formatanel 2005 da un gruppo di professionisti dotati di esperienze multidisciplinari, legati da unrapporto di collaborazione iniziato nel 1991, che ha favorito la realizzazione di attività diformazione per la Camera di Commercio di Napoli, e di docenza presso la Seconda Universitàdegli Studi di Napoli. La società è in grado di offrire la propria competenza e professionalitàin svariati servizi connessi alla variabile ambientale, rivolgendo la propria attenzione agli entipubblici e privati e alle imprese.

72

Page 79: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

A – Microambiente srl e il sistema SIR-MySir

La forza di Microambiente sta nel puntare al miglioramento e all’innovazione della comu-nicazione e dei sistemi informativi. L’azienda, leader in Campania nelle certificazioni perle aziende in tema ambientale, opera per il raggiungimento degli scopi in seno sia alle am-ministrazioni comunali sia alle aziende, fornendo loro un know-how funzionale alle attivitàquotidiane svolte. La sensibilità e l’attenzione verso le tematiche ambientali hanno fatto sìche Microambiente coniugasse conoscenze teoriche dei collaboratori e impegno pratico sulcampo, alla luce del sempre più rilevante tema della Circular Economy.

Formazione e comunicazione ambientale

Grazie alla pluridecennale esperienza e alla competenza del suo personale, Microambienterealizza attività di formazione, articolate in forme di docenze, in corsi di aggiornamentoprofessionalizzanti sulla normativa ambientale e sulla gestione integrata dei rifiuti presso leamministrazioni comunali. Particolare attenzione è data al settore comunicativo, attraversola realizzazione di campagne di comunicazione per la promozione della raccolta differenziata,di informazione e sensibilizzazione per enti pubblici e privati. Tali manifestazioni sono rea-lizzate attraverso stampati e attraverso l’ideazione di eventi ad hoc, come l’evento annuale“Comuni Ricicloni Campania”, avvenimento che coinvolge più di 500 comuni, Legambientee i consorzi di filiera, finalizzato a premiare coloro i quali si distinguono in modo virtuosonell’ambito della Gestione dei Rifiuti.

I prodotti di Microambiente

Microambiente è stata la prima società in Italia a realizzare un progetto di effettiva traccia-bilità dei rifiuti che è attualmente applicato ed utilizzato da molti enti pubblici. I prodottiprincipali della società sono: SIR-MySir, MyCdR e MyAudit. I sistemi di gestione dei rifiutidel futuro passano necessariamente attraverso la condivisione delle informazioni, seguendo ilprincipio della interoperabilità, secondo il quale i dati forniti dai comuni aderenti certificanola trasparenza delle amministrazioni e la bontà del loro operato, facilitando l’interscambiodelle informazioni tra sistemi differenti.

• MySir - Il SIR (Sistema Informativo Rifiuti) è una piattaforma informativa che tienesotto controllo, con l’ausilio di statistiche e report, l’andamento della raccolta differen-ziata dei comuni e dell’analisi merceologica dei rifiuti. Il prodotto MySir si caratterizzaper avere un elevato vantaggio sia per i cittadini che per le amministrazioni, poichéi primi possono monitorare gratuitamente e in tempo reale l’operato dell’ente che li

73

Page 80: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

A – Microambiente srl e il sistema SIR-MySir

amministra nell’ottica della trasparenza, e i secondi, accedendo alle aree riservate atti-nenti, possono svolgere l’importante attività di archiviazione e gestione della documen-tazione relativa ai rifiuti, con la possibilità di confrontare il proprio operato con quellodi altri. Il progetto ebbe origine nel 2003, durante un incontro con l’attuale direttoredel CONAI (Consorzio Nazionale Imballaggi), che aveva per oggetto la possibilità diapplicare un sistema di valutazione degli impatti ambientali durante il ciclo di vita deirifiuti solidi urbani, in grado di individuare la modalità di gestione più virtuosa. IlSIR è stato ritenuto il sistema “più adeguato” perché consente di tenere sotto controlloproduzione e destino delle singole movimentazioni dei rifiuti grazie ad un’idea moltosemplice e a costo zero per le amministrazioni, informatizzando i Formulari di Identi-ficazione dei Rifiuti (FIR).Inoltre, è disponibile l’app MySir per smartphone Android e iOS che permette di co-noscere, già in fase di acquisto di un prodotto, le modalità di smaltimento finale deisuoi imballaggi, risolvendo così ogni dubbio relativo a dove conferire un certo materia-le. Inoltre, l’applicazione consente di inviare in tempo reale foto, video, segnalazionie suggerimenti al gestore del servizio pubblico, per interagire direttamente con gliamministratori. Ogni utente può consultare, inoltre, il calendario online della raccoltadifferenziata del proprio comune e conoscere quale materiale conferire quotidianamente.

• MyCdR - Il software innovativo per la gestione dei Centri di Raccolta comunali è rea-lizzato interamente con la tecnologia open-source. MyCdR ha completamente ribaltatoil concetto della vecchia e statica isola ecologica del passato; infatti, oggi è il cittadinoil principale attore responsabile dell’attività di conferimento, grazie alla tracciabilitàdel rifiuto garantita dal software. Le iniziative delle suddette aree finiscono spesso persfuggire al controllo e alla gestione delle pubbliche amministrazioni interessate. É perquesto motivo che i controlli all’accesso al centro di raccolta, meglio se informatizzatitramite smartphone o tablet, devono essere aperti ai cittadini e alle aziende in modopiù esteso. Microambiente riesce a trovare la soluzione specifica in relazione al sogget-to di riferimento, minimizzando gli sprechi seguendo la linea della condivisione delleinformazioni. Le funzionalità del MyCdR sono: l’identificazione dell’utente attraversola lettura della tessera sanitaria e/o codice fiscale e smartphone con controllo dell’a-nagrafica tributi; la registrazione dei dati anche attraverso collegamenti con le bilance;la gestione delle premialità e delle utenze domestiche; la redazione di bilanci di massaprevisti dalle normative; la consegna dei kit. L’operatore del Centro di Raccolta puòaccedere al software da qualunque computer connesso ad Internet, avendo a disposi-zione tutte le funzioni del proprio profilo. L’attività di conferimento dei rifiuti presso il

74

Page 81: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

A – Microambiente srl e il sistema SIR-MySir

Centro di Raccolta permette al software di immagazzinare le informazioni nel sistemae di elaborare statistiche e report. In qualunque momento l’utente, attraverso l’app,può verificare tutti i dati indispensabili alla corretta gestione del Centro di Raccolta.Sono disponibili indicatori di conferimento atti a valutare le prestazioni ambientali eil rendimento del Centro di Raccolta e, in più, è possibile esportare e/o stampare letabelle e i report presenti o, utilizzando l’apposita funzione, crearne di personalizzate.

• MyAudit - Forte della esperienza pluridecennale nel campo, Microambiente offre unamiriade di servizi di assistenza normativa alle aziende, in particolare riferimento allarealizzazione di audit di conformità per misurare la reale sicurezza nel rispetto del-le normative ambientali. A testimonianza di ciò, la società è costantemente attentaagli sviluppi della giurisdizione nazionale per tutto ciò che riguarda la normativa am-bientale, rappresentata in larga parte dal Dlgs. del 3 aprile 2006, n. 152 “Norme inmateria ambientale”, vero e proprio mantra da seguire per le aziende e non solo. Iservizi comprendono un sistema di creazione e archiviazione di documenti atto a gesti-re al meglio la documentazione aziendale; tale sistema è ottimizzato per garantire loscadenzario degli adempimenti e la gestione della manutenzione, nonché a soddisfaregli standard di certificazione ai quali l’azienda ha deciso di aderire (Sistemi Qualità,Ambiente, Sicurezza). La società ha raggiunto diversi traguardi relativi alla certifi-cazione di prestigiose aziende operanti sul territorio nazionale ed europeo. Tutto ciòha favorito l’esportazione delle proprie professionalità oltre i confini continentali, por-tando a certificazione Sistemi di Gestione di realtà operanti, tra gli altri, finanche nelcontinente africano. La società si contraddistingue per svariate funzioni connesse allaideazione di start up dei sistemi di raccolta; dalla progettazione, pianificazione e rimo-dellazione di sistemi di gestione integrata dei rifiuti, alla sicurezza industriale medianteadempimenti relativi alla gestione delle aziende a rischio di incidente rilevante.

La fonte dell’informazione: il sistema SIR-MySir1

Ogni rifiuto prodotto, speciale o urbano, pericoloso e non, durante la sua movimentazio-ne deve obbligatoriamente essere accompagnato da un documento di trasporto denominato

1Di seguito si riporta interamente l’articolo [6].

75

Page 82: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

A – Microambiente srl e il sistema SIR-MySir

“Formulario Identificativo del Rifiuto” (FIR)2. Il Formulario accompagna ogni movimenta-zione di tutte le tipologie di rifiuto, identificate dal Codice CER (Catalogo Europeo deiRifiuti, valido in tutti gli Stati membri della Comunità Europea) allo scopo di fornire larintracciabilità completa del ciclo dei rifiuti, dal momento in cui essi sono conferiti dal pro-duttore al gestore/trasportatore (fase di raccolta e trasporto) alla consegna all’impianto didestinazione (fase dell’avvio a recupero o a smaltimento).Il documento, dalla fase della sua emissione fino a quella del suo utilizzo, viene controllatoe verificato da diversi soggetti giuridici, garantendone la piena rintracciabilità (superiore aquella delle normali fatture contabili). Lo schema di Figura A.1 riporta tutti i soggetti cheinteragiscono con il Formulario e i principali adempimenti da essi svolti.

Figura A.1: Gli Enti che interagiscono con il Formulario Identificativo del Rifiuto

Il sistema che è illustrato di seguito è stato pensato (ed è gestito da alcuni anni) per soddisfaretutti i requisiti di tracciabilità dell’intera filiera dei rifiuti così come previsto dalle normativeeuropee e dai successivi recepimenti nazionali.

2Tale obbligo è sancito dall’art. 15 del Decreto Legislativo 5 febbraio 1997 n. 22 “Attuazione delledirettive 91/156/CEE sui rifiuti, 91/689/CEE sui rifiuti pericolosi e 94/62/CE sugli imballaggi e sui rifiutidi imballaggio” meglio noto come “Decreto Ronchi”.

76

Page 83: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

A – Microambiente srl e il sistema SIR-MySir

Come nasce il sistema SIR-MySir

Il progetto ha origine nel gennaio 2003, durante un incontro con la dirigenza del CONAI(Consorzio Nazionale degli Imballaggi), in cui si discuteva circa la possibilità di applicareun sistema di valutazione degli impatti ambientali durante il ciclo di vita della gestione deirifiuti solidi urbani, che consentisse di individuare la modalità di gestione più virtuosa.Il progetto era affascinante e si cominciò a lavorare realizzando un software basato sullapiattaforma windows (erano pochi i Comuni dotati di internet!!!) che potesse monitorarel’andamento produttivo dei rifiuti e le successive fasi di trasporto e destino, al fine di trac-ciare l’intero ciclo. Ben presto, però, si manifestò il problema della mancanza dei dati e sidecise così, di avviare un’indagine approfondita, seguendo per diversi mesi i flussi dei rifiutie acquisendo la conoscenza dei numeri che li rappresentavano3.Al fine di sopperire alla carenza di informazioni, si seguì la logistica dei dati che accompa-gnano i flussi dei rifiuti e fu naturale pensare di creare un sistema di dati che rappresentassequei flussi e li rendesse disponibili a tutti i soggetti pubblici e privati che fanno parte delsistema rifiuti, per agevolarne il governo e la gestione.A conclusione di quattro anni di lavoro si è arrivati al Sistema Informativo Rifiuti (SIR),diventato operativo grazie alla collaborazione tra la Provincia di Napoli e il CONAI che,siglando una convenzione, diedero vita al primo monitoraggio dei flussi sulla base dei docu-menti di trasporto dei rifiuti: i Formulari.Le conclusioni della prima sperimentazione condotta nel 2007 su più di dieci Comuni dellaprovincia di Napoli furono molto positive e stimolarono molti altri Comuni ad aderire al pro-getto. Si decise quindi di estendere il SIR a tutti i Comuni della provincia e oggi il sistemaè divenuto per tutti i Comuni l’unico modo di comunicare i dati.Il SIR è ritenuto un sistema di grande utilità e trasparenza perché consente di tenere sottocontrollo produzione e destino delle singole movimentazioni di rifiuti grazie ad un’idea moltosemplice e a costo zero per le amministrazioni; si è semplicemente informatizzato quantogià in uso, i “Formulari Identificativi dei Rifiuti”. Dal 2008 il SIR è diventato il sistemaufficiale attraverso il quale i Comuni della Provincia di Napoli inviano i dati alla Regione;naturalmente le informazioni che vengono trasmesse sono, come richiesto, le minime indi-spensabili per il calcolo della percentuale di raccolta differenziata; nella sezione dedicata agliutilizzatori, invece, sono presenti molte funzionalità gestionali atte ad ottenere una correttarendicontazione dei rifiuti.

3Parte dei dati raccolti sono confluiti nel rapporto Aspetti Ambientali del riciclo degli imballaggi plastici inItalia: la filiera del PET e del PE realizzato dal Dipartimento di Scienze Ambientali della Seconda Universitàdegli Studi di Napoli

77

Page 84: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

A – Microambiente srl e il sistema SIR-MySir

Come funziona il sistema SIR-MySir

La tracciabilità dei rifiuti è ottenuta attraverso la digitalizzazione del Formulario. Tale do-cumento obbligatorio per legge deve accompagnare ogni movimentazione (di rifiuti specialie non) per garantire la rintracciabilità del ciclo completo dei rifiuti. La gestione dei datiattraverso la compilazione del Formulario on line, inoltre, garantisce al sistema una buo-na flessibilità operativa potendo essere usato per tracciare sia i dati delle amministrazionipubbliche sia quelli delle aziende, anche se al momento è utilizzato principalmente dalle pub-bliche amministrazioni, che per loro natura hanno l’obbligo di essere trasparenti nei confrontidei propri cittadini e, per questo, hanno già cominciato ad utilizzare il sistema.La naturale evoluzione del progetto originario denominato SIR è il MySir (www.mysir.it)che permette la comunicazione dei dati e delle informazioni inseriti nell’area riservata con-sentendo, al tempo stesso, un servizio di monitoraggio continuo sulla produzione dei rifiutie, cosa ancora più importante, fornendo indicazioni precise su dove va il rifiuto prodotto daciascun Comune.

Figura A.2: Home Page del MySir

Con questa scelta si soddisfano i principi presenti nella Direttiva INSPIRE (2007/2/CE)

78

Page 85: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

A – Microambiente srl e il sistema SIR-MySir

sulla trasparenza dei dati ambientali. Il nuovo sistema è lo strumento nato per comunicarein modo semplice e trasparente a tutti i cittadini i dati relativi alla produzione dei rifiutiche sono caricati nella parte privata. Tutte le informazioni, utili anche per effettuare unacorretta pianificazione, sono rappresentate in MySir attraverso Mappe, Report e Tabelle giàimpostate o da personalizzare.Il MySir è una piattaforma informatizzata per l’acquisizione, l’elaborazione, la validazione ela fruizione dei dati sulla raccolta dei rifiuti ed è stato concepito come strumento al completoservizio degli utilizzatori.Permettere di confrontare diverse realtà al fine di individuare il miglior sistema applicabileal proprio territorio, tenendo in considerazione il numero di abitanti, l’estensione territorialee le presenze turistiche.Le Figure A.3 e A.4 riportano un esempio di report presenti nel MySir.

Figura A.3: Report dettaglio mensile

L’analisi dei dati è di immediata comprensione, poiché la rappresentazione grafica mettesubito in evidenza le variazioni dei principali indicatori. Ad es., la fluttuazione della popo-lazione dovuta alla maggiore o minore presenza di popolazione legata ai flussi turistici (si

79

Page 86: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

A – Microambiente srl e il sistema SIR-MySir

Figura A.4: Report confronto tra annualità differenti

pensi all’isola di Capri) si ripercuote significativamente sull’indicatore relativo al quantita-tivo procapite di rifiuti prodotti. Fornire un prodotto semplice e affidabile e un supporto dicompetenza al minor costo possibile è stata ed è la strategia di fondo dell’intero progetto; inconcomitanza con gli avanzamenti tecnologici, inoltre, sono aggiunte nuove applicazioni cheaumentano progressivamente la funzionalità e le prestazioni.In questa ottica sono state scelte per il sistema esclusivamente Piattaforme open source (si-stema operativo Linux in primis, database relazione Postgres, ecc.). Tutto il software latoserver è quindi un software rilasciato con un tipo di licenza per la quale il codice sorgenteè lasciato alla disponibilità di eventuali sviluppatori, in modo che con la collaborazione ilprodotto finale possa raggiungere una complessità maggiore di quanto potrebbe ottenere unsingolo gruppo di programmazione4. L’insieme delle applicazioni indicate consente al servercosti bassi per il mantenimento delle licenze.Il MySir è una web application che permette accesso diversificato in relazione al livello accor-dato all’utente dal gestore del sistema (nazionale, regionale, provinciale, comunale o singologestore) e utilizza la codifica europea dei rifiuti, rendendo il sistema applicabile a qualsiasinazione della Comunità Europea.Le informazioni, di base, disponibili riguardano: i produttori; i trasportatori e i gestori degli

4Fonte: Wikipedia http://it.wikipedia.org

80

Page 87: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

A – Microambiente srl e il sistema SIR-MySir

impianti di destinazione, le quantità raccolte di rifiuti differenziati e indifferenziati; la desti-nazione (avviamento a recupero e a smaltimento). Il sistema fornisce informazioni di tipoanagrafico e informazioni relative ai flussi dei rifiuti.I soggetti coinvolti nel ciclo dei rifiuti, ovvero produttore, soggetto trasportatore e destina-tario visualizzano i dati anagrafici e autorizzatori delle imprese che gestiscono i rifiuti.

Figura A.5: La digitalizzazione del Formulario

Il sistema, ad ogni inserimento dati, attiva una procedura di controllo sulle autorizzazionidei trasportatori, degli impianti a cui sono stati conferiti i rifiuti e sulle registrazioni deimezzi di trasporto, per cui, in caso di anomalie (autorizzazioni e registrazioni in scadenza,uso di mezzi non autorizzati al trasporto di quel determinato rifiuto, ecc.) attiva un segnaled’allarme.

81

Page 88: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

A – Microambiente srl e il sistema SIR-MySir

Figura A.6: Scadenziario Autorizzazioni Gestori

Come vengono presentati i dati

Il cuore di ogni sistema di controllo è senza dubbio la reportistica: senza un adeguatosistema di report e statistiche che permetta la creazione di indicatori e indici, infatti, gliutenti sono costretti a impiegare tempo e risorse nel reimpaginare dati in fogli tipo excel. Ilmotore presente nel sistema, ad ogni nuova richiesta, permette di ottenere dati aggregati eindicatori che vanno incontro alle esigenze degli utenti, che forniscono i feedback necessariper il miglioramento continuo dell’intero sistema.Tutti i dati originari correttamente inseriti (anagrafici e relativi alla produzione) produconole informazioni di seguito elencate:

• Raggruppamento rifiuti per CER

• Percentuale di raccolta differenziata

• Distribuzione sulla popolazione kg/ab o kg/ab/gg

• Trasportatori

• Destinatari

• Dove è andato il rifiuto

82

Page 89: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

A – Microambiente srl e il sistema SIR-MySir

Tutte le informazioni sono rappresentate in tabelle, grafici, mappe consultabili e persona-lizzabili dall’utente. Sono presenti oltre 60 report predefiniti di cui molti possono esserepersonalizzati, questi rappresentano il vero cuore di un sistema gestionale.

Figura A.7: Pannello di controllo report

Una comunicazione semplice e corretta in tema di tracciabilità èpossibile

L’efficacia e la semplicità di utilizzo del MySir sono garantite da oltre 5 anni di evoluzionedel sistema che si è adattato alle diverse esigenze degli operatori che lo utilizzano e dall’im-plementazione di vari sistemi di controllo atti a rendere quasi nulla la possibilità di erroriumani di imputazione. Ulteriore strumento di verifica e controllo è legato alla condivisionedei dati tra i vari attori del sistema: la correzione di un eventuale errore di imputazione,infatti, viene segnalato dagli utenti stessi che garantiscono il controllo reciproco delle infor-mazioni immesse.Estendere in modo diffuso la sua applicazione alla tracciabilità dei rifiuti anche speciali nonrichiede alcuna modifica/integrazione, essendo il sistema basato come detto in precedenzasul Formulario, documento da usare obbligatoriamente qualunque sia il tipo di rifiuto. Ilrifiuto, come già detto anche in precedenza, è caratterizzato da un semplice codice (il CER)che viene attribuito in base alla sua origine ed è utilizzato per rappresentare un fenomeno inmaniera più leggibile; la classificazione dei rifiuti in speciali e urbani, pericolosi e non peri-colosi, non ha nessuna influenza sulla tracciabilità del rifiuto e quindi le modalità operative

83

Page 90: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

A – Microambiente srl e il sistema SIR-MySir

di un qualsiasi sistema elettronico non possono essere influenzate dalla tipologia del rifiutoprodotto. Il sistema, inoltre, è dotato di un potente sistema di importazione che permettedi incamerare dati da qualsiasi fonte (altri software, banche dati) rendendo automatico ilmeccanismo di inter-operabilità.In Germania, dal 2011 è operativo un sistema elettronico di tracciabilità (eANV - elektro-nisches Abfallnachweisverfahren), che è stato analizzato per studiarne le funzionalità. Essoprevede un sistema di tracciabilità per i soli rifiuti pericolosi attraverso un sistema web alquale accedere mediante credenziali (username e password); il produttore del rifiuto inserisceuna scheda per ogni CER, che firma digitalmente, prima di consegnarne anche una copiacartacea al trasportatore. All’arrivo del trasportatore all’impianto, il destinatario firma di-gitalmente per accettazione del carico (eventualmente modificando il peso in accettazione).Il ciclo si chiude con l’invio della comunicazione informatica al sistema centrale al qualehanno accesso gli organi di controllo. Dal confronto con il sistema tedesco (giustamente piùsemplice rispetto al sistema italiano SISTRI di cui ancora si attende la reale attivazione), sipuò affermare che il MySir è in grado di garantire la piena tracciabilità elettronica dei rifiutispeciali e urbani, pericolosi e non pericolosi, soddisfacendo la normativa italiana (è statopensato prima del SISTRI ed è stato già ampiamente sperimentato) e con caratteristicheperlomeno paragonabili al sistema già in uso in Germania; è già stata implementata, infatti,la funzione di firma digitale (ormai in possesso di tutte le aziende) delle schede rifiuto, anchese la stessa è utilizzata, al momento, solo in via sperimentale.Ulteriore considerazione è legata alla piena conformità degli indicatori presenti nel sistemarispetto a quelli previsti dalla Decisione della Commissione Europea del 18 novembre 2011che istituisce regole e modalità di calcolo per il rispetto degli obiettivi di riciclaggio e recu-pero dei rifiuti già previsti dalla Direttiva Europea (Dir. 98/2008 CE) superando il concettodi percentuale di raccolta differenziata attuale calcolata sul materialo raccolto e codificatocon un certo codice CER. Il sistema, al momento, è oggetto di ulteriore integrazione perrealizzare il progetto “La Qualità e l’Economia nella Raccolta Differenziata” che vedrà lapartecipazione di 20 amministrazioni comunali. Lo scopo primario è perseguire l’analisi deidati relativi a tutto ciò che accade a valle della fase di raccolta valutando anche i fattorieconomici legati all’intero ciclo. Partendo dai dati raccolti e analizzati nel MySir si raccoglie-ranno i dati provenienti dagli impianti di destino dei rifiuti analizzando gli scarti e valutandol’ammontare reale dei rifiuti che verrà destinato alle operazioni di recupero, analizzando neldettaglio anche i costi relativi al ciclo dei rifiuti a partire dalla fase di raccolta fino al con-ferimento finale creando appositi indicatori che rendano confrontabili le diverse metodicheutilizzate.

84

Page 91: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

A – Microambiente srl e il sistema SIR-MySir

In conclusione, si ritiene che con il sistema MySir si operi in linea con quanto recentementeosservato da Pietro Greco: «Ecco, dunque, come cercare di rendere convergente l’intersezionetra sistema della gestione integrata dei rifiuti e sistema della comunicazione: l’informazionesia chiara e al meglio delle conoscenze scientifiche e tecniche (come crediamo che sia questadi Ambiente Rischio Comunicazione); raggiunga in maniera sistematica la maggior partepossibile della popolazione, stimolandone lo spirito critico e anche la capacità di emozionar-si; sia capace di conquistare la fiducia dei cittadini. Coinvolgendoli in maniera attiva nellescelte. Essendo (e apparendo) trasparente».5

5Greco Pietro (2012), La comunicazione sui rifiuti: svelare i fattoidi, conquistare la fiducia, AmbienteRischio Comunicazione 4 (disponibile su www.amracenter.com).

85

Page 92: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

Appendice B

Distribuzione normale multivariata

Per facilitare la lettura di questo elaborato si richiamano in appendice alcune nozioni.

La densità di probabilità congiunta di un campione casuale estratto da popolazione nor-male è esplicitabile agevolmente quando le variabili costituenti il campione sono a due a dueindipendenti. Talora, però, ci si imbatte in situazioni in cui compaiono n variabili aleatorienormali ma non indipendenti: la densità di probabilità congiunta non è pertanto esprimi-bile come prodotto delle densità marginali. Invero, si dà la seguente definizione di variabilialeatorie congiuntamente normali.

Definizione B.1. Le variabili aleatorie X1, X2, ..., Xn si dicono congiuntamente normali,ovvero dotate di distribuzione normale multivariata, se esistono n variabili aleatorie norma-li standard Z1, Z2, ..., Zn indipendenti, n costanti reali m1,m2, ...,mn, ed una matrice nonsingolare di dimensione n, A = ||ai,j||, tale da aversi

X1

X2...Xn

=

a11 a12 . . . a1n

a21 a22 . . . a2n... ... ...

an1 an2 . . . ann

Z1

Z2...Zn

+

m1

m2...mn

In termini matriciali questa relazione, con ovvia notazione, può riscriversi come

X = AZ + m.

Al fine di determinare la densità di probabilità delle n variabili congiuntamente normaliX1, X2, ..., Xn, si riporta il seguente teorema, omettendone la dimostrazione.

86

Page 93: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

B – Distribuzione normale multivariata

Teorema B.2. Se X1, X2, ..., Xn sono variabili aleatorie congiuntamente normali, la lorodensità di probabilità congiunta è

f(x) =

√|C−1|

(2π)n/2 exp[−1

2 (x−m)T C−1 (x−m)], (B.0.1)

per x = (x1, x2, ..., xn) ∈ Rn, dove m = E(X) è il vettore dei valori medi e C = ||cov(Xi, Xj)||è la matrice di covarianza di X, che risulta simmetrica e definita positiva insieme alla suainversa C−1.

Si analizzi ora in dettaglio la distribuzione normale multivariata nel caso particolare n = 2denotando la matrice di covarianza C nel modo seguente:

σ21 σ12

σ12 σ22

,dove

σ2i = D2(Xi) (i = 1,2), σ12 = cov(X1, X2).

Si indichi poi conρ = σ12

σ1σ2

il coefficiente di correlazione tra X1 e X2. Poiché la matrice C è simmetrica e definitapositiva, il suo determinante è positivo:

|C| = σ21σ

22 − σ2

12 = σ21σ

22(1− ρ2) > 0.

Da quanto visto finora e osservando che

|C−1| = 1|C|

= 1σ2

1σ22(1− ρ2)

segue che l’espressione della densità normale bivariata (B.0.1) assume la forma

f(x1, x2) = 12πσ1σ2

√1− ρ2

× exp− 1

2(1− ρ2)

[(x1 −m1

σ1

)2− 2ρ

(x1 −m1

σ1

)(x2 −m2

σ2

)+(x2 −m2

σ2

)2],

(B.0.2)

per x1, x2 ∈ R.

87

Page 94: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

B – Distribuzione normale multivariata

Si noti, inoltre, che vale la seguente proposizione, di cui si omette la dimostrazione perbrevità.

Proposizione B.3. Se X1, X2 sono variabili congiuntamente normali dotate di densitàcongiunta (B.0.2), allora X1 e X2 sono variabili normali di medie m1 e m2, rispettivamente,e varianze σ1 e σ2, rispettivamente.

Infine, è opportuno sottolineare le seguenti.

Osservazione B.4. Dalle espressioni della densità congiunta (B.0.2) e delle densità margi-nali fX1(x1) e fX2(x2), si ricava che le variabili X1, X2 congiuntamente normali sono indi-pendenti se e solo se X1 e X2 sono non correlate. Infatti, risulta f(x1, x2) = fX1(x1)fX2(x2)se e solo se ρ = 0.

Osservazione B.5. Con facili calcoli si ricava che la densità condizionata diX1 datoX2 = x2

è normaleE(X1|X2 = x2) = m1 + ρ

σ1

σ2(x2 −m2)

e varianzaD2(X1|X2 = x2) = σ2

1(1− ρ2).

In modo analogo, si ottiene che la densità condizionata di X2 dato X1 = x1 è normale divalor medio

E(X2|X1 = x1) = m2 + ρσ2

σ1(x1 −m1)

e varianzaD2(X2|X1 = x1) = σ2

2(1− ρ2).

88

Page 95: Tesi Magistrale - Nardella Di Crescenzo - Universita di Salerno

Bibliografia

[1] Anderson, T. W. (1962), On the Distribution of the Two-Sample Cramer-von MisesCriterion, Annals of Mathematical Statistics 33 (3): 1148-1159.

[2] Cover, T., M., Thomas, J., A. (1991), Elements in Information Theory, John Wiley &Sons.

[3] Di Crescenzo, A., Longobardi, M. (2009), On Cumulative Entropies, Journal ofStatistical Planning and Inference 139: 4072-4087.

[4] Di Crescenzo, A., Longobardi, M. (2015), Some Properties and Applications of Cumula-tive Kullback-Leibler Information, Applied Stochastic Models in Business and Industry31: 875-891.

[5] Di Crescenzo, A., Ricciardi, L. M. (2000), Elementi di Statistica, Napoli, LiguoriEditore.

[6] Di Domenico, C., Cataldo, D., (giugno 2013), Un’esperienza positiva di tracciabilità deirifiuti e di informazione ai cittadini, Ambiente Rischio Comunicazione 6: 62-68.

[7] MySir Microambiente, mysir.it, di Microambiente srl.[8] Stuart, A., Ord, J. K. (1987), Kendall’s Advanced Theory of Statistics, Volume 1,

London, Charles Griffin & Company Limited.

89