Download - Somme Immagini

Transcript
Page 1: Somme Immagini

Slide 1

'

&

$

%

Somme e sottrazioni inImmagini e Suoni

ANDREA MENNUCCI

Scuola Normale Superiore, Pisa

Slide 2

'

&

$

%

Spazio vettoriale

Uno spazio vettoriale V e un insieme di vettori; due vettori v, w ∈ V possono essere sommati osottratti; oppure, preso un numero reale s ∈ lR, si puo eseguire il prodotto s ∗ v (che ha la stessa

direzione di v ma e riscalato di un fattore |s|; se s > 0 allora s ∗ v ha lo stesso verso di v altrimenti ha

verso opposto).

Preso n intero positivo, l’esempio principe di spazio vettoriale con n dimensioni e lRn,l’insieme di tutte le n-ple di reali; due vettori di lRn possono essere, ad esempio,

X = (x1, . . . , xn) , Y = (y1, . . . , yn)

La somma e il prodotto si eseguono componente per componente:

X + Y = (x1 + y1, . . . , xn + yn) , s ∗ Y = (s ∗ y1, . . . , s ∗ yn)

X

Y

lR2 e associato al piano, mentre lR3 e associato allo spazio fisico, usandocoordinate cartesiane.

1

Page 2: Somme Immagini

Slide 3

'

&

$

%

Cosa e un’immagine

Prendiamo unaimmagine:

CANALETTO, CAMPO DI RIALTO

Slide 4

'

&

$

%

Ingrandiamo molto un dettaglio: notiamo dei“quadratini”, che sono detti “pixel”.Ogni pixel P e identificato da un’ascissa i eun’ordinata j nel piano dello schermo, e do-vrebbe essere piu correttamente indicato comePi,j .

2

Page 3: Somme Immagini

Slide 5

'

&

$

%

Ogni pixel ha un colore, che e dato da una combinazione addittiva di rosso, verde e blu:questo modello del colore e indicato dalla sigla RGB (dall’inglese Red Green Blue).

La intensita di ognuno di questi 3 colori e indicata da un numero, che assume convenzionalmente un valorecompreso fra 0 e 255. Il valore di un pixel e cosı rapresentato da un numero a 3 coordinate, come ad es.

P = (R, G, B) = (122, 100, 76)

Tutti i colori che si possono visualizzare sono dunque contenuti in un cubo di lato 256. Il vertice (0, 0, 0)

rappresenta il nero, il (255, 255, 255) il bianco.

Se consideriamo una immagine alta 400 pixel e larga 500 pixel, essa sara specificata da

3 ∗ 400 ∗ 500 = 600.000

numeri compresi fra 0 e 255.

Possiamo pensare che ogni possibile immagine 400 × 500 sia un punto

X = (R1,1, G1,1, B1,1, R1,2, . . . , B1,500, R2,1, . . . , B400,500)

in uno spazio vettoriale lR600.000 con 600mila dimensioni.

Slide 6

'

&

$

%

Combinazione convessa

Consideriamo due punti X e Y in uno spazio di vettori. La differen-za V = Y − X e il vettore (tratteggiato nella figura) che parte dalpunto X e arriva ad Y ; dunque Y = X + V .

X

YV Z

Sia ora s ∈ [0, 1] un numero reale compreso fra 0 e 1. Se moltiplichiamo s ∗ V otteniamo unvettore piu corto di V , ma sempre orientato nella stessa direzione e verso; il punto Z che siottiene come

Z = X + s ∗ V = X + s ∗ (Y − X) = X + s ∗ Y − s ∗ X = (1 − s) ∗ X + s ∗ Y

e detto “combinazione convessa” dei due punti X e Y . Abbiamo visto nella formula come Z sipuo direttamente esprimere usando s, X, Y .

Ad esempio se scegliamo s = 1/2, allora Z = X+Y2

e il loro punto medio.

La famiglia di tutti i punti Z che si ottengono al variare di s ∈ [0, 1] copre tutto il segmento fraX e Y .

3

Page 4: Somme Immagini

Slide 7

'

&

$

%

Combinazione convessa di immagini

Abbiamo detto che una immagine puo essere vista come un vettore con 600mila coordinate; seeffettuiamo la combinazione convessa di due immagini, otteniamo una “dissolvenza” (ininglese blend).

X= , Y= , Z=

$ blend.py

Slide 8

'

&

$

%

Cosa e un suono

L’aria che ci circonda e un fluido comprimibile, approssimativamen-te sottoposto alla pressione di 1 atmosfera∼ 101kPa; una perturba-zione di questa pressione si propaga nello spazio (con legge mate-matica simile a quella che regola la propagazione delle onde delmare, e delle onde elettromagnetiche).

Il nostro orecchio percepisce queste variazioni di pressione e le trasforma in impulsi nervosi.

Un microfono le trasforma in variazioni di un segnale elettrico; una cassa acustica trasformaviceversa il segnale elettrico in suono.

��������������������

��������������������

Possiamo cosı interporre un computer fra il microfono e la cassa acustica, ed elaborare ilsegnale a nostro piacimento.

4

Page 5: Somme Immagini

Slide 9

'

&

$

%

La variazione di pressione rispetto alla pressione media diventa dunque una funzione f(t) deltempo; questa viene registrata come un segnale elettrico, che rappresentiamo nel grafico asinistra. (In ordinata abbiamo il segnale, in ascissa il tempo).

-30000

-20000

-10000

0

10000

20000

30000

-10 -5 0 5 10

f(t)

-30000

-20000

-10000

0

10000

20000

30000

-10 -5 0 5 10

f(t)

Il segnale originale e tempo-continuo: associa ad ogni possibile tempo t un valore f(t); perregistrare questo segnale in un computer (o in un CD), ci servirebbero infiniti numeri reali, equesto non e possibile. Ricorriamo al campionamento: registriamo un certo numero n di valoridi corrente in ogni secondo. Il risultato si vede nel grafico a destra. Vediamo anche in questosemplice esempio che il campionamento comporta una perdita di qualita del segnale.

Slide 10

'

&

$

%

Nel caso dei CD Audio, si registrano 44.100 valori per ogni secondo, per ognuno dei due canaliaudio stereo. Per un teorema dovuto a Nyquist, un segnale campionato a 44.100Hz non puorappresentare frequenze superiori a 22.050Hz ; queste frequenze vengono cancellate dai segnali;queste frequenze sono pero ai limiti di quelle che l’orecchio puo sentire.

5

Page 6: Somme Immagini

Slide 11

'

&

$

%

Somma e differenza

Presi due numeri reali L e R, calcoliamo la loro media M e la loro semidifferenza S

M =L + R

2, S =

R − L

2

Conoscendo M e S, possiamo facilmente ricavare L e R come

L = M − S , R = M + S

Applichiamo questa semplice trasformazione al canale sinistro L e destro R di un audio: inquesto caso prende il nome di metodo MID-SIDE (dall’inglese); questo metodo ha dueimportanti applicazioni.

Slide 12

'

&

$

%

Prima applicazione del MID-SIDE: stereo surround

Introduciamo un parametro s ≥ 0 reale in modo da definire due nuovi canali

L = M − s ∗ S , R = M + s ∗ S

Ascoltiamo il suono di L, R. [$ audio.py -1]

• s = 0 si avra L = R = M ; verra riprodotto la versione mono dell’audio

• s ∈ (0, 1) si avra un effetto “mono”

• s = 1 si ha il segnale stereo originale L = L, R = R

• s > 1 si avra un effetto “stereo surround”

M

M

L R

R

L

LL

~R~

s=1,5

s=0.5 R~~

S

PROBLEMA: COSA SUCCEDE PER s < 0? [vedremo la seconda applicazione nella slide 21]

6

Page 7: Somme Immagini

Slide 13

'

&

$

%

MID-SIDE come cambio di coordinate

Consideriamo un’istante di tempo t, e i valori dei segnali destro e sinistro Rt, Lt all’istante t:questi valori giacciono in un quadrato nel piano; in questo piano, i corrispondenti valori Mt, St

corrispondono a un sistema di coordinate ortogonali che sono ruotate rispetto alle originali.

R

L

MS

M = L+R2

, S = R−L2

L = M − S , R = M + S

Abbiamo detto che i tre colori R, G, B di un pixel P giacciono in un cubo; anche in questo casopuo essere utile effettuare un cambio di coordinate.

Slide 14

'

&

$

%

cambio di coordinate di colori

Siano R, G, B tre valori reali; definiamoY, Cr, Cb come

Y = R+G+B3

Cr = R − G+B2

Cb = B − G

Questo si inverte con

R = Y + 2

3Cr

G = Y − 1

3Cr −

1

2Cb

B = Y − 1

3Cr + 1

2Cb

R

G

B

Cr

Cb

Y

nero rosso

blumagenta

giallo

verde

bianco

grigio

azzurro

I tre nuovi assi Y, Cr, Cb sono ortogonali (ma non ortonormali).

Questa e una versione semplificata della definizione ufficiale; si veda in http://en.wikipedia.org/wiki/YCbCr

7

Page 8: Somme Immagini

Slide 15

'

&

$

%

Per chi conosce le matrici, la trasformazione si scrive anche come

Y

Cr

Cb

= M

R

G

B

con M =

1

3

1

3

1

3

1 − 1

2− 1

2

0 −1 1

R

G

B

= M−1

Y

Cr

Cb

con M−1 =

1 2

30

1 − 1

3− 1

2

1 − 1

3

1

2

Slide 16

'

&

$

%

Per capire l’utilita di questa trasformazione, introduciamo 3 parametri reali y, cr, cb. Prendiamo unaimmagine X . Possiamo costruire una nuova immagine X in questo modo: prima trasformiamo il colore diogni pixel di X come visto sopra

0

B

B

@

Y

Cr

Cb

1

C

C

A

= M

0

B

B

@

R

G

B

1

C

C

A

poi moltiplichiamoY = y ∗ Y, Cr = cr ∗ Cr, Cb = cb ∗ Cb

indi ricreiamo i colori0

B

B

@

R

G

B

1

C

C

A

= M−1

0

B

B

@

Y

Cr

Cb

1

C

C

A

e li inseriamo nel pixel dell’immagine X . [$ rgb.py -1]

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Confrontiamo questa trasformazione con una piu semplice, in cui, scelti tre parametri reali r, g, b, si pone

R = r ∗ R, G = g ∗ G, B = b ∗ B

8

Page 9: Somme Immagini

Slide 17

'

&

$

%

La trasformazione Y, Cr, Cb viene usata nei televisori a colori PAL. Un televisore in bianco enero visualizza solo il segnale Y , cioe, solo la versione in bianco e nero del video. Quando fudeciso di passare dalla televisione in bianco e nero alla televisione a colori, furono aggiunti isegnali Cr, Cb. Il bottone colore del telecomando permette di aumentare i valori cr = cb

(contemporaneamente). Il bottone contrasto del telecomando permette di cambiare il valore y.

Slide 18

'

&

$

%

La precedente trasformazione contrae le imma-gini verso il nero (che e un vertice del cubo); perquesto, non e facile vedere cosa essa faccia; no-tiamo infatti che gli assi Cr, Cb, se posizionatial vertice nero del cubo, escono dal cubo; perquesto motivo, quando y = 0, le immagini sonomolto scure.Per evitare questo problema, proponiamo ancheuna trasformazione alternativa, in cui spostiamogli assi dei colori al centro del cubo (il puntogrigio), come in figura a lato.

Y

nero rosso

blumagenta

giallo

verde

bianco

grigio

azzurro

R

B

Cr

Cb

G

Questo equivale a usare le trasformazioni

Y = y ∗ (Y − 128) + 128, Cr = cr ∗ Cr, Cb = cb ∗ Cb

R = r ∗ (R − 128) + 128, G = g ∗ (G − 128) + 128, B = b ∗ (B − 128) + 128

9

Page 10: Somme Immagini

Slide 19

'

&

$

%

Decibel

I decibel sono un sistema logaritmico usato per esprimere il rapporto fra due valori x e x; laformula e

10 log10

(x

x

)

.

I decibel sono dunque una misura relativa; se esprimiamo il valore di x in decibel,convenzionalmente dobbiamo sapere rispetto a quale x esso e misurato.

In acustica viene misurato il livello di pressione sonora I ; in questo caso, il valoreconvenzionale e I = 20µPa = 20 ∗ 10−6Pa.

In fisica, la legge di OhmP = i2R

lega corrente i, resistenza R e potenza P ; se i e una corrente di riferimento, e P = i2R allora ilvalore delle potenze e delle correnti espresse in decibel e legato da

10 log10

(

P

P

)

= 10 log10

(

i2R

i2R

)

= 20 log10

(

i

i

)

Per saperne di piu: http://en.wikipedia.org/wiki/Decibel

Slide 20

'

&

$

%

Vantaggi:

• Molti apparecchi (filtri, amplificatori, etc.) trasformano il segnale di input in quello dioutput moltiplicandolo per una certa costante, detta guadagno: se esprimiamo il guadagnoin decibel, allora i guadagni di strumenti in serie si sommano.

• l’intensita sonora come percepita dal nostro orecchio si adatta bene a una scala logaritmica(per questo, gli strumenti che mostrano l’intensita sonora sono sempre logaritmici, e similmente iregolatori di volume degli amplificatori)

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Un’altro uso molto comune dei decibel e nell’esprimere il rapporto fra il segnale e il rumore(in inglese SNR): se ho un segnale originale S che ha una certa potenza PS e a questo si sommaun rumore con una potenza PR, il rapporto segnale/rumore si esprime in decibel come

SNR = 10 log10

(

PS

PR

)

10

Page 11: Somme Immagini

Slide 21

'

&

$

%

Quantizzazione

L’unita elementare di informazione nel computer e il bit, che e una cifra binaria; 8 bit sonoraggruppati in un byte: un byte puo dunque rappresentare un numero intero positivo fra 0 e28 − 1 = 255. Per indicare ogni colore di un pixel viene usato un byte: il colore non puodunque assumere una tonalita a piacere fra 0 e 255, ma solo una tonalita intera: diremo che ilcolore e quantizzato usando 8 bit.

Allo stesso modo, per rappresentare un campione di un suono vengono usati 2 byte, cioe 16 bit;uno di questi bit rappresenta il segno, gli altri 15 il valore: il campione sonoro assume valoriinteri fra −(215 − 1) = −32767 e 215 = 32768. L’audio e quantizzato usando 16 bit.

Nei ragionamenti fatti fino ad ora, per semplificare, abbiamo ignorato questo fatto, e suppostoche i numeri che usati per rappresentare suoni e immagini fossero numeri reali.

Slide 22

'

&

$

%

Per risparmiare spazio, possiamo decidere di usare meno bit per rappresentare i numeri; ecco unesempio, partendo da valori espressi con 8bit

8bit 6bit 4bit 2bit

45 = 001011012 44 = 001001002 32 = 001000002 0 = 000000002

152 = 100110002 152 = 100110002 144 = 100100002 128 = 100000002

233 = 111010012 232 = 111010002 224 = 111000002 192 = 110000002

In questo caso abbiamo sostituito i bit non disponibili con degli zeri: questo equivale a unarrotondamento verso il basso; un risultato migliore si ottiene con un miglior arrotondamento

8bit 6bit 4bit 2bit

45 = 001011012 45 = 001011012 39 = 001001112 31 = 000111112

152 = 100110002 153 = 100110012 151 = 100101112 159 = 100111112

233 = 111010012 233 = 111010012 231 = 111001112 207 = 110111112

infatti in questo caso l’errore di arrotondamento a 4bit e ±8 mentre nel primo caso potevaessere anche di 15.

11

Page 12: Somme Immagini

Slide 23

'

&

$

%

Un simile sistema si puo applicare anche a numeri con segno; il seguente grafico mostra comearrotondare numeri a 8bit con segno (che hanno valori fra -127 e 128) per usare solo 4 bit (cioe16 valori):

-200

-150

-100

-50

0

50

100

150

200

-150 -100 -50 0 50 100 150

quantizer r16:19x

in verde il valore origi-nale, in rosso il valorequantizzato

Slide 24

'

&

$

%

Per esempio, riprendiamo il suono campionato visto in pagina 8, e lo quantizziamo a 4 bit (concioe 16 possibili valori in ordinata)

-30000

-20000

-10000

0

10000

20000

30000

-10 -5 0 5 10

f(t)

-30000

-20000

-10000

0

10000

20000

30000

-10 -5 0 5 10

f(t) 4bit

abbiamo un ulteriore perdita di dettagli.

12

Page 13: Somme Immagini

Slide 25

'

&

$

%

La perdita di dettagli e ancora maggiore se il segnale ha un volume piu basso

-30000

-20000

-10000

0

10000

20000

30000

-10 -5 0 5 10

f(t)

-30000

-20000

-10000

0

10000

20000

30000

-10 -5 0 5 10

f(t)

per evitare questo problema, si puo ricorrere allo stratagemma dello scalefactoring: alzare ilvolume del segnale (moltiplicando per una costante) prima di quantizzare; dopo aver elaborato ilsegnale, al momento di riprodurlo, il volume verra riabbassato per tornare al volume originale.

Slide 26

'

&

$

%

Quantizzazione come rumore

Come possiamo capire cosa effettua la quantizzazione? Sottraendo il segnale quantizzato daquello originale! la differenza sara tanto piu piccola quanto piu bit usiamo nel quantizzare; seusiamo k bit, allora il rapporto fra il piu grande segnale che possiamo rappresentare el’arrotondamento sara 2k che espresso in decibel di potenza sara

20 ∗ log10(2k) = k ∗ 20 ∗ log10(2) ∼ 6 ∗ k

Cosı ogni bit in piu permette di avere circa 6db di miglioramento nel rapporto SNR fra segnalee rumore di quantizzazione; ad esempio, l’audio dei CD ha circa 90db di rapporto SNR (che emolto di piu di quello che i riproduttori CD possono rendere!).

Lo scalefactoring serve dunque a ridurre il rapporto fra il segnale e il rumore di quantizzazione,per portarlo quanto piu vicino possibile al valore teorico visto sopra.

13

Page 14: Somme Immagini

Slide 27

'

&

$

%

Seconda applicazione del MID-SIDE: MP3

Ricordiamo la trasformazione mid-side vista nella slide 11:

M =L + R

2, S =

R − L

2; L = M − S , R = M + S

Nei file audio musicali, il canale S contiene meno energia ed informazione del canale M : perquesto motivo i file MP3 codificano l’audio non come L, R ma come M, S, e dedicano meno bital canale S.

In certi casi e possibile codificare il canale S con solo 6bit, e il canale M con 10bit, e avere unsuono soddisfacente. In questo modo il file audio avrebbe una dimensione del(10 + 6)/32 = 50% dell’originale

(Il sistema di codifica MP3 e molto piu efficace di questo: un file compresso a “128kbit” e solo il 9% del

file originale)

[$ audio.py -2]

Slide 28

'

&

$

%

PROBLEMA: Abbiamo detto che nei computer l’audio e quantizzato; negli algoritmi i valori inM, S sono arrotondati a un intero,

M = int(L + R

2) , S = int

R − L

2

allora, come possiamo avere

L?= M − S , R

?= M + S

14

Page 15: Somme Immagini

Slide 29

'

&

$

%

Seconda applicazione del Y, Cr, Cb: immagini e video

Il nostro occhio e molto meno sensibile alle variazione di colore che alle variazione diluminosita: per questo motivo le immagini e i video non sono codificati come R, G, B ma comeY, Cr, Cb , e vengono dedicati piu bit al canale Y e meno bit ai canali Cr, Cb. Questo avvienenei file JPEG, nei file DIVX, nei DVD, e (in un certo senso) anche nella comune televisione acolori.

[$ rgb.py -2]

Slide 30

'

&

$

%

Codici di compressione di dati

Quando scriviamo una informazione nel computer, dobbiamo usare dei bit; se per esempioabbiamo una stringa di 80 caratteri scelti fra a,b,c,d

babaccbabaaddacbaababbacddbaaadaadabaabcaaaaacbbcababacaacdaaaabaaaabccaaaabaaaapossiamo usare 2bit per rappresentare un carattere, e usare 160 bit per scrivere la stringa.Se pero esaminiamo piu attentamente, notiamo che vi sono molte a, seguite da poche b, e menoc, d: riscriviamo la stringa usando un codice decodificabile

x= a b c d

c(x) 1 01 001 000

Il risultato e01101100100101101110000001001011101101011001000000011110001100010111010011111100101010011011011001110010001111011111010010011111011111

che consta di soli 134 bit, cioe circa 1,6 bit per ogni carattere.

Il trucco consiste nel usare una rappresentazione corta per le lettere piu probabili, e lunga per lemeno probabili. Questa idea e alla base della teoria dei codici, e si collega a idee moltointeressanti come la informazione, la entropia, e la probabilita.

15

Page 16: Somme Immagini

Slide 31

'

&

$

%

Trasformate wavelet

Abbiamo applicato l’idea MID-SIDE confrontando due segnali audio L e R “coordinata percoordinata”; applichiamo la stessa idea a un’immagine X , ma usando di volta in volta pixelcontigui.

Siano dunque P e Q due pixel contigui (ognunocaratterizzato dai suoi 3 colori); definiamo

M =Q − P

2, D =

Q + P

2

Se l’immagine originale e 400x500, otterremo dueimmagini H e L rispettivamente composta dei ri-sultati M e D; sia H che L avranno dimensioni200x500.

QP QQQ

QQ

PP

PPP

M M MM M M

X=

L= H=

PPP Q

QQ

DD

D DDD

M M M D D D

In questa figura sono evidenziate con colori diversi due diverse operazioni mid-side.

Slide 32

'

&

$

%

X= LH=

Questi a destra sono i risultati che si ottengono lavorando su pixel contigui in senso orizzantale.

Notate che nelle immagini di tipo H i valori oscillano fra -128 e +128: nella lororappresentazione si associa -128 al nero , 0 al grigio, e 128 al bianco.

16

Page 17: Somme Immagini

Slide 33

'

&

$

%Questi sono i risultati che si ottengono lavorando su pixel contigui in senso verticale

Slide 34

'

&

$

%

Possiamo inoltre eseguire due operazioni midside , una orizzontale e una verticale:

LL

LH

HL

HH

Otteniamo una scomposizione dell’immagine precedente in 4 immagini dette LL HL LH e HH;queste sono poi rappresentate contigue in un quadrato.

Questa si chiama trasformata wavelet di Haar dell’ immagine originale. La trasformata einvertibile.

17

Page 18: Somme Immagini

Slide 35

'

&

$

%

Successivamente ripetiamo la cosa ma sull’immagine LL: otteniamo 7 immagini, incapsulate inun quadrato secondo lo schema a destra

LH

HL

HH

2HL

2LH 2HH

2LL

Slide 36

'

&

$

%

e successivamente

LH

HL

HH

2HL

2LH 2HH

3LL 3HL

3LH 3HH

18

Page 19: Somme Immagini

Slide 37

'

&

$

%

dato che l’immagine originale e 256 x 256,possiamo scendere di 8 livelli

LH

HL

HH

2HL

2LH 2HH3HH3LH

3HL

Notiamo una cosa molto interessante: in questa immagine i punti sono quasi tutti grigi, cioe ivalori sono quasi tutti zero.

Slide 38

'

&

$

%

Esistono molte altre wavelet, in cui i metodi per calcolare la “media” e la “differenza” sono piusofisticati; ma l’idea di base rimane la stessa. Negli esempi successivi useremo la wavelet CRF.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Trasformiamo il CAMPO DI RIALTO (fino a profondita 5)

Un istogramma mostra che i valori assunti dai pixel sono in genere molto piccoli:

19

Page 20: Somme Immagini

Slide 39

'

&

$

%

0

5000

10000

15000

20000

25000

-100 -50 0 50 100

Level 1 Subband 1 [-124:135]

0

1000

2000

3000

4000

5000

6000

7000

8000

-100 -50 0 50 100

Level 0 Subband 0 [-128:127]

a sinistra abbiamo l’istogramma dei valori assunti dai pixel dell’immagine trasformata, a destradell’immagine Campo di Rialto originale.

Slide 40

'

&

$

%

Moderna compressione di immagini

Mettiamo insieme tutte le idee viste oggi: la rappresentazione Y, Cr, Cb del colore, latrasformata wavelet, la quantizzazione, la rappresentazione usando un codice dove i simboli piuprobabili usano meno bit: queste sono alla base di una tecnica per comprimere le immagini chesi chiama JPEG2000.

20

Page 21: Somme Immagini

Slide 41

'

&

$

%A sinistra una versione ottenuta usando JPEG, e a destra una versione con JPEG2000; entrambeusano circa 0,7 bit per pixel (contro gli originali 24bit per pixel).

Slide 42

'

&

$

%

Bibliografia

• La compressione dei dati (testi e immagini) e trattata nel saggio:

Carlini, Paolo,La compressione dei dati : dalla teoria alla pratica , Milano : Hoepli, c1998.

• La percezione visiva dell’uomo e stata studiata nel testo (fondamentale):

David H. Hubel, Eye, brain, and vision. American scientific library, 1988

• La codifica audio MP3 e descritta (molto tecnicamente) in:

K. Brandenburg, capitolo 2 in Applications of digital signal processing, Kluwer academicpublisher, 1998

• Queste slide si trovano in

http://dida.sns.it/dida2/Members/mennucci/pdf1

21


Top Related