lezione 5 informatica di base per le discipline umanistiche vito pirrelli istituto di linguistica...

19
lezione 5 per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia

Upload: nestore-costantini

Post on 01-May-2015

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

informatica di base per le discipline umanistiche

vito pirrelli

Istituto di Linguistica Computazionale CNR Pisa

Dipartimento di linguistica

Università di Pavia

Page 2: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

quinta lezione: la matematica delle parole

vito pirrelli

Istituto di Linguistica Computazionale CNR Pisa

Dipartimento di linguistica

Università di Pavia

Page 3: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

livelli di analisi del testoLe LE#PQ@FP3@FS3# LO#RD@FP# LE#SP@NN#ricerche RICERCA#S@FP#di DI#E@#Gabriella GABRIELLA#SP@FS@MS# GABRIELLA#SP@NN#sono ESSERE#V@P3IP@S1IP# SONARE#V@S1IP#proseguite PROSEGUIRE#V@FPPR# PROSEGUIRE#V@P2IP@P2MP#per PER#E@#tutta TUTTO#A@FS# TUTTO#D@FS# TUTTO#P@FS#la LO#RD@FS# LA#PQ@FS3# LA#S@MP@MS#mattinata MATTINARE#V@FSPR# MATTINATA#S@FS#, ,#@@#con CON#E@#elicotteri ELICOTTERO#S@MP#, ,#@@#posti PORRE#V@MPPR# POSTO#S@MP# POSTARE#V@S1CP@S2CP@S2IP@S3CP#di DI#E@#blocco BLOCCARE#V@S1IP# BLOCCO#S@MS#e E#CC@# E#S@FP@FS#perquisizioni PERQUISIZIONE#S@FP#. .#@@#

Le LE#PQ@FP3@FS3# LO#RD@FP# LE#SP@NN#ricerche RICERCA#S@FP#di DI#E@#Gabriella GABRIELLA#SP@FS@MS# GABRIELLA#SP@NN#sono ESSERE#V@P3IP@S1IP# SONARE#V@S1IP#proseguite PROSEGUIRE#V@FPPR# PROSEGUIRE#V@P2IP@P2MP#per PER#E@#tutta TUTTO#A@FS# TUTTO#D@FS# TUTTO#P@FS#la LO#RD@FS# LA#PQ@FS3# LA#S@MP@MS#mattinata MATTINARE#V@FSPR# MATTINATA#S@FS#, ,#@@#con CON#E@#elicotteri ELICOTTERO#S@MP#, ,#@@#posti PORRE#V@MPPR# POSTO#S@MP# POSTARE#V@S1CP@S2CP@S2IP@S3CP#di DI#E@#blocco BLOCCARE#V@S1IP# BLOCCO#S@MS#e E#CC@# E#S@FP@FS#perquisizioni PERQUISIZIONE#S@FP#. .#@@#

Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.

Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.

Page 4: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

ascii e unicode

Page 5: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

ascii e unicode

consente la codifica di tutti i caratteri scritti esistenti al mondo;

non ricorre a combinazioni di più tasti battuti in sequenza;

tratta tutti i caratteri, siano essi alfabetici che ideografici, allo stesso modo;

per identificare ciascun carattere Unicode usa una sequenza di 16 bit;

in questo modo si possono codificare direttamente più di 65.000 caratteri diversi

Page 6: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

ascii e unicode

universale semplice e diretto univoco uniforme (codifica a numero fisso di bit) in questo modo si possono codificare

direttamente più di 65.000 caratteri diversi Unicode si occupa di caratteri in quanto entità

astratte (ad es. lettera latina maiuscola), ma non si occupa della loro resa grafica sullo schermo

Unicode codifica anche simboli diacritici (tilde, umlaut, cediglia etc.) ed è in grado di combinare caratteri e simboli diacritici, così da poter codificare oltre un milione di grafemi distinti

Page 7: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

la struttura di una parola

a d r i a t i c o

97 100 114 105 97 116 105 99 111

codifica ASCII

Page 8: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

ordinamento alfabeticoionio

adriatico

tirreno

mediterraneo

adriatico

ionio

mediterraneo

tirreno

Page 9: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

a

d

r

i

a

t

i

c

o

i

o

n

i

o

<?

<?

<?

min

a

d

r

i

a

t

i

c

o

ordinamento alfabetico (II)

la stringa che “precede” alfabeticamente è il risultato di una “funzione di minino”

Page 10: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

diagramma di ordinamento

i = i+1;

NO SI’ i = N-1?

i = 0;

metti all’i-esimo posto la stringa più piccola

tra le ultime N-i stringhe

metti all’i-esimo posto la stringa più piccola

tra le ultime N-i stringhe

lista ordinatalista ordinata

lista non ordinatadi N stringhe

lista non ordinatadi N stringhe

inizializzazione

test

istruzione

(per saperne di più clicca sul box “istruzione”!)

(fai click per far apparire gli altri passi)

Page 11: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

passo di ordinamento

stringa “temp” = stringa i-esima;stringa i-esima = stringa k-esima;stringa k-esima = stringa temp;

NO SI’ k = N? k = N?

k = k+1;

stringa i-esima < stringa k-

esima?

stringa i-esima < stringa k-

esima?

lista nuovalista nuova

inizializzazione

test 1

test 2NO

k = i;

SI’

istruzioni

incremento

(fai click per far apparire gli altri passi)

Page 12: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

esempio

NO

ionio

adriatico

tirreno

mediterraneo

stringa i-esima < stringa k-

esima?

stringa i-esima < stringa k-

esima?

stringa “temp” = stringa i-esima;stringa i-esima = stringa k-esima;stringa k-esima = stringa temp;

temp = ionio

adriatico

adriatico

tirreno

mediterraneo

adriatico

ionio

tirreno

mediterraneo

i = 0

k = 1

stringa i-esima = stringa k-esimastringa k-esima = temp

(fai click per far apparire gli altri passi)

Page 13: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

esempio

NO

ionio

adriatico

tirreno

mediterraneo

stringa i-esima < stringa k-

esima?

stringa i-esima < stringa k-

esima?

stringa “temp” = stringa i-esima;stringa i-esima = stringa k-esima;stringa k-esima = stringa i-esima;

temp = ionio

adriatico

adriatico

tirreno

mediterraneo

adriatico

ionio

tirreno

mediterraneo

i = 0

k = k+1k = k+1

k = 2

k = N? k = N?

NO

SI’

Page 14: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

esempio

NO

ionio

adriatico

tirreno

mediterraneo

stringa i-esima < stringa k-

esima?

stringa i-esima < stringa k-

esima?

stringa “temp” = stringa i-esima;stringa i-esima = stringa k-esima;stringa k-esima = stringa i-esima;

temp = ionio

adriatico

adriatico

tirreno

mediterraneo

adriatico

ionio

tirreno

mediterraneo

i = 0

k = k+1k = k+1

k = 3

k = N? k = N?

NO

SI’

SI’

Page 15: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

esempio

Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.

Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.

lunghezza frase 1: 14 “parole” lunghezza frase 2: 25 “parole” lunghezza media: (14+25)/2 = 19.5 “parole” deviazione standard: 7.78

Page 16: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

quant’è ricco il lessico di un testo?il rapporto “type/token”

Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.

Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.

“type/token ratio”: rapporto tra cardinalità del lessico e frequenza globale del testo

|V| / N 39/44 = 0.89 0 < ( |V| / N )< 1

Page 17: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

quant’è ricco il lessico di un testo?il numero di “hapax legomena”

Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.

Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.

un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V1

|V1|/ N 40/44 = 0.91

Page 18: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

laboratorio in linea

http://foxdrake.ilc.cnr.it/webtools/

Page 19: Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 5

fine quinta lezione

quinta lezione la matematica delle parole

(lezione 6)