tapor text analysis portal for research. cosè tapor si tratta di un analizzatore testuale che...
TRANSCRIPT
![Page 1: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/1.jpg)
TAPoRText Analysis Portal for Research
![Page 2: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/2.jpg)
Cos’è Tapor
• Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di file testuali
• File di testo semplice (plain text)
• File HTML
• File XML
• Il progetto nasce come collaborazione tra 6 università
![Page 3: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/3.jpg)
Le 6 università
• McMaster University
• University of Alberta
• Université de Montreal
• University of New Brunswick
• University of Toronto
• University of Victoria
![Page 4: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/4.jpg)
![Page 5: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/5.jpg)
Un problema spinoso
• Il formato dei file riconosciuti da un analizzatore testuale è vario e non standard
• Generalmente si tratta di file con estensione TXT (plain text)
• Tact legge formati MS-DOS, TAPoR formati US-ASCII, UNICODE.
![Page 6: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/6.jpg)
Salvare il testo
• I valori ASCII standard sono quelli fra 0 e 127, cioè i valori ottenibili con 7 bit)
• L'ASCII standard è uguale fra le diverse lingue e le diverse macchine (mac, unix, win...) per i valori fra 32 e 127, rappresentando lettere dell'alfabeto inglese, numeri e alcuni caratteri speciali
• quelli fra 0 e 31 sono riservati ai diversi sistemi operativi.
![Page 7: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/7.jpg)
Salvare il testo
• I bit vengono aumentati a 8 e si ebbe in tal modo il cosiddetto ASCII esteso, che nelle varie versioni internazionali ospitava tutti quei caratteri non presenti nell'ASCII a 7 bit
• Particolarmente usato è ISO-LATIN 1, che contiene i caratteri principali delle lingue occidentali e anglosassoni con alfabeti latini
![Page 8: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/8.jpg)
Muoversi in Tapor
• Tre tipologie di testi analizzabili (TXT, HTML, XML)
• Diversi strumenti per le diverse tipologie
• Su file lunghi le operazioni possono richiedere molto tempo, dipendentemente dalla macchina e dalla connessione a internet
![Page 9: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/9.jpg)
Analisi plain text: gli strumenti
1. List words (elencazione delle parole): elenca tutte le parole presenti nel testo, ordinandole in 4 modi (alfabetico diretto ed inverso, di frequenza, di ordine di comparsa)
2. Find text (ricerca del testo): è lo strumento di concordanza per cercare parole, frasi o righe di testo
![Page 10: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/10.jpg)
BOX DI SELEZIONE PER L’OPZIONE “LIST WORDS”
![Page 11: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/11.jpg)
RISULTATO INTERROGAZIONE SULLE “RIME” DELL’ANGIOLIERI
![Page 12: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/12.jpg)
ORDINAMENTO PER FREQUENZA
![Page 13: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/13.jpg)
STRUMENTO “FIND TEXT” - CONCORDANZA
![Page 14: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/14.jpg)
CONCORDANZA PER LA PAROLA “AMORE”
![Page 15: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/15.jpg)
Analisi plain text: gli strumenti
3. Co-occurence (co-occorrenza): cerca le ricorrenze di due parole vicine tra loro, a distanza specificata
4. Collocation (collocazione): vengono restituite le parole che precedono e seguono immediatamente la parola data. Ordinamento alfabetico, per frequenza e per Z-score
![Page 16: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/16.jpg)
STRUMENTO “CO-OCCORENCE”
![Page 17: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/17.jpg)
CO-OCCORRENZA “AMORE”/”CUORE”
![Page 18: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/18.jpg)
CO-OCCORRENZA “AMORE”/”DOLORE”
![Page 19: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/19.jpg)
Analisi plain text: gli strumenti
5. Tokenize (divisione in token): divide il testo in parti, usando come separatore un “token” specificato (una parola, uno spazio, un elemento, ecc)
6. Fixed phrase (frase fissata): viene estratta la frase che contiene una parola data calcolata in base alla lunghezza del contesto voluta
![Page 20: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/20.jpg)
Analisi plain text: gli strumenti
7. Date finder (estrattore di date): trova nel testo tutti i formati data possibili e li restituisce insieme al contesto
8. Summarizer
9. Comparator
10.Distribution
11.Speech Tagger
![Page 21: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/21.jpg)
La distribuzione
DISTRIBUZIONE FORMA “GIUSTIZIA” – “LA PATENTE”, L. PIRANDELLO
![Page 22: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/22.jpg)
Alcuni indici di rilievo
• Token• Type• Hapax legomena• Hapax dislegomena• Deviazione standard• Z-score• Indice di Kurtosis• Caratteristica di Herdann
![Page 23: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/23.jpg)
• Number of Types = 1325• Number of Tokens = 3018• Type/Token ratio = 0.439• Token/Type ratio = 2.278• Hapax Legomena = 932• Hapax Dislegomena = 193• Hapax Legomena/Dislegomena ratio = 4.8290• Hapax Legomena/Number of Types = 0.7034• Hapax Legomena/Number of Tokens = 0.3088• Hapax Legomena cubed/Types squared = 461.1221• Variance ( S.D. squared ) = 39.6977• Standard Deviation (S.D.) = 6.3006• Coefficient of skewness = 14.4959• Coefficient of kurtosis = 278.5743• Herdan's characteristic = 0.0760• Yule's characteristic = 652.5240• Carroll TTR (Types / Sqrt of 2 X Tokens) = 17.0546• Most Frequent word "e" occurred 150 times• repeat rate (Tokens / frequency most frequent word) = 20.1200
![Page 24: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/24.jpg)
Le statistiche di base
1021= types
2632= tokens
708= hapax legomena
148= hapax dislegomena
![Page 25: TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di](https://reader035.vdocuments.net/reader035/viewer/2022081518/5542eb4f497959361e8be843/html5/thumbnails/25.jpg)
Links
• http://tapor.humanities.mcmaster.ca/home.html
• http://taporware.mcmaster.ca