peter grzybek projekt # 15485 (fwf) projekt # 43s9 (oead/saia) graphem-häufigkeiten
TRANSCRIPT
Peter Grzybek
Projekt # 15485 (FWF) http://www-gewi.uni-graz.at/quanta
Projekt # 43s9 (OEAD/SAIA) http://www-uni-graz.at/staff/grzybek
Graphem-Häufigkeiten im Slowakischen
im Vergleich zu anderen (slawischen) Sprachen
Slowakische Graphem-Häufigkeiten
1. Milan (1957): 35 – 10.0002. Mistrík (1957): 41 – 100.0003. Bosák (1965): 46 – 10.0004. Krauszová/Jarušek (wiss.):
43 – 585.207
5. Krauszová/Jarušek (journ.): 43 –
627.797
Anfänge in den 50er Jahren:
Praktische Bedürfnisse
• Stenographie
• Tastaturbelegung auf Schreibmaschinen
• Vergleich Graphematik – Phonologie
Slowakische Graphematik (Bosák 1965)
1. Bosák: 46 – 10.000 99.97%2. Milan: 35 – 10.000 98.93 %3. Mistrík: 41 – 100.000 90.68 %4. Krauszová/Jarušek (wiss.): 43 – 585.207 91.09
%5. Krauszová/Jarušek (journ.): 43 – 627.797 93.72
%
• Unterschiedliche Inventar-Größen
• Unvollständige (Roh-)Daten
• Untersuchungen einzelner Grapheme / Phoneme (Graphem-Phonem-Gruppen)
Notwendig:
Erforschung des graphematischen Systems insgesamt unter Berücksichtigung möglicher Stil-Differenzen
Synergetische Grundlagen
Frequenzen und Abhängigkeiten
SENTENCE
CLAUSE
WORD / LEXEME
SYLLABLE / MORPHEME
PHONEME / GRAPHEME
SENTENCE
CLAUSE
Frequency WORD / LEXEME
Frequency SYLLABLE / MORPHEME
Frequency PHONEME / GRAPHEME
SENTENCE Length↕
CLAUSE Length↕
Frequency WORD / LEXEME Length↕
Frequency SYLLABLE / MORPHEME Length↕
Frequency PHONEME / GRAPHEME Length
SENTENCE Length Frequency
CLAUSE Length Frequency
Frequency WORD / LEXEME Length Frequency
Frequency SYLLABLE / MORPHEME Length Frequency
Frequency PHONEME / GRAPHEME Length Frequency
Annahme:
Regularitäten auf höheren Ebenen setzen Regularitäten auf niedrigeren Ebenen voraus.
1( )x xP g x P
Rang-Häufigkeit
Proportionale Relation einer Klasse x zur jeweils niedrigeren Klasse x-1
R a n g 1 b i s R a n g n
Frequennz
Ist die proportionale Relation für
verschiedene Texte und/oder Sprachen
systematisch ?
Analyse von Graphem-Frequenzen
Methodologische Entscheidungen
• Daten-Homogenität
Graphematische Daten (keine Phoneme)
• Kontrolle der Daten-Homogenität
Texte vs. Text-Segmente vs. Text-Kumulationen vs. Text-Mischungen (Korpus)
• Diskrete Häufigkeits-Modelle (keine stetigen)
(a) theoretische Entropie, Repeat Rate, etc.
(b) pi = 1
• Test relevanter Modelle
Goodness-of-Fit-Test
²-Test C = ² / N (C < 0.02 = * ; C < 0.01 = **)
Analyse von Graphem-Frequenzen: Russisch
А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
No. Author Text Kap. Abk. N26 A.S. Puškin Evgenij Onegin Kap. 1& 8 ASP-EO1+8 31694
T. 8 (Kap. 18) & T. 1 (Kap. 1)T. 1 (Kap. 1) &T. 6 (Kap. 8)
A.S. Puškin Evgenij Onegin && L.N. Tolstoj Anna KareninaA.S. Puškin Evgenij Onegin && F.M. Dostojevskij Prestuplenie i nakazanieA.S. Puškin Evgenij Onegin && text 24 Text 24L.N. Tolstoj Anna Karenina && text 24 Text 24F.M. Dostojevskij Prestuplenie i nakazanie && text 25 Text 25
34 M. Gor'kij & text 25 Na dne & Text 25 Gesamttexte MG+IN 95312Kap. 5, Verse 1-5 pro Kap.Epilog, jede 2. ZeileT. 4 (Kap. 1-5), jede 4. Zeile
38 Gesamtkorpus CC 3328454
714137 L.N. Tolstoj Anna Karenina LNT-4
4323
36 F.M. Dostojevskij Prestuplenie i nakazanie FMD-2 14464
35 Puškin, A.S. Evgenij Onegin ASP1-5
33 Gesamttexte FMD+IN 856596
32 Gesamttexte LNT+UR 1344544
31 Gesamttexte ASP+UR 117311
30 Gesamttexte ASP+FMD 947135
29 Gesamttexte ASP+LNT 1445733
7720
28 F.M. Dostojevskij Prestuplenie i nakazanie FMD-PN1+6 29498
27 L.N. Tolstoj Anna Karenina LNT-AK8+1
No. Autor Text Kap. Abk. N1 A.S. Puškin Evgenij Onegin 1 ASP-EO 1 15830
2 2 ASP-EO 2 11544
3 3 ASP-EO 3 13597
4 4 ASP-EO 4 12475
5 5 ASP-EO 5 12018
6 6 ASP-EO 6 12742
7 7 ASP-EO 7 15180
8 8 ASP-EO 8 15864
9 1-2 ASP-EO 1-2 27374
10 1-3 ASP-EO 1-3 40971
11 1-4 ASP-EO 1-4 53446
12 1-5 ASP-EO 1-5 65464
13 1-6 ASP-EO 1-6 78206
14 1-7 ASP-EO 1-7 93386
15 ges. Text ASP-EO 1-8 10925016 L.N. Tolstoj Anna Karenina ges. Text LNT-AK 133648317 Otročestvo ges. Text LNT-O 11395418 F.M. Dostojevskij Prestuplenie i nakazanie ges. Text FMD-PN 837885
19 Zapisk i iz podpol'ja ges. Text FMD-ZAP 18824920 A.P. Čechov Čajka ges. Text APČ-Č 14573521 Djadja Vanja ges. Text APČ-DV 6087122 M. Gor'kij Mat' ges. Text MG-MA 433177
23 Na dne ges. Text MG-ND 7603924 www.rusmet.ru Ural'sk ij rynok metallov techn. Text UR 806125 www.phyton.ru Instr. sredstva […] techn. Text IN 18711
Zipf-Verteilung
(Zeta-Verteilung)
Grundannahme:
r x fr = c fr = c / r
1
1
1, 1,2,3,..., 1,
r a aj
cP r a c
r j
1 11 21 310
200000
400000
600000
800000
1000000
1200000
1400000beobachtet f(i)
Zeta NP(i)
Gesamt-Korpus:
C = 0.12
Zipf-Mandelbrot-Verteilung
Grundannahme:
fr = c / (r + b)a
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 320
5000
10000
15000
20000
25000
f(i)
NP(i)
1
1
1, 1,2,3,..., 1, 1,
( ) ( )r a aj
cP r a b c
b r b j
Gesamt-Korpus:
C = 0.03
Zipf‘sche und Zipf-Mandelbrot‘sche Verteilung:
Goodness-of-Fit-Tests
(38 Russische Datensätze)
1 2 3 4 5 6 7 8 9 1011 1213141516171819202122232425262728293031323334353637380,00
0,05
0,10
0,15
0,20rt. Zeta Zipf-Mandelbrot
1 2 3 4 5 6 7 8 9 1011 1213141516171819202122232425262728293031323334353637380,00
0,05
0,10
0,15
0,20rt. geometric Good1
Geometrische Verteilung und Good-Verteilung
1 rrP p q , 1, 2,...,r
r b
aP c r n
r 1
1
jn
bj
ca
j
Gesamt-Korpus:
C = 0.0211
Gesamt-Korpus:
C = 0.13
n = Inventargröße, x = Klasse
2 Parameter: K, M
Negativ-hypergeometrische Verteilung
2
1 1
1
x
M x K M n x
x n xP
K n
n
1 11 21 310
200000
400000
600000
800000
1000000
1200000beobachtet f(i)
neg. hypergeom. NP(i)
Analyse Russischer Graphem-Frequenzen
(Korpus)
Goodness-of-Fit-Test: Korpus, ca. 8.5 Mio. Grapheme
C = 0.0043
Analyse russischer Graphem-Frequenzen
Vergleich von Texten, Text-Segmenten, Text- Kumulationen, Text-Mischungen, und dem
Gesamt-Korpus
1 11 21 310,00
0,02
0,04
0,06
0,08
0,10
1 11 21 310,00
0,50
1,00
1,50
2,00
2,50
3,00
3,50
4,00
Parameter K
Parameter M
Konstanz des Goodness-of-Fit-Tests (C)
Konstanz der Parameter (K, M)
K 3.15 M 0.81
Negativ hypergeometrische Verteilung
Analyse slowenischer Graphem-Frequenzen
Goodness-of-Fit-Test: Korpus, ca. 130.000 Grapheme
(C= 0.0094)
Negativ hypergeometrische Verteilung
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 290
2000
4000
6000
8000
10000
12000
14000
16000
18000
beobachtet
neg.hypergeom.
a b c č d e f g h i j k l m n o p r s š t u v z ž
Konstanz des Goodness-of-Fit-Tests: (C)
Konstanz der Parameter (K, M)
K 2.89 M 0.81
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200,00
0,50
1,00
1,50
2,00
2,50
3,00
3,50
K
M
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200,00
0,05
0,10
0,15
0,20NHG
Analyse slowenischer Graphem-Frequenzen
(Korpus)
Negativ hypergeometrische Verteilung
R U S S I S C H S L O W E N I S C H0
1
2
3
4
5K (rus) M (rus) K (slo) M (slo)
Vergleich: Russisch (33) – Slowenisch (25)
Werte der Parameter K und M für jeweils 30 Texte (mit 95%-Konfidenzintervall für K)
Analysis von Graphem-Häufigkeiten
in slawischen Alphabeten
Inventar- Umfang
minimal 25 Slowenisch
mittel 32/33 Russisch(е / ё)
maximal 43/46Slowakisch
(m. Digraphen)
Slowakische Graphem-Häufigkeiten
• Folgt auch das Slowakische der neg. hypergeometrischen Verteilung?
Wenn ja:
• Wie verhalten sich die Parameter K und M ?
• Wie wirkt sich die Anzahl der (Graphem)Klassen aus ?
• Lassen sich die Parameter K und M interpretieren ?
Slowakische Graphem-Häufigkeiten: Korpus-Analyse
(ca. 150.000 Grapheme)
C = 0.0102 C = 0.0139
K = 3.97 K = 4.16
M = 0.85 M = 0.83
43 Grapheme 46 Grapheme
Slowakische Graphem-Häufigkeiten: Text-Analysen
(30 Texte verschiedener Textsorten)
S L O W A K I S CH 43 S L O W A K I S CH 460
0,01
0,02
0,03
0,04
0,05C (sk,oD) C (sk, mD)
0.0139Cx
Slowakische Graphem-Häufigkeiten: Parameter K und M
(mit 95%-Konfidenzintervall)
K = 4.06 0.06 K = 4.31 0.08
M = 0.85 0.01 M = 0.84 0.01
S L O W A K I S CH 43 S L O W A K I S CH 460
1
2
3
4
5
6K (sk,oD) M (sk,oD) K (sk,mD) M (sk,mD)
Graphem-Häufigkeiten in drei slawischen Sprachen: Fehlerbalken-Diagramme für K und M
25 32 33 43 46
Inventarumfang (Grapheme)
1
2
3
4
95%
CI
K
M 1. Slowenisch: 25
2. Russisch: 32 (ohne ё)
3. Russisch: 33 (mit ё)
4. Slowakisch: 43 (ohne Digraphen)
5. Slowakisch: 46 (mit Digraphen)
1. Überlappung von M
2. Keine Überlappung von K
3. Korrelation von K und n ?
Graphem-Häufigkeiten in drei slawischen Sprachen
Interpretation der Parameter:
Abhängigkeit der Parameter K und M von n
K korreliert hoch signifikant mit dem Inventarumfang n:
(r = 0.94, p < 0.001)
M korreliert signifikant, aber deutlich schwächer mit dem
Inventarumfang n:
(r = 0.26, p = 0.01)
0,7500
0,8000
0,8500
0,9000
0,9500
25 30 35 40 45 50
j
Beobachtet
Linear
M
2,5000
3,0000
3,5000
4,0000
4,5000
5,0000
25 30 35 40 45 50
j
Beobachtet
Linear
K
Graphem-Häufigkeiten in drei slawischen Sprachen
Interpretation der Parameter:
Abhängigkeit der Parameter K und M von n
3,00
3,50
4,00
25 30 35 40 45 50
inventar
Beobachtet
Linear
Exponent
m1_K
0,50
0,60
0,70
0,80
0,90
1,00
25 30 35 40 45 50
inventar
Beobachtet
Linear
Exponent
m1_M
K korreliert signifikant mit dem Inventarumfang n:
(r = 0.99, p = 0.002)
M korreliert nicht signifikant mit dem Inventarumfang n:
(r = 0.33, p = 0.22)
Graphem-Häufigkeiten in drei slawischen Sprachen
Interpretation der Parameter K und M
Abhängigkeit Mi von Ki (i=1,2,…,n)
0,7000
0,7500
0,8000
0,8500
0,9000
0,9500
1,0000
2,5000 3,0000 3,5000 4,0000 4,5000 5,0000
K
Beobachtet
Linear
Exponent
M
gesamt
r =.51, p < .001
2,5000 3,0000 3,5000 4,0000 4,5000 5,0000
K
0,7000
0,7500
0,8000
0,8500
0,9000
0,9500
1,0000
M
j25
32
33
43
46
SPRACHSPEZIFIK !!!
Sprachspezifische Abhängigkeit des Parameters
Mi von Ki (i = 1,2,…,n)
Slowenisch: r =.88, p < .001
0,7600
0,7800
0,8000
0,8200
0,8400
0,8600
0,8800
2,7000 2,8000 2,9000 3,0000 3,1000 3,2000 3,3000
K
Beobachtet
Linear
Exponent
M
0,7600
0,7800
0,8000
0,8200
0,8400
0,8600
0,8800
0,9000
3,0000 3,2000 3,4000 3,6000 3,8000 4,0000
K
Beobachtet
Linear
Exponent
M
Russisch (32): r =.86, p < .001
0,7500
0,7750
0,8000
0,8250
0,8500
0,8750
3,0000 3,2000 3,4000 3,6000 3,8000
K
Beobachtet
Linear
Exponent
M
Russisch (33)r =.85. p < .001
0,7500
0,8000
0,8500
0,9000
0,9500
3,6000 3,8000 4,0000 4,2000 4,4000
K
Beobachtet
Linear
Exponent
M
Slowakisch (43): r =.82, p < .001
0,7500
0,8000
0,8500
0,9000
0,9500
3,8000 4,0000 4,2000 4,4000 4,6000 4,8000 5,0000
K
Beobachtet
Linear
Exponent
M
Slowakisch (46)
r = .59, p = .001
Sprachspezifische Abhängigkeit des Parameters Mi von Ki
Mi = ai Ki
Slowenisch:M1 = 0.2823 K1
0,7600
0,7800
0,8000
0,8200
0,8400
0,8600
0,8800
2,7000 2,8000 2,9000 3,0000 3,1000 3,2000 3,3000
K
Beobachtet
Linear
Exponent
M
0,7600
0,7800
0,8000
0,8200
0,8400
0,8600
0,8800
0,9000
3,0000 3,2000 3,4000 3,6000 3,8000 4,0000
K
Beobachtet
Linear
Exponent
M
Russisch (32):M2 = 0.2434 K2
0,7500
0,7750
0,8000
0,8250
0,8500
0,8750
3,0000 3,2000 3,4000 3,6000 3,8000
K
Beobachtet
Linear
Exponent
M
Russisch (33)M3 = 0.2529 K3
0,7500
0,8000
0,8500
0,9000
0,9500
3,6000 3,8000 4,0000 4,2000 4,4000
K
Beobachtet
Linear
Exponent
M
Slowakisch (43): M4 = 0.2123 K4
0,7500
0,8000
0,8500
0,9000
0,9500
3,8000 4,0000 4,2000 4,4000 4,6000 4,8000 5,0000
K
Beobachtet
Linear
Exponent
M
Slowakisch (46)
M5 = 0.1953 K5
Abhängigkeit des Faktors ai von ni
ai = c ni + d
ai = c‘ nid‘
Slowenischn1 = 25 M1 = 0.2823 K1
Russisch
n2 = 32 M2 = 0.2434 K2
n3 = 33 M3 = 0.2529 K3
Slowakisch
n4 = 43 M4 = 0.2123 K4
n5 = 46 M5 = 0.1953 K5
r =.99 ( p = 0.001)
0,150000
0,180000
0,210000
0,240000
0,270000
0,300000
25 30 35 40 45 50
inventar
Beobachtet
Linear
Exponent
a
ai f(ni) c · ni + d
-0.004 ni + 0.379
Mi g(Ki) ai · Ki
K h(n) u · n + v0.067 n + 1.163
1. Die Graphemhäufigkeiten im Slowakischen sind gesetzmäßig organisiert; die Verteilung folgt der negativ hypergeometrischen (nhg) Verteilung
2. Das Slowakische ordnet sich systematisch in den Kontext anderer slawischer Graphemsysteme ein
3. Die Parameter K und M der NHG Verteilung verhalten sich regulär; sie lassen sich interpretieren, indem sie sich auf den Inventarumfang n zurückführen lassen
4. Nur Textanalysen, keine Korpusanalysen führen zu einer entsprechenden Interpretation der Parameter
Resümee und Schlussfolgerungen
Däkujem
za
pozornost !
0 5000 10000 15000 20000 25000 30000
N
0,00
0,01
0,02
0,03
0,04
0,05
C
0 5000 10000 15000 20000 25000 30000
N
0,00
0,01
0,02
0,03
0,04
0,05
C
Stichprobengröße und C
0 5000 10000 15000 20000 25000 30000
N
0,00
0,01
0,02
0,03
0,04
0,05
C
0 5000 10000 15000 20000 25000 30000
N
0,00
0,01
0,02
0,03
0,04
0,05
C
0 5000 10000 15000 20000 25000 30000
N
0,00
0,01
0,02
0,03
0,04
0,05
C
Post-Hoc-Mittelwert-Vergleich
(Parameter K)K
30 2,956421
30 3,174537
30 3,352635
30 4,057377
30 4,313710
30 2,956421
30 3,174537
30 3,352635
30 4,057377
30 4,313710
1,000 1,000 1,000 1,000 1,000
spracheslo
rus_32
rus_33
sk_43
sk_46
slo
rus_32
rus_33
sk_43
sk_46
Signifikanz
Tukey-B-Testa
Scheffé-Prozedura
N 1 2 3 4 5
Untergruppe für Alpha = .05.
Die Mittelwerte für die in homogenen Untergruppen befindlichen Gruppen werden angezeigt.
Verwendet ein harmonisches Mittel für Stichprobengröße = 30,000.a.
M
30 ,803555
30 ,816581 ,816581
30 ,835117 ,835117
30 ,843017
30 ,853580
30 ,803555
30 ,816581 ,816581
30 ,835117 ,835117
30 ,843017 ,843017
30 ,853580
,702 ,066 ,360
spracherus_32
rus_33
slo
sk_46
sk_43
rus_32
rus_33
slo
sk_46
sk_43
Signifikanz
Tukey-B-Testa
Scheffé-Prozedura
N 1 2 3
Untergruppe für Alpha = .05.
Die Mittelwerte für die in homogenen Untergruppen befindlichen Gruppen werdenangezeigt.
Verwendet ein harmonisches Mittel für Stichprobengröße = 30,000.a.
Klassifizierungsergebnissea
30 0 0 0 0 30
1 23 6 0 0 30
0 6 23 1 0 30
0 0 0 28 2 30
0 0 0 6 24 30
100,0 ,0 ,0 ,0 ,0 100,0
3,3 76,7 20,0 ,0 ,0 100,0
,0 20,0 76,7 3,3 ,0 100,0
,0 ,0 ,0 93,3 6,7 100,0
,0 ,0 ,0 20,0 80,0 100,0
spracheslo
rus_32
rus_33
sk_43
sk_46
slo
rus_32
rus_33
sk_43
sk_46
Anzahl
%
Originalslo rus_32 rus_33 sk_43 sk_46
Vorhergesagte Gruppenzugehörigkeit
Gesamt
85,3% der ursprünglich gruppierten Fälle wurden korrekt klassifiziert.a.
Diskriminanzanalyse
(Parameter K und M als Diskriminanzvariablen)
Klassifizierungsergebnissea
7 3 5 10 5 30
4 19 4 3 0 30
4 13 6 3 4 30
4 4 3 15 4 30
7 6 4 12 1 30
23,3 10,0 16,7 33,3 16,7 100,0
13,3 63,3 13,3 10,0 ,0 100,0
13,3 43,3 20,0 10,0 13,3 100,0
13,3 13,3 10,0 50,0 13,3 100,0
23,3 20,0 13,3 40,0 3,3 100,0
spracheslo
rus_32
rus_33
sk_43
sk_46
slo
rus_32
rus_33
sk_43
sk_46
Anzahl
%
Originalslo rus_32 rus_33 sk_43 sk_46
Vorhergesagte Gruppenzugehörigkeit
Gesamt
32,0% der ursprünglich gruppierten Fälle wurden korrekt klassifiziert.a.