peter grzybek projekt # 15485 (fwf) projekt # 43s9 (oead/saia) graphem-häufigkeiten

Peter Grzybek

Projekt # 15485 (FWF) http://www-gewi.uni-graz.at/quanta

Projekt # 43s9 (OEAD/SAIA) http://www-uni-graz.at/staff/grzybek

Graphem-Häufigkeiten im Slowakischen

im Vergleich zu anderen (slawischen) Sprachen

Slowakische Graphem-Häufigkeiten

1. Milan (1957): 35 – 10.0002. Mistrík (1957): 41 – 100.0003. Bosák (1965): 46 – 10.0004. Krauszová/Jarušek (wiss.):

43 – 585.207

5. Krauszová/Jarušek (journ.): 43 –

627.797

Anfänge in den 50er Jahren:

Praktische Bedürfnisse

• Stenographie

• Tastaturbelegung auf Schreibmaschinen

• Vergleich Graphematik – Phonologie

Slowakische Graphematik (Bosák 1965)

1. Bosák: 46 – 10.000 99.97%2. Milan: 35 – 10.000 98.93 %3. Mistrík: 41 – 100.000 90.68 %4. Krauszová/Jarušek (wiss.): 43 – 585.207 91.09

%5. Krauszová/Jarušek (journ.): 43 – 627.797 93.72

%

• Unterschiedliche Inventar-Größen

• Unvollständige (Roh-)Daten

• Untersuchungen einzelner Grapheme / Phoneme (Graphem-Phonem-Gruppen)

Notwendig:

Erforschung des graphematischen Systems insgesamt unter Berücksichtigung möglicher Stil-Differenzen

Synergetische Grundlagen

Frequenzen und Abhängigkeiten

SENTENCE

CLAUSE

WORD / LEXEME

SYLLABLE / MORPHEME

PHONEME / GRAPHEME

SENTENCE

CLAUSE

Frequency WORD / LEXEME

Frequency SYLLABLE / MORPHEME

Frequency PHONEME / GRAPHEME

SENTENCE Length↕

CLAUSE Length↕

Frequency WORD / LEXEME Length↕

Frequency SYLLABLE / MORPHEME Length↕

Frequency PHONEME / GRAPHEME Length

SENTENCE Length Frequency

CLAUSE Length Frequency

Frequency WORD / LEXEME Length Frequency

Frequency SYLLABLE / MORPHEME Length Frequency

Frequency PHONEME / GRAPHEME Length Frequency

Annahme:

Regularitäten auf höheren Ebenen setzen Regularitäten auf niedrigeren Ebenen voraus.

1( )x xP g x P

Rang-Häufigkeit

Proportionale Relation einer Klasse x zur jeweils niedrigeren Klasse x-1

R a n g 1 b i s R a n g n

Frequennz

Ist die proportionale Relation für

verschiedene Texte und/oder Sprachen

systematisch ?

Analyse von Graphem-Frequenzen

Methodologische Entscheidungen

• Daten-Homogenität

Graphematische Daten (keine Phoneme)

• Kontrolle der Daten-Homogenität

Texte vs. Text-Segmente vs. Text-Kumulationen vs. Text-Mischungen (Korpus)

• Diskrete Häufigkeits-Modelle (keine stetigen)

(a) theoretische Entropie, Repeat Rate, etc.

(b) pi = 1

• Test relevanter Modelle

Goodness-of-Fit-Test

²-Test C = ² / N (C < 0.02 = * ; C < 0.01 = **)

Analyse von Graphem-Frequenzen: Russisch

А Б В Г Д Е Ё Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

No. Author Text Kap. Abk. N26 A.S. Puškin Evgenij Onegin Kap. 1& 8 ASP-EO1+8 31694

T. 8 (Kap. 18) & T. 1 (Kap. 1)T. 1 (Kap. 1) &T. 6 (Kap. 8)

A.S. Puškin Evgenij Onegin && L.N. Tolstoj Anna KareninaA.S. Puškin Evgenij Onegin && F.M. Dostojevskij Prestuplenie i nakazanieA.S. Puškin Evgenij Onegin && text 24 Text 24L.N. Tolstoj Anna Karenina && text 24 Text 24F.M. Dostojevskij Prestuplenie i nakazanie && text 25 Text 25

34 M. Gor'kij & text 25 Na dne & Text 25 Gesamttexte MG+IN 95312Kap. 5, Verse 1-5 pro Kap.Epilog, jede 2. ZeileT. 4 (Kap. 1-5), jede 4. Zeile

38 Gesamtkorpus CC 3328454

714137 L.N. Tolstoj Anna Karenina LNT-4

4323

36 F.M. Dostojevskij Prestuplenie i nakazanie FMD-2 14464

35 Puškin, A.S. Evgenij Onegin ASP1-5

33 Gesamttexte FMD+IN 856596

32 Gesamttexte LNT+UR 1344544

31 Gesamttexte ASP+UR 117311

30 Gesamttexte ASP+FMD 947135

29 Gesamttexte ASP+LNT 1445733

7720

28 F.M. Dostojevskij Prestuplenie i nakazanie FMD-PN1+6 29498

27 L.N. Tolstoj Anna Karenina LNT-AK8+1

No. Autor Text Kap. Abk. N1 A.S. Puškin Evgenij Onegin 1 ASP-EO 1 15830

2 2 ASP-EO 2 11544

3 3 ASP-EO 3 13597

4 4 ASP-EO 4 12475

5 5 ASP-EO 5 12018

6 6 ASP-EO 6 12742

7 7 ASP-EO 7 15180

8 8 ASP-EO 8 15864

9 1-2 ASP-EO 1-2 27374

10 1-3 ASP-EO 1-3 40971

11 1-4 ASP-EO 1-4 53446

12 1-5 ASP-EO 1-5 65464

13 1-6 ASP-EO 1-6 78206

14 1-7 ASP-EO 1-7 93386

15 ges. Text ASP-EO 1-8 10925016 L.N. Tolstoj Anna Karenina ges. Text LNT-AK 133648317 Otročestvo ges. Text LNT-O 11395418 F.M. Dostojevskij Prestuplenie i nakazanie ges. Text FMD-PN 837885

19 Zapisk i iz podpol'ja ges. Text FMD-ZAP 18824920 A.P. Čechov Čajka ges. Text APČ-Č 14573521 Djadja Vanja ges. Text APČ-DV 6087122 M. Gor'kij Mat' ges. Text MG-MA 433177

23 Na dne ges. Text MG-ND 7603924 www.rusmet.ru Ural'sk ij rynok metallov techn. Text UR 806125 www.phyton.ru Instr. sredstva […] techn. Text IN 18711

Zipf-Verteilung

(Zeta-Verteilung)

Grundannahme:

r x fr = c fr = c / r

1

1

1, 1,2,3,..., 1,

r a aj

cP r a c

r j

1 11 21 310

200000

400000

600000

800000

1000000

1200000

1400000beobachtet f(i)

Zeta NP(i)

Gesamt-Korpus:

C = 0.12

Zipf-Mandelbrot-Verteilung

Grundannahme:

fr = c / (r + b)a

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 320

5000

10000

15000

20000

25000

f(i)

NP(i)

1

1

1, 1,2,3,..., 1, 1,

( ) ( )r a aj

cP r a b c

b r b j

Gesamt-Korpus:

C = 0.03

Zipf‘sche und Zipf-Mandelbrot‘sche Verteilung:

Goodness-of-Fit-Tests

(38 Russische Datensätze)

1 2 3 4 5 6 7 8 9 1011 1213141516171819202122232425262728293031323334353637380,00

0,05

0,10

0,15

0,20rt. Zeta Zipf-Mandelbrot

1 2 3 4 5 6 7 8 9 1011 1213141516171819202122232425262728293031323334353637380,00

0,05

0,10

0,15

0,20rt. geometric Good1

Geometrische Verteilung und Good-Verteilung

1 rrP p q , 1, 2,...,r

r b

aP c r n

r 1

1

jn

bj

ca

j

Gesamt-Korpus:

C = 0.0211

Gesamt-Korpus:

C = 0.13

n = Inventargröße, x = Klasse

2 Parameter: K, M

Negativ-hypergeometrische Verteilung

2

1 1

1

x

M x K M n x

x n xP

K n

n

1 11 21 310

200000

400000

600000

800000

1000000

1200000beobachtet f(i)

neg. hypergeom. NP(i)

Analyse Russischer Graphem-Frequenzen

(Korpus)

Goodness-of-Fit-Test: Korpus, ca. 8.5 Mio. Grapheme

C = 0.0043

Analyse russischer Graphem-Frequenzen

Vergleich von Texten, Text-Segmenten, Text- Kumulationen, Text-Mischungen, und dem

Gesamt-Korpus

1 11 21 310,00

0,02

0,04

0,06

0,08

0,10

1 11 21 310,00

0,50

1,00

1,50

2,00

2,50

3,00

3,50

4,00

Parameter K

Parameter M

Konstanz des Goodness-of-Fit-Tests (C)

Konstanz der Parameter (K, M)

K 3.15 M 0.81

Negativ hypergeometrische Verteilung

Analyse slowenischer Graphem-Frequenzen

Goodness-of-Fit-Test: Korpus, ca. 130.000 Grapheme

(C= 0.0094)


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 290

2000

4000

6000

8000

10000

12000

14000

16000

18000

beobachtet

neg.hypergeom.

a b c č d e f g h i j k l m n o p r s š t u v z ž

Konstanz des Goodness-of-Fit-Tests: (C)

Konstanz der Parameter (K, M)

K 2.89 M 0.81

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200,00

0,50

1,00

1,50

2,00

2,50

3,00

3,50

K

M

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200,00

0,05

0,10

0,15

0,20NHG

Analyse slowenischer Graphem-Frequenzen

(Korpus)


R U S S I S C H S L O W E N I S C H0

1

2

3

4

5K (rus) M (rus) K (slo) M (slo)

Vergleich: Russisch (33) – Slowenisch (25)

Werte der Parameter K und M für jeweils 30 Texte (mit 95%-Konfidenzintervall für K)

Analysis von Graphem-Häufigkeiten

in slawischen Alphabeten

Inventar- Umfang

minimal 25 Slowenisch

mittel 32/33 Russisch(е / ё)

maximal 43/46Slowakisch

(m. Digraphen)

Slowakische Graphem-Häufigkeiten

• Folgt auch das Slowakische der neg. hypergeometrischen Verteilung?

Wenn ja:

• Wie verhalten sich die Parameter K und M ?

• Wie wirkt sich die Anzahl der (Graphem)Klassen aus ?

• Lassen sich die Parameter K und M interpretieren ?

Slowakische Graphem-Häufigkeiten: Korpus-Analyse

(ca. 150.000 Grapheme)

C = 0.0102 C = 0.0139

K = 3.97 K = 4.16

M = 0.85 M = 0.83

43 Grapheme 46 Grapheme

Slowakische Graphem-Häufigkeiten: Text-Analysen

(30 Texte verschiedener Textsorten)

S L O W A K I S CH 43 S L O W A K I S CH 460

0,01

0,02

0,03

0,04

0,05C (sk,oD) C (sk, mD)

0.0139Cx

Slowakische Graphem-Häufigkeiten: Parameter K und M

(mit 95%-Konfidenzintervall)

K = 4.06 0.06 K = 4.31 0.08

M = 0.85 0.01 M = 0.84 0.01

S L O W A K I S CH 43 S L O W A K I S CH 460

1

2

3

4

5

6K (sk,oD) M (sk,oD) K (sk,mD) M (sk,mD)

Graphem-Häufigkeiten in drei slawischen Sprachen: Fehlerbalken-Diagramme für K und M

25 32 33 43 46

Inventarumfang (Grapheme)

1

2

3

4

95%

CI

K

M 1. Slowenisch: 25

2. Russisch: 32 (ohne ё)

3. Russisch: 33 (mit ё)

4. Slowakisch: 43 (ohne Digraphen)

5. Slowakisch: 46 (mit Digraphen)

1. Überlappung von M

2. Keine Überlappung von K

3. Korrelation von K und n ?

Graphem-Häufigkeiten in drei slawischen Sprachen

Interpretation der Parameter:

Abhängigkeit der Parameter K und M von n

K korreliert hoch signifikant mit dem Inventarumfang n:

(r = 0.94, p < 0.001)

M korreliert signifikant, aber deutlich schwächer mit dem

Inventarumfang n:

(r = 0.26, p = 0.01)

0,7500

0,8000

0,8500

0,9000

0,9500

25 30 35 40 45 50

j

Beobachtet

Linear

M

2,5000

3,0000

3,5000

4,0000

4,5000

5,0000

25 30 35 40 45 50

j

Beobachtet

Linear

K


Interpretation der Parameter:

Abhängigkeit der Parameter K und M von n

3,00

3,50

4,00

25 30 35 40 45 50

inventar

Beobachtet

Linear

Exponent

m1_K

0,50

0,60

0,70

0,80

0,90

1,00

25 30 35 40 45 50

inventar

Beobachtet

Linear

Exponent

m1_M

K korreliert signifikant mit dem Inventarumfang n:

(r = 0.99, p = 0.002)

M korreliert nicht signifikant mit dem Inventarumfang n:

(r = 0.33, p = 0.22)


Interpretation der Parameter K und M

Abhängigkeit Mi von Ki (i=1,2,…,n)

0,7000

0,7500

0,8000

0,8500

0,9000

0,9500

1,0000

2,5000 3,0000 3,5000 4,0000 4,5000 5,0000

K

Beobachtet

Linear

Exponent

M

gesamt

r =.51, p < .001

2,5000 3,0000 3,5000 4,0000 4,5000 5,0000

K

0,7000

0,7500

0,8000

0,8500

0,9000

0,9500

1,0000

M

j25

32

33

43

46

SPRACHSPEZIFIK !!!

Sprachspezifische Abhängigkeit des Parameters

Mi von Ki (i = 1,2,…,n)

Slowenisch: r =.88, p < .001

0,7600

0,7800

0,8000

0,8200

0,8400

0,8600

0,8800

2,7000 2,8000 2,9000 3,0000 3,1000 3,2000 3,3000

K

Beobachtet

Linear

Exponent

M

0,7600

0,7800

0,8000

0,8200

0,8400

0,8600

0,8800

0,9000

3,0000 3,2000 3,4000 3,6000 3,8000 4,0000

K

Beobachtet

Linear

Exponent

M

Russisch (32): r =.86, p < .001

0,7500

0,7750

0,8000

0,8250

0,8500

0,8750

3,0000 3,2000 3,4000 3,6000 3,8000

K

Beobachtet

Linear

Exponent

M

Russisch (33)r =.85. p < .001

0,7500

0,8000

0,8500

0,9000

0,9500

3,6000 3,8000 4,0000 4,2000 4,4000

K

Beobachtet

Linear

Exponent

M

Slowakisch (43): r =.82, p < .001

0,7500

0,8000

0,8500

0,9000

0,9500

3,8000 4,0000 4,2000 4,4000 4,6000 4,8000 5,0000

K

Beobachtet

Linear

Exponent

M

Slowakisch (46)

r = .59, p = .001

Sprachspezifische Abhängigkeit des Parameters Mi von Ki

Mi = ai Ki

Slowenisch:M1 = 0.2823 K1

0,7600

0,7800

0,8000

0,8200

0,8400

0,8600

0,8800

2,7000 2,8000 2,9000 3,0000 3,1000 3,2000 3,3000

K

Beobachtet

Linear

Exponent

M

0,7600

0,7800

0,8000

0,8200

0,8400

0,8600

0,8800

0,9000

3,0000 3,2000 3,4000 3,6000 3,8000 4,0000

K

Beobachtet

Linear

Exponent

M

Russisch (32):M2 = 0.2434 K2

0,7500

0,7750

0,8000

0,8250

0,8500

0,8750

3,0000 3,2000 3,4000 3,6000 3,8000

K

Beobachtet

Linear

Exponent

M

Russisch (33)M3 = 0.2529 K3

0,7500

0,8000

0,8500

0,9000

0,9500

3,6000 3,8000 4,0000 4,2000 4,4000

K

Beobachtet

Linear

Exponent

M

Slowakisch (43): M4 = 0.2123 K4

0,7500

0,8000

0,8500

0,9000

0,9500

3,8000 4,0000 4,2000 4,4000 4,6000 4,8000 5,0000

K

Beobachtet

Linear

Exponent

M

Slowakisch (46)

M5 = 0.1953 K5

Abhängigkeit des Faktors ai von ni

ai = c ni + d

ai = c‘ nid‘

Slowenischn1 = 25 M1 = 0.2823 K1

Russisch

n2 = 32 M2 = 0.2434 K2

n3 = 33 M3 = 0.2529 K3

Slowakisch

n4 = 43 M4 = 0.2123 K4

n5 = 46 M5 = 0.1953 K5

r =.99 ( p = 0.001)

0,150000

0,180000

0,210000

0,240000

0,270000

0,300000

25 30 35 40 45 50

inventar

Beobachtet

Linear

Exponent

a

ai f(ni) c · ni + d

-0.004 ni + 0.379

Mi g(Ki) ai · Ki

K h(n) u · n + v0.067 n + 1.163

1. Die Graphemhäufigkeiten im Slowakischen sind gesetzmäßig organisiert; die Verteilung folgt der negativ hypergeometrischen (nhg) Verteilung

2. Das Slowakische ordnet sich systematisch in den Kontext anderer slawischer Graphemsysteme ein

3. Die Parameter K und M der NHG Verteilung verhalten sich regulär; sie lassen sich interpretieren, indem sie sich auf den Inventarumfang n zurückführen lassen

4. Nur Textanalysen, keine Korpusanalysen führen zu einer entsprechenden Interpretation der Parameter

Resümee und Schlussfolgerungen

Däkujem

za

pozornost !

0 5000 10000 15000 20000 25000 30000

N

0,00

0,01

0,02

0,03

0,04

0,05

C

0 5000 10000 15000 20000 25000 30000

N

0,00

0,01

0,02

0,03

0,04

0,05

C

Stichprobengröße und C

0 5000 10000 15000 20000 25000 30000

N

0,00

0,01

0,02

0,03

0,04

0,05

C

0 5000 10000 15000 20000 25000 30000

N

0,00

0,01

0,02

0,03

0,04

0,05

C

0 5000 10000 15000 20000 25000 30000

N

0,00

0,01

0,02

0,03

0,04

0,05

C

Post-Hoc-Mittelwert-Vergleich

(Parameter K)K

30 2,956421

30 3,174537

30 3,352635

30 4,057377

30 4,313710

30 2,956421

30 3,174537

30 3,352635

30 4,057377

30 4,313710

1,000 1,000 1,000 1,000 1,000

spracheslo

rus_32

rus_33

sk_43

sk_46

slo

rus_32

rus_33

sk_43

sk_46

Signifikanz

Tukey-B-Testa

Scheffé-Prozedura

N 1 2 3 4 5

Untergruppe für Alpha = .05.

Die Mittelwerte für die in homogenen Untergruppen befindlichen Gruppen werden angezeigt.

Verwendet ein harmonisches Mittel für Stichprobengröße = 30,000.a.

M

30 ,803555

30 ,816581 ,816581

30 ,835117 ,835117

30 ,843017

30 ,853580

30 ,803555

30 ,816581 ,816581

30 ,835117 ,835117

30 ,843017 ,843017

30 ,853580

,702 ,066 ,360

spracherus_32

rus_33

slo

sk_46

sk_43

rus_32

rus_33

slo

sk_46

sk_43

Signifikanz

Tukey-B-Testa

Scheffé-Prozedura

N 1 2 3

Untergruppe für Alpha = .05.

Die Mittelwerte für die in homogenen Untergruppen befindlichen Gruppen werdenangezeigt.

Verwendet ein harmonisches Mittel für Stichprobengröße = 30,000.a.

Klassifizierungsergebnissea

30 0 0 0 0 30

1 23 6 0 0 30

0 6 23 1 0 30

0 0 0 28 2 30

0 0 0 6 24 30

100,0 ,0 ,0 ,0 ,0 100,0

3,3 76,7 20,0 ,0 ,0 100,0

,0 20,0 76,7 3,3 ,0 100,0

,0 ,0 ,0 93,3 6,7 100,0

,0 ,0 ,0 20,0 80,0 100,0

spracheslo

rus_32

rus_33

sk_43

sk_46

slo

rus_32

rus_33

sk_43

sk_46

Anzahl

%

Originalslo rus_32 rus_33 sk_43 sk_46

Vorhergesagte Gruppenzugehörigkeit

Gesamt

85,3% der ursprünglich gruppierten Fälle wurden korrekt klassifiziert.a.

Diskriminanzanalyse

(Parameter K und M als Diskriminanzvariablen)

Klassifizierungsergebnissea

7 3 5 10 5 30

4 19 4 3 0 30

4 13 6 3 4 30

4 4 3 15 4 30

7 6 4 12 1 30

23,3 10,0 16,7 33,3 16,7 100,0

13,3 63,3 13,3 10,0 ,0 100,0

13,3 43,3 20,0 10,0 13,3 100,0

13,3 13,3 10,0 50,0 13,3 100,0

23,3 20,0 13,3 40,0 3,3 100,0

spracheslo

rus_32

rus_33

sk_43

sk_46

slo

rus_32

rus_33

sk_43

sk_46

Anzahl

%

Originalslo rus_32 rus_33 sk_43 sk_46

Vorhergesagte Gruppenzugehörigkeit

Gesamt

32,0% der ursprünglich gruppierten Fälle wurden korrekt klassifiziert.a.

peter grzybek projekt # 15485 (fwf) projekt # 43s9 (oead/saia) graphem-häufigkeiten

Documents