quadratische strukturen in sprache und schrift ansätze der ... strukturen in... · 0,02 0,04 0,06...
TRANSCRIPT
1
© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015
Quadratische Strukturen in Sprache und Schrift Ansätze der angewandten Zahlenlehre VIII zu Literatur und Kryptographie
G. Schulz
Universität des Saarlandes, Fakultät 7 für Physik und Mechatronik
Nov. 2015
"Alle haben den Himmel, die Liebe und das Grab,
damit wollen wir uns nicht befassen,
das ist für den Kulturkreis besprochen und durchgearbeitet.
Was aber neu ist, ist die Frage nach dem Satzbau
und die ist dringend:
Warum drücken wir etwas aus?"
(Gottfried Benn)
Noch bevor diese dringliche Frage aus einem Gedicht von Gottfried Benn auch nur angegan-
gen werden kann, muss die Frage beantwortet werden: Wie und womit drücken wir etwas aus.
Erst wenn die Bausteine von Sprache und Schrift bestehend aus Buchstaben, Wörtern, Sätzen
und ganzen Texten und deren Beziehungen zueinander geklärt sind, also die rein materielle
Substanz einer Sprache und der zugehörigen Schrift gesichert und erschöpfend dargestellt
worden ist, können weitergehende Fragen sinnvoll gestellt werden. Wenn dabei Strukturen
hervortreten, die auch in der Zahlentheorie und in zahlentheoretischen Ansätzen zur Quan-
tenmechanik, zur naturwissenschaftlich orientierten Neurologie und in der Genetik eine Rolle
spielen, dann sollten diese Zusammenhänge nicht übergangen werden, zumal auch die grund-
legenden Fragen der Kryptographie von Wörtern und Texten aufs Engste mit eben diesen ma-
teriellen Eigenschaften einer Sprache verknüpft sind.
In der angewandten Zahlenlehre (Teil I bis VI) konnten Operatoren – Ganzzahlteiler und
Primteiler – entwickelt werden, die geeignet sind, große Mengen an Ziffern und Zahlen nach
vorgegebenen Gesichtspunkten extrem schnell und dennoch kontrolliert zu analysieren und zu
ordnen. Mit ganz ähnlichen Verfahren sollen hier Leseoperatoren eingesetzt werden, um
Buchstaben, Wörter und Sätze in Texten zu untersuchen. Auch hier wird es darauf ankom-
men, sehr große Datenmengen so zu bearbeiten, dass die einzelnen Schritte auf ein Ziel einge-
stellt und nachvollzogen werden können und die Ergebnisse kontrollierbar bleiben.
I. Buchstaben und das Spektrum einer Sprache
Die ersten und einfachsten Bausteine einer Sprache oder Schrift sind die Buchstaben des Al-
phabets in Groß- und Kleinschreibung. In Abb. VIII.1 ist das Spektrum der deutschen Sprache
dargestellt. Darunter verstehen wir die Häufigkeiten H der Buchstaben als Funktion ihrer Stel-
lung n im Alphabet, also die Zahlen Z von Buchstaben mit der Nummer n im Alphabet Z(n)
bezogen auf die Gesamtzahl N, hier aus einem sehr langen Text mit insgesamt N = 250 000
Buchstaben oder aus einer großen Anzahl von kürzeren Texten, die von deutsch schreibenden
Schriftstellern, Wissenschaftlern oder Journalisten erstellt worden sind. Es sei betont: Wir
betrachten hier nicht den Inhalt von Texten, sondern lediglich deren materielle Beschaffen-
heit.
Die Zahl N der Buchstaben muss so groß gewählt werden, dass bei Vergrößerung von N keine
(merkliche) Änderung von H(n) mehr eintritt. Dann gilt
𝐻(𝑛) → 𝐻𝑎𝑏𝑠(𝑛) (VIII,1)
2
© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015
5 10 15 20 25
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
Habs
(n)
n
N > 250 000
Abb.VIII.1 Spektrum der deutschen Sprache. Häufigkeit H(n) der Buchstaben als Funktion ihrer Stel-
lung im Alphabet von a, A ~ n = 1 bis z, Z ~ n = 26
Um zu verdeutlichen, dass das hier gezeigte Spektrum von keinem anderen Parameter als N
bestimmt ist, sind in der Abb. VIII. 2 vergleichsweise die Spektren nach willkürlich heraus-
gegriffenen und relativ kurzen Texten der Schriftsteller Goethe , Grass und Johnson darge-
stellt.
5 10 15 20 25
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
0,20
Goethe (N = 76981)
Grass (N = 97056)
Johnson (N = 94010)
H(n)
n
0 5 10 15 20 25
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
0,20
Gothe (N = 128 000)
(N > 260 000)
H(n)
n
Abb. VI.2a Individuelle Spektren der Abb.VIII.2b Zum Vergleich die Abweichungen
Schriftsteller Goethe, Grass und Jonson. von kurzen und langen Texte eines und
desselben Schriftstellers
Die individuellen Spektren zeigen bei kleinen Gesamtzahlen N von Buchstaben im Text
durchaus noch Unterschiede, die aber um mehr als die Hälfte abnehmen, wenn die Anzahl der
Buchstaben verdoppelt wird. Das bedeutet, dass nicht nur die Division durch die in einem
längeren Text größere Zahl N, sondern auch die Umordnung der Häufigkeiten schließlich zu
einer verallgemeinerten Darstellung des Spektrums der deutschen Sprache führt und sich ein
Grenzwert von H(n) einstellt, wenn N gegen eine sehr große Zahl strebt. Man schreibt dafür
auch:
lim𝑁→∞ 𝐻𝑁(𝑛) → 𝐻𝑎𝑏𝑠(𝑛) (VIII,2)
Alle individuellen Unterschiede verschwinden im Grenzwert des Spektrums einer Sprache.
Goethe
3
© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015
Erst die Spektren anderer Sprachen (mit gleichem Alphabet) zeigen bezüglich der Größe der
Spektrallinien wie auch bezüglich ihrer Anordnung größere Unterschiede zum Spektrum der
deutschen Sprache, die nicht auf die Größe des Parameters N zurückzuführen sind. Zum Bei-
spiel sind in den folgenden Abbildungen die Spektren der französischen und der englischen
Sprache (und Schrift) dargestellt:
5 10 15 20 25
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
Französisch
Habs
(n)
n
5 10 15 20 25
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18 Habs
(n)
n
Englisch
Abbn. VIII.3 u 4 Spektren der englischen und französischen Sprach zum Vergleich mit VIII.1
Ein Blick auf diese Spektren zeigt sofort, dass jedwede lineare Zuordnung der Buchstaben
des Alphabets zu den Zeichen einer beliebigen anderen Zeichenkette keine wirksame Ver-
schlüsselung eines Textes bewirkt und es wird noch gezeigt werden, dass auch quadratische
Strukturen dazu nicht ausreichen. (Auch Zustände im atomaren Bereich, die durch Quanten-
zahlen charakterisiert werden können, die ihrerseits aber zahlentheoretisch samt und sonders
aus quadratischen Strukturen folgen, kommen für die Kryptografie nicht in Betracht.)
II Wörter und Sprachenräume
Die nächst größeren Bausteine im Material einer Sprache sind die Wörter. Wörter bezeichnen
bestimmte Sachverhalte und Gegenstände oder Zustände und Eigenschaften oder auch zeitlich
Abläufe, aber es sei von Anfang an klargestellt, dass hier nicht die Bedeutungen oder gar wei-
tergehende Komplexionen der Wörter untersucht werden sollen, sondern (zunächst) allein ihr
Beitrag zum Material einer Sprache. Das heißt, die Wörter einer Sprache oder Schrift stehen
für Bezeichnungen, sind Bezeichner. Die einzelnen Bezeichner sind dadurch charakterisiert
und zu erkennen, dass sie durch Leerzeichen oder Satzzeichen voneinander getrennt aus einer
begrenzten Zahl von Buchstaben bestehen, die von einem Redenden oder einem Schreibenden
so, wie sie nun einmal dastehen, zusammengefügt worden sind. Es interessiert nicht, ob sie
aus Gewohnheit benutzt werden oder ob sie von Vorgängern (Vorfahren) erlernt und einfach
übernommen worden sind oder ob sie in einem autonomen schöpferischen Akt erst geschaffen
werden mussten, um dem Redenden oder Schreibenden als Bezeichnung dienen zu können.
Für vergleichende Untersuchungen und erst recht für weitere Schlussfolgerungen in Literatur
und Kryptografie ist es zweckmäßig, die Wörter einer Sprache nach der Anzahl S ihrer Buch-
staben zu ordnen. Wenn außerdem nur die in einem Text voneinander verschiedenen Wörter
mit S Buchstaben gezählt werden, ergibt die Summe über alle Produkte aus der Anzahl S der
Buchstaben im Wort mit der Anzahl k dieser Wörter im Text schließlich die Gesamtzahl der
Buchstaben in einem Text, aus dem die Wörter entnommen worden sind.
In Abb.VIII.5 sind die Produkte Sk = S∙k über S grafisch dargestellt für die Texte dreier
Schriftsteller. Der Bereich, in dem merklich viele Wörter liegen, reicht von S = 2, der im
Deutschen geringsten Buchstabenzahl in einem Wort, bis S = 23. Oberhalb von 23 sind nur
noch ganz vereinzelt Wörter zu finden, die aber für die weiteren Untersuchungen keine Rolle
4
© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015
spielen, zum Beispiel: "Universitätsentwicklungsplanbeschleunigungsgesetzentwurf !" Solche
juristischen Entgleisungen werden hier nicht weiter beachtet.
0 5 10 15 20 25
-5000
0
5000
10000
15000
20000
25000
30000
35000
40000
45000 Sk(S)
s
Goethe (N=76981)
Johnson (N=97050)
Grass (N=94010)
Abb.VIII.5 Die Produkte Sk(S) als Funktion von S für die angeführten Schriftsteller Goethe, Grass und Johnson
mit den angegebenen Gesamtzahlen N in ihren Texten
Wenn die Produkte Sk auf die Gesamtzahl der Wörter normiert werden, also
𝑆𝑘𝑁(𝑆) =𝑆𝑘(𝑆)
𝑁 (VIII,3)
gebildet wird, erhält man die Häufigkeit H(S) und bei großen N von N unabhängige, ver-
gleichbare Größen und diese Größen insgesamt nennen wir Basis des Sprachenraums, den die
Schriftsteller im Deutschen einnehmen. Die Basisfläche ist nur scheinbar von Schriftsteller zu
Schriftsteller verschieden, denn die ohnehin geringen Unterschiede werden mit zunehmender
Textgröße rasch kleiner und verschwinden mit wachsendem N schließlich ganz. Abb.VIII.6
zeigt, dass bereits für einen Text mit einer Gesamtzahl von N = 250 000 Buchstaben die Ba-
sisfläche der deutschen Sprache durch die Fläche unter einer Gaußschen Glockenkurve be-
schrieben wird. Die Abweichungen der empirisch ermittelten Werte von der idealen Glocken-
kurve liegen weit unter 0.1 Promille, der Mittelwert x0 = 10.6 kann daher als exakt angesehen
werden.
0 5 10 15 20 25
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
SkN(S) ~ y(x)
S ~ x
Goethe, Johnson N = 250 000
Abb. VIII.6 Die empirisch ermittelte Basisfläche des Sprachenraum nach Texten von Goethe und
Johnson im Vergleich mit der Approximation durch eine Gaußsche Glockenkurve.
Data: Fehlzeichen_C Model: Gauss y=y0 + (A/(w*sqrt(PI/2)))*exp(-2*((x-xc)/w)^2) y0 0.00077 ±0.0021 x0 10.66197 ±0.06865 w 6.59002 ±0.20798 A 0.98663 ±0.04027
5
© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015
Die Punkte auf der Gaußschen Glockenkurve geben also an, wie häufig voneinander ver-
schiedene Wörter mit S Buchstaben in einer Sprache benutzt werden. Es ist bemerkenswert,
dass die Schriftsteller, mögen sie in der Wortwahl noch so verschieden erscheinen, in der
mittleren Buchstabenzahl x0 = S0 ≈ 10.6 der von ihnen benutzten Wörter doch völlig überein-
stimmen. Das heißt aber lediglich, dass diese Schriftsteller dieselbe Sprache benutzt haben.
Auch die Basisflächen der französischen und englischen Sprache bilden Gaußsche Glocken-
kurven, allerdings mit deutlich verschiedenen theoretischen wie empirischen Mittelwerten x0
~ S0. Daraus folgt, dass mit einer elektronisch maschinellen Untersuchung eines Textes ohne
jede Wortkenntnis festgestellt werden kann, in welcher Sprache ein Text verfasst worden ist –
mit weitreichenden Folgerungen für Spracherkennung und Kryptographie.
Anmerkung. Es sei an dieser Stelle darauf verwiesen, dass Kinder, Schüler, aber auch
Erwachsene eine fremde Sprache in der überwältigenden Zahl der Fälle anhand des
gesprochenen Wortes in Verbindung mit einer hinweisenden Gebärde erlernen. Die
Gebärde kann auf einen Gegenstand, auf eine Person oder auf das Bild eines Gegen-
standes oder einer Person oder sogar auf deren Tätigkeit mit allen möglichen Bewe-
gungsabläufen hindeuten und von einer Tonfolge begleitet sein, wenn nicht schon das
gesprochene Wort lautmalerisch die Bedeutung eines Wortes einprägsam macht. Je-
denfalls erfolgt dieses Lernen völlig anders als die Durchsuchung einer Basisfläche
mit Tausenden von Wörtern nach einem Mittelwert – mit Hilfe eines Computers. Ein
Computer oder vielmehr ein Mikroprozessor besteht aus Transistoren und Dioden,
Kapazitäten, Widerständen und Induktionsspulen, mikrominiaturisierten Bauteilen, die
mit Leiterbahnen für elektrische Ströme oder neuerdings auch durch Lichtblitze unter-
einander verbunden sind und durch von außen aufgeprägte Schaltungen Zustandsände-
rungen an Speicherplätzen vornehmen. Das können sie inzwischen sehr schnell und
sollen sie in Zukunft noch schneller vermögen, aber es bleiben ewig dieselben vorge-
schriebenen Aktionen, von Ingenieuren dafür konstruiert und von Programmierern so
in Gang gesetzt. Auch das menschliche Gehirn bedarf für seine Funktionen der materi-
ellen Grundlagen in Form von Neuronen und Neuronalen Prozessen, besorgt aber die
Kongruenz von Vorstellungen mit den Tatsachen in unserer Umgebung, wie unsere
Sinne sie uns melden, mit wachsender Geschwindigkeit und in von selbst wachsendem
Umfang auf der Ebene hoher und höchster Komplexionen. Es bleibt die Frage, wo
denn ein großes I beim großen K des Computers zu finden sein sollte.
Die Basierung der Sprachenräume auf die Fläche unter Gaußschen Glockenkurven, die be-
kanntlich zur Beschreibung von Zufallsverteilungen dienen, ist eindeutig. Es kann daher nicht
ausgeschlossen werden, dass die Wortlängen und vielleicht auch die Wörter selbst in den
Sprachen nach dem Zufallsprinzip verteilt sind, und daraus ergibt sich die Frage, ob sie so
auch entstanden sind. Dann könnten einfachere, sehr viel tiefer liegende Strukturen, als heute
bekannt sind, an ihrer Entstehung mitgewirkt haben. Dass sie danach immer willkürlicher und
kunstvoller in Dichtung und Literatur benutzt werden konnten, beruht auf höheren Dimensio-
nen der Sprachenräume, die hier aber (zunächst) nicht zur Debatte stehen.
III Sätze und Satzgefüge
Sätze sind die Träger im Gebäude einer Sprache und Sätze allein vermitteln eine Information,
stellen eine Frage oder eine Antwort, eine Aussage oder sogar einen Ausdruck dar. Aber nicht
diese Eigenschaften der Sätze sollen hier untersucht werden, sondern allein ihre materielle
Beschaffenheit als Baustoff einer Sprache. In diesem Sinne sind Sätze dadurch charakterisiert
und zu erkennen, dass sie in der Regel zu Beginn eines Textes oder nach dem Satzzeichen
Punkt mit einem Großbuchstaben anfangen, aus einer begrenzten Zahl von Wörtern bestehen
und mit einem Punkt enden. Sätze können aus Haupt und Nebensätzen bestehen, die durch ein
Komma zu trennen sind.
6
© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015
Anmerkung. Weitere Satzzeichen wie Punkt und Komma sind im Grunde überflüssig
und werden von modernen Schriftstellern auch kaum mehr benutzt, zumal dann nicht,
wenn ihre Werke als E-books erscheinen sollen und es darauf ankommt, mit mög-
lichst wenigen Bytes bei der Übertragung von langen Texten auszukommen, aber auch
aus sprachlogischen Gründen. Ein Beispiel,
Du gehst nach Hause. Gehst Du nach Hause.
Wenn doch schon aus der Anordnung der Wörter im Satz hervorgeht, ob es sich um
eine Aussage oder eine Frage handelt, wozu dann noch Ausrufezeichen oder Fragezei-
chen. Wer anders Fragen von Aussagen nicht unterscheiden kann, sollte vielleicht Le-
sen und Schreiben lernen und vorzutragende Texte vorher auswendig lernen. Anfüh-
rungszeichen unten und Ausführungszeichen oben oder angeblich literarisch erforder-
liche vor und nach gesetzte spitze Doppelklammern sind reine Schnörkel und werden
hier vom Leseoperator automatisch eliminiert, wie übrigens ganz offensichtlich auch
vom menschlichen Gehirn beim Vorlesen.
Wie die Buchstaben und ihre Anzahl für die Wörter einer Sprache konstitutiv sind, so sind die
Wörter und ihre Anzahl für die Sätze konstitutiv. Aber es muss auch hier erst ein notwendiger
Zusammenhang zwischen den Wörtern und den Sätzen hergestellt werden, um zu weiterfüh-
renden Aussagen zu gelangen.
Um den analytischen Zusammenhang zwischen Buchstaben und Wörtern zu finden, war es
sinnvoll, nur die voneinander verschiedenen Wörter in den Texten zu betrachten, wenngleich
dadurch auch jeder Unterschied zwischen den verschiedenen Schreibenden verlorenging.
Doch einzelne Wörter stellen keine Informationen dar und werden deswegen höchstens als
Merkwörter oder zur Hervorhebung eines Begriffs von besonderer Bedeutung in ein und dem-
selben Satz mehrfach benutzt. Für die Verwendung in Sätzen ist die Forderung, dass nur von-
einander verschiedene Wörter betrachtet werden sollten, also nicht erforderlich.
In den Abbn.VIII.7a bis d sind die Häufigkeiten H(m) der Sätze mit einer bestimmten Zahl m
von Wörtern als Funktion eben dieser Zahl ihrer Wörter dargestellt.
H(m) = lim𝑁→∞{𝑍(𝑚)/ ∑ 𝑍(𝑚)}𝑚=𝑁𝑚=1 (VIII,4)
Die Summe aller Häufigkeiten strebt nur im Idealfall N →∞ gegen 1. Aber durch die Länge L
der Texte gemessen in Wörtern kann stets sichergestellt werden, dass sich die Häufigkeiten
nicht mehr wesentlich ändern, wenn die Länge der Texte etwa verdoppelt wird.
0 20 40 60 80
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08 H(m)
m
c.Johnson, Ltot
= 1150
0 20 40 60 80
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
a. Goethe 1150 Sätze
H(m)
m
7
© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015
0 20 40 60 80
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
b. Grass, Ltot
= 1150
H(m)
m
0 20 40 60 80
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
d. Musil, Ltot
= 1150
H(m)
m
Abbn VIII..7 a bis d. Häufigkeit der Sätze als Funktion der Anzahl der Wörter.
Man erkennt deutliche Unterschiede zwischen den Satzlängen in den Texten der verschiede-
nen Autoren, insbesondere die Verschiebung von einer relativ breiten Verteilung der Satzlän-
gen bei Goethe über eine wesentlich schmalere bei Grass bis zu einer Verteilung mit noch
kürzeren Sätzen bei Johnson. Das Musilsche Werk liegt definitiv näher bei Goethe als bei den
modernen Schriftsteller Grass und Johnson.
Satzlängen können prinzipiell gemessen werden mit der Anzahl L der Wörter in einem Satz
wie auch mit der Gesamtzahl der Buchstaben k in den Wörtern eines Satzes. Um die notwen-
dige Verknüpfung dieser Maße herzustellen und damit zu verstehen wie aus Wörtern ein
Satzgefüge entsteht, betrachten wir den funktionalen Zusammenhang
𝐹(𝑤) = ∑𝑘/𝐿 (VIII.5)
Darin bezeichnet L die Länge eines Satzes, k die Anzahl der Buchstaben in einem Wort, Σk
die Summe aller Buchstaben k in einem Satz und w die mittlere Wortlänge.
Es ist zwingend, nicht die Summe der Buchstaben ∑𝑘 mit L zu vergleichen, sondern wegen
der unterschiedlichen Länge der Wörter die mittlere Wortlänge w = Σk/L für den Vergleich
heranzuziehen, das heißt, dass die Anzahl der Buchstaben in jedem Wort für sich auf die Län-
ge L des ganzen Satzes zu beziehen ist. So erhält man die grafische Darstellung für die Lö-
sungen der Funktionalgleichung (VIII.5) in den Abbn. VIII, 8 a bis d
0
20
40
60
80
100
0 2 4 6 8 10 12 14 16
a. Goethe, Ltot
= 1150
L = F(w)
w = k/L
0
20
40
60
80
100
0 2 4 6 8 10 12 14 16
c. Johnson, Ltot
= 1150
L = F(w)
w = k/L
8
© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015
0
20
40
60
80
100
0 2 4 6 8 10 12 14 16
b. Grass, N = Ltot
= 1150
L = F(w)
w = k/L0
20
40
60
80
100
0 2 4 6 8 10 12 14 16
d. Musil, Ltot
= 1150
L = F(w)
w = k/L
Abbn. VIII.8 a bis d, Die Mannigfaltigkeit der Lösungen von L = F(w) Glg. VIII.5 für Texte ver-
schiedener Schriftsteller
Wie aus den Häufigkeitsverteilungen der Abbn.VIII.7 geht auch aus den Abbn.VIII.8 hervor,
dass die Lösungen von (VIII.5) insbesondere im Goethetext kompakt um einen Mittelwert
liegen, gegen den die Verteilung bei Johnson nach links zu kleineren mittleren Buchstaben-
zahlen und bei Musil nach rechts zu größeren Wortlängen verschoben erscheint. Um die über-
einstimmenden Züge und insbesondere die geometrischen Symmetrien der Verteilungen, die
bei sämtlichen Texten am unteren Rand zu beobachten sind, deutlicher hervorzuheben, ist in
Abb.VIII.9 die Verteilung für die Summe aller Texte dargestellt und zum Vergleich die Ver-
teilung für den Goethetext rot markiert eingetragen.
0
20
40
60
80
100
0 2 4 6 8 10 12 14
L = F(w)
w = k/L
wmittel
~ 5.6
N = 512712
Abb.VIII.9 Verteilung der Lösungen von Glg.VIII.5 für die Summe der Texte a bis d, verglichen mit
der Verteilung für den Goethetext.
Man erkennt den regelförmigen Verlauf der Verteilung am unteren Rand, aber erkennt im
Vergleich mit Abbn.VIII.8 auch, dass erst bei einer Textlänge von mehr als eine halbe Million
Buchstaben die Figuren voll ausgeprägt werden. Diese Figuren können bei entsprechender
9
© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015
Vergrößerung bis zu Satzlängen von L ~ 25 verfolgt werden, bis dann anschließend alle Lö-
sungen nur noch eine chaotische (oder lebendige) Vielfalt aufweisen.
In Abb. VIII.10 ist ein Ausschnitt aus Abb.VIII.9 von w = 3.5 bis w = 7.5 und von L = - 1.2
bis L = 40 vergrößert dargestellt
0
10
20
30
4 5 6 7
L = F(w)
w = k/L
y
x
Abb.VIII.10 Ausschnitt aus Abb.VIII.9 mit gedehnten Koordinaten als Erläuterung zum Bildungsge-
setz mit der mittleren Wortlänge w und Δw = 1/L
Die Horizontale mit (L = 1, w = 2) bezeichnet z.B. Sätze mit nur zwei Buchstaben zwischen
den Satzzeichen, also z. B. den Ausruf Oh oder die Abkürzung eines Namens Fr für Fried-
rich, usw. Ein roter Punkt in schwarzem Kreis bei (L = 1, w = 6) heißt, es gibt bei Goethe wie
bei mindestens noch einem Schriftstelle einen Satz zwischen Punkt und Punkt mit im Mittel
sechs Buchstaben. Vielleicht ein Ausruf oder ein Merkwort. L = 2 entspricht im Sprachen-
raum S = 2 und erzeugt alle Wörter auf den Plätzen mit dem Abstand Δw = ½ voneinander
und so auch auf allen anderen Horizontalen mit Δw = 1/L, allerdings mit immer geringerer
und schließlich nur noch vereinzelter Besetzung der möglichen Zustände im Abstand n∙Δw
vom Ursprung der Verteilung.
Das Bildungsgesetz für F(w) ist besonders einfach aus der Girlande am unteren Rand der Ver-
teilung abzulesen und lautet (für die Hyperbeln zwischen den Senkrechten bei den ganzen
Zahlen k = L):
𝑥 = 𝑘 ± 𝑛 ∙ ∆𝑤; ∆𝑤~1
𝐿; 𝑘 ℎ𝑖𝑒𝑟 = 4 𝑏𝑖𝑠 7
𝑦 = 𝑛; 𝑛~𝐿 ; 𝑛 = 0 𝑏𝑖𝑠 40 (VIII.6)
Wenn man unter der Besetzungsdichte Φ die Zahl der tatsächlich besetzten Zustände auf je
einer dieser Horizontalen versteht, dann gilt, dass nach einem kurzen Anstieg der Besetzungs-
dichte Φ am Anfang bis etwa L ~ 5 und einem ebenso langen Abstieg bis L ~ 10 (hier nicht
10
© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015
eingezeichnet) der weitere Verlauf der Besetzungsdichte, wie in Abb. VIII.11 dargestellt, ex-
ponentiell abnimmt, geradezu so, als sei eine dichtere Besetzung nicht mehr lesbar oder
sprechbar. Es sei darauf hingewiesen, dass ähnliche Symmetrien wie hier im Satzgefüge be-
reits bei der Quantisierung von Nanokristallen (wie überhaupt im Quantenbereich) beobachtet
wurden und dort auf quadratische Strukturen der reinen Zahlenwelt zurückgeführt werden
konnten.
Abb.VIII.11 Abnahme der empirisch bestimmten Besetzungsdichte Φ(L) ~ y als Funktion der Satzlän-
ge L ~ y im Vergleich mit der Approximation y(x) durch eine Exponentialfunktion.
So stellt sich das Satzgefüge der deutschen Sprache schließlich als ein Baum der (noch ziem-
lich unerforschten) Erkenntnisse dar. Denn es dürfte klar sein, dass mit diesen Untersuchun-
gen des puren Materials einer Sprache die eigentliche Arbeit an der Herstellung und Unter-
scheidung von Mitteilung und Ausdruck überhaupt erst beginnt, aber gewiss nicht weiterhin
durch bloßes Erbsenzählen geleistet werden kann. Erst wenn es gelingt, mit anderen, wohlde-
finierten Koordinaten weitere Dimensionen der Sprachenräume über den Basisflächen aufzu-
spannen, können auch weiterführende Fragen sinnvoll gestellt werden, wie es bisher in guten
Analysen ja auch bereits geschehen ist!
Anschließend: Hochsprache: Der Krug geht zum Brunnen, bis er bricht:→Dada: eu-eu-u, i-ei.
0 20 40 60 80 100 120 140 160 180 200
-0,005
0,000
0,005
0,010
0,015
0,020
0,025
0,030
0,035
0,040 (L)
L - 10
Equation: y = A1*exp(-x/t1) + y0 Chi^2/DoF = 1.5117E-6 R^2 = 0.98144 y0 = 0.00005 ±0.00023 A1 = 0.0899 ±0.0038
t1 = 14.03035 ±0.47884