lineare algebra - math.uni- · pdf fileinhaltsverzeichnis teil 1. lineare algebra i kapitel 1....

247
Skript Lineare Algebra Prof. Dr. C.P. Schnorr http://www.mi.informatik.uni-frankfurt.de Johann-Wolfgang-Goethe Universit¨ at Fachbereiche Mathematik und Informatik Frankfurt am Main 21. Juli 2000

Upload: dokien

Post on 06-Feb-2018

225 views

Category:

Documents


0 download

TRANSCRIPT

Skript

Lineare Algebra

Prof. Dr. C.P. Schnorr

http://www.mi.informatik.uni-frankfurt.de

Johann-Wolfgang-Goethe Universitat

Fachbereiche Mathematik und Informatik

Frankfurt am Main

21. Juli 2000

Das vorliegende Skript ist eine Ausarbeitung der Vorlesungen ”Lineare Algebra I“ und

”Lineare Algebra II“ aus dem Wintersemester 1998/99 und Sommersemester 1999 ander Johann-Wolfgang-Goethe Universitat, Frankfurt am Main.In der vorliegenen Version sind Fehler der Auflage vom 4.Jan.2000 behoben (dank derdetailierten Fehlerliste von Thomas Rupp). Fur Hinweise auf weitere Fehler sind wirweiterhin dankbar.

Von Roger Fischlin, Marc Fischlin und Matthias Rupp 1999 uberarbeitet und inLATEX 2ε gesetzt.

Inhaltsverzeichnis

Teil 1. Lineare Algebra I

Kapitel 1. Lineare Gleichungssysteme 3

§1. Gauß-Algorithmus 3

§2. Gauß-Algorithmus und Matrizen 9

Kapitel 2. Korper, Ringe und Gruppen 13

§1. Korper 13

§2. Ringe und Schiefkorper 19

§3. Gruppen 21

§4. Homomorphismen 23

§5. Vom Ring Z abgeleitete Korper 26

Kapitel 3. Vektorraume 29

§1. Vektorraum und Untervektorraum 29

§2. Lineare Unabhangigkeit, Basen und Dimension 32

Kapitel 4. Polynome 41

§1. Vektorraum und Ring der Polynome 41

§2. Division mit Rest 48

§3. Nullstellen 51

§4. Interpolation 55

Kapitel 5. Der Rang von Matrizen 59

§1. Zeilenrang und Spaltenrang 59

§2. Rang und lineare Gleichungssysteme 61

Kapitel 6. Lineare Abbildungen 63

§1. Eigenschaften 63

iii

iv Inhaltsverzeichnis

§2. Darstellende Matrix 65

Kapitel 7. Lineare Codes 71§1. Grundbegriffe 71§2. Gitter und Kugelpackungen 76§3. Generator- und PCH-Matrix 77§4. Hamming-Codes 80

Kapitel 8. Direkte Summe 83§1. Orthogonales Komplement 83§2. Direkte Summe 85

Kapitel 9. Volumina und Determinanten 89§1. Volumina 89§2. Determinanten 92§3. Permutationen und Leibniz’sche Determinantenformel 95§4. Eigenschaften 99

Kapitel 10. Normalformen und Eigenwerte 105§1. Eigenwerte und Eigenvektoren 105§2. Charakteristisches Polynom 110§3. Normalformen 114

Kapitel 11. Euklidische Vektorraume 117§1. Vektornorm 117§2. Matrixnorm 119§3. Skalarprodukt 122§4. Orthogonale Abbildungen und Matrizen 127

Teil 2. Lineare Algebra II

Kapitel 12. Konvexe Geometrie 133§1. Konvexe Mengen 133§2. Funktionen uber konvexen Mengen 142§3. Kegel und Farkas’ Lemma 145§4. Eulers Polyederformel 150

Kapitel 13. Lineare Programmierung 153§1. Einleitung 153§2. Ecken und Basislosungen 154§3. Simplex-Algorithmus 159§4. Simplex-Tableau 164§5. Dualitat 169

Inhaltsverzeichnis v

Kapitel 14. Reelle und komplexe Vektorraume 173§1. Dualitat linearer Raume 173§2. Bilineare, Sesquilineare und quadratische Formen 176§3. Hauptachsentransformation symmetrischer Matrizen 181§4. Unitare Endomorphismen und Matrizen 184§5. Normalform selbstadjungierter Endomorphismen 186

Kapitel 15. Endliche Korper 191§1. Charakteristik 191§2. Primkorper 193§3. Konstruktion endlicher Korper 194§4. Struktur der multiplikativen Gruppe endlicher Korper 198

Kapitel 16. Gittertheorie 201§1. Gitter 201§2. Gitterreduktion 205

Anhang A. Grundbegriffe 211§1. Notationen 211§2. Logik 211§3. Beweistechniken 214§4. Mengen, Relationen und Funktionen 216

Anhang B. Ubungsaufgaben 219§1. Ubungsblatt 1 219§2. Ubungsblatt 2 219§3. Ubungsblatt 3 220§4. Ubungsblatt 4 221§5. Ubungsblatt 5 222§6. Ubungsblatt 6 222§7. Ubungsblatt 7 223§8. Ubungsblatt 8 223§9. Ubungsblatt 9 224§10. Ubungsblatt 10 225§11. Ubungsblatt 11 225§12. Ubungsblatt 12 226§13. Ubungsblatt 13 227§14. Ubungsblatt 14 227§15. Ubungsblatt 15 227§16. Ubungsblatt 16 228§17. Ubungsblatt 17 228

vi Inhaltsverzeichnis

§18. Ubungsblatt 18 229§19. Ubungsblatt 19 229§20. Ubungsblatt 20 230§21. Ubungsblatt 21 230§22. Ubungsblatt 22 231

Literaturverzeichnis 233

Index 235

Teil 1

Lineare Algebra I

Kapitel 1

LineareGleichungssysteme

Zum Losen linearer Gleichungssysteme lernen wir mit dem Gauß-Verfahren einenwichtigen Algorithmus der linearen Algebra kennen.

1. Gauß-Algorithmus

Wir betrachten lineare Gleichungen der Form

a1x1 + a2x2 + . . .+ anxn = b

uber den reellen Zahlen, d.h. mit a1, . . . , an, b ∈ R. Dabei heißen a1, . . . , an Koef-fizienten und x1, . . . , xn Unbestimmte oder Variable. Wir suchen reelle Zahlen, diedie Gleichung erfullen, setzt man sie fur x1, . . . , xn ein. Beim Ubergang zu mehrerenGleichungen ergibt sich ein lineares Gleichungssystem (LGS) aus m Gleichungen inn Unbestimmten:

a11x1 + a12x2 + · · · + a1nxn = b1a21x1 + a22x2 + · · · + a2nxn = b2

......

......

am1x1 + am2x2 + · · · + amnxn = bm.

(1)

Um diese Darstellung eines linearen Gleichungssystems zu vereinfachen, kann mandie i-te Gleichungen mittels Summenzeichen als

∑nj=1 aijxj = bi schreiben. Statt

jede der m Gleichungen einzeln anzugeben, verwendet man zur Notation von linearenGleichungssystemen in der linearen Algebra ublicherweise Matrizen und Vektoren:

Definition 1.1 (Matrix). Ein rechteckiges Schema A aus m Zeilen und n Spaltenmit Eintragen aij ∈ R heißt m× n-Matrix uber R:

A = (aij) 1≤i≤m1≤j≤n

=

a11 · · · a1n...

...am1 · · · amn

.

3

4 1. Lineare Gleichungssysteme

Im Fall m = n heißt A quadratische Matrix. Die Menge aller m×n Matrizen uber Rbezeichnen wir mit Mm,n(R) oder kurz Rm×n.

Einspaltige Matrizen b ∈ Mm,1(R) heißen Spaltenvektoren, einzeilige Matrizenb ∈ M1,m(R) Zeilenvektoren. Wenn aus dem Kontext hervorgeht, ob es ein Spalten-oder Zeilenvektor ist, nennen wir b kurz Vektor. Die Menge Mn,1(R) = R

n×1 derreellwertigen Vektoren der Lange n bezeichnet man kurz als Rn, den Raum der n-Tupel reeller Zahlen. R3 ist zum Beispiel der uns umgebende Raum. In der Geometriesprechen wir auch von kartesischen Koordinaten.1

Definition 1.2 (Matrix-Vektor-Produkt). Sei A ∈Mm,n(R) eine m×n-Matrix undx ∈ Rn ein Spaltenvektor. Das Matrix-Vektor-Produkt ist

Ax =

n∑j=1

a1jxj

· · ·n∑j=1

amjxj

∈ Rm,der i-te Koeffizient von Ax ist das ”Produkt“

∑nj=1 aijxj der i-ten Zeile von A mit

x.

Das lineare Gleichungssystem (1) schreiben wir in Matrixform alsa11 · · · a1n...

...am1 · · · amn

x1

...xn

=

b1...bm

(2)

oder kurz Ax = b fur gegebene A, b und dem gesuchten x. Dabei ist x ein Unbestimm-tenvektor, dessen Koordinaten x1, . . . , xn noch zu ermitteln sind. Mit

Los(A, b) := x ∈ Rn |Ax = b

bezeichnen wir die Losungsmenge des linearen Gleichungssystems Ax = b. Man fasstdie Koeffizientenmatrix A und den Vektor b zur erweiterten Matrix (A, b)

(A, b) :=

a11 · · · a1n b1...

......

am1 · · · amn bm

∈Mm,n+1(R)

zusammen.Unser Ziel ist ein schnelles, mechanisches Verfahren zum Losen von linearen Glei-

chungssystemen. Die Standardmethode ist ein auf C.F. Gauß2 zuruckgehender Algo-

rithmus, der auch die Basis zahlreicher Beweise der Vorlesung bildet. Wir uberfuhren

1Zu Ehren von Rene Descartes, 1596–1650, einem Wegbereiter der Mathematik der Neuzeit.Er gilt als Begrunder der systematischen analytischen Geometrie. Seine Schrift

”Geometrie“ gehorte

zu den Grundlagen, auf denen Newton und Leibniz spater aufbauten.2

Carl Friedrich Gauß, 1777–1855, war der bedeutendste Mathematiker seiner Zeit. Er lie-ferte in den meisten Teilgebieten der Mathematik und der Physik wichtige Beitrage, beispielsweisein der Zahlentheorie und der Astronomie. Unter anderem gab er den ersten strengen Beweis fur denFundamentalsatz der Algebra. Die Gauß’sche Zahlenebene tragt seinen Namen.

1. Gauß-Algorithmus 5

die erweiterte Matrix (A, b) schrittweise in ein leicht losbares lineares Gleichungssy-stem, ohne die Losungsmenge Los(A, b) zu andern:

Definition 1.3 (Treppenform). Eine Matrix A ∈ Mm,n(R) ist in Treppenform mitr ≥ 0 Stufen, wenn

a) a11 6= 0, . . . , arr 6= 0

b) aij = 0 fur i > j und aij = 0 fur i > r.

Ein lineares Gleichungssystem Ax = b bzw. die erweitere Matrix (A, b) ist in Trep-penform, wenn die zugehorige Koeffizientenmatrix A Treppenform hat.

Eine Matrix in Treppenform mit r Stufen hat folgende Gestalt:

a11 a12 · · · · · · · · · · · · a1n

0. . . . . .

......

. . . . . . . . ....

0 · · · 0 arr ar,r+1 · · · arn0 · · · · · · 0 0 · · · 0...

...0 · · · · · · · · · · · · · · · 0

Dabei konnen alle Eintrage bis auf a11, . . . , arr Null sein. Bei einem lineares Glei-chungssystem in Treppenform

3x1 + 3x2 − x3 = 0

x2 + x3 = 4

2x3 = 6

kann man die Losung unmittelbar ablesen: x3 := 62 = 3, x2 := 4 − x3 = 1 und

x1 := 0− 3x2 + x3 = 0.

Lemma 1.4 (Losung eines LGS in Treppenform). Sei A ∈ Mm,n(R) Matrix inTreppenform mit r ≥ 0 Stufen und b ∈ Rm. Dann gilt

Los(A, b) 6= ∅ ⇐⇒ br+1 = . . . = bm = 0.

Beweis. Da die Koeffizientenmatrix A in Treppenform mit r ≥ 0 Stufen ist, hat daslineare Gleichungssystem folgende Form:

a11x1 + a12x2 + · · ·+ a1rxr + · · ·+ a1nxn = b1

a22x2 + · · ·+ a2rxr + · · ·+ a2nxn = b2

...

arrxr + · · ·+ arnxn = br

0 = br+1

...

0 = bm

6 1. Lineare Gleichungssysteme

Man sieht unmittelbar: Gibt es ein i ∈ r+1, . . . ,m mit bi 6= 0, dann hat das lineareGleichungssystem keine Losung, denn die i-te Gleichung ist nicht erfullbar, so dassLos(A, b) = ∅.

Sei br+1 = . . . = bm = 0. Wir zeigen, dass dann Los(A, b) 6= ∅ ist. Wahle beliebigexr+1, . . . , xn ∈ R und berechne xr, xr−1, . . . , x1 ∈ R induktiv gemaß:

xr := (br − ar,r+1xr+1 − . . .− arnxn)/arrxr−1 := (br−1 − ar−1,rxr − . . .− ar−1,nxn)/ar−1,r−1

...

x1 := (b1 − a1,2x2 − . . .− a1,nxn)/a11.

Die Division ist moglich, weil die Koeffizientenmatrix A in Treppenform mit r ≥ 0Stufen ist, so dass aii 6= 0 fur i = 1, . . . , r. Man uberzeuge sich, dass x1, . . . , xn eineLosung des linearen Gleichungssystems ist.

Diese Vorgehensweise, um zu einem linearen Gleichungssystem in Treppenform dieLosung zu ermitteln, entspricht dem aus der Schule bekannten Verfahren. Da durcheine Wahl der xr+1, . . . , xn die restlichen xr, . . . , x1 eindeutig bestimmt sind, nennenwir xr+1, . . . , xn freie (unabhangige) Variable und xr, . . . , x1 gebundene Variable deslinearen Gleichungssystems.

Sei A ∈ Mm,n(R) und b ∈ Rm. Um das lineare Gleichungssystem Ax = b aufTreppenform zu uberfuhren, gehe iterativ vor. Durch Induktion uber r zeigen wir:(A, b) laßt derart transformieren, dass die ersten r Spalten von A in Treppenformsind:

• Die Induktionsverankerung fur r = 0 ist trivial, denn die 0-te Spalte von Aist stets in Treppenform.

• Nach Induktionsvoraussetzung sind die ersten r − 1 Spalten von A in Trep-penform:

A =

a11 a12 · · · · · · · · · · · · a1n

0. . . . . .

......

. . . . . . . . ....

0 · · · 0 ar−1,r−1 ar−1,r · · · ar−1,n

0 · · · 0 0 ar,r · · · ar,n...

......

...0 · · · 0 0 am,r · · · am,n

Wir schließen von r − 1 auf r. Falls aij = 0 fur alle i, j ≥ r, also ar,r · · · ar,n

......

am,r · · · am,n

= 0,

ist A bereits in Treppenform mit r Spalten. Im anderen Fall gibt es einenEintrag aij 6= 0 mit i, j ≥ r, und wir verfahren wie folgt:

1. Gauß-Algorithmus 7

(1) Vertausche Zeile und Spalte mit Indices großer oder gleich r, derart,dass dann arr 6= 0 ist (Der Wert arr heißt Pivotelement, man wahlteinfache Pivotelemente, zum Beispiel 1).

(2) Subtrahiere fur i = r+ 1, . . . ,m das airarr

-fache der r-ten Zeile von (A, b)von der i-ten Zeile. Dann gilt fur die Elemente der r-ten Spalte mitIndex i ≥ r:

aneuir = air −

airarr· arr = 0.

Die ersten r Spalten von A sind in Treppenform.

Das Gauß-Verfahren beruht auf diesen drei Operationen:

a) Zeilenoperation: Addiere das λ-fache der i-ten Zeile von (A, b) zur j-ten Zeile(λ ∈ R).

b) Zeilenoperation: Vertausche die i-te und die j-te Zeile.c) Spaltenoperation: Vertausche die i-te und die j-te Spalte.

Die Losung des linearen Gleichungssystems Ax = b bleibt bei linearen Operatio-nen, d.h. bei Addition einer Gleichung zu einer anderen und bei Multiplikation einerGleichung mit einem Skalar ungleich Null, erhalten. Die Zeilenoperationen lassen dieLosungsmenge Los(A, b) invariant, man spricht daher auch von Aquivalenztransfor-mationen. Beim Vertauchen der Spalten i und j werden ebenfalls im Losungsvektordie Koordinaten an den Stellen i und j vertauscht.

Satz 1.5 (Gauß-Algorithmus). Sei A ∈ Mm,n(R) und b ∈ Rm. Dann transformiertder Gauß’sche Algorithmus (A, b) mit hochstens mn Zeilen- bzw. Spaltenoperationenin Treppenform. Man erhalt Los(A, b) in O(n2m) arithmetischen Schritten.3

Bemerkung 1.6. Mit dem Gauß-Verfahren kann man nicht nur lineare Gleichungs-systeme uber den reellen Zahlen R, sondern jedem beliebigen Korper K losen, dennKorper sind Zahlenbereiche, in denen man wie mir reellen Zahlen rechnet (wir gehenauf Korper in Kapitel 2 ein). Matrizen und Vektoren werden fur beliebige Korperentsprechend erklart.

Wir demonstrieren den Gauß-Algorithmus anhand eines Beispieles:

Beispiel 1.7. Betrachte folgendes, lineares Gleichungssystem Ax = b gegeben durch:

x1+ 4x2 =10

4x1+16x2+ 7x3 =33

2x1+ 8x2−21x3 =41

Wir wenden den Gauß-Algorithmus auf die erweiterte Matrix 1 4 0 104 16 7 332 8 −21 41

3Eine Funktion f : N → N hat das Wachstum O(g(n)), wenn es eine Konstante c gibt, so dass

f(n) ≤ c · g(n) fur alle n ∈ N. In unserem Zusammenhang bedeutet dies, dass der Algorithmushochstens cn2m arithmetische Schritte fur eine geeignete Konstante c ausfuhrt.

8 1. Lineare Gleichungssysteme

an, als Pivotelement wahle den ersten Eintrag in der ersten Zeile. Subtrahiere dasVierfache der ersten Zeile von der zweiten: 1 4 0 10

0 0 7 −72 8 −21 41

Subtrahiere das Doppelte der ersten Zeile von der dritten:1 4 0 10

0 0 7 −70 0 −21 21

Vertausche die zweite mit der dritten Spalte:1 0 4 10

0 7 0 −70 −21 0 21

Addiere das Dreifache der zweiten Zeile zur dritten:1 0 4 10

0 7 0 −70 0 0 0

Wir losen das transformierte, linearen Gleichungssystem (beachte die Spaltenvertau-schung wahrend des Gauß-Verfahrens)

x1 + 4x2 = 10

7x3 =−7

0 · x2 = 0

mittels Lemma 1.4. Der Wert von x2 ist frei wahlbar und

• x3 = −1, denn 7x3 = −7, sowie

• x1 + 4x2 = 10, denn x1 = 10− 4x2.

Die Losungsmenge ist: Los(A, b) =

10− 4λ

λ−1

∣∣∣∣∣∣ λ ∈ R.

Man nennt ein lineares Gleichungssystem Ax = b homogen, falls b = 0, und inho-mogen, falls b 6= 0. Die Losungsmenge eines homogenen linearen GleichungssystemsAx = 0 hat eine lineare Struktur: Neben 0 ∈ Los(A, 0) gilt fur x, y ∈ Los(A, 0) undλ ∈ R, dass x ± y, λx ∈ Los(A, 0). Betrachten wir die Struktur von Los(A, b). Furjedes x0 ∈ Los(A, b) gilt

Los(A, b) = x0 + Los(A, 0) = x0 + x | x ∈ Los(A, 0) ,

denn wegen A(x0 +x) = Ax0 +Ax fur x ∈ Los(A, 0) und Ax0 = b haben wir folgendeAquivalenz:

A(x0 + x) = b ⇐⇒ Ax = 0.

2. Gauß-Algorithmus und Matrizen 9

Kennt man Los(A, 0), den sogenannten Kern von A, und eine spezielle Losung x0 ∈Los(A, b), so kennt man bereits alle Losungen des imhomogenen linearen Gleichungs-systems Ax = b.

2. Gauß-Algorithmus und Matrizen

Wir wollen den Gauß-Algorithmus mit Hilfe von Matrizen-Operationen formulieren.Die Summe A + B zweier Matrizen A,B ∈ Mm,n(R) ist die Matrix bestehend ausder komponentenweisen Addition aij + bij der Eintrage von A und B, die skalareMultiplikation λA mit λ ∈ R ist ebenfalls komponentenweise erkart:

A+B := (aij + bij) 1≤i≤m1≤j≤n

λA = (λaij) 1≤i≤m1≤j≤n

Die Multiplikation einer Matrix mit einem Vektor ist (Definition 1.2 auf Seite 4) einSpezialfall der Matrizenmultiplikation:

Definition 1.8 (Multiplikation von Matrizen). Das Produkt AB zweier MatrizenA ∈Mk,m(R) und B ∈Mm,n(R) wird erklart durch

AB =

(m∑ν=1

aiνbνj

)1≤i≤k1≤j≤n

=

m∑ν=1

a1νbν1 · · ·m∑ν=1

a1νbνn

......

m∑ν=1

akνbν1 · · ·m∑ν=1

akνbνn

∈Mk,n(R).

Den Eintrag cij des Produkts C := AB erhalt man durch Multiplikation der i-tenZeile von A mit der j-ten Spalte von B

cij =m∑ν=1

aiνbνj = ai1b1j + ai2b2j + . . .+ aimbmj

a11 · · · a1m

......

i→ ai1 · · · aim

......

ak1 · · · akm

j↓

b11 · · · b1j · · · b1n...

......

bm1 · · · bmj · · · bmn

=

j↓

c11 · · · c1j · · · c1n

......

...

i→ ci1 · · · cij · · · cin

......

...

ck1 · · · ckj · · · ckn

Im Gegensatz zur Multiplikation reeller Zahlen ist die Multiplikation von Matrizen

ist nicht kommutativ, d.h. es gibt Matrizen A,B mit A ·B 6= B ·A, und das Produktzweier von Null verschiedener Matrizen kann durchaus Null ergeben:(

1 00 0

)·(

0 10 0

)=(

0 10 0

)(

0 10 0

)·(

1 00 0

)=(

0 00 0

).

10 1. Lineare Gleichungssysteme

Die n× n-Einheitsmatrix

In :=

1 0 · · · 0

0. . . . . .

......

. . . . . . 00 · · · 0 1

∈Mn,n(R)

entspricht dem Einselement der uns bekannten Zahlenbereiche, d.h. fur alle A ∈Mm,n(R) gilt ImA = A und AIn = A. Geht n aus dem Kontext hervor, sprechen wirkurz von der Einheitsmatrix. Die Bezeichnung In kommt vom englischen Identity. ImDeutschen wird die Einheitsmatrix auch mit En bezeichnet. Mit dem sogenanntenKronecker-Symbol

δij :=

1 falls i = j

0 falls i 6= j

kann man die die Einheitsmatrix beschreiben durch In := (δij)1≤i,j≤n.

Definition 1.9 (Elementarmatrizen). Zu i, j mit i 6= j und λ ∈ R \ 0 bezeichnenwir die quadratischen Matrizen

a) Vi,j :=

i↓

j↓

1. . .

1i→ 0 0 · · · 0 1

0 1 0...

. . ....

0 1 0j→ 1 0 · · · 0 0

1. . .

1

∈Mn,n(R).

b) Ti(λ) :=

i↓

1. . .

1i→ λ

1. . .

1

∈Mn,n(R).

2. Gauß-Algorithmus und Matrizen 11

c) Ti,j(λ) :=

j↓

1. . .

. . .

i→ λ. . .

1

∈Mn,n(R).

als Elementarmatrizen.

Fur A ∈Mm,n(R) gilt:

a) Die Multiplikation mit Vi,j von links entspricht der Vertauschung der i-tenZeile mit der j-ten Zeile von A.

b) Die Multiplikation mit Ti(λ) von links entspricht der Multiplikation der i-tenZeile von A mit dem Skalar λ.

c) Die Multiplikation mit Ti,j(λ) von links entspricht der Addition des λ-fachender j-ten Zeile zur i-ten Zeile von A.

Die Multiplikation einer Matrix mit einer Elementarmatrix von links bewirkt eineTransformation der Zeilen der Matrix, eine Multiplikation von rechts dagegen eineTransformation der Spalten der Matrix. Insbesondere vertauscht man durch Multi-plikation von rechts mit der Matrix Vi,j die Spalten i und j.

Definition 1.10 (Dreiecksmatrix). Eine quadratische Matrix T ∈Mn,n(R) heißt

• untere Dreiecksmatrix, falls tij = 0 fur i < j und• obere Dreiecksmatrix, falls tij = 0 fur i > j.

Die Menge der unteren Dreiecksmatrizen bezeichnen wir mit UDn(R) ⊆ Mn,n(R),die Menge der oberen Dreiecksmatrizen mit ODn(R) ⊆Mn,n(R).

Bei unteren Dreiecksmatrizen sind alle Eintrage oberhalb der HauptdiagonalenNull, also

t11 0 · · · 0...

. . . . . ....

.... . . 0

tn1 · · · · · · tnn

, bei oberen Dreiecksmatrizen alle unterhalb der Hauptdiagonalen.

Satz 1.11 (Produkt von Dreiecksmatrizen). Das Produkt zweier unterer Dreiecks-matrizen ist eine untere Dreiecksmatrix.

Beweis. Seien A,B ∈ UDn(R) und C := AB ∈ Mn,n(R). Es ist cij = 0 fur i < jnachzuweisen. Da A und B untere Dreiecksmatrizen sind gilt, fur i < j:

cij =n∑k=1

aikbkj =i∑

k=1

aik bkj︸︷︷︸=0

+j∑

k=i+1

aik︸︷︷︸=0

bkj +n∑

k=j+1

aik︸︷︷︸=0

bkj = 0

unn damit C ∈ UDn(R).

12 1. Lineare Gleichungssysteme

Man uberlege sich, dass eine analoge Aussage fur obere Dreiecksmatrizen gilt.Weil die Zeilentransformationen Ti,j(λ) im Gauß-Verfahren untere Dreiecksmatri-

zen sind, folgt aus Satz 1.11:

Korollar 1.12. Sei (A, b) eine erweiterte Matrix derart, dass das Gauß-Verfahrenkeine Zeilen- und keine Spaltenvertauschungen vornimmt. Dann liefert es eine untereDreiecksmatrix T , so dass TA Treppenform hat.

Bemerkung 1.13. Die Dreiecksmatrizen Ti,j(λ) im Gauß-Verfahren (ohne Zeilen-und Spaltenvertauschungen) erfullen t11 = . . . = tmm = 1. Diese Eigenschaft bleibtbei der Multiplikation von Matrizen aus UDm(R) erhalten.

IstA eine quadratische Matrix dergestalt, dass der Gauß-Algorithmus keine Zeilen-und Spaltenvertauschungen vornimmt, gilt TA ∈ ODn(R) mit der Transformations-matrix des Gauß-Verfahrens T ∈ UDn(R).

Definition 1.14 (Permutationsmatrix). Eine quadratische Matrix P = (pij) ∈Mn,n(R)heißt Permutationsmatrix, wenn

a) pij ∈ 0, 1

b)n∑j=1

pij = 1 undn∑j=1

pji = 1 fur i = 1, . . . , n.

Eine Permutationsmatrix hat in jeder Zeile und in jeder Spalte genau eine Einsund sonst nur Nullen als Eintrage. Auch fur Permutationsmatrizen gilt, dass sie, vonlinks multipliziert, die Zeilen vertauscht (permutiert), von rechts multipliziert dagegendie Spalten. Ist dabei pij = 1, dann ist die j-te Zeile (Spalte) von A gleich der i-tenZeile (Spalte) von PA (von AP ).

Korollar 1.15. Fuhrt das Gauß-Verfahren auf der erweiterten Matrix (A, b) kei-ne Zeilenvertauschung durch, dann liefert es eine untere Dreiecksmatrix T und einePermutationsmatrix P , so dass TAP in Treppenform ist.

In Ubungsaufgabe 2.4 wird gezeigt:

Satz 1.16. Sei A ∈Mn,n(R). Dann gibt es Permutationsmatrizen P1, P2 ∈Mn,n(R)und Dreiecksmatrizen T ∈ UDn(R), B ∈ ODn(R) mit P1AP2 = TB.

Da P1, P2, T,B einfach zu invertieren4 sind, erhalt man eine Formel fur die inverseMatrix A−1. Die Diagonalelemente von T sind 1.

Korollar 1.17 (Matrix-Inversion). Mit Hilfe des Gauß-Algorithmus kann man zu ei-ner quadratischen Matrix A ∈Mn,n(R) in O(n3) arithmetischen Schritten die inverseMatrix A−1 mit mit A ·A−1 = In = A−1 ·A bestimmen.

Die Aussage von Korollar 1.17 gilt nicht nur fur die reellen Zahlen R, sondernebenfalls fur beliebige Korper K.

4Eine quadratische Matrix A ∈Mn,n(R) heißt invertierbar, wenn es eine Matrix A−1 ∈Mn,n(R)mit A ·A−1 = In = A−1 ·A gibt.

Kapitel 2

Korper, Ringe undGruppen

Wir beschaftigen uns in diesem Kapitel naher mit verschiedenen algebraischen Struk-turen und Abbildungen, welche die algebraische Struktur erhalten, sogenannten Ho-momorphismen.

1. Korper

Die reellen Zahlen sind ein Beispiel fur die algebraische Struktur eines sogeanntenKorpers:

Definition 2.1 (Korper). Ein Korper ist eine nichtleere Menge K mit zwei Ver-knupfungen

+ :K×K→ K, (a, b) 7→ a+ b (Addition)· :K×K→ K, (a, b) 7→ a · b (Multiplikation),

welche die folgenden Axiome erfullen:

• Gesetze der Addition:(1) Assoziativitat: (x+ y) + z = x+ (y + z) fur alle x, y, z ∈ K.(2) Kommutativitat: x+ y = y + x fur alle x, y ∈ K-(3) Existenz eines Nullelements 0 ∈ K: 0 + x = x = x+ 0 fur alle x ∈ K.(4) Existenz additiver inverser Elemente: Zu jedem x ∈ K gibt es ein −x ∈

K mit x+ (−x) = 0 = (−x) + x.

• Gesetze der Multiplikation:(5) Assoziativitat: (x · y) · z = x · (y · z) fur alle x, y, z ∈ K.(6) Kommutativitat: x · y = y · x fur alle x, y ∈ K.(7) Existenz eines Einselements 1 ∈ K \ 0: 1 ·x = x = x · 1 fur alle x 6= 0.(8) Existenz multiplikativer inverser Elemente: Zu jedem x ∈ K \ 0 gibt

es ein x−1 ∈ K mit x · x−1 = 1 = x−1 · x.

13

14 2. Korper, Ringe und Gruppen

• Distributivgesetze:1

(9) Linksdistributivitat: x · (y + z) = x · y + x · z fur alle x, y, z ∈ K.(10) Rechtsdistributivitat: (x+ y) · z = x · z + y · z fur alle x, y, z ∈ K.

Wir schreiben abkurzend xy statt x · y und x− y statt x+ (−y), und vereinbaren,dass die Multiplikation starker bindet als die Addition, also

xy + z = (xy) + z,

um auf zusatzliche Klammerungen zu verzichten. Jeder Korper hat mindestens zweiElemente, denn das Nullelement 0 und das Einselement 1 sind per Definition verschie-den. Da zu einer algebraischen Struktur neben einer Menge auch ihre Verknupfungengehoren, ist ein Korper genaugenommen ein 3-Tupel (K,+, ·). Wir werden uns abermeist abkurzend nur auf K beziehen.

Lemma 2.2. In einem Korper K gelten die folgenden Rechenregeln:

a) Nullelement 0 und Einselement 1 sind eindeutig bestimmt.

b) Das additive Inverse −x und das multiplikative Inverse x−1 eines Elementsx ∈ K bzw. x ∈ K \ 0 sind eindeutig bestimmt.

c) Es gilt −(−x) = x und ((x)−1)−1 = x fur x ∈ K bzw. x ∈ K \ 0.d) Fur x, y, z ∈ K folgt aus x+ z = y + z, dass x = y.

e) Fur x, y ∈ K und z ∈ K \ 0 folgt aus xz = yz, dass x = y.

f) Ein Produkt xy ist Null, sobald einer der Faktoren x, y ∈ K Null ist. Insbe-sondere gilt 0 · x = x · 0 = 0.

g) Es gilt Nullteilerfreiheit, d.h. das Produkt xy von x, y ∈ K \ 0 ist ungleichNull.

h) Fur x, y ∈ K \ 0 gilt (xy)−1 = y−1x−1.

i) Fur x, y ∈ K gilt x · (−y) = (−x) · y = −(xy). Insbesondere ist (−x) · (−y) =xy.

Beweis. Sei K ein Korper und x, y, z ∈ K.

a) Sei 0′ ∈ K ein Nullelement. Da 0 und 0′ beides Nullelemente sind, folgt ausAxiom 3: 0′ = 0 + 0′ = 0. Sei 1′ ∈ K ein Einselement. Weil 1 und 1′ beidesEinselemente sind, folgt aus Axiom 7: 1′ = 1 · 1′ = 1.

b) Sei (−x)′ ein additives Inverses zu x. Es folgt:

(−x)′(3)= (−x)′ + (x+ (−x))︸ ︷︷ ︸

(4)= 0

(1)= ((−x)′ + x)︸ ︷︷ ︸

(3)= 0

+(−x)(4)= −x.

Sei (x−1)′ ein multiplikatives Inverses zu x ∈ K \ 0. Dann gilt analog zumvorherigen Schritt:

(x−1)′(7)= (x−1)′ · 1 (8)

= (x−1)′ · (x · x−1)(5)= ((x−1)′ · x) · x−1 (8)

= 1 · x−1 (7)= x−1.

1Aufgrund der Kommutativitat der Multiplikation genugt bereits eines der Distributivgesetze.

1. Korper 15

c) Aus (−x) + x = 0 bzw. (x−1) · x = 1, folgt dass x das eindeutig bestimmteInverse zu −x bzw. x−1 ist.

d) Wegen Axiom (1) und x+ z = y + z gilt:

x = x+ (z − z)︸ ︷︷ ︸=0

= (x+ z)− z = (y + z)− z = y + (z − z)︸ ︷︷ ︸=0

= y.

e) Wegen Axiom (5) und xz = yz gilt:

x = x · 1 = x(zz−1) = (xz)z−1 = (yz)z−1 = y(zz−1) = y · 1 = y.

f) Wir zeigen x ·0 = 0. Der Rest der Aussage folgt dann aus Axiom (6). GemaßAxiomen (3) und (9) gilt:

x · 0 = x · (0 + 0) = x · 0 + x · 0,

also x · 0 = x · 0 + x · 0. Aus d) folgt 0 = x · 0.

g) Wir zeigen, dass aus xy 6= 0 folgt x = 0 oder y = 0. Angenommen, xy = 0und x 6= 0. Dann hat x ein multiplikatives Inverses x−1 und:

y = 1 · y = (x−1x)y = x−1(xy) = x · 0 = 0.

h) Wir zeigen, dass y−1x−1 Inverses zu xy ist:

(y−1x−1)(xy) = ((y−1x−1)x)y = (y−1 x−1x︸ ︷︷ ︸=1

)y = (y−1 · 1)y = y−1y = 1.

i) Aus xy+x(−y) = x(y−y) = x ·0 = 0 folgt −(xy) = x(−y). Analog erhaltenwir aus xy+ (−x)y = (x−x)y = 0 · y = 0, dass −(xy) = (−x)y. Weil xy dasadditive Inverse zu −(xy) ist, gilt

(−x)(−y) = −((−x)y) = −(−(xy)) = xy.

Dies war zu zeigen.

Wir kennen bereits einige Korper, beispielsweise die reellen Zahlen R, sowie die ratio-nalen Zahlen Qmit der gewohnten Addition und Multiplikation und den Rechenregeln

a

b+c

d=ad+ bc

bd

a

b· cd

=ac

bd

(a

b

)−1

=b

a.

Die reellen und die rationalen Zahlen sind Beispiele fur angeordnete Korper:

Definition 2.3 (Angeordneter Korper). Ein Korper K heißt angeordnet, wenn eseine Relation ”>“ gibt mit:

(A1) Fur a ∈ K gilt genau eine der drei Beziehungen a > 0, a = 0, −a > 0.

(A2) Aus a > 0 und b > 0 folgt a+ b > 0 fur a, b ∈ K.

(A3) Aus a > 0 und b > 0 folgt a · b > 0 fur a, b ∈ K.

16 2. Korper, Ringe und Gruppen

Die endlichen Korper Z2 und Z3. Im Gegensatz zu unseren vorherigen Beispielenbilden die ganzen Zahlen Z keinen Korper, denn in Z existieren keine Inverse bezuglichder Multiplikation. Wir konnen aber einen endlichen Korper, also einen Korper mitnur endlich vielen Elementen, aus 0 und 1 konstruieren. Dazu setze Z2 := 0, 1 unddefiniere Addition und Multiplikation wie folgt:

+ 0 10 0 11 1 0

· 0 10 0 01 0 1

Man uberzeuge sich, dass alle Korperaxiome erfullt sind. Geht man alle alternativenBelegungen der Additions- und der Multiplikationstafel durch, so ergibt sich, dasskeine anders definierte Addition und Multiplikation die Korperaxiome erfullen, denndurch die Eigenschaften des Nullelements 0 und des Einselements 1 sind die Wertebis auf 1 + 1 und 0 · 0 festgelegt.

• Die Summe 1+1 muß 0 sein, denn sonst gabe es zu 1 kein negatives Element.

• Das Produkt 0 · 0 muß 0 sein, denn sonst ware f) aus Lemma 2.2 verletzt.

Addition und Multiplikation sind im Korper mit zwei Elementen durch die Korperge-setze eindeutig bestimmt. Da jeder Korper mindestens das Null- und das Einselemententhalten muß, gibt es (bis auf Benennung) nur einen Korper mit zwei Elementen.

Auf analoge Weise gelingt die Konstruktion des Korpers mit drei Elementen: Wirsetzen Z3 := 0, 1, 2 und erklaren Addition und Multiplikation wie folgt:

+ 0 1 20 0 1 21 1 2 02 2 0 1

· 0 1 20 0 0 01 0 1 22 0 2 1

Auch hier uberzeuge sich der Leser, dass alle Korpergesetze erfullt sind.

Bemerkung 2.4. Endliche Korper heißen Galoisfelder2 (im Englischen heißt einKorper ”field“). Sie sind bis auf Benennung der Elemente (Isomorphie) eindeutigbestimmt. Man spricht daher von dem endlichen Korper Fq mit q Elementen. FurPrimzahlen p kann man Fp aus Z ableiten. Wir beschaftigen uns allgemein mit end-lichen Korpern in Kapitel 15.

Der Korper der komplexen Zahlen. Als weiteres und wichtiges Beispiel einesKorpers lernen wir die komplexen Zahlen kennen, mit denen bereits Cardano3 im16. Jahrhundert, wenn auch unverstanden, rechnete. Zu Konstruktion der komplexenZahlen C erweitern wir die reellen Zahlen und betrachten Paare von reellen Zahlen:

C := R2 = (a, b) | a, b ∈ R .

2Zu Ehren von Evariste Galois, 1811–1832, einem franzosischen Mathematiker, der, zu seinerZeit unverstanden, wichtige Beitrage zur Gruppentheorie und zur Auflosungstheorie algebraischerGleichungen lieferte. Er starb mit 21 Jahren bei einem Duell.

3Geronimo Cardano, 1501–1576. Cardano war ein italienischer Mathematiker, Arzt und Na-

turforscher. Er veroffentlichte u.a. das ihm von Tartaglia mitgeteilte Verfahren zur Losung kubischerGleichungen und ein Buch uber das Wurfelspiel.

1. Korper 17

Man definiert Addition und Multiplikation wie folgt:

(a, b) + (a′, b′) := (a+ a′, b+ b′)

(a, b) · (a′, b′) := (aa′ − bb′, ab′ + a′b).(3)

Durch Nachrechnen ergibt sich, dass C mit obiger Addition und Multiplikation einenKorper bildet. Dabei ist (0, 0) das Nullelement und (1, 0) das Einselement. Zu (a, b)ist −(a, b) := (−a,−b) Inverses bezuglich der Addition und ( a

a2+b2,− b

a2+b2) Inverses

bezuglich der Multiplikation.Einbettung der reellen Zahlen. Wir interpretieren die reellen Zahlen R ∼= R × 0 ⊂C als Teilmenge der komplexen Zahlen. Offenbar ist (a, 0) | a ∈ R abgeschlossengegenuber Addition und Multiplikation der komplexen Zahlen. Unsere Interpretationist gerechtfertigt, denn man erhalt in den Gleichungen (3) fur b = b′ = 0 die gewohnteAddition und Multiplikation der reellen Zahlen.Darstellung mit der imaginaren Einheit. Um zu einem besseren Verstandnis im Um-gang mit den komplexen Zahlen zu kommen, betrachten wir eine alternative Darstel-lung. Wir zeichnen ein Element der komplexen Zahlen aus und nennen i := (0, 1) dieimaginare Einheit.4 Offenbar verfugt diese uber die Eigenschaft i2 = (0, 1)(0, 1) =(−1, 0) = −1, also i2 = −1.

Mit dem Einselement (1, 0) und der imaginaren Einheit (0, 1) verfugen wir ubereine Basis von C, mit deren Hilfe sich jede komplexe Zahl als Linearkombination von1 und i darstellen laßt:

(a, b) = a(1, 0) + b(0, 1) = a+ bi = a+ ib.

In dieser Darstellung ergeben sich, unter Berucksichtigung von i2 = −1, die Regelnfur die Addition und die Multiplikation komplexer Zahlen auf naturliche Weise ausden Rechenregeln der reellen Zahlen:

a+ ib+ a′ + ib′ = a+ a′ + i(b+ b′)

(a+ ib)(a′ + ib′) = aa′ + iab′ + iba′ + i2bb′ = aa′ − bb′ + i(ab′ + a′b).

Wir stellen die Inversen bezuglich Addition und Multiplikation auf diese Weise dar:

−(a+ ib) = −a− ib

(a+ ib)−1 =a− iba2 + b2

.

Diese entsprechen den anfangs angegebenen Inversen (−a,−b) und ( aa2+b2

,− ba2+b2

),denn:

a+ ib+ (−a− ib) = 0 + i · 0 = 0

(a+ ib)(a− iba2 + b2

)=a2 − i2b2

a2 + b2=a2 + b2

a2 + b2= 1.

4Auf Leonhard Euler, 1707–1783, einen bekannten Mathematiker, geht die Einfuhrung diesesSymbols zuruck. In den zahlreichen Veroffentlichungen Eulers finden sich neben einer Fulle von Ab-handlungen auch viele ausgezeichnete Gesamtdarstellungen mathematischer Gebiete. Er verzeichnetebedeutende Erfolge in den meisten Gebieten der Mathematik und ihrer Anwendungen im weiterenSinne. Die Symbole f(x), π und e gehen auf ihn zuruck.

18 2. Korper, Ringe und Gruppen

Abbildung 1. Gauß’sche Zahlenebene

-Realteil

6Imaginarteil

7

`

ϕ

a

b

1

i

0

Die Gauß’sche Zahlenebene5 liefert eine geometrische Interpretation der komple-xen Zahlen. Wir fassen die komplexen Zahlen als Punkte der reellen Ebene auf undnennen a den Realteil und b den Imaginarteil einer komplexen Zahl a + ib. Anhanddieser Auffassung wird deutlich, dass man komplexe Zahlen auf eine dritte Art undWeise darstellen kann, namlich mit Polarkoordinaten: Wir interpretieren einen Punktals Ortsvektor und beschreiben ihn durch seine euklidische6 Lange und den Winkelzwischen ihm und der positiven reellen Achse (siehe Abbildung 1). Jede komplexe Zahl(außer der Null) wird eindeutig durch ihre Lange ` und ihren Winkel ϕ beschrieben.Wir erhalten eine bijektive Abbildung

R2 → R≥0 × [0, 2π), (a, b) 7→ (`, ϕ),

wobei R≥0 := x ∈ R | x ≥ 0 die Menge der nicht-negativen, reellen Zahlen ist.Wie sieht die Darstellung von a+ib ∈ C in in Polarkoordinaten aus? Die Lange der

komplexen Zahl a+ ib ist ` =√a2 + b2, fur den Winkel gilt cosϕ = a

` bzw. sinϕ = b` :

(a, b) = a+ ib = `(cosϕ+ i sinϕ).

Die Multiplikation zweier komplexer Zahlen in Polarkoordinaten gestaltet sich einfach:

`(cosϕ+ i sinϕ) · `′(cosϕ′ + i sinϕ′) = ``′(cos(ϕ+ ϕ′) + i sin(ϕ+ ϕ′)).

5Carl Friedrich Gauß, 1777–1855, siehe Fußnote auf Seite 4

6Euklid, ca. 365–300 v.Chr., war einer der großen Mathematiker und Philosophen der Antike.

Seine”Elemente“ sind eines der bekanntesten mathematischen Werke uberhaupt und waren 2000

Jahre lang Grundlage der Mathematikausbildung. Uber ihn selbst ist wenig bekannt, doch wirdfolgende Anekdote von ihm uberliefert: Als ein Schuler ihn fragte, welchen Nutzen er davon habe,die geometrischen Lehrsatze zu lernen, rief Euklid einen seiner Sklaven und beauftragte ihn, demStudenten eine kleine Geldmunze zu schenken, da

”dieser armselige Mensch einen Gewinn aus seinen

Studien ziehen musse“.

2. Ringe und Schiefkorper 19

Zur Multiplikation zweier komplexe Zahlen (in Polarkoordinaten), multipliziere dieLangen und addiere die Winkel, denn gemaß Additionstheoremen fur Sinus und Co-sinus gilt:

cos(ϕ+ ϕ′) = cosϕ cosϕ′ − sinϕ sinϕ′

sin(ϕ+ ϕ′) = sinϕ cosϕ′ + sinϕ′ cosϕ.

Unterkorper. Interpretiert man die Standard-Zahlenbereiche als Erweiterungen von-einander, also N ⊂ Z ⊂ Q ⊂ R ⊂ C, ist zu erkennen, dass diese zunehmend abge-schlossen gegenuber verschiedenen Operationen sind:

• N Abschluß gegenuber Addition und Multiplikation• Z Abschluß von N gegenuber Subtraktion.• Q Abschluß von Z gegenuber Division.• R Abschluß von Q gegenuber Haufungspunkten und Konvergenz• C Abschluß von R gegenuber algebraischen Gleichungen.7

Die rationalen Zahlen Q sind ein Unterkorper der reellen Zahlen R, die man ihrerseitsals Unterkorper der komplexen Zahlen C auffaßt:8

Definition 2.5 (Unterkorper). Eine nichtleere Teilmenge K′ ⊆ K eines Korpers Kheißt Unterkorper, wenn K′ mit den Verknupfungen von K selbst ein Korper ist.

Assoziativitat, Kommutativtat und die Distributivgesetze ubertragen sich vom KorperK auf die Teilmenge K′.

Satz 2.6. Sei K ein Korper. Ein Teilmenge K′ ⊆ K mit den gleichne Verkupfungenist genau dann ein Unterkorper von K, wenn

a) 0, 1 ∈ K′,b) fur x, y ∈ K′ ist x− y ∈ K′ undc) fur x, y ∈ K′ \ 0 ist xy−1 ∈ K′.

Wir folgern spater diese Charakterisierung mittels Korollar 2.14 aus Satz 2.17.

2. Ringe und Schiefkorper

Ein Ring unterscheidet sich im wesentlichen dadurch von einem Korper, dass er nichtnotwendigerweise uber multiplikative Inverse verfugt. Je nachdem, welche Axiomeaußerdem nicht gelten, unterscheiden wir verschiedene Arten von Ringen:

Definition 2.7 (Ring). Ein Ring R erfullt alle Korperaxiome bis auf die Axiome 6(Kommutativitat der Multiplikation), 7 (Existenz der Eins) und 8 (Existenz inverserElemente) gelten.

7Jedes Gleichung∑ni=0 aix

i = 0 mit n ≥ 1 und a0, . . . , an ∈ C hat eine Losung x ∈ C. Diesist der sogenannte Fundamentalsatz der Algebra von C.F. Gauß, auf den wir in Kapitel 4 uberPolynome genauer eingehen (Fakt 4.23).

8Hingegen ist zum Beispiel Z2 = 0, 1 kein Unterkorper der reellen Zahlen R (obwohl 0, 1 ∈ R),denn die Verknupfungen sind unterschiedlich: In Z2 gilt 1 +2 1 = 0, wahrend uber den reellen Zahlen1 + 1 = 2 ist.

20 2. Korper, Ringe und Gruppen

Existiert das Einselement, sprechen wir von einem Ring mit Eins, ist die Multi-plikation kommutativ, von einem kommutativen Ring. Ein nullteilerfreier, kommuta-tiver Ring, der außer der 0 ein weiteres Element enthalt, heißt Integritatsring (auchIntegritatsbereich).

Zu einem Ring gehoren neben einer Menge auch seine Verknupfungen, ein Ringist eigentlich ein 3-Tupel (R,+, ·). Wie bei Korpern beziehen wir uns aber meistabkurzend nur auf R. Bei Ringen fallen die beiden Distributivgesetze (Axiome 9 und10) im allgemeinen nicht zusammen. Ein Ring heißt nullteilerfrei (siehe Lemma 2.2),wenn er keine Nullteiler besitzt. Da in Ringen keine multiplikativen Inversen existierenmussen, folgt im allgemeinen aus xz = yz nicht, dass y = z ist (d.h. man darf nicht

”kurzen“). Unterringe definiert man analog zu Unterkorpern (Definition 2.5).

Beispiel 2.8. Wir haben bereits einige Ringe kennengelernt:

• Die Menge Z der ganzen Zahlen bildet einen kommutativen Ring mit Eins.Dieser Ring ist sogar ein Integritatsbereich.• Die MengeMn,n(R) der quadratischen Matrizen bildet einen Ring mit Eins.

Dabei ist die Nullmatrix das Nullelement und die Einheitsmatrix das Eins-element. Dieser Ring ist nicht nullteilerfrei.

Wenn wir in der Definition eines Korpers auf die Kommutativitat der Multiplika-tion verzichten, erhalt man einen sogenannten Schiefkorper (Divisionsring):

Definition 2.9 (Schiefkorper). Ein Schiefkorper S erfullt alle Korperaxiome bis aufAxiom 6 (Kommutativitat der Multiplikation).

Im Gegensatz zu Korpern ist es bei Schiefkorpern zwingend erforderlich (da dieMultiplikation nicht kommutativ sein muß), explizit 1x = x1 = 1 zu fordern. Dannstimmt Linksinverses und Rechtsinverses zu einem Element uberein:

x−1L = x−1

L (xx−1R )︸ ︷︷ ︸

=1

= (x−1L x)︸ ︷︷ ︸=1

x−1R = x−1

R

Im Gegensatz ein einem Korper sind fur Schiefkorper sind beide Distributivitatsge-setze notwendig.

Quaternionen-Schiefkorper. Als Beispiel eines Schiefkorpers betrachten wir denSchiefkorper der Quaternionen H, den Hamilton

9 entdeckte. Die Idee ist, die komple-xen Zahlen zu erweitern, indem man statt Paaren 4-Tupel reeller Zahlen betrachtet.Wir setzen

H := R4 = (a, b, c, d) | a, b, c, d ∈ R

und fuhren dann in Analogie zur imaginaren Einheit in C drei imaginare Einheiteni, j, k ein, fur die gilt

i2 = j2 = k2 = −1, ij = k, jk = i, ki = j.

9William Rowan Hamilton, 1805–1865. Ein irischer Mathematiker und Physiker mit Arbeiten

auf den Gebieten der Mechanik, der Optik und der Algebra.

3. Gruppen 21

Mit diesen imaginaren Einheiten stellt man ein Element (a, b, c, d) ∈ H als a +ib + jc + kd dar. Addition und Multiplikation zweier Quaternionen h = (a, b, c, d),h′ = (a′, b′, c′, d′) ∈ H ergeben sich unter Berucksichtigung der Eigenschaften der ima-ginaren Einheiten aus der gewohnten Addition und Multiplikation der reellen Zahlen:

h+ h′ = a+ a′ + i(b+ b′) + j(c+ c′) + k(d+ d′)

h · h′ = aa′ − bb′ − cc′ − dd′ + i(ab′ + ba′ + cd′ − dc′)+ j(ac′ − bd′ + ca′ + db′) + k(ad′ + bc′ − cb′ + da′).

Mit c = d = 0 sind dies die komplexen Zahlen (einschließlich der gewohnten Additionund Multiplikation in C). Man kann die komplexen Zahlen

C∼= C× 0 × 0 ⊂ H

als Teilmenge der Quaternionen betrachten, es gilt R ⊂∼ C ⊂∼H.

3. Gruppen

Im Gegensatz zu Korpern und Ringen verfugen Gruppen nur uber eine Verknupfung.

Definition 2.10 (Gruppe). Eine Gruppe ist eine Menge G mit einer Verknupfung· : G×G→ G und den Gesetzen:

a) Assoziativitat: (xy)z = x(yx) fur alle x, y, z ∈ G.

b) Existenz des neutralen Elementes 1: 1 · x = x · 1 = x fur alle x ∈ G.

c) Existenz inversen Elemente x−1 ∈ G: x−1x = 1 = xx−1 fur alle x ∈ G.

Eine Gruppe G heißt kommutative Gruppe, falls die Verknupfung kommutativ ist,d.h. fur x, y ∈ G gilt x · y = y · x.

Das neutrale Element 1 wird oft auch mit e (fur Einheit) bezeichnet. Eine kom-mutative Gruppe nennt man abelsch10. Wir haben in der Gruppen-Definition 2.10die multiplikative Schreibweise verwendet. Bei einer additiven Schreibweise wird dieVerknupfung mit ”+“, das neutrale Element mit 0 und die inversen Elemente mit −xbezeichnet. Man verwendet allgemein fur Gruppen die multiplikative Schreibweise(G, ·) und fur kommutative Gruppen die additive Schreibweise (G,+).

Definition 2.11 (Monoid, Halbgruppe). Ein Monoid M erfullt alle Gruppenaximonebis auf die Existenz inverser Elemente. Eine Halbgruppe H ist eine nichtleere MengeH mit einer assoziativen Verknupfung.

Ein Monoid ist eine Halbgruppe mit einem neutralen Element, eine Gruppe ist eineHalbgruppe mit inversen Elementen.

Beispiel 2.12. Beispiele fur Halbgruppen, Monoide und Gruppen sind:

10Niels Hendrik Abel, 1802–1829, ein bedeutender norwegischer Mathematiker. Er lieferte

wichtige Beitrage zur Funktionentheorie (insbesondere zu elliptischen Funktionen und Integralen)und zur Auflosungstheorie algebraischer Gleichungen. Zu seinen Ergebnissen zahlen beispielsweisedas Abelsche Theorem, eine Verallgemeinerung des Additionstheorems elliptischer Integrale, sowiedie Unauflosbarkeit der allgemeinen Gleichungen funften oder hoheren Grades in Radikalen.

22 2. Korper, Ringe und Gruppen

• Sei X eine nicht leere Menge. Die Menge aller Abbildungen

Abb(X,X) := f | f : X → X

ist mit der Komposition (Hintereinanderausfuhrung)

(f g)(x) := f(g(x)),

als Verknupfung ein Monoid: Fur alle f, g, h ∈ Abb(X,X) und x ∈ X gilt

(h (f g))(x) = h(f(g(x))) = (h f)(g(x)) = ((h f) g)(x)

Die Einheit ist die Identitatsfunktion id(x) = x.• Die Menge Mn,m(K) der n × n-Matrizen uber einem Korper K ist mit der

Multiplikation und der Einheitsmatrix als neutralem Element eine Halbgrup-pe. Die Assoziativitat der Matrix-Multiplikation ubertragt sich aus K (sieheUbungsaufgabe 2.1).• Die Menge N0 = 0, 1, 2, . . . der naturlichen Zahlen ist mit der Addition

und 0 als neutralem Element ein Monoid.• Die Menge

GLn(K) :=A ∈Mn,n(K)

∣∣A−1 existiert

der invertierbaren n × n-Matrizen uber einem Korper K ist mit der Multi-plikation eine Gruppe (die allgemeine, lineare Gruppe). Zu C := AB mitA,B ∈ GLn(K) ist das Inverse C−1 = B−1A−1.• Sei R ein Ring mit Eins. Dann ist die Menge der invertierbaren Elemente

R∗ :=r ∈ R

∣∣ r−1 existiert

mit der Multiplikation eine Gruppe, die sogenannte Einheitengruppe. Es istR∗ ⊆ R \ 0 und im Fall eines Korpers K gilt die Gleichheit K∗ = K \ 0.

Analog zu Lemma 2.2 weist man folgende Rechenregeln fur Gruppen nach:

Lemma 2.13. In einer Gruppe G gelten die folgenden Rechenregeln:

a) Das Einselement 1 ist eindeutig bestimmt.b) Das Inverse x−1 eines Elements x ∈ G ist eindeutig bestimmt.c) Fur x, y ∈ G gilt (xy)−1 = y−1x−1.d) Fur x, y, z ∈ G folgt aus xz = yz, dass x = y.e) Fur x, y, z ∈ G folgt aus zx = zy, dass x = y.

Mit Gruppen konnen wir Korper und Ringe kurzer als bisher beschreiben.

Korollar 2.14 (Korper). Eine nichtleere Menge K zusammen mit zwei inneren Ver-knupfungen (Addition und Multiplikation) ist genau dann ein Korper, falls:

a) K ist zusammen mit der Addition eine kommutative Gruppe.b) K∗ ist zusammen mit der Multiplikation eine kommutative Gruppe.c) Es gilt Distributivitat.

4. Homomorphismen 23

Korollar 2.15 (Ring). Eine nichtleere Menge R mit zwei inneren, binaren Ver-knupfungen Addition und Multiplikation. ist genau dann ein Ring, falls:

a) R ist zusammen mit der Addition eine kommutative Gruppe.b) R \ 0 ist zusammen mit der Multiplikation eine Halbgruppe.c) Es gilt Links- und Rechtsdistributivitat.

R ist genau dann ein (kommutativer) Ring mit Eins, wenn R \ 0 mit der Multipli-kation einen (kommutativen) Monoid darstellt.

Untergruppe definiert man analog zu Unterkorpern (Definition 2.5).

Definition 2.16 (Untergruppe). Eine nichtleere Teilmenge U einer Gruppe G heißtUntergruppe, wenn U mit der Verknupfung aus G selbst eine Gruppe ist.

Eine einfache Charakterisierung einer Untergruppe liefert folgender Satz:

Satz 2.17. Sei G eine Gruppe. Eine nichtleere Teilmenge U ⊆ G ist genau dann eineUntergruppe von G, falls aus x, y ∈ U folgt xy−1 ∈ U .

Beweis. Offenbar erfullt jede Untergruppe U ⊆ G das Kriterium. Angenommen, einenichtleere Teilmenge U ⊆ G erfullt die Bedingung. Die Assoziativitat ubertragt sichvon G auf U , nachzuweisen bleibt, dass die Teilmenge U abgeschlossen gegenuber derVerknupfung ist und Inverse in U existieren. Wegen U 6= ∅ existiert ein u ∈ U , ausdem zweiten Kriterium folgt mit x := u und y := u:

1 = uu−1 ∈ U.

Die Teilmenge U enthalt das Einselement 1. Zu u ∈ U ist auch u−1 ∈ U , denn aus derzweiten Eigenschaften und 1 ∈ U folgt u−1 = 1 ·u−1 ∈ U , und U ist eine Untergruppevon G.

Wir beweisen Satz 2.6 mit Hilfe der Charakterisierung aus Korollar 2.14. Nach Satz2.17 gilt fur K′:

• (K′,+) ist eine Untergruppe von (K,+) und• ((K′)∗, ·) eine Untergruppe von (K∗, ·).

Da sich die Distributivitat ubertragt, ist K′ ein Korper. Statt Eigenschaft a) genugtdie Bedingung (K′)∗ 6= ∅.

4. Homomorphismen

Ein Homomorphismus ist eine Abbildung, bei der kein Unterschied besteht, ob manzuerst die auf der Struktur definierte Verknupfung und danach den Homomorphismusausfuhrt oder umgekehrt. Homomorphismen sind ”rechentreue“ oder ”strukturerhal-tende“ Abbildungen, d.h. die Rechenregeln einer Struktur bleiben bei der Abbildungerhalten.

Definition 2.18 (Gruppenhomomorphismus). Seien (G, · ) und (G′, ) Gruppen. Ei-ne Abbildung f : G→ G′ heißt Gruppenhomomorphismus, falls fur x, y ∈ G gilt

f(x · y) = f(x) f(y). (4)

24 2. Korper, Ringe und Gruppen

Man beachte, dass es sich bei x · y um die Verknupfung von G handelt, bei f(x) f(y) dagegen um die Verknupfung von G′. Fur Homomorphismen von Halbgruppenund Monoiden fordert man ebenfalls Eigenschaft (4).

Beispiel 2.19. Fur die Gruppe (R≥0, ·) ist die Funktion f(x) :=√x ein Homomor-

phismus:

f(x · y) =√x · y =

√x · √y = f(x) · f(y).

Die Funktion exp : (R,+)→ (R, ·), x 7→ ex ist ein Gruppenhomomorphismus:

exp(x+ y) = ex+y = ex · ey = exp(x) · exp(y).

Sei f : G→ G′ ein Gruppenhomomorphismus und x ∈ G. Es gilt f(1G) = 1G′ , denn

f(1) = f(1 · 1) = f(1) · f(1),

und aus 1 = f(1) = f(x · x−1) = f(x) · f(x−1) erhalten wir f(x−1) = f(x)−1. DasBild von f ist bild f := f(x) | x ∈ G ⊆ G′ und

ker f := x ∈ G | f(x) = 1 = f−1(1) ⊆ G

heißt der Kern von f .11 Man kann leicht nachrechnen, dass ker f eine Untergruppevon G und bild f Untergruppe von G′ ist.

Definition 2.20 (Ring- und Korperhomomorphismus). Seien (R,+, ·) und (R′,⊕, )Ringe. Eine Abbildung f : R→ R′ heißt Ringhomomorphismus, falls fur x, y ∈ R gilt

a) Additivitat: f(x+ y) = f(x)⊕ f(y) undb) Homogenitat: f(x · y) = f(x) f(y).

Falls R,R′ Korper sind, spricht man von einem Korper-Homomorphismus.

Bei einem Homomorphismus f : A → A′ ubertragen alle Operationen die alge-braischen Struktur A. Man spricht davon, dass die Operationen der Struktur sichubertragen oder mit f vertraglich sind.

Bemerkung 2.21 (Homomorphieprinzip). Seien A und A′ algebraische Strukturenund f : A → A′ ein surjektiver Homomorphismus (Epimorphismus). Dann gilt furjede der beteiligten Verknupfungen, dass sich Assoziativitat, Kommutativitat, dieExistenz des neutralen Elements sowie die Existenz der inversen Elemente von A aufA′ ubertragen. Man nennt dies das Homomorphieprinzip.

Sei f : R → R′ ein Ringhomomorphismus. Bild und Kern werden analog erklart.Man nennt bild(f) := f(x) | x ∈ R das Bild von f und

ker f := x ∈ R | f(x) = 0 = f−1(0)

den Kern von f . Es gilt f(0) = 0 und f(−x) = −f(x), denn f : (R,+)→ (R′,+) istein Gruppenhomorphismus.

Definition 2.22 (Spezielle Homomorphismen). Ein Homomorphismus f heißt11Beachte, dass f−1(y) nicht die Umkehrabbildung bezeichnet (diese existiert im allgemeinen

nicht), sondern die Menge aller x ∈ G mit f(x) = y.

4. Homomorphismen 25

• Monomorphismus, falls f injektiv ist.

• Epimorphismus, falls f surjektiv ist.

• Isomorphismus, falls f bijektiv ist.

• Endomorphismus, falls f eine Abbildung einer Menge in sich ist.

• Automorphismus, falls f ein bijektiver Endomorphismus ist.

Die Umkehrabbildung eines Isomorphismus ist ebenfalls ein Isomorphismus. ZweiStrukturen A, A′ heißen isomorph, A ∼= A′, falls ein Isomorphismus f : A → A′existiert.

Beispiel 2.23. Fur G :=

2k∣∣ k ∈ Z gilt (Z,+) ∼= (G, ·), wobei der Isomorphismus

durch f : Z→ G mit k 7→ 2k gegeben ist.

Wir betrachten als weiteres Beispiel fur spezielle Homomorphismen einen Korperau-tomorphismus der komplexen Zahlen C.

Beispiel 2.24. Die Abbildung f : C → C mit (a + ib) 7→ (a − ib) ordnet jederkomplexen Zahl z = a+ ib die dazugehorige konjugiert komplexe Zahl z := a− ib zu.Dies entspricht in der Gauß’schen Zahlenebene einer Spiegelung an der reellen Achse.Da f eine Abbildung von C nach C ist, bleibt zu zeigen, dass f bijektiv ist und dieHomomorphie-Eigenschaften besitzt. Die Bijektivitat folgt aus

f(f(a+ ib)) = f(a− ib) = a+ ib,

d.h. es ist f−1 = f . Wir rechnen die Homomorphie-Eigenschaften nach:

f(a+ ib) + f(a′ + ib′) = a− ib+ a′ − ib′

= (a+ a′)− i(b+ b′)

= f(a+ a′ + i(b+ b′))

= f(a+ ib+ a′ + ib′).

Fur die Multiplikation gilt:

f(a+ ib)f(a′ + ib′) = (a− ib)(a′ − ib′)= (aa′ − bb′)− i(ab′ + a′b)

= f(aa′ − bb′ + i(ab′ + a′b))

= f((a+ ib)(a′ + ib′)).

Dies ergibt folgende Rechenregeln fur die Konjugation komplexer Zahlen z1, z2 ∈ C:

z1 + z2 = z1 + z2

z1 · z2 = z1 · z2

z1 = z1.

Betrachten wir die Konjugation in der Darstellung mit Polarkoordinaten. Offenbarhaben z und z die gleiche Lange. Fur die Winkel gilt ϕ = 2π − ϕ = −ϕ mod 2π. DasProdukt zweier konjugiert komplexer Zahlen z1 ·z2 hat den Winkel −ϕ1 +(−ϕ2) mod2π, das konjugiert komplexe Produkt zweier komplexer Zahlen z1 · z2 hat den Winkel

26 2. Korper, Ringe und Gruppen

−(ϕ1 + ϕ2) mod 2π. Dabei folgt die Gleichheit der Winkel und Langen auch aus denHomomorphie-Eigenschaften der komplexen Konjugation: z1 · z2 = z1 · z2.

5. Vom Ring Z abgeleitete Korper

Wir haben bereits in Abschnitt 1 dieses Kapitels die endlichen Korper Z2 und Z3

kennengelernt. Nun konstruieren wir aus den ganzen Zahlen Z endliche StrukturenZp, die sich fur prime12 p als Korper erweisen.

Sei n ∈ N \ 0. Wir erklaren Addition und Multiplikation auf dem ganzzahligenIntervall [0, n− 1] = 0, 1, . . . , n− 1 ⊆ N gemaß

a+n b := (a+ b)− qna ·n b := (ab)− q′n

mit q, q′ ∈ Z, so dass (a+ b)− qn ∈ [0, n−1] und (ab)− q′n ∈ [0, n−1]. Das eindeutigbestimmte q bzw. q′ ergibt sich aus der Division mit Rest [W96]:

Satz 2.25 (Division mit Rest). Zu a ∈ Z, b ∈ N \ 0 gibt es eindeutig bestimmteZahlen q, r ∈ Z mit a = qb+ r und 0 ≤ r < b.

Da r eindeutig bestimmt ist, nennen wir r den Rest bei der Division von a durchb und bezeichnen ihn mit a mod b (man spricht ”a modulo b“). Also:

a+n b := (a+ b) mod n

a ·n b := (ab) mod n

Definition 2.26 (Zn). Sei Zn := ([0, n−1],+n, ·n) die algebaische Struktur bestehendaus der Menge [0, n− 1] und den beiden Verknupfungen ”+n“ und ”·n“.

Fur Zn schreibt man auch Z/nZ oder Z/(n) und spricht von einem Faktorring.Wir wollen zeigen, dass Zn ein kommutativer Ring mit Einselement ist. Nach demHomomorphie-Prinzip (Bemerkung 2.21 auf Seite 24) genugt der Nachweis, dass dieAbbildung rn : Z→ Zn mit

rn(a) := a mod n,

d.h. a wird abgebildet auf den Teilerrest bei Division durch n, ein Homomorphismusist. Es gilt r−1(a) = a+nZ = a+ nz | z ∈ Z. Wir identifizieren das Element a ∈ Znmit der Menge a+ nZ:

Zn = [0, n− 1] ↔ r + nZ | r = 0, 1, . . . , n− 1 .

Zu einem festen r ∈ [0, n − 1] heißt die Menge r + nZ die Restklasse modulo n undr nennt man einen Reprasentanten dieser Restklasse. Die Restklasse ist unabhangigvon der Wahl des Reprasentanten:

r + nZ = r′ + nZ ⇐⇒ r − r′ ∈ nZ. (5)

12Eine Zahl p ∈ N\1 heißt prim, wenn p nicht als Produkt ab mit a, b ∈ [1, p−1] darstellbar ist.Dabei wird die Zahl 1 als Spezialfall per Definition ausgeschlossen. Teilt eine Primzahl ein Produktxy, so teilt p einen der beiden Faktoren x oder y.

5. Vom Ring Z abgeleitete Korper 27

Die nachzuweisenden Homomorphie-Eigenschaften

rn(a+ b) = rn(a) +n rn(b)

rn(a · b) = rn(a) ·n rn(b)

mit a, b ∈ Z sind aquivalent zu:13

(a+ b) + nZ = (a+ nZ) + (b+ nZ)

(ab) + nZ = (a+ nZ) · (b+ nZ)(6)

Fur a, b ∈ [0, n− 1] gilt offenbar (6). Sei a′ := a+ sn und b′ := b+ tn mit s, t ∈ Z unda, b ∈ [0, n− 1]. Es genugt der Nachweis von

(a′ + b′)− (a+ b) ∈ nZ(a′b′)− (ab) ∈ nZ,

(7)

d.h. rn(a + b) = rn(a′ + b′) und rn(ab) = rn(a′b′), d.h. beide Reprasentanten stehenjeweils fur die gleiche Restklasse. Gleichungen (7) folgen aus:

(a′ + b′)− (a+ b) = (a+ b+ (s+ t)n)− (a+ b) = (s+ t)n ∈ nZ(a′b′)− (ab) = (ab+ atn+ bsn+ tsn2)− (ab) = (at+ bs+ tsn)n ∈ nZ

Wir haben gezeigt:

Satz 2.27. Fur n ∈ N \ 0 ist Zn ist ein kommutativer Ring mit Eins.

Das Nullelement ist die Restklasse 0+nZ, das Einelement 1+nZ. Insbesondere ist(Zn,+) nach Satz 2.27 eine kommutative Gruppe. Im allgemeinen handelt es sich beiZn jedoch um keinen Korper, denn beispielsweise existiert in Z4 kein multiplikativesInverses zu 2.

Satz 2.28. Zn ist genau dann ein Korper, wenn n eine Primzahl ist.

Beweis. Wir wissen bereits aus Satz 2.27, dass Zn ein kommutativer Ring mit Einsist und sich von einem Korper nur durch Axiom 8 (Existenz inverser Elemente) un-terscheiden kann.

Ist n keine Primzahl, so gibt es a, b ∈ [1, n−1] mit n = ab. Wegen (ab) mod n = 0sind a mod n und b mod n Nullteiler in Zn, so dass Zn kein Korper ist.

Sei p eine Primzahl. Wir zeigen, dass es zu jedem a ∈ [1, p − 1] ein Inverses gibtund Zp daher ein Korper ist. Betrachte die Produkte a ·p 0, a ·p 1, . . . , a ·p (p−1). Diesesind paarweise verschieden. Denn angenommen, es gabe i, j mit 0 ≤ i 6= j < p unda ·p i = a ·p j. Da a 7→ (a mod p) ein Homomorphismus ist, folgt a(i− j) ∈ pZ und pteilt a(i − j). Da p eine Primzahl ist, teilt p mindestens einen der Faktoren. Wegen0 6= a < p, muß p die Differenz i − j teilen — Widerspruch, denn 0 < |i − j| < p.Da die p obigen Produkte paarweise verschieden sind und |Zp| = p ist, laßt sich jedesElement aus Zp darstellen als Produkt von a und einem anderen Element b ∈ Zp.Wegen 1 = a ·p b ist b Inverses zu a.

13Gleichung (6) bedeutet, dass”+n“ und

”·n“ uber Reprasentanten und die Addition bzw. Mul-

tiplikation auf Z erklart werden. Zu zeigen bleibt, dass die Verknupfungen wohldefiniert sind, d.h. un-abhangig von der Wahl der Reprasentanten.

28 2. Korper, Ringe und Gruppen

Der Beweis ist nicht konstruktiv, liefert also keinen Anhaltspunkt fur die Berechnungdes Inversen von in Zp. Man kann die Inversen effizient mit dem (erweiterten) Euklidi-sche Algorithmus, der in den Vorlesungen uber ”Algebra“ und ”diskrete Mathematik“vorgestellt wird, bestimmen.

Beispiel 2.29. Betrachten wir ein weiteres Beispiel eines endlichen Korpers. DenKorper Z7 mit sieben Elementen leiten wir aus Z ab:

+ 0 1 2 3 4 5 60 0 1 2 3 4 5 61 1 2 3 4 5 6 02 2 3 4 5 6 0 13 3 4 5 6 0 1 24 4 5 6 0 1 2 35 5 6 0 1 2 3 46 6 0 1 2 3 4 5

· 0 1 2 3 4 5 60 0 0 0 0 0 0 01 0 1 2 3 4 5 62 0 2 4 6 1 3 53 0 3 6 2 5 1 44 0 4 1 5 2 6 35 0 5 3 1 6 4 26 0 6 5 4 3 2 1

Wir nennen zwei ganze Zahlen a, b ∈ Z kongruent modulo n, falls die Reste beiDivision von a und b durch n gleich sind, also a− b ∈ nZ ist:

a ≡ b (mod n).

Die Kongruenz modulo n ist ein Beispiel fur eine Aquivalenzrelation auf Z.

Definition 2.30 (Aquivalenzrelation, Aquivalenzklasse). Sei X eine Menge. EineTeilmenge R ⊆ X ×X ist eine Aquivalenzrelation auf X, wenn gilt:

(A1) Reflexivitat: (x, x) ∈ R fur alle x ∈ X.(A2) Symmetrie: Aus (x, y) ∈ R folgt (y, x) ∈ R.(A3) Transitivitat: Aus (x, y), (y, z) ∈ R folgt (x, z) ∈ R.

Anstelle von (x, y) ∈ R schreibt man oft xRy. Zu x ∈ X heißt die Teilmenge

[x]R := y ∈ Y | (x, y) ∈ R

die Aquivalenzklasse von x bezuglich R.

Die Aquivalenzklassen bezuglich der Kongruenz modulo n sind die n Restklassen.Man rechnet mit Hilfe von (5) leicht nach:

Satz 2.31. Sei n ∈ N \ 0. Die Kongruenz modulo n ist eine Aquivalenzrelation aufden gaznzen Zahlen Z.

Kapitel 3

Vektorraume

Zentraler Gegenstand der linearen Algebra sind Vektorraume, die wir in diesem Ab-schnitt kennenenlernen. Wir definieren den Begriff und fuhren Untervektorraume,Basen und Dimension ein.

1. Vektorraum und Untervektorraum

Wir beginnen mit der Definition des Vektorraums (auch linearer Raum genannt):

Definition 3.1 (Vektorraum). Sei K ein Korper. Eine nichtleere Menge V mit zweiVerknupfungen

+ : V × V → V , (v, w) 7→ v + w (Addition)· : K× V → V , (λ, v) 7→ λ · v (Skalare Multiplikation)

heißt K-Vektorraum, wenn fur alle λ, µ ∈ K und v, w ∈ V gilt:

a) (V,+) ist eine kommutative Gruppe.

b) Assozitativitat: λ · (µ · v) = (λ · µ) · v

c) Distributivitat: (λ+ µ) · v = λ · v + µ · v, λ · (v + w) = λ · v + λ · w

d) 1 · v = v.

Ein Vektorraum ist eine kommutative Gruppe mit einer außeren Verknupfung zueinem Korper. Statt K-Vektorraum sagt man auch Vektorraum uber K. Die Elementev ∈ V heißen Vektoren, die Elemente λ ∈ K nennt man Skalare. Wir schreiben 0fur den Nullvektor bzw. einfach 0, wenn Verwechselungen mit dem Nullelement desKorpers K ausgeschlossen werden konnen.

Beispiel 3.2. Betrachte einige Beispiele zu Vektorraumen.

29

30 3. Vektorraume

• SeiK ein Korper. Die MengeKn bildet mit den komponentenweise definiertenOperationenx1

...xn

+

y1...yn

=

x1 + y1...

xn + yn

λ ·

x1...xn

=

λx1...

λxn

einen K-Vektorraum. Da die Operationen komponentenweise definiert sind,ubertragen sich die Rechengesetze von K und die Vektorraumaxiome gelten.• Sei K ein Korper. Dann ist die Menge der m × n Matrizen Mm,n(K) uber

diesem Korper zusammen mit Addition und skalaren Multiplikation ein K-Vektorraum.• Die komplexen Zahlen C lassen sich als R-Vektorraum interpretieren. Dabei

ist die Addition die in Kapitel 1 angegebene und die Multiplikation mit einemSkalar λ ist die Multiplikation einer reellen Zahl mit einer komplexen Zahl:

λ(a+ ib) = (λ+ i0)(a+ ib) = λa+ iλb.

• Sei ein X nichtleere Menge und K ein Korper. Dann ist die Menge derAbbildungen von X nach K

Abb(X,K) := f | f : X → K

mit der Addition (f + g)(x) 7→ f(x) + g(x) und der skalaren Multiplikation(λf)(x) 7→ λf(x) ein K-Vektorraum.

Wir folgern aus den Axiomen des Vektorraums:

Lemma 3.3. In einem K-Vektorraum V gelten folgende Rechenregeln:

a) Fur v ∈ V und λ ∈ K gilt 0 · v = λ · 0 = 0.b) Aus λ · v = 0 mit λ ∈ K und v ∈ V folgt λ = 0 oder v = 0.c) Fur v ∈ V gilt (−1) · v = −v.

Beweis. Seien v ∈ V und λ ∈ K. Aus der Distributivitat folgt:

0 + 0 · v = 0 · v = (0 + 0) · v = 0 · v + 0 · v0 + λ · 0 = λ · 0 = λ · (0 + 0) = λ · 0 + λ · 0.

Da (V,+) eine Gruppe ist, folgt 0 · v = λ · 0 = 0. Sei λ · v = 0 und λ 6= 0. NachDefinition des Vektorraums ist 1 · v = v. Wir erhalten:

v = 1 · v = (λ−1λ) · v = λ−1 · (λ · v) = λ−1 · 0.

Aus Eigenschaft a) folgt v = 0. Aufgrund des Distributivgesetzes gilt:

v + (−1) · v = 1 · v + (−1) · v = (1− 1) · v = 0 · v.

Aus Eigenschaft a) folgt 0 · v = 0, so dass (−1) · v das additive Inverse zu v ist.

Analog zu Untergruppen, -ringen und -korpern definiert man Untervektorraumeund aufbauend auf diesen weitere Teilstrukturen von Vektorraumen.

1. Vektorraum und Untervektorraum 31

Definition 3.4 (Untervektorraum). Sei V ein K-Vektorraum. Eine nichtleere Teil-menge U ⊆ V heißt Untervektorraum, wenn sie ein K-Vektorraum ist.

Betrachten wir Beispiele von Untervektorraumen:

• Im R2 bilden die Punkte Ga =

(x, y)T ∈ R2

∣∣ y = ax

einer Geraden durchden Ursprung, fur ein festes a ∈ R, einen Untervektorraum des R2.• Sei K ein Korper. Die Menge UDn(K) der unteren n × n-Dreiecksmatrizen

ist ein Untervektorraum des K-Vektorraums der n× n Matrizen Mm,n(K).

Lemma 3.5. Eine nichtleere Teilmenge U eines K-Vektorraums V ist genau dannein Untervektorraum, wenn sie abgeschlossen gegenuber Addition und skalarer Multi-plikation ist.

Beweis. Falls U ein Untervektorraum von V darstellt, ist er abgeschlossen gegenuberAddition und skalarer Multiplikation.

Umgekehrt, angenommen U ⊆ H ist abgeschlossen gegenuber Addition und ska-larer Multiplikation. Seien v, w ∈ U und λ ∈ K. Assoziativitat, Distributivitat und1 · v = v ubertragen sich von V auf U . Bleibt zu zeigen, dass U mit der Addition einekommutative Gruppe bildet. Mit u ∈ U ist −1 · u = −u ∈ U , so dass zu u, v ∈ Uauch u − v ∈ U . Aus dem Untergruppenkriterium, Satz 2.17 auf Seite 23, folgt dieBehauptung.

Im R2 ist eine Gerade Ga,b, die nicht durch den Ursprung geht,

Ga,b =

(x, y)T ∈ R2∣∣ y = ax+ b

mit a, b ∈ R und b 6= 0, ein ”verschobene Untervektorraum“:

Ga,b = (0, b)T +

(x, y)T ∈ R2∣∣ y = ax

= (0, b)T +Ga.

Wir fuhren fur ”verschobene Unterraume“ den Begriff des affinen Unterraums ein:

Definition 3.6 (Affiner Unterraum, Richtungsraum, Parallel). Eine Teilmenge Aeines K-Vektorraums V heißt affiner Unterraum, wenn sie leer ist oder es ein a0 ∈ Aund einen Untervektorraum U ⊆ V mit A = a0 + U gibt. Wir nennen

R(A) := U = x− a0 | x ∈ A = x− y | x, y ∈ A

Richtungsraum von A. Affine Unterraume A und A′ heißen parallel, A ‖ A′, fallsR(A) ⊆ R(A′) oder R(A′) ⊆ R(A).

Beachte, dass der Richtungsraum R(A) unabhangig von a0 ist. Wie wir spatersehen werden, sind Geraden die eindimensionalen affinen Unterraume des Kn und dieHyperebenen die affinen Unterraume des Kn der Dimension n− 1.

Definition 3.7 (Gerade, Hyperebene). Eine Teilmenge G ⊆ Kn heißt Gerade, fallses a, a0 ∈ Kn gibt mit

G = a0 +Ka = a0 + λa | λ ∈ K .Eine Teilmenge H ⊆ Kn heißt Hyperebene, falls es a ∈ Kn, a 6= 0, und b ∈ K gibt mit

H =x ∈ Kn

∣∣ aTx = b

= Los(aT , b).

32 3. Vektorraume

Wir konnen die Losungsmengen linearer Gleichungssysteme mit der Terminologieder Vektorraume beschreiben. Sei A ∈ Mm,n(K) und b ∈ Km. Dann ist Los(A, b) ⊆Kn ein affiner Unterraum mit dem Richtungsraum Los(A, 0). Umgekehrt gilt, dass

jeder affine Unterraum Losungsmenge eines inhomogenen linearen Gleichungssystemist. Wir werden den Beweis zu einem spateren Zeitpunkt geben.

2. Lineare Unabhangigkeit, Basen undDimension

Schließt man eine Menge von Vektoren aus einem Vektorraum linear ab, ergibt diesden von diesen Vektoren erzeugten Unterraum. Als erstes fuhren wir dazu den Begriffder Linearkombination ein:

Definition 3.8 (Linearkombination). Sei V ein K-Vektorraum, v1, . . . , vn ∈ V undλ1, . . . , λn ∈ K. Dann heißt der Vektor

v =n∑i=1

λivi = λ1v1 + . . .+ λnvn

eine Linearkombination der Vektoren v1, . . . , vn.

Beachte, dass eine Linearkombination nur aus endlich vielen Vektoren besteht.Linearkombinationen, die durch Permutationen der Summanden auseinander hervor-gehen, sind gleich. Bildet man zu gegebenen Vektoren alle moglichen Linearkombina-tionen, heißt dies lineare Hulle:

Definition 3.9 (Lineare Hulle). Sei V ein K-Vektorraum. Die lineare Hulle (linearerAbschluß, Erzeugnis oder Spann) von X = x1, x2, . . . ⊆ V ist

span(X) :=

n∑i=1

λixi

∣∣∣∣∣ n ∈ N, λi ∈ K, xi ∈ X.

Fur endliche X sei λi = 0 fur i > |X|. Andere Schreibweisen fur span(X) sind L(X)und 〈X〉.

Die lineare Hulle einer unendlichen Menge von Vektoren besteht aus den Line-arkombinationen aller endlichen Teilmengen dieser Menge. Die lineare Hulle einerendlichen Menge von Vektoren X = x1, . . . , xn besteht aus allen Linearkombina-tionen dieser Vektoren:

span(X) :=

n∑i=1

λixi

∣∣∣∣∣ λi ∈ K

=n∑i=1

Kxi.

Die lineare Hulle von Vektoren ist nach Lemma 3.5 ein Untervektorraum, dennmit u, v ∈ span(X) und λ ∈ K gilt

u+ v =n∑i=1

λixi +n∑i=1

µixi =n∑i=1

(λi + µi)xi ∈ span(X)

λv = λn∑i=1

λivi =n∑i=1

(λλi)vi ∈ span(X).

2. Lineare Unabhangigkeit, Basen und Dimension 33

Fur X = ∅ erhalten wir in Definition 3.9 die leere Summe und als Erzeugnis der leerenMenge den kleinstmoglichen Untervektorraum: span(∅) = 0.

Definition 3.10 (Erzeugendensystem). Sei V ein K-Vektorraum und X ⊆ V . EinErzeugendsystem von span(X) ist eine Teilmenge Y ⊆ X mit span(Y )=span(X).

Die Definition legt nahe, dass nicht alle Vektoren einer Menge fur ihr Erzeugniswesentlich sind. Tatsachlich verandert sich die lineare Hulle einer Menge von VektorenX nicht, fugt man eine Linearkombination von Vektoren aus X hinzu. Laßt sich derhinzugefugte Vektor nicht als Linearkombination von Vektoren aus X darstellen, soverandert seine Hinzunahme die lineare Hulle. Wir fuhren fur diesen Sachverhalt denBegriff der linearen Unabhangigkeit ein:

Definition 3.11 (Linear unabhangig). Sei V ein K-Vektorraum. Eine TeilmengeX = x1, . . . , xn ⊆ V heißt linear unabhangig, falls fur λ1, . . . , λn ∈ K gilt

n∑i=1

λixi = 0 =⇒ λ1 = . . . = λn = 0.

X heißt linear abhangig, falls X nicht linear unabhangig ist. Eine unendliche Men-ge von Vektoren heißt linear unabhangig, wenn jede endliche Teilmenge linear un-abhangig ist, und heißt linear abhangig, wenn sie eine endliche linear abhangige Teil-menge enthalt. Die leere Menge ist linear unabhangig.

Eine Menge von Vektoren ist linear unabhangig, wenn der Nullvektor nur dietriviale Darstellung hat. Aus der Definition folgt direkt:

Satz 3.12. Sei V ein K-Vektorraum und X = x1, . . . , xn ⊆ V . Dann sind folgendeAussagen aquivalent:

a) X ist linear unabhangig.b) Die Darstellung der Null als Linearkombination der xi ist eindeutig.c) Fur (λ1, . . . , λn) ∈ Kn \ 0 ist

∑ni=1 λixi 6= 0.

Beispiel 3.13. Es gilt:

• Im Kn sind die Vektoren (1, 1, 1), (1, 1, 0), (0, 0, 1) linear abhangig, denn

1 · (1, 1, 1)− 1 · (1, 1, 0)− 1 · (0, 0, 1) = 0

• Wir nennen ei := (0, . . . , 0,i1, 0, . . . , 0) ∈ Kn den i-ten kanonischen Einheits-

vektor. Die Einheitsvektoren sind linear unabhangig, da jede Komponente ei-ner Linearkombination nur von genau einem der Einheitsvektoren bestimmtwird; sollen alle Komponenten der Linearkombination 0 sein, mussen daherauch alle Koeffizienten 0 sein.• Der Nullvektor ist stets linear abhangig (denn 1 · 0 = 0).• Seien a = (a1, a2), b = (b1, b2) ∈ R2. Dann gilt

– a, b sind genau dann linear abhangig, wenn es ein λ ∈ R gibt mit a = λboder b = λa.

– a, b sind genau dann linear unabhangig, wenn 4(a, b) = a1b2−a2b1 6= 0.

34 3. Vektorraume

• Die Richtungsraume von Geraden sind genau dann linear abhangig, wenndie Geraden parallel sind.

Wir zeichnen bestimmte Erzeugendensysteme aus und weisen anschließend nach,dass diese minimal sind:

Definition 3.14 (Basis). Sei V ein K-Vektorraum. Eine Teilmenge B ⊂ V heißtBasis von V , wenn sie ein linear unabhangiges Erzeugendensystem von V ist.

Die Einheitsvektoren bilden offenbar eine Basis des Kn. Wir bezeichnen dieseBasis als die Standardbasis des Kn. Offensichtlich ist die Darstellung eines Vektorsals Linearkombination der Standardbasis eindeutig.

Satz 3.15. Sei V ein K-Vektorraum. B ⊂ V ist genau dann eine Basis von V , wennfur alle B′ ( B gilt span(B′) 6= V .

Beweis. Sei V ein K-Vektorraum und B ⊂ V . Wir zeigen beide Richtungen:Wir zeigen zuerst, falls B eine Basis ist, dann ist B auch ein minimales Erzeu-

gendensystem. Wir beweisen dazu, dass ein Erzeugendensystem, welches nicht mi-nimal ist, auch keine Basis bildet (Beweis durch Kontraposition). Sei B′ ein Erzeu-gendensystem mit B′ ( B und span(B′) = span(B). Dann existiert ein b ∈ B \ B′mit b ∈ span(B′). Wir stellen b als Linearkombination der Elemente von B′ dar:b =

∑ni=1 λib

′i mit b′1, . . . , b

′n ∈ B′. Damit erhalt man eine nicht-triviale Darstellung

der Null

0 = b−n∑i=1

λib′i

Also sind b′1, . . . , b′n, b linear abhangig, und B ist keine Basis.

Wir zeigen, falls B ein minimales Erzeugendensystem ist, dann ist B eine Ba-sis. Wir fuhren dazu einen Beweis durch Kontraposition und beweisen, dass B nichtminimal ist, wenn B keine Basis ist. Sei B = b1, . . . , bn ⊆ V ein linear abhangiges Er-zeugendensystem. Dann gibt es eine nichttriviale Darstellung der Null

∑ni=1 λibi = 0

mit (λ1, . . . , λn) ∈ Kn \ 0. Wir nehmen o.B.d.A. an,1 dass λ1 6= 0 (sonst benennedie bi entsprechend um). Dann ist

b1 =n∑i=2

λiλ1bi ∈ span(b2, . . . , bn)

und B′ = b2, . . . , bn bildet ein Erzeugendensystem.2 Wegen B′ = B\b1 ist B nichtminimal.

Korollar 3.16. Jeder Vektorraum hat eine Basis.

1Ohne Beschrankung der Allgemeinheit: Diese Annahme dient nur der Vereinfachung der folgen-den Darstellung und kann stets erfullt werden (z.B. durch Umbennung der Indizes).

2Die Division ist moglich, da der Vektorraum uber einem Korper definiert ist.

2. Lineare Unabhangigkeit, Basen und Dimension 35

Fur endlich erzeugte Vektorraume folgt Korollar 3.16 unmittelbar aus Satz 3.15. Furunendlich erzeugte Vektorraume benotigt man zusatzlich das Lemma von Zorn: Inder Menge der linear unabhangigen Teilmengen gibt es ein maximales Element.

Satz 3.17. Sei V ein K-Vektorraum, I eine Indexmenge und B = bi | i ∈ I ⊂ Veine Basis von V . Dann hat jedes v ∈ V genau eine endliche Darstellung

v =∑i∈I

λibi mit λi ∈ K.

Da zu einer gegebenen, geordneten3 Basis B jeder Vektor v eine eindeutige Dar-stellung als Linearkombination der Basisvektoren hat, sind die Koeffizienten λi dieserDarstellung eindeutig festgelegt. Man nennt λ := (λi | i ∈ I) den Koordinatenvektorvon v bezuglich der Basis B und schreibt:

v = Bλ =∑i∈I

λibi.

Beweis. Wir fuhren den Beweis zu zu Satz 3.17 durch Widerspruch. Sei V ein K-Vektorraum und B = b1, . . . , bn, . . . ⊂ V eine Basis von V . Angenommen, es gabezwei unterschiedliche Darstellungen eines Vektors v ∈ V

n∑i=1

λibi =n∑i=1

λ′ibi

mit (λ1, . . . , λn) 6= (λ′1, . . . , λ′n). Dann ist

∑ni=1(λi − λ′i)bi = 0 eine nicht-triviale

Darstellung der Null und B keine Basis — Widerspruch zur Annahme.

In Aufgabe 5.2 zeigen wir, dass Vektorraum-Isomorphismen Basen auf Basen abbil-den:

Satz 3.18. Seien V1, V2 K-Vektorraume und ψ : V1 → V2 ein Isomorphismus. Danngilt:

a) Genau dann sind ψ(v1), . . . , ψ(vm) ∈ V2 linear unabhangig, wenn v1, . . . , vn ∈V1 linear unabhangig sind.

b) Genau dann bilden ψ(b1), . . . , ψ(bn) eine Basis von V2, wenn b1, . . . , bn eineBasis von V1 darstellen.

Die bisherigen Uberlegungen gelten sowohl fur endlich erzeugte als auch fur un-endlich erzeugte Vektorraume. Im weiteren beschranken wir uns auf endlich erzeugteVektorraume. Fur diese formulieren wir das folgende Lemma:

Lemma 3.19. Sei V ein K-Vektorraum mit Basis B = b1, . . . , bn.Dann ist V ∼= Kn.

Beweis. Da jedes v ∈ V eine eindeutige Darstellung v =∑n

i=1 λibi mit λ1, . . . , λn ∈K hat, ist die Abbildung ψ : Kn → V mit f(λ) := Bλ bijektiv. Weil ψ ein Homomor-phismus von Vektorraumen ist, folgt die Behauptung.

3D.h. die Reihenfolge der Vektoren in der Basis ist fixiert.

36 3. Vektorraume

Unser Ziel ist es zu zeigen, dass alle Basen von V dieselbe Machtigkeit haben.Wir werden fur diese Zahl den Begriff der Dimension des Vektorraums in Definition3.23 einfuhren.

Satz 3.20. Je n linear unabhangige Vektoren des Kn bilden eine Basis des Kn.

Beweis. Seien a1, . . . , an ∈ Kn linear unabhangige Vektoren. Es ist zu zeigen, dassdiese Vektoren ein Erzeugendensystem des Kn sind, also span(a1, . . . , an) = K

n. Daspan(a1, . . . , an) ⊆ Kn trivialerweise gilt, bleibt Kn ⊆ span(a1, . . . , an) nachzuweisen.Dies gilt, wenn die Matrix mit den Spalten a1, . . . , an

A =(a1 · · · an

)∈Mn,n(K)

invertierbar ist. Denn wenn es ein multiplikatives Inverses A−1 ∈Mn,n(K) zu A gibt,ist x = A−1b fur jedes b ∈ Kn eine Losung des linearen Gleichungssystems Ax = bund damit laßt sich jeder Vektor b ∈ Kn als Linearkombination der Spalten a1, . . . , anvon A (mit Koeffizienten x1, . . . , xn) darstellen.

Wir zeigen die Invertierbarkeit von A. Nach Ubungsaufgabe 2.4 gibt es Permu-tationsmatrizen P1, P2 ∈ Mn,n(K), so dass das Gauß-Verfahren auf P1AP2 ohneZeilen- und Spaltenvertauschungen auskommt. Nach Satz 1.16 auf Seite 12 gibt esT = (ti,j) ∈ UDn mit t11 = · · · = tnn = 1, B ∈ ODn, so dass

P1AP2 = TB.

Es genugt zu zeigen, dass es zu B eine inverse Matrix B−1 gibt, denn dann hatA = P−1

1 TBP−12 die Inverse A−1 = P2B

−1T−1P1.Sei O.B.d.A. P1 = P2 = In. Wir zeigen durch Widerspruch, dass fur B = (bij)

gilt

b11b22 · · · bnn 6= 0,

so dass nach Ubungsaufgabe 4.2 ein Inverses B−1 existiert. Angenommen, es gabe eini mit bii = 0. Wahle das maximale i mit bii = 0:

B =

bT1...bTn

=

i

∗ ∗ · · · · · · · · · · · · ∗

0. . . . . .

......

. . . ∗ . . ....

i...

. . . 0. . .

......

. . . bi+1,i+1

. . ....

.... . . . . . ∗

0 · · · · · · · · · · · · 0 bn,n

Dann gilt

bTi =n∑

j=i+1

λjbTj mit λi+1, . . . , λn ∈ K, (8)

2. Lineare Unabhangigkeit, Basen und Dimension 37

denn mit

B′ =

bi+1,i+1 ∗ · · · ∗

0. . . . . .

......

. . . . . . ∗0 · · · 0 bn,n

und b′Ti = (bi,i+1, . . . , bi,n) ist

b′Ti = x′

TB′

losbar durch x′T = b′Ti B−1. Dabei existiert B−1 wegen bi+1,i+1 · · · bn,n 6= 0.

Andererseits sind bT1 , . . . , bTn linear unabhangig, denn wegen A = TB gilt T−1aTi =

bTi . Da aT 7→ TaT Homomorphismus von Vektorraumen ist und die UmkehrabbildungaT 7→ TaT ebenfalls, ist aT 7→ T−1aT Isomorphismus von Vektorraumen. Damit folgtaus der linearen Unabhangigkeit von aT1 , . . . , a

Tn , dass b1, . . . , bn linear unabhangig sind

im Widerspruch zu (8). Also ist b11 · · · bnn 6= 0 und B und A sind invertierbar.

Lemma 3.21. Es gilt Kn ∼= Km genau dann, wenn n = m.

Beweis. Aus n = m folgt unmittelbar Kn ∼= Km. Umgekehrt zeigen wir, dass Kn ∼=

Km impliziert n = m. Angenommen, es sei Km ∼= K

n fur m < n. Dann gabe eseinen Vektorraum-Isomorphismus ψ : Kn → K

m und die Bilder ψ(e1), . . . , ψ(en)der Standardbasis e1, . . . , en des Kn waren gemaß Satz 3.18 linear unabhangig. NachSatz 3.20 ist andererseits ψ(e1), . . . , ψ(em) Basis des Km. Widerspruch, da alle Baseneines Vektorraums die gleiche Lange haben.

Lemma 3.22. Sei V ein K-Vektorraum. Dann sind folgende Aussagen aquivalent:

a) V ∼= Kn.

b) Jede Basis von V hat die Machtigkeit n.c) Die Maximalzahl linear unabhangiger Vektoren in V ist n.

Beweis. Die Aquivalenz a) ⇐⇒ b) folgt aus den Lemmata 3.19 und 3.21.Wir zeigen die Aquivalenz b) ⇐⇒ c). Seien b1, . . . , bm linear unabhangige

Vektoren, so dass m maximal ist. Dann gilt span(b1, . . . , bm) = V , denn jederVektor v ∈ V \ span(b1, . . . , bm) ist linear unabhangig von b1, . . . , bm. Somit istb1, . . . , bm eine Basis von V . Es folgt m = n, wobei n durch die Aquivalenz von a)und b) eindeutig erklart ist.

Alle Basen eines endlich erzeugten Vektorraums haben die gleiche Machtigkeit.Wir nennen diese Zahl die Dimension des Vektorraums. Da die Dimension endlich er-zeugter Vektorraume eine naturliche Zahl ist, nennt man solche Vektorraume endlichdimensional.

Definition 3.23 (Dimension). Sei V ein K-Vektorraum mit V ∼= Kn. Dann heißt

dimV := n die Dimension von V .

Der Begriff der linearen Unabhangigkeit liefert ein Kriterium fur die Invertierbar-keit von Matrizen:

38 3. Vektorraume

Satz 3.24 (Invertierbarkeitskriterium fur Matrizen). Fur quadratische Matrizen A ∈Mn,n(K) sind folgende Aussagen aquivalent:

a) A ∈ GLn(K), d.h. A ist invertierbar.

b) AT ∈ GLn(K), d.h. AT ist invertierbar.

c) Die Zeilen (Spalten) von A sind linear unabhangig.

Beweis. Betrachten wir die Aquivalenz a) ⇐⇒ b). Sei A invertierbar. Dann gibtes ein A−1 ∈ Mn,n(K) mit AA−1 = In. Es gilt (AA−1)T = ITn = In und somit(A−1)TAT = In. Also (AT )−1 = (A−1)T . Die Ruckrichtung folgt mit (AT )T = A undder gleichen Argumentation.

Wir weisen die Aquivalenz a) ⇐⇒ c) nach. Im Beweis zu Satz 3.20 wurde gezeigt,dass A invertierbar ist, wenn die Zeilen von A linear unabhangig sind. Fur regulareA hat das homogene lineare Gleichungssystem Ax = 0 nur die triviale Losung x = 0,denn die Abbildung ψ : x 7→ Ax ist invertierbar ψ−1 : y 7→ A−1y. Andererseits gilt:

aT1 , . . . , aTn sind linear abhangig ⇐⇒ Ax = 0 fur ein x ∈ Kn \ 0.

Also folgt, dass aT1 , . . . , aTn linear unabhangig sind.

Linear unabhangige Vektoren konnen zu einer Basis erganzt werden. Wir beginnenmit der Existenz einer solchen Erganzung:

Satz 3.25 (Basiserganzungssatz). Sei V ein K-Vektorraum mit n := dimV undU ⊆ V ein Untervektorraum von V mit m := dimU . Dann kann man jede Basisb1, . . . , bm von U zu einer Basis b1, . . . , bm, . . . , bn von V erweitern.

Beweis. Wir fuhren den Beweis durch vollstandige Induktion nach k := n−m:

• Die Induktionsverankerung erfolgt fur k = 0, indem wir zeigen, dass jedeBasis von U auch Basis von V ist, d.h. U = V . Dies gilt nach Satz 3.20 furV = K

n und damit wegen V ∼= Kn fur jedes V .

• Der Induktionsschritt erfolgt von k − 1 nach k. Wir wahlen bm+1 ∈ V \ U .Dann sind b1, . . . , bm+1 linear unabhangig. Sei U ′ = span(b1, . . . , bm+1).Die Induktionsannahme gilt fur U ′ und V wegen dimV − dimU ′ = k − 1.Also gibt es bm+2, . . . , bn so dass b1, . . . , bn Basis von V ist.

Dies war zu zeigen.

Aus dem Beweis des Basiserganzungssatzes folgt:

Korollar 3.26 (Austauschsatz von Steinitz). Sei BV Basis von V . Dann kann manim Basiserganzungssatz 3.25 die Vektoren bm+1, . . . , bn in BV wahlen.

Beweis. Es gibt ein bm+1 ∈ BV so dass b1, . . . , bm, bm+1 linear unabhangig ist.Damit kann bm+1 im Induktionsschritt in BV gewahlt werden.

In Anlehnung an den Satz uber die Machtigkeit der Vereinigung zweier endlicherMengen |X ∪Y | = |X|+ |Y |− |X ∩Y | formulieren wir einen Satz uber die Dimensionder Summe U + V := u+ v | u ∈ U, v ∈ V zweier Untervektorraume U, V :

2. Lineare Unabhangigkeit, Basen und Dimension 39

Satz 3.27 (Dimensionssatz). Sei W ein K-Vektorraum und U, V ⊆ W Untervek-torraume von W . Dann gilt

dim(U + V ) = dimU + dimV − dim(U ∩ V ).

Beweis. Wir fuhren einen direkten Beweis. Sei B eine Basis von U ∩ V . Nach Satz3.25 gibt es Basen B ∪ B′ von U sowie B ∪ B′′ von V . Wir zeigen, dass B ∪ B′ ∪ B′′eine Basis von U + V ist. Wegen span(B ∪ B′) = U und span(B ∪ B′′) = V gilt

U + V = span(B ∪ B′ ∪ B′′).Sei ∑

bi∈Bλibi +

∑b′i∈B′

λ′ib′i +

∑b′′i ∈B′′

λ′′i b′′i = 0.

Dann ist

U 3(∑

λibi +∑

λ′ib′i

)= −

∑λ′′i b′′i ∈ V

und∑λ′′i b′′i ∈ U ∩ V . Andererseits ist B ∪ B′′ linear unabhangig und B eine Basis

von U ∩ V . Aufgrund der Eindeutigkeit der Darstellung sind somit alle λ′′i = 0. AusSymmetriegrunden sind alle λ′i = 0. Weil B eine Basis ist, sind alle λi = 0, und derNullvektor hat nur die triviale Darstellung. Damit ist B ∪B′ ∪B′′ linear unabhangig.Weil B,B′,B′′ paarweise disjunkt sind gilt:

|B ∪ B′ ∪ B′′| = |B ∪ B′| + |B ∪ B′′| − |B|dim(U + V ) = dimU + dimV − dim(U ∩ V ).

Dies war zu zeigen.

Kapitel 4

Polynome

In diesem Abschnitt lernen wir den Vektorraum und Ring der Polynome kennen. Wirbetrachten Polynome dabei als formale, algebraische Objekte.

1. Vektorraum und Ring der Polynome

Sei K ein Korper und X /∈ K ein Symbol, das wir Unbestimmte nennen. Fur i ∈ Nbezeichne Xi die i-te Potenz von X, also

Xi := XX . . .X︸ ︷︷ ︸i Faktoren

.

Zusatzlich sei X0 := 1. Das Symbol X verhalt sich wie ein Korperelement, d.h. zumBeispiel ist die Multiplikation von Xi mit einem Korperelement λ ∈ K kommutativ,also Xi ·λ = λ·Xi. Wir suchen nicht, wie bei einem linearen Gleichungssystem Ax = b,eine Losung x, sondern betrachten X als formales Objekt. Um diesen Unterschiedhervorzuheben, verwenden andere Autoren als Unbestimmte statt X alternativ t oderτ .

Definition 4.1 (Polynom). Sei K ein Korper und X /∈ K ein Symbol. Ein Polynomp(X) uber K ist eine endliche (formale) Potenzreihe der Form

p(X) := p0 + p1X + p2X2 + · · ·+ pnX

n =n∑i=0

piXi

mit Koeffizienten p0, p1, . . . , pn ∈ K. Der Vektor

koeffvekn(p) := (p0, p1, . . . , pn) ∈ Kn+1

heißt der Koeffizientenvektor des Polynoms p(X). Als Nullpolynom bezeichnet mandas Polynom, dessen Koeffizienten alle Null sind.

Meist schreibt man kurz p statt p(X) und laßt bei der Darstellung∑n

i=0 piXi

diejenigen Monome piXi weg, deren Koeffizienten pi gleich Null sind. Fur das Null-

polynom schreiben wir einfach 0.

41

42 4. Polynome

Beispiel 4.2. Wir betrachten einige Beispiele von Polynomen uber R:

u = 9− 2X2 koeffvek2(u) = (9, 0,−2)

v = 1 + 2X + 4X2 + 16X4 koeffvek5(v) = (1, 2, 4, 0, 16, 0)

w = X koeffvek1(w) = (0, 1)

Definition 4.3 (Grad eines Polynoms). Sei p(X) =∑n

i=0 piXi ein Polynom ungleich

dem Nullpolynom. Der Grad deg p des Polynoms p ist gleich dem maximalen Index kmit pk 6= 0:

deg p = max i ∈ N0 | pi 6= 0 .

Fur das Nullpolynom definieren wir deg 0 := −∞. Das Nullpolynom und Polynomemit Grad 0 werden als konstante Polynome bezeichnet.

Manche Autoren setzen deg 0 := 0, allerdings muß dann in der Gradformel, diewir spater kennenlernen, der Fall der Nullpolynome gesondert betrachtet werden. DieRechenregeln fur −∞ sind einpragsam, interpretiert man −∞ als ”kleiner als jedeZahl“, so dass fur alle z ∈ R gilt

−∞+ z = −∞z + (−∞) = −∞

−∞+ (−∞) = −∞.

und −∞ < z. Einige Beispiele sollen die Definition des Grads von Polynomen ver-deutlichen:

Beispiel 4.4. Fur die Polynome u, v, w uber R gilt:

u = X + 7X2 + 0 ·X5 deg u = 2

v = 1 + 2X +X3 + 3X4 deg v = 4

w = X degw = 1

Zu einem Polynom p(X) =∑n

i=0 piXi vom Grad n ≥ 1 heißt der Koeffizient

pn der fuhrende Koeffizient von p. Ist der fuhrende Koeffizient 1, heißt das Polynomnormiert. Von den drei Polynomen in Beispiel 4.4 ist nur w ein normiertes Polynom,der fuhrende Koeffizient von u ist 7, der von v gleich 3.

Definition 4.5 (Gleichheit von Polynomen). Zwei Polynome p(X)=∑n

i=0 piXi und

q(X) =∑m

i=0 qiXi uber einem Korper K sind gleich, wenn deg p = deg q und pi = qi

fur i = 0, 1, . . . ,deg p.

Zur Definition ist aquivalent, dass zwei Polynome p, q uber einem Korper K genaudann gleich sind, wenn fur t := maxdeg p,deg q, 0

koeffvekt(p) = koeffvekt(q)

1. Vektorraum und Ring der Polynome 43

in Kt+1 ubereinstimmen.1 Insbesondere entspricht jeder Koeffizientenvektor einemeindeutig bestimmten Polynom und umgekehrt:

Lemma 4.6. Sei K ein Korper und K[X]n die Menge aller Polynome uber K mitGrad kleiner oder gleich n. Dann ist die Abbildung

koeffvekn : K[X]n → Kn+1,

n∑i=0

piXi 7→ (p0, p1, . . . , pn)

bijektiv.

Beweis. Aus der Voruberlegung folgt, dass die Abbildung koeffvekn injektiv ist,d.h. fur alle p(X), q(X) ∈ K[X]n mit koeffvekn(p) = koeffvekn(q) gilt auch die Gleich-heit p(X) = q(X) der Polynome. Die Abbildung ist ebenfalls surjektiv, denn fur allea = (a0, a1, . . . , an) ∈ Kn+1 ist p(X) =

∑ni=0 aiX

i ein Polynom mit koeffvekn(p) =a.

Zu zwei Polynomen p(X) =∑n

i=0 piXi und q(X) =

∑ni=0 qiX

i uber einem Korper Kdefinieren wir die Summe als

p(X) + q(X) :=n∑i=0

(pi + qi)Xi

und, da es sich ebenfalls um ein Polynom handelt, schreibt man kurz (p+ q)(X). InForm der Koeffizientenvektoren bedeutet die Addition:

koeffvekn(p+ q) = koeffvekn(p) + koeffvekn(q)

Wir fuhren zusatzlich die Multiplikation mit Korperelementen λ ∈ K ein (Skalarmul-tiplikation):

λ · p(X) :=n∑i=0

(λ · pi)Xi.

Da es sich ebenfalls um ein Polynom handelt, schreibt man kurz (λp)(X). In Formder Koeffizientenvektoren bedeutet die Multiplikation mit einem Skalar λ:

koeffvekn(λp) = λ · koeffvekn(p).

Beispiel 4.7. Betrachten wir ein Beispiel mit den beiden Polynomen p = X2 undq = 3X +X2 + 2X3 uber R:

3 · p+ 4 · q = (3X2) + (12X + 4X2 + 8X3) = 12X + 7X2 + 8X3.

Der Grad der Summe zweier Polynome p und q ist offenbar hochstens so groß wie dasMaximum von deg p und deg q. Er kann aber auch kleiner sein, wenn beide Polynomeden gleichen Grad haben und die Summe beider fuhrender Koeffizienten Null ist. ZumBeispiel:

(1 +X2) + (1−X2) = 2.

1Beachte: Fur p(X) = q(X) = 0 ist t = 0.

44 4. Polynome

Bei der Skalarmultiplikation bleibt der Grad des Polynoms erhalten, sofern der Skalarnicht die Null ist.

Korollar 4.8. Sei K ein Korper, p, q Polynome uber K und λ ∈ K \ 0. Dann gilt:

deg(p+ q) ≤ maxdeg p,deg qdeg(λp) = deg p.

Fur λ = 0 ist deg(λp) = −∞.

Betrachten wir die Menge der Polynome mit beschranktem Grad, so ist diese unterAddition und Multiplikation mit Skalaren abgeschlossen und bildet einen Vektorraum:

Satz 4.9 (Vektorraum der Polynome). Sei K ein Korper und K[X]n die Menge allerPolynome uber K mit Grad kleiner oder gleich n. Mit der Addition und der skalarenMultiplikation ist K[X]n ein K-Vektorraum der Dimension n+ 1.

Beweis. Die Koeffizientenfunktion koeffvekn : K[X]n → Kn+1 ist nach Lemma 4.6

bijektiv. Zusatzlich hat die Abbildung die homomorphen Eigenschaften

koeffvekn(p+ q) = koeffvekn(p) + koeffvekn(q)

koeffvekn(λ · p) = λ · koeffvekn(p),

so dass K[X]n isomorph zum Vektorraum Kn+1 der Dimension n+ 1 ist.

Eine Basis des K-Vektorraums K[X]n bilden die Polynome 1, X,X2, . . . , Xn, denn:

a) Jedes Polynom p(X) =∑n

i=0 piXi kann man als Linearkombination der

Polynome 1, X,X2, . . . , Xn mit Koeffizienten aus K, namlich p0, p1, . . . , pn,schreiben.

b) Die Polynome 1, X,X2, . . . , Xn sind linear unabhangig, weil aus∑n

i=0 λiXi =0 (beachte, 0 steht fur das Nullpolynom) mit λ0, λ1, . . . , λn ∈ K und der De-finition der Gleichheit von Polynomen folgt, dass λ0 = · · · = λn = 0 gilt.

Wir konnen diese Basis auch aus dem Isomorphismus koeffvekn : K[X]n → Kn+1

ableiten, da nach Satz 3.18 auf Seite 35 Isomorphismen Basen auf Basen abbilden.

Definition 4.10 (Produkt von Polynomen). Das Produkt p(X) · q(X) zweier Poly-nome p(X) =

∑ni=0 piX

i und q(X) =∑m

i=0 qiXi ist definiert als:

p(X) · q(X) :=n+m∑i=0

( i∑k=0

pkqi−k

)Xi =

n+m∑i=0

( ∑k+l=i

pkql

)Xi.

Dieses Produkt, man nennt es auch Konvolution oder Faltung, ist ebenfalls ein Po-lynom, fur dass wir kurz (p · q)(X) schreiben. Die Koeffizienten u0, u1, . . . , un+m des

1. Vektorraum und Ring der Polynome 45

Produkts u(X) = p(X) · q(X) bestehen aus den Summen

u0 = p0q0

u1 = p0q1 + p1q0

u2 = p0q2 + p1q1 + p2q0

...

un+m−2 = pn−2qm + pn−1qm−1 + pnqm−2

un+m−1 = pn−1qm + pnqm−1

un+m = pnqm.

Die Summen sind symmetrisch: Vertauschen von p(X) und q(X) andert nicht dasProdukt, da die Multiplikation im Korper kommutativ ist. Die Polynommultiplikationist daher ebenfalls kommutativ.

Die Konvolution entspricht genau dem Produkt, faßt man beide Polynome alsSummen mit der Variablen X auf:( n∑

i=0

piXi

)·( m∑i=0

qiXi

)=

n∑i=0

q0piXi +

n∑i=0

q1piXi+1 + · · ·+

n∑i=0

qmpiXi+m

Nach Ordnen der Monome erhalten wie die Formel zur Polynommultiplikation.

Satz 4.11 (Gradformel fur Polynome). Seien p(X) und q(X) Polynome uber einemKorper. Dann gilt fur den Grad des Produktes

deg(p · q) = deg p+ deg q.

Beweis. Sei u = p · q das Produkt der beiden Polynome: Nehmen wir zunachst an, pund q seien ungleich dem Nullpolynom. Mit

p(X) =deg p∑i=0

piXi und q(X) =

deg q∑i=0

qiXi

folgt aus der Definition der Konvolution

u =deg p+deg q∑

i=0

( i∑k=0

pkqi−k

)Xi

dass deg(p · q) ≤ deg p+ deg q gilt. Wegen

udeg p+deg q =6=0︷ ︸︸ ︷pdeg p ·

6=0︷ ︸︸ ︷qdeg q 6= 0

ist der Grad von u mindestens deg p+deg q, so dass die Gleichheit gilt.2 Falls p oder qdas Nullpolynom ist, trifft dies auch auf das Produkt u zu und die Behauptung folgtaus den Rechenregeln fur −∞.

2Beachte: Der Schluß, dass das Produkt ungleich Null ist, wenn beide Faktoren ungleich Nullsind, gilt in einem Ring im allgemeinen nicht.

46 4. Polynome

Aus der Gradformel folgt, dass K[X]n kein Ring ist, denn zu p ∈ K[X]n mit deg p = ngilt p · p /∈ K[X]n wegen deg(p · p) = 2n. Beschranken wir aber nicht den Grad derPolynome, erhalt man einen Ring:

Satz 4.12 (Polynomring). Sei K ein Korper. Dann ist die Menge K[X] aller Poly-nome uber K ein kommutativer, nullteilerfreier Ring mit Eins.

Die Korperelemente K bettet man als konstante Polynome in den Ring K[X] ein undschreibt K fur die Menge der konstanten Polynome des Ringes K[X].

Beweis. Summe und Produkt zweier Polynome sind ebenfalls Polynome, so dass zuzeigen ist:

a) (K[X],+) ist eine abelsche Gruppe.b) Die Multiplikation ist assoziativ und kommutativ, es existiert ein Einsele-

ment.c) Distributivgesetze: Fur alle u, v, w ∈ K[X] gilt Linksdistributivitat:

u(v + w) = u · v + u · w.Wegen der Kommutativitat der Multiplikation gilt damit auch Rechtsdistri-butivitat:

(v + w)u = v · u+ w · u.

Die Nullteilerfreiheit folgt aus der Gradformel (Satz 4.11). Man rechnet leicht nach,dass (K[X],+) eine abelsche Gruppe ist. Das neutrale Element bezuglich der Additionist das Nullpolynom.

Die Multiplikation ist wie bereits gezeigt kommutativ, und das neutrale Elementbezuglich der Multiplikation ist das konstante Polynom p(X) = 1. Fur den Nachweisder Assoziativitat betrachten wir den i-ten Koeffizienten des Produkts u(vw):

∑r+j=i

ur

=(v·w)j︷ ︸︸ ︷( ∑s+t=j

vswt

)=∑r+j=i

∑s+t=j

urvswt (Assoziativitat von (K, ·))

=∑

r+s+t=i

urvswt

=∑j+t=i

( ∑r+s=j

urvs

)︸ ︷︷ ︸

=(u·v)j

·wt.

Dieser stimmt mit dem i-ten Koeffizienten des Produkts (uv)w uberein. Die einzelnenKoeffizienten der beiden Polynome u(vw) und (uv)w sind identisch, so dass (uv)w =u(vw) fur alle u, v, w ∈ K[X] gilt.

Fur den Nachweis des Distributivgesetzes betrachten wir den i-ten Koeffizientenvon u(v + w) und verwenden, dass im Korper das Distributivgesetz gilt:∑

r+s=i

ur(vs + ws) =∑r+s=i

(urvs + urws) =∑r+s=i

urvs +∑r+s=i

urws

1. Vektorraum und Ring der Polynome 47

Dieser stimmt mit dem i-ten Koeffizienten der Summe uv + uw uberein und wirerhalten u(v + w) = u · v + u · w fur alle u, v, w ∈ K[X].

In der Schule lernt man bereits Polynome kennen, genauer Polynomfunktionen. Stattals formale, endliche Potenzreihe faßt man p(X) =

∑ni=0 piX

i als Funktion p : R→ R

mit

p : x 7→ p(x) :=n∑i=0

pixi ∈ R

auf. Diese Anschauung als Funktionen unterscheidet sich aber von unserer Betra-chungsweise. Zum Beispiel konnen zwei Polynome p, q ∈ K[X] verschieden sein, auchwenn die zugehorigen Polynomfunktionen identisch sind, also p(x) = q(x) fur allex ∈ K gilt. Sei zum Beispiel K = Z2, d.h. Addition und Multiplikation erfolgenmodulo 2, und betrachte das Polynom p(X) = X2 +2 X ∈ Z2[X]:

p(0) = 02 +2 0 = 0

p(1) = 12 +2 1 = 0.

Obwohl die Werte der zugehorigen Polynomfunktion mit der des Nullpolynoms uber-einstimmt, sind fur uns beide Polynome nicht gleich.

Die Polynomfunktion p : x 7→ p(x) ist kein Korperhomomorphismus, denn zumBeispiel fur K = R und p(X) = X2 gilt p(1 + 2) 6= p(1) + p(2). Wir erhalten abereinen Einsetzungshomomorphismus, wenn man die Stelle x fixiert und als ArgumentPolynome wahlt:

Satz 4.13 (Einsetzungshomomorphismus). Sei K[X] ein Polynomring und x ∈ K einKorperelement. Dann ist die Abbildung

ϕx : K[X]→ K, p(X) 7→ p(x) :=∑i≥0

pixi

ein Ringhomomorphismus, den man Einsetzungshomomorphismus nennt.

Beweis. Wir mussen die beiden Homomorphie-Eigenschaften Additivitat und Ho-mogenitat nachweisen. Seien p, q ∈ K[X] mit

p(X) =n∑i=0

piXi und q(X) =

m∑i=0

qiXi.

Zum Nachweis der Additivitat sei o.B.d.A. m = n (erweitere gegebenenfalls das Po-lynom geringeren Grades um die entsprechenden Monome mit Koeffizient Null). Esgilt

ϕx(p+ q) =n∑i=0

(pi +K qi)xi =n∑i=0

pixi +K

n∑i=0

qixi = ϕx(p) + ϕx(q),

48 4. Polynome

wegen des Distributivgesetzes in K. Analog zeigt man die Homogenitat ϕx(p · q) =ϕx(p) · ϕx(q):

ϕx(p) · ϕx(q) =( n∑i=0

pixi

)·( m∑i=0

qixi

)

=n∑i=0

piq0xi +

n∑i=0

piq1xi+1 + · · ·+

n∑i=0

piqmxi+m

=n+m∑i=0

( i∑k=0

pkqi−k

)xi

= ϕx(p · q).Wir haben das Distributivgesetz verwendet und dass Addition und Multiplikation inK kommutativ sind. An welchen Stellen?

Wir haben Polynome uber einem Korper K betrachtet. Allgemeiner definiert manPolynome uber kommutativen Ringen R mit Eins. Analog zu Satz 4.12 zeigt man,dassR[X] ebenfalls ein kommutativer Ring mit Eins ist. Dann gilt aber im allgemeinen

deg(p · q) ≤ deg p+ deg q,

denn es ist moglich, dass das Produkt beider fuhrender Koeffizienten Null ist (zumBeispiel 2X · 2X2 ∈ Z4[X]). Falls R Nullteiler enhalt, so auch der Polynomring R[X].Ein bekanntes Beispiel fur Polynomringe uber einem Ring ist der Ring Z[X] allerPolynome mit ganzzahligen Koeffizienten. Fur diesen Ring Z[X] gilt aber weiterhindie Gleichheit bei der Gradformel — Warum?

2. Division mit Rest

Wir haben bereits in Kapitel 2.5 die Division mit Rest im Ring Z kennengelernt. Zua ∈ Z, b ∈ Z \ 0 existieren eindeutig bestimmte Zahlen q, r ∈ Z mit

a = qb+ r und 0 ≤ r < |b|.Die Zahl r heißt Divisionsrest. Ein analoges Resultat leiten wir fur den PolynomringK[X] her, wobei man statt des Absolutbetrags den Grad des Polynoms verwendet.

Satz 4.14 (Polynomdivision). Sei K ein Korper und K[X] ein Polynomring sowiea, b ∈ K[X] und b nicht das Nullpolynom. Dann existieren eindeutig bestimmte Poly-nome q, r ∈ K[X] mit

a = qb+ r und deg r < deg b.

Beweis. Da b nicht das Nullpolynom ist, gilt deg b ≥ 0. Wir beweisen die Aussagein zwei Schritten:

(1) Zunachst zeigen wir die Existenz und anschließend,(2) dass die Polynome q, r ∈ K[X] eindeutig bestimmt sind.

Die erste Behauptung ist offensichtlich, wenn deg a < deg b, da dann q = 0 und r = adie Bedingung erfullen. Wir zeigen durch Induktion uber deg a, dass die Aussage auchfur deg a ≥ deg b ≥ 0 gilt.

2. Division mit Rest 49

• Verankerung: Sei deg a = 0, also a(X) = a0. Wegen deg b ≤ deg a und b 6= 0hat das Polynom b die Form b(X) = b0. Setze q := a0b

−10 und r = 0.

• Induktionsschritt: Sei n := deg a > 1 und m := deg b ≤ n. Wir nehmen an,die Behauptung sei bereits fur alle Polynome a′, b ∈ [X] mit deg a′ < n ge-zeigt und belegen die Behauptung fur n. Nach Induktionsannahme existierenzu a′, b ∈ K[X] mit deg a′ < n Polynome q′, r′ ∈ K[X] mit

a′ = q′b+ r′ und deg r′ < deg b.

Setze q′′ := anb−1m Xn−m und a′ := a − q′′b. Man rechnet leicht nach, daß

deg(q′′b) = n sowie die beiden Polynome q′′b und a den gleichen fuhrendenKoeffizienten an haben. Dieser hebt sich in der Differenz a′ = a − q′′b weg,so dass deg a′ < n gilt.

Auf dieses Polynom a′ wenden wir die Induktionsannahme an. Es gibtPolynome q′, r′ ∈ K[X] mit

a′ = q′b+ r und deg r′ < deg b.

Es gilt

a = q′′b+ a′ = q′′b+ q′b+ r = (q′′ + q′)b+ r′

wobei deg r′ < deg b. Mit q := q′′ + q′ und r := r′ erhalten wir die Behaup-tung.

Es ist noch die Eindeutigkeit nachzuweisen. Seien q, r, q′, r′ ∈ K[X] Polynome mit

a = qb+ r und deg r < deg b

a = q′b+ r′ und deg r′ < deg b.

Wir zeigen q = q′ und r = r′. Aus 0 = a− a = qb+ r − (q′b+ r) erhalt man:

(q − q′)b = r − r′.

Wegen deg(r − r′) ≤ maxdeg r, deg r′ < deg b ist der Grad des Polynoms (q − q′)bkleiner als der des Polynoms b. Aus der Gradformel fur Polynome

deg(q − q′) + deg(b) = deg((q − q′)b) < deg b

ergibt sich deg(q − q′) = −∞ oder aquivalent, daß q − q′ das Nullpolynom ist. Alsoist q = q′ und r = a− qb = a− q′b = r′.

Betrachten wir ein Beispiel zur Division mit Rest:

Beispiel 4.15. Wir wollen das Polynom X5 durch X2 − 1 uber einem beliebigemKorper dividieren.

X5 : (X2 − 1) = (X2 − 1) · (X3 +X) +XX5 −X3

X3

X3 −XX

50 4. Polynome

Man kann zeigen, dass der Divisionrest von Xk durch (Xn − 1) gleich Xk mod n ist.Allgemeiner ist der Divisionsrest eines Polynoms dividiert durch (Xn − 1):

m∑i=0

piXi mod (Xn − 1) =

m∑i=0

piXi mod n.

Sei f ∈ K[X] ein nicht-konstantes Polynom, zum Beispiel Xn − 1. Wie im Fallder ganzen Zahlen fuhrt man fur p, q ∈ K[X] Addition und Multiplikation verbundenmit einer Modulo-Reduktion durch:

p+f q := (p+ q) mod f

p ·f q := (p · q) mod f

Wie im Fall der ganzen Zahlen modulo n, die wir in Abschnitt 5 untersucht haben,kann man uber die Restklassen modulo f einen Ring definieren. Den entstehendenRing bezeichnet man als Faktorring und schreibt K[X]/(f). Fur geeignete Polynomeist dies sogar ein Korper, wie wir in Kapitel 15 ab Seite 191 sehen werden.

Beispiel 4.16. Sei K = Z2 und f(X) := X2 +X + 1. Da der Divisionsrest den Gradkleiner als deg(X2 + X + 1) = 2 hat, besteht Z2[X]/(f) genau aus den Polynomenmit Grad maximal 1:

0, 1, X,X + 1.

Fur die Addition gilt

(a+ bX+) +f (a′ + b′X) = (a+ a′) + (b+ b′)X.

Die Multiplikationstabelle sieht wie folgt aus:

· 0 1 X X + 10 0 0 0 01 0 1 X X + 1X 0 X X + 1 1

X + 1 0 X + 1 1 X

Der Leser uberzeuge sich, dass F4 := Z2[X]/(f) ein Korper mit vier Elementen ist.F4 hat den Unterkorper 0, 1.

Beispiel 4.17. Untersuchen wir zum Abschluß ein weiteres Beispiel, namlich K = R

und f(X) = X2 + 1. Da der Divisionsrest den Grad kleiner als deg(X2 + 1) = 2 hat,besteht R[X]/(f) genau aus den Polynomen mit Grad maximal 1:

R[X]/(X2 + 1) = a+ bX | a, b ∈ R .Fur die Addition gilt

(a+ bX) +f (a′ + b′X) = (a+ a′) + (b+ b′)X

und wegen X2 mod f = −1 erhalten wir fur das Produkt:

(a+ bX) ·f (a′ + b′X) = (aa′ + ab′X + a′bX + bb′X2) mod f

= (aa′ + ab′X + a′bX − bb′) mod f

= aa′ − bb′ + (a′b+ ab′)X

3. Nullstellen 51

Man kann nachrechnen, dass dies ein Korper ist (aufwendig!). Allerdings kennen wirdiesen Korper bereits: Man uberzeuge sich, dass die Abbildung

ψ : C→ R[X]/(X2 + 1), a+ ib 7→ a+ bX

einen Isomorphismus bildet, also ψ(x+ y) = ψ(x) +f ψ(y) und ψ(x · y) = ψ(x) ·f ψ(y)erfullt sowie bijektiv ist. Dann gilt

R[X]/(X2 + 1) ' C

und es folgt, dass R[X]/(X2 + 1) wie C ein Korper ist.

3. Nullstellen

Wir wollen die Nullstellen von Polynomen untersuchen. Vor allem interessieren wir unsfur Nullstellen von Polynomen p ∈ C[X] uber dem Korper C und seinem UnterkorperR.

Definition 4.18 (Nullstelle). Sei p(X) =∑n

i=0 piXi ∈ K[X] ein Polynom uber

einem Korper K und K′ ⊆ K ein Unterkorper von K. Ein Element λ ∈ K′ heißtNullstelle oder Wurzel von p (uber K′), falls

∑ni=0 piλ

i = 0.

Ein konstantes Polynom p(X) = p0 hat nur dann eine Nullstelle, wenn es das Nullpo-lynom ist. Falls ein Polynom eine Nullstelle λ hat, kann man den Linearfaktor (X−λ)abspalten:

Satz 4.19 (Satz von Ruffini). Sei p ∈ K[X] ein Polynom (ungleich dem Nullpolynom)mit Nullstelle λ ∈ K. Dann gibt es ein Polynom q ∈ K[X] mit

p = (X − λ)q und deg q = deg p− 1

Beweis. Division mit Rest von p durch (X − λ) ergibt:

p = q(X − λ) + r mit deg r < 1.

Der Rest r ist ein konstantes Polynom. Der Einsetzungshomomorphismus liefert mit

0 = ϕλ(p) = ϕλ(q) · ϕλ(X − λ)︸ ︷︷ ︸=0

+ϕλ(r) = ϕλ(r),

dass ϕλ(r) = 0 und das Polynom r eine Nullstelle hat. Also ist r das Nullpolynom.

Es ist moglich, dass man den Linearfaktor (X − λ) mehrfach abspalten kann.

Definition 4.20 (Vielfachheit einer Nullstelle). Sei λ ∈ K die Nullstelle eines Poly-noms p ∈ K[X] ungleich dem Nullpolynom. Die großte Zahl ν ≥ 1 mit

p = (X − λ)νq und q ∈ K[X]

heißt die Vielfachheit der Nullstelle λ.

Die Anzahl der Nullstellen und ihre Mehrfachheiten laßt sich durch den Grad desPolynoms nach oben abschatzen:

52 4. Polynome

Lemma 4.21. Sei p ∈ K[X] ein Polynom uber einem Korper K, das ungleich demNullpolynom ist. Seien λ1, . . . , λm ∈ K Nullstellen von p und ν1, . . . , νm ihre Vielfach-heiten. Dann gilt

m∑i=1

νi ≤ deg p.

Insbesondere ist die Anzahl der Nullstellen maximal deg p.

Beweis. Wir wenden iterativ Satz 4.19 an und erhalten

p =m∏i=1

(X − λi)νiq

mit q ∈ K[X] ungleich dem Nullpolynom (formal durch einen einfachen Indukti-onsbeweis uber die Anzahl der Nullstellen, wobei vielfache Nullstellen entsprechendmehrfach gezahlt werden, zu belegen). Aus der Gradformel erhalten wir:

deg p =m∑i=1

νi + deg q

Mit deg q ≥ 0 folgt die Behauptung.

Wir schließen weiter:

Korollar 4.22. Sei p(X) =∑n

i=0 piXi ein Polynom uber einem Korper K. Das

Polynom p ist genau dann das Nullploynom, wenn es mehr als n Nullstellen hat.

Beweis. Falls p das Nullpolynom ist, gilt die Aussage offenbar. Fur p ungleich demNullpolynom hat es nach Lemma 4.21 maximal deg p ≤ n Nullstellen.

Das Polynom p(X) := 2X2 + 2 ∈ C[X] hat uber R keine Nullstellen, uber denkomplexen Zahlen C allerdings die beiden Nullstellen ±i. Man sagt, es zerfallt uberC in Linearfaktoren:

2X2 + 2 = 2(X + i)(X − i)

Wir wollen mit Hilfe des Fundamentalsatzes der Algebra, den C.F. Gauß3 erstmals

1799 in seiner Dissertation bewies, zeigen, dass jedes nicht-konstante Polynom in C[X]in Linearfaktoren zerfallt.

Fakt 4.23 (Fundamentalsatz der Algebra). Jedes nicht-konstante Polynom p ∈ C[X]hat mindestens eine Nullstelle uber C.

Es gibt zahlreiche Beweise (u.a. hat auch Gauß spater weitere Beweise gegeben),die allerdings Hilfsmittel aus der Analysis verwenden. Wir verwenden den Fundamen-talsatz, um nachstehendes Resultat zu folgern:

Lemma 4.24. Jedes Polynom p ∈ C[X] ungleich dem Nullpolynom zerfallt in Line-arfaktoren, d.h. es gibt a, λ1, . . . , λn ∈ C mit a 6= 0, n = deg p und

p(X) = a · (X − λ1)(X − λ2) · · · (X − λn).

3Carl Friedrich Gauß, 1777–1855, siehe Fußnote auf Seite 4

3. Nullstellen 53

Beweis. Wir zeigen die Aussage durch Induktion uber n = deg p.

• Induktionsverankerung fur n = 0. Das Polynom hat die Form p(X) = p0.Mit a := p0 6= 0 folgt die Behauptung.

• Induktionsschluß von n − 1 auf n. Nach Induktionsannahme zerfallen allePolynome q ∈ C[X], deren Grad gleich n− 1 ≥ 0 ist, in Linearfaktoren.

Gemaß Fundamentalsatz der Algebra hat das Polynom p(X) ∈ C[X] eineNullstelle λ1 ∈ C. Aus Satz 4.19 erhalten wir:

p(X) = (X − λ1)q(X)

mit λ1 ∈ C, q(X) ∈ C[X] und deg q = n − 1. Nach Induktionsannahmezerfallt q(X) in Linearfaktoren, d.h. es gibt a, λ2, λ3, . . . , λn ∈ C mit

q(X) = a · (X − λ2)(X − λ3) · · · (X − λn).

Mit p(X) = (X − λ1)q(X) folgt die Behauptung.

Eine Zerlegung in Linearfaktoren ist uber R im allgemeinen nicht moglich, wie dasBeispiel des Polynoms 2X2 +2 zeigt. Aber wir werden sehen, dass man jedes Polynomp(X) ∈ R[X] als Produkt von Linearfaktoren und Polynomen zweiten Grades in R[X]schreiben kann.

Lemma 4.25. Sei p ∈ R[X] ungleich dem Nullpolynom und λ ∈ C eine Nullstellevon p. Dann ist auch die konjugierte komplexe Zahl4 λ eine Nullstelle von p undinsbesondere stimmen die Vielfachheiten der Nullstelle λ und λ uberein.

Beweis. Sei p(X) :=∑n

i=0 piXi. Wegen pi = pi folgt aus den Homomorphie-Eigen-

schaften von x 7→ x

0 = 0 =n∑i=0

piλi =n∑i=0

piλi =n∑i=0

piλi,

so dass λ ebenfalls eine Nullstelle ist.Fur die Aussage der Vielfachheit bezeichne ν(p, x) die Vielfachheit der Nullstelle

x des Polynoms p. Im Fall, dass die vorgegebene Nullstelle λ reell ist, also λ ∈ R,gilt λ = λ und ν(p, λ) = ν(p, λ ). Wir zeigen durch Induktion uber ν(p, λ), dass furλ ∈ C \ R gilt

ν(p, λ) ≤ ν(p, λ ). (9)

• Induktionsverankerung ν(p, λ) = 1: Weil mit λ auch λ eine Nullstelle ist, giltν(p, λ) = 1 ≤ ν(p, λ ).

• Induktionsschluß von ν(p, λ) − 1 auf ν(p, λ): Wir nehmen an, dass fur allePolynome p′ mit Nullstelle λ und ν(p′, λ) = ν(p, λ)− 1 gilt:

ν(p′, λ) ≤ ν(p′, λ ). (10)

4Zur Erinnerung: a+ ib = a− ib. Die Abbildung x 7→ x ist ein Automorphismus des Korpers Cmit x = x. Es gilt y = y gdw. y ∈ R.

54 4. Polynome

Da mit λ ebenfalls λ 6= λ eine Nullstelle ist, konnen wir gemaß Satz 4.19 diebeiden Linearfaktoren (X − λ) und (X − λ ) abspalten:

p = (X − λ)(X − λ ) · p′

Weil ν(p′, λ) = ν(p, λ) − 1 ist, wenden wir die Induktionsannahme (10) anund erhalten mit ν(p′, λ ) = ν(p, λ )− 1 die Behauptung (9).

Die Abschatzung ν(p, λ) ≥ ν(p, λ) folgt bereits aus Ungleichung (9), man setze λ← λ

und beachte λ = λ. Damit ist die Gleichheit bewiesen.

Sei λ := a+ ib ∈ C \R und λ = a− ib die konjugiert komplexe Zahl (beachte λ 6= λ).Das normierte Polynom

q(X) := (X − λ)(X − λ )

= (X − a− ib)(X − a+ ib)

= X2 − aX − ibX − aX + a2 + iab+ ibX − iab− i2b2

= X2 − 2aX + a2 + b2

hat zwar reelle Koeffizienten, aber keine Nullstelle uber R (Warum?). Nach Lemma4.24 zerfallt jedes Polynom p(X) mit reellen Koeffizienten uber C in Linearfaktoren.Wir fassen die Linearfaktoren (X − λ) und (X − λ ) der echt komplexen Nullstellenλ des Polynoms p(X) zusammen, nach Lemma 4.25 treten sie jeweils paarweise auf:

Satz 4.26. Jedes Polynom p ∈ R[X] ungleich dem Nullpolynom hat eine Zerlegung

p(X) = a(X − λ1)(X − λ2) . . . (X − λr) · q1(X) · q2(X) · · · qc(X)

mit a, λ1, λ2, . . . , λr ∈ R, a 6= 0, und normierten Polynomen q1(X), . . . , qc(X) ∈R[X] vom Grad 2 ohne Nullstelle uber R. Insbesondere hat das Polynom p genau rNullstellen uber R und es gilt deg p = r + 2c.

Aus der Gleichung deg p = r + 2c erhalten wir fur Polynome p mit ungeradem Grad,dass r ebenfalls ungerade ist.

Korollar 4.27. Jedes Polynom p ∈ R[X] mit ungeradem Grad hat mindestens eineNullstelle uber R.

Der Fundamentalsatz der Algebra ist eine reine Existenzaussage, aus dem Satz laßtsich kein Verfahren zur Bestimmung von Nullstellen ableiten. Fur ein Polynom aX2 +bX + c ∈ C[X] zweiten Grades erhalten wir die Nullstellen λ1, λ2 aus der seit uber2000 Jahren bekannten pq-Formel

λ1,2 =−b±

√b2 − 4ac

2a.

Etwas kompliziertere Formeln dieser Art gibt es auch fur Polynome vom Grad 3 und4. Die Formel fur Polynome dritten Grades veroffentlichte 1545 G. Cardano

5, aller-dings wurde sie bereits um 1515 von S. del Ferro (1465–1526) oder N. Fontana

6

gefunden, aber nicht publiziert. Cardanos Schuler L. Ferrari (1522–1565) fuhrte5Geronimo Cardano, 1501–1576, siehe Fußnote auf Seite 16.

6auch Tartaglia, d.h. Stotterer, genannt.

4. Interpolation 55

um 1540 den Fall eines Polynoms vierten Grades auf die Nullstellenbestimmung einesPolynoms dritten Grades zuruck.

Fur Polynome ab Grad 5 hat 1826 N.H. Abel7 gezeigt, dass es solche allgemeinen

Formeln aus algebraischen Grunden nicht geben kann. Fur praktische Anwendungkennt man in der angewandten Mathematik bzw. Numerik aber effiziente Verfahrenzur Bestimmung oder Approximation von Nullstellen von Polynomen.

4. Interpolation

Wir haben zu einem Polynom p(X) ∈ K[X]n die Polynomfunktion x 7→ p(x) kennen-gelernt. In diesem Abschnitt suchen wir zu gegebenen Punkten (ai, bi), i = 0, . . . , n,ein Polynom p ∈ K[X]n mit p(ai) = bi fur alle i. Die Motivation fur diese Fra-gestellung, dem Interpolationsproblem, ist vielfaltig. Haufig sollen gemessene Datengeeignet verbunden werden. In der Mathematik ist Interpolation ein Hilfsmittel furdie Approximation von Funktionen. In der Informatik kennt man ein Verfahren ba-sierend auf der Interpolation, um zwei Polynome schneller als mit der Schulmethodezu multiplizieren.

Definition 4.28 (Interpolationsproblem). Sei K ein Korper. Das Interpolationspro-blem lautet:

• Gegeben n+ 1 Paare (ai, bi) ∈ K2, i = 0, . . . , n, mit paarweise verschiedeneai.

• Finde ein Polynom p ∈ K[X]n mit p(ai) = bi fur i = 0, . . . , n.

Die Werte a0, . . . , an heißen Stutzstellen, die eindeutig bestimmte Losung p(X) nenntman Interpolationspolynom.

Bevor wir die Existenz des Interpolationspolynoms zeigen, beweisen wir, dass, wennes existiert, in diesem Fall eindeutig bestimmt ist:

Lemma 4.29. Es gibt hochstens ein Interpolationspolynom.

Beweis. Seien p, q ∈ K[X]n Interpolationspolynome. Wir zeigen, dass p = q oderaquivalent d := p − q das Nullpolynom ist. Nach Lemma 4.8 ist der Grad des Diffe-renzpolynoms d durch n beschrankt:

deg d = deg(p− q) ≤ maxp, q ≤ n.

Das Differenzpolynom d =∑n

i=0 diXi hat mindestens n + 1 Nullstellen, denn beide

Polynome p und q nehmen an den Stutzstellen a0, . . . , an jeweils den gleichen Wertan:

d(ai) = p(ai)− q(ai) = bi − bi = 0 fur i = 0, . . . , n.

Nach Korollar 4.22 ist das Polynom d das Nullpolynom.

7Niels Hendrik Abel, 1802–1829, siehe Fußnote auf Seite 21.

56 4. Polynome

Um zu zeigen, dass das Interpolationspolynom existiert und wie man es berechnenkann, fassen wir Koeffizienten des gesuchten Polynoms p(X) =

∑ni=0 piX

i als Unbe-kannte auf. Wir suchen p0, . . . , pn ∈ K mit

p(ai) =n∑j=0

pjaji = bi fur i = 0, . . . , n.

Dies ist ein lineares Gleichungsystem in den n+ 1 Variablen p0, . . . , pn:1 a0 a2

0 · · · an01 a1 a2

1 · · · an1...

......

...1 an a2

n · · · ann

︸ ︷︷ ︸

=:Vn+1(a0,a1,...,an)

·

p0

p1...pn

=

b0b1...bn

. (11)

Der Rang der (n+1)×(n+1)-Koeffizientenmatrix Vn+1(a0, . . . , an) ist maximal n+1,so dass das lineare Gleichungsystem (11) losbar ist. Da hochstens ein Interpolations-polynom, d.h. eine Losung des linearen Gleichungsystems, existiert, ist der Rang derKoeffizientenmatrix gleich n+ 1.

Satz 4.30 (Interpolationspolynom). Sei K ein Korper. Zu n+1 Paaren (ai, bi) ∈ K2,i = 0, . . . , n, mit paarweise verschiedenen ai gibt es genau ein Interpolationspolynomp ∈ K[X]n, so dass p(ai) = bi fur i = 0, . . . , n.

Eine Matrix der Form Vn+1(a0, . . . , an) heißt Vandermonde-Matrix. Falls die Wer-te a0, . . . , an paarweise verschieden sind, hat die Matrix vollen Rang, denn zum linea-ren Gleichungssystem (11) existiert genau eine Losung. Sollten zwei Werte ai, aj miti 6= j identisch sein, sind zwei Zeilen der Koeffizientenmatrix gleich und die Matrixhat nicht vollen Rang.

Korollar 4.31 (Vandermonde-Matrix). Sei K ein Korper und a0, . . . , an−1 ∈ K. Dien× n-Vandermonde-Matrix

Vn(a0, . . . , an−1) =

1 a0 a2

0 · · · an−10

1 a1 a21 · · · an−1

1...

......

...1 an−1 a2

n−1 · · · an−1n−1

hat genau dann vollen Rang, wenn a0, . . . , an−1 paarweise verschieden sind.

Das Interpolationspolynom konnen wir mit dem Gauß-Algorithmus bestimmen. Uber-licherweise verwendet man die Lagrange’sche Form des Interpolationspolynoms. Zugegebenen Stutzstellen a0, . . . , an sei

`i(X) :=n∏j=0j 6=i

X − ajai − aj

fur i = 0, . . . , n.

4. Interpolation 57

Diese Polynome `i(X) ∈ K[X]n heißen Lagrange-Koeffizienten oder auch Lagrange-Polynome. Man rechnet leicht folgende charakteristische Eigenschaft der Lagrange-Koeffizienten nach:

`i(ak) = δi,k =

1 falls i = k

0 falls i 6= k.

Das gesuchte Interpolationspolynom lautet in der Lagrange’schen Form

L(X) :=n∑i=0

`i(X) · bi.

Offenbar ist L(ai) = bi und wegen deg `i(X) ≤ n gilt L(X) ∈ K[X]n.

Beispiel 4.32. Wir suchen ein Polynom p ∈ R[X]2 mit p(1) = 3, p(2) = 5 undp(3) = 10. Die Lagrange-Koeffizienten lauten

`0(X) =(X − 2)(X − 3)(1− 2)(1− 3)

= 12(X2 − 5X + 6)

`1(X) =(X − 1)(X − 3)(2− 1)(2− 3)

= −(X2 − 4X + 3)

`2(X) =(X − 1)(X − 2)(3− 1)(3− 2)

= 12(X2 − 3X + 2).

Das gesuchte Polynom lautet

p(X) = 3 · `0(X) + 5 · `1(X) + 10 · `2(X)

= 32X

2 − 52X + 4.

Man uberzeuge sich durch Nachrechnen, dass die Losung korrekt ist.

Kapitel 5

Der Rang vonMatrizen

Unser Ziel ist die Entwicklung eines Kriteriums fur die Losbarkeit von inhomogenenlinearen Gleichungssystemen sowie fur die Bestimmung der Dimension des Losungs-raums des zugehorigen homogenen linearen Gleichungssystems.

1. Zeilenrang und Spaltenrang

Die Spaltenvektoren einer Matrix erzeugen einen Untervektorraum, den sogenanntenSpaltenraum der Matrix:

Definition 5.1 (Spaltenraum, Spaltenrang). Sei A = (A1, . . . , An) ∈Mm,n(K) Ma-trix mit den Spalten A1, . . . , An ∈ Km. Dann nennen wir

SR(A) := span(A1, . . . , An)

den Spaltenraum von A. Die Dimension des Spaltenraums dim SR(A) nennen wir denSpaltenrang von A.

Nach Lemma 3.22 ist die Dimension des Spaltenraums gleich der maximalen Zahllinear unabhangiger Spalten einer Matrix. Fur die Zeilen einer Matrix definiert mananalog Zeilenraum und Zeilenrang :

Definition 5.2 (Zeilenraum, Zeilenrang). Sei A = (z1, . . . , zm)T ∈Mm,n(K) Matrixmit Zeilen zT1 , . . . , z

Tm ∈M1,n(K). Dann nennen wir

ZR(A) := span(z1, . . . , zm)

den Zeilenraum von A. Die Dimension des Zeilenraums dim ZR(A) heißt Zeilenrangvon A.

Auch in diesem Fall gilt wegen Lemma 3.22, dass die Dimension des Zeilenraumsgleich der maximalen Zahl linear unabhangiger Zeilen ist.

Spaltenraum und Zeilenraum einer Matrix sind im allgemeinen nicht gleich. BeideVektorraume haben aber die gleiche Dimension:

59

60 5. Der Rang von Matrizen

Satz 5.3. Zeilenrang und Spaltenrang einer Matrix sind stets gleich.

Beweis. Wir fuhren einen direkten Beweis mit Hilfe des Gauß-Verfahrens: Sei A ∈Mm,n(K) Matrix. Dann gibt es nach Ubungsaufgabe 4.2

• Permutationsmatrizen P ∈Mm,m(K) und P ′ ∈Mn,n(K),• T ∈ UDm, T ′ ∈ ODn,• und D = (dij) ∈Mm,n(K) mit d11 · · · drr 6= 0 und dij = 0 sonst,

so dass gilt:

PAP ′ = TDT ′.

Dabei ist T−1 die Zeilentransformationen im Gauß-Verfahren zu PAP ′. DT ′ ist inTreppenform mit r Stufen. Die Matrizen T und T ′ sind nicht nur invertierbar, sondernes gilt sogar t11 = · · · = tmm = 1 und t′11 = · · · = t′nn = 1. O.B.d.A. sei P = Im undP ′ = In, denn Zeilen- oder Spaltenvertauschungen andern weder den Zeilen- noch denSpaltenrang. Fur die Diagonalmatrix D gilt offenbar

dim ZR(D) = dim SR(D) = r.

Wir zeigen, dass elementare Zeilen- und Spaltentransformationen weder den Zeilen-noch den Spaltenrang andern. Die Behauptung folgt dann aus:

dim ZR(A) = dim ZR(D) = dim SR(D) = dim SR(A).

Seien A1, . . . , An ∈ Km die Spalten und zT1 , . . . , zTm ∈M1,n(K) die Zeilen von A. Wir

betrachten die Zeilentransformation A 7→ Tij(λ)A, die das λ-fache der j-ten Zeile zuri-ten Zeile von A addiert: A 7→ Ti,j(λ) bewirkt z′i = zi + λzj . Wir zeigen, dass sichder Zeilenraum nicht andert und die Dimension des Spaltenraums gleichbleibt:

a) Es gilt ZR(A) = ZR(Tij(λ)A), denn• wegen z′i = zi + λzj ist ZR(Tij(λ)A) ⊆ ZR(A) und• wegen zi = z′i − λzj ist ZR(A) ⊆ ZR(Tij(λ)A).

b) Es gilt dim SR(A) = dim SR(Tij(λ)A), denn die Multiplikation mit Tij(λ)liefert einen Vektorraum-Isomorphismus

ψ : SR(A)→ SR(A), S 7→ Tij(λ)S.

Fur jeden Vektorraum-Isomorphismus ψ gilt nach Satz 3.18 auf Seite 35, dassA1, . . . , An genau dann linear unabhangig sind, wenn ψ(A1), . . . , ψ(An)linearunabhangig sind. Also ist dim SR(A) = dim SR(Tij(λA).

Man nutzt die Gleichheit von Spaltenrang und Zeilenrang und spricht vom Rang einerMatrix:

Definition 5.4 (Rang). Sei A ∈Mm,n(K). Dann heißt

rang(A) := dim SR(A) = dim ZR(A)

der Rang von A.

Der Rang ist eine Invariante bei der Multiplikation mit invertierbaren Matrizen:

2. Rang und lineare Gleichungssysteme 61

Satz 5.5. Seien A ∈ Mm,n(K) und B ∈ Mm,m(K), B′ ∈ Mn,n(K) invertierbareMatrizen. Dann gilt:

rangA = rang(BA) = rang(AB′).

Beweis. Der Beweis rangA = rang(BA) erfolgt direkt uber Isomorphie von Vek-torraumen: Die Abbildung

ψ : SR(A)→ SR(BA), x 7→ Bx

ist ein Vektorraum-Isomorphismus und somit gilt SR(A) ∼= SR(BA). Dahe sind insbe-sondere die Dimensionen beider Vektorraume gleich, und es gilt rang(A) = rang(BA).Der Beweis von rang(A) = rang(AB′) fuhrt man analog.

2. Rang und lineare Gleichungssysteme

Inhomogene lineare Gleichungssysteme Ax = b haben genau dann eine Losung, wennder Vektor b von den Spalten von A linear abhangig ist. Hieraus folgt auch, dasshomogene lineare Gleichungssysteme stets eine Losung besitzen, denn der Nullvektorist linear abhangig. Wir formulieren dieses Kriterium mittels der Begriffe Spaltenraumund Spaltenrang:

Satz 5.6 (Losbarkeitskriterium fur lineare Gleichungssysteme). Sei (A, b) ∈Mm,n+1(K)erweiterte Matrix des linearen Gleichungssystems Ax = b. Dann gilt

a) Los(A, b) 6= ∅ ⇐⇒ SR(A) = SR(A, b).b) Los(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1.

Beweis. Sei A = (A1, . . . , An) ∈Mm,n(K) Matrix mit Spalten A1, . . . , An ∈ Km undb ∈ Km. Wir zeigen beide Behauptungen direkt:

a) Los(A, b) 6= ∅ ⇐⇒ SR(A) = SR(A, b)Da genau dann Los(A, b) 6= ∅, wenn ein es ein x ∈ Kn gibt mit Ax = b, gilt:

Los(A, b) 6= ∅ ⇐⇒ ∃x :n∑i=1

Aixi = b.

Also:

Los(A, b) 6= ∅ ⇐⇒ b ∈ span(A1, . . . , An) = SR(A).

Weil b ∈ SR(A) aquivalent zu SR(A) = SR(A, b) ist, folgt die Behauptung:

Los(A, b) 6= ∅ ⇐⇒ SR(A) = SR(A, b).

b) Los(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1Wegen Teil a) gilt Los(A, b) = ∅ genau dann, wenn SR(A) 6= SR(A, b). Aus

SR(A) 6= SR(A, b) ⇐⇒ span(A1, . . . , An)︸ ︷︷ ︸=SR(A)

6= span(A1, . . . , An, b)︸ ︷︷ ︸=SR(A,b)

,

folgt mit dim SR(A) ≤ dim SR(A, b) ≤ dim SR(A) + 1:

Los(A, b) = ∅ ⇐⇒ dim SR(A, b) = dim SR(A) + 1.

Dies war zu zeigen.

62 5. Der Rang von Matrizen

Der Rang einer Matrix gibt uns ein Kriterium fur die Losbarkeit des entsprechendenhomogenen linearen Gleichungssystems:

Satz 5.7. Sei A ∈Mm,n(K). Fur das zugehorige homogene lineare GleichungssystemAx = 0 gilt

dim Los(A, 0) = n− rang(A).

Beweis. Sei A ∈Mm,n(K). Nach Ubungsaufgabe 4.2 gibt es

• Permutationsmatrizen P ∈Mm,m(K) und P ′ ∈Mn,n(K),• T ∈ UDm, T ′ ∈ ODn und• D = (dij) ∈Mm,n(K) mit d11 · · · drr 6= 0 und dij = 0 sonst,

so dass gilt:

PAP ′ = TDT ′.

O.B.d.A. sei P = Im und P ′ = In. Fur die Losungsmenge des zur Diagonalmatrix Dgehorenden homogenen linearen Gleichunggsystem Dx = 0 gilt

Los(D, 0) = span(er+1, . . . , en),

denn wegen

d11x1 = 0, . . . , drrxr = 0 und d11 · · · drr 6= 0

gilt x1 = . . . = xr = 0 und xr+1, . . . , xn sind frei wahlbar. Also ist

dim Los(D, 0) = n− r = n− rangD.

Es bleibt zu zeigen, dass die Multiplikation mit den Elementarmatrizen T und T ′

weder die Dimension des Losungsraums noch den Rang der Matrix verandert. Wirzeigen zuerst, dass

Los(TDT ′, 0) = T ′−1 Los(D, 0).

Aufgrund von Bemerkung 1.13 auf Seite 12 und Satz 5.6 auf Seite 61 sind T und T ′

invertierbar. Es gilt:

x ∈ Los(TDT ′, 0) ⇐⇒ TDT ′x = 0.

Multiplikation der Gleichung TDT ′x = 0 mit T liefert:

x ∈ Los(TDT ′, 0) ⇐⇒ DT ′x = 0,

d.h. x ∈ Los(TDT ′, 0) genau dann, wenn T ′x ∈ Los(D, 0):

x ∈ Los(TDT ′, 0) ⇐⇒ x ∈ T ′−1 Los(D, 0).

Also ist Los(TDT ′, 0) = T ′−1 Los(D, 0) und damit gilt

dim Los(TDT ′, 0) = dim(T ′−1 Los(D, 0)).

Aus Lemma 5.5 folgt rangD = rang(TDT ′).

Kapitel 6

Lineare Abbildungen

Wir nennen eine Abbildung zwischen zwei algebraischen Strukturen Homomorphis-mus, wenn die Funktion mit der bzw. den Verknupfungen der Struktur vertraglichist. Fur Vektorraume heißen solche Funktionen lineare Abbildungen.

1. Eigenschaften

Seien U und V Vektorraume uber einem Korper K. Ein Homomorphismus f : U → V ,also eine Abbildung, bei der fur alle u1, u2 ∈ U und λ ∈ K gilt

Additivitat: f(u1 + u2) = f(u1) + f(u2)Homogenitat: f(λ · u1) = λ · f(u1)

(12)

heißt lineare Abbildung:

Definition 6.1 (Lineare Abbildung). Seien U und V Vektorraume uber einem Kor-per K. Eine lineare Abbildung ist ein Homomorphismus f : U → V . Die Menge allerlinearen Abbildungen von U nach V bezeichnen wir mit

Lin(U, V ) := f : U → V | f ist Homomorphismus . (13)

Die Eigenschaften (12) einer linearen Abbildung lassen sich zu einer Gleichungzusammenfassen. Eine Funktion f : U → V ist genau dann eine lineare Abbildung,wenn fur u1, u2 ∈ U und λ1, λ2 ∈ K gilt:

f(λ1u1 + λ2u2) = λ1 · f(u1) + λ2 · f(u2).

Man uberlegt sich leicht, dass mit f, g ∈ Lin(U, V ) auch h := f + g mit h(u) =f(u) + g(u) eine lineare Abbildung ist, ebenso k := λf mit k(u) = λ · f(u) fur λ ∈ K.Die Menge der linearen Abbildungen Lin(U, V ) ist bezuglich Addition und skalarerMultiplikation abgeschlossen:

Satz 6.2. Seien U und V Vektorraume uber einem Korper K. Dann ist Lin(U, V )zusammen mit der oben angegebenen Addition und skalaren Multiplikation ein K-Vektorraum.

63

64 6. Lineare Abbildungen

Die Hintereinanderausfuhrung (Konkatenation) h := fg ∈ Lin(U,W ) mit h(u) =f(g(u)) zwei linearer Abbildungen f ∈ Lin(V,W ) und g ∈ Lin(U, V ) ist ebenfalls einelineare Abbildung. Denn fur u1, u2 ∈ U , λ1, λ2 ∈ K und v1 := g(u1), v2 := g(u2) gilt:

h(λ1u1 + λ2u2) = f(g(λ1u1 + λ2u2)

)= f

(λ1 · g(u1) + λ2 · g(u2)

)= f

(λ1v1 + λ2v2

)= λ1 · f(v1) + λ2 · f(v2)

= λ1 · f(g(u1)) + λ2 · f(g(v2))

= λ1 · h(u1) + λ2 · h(u2).

Beschranken wir uns auf den Fall U = V = W , also Endomorphismen, so ist die Mengeder linearen Abbildungen mit den beiden Verknupfungen Addition und Konkatenationein Unterring aller Abbildungen f : U → U :

Satz 6.3. Sei K ein Korper und U ein K-Vektorraum. Die Menge aller linearenAbbildungen Lin(U,U) mit Addition ” +“ und Konkatenation ” “ ist ein Ring.

Wie bei Abbildungen ublich bezeichnet man mit bild f den Bildbereich der Funk-tion f ∈ Lin(U, V ):

bild f := f(U) = f(u) | u ∈ U ⊆ V.

bild f ist ein Untervektorraum von V . Der Kern ker f der Abbildung f ∈ Lin(U, V )umfasst die Vektoren u ∈ U , welche auf die Null abgebildet werden:

ker f := f−1(0) = u ∈ U | f(u) = 0 ⊆ U.

ker f ist ein Untervektorraum von UAufgrund der Linearitat ist f(0) = 0, so dassder Nullvektor stets im Kern einer linearen Abbildung liegt. Bei einem trivalen Kern,d.h. ker f = 0, ist die Abbildung injektiv. Ein surjektive Abbildung f hat genaudann trivalen Kern, wenn f ein Isomorphismus ist. Fur die Dimension der beiden Un-tervektorraume ker f und bild f einer linearen Abbildung f ∈ Lin(U, V ) gilt folgendeRelation, die wir in Ubungsaufgabe 8.1 beweisen:

Satz 6.4 (Dimensionsformel fur lineare Abbildungen). Seien U und V Vektorraumeuber einem Korper K sowie f ∈ Lin(U, V ) eine lineare Abbildung. Dann gilt:

dim(ker f) + dim(bild f) = dimU.

Der folgende Satz trifft auch auf unendlich dimensionale Vektorraume zu, wenn-gleich wir uns im Beweis auf den in der Vorlesung betrachteten Fall von Vektorraumenendlicher Dimension beschranken.

Satz 6.5. Seien U und V Vektorraume uber einem Korper K und a1, . . . , an eineBasis von U . Eine lineare Abildung f ∈ Lin(U, V ) ist genau dann ein Isomorphismus,wenn die Bilder f(a1), . . . , f(an) der Basisvektoren von U eine Basis von V bilden.

Beweis. Wir zeigen beide Richtungen. Sei f ein Isomorphismus. Es gilt:

span f(a1), . . . , f(an) ⊆ bild f ⊆ V. (14)

2. Darstellende Matrix 65

Da f bijektiv ist, existiert zu jedem v ∈ V ein Vektor

u :=n∑i=1

λiai ∈ U mit v = f(u) = f

(n∑i=1

λiai

)=

n∑i=1

λif(ai).

In Verbindung mit den Inklusionen (14) gilt

V = span f(a1), . . . , f(an) ⊆ bild f ⊆ V.

Da V die Dimension n hat, bilden f(a1), . . . , f(an) eine Basis von V .Umgekehrt, sei f(a1), . . . , f(an) eine Basis von V . Dann ist dimU = dimV . Aus

V = span f(a1), . . . , f(an) ⊆ bild f ⊆ V

folgt dim(bild f) = dimV = dimU , d.h. f ist surjektiv. Nach Ubungsaufgabe 8.1 istf ein Isomorphismus.

Die Dimension des Bildbereiches nennt man den Rang einer linearen Abbildung:

Definition 6.6 (Rang einer Abbildung). Seien U und V Vektorraume uber einemKorper K und f : U → V eine lineare Abbildung. Dann heißt rang f := dim(bild f)der Rang von f .

Den Begriff ”Rang“ haben wir zuvor in Kapitel 5 fur Matrizen defininert. Wiewir in Abschnitt 2 in diesem Kapitel und Ubungsaufgabe 8.2 zeigen werden, kannjeder Abbildung f ∈ Lin(U, V ) eine eindeutig bestimmte Matrix F mit f(x) = Fxzugeordnet werden, wobei der Rang der Abbildung f mit dem Rang der Matrix Fubereinstimmt.

Um eine lineare Abbildung f : U → V anzugeben, genugt es, die Bilder derBasisvektoren von U zu spezifizieren. Sei a1, . . . , an eine Basis des Vektorraums U .Fur das Bild eines Vektors u =

∑ni=1 λiai ∈ U erhalten wir aus den Homomorphie-

Eigenschaften der linearen Abbildung:

f(u) = f

(n∑i=1

λiai

)=

n∑i=1

f(λiai) =n∑i=1

λif(ai).

Umgekehrt sind zwei lineare Abbildungen f, g : U → V genau dann identisch, wenndie Bilder der Basisvektoren jeweils ubereinstimmen.

2. Darstellende Matrix

Wir zeigen in diesem Abschnitt, dass man zu einen Korper K die Menge der MatrizenMm,n(K) als die Menge der linearen Abbildungen Lin(Kn,Km) interpretieren kann.

Zu einer Matrix A ∈Mm,n(K) ist durch x 7→ Ax eine lineare Abbildung gegeben,denn es gilt A(x+ y) = Ax+Ay und A(λx) = λAx fur x, y ∈ Kn und λ ∈ K:

Lemma 6.7. Sei K ein Korper. Dann ist zu jeder Matrix A ∈Mm,n(K) die Funktion

φA : Kn → Km, x 7→ Ax

eine lineare Abbildung.

66 6. Lineare Abbildungen

Umgekehrt kann jede lineare Abbildung f : Kn → Km durch eine eindeutig be-

stimmte Matrix F ∈ Mm,n(K) beschrieben werden, also f(x) = Fx. Diese Matrix Fwollen wir im folgenden herleiten. Seien e1, . . . , en die kanonischen Einheitsvektoren.Die Abbildung f ist eindeutig durch die Bilder der Einheitsvektoren gegeben, dennfur x =

∑ni=1 xiei gilt:

f(x) = f

(n∑i=1

xiei

)=

n∑i=1

f(xiei) =n∑i=1

xi · f(ei).

Um diese Darstellung in Matrix-Vektor-Schreibweise f(x) = Fx zu formulieren, wahleals Spalten die Bilder der Einheitsvektoren:

F :=(f(e1) f(e2) · · · f(en)

)∈Mm,n(K).

Bezeichnen wir die Spaltenvektoren mit fi := f(ei), gilt fur x =∑n

i=1 xiei ∈ Kn:

Fx =n∑i=1

xifi =n∑i=1

xif(ei) = f

(n∑i=1

xiei

)= f(x)

Diese Konstruktion fassen wir mit folgendem Merksatz zusammen:

Die Spalten sind die Bilder der Einheitsvektoren.

Zwei lineare Abbildungen genau dann uberein, wenn die Bilder der Einheitsvektorenidentisch sind. Weil diese die Spaltenvektoren sind, ist die Matrix zu einer linearenAbbildung eindeutig bestimmt.

Korollar 6.8. Sei K ein Korper. Die K-Vektorraume Lin(Kn,Km) und Mm,n(K)sind isomorph.

Beweis. Wir zeigen, dass die Abbildung

ϕ : Lin(Kn,Km)→Mm,n(K), f 7→(f(ei)

)1≤i≤n ∈Mm,n(K)

ein Isomorphismus ist. Die Abbildung ϕ ist injektiv, denn gilt ϕ(f) = ϕ(g) fur f, g ∈Lin(Kn,Kn), so stimmen beide Funktionen g, f auf den Einheitsvektoren (einer Basisdes Kn) uberein, und sind identisch. Die Funktion ϕ ist ebenfalls surjektiv, denngemaß Lemma 6.7 ist durch eine Matrix F ∈ Mn,n(K) eine lineare Abbildung f :x 7→ Fx mit ϕ(f) = F gegeben. Zu zeigen bleibt die Linearitat der Funktion ϕ. Furf, g ∈ Lin(Kn,Km) und λ, µ ∈ K gilt

ϕ(λf + µg) =(λ · f(ei) + µ · g(ei)

)1≤i≤n

= λ ·(f(ei)

)1≤i≤n + µ ·

(g(ei)

)1≤i≤n

= λ · ϕ(f) + µ · ϕ(g).

Die Abbildung ϕ : Lin(Kn,Km)→Mm,n(K) ist somit ein Isomorphismus.

In Satz 6.3 haben wir gezeigt, dass die Menge der linearen Abbildungen Lin(Kn,Kn)mit Addition und Komposition einen Ring bildet. Dieser ist isomorph zum Ringder n × n Matrizen, wobei die Hintereinanderausfuhrung f g zweier Abbildungenf, g ∈ Lin(Kn,Kn) dem Produkt F ·G der zugehorigen Matrizen entspricht:

2. Darstellende Matrix 67

Korollar 6.9. Sei K ein Korper. Die Ringe (Lin(Kn,Kn),+, ) und (Mn,n(K),+, ·)sind isomorph.

Beweis. Wir betrachten die Abbildung

ϕ : Lin(Kn,Kn)→Mn,n(K), f 7→ F :=(f(ei)

)1≤i≤n ∈Mn,n(K)

Aus dem Beweis zu Satz 6.8 wissen wir bereits, dass die Abbildung ϕ eine Bijektiondarstellt. Ferner ist die Funktion additiv, d.h. fur f, g ∈ Mn,n(K) gilt ϕ(f + g) =ϕ(f) + ϕ(g). Zu zeigen bleibt, dass sie auch vertraglich mit der Konkatenation bzw.Multiplikation ist:

ϕ(f g) = ϕ(f) · ϕ(g) = F ·G

Seien F = (fi,j)1≤i,j≤n = ϕ(f) und G = (gi,j)1≤i,j≤n = ϕ(g). Es genugt zu zeigen,dass der i-te Spaltenvektor des Matrixprodukts FG gleich dem Bild (f g)(ei) ist.Wegen fi,j = (f(ej))i und gi,j = (g(ej))i folgt aus der Linearitat der Abbildungenf, g:

(f g)(ei) = f(g(ei)) = f

(n∑ν=1

gi,ν · eν

)=

n∑ν=1

gν,if(eν) =n∑ν=1

f(eν) · gν,i

Der Vektor f(eν) ist der ν-te Spaltenvektor (fj,ν)1≤j≤n von F so dass gilt:

(f g)(ei) =

∑n

ν=1 f1,νgν,i∑nν=1 f2,νgν,i

...∑nν=1 fn,νgν,i

.

Das Bild (f g)(ei) stimmt mit der i-ten Spalte der Matrix FG uberein, also ϕ(f g) =FG.

Wir haben uns auf die linaren Funktionen Lin(Kn,Kn) (auf quadatische Matrizen)beschrankt, damit die Konkatenation (das Matrixprodukt) definiert ist. Man rechnetleicht nach, dass allgemein fur f ∈ Lin(Km,Kr) und g ∈ Lin(Kn,Km) gilt:

ϕ(f g)︸ ︷︷ ︸∈Mr,n(K)

= ϕ(f)︸︷︷︸∈Mr,m(K)

· ϕ(g)︸︷︷︸∈Mm,n(K)

In anderen Fallen ist weder die Konkatenation der Funktionen f, g noch das Produktder Matrizen definiert.

Wir haben zuvor nur lineare Abbildungen der Form f : Kn → Km betrachtet.

Seien U, V zwei K-Vektorraume, A = a1, . . . , an eine geordnete Basis von U undB = b1, . . . , bm eine geordnete Basis von V . Den Fall einer Abbildung f ∈ Lin(U, V )fur zwei beliebige Vektorraume reduziert man mittels der Koordinatenfunktion zu denBasen A und B

Aλ 7→ (λ1, λ2, . . . , λn)

Bµ 7→ (µ1, µ2, . . . , µm)

68 6. Lineare Abbildungen

auf eine Abbildung der Form Kn → K

m mit den kanonischen Einheitsvektoren als Ba-sen. Die Matrix MA,B(f) einer linearen Funktion f ∈ Lin(U, V ) bezuglich gegebenerBasen A,B von U und V beschreibt die Abbildung der Koordinatenvektoren:

Definition 6.10 (Darstellungsmatrix einer linearen Abbildung). Seien U, V Vek-torraume uber einem Korper K, sowie A = a1, . . . , an eine geordnete Basis von Uund B = b1, . . . , bm eine geordnete Basis von V . Die Darstellungsmatrix

MA,B(f) := (fij) 1≤i≤m1≤j≤n

∈Mm,n(K)

einer linearen Abbildung f ∈ Lin(U, V ) bezuglich der Basen A,B ist erklart durch

f(ai) =n∑j=1

fj,ibj fur i = 1, . . . ,m.

Die i-te Spalte von MA,B(f) ist der Koordinatenvektor von f(ai) zur Basis B.

Die Hintereinanderausfuhrung zwei linearer Funktionen g : U → V und f : V →W fur Vektorraume U, V,W mit Basen A,B, C bedeutet, dass man die darstellendenMatrizen multipliziert. Die darstellende Matrix FA,B einer linearen Funktion f : U →V hangt von den gewahlten Basen A,B der Vektorraume U und V ab. Sei A′ eineweitere Basis von U . Der Basiswechsel, der Ubergang von der Basis A′ zur BasisA des Vektorraums U wird durch den Isomorphismus bzw. die darstellende MatrixTA′,A beschrieben. Die beschreibende Matrix FA′,B der Abbildung f zu den BasenA′,B lautet

MA′,B(f) = MA,B(f) · TA′,A.

Wahlt man statt B eine andere Basis B′ des Vektorraums V und sei TB′,B die dar-stellende Matrix dieses Basiswechsels, so ist die beschreibende Matrix FA′,B′ zu denBasen A′,B′ gegeben als das Matrixprodukt

MA′,B′(f) = T−1B′,B ·MA,B(f) · TA′,A. (15)

Diese Identitat nennt man Transformationsformel fur darstellende Matrizen.

Beispiel 6.11. Wir betrachten einen Endomorphismus f des Vektorraums K[X]2der Polynome mit Grad maximal 2 uber einem beliebigen Korper K. Seien A =a1, a2, a3 und B = b1, b2, b3 geordnete Basen, bestehend aus den Polynomen:

a1(X) = 1 +X +X2 b1(X) = X +X2

a2(X) = 1 +X b2(X) = −1 +X

a3(X) = −1 b3(X) = X2.

Die Abbildung f ist gegeben durch die Bilder der Basisvektoren:

f(a1) := b1 − b3f(a2) := b3

f(a3) := b1 + b2 − b3.

2. Darstellende Matrix 69

Aus dieser Definition der Funktion f laßt sich unmittelbar die darstellende MatrixMA,B(f) bezuglich der Basen A,B herleiten, denn der i-te Spaltenvektor ist der Ko-ordinatenvektor von f(ai) zur Basis B:

MA,B(f) =

+1 0 +10 0 +1−1 +1 −1

Wir fuhren einen Basiswechsel durch und ersetzen die Basis A durch die Basis A′ :=a′1, a′2, a′3, bestehend aus den Polynomen:

a′1(X) = 1

a′2(X) = X

a′3(X) = X2

Um die darstellende Matrix MA′,B(f) der Funktion f zu berechnen, bestimmen wirzuerst die Transformationsmatrix TA′,A. Wegen

a′1(X) = −a3(X)

a′2(X) = a2(X) + a3(X)

a′3(X) = a1(X)− a2(X)

lautet die Transformationsmatrix

TA′,A =

0 0 +10 +1 −1−1 +1 0

und die darstellende Matrix MA′,B(f) = MA,B(f) · TA′,A:

MA′,B(f) =

+1 0 +10 0 +1−1 +1 −1

· 0 0 +1

0 +1 −1−1 +1 0

=

−1 +1 +1−1 +1 0+1 0 −2

.

Wir wollen unsere Rechnung uberprufen. Man uberzeuge sich durch Nachrechnen,dass fur die Funktion f gilt

f(1) != B(MA′,B(f) · e1) = −b1 − b2 + b3

f(X) != B(MA′,B(f) · e2) = b1 + b2

f(X2) != B(MA′,B(f) · e3) = b1 − 2b3wobei e1, e2, e3 die kanonischen Einheitsvektoren sind.

Kapitel 7

Lineare Codes

Ein wichtiges Teilgebiet der Kodierungstheorie, in der Vektorraume eine wichtige Rollespielen, sind lineare Codes.

1. Grundbegriffe

Eine Nachricht soll von einem Sender uber einen Kanal an einen Empfanger uber-mittelt werden. Dabei handelt es sich um einen gestorten Ubertragungskanal, d.h.die Nachricht kann fehlerhaft ubertragen werden. Ziel ist es, dass der Empfangerdie korrekte Nachricht dennoch erhalt. Dazu wird die Nachricht kodiert, man fugtzusatzliche (redundante) Informationen hinzu. Statt der Nachricht ubertragt mandas zugehorige Codewort. Auch wenn bei der Ubermittlung Fehler auftreten, kannder Empfanger mit Hilfe der im Codewort enthaltenen zusatzlichen Informationen dieeigentliche Mitteilung bestimmen.

gestorte evtl. gestortes empfangeneNachricht Kodierung Codewort Ubertragung Codewort Dekodierung Nachricht

m 7→ c −−−−−−→Kanal

c 7→ m

An den Code werden dabei bestimmte Anforderungen gestellt:

• Es sollen moglichst viele Fehler (Storungen) korrigiert werden konnen.

• Die Codeworte sollen im Vergleich zu den Nachrichten nur unwesentlichlanger sein.

• Kodierung und Dekodierung sollen effizient durchzufuhren sein.

In der Praxis finden sich zahlreiche Anwendungen fehlerkorrigierender Codes, bei-spielsweise die Datenubertragung von Raumsonden zur Erde oder die Datenfernuber-mittlung mittels Modem. Auch in der Unterhaltungselektronik werden fehlerkorrigie-rende Codes verwendet: Die Daten auf CDs (Compact Discs) sind kodiert, damit derCD-Player kleinere Beschadigungen der CD ausgleichen kann.

71

72 7. Lineare Codes

Wir beschaftigen uns in diesem Abschnitt mit einer wichtigen Klasse von Codes,den linearen Codes. Ein linearer Code ist ein Untervektorraum uber einem endlichenKorper:

Definition 7.1 ([n, k]-Code). Sei K ein endlicher Korper. Ein K-Vektorraum C ⊆Kn der Dimension k heißt [n, k]-Code uber K. Im Fall K = F2 = 0, 1 sprechen wir

von einem binaren, linearen Code.

Um Nachrichten mit Hilfe linearer Codes zu kodieren, wahlen wir als Nachrichten-menge den Vektorraum K

k der Worte der Lange k uber dem ”Alphabet“ des KorpersK und verwenden eine injektive Abbildung c : Kk → C, die jeder Nachricht eindeutigein Codewort eines [n, k]-Codes C ⊆ Kn zuweist.1 Die Dekodierung erfolgt mit derMinimal-Distanz-Dekodierung (auch Maximum-Likelihood-Dekodierung). Man ordnetdem ubertragenen Codewort dasjenige Codewort zu, das ihm am ”ahnlichsten“ ist,d.h. welches den kleinsten Abstand zu ihm hat. Den Abstand zweier Codeworterwird mit der Hamming-Distanz 2 genannten Metrik (zur Definition einer Metrik sieheKapitel 11, Definition 11.4 auf Seite 118; man rechnet leicht nach, dass die Hamming-Distanz die dort angegebenen Eigenschaften erfullt) gemessen:

Definition 7.2 (Hamming-Distanz). Seien x, y ∈ Kn. Dann heißt

d(x, y) := | i | xi 6= yi |Hamming-Distanz (auch Hamming-Abstand) von x und y.

Die Hamming-Distanz ist die Anzahl der Komponenten, in denen sich zwei Vek-toren unterscheiden. Die Minimal-Distanz-Dekodierung erfolgt in zwei Schritten:

(1) Bestimme zu c das Codewort c ∈ C mit minimalem Hamming-Abstandd(c, c).

(2) Bestimme die dem Codewort c zugeordnete Nachricht m′.

Fur lineare Codes genugt es, die Distanz zum Nullvektor zu betrachten:

Definition 7.3 (Hamming-Gewicht). Sei x ∈ Kn. Wir nennen

w(x) := d(x, 0) = | i | xi 6= 0 |das Hamming-Gewicht von x.

Je großer der Abstand der Codeworte voneinander ist, desto mehr Fehler kannman korrigieren. Eine wichtige Große fur lineare Codes ist deren Minimalabstand :

Definition 7.4 (Minimalabstand). Sei C ein [n, k]-Code. Dann bezeichnen wir

d(C) := min d(x, y) | x, y ∈ C, x 6= yals den Minimalabstand von C. Fur C = 0 setzen wir d(0) = min ∅ =∞.

Um zu kennzeichnen, dass ein [n, k]-Code Minimalabstand d hat, spricht man auchvon einem [n, k, d]-Code.

1Wir haben die Menge C der Codeworte als Code bezeichnet. Teilweise in der Literatur undnach DIN 44300 wird die eindeutige Zuordnung c : Kk → C als Code definiert.

2Richard W. Hamming, einer der Grundervater der Kodierungstheorie. Bell Laboratories, 1948.

1. Grundbegriffe 73

Definition 7.5 (Minimalgewicht). Sei C ein [n, k]-Code. Dann heißt

w(C) := min w(x) | x ∈ C \ 0das Minimalgewicht von C. Fur C = 0 setzen wir w(0) = min ∅ =∞.

Fur lineare Codes stimmt das Minimalgewicht mit dem Minimalabstand uberein:

Lemma 7.6. Sei C ⊆ Kn linearer Code. Dann gilt d(C) = w(C).

Beweis. Sei C ⊆ Kn ein [n, k]-Code und x, y ∈ C. Fur C = 0 folgt die Gleich-heit trivialerweise. Fur C 6= 0 ist der Abstand zwischen x und y die Anzahl derKomponenten, in denen sich die beiden unterscheiden. Genau fur diese Komponentenist aber auch die Differenz x − y von 0 verschieden. Damit gilt d(x, y) = w(x − y).Da wir bereits mit y = 0 ∈ C und x ∈ C alle Elemente von C erhalten, folgt dieBehauptung.

Bei einem Ubertragungsfehler werden Komponenten des Codewortes c ∈ C verandert(Wir setzen zur Vereinfachung voraus, dass stets n Zeichen empfangen werden). Be-zogen auf das empfangene Codewort bedeutet das c = c + e mit einem Fehlervektore ∈ Kn.

Definition 7.7 (t-fehlererkennend, t-fehlerkorrigierend). Ein linearer Code C heißtt-fehlererkennend, wenn die Minimal-Distanz-Dekodierung bis zu t fehlerhafte Kompo-nenten in den gestorten Codewortern erkennt. Ein linearer Code C heißt t-fehlerkor-rigierend, wenn die Minimal-Distanz-Dekodierung bis zu t fehlerhafte Komponentenin den gestorten Codewortern korrigiert.

Wir veranschaulichen uns die Situation: Stellt man sich die Codeworter als Punkteim Raum K

n vor, so bilden diejenigen gestorten Codeworter (die Elemente des Kn),welche die Minimal-Distanz-Dekodierung einem Codewort zuordnet, eine Kugel umdieses Codewort.

Definition 7.8 (Kugel). Sei C ⊆ Kn linearer Code. Dann nennen wir fur c ∈ CBt(c) := x ∈ Kn | d(x, c) ≤ t

eine Kugel um c mit Hamming-Radius t.

&%'$&%'$&%'$&%'$p p p p&%

'$&%'$&%'$&%'$p p p p

t

c

Alle Vektoren bzw. gestorten Codeworter innerhalb einer Kugel werden bei derMinimal-Distanz-Dekodierung dem Codewort im Mittelpunkt der Kugel zugeordnet.Es gibt Codes, die mehr Fehler erkennnen als korrigieren konnen, denn falls die Kugelnnamlich nicht disjunkt sind, sondern an ihrem ”Rand“ gemeinsame Punkte haben,sind diese zwar keine gultigen Codeworte, konnen aber auch nicht eindeutig einemgultigen Codewort zugeordnet werden (denn die Mittelpunkte der beiden Kugeln sindgleichweit entfernt). Aus obigen Betrachtungen folgt direkt

74 7. Lineare Codes

Korollar 7.9. Ein linearer Code C ⊆ Kn ist genau dann t-fehlerkorrigierend, wennd(C) ≥ 2t+ 1.

Wir prazisieren die Vorstellung davon, wieviel ”Nachricht“ und wieviel ”Korrek-turinformationen“ die Codeworter eines linearen Codes enthalten. Ein [n, k]-Code istein k-dimensionaler Untervektorraum eines n-dimensionalen Vektorraums uber einemendlichen Korper K. Die Codeworter haben die Lange n, die Anzahl frei wahlbarerKomponenten in den Codewortern ist k. Wir haben also k Komponenten fur die In-formationen zur Verfugung und senden n Komponenten pro Codewort. Im Fall vonbinaren Codes nennen wir k die Anzahl der Informationsbits und n−k die Anzahl derKorrekturbits. Informationsrate und Korrekturrate eines binaren linearen Codes sinddie Verhaltnisse von Informationsbits bzw. Korrekturbits zur Lange der Codeworter:

Definition 7.10 (Informations- und Korrekturrate). Sei C ein binarer [n, k]-Code.Dann heißt

k

n=

Anzahl InformationsbitsBitlange

die Informationsrate von C und⌈d(C)−1

2

⌉n

=Anzahl Korrekturbits

Bitlange

die Korrekturrate von C.

Bis auf die schnelle Kodierung und Dekodierung konnen wir unsere Anforderungenvom Anfang des Kapitels an einen guten Code beschreiben:

Definition 7.11 (Guter Code). Eine Folge (Ci)n∈N von binaren [ni, ki]-Codes Ciheißt gut, wenn

limi→∞

kini> 0, lim

i→∞

d(Ci)ni

> 0, limi→∞

ni =∞.

Eine Folge binarer linearer Codes heißt gut, wenn Informationsrate und Korrek-turrate bei steigender Bitlange positiv bleiben.

Beispiel 7.12. Um die Begriffe zu verdeutlichen und anzuwenden, betrachten wirzwei konkrete binare lineare Codes.

• Beim t-fachen Wiederholungscode wird jede Nachricht t-mal hintereinanderverschickt:

C :=

(x, x, . . . , x)︸ ︷︷ ︸t-mal

∈ Fkt2

∣∣∣∣∣∣ x ∈ Fk2 .

Die Nachrichten sind Vektoren aus Fk2, haben also die Lange k und die Co-deworter sind Vektoren uber F2 der Lange n = kt fur ein festes t ≥ 1.Der t-fachen Wiederholungscode C ist ein [kt, k]-Code mit Minimalgewicht

1. Grundbegriffe 75

d(C) = t. Wir bestimmen die Informationsrate und die Korrekturrate vonC:

Informationsrate =k

kt=

1t

Korrekturrate =d t−1

2 ekt

.

Die Folge t-facher Wiederholungscodes stellt keinen guten Code dar, denn

limk→∞

(Informationsrate ·Korrekturrate

)= lim

k→∞

d t−12 et2k

= 0.

• Der binarer Code mit einem Paritatsbit beruht auf der Idee, die Nachricht umein Prufbit zu erweitern, derart, dass die Summe der Komponenten modulo2 sets 0 ist:

C :=

(x1, . . . , xn) ∈ Fn2

∣∣∣∣∣n∑i=1

xi = 0 (mod 2)

.

Die Dimension von C ist um eins kleiner als die Lange dera Codeworter,denn ein Bit wird als Prufbit verwendet. Der Paritatscode C laßt sich alsLosungsraum eines homogenen linearen Gleichungssystems uber F2 auffassen

C = Los(eT , 0) mit eT = (1, 1, . . . , 1) ∈M1,n(F2),

denn in F2 gilt eT (x1, . . . , xn)T =∑n

i=1 xi. Mit rang(eT ) = 1 und Satz 5.7auf Seite 62 folgt

dim(C) = n− rang(eT ) = n− 1.

Wir bestimmen das Minimalgewicht des Paritatscodes C. Da der Nullvek-tor bei der Bestimmung des Minimalgewichts nicht berucksichtigt wird undVektoren mit nur einer von Null verschiedenen Komponente nicht zum Codegehoren, gilt:

d(C) = minc∈C

w(c) = w((1, 1, 0, . . . , 0)) = 2.

Wir berechnen die Informationsrate und die Korrekturrate von C:

Informationsrate =n− 1n

= 1− 1n

Korrekturrate =d2−1

2 en

=1n.

Die Folge der Paritatsbit-Codes ist ebenfalls kein guter Code, denn:

limn→∞

(Informationsrate ·Korrekturrate

)= lim

n→∞

n− 1n2

= 0.

Es gibt Folgen von guten Codes, zum Beispiel Justesen-Codes und Turbo-Codes.Diese beruhen auf endlichen Korpern K mit qm Elementen, q prim, insbesondereauf Korpern mit 2m Elementen. Die Konstruktion und Beweise gehen aber uber denRahmen der dieser Vorlesung hinaus [Lint98].

76 7. Lineare Codes

2. Gitter und Kugelpackungen

Die Konstruktion von binaren [n, k]-Codes mit moglichst großem Minimalgewichtbei gegebenem (n, k) hangt mit dem Problem der dichtesten Kugelpackungen im R

n

zusammen. Der Zusammenhang ergibt sich dabei unmittelbar aus den vorherigenUberlegungen. Da wir mit linearen Codes arbeiten, interessieren wir uns primar furdiejenigen Kugelpackungen, die linearen Codes entsprechen. Es sind dies die soge-nannten gitterartigen Kugelpackungen.

Um den intuitiven Begriff eines Gitters zu formalisieren, stellen wir uns vor, dasswir ein Gitter uber den n-dimensionalen Raum R

n legen und davon nur die ”Kreu-zungspunkte“ betrachten. Diese erhalten wir als die ganzzahligen Linearkombinatio-nen einer Basis:

Definition 7.13 (Volldimensionales Gitter). Sei B := b1, . . . , bn ⊂ Rn eine geord-nete Basis des Rn. Dann heißt

L(b1, . . . , bn) :=

n∑i=1

tibi

∣∣∣∣∣ ti ∈ Z⊂ Rn

ein volldimensionales Gitter mit Gitterbasis B.

Ein Gitter L ⊂ Rn ist eine additive Untergruppe des Rn, die keinen Haufungs-punkt hat (diskret ist). Wir gehen auf Gitter in Kapitel 16 ab Seite 201 naher ein.

Beispiel 7.14. Ein einfaches Beispiel fur ein Gitter im Rn ist Zn mit der Gitterbasis

e1, . . . , en.

Definition 7.15 (Gitterartige Kugelpackung). Eine Kugelpackung des Rn heißt git-terartig, wenn die Kugelmittelpunkte ein Gitter bilden.

Unter der Packungsdichte: einer gitterartigen Kugelpackung verstehen wir denAnteil der Kugelvolumen am gesamten Raum. Je hoher die Packungsdichte einergitterartigen Kugelpackung ist, desto großer sind die Abstande zwischen den Code-worten des entsprechenden linearen Codes. Wir nutzen diese Entsprechung, um dieje-nigen linearen Codes auszuzeichnen, die optimalen, d.h. dichtesten Kugelpackungenentsprechen

Definition 7.16 (t-perfekter Code). Ein linearer Code C ⊆ Kn heißt t-perfekt, wenndie Kugeln Bt(c) zu c ∈ C eine Zerlegung (Partition) des Kn bilden:

a) Die Kugeln bedecken den gesamten Raum:⋃c∈C

Bt(c) = Kn.

b) Die Kugeln sind disjunkt: Bt(c) ∩Bt(c′) = ∅ fur c, c′ ∈ C mit c 6= c′.

Fur kleine n kennt man optimale, d.h. dichteste gitterartige Kugelpackungen des Rn

[CS93]. Wir betrachten einige Beispiele:

• R1: Die reelle Zahlengerade ist einfach optimal aufzuteilen. Die Kugeln sinddabei die reellen Intervalle von der Große der Lange des Gitterbasisvektors:

3. Generator- und PCH-Matrix 77

Da jede Zahl einem Intervall zugeordnet ist, betragt die Packungsdichte 1.

• R2: Auch in der reellen Ebene entspricht die optimale Aufteilung der Vor-stellung. Wir packen die Kreise moglichst dicht zusammen:

&%'$&%'$&%'$&%'$p p p p&%

'$&%'$&%'$&%'$p p p p

Dabei gilt:

Packungsdichte =Flache der Halbkugel mit Radius 1

2

Flache des gleichseitigen Dreiecks mit Kantenlange 1

=12(1

2)2π14

√3

2√

3≈ 0, 9069.

• R3: Mit der gleichen Idee wie im R1 und R2 werden die Kugeln im reellen

Raum zu einer ”Apfelsinen-Gitter-Packung“ angeordnet. Die Packungsdichtebetragt π

3√

2.

• R8: Im R8 ist die maximale Packungsdichte 2−4.

Die angegebenen Packungsdichten sind jeweils maximal fur gitterartige Kugelpackun-gen des R1, R2, R3 und R8. Innerhalb der Fragestellung der maximalen Packungs-dichten im R

n gibt es noch ungeloste Probleme:

• Maximale Packungsdichte von gitterartigen Kugelpackungen im Rn fur n >

8.

• Maximale Packungdichte fur beliebige Kugelpackungen im Rn fur n > 2.

Dabei mussen die Kugeln den gleichen Radius haben. Fur n = 3 nennt mandies das Problem von Kepler

3.

3. Generator- und PCH-Matrix

Da ein linearer Code ein Untervektorraum ist, kann man ihn durch eine Basis ein-deutig charakterisieren. Fur lineare Codes faßt man die Basisvektoren in einer Matrixzusammen. In der Kodierungstheorie betrachtet man ublicherweise Zeilenvektoren:

Definition 7.17 (Generatormatrix). Sei C ⊆ Kn ein [n, k]-Code und g1, . . . , gk ∈ Kneine Basis von C. Dann heißt

G :=

gT1...gTk

∈Mk,n(K)

Generatormatrix (auch Basismatrix) zu C.

3Johannes Kepler, 1571-1630 war ein beruhmter Astronom und Mathematiker. Sein Haupt-

beschaftigungsgebiet waren die Planetenbewegungen.

78 7. Lineare Codes

Man kann einen [n, k]-Code C ⊆ Kn durch seine Generatormatrix angeben. Dajedes Codewort eine Linearkombination uber K der Basisvektoren von C ist, gilt furdie Generatormatrix von C

C =GTu

∣∣∣ u ∈ Kk =

(uTG)T∣∣∣ u ∈ Kk .

Fur den Rn kennen wir den Begriff der Orthogonalitat. Er besagt, dass zwei Vektorenx, y ∈ Rn senkrecht aufeinander stehen, wenn xT y = 0:

x ⊥ y ⇐⇒ xT y = xyT = 0.

Wir konnen diesen Begriff auf beliebige Vektorraume ubertragen, dabei verliert erjedoch die geometrische Bedeutung des ”senkrecht Aufeinanderstehens“: So sind imFn2 alle Vektoren mit einer geraden Anzahl von Einsern orthogonal zu sich selbst.

Wir definieren zu einem gegebenen Untervektorraum U ⊆ Kn den dazugehorigen

Orthogonalraum als den Untervektorraum derjenigen Vektoren, die orthogonal zuallen Vektoren aus U stehen:

Definition 7.18 (Orthogonalraum). Sei U ⊆ Kn ein K-Vektorraum. Dann ist

U⊥ :=v ∈ Kn

∣∣ uT v = 0 fur alle u ∈ U

der Orthogonalraum zu U .

Zu linearen Codes nennen wir den Orthogonalraum dualen Code:

Definition 7.19 (Dualer Code). Sei C ⊆ Kn ein [n, k]-Code. Dann heißt

C⊥ :=u ∈ Kn

∣∣ cTu = 0 fur alle c ∈ C

der duale Code zu C.

Der duale Code ist zu einem [n, k]-Code C ist ein linearer Code der Dimension n− k,denn ist G Generatormatrix zu C, dann gilt:

dimC⊥ = dim Los(G, 0) = n− rangG = n− dimC = n− k.

Satz 7.20. Sei C ⊆ Kn ein [n, k]-Code. Dann ist C⊥ ein [n, n− k]-Code.

Die Dimensionen eines linearen Codes und seines dualen Codes addieren sich zurDimension des umgebenden Raumes auf:

dimC + dimC⊥ = k + n− k = n.

Fur beliebige K-Vektorraume U ⊆ Kn gilt analog dimU + dimU⊥ = n.

Lemma 7.21. Sei C ⊆ Kn ein [n, k]-Code. Dann ist C = (C⊥)⊥.

Beweis. Sei C ⊆ Kn ein [n, k]-Code und H ∈Mn−k,n(K) Generatormatrix von C⊥.Nach Konstruktion gilt C ⊆ (C⊥)⊥, denn (C⊥)⊥ besteht aus allen Vektoren, dieorthogonal zu C⊥ sind. Die Vektoren aus C sind per Definition orthogonal zu C⊥.Weiterhin gilt fur die Dimension von (C⊥)⊥ mit Satz 7.20:

dim(C⊥)⊥ = n− dimC⊥ = n− (n− k) = k = dimC.

Wegen C ⊆ (C⊥)⊥ und dimC = dim(C⊥)⊥ folgt mit Satz 3.20 und der Isomorphieendlich erzeugter Vektorraume zu Kn die Behauptung.

3. Generator- und PCH-Matrix 79

Die Generatormatrix des dualen Codes erlaubt es uns, schnell zu uberprufen, ob einempfangenes Wort gultig ist, d.h. ob ein Vektor ein Codewort ist:

Satz 7.22. Sei C ⊆ Kn ein [n, k]-Code und H Generatormatrix zu C⊥. Dann gilt furc ∈ Kn:

c ∈ C ⇐⇒ Hc = 0.

Der Test, ob ein empfangenes Wort ein gultiges Codewort ist, wird damit beson-ders einfach. Man nennt eine Generatormatrix H von C⊥ daher eine PCH-Matrix(Parity CH eck-Matrix, auch Kontrollmatrix, Prufmatrix ) zu C. Beachte, dass manmit Hilfe der Kontrollmatrix und Satz 7.22 nur effizient entscheiden kann, ob einempfanges Wort ein (gultiges) Codewort darstellt oder nicht. Wir zeichnen diejeni-gen Generatormatrizen und PCH-Matrizen aus, deren linker bzw. rechter Teil dieEinheitsmatrix ist:

Definition 7.23 (Kanonische Generatormatrix, kanonische PCH-Matrix). Eine Ge-neratormatrix der Form (Ik, B) mit B ∈ Mk,n−k(K) heißt kanonische Generator-matrix. Eine PCH-Matrix der Form (A, In−k) mit A ∈ Mn−k,k(K) heißt kanonischePCH-Matrix.

Wir zeigen, dass und wie man zu einem gegebenen linearen Code eine kanonischeGeneratormatrix erhalt. Voraussetzung ist, dass die ersten k Spalten der gegebenenGeneratormatrix linear unabhangig sind.

Satz 7.24. Sei C ⊆ Kn ein [n, k]-Code mit Generatormatrix G = (A,B) ∈Mk,n(K),A ∈Mk,k(K) und B ∈Mk,n−k(K). Es gibt eine Generatormatrix G′ mit G′ = (Ik, B′)genau dann, wenn rangA = k.

Beweis. Nach Satz 3.24 ist A invertierbar und

A−1G = (Ik, A−1B)

ist Generatormatrix des linearen Codes C.

Fur kanonische Generatormatrizen gilt, dass die ersten k Komponenten der Codewor-te c = (c1, . . . , cn) ∈ Kn jeden Wert (c1, . . . , ck) ∈ Kk annehmen. Die ersten k Kompo-nenten (c1, . . . , ck) sind Informationsstellen, die ubrigen Komponenten (ck+1, . . . , cn)sind Prufstellen. Die eigentliche Information einer Nachricht m steht in den Informa-tionsstellen. Die restlichen Prufstellen sind redundant, sie dienen zur Fehlerkontrolleund Fehlerkorrektur. Fur K = F2 sprechen wir von Informationsbits und Prufbits.Die Kodierung einer Nachricht m ∈ Kk erfolgt durch die Abbildung m 7→ mTG.

Gibt es zu jedem linearen Code eine kanonische Generatormatrix? Offensichtlichnicht; wir konnen jedoch eine Aquivalenzrelation auf linearen Codes einfuhren, so dasssich in jeder Aquivalenzklasse ein linearer Code mit kanonischer Generatormatrixfindet. Zwei lineare Codes heißen aquivalent, wenn man ihre PCH-Matrizen durchPermutationen der Spalten ineinander uberfuhren kann.

Definition 7.25 (Aquivalente Codes). Seien C, C ′ ⊆ Kn zwei [n, k]-Codes mit PCH-Matrizen H, H ′ ∈ Mn−k,n(K). Dann heißen C und C ′ aquivalent, wenn eine Per-mutationsmatrix P ∈Mn,n(K) mit H ′ = HP existiert.

80 7. Lineare Codes

Man uberzeuge sich, dass dies eine Aquivalenzrelation ist (siehe Definition 2.30 aufSeite 28).

Satz 7.26. Zu jedem linearen Code gibt es einen aquivalenten Code mit kanonischerGeneratormatrix.

Beweis. Sei C ⊆ Kn ein [n, k]-Code mit Generatormatrix G ∈ Mk,n(K). Wir gehenin zwei Schritten vor:

(1) Multiplikation mit einer regularen k× k Matrix T von links liefert eine neueGeneratormatrix G′ = TG von C.

(2) Multiplikation mit einer n × n Permutationsmatrix von rechts liefert dieGeneratormatrix G′P eines aquivalenten Codes.

Also ist fur regulare Matrizen T ∈Mk,k(K) und Permutationsmatrizen P ∈Mn,n(K)die Matrix TGP stets Generatormatrix eines zu C aquivalenten linearen Codes.

Bleibt zu zeigen, dass es geeignete Matrizen T und P gibt so dass TGP = (Ik, B)ist. Dazu wahlen wir P so, dass die ersten k Spalten von GP linear unabhangigsind. G hat genau k linear unabhangige Spalten, denn G ist eine Basis von C undes gilt daher k = dimC = rangG = Spaltenrang von G. Wir erhalten eine MatrixGP = (D,B) ∈Mk,n(K) mit D ∈Mk,k(K) und B ∈Mk,n−k(K). Wegen rangD = kist D regular. Wir multiplizieren von links mit der regularen k × k Matrix D−1 undes gilt D−1(D,B) = (Ik, B).

Im Ubungsaufgabe 9.2 stellen wir einen Zusammenhang zwischen kanonischer Gene-ratormatrix und kanonischer PCH-Matrix eines linearen Codes her. Dieser erlaubt es,Generatormatrix bzw. PCH-Matrix eines linearen Codes (und damit sowohl den linea-ren Code selbst als auch seinen dualen Code) durch eine einzige Matrix A anzugeben.Diese genugt zur Bestimmung von G und H.

Satz 7.27. Sei C ⊆ Kn ein [n, k]-Code und A ∈Mk,n−k(K). Genau dann ist (Ik, A)eine Generatormatrix zu C, wenn (−AT , In−k) PCH-Matrix zu C ist.

4. Hamming-Codes

Wir lernen eine weitere Klasse binarer linearer Codes kennen, die Hamming-Codes.4

Hamming-Codes sind 1-fehlerkorrigierend und gestatten eine einfache Dekodierung.

Definition 7.28 (Hamming-Code). Der binare Hamming-Code Cr ⊂ F2r−12 ist der

Code zur PCH-Matrix Hr, deren Spalten aus den 2r−1 Vektoren von Fr2 \0 besteht.

Der Hamming-Code Cr ist also ein [2r − 1, 2r − r− 1]-Code. Charakteristisch furbinare Hamming-Codes sind die paarweise verschiedenen Spaltenvektoren der Kon-trollmatrix. Die Reihenfolge der Spalten von H ist willkurlich, denn eine andere An-ordnung erzeugt einen aquivalenten Code mit gleichen Eigenschaften. Fur r = 3 sieht

4R.W. Hamming, siehe Fußnote auf Seite 72

4. Hamming-Codes 81

die kanonische PCH-Matrix des Hamming-Codes C3 wie folgt aus:

H3 =

1 1 1 0 1 0 01 1 0 1 0 1 01 0 1 1 0 0 1

.

Das Minimalgewicht eines Hamming-Codes Cr ist konstant:

Satz 7.29. Fur den Hamming-Code Cr gilt d(Cr) = 3. Er ist 1-fehlerkorrigierend.

Beweis. Offenbar gibt es ein Codewort c ∈ Cr mit w(c) = 3, so dass d(Cr) ≤ 3. Esgenugt, d(Cr) ≥ 3 zu zeigen:

• Falls d(C) = 1,gabe es ein c ∈ C mit w(c) = 1. Wegen Hrc = 0 mußte eineSpalte in Hr gleich 0 sein. Widerspruch.• Falls d(C) = 2, gabe es ein c ∈ C mit w(c) = 2, d.h. zwei Komponenten vonc waren 1 und alle anderen 0. Wegen Hrc = 0 mußten zwei Spalten von Hr

gleich sein. Widerspruch.

Also ist d(C) = 3.5

Um ein empfangenes Hamming-Code-Wort c zu dekodieren, berechne Hc und unter-scheide zwei Falle:

a) Hc = 0: Da nach Satz 7.22 ein gultiges Codewort empfangen wurde, sindentweder keine oder mindestens drei Fehler aufgetreten. Wir setzen c := c.6

b) Hc 6= 0: Es ist mindestens ein Fehler aufgetreten. Falls genau ein Fehleraufgetreten ist, gilt

Hc = H(c+ ei) = 0 + hi,

wobei hi ∈ M1,2r−1(F2) die i-te Spalte von H ist. Da die Spalten von Hpaarweise verschieden sind, ist die Spalte eindeutig bestimmt und wir setzenc := c− ei.

Wir berechnen die Packungsdichte der einem (binaren) Hamming-Code Cr ent-sprechenden gitterartigen Kugelpackung des F2r−1

2 . Der Hamming-Code Cr ⊂ F2r−12

ist ein [2r − 1, 2r − r − 1]-Code. Aufgrund K = F2 gilt |C| = 22r−r−1 und wegend(C) = 3 sind die Kugeln B1(c) paarweise disjunkt. Da eine Kugel mit Radius 1genau die Codeworter enthalt, die sich von ihrem Mittelpunkt c in genau einer Kom-ponente unterscheiden, gilt

|B1(c)| = 1 + dimF2r−12 = 2r.

Die Kugeln nehmen den gesamten Raum ein:

Packungsdichte =

∑c∈Cr|B1(c)|

22r−1=|Cr|2r

22r−1=

22r−r−12r

22r−1= 1.

5Man kann den Satz auch aus Ubungsaufgabe 10.1 folgern: Die Spalten von Hr sind paarweiseverschieden und damit uber F2 linear unabhangig, also d(Cr) ≥ 2 + 1. Umgekehrt ist die Summe derersten drei Spalten Null, so dass d(Cr) < 3 + 1 gilt.

6Falls mehr zwei Ubertragungsfehler aufgetreten sind, ist diese Wahl falsch, wir konnen dies abernicht erkennen.

82 7. Lineare Codes

Wir haben den folgenden Satz bewiesen, wonach der Hamming-Code Cr ⊂ F2r−12 das

Beispiel eines 1-perfekten Codes ist:

Satz 7.30. Die Kugeln B1(c) mit Hammingradius 1 um die Codeworte des Hamming-Codes Cr ⊂ F2r−1

2 bilden eine Zerlegung von F2r−12 .

Kapitel 8

Direkte Summe

Zu einem Untervektorraum U des Rn betrachten wir das orthogonale KomplementU⊥ aller auf U senkrecht stehenden Vektoren. Jeder Vektor w ∈ Rn kann eindeutigals Summe eines Vektors aus U und eines Vektors aus U⊥ dargestellt werden. DieseZerlegung formalisieren wir mit dem Begriff der direkten Summe.

1. Orthogonales Komplement

Sei K ein Korper und U ⊆ Kn ein Untervektorraum. In Kapitel 7 haben wir den

Orthogonalraum U⊥ zu U definiert als

U⊥ :=v ∈ Kn

∣∣ uT v = 0 fur alle u ∈ U⊆ Kn.

Sowohl U als auch der zugehorige Orthogonalraum U⊥ sind Untervektorraume vonKn. Nach Satz 7.20 stehen die Dimensionen in folgender Relation:

dimU + dimU⊥ = n.

Fur den Fall K = R zeigen wir, dass im Durchschnitt U ∩ U⊥ nur der Nullvektorliegt, man nennt daher U⊥ ⊆ Rn das orthogonale Komplement zum UntervektorraumU ⊆ Rn. Der Orthogonalraum U⊥ ist im Vektorraum R

n komplementar im Sinne einersogenannten direkten Summe

U ⊕ U⊥ =u+ v

∣∣∣ u ∈ U, v ∈ U⊥ = Rn

bei der jeder Vektor w ∈ Rn als (eindeutig bestimmte) Summe w = u+ v mit u ∈ Uund v ∈ U⊥ darstellbar ist:

Satz 8.1. Sei U ⊆ Rn ein Untervektorraum von Rn. Dann gilt:

a) U ∩ U⊥ = 0.b) Jeder Vektor w ∈ Rn ist eindeutig darstellbar als Summe w = u + v mit

u ∈ U und v ∈ U⊥.

83

84 8. Direkte Summe

Beweis. Sei U ⊆ Rn ein Untervektorraum von Rn. Wir zeigen U ∩ U⊥ = 0. Seiv ∈ U ∩ U⊥. Wegen v2

i ≥ 0 folgt aus

vT v =n∑i=1

v2i = 0,

dass vi = 0 fur alle i, also v der Nullvektor ist.1 Zu zeigen bleibt, dass die Darstellungw = u + v mit u ∈ U und v ∈ U⊥ eindeutig ist. Sei b1, . . . , bk eine Basis von U undbk+1, . . . , bn eine Basis von U⊥. Wir zeigen, dass die Vektoren b1, . . . , bn eine Basisvon Rn bilden. Seien λ1, . . . , λn ∈ Rn mit

∑ni=1 λibi = 0. Dann gilt:

k∑i=1

λibi︸ ︷︷ ︸∈U

= −n∑

i=k+1

λibi︸ ︷︷ ︸∈U⊥

Da der Vektor auf der linken Seite in U und der auf der rechten in U⊥ ist, liegenbeide Vektoren sowohl in U als auch in U⊥, also im Durchschnitt U ∩ U⊥. WegenU ∩ U⊥ = 0 sind beide Vektoren 0. Weil b1, . . . , bk und bk+1, . . . , bn Basen sind,folgt:

λ1 = · · · = λk = 0

λk+1 = · · · = λn = 0.

Die n Vektoren b1, . . . , bn ∈ Rn sind linear unabhangig und bilden nach Satz 3.20 eineBasis des Vektorraums Rn.

Wir definieren zwei lineare Abbildungen, die einen Vektor w auf seine Anteile inU und dem orthogonalen Komplement U⊥ abbilden (diese Abbildung heissen Projek-tionen):

πU : Rn → U π⊥U : R

n → U⊥

n∑i=1

λibi 7→k∑i=1

λibi

n∑i=1

λibi 7→n∑

i=k+1

λibi.

Offenbar gilt w = πU (w) + π⊥U (w). Diese Zerlegung mit πU (w) ∈ U und π⊥U (w) ∈ U⊥ist eindeutig, weil b1, . . . , bn eine Basis von Rn ist.

Fur die beiden Projektionen π und π⊥, die wir im Beweis zu Satz 8.1 definiert haben,gilt π π = π und π⊥ π⊥ = π⊥. Dies ist charakteristisch fur Projektionen, die manfur beliebige, algebraische Strukturen (Gruppen, Ringe, Vektorraume, usw.) bildet:

Definition 8.2 (Projektion). Eine Projektion π ist ein Endomorphismus mit

π π = π.

Die Funktion πU : V → U , die den Vektor aus dem Vektorraums V auf seinen Anteilim Untervektorraum U abbildet, nennt man orthogonale Projektion von V auf U .

1Fur diesen Schluß setzen wir voraus, dass v1, . . . , vn reelle Zahlen sind, fur endliche Korper giltdies im allgemeinen nicht.

2. Direkte Summe 85

2. Direkte Summe

Nach Satz 8.1 gilt fur einen Untervektorraum U ⊆ Rn und den zugehorigen Orthogo-nalraum U⊥:

U + U⊥ = u+ v | u ∈ U, v ∈ U⊥ = Rn

U ∩ U⊥ = 0.

Dies ist ein Beispiel einer (inneren) direkten Summe Rn = U ⊕ U⊥:

Definition 8.3 (Innere direkte Summe). Seien U1, . . . , Ut Untervektorraume des-selben Vektorraums. Dann nennen wir

t⊕i=1

Ui :=t∑i=1

Ui =

n∑i=1

ui

∣∣∣∣∣ ui ∈ Ui

innere direkte Summe, falls Ui ∩(∑

i6=j Uj)

= 0 fur j = 1, . . . , t.

Seien U1, . . . , Ut mit Ui ∩(∑

i6=j Uj)

= 0 Untervektorraume. Die Dimension desVektorraums

⊕ti=1 Ui ist die Summe

dimt⊕i=1

Ui =t∑i=1

dimUi

der Dimension der einzelnen Untervektorraume (Ubungsaufgabe 10.4).Analog, aber verschieden von der inneren direkten Summe ist die externe direkte

Summe (auch direktes oder kartesisches Produkt):n×i=1Ui := (u1, u2, . . . , un) | ui ∈ Ui .

Fur die externe direkte Summe mussen U1, . . . , Un nicht notwendigerweise Untervek-torraume desselben Vektorraums sein.

Die Begriffe innere und externe direkte Summe erklart man fur beliebige, alge-braische Strukturen mit kommutativer Addition, wie zum Beispiel Abelsche Gruppen,Ringe, Ringe mit Eins, Vektorraume usw. Im folgenden sei (Ai)i∈I eine Familie vonMitgliedern einer solchen algebraischen Struktur. Die Abbildung i 7→ Ai sei injektiv,I ⊆ N heißt Indexmenge. Es bezeichne 0i ∈ Ai das neutrale Element der Additionund (gegebenenfalls) 1i ∈ Ai das Einselement.

Definition 8.4 (Externe direkte Summe). Sei (Ai)i∈I eine Familie von Mitgliederneiner algebraischen Struktur mit kommutativer Addition. Dann nennen wir

×i∈IAi := (ai)i∈I | ai ∈ Ai, ai = 0i bis auf endlich viele i ∈ I

externe direkte Summe. Die Operationen auf ×i∈IAi werden komponentenweise er-klart:

(ai)i∈I (bi)i∈I := (ai bi)i∈I ∈ +,−, ·, /, . . .λ · (ai)i∈I := (λ · ai)i∈I .

86 8. Direkte Summe

Assoziativitat, Kommutativitat und (gegebenenfalls) Distributivitat der Opera-tionen ubertragen sich wegen der komponentenweise Definition der Operationen ausder Familie (Ai)i∈I der algebraischen Struktur. (0i)i∈I ist das Nullelement und (1i)i∈Idas Einselement der externen direkten Summe ×i∈IAi.

Satz 8.5. Fur eine Familie (Ai)i∈I von Gruppen, Ringe oder Vektorraumen hat dieexterne direkte Summe ×i∈IAi die gleiche algebraische Struktur.

Satz 8.5 gilt nicht fur Korper und Schiefkorper, denn ein Element (ai)i∈I ist genaudann invertierbar, wenn zu jedem ai das Inverse a−1

i existiert. Es gibt aber (ai)i∈Iungleich der Null, zu denen kein Inverses existiert. Zum Beispiel ist A := K × K fureinen Korper K kein Korper, da es zu (1, 0) 6= 0 kein Inverses in K×K gibt:

Beispiel 8.6. Die externe direkte Summe Z2 × Z3 der beiden endlichen Korper Z2

und Z3 besteht aus den sechs Elementen:

(0, 0), (1, 0), (0, 1), (1, 1), (0, 2), (1, 2).

Die Addition und Multiplikation ist definiert als

(a1, a2) + (b1, b2) := (a1 + a2 mod 2, b1 + b2 mod 3)

(a1, a2) · (b1, b2) := (a1 · a2 mod 2, b1 · b2 mod 3).

Zwar ist Z2 × Z3 wie Z2 und Z3 ein Ring, aber kein Korper.

Fur den Vektorraum Rn mit Unterraum U und orthogonalem Komplement U⊥

gilt:

Rn = U ⊕ U⊥ ' U × U⊥.

Der Isomorphismus Ψ : U ×U⊥ → Rn ist gegeben durch (u, v) 7→ u+ v. Die Umkehr-

abbildung ist

Ψ−1(x) =(πU (x), π⊥U (x)

)mit den beiden Projektionen πU und π⊥U aus dem Beweis zu Satz 8.1.

Wir charakterisieren die externe direkte Summe ×i∈IAi ohne Bezug auf die Dar-stellung der Elemente (ai)i∈I zu nehmen. Die externe, direkte Summe ×i∈IAi istisomorph zur inneren, direkten Summe

⊕ti=1 hi(Ai) fur geeignete Monomorphismen

(Injektionen) hi : Ai → A:

Satz 8.7. Sei (Ai)i∈I eine Familie von Mitgliedern einer algebraischen Struktur miteiner kommutativen Addition. Es gilt

A ' ×i∈IAi

genau dann, wenn es Monomorphismen (Injektionen) hi : Ai → A fur jedes i ∈ Igibt, derart, dass jedes a ∈ A eine eindeutige Zerlegung2 a =

∑i∈I hi(ai) hat mit

ai ∈ Ai, so dass ai = 0i (d.h. hi(ai) = 0A) fur alle bis auf endlich viele i ∈ I.

Beweis. Wir zeigen beide Richtungen:

2Eindeutigkeit der Zerlegung heißt, dass aus∑i∈I hi(ai) =

∑i∈I hi(a

′i) folgt ai = a′i.

2. Direkte Summe 87

”⇒“ A ' ×i∈IAi ⇒ die Zerlegungen aus Satz 8.7 existieren.Wir definieren zu A :=

⊕ti=1 hi(Ai) Abbildungen hi : Ai → A gemaß x 7→

(aj)j∈I mit

aj :=

x falls i = j

0 falls i 6= j.

Offenbar hat a := (aj)j∈I ∈ A die eindeutige Darstellung a =∑

i∈I hi(ai).Die Summe ist endlich, denn nach Definition der externen Summe gilt ai =0i, d.h. hi(ai) = 0A, fur alle bis auf endlich viele i ∈ I. Nach Voraussetzungexistiert ein Isomorphismus Ψ : ×i∈IAi → A. Wir setzen die Injektion hifort zu

Ψ hi : Ai → A

mit Ψ hi(ai) = Ψ(h(ai)). Die Eindeutigkeit der Darstellung a =∑

i∈I Ψ hi(ai) mit ai ∈ Ai ubertragt sich beim Isomorphismus Ψ.

”⇐“ Die Zerlegungen aus Satz 8.7 existieren ⇒ A ' ×i∈IAiSeien hi : Ai → A Injektionen, so dass es eine eindeutige Zerlegung a =∑

i∈I hi(ai) mit ai ∈ Ai gibt. Wir definieren einen Homomorphismus Ψ :×i∈IAi → A gemaß

Ψ ((ai)i∈I) :=∑i∈I

hi(ai).

Die Summe ist endlich, weil bis auf endlich viele i ∈ I gilt ai = 0i undhi(ai) = 0A ∈ A. Die Abbildung Ψ ist surjektiv, denn nach Voraussetzungexistiert zu jedem a ∈ A eine Zerlegung a =

∑i∈I hi(ai). Aus der Eindeutig-

keit der Zerlegung folgt, dass Ψ injektiv ist. Die Abbildung Ψ : ×i∈IAi → Aist der gesuchte Isomorphismus.

Dies war zu zeigen.

Beispiel 8.8. Wir wollen Satz 8.7 anhand eines Beispieles verdeutlichen: BetrachteZ2 × Z3. Wir zeigen, dass Z6 ' Z2 × Z3 ist. Dazu definiere Monomorphismen

• h1 : Z2 → Z6 mit h1(x) := 3x mod 6 und

• h2 : Z3 → Z6 mit h2(x) := 4x mod 6.

Es gilt:

3 ≡

1 mod 20 mod 3

und 4 ≡

0 mod 21 mod 3.

Zu a ∈ Z6 ist nachzuweisen, dass eine eindeutige Zerlegung als (a1, a2) ∈ Z2×Z3 mit

a = h1(a1) + h2(a2)

88 8. Direkte Summe

existiert. Setze a1 := a mod 2 und a2 := a mod 3. Aus der Tabelle

a ∈ Z6 a1 ∈ Z2 h1(a1) ∈ Z6 a2 ∈ Z3 h2(a2) ∈ Z6 h1(a1) + h2(a2) ∈ Z6

0 0 3 · 0 = 0 0 4 · 0 = 0 0 + 0 = 01 1 3 · 1 = 3 1 4 · 1 = 4 3 + 4 = 12 0 3 · 0 = 0 2 4 · 2 = 2 0 + 2 = 23 1 3 · 1 = 3 0 4 · 0 = 0 3 + 0 = 34 0 3 · 0 = 0 1 4 · 1 = 4 0 + 4 = 45 1 3 · 1 = 3 2 4 · 2 = 2 3 + 2 = 5

folgt die Behauptung. Diese Konstruktion gilt allgemein fur das Produkt n von paar-weise teilerfremden Zahlen q1, q2, . . . , qt:

Zn ' Zq1 × Zq2 × · · · × Zqt .Diese Isomorphie heißt Chinesischer Restsatz und wird in den Vorlesungen uber ”Al-gebra“ und ”diskrete Mathematik“ vorgestellt.

Fur unendliche Familien (Ai)i∈I definiert man das direkte Produkt im Unterschiedzur externen direkten Summe als∏

i∈IAi := (ai | i ∈ I) | ai ∈ Ai .

Es ist ×i∈IAi ⊆∏i∈I Ai, fur endliche Indexmengen I gilt die Gleichheit.

Kapitel 9

Volumina undDeterminanten

Die Determinante einer quadratischen Matrix ist eine dieser Matrix zugeordnete Zahl.Diese Zuordnung, die Determinantenfunktion, hat charakteristische Eigenschaften,die wir in diesem Kapitel untersuchen. Neben dem Nachweis der Existenz und derEindeutigkeit der Determinantenfunktion lernen wir Methoden zu ihrer Berechnungkennen.

1. Volumina

Das Volumen von Korpern wie beispielsweise Quadern, Wurfeln oder Kugeln im 3-dimensionalen Raum ist ein aus der Schule bekannter Begriff. Wir verallgemeinernden Begriff des Volumens vom R

3 auf den Rn. Die resultierende Volumenfunktionhat nahezu die Eigenschaften der Determinantenfunktion und motiviert so derenEinfuhrung.

Definition 9.1 (Euklidische Lange). Sei b = (b1, . . . , bn) ∈ Rn. Dann heißt

‖b‖ :=

√√√√ n∑i=1

b2i =√bT b

die (euklidische) Lange1 von b. Wir betrachten dabei nur die positive Losung derWurzel.

Volumina setzen die euklidische Lange als Norm voraus. Man sieht an dieserStelle bereits, warum wir uns auf die reellen Zahlen beschranken, denn fur endlicheKorper hat die Lange keine geometrische Bedeutung. Im R

n dagegen gilt wegen b =:(b1, . . . , bn)T ∈ Rn, dass b = 0 genau dann, wenn ‖b‖ = 0.

1Die euklidische Lange ist ein Spezialfall der p-Norm mit p = 2. Wir untersuchen Normenallgemein in Kapitel 11.

89

90 9. Volumina und Determinanten

Die Vorstellung, dass zwei Vektoren eine Flache aufspannen, drei Vektoren einenQuader, usw. erweitern wir auf den allgemeinen Fall. Dazu betrachten wir die Mengealler Linearkombinationen mit Skalaren aus dem reellen Intervall [0, 1]:

Definition 9.2 (Parallelepiped). Seien b1, . . . , bn ∈ Rn. Dann nennen wir

P (b1, . . . , bn) :=

n∑i=1

tibi

∣∣∣∣∣ t1, . . . , tn ∈ R mit 0 ≤ t1, . . . , tn ≤ 1

das von b1, . . . , bn aufgespannte Parallelepiped (auch Parallelotop, Parallelflach).

Beispiel 9.3. Das Parallelepiped eines Vektors b1 ∈ Rn besteht aus allen Punktenauf dem Geradenstuck vom Nullpunkt zu b1:

1

0

b1

Das Parallepiped zweier Vektoren b1, b2 ∈ Rn besteht aus dem von den beiden Vek-toren aufgespannten Flachenstuck:

-

b1

b2

Stehen die Vektoren senkrecht aufeinander, ist das Volumen von P (b1, . . . , bn)gleich dem Produkt der Seitenlangen

∏ni=1 ‖bi‖. Im allgemeinen Fall ordnen wir einer

Folge von Vektoren b1, . . . , bn ∈ Rn die Orthogonalvektoren (Hohen) b∗1, . . . , b∗n ∈ Rn

wie folgt zu:

Definition 9.4 (Orthogonalvektoren). Seien b1, . . . , bn ∈ Rn. Dann setzen wir

Ui = span(b1, . . . , bi−1)

und ordnen b1, . . . , bn die Orthogonalvektoren b∗1, . . . , b∗n ∈ Rn zu mit

bi = (bi − b∗i ) + b∗i ∈ Ui ⊕ U⊥i .

Die Zerlegung der bi ist gemaß Satz 8.1 eindeutig. Es gilt:

bi − b∗i ∈ span(b1, . . . , bi−1) und b∗i ∈ span(b1, . . . , bi−1)⊥.

Fur i < j gilt per Definition bTi b∗j = 0, also bi ⊥ b∗j und es ist span(b1, . . . , bi) =

span(b∗1, . . . , b∗i ). Ein Orthogonalvektor b∗i steht damit senkrecht zu allen vorherigen

Vektoren b1, . . . , bi−1 und der von den Orthogonalvektoren aufgespannte Raum ist dergleiche wie der von den ursprunglichen Vektoren b1, . . . , bn aufgespannte Raum. Manbeachte, dass sich die Parallelepipede P (b1, . . . , bn) und P (b∗1, . . . , b

∗n) unterscheiden,

das Volumen der Parallelepipede jedoch gleich bleibt.

1. Volumina 91

Beispiel 9.5. Wir verdeutlichen uns die Situation fur zwei Vektoren b1, b2 ∈ Rnanhand einer Zeichnung:

-6

b1 = b∗1

b2b∗2

Hier wird deutlich, warum nicht nur die linearen Hullen der Vektoren und ihrer Or-thogonalvektoren gleich sind, sondern auch, warum sich das Volumen beim Ubergangzu den Orthogonalvektoren nicht andert. Definition 9.6 (Volumen). Seien b1, . . . , bn ∈ Rn und b∗i , . . . , b

∗n ∈ Rn die zugehori-

gen Orthogonalvektoren. Dann heißt

volP (b1, . . . , bn) =n∏i=1

‖b∗i ‖

das Volumen von P (b1, . . . , bn).

Wir kommen zu den Eigenschaften des Volumens, die im Wesentlichen auch dieder Determinantenfunktion sein werden:

Lemma 9.7 (Eigenschaften des Volumens). Seien b1, . . . , bn ∈ Rn, λ ∈ R und i 6= j.Dann gilt:

(V1) volP (b1, . . . , bi + λbj , . . . , bn) = volP (b1, . . . , bi, . . . , bn).(V2) volP (b1, . . . , λbi, . . . , bn) = |λ| · volP (b1, . . . , bi, . . . , bn).(V3) b1, . . . , bn linear abhangig =⇒ volP (b1, . . . , bn) = 0.(V4) P (b1, . . . , bn) = P (bσ(1), . . . , bσ(n)) fur alle Permutationen σ ∈ Sn.

Beweis. Seien b1, . . . , bn ∈ Rn, λ ∈ R und i 6= j.

(V1) O.B.d.A. sei j < i (denn wegen (V4) andert sich das Volumen fur j > inicht). Dann gilt

b∗i = (bi + λbj)∗ ∈ span(b1, . . . , bi−1)⊥

Mit anderen Worten: Der Orthogonalvektor b∗i steht senkrecht zu allenvorherigen Vektoren b1, . . . , bi−1 und deswegen auch zu allen Linearkombi-nationen dieser Vektoren. Somit bleibt das Volumen gleich, wenn man dasskalare Vielfache eines Vektors zu einem anderen Vektor addiert.

(V2) Es gilt (λbi)∗ = λ(b∗i ). In der Produktbildung in Definition 9.6 konnen wirden Skalar im Betrag herausziehen: ‖λb∗i ‖ = |λ| · ‖b∗i ‖.

(V3) O.B.d.A. sei b1, . . . , bi−1 linear unabhangig und b1, . . . , bi linear abhangig(denn mit (V4) konnen die Vektoren vertauscht werden). Dann laßt sich bials Linearkombination von b1, . . . , bi−1 darstellen und der orthogonale Anteilvon bi ist 0, also b∗i = 0 und die Behauptung folgt.

Die letzte Aussage gilt trivialerweise.

92 9. Volumina und Determinanten

2. Determinanten

Die geometrische Anschauung des Volumens setzt reelle Vektorraume voraus. Furbeliebige Korper K verallgemeinert man die Volumenfunktion zur vorzeichenbehafte-ten Determinantenfunktion. Wir identifizieren Kn×n ∼= Mn,n(K) und definieren dieDeterminantenfunktion axiomatisch durch ihre Eigenschaften:

Definition 9.8 (Determinantenfunktion). Eine Abbildung

det :Mn,n(K)→ K, M =

z1...zn

7→ detM

heißt Determinantenfunktion, wenn fur λ ∈ R und i 6= j gilt:

(D1) det

z1...

zi + λzj...zn

= det

z1...zi...zn

(D2) det

z1...λzi

...zn

= λ det

z1...zi...zn

(D3) det In = 1

Wir zeigen in Satz 9.12, dass die Determinantenfunktion durch (D1) – (D3) ein-deutig charakterisiert ist. Um die Analogie zu den Eigenschaften der Volumenfunktionzu verdeutlichen, leiten wir weitere Eigenschaften, aus (D1)–(D3) her. Wahrend dieBeziehung zwischen (V1) und (D1) bzw. (V2) und (D2) unmittelbar ersichtlich ist —der einzige Unterschied findet sich im Fehlen des Betrags des Skalars — trifft dies fur(V3) und (D3) nicht zu. Wir zeigen daher die folgende Erganzung zu (D3):

Lemma 9.9. Sei A ∈Mn,n(K). Dann gilt:

(D3’) Aus rangA < n folgt detA = 0.

Beweis. Seien z1, . . . , zn ∈ M1,n(K) die Zeilenvektoren von A ∈ Mn,n(K) mitrangA < n. O.B.d.A. sei z1 =

∑ni=2 λizi. Dann gilt:

detA = det

∑n

i=2 λiziz2...zn

(D1)= det

0z2...zn

(D2)= 0 · det

0z2...zn

= 0.

Es folgt die Behauptung.

2. Determinanten 93

Wir kommen zum Analogon von (V4), der Schiefsymmetrie. Die Determinante wech-selt beim Vertauschen zweier Zeilen das Vorzeichen.

Lemma 9.10. Seien z1, . . . , zn ∈ M1,n(K) Zeilenvektoren einer quadratischen Ma-trix. Dann gilt fur i 6= j:

(D4) det

z1...zi...zj...zn

= −det

z1...zj...zi...zn

.

Beweis. Es gilt:

det

...zi...zj...

(D1)= det

...zi...

zj + zi...

(D1)= det

...−zj

...zj + zi

...

(D1)= det

...−zj

...zi...

(D2)= −det

...zj...zi...

.

Dies war zu zeigen.

Die Determinantenfunktion ist nicht nur im Sinne von (D2) linear, sondern sie istauch in jeder Zeile linear:

Lemma 9.11. Seien z1, . . . , zn ∈M1,n(K) Zeilenvektoren einer Matrix. Dann gilt

(D5) det

z1...

zi + z′i...zn

= det

z1...zi...zn

+ det

z1...z′i...zn

Eine Funktion die (D2) und (D5) erfullt heißt multilinear.

Beweis. Seien z1, . . . , zn ∈M1,n(K) Zeilenvektoren einer Matrix und

Z :=

z1...zi...zn

Z ′ :=

z1...z′i...zn

.

94 9. Volumina und Determinanten

Falls rangZ < n und rangZ ′ < n gilt, ist auch

rang

z1...

zi + z′i...zn

< n

und alle in Lemma 9.11 auftretenden Determinanten sind 0. Sei im weiteren rangZ =n oder rangZ ′ = n. Wir konnen o.B.d.A. rangZ = n annehmen. Dann ist

z1, . . . , zi, . . . , zn

eine Basis des Kn und z′i laßt sich darstellen als z′i =n∑i=1

λizi. Es folgt:

det

z1...

zi + z′i...zn

(D1)= det

z1...

zi + λizi...zn

(D2)= (1 + λi) det

z1...zi...zn

= det

z1...zi...zn

+ det

z1...z′i...zn

.

Wir vergewissern uns, dass (D1) – (D3) die Determinantenfunktion eindeutig charak-terisieren:

Satz 9.12 (Eindeutigkeit der Determinantenfunktion). Es gibt hochstens eine De-terminantenfunktion.

Beweis. Seien det,det′ :Mn,n(K) → K Determinantenfunktionen. Wir zeigen, dassbeide Abbildungen identisch sind, d.h. fur alle A ∈Mn,n(K) gilt detA = det′A. FurrangA < n gilt mit (D3’) detA = det′A = 0. Sei also rangA = n.

Da A vollen Rang hat, benotigt der Gauß-Algorithmus keine Spaltenvertauschun-gen, kommt also nur mit Zeilenvertauschungen aus; denn wurde bei der Transforma-tion von A eine Spalte mit ar,r = ar+1,r = . . . = an,r = 0 auftreten (und nur dannist eine Spaltenvertauschung notwendig), ware rangA < n. Aus der transformiertenMatrix A′ des Gauß-Verfahrens erhalten wir durch weitere elementare Zeilentransfor-mationen eine Diagonalmatrix A′′:

AGauß-−−−−−−−→

AlgorithmusA′ =

a′11 ∗ · · · ∗

0. . . . . .

......

. . . . . . ∗0 · · · 0 a′nn

elementare−−−−−−−→Zeilentransf.

A′′ =

a′11 0 · · · 0

0. . . . . .

......

. . . . . . 00 · · · 0 a′nn

Da diese Transformationen den Rang unverandert lassen, gilt rangA′′ = n. Wir be-trachten die Auswirkungen auf die Determinante von A, wobei s ∈ N die Anzahl der

3. Permutationen und Leibniz’sche Determinantenformel 95

Zeilenvertauschungen im Gauß-Verfahren sei. Es gilt

detA(D1),(D4)

= (−1)s detA′(D1)= (−1)s detA′′

(D2)= (−1)sa11 · · · ann det In

(D3)= (−1)sa11 · · · ann,

sowie

det′A(D1),(D4)

= (−1)sdet′A′(D1)= (−1)sdet′A′′

(D2)= (−1)sa11 · · · anndet′In

(D3)= (−1)sa11 · · · ann.

Wir erhalten detA = det′A.

Aus der Leibniz’sche Determinantenformel, die wir in Satz 9.25 auf Seite 97 beweisen,folgt, dass die Determinantenfunktion auch existiert. Da die Determinantenfunktionjeder quadratischen Matrix A genau einen Wert detA zuordnen, sprechen wir von derDeterminante der Matrix A.

Mit dem Wissen der Existenz lassen sich weitere Aussagen aus dem Beweis vonSatz 9.12 ableiten:

Korollar 9.13 (Determinante einer Diagonalmatrix). Sei D ∈Mn,n(K) eine Diago-nalmatrix mit Diagonalelementen d11, . . . , dnn. Dann gilt:

detD =n∏i=1

dii = d11 · · · dnn.

Ferner erhalten wir folgendes Invertierbarkeitskriterium fur Matrizen:

Korollar 9.14. Fur quadratische Matrizen A ∈ Mn,n(K) sind die folgenden Aussa-gen aquivalent:

a) A ∈ GLn(K), d.h. A ist invertierbar.b) rangA = n.c) detA 6= 0.

Wir konnen die Determinante effizient berechnen:

Korollar 9.15. Mit dem Gauß-Algorithmus laßt sich die Determinante einer n× nMatrix in O(n3) Schritten berechnen.

3. Permutationen und Leibniz’scheDeterminantenformel

Um die Existenz der Determinantenfunktion zu zeigen, befassen wir uns mit Per-mutationen und ihren Eigenschaften. Eine Permutation ist eine bijektive Abbildungeiner Menge in sich. Da die Benennung der Mengenelemente hier keine Rolle spielt,

96 9. Volumina und Determinanten

betrachten wir O.B.d.A. Abbildungen der Menge 1, 2, . . . , n ⊂ N in sich. Die Mengealler Permutationen auf 1, . . . , n bezeichnet man mit Sn. Die Machtigkeit von Sn,d.h. die Anzahl der Permutationen, ist n! = n · (n − 1) · · · 2 · 1 (Fakultat von n).Zusammen mit der Hintereinanderausfuhrung (Konkatenation) als Operation ist Sneine Gruppe:

Definition 9.16 (Symmetrische Gruppe Sn). Fur X = 1, . . . , n heißt

Sn := σ ∈ Abb(X,X) | σ bijektiv

die symmetrische Gruppe Sn.

Die Konkatenation von Permutationen bezeichnet man als Produkt von Permuta-tionen. Wir kennzeichnen besonders einfache Arten von Permutationen:

Definition 9.17 (Transposition, Nachbartransposition). Eine Permutation, die nurzwei Elemente vertauscht, heißt Transposition. Eine Transposition, die zwei aufein-anderfolgende Elemente i und i+ 1 vertauscht, heißt Nachbartransposition.

Man bezeichnet fur i 6= j die Transposition, welche i und j vertauscht, mit (i, j).Eine Nachbartransposition ist entsprechend eine Transposition der Form (i, i+ 1).

Offenbar ist jede Permutation als Produkt von Transpositionen darstellbar. Dasich jede Transposition als Produkt von Nachbartranspositionen darstellen laßt (mantauscht das ”kleinere“ Element solange nach ”oben“, bis es an seinem Platz angekom-men ist), gilt:

Satz 9.18. Jede Permutation laßt sich als Produkt von Nachbartranspositionen dar-stellen.

Definition 9.19 (Fehlstand). Sei σ ∈ Sn und i, j ∈ 1, . . . , n. Dann heißt ein Paar(i, j) mit

i < j und σ(i) > σ(j)

ein Fehlstand von σ. Die Anzahl der Fehlstande von σ bezeichnen wir mit

f(σ) := |(i, j) | i < j und σ(i) > σ(j)| .

Fur die Anzahl der Fehlstande von Transpositionen und Nachbartranspositionen gilt:

Lemma 9.20. Sei σ = (i, j) ∈ Sn eine Transposition mit i < j und τ ∈ Sn eineNachbartransposition. Dann gilt:

a) f(σ) = 2(j − i− 1) + 1.

b) f(τσ) = f(σ)± 1.

Beweis. Sei σ = (i, j) ∈ Sn Transposition mit i < j und τ ∈ Sn Nachbartranspositi-on. Die Fehlstande von σ sind

• (i, x) mit i < x < j

• (y, j) mit i < y < j

• (i, j).

3. Permutationen und Leibniz’sche Determinantenformel 97

Damit ergeben sich insgesamt j − i− 1 + j − i− 1 + 1 = 2(j − i− 1) + 1 Fehlstande.Die zweite Behauptung wird in Ubungsaufgabe 12.4 gezeigt.

Mit den beiden Aussagen aus Lemma 9.20 charakterisieren wir eine Klasse von Trans-positionen:

Korollar 9.21. Sei σ ∈ Sn. Dann sind folgende Aussagen aquivalent:

a) f(σ) ist gerade.

b) Sind τ1, . . . , τn Nachbartranspositionen mit σ = τ1 · · · τn, so ist n gerade.

c) σ ist Produkt einer geraden Anzahl von Nachbartranspositionen.

Korollar 9.21 laßt sich auch fur ungerade Anzahlen von Fehlstanden formulieren.Wir nennen eine Permutation gerade bzw. ungerade, wenn die Anzahl ihrer Fehlstandegerade bzw. ungerade ist und ordnen ihr ein entsprechendes Vorzeichen (Signum) zu:

Definition 9.22 (Signum). Sei σ ∈ Sn eine Permutation. Dann heißt

sig(σ) := (−1)f(σ) ∈ −1,+1

das Signum von σ. Wir nennen σ gerade, falls f(σ) gerade ist und ungerade, fallsf(σ) ungerade ist.

Die geraden Permutationen bilden eine Untergruppe von Sn, die sogenannte alternie-rende Gruppe:

Definition 9.23 (Alternierende Gruppe). Wir nennen

An := σ ∈ Sn | σ gerade = sig−1(+1)

die alternierende Gruppe.

Weil die Abbildung ψ : An → Sn \An, τ 7→ στ bijektiv ist, folgt:

Lemma 9.24. Sei σ ∈ Sn \An. Dann gilt

Sn = An ∪ σAn = An ∪ στ | τ ∈ An ,

und es ist |An| = 12n!.

Eine Formel zur Berechnung der Determinante wurde bereits 1690 von Leibniz2

entwickelt. Ihre Bedeutung liegt jedoch nicht in der Berechnung konkreter Determi-nanten, sondern in ihrer Rolle in Beweisen.

Satz 9.25 (Leibniz’sche Determinantenformel). Sei A=(aij)∈Mn,n(K). Dann gilt

detA =∑σ∈Sn

sig(σ)a1,σ(1) · · · an,σ(n).

2Gottfried Wilhelm Leibniz, 1646-1716. Bedeutender Naturwissenschaftler und Philosoph.

Mitbegrunder der Infinitesimalrechnung.

98 9. Volumina und Determinanten

Insbesondere folgt aus Satz 9.25 die Existenz der Determinantenfunktion. Fur n = 2liefert die Leibniz’sche Determinantenformel:

det(a bc d

)= ad(−1)0 + bc(−1)+1 = ad− bc.

Die folgende Regel fur n = 3 ist auch als Sarrus’sche Regel3 bekannt:

det

a11 a12 a13

a21 a22 a23

a31 a32 a33

=a11a22a33 + a12a23a31 + a13a21a32

−a13a22a31 − a23a32a11 − a33a12a21.

Man erhalt sie aus den 3! = 6 in der Leibniz-Formel auftretenden Permutationen.Eine Merkregel dafur lautet ”Hauptdiagonalen () minus Nebendiagonalen ()“:

a11 a12 a13 a11 a12

a21 a22 a23 a21 a22

a31 a32 a33 a31 a32︸ ︷︷ ︸a11a22a33+a12a23a31+a13a21a32

︸︷︷︸−

a11 a12 a13 a11 a12

a21 a22 a23 a21 a22

a31 a32 a33 a31 a32︸ ︷︷ ︸(a13a22a31+a23a32a11+a33a12a21)

Fur Dreiecksmatrizen erhalten wir die aus Korollar 9.13 auf Seite 95 bekannte Formel

det

a11 ∗ · · · ∗

0. . . . . .

......

. . . . . . ∗0 · · · 0 ann

=n∏i=1

aii,

denn fur alle Permutationen σ ∈ Sn außer der Identitat gibt es ein i mit σ(i) < i undsomit ai,σ(i) = 0.

Beweis. Wir beweisen die Leibniz’sche Determinantenformel, Satz 9.25, durch Nach-weis der Eigenschaften (D1)–(D3) fur

det :Mn,n(K)→ K, A 7→∑σ∈Sn

sig(σ)a1,σ(1) · · · an,σ(n).

Sei A ∈Mn,n(K) Matrix mit Zeilenvektoren z1, . . . , zn ∈M1,n(K).

(D1) Wir zeigen zuerst, dass ”det“ in jeder Zeile linear ist:

det

z1...

zi + λzj...zn

= det

z1...zi...zn

+ λ det

z1...zj...zn

Dies folgt, da fur jede Permutation σ ∈ Sn gilt:

a1,σ(1) · · · (aj,σ(j) + λaj,σ(j)) · · · an,σ(n)

= a1,σ(1) · · · aj,σ(j) · · · an,σ(n) + a1,σ(1) · · ·λaj,σ(i) · · · an,σ(n).

3Pierre-Frederic Sarrus, 1798–1858.

4. Eigenschaften 99

Bleibt zu zeigen, dass detA′ = 0 fur

A′ =

z1...zj...zj...zn

∈Mn,n(K).

Die Matrix A′ enthalt die Zeile zj zweimal, namlich in der i-ten und inder j-ten Zeile. Sei τ = (i, j) ∈ Sn diejenige Transposition, welche i und jvertauscht. O.B.d.A. gelte i < j. Laut Lemma 9.24 stellt

Sn = An ∪Anτ

eine Zerlegung (Partition) von Sn dar. Jede Permutation σ ∈ Sn ist entwedergerade (σ ∈ An) oder von der Form σ′τ mit σ = σ′τ , σ′ ∈ An. Damit gilt:

detA′ =∑σ∈Sn

sig(σ)a′1,σ(1) · · · a′n,σ(n)

=∑σ∈An

sig(σ)a′1,σ(1) · · · a′n,σ(n) +

∑σ∈An

sig(στ)a′1,στ(1) · · · a′n,στ(n).

Mit sig σ = 1 und sig σ′τ = −1 folgt:

detA′

=∑σ∈An

a′1,σ(1) · · · a′n,σ(n) −

∑σ∈An

a′1,στ(1) · · · a′i,στ(i) · · · a

′j,στ(j) · · · a

′n,στ(n)

=∑σ∈An

a′1,σ(1) · · · a′n,σ(n) −

∑σ∈An

a′1,σ(1) · · · a′i,σ(j) · · · a

′j,σ(i) · · · a

′n,σ(n)

= 0.

Die Leibniz’sche Determinantenformel ist linear in jeder Zeile.(D2) Mit gleichem Argument wie in (D1) (Linearitat in jeder Zeile) folgt auch

(D2).(D3) Fur die Einheitsmatrix gilt, dass es zu jeder Permutation σ ∈ Sn außer der

Identitat ein i gibt mit σ(i) 6= i und damit ai,σ(i) = 0. Also ist

det In = a11 · · · ann = 1.

Aus Satz 9.12 uber die Eindeutigkeit der Determinantenfunktion folgt die Behaup-tung.

4. Eigenschaften

Wir beschaftigen uns mit weiteren Eigenschaften der Determinantenfunktion. Zuerstzeigen wir, dass alle bisherigen Aussagen auch fur die Spalten einer Matrix gelten:

Satz 9.26. Es gilt detA = detAT .

100 9. Volumina und Determinanten

Beweis. Sei A ∈ Mn,n(K), σ ∈ Sn. Da Permutationen bijektiv sind, gilt in derLeibnizformel aus Satz 9.25 auf Seite 97:

a1,σ(1) · · · an,σ(n) = aσ−1(1),1 · · · aσ−1(n),n.

Fur das Vorzeichen gilt sig(σ) = sig(σ−1). Aus

detA =∑

σ−1∈Sn

aσ−1(1),1 · · · aσ−1(n),n sig(σ−1) =∑σ∈Sn

aσ(1),1 · · · aσ(n),n sig(σ) = detAT

folgt die Behauptung.

Korollar 9.27. Die Eigenschaften (D1)-(D5) der Determinantenfunktion gelten ana-log fur die Spalten einer Matrix.

Die Streichungsmatrix A′ij ∈Mn−1,n−1(K) zu A = (aij) ∈Mn,n(K) ist erkart als dieMatrix

A′ij :=

a11 · · · a1j · · · a1n...

......

ai1 · · · aij · · · ain...

......

an1 · · · anj · · · ann

=

a1,1 · · · a1,j−1 a1,j+1 · · · ann...

......

...ai−1,1 · · · ai−1,j−1 ai−1,j+1 · · · ai−1,n

ai+1,1 · · · ai+1,j−1 ai+1,j+1 · · · ai+1,n...

......

...an,1 · · · an,j−1 an,j+1 · · · an,n

,

die durch Streichen der i-ten Zeile und j-ten Spalte in A entsteht. Durch Umstellungder Leibniz’schen Determinantenformel erhalt man den Satz von Laplace

4:

Satz 9.28 (Entwicklungssatz von Laplace). Sei A = (aij) ∈Mn,n(K). Dann gilt:

a) Entwicklung nach der i-ten Zeile: detA =n∑j=1

(−1)i+jaij detA′ij.

b) Entwicklung nach der j-ten Spalte: detA =n∑i=1

(−1)i+jaij detA′ij.

Der Entwicklungssatz reduziert den Rechenaufwand nicht notwendigerweise, dennes treten n Determinanten der Große n − 1 auf; berechnet man diese mit der Leib-niz’schen Determinantenformel, so ergeben sich die n(n − 1)! = n! Permutationender Leibnizformel fur die ursprungliche Matrix. Durch eine geschickte Wahl der Zeilebzw. Spalte, nach der man entwickelt, kann man die Determinante effizienter berech-nen (man wahle beispielsweise Zeilen oder Spalten mit vielen Nullen).

Sei K ein Korper und a1, . . . , an ∈ K. In einem Induktionsbeweis zeigt man mitHilfe geschickter Zeilenoperationen und des Entwicklungssatzes von Laplace fur die

4Pierre Simon Laplace, 1749–1827, war ein bedeutender franzosischer Mathematiker und Na-

turforscher. Er verfaßte wichtige Arbeiten auf den Gebieten der Wahrscheinlichkeitsrechnung, wo erdie sogenannte Laplace-Transformation einfuhrte, und der Astronomie. In seinem Hauptwerk, derfunfbandigen

”Mecanique celeste“ (

”Himmelsmechanik“), finden sich Untersuchungen zu Kugelfunk-

tionen, konfokalen Flachen zweiter Ordnung, der sogenannten Laplace-Gleichung, zur Potentialtheorieund zu partiellen Differentialgleichungen. Durch seinen politischen Opportunismus brachte er es biszum Marquis und Pair von Frankreich.

4. Eigenschaften 101

Vandermonde-Matrix (Ubungsaufgabe 11.1):

detVn(a1, . . . , an) = det

1 1 · · · 1a1 a2 an...

......

an−11 an−1

2 · · · an−1n

=∏i>j

(ai − aj) .

Vergleiche das Resultat mit Korollar 4.31 auf Seite 56.

Definition 9.29 (Minor). Zu einer quadratischen Matrix A = (aij) ∈ Mn,n(K)nennen wir

Aij :=

a1,1 · · · a1,j−1 0 a1,j+1 · · · a1,n...

......

......

ai−1,1 · · · ai−1,j−1 0 ai−1,j+1 · · · ai−1,n

0 · · · 0 1 0 · · · 0ai+1,1 · · · ai+1,j−1 0 ai+1,j+1 · · · ai+1,n

......

......

...an,1 · · · an,j−1 0 an,j+1 · · · an,n

Minor von A.

Definition 9.30 (Adjunkte). Zu einer quadratischen Matrix A = (aij) ∈ Mn,n(K)nennen wir

adj(A) :=

detA11 · · · detAn,1...

...detA1,n · · · detAn,n

= (detAji) = (detAij)T

die Adjunkte (auch komplementare Matrix) von A.

Lemma 9.31. Sei A ∈Mn,n(K). Dann gilt:

a) A · adj(A) = det(A) · In.

b) Falls A regular, dann A−1 = adj(A)detA .

Beweis. Sei A ∈ Mn,n(K). Fur die Komponenten von A · adj(A) gilt mit dem Ent-wicklungssatz von Laplace 9.28:

A · adj(A) =( n∑k=1

aik detAjk

)1≤i,j≤n

=

(n∑k=1

aik

[ n∑`=1,` 6=k

(−1)j+` · 0 · detA′j` + (−1)j+k · 1 · detA′jk

])1≤i,j≤n

=( n∑k=1

aik(−1)j+k detA′jk

)1≤i,j≤n

(16)

Fur den Eintrag (i, j) der Matrix A · adj(A) gilt:(A · adj(A)

)i,j

=

detA falls i = j

0 falls i 6= j

102 9. Volumina und Determinanten

Der erste Fall folgt aus Satz 9.28, denn fur i = j ist Gleichung (16) gerade dieEntwicklung nach der i-ten Zeile. Fur den zweiten Fall sei

A :=

a1,1 · · · a1,n...

...ai,1 · · · ai,n

......

aj−1,1 · · · aj−1,n

ai,1 · · · ai,naj+1,1 · · · aj+1,n

......

an,1 · · · an,n

∈Mn,n(K)

die Matrix, welche aus A entsteht, wird die j-te Zeile durch die i-te Zeile ersetzt.Entwicklung nach der j-ten Zeile liefert

det A =n∑k=1

(−1)j+kaik detA′jk = 0,

denn A hat zwei gleiche Zeilen (und damit ist rang A < n). Die zweite Aussage folgtmit Division durch detA direkt aus der ersten.

Aus Lemma 9.31 folgt, dass man fur regulare Matrizen die Losung der dazugehorigenlinearen Gleichunggsysteme angeben kann, wenn die Determinante und die Adjunkteder Matrix bekannt sind:

Korollar 9.32 (Cramer’sche Regel). Sei A ∈ Mn,n(K) invertierbar und b ∈ Kn.Dann gilt fur die Losung von Ax = b:

x =adj(A)detA

· b xj =1

detA

n∑i=1

detAijbi.

Fur die Berechnung dieser Losung auf Computern sind Abschatzungen der Großender auftretenden Zahlen von Bedeutung. Eine solche Abschatzung fur x lautet:

Korollar 9.33. Sei A = (aij) ∈ Mn,n(K) invertierbar und b ∈ Kn sowie |aij | , |bi| ≤B fur 1 ≤ i, j ≤ n. Dann gilt fur die Losung von Ax = b

|xi| ≤nnBn

detA,

insbesondere ist |xi| ≤ nnBn fur ganzzahlige A, b.

Beweis. Die Abschatzung folgt aus Korollar 9.32, |bi| ≤ B und

|detAij | ≤ (n− 1)!Bn−1.

Letzteres ergibt sich aus der Leibnizformel, denn entwickelt man Aij nach der i-tenZeile, so treten fur die resultierende Matrix A′ij genau (n− 1)! Permutationen von jen− 1 Matrixeintragen in der Leibnizformel auf.

Eine wichtige Eigenschaft der Determinante ist ihre Multiplikativitat.

4. Eigenschaften 103

Satz 9.34 (Multiplikativitat der Determinante). Seien A,B∈Mn,n(K). Dann gilt:

det(A ·B) = detA · detB.

Beweis. Falls eine oder beide Matrizen nicht vollen Rang haben, ist detA = 0 oderdetB = 0 und somit detA · detB = 0. Nach Ubungsaufgabe 8.3 gilt rang(AB) < nund die Behauptung folgt.

Wir setzen voraus im weiteren voraus, dass beide Matrizen vollen Rang haben.Nach Beweis von Satz 9.12 auf Seite 94 laßt sich A durch elementare Zeilenoperationen(insbesondere ohne Spaltenvertauschungen) in die Einheitsmatrix uberfuhren. Damitgibt es Elementarmatrizen T1, . . . , Tt ∈Mn,n(K), so dass

TtTt−1 · · ·T1A = In.

Da Elementarmatrizen invertierbar sind, ist A = T−11 · · ·T−1

t . Wir zeigen, dass furjede Elementarmatrix T−1

i gilt

det(T−1i B) = detT−1

i detB (17)

und die Behauptung folgt. Wir betrachten die drei Typen von Elementarmatrizen:

• Fur Tij(λ) gilt mit (D1), dass detTij(λ) = det In = 1 und Gleichung (17)folgt.

• Fur Ti(λ) gilt mit (D2), dass detTi(λ) = λ det In = λ und Gleichung (17)folgt.

• Fur Vij folgt Gleichung (17) aus (D4).

Dies war zu zeigen.

Auch uber die Determinante von Matrizen einer bestimmten Gestalt kann man Aus-sagen treffen, beispielsweise uber die Determinante von Kastenmatrizen:

Lemma 9.35. Seien A1, . . . , At Matrizen uber K. Dann gilt

det

A1 0 · · · 0

0 A2. . .

......

. . . . . . 00 · · · 0 At

=t∏i=1

detAi

Beweis. Die Behauptung folgt aus der Leibniz’schen Determinantenformel, denn allePermutationen, die Matrixeintrage enthalten, die gleich Null sind, tragen zur Summe,also der Determinante, nichts bei. Bleiben nur diejenigen Permutationen ubrig, dielediglich Eintrage innerhalb der Ai vertauschen. Dies sind aber die Permutationenvon detA1, . . . ,detAt.

Da die Addition des skalaren Vielfachen einer Zeile zu einer anderen Zeile die Deter-minante nicht andert, gilt:

104 9. Volumina und Determinanten

Satz 9.36 (Kastchensatz). Seien A1, . . . , At Matrizen uber K. Dann gilt

det

A1 ∗ · · · ∗

0 A2. . .

......

. . . . . . ∗0 · · · 0 At

=t∏i=1

detAi

Im allgemeinen gilt jedoch fur Matrizen A,B,C,D ∈Mn,n(K):

det(A BC D

)6= detA · detD − detB · detC.

Kapitel 10

Normalformen undEigenwerte

Wir haben in Kapitel 6 gesehen, dass jede lineare Abbildung durch eine Matrix dar-stellbar ist. In diesem Abschnitt leiten wir durch geeignete Basenwahl einfache bzw.kanonische Darstellungsmatrizen her.

1. Eigenwerte und Eigenvektoren

Wir fassen diejenigen Matrizen zu Klassen zusammen, die den gleichen Endomorphis-mus bezuglich verschiedener Basen des Kn darstellen. Man definiert dazu die folgendeAquivalenzrelation:

Definition 10.1 (Ahnliche Matrizen). Zwei Matrizen A,B ∈Mn,n(K ) heißen ahn-lich, A ∼ B, wenn es eine invertierbare Matrix T ∈ GLn(K) gibt mit

A = T−1BT.

Die Ahnlichkeitsrelation ist eine Aquivalenzrelation (siehe Definition 2.30 auf Seite28):

Satz 10.2. Die Ahnlichkeitsrelation ist eine Aquivalenzrelation auf Mn,n(K).

Beweis. Seien A,B,C ∈ Mn,n(K). Wir zeigen die Eigenschaften einer Aquivalenz-relation: Aus A = I−1

n AIn = InAIn = A folgt die Reflexivitat: A ∼ A. Sei A ∼ B,d.h. A = TBT−1. Dann gilt T−1AT = B, also B ∼ A, so dass die Ahnlichkeitsrelationdie Symmetrie-Eigenschaft A ∼ B ⇐⇒ B ∼ A erfullt. Zu zeigen bleibt die Transi-tivitat: Aus (A ∼ B) und (B ∼ C) folgt A ∼ C. Sei A = TBT−1 und B = SCS−1.Dann gilt

A = TBT−1 = TSCS−1T−1 = (TS)C(TS)−1.

Nach Satz 5.5 auf Seite 61 sind TS und (TS)−1 regular, so dass A ∼ C.

105

106 10. Normalformen und Eigenwerte

Wir zeichnen diejenigen linearen Abbildungen aus, die sich — bei geeigneter Basiswahl— durch moglichst einfache Matrizen darstellen lassen:

Definition 10.3 (Diagonalisierbarkeit). Eine quadratische Matrix heißt diagonali-sierbar, wenn sie zu einer Diagonalmatrix ahnlich ist. Eine lineare Abbildung heißtdiagonalisierbar, wenn es eine Basis gibt, so dass ihre Darstellungsmatrix eine Dia-gonalmatrix ist.

Zur Untersuchung der Diagonalisierbarkeit verwenden wir Eigenwerte und Eigen-vektoren. Dabei handelt es sich um Vektoren, bei denen eine lineare Abbildung einerMultiplikation mit einem Skalar (einem Eigenwert) entspricht. Die Eigenvektoren sindalso diejenigen Vektoren, die von der linearen Abbildung gestreckt werden.

Definition 10.4 (Eigenwert, Eigenvektor). Sei A ∈Mn,n(K) eine quadratische Ma-trix. Dann nennen wir einen Skalar λ ∈ K einen Eigenwert von A, wenn es einenVektor v ∈ Kn \ 0 gibt mit

Av = λv.

Ein solcher Vektor v heißt ein Eigenvektor von A zum Eigenwert λ.

Man beachte, dass Null ein Eigenwert sein kann, ein Eigenvektor jedoch stets vomNullvektor verschieden ist.

Nicht jede Matrix ist diagonalisierbar. So ist beispielsweise die folgende, Jordan-Kastchen genannte Matrix, nicht diagonalisierbar:

λ 0 · · · · · · 0

1. . . . . .

...

0. . . . . . . . .

......

. . . . . . . . . 00 · · · 0 1 λ

Wir leiten ein Kriterium zur Diagonalisierbarkeit her:

Satz 10.5. Eine quadratische Matrix A ∈Mn,n(K) ist genau dann diagonalisierbar,wenn es eine Basis des Kn aus Eigenvektoren von A gibt.

Beweis. Zu jeder Diagonalmatrix gibt es eine Basis des Kn bestehend aus Eigenvek-toren, denn die Diagonalmatrix

D :=

λ1 0 · · · 0

0. . . . . .

......

. . . . . . 00 · · · 0 λn

∈Mn,n(K)

hat die Eigenwerte λ1, . . . , λn mit den dazugehorigen Eigenvektoren e1, . . . , en ∈ Kn,also den kanonischen Einheitsvektoren.

Sei A ∈ Mn,n(K) regular. Beim Ubergang von A zu einer ahnlichen MatrixT−1AT ubertragen sich die Eigenwerte und Eigenvektoren von A: Ist bi ∈ Kn Eigen-vektor zum Eigenwert λi ∈ K von A, also Abi = λibi, dann ist T−1bi ein Eigenvektor

1. Eigenwerte und Eigenvektoren 107

von T−1AT zum Eigenwert λi:

T−1AT (T−1bi) = T−1Abi = T−1λibi = λi(T−1bi).

Damit bildet b1, . . . , bn ∈ Kn eine Basis des Kn bestehend aus Eigenvektoren vonA genau dann, wenn T−1b1, . . . , T

−1bn ∈ Kn eine Basis des Kn aus Eigenvektorender ahnlichen Matrix T−1AT ist. Weil die Diagonalisierbarkeit von A aquivalent zurAhnlichkeit zu einer Diagonalmatrix ist, folgt die Behauptung.

Aus dem nachsten Satz folgt, dass eine n× n Matrix hochstens n paarweise verschie-dene Eigenwerte hat:

Satz 10.6. Sei A ∈ Mn,n(K). Dann sind Eigenvektoren b1, . . . , bm ∈ Kn von A zupaarweise verschiedenen Eigenwerten λ1, . . . , λm ∈ K linear unabhangig uber K.

Beweis. Wir fuhren den Beweis durch vollstandige Induktion nach m:

• Zur Induktionsverankerung sei m = 1 und b1 Eigenvektor von A. Wegenb1 6= 0 ist b1 linear unabhangig.

• Der Induktionsschritt erfolgt von m − 1 nach m. Seien b1, . . . , bm ∈ KnEigenvektoren zu den paarweise verschiedenen Eigenwerten λ1, . . . , λm ∈ Kvon A. Es ist zu zeigen, dass b1, . . . , bm linear unabhangig sind:

m∑i=1

tibi = 0 =⇒ (t1, . . . , tm) = 0.

Sei∑m

i=1 tibi = 0. Dann ist

Am∑i=1

tibi =m∑i=1

tiAbi =m∑i=1

tiλibi = 0.

O.B.d.A. sei λm 6= 0. Aus∑m

i=1 tibi = λm∑m

i=1 tibi erhalten wir:m∑i=1

tiλibi =m∑i=1

λmtibi,

so dass:m∑i=1

(tiλi − tiλm)bi =m−1∑i=1

(tiλi − tiλm)︸ ︷︷ ︸∈K

bi = 0.

Da nach Induktionsvoraussetzung b1, . . . , bm−1 linear unabhangig sind, gilt

tiλi = tiλm fur i = 1, . . . ,m− 1.

Nach Voraussetzung sind die Eigenwerte λ1, . . . , λm paarweise verschiedenund es folgt t1 = . . . = tm−1 = 0 und damit tm = 0.

Dies war zu zeigen.

Aus Satz 10.5 folgt:

Korollar 10.7 (Diagonalisierbarkeitskriterium). Jede n× n Matrix mit n paarweiseverschiedenen Eigenwerten ist diagonalisierbar.

108 10. Normalformen und Eigenwerte

Die Matrix(

0 11 0

)hat die Eigenwerte 1 und −1 mit den Eigenvektoren

(11

)und(

+1−1

). Somit gilt

(0 11 0

)∼(

1 00 −1

). Die Umkehrung von Korollar 10.7 gilt nicht; eine

diagonalisierbare Matrix kann weniger als n paarweise verschiedene Eigenwerte haben:Die Matrix

A =

3 1 12 4 21 1 3

=

1 1 1−1 0 20 −1 1

2 0 00 2 00 0 6

12 −1

212

14

14 −3

414

14

14

∈M3,3(R)

ist diagonalisierbar, hat jedoch nur zwei Eigenwerte:

• Eigenwert 2 mit Eigenvektoren (1,−1, 0)T und (1, 0,−1)T .

• Eigenwert 6 mit Eigenvektor (1, 2, 1)T .

Lemma 10.8. Sei A ∈Mn,n(K). Paarweise verschiedene λ1, . . . , λn ∈ K sind genaudann Eigenwerte zu A, falls A ahnlich zu einer Diagonalmatrix D ∈ Mn,n(K) mitDiagonalelementen λ1, . . . , λn ist:

A ∼

λ1 0 · · · 0

0. . . . . .

......

. . . . . . 00 · · · 0 λn

.

Beweis. Sei D ∈Mn,n(K) die in Lemma angegebene Diagonalmatrix mit λ1, . . . , λnals Diagonalelementen. Hat A die paarweise verschiedenen Eigenwerte λ1, . . . , λn, soist A mit Korollar 10.7 diagonalisierbar. Nach dem Beweis von Satz 10.5 ubertragensich die Eigenwerte und die Diagonalmatrix hat obige Gestalt. Ist umgekehrt A ahn-lich zu D, ubertragen sich die Eigenwerte von D auf A. Die Eigenwerte von D sindgerade λ1, . . . , λn.

Eine Matrix A ∈ Mn,n(K) kann hochstens n Eigenwerte, aber wesentlich mehr Ei-genvektoren haben. Fur einen Eigenvektor v ∈ Kn zum Eigenwert λ ∈ K sind auchalle skalaren Vielfachen µv von v Eigenvektoren von A:

A(µv) = µAv = µλv = λ(µv)

Die Summe zweier Eigenvektoren v1, v2 ∈ Kn zum gleichen Eigenwert λ von A istebenfalls ein Eigenvektor:

A(v1 + v2) = Av1 +Av2 = λv1 + λv2 = λ(v1 + v2)

Die Menge aller Eigenvektoren zu einem Eigenwert einer Matrix und der Nullvektorbilden nach Lemma 3.5 einen Untervektorraum von Kn, den sogenannten Eigenraumvon A zum Eigenwert λ:

Definition 10.9 (Eigenraum). Sei A ∈Mn,n(K) und λ ∈ K Eigenwert von A. Dannnennen wir

Eig(A, λ) := v ∈ Kn |Av = λv

den zugehorigen Eigenraum.

1. Eigenwerte und Eigenvektoren 109

Der Eigenraum von A und λ besteht also aus allen Eigenvektoren von A zu λsowie dem Nullvektor (der per Definition kein Eigenvektor ist).

Lemma 10.10. Sei A ∈Mn,n(K) und λ1, . . . , λm paarweise verschiedene Eigenwertevon A. Dann gilt

a)m∑i=1

Eig(A, λi) ∼=m⊕i=1

Eig(A, λi).

b) dimm∑i=1

Eig(A, λi) =m∑i=1

dim Eig(A, λi).

Beweis. Sei A ∈Mn,n(K) und λ1, . . . , λn paarweise verschiedene Eigenwerte von A.Um zu zeigen, dass die Summe der Eigenraume isomorph zur inneren direkten Summeder Eigenraume ist, genugt der Nachweis, dass jeder Vektor u ∈

∑mi=1 Eig(A, λi) eine

eindeutige Darstellung

u = u1 + . . .+ um mit ui ∈ Eig(A, λi)

hat. Zur Eindeutigkeit der Darstellung aquivalent ist die Aussage

Eig(A, λi) ∩m∑j=1j 6=i

Eig(A, λj) = 0 fur i = 1, . . . ,m.

Sei ui ∈ Eig(A, λi) mit ui =∑

j 6=i uj und uj ∈ Eig(A, λj). Nach Satz 10.6 sindu1, . . . , um linear unabhangig. Andererseits gilt

ui =m∑j=1j 6=i

uj ⇐⇒ ui −m∑j=1j 6=i

uj = 0.

Also ist uj = 0 fur j = 1, . . . ,m, j 6= i und die Behauptung folgt. Die zweite Aussagefogt in Verbindung mit der ersten Behauptung und Ubungsaufgabe 10.4.

Wir erhalten als Kriterium fur Diagonalisierbarkeit:

Satz 10.11. Eine Matrix A ∈ Mn,n(K) mit paarweise verschiedenen Eigenwertenλ1, . . . , λm ist genau dann diagonalisierbar, wenn

m∑i=1

dim Eig(A, λi) = n.

Beweis. Wir zeigen beide Richtungen:

”⇒“ A ist diagonalisierbar ⇒∑m

i=1 dim Eig(A, λi) = n.Da A diagonalisierbar ist, gibt es eine regulare Matrix T ∈Mn,n(K) mit

A = T−1DT = T−1

λ1 0 · · · 0

0. . . . . .

......

. . . . . . 00 · · · 0 λn

T.

110 10. Normalformen und Eigenwerte

Dabei konnen einzelne λi mehrfach auftreten, denn A hat nach Voraus-setzung m ≤ n paarweise verschiedene Eigenwerte. Die kanonischen Ein-heitsvektoren e1, . . . , en ∈ Kn sind Eigenvektoren zu D und damit bildenT−1e1, . . . , T

−1en eine Basis des Kn aus linear unabhangigen Eigenvektorenvon A.

”⇐“∑m

i=1 dim Eig(A, λi) = n ⇒ A ist diagonalisierbar.Nach Voraussetzung gibt es eine Basis b1, . . . , bn ∈ Kn des Kn aus Eigenvek-toren von A. Sei

B = (b1 · · · bn) ∈Mn,n(K) und B−1 =

cT1...cTn

∈Mn,n(K)

mit c1, . . . , cn ∈Mn,1(K). Dann gilt

In = B−1B = (cTi bj)1≤i,j≤n = (δij)1≤i,j≤n.

Aus

B−1AB = B−1(Ab1 · · ·Abn

)= B−1

(λ1b1 · · ·λmbn

)folgt:

B−1AB = (cTi λjbj)1≤i,j≤n =

λ1 0 · · · 0

0. . . . . .

......

. . . . . . 00 · · · 0 λm

.

Dabei konnen einzelne λi mehrfach auftreten.

Dies war zu zeigen.

2. Charakteristisches Polynom

Das charakteristische Polynom einer Matrix erlaubt es, die Eigenwerte einer linearenAbbildung zu bestimmen.

Definition 10.12 (Charakteristisches Polynom). Zu einer quadratischen Matrix A ∈Mn,n(K) heißt

χA(X) := det(A−XIn) = det

a1,1 −X a1,2 · · · a1,n

a2,1. . . . . .

......

. . . . . . an−1,n

an,1 · · · an,n−1 an,n −X

∈ K[X]

das charakteristische Polynom von A.

Berechnen wir die Determinante det(A−XIn) nach der Leibniz-Formel, Satz 9.25auf Seite 97, erhalt man das charakteristisches Polynom in Form einer Summe von n!

2. Charakteristisches Polynom 111

Polynomen:

det(A−XIn) =n∏i=1

(aii −X) +∑

σ∈Sn\Id

qσ mit qσ ∈ K[X]n−1.

Der Grad des charakteristischen Polynoms zu einer n× n-Matrix ist daher n.Das charakteristische Polynom einer linearen Abbildung ist das charakteristische

Polynom einer Darstellungsmatrix dieser Abbildung. Diese Festlegung ist wohldefi-niert, denn zwei Darstellungsmatrizen einer linearen Abbildung haben als ahnlicheMatrizen das gleiche charakteristische Polynom:

Lemma 10.13. Seien A,B ∈Mn,n(K) mit A ∼ B. Dann gilt χA(X) = χB(X).

Beweis. Seien A,B, T ∈Mn,n(K) mit T regular und B = T−1AT . Es gilt

χB(X) = det(T−1AT −XIn)

= det(T−1AT −XT−1T )

= det(T−1(A−XIn)T )

= detT−1 det(A−XIn) detT.

Mit detT−1 = 1detT folgt die Behauptung.

Definition 10.14 (Charakteristisches Polynom einer linearen Abbildung). Das cha-rakteristische Polynom einer linearen Abbildung ist das charakteristische Polynomeiner Darstellungsmatrix der Abbildung.

Man kann die Eigenwerte einer Matrix A uber die Nullstellen ihres charakteristischesPolynom χA ermitteln:

Lemma 10.15. Sei A ∈ Mn,n(K). Ein Skalar λ ∈ K ist genau dann Eigenwert vonA, wenn χA(λ) = 0.

Beweis. Sei A ∈Mn,n(K) und λ ∈ K. Da fur v ∈ Kn und λ ∈ K gilt

Av = λv ⇐⇒ (A− λIn)v = 0,

ist λ genau dan ein Eigenwert von A, falls Los(A− λIn, 0) 6= 0. Nach Satz 5.7 aufSeite 62 ist:

Los(A− λIn, 0) 6= 0 ⇐⇒ rang(A− λIn) < n.

Weil eine Matrix dann und nur dann sigular ist, wenn ihre Determinante Null ist,folgt:

λ ist Eigenwert von A ⇐⇒ det(A− λIn) = 0.

Aus χA(λ) = det(A− λIn) erhalten wir die Behauptung.

Beispiel 10.16. In der reellen Ebene R2 beschreiben wir eine Drehung um den Null-punkt mit dem Winkel ϕ durch die lineare Abbildung mit der Matrix

Dϕ :=(

cosϕ − sinϕsinϕ cosϕ

)∈M2,2(R)

112 10. Normalformen und Eigenwerte

Fur das charakteristische Polynom gilt

χDϕ(X) = det(

cosϕ−X − sinϕsinϕ cosϕ−X

)= (cosϕ−X)(cosϕ−X)− (− sinϕ sinϕ)

= cos2 ϕ− (2 cosϕ)X +X2 + sin2 ϕ.

Aus der Euler’schen Formel cos2 ϕ+ sin2 ϕ = 1 folgt:

χDϕ(X) = X2 − (2 cosϕ)X + 1 (18)

Mit der pq-Formel sind die beiden Nullstellen

x1,2 =2 cosϕ±

√4 cos2 ϕ− 4

2

genau dann reell, wenn 4 cos2 ϕ − 4 ≥ 0, also cos2 ϕ = 1. Alternative Uberlegung:Nach dem Fundamentalsatz der Algebra (Fakt 4.23 auf Seite 52) zerfallt χDϕ uber Cin Linearfaktoren, d.h. es gibt c, λ, λ′ ∈ C mit

χDϕ(X) = c(X − λ)(X − λ′)= c(X2 −X(λ+ λ′) + λλ′).

Nach Lemma 4.25 auf Seite 53 ist λ′ = λ und mit (18) folgt c = 1, λ + λ = 2 cosϕund λλ = 1. Fur λ = a + ib ergibt sich a = cosϕ und cos2 ϕ + b2 = 1. Damit ist λgenau dann reell, wenn cos2 ϕ = 1, also fur ϕ = 0 und ϕ = π.

Eine Drehung in R2 hat nur dann reelle Eigenwerte, wenn ϕ = 0 (also Dϕ =Id) oder ϕ = π (also bei einer Spiegelung an der x2-Achse). Die entsprechendenEigenwerte sind 1 und −1. Wie sehen die Eigenraume aus?

Man erhalt die Menge der Eigenwerte, indem man die Nullstellen des charak-teristischen Polynoms ermittelt. Der naheliegende Gedanke, dass die Vielfachheitender Eigenwerte den Vielfachheiten der Nullstellen des charakteristischen Polynomsentsprechen, trifft im allgemeinen nicht zu. Entsprechend zur Notation in Kapitel 4,Definition 4.20 auf Seite 51, bezeichnen wir die Vielfachheit einer Nullstelle λ vonχA(X) mit ν(A, λ). Die Vielfachheit des Eigenwerts λi von A ist genau dim Eig(A, λi):

Lemma 10.17. Sei A ∈Mn,n(K) und λ ∈ K. Dann gilt

dim Eig(A, λ) ≤ ν(A, λ).

Beweis. Sei k := dim Eig(A, λ), b1, . . . , bk linear unabhangige Eigenvektoren zu λund b1, . . . , bk, . . . , bn sei Basis des Kn. Wir setzen B = (b1 · · · bn) ∈ Mn,n(K). Dann

2. Charakteristisches Polynom 113

ist B−1AB von der Form

B−1AB =

λ 0 · · · 0 ∗ · · · ∗

0. . . . . .

......

......

. . . . . . 0...

......

. . . λ ∗ · · · ∗... 0 d1,1 · · · d1,n−k...

......

...0 · · · · · · 0 dn−k,1 · · · dn−k,n−k

∈Mn,n(K).

Mit Lemma 10.13 und Satz 9.36 uber die Determinante von Kastenmatrizen gilt

χA(X) = χB−1AB(X) = det(B−1AB −XIn) = (λ− x)kχD(X).

Somit gilt ν(A, λ) ≥ k.

Beispiel 10.18. Wir betrachten ein Jordan-Kastchen:

J =

λ 0 · · · · · · 0

1. . . . . .

...

0. . . . . . . . .

......

. . . . . . . . . 00 · · · 0 1 λ

∈Mn,n(K).

Es gilt

dim Eig(A, λ) = n− rang

0 · · · · · · · · · 0

1. . .

...

0. . . . . .

......

. . . . . . . . ....

0 · · · 0 1 0

= n− (n− 1) = 1

sowie χJ(x) = (λ− x)n. Wir erhalten ν(J, λ) = n > dim Eig(J, λ) = 1.

Wir erhalten folgendes Diagonalisierbarkeitskriterium:

Satz 10.19. Eine quadratische Matrix A ∈Mn,n(K) ist genau dann diagonalisierbar,wenn

a) Das charakteristische Polynom χA(X) vollstandig in Linearfaktoren zerfallt:∑λ∈K ν(A, λ) = n

b) Fur alle Eigenwerte λ ∈ K gilt: ν(A, λ) = dim Eig(A, λ)

Beweis. Beide Bedingungen zusammen sind gleichwertig zu∑λ∈K

dim Eig(A, λ) = n

und nach Satz 10.11 gilt dies genau fur diagonalisierbare Matrizen.

114 10. Normalformen und Eigenwerte

Bei diagonalisierbaren Matrizen entspricht die Vielfachheit der Nullstellen des cha-rakteristischen Polynoms der Vielfachheit der Eigenwerte.

Bemerkung 10.20. Wir wissen, dass jedes Polynom p ∈ C[X] vom Grad n uber Cin Linearfaktoren zerfallt. Die Nullstellen mussen nicht paarweise verschieden sein,aber fast alle Polynome p ∈ C[X] vom Grad n haben n verschiedene Nullstellen in C.Die Ausnahmemenge in C[X]n ∼= C

n+1 hat das Lebesguemaß 0. Damit sind fast alleMatrizen A ∈Mn,n(C) uber C diagonalisierbar.

3. Normalformen

Wie wir gesehen haben, sind nicht alle Matrizen diagonalisierbar. Jedoch kann jedeMatrix auf ”einfache“ Formen, die kanonischen oder Normalformen, gebracht werden.

Definition 10.21 (Begleitmatrix). Sei p(X) =∑m−1

j=0 ajXj + Xm ∈ K[X] ein nor-

miertes Polynom vom Grad m. Dann heißt

L :=

0 · · · · · · 0 −a0

1. . .

... −a1

0. . . . . .

......

.... . . . . . 0

...0 · · · 0 1 −am−1

∈Mm,m(K)

Begleitmatrix zu p. Im Fall m = 1 ist L = (−a0) ∈M1,1(K).

Fur jede lineare Abbildung mit vollem Rang gibt es eine Darstellungsmatrix ausBegleitmatrizen auf der Diagonalen [G86, Kap. 6, Satz 7].

Satz 10.22. Jede regulare Matrix A ∈ Mm,m(K) ist ahnlich zu einer Kastenmatrixder Form

L1 0 · · · 0

0 L2. . .

......

. . . . . . 00 · · · 0 Lt

.

Dabei sind L1, . . . , Lt Begleitmatrizen zu Potenzen von irreduziblen (uber K unzerleg-baren) Polynomen pi ∈ K[X]. Das charakteristische Polynom von A ist das Produktdieser Polynome:

χA(X) =t∏i=1

pi.

Man spricht von einer blockdiagonalen Matrix .

Lemma 10.23. Die Begleitmatrix L ∈Mm,m(K) hat das charakteristische Polynom

χL(X) = det(L−XIm) = (−1)mp(X).

3. Normalformen 115

Beweis. Sei L ∈Mm,m(K) die Begleitmatrix zum normierten Polynom

p(X) =m−1∑i=0

aiXi +Xm.

Fur das charakteristische Polynom

χL(X) = det(L−XIm) = det

−X 0 · · · 0 −a0

1. . . . . .

... −a1

0. . . . . . 0

......

. . . . . . −X...

0 · · · 0 1 (−am−1 −X)

erhalten wir durch Entwicklung nach der letzten Spalte gemaß dem Entwicklungssatz9.28 von Laplace, wobei A′im ∈ Mm−1,m−1(K) die entsprechende Streichungsmatrixbezeichnet:

χL(X) =m−1∑i=1

(−1)i+m(−ai−1) detA′im + (−1)m+m(−am−1 −X) · detA′mm

= (−1)m( m∑i=1

(−1)i−1ai−1 detA′im

)−X · detA′mm.

Mit detA′im = (−X)i−1 (was wir anschließend beweisen werden) gilt weiter:

χL(X) = (−1)m( m∑i=1

(−1)i−1ai−1(−X)i−1

)−X · (−X)m−1

= (−1)mm−1∑i=0

aiXi + (−1)mXm

= (−1)mp(X).

Der Nachweis von

detA′im = det

−X 0 ··· ··· ··· ··· ··· ··· ··· 0

1. . . . . .

...

0. . . . . . . . .

......

. . . . . . . . . . . ....

0 ··· 0 1 −X 0 ··· ··· ··· 00 ··· ··· ··· 0 1 −X 0 ··· 0...

. . . . . . . . . . . ....

.... . . . . . . . . 0

.... . . . . . −X

0 ··· ··· ··· ··· ··· ··· ··· 0 1

!= (−X)i−1

folgt unmittelbar durch Laplace-Entwicklung nach der letzten Zeile:

detA′im = (−1)(m−1)+(m−1) · 1 · (−X)i−1 · 1m−i = (−X)i−1.

116 10. Normalformen und Eigenwerte

Ist p(X) =∑n

i=0 piXi ∈ K[X] ein Polynom, kann man fur die Unbestimmte

X nicht nur Elemente aus K, sondern auch Endomorphismen f : V → V eines K-Vektorraums V einsetzen. Wir erhalten einen Endomorphismus p(f) : V → V mit

p(f) = p0 · id + p1f + . . .+ pn−1fn−1 + pnf

n

wobei

fk = f . . . f︸ ︷︷ ︸k-mal

die k-fache Hintereinanderausfuhrung bezeichnet. Auf gleiche Weise kann man eben-falls eine Matrix A ∈Mn,n(K) einsetzen:

p(A) = p0In + p1A+ . . .+ pn−1An−1 + pnA

n ∈Mn,n(K)

Der Satz von Cayley-Hamilton besagt, setzt man eine Matrix in ihr eigenes charak-teristisches Polynom ein, ergibt dies die Nullmatrix:

Satz 10.24 (Cayley-Hamilton). Fur A ∈Mn,n(K) ist χA(A) = 0.

Einen Beweis findet man in [Beu98, Kapitel 8.3]. Wir wenden den Satz vonCayley-Hamilton auf die beschreibende Matrix einer linearen Abbildung an und er-halten:

Korollar 10.25. Sei V ein K-Vektorraum und f : V → V Endomorphismus. Danngilt χf (f) = 0, d.h. χf (f) ist die Nullabbildung.

Fur allgemeine Homomorphismen von Vektorraumen f : U → V ist weder dieDeterminante noch das charakteristische Polynom erklart. Die Determinante der Dar-stellungsmatrix ist zwar im Fall dimU = dimV erklart, aber von der Wahl der Basenin U und V abhangig. Fur beliebige Homomorphismen von Vektorraumen f : U → Vkann man die Basen in U und V stets so wahlen, dass f durch eine Diagonalmatrixdargestellt wird.

Bemerkung 10.26. Die sogenannte Jordan’sche Normalform bezieht sich nur aufn × n Matrizen und Endomorphismen, deren charakteristisches Polynom χA(X) inLinearfaktoren zerfallt, d.h. χA(X) hat mit Vielfachheiten gezahlt n Nullstellen.Dies ist ein Spezialfall, der uber dem Korper R bei großem n relativ selten ist. IstA ∈ Mn,n(K) regular und

∑λ∈K ν(A, λ) = n, dann ist A ahnlich zu einer verall-

gemeinerten Diagonalmatrix, deren Kasten Jordan-Kastchen sind. Dabei ist λ einEigenwert von A.

Kapitel 11

EuklidischeVektorraume

In den vorherigen Kapiteln betrachteten wir allgemeine Korper K. Die ”analytischeGeometrie“ dagegen basiert auf dem Korper der reellen Zahlen. Man erweitert dieVektorraumstruktur um ein sogenanntes Skalarprodukt, um sowohl Lange als auchWinkel zu definieren.

1. Vektornorm

Bei einem normierten Vektorraum ist außer dem Raum selbst eine Funktion gegeben,die jedem Vektor eine Lange (Norm) zuordnet:

Definition 11.1 (Vektornorm). Sei V ein R-Vektorraum. Eine Vektornorm auf Vist eine Abbildung ‖·‖ : V → R mit folgenden Eigenschaften:

(N1) Positive Definitheit: ‖v‖ > 0 fur v 6= 0.

(N2) Positive Homogenitat: ‖λv‖ = |λ| · ‖v‖ fur λ ∈ R, v ∈ V .

(N3) Dreiecksungleichung: ‖v + w‖ ≤ ‖v‖+ ‖w‖ fur v, w ∈ Rn.

Die reelle Zahl ‖v‖ heißt Norm oder Lange des Vektors v.

Aus der positiven Homogenitat folgt mit λ = 0, dass ‖0‖ = 0 ist, aufgrund derpositiven Definitheit gilt daher:

‖v‖ = 0 ⇐⇒ v = 0.

Fur V = Rn verwendet man haufig eine der folgenden Normen, dabei sei x =

(x1, . . . , xn)T ∈ Rn:

• Betragsnorm: ‖x‖1 :=∑n

i=1 |xi|.

• Euklidische Norm:: ‖x‖2 :=√∑n

i=1 x2i .

• Maximumsnorm: ‖x‖∞ := maxi=1,...,n

|xi|.

117

118 11. Euklidische Vektorraume

Der Nachweis der Norm-Eigenschaften ist einfach. Eine Verallgemeinerung dieser Bei-spiele ist die sogenannte p-Norm zu einer festen, reellen Zahl p ≥ 1:

‖x‖p :=( n∑i=1

|xi|p) 1p

.

Fur p = 1 bzw. p = 2 erhalt man die Betrags- und die euklidische Norm, die Maxi-mumsnorm ergibt sich als Grenzfall der p-Norm fur p → ∞. Die positive Definitheitund Homogenitat erfullt die p-Norm offenbar, die Dreiecksungleichung folgt aus derMinkowski’schen Ungleichung, die man in der Analysis zeigt.

Fakt 11.2 (Holder’sche Ungleichung). Zu p, q ≥ 1 mit 1p+ 1

q = 1 gilt fur alle x, y ∈ Rn:∣∣xT y∣∣ ≤ ‖x‖p · ‖y‖q .Ein Spezialfall der Holder’schen Ungleichung ist die Cauchy-Schwarz-Ungleichung.

Mit p = q = 2 folgt fur x, y ∈ Rn:∣∣xT y∣∣ ≤ ‖x‖2 · ‖y‖2Die Gleichheit gilt genau dann, wenn beide Vektoren linear abhangig sind.

Fakt 11.3. Je zwei Normen ‖·‖ und ‖·‖′ auf dem Rn sind aquivalent, d.h. es gibt

Konstanten c1, c2 ∈ R mit

c1 · ‖x‖ ≤ ‖x‖′ ≤ c2 · ‖x‖

fur alle x ∈ Rn.

Zum Beispiel gilt fur x ∈ Rn:

‖x‖2 ≤ ‖x‖1 ≤√n · ‖x‖2

‖x‖∞ ≤ ‖x‖2≤√n · ‖x‖∞

‖x‖∞ ≤ ‖x‖1 ≤ n · ‖x‖∞ .

Der Abstand (Distanz ) zwischen zwei Vektoren x, y ∈ Rn laßt sich definieren alsd(x, y) := ‖x− y‖. Wir haben im Kapitel 7 uber lineare Codes gesehen, dass manden Abstand zweier Vektoren auch unabhangig von einer Norm formulieren kann.

Definition 11.4 (Metrik). Sei V ein Vektorraum uber einem Korper K. Eine Metrikauf V ist eine Abbildung d : V × V → R mit folgenden Eigenschaften:

(M1) Symmetrie: d(x, y) = d(y, x) fur x, y ∈ V .

(M2) Dreiecksungleichung: d(x, z) ≤ d(x, y) + d(y, z) fur x, y, z ∈ V .

(M3) Es gilt x = y ⇐⇒ d(x, y) = 0 fur x, y ∈ V .

Die reelle Zahl d(x, y) heißt Abstand oder Distanz von x und y.

Fur den Abstand zweier Vektoren x und y gilt stets d(x, y) ≥ 0, denn:

0 = d(x, x) ≤ d(x, y) + d(y, x) = d(x, y) + d(x, y) = 2 · d(x, y).

2. Matrixnorm 119

Zu jeder Norm ‖·‖ ist d(x, y) = ‖x− y‖ eine Metrik auf dem Raum Rn. Die Umkeh-

rung gilt nicht, denn zur Metrik d mit

d(x, y) :=

1 falls x 6= y

0 sonst

auf dem Rn stellt die Abbildung x 7→ d(x, 0) keine Norm dar (wieso?).

2. Matrixnorm

Die Matrixnorm auf Mm,n(R) ist mit der Isomorphie Rm·n ' Mm,n(R) aquivalentzur Vektornorm auf Rm·n:

Definition 11.5 (Matrixnorm). Eine Matrixnorm auf Mm,n(R) ist eine Abbildung‖·‖ :Mm,n(R)→ R mit folgenden Eigenschaften:

(N1) Positive Definitheit: ‖A‖ > 0 fur A 6= 0.(N2) Positive Homogenitat: ‖λA‖ = |λ| · ‖A‖ fur λ ∈ R, A ∈Mm,n(R).(N3) Dreiecksungleichung: ‖A+B‖ ≤ ‖A‖+ ‖B‖ fur A,B ∈Mm,n(R).

Die reelle Zahl ‖A‖ heißt Norm der Matrix A.

Auch fur Matrixnormen ist genau dann A = 0, wenn ‖A‖ = 0 gilt. Man verwendethaufig eine der folgenden beiden Normen, dabei sei A = (aij)ij ∈Mm,n(R):

• Die Frobenius-Norm entspricht der euklidischen Norm auf Rm×n:

‖A‖F :=

√√√√ m∑i=1

n∑j=1

a2i,j .

• die p-Matrixnorm zu einer festen, reellen Zahl p ≥ 1:

‖A‖p := supx 6=0

‖Ax‖p‖x‖p

.

Wegen der positiven Homogenitat konnen wir die p-Matrixnorm auch schrei-ben als:

‖A‖p = sup‖Ax‖p

∣∣∣ ‖x‖p = 1.

Die p-Matrixnorm interpretiert A als Abbildung Rn → Rm mit x 7→ Ax und

nicht als Vektor in Rm×n ' Mm,n(R). Die Matrixnorm ‖A‖p gibt an, umwelchen Faktor die Lange (in der p-Norm) des Vektors x durch die Abbildungx 7→ Ax hochstens gestreckt wird:

‖Ax‖p ≤ ‖A‖p · ‖x‖p (19)

Wir haben die p-Matrixnorm ‖A‖p der Matrix Mm,n(R) definiert als das Supremumvon der p-Vektornorm ‖Ax‖p uber alle x aus der n-Sphare (Kugeloberflache)

Sn,‖·‖p :=x ∈ Rn

∣∣∣ ‖x‖p = 1

zur Vektornorm ‖·‖p. Die p-Norm einer Matrix ist eine reelle Zahl, denn die Abbildungx 7→ ‖Ax‖p ist stetig und Sn,‖·‖p kompakt:

120 11. Euklidische Vektorraume

Lemma 11.6. Zu einer Matrix A ∈ Mm,n(R) nimmt die Abbildung x 7→ ‖Ax‖p mitx ∈ Sn,‖·‖p ihr Supremum an.

Die p-Matrixnorm hat die wichtige Eigenschaft der Submultiplikativitat :

Lemma 11.7 (Submultiplikativitat der p-Matrixnorm). Seien A ∈ Mk,m(R) undB ∈Mm,n(R). Dann gilt:

‖A ·B‖p ≤ ‖A‖p · ‖B‖p .

Beweis. Wir wenden Abschatzung (19) an:

‖ABx‖p = ‖A(Bx)‖p ≤ ‖A‖p · ‖Bx‖p ≤ ‖A‖p · ‖B‖p · ‖x‖p .

Aus der Ungleichung fur beliebiges x 6= 0

‖ABx‖p‖x‖p

≤ ‖A‖p · ‖B‖p

folgt, dass das Supremum ‖A ·B‖p = supx 6=0

‖ABx‖p‖x‖p

durch das Produkt ‖A‖p·‖B‖p

der Normen beider Matrizen beschrankt ist.

Im Beweis zu Lemma 11.6 benutzen wir, dass bei der Zusammensetzung linearerAbbildungen die Darstellungsmatrizen multipliziert werden. Fur φB : x 7→ Bx undφA : x 7→ Ax ist die Zusammensetzung φA φB mit φA(φB(x)) beschrieben durch dieMatrix AB:

φA φB = φ(A·B).

In der Numerik verwendet man die Matrix-Norm, um zu zeigen, dass ein ite-ratives Verfahren eine approximative Losung bestimmt. Wir geben im folgendeneinen Algorithmus zur naherungsweisen Berechnung der inversen Matrix zu einergegebenen Matrix an. Zunachst zeigen wir das Analogon zur geometrischen Reihe(1− x)−1 =

∑∞ν=0 x

ν fur x ∈ R mit |x| < 1 fur Matrizen:

Satz 11.8. Sei A ∈Mn,n(R) eine quadratische Matrix mit p-Norm ‖A‖p < 1. Danngilt

(In −A)−1 =∞∑ν=0

Aν und ‖In −A‖p ≤1

1− ‖A‖p.

Beweis. Die Matrix In − A ist regular, denn anderenfalls gabe es ein x 6= 0 mit(In−A)x = 0, also x = Ax. Wegen ‖x‖p = ‖Ax‖p ist dann ‖A‖p ≥ 1 im Widerspruchzur Voraussetzung. Das Inverse (In −A)−1 existiert. Die Identitat

(In −A) ·t∑

ν=0

Aν = In −At−1

impliziert

limt→∞

(In −A) ·t∑

ν=0

Aν = In. (20)

2. Matrixnorm 121

Aufgrund der Submultiplikativitat der p-Norm, die wir in Lemma 11.6 gezeigt haben,gilt: ∥∥At+1

∥∥p≤ ‖A‖p · ‖A‖p · · · ‖A‖p︸ ︷︷ ︸

(t+ 1)-mal

= ‖A‖t+1p

Mit der Voraussetzung ‖A‖p < 1 folgt limt→∞∥∥At+1

∥∥p

= 0. Gleichung (20) multipli-ziert mit (In −A)−1 ergibt:

limt→∞

t∑ν=0

Aν = (In −A)−1. (21)

Mit der Dreiecksungleichung fur die Matrixnorm erhalten wir:∥∥(In −A)−1∥∥p≤∞∑ν=0

‖Aν‖p ≤1

1− ‖A‖p.

Die letzte Abschatzung ist die geometrische Reihe∑∞

ν=0 xν = 1

1−x fur x ∈ R mit|x| < 1.

Es folgt:

Lemma 11.9. Seien A,B ∈ Mn,n(R) quadratische Matrizen mit ‖In −AB‖p ≤ εfur ein ε < 1. Dann gilt:

‖In − 2AB + (AB)2︸ ︷︷ ︸=AB(AB−2In)

‖p ≤ ε2.

Beweis. Aus dem binomischen Lehrsatz und der Submultiplikativitat der p-Matrix-norm folgt: ∥∥In − 2AB + (AB)2

∥∥p

=∥∥(In −AB)2

∥∥p≤ ε2.

Wahle eine Startmatrix B0 mit ‖In −AB0‖p ≤ ε fur ein ε < 1. Fur die Folge

Bi := Bi−1(−ABi−1 + 2In) i = 1, 2, 3, . . .

gilt:

‖In −ABi‖p ≤ ε2i .

Nach jeder Iteration wird der Abstand ABi zur Einheitsmatrix In immer kleiner. DieDifferenz In − ABi quadriert sich in jeder Iteration, man spricht von quadratischerKonvergenz.

Anhand des Wertes ε wissen wir, nach wievielen Iterationen man eine naherungs-weise Losung mit der gewunschten Approximationsgute gefunden hat. Die p-Normε der Startmatrix konnen wir mit folgendem Satz nach oben mit Hilfe der p- und1-Vektornorm abschatzen:

122 11. Euklidische Vektorraume

Satz 11.10. Sei A ∈ Mn,n(R) eine quadratische Matrix mit Spalten A1, . . . , An.Dann gilt:

‖A‖p ≤ maxi=1,...,n

‖Ai‖p · maxx∈Rn\0

‖x‖1‖x‖p

.

Beweis. Es ist:

‖A‖p = maxx 6=0

‖Ax‖p‖x‖p

= maxx 6=0

‖∑n

i=1Aixi‖p‖x‖p

.

Aus der Dreicksungleichung und der positiven Homogenitat der p-Matrixnorm folgt:

‖A‖p ≤ maxx 6=0

n∑i=1

‖Ai‖p ·‖xi‖‖x‖p

≤ maxx 6=0

(max

i=1,2,...,n‖Ai‖p ·

n∑i=1

|xi|‖x‖p

)Mit ‖x‖1 =

∑ni=1 |xi| erhalten wir die Behauptung:

‖A‖p ≤ maxi=1,...,n

‖Ai‖p ·maxx 6=0

‖x‖1‖x‖p

.

Zum Beispiel ist ‖x‖1‖x‖2≤√n und ‖x‖1

‖x‖∞≤ n fur x ∈ Rn \ 0.

3. Skalarprodukt

Ein euklidischer Vektorraum ist ein reeller Vektorraum in Verbindung mit einemSkalarprodukt:

Definition 11.11 (Skalarprodukt). Sei V ein R-Vektorraum. Ein Skalarprodukt aufV ist eine Abbildung 〈·, ·〉 : V × V → R, die folgenden Regeln genugt:

(S1) Positive Definitheit: 〈v, v〉 > 0 fur alle v 6= 0.(S2) Bilinearitat: Fur jedes v ∈ V sind die beiden Abbildungen 〈v, ·〉 , 〈·, v〉 : V →

R mit w 7→ 〈v, w〉 und w 7→ 〈w, v〉 linear.1

(S3) Symmetrie: 〈v, w〉 = 〈w, v〉 fur alle v, w ∈ V .

Man sagt kurz, 〈·, ·〉 ist eine positiv definite, symmetrische Bilinearform auf V .Ein wichtiges Beispiel eines Skalarproduktes auf dem R

n, das sogenannte kanonischeSkalarprodukt auf dem R

n, haben wir bereits kennengelernt:

〈x, y〉 := xyT =n∑i=1

xiyi.

Man uberzeuge sich, dass es die Bedingungen eines Skalarprodukts erfullt. Neben demkanonischen Skalarprodukt gibt es auch Skalarprodukte, die durch einen Basiswechselentstehen. Sei etwa B ∈ Mn,n(R) eine Basismatrix bestehend aus den Spaltenvekto-ren B1, . . . , Bn. Dann hat das kanonische Skalarprodukt 〈·, ·〉 zur Basis B die Form〈·, ·〉B mit:

〈v, w〉B := 〈Bv,Bw〉 = (Bv)T (Bw) = vTBTBw.

1Wegen der Symmetrie hatte es genugt, die Linearitat in nur einer Komponente zu fordern.

3. Skalarprodukt 123

die Matrix Q := BTB ist symmetrisch, d.h. Q = QT .Fur einen euklidischen Vektorraum verwenden wir als Norm die Abbildung ‖v‖ :=√〈v, v〉. Fur das kanonische Skalarprodukt im R

n liefert dies die euklidische Lange

‖x‖ =

√√√√ n∑i=1

x2i .

Wir zeigen, daß ‖v‖ :=√〈v, v〉 eine Norm ist. Aus den Eigenschaften des Skalarpro-

dukts folgt unmittelbar√〈v, v〉 > 0 fur v 6= 0 und√

〈λv, λv〉 =√λ · 〈v, λv〉 =

√λ2 · 〈v, v〉 = |λ| ·

√〈v, v〉.

Die Dreiecksungleichung ‖v + w‖ ≤ ‖v‖ + ‖w‖ der Norm weist man mit Hilfe derCauchy-Schwarz-Ungleichung nach:

‖v + w‖2 = ‖v‖2 + 2 ·

≤‖v‖+‖w‖︷ ︸︸ ︷〈v, w〉 + ‖w‖2 ≤ (‖v‖+ ‖w‖)2

Zu zeigen bleibt die Abschatzung 〈v, w〉 ≤ ‖v‖ · ‖w‖:

Satz 11.12 (Cauchy-Schwarz-Ungleichung). In jedem euklidischen Vektorraum V giltfur v, w ∈ V :

|〈v, w〉| ≤ ‖v‖ · ‖w‖ .

Die Gleichheit gilt genau dann, wenn beide Vektoren linear abhangig sind.

Beweis. Fur w = 0 gilt die Behauptung, so dass im weiteren w 6= 0 sei. Setzeλ := 〈v,w〉

‖w‖2 . Es gilt:

0 ≤ 〈v − λw, v − λw〉 (22)

= 〈v, v − λw〉 − λ · 〈w, v − λw〉= 〈v, v〉 − 2λ · 〈v, w〉+ λ2 · 〈w,w〉

Mit 〈u, u〉 = ‖u‖2 folgt:

0 ≤ ‖v‖2 − 2 · 〈v, w〉2

‖w‖2+〈v, w〉2

‖w‖2= ‖v‖2 − 〈v, w〉

2

‖w‖2.

Wir erhalten die Behauptung aus 〈v, w〉2 ≤ ‖v‖2 · ‖w‖2. Die Gleichheit in (22) giltgenau dann, wenn w = 0 oder v = µw fur ein µ ∈ R.

Seien x, y ∈ Rn \ 0 und 〈·, ·〉 das kanononische Skalarprodukt. Gemaß Cauchy-Schwarz-Ungleichung gilt

−1 ≤ 〈x, y〉‖x‖ · ‖y‖

≤ +1.

Somit gilt cosϕ = 〈x,y〉‖x‖·‖y‖ fur genau ein Winkel ϕ ∈ [0, π]:

124 11. Euklidische Vektorraume

Abbildung 1. Winkel

y

-

x

y2

y1

Abbildung 2. Cosinus

-π0 2ππ/2 3π/2

+1

−1

cosϕ

ϕ

-

ϕπ

π/2

2π/2

e1

cosϕr 0/2π

Satz 11.13. Zu x, y ∈ Rn \ 0 ist der Winkel zwischen x, y

ϕ := ∠(x, y) := arccos〈x, y〉‖x‖ · ‖y‖

mit cosϕ = 〈x,y〉‖x‖·‖y‖ .

Beweis. Sei o.B.d.A. x = (x1, x2)T ∈ R2 mit x2 = 0 und x1 ≥ 0, sowie y =

(y1, y2)T ∈ R2. Fur den Winkel ϕ = ∠(x, y) gilt:

cosϕ =Ankathete

Hypothenuse=

y1√y2

1 + y22

=‖x‖ · y1

‖x‖ · ‖y‖=〈x, y〉‖x‖ · ‖y‖

.

Wir erhalten als Verallgemeinerung des Satzes von Pythagoras:

3. Skalarprodukt 125

Satz 11.14 (Cosinussatz). Fur x, y ∈ Rn \ 0 gilt mit ϕ := ∠(x, y):

‖x− y‖2 = ‖x‖2 + ‖y‖2 − 2 〈x, y〉

= ‖x‖2 + ‖y‖2 − 2 ‖x‖ · ‖y‖ · cosϕ.

Fur cosϕ = 0 ist ∠(x, y) = 12π, also

cosϕ = 0 ⇐⇒ ‖x‖2 + ‖y‖2 = ‖x− y‖2 .

Korollar 11.15 (Parallelogramm-Gleichung). Fur x, y ∈ Rn \ 0 gilt:

‖x+ y‖2 + ‖x− y‖2 = 2 ‖x‖2 + 2 ‖y‖2 .

Abbildung 3. Parallelogramm-Gleichung

j

:

-

0

x

y

x+ y‖x+ y‖

‖x− y‖

Ist der Winkel ∠(v, w) = 90, sagt man, der Vektor w steht senkrecht auf v:

Definition 11.16 (Orthogonalitat). Zwei Vektoren v, w ∈ V eines euklidischen Vek-torraums V sind orthogonal oder senkrecht, v ⊥ w, falls 〈v, w〉 = 0. Wir schreibenv ⊥ U fur eine Menge U von Vektoren, wenn v orthogonal zu allen Vektoren u ∈ Uist.

Eine Menge von Vektoren v1, . . . , vn ∈ V heißt orthogonal, wenn vi ⊥ vj furi 6= j. Wie fur das kanonische Skalarprodukt in Abschnitt 1 definiert man zu einemUntervektorraum U eines reellen Vektorraum V das orthogonale Komplement U⊥

gemaß

U⊥ := v ∈ V | 〈u, v〉 = 0 fur alle u ∈ U = v ∈ V | v ⊥ U .

Analog zu Satz 8.1 gilt V = U ⊕ U⊥.

Definition 11.17 (Orthogonal-, Orthonormalbasis). Die Vektoren b1, . . . , bn einesVektorraum V nennt man orthonormal oder Orthonormalsystem, wenn ‖bi‖ = 1 furi = 1, . . . , n und bi ⊥ bj fur i 6= j.2 Bilden die Vektoren eine Basis von V , sprichtman von einer Orthogonal- bzw. Orthonormalbasis.

Vektoren b1, . . . , bn eines Orthogonalsystems sind stets linear unabhangig, dennaus

∑nj=1 λjbj = 0 folgt fur i = 1, . . . , n:

0 = 〈0, bi〉 =

⟨n∑j=1

λjbj , bi

⟩=

n∑j=1

λi · 〈bj , bi〉 = λi · 〈bi, bi〉 = λi · ‖bi‖ ,

2Anders ausgedruckt 〈bi, bj〉 = δi,j fur 1 ≤ i, j ≤ n.

126 11. Euklidische Vektorraume

so dass wegen bi 6= 0 folgt ‖bi‖ 6= 0 und λ1 = · · · = λn = 0.Sei b1, . . . , bn eine Orthogonalbasis eines reellen Vektorraums V . Jeden Vektor

v ∈ V konnen wir schreiben als v =∑n

j=1 λjbj . Es folgt fur i = 1, . . . , n:

〈v, bi〉 =

⟨n∑j=1

λjbj , bi

⟩=

n∑i=j

λj 〈bj , bi〉 = λi · 〈bi, bi〉 = λi · ‖bi‖2

Die i-te Koordinate bezuglich der Orthogonalbasis ist λi = 〈v,bi〉‖bi‖2

:

Satz 11.18. Sei b1, . . . , bn eine Orthogonalbasis eines reellen Vektorraums V . Furv ∈ V gilt:

v =n∑i=1

〈v, bi〉‖bi‖2

· bi.

Fur eine Orthonormalbasis ist v =∑n

i=1 〈v, bi〉 · bi.

Sei V ein reeller Vektorraum und U ein Untervektorraum mit einer orthogonalenBasis b1, . . . , bm. Diese konnen wir durch Hinzunahme von Vektoren bm+1, . . . , bn ausU⊥ zu einer Basis von V erweitern. Die orthogonale Projektion πU : V → U istgegeben durch:

v 7→m∑j=1

〈v, bj〉‖bj‖2

· bj

Das Schmidt’sche Orthogonalisierungsverfahren erzeugt zu einer Basis b1, . . . , bn eineseuklidischen Vektorraums V eine Orthogonalbasis b∗1, . . . , b

∗n gemaß folgender Rekur-

sion:

b∗1 := b1

b∗i := bi −i−1∑j=1

〈bi, b∗j 〉‖b∗j‖

2 · b∗j fur i > 1.

(23)

Die Vektoren b∗1, . . . , b∗n nennt man die Hohen der Basisvektoren b1, . . . , bn, die Ko-

effizienten µi,j := 〈bi,b∗j 〉‖b∗j‖

2 Gram-Schmidt-Koeffizienten. In Ubungsaufgabe 12.2 zeigenwir die Korrektheit des Schmidt’schen Orthogonalisierungsverfahrens:

Satz 11.19. Sei b1, . . . , bn eine Basis eines euklidischen Vektorraums V . Die Vektorenb∗1, . . . , b

∗n der Rekursion (23) bilden eine Orthogonalbasis von V .

Aus der Eindeutigkeit der Zerlegung bi = πU (bi) + πU⊥(bi) folgt, dass fur eine

geordnete Basis, d.h. die Reihenfolge der Basisvektoren ist fest vorgegeben, die Hoheneindeutig bestimmt sind.

Indem wir die Hohen b∗1, . . . , b∗n der Orthogonalbasis normieren, also b∗i durch 1

‖b∗i ‖·

b∗i ersetzen, erhalt man eine Orthonormalbasis, d.h. jeder euklidische Vektorrraumbesitzt eine Orthonormalbasis.

4. Orthogonale Abbildungen und Matrizen 127

4. Orthogonale Abbildungen und Matrizen

Wir nennen eine Abbildung orthogonal, wenn das gegebene Skalarprodukt zweierVektoren x, y mit dem der Bilder ubereinstimmt:

Definition 11.20 (Orthogonale Abbildung). Eine lineare Abbildung f : Rn → Rm

heißt orthogonal (auch isometrisch), wenn fur alle x, y ∈ Rn gilt:

〈x, y〉 = 〈f(x), f(y)〉 .

Der Begriff ”orthogonale Abbildung“ laßt sich auf den Fall beliebiger Vektorraumeverallgemeinern. Sei V ein reeller, n-dimensionaler Vektorraum mit Basis B und Φ :V → R

n der Isomorphismus, der einen Vektor auf seinen Koordinatenvektor bezuglichder Basis abbildet:

Φ(Bt) = (t1, . . . , tn)T .

Durch 〈v, w〉V := 〈Φ(v),Φ(w)〉 ist ein Skalarprodukt auf V definiert. Der Endomor-phismus F : V → V heißt orthogonal, wenn 〈v, w〉V = 〈f(v), f(w)〉 fur alle v, w ∈ Vist. Dies gilt genau dann, wenn die Abbildung (Φ f Φ−1) : Rn → R

n orthogonalist.

Lemma 11.21. Sei A ∈Mn,n(R) und φA : Rn → Rn mit x 7→ Ax. Die Abbildung φA

ist genau dann orthogonal (bezuglich kanonischem Skalarprodukt), wenn AT = A−1.

Beweis. Sei e1, . . . , en die Standardbasis des Rn. Die Abbildung φA ist genau dannorthogonal, wenn fur 1 ≤ i, j ≤ n gilt:

〈ei, ej〉︸ ︷︷ ︸=eTi ·ej

= 〈φA(ei), φA(ej)〉︸ ︷︷ ︸=eTi A

TAej

.

Dies gilt genau dann, wenn ATA = In, also AT = A−1.

Eine Basis b1, . . . , bn heißt orthonormal, falls 〈bi, bj〉 = δi,j fur 1 ≤ i, j ≤ n.

Satz 11.22. Sei A ∈ Mn,n(R) und φA : Rn → Rn mit x 7→ Ax. Bezuglich des

kanonischen Skalarprodukts sind folgende Aussagen aquivalent:

a) Die Abbildung φA ist orthogonal, d.h. ATA = In.b) A−1 = AT .c) Die Zeilenvektoren bilden eine Orthonormalbasis des Rn.d) Die Spaltenvektoren bilden eine Orthonormalbasis des Rn.

Wir nennen die Matrix A orthogonal, wenn die Spalten- bzw. Zeilenvektoren eineOrthonormalbasis des Rn bilden:

Definition 11.23 (Orthogonale Matrix). Eine quadratische Matrix A ∈ Mn,n(R)heißt orthogonal, wenn ATA = In. Die Menge der orthogonalen n × n-Matrizen be-zeichnet man mit On(R) ⊆Mn,n(R).

Die orthogonalen n× n-Matrizen On(R) bilden bezuglich der Multiplikation eineGruppe bzw. eine Untergruppe von GLn(R):

128 11. Euklidische Vektorraume

Satz 11.24. Die Menge der orthogonalen n×n-Matrizen On(R) ist ein multiplikativeGruppe.

Beweis. Da die Matrix-Multiplikation assoziativ ist, genugt der Nachweis, dassOn(R)abgeschlossen ist gegen Multiplikation und Inversenbildung. Zu A,B ∈ On(R) giltAB ∈ On(R), denn

(AB)T (AB) = BT ·ATA︸ ︷︷ ︸=In

·B = BTB = In.

Zu A ∈ On(R) gibt es ein Inverses A−1 = AT ∈ On(R).

Wir haben bereits einige der Matrixgruppen kennengelernt. Die allgemeine, lineareGruppe ist

GLn(K) = A ∈Mn,n(K) | detA 6= 0 .

Fur K = R bilden die orthogonalen Matrizen

On(R) =A ∈ GLn(R)

∣∣ATA = In

eine Untergruppe von GLn(R), die sogenannte orthogonale Gruppe (vergleiche Satz11.24 auf Seite 128). Die spezielle orthogonale Gruppe SOn(R) ist ihrerseits eineUntergruppe von On(R):

SOn(R) = A ∈ On(R) | detA = +1

Beispiel 11.25. Beispiele orthogonaler 2× 2-Matrizen sind Drehungen Dϕ um ϕ ∈[0, 2π) und Spiegelungen SP:

Dϕ =(

cosϕ − sinϕsinϕ cosϕ

)SP =

(1 00 −1

)Mit diesen beiden Matrix-Typen konnen wir die Menge der orthogonalen 2 × 2-Matrizen schreiben als O2(R) = Dϕ, SP ·Dϕ | ϕ ∈ [0, 2π).

Es gilt [Beu98, Kap. 10.4]:

Satz 11.26. Sei A ∈ On(R) eine orthogonale n×n-Matrix. Dann gibt es eine ortho-gonale Matrix T ∈ On(R), so dass T−1AT von folgender Form ist:

Ik−I` 0

Dϕ1

0. . .

Dϕm

. (24)

Jede orthogonale Abbildung φ : Rn → Rm hat bezuglich einer geeigneten Ortho-

normalbasis eine darstellende Matrix der Form (24).

4. Orthogonale Abbildungen und Matrizen 129

Sei b1, . . . , bn Basis eines euklidischen Vektorraums. Mit dem Gram-Schmidt-Orthogonalisierungsverfahren

b∗1 := b1

b∗i := bi −i−1∑j=1

〈bi, b∗j 〉‖b∗j‖

2 · b∗j fur i > 1.

(25)

berechnet man eine Orthogonalbasis b∗1, . . . , b∗n. Zu den Gram-Schmidt-Koeffizienten

µi,j := 〈bi,b∗j 〉‖b∗j‖

2 mit i > j definiere:

µij :=

1 fur i = j

0 fur i < j,

so dass:

(b1 · · · bn

)=(b∗1 · · · b∗n

1 µ2,1 · · · µn−1,1 µn,10 1 µn−1,2 µn,2...

. . . . . ....

0 0 1 µn,n−1

0 · · · 0 0 1

︸ ︷︷ ︸

=(µi,j

)T1≤i,j≤n

.

Wir normieren die Vektoren der Orthogonalbasis:

(b∗1 · · · b∗n

)=(

b∗1‖b∗1‖

· · · b∗n‖b∗n‖

)︸ ︷︷ ︸

∈On(R)

·

‖b∗1‖ 0 · 0

0. . .

......

. . . 00 · · · 0 ‖b∗n‖

︸ ︷︷ ︸

Diagonalmatrix mit pos. Elementen

und erhalten:

(b1 · · · bn

)=(

b∗1‖b∗1‖

· · · b∗n‖b∗n‖

)︸ ︷︷ ︸

∈On(R)

·

‖b∗1‖ 0 · 0

0. . .

......

. . . 00 · · · 0 ‖b∗n‖

· (µi,j)T1≤i,j≤n︸ ︷︷ ︸

∈ODn(R)

Da die Gram-Schmidt-Orthogonalisierung eindeutig ist, gilt:

Satz 11.27. Sei B ∈ GLn(R). Dann existiert eine eindeutige Zerlegung B = OT mitorthogonaler Matrix O ∈ On(R) und obere Dreiecksmatrix T ∈ ODn(R).

Korollar 11.28 (Iwasawa-Zerlegung). Sei B ∈ GLn(R). Dann existiert eine eindeu-tige Zerlegung B = ODT mit orthogonaler Matrix O ∈ On(R), einer DiagonalmatrixD mit positiven Diagonalelementen und einer oberen Dreiecksmatrix T ∈ ODn(R).

Teil 2

Lineare Algebra II

Kapitel 12

Konvexe Geometrie

Polyhedra, lineare Ungleichungssysteme und lineare Programmierung stellen drei Fa-cetten des gleichen Problemfeldes dar: eine geometrische, eine algebraische und ei-ne optimierende Sichtweise. Diese Beziehungen wurden zuerst von J. Fourier um1820 bemerkt und spater im 20. Jahrhundert wiederentdeckt. In diesem Abschnittbeschaftigen wir uns mit der geometrischen und der algebraische Sicht, auf die linea-re Programmierung gehen wir in Kapitel 13 ein.

1. Konvexe Mengen

Zu p, q ∈ Rn bezeichnen wir die Verbindungsstrecke von p und q mit:

[p, q] := λp+ (1− λ)q | 0 ≤ λ ≤ 1= λp+ µq | λ ≥ 0, µ ≥ 0, λ+ µ = 1 .

Definition 12.1 (Konvexe Menge). Eine Teilmenge K ⊆ Rn ist eine konvexe Menge,wenn fur alle p, q ∈ K gilt [p, q] ⊆ K, d.h. die Verbindungsstrecke in K liegt.

Sei (Ki)i∈I eine Familie konvexer Mengen, dann ist auch der Durchschnitt⋂i∈I Ki

eine konvexe Menge. Die Vereinigung konvexer Mengen ist hingegen im allgemeinennicht konvex. Dies fuhrt zum Begriff der konvexen Hulle:

Definition 12.2 (Konvexe Hulle). Zu einer Teilmenge M ⊆ Rn ist die konvexe Hulle

kon(M) :=⋂

M⊆KK konvex

K.

Die konvexe Hulle kon(M) von M ist die kleinste konvexe Menge, die M umfasst.Zur vereinfachung der Notation schreiben wir kon(p1, . . . , pk) fur die konvexe Hulleeiner Menge von Punkten p1, . . . , pk.

Definition 12.3 (Konvexkombination). Eine Linearkombination∑k

i=0 λipi von k+1Punkten p0, . . . , pk ∈ Rn mit λ0, . . . , λk ∈ R heißt Konvexkombination, wenn λ0, . . . , λk ≥0 und

∑ki=0 λi = 1.

133

134 12. Konvexe Geometrie

Zum Bespiel sind die Punkte einer Verbindungsstrecke [p, q] genau die Konvexkom-binationen der Punkte p und q.

Lemma 12.4. Sei K ⊆ Rn eine konvexe Menge und p0, . . . , pk ∈ K. Dann enthaltK jede Konvexkombination

∑ki=0 λipi von p0, . . . , pk.

Beweis. Fur k = 0 kommt nur p0 als Konvexkombination von p0 in Betracht, sodass die Behauptung fur k = 0 trivial ist. Fur k ≥ 1 beweisen wir die Aussage durchInduktion uber k:

• Inmduktionsasis k = 1: Sei x eine Konvexkombination von p0, p1, diese liegtauf der Verbindungsstrecke: x ∈ [p0, p1]. Da K konvex ist, gilt [p0, p1] ⊆ Kund es folgt x ∈ K.

• Induktionsschluß von k − 1 auf k: Sei x :=∑k

i=0 λipi eine Konvexkombina-tion. O.B.d.A. sei λk > 0. Dann ist

µ := 1− λ0 = λ1 + · · ·+ λk > 0

und es gilt

x = λ0p0 + µ

(λ1

µp1 + · · ·+ λk

µpk

)︸ ︷︷ ︸

=:y

.

Wegen λ1µ , . . . ,

λkµ ≥ 0 und

∑ki=1

λiµ = µ

µ = 1 ist y eine Konvexkombinationder k−1 Punkten p1, . . . , pk ∈ K. Nach Induktionssannahme gilt y ∈ K. Da

x =k∑i=0

λipi = λ0p0 + µy,

λ0, µ ≥ 0 und λ0 + µ = 1 ist x eine Konvexkombination der beiden Punktep0, y ∈ K. Wir erhalten aus der Induktionsverankerung die Behauptung.

Dies war zu zeigen.

Satz 12.5. Fur jede Menge M ⊆ Rn gilt:

kon(M) =

k∑i=0

λipi

∣∣∣∣∣ k ∈ N und p0, . . . , pk ∈M ,λ0, . . . , λk ≥ 0 mit

∑ki=0 λi = 1

,

d.h. die konvexe Hulle kon(M) ist gleich der Menge L der Konvexkombinationen vonje endlich vielen Punkten aus M .

Beweis. Wir zeigen, dass L konvex ist. Seien x :=∑k

i=0 λipi und x′ :=∑m

i=0 λ′ip′i

Konvexkombinationen von p0, . . . , pk ∈M und p′0, . . . , p′m ∈M . Zu zeigen ist [x, x′] ⊆

L. Sei

y := λx+ λ′x′ ∈ [x, x′]

mit λ, λ′ ≥ 0 und λ+ λ′ = 1. Es gilt:

y = λx+ λ′x′ = λm∑i=0

λipi + λ′m∑i=0

λ′ip′i

1. Konvexe Mengen 135

mit λ∑m

i=0 λi + λ′∑m

i=0 λ′i ≥ 0. Damit ist y eine Konvexkombination der k + m

Punkten p0, . . . , pk, p′0, . . . , p

′m ∈M , so dass y ∈ L gilt.

Definition 12.6 (Polyeder, Polygon). Ein (konvexes) Polyeder P ⊆ Rn ist die kon-vexe Hulle endlich vieler Punkte kon(p0, p1, . . . , pk). Polyeder im R

2 heißen Polygone.

Im Englischen nennt man ein (konvexes) Polyeder Polytope. Ein Simplex ist ein ein-faches Polyeder:

Abbildung 1. Simplices

s s s

s

s sss ss

0-Simplex 1-Simplex 2-Simplex 3-Simplex

Definition 12.7 (Simplex). Die konvexe Hulle kon(p0, . . . , pk) von k + 1 Punktenp0, . . . , pk ∈ Rn heißt k-Simplex, wenn p1 − p0, p2 − p0, . . . , pk − p0 linear unabhangigsind.

Die lineare Unabhangigkeit der Differenzvektoren ist unabangig von der Reihenfolgeder Punkte p0, p1, . . . , pk. Wir hatten in Definition 3.6 auf Seite 31 zu einem affinenTeilraum A den Richtungsraum

R(A) = p− a0 | p ∈ A = p− q | p, q ∈ A(mit festem a0 ∈ A) eingefuhrt. Der Richtungsraum ist ein von der Wahl des Punktesa0 unabhangiger Vektorraum.

Definition 12.8 (Dimension affiner Untervektorraum). Die Dimension eines affi-nen Untervektoraums A ist die Dimension seines Richtungsraums, also dimA :=dim R(A).

Definition 12.9 (Affine Hulle). Zu einer Teilmenge M ⊆ Rn ist die affine Hulle

aff(M) :=⋂M⊆A

A affiner Teilraum

A.

Die affine Hulle aff(M) von M ist der kleinste affine Teilraum, der M umfasst.

Definition 12.10 (Affin unabhangig). Die k+1 Punkte p0, . . . , pk ∈ Rn heißen affinunabhangig, wenn p1−p0, p2−p0, . . . , pk−p0 linear unabhangig sind oder,aquivalent,wenn dim aff(p0, . . . , pk) = k gilt.

Definition 12.11 (Halbraum, Polyhedron). Sei ϕ : Rn → R eine lineare Abbildungund b ∈ R. Eine Teilmenge

H = x ∈ Rn | ϕ(x) ≥ b ⊆ Rn

136 12. Konvexe Geometrie

heißt (affiner) Halbraum. Ein Polyhedron P ⊆ Rn ist der Durchschnitt endlich vielerHalbraume. Die Dimension des Polyhedron P 6= ∅ ist

dimP := dim aff(P ) = maxk ∈ N

∣∣∣∣ ∃ affin unabhangigep0, p1, . . . , pk ∈ P

.

Abbildung 2. Halbraum

p p p p p p p p p p p p p p p p p p p p pp ppp ppppp ppppppp pppppppp pppppppppp ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

p pppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp ppppppppp pppppp pppp pp

p pppp pppppp ppppppppp ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp pppppppppp pppppppp pppppp pppp ppp p

ϕ(x) ≥ b

ϕ(x) = b

Eine lineare Abbildung ϕ : Rn → R ist gegeben durch ϕ(x) = ax fur einenZeilenvektor a ∈ Rn. Ein Polyhedron P konnen wir schreiben als Losungsmenge eineslinearen Ungleichungssystems Ax ≥ b:

P = x ∈ Rn |Ax ≥ b .

Definition 12.12 (Extremalpunkt, Ecke). Sei K ⊆ Rn eine konvexe Menge. EinPunkt p ∈ K heißt Extremalpunkt von K, falls kein q ∈ Rn \ 0 mit p ± q ∈ Kexistiert. E(K) bezeichne die Menge der Extremalpunkte von K. Die Extremalpunkteeines Polyhedron P nennt man Ecken von P .

Folgende, aquivalente Charakterisierungen der Extremalpunkte beweist man durchelementares Nachrechnen:

Fakt 12.13. Sei K ⊆ Rn eine konvexe Menge. Dann sind folgende Aussagen aqui-valent:

a) p ∈ E(K), d.h. p ist ein Extremalpunkt von K.b) Es gibt keine Strecke [p1, p2] ⊆ K mit p ∈ [p1, p2] \ p1, p2.c) K \ p ist konvex.

Lemma 12.14. Sei P := kon(p0, . . . , pk) ⊆ Rn ein Polyeder mit paarweise verschie-denen p0, . . . , pk. Genau dann ist pk keine Ecke, wenn das Polyeder die konvexe Hulleder ubrigen Punkte ist, also P = kon(p0, . . . , pk−1).

Beweis. Wir zeigen folgende Aquivalenz:

pk /∈ E(P ) ⇐⇒ pk ist Konvexkombination von p0, . . . , pk−1

Es gilt:

1. Konvexe Mengen 137

Abbildung 3. Ecke

pp ppppp ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

pppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp pppppppp pppppp pppp pp

K

sIIR

p

+q

−q

”⇐“ Sei pk =∑k−1

i=0 λipi eine Konvexkombination. Wegen pk /∈ p0, . . . , pk−1 giltλi < 1 fur alle i, so dass aufgrund

∑k−1i=0 λi = 1 mindestens zwei der λi-Werte

ungleich Null sind. Seien o.B.d.A. λ0, λ1 6= 0. Mit ε := min(λ0, λ) gilt

pk ± ε(p0 − p1) ∈ P,

denn∑k−1

i=1 λipi ± εp0 ± εp1 ist eine Konvexkombination von Punkten in P .Folglich gilt pk /∈ E(P ).

”⇒“ Sei pk /∈ E(P ). Es existiert ein q ∈ Rn \ 0 mit pk ± q ∈ P . Seien pk + q =∑k−1i=0 λipi und pk − q =

∑k−1i=0 λ

′ipi Konvexkombinationen. Dann ist

pk =(pk + q) + (pk − q)

2=

k−1∑i=0

λi + λ′i2

pi

ebenfalls eine Konvexkombination von p0, . . . , pk−1 ∈ P , so dass

kon(p0, . . . , pk) = kon(p0, . . . , pk−1).

Mit P = kon(p0, . . . , pk) folgt die Behauptung.

Dies war zu zeigen.

Sei P := kon(p0, . . . , pk) ⊆ Rn ein Polyeder mit paarweise verschiedenen p0, . . . , pk.Nach Lemma 12.14 gilt

pk ∈ E(P ) ⇐⇒ P 6= kon(p0, . . . , pk−1),

so dass E(P ) ⊆ p0, . . . , pk ist. Man kann alle Nicht-Extremalpunkte aus der Mengep0, . . . , pk entfernen, ohne die konvexe Hulle P zu verandern. Wir erhalten folgendenSatz, der auf Minkowski

1 zuruckgeht:

Korollar 12.15 (Satz von Minkowski). Jedes Polyeder P ⊆ Rn ist die konvexe Hulleseiner Ecken, kurz P = kon(E(P )).

Die Darstellung eines Polyeders als konvexe Hulle seiner Ecken ist minimal, ka-nonisch und explizit. Ziel ist es im folgenden, eine kanonische, explizite Darstellungfur Polyhedra zu finden. In Ubungsaufgabe 13.2 wird gezeigt:

1Das Interesse von Hermann Minkowski (1864–1909) fur konvexe Geometrie und lineare Un-gleichungen kam aus der Zahlentheorie. Er formuliert und bewies zahlreiche wichtige Resultate furkonvexe Menge und deren Volumen. Mit seinem Buch

”Geometrie der Zahlen“ (1896) begrundete er

das gleichnamigen Gebiet der Mathematik.

138 12. Konvexe Geometrie

Abbildung 4. Zerlegung in Simplices

ppppp ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

pppppppppppppppppppppppppp

ppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp ppppppppp ppppp ppp

Satz 12.16. Jedes Polyeder P ist die ”disjunkte“ Vereinigung von endlich vielenSimplices S1, S2, . . . , St mit E(Si) ⊆ E(P ). ”Disjunkt“ bedeutet, dass dim(Si ∩ Sj) <dimP fur i 6= j.

Abbildung 4 zeigt ein Beispiel zur Aussage des Satzes 12.16: Der Polyeder ist diedisjunkte Vereinigung dreier Simplices.

Der Beweis zu folgendem Satz, wonach ein Polyeder ein Polyhedron ist, wirdebenfall in Ubungsaufgabe 13.2 gefuhrt:

Satz 12.17. Jedes Polyeder P ⊆ Rn ist der Durchschnitt endlich vieler Halbraumeund ist somit ein Polyhedron.

Abbildung 5. Seite eines Polyhedron

ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

pppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

pppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp pppppppp ppppppp pppp ppp p ppp ppppp ppppppppp

ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

pppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp pppppppp pppppp pppp pp

H=

H−H+

PP

H=

H+H−

Definition 12.18 (Seite eines Polyhedron). Sei P ⊆ Rn ein Polyhedron und H =x ∈ Rn | ϕ(x) ≥ b ein Halbraum. Dann ist P ∩H eine Seite von P zur StutzebeneH= := x ∈ Rn | ϕ(x) = b, falls P ∩H ⊆ H=.

Der Polyhedron P und die leere Megne ∅ sind (uneigentliche) Seiten von P zurStutzebene Rn. P ∩H= ist genau dann eine Seite von P zur Stutzebene H=, wenn

P ⊆ H+ := x ∈ Rn | ϕ(x) ≥ b

oder

P ⊆ H− := x ∈ Rn | ϕ(x) ≤ b ,

1. Konvexe Mengen 139

d.h. H= schneidet P nicht im Inneren von P . Da ein Polyhedron der (endliche)Durchschnitt von Halbraumen ist, konnen wir jede Seite als endlichen Durchschnittvon Halbraumen darstellen:

Lemma 12.19. Jede Seite S eines Polyhedron P ist selbst ein Polyhedron. Jede Seitevon S ist ebenfalls eine Seite von P .

Seiten der Dimension k bezeichnet man als k-Seite des Polyhedron P . Wir nennen1-Seiten Kanten und (dimP − 1)-Seiten Flachen des Polyhedron P . Die Ecken E(P )des Polyhedron sind die 0-Seiten.

Satz 12.20. Sei P ⊆ Rn ein beschrankter Polyhedron. Dann ist P ein Polyeder mitP = kon(E(P )).

Beweis. Die Behauptung ist trival fur P = ∅ und k = 0 Wir beweisen die Aussagedes Satzes fur die ubrigen Falle durch Induktion uber k := dimP ≥ 1:

• Induktionsbasis k = 1: Es gilt P = [p1, p2], E(P ) = p1, p2 und P =kon(p1, p2).• Induktionsschluß von k− 1 auf k: Der Polyhedron P habe die (k− 1)-SeitenP1, . . . , Pm. Der Polyhedron P hat m Flachen P1, . . . , Pm, wenn er der Durch-schnitt von m Halbraumen ist und kein Halbraum redundant ist. Wir setzenzunachst voraus, dass

P = kon(P1, . . . , Pm). (26)

Dann gilt:

P(26)= kon

( m⋃i=1

Pi

)Ind.Ann.= kon

( m⋃i=1

kon(E(Pi)))

In Verbindung mit Ubungsaufgabe 13.3 folgt, da die Ecken von P genau dieEcken der Pi sind:

P = kon( m⋃i=1

E(Pi))

= kon(E(P )).

Zu zeigen bleibt Gleichung (26), d.h. fur alle p ∈ P ist p ∈ kon(⋃m

i=1 Pi).

Abbildung 6. Schiefe Seiten Hi,Hj

pppppppp pppppppp ppppppppp ppppppppp ppppppppp pppppppppp pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp pppppppppp ppppppppp pppppppp ppppppp pppppp pppp pppp pp p pppppppp pppppppp pppppppp ppppppppp ppppppppp ppppppppp pppppppppp pppppppppp pppppppppp pppppppppp pppppppppp

pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppps p s p

P unbeschrankt

Hj

Hi

Fur den Fall p ∈⋃mi=1 Pi trifft dies offenbar zu, so dass im weiteren

p ∈ P \m⋃i=1

Pi

140 12. Konvexe Geometrie

sei. Der Polyhedron ist der Durchschnitt P =⋂mj=1Hj von m ≥ 2 paarweise

verschiedenen Halbraumen. Weil P beschrankt ist, gibt es Hi,Hj , die schiefzu einander liegen (vergleiche Abbildung 6, der rechte Fall ist nicht moglich).Es existiert eine Gerade G durch p, so dass [p0, p1] := G ∩ P beschrankt ist.Aus

p ∈ kon(p0, p1) ⊆ kon( m⋃i=1

Pi

)= kon(P1, . . . , Pm)

folgt die Behauptung.

Dies war zu zeigen.

Wir wollen Satz 12.20 auf unbeschrankte Polyhedra erweitern. Die Gleichung (26)gilt fur beliebige Polyhedra bis auf die Sonderfalle

• P aff= Rn (Rn hat keine eigentliche Seite) und

• P aff= H fur einen Halbraum H (H hat genau eine eigentliche Seite H=).

Dabei bezeichnet ”aff=“ affin ismorph:

Definition 12.21 (Affin isomorph). Zwei Teilmenge M,M ′ ⊆ Rn sind affin iso-

morph, M aff= M ′, wenn es eine affine Isomorphie ψ : aff(M)→ aff(M ′) mit ψ(M) =M ′ gibt.

Sei aff(M) = b+V mit Untervektorraum V ⊆ Rn und b ∈ Rn. Die Abbildung ψ :b+V → b′+V ′ ist ein affiner Isomorphismus, falls es einen Vektorraum-Isomorphismusϕ : V → V ′ mit ψ(b+ x) = b′ + ϕ(x) gibt.

Lemma 12.22. Sei P ⊆ Rn ein Polyhedron mit n := dimP , P 6= Rn und P kein

Halbraum. Dann gilt P = kon(⋃m

i=1 Pi)

fur die (n− 1)-Seiten Pi von P .

Abbildung 7. Gerade G durch p

ppppppp pppppppp ppppppppp pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppp

pppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp ppppppppp pppppppp ppppppp pppppp ppppp pppp pp ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppr rr p1

p0

p

rrr pp0

p1

Beweis. Zu p ∈ P \⋃mi=1 Pi gibt es eine Gerade G durch p, so dass [p0, p1] := G ∩ P

beschrankt ist (siehe Abildung 7). Aus p ∈ kon(p0, p1) ⊆ kon(⋃m

i=1 Pi)

folgt dieBehauptung.

Es gilt:

Satz 12.23. Sei P ⊆ Rn ein Polyhedron mit n := dimP , P 6= R

n und P keinHalbraum. Dann gilt P = kon

(⋃kj=1Hj

)fur die eigentlichen Seiten H1, . . . ,Hk von

P , die affine Raume bzw. Halbraume sind (Ecken sind Hj der Dimension 0).

1. Konvexe Mengen 141

Beweis. Wir zeigen die Aussage durch Induktion uber n. Die Verankerung fur n = 0ist trivial. Sei n ≥ 1. Es gilt fur die (n− 1)-Seitenflachen P1, . . . , Pm von P :

PLemma 12.22⊆ kon

( m⋃i=1

Pi

)Ind.Ann.⊆ kon

( k⋃j=1

Hj

).

Entweder ist die Induktionsvoraussetzung anwendbar auf Pi oder Pi = Hj fur ein j.Die Seitenflache der Dimension maximal n− 2 von P sind genau die Seitenflache derDimension hochstens n− 2 der P1, . . . , Pm.

Abbildung 8. Halbraum als Konvexe Hulle von Halbstrahlen

p p p p p p p p p p p p p p p p p p p p pp ppp ppppp ppppppp pppppppp pppppppppp ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

p pppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp ppppppppp pppppp pppp pp

p pppp pppppp ppppppppp ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp pppppppppp pppppppp pppppp pppp ppp p

H=

H+

3

]

^

Definition 12.24 (Halbgerade). Eine Teilmenge G ⊆ Rn heißt Halbgerade, falls esa, a0 ∈ Rn gibt mit

G = a0 + λa | λ ∈ R≥0 .

Jeder Halbraum im Rn ist die konvexe Hulle von n+ 1 Halbgeraden (vergleiche Ab-

bildung 8).

Korollar 12.25. Eine Teilmenge P ⊆ Rn ist genau dann ein Polyhedron, wenn Pdie konvexe Hulle von endlich vielen Punkten und Halbgeraden ist.

Die Zerlegung eines Polyhedron P ⊆ Rn in ein Polyeder P ′ und einen sogenanntenKegel C

P = P ′ + C

(vergleiche Abbildung 9) ist eindeutig, sofern E(P ) = E(P ′) Es gilt dann fur C:

C :=x ∈ Rn

∣∣∣∣ Aus p ∈ P folgt p+ λx ∈ Cfur alle λ ∈ R≥0

.

Wir beschaftigen uns mit Kegeln in Abschnitt 3.

142 12. Konvexe Geometrie

Abbildung 9. Zerlegung Polyhedron in Polyeder und Kegel-

-

-

-

+ -

=

2. Funktionen uber konvexen Mengen

In diesem Abschnitt betrachten wir konvexe (konkave, lineare) Funktionen uber kon-vexen Menge.

Definition 12.26 (Konvexe Funktion). Sei K ⊆ Rn eine konvexe Menge. Eine

Funktion f : K → R heißt konvex, wenn fur alle p, q ∈ K und λ ∈ [0, 1] gilt:

f(λp+ (1− λ)q) ≤ λf(p) + (1− λ)f(q). (27)

Induktiv folgt aus Eigenschaft (27): Falls f eine konvexe Funktion ist, gilt fur jedeKonvexkombination der Punkte p0, . . . , pk ∈ K:

f

( k∑i=0

λipi

)≤

k∑i=0

λif(pi).

Im Fall K ⊆ R gilt fur konvexe Funktionen, dass wie in Abbildung 10 die Funktions-werte nicht oberhalb der Verbindungsstrecke [p, q] liegen.

Abbildung 10. Konvexe Funktion

r rp

q

f

Wir wollen eine konvexe Funktion f uber einer konvexen Menge K minimieren.Ein Punkt p heißt lokale Minimalstelle, wenn in einer ε-Umgebung

Uε(p) := q ∈ K : ‖p− q‖ ≤ ε

um p die Funktionswerte f(p) ≤ f(q) sind. Fur konvexe Funktionen ist jede lokaleMinimalstelle p eine globale Minimalstelle, d.h. f(p) ≤ f(q) fur alle q ∈ K:

2. Funktionen uber konvexen Mengen 143

Satz 12.27. Sei K ⊆ Rn eine konvexe Menge und f : K → R eine konvexe Funktion.Dann ist jede lokale Minimalstelle von f globale Minimalstelle.

Beweis. Sei p ∈ K eine lokale Minimalstelle. Dann existiert ein ε ∈ (0, 1), so dassdie Funktionswerte der Punkte in der ε-Umgebung Uε(p) nicht kleiner als f(p) sind:

∀q ∈ Uε(p) : f(p) ≤ f(q). (28)

Angenommen, p sei keine gobale Minimalstelle von f , d.h. es gabe ein y ∈ K mitf(y) < f(p). Betrachten wir die Punkte der Verbindungsstrecke [p, y] ⊆ K, die in derε-Umgebung Uε(p) liegen. Fur λ ∈ (0, ε) gilt, weil f eine konvexe Funktion ist:

f(λp+ (1− λ)y) ≤ λf(p) + (1− λ) f(y)︸︷︷︸<f(p)

< λf(p) + (1− λ)f(p) = f(p),

so dass ein Punkte q ∈ [p, y] ∩ Uε(p) mit f(q) < f(p) existiert — Widerspruch zu(28).

Aus Satz 12.27 folgt fur eine konkave Funktion f , dass eine lokale Maximalstelle vonf globale Maximalstelle ist:

Definition 12.28 (Konkave Funktion). Sei K ⊆ Rn eine konvexe Menge. Eine

Funktion f : K → R heißt konkav, wenn −f eine konvexe Funktion ist.

In der linearen Programmierung versuchen wir, eine lineare Funktion f uber einemkonvexen Polyeder zu optimieren (minimieren oder maximieren). Da lineare Funktio-nen sowohl konvex als auch konkav sind, hat man die globale Extremalstelle gefunden,wenn es sich um eine lokale Optimalstelle handelt.

Satz 12.29. Sei P ⊆ Rn ein Polyeder und f : P → R eine konvex Funktion. Danngilt

supp∈P

f(p) = maxp∈E(P )

f(p),

d.h. f nimmt das Maximum an einer Ecke an.

Beweis. Angenommen, es gabe einen Nichtecke y ∈ P \ E(P ) mit

f(y) > maxp∈E(P )

f(p).

Nach Korollar 12.15 ist der Punkt y eine Konvexkombination von Ecken p0, . . . , pkdes Polyeders, d.h. y =

∑ki=0 λipi mit λi 6= 0. Weil die Funktion f konvex ist und∑k

i=1 λ = 1 gilt, erhalten wir folgende Abschatzung:

f(y) = f

( k∑i=0

λipi

)≤

k∑i=0

λif(pi) ≤ maxif(pi) ≤ max

p∈E(P )f(p)

Dies ist ein Widerspruch zur Annahme f(y) > maxp∈E(P ) f(p).

Weil eine lineare Funktion sowohl konvex als auch konkav ist, folgt aus Satz 12.29,dass beim Optimieren einer linearen Funktion uber einem Polyeder eine optimaleEcke existiert:

144 12. Konvexe Geometrie

Korollar 12.30. Sei P ⊆ Rn ein Polyeder und f : Rn → R eine lineare Funktion.Dann gilt:

a) sup f(P ) = maxp∈E(P ) f(p).

b) inf f(P ) = minp∈E(P ) f(p).

Fur Polyhedra gilt ein entsprechendes Resultat, dass wir in Kapitel 13 (Satz 13.5auf Seite 156) beweisen werden:

Korollar 12.31. Sei P ⊆ Rn ein Polyhedra mit E(P ) 6= ∅ und f : Rn → R einelineare Funktion. Dann gilt

a) sup f(P ) = maxp∈E(P ) f(p), sofern sup f(P ) < +∞.

b) inf f(P ) = minp∈E(P ) f(p), sofern inf f(P ) > −∞.

Der Satz von Minkowski, Korollar 12.15 auf Seite 137, wonach ein Polyeder diekonvexe Hulle seiner Ecken ist, gilt nicht nur fur Polyeder, sondern fur beliebige kon-vexe, abgeschlossene, beschrankte Mengen. Analog zu Satz 12.29 nimmt eine konvexeFunktion f ihr Maximum an einer Extremalstelle an, unter der Voraussetzung, dassdie konvexe Menge Extremalpunkte hat und f beschrankt ist:

Satz 12.32. Sei K ⊆ Rn eine konvexe, abgeschlossene, beschrankte Menge mit

E(K) 6= ∅ und f : K → R eine konvexe Funktion. Dann gilt:

a) K = kon(E(K)).

b) sup f(K) = maxp∈E(K) f(p), sofern sup f(K) < +∞.

Abbildung 11. Trennungslemma

pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppp

pppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

H=

srq x0

ϕ(x) ≤ ϕ(x0)

ry

w

K

Zum Abschluß formulieren und beweisen wir das sogenannte Trennungslemma,das spater zu Dualitatsbeweisen verwendet wird:

Satz 12.33 (Trennungslemma). Sei K ⊆ Rn eine konvexe, abgeschlossene Menge

und q ∈ Rn \ K ein Punkt außerhalb von K. Dann gibt es eine lineare Funktionϕ : Rn → R mit ϕ(x) > ϕ(q) fur alle x ∈ K.

3. Kegel und Farkas’ Lemma 145

Beweis. Sei 〈·, ·〉 das Standardskalarprodukt und ‖·‖ die euklidsche Norm, d.h. ‖x‖ =√〈x, x〉. Die Funktion x 7→ ‖x− q‖ nimmt ihr Minimum fur x ∈ K im ”nachsten“

K-Punkte x0 zu q an (vergleiche Abbildung 11). Setze:

ϕ(x) := 〈x, x0 − q〉 = (x0 − q)Tx.

Sei H= := x ∈ Rn | ϕ(x) = ϕ(x0) wie in Abbildung 11. Der Richtungsraum R(H=)der Hyperebene H= ist orthogonal zu x0 − q. Es gilt fur den vorgegebenen Punktq ∈ Rn \K:

〈q, x0 − q〉 = ϕ(q) ≥ ϕ(x0) = 〈x0 − q + q, x0 − q〉 = ‖x0 − q‖2 + 〈q, x0 − q〉 .

Angenommen, es existierte ein y0 ∈ K mit ϕ(y) < ϕ(x0). Zu Vereinfachung derNotation sei q := 0. Weil K konvex ist, gilt [x0, y0] ⊆ K, d.h. zu jedem λ ∈ [0, 1] gilt

y(λ) := x0 + λ(y0 − x0) ∈ K.

Wir zeigen, dass die Norm von y := y(λ) von x0 weg, also mit zunehmendem λ,zunachst abnimmt, was der Wahl von x0 widerspricht. Es ist:

f(λ) := ‖x0‖2 − ‖y‖2

= 〈x0, x0〉 − 〈y, y〉= −λ2 〈y0 − x0, y0 − x0〉+ 2λ(〈x0, x0〉 − 〈x0, y0〉)

Die Ableitung f ′ der Funktion f : R→ R an der Stelle λ = 0 liefert:

f ′(0) = 2(〈x0, x0〉 − 〈x0, y0〉).

Es existiert ein ε > 0, so dass fur y = y(λ) mit 0 < λ < ε gilt:

‖y‖ < ‖x0‖

Dies ist ein Widerspruch zur Wahl von x0, so dass unsere Annahme, es gabe einy0 ∈ K mit ϕ(y) < ϕ(y0) falsch ist.

Im Beweis zum Trennungslemma ist H= Stutzebene durch x0, das auf dem RandRd(K) der Menge K liegt. Zu jedem x0 ∈ Rd(K) gibt es eine Stutzebene mit x0 ∈ H=

und K ⊆ H+.

3. Kegel und Farkas’ Lemma

Zur Vorbereitung des Beweises zu Farkas’ Lemma fuhren wir die Begriffe des Kegelsund Polydehrals ein und weisen Eigenschaften nach.

Definition 12.34 (Kegel, Polyhedral). Ein (konvexer) Kegel (Cone) ist eine nicht-leere Teilmenge C ⊆ K

n, so dass mit c1, c2 ∈ C auch λ1c2 + λ2c2 ∈ C fur alleλ1, λ2 ∈ R≥0 gilt. Ein Kegel der Form C = x |Ax ≤ 0 heißt polyhedral.

Ist (Ci)i∈I eine Familie von Kegeln, dann ist auch der Durchschnitt⋂i∈I Ci ein

Kegel.

146 12. Konvexe Geometrie

Abbildung 12. Beispiel Kegel

6

-

x2

x1p ppp ppppp ppppppp pppppppp pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppp

pppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp pppppppppp pppppppp pppppp ppppp pp

0

C

Definition 12.35 (Endlich erzeugter Kegel). Zu einer Teilmenge M ⊆ Rn ist

cone(M) :=⋂C⊇MC Kegel

C.

der kleinste Kegel, der M umfasst.

In Ubungsaufgabe 15.1 zeigen wir:

Satz 12.36. Fur jede Menge M ⊆ Rn gilt:

cone(M) :=

k∑i=0

λipi

∣∣∣∣∣ k ∈ N und p0, . . . , pk ∈M ,λ0, . . . , λk ≥ 0

.

Vergleicht man diese Darstellung mit der einer konvexen Menge aus Satz 12.5 aufSeite 134, so folgt cone(M) = R≥0 · kon(M).

Lemma 12.37. Der Durchschnitt von beliebig vielen, endlich erzeugten Kegel istendlich erzeugt.

Beweis. Der Durchschnitt von Polyedern ist wieder ein Polyeder, sofern er nicht leerist. Der Durchscnitt von Kegel ist nie leer, denn er enthalt den Nullpunkt.

Definition 12.38 (Dualer Kegel). Der duale Kegel zu einem Kegel C ⊆ Rn ist

C∗ :=y ∈ Rn

∣∣ xT y ≥ 0 fur alle x ∈ C.

C∗ ist ein Kegel, denn zu y1, y2 ∈ C∗ gilt fur x ∈ C und λ1, λ2 ≥ 0:

xT (λ1y1 + λ2y2) = λ1 xT y1︸ ︷︷ ︸≥0

+λ2 xT y2︸ ︷︷ ︸≥0

≥ 0 + 0 = 0,

so dass aus y1, y2 ∈ C∗ folgt λ1y1 + λ2y2 ∈ C∗.

3. Kegel und Farkas’ Lemma 147

Abbildung 13. Beispiel Kegel und dualer Kegel

p p pp ppp pppp ppppp pppppp pppppp ppppppp pppppppp pppppppp pppppppppp pppppppppp ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

ppppppppppppppppppppppppppp

pppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp0 q q C

C∗6

Beispiel 12.39. Abbildung 13 zeigt einen Kegel C und den dualen Kegel C∗. SeienCsub, C ⊆ R2 Kegel mit Csub ⊆ C, dann gilt fur die dualen Kegel die umgekehrteInklusion C∗sub ⊇ C∗. Falls C = R

2, dann besteht der duale Kegel nur aus demUrsprung C∗ = 0.

Wir haben im Kapitel 7 uber lineare Codes gesehen, dass der duale des dualenCodes C⊥ der Ausgangscode C ist. Die gleiche Aussage trifft auch auf den dualeneines dualen Kegels C∗ zu, sofern C abgeschlossen ist:

Satz 12.40. Sei C ⊆ Rn ein abgeschlossener Kegel. Dann gilt (C∗)∗ = C.

Beweis. Es gilt:

C∗ =y ∈ Rn

∣∣ xT y ≥ 0 fur alle x ∈ C

(C∗)∗ =z ∈ Rn

∣∣ yT z ≥ 0 fur alle y ∈ C∗

Nach Definition gilt yTx = xT y ≥ 0. fur alle x ∈ C und y ∈ C∗, so dass C ⊆ (C∗)∗.Zu zeigen bleibt die Inklusion (C∗)∗ ⊆ C. Angenommen, diese Inklusion sei falsch,

d.h. es existiert ein z ∈ (C∗)∗ mit z /∈ C. Seix ∈ Rn

∣∣ ϕ(x) := uTx = u0

die Trennungsebene zu z und C. Gemaß Trennungslemma, Satz 12.33 auf Seite 144,gilt:

• ϕ(z) = uT z ≤ u0 und• ϕ(x) = uTx ≥ u0 fur alle x ∈ C.

Dann ist ϕ(x) fur x ∈ C nach unten beschrankt. Die Abbildung ϕ(x) nimmt ihrMinimum 0 an, und zwar an der Stelle x = 0. Die Abschatzung

uT z ≤ u0 ≤ uTx = ϕ(x) fur alle x ∈ C

impliziert uT z ≤ 0 (wegen ϕ(0) = 0 und 0 ∈ C). Aus uTx ≥ 0 fur alle x ∈ C folgtu ∈ C∗. Wir erhalten den Widerspruch z /∈ (C∗)∗, denn aufgrund

uT z < 0

ist die Forderung yT z ≥ 0 nicht erfullt fur alle y ∈ C∗.

Satz 12.41. Sei C ⊆ Rn ein abgeschlossener Kegel. Dann gilt:

148 12. Konvexe Geometrie

a) C ist genau dann endlich erzeugt, wenn C∗ endlich erzeugt ist.

b) C ist genau dann endlich erzeugt, wenn C polyhedral.

Beweis. Zu x ∈ R sei y1, . . . , yn−1 eine Basis von span(x)⊥ = (xR)⊥. Der dualeKegel

cone(x)∗ = cone(x, y1, . . . , yn−1)

ist endlich erzeugt.

Abbildung 14. Basis von (xR)⊥

x

(xR)⊥

0

a) Sei C = cone(x1, . . . , xk) endlich erzeugt. Dann gilt

C∗ = cone(x1, . . . , xk)∗ =k⋂i=1

cone(xi)∗, (29)

denn ( k∑i=1

λixi

)T· y =

k∑i=1

λixTi y ≥ 0

folgt xTi y ≥ 0 fur alle i und umgekehrt. Also ist der duale Kegel C∗ derDurchschnitt von endlich erzeugten Kegeln und nach Ubungsaufgabe 15.3somit endlich erzeugt.

Wir haben gezeigt, dass mit C ebenfalls der duale Kegel C∗ endlicherzeugt ist. Weil C nach Voraussetzung abgeschlossen ist, wenden wir Satz12.40, also (C∗)∗ = C, an und erhalten die Ruckrichtung der Behauptung.

b) Angenommen, C = x |Ax ≤ 0 sei Polyhedral. Bezeichne aT1 , . . . , aTm die

Zeilenvektoren der Matrix A. Aufgrund von Gleichung (29) gilt:

C =m⋂i=1

cone(aTi )∗ = cone(aT1 , . . . , aTm)∗.

Nach Ubungsaufgabe 15.3 ist C als Durchschnitt von endlich erzeugten Ke-geln ebenfalls endlich erzeugt.

3. Kegel und Farkas’ Lemma 149

Sei umgekehrt C = cone(x1, . . . , xk) ein endlich erzeugter Kegel. NachSatz 12.40 gilt:

C =(cone(x1, . . . , xk)∗

)∗ =(y∣∣ yTxi ≥ 0 fur i = 1, 2, . . . , k

)︸ ︷︷ ︸=C∗

∗.

Also ist der endlich erzeugte, duale Kegel C∗ polyhedral. Nach Satz 12.40folgt: Falls C∗ endlich erzeugt ist, dann ist ebenfalls C = (C∗)∗ endlicherzeugt und polyhedral. Dies war zu zeigen.

Satz 12.42 (Farkas’ Lemma). Fur A ∈Mm,n(R) und c ∈ Rm sind folgende Aussagenaquivalent:

a) Fur alle x ∈ Rm mit Ax ≥ 0 gilt cTx ≥ 0.b) Es existiert ein y ∈ Rm mit y ≥ 0 und cT = yTA.

Beweis. Sei C der von den Zeilenvektoren aT1 , . . . , aTm der Matrix A erzeugten Kegel.

Gemaß Satz 12.36 gilt:

C := cone(aT1 , . . . , aTm) =

m∑i=1

λiaTi

∣∣∣∣∣ λ1, . . . , λm ≥ 0

.

Da die Forderung Ax ≥ 0 und aTi x ≥ 0 fur i = 1, . . . ,m gleichwertig sind, haben wirfur alle x ∈ Rn folgende Aquivalenz:

Ax ≥ 0 ⇐⇒ x ∈ C∗.Damit folgt:

• Aussage a) ist aquivalent zu c ∈ (C∗)∗.• Aussage b) ist aquivalent zu c ∈ C.

Weil C ein abgeschlossener Kegel ist, erhalten wir C = (C∗)∗ aus Satz 12.40, d.h. beideAussagen sind gleichwertig.

Wir folgern aus Farkas’ Lemma, Satz 12.42, die nachstehende Variante:

Korollar 12.43 (Farkas’ Lemma – Variante I). Fur A ∈ Mm,n(R) und b ∈ Rn sindfolgende Aussagen aquivalent:

a) Es existiert ein x ≥ 0 mit Ax ≤ b.b) Fur alle y ∈ Rm mit yTA ≥ 0 gilt yT b ≥ 0.

Beweis. Setze Aext := (A, Im) ∈ Mm,m+n(R). Folgende Aussagen sind aquivalent,denn Ax ≤ b kann man gleichwertig schreiben als Ax+ s = b mit s ≥ 0:

a) Es existiert ein x ∈ Rn mit Ax ≤ b.b’) Es existiert ein xext ≥ 0 mit Aextxext = b.

Wir wenden Farkas Lemma 12.42 mit A := AText und c := b auf Aussage b’) an underhalten, dass

a) Es existiert ein x ≥ 0 mit Ax ≤ b.

150 12. Konvexe Geometrie

b) Fur alle y ∈ Rm mit yTAext ≥ 0 gilt bT y ≥ 0.

aquivalent sind.

In Ubungsaufgabe 17.3 geben wir eine weitere Variante von Farkas’ Lemma:

Korollar 12.44 (Farkas’ Lemma – Variante II). Fur A ∈Mm,n(R) und b ∈ Rn sindfolgende Aussagen aquivalent:

a) Es existiert ein x ∈ Rn mit Ax ≤ b.b) Fur alle y ∈ Rm mit y ≥ 0 und yTA = 0 gilt yT b ≥ 0.

4. Eulers Polyederformel

Wir wollen zum Abschluß des Kapitels Eulers Polyederformel fur Polyeder mit ein-fachen Ecken beweisen:

Satz 12.45 (Euler, Poincare 1893/99). Sei P ein d-Polyeder, fi bezeichne die Anzahlder i-Seiten von P . Dann gilt:

d−1∑i=0

(−1)ifi = 1 + (−1)d+1.

Fur die Anzahl der Ecken schreibt man V := #E(P ) (vertices), fur die Anzahlder Kanten E (edges) und F fur die Anzahl der Flachen (faces). Fur d = 2, 3 lautetdie Euler’sche Polyederformel:

d = 2 : V − E = 0d = 3 : V − E + F = 2

Man vergleiche die Ergebnisse mit den Beispielen in Abbildung 15. Fur d = 2 giltV = E = 5, so dass V − E = 5 − 5 = 0 ist. Der 3-Simplex hat V = 4 Ecken, E = 6Kanten und F = 4 Flachen, so dass V − E − F = 4− 6 + 4 = 2 ist.

Abbildung 15. Euler’sche Polyederformel d = 2, 3

s s s

ssss s

s

Poincares Beweis basiert auf algebraischen Methoden. Wir wollen den Beweis mitunseren Mitteln fur Polyeder P mit einfachen Ecken fuhren. Wir nehmen an, jedeEcke p ∈ E(P ) des d-Polyeders habe d Nachbarecken, und fuhren den Beweis durchInduktion uber die Anzahl #E(P ) der Ecken.

Fur die Induktionsverankerung sei #E(P ) = d + 1, d.h. P ist ein d-Simplex. Imd-Simplex ist eine i-Seite S charakterisiert durch eine Auswahl von i + 1 aus d + 1

4. Eulers Polyederformel 151

Ecken, die auf S liegen:2

fi =(d+ 1i+ 1

). (30)

Fur 0-Seiten ist(d+1

1

)= d+1, denn eine 0-Seite ist eine der d+1 Ecken. Fur 1-Seiten

ist(d+1

2

)= d(d+1)

2 , denn jeweils zwei der Ecken bilden eine Kante. Wegen Gleichung(30) gilt:

d−1∑i=0

(−1)ifi =d−1∑i=0

(−1)i(d+ 1i+ 1

)

=d−1∑i=1

(−1)i−1

(d+ 1i

)

= −d∑i=1

(−1)i(d+ 1i

)

= −d+1∑i=0

(−1)i(d+ 1i

)+ (−1)0

(d+ 1

0

)+ (−1)d+1

(d+ 1d+ 1

).

Wegen(d+1

0

)= 1 und

(d+1d+1

)= 1 erhalten wir die Behauptung

d−1∑i=0

(−1)ifi = 1 + (−1)d+1 −d+1∑i=0

(−1)i(d+ 1i

)︸ ︷︷ ︸

=(1−1)d+1

= 1 + (−1)d+1,

denn aus (a+ b)n =∑n

i=0

(ni

)aibn−i folgt mit a = −1, b = 1 und n = d+ 1, dass die

Summe Null ist.Fur den Induktionsschluß erniedrigen wir die Anzahl #E(P ) der Ecken. Wahle

e ∈ E(P ). Sei H= die Hyperebene durch die d Nachbarecken von e. Sei o.B.d.A. e ∈H+. Wie haben den Polyeder P zerlegt in

• einen d-Simplex P ∩H+ und

• einen Polyeder P ∩H− mit weniger als #E(P ) Ecken.

Bezeichne mit fi die Anzahl der i-Seiten von P und mit f ′i die Anzahl der i-Seiten vonP ∩H−. Die Behauptung folgt aus der Induktionsannahme angewendet auf P ∩H−,wenn

d−1∑i=0

(−1)i(fi − f ′i) = 0. (31)

2Fur 0 ≤ k ≤ n ist der Binomialkoeffizient erklart als(nk

):= n!

k!(n−k)!, d.h. gleich der Anzahl

der Moglichkeiten, eine Teilmenge von k Elementen aus einer Menge von n Elementen auszuwahlen.Insbesondere gilt

(nn

)= 1 und

(n0

)= 1.

152 12. Konvexe Geometrie

Wir zeigen zunachst

f ′i =

fi −

(d

i

)fur i ≤ d− 1

fi −(d

i

)+ 1 fur i = d− 1.

(32)

P ∩H+ ist ein d-Simplex. F”ur i < d−1 ist fi−f ′i die Anzahl der i-Seiten von P ∩H+

durch e. Eine i-Seite von P ∩H+ durch e ist charakterisiert durch die Auswahl von ider d Nachbarecken von e in P ∩H+. Fur i = d−1 ist fi die Anzahl der (d−1)-Seitenvon P ∩H+ durch e minus 1.Wir wenden Gleichung (32) an und erhalten (31):

d−1∑i=0

(−1)i(fi − f ′i) =d−1∑i=0

(−1)i(d

i

)− (−1)d−1

=d∑i=0

(−1)i(d

i

)︸ ︷︷ ︸

=(1−1)d=0

−(−1)d(d

d

)︸︷︷︸

=1

−(−1)d−1

= 0.

Dies komplettiert den Induktionsschritt.

Kapitel 13

LineareProgrammierung

Wir haben in Kapitel 12 die globalen Extremalstellen von konvexen und konkavenFunktionen uber konvexen Mengen untersucht. In diesem Kapitel beschaftigen wiruns mit dem Fall linearer Funktionen und lernen mit dem Simplex-Algorithmus einpraktikales Verfahren kennen, um eine Lineareform unter Berucksichtigung von linea-ren Ungleichungen zu optimieren.

1. Einleitung

In der linearen Programmierung maximiert oder minimiert man eine Linearform inn Variablen x1, . . . , xn unter Beachtung von m Restriktionen, die in Form linearerGleichungen oder Ungleichungen gegeben sind, und der Forderung, dass die Variablennicht negativ sind:

minimieremaximiere

n∑j=1

cjxj , so dassn∑j=1

aijxj

≤=≥

bi fur i = 1, 2, . . . ,m

xj ≥ 0 fur j = 1, 2, . . . , n.

Eine solche Aufgabe nennt man lineares Programm und das Losen lineares Program-mieren. Die zu optimierende Linearform heißt Ziel- oder auch Objektfunktion, im Falleiner Minimierungsaufgabe spricht man angelehnt an die wirtschaftliche Interpretati-on von der Kostenfunktion. Die Forderung x1, . . . , xn ≥ 0 wird als Nichtnegativitats-bedingung bezeichnet. Falls eine Variable xi auch negative Werte nehmen darf, alsoxi eine freie Variable ist, besteht eine Moglichkeit, xi durch die Differenz yi − zifur zwei neue Variable yi,zi zu ersetzen und diese der Nichtnegativitatsbedingung zuunterwerfen. (Variablen-Splitting).

Zur Vereinfachung der Darstellung verwenden wir die ubliche Matrix/Vektor-Schreibweise. Da die Maximierung von cTx aquivalent zur Minimierung von −cTx ist,genugt es, Minimierungsaufgaben zu betrachten. Bei den Restriktionen beschrankenwir uns auf ”≤“-Ungleichungen, da die Bedingung aix ≥ bi gleichwertig zu−aix ≤ −bi

153

154 13. Lineare Programmierung

ist und die Gleichung aix = bi aquivalent zu den beiden Ungleichungen aix ≤ bi,−aix ≤ −bi ist.

Definition 13.1 (Kanonische Form eines linearen Programms). Die kanonischeForm eines linearen Programms in n Variablen mit m Restriktionen lautet

minimiere cTx, so dass Ax ≥ bx ≥ 0,

wobei A eine m× n-Matrix, b ein Spaltenvektor mit m Eintragen und c ein Spalten-vektor mit n Eintragen ist.

Georg Dantzig arbeitete wahrend des Zweiten Weltkrieges bei der US-Luftwaffean der Aufstellung von Planen (Programmen) zur Logistik und Produktion. Fur kom-plexere Programme suchte Dantzig nach einer mechanischen Methode zum Losen.Als Modell ubernahm er das Input-Output-Modell von Leontief aus dem Jahr 1932.In diesem Modell sind die Beziehungen zwischen den Produktionsfaktoren beschranktund die Einsatzmenge der Ressourcen und die Ausbringungsmenge stehen in einemproportionalen Verhaltnis. Dantzig erganzte die Optimierung nach einer linearenZielfunktion und entwickelte im Sommer 1947 den Simplex-Algorithmus.1 Der Wirt-schaftswissenschaftler Koopmans erkannte die Bedeutung der linearen Programmie-rung fur die Unternehmensplanung (Operation-Research) und legte den Grundsteinder Popularitat der linearen Programmierung in den Wirtschaftwissenschaften. Aufihn geht auch die Bezeichnung ”lineare Programmierung“ zuruck: Er hatte 1951 dieseBezeichnung als Alternative zu Dantzigs Titel ”Programming in a linear Structure“(Report der US-Luftwaffe 1948) vorgeschlagen. Fur den Erfolg der linearen Program-mierung ist neben den Anwendungen in der Unternehmensplanung auch die Ent-wicklung der ersten Rechenmaschinen entscheidend: Mit dem Simplex-Algorithmuskonnten lineare Programme gelost werden, die bislang zu komplex waren.

Parallel zur Entwicklung im Westen hatte sich seit 1939 der russische Mathema-tiker Kantorvicz mit speziellen Produktionsproblemen und deren mathematischerStruktur beschaftigt sowie Verfahren fur diese Klasse linearer Programme entwickelt.Die Arbeiten blieben im Osten unbeachtet und im Westen bis Ende der funfzigerJahre ganzlich unbekannt. Die koniglich schwedische Akademie der Wissenschaftenzeichnete 1975 Koopmans und Kantorvicz mit dem Nobelpreis fur Wirtschaftswis-senschaften aus. Dantzig wurde nicht ausgezeichnet, da die Akademie dessen Beitragals zu mathematisch fur eine Auszeichnung in Wirtschaftswissenschaften einstufte.

2. Ecken und Basislosungen

Wir haben bereits die kanonische Form eines linearen Programms in n Variablen mitm Restriktionen kennengelernt:

minimiere cTx, so dass Ax ≥ bx ≥ 0,

1Die Idee des Simplex-Algorithmus’, iterativ von einer Ecke des Polyhedrons zu einer benach-barten Ecke mit niedrigem Zielwert zu gehen, ist jedoch nicht neu: Sie fand sich bereits in Arbeitenvon Fourier (1823) und de la Vallee-Poussin (1911), die allerdings unbeachtet blieben.

2. Ecken und Basislosungen 155

wobei A eine m×n-Matrix, b ein Spaltenvektor mit m und c einer mit n Eintragen ist.Fur Beweise und Algorithmen sind Restriktionen der Form Ax = b statt Ax ≥ b vor-teilhafter. Durch Einfuhren von m Slack-Variablen (auch Schlupfvariablen genannt)r mit r ≥ 0 transformieren wir Ax ≥ b in Ax − r = b, d.h. erganzen die Koeffizien-tenmatrix rechts durch eine (negierte) Einheitsmatrix und erhalten ein aquivalentesProgramm in n+m Variablen:

Definition 13.2 (Standardform eines linearen Programms). Die Standardform eineslinearen Programms in n Variablen mit m Restriktionen lautet

minimiere cTx, so dass Ax = bx ≥ 0,

wobei A eine m× n-Matrix, b ein Spaltenvektor mit m Eintragen und c ein Spalten-vektor mit n Eintragen ist.

Ein lineares Programm in Standardform uberfuhrt man in die kanonische Formmittels Ersetzen der Gleichheit Ax = b durch Ax ≤ b und −Ax ≤ −b. Wir nehmenmeists an, dass die Koeffizientenmatrix vollen Zeilenrang hat, d.h. keine Restriktioneine Linearkombination der ubrigen und somit redundant bzw. nicht mit den ubrigenerfullbar ist. Insbesondere gilt dann m ≤ n.

Definition 13.3 (Zulassigkeitsbereich). Zum linearen Programm in Standardformbezeichne

Zstd := x ∈ Rn |Ax = b, x ≥ 0die Menge aller zulassigen Losungen, den Zulassigkeitsbereich. Im Fall Zstd = ∅ heißtdas Programm widerspruchlich. Die Menge aller optimalen, zulassigen Losungen seiΩ(c,Zstd). Der Zielwert ist beschrankt, wenn

infcTx

∣∣ x ∈ Zstd

> −∞.

Sonst kann man den Zielwert beliebig reduzieren und erhalt Ω(c,Zstd) = ∅.

Der Zulassigkeitsbereich Zstd ist als Durchschnitt endlich vieler Halbraume einPolyhedron. Sofern der Zielwert des linearen Programms beschrankt ist, stellt dieMenge Ω(c,Zstd) der optimale Losungen ebenfalls ein Polyhedron dar, denn

Ω(c,Zstd) = Zstd ∩x ∈ Rn

∣∣ cTx ≥ copt

fur copt := min

cTx

∣∣ x ∈ Zstd

. Falls Ω(c,Zstd) mehr als eine optimale Losung

enthalt, sprechen wir von Mehrdeutigkeit.Eine Losung x ∈ Zstd ist eine Ecke des Zulassigkeitsbereichs bzw. des Polyhe-

drons Zstd, wenn kein y 6= 0 mit x ± y ∈ Zstd existiert. Die Menge der Ecken desZulassigkeitsbereichs bezeichnen wir mit E(Zstd). Falls der Ursprung eine zulassigeLosung ist, so stellt der Ursprung eine Ecke dar, denn fur alle y 6= 0 sind 0± y nichtgleichzeitig zulassige Losungen, weil ±y ≥ 0 nicht gilt.

Lemma 13.4. Aus 0 ∈ Zstd folgt 0 ∈ E(Zstd).

Falls x ∈ Zstd keine Ecke ist, gilt dann x 6= 0. Das Konzept einer Ecke ist grund-legend fur die lineare Programmierung: Es existiert immer eine optimale Ecke, soferndie Losungsmenge Zstd nicht leer und der minimale Zielwert endlich ist.

156 13. Lineare Programmierung

Satz 13.5. Der Zulassigkeitsbereich Zstd sei nicht leer und der optimale Zielwert deslinearen Programms sei endlich. Dann enthalt Ω(c,Zstd) eine Ecke von Zstd, d.h. esgibt eine Ecke des Zulassigkeitsbereichs, die optimal ist.

Beweis. Sei x ∈ Ω(c,Zstd) eine optimale Losung des linearen Programms. Es genugt,eine Ecke p mit cTx ≥ cT p zu finden. Wir versuchen, in mehreren Schritten aus x eineEcke zu erhalten. Falls x eine Ecke ist, sind wir fertig. Sei x ≥ 0 keine Ecke, d.h. esexistiert ein y 6= 0 mit x ± y ∈ Zstd. Nach Lemma 13.4 gilt x 6= 0. Insbesondere istx ± y ≥ 0 sowie Ax + Ay = b und Ay = 0 wegen Ax = b. Durch einen moglichenUbergang von y auf −y erreichen wir

cT y ≤ 0. (33)

Falls cT y = 0, wahle y = (y1, . . . , yn) so, dass ein Eintrag yj < 0 existiert. Wir fuhreneine Fallunterscheidung bezuglich des Vektors y durch:

a) Es gibt einen Eintrag j mit yj < 0. Wahle λ > 0 maximal mit x + λy ≥ 0.Der Vektor

xneu := x+ λy ≥ 0

hat im Vergleich zu x mindestens eine Null-Komponente mehr. Fur xneu ∈Zstd genugt der Nachweis von Axneu = b:

Axneu = A(x+ λy) = Ax+ λ · (Ay)︸︷︷︸=0

= Ax = b.

b) Es gilt y ≥ 0 (und nach Wahl von y auch c 6= 0). Fur jedes λ ≥ 0 istx+ λy ∈ Zstd wegen

A(x+ λy) = Ax+ λ · (Ay)︸︷︷︸=0

= Ax = b

und x+λy ≥ x ≥ 0. Falls cT y < 0 ist, verstoßen wir gegen die Endlichkeitsbe-dingung von inf

cTx

∣∣ x ∈ Zstd

. Gemaß Voraussetzung (33) gilt cT y = 0.

Da nach Wahl y 6= 0 und c 6= 0 sind, muß y mindestens eine negative Kom-ponente haben — Widerspruch zu Fall b).

Wiederhole den ersten Fall, bis wir eine Ecke erhalten. Da der neue Vektor im Ver-gleich zum Vorgangervektor eine Null-Komponente mehr hat, erhalt man nach maxi-mal n Iterationen eine Ecke.

Damit ist Satz 12.31 auf Seite 144 bewiesen, denn ein Polyhedra kann man alsZulassigkeitsbereich eines linearen Programms auffassen. Aus Satz 13.5 folgt fernerwegen Zstd = Ω(0,Zstd):

Korollar 13.6. Der nicht leere Zulassigkeitsbereich Zstd hat eine Ecke.

Um eine optimale Losung eines linearen Programms zu finden, genugt es nachSatz 13.5 die (endlich vielen) Ecken des Zulassigkeitsbereichs zu untersuchen. Wirhaben Ecken bisher geometrisch beschrieben, im folgenden wollen wir eine algebrai-sche Charakterisierung herleiten. Dazu identifizieren die Ecken x ∈ E(Zstd) durchUnterteilung von x1, . . . , n in Basis- und Nichtbasis-Variablen. Fur eine nicht leere

2. Ecken und Basislosungen 157

Indexmenge I ⊆ 1, 2, . . . , n sei AI die Matrix bestehend aus den Spaltenvektorenvon A mit aufsteigend angeordneten Indizes in I und analog xI den Vektor bestehendaus den entsprechenden Eintrage des Vektors x.

Lemma 13.7. Sei x ∈ Zstd und I := i | xi > 0. Genau dann gilt x ∈ E(Zstd),wenn I = ∅ oder die Spalten von AI linear unabhangig sind.

Beweis. Wir zeigen die negierte Aquivalenz: Der Punkt x ∈ Zstd ist genau dannkeine Ecke von Zstd, wenn I 6= ∅ und die Spalten von AI linear abhangig sind.

”⇒“ AI habe linear abhangige Spalten, d.h. insbesondere ist I 6= ∅ und x 6= 0.Dann existiert ein Vektor yI 6= 0 mit AI · yI = 0. Wir erganzen yI durchNull-Komponenten zu y ∈ Rn mit Ay = 0. Wahle λ > 0 mit x ± λy ≥ 0.Dies ist wegen yi = xi = 0 fur i /∈ I und xi > 0 fur i ∈ I moglich. Aus

A(x± λy) = Ax± λ · (Ay)︸︷︷︸=0

= Ax = b

erhalten wir x± λy ∈ Zstd, so dass x /∈ E(Zstd).

”⇐“ Der Punkt x sei keine Ecke. Dann existiert nach Definition ein y 6= 0 mitx± y ∈ Zstd und es ist x 6= 0. Wegen

Ax+Ay = b

Ax−Ay = b

gilt Ay = 0. In Verbindung mit x±y ≥ 0 erhalten wir: Aus xi = 0 (aquivalenti /∈ I) folgt yi = 0. Sei yI der Vektor, der aus den Eintragen I von y besteht.Nach vorheriger Uberlegung und y 6= 0 ist yI 6= 0. Das heißt, dass

0 = Ay = AI · yIund AI hat wegen yI 6= 0 linear abhangige Spalten.

Die Auswahl einiger Spalten der Koeffizientenmatrix A wie in Lemma 13.7 entsprichteiner Partition der Indizes 1, 2, . . . , n in zwei Mengen:

Definition 13.8 (Basis-Nichtbasis-Partition). Zum linearen Programm in Standard-form heißt eine Partition (B,N) von 1, 2, . . . , n Basis-Nichtbasis-Partition, wenndie Spaltenvektoren der Matrix von AB eine Basis des Rm bilden (insbesondere |B| =m). Sie ist zulassig, wenn der Koordinatenvektor xB := A−1

B b von b bezuglich derSpaltenvektoren von AB keine negativen Eintrage hat. Die Variablen xi mit i ∈ Bnennt man Basis- und die mit i ∈ N Nichtbasisvariablen der Partition.

Jeder (zulassigen) Basis-Nichtbasis-Partition ordnen wir eine (zulassige) Losung zu:

Definition 13.9 (Basislosung). Zu einer Basis-Nichtbasis-Partition (B,N) bezeich-ne Φ(B,N) die zugehorige Basislosung x mit xB := A−1

B b und xN := 0. Wir nennenden Zielwert der zugehorigen Basislosung

Φc(B,N) := cT · Φ(B,N) = cTBA−1B b

den Zielwert der Basis-Nichtbasis-Partition (B,N).

158 13. Lineare Programmierung

Im folgenden Satz stellen wir die Beziehung zwischen den Ecken des Zulassigkeits-bereichs und den zulassigen Basis-Nichtbasis-Partitionen dar. Zwar ist die Basislosungeiner zulassigen Basis-Nichtbasis-Partition eine Ecke, umgekehrt konnen aber einerEcke mehrere zulassige Basis-Nichtbasis-Partitionen zugeordnet werden.

Satz 13.10. Die m× n-Koeffizientenmatrix A habe vollen Zeilenrang m ≤ n. Danngilt:

a) Zur zulassigen Basis-Nichtbasis-Partition (B,N) ist Φ(B,N) ∈ E(Zstd).

b) Jede Ecke x ∈ E(Zstd) ist eine zulassige Basislosung zur Partition (B,N),erganzt man i | xi > 0 gegebenenfalls durch Hinzunahme von Indizes wei-terer, linear unabhangiger Spaltenvektoren zu B mit Machtigkeit m.

Beweis. Fur die erste Aussage beachte, dass fur x := Φ(B,N) nach Definition xB =A−1B b ≥ 0 und wegen xN = 0 insgesamt x ≥ 0 gilt. Aus

Ax = ABxB +ANxN = ABA−1B b+AN0 = b

folgt x ∈ Zstd. Da nach Definition rangAB = m, erhalten wir aus Lemma 13.7, dassx eine Ecke der Losungsmenge ist.

Zum Beweis der zweiten Behauptung sei x ∈ E(Zstd) mit I := i | xi > 0. NachLemma 13.7 sind die Spaltenvektoren von AI linear unabhangig, so dass nach Vor-aussetzung |I| ≤ rangA = m ist. Im Fall |I| = m sei B := I, sonst erganze Idurch Hinzunahme der Indizes weiterer, linear unabhangiger Spaltenvektoren zu Bmit Machtigkeit m. Sei N = 1, 2, . . . , n \B. Wegen xB\I = 0 gilt:

ABxB = AIxI +AB\IxB\I = Ax = b.

Weil xB = A−1B b ≥ 0, ist (B,N) eine zulassige Basis-Nichtbasis-Partition.

Es ist moglich, dass einer Ecke verschiedene, zulassige Basis-Nichtbasis-Partitionenzugeordnet werden konnen. In diesem Fall nennt man die Ecke und zugehorige Basis-Nichtbasis-Partitionen degeneriert:

Definition 13.11 (Degeneration). Eine zulassige Basis-Nichtbasis-Partition (B,N)und die zugehorige Basislosung x := Φc(B,N) heißen degeneriert (entartet), wennxB Nulleintrage hat.

Eine Ecke des Zulassigkeitsbereichs ist degeneriert, wenn sie auf mehr als n−mSeitenflachen x ∈ Rn | xk = 0, namlich k ∈ N und einer weiteren mit k ∈ B, liegt.

Nach Satz 13.10 finden wir den optimalen Zielwert, indem wir zu jeder Basis-Nichtbasis-Partition testet, ob diese zulassig ist und das Minimum der zugehorigenZielwerte ausgeben. Dieser Ansatz ist aber nur fur kleine n und m durchfuhrbar, dennes gibt

(nm

)≥(nm

)m viele Basis-Nichtbasis-Partitionen. Beim Simplex-Algorithmusversucht man die Anzahl der betrachteten Basis-Nichtbasis-Partitionen zu reduzieren,indem nur Partitionen in Betracht gezogen werden, deren der Zielwert mindestens dasbisher erreichte Niveau hat.

3. Simplex-Algorithmus 159

3. Simplex-Algorithmus

Dantzig hatte im Rahmen der Forschung der US-Luftwaffe lineare Programme zurPlanung der Logistik und Produktion im Kriegsfall formuliert und hoffte vergebens,dass man in der Wirtschaftmathematik mechanische Methoden zur linearen Program-mierung kannte. Wahrend des Sommers 1947 entwickelte er den Simplex-Algorithmus.Als erste, offentliche Publikation gilt Dantzigs Text [Dantzig51]. Die Bezeichnung

”Simplex-Algorithmus“ geht auf Dantzigs ursprungliche Voraussetzung zuruck, dassdie Losungsmenge ein Simplex sei. Das Simplex-Verfahren funktioniert auch bei De-generation, sofern bei der Pivot-Wahl sichergestellt ist, nicht in eine Endlosschleifezu geraten.

Die grundlegende Idee der Simplex-Methode ist, beginnend von einer Ecke desZulassigkeitsbereichs iterativ zu benachbarten Ecken zu gehen, bis eine optimaleEcke erreicht wird. In der Praxis bildet der Ursprung meist die Ausgangsecke, imanderen Fall konnen wir in einer ersten Phase mittels Simplex-Algorithmus eineEcke der Losungsmenge bestimmen. Nach Korollar 13.6 auf Seite 156 existiert ei-ne Ausgangsecke, sofern die Restriktionen nicht widerspruchlich sind. Wir setzenzunachst voraus, dass eine zulassige Basis-Nichtbasis-Partition (B,N) und zugehorigeBasislosung (Ecke) bekannt sind, und untersuchen die folgenden Punkte:

• Wie erhalt man die Basis-Nichtbasis-Partition bzw. Basislosung einer be-nachbarten Ecke mit niedrigerem Zielwert und wie entscheidet man sich beimehreren Alternativen?

• Wie ist eine optimale Ecke zu erkennen?

• Unter welchen Bedingungen terminiert dieses Verfahren?

Zur Basis-Nichtbasis-Partition (B,N) kann man das lineare Programm schreiben als:

minimiere cTx, so dass ABxB +ANxN = bxB, xN ≥ 0.

Nur die Variablen xN sind unabhangig, xB erhalten wir gemaß

xB(xN ) := A−1B (b−ANxN ) . (34)

Die Objektfunktion lautet:

cTx = cTBxB(xN ) + cTNxN

= cTBA−1B (b−ANxN ) + cTNxN

= cTBA−1B b︸ ︷︷ ︸

=Φc(B,N)

+(cTN − cTBA−1

B AN)︸ ︷︷ ︸

:=sTN

xN .

Wir haben die Zielfunktion relativ zu einer Basis-Nichtbasis-Partition (B,N) umge-formt. Der Wert Φc(B,N) ist der Zielwert an der Stelle Φ(B,N).

Definition 13.12 (Relative Zielfunktion). Zu einer zulassigen Basis-Nichtbasis-Partition(B,N) heißt die Funktion Φc(B,N) + sTx mit sB := 0 und sTN := cTN − cTBA

−1B AN die

relative Zielfunktion.

160 13. Lineare Programmierung

Beachte, Φc(B,N) hangt nur von der Basis-Nichtbasis-Partition (B,N) und derzugehorigen Basislosung, jedoch nicht von der Variablen x ab. Die relative Zielfunk-tion gibt an, wie sich der Zielwert verhalt, andern wir den Wert von Nichtbasisvaria-blen. Angelehnt an die okonomische Interpretation im Fall einer Minimierungsaufgabeheißen die Koeffizienten s Schattenpreise, die (informell formuliert) angeben, was eskostet, eine Nichtbasisvariable xj um eine Einheit zu erhohen.2 Durch die Schatten-preise erhalten wir ein Optimalitatskriterium fur die Basislosung:

Satz 13.13 (Optimalitatskriterium). Die Basislosung bzw. die Ecke zur zulassigenBasis-Nichtbasis-Partition (B,N) ist genau dann optimal, wenn fur die relative Ziel-funktion der Vektor sN ≥ 0 ist, d.h. alle Schattenpreise nicht-negativ sind.

Beweis. Wegen cTx = Φc(B,N) + sTNxN und der Forderung xN ≥ 0 fur alle zulassi-gen Losungen x ∈ Zstd konnen wir den Zielwert nur reduzieren, falls mindestens einEintrag in sN negativ ist.

Sei xi eine Nichtbasisvariable, also i ∈ N , mit negativem Schattenpreis si. Wirwollen i in die Basis B aufnehmen und werden dafur einen Index j aus B entfernen.Die Variable xi der Basislosung zur Partition (B,N) hat als Nichtbasisvariable denWert 0. Um diese auf λ ≥ 0 zu setzen, muß man die Werte der Variablen xB gemaßGleichung (34) andern:

xB(xN (λ)) := A−1B (b− λAei) = A−1

B (b− λAi) . (35)

Sei x(λ) die neue Losung in Abhangigkeit in λ. Wegen (35) gilt:

Ax(λ) = AB · xB(xN (λ)) +ANxN (λ) = ABA−1B (b− λAi) + λAi = b.

Der Zielwert c(λ) ist

cTx(λ) = Φc(B,N) + sTNxN (λ) = Φc(B,N) + siλ.

Aufgrund si < 0 nimmt der Zielwert mit wachsendem λ ab. Wir wahlen das maximaleλ ≥ 0 mit x(λ) ∈ Zstd. Wegen xN (λ) ≥ 0 und Ax(λ) = b suchen wir das großte λ ≥ 0mit xB(xN (λ)) ≥ 0. Zu

λsup := sup λ ∈ R≥0 | x(λ) ≥ 0

unterscheide drei Situationen:

• Im Fall λsup = +∞ konnen wir den Zielwert beliebig verkleinern, der Zielwertist unbeschrankt und das Verfahren stoppt.• Im Fall 0 < λsup < +∞ existiert ein j, so dass xj(0) > 0 und xj(λsup) = 0

ist, denn fur x(0) = 0 muß λsup = 0 sein. Wir tauschen j ∈ B und i ∈ N furdie neue Basis-Nichtbasis-Partition (Bneu, Nneu) aus. Die neue Basislosungist x(λsup), der Zielwert sinkt auf c(λsup).

Zu zeigen bleibt, dass fur die neue Basis-Nichtbasis-Partition die Ma-trix ABneu vollen Rang hat. Wir wollen zeigen, dass der Ubergang von denSpaltenvektoren AB auf ABneu eine Basistransformation ist. Angenommen,der neue Vektor Ai sei eine Linearkombination der Spaltenvektoren AB\j,

2Diese Interpretation der Koeffizienten der relativen Zielfunktion stammt aus der klassischenSensitivitatsanalyse. Im Fall von Degeneration muß diese Interpretation nicht korrekt sein.

3. Simplex-Algorithmus 161

d.h. es gabe einen Koeffizientenvektor u mit uj = 0 und ABuB = Ai. Dannist der Eintrag j des Vektors λsupA

−1B Ai = λsupuB gleich 0. Aus

xB(λsup)︸ ︷︷ ︸j-tes Bit Null

= A−1B b︸ ︷︷ ︸

=xB(0)

−λsupA−1B Ai︸ ︷︷ ︸

j-tes Bit Null

folgt, dass xj(0) = 0 — Widerspruch zur Wahl von j.• Im Fall λsup = 0 ist die Ecke degeneriert: Es gibt einen Index k ∈ B, so dass

der Eintrag k in xB = A−1B b Null ist (also die Basisvariable xk den Wert 0

hat), die Komponente k in A−1B Ai hingegen nicht. Wahle den Index j des

Spaltenvektors aus der Menge k ∈ B | xk = 0 so, dass die Spaltenvekto-ren von Ai∪B\j linear unabhangig sind. Mit der neuen Basis-Nichtbasis-Partition ist die gleiche Basislosung verbunden und insbesondere vermindernwir den Zielwert nicht.

Falls der Zulassigkeitsbereich Zstd keine degenerierte Ecke hat, finden wir nach end-lich vielen Iterationen eine optimale Ecke oder bemerken, dass das lineare Programmunbeschrankt ist. Bevor wir genauer auf die Wahl eingehen, welche Variable aus derBasis entfernt und welche hinzugenommen wird, zeigen wir, dass der zuvor beschrie-bene Ubergang zu einer anderen Ecke des Zulassigkeitsbereichs anschaulich bedeutet,dass man sich entlang der Menge

x(λ) | 0 ≤ λ ≤ λsup ,

einer Kante3 des Polyhedrons, bewegt und umgekehrt auch alle benachbarten Eckenbetrachtet. Zwei Ecken p, p′ heißen benachbart, wenn [p, p′] eine Kante ist. Wir sagen,zwei zulassige Basis-Nichtbasis-Partitionen (B,N) und (B′, N ′) sind benachbart, wenn|B \B′| = 1, d.h. die beiden Partitionen sind durch Austausch einer Basis- gegen eineNichtbasis-Variable ineinander uberfuhrbar. In Ubungsaufgabe 17.1 zeigen wir:

Satz 13.14. Fur den Zulassigkeitsbereich Zstd gilt:

a) Zwei Ecken p, p′ ∈ E(Zstd), p 6= p′, sind genau dann benachbart, d.h. [p, p′] isteine Kante von Zstd, wenn zulassige, benachbarte Basis-Nichtbasis-Partitionen(B,N), (B′, N ′) mit p = Φ(B,N) und p′ = Φ(B′, N ′) existieren.

b) Falls fur zwei zulassige, benachbarte Basis-Nichtbasis-Partitionen (B,N) und(B′, N ′) die Basislosungen Φ(B,N) und Φ(B′, N ′) nicht benachbart sind, giltΦ(B,N) = Φ(B′, N ′) und die Ecke ist degeneriert.

In jeder Iteration nehmen wir eine Variable xi in die Basis auf und eine Variable xjheraus. Die Entscheidung fur ein Index-Paar (i, j) ∈ N ×B heißt Pivot-Wahl. Fur dievon Wahl (i, j) gibt es sogenannte Pivot-Regeln, weil zumeist mehrere Alternativenexistieren. Dantzig [Dantzig51] hat ursprunglich zwei Regeln vorgeschlagen:

Nonbasic-Gradient-Methode: Wahle i ∈ N mit minimalem Schattenpreissi < 0.

Best-Improvement-Regel: Wahle i ∈ N mit der maximal moglichen Ab-nahme des Zielwertes.

3[p, p′] ist eine Kante, wenn zu keinem Punkt x ∈ [p, p′] ein y 6= 0 mit (p−p′) ⊥ y und x±y ∈ Zstd

existiert.

162 13. Lineare Programmierung

Diese Richtlinien stellen neben der formalen Anforderungen keine Bedingungen andie Wahl von j ∈ B, d.h. welche Variable aus der Basis genommen werden soll. Beibeiden Regeln besteht die Gefahr des Cyclings (Kreisens). Wir haben in Satz 13.14gesehen, dass im Fall einer degenerierten Ecke mehrere Basis-Nichtbasis-Partitionenzur gleichen Basislosung existieren. Bei beiden Pivot-Regeln ist es moglich, dass wirnach einigen Iterationen wieder die Ausgangspartition erreichen, ohne die Ecke zuverlassen. Der interessierte Leser findet ein Beispiel bestehend aus 3 Gleichungenund sieben Variablen, bei dem man nach sechs Schritten wieder die Ausgangsparti-tion erreicht, in [Dantzig66, V97]. Die heute gelaufigste Pivot-Regel, die Cyclingverhindert, geht auf Bland [Bland77] zuruck:

Blands Pivot-Regel: Nimm xi mit minimalem i ∈ k ∈ N | sk < 0 in dieBasis auf und entferne xj mit minimalem j ∈ k ∈ B | xk(λsup) = 0.

Fur Blands Pivot-Regel ist gewahrleistet, dass der Simplex-Algorithmus stets termi-niert [V97, PS82]:

Fakt 13.15. Mit Blands Pivot-Regel tritt kein Cycling auf.

Beim Simplex-Algorithmus 1 auf Seite 163 setzen wir in Schritt 1 voraus, dasszu Beginn eine zulassige Basis-Nicht-Basispartition (B,N) respektive eine zulassigeBasislosung x bekannt ist. Falls das Programm in kanonischer Form, also

minimiere cTx, so dass Ax ≤ bx ≥ 0,

gegeben ist, fuhren wir Slack-Variablen r ein, so dass neben den Nichtnegativitatsbe-dingungen x, r ≥ 0 die Restriktionen(

A Im)(x

r

)= b

lauten. Die letzten m Spalten, die Einheitsvektoren, sind offenbar linear unabhangig.Fur b ≥ 0, erhalten wir mit x = 0 und r = b eine zulassige Basislosung und entspre-chend eine zulassige Basis-Nichtbasis-Partition.

Falls bei der kanonischen Form b negative Eintrage hat oder das lineare Programmin Standardform mit Ax = b vorliegt, ist eine zulassige Basislosung nicht immer offen-sichtlich. Wenngleich in der Praxis meist der Ursprung eine Ecke des Zulassigkeitsbe-reichs darstellt, ist die Bestimmung einer Ecke in Schritt 1 des Simplex-Algorithmus’im allgemeinen nicht trivial. Man kann sogar zeigen, dass das Finden einer beliebigenLosung zu einem linearen Ungleichungssystem aquivalent zur linearen Programmie-rung ist. Ein Ansatz ist der sogenannte Zwei-Phasen-Simplex-Algorithmus. Wir er-weitern das Programm durch Einfuhren neuer Variablen t und minimieren die Summeder neuen Variablen:

minimiere∑m

i=1 ti, so dass Ax+ t = bx, t ≥ 0.

Falls der optimale Zielwert ungleich 0 ist, gilt Ax 6= b fur alle x ≥ 0 und das ur-sprungliche lineare Programm hat keine zulassige Basislosung. Im anderen Fall istt = 0 fur jede optimale Losung (x, t), also Ax = b. Wir setzen wegen t = 0 voraus,dass die Variablen t Nichtbasis-Variablen sind. Aus der Basis-Nichtbasis-Partition

3. Simplex-Algorithmus 163

Abbildung 1. Simplex-Algorithmus mit Blands Pivot-Regel

Eingabe: Lineares Programm in Standardform

(1) Wahle zulassige Basis-Nichtbasis-Partition (B,N).(2) Berechne zur Basis-Nichtbasis-Partition aktuellen Zielwert

Φc(B,N) und Schattenpreise sN.(3) IF sN ≥ 0 THEN stoppe mit Ausgabe Φ(B,N).(4) Wahle i := min k ∈ N | sk < 0.(5) λsup := sup λ ∈ R≥0 | x(λ) ≥ 0 mit xB(λ) = A−1

B (b− λAi).(6) Fallunterscheidung:

• λsup = +∞: Stoppe, Zielwert ist unbeschrankt.• λsup < +∞: Setze j := min k ∈ B | xk(λsup) = 0.

(7) B := i ∪B \ j, N := 1, 2, . . . , n \B(8) GOTO 2

(B,N) erhalt man eine zulassige Basislosung fur das ursprungliche Programm durchEntfernen der Indizes fur t aus N . Haben wir im ersten Schritt eine zulassige Ba-sislosung bzw. Basis-Nichtbasis-Partition mit dem Simplex-Algorithmus bestimmtoder das Programm als widerspruchlich erkannt, ist nun das eigentliche Programmmit dem Simplex-Verfahren 1 zu losen. Man nennt dieses zweistufige Verfahren Zwei-Phasen-Simplex-Algorithmus, da das Programm in zwei getrennten Phasen gelostwird.

Ein Nachteil der Zwei-Phasen-Methode ist, dass beide Stufen separat arbeiten,insbesondere wahlen wir die in der ersten Phase gefundene Basis-Nichtbasis-Partitionunabhangig von der Zielfunktion cTx. Eine Moglichkeit, beide Phasen zu kombinieren,bildet die Big-M-Methode. Zu einem Programm in Standardform fuhre m zusatzlicheVariablen t ein und lose

minimiere cTx+M∑m

i=1 ti, so dass(A Im

)(xt

)= b

x, t ≥ 0

mit einer hinreichend großen Konstanten M . Mit der Konstanten M erreichen wir,dass fur alle optimalen Losungen (x, t) gilt t = 0 und x eine optimale Losung desursprunglichen Programms ist.

Es gibt maximal(nm

)zulassige Basis-Nichtbasis-Partitionen, die Anzahl der Ite-

rationen von Algorithmus 1 ist durch 2n beschrankt. Berechnen der Inversen A−1B ,

Losen des linearen Gleichungssystems ABxB = b sowie die ubrigen Aufgaben in jederIteration gelingen jeweils in O(n3) Schritten.

Satz 13.16. Zu einem linearen Programm in n Variablen mit m ≤ n Restriktionenliefert der Simplex-Algorithmus 1 in O(n32n) Schritten entweder eine optimale Eckeoder erkennt, dass das Programm widerspruchlich bzw. unbeschrankt ist.

164 13. Lineare Programmierung

Der Satz 13.16 liefert nur eine exponentielle Laufzeitschranke fur den Simplex-Algorithmus. Fur die Analyse haben wir die Anzahl der betrachteten Basis-Nichtbasis-Partitionen durch die Anzahl aller moglichen Partitionen nach oben beschrankt.Klee und Minty [KM72, S86] haben 1972 ein lineares Programm in 2n Variablenund n Restriktionen angeben, fur das die Simplex-Methode mit Dantzigs Nonbasic-Gradient-Pivotregel 2n−1 Iterationen benotigt. Dieses negative Resultat wurde in denFolgejahren auf die anderen, bekannten Pivotregeln ubertragen, Avis und Chvatal

[AC78] zeigten die exponentielle Schranke fur Blands Pivotregel. Wenngleich der ur-sprungliche Simplex-Algorithmus kein Polynomialzeit-Verfahren darstellt, ist es bisheute ein offenes Problem, ob eine (deterministische oder randomisierte) Pivotre-gel existiert, fur welche die Anzahl der Iterationen polynomiell ist, d.h. man bewei-sen kann, dass der Simplex-Algorithmus jedes lineare Programm effizient lost. DieseWorst-Case-Laufzeit steht im Widerspruch zur Praxis. In Dantzigs Buch [Dantzig66]schreibt der Erfinder der Simplex-Methode, dass in den zahlreichen Beispielen aus derPraxis die Anzahl der Iterationen fur ein lineares Programm in kanonischer Form mitm Restriktionen und n Variablen im Bereich von 2m bis 3m liegt.

Mit Khachiyans Ellipsoid-Methode [Kh79] kennt man zwar bereits seit 1979einen Polynomialzeit-Algorithmus4 fur die lineare Programmierung, allerdings ist dasVerfahren nicht praktikabel. Basierend auf einer Arbeit von Karmakar [Ka84] wur-den Ende der Achtziger Jahren Interior-Point-Methoden entwickelt [V97]. Diese losenlineare Programme in Polynomialzeit und sind fur große Programme mit mehr als1000 Variablen eine Alternative zum Simplex-Algorithmus.

Fur die Variante des Simplex-Algorithmus’ mit der sogenannten Schattenecken-Pivotregel von Borgwardt (1988) ist die Laufzeit fur zufallige (nach einer bestimm-ten Verteilung) verteilte A, b, c im Durchschnitt durch ein Polynom in der Varia-blenanzahl n und der Anzahl Restriktionen m beschrankt. Es ist jedoch ein offenesProblem, ob fur die lineare Programmierung ein starker Polynomialzeit-Algorithmus,d.h. die Laufzeit ist durch ein Polynom in n und m beschrankt und hangt insbeson-dere nicht von der Eingabelange ab, existiert. Es ist ebenso ungeklart, ob die Distanzzwischen zwei Ecken e1, e2 der Losungsmenge (d.h. die Anzahl der Kanten auf demKantenzug von e1 nach e2) durch ein Polynom in n und m beschrankt ist, also einePivotregel existieren kann, fur die das Simplex-Verfahren ein starker Polynomialzeit-Algorithmus ist.

4. Simplex-Tableau

Fur die Rechnung per Hand ist die Simplex-Methode in Form von Algorithmus 1(Seite 163) ungeeignet: In jeder Iteration losen wir ein lineares Gleichungssystemsbzw. bestimmen eine inverse Matrix und gehen die Halbgerade x(λ) bis zu einer Eckeentlang, um die Indizes fur den Basiswechsel zu ermitteln. Zum Losen eines linea-ren Programms per Hand haben sich Simplex-Tableaus etabliert, die eine alternativeDarstellung des Simplex-Algorithmus’ liefern. Fur die Simplex-Tableaus fuhre eineneue Variable −z und als weitere Restriktion cTx− z = 0 ein. Das Ziel ist, den Wertvon −z zu maximieren. Fixiere −z als Basisvariable, d.h. beachte diese Variable bei

4Die Laufzeit ist durch ein Polynom in der Bitlange der ganzzahligen Eingabe A, b, c beschrankt.

4. Simplex-Tableau 165

der Pivot-Auswahl nicht. Das Tableau hat folgenden Aufbau:

−z x

0 A b

1 cT 0

Sei (B,N) eine zulassige Basis-Nichtbasis-Partition. Um die Basislosung unmittelbaraus dem Simplex-Tableau abzulesen, uberfuhren wir durch elementare Zeilenoperatio-nen das Gleichungssystem Ax = b in ein aquivalentes System A′x = b′ mit A′B = Im,so dass fur die Basislosung x := Φ(B,N) gilt xB = b′ und xN = 0. Das Tableau hatschematisch folgenden Aufbau:

−z xN xB

0 A′N Im b′

1 cTN cTB 0

In der letzten Zeile soll die relative Zielfunktion steht. Durch elementare Zeilenope-rationen loschen wir die Eintrage der Basisvariablen in der letzten Zeile, d.h. wirsubtrahieren die i-te Zeile ci-mal von der letzten Zeile. Wegen xB = b′ ist der Eintragin Feld rechts unten −cTBxB = −Φc(B,N). Die xB-Eintrage der letzten Zeile sindNull und, da A′B = Im, entsprechen die xN -Eintrage den Schattenpreisen

cTN − cTBA′N = sN

bezuglich der Basis-Nichtbasis-Partition (B,N), so dass das Simplex-Tableau zurBasis-Nichtbasis-Partition (B,N) schematisch wie folgt aussieht:

−z xN xB

0 A′N Im b′

1 sTN sTB = 0 −Φc(B,N)

Zusammenfassend: Wir erhalten die Basislosung und die relative Zielfunktion (dieSchattenpreise) zu einer gegebenen Basis-Nichtbasis-Partition (B,N), indem manmittels elementarer Zeilenoperationen in den Spalten zu xB die Einheitsvektorene1, . . . , em erzeugt. Der negierte Zielwert steht rechts unten. Unser Ziel ist es, denWert im Feld rechts unten zu maximieren.

Zu klaren ist, wie man die Pivotwahl (i, j) ∈ N×B nach Blands Regel im Simplex-Tableau vornimmt. Die Wahl i ∈ N , d.h. welche Variable xi in die Basis genommenwird, treffen wir anhand der Schattenpreise in der letzten Zeile: Wahle das minimalei ∈ N mit si < 0. Um j ∈ B zu bestimmen, betrachte zum Skalar λ ≥ 0 den Ausdruck

xB(λ) = (A′B)−1(b′ − λA′ei

)= b′ − λA′i

aus Definition 35 auf Seite 160, berechne λsup := sup λ ∈ R≥0 | x(λ) ≥ 0 und wahle

j := min k ∈ B | xk(λsup) = 0 .

166 13. Lineare Programmierung

Fur λsup bestimmen wir λsup(k) := sup µ ∈ R≥0 | b′k − µ ·A′ik ≥ 0 fur 1 ≤ k ≤ m,also

λsup(k) :=

b′kA′ik

falls A′ik 6= 0

+∞ sonst.

und setzen λsup gleich dem Minimum aller λsup(k) ≥ 0. Bezogen auf das Tableaubesagt Blands Pivotregel:

(1) Wahle die erste Spalte i mit dem kleinsten, negativen Schattenpreis (Pivot-spalte).

(2) Wahle die oberste Zeile j mit λsup(j) = λsup (Pivotzeile). Um λsup zu er-mitteln, dividiere in jeder Zeile k die rechte Seite b′k durch den KoeffizientenA′ik in der Pivotspalte, sofern dieser ungleich Null ist, und bestimmte denkleinsten, nicht-negativen Quotienten.

(3) Erzeuge durch elementare Zeilenoperationen in der Pivotspalte i den kano-nischen Einheitsvektor ej .

Abbildung 2. Zulassigkeitsbereich des Beispiel-Programms

6

-

x2

x1

p p p p p p p p p p p p p p p p p p p p p ppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp0

p p p p p ppppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppp

p pp pp pp ppp ppp pppp pppp ppppp ppppp pppppp ppppppp ppppppp pppppppp pppppppp ppppppppp ppppppppp ppppppppp ppppppppppppppppppppp pppppppp pppppp pppp pp

1

2

3

4

5

1 2 3 4 5

I

II

III

Wir demonstrieren Simplex-Tableaus und das Rechnen mit ihnen anhand eineseinfachen Beispieles. Minimiere −x1 − x2 unter den Restriktionen x1, x2 ≥ 0 und

2x1 ≤ 10

−3x1 + 6x2 ≤ 18

2x1 + x2 ≤ 13.

Abbildung 2 zeigt den Zulassigkeitsbereich im R2. In Matrixschreibweise und mit

Slackvariablen lauten die Restriktionen: 2 0 1 0 0−3 6 0 1 02 1 0 0 1

·x1

x2

x3

x4

x5

=

101813

.

4. Simplex-Tableau 167

Erganze drei Slackvariablen x3, x4, x5, die aktuellen Basisvariablen werden durch Fett-druck gekennzeichnet (In leeren Feldern steht jeweils eine Null):

−z x1 x2 x3 x4 x5

2 1 10−3 6 1 182 1 1 13

1 −1 −1 0

Aus dem Tableau erhalten wir als Basislosung x = (0, 0, 10, 18, 13) mit Zielwert 0und Schattenpreisen (−1,−1, 0, 0, 0). In Abbildung 2 entspricht dies dem Nullpunkt.Blands Regel folgend wahle x1 als neu in die Basis zu nehmende Variable, denn derminimale Schattenpreis ist s1 = s2 = −1 und wir entscheiden uns fur den kleinstenIndex i ∈ 1, 2. Wegen

λsup(1) = 102 = 5 λsup(2) = 18

−3 = −6 λsup(3) = 132 = 6, 5

ist λsup = λsup(1) und wir nehmen x3 aus der Basis, da in der ersten Zeile die Basiseinsvon x3 steht.

−z x1 x2 x3 x4 x5 λsup(k)2 1 10 10/2 = 5 •−3 6 1 18 18/− 3 = −62 1 1 13 13/2 = 6, 5

s 1 −1 −1 0•

Multipliziere die erste Zeile mit 12 und addiere Vielfache zu den ubrigen Zeilen, damit

in der x1-Spalte der erste Einheitsvektor e1 steht:

−z x1 x2 x3 x4 x5

1 0, 5 56 1, 5 1 331 −1 1 3

1 −1 0, 5 5

Aus dem Tableau erhalten wir als Basislosung x = (5, 0, 0, 33, 3) mit Zielwert −5und Schattenpreisen (0,−1, 1

2 , 0, 0). In Abbildung 2 entspricht dies dem Punkt I. Imnachsten Schritt nimm x2 in die Basis auf. Wegen

λsup(1) = +∞ λsup(2) = 336 = 5, 5 λsup(3) = 3

1 = 3

ist λsup = λsup(3) und wir entfernen x5 aus der Basis:

−z x1 x2 x3 x4 x5

1 0, 5 57, 5 1 −6 15

1 −1 1 31 −0, 5 1 8

168 13. Lineare Programmierung

Aus dem Tableau erhalten wir als Basislosung x = (5, 3, 0, 15, 0) mit Zielwert −8 undSchattenpreisen (0, 0,−1

2 , 0,−1). In Abbildung 2 entspricht dies dem Punkt II. Imletzten Schritt nimm x3 in die Basis auf. Wegen

λsup(1) = 50,5 = 10 λsup(2) = 15

7,5 = 2 λsup(3) = 3−1 = −3

ist λsup = λsup(2) und wir entfernen x4 aus der Basis:

−z x1 x2 x3 x4 x5

1 −0, 06 0, 4 41 0, 13 −0, 8 2

1 0, 13 0, 2 51 0, 06 0, 6 9

Die erreichte Losung ist optimal, da alle Schattenpreise der Nichtbasisvariablen positivsind. Der optimale Wert ist x = (4, 5, 2, 0, 0) bzw. Punkt III in Abbildung 2. Deroptimale Zielwert ist −9.

Es exisitiert ebenfalls eine Kurzform der Simplex-Tableaus, wie sie zum Beispiel in[Fischer92] verwendet wird. Die Koeffizientenvektoren der geordneten Basisvariablenhaben stets die Form einer Einheitsmatrix und die zugehorigen Schattenpreise sindNull, so dass die Angaben im Simplex-Tableau redundant sind. In der Kurzformschreibt man die Basisvariablen links und laßt die zugehorigen Spalten weg, der Wertrechts ist der Wert der Basisvariablen. Das Ausgangstableau des zuvor behandeltenProgramms lautet in dieser Form:

x1 x2

x3 2 10x4 −3 6 18x5 2 1 13−z 1 1 0

Aus den Regeln fur das Rechnen im erweitertern Simplex-Tableau lassen sich dieRegeln fur die Kurzform herleiten. Diese sind aber komplizierter und anfalliger furRechenfehler gegenuber des erweiterten Tableaus.

Zum Abschluß wollen wir noch die Falle von Degeneration und Mehrdeutigkeitim allgemeinen Simplex-Tableau betrachten. Eine Basislosung bzw. die zugehorigeBasis-Nichtbasis-Partition ist degeneriert, wenn ein i ∈ B mit xi = 0 existiert, alsoeine Basisvariable xi = 0 ist. Da die Werte der Basisvariablen in der Spalte rechtsstehen, bedeutet eine Null in diesen Feldern, dass die aktuelle Basislosung degeneriertist. Zum Beispiel beschreibt das folgende Tableau eine degenerierte Ecke, denn dieBasisvariable x2 ist gleich 0:

−z x1 x2 x3 x4 x5

1 9 3 42 8 1 2

1 7 1 01 3 1 6

Im Fall von Mehrdeutigkeit gibt es mindestens zwei optimale Ecken. Wenn wir eineoptimale Losung gefunden haben, sind alle Schattenpreise der relativen Zielfunktion

5. Dualitat 169

großer oder gleich 0. Um zu einer Ecke mit gleichem Zielwert zu gelangen, kommen nurNichtbasis-Variablen mit Schattenpreis Null in Frage, denn in diesem Fall addierenwir kein Vielfaches zur relativen Zielfunktion, um den entsprechenden Eintrag zuloschen. Zum Beispiel beschreibt das folgende Tableau eine optimale Ecke im Fallvon Mehrdeutigkeit:

−z x1 x2 x3 x4 x5

1 2 8 41 3 1 2

1 3 9 8−1 3 0 6

Wir ersetzen die Basisvariable x5 durch x3, das neue Simplex-Tableau hat folgendeForm:

−z x1 x2 x3 x4 x5

1 2 −2 01 3 1 2

1 0 −3 21 0 3 6

Diese ebenfalls optimale Ecke ist wegen x1 = 0 ferner degeneriert. Man erkennt Mehr-deutigkeit im Simplex-Tableau, wenn fur eine optimale Losung (d.h. kein Schatten-preis ist negativ) der Schattenpreis einer Nichtbasis-Variablen auch verschwindet unddiese Variable in der Basis aufgenommen werden kann.

5. Dualitat

In einer Unterhaltung mit Dantzig hatte John von Neumann 1947 die grundle-genden Begriffe der Dualitat in der linearen Programmierung eingefuhrt. Er ordneteeinem linearen Programm (primales Programm)

LPminimiere cTx, so dass Ax ≥ b

x ≥ 0,

ein duales Programm zu, wobei beide optimalen Werte ubereinstimmen, sofern dasprimale Programm weder unbeschrankt noch widerspruchlich ist.

Definition 13.17 (Duales Programm). Das duale lineare Programm zu einem linea-ren Programm in kanonische Form lautet:

LP* maximiere bT y, so dass AT y ≤ cy ≥ 0.

Wahrend das primale Programm eine Mimimierungsaufgabe ist, soll beim dualenProgramm die Zielfunktion maximiert werden. Offenbar ist das duale Programm desdualen Programms das primale Ausgangsprogramm. Wir bezeichnen mit Z und Z∗die Zulassigkeitsbereiche des primalen und des dualen Programms in kanonischerForm. Unser Ziel ist zu zeigen, dass der Zielwert von primalen und dualem Programm(sofert ein Programm beschrankt und das Restriktionssystem nicht widerspruchlichist) ubereinstimmen.

170 13. Lineare Programmierung

Lemma 13.18 (Schwache Dualitat). Fur x ∈ Z und y ∈ Z∗ gilt bT y ≤ cTx.

Beweis. Wegen Ax ≥ b und y ≥ 0 gilt bT y ≤ (Ax)T y = xTAT y. In Verbindung mitAT y ≤ c und y ≥ 0 erhalten wir

bT y ≤ xT (AT y) ≤ xT c

und mit xT c = cTx folgt die Behauptung.

Sofern die Zulassigkeitsbereiche nicht leer sind, liefert jede duale Losung y ∈ Z∗ eineuntere Schanke fur min

cTx

∣∣ x ∈ Z und jede primale Losung x ∈ Z eine obereSchranke fur max

bT y

∣∣ y ∈ Z∗. Aus der schwachen Dualitat folgt fur das primaleund zugehoriges duales Programm:

• Falls eines der Programme unbeschrankt ist, sind die Restriktionen des an-deren Programms widerspruchlich.

• Im Fall eines widerspruchlichen Programms ist das andere entweder ebenfallswiderspuchlich oder der Zielwert ist unbeschankt (Es gibt Beispiele fur beideFalle).

Aus der schwachen Dualitat erhalten wir ein Optimalitatskriterium: Eine primaleLosung x ∈ Z ist optimal, wenn eine duale Losung y ∈ Z∗ mit bT y = cTx existiert.Die Umkehrung dieser Aussage ist die sogenannte starke Dualitat :

Satz 13.19 (Dualitat). Falls die Restriktionssysteme des primalen Programms LP inkanonischer Form und des zugehorigen dualen Programm LP* nicht widerspuchlichsind, stimmen beide, optimalen Zielwerte uberein.

Beweis. Wegen der schwachen Dualitat, Lemma 13.18, genugt zu zeigen, dass x ∈ Zund y ∈ Z∗ mit cTx ≤ bT y existieren. Aus der Variante von Farkas’ Lemma inKorollar 12.43 auf Seite 149 folgt, dass fur beliebiges c0 ∈ R die nachstehendenAussagen aquivalent sind:5

a) Es existiert ein x ≥ 0 und Ax ≥ b mit cTx ≤ c0.

b) Es existiert ein x ≥ 0 mit(−AcT

)x ≤

(−bc0

).

c) Fur alle(yλ

)≥ 0 mit

(yT λ

)(−AcT

)≥ 0 gilt

(−bT c0

)·(yλ

)≥ 0.

d) Fur alle y ≥ 0 und λ ≥ 0 mit AT y ≤ λc gilt λc0 ≥ bT y.

e) Fur alle y ≥ 0 mit AT y ≤ c gilt c0 ≥ bT y.

Angenommen, fur alle y ∈ Z∗ gilt bT y ≤ c0 < mincTx

∣∣ x ∈ Z fur ein geeignetesc0. Dann existiert eine primale Losung x ∈ Z mit cTx ≤ c0 im Widerspruch zur Wahlvon c0 kleiner als der optimale, primale Zielwert.

5Fur den Beweis der Implikation”d)⇒e)“ wahle λ = 1. Fur die Ruckrichtung

”e)⇒d)“ unter-

scheide die beiden Falle λ > 0 und λ = 0. Fur λ > 0 folgert man Aussage d) aus e) mit y := λ−1y.Um die Behauptung, fur alle y ≥ 0 mit AT y ≤ 0 gilt bT y ≤ 0, zu folgern, wahle x0 ∈ Z (existiertnach Voraussetzung): Wegen Ax0 ≥ b, AT y ≤ 0 und x0, y ≥ 0 gilt dann bT y ≤ xT0 AT y ≤ 0.

5. Dualitat 171

Obwohl von Neumann diesen Satz bereits 1947 formulierte und bewies, ist er erst1951 explizit in einer Arbeit von Tucker, Kuhn und Gale erschienen. Auch einemlinearen Programm in Standardform,

LPstdminimiere cTx, so dass Ax = b

x ≥ 0

ordnet man ein duales Programm zu (beachte, y sind freie Variablen):

LP*std

maximiere bT y, so dass AT y + s = cs ≥ 0.

Fur die Standardform gilt auch die schwache Dualitat, d.h. fur x ∈ Zstd und y ∈ Z∗stdist bT y ≤ cTx, denn

bT y = (Ax)T y = xT (AT y) ≤ xT c.

Der Dualitatssatz, die Gleichheit der optimalen Zielwerte, ubertragt sich ebenfalls(siehe Ubungsaufgabe 16.3):

Korollar 13.20 (Dualitat). Hat das primale Programm LPstd in Standardform eineoptimale Losung, so auch das duale Programm LP*

std und beide Zielwerte stimmenuberein.

Zum Abschluß geben wir eine Motivation des dualen Programms basierend aufden Simplex-Tableaus. Zum linearen Programm in Standardform

LPstdminimiere cTx, so dass Ax = b

x ≥ 0

wird eine weitere Variable −z und eine zusatzliche Restriktion −z + cTx = 0 hinzu-gefugt, das neues Ziel ist die Minimierung von z. Bezogen auf das Tableau

−z x

0 A b

1 cT 0

subtrahiert man Vielfache der oberen Zeilen von der Zielzeile, um den Wert im Feldrechts unten zu maximieren. Bezeichne y die Vielfachen, so steht in der letzten Zeileder Vektor der Schattenpreise s := c − AT y. Wir haben eine optimale Losung xgefunden, dann und nur dann, wenn die Schattenpreise s ≥ 0 sind. Aufgrund6

xT s = xTB sB︸︷︷︸=0

+ xTN︸︷︷︸=0

sN = 0

und Ax = b gilt:

0 = xT s = xT c− xTAT y = cTx− bT y. (36)

6Wegen x, s ≥ 0 muß fur alle i entweder xi oder si Null sein. Man nennt dies komplementareSlackness.

172 13. Lineare Programmierung

Die Minimierung von cTx ist daher gleichwertig zur Maximierung von bT y. BeimRechnen im Simplex-Tableau haben wir durch die Multiplizierer y und die Schatten-preise s eine Losung des dualen linearen Programms ermittelt:

LP*std

maximiere bT y, so dass AT y + s = cs ≥ 0.

Gleichung (36) liefert die starke Dualitat: Die optimalen Zielwerte des primalen unddes dualen Programms stimmen, sofern einer endlich ist, uberein. Kombiniert manprimales und duales Programm, ergibt sich ein System linearer Ungleichungen:

Ax = b

AT y + s = c

cTx− bT y = 0

x, s ≥ 0

(37)

Das Finden einer Losung (x, y, s) ist gleichwertig zur linearen Programmierung, dennx stellt in diesem Fall wegen der starken Dualitat eine optimale Losung des primalenAusgangsprogramms dar. Faßt man (37) als Restriktionen fur ein lineares Programmauf, so ist bereits das Finden einer Startecke fur den Simplex-Algorithmus ”aquiva-lent“ zum linearen Programmieren.

Kapitel 14

Reelle und komplexeVektorraume

In diesem Abschnitt untersuchen wir Linear-, Bilinear- und quadratische Formen. Derduale Vektorraum wird eingefuhrt und wir gehen ausfuhrlich auf Skalarprodukte imRn und im C

n ein. Wir betrachten symmetrische, orthogonale (hermitesche,unitare)Matrizen und die zugehorigen Endomorphismen.

1. Dualitat linearer Raume

Zu einem K-Vektorraum V haben wir in Kapitel 6 auf Seite 63 die Bezeichnung

Lin(V,K) := ` : V → K | ` ist Homomorphismus

fur die Menge der linearen Abbildungen ` : V → K eingefuhrt. Nach Satz 6.2 istLin(V,K) mit Addition und skalarer Multiplikation

(`1 + `2)(v) := `1(v) + `2(v)

(λ · `)(v) := λ · `(v)

fur `1, `2, ` ∈ Lin(V,K) und λ ∈ K ein K-Vektorraum.Sei b1, . . . , bn eine Basis von V . Gibt es eine zugehorige Basis von Lin(V,K)?

Definiere lineare Abbildungen `1, . . . , `n ∈ Lin(V,K) gemaß

`i(bj) = δi,j =

1 falls i = j

0 sonst.

Solche linearen Abbildungen existieren und sind eindeutig bestimmt, denn die Bilderder Basisvektoren charakterisieren eine lineare Abbildung eindeutig.

Satz 14.1. Sei V ein endlich-dimensionaler K-Vektorraum mit Basis b1, . . . , bn ∈V . Dann bilden `1, . . . , `n ∈ Lin(V,K) mit `i(bj) = δi,j eine Basis von Lin(V,K).Insbesondere ist dimV = dim Lin(V,K).

173

174 14. Reelle und komplexe Vektorraume

Beweis. Die Abbildungen `1, . . . , `n ∈ Lin(V,K) sind linear unabhangig, denn aus∑ni=1 λi`i ≡ 0 (Nullabbildung) folgt

0 =n∑i=1

λi`i(bj) = λj`j(bj) = λj

fur alle j = 1, . . . , n. Zu zeigen bleibt, dass die Abbildungen `1, . . . , `n ∈ Lin(V,K)den Raum Lin(V,K) erzeugen. Zu ` ∈ Lin(V,K) definiere λi := `(bi) und

`′ :=n∑i=1

λi · `i ∈ span(`1, . . . , `n).

Die Bilder der Basisvektoren b1, . . . , bn der beiden Funktionen ` und `′ stimmen uber-ein

`(bi) = λi = `′(bi),

so dass ` = `′ ist. Die linearen Abbildungen `1, . . . , `n ∈ Lin(V,K) erzeugen folglichLin(V,K).

In Satz 14.1 verwenden wir implizit dimV <∞, weil nur endliche Summen allgemeinerklart sind.

Definition 14.2 (Dualer Vektorraum, duale Basis). Sei V ein K-Vektorraum mitBasis b1, . . . , bn ∈ V . Dann heißt L∗ := Lin(V,K) der duale Vektorraum (Dualraum)zu V und `1, . . . , `n ∈ Lin(V,K) mit `i(bj) = δi,j ist die duale Basis zu b1, . . . , bn ∈ V .

Bei der Definition der dualen Basis ist die Rolle von `i und bi symmetrisch. JederVektor b ∈ V operiert als lineare Abbildung auf Lin(V,K) gemaß

b : Lin(V,K)→ K

` 7→ `(b).

Es gilt:

Korollar 14.3. Sei V ein endlich-dimensionaler K-Vektorraum. Dann gilt:

(V ∗)∗ = V.

Betrachten wir den Fall V = Kn. Es gilt Lin(Kn,K) ∼= K

n, die lineare Abbildung` ∈ Lin(Kn,K) laßt sich schreiben als

`(x1, . . . , xn) =n∑i=1

aixi

mit den Koeffizienten ai := `(ei) fur die kanonischen Einheitsvektoren e1, . . . , en. Mannennt das formale Polynome

` =n∑i=1

aiXi ∈ K[X1, . . . , Xn]

eine Linearform in den Variablen X1, . . . , Xn.

1. Dualitat linearer Raume 175

Definition 14.4 (Annulator, Nullstellenmenge). Sei V ein endlich-dimensionalerK-Vektorraum. Zu M ⊆ V heißt

M0 := ` ∈ V ∗ | `(m) = 0 fur alle m ∈M

Annulator von M . Zu L ⊆ V ∗ nennt man

L0 := v ∈ V | `(v) = 0 fur alle ` ∈ L

die Nullstellenmenge von L.

Eine Teilmenge I ⊆ K[X1, . . . , Xn] heißt Polynomideal, wenn (I,+) eine abelscheGruppe ist und I ·K[X1, . . . , Xn] ⊆ I.1 Zu M ⊆ Kn ist der Annulator

M0 = p ∈ K[X1, . . . , Xn] | p(x) = 0 fur alle x ∈M

ein Polynomideal. Zum Ideal I ⊆ K[X1, . . . , Xn] ist die Nullstellenmenge I0 ⊆ Kneine Manigfaltigkeit mit

(I0)0 ⊇ I.

(I0)0 ist ein Radikalideal, es enthalt zu f auch jedes Polynom g mit gq = f fur q ∈ N.Fur Radikalideale I gilt (I0)0 = I.

Satz 14.5. Sei V ein endlich-dimensionaler K-Vektorraum und U ⊆ V ein Unter-vektorraum. Dann ist der Annulator U0 ⊆ V ∗ von U ein Untervektorraum von V ∗,so dass gilt

dimU + dimU0 = dimV

und (U0)0 = U .

Beweis. Sei b1, . . . , bm eine Basis von U und b1, . . . , bm, . . . , bn eine Basis von V . Sei`1, . . . , `n ∈ V ∗ die duale Basis zu b1, . . . , bn. Dann gilt:

U0 ⊆ span(`m+1, `m+2, . . . , `n).

Somit ist

dimU + dimU0 = m+ (n−m) = n = dimV.

Offenbar gilt (U0)0 = span(b1, . . . , bm) = U .

Zum Abschluß wollen den dualen Vektorrraum mit dem dualen Code aus Kapi-tel 7 vergleichen und Gemeinsamkeiten aufzeigen. Zu einem Korper K ist ein linearerCode ein Untervektorraum C des Vektorraums Kn. Der zu C dualen Code ist nachDefinition 7.19 auf Seite 78 erklart als

C⊥ :=u ∈ Kn

∣∣ cTu = 0 fur alle c ∈ C

Es gilt C0 ∼= C⊥, dimC + dimC⊥ = dimV und (C⊥)⊥ = C. Der Annulator C0

und der duale Code C⊥ sind in verschiedene Raume, namlich Kn und Lin(Kn,K)eingebettet.

1D.h. mit f ∈ I und g ∈ K[X1, . . . , Xn] liegt auch das Produkt fg im Ideal I.

176 14. Reelle und komplexe Vektorraume

2. Bilineare, Sesquilineare und quadratischeFormen

Sei K ein Korper und V ein K-Vektorraum. Eine Abbildung s : V × V → K nennenwir Bilinearform, wenn sie in jeder Komponente linear ist:

Definition 14.6 (Bilinearform). Sei V ein K-Vektorraum. Eine Abbildung s : V ×V → K heißt bilinear (Bilinearform) auf V , wenn fur alle u, v, w ∈ V und λ ∈ K gilt:

(B1) s(u+ v, w) = s(u,w) + s(v, w) und s(λv,w) = λs(v, w).

(B2) s(u, v + w) = s(u, v) + s(u,w) und s(v, λw) = λs(v, w).

Eine Bilinearform s : V × V → K heißt symmetrisch, wenn s(v, w) = s(w, v) fur allev, w ∈ V .

Das kanononische Skalarprodukt 〈·, ·〉 : Rn × Rn → R mit 〈v, w〉 = vTw indu-ziert eine symmetrische Bilinearform auf Rn. Welche Bilinearformen stellen ihrerseitsSkalarprodukte dar?

Definition 14.7 (Positiv definite Bilinearform). Eine Bilinearform s : V × V → R

eines R-Vektorraums V heißt positiv definit, wenn fur alle v ∈ V gilt:

a) s(v, v) ≥ 0.

b) s(v, v) = 0 gdw. v = 0.

Aus der Definition auf Seite 176 folgt unmittelbar:

Satz 14.8. Sei V ein R-Vektorraum und s : V × V → R eine Bilinearform. Genaudann ist s symmetrisch und positiv definit, wenn s ein Skalarprodukt ist.

Betrachten wir ein weiteres Beispiel eines Skalarprodukts. Sei I := [a, b] ⊆ R einIntervall und V := C(I,R) der R-Vektorraum der stetigen Funktionen f : I → R. DieAbbildung V × V → R mit

(f, g) 7→∫ b

af(t)g(t)dt

ist eine symmetrische, positiv definite Billinearform, also ein Skalarprodukt auf demVektorraum C(I,R).

Sei B = b1, . . . , bn ⊂ V eine geordnete Basis des K-Vektorraums V . Zum Vektor

Bt =n∑i=1

tibi ∈ V

nennen wir t ∈ Kn den Koordinatenvektor von Bt. Eine Bilinearform s : V × V → K

wird zur Basis B durch die Matrix

MB(s) :=(s(bi, bj)

)1≤i,j≤n ∈Mn,n(K)

dargestellt. Es gilt:

s(Bt,Bt′) = tT ·MB(s) · t′. (38)

2. Bilineare, Sesquilineare und quadratische Formen 177

Man kann sich leicht uberlegen, dass zu zwei Bilinearformen s, s′ ihre Summe s + s′

mit (s + s′)(v, w) = s(v, w) + s′(v, w) ebenfalls eine Bilinearform ist, ebenso skala-re Vielfache. Die Menge der Bilinearformen eines K-Vektorraums ist folglich ein K-Vektorraum. Da jede n×n-Matrix uber K eine Bilinearform definiert und umgekehrt,gilt:

Korollar 14.9. Sei V ein K-Vektorraum der Dimension n := dimV . Dann ist derK-Vektorraum der Bilinearformen auf V isomorph zu Kn×n.

Seien A und B Basen eines K-Vektorraums V . Dann existiert eine invertierbareMatrix2 T ∈ GLn(K) fur den Basiswechsel von B zu A, also A = BT . Der Kordina-tenvektor zu b = At bezuglich der Basis B ist gegeben durch Tt, denn

b = At = (BT )t = B(Tt).

Fur die darstellende Matrix einer Bilinearform gilt folgende Transformationsformelbeim Basiswechsel:

Korollar 14.10. Seien A und B Basen eines K-Vektorraums mit A = BT . Dann giltfur die darstellende Matrix einer Bilinearform s : V × V → K:

MB(s) = T T ·MA(s) · T.

Beweis. Nach Gleichung (38) gilt:

s(Bt,Bt′) = tT ·MB(s) · t′

= (Tt)T ·MA(s) · (Tt′)

= tT ·(T T ·MA(s) · T

)· Tt′.

Es folgt MB(s) = T T ·MA(s) · T .

Zum Vergleich: Fur einen Endomorphismus f : V → V lautet die Transformations-formel aus Gleichung (15) auf Seite 68:

MB(f) = T−1 ·MA(f) · T.

Aus Korollar 14.10 folgt, dass wie bei Endomorphismen der Rang der Darstellungs-matrix unabhangig von der Wahl der Basis ist:

Definition 14.11 (Rang einer Bilinearform). Der Rang einer Bilinearform s : V ×V → K ist der Rang rang(MB(s)) der Darstellungsmatrix bezuglich einer Basis B desVektorraums V .

Definition 14.12 (Positiv definite Matrix). Eine reelle, quadratische Matrix A ∈Mn,n(R) heißt positiv definit, wenn xTAx ≥ 0 fur alle x ∈ Rn und xTAx = 0gdw. x = 0.

Offenbar gilt:

2Zur Erinnerung: GLn(K) =A ∈Mn,n(K)

∣∣A−1 existiert

ist die Gruppe der invertierbaren

n× n-Matrizen uber K.

178 14. Reelle und komplexe Vektorraume

Korollar 14.13. Sei V ein R-Vektorraum mit Basis B und s : V × V → R eineBilinearform. Genau dann ist s ein Skalarprodukt auf V , wenn die Matrix MB(s)symmetrisch und positiv definit ist.

Fur den reellen Vektorraum Rn ist 〈v, w〉 = vTw das Standardskalarprodukt.

Auch fur den komplexen Vektorraum Cn gibt es ein kanonisches Skalarprodukt:3

〈v, w〉C

= vTw =n∑i=1

viwi.

Die Abbildung 〈·, ·〉C

ist sesquilinear (d.h. 1 + 12 -linear), es gilt 〈v, w〉

C= 〈w, v〉

Cund

〈v, v〉C∈ R≥0 sowie die Aquivalenz 〈v, v〉

C= 0 gdw. v = 0.

Definition 14.14 (Sesquilinearform). Sei V ein C-Vektorraum. Eine Abbildung s :V × V → C heißt sesquilinear (Sesquilinearform) auf V , wenn fur alle u, v, w ∈ Vund λ ∈ C gilt:

(SE1) s(u+ v, w) = s(u,w) + s(v, w) und s(λv,w) = λ · s(v, w).(SE2) s(u, v + w) = s(u, v) + s(u,w) und s(v, λw) = λ · s(v, w).

Eine Sesquilinearform h : V × V → C heißt hermitesch (hermitesche Form), wennh(v, w) = h(w, v) fur alle v, w ∈ V .

Fur hermitesche Formen h gilt h(v, v) = h(v, v), so dass h(v, v) stets reell ist:

Definition 14.15 (Positiv definite, hermitesche Form). Eine hermitesche Form h :V × V → C eines C-Vektorraums V heißt positiv definit, wenn fur alle v ∈ V gilt:

a) h(v, v) ≥ 0.b) h(v, v) = 0 gdw. v = 0.

Zu einem reellen Vektorraum V nennt man eine symmetrische Bilinearform, diepositiv definit ist, Skalarprodukt auf V . Fur komplexe Vektorraume heißen hermite-sche Formen, die positiv definit sind, Skalarprodukte:

Definition 14.16 (Skalarprodukt). Sei V ein C-Vektorraum. Eine hermitesche Formh : V × V → C heißt Skalarprodukt auf V , wenn h positiv definit ist.

Definition 14.17 (Hermitische und positiv definite Matrix). Eine Matrix A ∈Mn,n(C) heißt

a) hermitesch, wenn A = AT .b) positiv definit, wenn xTAx ∈ R≥0 fur alle x ∈ Cn und xTAx = 0 gdw. x = 0.

Fur eine Matrix A mit reellen Eintragen bedeutet A = AT wegen A = A, dass dieMatrix symmetrisch ist.

Korollar 14.18. Sei V ein C-Vektorraum mit Basis B und s : V × V → C eineBilinearform. Genau dann ist s ein Skalarprodukt auf V , wenn die Matrix MB(s)hermitesch und positiv definit ist.

3Zur Erinnerung: Zu a+ ib ∈ C ist die konjugierte komplexe Zahl a+ ib = a− ib. Die Abbildungx 7→ x ist ein Automorphismus des Korpers C mit x = x. Es gilt y = y gdw. y ∈ R. Fur z = a+ib ∈ Cgilt zz = a2 + b2 ∈ R.

2. Bilineare, Sesquilineare und quadratische Formen 179

Wir haben bereits in Kapitel 11 den Begriff ”euklidischer Vektorraum“ fur einenreellen Vektorraum in Verbindung mit einem Skalarprodukt verwendet:

Definition 14.19 (Euklidischer bzw. unitarer Vektorraum). Ein euklidischer(unitarer) Vektorraum V ist ein R-Vektorraum (C-Vektorraum) zusammen mit ei-nem Skalarprodukt auf V .

Wir ordnen jeder Bilinearform eine quadratische Form zu:

Definition 14.20 (Quadratische Form). Sei s : V × V → K eine Bilinearform aufeinem K-Vektorraums V . Die zugehorige, quadratische Form q : V → K ist erklartdurch q(v) := s(v, v).

Ist die Bilinearform durch s(Bt,Bt′) = t·MB(s)·t′ gegeben, gilt fur die zugehorige,quadratische Form

q((Bt) = t ·MB(s) · t.

Faßt man die Koordinaten t1, . . . , tn von t als formale Variable auf, gilt q ∈ K[t1, . . . , tn].Dies ist ein quadratisches Polynom, homogen vom Grad 2.

Satz 14.21. Sei K ein Korper mit Charakteristik4 char(K) 6= 2. Fur die zugehorige,quadratische Form q einer symmetrischen Bilinearform s : V × V → K auf demK-Vektorrraum gilt:

s(v, w) = 12

(q(v + w)− q(v)− q(w)

).

Beweis. Aus der Bilinearitat von s folgt:

(1 + 1) · s(v, w) = s(v + w,w)− s(w,w)︸ ︷︷ ︸=s(v,w)

+ s(v, w + v)− s(v, w)︸ ︷︷ ︸=s(v,w)

.

Wegen der Voraussetzung char(K) 6= 2 ist 1 + 1 6= 0 und wir konnen durch (1 + 1)dividieren.

In Satz 11.12 auf Seite 123 haben wir die Cauchy-Schwarz-Ungleichung bereits fureuklidische Vektorraume bewiesen.

Satz 14.22 (Cauchy-Schwarz-Ungleichung). In jedem euklidischen oder unitaremVektorraum V gilt fur v, w ∈ V :

|〈v, w〉| ≤ ‖v‖ · ‖w‖ .

Die Gleichheit gilt genau dann, wenn beide Vektoren linear abhangig sind.

Der Beweis der Cauchy-Schwarz-Ungleichung, den wir im folgenden geben, basiertauf folgenden Satz aus [Fischer92]:

4Wir fuhren die Charakteristik eines Korpers in Kapitel 15 ein. Die Charakteristik der Korper Q,R und C ist zum Beispiel Null, die der endlichen Korper Zp ist gleich p. Fur Korper mit char(K) 6= 2gilt 1 + 1 6= 0.

180 14. Reelle und komplexe Vektorraume

Fakt 14.23 (Determinanten-Multiplikations-Theorem). Sei A = (a1, . . . , an) ∈Mm,n(K)und B = (b1, . . . , bm) ∈Mn,m(K). Dann gilt fur fur die m×m-Matrix ABT :

det(ABT ) =∑

1≤i1≤···≤im≤ndet(ai1 , . . . , aim) · det(bi1 , . . . , bim).

Insbesondere ist detABT = 0 fur n < m.

Aus dem Determinanten-Multiplikations-Theorem folgern wir, dass fur jede m × n-Matrix A uber einem Korper K gilt:

detAAT =∑

1≤i1≤···≤im≤ndet(ai1 , . . . , aim)2.

Speziell:

a) Fur K = R gilt detAAT ≥ 0.

b) Fur K = C ist detAAT eine reelle Zahl großer oder gleich Null.

Wir wollen nun die Cauchy-Schwarz-Ungleichung aus Satz 14.22 beweisen. O.B.d.A. seiV = C

n. Zu v = (v1, . . . , vn)T ∈ Cn und w = (w1, . . . , wn)T ∈ Cn erklare

A :=(vT

wT

)=(v1 · · · vnw1 · · · wn

)∈M2,n(C).

Fur die Determinante der Matrix

AAT =(〈v, v〉 〈v, w〉〈w, v〉 〈w,w〉

)gilt nach vorherigen Folgerungen aus dem Determinanten-Multiplikations-Theorem:

det(AAT

)= 〈v, v〉 · 〈w,w〉 − 〈v, w〉 · 〈w, v〉

= ‖v‖2 · ‖w‖2 − |〈v, w〉|2

≥ 0.

Also |〈v, w〉|2 ≤ ‖v‖2 · ‖w‖2. Fur die Gleichheit haben wir folgende Aquivalenz:

|〈v, w〉|2 = ‖v‖2 · ‖w‖2 ⇐⇒ det(AAT

)= 0.

Die Forderung det(AAT

)= 0 ist gleichbedeutend damit, dass die 2× 2-Matrix AAT

nicht vollen Rang hat, d.h. der Rang von A ist maximal 1.

|〈v, w〉|2 = ‖v‖2 · ‖w‖2 ⇐⇒ v, w linear abhangig.

Wir geben einen weiteren Beweis der Cauchy-Schwarz-Ungleichung aus Satz 14.22in Ubungsaufgabe 19.1 mit Hilfe einer Isometrie5 ψ : span(v, w) → C

2 mit ψ(v) ∈(0, 1)TC.

5D.h. 〈v, w〉 = 〈ψ(v), ψ(w)〉 fur alle v, w.

3. Hauptachsentransformation symmetrischer Matrizen 181

3. Hauptachsentransformation symmetrischerMatrizen

Der zentrale Satz dieses Abschnitt lautet:

Satz 14.24. Fur symmetrische Matrizen A ∈Mn,n(R) sind folgende Aussagen aqui-valent:

a) A ist positiv definit.

b) Es existiert eine invertierbare Matrix T ∈ GLn(R) mit A = T TT .

Vor dem Beweis zu Satz 14.24 folgern wir:

Korollar 14.25. Im Rn geht jedes Skalarprodukt 〈·, ·〉 : Rn × Rn → R durch einen

Basiswechsel aus dem kanonischen Skalarprodukt 〈·, ·〉kan hervor.

Beweis. Sei I = e1, . . . , en die Standardbasis des Rn und B = IT eine weitereBasis (mit Transformationsmatrix T ). Dann gilt:

〈It, Is〉kan = 〈t, s〉kan = tT s.

Sei andererseits 〈·, ·〉 ein beliebiges Skalarprodukt auf den Koordinatenvektoren.Mit A := T TT gilt:

〈t, s〉 = tTAs

Sei A := BT . Der Koordinatenvektor zu b := Bt ∈ Rn bezuglich A ist s := T−1t,denn

b = Bt = BTT−1t = As.

Der Koordinatenvektor zu b′ := Bt′ ∈ Rn bezuglich A ist s′ := T−1t′. Das kanonischeSkalarprodukt zur Basis A ist:⟨

b, b′⟩

kan=⟨Bt,Bt′

⟩kan

=⟨Tt, T t′

⟩kan

= tT T TT︸︷︷︸=:A

t′.

Das kanonische Skalarprodukt geht beim Basiswechsel in ein beliebiges Skalarproduktder Koordinantenvektoren uber.

Wir kommen zum Beweis von Satz 14.24:

Beweis. Die Ruckrichtung von von Satz 14.24 ist offensichtlich:

tTT TTt = (Tt)T · (Tt) ≥ 0.

Sei A = (ai,j)1≤i,j≤m symmetrisch und positiv definit. Fur die obere Dreiecksmatrix

T1 :=

1 −a12

a11−a13a11

· · · −a1na11

0 1 0 · · · 0...

. . . . . ....

0 · · · · · · 1 00 · · · · · · 0 1

∈ ODn(R) (39)

182 14. Reelle und komplexe Vektorraume

gilt:

T T1 AT1 =(a11 00 A′

).

Weil A positiv definit ist, gilt a11 > 0 und A′ ist ebenfalls positiv definit. Wendedie entsprechende Transformationsmatrix induktiv auf A′ an. Es existiert ein Tn ∈GLn(R) mit

D := T Tn ATn =

a11 0 · · · · · · 00 a22 0...

. . . . . ....

0 0. . . 0 0

0 0 · · · 0 ann

Setze T := Tn/

√D mit

√D := Diag(

√a11, . . . ,

√ann ). Dann gilt T TAT = In.

Falls die Matrix A uber einem beliebigem Korper K ist, konnen wir, sofern A 6= 0,o.B.d.A. a11 6= 0 in Gleichung (39) voraussetzen (permutiere gegenenfalls die Zeilenund Spalten von A derart, dass die erste Zeile von A nicht Null ist). Fuhrt man denBeweis wie in Satz 14.24, folgt:

Korollar 14.26. Sei K ein Korper und A ∈ Mn,n(K) eine symmetrische Matrix.Dann gibt es ein T ∈ GLn(K), so dass D := T TAT eine Diagonalmatrix ist bzw. esgilt A = (T−1)TDT−1.

Wir folgern weiter aus dem Beweis zu Satz 14.24:

Korollar 14.27. Sei A ∈ Mn,n(R) eine symmetrische Matrix. Dann gibt es einT ∈ GLn(R) mit D = T TAT fur eine Diagonalmatrix D mit Eintragen aus ±1, 0.

Beweis. Wegen Korollar 14.26 sei o.B.d.A. A eine Diagonalmatrix:

A =

a11 0 · · · · · · 00 a22 0...

. . . . . ....

0 0. . . 0 0

0 0 · · · 0 ann

Definere die Matrix T = (tij)1≤i,j≤n gemaß

tij :=

1√aii

falls i = j und aii > 0.1√−aii

falls i = j und aii < 0.

1 falls i = j und aii = 0.0 falls i 6= j.

Offenbar ist D := T TAT eine Diagonalmatrix mit Eintragen aus ±1, 0.

3. Hauptachsentransformation symmetrischer Matrizen 183

Korollar 14.28. Sei V ein R-Vektorraum und s : V × V → R eine Bilinearform.Dann gibt es eine Basis B sowie eine Diagonalmatrix D mit Eintragen aus ±1, 0,fur die gilt:

s(Bt,Bt′) = tTDt′.

Wir haben in Definition 14.7 auf Seite 176 eine Bilinearform s : V × V → R einesR-Vektorraums V positiv definit genannt, wenn fur alle v ∈ V

a) s(v, v) ≥ 0

b) s(v, v) = 0 gdw. v = 0

gilt. Wir wollen die Bezeichung ”negativ definit“ fur den Fall, dass s(v, v) ≤ 0 fur allev ∈ V ist, einfuhren:

Definition 14.29 (Negativ definite und indefinite Bilinearform). Eine Bilinearforms : V × V → R eines R-Vektorraums V heißt negativ definit, wenn −s positiv defi-nit ist. Die Bilinearform nennt man indefinit, wenn s(v, v) sowohl negative als auchpositive Werte annimmt.

Definition 14.30 (Degeneriete Bilinearform). Eine Bilinearform s : V × V → R

eines R-Vektorraums V nennt man degeneriert, wenn fur ein v ∈ V \0 gilt s(v, ·) ≡0.

Zu einer Bilinearform s : V ×V → R ist der Nullraum N(s) erklart als die Mengealler Vektoren v ∈ V , fur die s(v, ·) die Nullabbildung, also s(v, ·) ≡ 0, ist. Offenbarist N(s) ein Untervektorraum von V :

Definition 14.31 (Nullraum einer Bilinearform). Zur Bilinearform s : V × V → R

eines R-Vektorraums V heißt

N(s) := v ∈ V | s(v, ·) ist Nullabbildung

der Nullraum (auch Ausartungsraum).

Die Bilinearform s : V × V → R ist genau dann degeneriert, falls der NullraumN(s) neben der Null weitere Vektoren enthalt, also dim N(s) > 0.

Lemma 14.32. Sei s : V × V → R Bilinearform eines R-Vektorraums V . Dann gilt:

dim N(s) + rang s = dimV.

Beweis. Sei B eine Basis von D, so dass eine Diagonalmatrix D mit Eintragen aus±1, 0 und

s(Bt,Bt′) = tTDt′.

existiert (Korollar 14.28). Dann ist:

dim N(s) = i | dii = 0rang s = i | dii 6= 0

Aus rang s = dimV − dim N(s) folgt die Behauptung.

184 14. Reelle und komplexe Vektorraume

4. Unitare Endomorphismen und Matrizen

Wir hatte bereits auf Seite 127 orthogonale Abbildungen und Matrizen fur den Rn

eingefuhrt. Diese Begriffe ubertragen wir auf den Fall komplexer Vektorraume:

Definition 14.33 (Orthogonale und unitare Endomorhismus). Sei V ein euklidischer(unitarer) Vektorraum mit Skalarprodukt 〈·, ·〉. Ein Endomorhismus f : V → V heißtorthogonal (unitar), wenn fur alle v, w ∈ V gilt:

〈v, w〉 = 〈f(v), f(w)〉 .

Man verwendet alternativ auch die englische Bezeichnung ”Isometrie“. Die Spalten-und die Zeilenvektoren einer orthogonalen bzw. unitaren Matrix bilden bezuglich deskanonischen Skalarprodukts jeweils eine Orthonormalbasis6 des Rn bzw. Cn. Mit fist auch die inverse Abbildung f−1 ein unitarer Endomorphismus. Fur die Eigenwerteλ von f gilt |λ| = 1.

Definition 14.34 (Orthogonale und unitare Matrix). Eine reelle, quadratische Ma-trix A ∈ Mn,n(R) heißt orthogonal, wenn ATA = In. Eine komplexe, quadratischeMatrix A ∈ Mn,n(C) heißt unitar, wenn ATA = In. Die Menge der orthogonalenn× n-Matrizen bezeichnet man mit On(R), die er unitaren Matrizen mit Un(C).

In Satz 11.24 auf Seite 128 haben wir gezeigt, dass On(R) eine Gruppe ist. Analogweist man nach, dass Un(C) ebenfalls eine Gruppe ist.

Satz 14.35. Sei V ein euklidischer (unitarer) Vektorraum mit Orthonormalbasis B.Der Endomorphismus f : V → V ist genau dann orthogonal (unitar), wenn dieDarstellungsmatrix MB(f) orthogonal (unitar) ist.

Beweis. Da B orthonormal ist, haben wir 〈Bt,Bs〉 = 〈t, s〉. Falls f unitar ist, gilt

〈MB(f)t,MB(f)s〉 = tTMB(f)T ·MB(f)s.

Der Endomorphismus f ist genau dann unitar, wenn MB(f)T ·MB(f) = In ist.

Satz 14.36. Sei V ein unitarer Vektorraum und f : V → V ein Endomorphismus.Dann gibt es eine Orthonormalbasis von V bestehend aus Eigenvektoren von f .

Beweis. Wir fuhren den Beweis durch Induktion uber die Dimension n := dimV .Die Verankerung ist offensichtlich, so dass im weiteren n ≥ 2 sei. Das charakteristischePolynom χf ∈ C[X] hat gemaß Fundamentalsatz der Algebra (Fakt 4.23 auf Seite52) eine Nullstelle λ1 ∈ C. Da f ein Isomorphismus ist, gilt λ1 6= 0. Es gibt einenEigenvektor v1 ∈ V \ 0 zu λ1 mit f(v1) = λ1v1. Sei

W := w ∈ V | 〈v1, w〉 = 0 = span(v1)⊥.

Weil f ein Isomorphismus ist, genugt der Nachweis der Inklusion f(W ) ⊆ W , umf(W ) = W zu zeigen. Fur w ∈W gilt:

λ1 〈v1, f(w)〉 = 〈λ1v1, f(w)〉 = 〈f(v1), f(w)〉 = 〈v1, w〉 = 0.

6Zur Erinnerung: Die Basis b1, b2, . . . , bn heißt Orthonormalbasis, wenn 〈bi, bj〉 = δi,j fur 1 ≤i, j ≤ n.

4. Unitare Endomorphismen und Matrizen 185

Nach Induktionsannahme gibt es eine Orthonormalbasis von W bestehend aus Ei-genvektoren von f |W . Wir erganzen diese Basis durch den Vektor v1√

〈v1,v1〉zu einer

Orthonormalbasis von V bestehend aus Eigenvektoren von f .

Korollar 14.37. Sei A ∈ Un(C) eine unitare Matrix. Dann existiert eine unitareMatrix S ∈ Un(C) mit

S −1AS =

λ1 0. . .

0 λn

fur λ1, . . . , λn ∈ C mit |λi| = 1. Insbesondere ist A diagonalisierbar.

Beweis. Fasse A als Darstellungsmatrix von f bezuglich einer Orthogonalbasis vonV auf. Dann ist λ1 0

. . .0 λn

die Darstellungsmatrix bezuglich einer Orthonormalbasis aus Eigenvektoren. Die Ma-trix S ∈ Un(C) transformiert die beiden Orthonormalbasen ineinander.

Wir leiten in Ubungsaufgabe 21.3 eine Darstellung wie in Korollar 14.37 her, fur denFall, dass die Matrix A reelle Eintrage hat:

Satz 14.38. Sei A ∈ On(R). Dann existiert eine orthogonale Matrix S ∈ On(R), sodass STAS eine Diagonalmatrix mit Kastchen der Form(

±1),

(cosϕ − sinϕsinϕ cosϕ

),

(cosϕ sinϕ− sinϕ − cosϕ

)ist.

Wir erhalten:

Korollar 14.39. Sei V ein euklidischer Vektorraum und f : V → V ein orthogonalerEndomorphismus. Dann gibt es zu V eine Orthonormalbasis B derart, dass die Dar-stellungmatrix MB(f) von f zur Basis B eine Diagonalkastenmatrix mit Kastchender Form (

±1),

(cosϕ − sinϕsinϕ cosϕ

),

(cosϕ sinϕ− sinϕ − cosϕ

)mit ϕ ∈ [0, 2π) ist.

Bemerkung 14.40. Die Kastenmatrix

SPϕ :=(

cosϕ sinϕ− sinϕ − cosϕ

)∈ O2(R)

in Satz 14.38 und Korollar 14.39 stellt eine Spiegelung an einer Geraden dar. Es gibteine orthogonale Matrix S ∈ O2(R) mit

ST · SPϕ ·S =(

+1 00 −1

),

186 14. Reelle und komplexe Vektorraume

so dass die Kastenmatrix der Form SPϕ in Satz 14.38 und Korollar 14.39 entfallt. Umdies zu zeigen, betrachte das charakteristische Polynom der Kastenmatrix SPϕ:

χSPϕ(λ) = det(

cosϕ− λ sinϕ− sinϕ − cosϕ− λ

)= (cosϕ− λ)(− cosϕ− λ)− sin2 ϕ

= λ2 − cos2 ϕ− sin2 ϕ

= λ2 − 1.

Die Matrix SPϕ hat die beiden Eigenwerte ±1:

• Eigenvektor zum Eigenwert +1 ist (− sinϕ, cosϕ− 1)T .• Eigenvektor zum Eigenwert −1 ist (− sinϕ, cosϕ+ 1)T .

Man kann fur S ∈ O2(R) die Matrix( − sinϕ√2−2 cosϕ

− sinϕ√2+2 cosϕ

cosϕ−1√2−2 cosϕ

cosϕ+1√2+2 cosϕ

)wahlen.

5. Normalform selbstadjungierterEndomorphismen

Wir beginnen mit der Definition von selbstadjungierten Endomorphismen:

Definition 14.41 (Selbstadjungierter Endomorphismus). Sei V ein euklidischer (unitarer)Vektorraum endlicher Dimension. Ein Endomorphismus f : V → V heißt selbstad-jungiert, wenn fur alle v, w ∈ V gilt:

〈f(v), w〉 = 〈v, f(w)〉 .

In Satz 14.35 auf Seite 184 haben wir gesehen, dass ein Endomorphismus genaudann orthogonal (unitar) ist, wenn die Darstellungsmatrix bezuglich einer Orthonor-malbasis orthogonal (unitar) ist. Sollte die Matrix hingegen symmetrisch (hermitesch)sein, so ist dann und nur dann der Endomorphismus selbstadjungiert:

Satz 14.42. Sei V ein euklidischer (unitarer) Vektorraum mit Orthonormalbasis B.Ein Endomorphismus f : V → V ist genau dann selbstadjungiert, wenn die Darstel-lungsmatrix MB(f) symmetrisch (hermitesch) ist.

Beweis. Weil B eine Orthonormalbasis ist, gilt 〈Bt,Bs〉 = 〈t, s〉. Fur die Darstel-lungsmatrix A := MB(f) zur Basis B haben wir f(Bt) = BAt. Somit:

〈f(Bt),Bs〉 = 〈BAt,Bs〉 = 〈At, s〉 = tAT s

〈Bt, f(Bs)〉 = 〈Bt,BAs〉 = 〈t, As〉 = tAs.

Damit ist f selbstadjungiert dann und nur dann, wenn A = AT .

Satz 14.43 (Hauptachsentheorem). Sei V ein euklidischer (unitarer) Vektorraum.Ein Endomorphismus f : V → V ist selbstadjungiert genau dann, wenn es eineOrthonormalbasis von V bestehend aus Eigenvektoren von f gibt.

5. Normalform selbstadjungierter Endomorphismen 187

Bevor wir Satz 14.43 beweisen, folgern wir:

Korollar 14.44. Eine komplexe, quadratische Matrix A ∈ Mn,n(C) ist genau dannhermitesch, wenn es eine unitare Matrix S ∈ Un(C) gibt, fur die DiagonalmatrixD := S−1AS = STAS reeell ist.

Im Gegensatz zu Korollar 14.37 auf Seite 185 sind die Diagonalelemente von Dstets reell. Im Falls A ∈Mn,n(R) ist S ∈ On(R) eine orthogonale Matrix.

Beweis. Wir beweisen Korolllar 14.44. Sei A hermitesch. Wahle ein Orthonormalba-sis b1, . . . , bn von Cn bestehend aus Eigenvektoren der Matrix A, eine solche existiertnach Satz 14.43. Setze

S :=(b1 b2 · · · bn

)∈ Un(C).

Es gilt:

STAS =

b1T b1 0

. . .0 bn

T bn

=

〈b1, b1〉C 0. . .

0 〈bn, bn〉C

∈Mn,n(R).

Die Ruckrichtung zeigt man analog.

Wir kommen zum Beweis von Satz 14.43:

Beweis. Der Endomorphismus f : V → V sei selbstadjungiert. Durch Induktion uberdimV konstruieren wir eine Orthonormalbasis von V bestehend aus Eigenvektorenvon f .

Sei λ1 eine Nullstelle des Charakteristischen Polynoms χf ∈ C[X] und v1 ∈ VEigenvektor zum Eigenwert λ1, d.h. f(v1)) = λ1v1 und v1 6= 0. Es gilt:

λ1 〈v1, v1〉 = 〈λ1v1, v1〉 = 〈f(v1), v1〉 .Weil f selbstadjungiert ist, erhalten wir

λ1 〈v1, v1〉 = 〈v1, f(v1)〉 = 〈v1, λ1v1〉 = λ1 〈v1, v1〉 ,so dass λ1 reell ist. Setze

W := w ∈ V | 〈v1, w〉 = 0 ⊆ V.

W ist offenbar ein Untervektorraum von V . Es gilt f(W ) ⊆W , denn fur w ∈W ist:

〈v1, f(w)〉 = 〈f(v1), w〉 = 〈λ1v1, w〉 = λ1 〈v1, w〉Der Endomorphismus f : W → W ist gemaß Voraussetzung selbstadjungiert. NachInduktionsannahme gibt es eine Orthonormalbasis von W mit Eigenvektoren vonf |W . Zusammen mit 1√

〈v1,v1〉v1 liefert dies die gewunschte Orthonormalbasis von V .

Fur die Ruckrichtung sei v1, . . . , vn eine Orthonormalbasis von V , wobei vi Ei-genvektor von f zum Eigenwert λi ist. Wegen⟨

f

(∑itivi

),∑

isivi

⟩=∑i

λitisi =⟨∑

itivi, f

(∑isivi

)⟩ist f selbstadjungiert.

188 14. Reelle und komplexe Vektorraume

Satz 14.45. Sei V ein euklidischer (unitarer) Vektorraum und f : V → V ein selbst-adjungierter und invertierbarer Endomorphismus. Dann ist ist f−1 ebenfalls selbst-adjungiert.

Beweis. Es gilt: ⟨f−1(v), f(w)

⟩=⟨ff−1(v), w

⟩= 〈v, w〉 .

Also⟨f−1(v), w

⟩=⟨v, f−1(w)

⟩, so dass f−1 selbstadjungiert ist.

Bezogen auf die Darstellungsmatrix gilt:

Korollar 14.46. Ist A ∈ GLn(C) hermitesch, so auch A−1.

Satz 14.47 (Polarzerlegung). Sei A ∈ GLn(C). Dann gibt es eine eindeutige Zer-legung A = BC mit unitarer Matrix B ∈ Un(C) und positiv definiter, hermitescherMatrix C ∈Mn,n(C).

Beweis. Die Matrix ATA ist hermitesch, denn (ATA)T = ATA = ATA, ferner istAAT positiv definit:

xT (ATA)x = (Ax)T · (Ax) ≥ 0.

Nach Korollar 14.44 gibt es ein S ∈ Un(C) mit

D := ST(ATA

)S ∈Mn,n(R).

Seien s1, . . . , sn die Spaltenvektoren von S. S := s1, . . . , sn ist eine Orthonormal-basis mit Eigenvektoren si von AAT zum Eigenwert λi > 0.

Definiere einen Endomorphismus f : Cn → Cn durch f(si) :=

√λisi. Es gilt

f(f(St)) = S(Dt), d.h.

MS(f) = MS(f2) = D.

Sei I die Basis bestehend aus den kanonischen Einheitsvektoren, der Basiswechselvon S ist gegeben durch die Transformationsmatrix S−1.

MI(f2) = S ·MS(f2) · S−1 = SDS−1 = ATA.

Setze C := MI(f) und B := AC−1. Somit gilt A = BC. Dann ist C hermitesch, denndie Darstellungsmatrix zur Orthogonalbasis S ist

√D mit Eigenwerten

√λi. Nach

Ubungsaufgabe 22.1 ist C positiv definit. Zu zeigen bleibt, dass B unitar ist:

B−1 = CA−1 = C−1C2A−1 = C−1ATAA−1

= C−1AT =(AT (C−1)T

)T = (A · C−1)T

= (AC−1)T = BT

Betrachten wir zum Abschluß die Eindeutigkeit der Zerlegung. Angenommen, A =BC = B′C ′ mit unitaren Matrizen B,B und hermiteschen Matrizen C,C ′. Dann gilt:

C2 = ATA = (B′C ′)TB′C ′ = C ′T ·B′T ·B′C ′ = C ′T · C ′ = (C ′)2,

Offenbar stimmen die Eigenwerte und die Eigenvektoren von C,C ′ uberein (benutze,dass C,C ′ positiv definit ist). Dann gilt fur die hermiteschen Matrizen C = C ′.

5. Normalform selbstadjungierter Endomorphismen 189

Fur reelle Matrizen lautet Satz 14.47:

Korollar 14.48. Sei A ∈ GLn(R). Dann gibt es eine eindeutige Zerlegung A = BCmit orthogonaler Matrix B ∈ On(R) und positiv definiter, symmetrischer Matrix C.

Korollar 14.49. Sei A ∈ GLn(C). Dann gibt es eine eindeutige Zerlegung A = BCmit unitarer Matrix B ∈ Un(C) und positiv definiter, hermitescher Matrix C.

Beweis. Wende Satz 14.47 an auf AT . Sei AT = BC die Polarzelegung mit unitarerMatrix B ∈ Un(C) und positiv definiter, hermitescher Matrix C ∈Mn,n(C). Aus denEigenschaften von B und C folgt:

A = CT ·BT = CB−1.

Wie die Ahnlichkeitsrelation von Seite 105 ist die im folgenden erklarte Kongruenz-relation eine Aquivalenzrelation auf der Menge der reellen (bzw. komplexen) n × n-Matrizen:

Definition 14.50 (Kongruente Matrizen). Zwei quadratische Matrizen A,B ∈Mn,n(R)oder Mn,n(C), heißen kongruent, A ≈ B, wenn es eine invertierbare Matrix T ∈GLn(R) bzw. GLn(C) gibt mit

A = T TBT.

Der Nachweis, dass diese Relation eine Aquivalenzrelation ist, fuhrt man wie denentsprechende Beweis fur die Ahnlichkeitsrelation in Satz 10.2 auf Seite 105.

Definition 14.51 (Tragheitsindex). Der Tragheitsindex einer hermiteschen MatrixA ∈ Mn,n(C) ist die mit Vielfachheit gezahlte Anzahl t(A) der positiven Eigenwertevon A.

Satz 14.52 (Tragheitssatz von Sylvester). Seien A,B ∈ Mn,n(R) oder Mn,n(C).Genau dann sind A,B kongruent, wenn ihre Range und Tragheitsindizes uberein-stimmmen:

A ≈ B ⇐⇒ rangA = rangB und t(A) = t(B).

Wir beweisen den Tragheitssatz von Sylvester fur den Fall komplexer Matrizen.Wir beginnen zunachst mit einem Lemma:

Lemma 14.53. Sei A ∈Mn,n(C). Dann gilt fur den Tragheitsindex von A:

t(A) = max

dimV

∣∣∣∣ V ist ein Untervektorraum von Cn, sodass xTAx positiv definit auf V ist.

Beweis. Wir zeigen zunachst die ”≥“-Ungleichung. Seien v1, . . . , vt(A) linear un-abhangige Eigenvektoren von A zu positiven Eigenwerten. Dann ist xTAx positivdefinit auf span(v1, . . . , vt(A)).

Fur den Beweis der ”≤“-Relation fuhren wir die Annahme dimV > t(A) zum Wi-derspruch. Sei v1, . . . , vn eine Basis von Cn aus Eigenvektoren von A zu Eigenwerten

190 14. Reelle und komplexe Vektorraume

λ1, . . . , λn ∈ R (nach Satz 14.43 auf Seite 186). O.B.d.A. gelte

λ1, . . . , λt(A) > 0

λt(A)+1, . . . , λr < 0

λr+1, . . . , λn = 0.

Wegen dimV > t(A) gibt es ein w ∈ V ∩ span(v1, . . . , vt(A))⊥, w 6= 0, mit derDarstellung w =

∑ni=t(A)+1 tivi.

wTAw =n∑

i=t(A)+1

titiλi < 0.

Also ist xTAx nicht positiv definit auf V — Widerspruch.

Kongruente Matrizen haben den gleichen Tragheitsindex, denn die rechte Seitein Lemma 14.53 andert sich nicht: Genau dann ist xTAx positiv definit auf V , wennxTT TATx positiv definit auf T (V ) ist:

Korollar 14.54. Sei A ∈Mn,n(C) und T ∈ GLn(C). Dann gilt:

t(A) = t(T TAT ).

Aus Korollar 14.54 folgt bereits eine Implikation des Tragheitssatzes von Sylve-ster: Sind die Matrizen A,B kongruent, so stimmen ihre Range und Tragheitsindizesuberein. Sei umgekehrt

t(A)+1

. . .+1

0

rangA−1

. . .−1

00

. . .0

≈ A.

Man vertausche und normiere die Eigenwerte der Diagonalmatrix D nach Korollar14.44 auf Seite 187. Stimmen Range und Tragheitsindizes uberein, also rangA =rangB und t(A) = t(B), gilt A ≈ B. Damit ist der Tragheitssatz von Sylvesterbewiesen.

Zum Abschluß betrachten wir die Zerlegung eines reellen Vektorraums V bezuglicheiner symmetrischen Bilinearform s : V × V → R. Sei

• V 0 := N(s) = v ∈ V | s(v, ·) ist Nullabbildung der Nullraum.• V + ⊆ V Unterraum max. Dimension, so dass s positiv definit auf V + ist.• V − ⊆ V Unterraum max. Dimension, so dass s negativ definit auf V − ist.

Satz 14.55. Es gilt V = V 0 ⊕ V + ⊕ V −.

Beweis. O.B.d.A. sei V = Rn. Sei s(v, w) = vTAw und A symmetrisch. Dann gilt

A ≈ D ∈ ±1, 0n×n. Der Satz gilt offenbar fur D.

Kapitel 15

Endliche Korper

In diesem Kapitel charakterisieren wir endliche Korper. Wir zeigen, dass jeder endli-che Korper pn Elemente hat, wobei p eine Primzahl und n eine naturliche Zahl ist.Umgekehrt geben wir ein Verfahren an, um zu jeder gegebenen Primzahl p und jedemn ∈ N einen Korper mit pn Elementen konstruiert. Ferner betrachten wir in Abschnitt4 die Struktur der multiplikativen Gruppe endlicher Korper.

Zur Erinnerung: Wir kennen bereits eine spezielle Klasse endlicher Korper: InSatz 2.28 auf Seite 27 haben wir gezeigt, dass der Ring Zn der Restklassen modulo ngenau dann ein Koper ist, wenn n prim ist. Damit haben wir bereits endliche Korpermit p Elementen kennengelernt.

1. Charakteristik

Sei K ein Korper. Wir fuhren folgenden Notation ein:

0 · 1 = 0, n · 1 = 1 + 1 + · · ·+ 1︸ ︷︷ ︸n-mal

, (−n) · 1 = −(n · 1), n ∈ N

Dabei ist 1 das multiplikative neutrale Element und + die Addition in K. Die Notationn ·1 sollte dabei nicht mit der Multiplikation n ·1 = n im Korper verwechselt werden.Schreiben wir folgenden n · 1, so ist stets die hier eingefuhrte Notation gemeint.

Man verifiziert leicht mittels der Korperaxiome, dass die folgenden Rechenregelnfur alle m,n ∈ Z gelten:

(mn) · 1 = (m · 1)(n · 1), (m+ n) · 1 = (m · 1) + (n · 1) (40)

Wir konnen die Notation n · 1 formal als Abbildung ϕK : Z → K mit ϕK(n) = n · 1auffassen. Diese Abbildung ist gemaß der Eigenschaften (40) ein Ringhomomorphis-mus.

191

192 15. Endliche Korper

Definition 15.1 (Charakteristik). Sei K ein Korper. Die Charakteristik von K istdefiniert durch:

charK =

0 n · 1 6= 0 fur alle n ∈ Nmin n ∈ N | n · 1 = 0 sonst.

Es gilt beispielsweise charR = 0 und charZp = p. Fur Korper mit Charakteristik0 sind alle Werte n · 1 verschieden, denn aus m · 1 = n · 1 fur m ≤ n folgt

0 = (n · 1)− (m · 1) = (n−m) · 1,

doch dies ist nach Definition der Charakteristik nur fur m = n moglich. Insbesonderezeigt dies, dass der Homomorphismus ϕK fur Korper K mit charK = 0 injektiv ist.Ferner erhalten wir, dass die Charakteristik eines endlichen Korpers stets verschiedenvon 0 ist. Andererseits gibt es unendliche Korper, deren Charakteristik ungleich 0 ist(beispielsweise hat Zp(x), der kleinste Korper, der alle Polynome in der Variablen xmit Koeffizienten aus Zp enthalt, unendlich viele Elemente, aber die Charakteristikp).

Die Beispiele R und Zp sind Korper mit Charakteristik 0 bzw. primer Charakte-ristik. Der folgende Satz zeigt, dass die Charakteristik nur diese Werte annimmt:

Satz 15.2. Sei K ein Korper. Dann ist charK entweder 0 oder prim.

Beweis. Sei charK = n = ab fur a, b, n ∈ N mit 1 < a, b < n. Dann gilt

0 = n · 1 = (ab) · 1 = (a · 1)(b · 1).

Da der Korper K nullteilerfrei ist, folgt a · 1 = 0 oder b · 1 = 0 und somit einWiderspruch zur Minimalitat von n.

Wir betrachten die Frobenius-Abbildung σp,n : K→ Kmit x 7→ xpn

in Korpern mitCharakteristik p 6= 0. Der folgende Satz zeigt, dass die Abbildung in diesen Korpernhomomorph ist.

Satz 15.3. Sei K ein Korper mit charK = p 6= 0. Dann ist die Frobenius-Abbildungσp,n fur alle n ∈ N ein Ringhomomorphismus, d.h. fur alle x, y ∈ K gilt:

σp,n(x+ y) = (x+ y)pn

= xpn

+ ypn

= σp,n(x) + σp,n(y)σp,n(xy) = (xy)p

n= xp

nyp

n= σp,n(x)σp,n(y)

Beweis. Die multiplikative Formel ist offensichtlich. Wir betrachten die additive Ei-genschaft zunachst fur den Fall n = 1. Nach der binomischen Formel gilt:

(x+ y)p = xp +p−1∑k=1

((p

k

)· 1)xkyp−k + yp

Da p! =(pk

)k!(p−k)! uber Z und keiner der Faktoren k! und (p−k)! fur 1 ≤ k, p−k ≤

p − 1 von der Primzahl p geteilt wird, muß(pk

)durch p teilbar sein. Dann ist aber(

pk

)·1 = 0 in K nach Definition der Charakteristik fur alle k = 1, . . . , p−1 und daraus

folgt (x+ y)p = xp + yp. Fur den Fall n > 1 wende man n-mal z 7→ zp an.

2. Primkorper 193

2. Primkorper

In diesem Abschnitt geben wir eine aquivalente Betrachtung der Charakteristik an.Dazu fuhren wir die Definition des Primkorpers eines Kopers K ein. Der Primkorperist der kleinste Unterkorper von K:

Definition 15.4 (Primkorper). Sei K ein Korper. Dann heißt

P (K) =⋂

L ist Unterkorper von K

L

der Primkorper von K.

Dabei haben wir die — leicht uberprufbare — Eigenschaft verwendet, dass derDurchschnitt von Unterkorpern wieder ein Unterkorper ist.

Satz 15.5. Sei K ein Korper. Dann gilt:

a) charK = 0 genau dann, wenn P (K) ∼= Q.b) charK = p 6= 0 genau dann, wenn P (K) ∼= Zp.

Beweis. Wir zeigen die vier Implikationen:

(1) charK = 0⇒ P (K) ∼= Q

Der Korper P (K) enthalt mit 1 auch alle Summen n · 1 sowie die multi-plikativen Inversen (n · 1)−1 fur n ∈ Z \ 0. Folglich ist

L :=

(m · 1)(n · 1)−1∣∣m,n ∈ Z, n 6= 0

⊆ P (K)

Wir wissen bereits, dass der Homomorphismus ϕK : Z→ K mit ϕK(n) = n ·1injektiv ist. Dann ist aber offensichtlich L ∼= Q =

ab

∣∣ a, b ∈ Z, b 6= 0

unddamit L Korper. Folglich ist auch P (K) ⊆ L, da der Primkorper der kleinsteUnterkorper von K ist, und somit P (K) = L ∼= Q.

(2) charK = p 6= 0⇒ P (K) ∼= Zp

Offensichtlich ist

L := n · 1 | n ∈ Z = n · 1 | n ∈ 0, 1, . . . , p− 1und wegen der Homomorphieeigenschaft von ϕK gilt L ∼= Zp. Wie im erstenFall folgt P (K) = L ∼= Zp.

(3) P (K) ∼= Q⇒ charK = 0Angenommen, es ware charK = p 6= 0. Dann ware P (K) ∼= Zp nach 2

und somit nicht isomorph zu Q.(4) P (K) ∼= Zp ⇒ charK = p 6= 0

Folgt wie im vorigen Fall: Angenommen, es ware charK = 0. Dann wareP (K) ∼= Q nach 1 und somit nicht isomorph zu Zp.

Als einfache Folgerung erhalten wir, dass charL = charK fur jeden Unterkorper Lvon K, da die Primkorper P (L), P (K) nach Definition eines Primkorpers identischsind.

Wir kommen damit zum ersten Teilresultat uber endliche Korper:

194 15. Endliche Korper

Satz 15.6. Sei K ein endlicher Korper. Dann gilt |K| = (charK)n = pn fur einePrimzahl p und ein n ∈ N.

Beweis. Wir betrachten K als Vektorraum uber seinem Primkorper P (K): Die Addi-tion zwischen Vektoren v, w ∈ K ist durch die Addition im Korper K definiert. Ebensoist die Skalarmultiplikation λv fur λ ∈ P (K) und v ∈ K durch die Multiplikation inK erklart. Man uberpruft leicht, dass die Vektorraumaxiome erfullt sind, da (K,+)eine abelsche Gruppe ist und (λ+µ)v = λv+µv, λ(v+w) = λv+λw, (λµ)v = λ(µv)sowie 1 · v = v aus den Korperaxiomen folgen.

Da der Vektorraum K endlich ist, gibt es eine (endliche) Basis b1, . . . , bn ∈ K furein n ∈ N. Jedes v ∈ K hat damit eine eindeutige Darstellung

v =n∑i=1

λibi, λ1, . . . , λn ∈ P (K)

Folglich hat K genau so viele Elemente, wie es Tupel (λ1, . . . , λn) mit λ1, . . . , λn ∈P (K) gibt. Da K endlich ist, ist P (K) ∼= Zp fur eine Primzahl p = charK, und darausfolgt die Behauptung.

3. Konstruktion endlicher Korper

In diesem Abschnitt zeigen wir, wie man zu gegebener Primzahl p und gegebenemn ∈ N einen endlichen Korper mit pn Elementen konstruiert.

Zur Erinnerung: Fur einen Korper K ist K[X] der Ring der Polynome in X mitKoeffizienten aus K, die Elemente K werden als konstante Polynome in K[X] ein-gebettet. Analog zu Z haben wir bereits in Kapitel 4 die Restklassenkonstruktionvon Polynomen im Ring K[X] kennengelernt. Zur Wiederholung betrachten wir einBeispiel:

Beispiel 15.7. Wir betrachten Z2 = 0, 1 und das Polynom p(X) = X2 +X + 1 ∈Z2[X]. Wegen X2 ≡ −X − 1 mod p(X) sind die Restklassen die Polynome mit Gradmaximal 1. So ist beispielsweise

X3 ≡ X ·X2 ≡ X(−X − 1) ≡ −X2 −X ≡ X + 1−X ≡ 1 mod p(X)

Fur diesen Restklassenring schreiben wir:

Z2[X]/(p(X)) = 0, 1, X,X + 1.

Es gilt X(X + 1) ≡ X2 +X ≡ −1 mod p(X) und da −1 = 1 in Z2, sind X und X + 1zueinander invers. Tatsachlich ist damit Z2[X]/(p(X)) ein Korper mit 4 Elementen.

Wir wissen, dass Zn = Z/nZ die Restklassen modulo n sind, die wir durch dieZahlen 0, 1, . . . , n−1 reprasentieren konnen. Im Fall K[X]/(p(X)) sind die Restklassendie Polynome mit Grad kleiner als deg p(X). Ferner ist K[X] wie Z ein Integritatsringund es exisitiert Division mit Rest. Wir konnen daher die Restklassenbildung in K[X]durch Vergleich zu Zn motivieren. Wir haben gezeigt, dass Zn genau dann ein Korperist, wenn n ∈ N prim ist. Zur Erinnerung:

3. Konstruktion endlicher Korper 195

Eine Zahl n ∈ N \ 1 ist genau dann prim, wenn n|ab nur fur n|aoder n|b moglich ist.

Dabei wird die Zahl 1 als Spezialfall (sogenannte Einheit) per Definition ausgeschlos-sen. Die aus der Schulmathematik bekannte Eigenschaft, dass Primzahlen die Zahlensind, die nur 1 und sich selbst als Teiler besitzen, heißt in der Algebra Irreduzibilitat:

Eine Zahl n ∈ N \ 1 heißt irreduzibel, wenn n = ab nur fur a = 1oder b = 1 moglich ist.

Da in N die Primzahlen genau die irreduziblen Zahlen sind, sind in diesem Fall beideDefinitionen aquivalent.

Wir ubertragen den Begriff der Irreduzibilitat auf den Ring K[X]. Dabei spielendie Elemente K in K[X] die Rolle der Eins in N:

Definition 15.8 (Irreduzibles Polynom). Sei K ein Korper. Ein nicht-konstantesPolynom p(X) ∈ K[X] heißt irreduzibel uber K, wenn p(X) = a(X)b(X) nur fura(X) ∈ K oder b(X) ∈ K moglich ist.

Beispielsweise sind Polynome vom Grad 2 oder 3 genau dann irreduzibel uberK, wenn sie keine Nullstelle in K besitzen (Ubung). Fur Polynome vom Grad 4 oderhoher gilt dies im allgemeinen nicht, z.B. ist das Polynom X4 + 2X + 1 = (X2 + 1)2

uber den reellen Zahlen R nicht irreduzibel, obwohl es keine reelle Nullstelle besitzt.Der Begriff eines Primpolynoms laßt sich auf offensichtliche Weise auf dem Ring

K[X] definieren, und wie in N folgt, dass die Primpolynome in K[X] genau die irre-duziblen Polynome sind. Analog zu Zp gilt:

Fakt 15.9. Sei K ein Korper. Dann ist K[X]/(p(X)) genau dann ein Korper, wennp(X) irreduzibel uber K ist.

Eine wichtige Eigenschaft dieses Korpers K[X]/(p(X)) ist, dass das Polynom p(X)darin die Nullstelle λ := X mod p(X) (Restklasse von X) besitzt, denn

p(λ) ≡ p(X mod p(X)) ≡ p(X) ≡ 0 mod p(X)

Beachte, dass wir bei Nullstellenbetrachtungen Werte in das Polynom einsetzen unddas Polynom auswerten, wahrend wir beispielsweise bei der Restklassenkonstruktiondas Polynom als formales Objekt ansehen.

Beispiel 15.10. Wir betrachten R[X]/(X2 +1) = a+ bX | a, b ∈ R. Die NullstelleX mod X2 + 1 nennen wir in diesem Fall i, so dass

i2 ≡ X2 ≡ −1 mod X2 + 1

Der Ring R[X]/(X2 + 1) entspricht namlich den komplexen Zahlen C, und wir habendie imaginare Einheit als Nullstelle des irreduziblen Polynoms X2 + 1 eingefuhrt. DiePolynommultiplikation

(a+ bX)(c+ dX) ≡ ac+ (ad+ bc)X + bdX2

≡ (ac− bd) + (ad+ bc)X mod X2 + 1

entspricht (ebenso wie die Polynomaddition) der in Abschnitt 1 auf Seite 16 perDefinition festgelegten Multiplikation (bzw. Addition) in den komplexen Zahlen (miti statt X).

196 15. Endliche Korper

Im Korper K[X]/(p(X)) hat das Polynom p(X) eine Nullstelle λ (mit Vielfachheitn). Wenn wir diese Nullstelle abspalten p(X) = (X − λ)nq(X), erhalten wir einPolynom q(X) in diesem Korper, das wir in irreduzible Faktoren q1(X), . . . , qm(X)zerlegen konnen. Fur den Faktor q1(X) bilden wir den Restklassenkorper, in demq1(X) und damit auch p(X) eine weitere Nulltelle hat. Wenn wir dieses Verfahreniterieren (und zwar maximal deg p(X)-mal), erhalten wir einen Korper, in dem p(X)vollstandig in Linearfaktoren X − λi zerfallt. Dieser Korper ist bis auf Isomorphieeindeutig bestimmt und heißt Zerfallungskorper :

Definition 15.11 (Zerfallungskorper). Sei K ein Korper und p(X) ∈ K[X]. DerZerfallungskorper von p(X) uber K ist der kleinste Korper Z ⊇ K, in dem p(X)vollstandig in Linearfaktoren zerfallt:

p(X) = c · (X − λ1) · · · (X − λn) ∈ Z[X]

mit c ∈ K, λ1, . . . , λn ∈ Z, n = deg p(X).

Wir haben uns oben uberlegt, dass jedes irreduzible Polynom einen Zerfallungs-korper besitzt. Tatsachlich hatten wir bei der Konstruktion bereits mit einem nichtirreduziblen Polynom starten konnen, indem wir dieses Polynom zunachst in irredu-zible Faktoren zerlegt hatten. Wir erhalten:

Satz 15.12. Sei K ein Korper. Fur jedes Polynom p(X) ∈ K[X] existiert der Zer-fallungskorper.

Beispielsweise ist Q(√

2) =a+ b

√2∣∣ a, b ∈ Q der Zerfallungskorper des Poly-

noms X2 − 2 = (X +√

2)(X −√

2).Wir kommen zur Konstruktion eines endlichen Korpers mit pn Elementen fur

gegebene p, n. Ausgehend von einem Korper mit Charakteristik p (beispielsweise Zp)konstruieren wir einen geeigneten Unterkorper des Zerfallungskorpers von Xpn −X:

Satz 15.13. Sei K ein Korper mit charK = p 6= 0, n ∈ N und Z der Zerfallungskorpersdes Polynoms q(X) = Xpn −X ∈ K[X] uber K. Dann ist

L = a ∈ Z | q(a) = 0 =a ∈ Z

∣∣ apn = a

ein Unterkorper von Z mit pn Elementen.

Beweis. Wir zeigen, dass L ein Unterkorper von Z ist. Wegen charZ = charK = pist die Frobenius-Abbildung σp,n mit σp,n(a) = ap

nein Homomorphismus auf Z. Wir

uberlegen uns zunachst, dass mit b ∈ L auch −b ∈ L ist. Fur p = 2 ist dies klar, da1+1 = 0 = 1−1, d.h. −1 = 1 und −b = (−1)b = b. Sei p > 2 und damit pn ungerade.Dann ist (−b)pn = (−1)p

nbpn

= (−1)b = −b und damit −b ∈ L. Wir beweisen damitdas Unterkorperkriterium, dass mit a, b auch a− b und ab−1 (fur b 6= 0) in L liegen:

(a− b)pn = apn

+ (−b)pn = a− b

(ab−1)pn

= apn (bpn)−1

= ab−1

Offensichtlich ist 1 ∈ L. Daraus folgt nach Satz 2.6 auf Seite 19, dass L ein Unterkorpervon Z ist.

3. Konstruktion endlicher Korper 197

Bleibt zu zeigen, dass L genau pn Elemente hat. Da das Polynom q(X) vom Gradpn im Integritatsbereich Z[X] maximal pn Nullstellen haben kann, folgt die obereSchranke |L| ≤ pn. Es genugt daher zu zeigen, dass die Nullstellen von q(X) alleverschieden sind. Dazu verwenden wir folgendes Fakt, dass wie hier nicht beweisenwerden:

Fakt 15.14. Seien g(X), h(X) ∈ K[X] teilerfremd in K[X], d.h. f(X)|g(X) undf(X)|h(X) ist nur fur f(X) ∈ K moglich,1, dann sind g(X) und h(X) auch in Z[X]teilerfremd.

Um dieses Fakt anzuwenden, fuhren wir die symbolische (oder auch algebraische)Ableitung eines Polynoms ein: Zu h(X) =

∑ni=0 hiX

i sei h′(X) =∑n

i=1(i · 1)hiXi−1.Es gilt die aus der Analysis bekannte Rechenregel (gh)′(X) = g′(X)h(X)+g(X)h′(X).Angenommen, q(X) hat eine mehrfache Nullstelle λ mit Vielfachheit m ≥ 2 in Z:

q(X) = (X − λ)mr(X)

Dann ist in Z[X] einerseits

q′(X) = (m · 1)(X − λ)m−1r(X) + (X − λ)mr′(X),

und in K[X] wegen charK = p andererseits

q′(X) = (pn · 1)Xpn−1 − 1 = −1.

Insbesondere sind q(X) und q′(X) in K[X] teilerfremd (da nur konstante Polynomedas Polynom q′(X) = −1 teilen), also auch in Z[X]. In Z[X] haben beide Polynomewegen m ≥ 2 allerdings den gemeinsamen Teiler X − λ, und wir erhalten einenWiderspruch. Folglich hat q(X) keine mehrfachen Nullstellen und es gilt |L| ≥ pn.

Der Frobenius-Homomorphismus σp,n ist auf L bijektiv: Aus xpn

= ypn

erhalten wir1 = (xy−1)p

n= xy−1 und damit x = y. Folglich ist σp,n auf L injektiv und — da

injektive Abbildung zwischen endlichen Mengen gleicher Machtigkeit stets bijektivsind — sogar ein Automorphismus auf L.Ohne Beweis geben wir einige weitere Eigenschaften endlicher Korper an [FS78,W96]:

Fakt 15.15. Sei K ein endlicher Korper mit pn Elementen, p prim, n ∈ N. Danngilt

a) Jeder Korper L mit pn Elementen ist isomorph zu K.

b) Die Unterkorper von K sind (bis auf Isomorphie) genau die Korper mit pm

Elementen fur m|n.

c) Es gilt P (K) ∼= Zp und charK = p.

1Der Teilbarkeitsbegriff ubertragt sich unmittelbar von Z auf Polynomringe: Ein Polynom a(X)teilt ein Polynom b(X), wenn bei Division mit Rest b(X) = q(X)a(X) + r(X) der Rest r(X) dasNullpolynom ist.

198 15. Endliche Korper

4. Struktur der multiplikativen Gruppeendlicher Korper

In diesem Abschnitt betrachten wir die Struktur der multiplikativen Gruppe K∗ :=K\0 endlicher Korper K. Wir zeigen, dass diese Gruppe zyklisch ist, d.h. es gibt einGruppenelement, so dass die Potenzen dieses Elements bereits die gesamte Gruppedurchlaufen. Wir beginnen mit einem Beispiel:

Beispiel 15.16. Wir betrachten den Korper

F4 = Z2[X]/(X2 +X + 1) = 0, 1, X,X + 1.

Diesen Korper haben wir bereits in Beispiel 15.7 in Abschnitt 3 kennengelernt. DieElemente X und X + 1 sind zueinander invers.

Die multiplikative Gruppe F∗4 = 1, X,X + 1 besteht aus 3 Elementen. DieOrdnung eines Elements a einer endlichen Gruppe (G, ·) ist definiert durch:

ordG a = min n ∈ N | an = 1 ,

wobei an das n-fache Produkt von a in G ist. In unserem Fall:ordF∗4 1 = 1,

ordF∗4 X = 3, da X2 ≡ −X − 1 ≡ X + 1 mod X2 +X + 1X3 ≡ X ·X2 ≡ X(X + 1) ≡ 1 mod X2 +X + 1

ordF∗4 X + 1 = 3, da (X + 1)2 ≡ X2 + 2X + 1 ≡ X mod X2 +X + 1(X + 1)3 ≡ (X + 1)(X + 1)2 ≡ 1 mod X2 +X + 1

Es gilt daher F∗4 = X0, X1, X2 = (X + 1)0, (X + 1)1, (X + 1)2.

Allgemeiner nennt man eine Gruppe, die von einem Element erzeugt wird, zyklisch.Wir definieren zunachst die Ordnung eines Elementes formal:

Definition 15.17 (Ordnung eines Elementes). Fur eine Gruppe (G, ·) heißt

ordG a =

0 an 6= 1 fur alle n ∈ Nmin n ∈ N | an = 1 sonst

die Ordnung des Elementes a in G.

Geht die Gruppe G aus dem Kontext hervor, schreiben wir abkurzend ord a stattordG a.

Definition 15.18 (Zyklische Gruppe). Eine Gruppe (G, ·) heißt zyklisch, wenn esein primitives (oder auch erzeugendes) Element g ∈ G mit

〈g〉 := g0, g1, g2, g3, . . . = G

gibt. Das Element g nennt man auch Generator.

Wir uberlegen uns, dass fur ein Element a einer zyklischen Gruppe die Elementea0, a1, . . . , an−1 mit n = ord a verschieden sind. Angenomen, es ware ai = aj fur0 ≤ i < j < n. Dann ware aj−i = 1 fur 1 ≤ j− i < n im Widerspruch zur Minimalitat

4. Struktur der multiplikativen Gruppe endlicher Korper 199

von n. Insbesondere bedeutet dies, dass die Ordnung eines Elementes einer endlichenGruppe hochstens die Anzahl der Elemente der Gruppe sein kann.

Beispiel 15.19. Wir betrachten die multiplikative Gruppe Z∗5 := 1, 2, 3, 4 des end-lichen Korpers Z5. Diese ist eine zyklische Gruppe, die von 2 erzeugt wird:

20 = 1 mod 5

21 = 2 mod 5

22 = 4 mod 5

23 = 2 · 22 = 3 mod 5.

Es gilt 〈2〉 = Z∗5. Auch 3 ist ein Generator der Gruppe Z∗5, 4 ist hingegen kein primi-

tives Element der Gruppe.

Unser Ziel ist es, zu zeigen, dass die multiplikative Gruppe K∗ endlicher KorperK stets zyklisch ist. Dazu benotigen wir folgende Fakten uber die Ordnung von Ele-menten:

Fakt 15.20. Sei G eine multiplikative Gruppe. Dann gilt fur a, b ∈ G:

• Wenn m| ord a, dann ist ord am = ord am .

• Wenn ord a, ord b teilerfremd sind, dann ist ord(ab) = ord a · ord b.

Den ersten Punkt des Faktes konnen wir mit unserem Wissen bereits beweisen:Zur Abkurzung sei n = ord a

m . Offensichtlich ist (am)n = aord a = 1 und somit ord am ≤n. Angenommen, es ware t = ord am < n. Dann ware (am)t = amt = 1 und folglichord a ≤ mt < ord a, Widerspruch. Auf den Beweis der zweiten Eigenschaft verzichtenwir hier.

Das folgendes Lemma bereitet die zentrale Aussage dieses Abschnitts vor:

Lemma 15.21. Sei G eine endliche Gruppe und m = max ord a | a ∈ G. Danngilt bm = 1 fur alle b ∈ G.

Beweis. Sei a ein Element mit ord a = m. Ferner sei b ein beliebiges Element mitord b = n. Wir betrachten die (eindeutige) Primfaktorzerlegung von m und n:

m =k∏i=1

pmii , n =k∏i=1

pnii , mi, ni ≥ 0

wobei p1, . . . , pk prim sind. Setze

r =k∏i=1

mi<ni

pmii , s =k∏i=1

mi≥ni

pnii

so dass wegen r| ord a und s| ord b nach Fakt 15.20 die Ordnungen

ord ar =m

r=

k∏i=1

mi≥ni

pmii , ord bs =n

s=

k∏i=1

mi<ni

pnii

200 15. Endliche Korper

teilerfremd sind. Es folgt:

ord(arbs) = ord ar · ord bs =k∏i=1

pmaxmi,nii

Da m maximal ist, ergibt sich ni ≤ mi fur alle i = 1, . . . , k, denn sonst ware arbs

ein Element mit Ordnung großer als m. Wir erhalten n|m und somit bm = (bn)m/n =1.

Satz 15.22. Sei K ein endlicher Korper. Dann ist die multiplikative Gruppe (K∗, ·)zyklisch.

Beweis. Sei m = max ord a | a ∈ K∗ . Nach Lemma 15.21 ist damit bm = 1 furalle b ∈ K∗, d.h. das Polynom Xm − 1 hat mindestens |K∗| Nullstelllen und daherist m ≥ |K∗|. Andererseits ist m ≤ |K∗|, da alle Elemente a0, a1, . . . , am−1 fur eina mit ord a = m verschieden sind. Folglich gibt es ein g mit Ordnung ord g = m =|K∗|, so dass die (verschiedenen) Elemente g0, g1, . . . , gm−1 die gesamte Gruppe K∗

durchlaufen.

Kapitel 16

Gittertheorie

Wir haben Gitter bereits in Kapitel 7 auf Seite 76 definiert. In diesem Kapitelbeschaftigen wir uns intensiver mit Gittern und lernen Reduktionsbegriffe kennen.

1. Gitter

Wir betrachten den Rn mit dem kanonischen Skalarprodukt 〈·, ·〉 : Rn ×Rn → R mit〈u, v〉 = uT v und der euklidischen Norm ‖u‖ =

√〈u, u〉.

Definition 16.1 (Gitter). Zu linear unabhangigen Vektoren b1, . . . , bm ∈ Rn heißt

L(b1, . . . , bm) :=

m∑i=1

tibi

∣∣∣∣∣ ti ∈ Z⊂ Rn

das Gitter mit Basis b1, . . . , bm und Rang m.

Beispiel 16.2. Zu A ∈ Mm,n(R) ist Los(A, 0) ∩ Zn = x ∈ Zn |Ax = 0 ein Gittervom Rang n− rangA.

Ein Gitter (Lattice) L(b1, . . . , bm) ⊆ span(b1, . . . , bm) ist das diskrete Analogon zuR-Vektorraumen. Ein Gitter L ⊆ R

n ist eine additive Untergruppe des Rn. Wasbedeutet, dass L diskret ist?

Lemma 16.3. Sei L ⊆ Rn eine additive Untergruppe. Dann sind folgende Aussagenaquivalent:

a) L hat keinen Haufungspunkt im Rn.

b) Fur alle r > 0 ist die Menge x ∈ L : ‖x‖ ≤ r endlich.

Eine additive Untergruppe L ⊆ Rn mit diesen Eigenschaften heißt diskret. Gitter sindgenau die additiven Untergruppen des Rn:

Satz 16.4. Sei L ⊆ Rn eine additive Untergruppe, dann sind folgende Aussagen

aquivalent:

a) L ist ein Gitter.

201

202 16. Gittertheorie

b) L ist diskret.

Beweis. Fur die Implikation ”a)⇒b)“ sei L := L(b1, . . . , bm) ein Gitter mit Basisb1, . . . , bm. Sei ϕ : Rm → span(b1, . . . , bm) der Vektorraum-Isomorphismus mit

ϕ(t1, . . . , tm) :=m∑i=1

tibi.

Es gilt ϕ(Zm) = L. Offenbar ist Zm ⊆ Rm diskret und weil ϕ−1 stetig ist, folgt, dassL ⊆ span(L) ebenfalls diskret ist.

Umgekehrt sei L ⊆ Rn eine diskrete, additive Untergruppe. Setzem := dim span(L).Wir konstruieren eine Basis b1, . . . , bn durch Induktion uber m:

• Verankerung fur m = 1: Wahle einen kurzesten Vektor b1 ∈ L \ 0. Danngilt L = L(b1). Denn angenommen, es gabe einen Vektor b ∈ L \ L(b1).Wegen span(b) = span(b1) gibt es ein t ∈ R \ Z mit b = tb1. Dann ist auchb′ := b − bte · b1 ∈ L, wobei bte := dt − 1

2e die nachste, ganze Zahl zu t

bezeichnet. Es gilt b′ = t′b1 6= 0 mit 0 < |t′| ≤ 12 , also∥∥b′∥∥ = |t′| · ‖b1‖ ≤ 1

2 ‖b1‖ ,ein Widerspruch zur Wahl von b1 mit minimaler Lange.• Induktionsschluß von m − 1 auf m: Wegen m = dim span(L) gibt es im

Raum span(L) lineare unabhangige Vektoren v1, . . . , vm. Nach Induktions-voraussetzung ist

L′ := L ∩ span(v, . . . , vm−1)

ein Gitter vom Rang m−1. Sei b1, . . . , bm−1 eine Basis des Gitters L′. Wahlebm :=

∑mi=1 tivi ∈ L mit minimalem tm > 0. Weil L diskret ist, gibt es ein

solches tm. Es folgt L = L(b1, . . . , bm).

Definition 16.5 (Basis, Gram-Matrix, Gitterdeterminante). Sei L := L(b1, . . . , bm) ⊆Rn ein Gitter. Dann ist

B :=(b1 · · · bm

)∈Mn,m(R)

eine Basismatrix zu L und wir schreiben L = L(B). Die m ×m-Matrix BTB heißtGram-Matrix von B und detL := det(BTB)

12 die Determimante von L.

Wir zeigen, dass Rang und Determinante von L von der Wahl der Basis unabhangigsind:

Lemma 16.6. Sei B eine Basismatrix zum Gitter L ⊆ Rn vom Rang m und B′

eine Basismatrix zum Gitter L′ ⊆ Rn vom Rang m′. Dann sind folgende Aussagenaquivalent:

a) Beide Gitter sind gleich: L = L′.b) Es ist m = m′ und es existiert eine ganzzahlige, unimodulare Matrix

T ∈ GLm(Z) = U ∈Mm,m(Z) | detU = ±1mit B′ = BT .

1. Gitter 203

Beweis. Betrachten wir die Implikation ”a)⇒b)“. Wegen L = L′ gilt m = m′. AusL′ ⊆ L folgt m′ ≤ m. Insbesondere ist jeder Spaltenvektoren von B′ ein Gittervektorvon L, d.h. eine ganzzahlige Linearkombination der Spalten von B. Es existert eineganzzahlige Matrix T ∈Mm,m(Z) mit B′ = BT :

m = m′ = rangB′ = rang(BT ) ≤ T ≤ m.

Also gilt rang T = m und die ganzzahlige Matrix T ist invertierbar:

B′T−1 = B.

Aus Symmetriegrunden (d.h. L′ ⊇ L) ist T−1 eindeutig bestimmt und ganzzahlig,somit |detT | = 1. Die Ruckrichtung ist offensichtlich.

Nach Lemma 16.6 haben Basismatrizen eines Gitters denselben Rang. Betrachten wirdie Determinante:

Lemma 16.7. Sei L(B) = L(B′). Dann gilt detBTB = detB′TB′.

Beweis. Gemaß Lemma 16.6 existiert ein T ∈ GLm(Z) mit B′ = BT und |detT | = 1.Aus

detB′TB = det(BT )T (BT ) = detBTB · (detT )2︸ ︷︷ ︸=1

= detBTB

folgt die Behauptung.

Abbildung 1. Grundmasche P(b1, b2) von b1, b2

pp ppppp ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp

ppppppppppppppppppppppppp

pppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppppp

pppppppppppppppppppppppppppp

ppppppppppppppppppppppppp

ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp ppppp

-

pp

0

b2

b1

P(b1, b2)

Definition 16.8 (Grundmasche). Zur Gitterbasis b1, . . . , bm ⊆ Rn heißt

P(b1, . . . , bm) :=

m∑i=1

tibi

∣∣∣∣∣ 0 ≤ t1, . . . , tn < 1

Grundmasche zu b1, . . . , bm.

Das Volumen der Grundmasche entspricht der Determinante des erzeugten Gitters:

Lemma 16.9. Fur jedes Gitter L := L(B) ⊆ Rn vom Rang m gilt detL = volm(P(B)).

204 16. Gittertheorie

Beweis. Im Fall m = n, d.h. das Gitter ist volldimensional, gilt:

detL = (detBTB)12 = (detB · detB)

12 = detB = volm(P(B)).

Im Fall m < n gibt es eine isometrische Abbildung T : span(L)→ Rm, die Skalarpro-

dukt und Volumen erhalt:

detL = detT (L) = volm(T (P(B))) = volm(P(B)).

Jeder (geordneten) Gitterbasis b1, . . . , bm ∈ Rn ordnet man ein Orthogonalsystemb1, . . . , bm ∈ Rn gemaß Schmidt’schem Orthogonalisierungsverfahren zu:

bi := bi −i−1∑j=1

〈bi, bj〉‖bj‖2︸ ︷︷ ︸=:µi,j

·bj fur i = 1, 2, . . . ,m.

Mit den Gram-Schmidt-Koeffizienten µi,j gilt:

bi = bi +i−1∑j=1

µi,j bj . fur i = 1, 2, . . . ,m. (41)

Der Vektor bi ist die Projektion πi(bi) von bi auf den Raum span(b1, . . . , bi−1)⊥. Mandefiniert µi,j := 0 fur j > 0 und µi,i := 1, um die Gleichungen (41) in Matrixschreib-weise darzustellen:

(b1 · · · bm

)=(b1 · · · bm

1 µ2,1 · · · µm−1,1 µm,10 1 µm−1,2 µm,2...

. . . . . ....

0 0 1 µm,m−1

0 · · · 0 0 1

︸ ︷︷ ︸

=(µi,j

)T1≤i,j≤m

.

Ein Ziel der Gitterreduktion ist das Finden eines kurzesten nicht-trivalen (d.h. un-gleich der Nullvektor) Gittervektors in L. Dessen Lange heißt das erste sukzessiveMinimum λ1(L) von L:

Definition 16.10 (Sukzessive Minima). Zu einem Gitter L ⊆ Rn vom Rang m

heißen die Werte

λi(L) := minr > 0

∣∣∣∣ Es existieren linear unabhangigev1, . . . , vi ∈ L mit max ‖vi‖ ≤ r.

fur i = 1, 2, . . . ,m sukzessive Minima von L.

Es gilt λ1(L) ≤ λ2(L) ≤ · · · ≤ λm(L).

2. Gitterreduktion 205

2. Gitterreduktion

Ziel der Gitterreduktion ist es, eine reduzierte Basis fur ein gegebenes Gitter zu finden.Die Vektoren der Basis sollen (weitgehend)

• orthogonal sein und• die Lange der Basisvektoren den sukzessiven Minima entsprechen.

Wir analysieren zuerst den Fall von Gitter mit Rang 2. Betrachte Abbildung 2: Liegtder Vektor b2 im markierten Bereich, also −1

2 ≤ µ2,1 ≤ +12 , ist die Basis b1, b2

reduziert:

Definition 16.11 (Reduzierte Basis). Eine (geordnete) Basis b1, b2 ∈ Rn heißt re-duziert, wenn

a) ‖b1‖ ≤ ‖b2‖.b) |µ2,1| ≤ 1

2 .

Abbildung 2. Reduzierte Basis b1, b2

- b10r

p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp

p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp

b2

|µ2,1| ≤ 12

Algorithmus 3 transformiert die gegebene Basis b1, b2 in eine reduzierte Basisdesselben Gitters. Reduzierte Basen realisieren die beiden sukzessiven Minima desGitters:

Fakt 16.12. Sei b1, b2 eine reduzierte Basis eines Gitters L. Dann gilt λ1(L) = ‖b1‖und λ2(L) = ‖b2‖.

Ein Reduktionsbegriff fur Gitter vom Rang m ≥ 2 stammt von A.K. Lenstra,H.W. Lenstra und L. Lovasz [LLL82]:

206 16. Gittertheorie

Abbildung 3. Reduktions-Algorithmus

Eingabe: Basis b1, b2 ∈ Rn

(1) b2 := b2 − bµ2,1e · b1.(2) IF ‖b2‖ < ‖b1‖ THEN swap(b1,b2); GOTO 1.

Definition 16.13 (L3-reduzierte Basis). Eine (geordnete) Basis b1, . . . , bm ∈ Rnheißt L3-reduziert mit Parameter δ ∈ (1

4 , 1], wenn

(L1) |µi,j | ≤ 12 fur 1 ≤ j < i ≤ m.

(L2) δ · ‖bk−1‖2 ≤ ‖bk‖2 + µ2k,k−1 · ‖bk−1‖2 fur k = 2, 3, . . . ,m.

Fur eine L3-reduzierte Basis b1, . . . , bm gilt

‖bk−1‖2 ≤ α · ‖bk‖2 (42)

mit α := (δ − 14)−1, denn wegen Eigenschaft L1 ist µ2

k,k−1 ≤14 und Ungleichung

(42) folgt aus Eigenschaft L2. In [LLL82] wurden die Parameter δ = 34 und α =

2 benutzt. Man kann eine gebenene Basis effizient in eine L3-reduzierte desselbenGitters uberfuhren [LLL82]:

Fakt 16.14. Der Reduktions-Algorithmus von Lenstra, Lenstra und Lovasz

transformiert eine gegebene Gitterbasis b1, . . . , bm ∈ Zn in eine L3-reduzierte zumParameter δ < 1 in O(m3n logB) arithmetischen Schritten auf ganzen Zahlen derBitlange O(n logB) mit B := maxi ‖bi‖2.

Bemerkung 16.15. Die Laufzeit des Reduktions-Algorithmus’ und die auftreten-den Bitlangen sind ebenfalls polynomiell beschankt, wenn die Basis aus rationalenVektoren besteht.

Mit Hilfe des L3-Reduktions-Algorithmus’ konnen wir den kurzesten, nicht-trivialenGittervektor bis auf einen exponentiellen Faktor approximieren:

Satz 16.16. Sei b1, . . . , bm ∈ Rn eine L3-reduzierte Basis des Gitters L. Dann giltmit α := 1

δ− 14

:

‖b1‖2 ≤ αm−1 · λ1(L).

Beweis. Sei v =∑m

i=1 tibi ∈ L ein Gittervektor mit ‖v‖ = λ1(L). O.B.d.A. seitm 6= 0, sonst erniedrige m. Es gilt:

v =(b1 · · · bm

)· t =

(b1 · · · bm

) (µi,j)T

1≤i,j≤m · t.

Wir erhalten ‖v‖2 ≤ t2m · ‖bm‖2 ≤ ‖bm‖2. Andererseits gilt wegen Ungleichung (42):

‖b1‖2 = ‖b1‖2 ≤ α · ‖b2‖2 ≤ · · · ≤ αm−1 · ‖bm‖2

Somit ist ‖b1‖2 ≤ αm−1 · ‖v‖2 = αm−1λ1(L)2.

Wir zitieren weitere Eigenschaften L3-reduzierter Basen [LLL82]:

2. Gitterreduktion 207

Fakt 16.17. Sei b1, . . . , bm ∈ Rn eine L3-reduzierte Basis des Gitters L zum Para-meter δ. Dann gilt mit α := 1

δ− 14

:

a) α1−j ≤ ‖bj‖2

λj(L)2≤ ‖bj‖

2

λj(L)2≤ αm−1 fur j = 1, . . . ,m.

b) ‖b1‖2 ≤ αn−1

2 (detL)2m .

c)m∏i=1‖bi‖2 ≤ α(m2 )(detL)2.

In den beiden folgenden Abschnitt stellen wir Anwendungen der Gitterreduktion vor.

Simultane Diophantische Approximation. Beim Problem der simultanen Dio-phantischen Approximation sucht man zu gegebenen α1, . . . , αn ∈ Q und ε ∈ (0, 1)Zahlen p1, . . . , pn, q ∈ Z mit ∣∣∣∣αi − pi

q

∣∣∣∣ ≤ ε

qi=1,. . . ,n

und 1 ≤ q ≤ ε−n. Ein klassischer Satz von Hermite besagt, dass eine Losung existiert.Wir zeigen, dass man mit dem L3-Algorithmus eine Losung berechnen kann, wird dieRestriktion bezuglich q abgeschwacht zu:

1 ≤ q ≤ 2n(n+1)

4 ε−n =: δ.

Wir bestimmen eine L3-reduzierte Basis b1, . . . , bn+1 des Gitters L ⊆ Qn, welches vonfolgender Basismatrix erzeugt wird:

B :=

1 0 · · · 0 0 −α1

0 1 0 0 −α2...

. . ....

...0 0 1 0 −αn−1

0 0 · · · 0 1 −αn0 0 · · · 0 0 ε/δ

∈Mn+1,n+1(Q). (43)

Offenbar ist detL = ε/δ. Fur jede L3-reduzierte Basis b1, . . . , bn+1 konnen wir dieLange des ersten Basisvektors wie folgt abschatzen:

‖b1‖2 ≤ 2n2 · (detL)

2n+1 = 2

n2 ·( εδ

) 2n+1 = 2

n2 · 2−

n2 ε2 = ε2. (44)

Sei (p1, . . . , pn, q) ∈ Zn+1 der Koeffizientenvektor von b1 bezuglich der Basismatrix Baus (43):

b1 =

p1 − qα1

...pn − qαnqε/δ

O.B.d.A. sei q ≥ 0, sonst betrachte −b1. Es gilt in Verbindung mit Abschatzung (44)

‖b1‖2 =n∑i=1

(pi − αiq)2 +q2ε2

δ2≤ ε2,

208 16. Gittertheorie

so dass jede Komponente absolut durch ε beschrankt ist:

|pi − αiq| ≤ ε fur i = 1, . . . , n

qε/δ ≤ ε.

Es ist q > 0, da fur q = 0 wegen b1 6= 0 mindestens ein ganzzahliges pi 6= 0 istund die Abschatzung |pi| ≤ ε < 1 nicht erfullt ware. Wir dividieren durch q ≥ 1bzw. multiplizieren die letzte Ungleichung mit δ

ε und erhalten∣∣∣αi − pi

q

∣∣∣ ≤ εq mit

1 ≤ q ≤ δ.

Satz 16.18. Es gibt einen Polynomialzeit-Algorithmus, der zu α1, . . . , αn ∈ Q undε ∈ (0, 1) Zahlen p1, . . . , pn, q ∈ Z mit∣∣∣∣αi − pi

q

∣∣∣∣ ≤ ε

qi=1,. . . ,n

und 1 ≤ q ≤ 2n(n+1)

4 ε−n liefert.

Rucksack-Problem. Beim Rucksack-Problem (auch Subsetsum-Problem genannt)sind zu a1, . . . , an ∈ N und s ∈ N ein Vektor e ∈ 0, 1n mit

n∑i=1

eiai = s

zu bestimmen oder zu zeigen, dass ein solcher nicht existiert. Zwar konnen wir effizientuberprufen, ob ein Vektor e eine Losung darstellt, vermutlich gibt es aber keinenPolynomialzeit-Algorithmus, der eine Losung bestimmt:

Fakt 16.19 (Cook, Levin). Die Sprache(n, a1, . . . , an, s) ∈ Nn+2

∣∣∣∣∣ ∃e ∈ 0, 1n :n∑i=1

eiai = s

ist NP-vollstandig.

Gibt es ein Polynomialzeit-Entscheidungsverfahren fur die Rucksack-Sprache, sokann jede nicht-deterministische Turingmaschine in Polynomialzeit deterministischsimuliert werden.

Zu einem gegebenen Rucksack-Problem (n, a1, . . . , an, s) ist das inverse Problemerklart durch (

n, a1, . . . , an, s :=n∑i=1

ai − s).

Eine Losung e des Ausgangsproblems liefert unmittelbar eine Losung e des inversenProblems und umgekehrt:

n∑i=1

eiai = s ⇐⇒n∑i=1

(1− ei)︸ ︷︷ ︸=ei

ai = s.

2. Gitterreduktion 209

Fakt 16.20 (Lagarias, Odlyzko 1985). Fur fast alle (a1, . . . , an) ∈ [1, A]n mit Dichted := n

log2 maxi ai< 0, 6463 lost der kurzeste Gittervektor des Gitters erzeugt von der

Basismatrix

(b1 · · · bn+1

)=

1 0 · · · 0 0

0 1. . . 0

.... . .

...0 0 · · · 1 0

Na1 Na2 · · · Nan Ns

, N >√

12n,

entweder das Rucksack-Problem oder das inverse Problem.

Einer Losung e = (e1, . . . , en) des Rucksack-Problems ordnen wir folgenden Gitter-vektor zu

v(e) :=n∑i=1

eibi − bn−1 =

e1...en

N(∑n

i=1 eiai − s)

=

e1...en0

.

Es gilt ‖v‖ ≤√n/2 oder ‖v‖ ≤

√n/2 fur den Vektor assoziert mit der Losung e

des inversen Problems, da eine der beiden Losungvektoren maximal 12n Eins-Eintrage

hat.Coster, Joux, LaMacchina, Odlyzko, Schnorr und Stern [CJLOSS92]

haben das Resultat durch Modifikation der Gitterbasis zu

(b1 · · · bn+1

)=

1 0 · · · 0 1

2

0 1. . . 1

2...

. . ....

0 0 · · · 1 12

Na1 Na2 · · · Nan Ns

,

verbessert (CJLOSS-Gitter). Der Losungsvektor

v(e) :=n∑i=1

eibi − bn−1 =

e1 − 1

2...

en − 12

0

hat die Lange

‖v‖ =

√√√√ n∑i=1

(ei − 1

2

)2 = 12

√n,

sofern die Losung e jeweils 12n-viele Koordinaten ei = 0 und ei = 1 hat. Damit ist die

Lange des Losungsvektors um den Faktor√

1/2 kleiner als beim Gitter von Laga-

rias und Odlyzko, wahrend die Gitterdeterminanten beider Gitter von derselbenGroßenordnung sind.

210 16. Gittertheorie

Fakt 16.21. Fur fast alle (a1, . . . , an) ∈ [1, A]n mit Dichte d < 0, 9408 lost derkurzeste Gittervektor des CJLOSS-Gitters entweder das Rucksack-Problem oder dasinverse Problem.

Anhang A

Grundbegriffe

1. Notationen

Wir wiederholen die aus der Schulmathematik bekannten Notationen fur Zahlmengen.Es bezeichne

• N = 1, 2, 3, . . . die Menge der naturlichen Zahlen,• N0 = 0, 1, 2, . . . die Menge der naturlichen Zahlen mit 0,• Z = 0,±1,±2, . . . die Menge der ganzen Zahlen,• Q =

ab

∣∣ a, b ∈ Z, b 6= 0

die Menge der rationalen Zahlen, und• R die Menge der reellen Zahlen.

Manche Autoren verwenden das Symbol N fur die Menge N0 = 0, 1, 2, . . . .Als Abkurzung fur Summen und Produkte reeller Zahlen x1, . . . , xn schreiben wir

n∑i=1

xi = x1 + x2 + · · ·+ xn undn∏i=1

xi = x1 · x2 · · ·xn

Gegebenenfalls schranken wir den Laufindex zusatzlich ein, wie beispielsweise in derfolgenden Formel, die gleichzeitig eine doppelte Summation zeigt:

n∑i=1

m∑j=1j 6=i

xi,j =n∑i=1

(xi,1 + · · ·+ xi,i−1 + xi,i+1 + · · ·+ xi,m)

Die ”leere“ Summe∑0

i=1 xi setzen wir auf 0. Das ”leere“ Produkt∏0i=1 sei 1.

Neben den lateinischen Buchstaben A, . . . , Z, a, . . . , z werden in der Mathema-tik haufig die griechischen Klein- und Großbuchstaben verwendet. Dabei sind die inder Tabelle nicht aufgefuhrten griechischen Großbuchstaben mit den entsprechendenlateinischen Großbuchstaben identisch.

2. Logik

Die klassische Aussagenlogik geht von zwei Wahrheitswerten 1 (wahr) und 0 (falsch),aussagenlogischen Variablen und Funktionen ∨ (oder), ∧ (und), ¬ (nicht) aus. Eine

211

212 A. Grundbegriffe

Großbuchstabe Kleinbuchstabe Name Großbuchstabe Kleinbuchstabe Name

α Alpha o Oβ Beta Ξ ξ Xi

Γ γ Gamma o O∆ δ Delta Π π,$ Pi

ε, ε Epsilon ρ, % Rhoζ Zeta Σ σ, ς Sigmaη Eta τ Tau

Θ θ, ϑ Theta Υ υ Upsilonι Iota Φ φ, ϕ Phiκ Kappa χ Chi

Λ λ Lambda Ψ ψ Psiµ Mu Ω ω Omegaν Nu

aussagenlogische Variable a kann die Werte 0 und 1 annehmen und die Funktionender Variablen a, b definiert man durch den Verlauf der Wahrheitswerte:

a b ¬a a ∧ b a ∨ b0 0 1 0 00 1 1 0 11 0 0 0 11 1 0 1 1

Allgemeiner kann man komplexere Formeln durch Verschachtelung aufbauen, bei-spielsweise fur zwei Formeln ¬a und b ∨ c die Formel (¬a) ∧ (b ∨ c) bilden. Zur Ver-einfachung der Klammerschreibweise legen wir folgende Bindungsprioritaten fest: ¬vor ∧ vor ∨. Dadurch konnen wir Klammern entfallen lassen und erhalten beispiels-weise aus (¬a)∧ (b∨ c) die Vereinfachung ¬a∧ (b∨ c). Dies entspricht der bekanntenVereinfachung der Klammerschreibweise bei Multiplikation und Addition fur reelleZahlen.

Belegt man die Variablen in einer aussagenlogischen Formel, kann man den Wahr-heitswert der Formel berechnen, indem man die Werte ”von innen nach außen“ be-rechnet. Fur zwei aussagenlogischen Formeln A und B (uber den gleichen Variablen)schreiben wir A = B, wenn die Wahrheitswerte von A und B unter allen Belegungender Variablen identisch sind.

Neben den offensichtlichen Eigenschaften fur die Funktionen ∧, ∨ und ¬ wiebeispielsweise A ∧ B = B ∧ A, A ∨ B = B ∨ A und ¬¬A = A gelten die beidenfolgenden wichtigen Regeln:

• Regel von DeMorgan: ¬(A ∧B) = ¬A ∨ ¬B und ¬(A ∨B) = ¬A ∧ ¬B• Distributivitat: (A ∨ B) ∧ C = (A ∧ C) ∨ (B ∧ C) und (A ∧ B) ∨ C =

(A ∨ C) ∧ (B ∨ C)

Man verifiziere diese Regeln durch den Werteverlauf.Eine Implikation oder Folgerung A⇒ B (”wenn A, dann B“) ist definiert durch

A⇒ B = ¬A ∨B

2. Logik 213

Wir sagen, dass die Aussage A die Aussage B impliziert bzw. dass A hinreichend furB ist. Umgekehrt sagen wir, dass B aus A folgt bzw. dass B notwendig fur A ist. Wirnennen A Voraussetzung oder Annahme und B Folgerung.Eine Aquivalenz A⇔ B (”A genau dann, wenn B“) ist definiert durch

A⇔ B = (A⇒ B) ∧ (B ⇒ A)

Wir sagen, dass A und B aquivalent sind bzw. das A notwendig und hinreichend furB (und umgekehrt) ist. Bezuglich der Bindung gelte ¬ vor ∧ vor ∨ vor ⇒ vor ⇔.

Implikationen A⇒ B sind stets nur ”in eine Richtung zu lesen“. Die Umkehrunggilt im allgemeinen nicht, wie das folgende Beispiel zeigt:

Eine naturliche Zahl großer als 5 ist auch großer als 3.

Um die Implikation besser hervorzuheben, formulieren wir die Aussage (und auch diefolgenden Beispiele) in eine explizite ”wenn. . .dann“-Aussage um.

Wenn eine naturliche Zahl großer als 5 ist, dann ist sie großer als 3.

Die Umkehrung der Aussage ist:

Wenn eine naturliche Zahl großer als 3 ist, dann ist sie großer als 5.

Offensichtlich ist die Zahl 4 ein Gegenbeispiel.Wir betrachten einige elementaren Eigenschaften von Implikationen, die sich un-

mittelbar aus der Charakterisierung durch die logischen Verknupfungen ergeben. Die-se Eigenschaften bilden die Grundlage fur das folgende Kapitel uber Beweistechniken.

• Kontraposition: A⇒ B = ¬B ⇒ ¬A• Transitivitat: (A⇒ B) ∧ (B ⇒ C) ist hinreichend fur A⇒ C

• Kontradiktion: A⇒ B = A ∧ ¬B ⇒ 0

Die Transitivitat besagt, dass man aus A ⇒ B und B ⇒ C die Aussage A ⇒ Cschliessen kann. Mochte man beispielsweise die Aquivalenz der Aussagen A,B undC beweisen, so genugt es wegen der Transitivitat, A ⇒ B, B ⇒ C und C ⇒ Azu zeigen (Ringschluß). Die Kontradiktion besagt, dass die Hinzunahme von ¬B zurVoraussetzung A auf einen Widerspruch fuhrt.

Die Pradikatenlogik fuhrt zusatzlich den Allquantor ∀ und den Existenzquantor ∃ein. Die Interpretation der Formeln ∀x : A bzw. ∃x : B ist, dass die aussagenlogischeFormel A fur alle x gilt bzw. dass es ein x gibt, so dass die aussagenlogische Formel Bgilt; die Formeln A bzw. B hangen dabei im allgemeinen von x ab. Das ”Universum“,aus dem x stammt, geht in der Regel aus dem Kontext hervor. Tatsachlich ist dieWahl dieses ”Universums“ entscheidend fur die Gultigkeit der Formeln, wie wir aneinem Beispiel sehen werden. Der Begriff der Gultigkeit ist bei pradikatenlogischenFormeln komplizierter zu formalisieren als bei aussagenlogischen Formeln. Wir ver-zichten daher hier auf eine Definition und beschranken uns auf die oben angegebeneInterpretation.

Pradikatenlogische Formeln konnen wie aussagenlogische Formeln verschachteltwerden, so dass beispielsweise Formeln der Form ∀x : (A ⇒ ∃y : B) moglich sind.

214 A. Grundbegriffe

Dabei nehmen wir an, dass Quantoren starker binden als aussagenlogische Funktio-nen. Tritt der gleiche Quantorentyp hintereinander auf, so faßt man diese Quantorenim allgemeinen zusammen, z.B. ∀x : ∀y : A zu ∀x, y : A. Fur die Quantoren geltenfolgende Regeln:

¬ ∀x : A = ∃x : ¬A und ¬ ∃x : A = ∀x : ¬A.

Beachte, dass ¬ ∀x : A = ¬ (∀x : A) nach Festlegung der Bindungprioritaten. BeiVerschachtelung erhalt man beispielsweise die Aquivalenz von ¬ ∃x : ∀y : A und∀x : ∃y : ¬A.

Wir betrachten ein Beispiel. Sei < das bekannte ”Kleiner-Als“-Pradikat uber denreellen bzw. naturlichen Zahlen: a < c ist genau dann wahr, wenn es eine positiveZahl b ∈ R mit a+ b = c gibt. Gegeben sei die Formel

∀r, t :(r < t ⇒ ∃s : (r < s ∧ s < t)

),

die ausdruckt, dass zwischen zwei verschiedenen Zahlen r, t stets eine weitere Zahls liegt. Betrachten wir r, s, t uber den reellen Zahlen, gilt diese Formel, denn s =12(r+ t) ∈ R erfullt fur alle r, t mit r < t die Bedingung. Uber den naturlichen Zahlengilt die Aussage nicht, denn zwischen r und t = r + 1 liegt keine weitere naturlicheZahl.

3. Beweistechniken

Um mathematische Aussagen von der Form A ⇒ B zu beweisen, gibt es elementareVorgehensweisen, von denen wir hier einige wichtige vorstellen.

Direkte Beweise. Bei einem direktem Beweis wird die Aussage A ⇒ B zerlegtin Aussagen der Form A ⇒ A1, A1 ⇒ A2, . . ., An−1 ⇒ An, An ⇒ B. Aus derTransitivitat folgt dann die Behauptung A⇒ B. Die einzelnen Implikationen konnendann mit einer der in diesem Kapitel aufgefuhrten Beweistechniken gezeigt werdenbzw. sind meistens einfach zu sehen. Setzt man beispielsweise als bekannt voraus,dass das Produkt und die Summe zweier naturlicher Zahlen positiv ist, so laßt sichdie Aussage

Wenn m > n fur naturliche Zahlen m,n gilt, dann ist m2 > n2.

durch einen direkten Beweis zeigen: Aus m > n folgt m = n + k fur eine naturlicheZahl k. Mit dem Binomischen Lehrsatz erhalten wir m2 = (n+k)2 = n2+2nk+k2. Dieletzten beiden Summanden sind das Produkt naturlicher Zahlen und damit ebensowie die Summe 2nk + k2 positiv. Wir schließen, dass m2 = n2 + 2nk + k2 > n2.

Obwohl wir die Aussage als ”wenn. . .dann“-Aussage formuliert haben, ist sie im-plizit eine pradikatenlogische Formel: uber den naturlichen Zahlen gilt ∀m,n : (m >n ⇒ m2 > n2). Die angegebene Aussage entspricht der sprachlichen Ubersetzungdieser Formel, da wir in der Annahme beliebige naturliche Zahlen m,n mit m > nvoraussetzen.

3. Beweistechniken 215

Vollstandige Induktion. Die vollstandige Induktion erlaubt es, Eigenschaften be-zuglich der naturlichen Zahlen zu beweisen: Wenn fur eine Zahl m die EigenschaftE(m) gilt und fur alle n ≥ m folgt E(n+ 1) aus E(n), dann gilt E(n) fur alle n ≥ m.Wir betrachten ein Beispiel:

Wenn n ≥ 3 fur n ∈ N ist, dann gilt 2n > 2n.

Wir beweisen diese Aussage durch vollstandige Induktion: In der Induktionsveran-kerung zeigen wir, dass die Formel fur n = 3 gilt. Dies folgt durch unmittelbaresnachrechnen. Im Induktionsschritt zeigen wir, dass aus der Induktionsvoraussetzung2n > 2n auch 2n+1 > 2(n+ 1) folgt. Durch die Induktionsvoraussetzung erhalten wir

2n+1 = 2 · 2n = 2n + 2n > 2n+ 2n

Andererseits gilt offensichtlich 2n ≥ 2 fur alle n ≥ 1 und damit auch fur n ≥ 3. Esfolgt

2n+1 > 2n+ 2n ≥ 2n+ 2 = 2(n+ 1)

und daraus die Behauptung.Folgt die Eigenschaft E(n+1) nicht nur aus E(n), sondern beispielsweise aus E(n)

und E(n − 1), so ist die Induktionsverankerung fur die Werte E(m) und E(m + 1)zu zeigen. Die vollstandige Induktion besagt in diesem Fall: Wenn E(m), E(m + 1)gelten und fur alle n ≥ m+ 1 aus E(n) und E(n− 1) auch E(n+ 1) folgt, dann giltE(n) fur alle n ≥ m.

Beweis durch Kontraposition. Beim Beweis durch Kontraposition zeigt man dieAussage ¬B ⇒ ¬A, um A ⇒ B zu beweisen. Diese Vorgehensweise ist meistenseinfacher als ein direkter Beweis. Wir demonstrieren die Beweistechnik am Beispielder Primzahlen. Aus der Schulmathematik ist bekannt, dass eine naturliche Zahl primist, wenn sie nur durch sich selbst und durch 1 teilbar ist, wobei die 1 als Primzahlausgeschlossen wird. Die ersten funf Primzahlen lauten daher 2, 3, 5, 7, 11. Allgemeingilt:

Wenn p ∈ N prim ist und p > 2, dann ist p ungerade.

Der Beweis erfolgt durch Kontraposition, d.h. wir zeigen, dass eine gerade Zahl pnicht prim ist oder p ≤ 2 gilt. Beachte, dass wir hier die DeMorgansche Regel auf

”¬(p prim ∧ p > 2)“ angewendet haben. Wenn aber p gerade ist, dann ist p = 2oder p ≥ 4 echt durch 2 teilbar und damit nicht prim. Beweise durch Widerspruchfomuliert man haufig als Beweis durch Widerspruch:

Beweis durch Widerspruch. Beim Beweis durch Widerspruch (auch Beweis durchKontradiktion) beweist man A⇒ B, indem man zeigt, dass A∧¬B auf einen Wider-spruch fuhrt. Beispiel:

Wenn p ∈ N prim ist und p > 2, dann ist p ungerade.

Nehmen wir also an, dass p prim, p > 2 und p gerade ist. Dann ist allerdings diePrimzahl p > 2 echt durch 2 teilbar — Widerspruch zur Eigenschaft von Primzahlen.

216 A. Grundbegriffe

4. Mengen, Relationen und Funktionen

Zur Vereinfachung verwenden wir hier die ”naive“ Mengenlehre nach Cantor, die be-sagt, dass jede Eigenschaft E eine Menge ME definiert: die Menge ME = x | E(x)ist die ”Sammlung“ von Objekten x, fur die E(x) erfullt ist. Obwohl diese Anschau-ung auf inhaltliche Widerspruche fuhrt (Russelsche Antinomie1), genugt sie fur eineelementare Einfuhrung der Begriffe.

Wir fuhren zunachst einige Notationen ein. Seien X,Y Mengen. Ist x ein Elementder Menge X, dann schreiben wir x ∈ X. Wir sagen auch, dass x in X liegt bzw. dasx in X enthalten ist. Die Menge X ist eine Teilmenge von Y (X ⊆ Y ), wenn jedesx ∈ X auch Element von Y ist. Ein Element x ist genau dann in der VereinigungX ∪Y von X und Y , wenn es in mindestens einer der beiden Mengen X und Y liegt.Das Element x ist genau dann im Durchschnitt X ∩Y von X und Y enthalten , wennes sowohl in X als auch in Y liegt. Die Differenz X \ Y von X und Y enthalt alleElemente x ∈ X, die nicht in Y liegen. Beachte, dass Y Elemente enthalten kann, dienicht in X sind (und damit naturlich auch nicht in X \ Y ). Gilt Y ⊆ X, so schreibtman auch X − Y statt X \ Y . Fur eine endliche Menge X heißt die Anzahl |X| derElemente in X die Machtigkeit von X. Fur unendliche Mengen ist die Definition derMachtigkeit aufwendiger und wir verzichten hier darauf. Mit ∅ bezeichnen wir dieleere Menge, die kein Element enthalt. Vereinigung und Durchschnitt zweier Mengenkann man verallgemeinern: Fur eine nicht-leere Menge I und Mengen Xi fur i ∈ Ibezeichnet

⋃i∈I Xi bzw.

⋂i∈I Xi die Menge, die genau die x enthalt, fur die ein i ∈ I

mit x ∈ Xi existiert bzw. fur die x ∈ Xi fur alle i ∈ I. Die Menge I nennen wir indiesem Fall Indexmenge.

In der Schule verwendet man — bewußt oder unbewußt — zwei Eigenschaftenvon Funktionen: Fur eine Funktion f : X → Y mit Definitionsbereich X ⊆ R undWertebrereich Y ⊆ R gibt es fur alle x ∈ X mindestens einen Wert y ∈ Y mitf(x) = y (so dass f auf X definiert ist) und andererseits hochstens einen Werty ∈ Y mit f(x) = y (so dass jedes x auf maximal einen Wert abgebildet wird). Wirformalisieren diese Eigenschaften, indem wir den Begriff des kartesischen Produktsund der Relation einfuhren.

Fur zwei Mengen X,Y ist X × Y das Kartesische Produkt, das die Menge be-zeichnet, die genau die geordneten Paare (x, y) mit x ∈ X und y ∈ Y enthalt. Dasgeordnete Paar (x, y) heißt auch Tupel. Allgemeiner kann man das Kartesische Pro-dukt fur n Mengen X1, . . . , Xn definieren. Ein Element (x1, . . . , xn) dieses Produktsheißt dann n-Tupel. Falls X1 = X2 = · · · = Xn schreibt man abkurzend Xn

1 stattX1 × · · · ×Xn. Eine n-stellige Relation R uber X1 × · · · ×Xn ist eine Teilmenge vonX1×· · ·×Xn. Im Fall n = 2, d.h. R ⊆ X×Y , spricht man von einer binaren Relation.Wir definieren eine Funktion f : X → Y als spezielle binare Relation f ⊆ X×Y (undverwenden daher in dieser Definition die Schreibweise (x, y) ∈ f statt f(x) = y), mit

1Betrachte die Menge R aller Mengen, die sich nicht selbst enthalten. Enthalt R sich selbst, dannist R nicht in R nach Definition. Enthalt andererseits R nicht sich selbst, so ist R in R nach Definitionenthalten. Wir erhalten somit den Widerspruch, dass die Menge R sich genau dann enthalt, wenn siesich nicht enthalt.

4. Mengen, Relationen und Funktionen 217

der Eigenschaft, dass fur jedes x ∈ X genau ein y ∈ Y mit (x, y) ∈ f existiert. Wirnennen eine Funktion auch Abbildung.

Fur eine Relation R uber X×Y heißt X der Argumentbereich, Y der Wertebereich,die Menge der x ∈ X, fur die ein y ∈ Y mit (x, y) ∈ R existiert, der Definitionsbereich,die Menge der y, fur die ein x mit (x, y) ∈ R existiert, der Bildbereich. Diese Definitio-nen gelten damit auch fur Funktionen, wobei dort Argument- und Definitionsbereichgleich sind und man mit f(X) oder bild f das Bild von X unter f bezeichnet. DasUrbild f−1(y) eines Wertes y ∈ Y unter einer Funktion f : X → Y ist die Mengealler x ∈ X, fur die (x, y) ∈ f . Wir sagen, dass x ein Urbild von y unter f ist, wennx ∈ f−1(y).

Eine Funktion f : X → Y heißt surjektiv, wenn es fur alle y ∈ Y ein x ∈ Xmit f(x) = y gibt. Die Funktion f heißt injektiv, wenn fur alle y ∈ Y hochstens einx ∈ X mit f(x) = y existiert. Sie heißt bijektiv, wenn sie injektiv und surjektiv ist.Fur eine injektive Funktion f : X → Y bezeichnet man mit f−1 : f(X) → X auchdie Umkehrfunktion von f , d.h. die Funktion mit f−1(f(x)) = f(f−1(x)) = x fur allex ∈ X. Beachte, dass die Injektivitat garantiert, dass es sich dabei tatsachlich umeine Funktion handelt, da es zu jedem y maximal ein x mit f−1(y) = x gibt. Die Um-kehrfunktion von f an einer festen Stelle y und das Urbild von y unter f werden mitdem gleichen Symbol f−1(y) bezeichnet. Obwohl Verwechselungen prinzipiell moglichsind, geht im allgemeinen aus dem Zusammenhang hervor, welches Objekt gemeintist; bei einer injektiven Funtion f ist das Urbild f−1(y) fur ein y ∈ f(X) insbesonderegenau die einelementige Menge, deren Element der Wert der Umkehrfunktion f−1 ander Stelle y ist.

Zur Veranschaulichung der Begriffe betrachten wir Funktionen f, g, h : N → N

uber den naturlichen Zahlen. Die Funktion f sei definiert durch

f(n) = 2n

Dann ist f injektiv, da f(m) = 2m 6= 2n = f(n) fur m 6= n. Die Funktion istallerdings nicht surjektiv, da die ungeraden Zahlen keine Urbilder unter f besitzen.Eine surjektive, aber nicht injektive Funktion ist

g(n) =

n2 falls n geraden+1

2 falls n ungerade

Offensichtlich bildet g jede ungerade Zahl und die darauffolgende gerade Zahl auf dengleichen Wert ab. Daher ist g nicht injektiv. Andererseits ist g surjektiv, da fur jedesm der Wert 2m ein Urbild ist.

Ein triviales Beispiel einer bijektiven Funktion uber den naturlichen Zahlen ist dieIdentitatsfunktion id(n) = n. Wir betrachten als weiteres Beispiel folgende Funktion:

h(n) =

n− 1 falls n geraden+ 1 falls n ungerade

Die Funktion h vertauscht jede ungerade Zahl mit ihrem geraden Nachfolger und istdaher bijektiv. Ferner ist h die Umkehrfunktion zu sich selbst.

Anhang B

Ubungsaufgaben

1. Ubungsblatt 1

Aufgabe 1.1. Lose das lineare Gleichungssystem zu folgender erweiterter Matrixuber K = R und K = 0, 1, 2 = Z3:

(A, b) =

1 1 2 0 22 1 0 1 00 1 2 0 11 1 2 1 2

∈M4,5(K)

Aufgabe 1.2. Sei K beliebiger Korper, (A, b) ∈M2,3(K) und

det(A) := a11a22 − a12a21 ∈ K

sei die Determinante von A. Zeige: Ax = b ist genau dann fur alle b ∈ K2 losbar,wenn det(A) 6= 0. Hinweis: Zeilen- und Spaltenoperationen andern |det(A)| nicht.

Aufgabe 1.3. Sei K beliebiger Korper und UDn ⊂Mn,n(K) die Menge der unterenDreiecksmatrizen, d.h. der Matrizen A = (aij)1≤i,j≤n mit aij = 0 fur i < j. Zeige:A,B ∈ UDn ⇒ A ·B ∈ UDn.

Aufgabe 1.4. Sei A = (ai,j)1≤i,j≤n ∈ UDn. Zeige: Zu A gibt es genau dann einmultiplikatives Inverses A−1 ∈ UDn, wenn a11a22 · · · ann 6= 0. Fur A−1 gelte nachDefinition AA−1 = A−1A = In. Hinweis: Bestimme A−1 durch Ruckwartsaufloseneines lineare Gleichungssystem in Treppenform.

2. Ubungsblatt 2

Aufgabe 2.1. Sei K Korper. Die Operationen + (Addition) und · (Multiplikation)auf Mn,n(K) sind durch die Korperoperationen von K erklart:

(aij) + (bij) = (aij + bij), (aiν) · (bνj) =( n∑ν=1

aiνbνj

)Zeige:

219

220 B. Ubungsaufgaben

a) Die Multiplikation auf Mn,n(K) ist assoziativ und distributiv.

b) Die Multiplikation auf Mn,n(K) fur n ≥ 2 ist nicht kommutativ.

Aufgabe 2.2. Invertiere die Matrix

A =

1 1 2 02 1 0 10 1 2 01 1 2 1

uber dem Korper K = 0, 1, 2 mit folgendem Verfahren: Uberfuhre A durch Multipli-kation mit Elementarmatrizen von rechts (bzw. links) in I4. Wende dieselben Trans-formationsschritte auf I4 an. Zeige: Das Verfahren liefert fur beliebige Korper K undA ∈Mn,n(K) die inverse Matrix A−1.

Aufgabe 2.3. Zu A = (aij) ∈Mm,n(K) ist AT := (aji) ∈Mn,m(K) die transponierteMatrix. Zeige:

a) (AB)T = BTAT fur A ∈Mm,n(K), B ∈Mn,k(K).

b) PP T = In gilt fur alle Permutationsmatrizen P ∈ Mn,n(K). Hinweis: P =Vi1,j1 · · ·Vik,jk mit Vertauschungsmatrizen Viν ,jν .

Aufgabe 2.4. Sei K Korper und A ∈Mnn(K). Zeige: Es gibt PermutationsmatrizenP1, P2 und T ∈ UDn, B ∈ ODn mit

P1AP2 = T B.

Hinweis: Ziehe die Zeilen und Spaltenvertauschungen im Gauß-Verfahren vor.

3. Ubungsblatt 3

Aufgabe 3.1. Sei

C =(

a −bb a

) ∣∣∣∣ a, b ∈ R ⊂M2,2(R).

Zeige: C ist Korper, C ∼= C. Es gilt(a −bb a

)=(` 00 `

)(cosϕ − sinϕsinϕ cosϕ

),

wobei die Abbildung

R2 → R≥0 × [0, 2π), (a, b) 7→ (`, ϕ)

bijektiv ist. Die Abbildung x 7→(a −bb a

)x sind die Dreh-Streckungen der reellen

Ebene, erlautere dies.

Aufgabe 3.2. Sei K Korper, G ⊂ Kn Gerade und H ⊂ Kn Hyperebene. Zeige: G,Hsind entweder parallel oder sie haben genau einen Punkt gemeinsam. Der Satz giltnicht, wenn man den Korper K durch einen Ring ersetzt, weshalb?

4. Ubungsblatt 4 221

Aufgabe 3.3. Sei V ein K-Vektorraum und x1, . . . , xk ∈ V . Zeige, dass

aspan(x1, . . . , xk) := x1 +k∑i=2

(xi − x1)K

der kleinste affine Unterraum ist, der x1, . . . , xk enthalt.Hinweis: aspan(x1, x2) = x1 +(x2−x1)K ist die Gerade durch x1, x2. Mit x1, . . . , xk ∈A enthalt jeder affine Unterraum A auch aspan(x1, . . . , xk).

Aufgabe 3.4. Zeige, dass die folgenden Aussagen gelten, wenn man Koraum ersetztdurch einen der Begriffe Korper, Schiefkorper, Ring, Gruppe, Halbgruppe, Vektor-raum, affiner Raum. Sei Y ein Koraum.

a) Sind Yi ⊆ Y fur i ∈ I Koraume, so auch⋂i∈I

Yi.

b) Zu X ⊆ Y gibt es einen kleinsten Koraum 〈X〉 mit X ⊆ 〈X〉.

Weshalb laßt man zu, dass affine Raume leer sind, aber Vektorraume nicht? Hinweis:Weise Eigenschaften nach, wie Assoziativitat, Kommutativitat, Existenz des Inversenusw.

4. Ubungsblatt 4

Aufgabe 4.1. Lose uber dem Korper Z5 = 0, 1, 2, 3, 4 das lineare GleichungssystemAx = b mit

(A | b) =(

1 3 4 2 23 4 1 2 3

).

Konstruiere eine Basis von Los(A, 0). Erlautere das Losungsverfahren.

Aufgabe 4.2 (2 zusatzliche Punkte). Sei A ∈ Mm,n(K), K Korper. Zeige: Es gibtPermutationsmatrizen P, P ′ und T ∈ UDm, T ′ ∈ ODn sowie eine DiagonalmatrixD ∈Mm,n(K) mit PAP ′ = TDT ′.

Dabei gelte fur D = (dij), dass d11 6= 0, . . . , drr 6= 0 und dij = 0 sonst. Fer-ner sind die Diagonalelemente von T , T ′ alle 1. Erlautere zunachst, dass man nachUbungsblatt 2, Aufgabe 4, erreichen kann, dass PAP ′ = TB fur eine Matrix B inTreppenform mit r Stufen.

Aufgabe 4.3. Sei G kommutative Gruppe und H ⊆ G Untergruppe. Die MengeG/H = aH | a ∈ G besteht aus den Nebenklassen von H. Zeige: G/H ist Gruppemit der Multiplikation

(aH)(bH) = (ab)H.

Zeige zunachst, dass die Multiplikation wohldefiniert ist, d.h. unabhangig von derWahl der Reprasentanten.

Aufgabe 4.4 (2 zusatzliche Punkte). Sei C der Korper der komplexen Zahlen. Zeige:

H =(

a −bb a

) ∣∣∣∣ a, b ∈ C ⊂M2,2(C) ist Schiefkorper.

222 B. Ubungsaufgaben

Nach Aufgabe 1.2 ist die Matrix genau dann invertierbar, wenn ihre Determinanteaa + bb ungleich Null ist. Zeige, dass die Determinante genau dann null ist, wenna = b = 0.

5. Ubungsblatt 5

Aufgabe 5.1. Sei

X :=

210−1

,

0370

,

−2271

,

−420−2

,

456−2

,

456−2

,

445−3

⊂ R4.

Konstruiere eine Basis B ⊂ X von span(X ). Beschreibe das Verfahren.

Aufgabe 5.2. Sei K ein Korper, V1, V2 Vektorraume uber K und ψ : V1 → V2 einIsomorphismus. Zeige:

a) Die inverse Abbildung ψ−1 : V2 → V1 ist ebenfalls ein Isomorphismus. Hin-weis: Es gilt x = y ⇐⇒ ψ(x) = ψ(y), sowie ψ(ψ−1(x)) = x.

b) Fur jede Basis b1, . . . , bn von V1 gilt, dass ψ(b1), . . . , ψ(bn) eine Basis vonV2 ist. Hinweis: ψ(x) = 0 ⇐⇒ x = 0.

Folgere, dass die Polynome 1, X, . . . ,Xn eine Basis des Vektorraums K[X]n bilden.

Aufgabe 5.3. Sei A = (aij) ∈Mm,n(K). Zeige: Das Gauß’sche Eliminationsverfah-ren angewandt auf (A | b) benotigt keine Zeilenvertauschung, wenn

(ai1, . . . , aij) ∈ Kj∣∣ i = 1, . . . , j

linear unabhangig ist fur j = 1, . . . , n. Gilt auch die Umkehrung?

Aufgabe 5.4. Seien x1, . . . , xn ∈ Kn linear unabhangig uber dem Korper K. Zeige:Es gibt genau eine Hyperebene H ⊂ Kn mit x1, . . . , xn ∈ H.

6. Ubungsblatt 6

Aufgabe 6.1. Konstruiere die Hyperebene H ⊂ Z57 durch die Punkte (1, 2, 3, 4, 5),

(2, 3, 4, 5, 1), (3, 4, 5, 1, 2), (4, 5, 1, 2, 3), (5, 1, 2, 3, 4). Beschreibe das Verfahren.

Aufgabe 6.2. Seien A, B Matrizen uber einem Korper K. Zeige:

a) rang

A... 0

. . . . . . . .

0... B

= rang(A) + rang(B)

b) max(rang(A), rang(B)) ≤ rang(A |B) ≤ rang(A) + rang(B).

Aufgabe 6.3 (2 zusatzliche Punkte). Beweise Satz 3.20 durch Induktion uber n:Je n linear unabhangige Vektoren a1, . . . , an ∈ Kn bilden eine Basis des Kn.

Hinweis: Transformiere A =

aT1...aTn

in TAT ′ =

a11 0. . . . .

0... A′

mit invertierbaren

8. Ubungsblatt 8 223

Matrizen T ∈ UDn, T ′ ∈ ODn. Wende die Induktionsannahme auf A′ an. Weshalbkann man O.B.d.A. annehmen, dass a11 6= 0 ?

Aufgabe 6.4. Sei K Korper und a1, . . . , an ∈ K paarweise verschieden. Zeige: DieVandermonde-Matrix

Vn(a1, . . . , an) :=

1 1 · · · 1a1 a2 · · · an...

......

an−11 an−1

2 · · · an−1n

hat Rang n. Hinweis: Beweis durch Induktion uber n.

7. Ubungsblatt 7

Aufgabe 7.1. Konstruiere eine Basis des Losungsraums zum linearen Gleichungs-system

6∑i=0

ai2i(1)= 0 ,

6∑i=0

ai3i(2)= 0

in den Unbestimmten a0, . . . , a6 uber Z11. Erganze die Basis jeweils zu Basen derLosungsraume der LGS’e (1) und (2).

Aufgabe 7.2. Seien b1, . . . , bm ∈ Kn, K endlicher Korper und

dim span(b1, . . . , bm−2) = dim span(b1, . . . , bm) = m− 2.

Zeige:

a) Es gibt genau eine Darstellung bm−1 =m−2∑i=1

λibi.

b) Es gibt genau |K| Darstellungen bm =m−1∑i=1

λibi.

Aufgabe 7.3. Sei K Korper, a1, . . . , an ∈ K paarweise verschieden und b1, . . . , bn ∈K. Zeige: Es gibt genau ein Polynom p(x) =

∑n−1i=0 pix

i ∈ K[X] mit p(ai) = bi furi = 1, . . . , n. Hinweis: Schreibe p(ai) = bi, i = 1, . . . , n, als lineares Gleichungssystemin p0, . . . , pn−1 und zeige, dass dieses eindeutig losbar ist.

Aufgabe 7.4. Zeige: Das Gauß-Verfahren zu (A, b) kommt genau dann ohne Zeilen-und Spaltenvertauschungen aus, wenn

rang

a11 · · · a1i...

...ai1 · · · aii

= i fur i = 1, . . . , rang(A) .

8. Ubungsblatt 8

Aufgabe 8.1. Sei f : U → V Homomorphismus von (endlich dimensionalen) Vek-torraumen und U, V zwei K-Vektorraume. Zeige:

a) dim ker f + dim bild f = dimU ,

224 B. Ubungsaufgaben

b) Ein surjektives f ist genau dann ein Isomorphismus, wenn dim ker f = 0.

Aufgabe 8.2. Seien U, V zwei K-Vektorraume und f : U → V ein Vektorraum-Homomorphismus. f werde bezuglich der Basen a1, . . . , am von U und b1, . . . , bn vonV dargestellt durch die Matrix (fij)T ∈Mn,m(K) mit f(ai) =

∑nj=1 fijbj. Zeige:

rang(fij) = dim f(U).

Dies rechtfertigt folgende Definition: dim f(U) heißt der Rang von f .

Aufgabe 8.3. Sei A ∈Mk,m(K), B ∈Mm,n(K). Zeige:

rang(AB) ≤ min(rang(A), rang(B)).

Aufgabe 8.4. Seien A,B ∈Mm,n(K). Zeige:

|rang(A+B)− rang(A)| ≤ rang(B)

Hinweis: Reduziere auf den Fall, dass B eine Diagonalmatrix ist.

9. Ubungsblatt 9

Aufgabe 9.1. Die Kodeworte (0, 0, 1, 1, 1, 1, 0), (0, 1, 1, 0, 0, 1, 1), (1, 0, 0, 0, 1, 1, 1) er-zeugen einen Code C ⊂ F

72. Konstruiere zu C und C⊥ eine Generator- und eine

PCH-Matrix in kanonischer Form. Zusatz (2 Punkte): Bestimme d(C), d(C⊥).

Aufgabe 9.2. Der [n, k]-Code C ⊂ Kn habe die Generatormatrix G ∈Mk,n(K) unddie PCH-Matrix H ∈Mn−k,n(K). Zeige:

a) Ist G von der Form G = [Ik, A] mit A ∈ Mk,n−k(K), dann ist [−AT , In−k]eine PCH-Matrix zu C.

b) Ist H von der Form [B, In−k] mit B ∈ Mn−k,k(K), dann ist [Ik,−BT ] eineGenerator-Matrix von C.

Es sei K endlicher Korper, |K| = q, Kn sei die Nachrichtenmenge. Wir identifizieren

die Nachricht m = (m1, . . . ,mn) ∈ Kn mit dem Polynom m(x) =n∑i=1

mi xi−1 ∈ K[x].

Sei K = α1, ..., αq. Es gelte n ≤ t ≤ q.

Aufgabe 9.3. Betrachte den linearen Code

C =

(m(α1), . . . ,m(αt)) ∈ Kt∣∣m ∈ Kn .

Zeige: C hat die Distanz d(C) = t − n + 1. Hinweis: Benutze Aufgabe 7.3. Warumnennt man C Interpolationscode?

Aufgabe 9.4. Eine Nachricht m = (m1, . . . ,mn) ∈ Kn ist derart in m′i ∈ K2 furi = 1, . . . , t aufzuteilen mit n ≤ t ≤ q, dass man m aus beliebigen n Teilen m′irekonstruieren kann. Setze hierzu m′i := (αi,m(αi)) ∈ K2 fur i = 1, . . . , t. Gib einVerfahren zur Rekonstruktion von m aus m′i1 , . . . ,m

′in

an. (Benutze Aufgabe 3, Blatt7.)

11. Ubungsblatt 11 225

10. Ubungsblatt 10

Aufgabe 10.1. Sei C ⊂ Kn ein [n, k]-Code mit PCH-Matrix H ∈Mn−k,n(K). Zeige:

d(C) ≥ t+ 1 ⇐⇒ je t Spalten von H sind linear unabhangig uber K.

Aufgabe 10.2. Sei C ⊂ Kn ein linearer [n, k]-Code uber dem Korper K. Zeige dieSingleton-Schranke:

d(C) ≤ 1 + n− k.

Wenn d(C) = 1+n−k ist, heißt C separabler Maximum-Distanz-Code (MDS-Code).Hinweis: Benutze Aufgabe 10.1.

Aufgabe 10.3. Die PCH-Matrix des binaren 1-fehlerkorrigierenden Hamming-CodesC3 ⊂ F7

2 sei

H3 =

0 0 0 1 1 1 10 1 1 0 0 1 11 0 1 0 1 0 1

.

Gib ein Dekodierverfahren an, das einen Fehler korrigiert, d.h. beschreibe einen Algo-rithmus zu einer Abbildung dec : F7

2 → C3, so dass nach Moglichkeit d(dec(c), c) ≤ 1gilt. Hinweis: Fasse die Spalten von H3 als Binarzahlen auf.

Aufgabe 10.4. Sei K ein Korper, U1, . . . , Un und

⊕ni=1Ui := (u1, ..., ut) | ui ∈ Ui, i = 1, ..., n

K-Vektorraume endlicher Dimension. Zeige: dim (⊕ni=1Ui) =∑n

i=1 dimUi. Es wirdnicht vorausgesetzt, dass die Ui Untervektorraume eines gemeinsamen Vektorraumssind.

11. Ubungsblatt 11

Aufgabe 11.1. Sei K Korper und a1, . . . , an ∈ K. Beweise fur die Vandermonde-Matrix:

detVn(a1, . . . , an) = det

1 1 · · · 1a1 a2 an...

......

an−11 an−1

2 · · · an−1n

=∏i>j

(ai − aj) .

Hinweis: Beweis durch Induktion uber n. Subtrahiere a1 · Zeilei−1 von Zeilei.

Aufgabe 11.2. Sei LA : Rn → Rn, LA(x) = Ax, die lineare Abbildung zu A ∈

Mn,n(R). Ferner sei P = P (b1, . . . , bn) ⊂ Rn ein Parallelflach. Zeige:

volLA(P ) = |detA| · volP.

Hinweis: Benutze die Multiplikativitat der Determinante.

Aufgabe 11.3. Es seien U1, ..., Ut undt⊕i=1

Ui := (u1, ..., ut) | ui ∈ Ui K-Vektorrau-

me. Zeige: Genau dann ist U ∼= ⊕ti=1 Ui, wenn es Monomorphismen hi : Ui → U fur

226 B. Ubungsaufgaben

i = 1, . . . , t gibt, so dass jedes u ∈ U eindeutig zerlegbar ist als u =∑t

i=1 hi(ui) mitui ∈ Ui.Zusatz (2 Punkte): Zeige die Aquivalenz fur Ringe und additive Gruppen anstelle vonVektorraumen.

Aufgabe 11.4 (2 zusatzliche Punkte). Sei n = q1q2 Produkt zweier teilerfremderZahlen q1, q2. Ferner seien α1, α2 ∈ Zn gegeben mit

αi mod qj =

1 i = j

0 i 6= j.

Zeige: Zn ∼= Zq1 × Zq2.

Hinweis: Benutze die Aquivalenz von Aufgabe 11.3 fur Ringe und gib entspre-chende Monomorphismen hi : Zqi → Zn, i = 1, 2 an. Zu zeigen ist die eindeutigeZerlegbarkeit u = h1(u1) + h2(u2) von u ∈ Zn.

12. Ubungsblatt 12

Aufgabe 12.1 (2 Punkte). Vergleiche die Eigenschaften (D1), (D2) einer Determi-nantenfunktion und (D3’) : rang(A) < n =⇒ detA = 0, (D5) : Linearitat in jederZeile. Zeige: (D2), (D3’), (D5) =⇒ (D1).

Aufgabe 12.2. Es seien b1, b2, . . . , bn ∈ Rn linear unabhangig. Zeige, dass man dasOrthogonalsystem b∗1, b

∗2, . . . , b

∗n ∈ Rn wie folgt erhalt:

b∗1 := b1 und rekursiv fur i = 2, ..., n: b∗i := bi −∑i−1

j=1 µi,jb∗j mit µi,j :=

(b∗j )T bi‖b∗j‖2

.

Zu zeigen: b∗i ∈ span(b1, . . . , bi−1)⊥ und bi − b∗i ∈ span(b1, ..., bi).

Aufgabe 12.3. Zeige mit den Bezeichnungen von Aufgabe 2:

a) [b1, ..., bn] = [b∗1, ..., b∗n] [µi,j ]T .

b) µi,j = 0 fur i < j und µi,i = 1 fur i = 1, . . . , n.

c) b∗i ⊥ b∗j fur i 6= j.

Aufgabe 12.4. Sei σ ∈ Sn und τ eine Nachbartransposition. Zeige, dass fur dieAnzahl der Fehlstande f(τσ) = f(σ)± 1 gilt.

Aufgabe 12.5. Zeige, dass fur σ ∈ Sn folgende Aussagen aquivalent sind:

a) f(σ) ist gerade.

b) Sind τ1, τ2, . . . , τn Nachbartranspositionen mit σ = τ1τ2 · · · τn, so ist n gera-de.

c) σ ist das Produkt einer geraden Anzahl von Nachbartranspositionen.

Hinweis: Benutze Aufgabe 12.4. Zusatz (2 Punkte): Zeige, dass die Aquivalenzen auchgelten, wenn man in b) beliebige Transpositionen τ1, ..., τn zulaßt.

15. Ubungsblatt 15 227

13. Ubungsblatt 13

Aufgabe 13.1. Sei Z = x ∈ Rn |Ax ≥ b mit A ∈ Rm×n und b ∈ Rm. Zeige: Zuy ∈ Z sind folgende Aussagen aquivalent:

a) A enthalt n linear unabhangige Zeilen Ai mit Aiy = bi,b) y ist eine Ecke von Z.

Aufgabe 13.2. Beweise Satz 12.16 und Satz 12.17 aus der Vorlesung:

a) Jedes Polyeder P ⊂ Rn ist disjunkte Vereinigung von endlich vielen Simpli-zes.

b) Jedes Polyeder im Rn ist Durchschnitt von endlich vielen Halbraumen.

Aufgabe 13.3. Zeige:

a) Fur beliebige Mengen C1, . . . , Cm ⊆ Rn gilt:

kon

(m⋃i=1

kon(Ci)

)= kon

(m⋃i=1

Ci

).

b) Sei K ⊆ Rn konvexe Hulle endlich vieler Punkte. Jeder Punkt p ∈ K istKonvexkombination von n+ 1 der gegebenen Punkte.

14. Ubungsblatt 14

Aufgabe 14.1. Sei K aff= K ′ mit der affinen Bijektion φ. Zeige:

a) K konvex ⇒ K ′ konvex.b) φ(E(K)) = E(φ(K)).

Aufgabe 14.2. Transformiere das allgemeine LP-Problem mit x, c, ai, ai ∈ Rn

min cTx mit aTi x = bi fur i ∈Maix ≥ bi fur i ∈Mxj ≥ 0 fur j ∈ N

(xj mit j ∈ N sind freie Variable) in die kanonische Form. Zeige, dass die Zulassig-keitsbereiche bei der Transformation affin isomorph bleiben. Gib entsprechende affineBijektionen an.

Aufgabe 14.3. Transformiere das allgemeine LP-Problem von Aufgabe 14.2 in dieStandardform. Zeige, dass die Zulassigkeitsbereiche bei der Transformation affin iso-morph bleiben. Gib entsprechende affine Bijektionen an.

15. Ubungsblatt 15

Aufgabe 15.1. Sei M ⊂ Rn ,M 6= ∅. Zeige:

a) aff(M) =∑k

i=1 λipi

∣∣∣∣ k ∈ N, λi ∈ R,pi ∈M,

∑ki=1 λi = 1

.

b) cone(M) =∑k

i=1 λipi

∣∣∣ k ∈ N, λi ∈ R≥0, pi ∈M

.

228 B. Ubungsaufgaben

Aufgabe 15.2. Sei P ⊆ Rn ein Polyhedron mit E(P ) 6= ∅ und f : Rn → R linear mitinfx∈P f(x) > −∞. Zeige: p ∈ E(P ) ist Minimalstelle von f gdw. es keine Nachbareckeq zu p gibt mit f(q) < f(p) (q ist Nachbarecke zu p, wenn [p, q] Kante von P ist).Beachte auch Sonderfalle, wie E(P ) = p.Aufgabe 15.3. Zeige:

a) Sind Ci fur i ∈ I endlich viele, endlich erzeugte Kegel, dann auch⋂i∈I

Ci.

b) Zu A ∈ Rm×n ist x ∈ Rn |Ax ≤ 0 ein endlich erzeugter Kegel.

16. Ubungsblatt 16

Aufgabe 16.1. Zeige: Jedes Polyhedron P = x ∈ Rn |Ax ≤ b mit A ∈ Rm×n undb ∈ Rm ist Summe P = Q+ C eines Polyeders Q und eines polyhedralen Kegels C.Hinweis: Zeige, es gibt endlich viele

(xiλi

)∈ Rn+1, λi ∈ 0, 1 fur i = 1, . . . , k, mit

a)(

)∈ Rn+1

∣∣Ax− λb ≤ 0, λ ≥ 0

= cone((

x1

λ1

), . . . ,

(xkλk

))b) P = kon(xi | λi = 1) + cone(xi | λi = 0).

Aufgabe 16.2. Sei Q ⊆ Rn ein Polyeder und C ⊆ Rn ein endlich erzeugter Kegel.Zeige: Q+C ist Polyhedron. Hinweis: Sei Q := kon(x1, ..., xk), C := cone(y1, . . . , ym).Zeige und benutze: x0 ∈ Q+ C gdw.

(x0

1

)∈ cone

((x1

1

), . . . ,

(xk1

),(y1

0

), . . . ,

(ym0

)).

Aufgabe 16.3. Beweise den Dualitatssatz fur die Standardform (Korollar 13.20)

LPstdminimiere cTx, so dass Ax = b

x ≥ 0

und das zugehorige duale Programm:

LP*std

maximiere bT y, so dass AT y + s = cs ≥ 0.

17. Ubungsblatt 17

Aufgabe 17.1. Beweise Satz 13.14 aus der Vorlesung. Fur den ZulassigkeitsbereichZstd gilt:

a) Zwei Ecken p, p′ ∈ E(Zstd), p 6= p′, sind genau dann benachbart, d.h. [p, p′] isteine Kante von Zstd, wenn zulassige, benachbarte Basis-Nichtbasis-Partitionen(B,N), (B′, N ′) mit p = Φ(B,N) und p′ = Φ(B′, N ′) existieren.

b) Falls fur zwei zulassige, benachbarte Basis-Nichtbasis-Partitionen (B,N) und(B′, N ′) die Basislosungen Φ(B,N) und Φ(B′, N ′) nicht benachbart sind, giltΦ(B,N) = Φ(B′, N ′) und die Ecke ist degeneriert.

Aufgabe 17.2. Lose folgendes lineares Programm per Hand mit Hilfe des Simplex-Tableaus: Minimiere −x1 − 2x2, so dass

−2x1 + x2 ≤ 2−x1 + x2 ≤ 3

x1 ≤ 3x1, x2 ≥ 0.

19. Ubungsblatt 19 229

Zeichne den Losungspolyhedron und markiere die jeweils zum Simplex-Tableau gehoren-de Basislosung bzw. Ecke.

Aufgabe 17.3. Beweise folgende Variante des Farkas Lemmas (Korollar 12.44). FurA ∈ Rm×n, b ∈ Rn sind folgende Aussagen aquivalent:

a) ∃x : Ax ≤ b.b) ∀y ≥ 0 mit yTA = 0 gilt yT b ≥ 0.

Hinweis: Wende Variante I von Farkas’ Lemma (Korollar 12.43 aud Seite 149) anauf A′ := (Im, A,−A).

18. Ubungsblatt 18

Aufgabe 18.1. Zeige das Trennungslemma fur Kegel: Zu a1, . . . , am, b ∈ Rn mitrang(a1, . . . , am, b) = t sind folgende Aussagen aquivalent:

a) b 6∈ KH(a1, . . . , am),b) Es gibt ein c ∈ Rn mit cT b < 0, cTa1 ≥ 0, . . . , cTam ≥ 0 und cTai = 0 fur

t− 1 linear unabhangige ai.

Aufgabe 18.2. Ein Kegel mit Spitze ist ein Kegel mit Ecke 0 und Dimension ≥ 1.Sei fi die Anzahl der Seiten der Dimension i. Zeige:

d∑i=0

(−1)ifi =

1 fur Polyeder und Kegel ohne Spitze der Dimension ≤ d0 fur Kegel mit Spitze der Dimension ≤ d.

Benutze die eulersche Polyederformel fur beliebige Polyeder.

Aufgabe 18.3. Beweise die eulersche Polyederformel∑d

i=0(−1)ifi = 1 fur beliebiged-Polyeder durch Induktion uber die Anzahl # E(P ) der Ecken mit Verankerung bei# E(P ) = 1. Hinweis: Seien e1, e2 benachbarte Ecken und das Polyeder P ′ entsteheaus P durch Verschmelzen von e1, e2. Zeige:

∑di=0(−1)i(fi − f ′i) = 0.

19. Ubungsblatt 19

Aufgabe 19.1. Sei Cn der C-Vektorraum mit dem kanonischen Skalarprodukt 〈·, ·〉.Beweise die Cauchy-Schwarz’sche Ungleichung:

| 〈v, w〉 | ≤ ‖v‖ · ‖w‖

Reduziere auf den Fall v, w ∈ C2 mit v ∈ C(1, 0)T .

Aufgabe 19.2. Sei C([0, 2π],R) der R-Vektorraum der 2π-periodischen, stetigen Funk-tionen,

B := 12

√2 ∪ cos kx | k ∈ Z \ 0 ∪ sin kx | k ∈ Z \ 0

und 〈f, g〉 := 1π

∫ 2π0 f(x)g(x)dx. Zeige:

a) B ist eine Orthonormalbasis.

b) Fur f(x) = a02

√2 +

n∑k=1

(ak cos kx + bk sin kx) gilt ak = 〈f, cos kx〉 und bk =

〈f, sin kx〉. Die ak und bk heißen Fourierkoeffizienten von f .

230 B. Ubungsaufgaben

Aufgabe 19.3. Sei f ∈ C([0, 2π],R) mit Fourierkoeffizienten ak, bk wie in Aufgabe19.2. Zeige die Bessel’sche Ungleichung:

‖f‖2 ≥ a20

2+∞∑k=1

(a2k + b2k).

20. Ubungsblatt 20

Aufgabe 20.1. Zeige das Determinanten-Multiplikation-Theorem (Fakt 14.23) furden Fall, dass

A = [ei1 , . . . , ein ]> mit 1 ≤ i1, . . . , in ≤ m.

Dabei sei ej ∈ Km der j-te Einheitsvektor. Hinweis: [Fischer97, 3.3.7].

Aufgabe 20.2. Sei A ∈ O2(R) eine orthogonale Matrix. Zeige, dass

A =(

cosα − sinαsinα cosα

)oder A =

(cosα sinαsinα − cosα

)fur genau ein α ∈ [0, 2π[ und genau einen der beiden Falle. Interpretiere A im erstenFall als Drehung und im zweiten Fall als Spiegelung an einer Geraden.

Aufgabe 20.3. Sei A = (In, a) ∈ Kn×(n×1) mit a ∈ Kn. Zeige detAAT = 1 + aTa.Beweise auch das Determinanten-Multiplikations-Theorem fur diesen Spezialfall.

21. Ubungsblatt 21

Aufgabe 21.1. Sei K ein Korper der Charakteristik ungleich 2, d.h. 1 + 1 6= 0. SeiA ∈Mn,n(K) symmetrisch mit A 6= 0. Zeige: Es gibt ein T ∈Mn,n(K) mit detT 6= 0,so dass fur A′ = T TAT gilt a′11 6= 0. Vorschlag:

(1) Falls a1,1 = 0, vertausche die Zeilen/Spalten von A, so dass a1,2 = a2,1 6= 0.

(2) Lose das Problem fur A′ = (ai,j)1≤i,j≤2.

Aufgabe 21.2. Sei

A =

0 0 1 00 1 1 21 1 0 00 2 0 2

∈ Z4×43 .

Konstruiere T ∈M4,4(Z3) mit T TAT = D Diagonalmatrix.

Aufgabe 21.3 (6 Punkte). Beweise Satz 14.38 auf Seite 185. Zeige: Zu A ∈ On(R)gibt es S ∈ On(R), so dass STAS Diagonalkastenmatrix ist mit Kasten ±1 ∈ R1×1,(

cosα − sinαsinα cosα

),

(cosα sinαsinα − cosα

)∈ R2×2.

Hinweis: Als Nullstellen von χA kommen in Frage: ±1 und Paare konjugiert komple-xer Zahlen λ, λ mit |λ| = 1. Sind z, z ∈ Cn Eigenvektoren zu λ, λ mit z = x + iy,z = x− iy, dann ist 〈x, y〉 = 0 und x, y 6= 0. Siehe [Fischer97, 5.5.6].

22. Ubungsblatt 22 231

22. Ubungsblatt 22

Aufgabe 22.1. Sei A ∈ Mn,n(C) hermitesch. Zeige: A ist positiv definit gdw. al-le Hauptminoren von A positiv sind. Die Hauptminoren von A = (ai,j)i≤i,j≤n sinddet(ai,j)1≤i,j≤m fur m = 1, . . . , n. Hinweis: Wie verandern sich die Hauptminoren beider Hauptachsentransformation von Satz 14.24?

Aufgabe 22.2. Zeige fur A ∈Mn,n(C):

a) χA =∑n

i=0 ciλi gdw. χA =

∑ni=0 ciλ

i.b) Ist A hermitesch, dann ist χA ∈ R[λ].

Aufgabe 22.3. A ∈ Cn×n heißt anti-hermitesch, wenn AT = −A. Zeige:

a) Ist A anti-hermitesch, dann auch T TAT .b) Ist A anti-hermitesch, dann gibt es ein T ∈ GLn(C), so dass in T TAT

hochstens zwei Nebendiagonalen ungleich null sind.

Literaturverzeichnis

[AC78] D. Avis und V. Chvatal: Notes on Bland’s Pivoting Rule, Mathematical Program-ming Study, Band 8, Seiten 23–34, 1978.

[Beu98] A. Beutelspacher: Lineare Algebra, Vieweg, Braunschweig/Wiesbaden, dritte Auf-lage, 1998.

[Bland77] R.G. Bland: New finite Pivoting Rules for the Simplex Method, Mathematics Opera-tion Research, Band 2, Seiten 103–107,1977.

[Cassels71] J.W.S. Cassels: An Introduction to the Geometry of Numbers, Springer-Verlag, Ber-lin/Heidelberg, 1971.

[CS93] J.H. Conway und N.J.A. Sloane: Sphere Packings, Lattices and Groups, Springer,New York, zweite Auflage, 1993.

[CJLOSS92] M.J. Coster, A. Joux, B.A. LaMacchina, A.M. Odlyzko, C.P. Schnorr undJ. Stern: An improved low-density Subset Sum Algorithm, Computational Complexity,Band 2, Seiten 111–128, 1982.

[Dantzig51] G.B. Dantzig: Maximization of a Linear Function of Variables Subject to LinearInequalities, in T. Koopmans (Hrsg): Activity Analysis of Production and Allocation,Seiten 339–347, John-Wiley & Sons, New York, 1951.

[Dantzig66] G.B. Dantzig: Lineare Programmierung und Erweiterungen, Springer-Verlag, Ber-lin/Heidelberg, 1966.

[Dantzig83] G.B. Dantzig: Reminiscences About the Origins of Linear Programming, in A. Ba-chem, M. Grotschel und B. Korte (Hrsg.): Mathematical Programming: The State ofof Art, Springer-Verlag, Berlin/Heidelberg, 1983.

[Fischer92] G. Fischer: Analytische Geometrie, Vieweg Studium — Grundkurs Mathematik,Vieweg Verlag, Wiesbaden, 1992.

[Fischer97] G. Fischer: Lineare Algebra, Vieweg, Braunschweig/Wiesbaden, 11.te Auflage, 1997.

[Forster92] O. Forster: Analysis 1, Vieweg, Braunschweig/Wiesbaden, vierte Auflage, 1992.

[FS78] G. Fischer und R. Sacher: Einfuhrung in die Algebra, Teubner, Stuttgart, zweiteAuflage, 1978.

[G86] F.R. Gantmacher: Matrizentheorie, Springer, Berlin/Heidelberg, , 1986.

[GL96] G. H. Golub und C. F. van Loan: Matrix Computations, John Hopkins UniversityPress, Baltimore und London, dritte Auflage, 1996.

[Janrich96] K. Janich: Lineare Algebra, Springer, Berlin/Heidelberg, sechste Auflage, 1996.

[Karloff91] H. Karloff: Linear Programming, Progress in Theoretical Computer Science,Birkhauser, Boston, 1991.

233

234 Literaturverzeichnis

[Ka84] N.K. Karmakar: A new Polynomial-Time Algorithm for Linear Programming, Com-binatorica, Band 4, Seiten 373-395, 1984.

[Kh79] L.G. Khachiyan: A Polynomial-Time Algorithm for Linear Programming, DokladyAkademiia Nauk USSR, Band 244, Seiten 1093–1096, 1979. Englische Ubersetzung inSoviet Mathematics Doklady, Band 20, Seiten 191–194, 1980.

[KM72] V. Klee und G.J. Minty: How good is the Simplex Algorithms?, in O. Sisha (Hrsg.):Inequalities, Band III, Academic Press, New York, Seiten 159–175, 1972.

[Koe83] M. Koecher: Lineare Algebra und analytische Geometrie, Springer, Ber-lin/Heidelberg, 1983.

[LaOd85] J.C. Lagarias und A.M. Odlyzko : Solving low-density Subset Sum Problems, Jour-nal of ACM, Band 32, Nr. 1, Seiten 229–246, 1985.

[LLL82] A.K. Lenstra, H.W. Lenstra und L. Lovasz: Factoring Polynomials with RationalCoefficients, Springer Mathematische Annalen, Band 261, Seiten 515–534, 1982.

[Lint98] J.H. van Lint: Introduction to Coding Theory, Springer, New York, dritte Auflage,1998.

[MS86] F. J. MacWilliams und N.J.A. Sloane: The Theory of Error Correcting Codes.North-Holland, Amsterdam, funfte Auflage, 1986.

[PS82] C.H. Papadimitriou und K. Steiglitz: Combinatorical Optimization: Algorithmsand Complexity, Prentice-Hall, Eaglewood Cliffs, New Jersey, 1982.

[S86] A. Schrijver: Theory of Linear and Integer Programming, Wiley-Interscience Seriesin discrete Mathematics and Optimization, John Wiley & Son, New York, 1986.

[V97] R.J. Vanderbei: Linear Programming: Foundations and Extensions, Kluwer AcademicPress, Bosten, 1997.

[W96] J. Wolfart: Einfuhrung in die Zahlentheorie und Algebra. Vieweg, Braun-schweig/Wiesbaden, 1996.

Index

AbbildungHomomorphismus, 23lineare, 63

Abel, Niels Hendrik, 21Abstand, 118Adjunkte, 101affin

-er Halbraum, 135-e Hulle, 135isomorph, 140unabhangig, 135-er Untervektorraum, 31

Dimension, 135Gerade, 31parallel, 31

alternierende Gruppe, 97Annulator, 175Aquivalenzrelation, 28

Codes, 79Matrizen, 105

Assoziativitat, 13Ausartungsraum, siehe NullraumAustauschsatz von Steinitz, 38Automorphismus, 24

komplexe Zahlen, 25

Basis, 34Darstellung, 35-erganzungssatz, 38Gitter-, 76, 201Isomorphismus, 35-losung, 157

benachbarte Ecke, 161-matrix, 77, 202Orthogonal-, 125Orthonormal-, 125Standard-, 34-variable, 157-wechsel, 68

Basis-Nichtbasis-Partition, 157

zulassige, 157Begleitmatrix, 114benachbarte Ecke, 161Bessel’sche Ungleichung, 230Betragsnorm, 117Big-M-Simplex-Algorithmus, 163Bild, 64Bilinearform, 176

degeneriert, 183indefinit, 183negativ definit, 183Nullraum, 183positiv definit, 176Rang, 177Zerlegung Vektorraum, 190

Binomialkoeffizient, 151BNP, siehe Basis-Nichtbasis-Partition

C, siehe komplexe ZahlenCardano, Geronimo, 16Cauchy-Schwarz-Ungleichung, 118, 123, 179Charakteristik, 191charakteristisches Polynom, 110, 111Chinesischer Restsatz, 88Cone, siehe KegelCosinussatz, 125Cramer’sche Regel, 102Cycling, 162

Dantzig, Georg, 154Darstellungsmatrix, 68

Transformationsformel, 68, 177Definitheit, positive, 117, 176, 177Degeneration, 158

Bilinearform, 183Simplex-Tableau, 168

Descartes, Rene, 4Determinante, 95

Berechnung, 95Diagonalmatrix, 95Eindeutigkeit, 94

236 Index

Entwicklungssatz von Laplace, 100-nfunktion, 92Gitter-, 202Leibnizformel, 97Multilinearitat, 93Multiplikationstheorem, 180Multiplikativitat, 103transponierte Matrix, 99

diagonalisierbare Matrix, 106Dimension

-sformellineare Abbildung, 64

-ssatz, 39Vektorraum, 37

Diophantische Approximation, 207direkte Summe

externe, 85innere, 85

direktes Produkt, 85, 88diskret, 201Distanz, 118Division mit Rest, 26, 48Divisionsring, siehe SchiefkorperDreiecksmatrix, 11Dreiecksungleichung, 117dual

-e Basis, 174-er Code, 78-er Kegel, 146-es Programm, 169-er Vektorraum, 173, 174

Dualitatschwache, 170starke, 170, 171Vektorraum, 173

Eckebenachbarte, 161degeneriert, 158Polyhedron, 139

Eigenraum, 108Eigenvektor, 106Eigenwert, 106

Vielfachheit, 112Eindeutigkeit

Einselement, 14, 22Inverses, 14, 22Nullelement, 14

Einheit, siehe EinselementEinheitengruppe, 22Einheits

-matrix, 10-vektor, 33

Einselement, 13Einsetzungshomomorphismus, 47Elementarmatrix, 10

Eliminationsverfahren, siehe Gauß-Algo.Endomorphismus, 24

Hauptachsentheorem, 186orthogonaler, 184selbstadjungiert, 186unitarer, 184

Epimorphismus, 24Erzeugendensystem, 33

minimales, 34erzeugendes Element, siehe GeneratorErzeugnis, siehe lineare HulleEuklid, 18euklidische

Lange, 89Norm, 117-r Vektorraum, 122, 179

Euler, Leonhard, 17Extremalpunkt, 136

Faktorring, 26, 50Faltung, 44Fehlstand, 96Flache

Polyhedron, 139Fourierkoeffizient, 229Fq, 16freie Variable, 153Frobenius-Homomorphismus, 192Frobenius-Norm, 119Fundamentalsatz der Algebra, 52Funktion

konkave, 143konvexe, 142

Galois, Evariste, 16Galoisfeld, 16Gauß, Carl Friedrich, 4, 18, 52Gauß-Algorithmus, 3Gauß’sche Zahlenebene, 17Generator

Gruppe, 198-matrix, 77

Generatormatrixkanonische, 79

Gerade, 31Halb-, 141

Gitter, 76, 201-basis, 76, 201Basismatrix, 202-determinante, 202Grundmasche, 203Rang, 201

gitterartige Kugelpackung, 76GLn, 22, 128Grad

Polynom, 42

Index 237

Gram-Matrix, 202Gram-Schmidt-Koeffizient, 126Grundmasche, 203Gruppe, 21

abelsche, 21alternierende, 97Generator, 198Homomorphismus, 23kommutative, 21Ordnung eines Elementes, 198orthogonale Matrizen, 128primitives Element, 198symmetrische, 96Unter-, 23zyklisch, 198

Halbgerade, 141Halbgruppe, 21

Homomorphismus, 24Halbraum, 135Hamilton, William Rowan, 20Hamming

-Code, 80-Distanz, 72-Gewicht, 72-Radius, 73

Hamming, Richard W., 72, 80Hauptachsentheorem, 186Hauptachsentrandformation

symmetrische Matrizen, 181Hauptminor, 231hermitesch

-Formpositiv definit, 178

-e Form, 178-e Matrix, 178

hermitescheanti-, 231

Holder’sche Ungleichung, 118Homogenitat

positive, 117Homomorphieprinzip, 24Homomorphismus, 23

Bild, 24Frobenius-, 192Gruppen-, 23Halbgruppen-, 24Kern, 24Korper, 24Monoid-, 24Ring-, 24

Hyperebene, 31

imaginare Einheit, 17Imaginarteil, 17indefinit

Bilinearform, 183Injektion, 86Integritatsbereich, siehe IntergritatsringIntergritatsring, 19Interpolationspolynom, 55

Lagrange’sche Form, 56Interpolationsproblem, 55Inverses, 13irreduzibles Polynom, 195Isometrie, siehe orthog. Endomorhismusisometrische Abbildung, 127, 184isomorph, 25

affin, 140Isomorphismus, 24

affiner, 140Iwasawa-Zerlegung, 129

Jordan-Kastchen, 106, 113Jordan-Normalform, 116

kanonische Form, 154duales Programm, 169

KantePolyhedron, 139

Kantorvicz, L.V., 154kartesisch

-e Koordinaten, 4-es Produkt, 85

Kastchensatz, 104Kegel, 145

dualer, 146endlich erzeugter, 146

Kepler, Johannes, 77Kern, 64Kodierungstheorie, 71Koeffizient, 3Kommutativitat, 13komplementare Matrix, 101komplementare Slackness, 171komplexe Konjugation, 25komplexe Zahlen, 16

imaginare Einheit, 17Imaginarteil, 17Polarkoordinaten, 17Realteil, 17

komplexer Vektorraum, 178Skalarprodukt, 178

Komposition, 22kongruent, 28konjugiert komplexe Zahl, 25konkave Funktion, 143Kontrollmatrix, siehe PCH-MatrixKonvergenz

quadratische, 121konvexe

Funktion, 142

238 Index

Hulle, 133Menge, 133

Extremalpunkt, 136Konvexkombination, 133Konvolution, 44Koopmans, T.C., 154Koordinaten

-funktion, 68Koordinatenvektor, 35Korper, 13, 22

angeordnet, 15Charakteristik, 191endlicher, 16-Homomorphismus, 24komplexe Zahlen, 16Prim-, 193Unter-, 19Zerfallungs-, 196

Kostenfunktion, siehe ZielfunktionKreisen, 162Kronecker-Symbol, 10Kugel, 73, 119

Lagarias, J.C., 209Lagrange-Koeffizient, 57Laplace’scher Entwicklungssatz, 100Laplace, Pierre Simon, 100Leibniz, Gottfried Wilhelm, 97LGS, siehe lineares Gleichungssystem

Dimension homogener, 62linear abhangig, 33linear unabhangig, 33lineare Abbildung, 63

Basiswechsel, 68charakteristisches Polynom, 111Darstellungsmatrix, 68Dimensionsformel, 64Eigenvektor, 106Eigenwert, 106isometrische, 127, 184orthogonale, 127, 184Projektion, 84Rang, 65Vektorraum, 63

lineare Gleichung, 3lineare Hulle, 32linearer Code, 71, 72

aquivalenter, 79Basismatrix, 77binarer, 72Dekodierung, 72dualer Code, 78t-fehlererkennend, 73t-fehlerkorrigierend, 73Generatormatrix, 77guter, 74

Hamming-Code, 80Hamming-Distanz, 72Hamming-Gewicht, 72Informationsbits, 74Informationsrate, 74Korrekturbits, 74Korrekturrate, 74Minimalabstand, 72Minimalgewicht, 73Paritatscode, 75PCH-Matrix, 79Singleton-Schranke, 225t-perfekter, 76

linearer Raum, siehe Vektorraumlineares Gleichungssystem

Losungsmenge, 4lineares Gleichungssystem, 3

Cramer’sche Regel, 102Gauß-Algorithmus, 3homogenes, 8Treppenform, 5Vektorraum, 32

lineares Programmduales, 169kanonische Form, 154Optimalitatskriterium, 160Standardform, 155widerspruchliches, 155zulassiges, 155

Linearform, 174Linearkombination, 32LosungsmengeLosungsmenge

lineares Gleichungssystem, 4lineares Programm, 155

Manigfaltigkeit, 175Matrix, 3

Adjunkte, 101ahnliche, 105anti-hermitesch, 231Aquivalenzrelation, 105, 189Begleit-, 114blockdiagonale, 114charakteristisches Polynom, 110Darstellungsmatrix, 68Determinante, 95diagonalisierbar, 106Dreiecks-, 11Eigenvektor, 106Eigenwert, 106Einheits-, 10Elementar-, 10erweiterte, 4Gruppen, 128hermitesche, 178invertieren, 38, 95, 101

Index 239

Iwasawa-Zerlegung, 129Jordan-Normalform, 116komplementare Matrix, 101kongruente, 189Minor, 101-norm, 119

Submultiplikativitat, 120Normalform, 114orthogonale, 127, 184Permutations-, 12positiv definit, 177, 178Produkt, 9Rang, 60Spaltenrang, 59Spaltenraum, 59Streichungs-, 100symmetrische

Hauptachsentransformation, 181Tragheitsindex, 189transponierte, 220Treppenform, 5unitare, 184Vandermonde-Matrix, 56, 101Zeilenrang, 59Zeilenraum, 59

Maximum-Likelihood-Dekodierung, 72Maximumsnorm, 117Mehrdeutigkeit

Simplex-Tableau, 168Metrik, 118Minimal

-abstand, 72-Distanz-Dekodierung, 72-gewicht, 73

Minimalestellelokale, 142

Minkowski, Hermann, 137Minor, 101modulo, 26Monoid, 21

Homomorphismus, 24Monom, 41Monomorphismus, 24multilineare Funktion, 93

Nachbartransposition, 96negativ definit

Bilinearform, 183von Neumann, John, 169Nichtbasisvariable, 157Nichtnegativitatsbedingung, 153Norm, 117

Aquivalenz, 118Betrags-, 117Euklidische, 117Frobenius-, 119

Matrix-, 119Maximums-, 117

Normalform, 114Jordan-, 116selbstadjungierter Endomorphismus, 186

Nullelement, 13Nullpolynom, 41Nullraum

Bilinearform, 183Nullstelle, 51Nullstellenmenge, 175Nullteiler, 14

Odlyzko, A.M., 209Orthogonal

-basis, 125-es Komplement, 125-raum, 78, 83-vektoren, 90

orthogonal-e Abbildung, 127, 184-er Endomorhismus, 184-e Gruppe, 128-es Komplement, 83-e Matrix, 127, 184-e Projektion, 84

OrthogonalisierungGram-Schmidt-Koeffizient, 126Schmidt’sches Verfahren, 126

Orthogonalitat, 78, 125Orthonormal

-basis, 125-system, 125

Packungsdichte, 76parallel, 31Parallelepiped, 90Parallelflach, siehe ParallelepipedParallelogrammgleichung, 125Parallelotop, siehe ParallelepipedPCH-Matrix, 79

kanonische, 79Permutation, 95, 96

alternierende Gruppe, 97Fehlstand, 96gerade, 97-smatrix, 12Nachbartransposition, 96Signum, 97symmetrische Gruppe, 96Transposition, 96ungerade, 97

Pivot-Regel, 161Best-Improvement-Regel, 161Blands, 162Nonbasic-Gradient-Methode, 161

240 Index

Pivot-Wahl, 161Pivotelement, 7Polarkoordinaten, 17Polyeder

-formel, 150konvexer, 135

Polygon, 135Polyhedral, 145Polyhedron, 135

Dimension, 135Ecke, 136, 139Flache, 139Kante, 139Seite, 138

Polynom, 41Begleitmatrix, 114charakteristisches, 110Division mit Rest, 48Einsetzungshomomorphismus, 47Faktorring, 50fuhrender Koeffizient, 42Gleichheit, 42Gradformel, 45-ideal, 175Interpolations-, 55irreduzibles, 195Koeffizientenvektor, 43konstantes, 42Lagrange-Koeffizient, 57Linearfaktor, 51normiertes, 42, 114Null-, 41Nullstelle, 51Produkt, 44-Ring, 46Skalarmultiplikation, 43Summe, 43-vektorraum, 44Wurzel, 51Zerfall in Linearfaktoren, 52

Polytope, 135positiv definit

Bilinearform, 176hermitesche Form, 178Matrix, 177, 178

Primkorper, 193Projektion, 84Prufmatrix, siehe PCH-Matrix

quadratische Form, 179Quaternionen-Schiefkorper, 20

Radikalideal, 175Rang, 60

Bilinearform, 177Gitter, 201

linearen Abbildung, 65Realteil, 17Reprasentant

Restklasse, 26Rest, 26, 48Restklasse, 26

Reprasentant, 26Richtungsraum, 31, 135Ring, 19, 23

-Homomorphismus, 24Intergritats-, 19kommutativer, 19mit Eins, 19nullteilerfrei, 19Polynom-, 46Unter-, 20

Rucksack-Problem, 208Ruffini, 51

SatzCayley-Hamilton, 116Fundamentalsatz der Algebra, 52Ruffini, 51Tragheits-, 189

Schattenpreis, 160Schiefkorper, 20

Quaternionen-, 20Schlupfvariable, 155Schmidt-Orthogonalisierungsverfahren, 126Seite

Polyhedron, 138selbstadjungierter Endomorphismus, 186

Hauptachsentheorem, 186Sesquilinearform, 178Signum, 97Simplex, 135Simplex-Algorithmus

Big-M-, 163Tableau, 164

Simplex-TableauKurzform, 168

Singleton-Schranke, 225Skalarprodukt, 122, 176

kanonisches, 122, 178komplexer Vektorraum, 178

Slack-Variable, 155Spann, siehe lineare HulleStandardform, 155Streichungsmatrix, 100Stutzebene, 138, 145Submultiplikativitat

Matrixnorm, 120Subsetsum-Problem, siehe Rucksack-ProblemSylvester

Tragheitssatz, 189symmetrische Gruppe, 96

Index 241

Tragheitsindex, 189Tragheitssatz, 189Transformationsformel

Darstellungsmatrizen, 68, 177transponierte Matrix, 220Transposition, 96Trennungslemma, 144Treppenform, 5

Unbestimmte, 3, 41Ungleichung

Bessel’sche, 230Cauchy-Schwarzsche, 118, 123, 179Dreiecks-, 117Holder’sche, 118

unitar-e Abbildung, 184-e Endomorhismus, 184-e Matrix, 184-er Vektorraum, 179

Unter-korper, 19-vektorraum, 31

affiner, 31, 135

Vandermonde-Matrix, 56, 101Variable

freie, 6gebundene, 6

Variablen-Splitting, 153Vektor, 4

Einheitsvektor, 33Lange, 89-norm, 117orthogonal, 125Spalten-, 4Zeilen, 4

Vektorraum, 29Basis, 34Dimension, 37dualer, 173Erzeugendensystem, 33euklidischer, 122, 179komplexer, 178lineare Abbildung, 63Metrik, 118Norm, 117Orthogonalbasis, 125Orthogonalraum, 78, 83Orthonormalbasis, 125Polynom-, 44Skalarprodukt, 122unitarer, 179Unter-, 31

Verbindungsstrecke, 133Vielfachheit

Eigenwert, 112Nullstelle, 51

Volumen, 91

widerspruchliches lineares Programm, 155Winkel, 124wohldefiniert, 27

Zerfallungskorper, 196Zielfunktion, 153

relative, 159Zn, 26zulassiges lineares Programm, 155Zwei-Phasen-Simplex-Algorithmus, 162zyklische Gruppe, 198