curso de Álgebra linear aplicada - matemática - ufabc...

186
CURSO DE Álgebra Linear Aplicada Antonio Cândido Faleiros Centro de Matemática, Computação e Cognição Universidade Federal do ABC Santo André, SP 6 de abril de 2009

Upload: nguyendung

Post on 13-Feb-2019

238 views

Category:

Documents


1 download

TRANSCRIPT

CURSO DE

Álgebra Linear Aplicada

Antonio Cândido Faleiros

Centro de Matemática, Computação e CogniçãoUniversidade Federal do ABC

Santo André, SP

6 de abril de 2009

Sumário

1 Equações lineares 11.1 Equação algébrica linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Produto escalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Sistemas de equações algébricas lineares . . . . . . . . . . . . . . . . . . . 41.4 Sistema escalonado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5 Sistema inferiormente escalonado . . . . . . . . . . . . . . . . . . . . . . . 91.6 Sistemas equivalentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.7 O método da eliminação de Gauss . . . . . . . . . . . . . . . . . . . . . . . 111.8 Matrizes inversas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.9 Matrizes elementares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.10 Cálculo da inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.11 Fatoração LU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.12 Decomposição PLU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261.13 Decomposição de Cholesky . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2 Espaço vetorial 332.1 Conceito de espaço vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.2 Dependência linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.3 Base e dimensão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.4 Matriz de mudança de base . . . . . . . . . . . . . . . . . . . . . . . . . . 402.5 Subespaço vetorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.6 Subespaço gerado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3 Transformação linear 493.1 Matriz de uma transformação linear . . . . . . . . . . . . . . . . . . . . . . 543.2 Isomorfismo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573.3 Transformações lineares em Cm×1 . . . . . . . . . . . . . . . . . . . . . . . 60

4 Produto interno e norma 614.1 Produto interno em espaços vetoriais reais . . . . . . . . . . . . . . . . . . 614.2 Produto interno em espaços vetoriais complexos . . . . . . . . . . . . . . . 624.3 Funcional linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.4 Norma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

i

ii Notas de aula do Prof. Antonio Cândido Faleiros

4.5 Ortogonalização de Gram-Schmidt . . . . . . . . . . . . . . . . . . . . . . 684.6 Decomposição QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5 Soma de subespaços 775.1 Soma direta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785.2 Complemento ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6 Transformação adjunta 816.1 Posto de uma transformação linear . . . . . . . . . . . . . . . . . . . . . . 856.2 Existência de solução dos sistemas lineares . . . . . . . . . . . . . . . . . . 87

7 Projetores 897.1 Projetores ortogonais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 897.2 Projetores ortogonais em Cm×1 . . . . . . . . . . . . . . . . . . . . . . . . 927.3 Ortogonalização de Gram-Schmidt em Cm×1 . . . . . . . . . . . . . . . . . 947.4 Ortogonalização modificada de Gram-Schmidt . . . . . . . . . . . . . . . . 957.5 Contagem das operações . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

8 Refletor de Householder 998.1 Decomposição QR usando o refletor de Householder . . . . . . . . . . . . . 1018.2 O algoritmo para calcular R . . . . . . . . . . . . . . . . . . . . . . . . . . 1038.3 Contagem das operações . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1048.4 O algoritmo para calcular Q∗ . . . . . . . . . . . . . . . . . . . . . . . . . 1048.5 O algoritmo para calcular Q . . . . . . . . . . . . . . . . . . . . . . . . . . 105

9 Mínimos quadrados 1079.1 Mínimos quadrados e a decomposição QR . . . . . . . . . . . . . . . . . . 1099.2 Pseudo inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1099.3 Reta de regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1109.4 Interpolação polinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1119.5 Ajuste polinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1129.6 Aproximação polinomial de funções . . . . . . . . . . . . . . . . . . . . . . 1129.7 Aproximação trigonométrica . . . . . . . . . . . . . . . . . . . . . . . . . . 114

10 Autovalores e autovetores 115

11 Espaços Invariantes 12311.1 Polinômio mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12511.2 Matrizes em bloco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13111.3 Decomposição primária . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13211.4 Diagonalização de operadores normais . . . . . . . . . . . . . . . . . . . . . 13511.5 Decomposição de Schur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13911.6 Decomposição em valores singulares . . . . . . . . . . . . . . . . . . . . . . 141

Notas de aula do Prof. Antonio Cândido Faleiros iii

12 Forma canônica de Jordan 14712.1 Operadores nilpotentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14712.2 Forma canônica de Jordan . . . . . . . . . . . . . . . . . . . . . . . . . . . 15112.3 Subespaços cíclicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15312.4 Forma canônica racional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15412.5 Forma triangular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15512.6 Espaços quocientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

13 Aplicações 159

A Matrizes 161A.1 Matrizes especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162A.2 Multiplicação de matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . 163A.3 Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164A.4 Operações elementares e matrizes elementares . . . . . . . . . . . . . . . . 166

B Determinante 169B.1 Permutação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169B.2 Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171B.3 Cofator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174B.4 Regra de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177B.5 Determinante de Vandermonde . . . . . . . . . . . . . . . . . . . . . . . . 178B.6 Determinante, uma definição alternativa . . . . . . . . . . . . . . . . . . . 179

iv Notas de aula do Prof. Antonio Cândido Faleiros

Capítulo 1

Equações lineares

1.1 Equação algébrica linear

Uma equação algébrica linear típica nas variáveis x1, x2 e x3 é

x1 + 2x2 − 3x3 = 5.Resolvê-la significa determinar todos os valores reais para x1, x2 e x3 que tornam ver-dadeira a igualdade. Neste caso, explicitando x1 em relação a x2 e x3 na equação, obte-mos x1 = 5− 2x2+ 3x3. Para qualquer x2 e x3 reais, basta tomar x1 = 5− 2x2+ 3x3 paraobter uma solução. Neste exemplo, temos uma infinidade de soluções, onde podemosvariar livremente x2 e x3.De modo geral, dados os números reais a1, . . . , an e b, uma equação da forma

a1x1 + · · ·+ anxn = b (1.1)

é chamada de equação algébrica linear nas variáveis x1, x2, . . . , xn. As variáveistambém são chamadas de incógnitas por serem os valores a serem determinados paravaler a igualdade. Os números reais ai são chamados de coeficientes e b é a constante daequação. A primeira incógnita com coeficiente não nulo é chamada de variável principalou incógnita principal e as demais são chamadas de variáveis livres.Uma matriz coluna real v = [v1, . . . , vn]T é solução desta equação quando

a1v1 + · · ·+ anvn = b.

Diz-se ainda que a ênupla de números reais (v1, . . . , vn) satisfaz a equação.Uma equação

0x1 + · · ·+ 0xn = b,

em que todos os coeficientes são nulos é degenerada. Se b for igual a zero, então todamatriz coluna [x1, . . . , xn]T é solução. Se b for diferente de zero, a equação degeneradanão possui solução.As equações não degeneradas com duas ou mais variáveis possui infinitas soluções.

Uma equação não degenerado com uma única variável possui uma única solução.

1

2 Notas de aula do Prof. Antonio Cândido Faleiros

Exemplo 1.1 Para todo s real, a matriz coluna [7 + 3s, 2s]T é solução de 2x1− 3x2 = 8que, portanto, possui infinitas soluções. A variável s que aparece neste exemplo é chamadode parâmetro.

O conjunto de todas as soluções de uma equação é chamado conjunto solução ousolução geral. Cada elemento deste conjunto é, evidentemente, uma solução e, quandofor conveniente, será chamado de solução particular.Para determinar a solução geral de uma equação não degenerada a1x1+ · · ·+ anxn =

b basta explicitar a incógnita principal em função das variáveis livres.

Exemplo 1.2 Para obter a solução geral de x1− 7x2+ x3 = 1, basta explicitar x1 paraobter x1 = 1+ 7x2− x3. A solução geral é o conjunto de matrizes coluna x1

x2x3

= 1 + 7x2 − x3

x2x3

= 100

+ x2

710

+ x3

−101

.A equação

a1x1 + · · ·+ anxn = 0

é denominada de equação homogênea. Ela está associada à equação não homogênea(1.1) e, por esse motivo, é chamada de equação homogênea associada à equação nãohomogênea

a1x1 + · · ·+ anxn = b.

O uso de matrizes pode simplificar a notação. Sendo a = [a1, . . . , an]T a matriz dos

coeficientes e x = [x1, . . . , xn]T a matriz das variáveis, a equação acima pode ser

colocada na formaaTx = b.

Exemplo 1.3 Consideremos novamente a equação do exemplo anterior x1− 7x2+ x3 =1, cuja solução geral é x1

x2x3

= 1 + 7x2 − x3

x2x3

= 100

+ x2

710

+ x3

−101

.É interessante observar que [1, 0, 0]T é solução da equação e que tanto [7, 1, 0]T quanto[−1, 0, 1]T são soluções da equação homogênea associada.Este exemplo apresenta um fato geral.Se v1, . . . , vp forem soluções da equação homogênea aTx = 0, então

c1v1 + · · ·+ cpvp

continua sendo solução, para qualquer escolha dos números reais c1, . . . , cn. Esta soma échamada de combinação linear das matrizes v1, . . . , vp.Se um conjunto {v1, . . . , vp} de soluções da equação homogênea for tal que toda

solução da equação homogênea é uma combinação linear dos seus elementos, diremos queele é um conjunto gerador das soluções da equação homogênea.

Notas de aula do Prof. Antonio Cândido Faleiros 3

Exemplo 1.4 Explicitando x1 na equação x1−3x2+x3 = 0, obtemos x1 = 3x2− x3 paradaí obter todas as soluções desta equação x1

x2x3

= 3x2 − x3

x2x3

= x2

310

+ x3

−101

.Portanto, [3, 1, 0]T e [−1, 0, 1]T formam um conjunto gerador de soluções para a equaçãodada.

Se w0 for uma solução da equação não homogênea aTx = b e v for uma solução daequação homogênea Ax = 0, então w0+ v é solução da equação não homogênea. Alémdisso, se w1 for outra solução de Ax = b, então existe uma solução u de Ax = 0 tal quew1 = w0+ u. Esta solução u é exatamente w1− w0.Do parágrafo acima tiramos uma lição muito interessante. Conhecendo todas as

soluções da homogênea e uma única solução da não homogênea, conheceremos todasas soluções da não homogênea.

1.2 Produto escalar

O produto matricial aTx é denominado de produto escalar das matrizes coluna a e x,sendo denotado por ha, xi , isto é,

ha, xi = aTx.

Este conceito de produto escalar é importante e voltaremos a ele posteriormente.

Propriedades do produto escalar

Se x, y, z forem vetores coluna e k um número real,

1. hx, xi ≥ 0 e hx, xi = 0 se e só se x = 0.

2. hx, yi = hy, xi

3. hx, y + zi = hx, yi+ hx, zi

4. hx, kyi = k hx, yi

Usando o produto escalar, a equação (1.1) assume a forma

ha, xi = b.

4 Notas de aula do Prof. Antonio Cândido Faleiros

1.3 Sistemas de equações algébricas lineares

Um sistema de equações como

3x1 − 2x2 = 6

x1 + x2 = 7

é um sistema de equações algébricas lineares. Nos problemas onde estes sistemas ocorrem,o interesse se volta para a determinação dos valores de x1 e x2 que tornam verdadeirasas duas igualdades. Neste exemplo, para determiná-los, pode-se, por exemplo explicitarx1 na segunda equação x1 = 7− x2, substituir esta expressão no lugar de x1 na primeiraequação 3(7 − x2)− 2x2 = 6 e expliciar x2 obtendo x2 = 3. Substituindo este valor naexpressão de x1 em função de x2 obtemos x1 = 7− x2 = 7− 3 = 4. Portanto os valoresde x1 e x2 que tornam verdadeiras as duas igualdades do sistema são x1 = 4 e x2 = 3.Dados os números reais aij e bi, com i = 1, . . . , m e j = 1, . . . , n, o sistema de equações

a11x1 + · · ·+ a1nxn = b1

· · · = · · ·am1x1 + · · ·+ amnxn = bm

é chamado de sistema de equações algébricas lineares comm equações e n incógnitas.Os números aij são denominados coeficientes do sistema, bi são os termos constantese xj são as incógnitas ou variáveis do sistema. Esta forma de apresentar o sistema édenominada de forma padrão.Podemos simplificar a notação usando matrizes. Em

A =

a11 · · · a1n...

. . ....

am1 · · · amn

, x =

x1...xn

e b =

b1...bn

,denominamos A dematriz dos coeficientes, x dematriz das incógnitas e b dematrizdos termos constantes do sistema. Na forma matricial, o sistema se reduz a

Ax = b.

A matriz [A | b] obtida acrescentando-se à matriz A uma coluna final com os elementosde b, é chamada de matriz aumentada do sistema linear.Um vetor coluna real w tal que Aw = b é chamado de solução do sistema Ax = b.

Isto significa que w é solução de cada equação do sistema. Um sistema como este podeter ou não uma solução.

Exemplo 1.5 O sistema ·1 20 0

¸ ·x1x2

¸=

·31

¸

Notas de aula do Prof. Antonio Cândido Faleiros 5

não possui solução pois não existem x1 e x2 que tornam verdadeira a segunda equação. Asegunda equação do sistema é degenerada e seu segundo membro é diferente de zero.O sistema ·

1 20 1

¸ ·x1x2

¸=

·41

¸possui uma única solução x1 = 2 e x2 = 1. Para obtê-la, basta observar que, da segundaequação x2 = 1 e, da primeira, x1 + 2x2 = 4. Como x2 = 1, devemos ter x1 = 2.O sistema ·

1 22 4

¸ ·x1x2

¸=

·36

¸possui infinitas soluções. De fato, explicitano x1 na primira equação segue x1 = 3− 2x2.Substituindo esta expressão na segunda vem 2(3− 2x2)+4x2 = 6 que se simplifica em 6 =6, ou seja, é sempre satisfeita. Logo, qualquer matrix coluna [x1, x2]T = [3− 2x2, x2]T éuma solução do sistema. A variável x2 pode variar livremente nos reais.

O conjunto de todas as soluções do sistema é chamado de conjunto solução ousolução geral do sistema. Este conjunto pode ser vazio, ter um único elemento oupossuir infinitos elementos. O sistema de equações que não possui solução é chamadoincompatível. Quando possui uma única solução é compatível determinado e, quandopossui infinitas soluções, é chamado de compatível indeterminado.O sistema de equações Ax = 0 é chamado de homogêneo. Quando b 6= 0, o sistema

de equações Ax = b é chamado de não homogêneo. Um sistema está intimamenteligado ao outro e, por esta razão, Ax = 0 é chamado de sistema homogêneo de equaçõesassociado ao sistema Ax = b.A equação homogênea Ax = 0 possui sempre a solução trivial x = 0. Entretanto,

quando o sistema homogêneo Ax = 0 possui uma solução v não trivial, ela possuiráinfinitas soluções pois cv será solução para qualquer número real c.Podemos ir um pouco além. Se v1, . . . , vp forem soluções do sistema homogêneo Ax =

0, entãoc1v1 + · · ·+ cpvp

ainda será uma solução do sistema homogêneo para qualquer escolha dos números reaisc1, . . . , cn. A soma acima é chamada de combinação linear dos vetores {v1, . . . , vp}.Se toda solução de Ax = 0 for uma combinação linear dos elementos deste conjunto, eleserá chamado de conjunto gerador das soluções do sistema homogêneo Ax = 0.Se v for uma solução de Ax = 0 e w0 for uma solução de Ax = b, então w0 + v é

solução de Ax = b. Se w1 for outra solução de Ax = b, diferente de w0, então u = w1−w0 é solução de Ax = 0. Logo, qualquer solução w1 do sistema Ax = b é da forma w1 =w0+ u onde u é solução da equação homogênea Ax = 0. Em outras palavras, conhecidauma solução w0 de Ax = b, outra solução w1 deste sistema é da forma w1 = w0+ u, ondeu é solução do sistema homogêneo Ax = 0.Ao conhecer uma única solução do sistema não homogêneo Ax = b e a solução geral

do sistema homogêneo Ax = 0, se conhece a solução geral do sistema não homogêneo.

6 Notas de aula do Prof. Antonio Cândido Faleiros

O sistema não homogêneo Ax = b pode ter uma solução ou não. Se a única soluçãodo sistema homogêneo Ax = 0 for a trivial e Ax = b tiver uma solução, ela será única.Quando Ax = 0 possuir solução não trivial e Ax = b possuir uma solução, então possuiráinfinitas outras.

Exemplo 1.6 Considere o sistema

·1 −2 50 1 −6

¸ x1x2x3

= · 73

¸.

Explicitando x2 na segunda equação, x2 = 3+ 6x3. Usando esta expressão de x2 naprimeira equação e explicitando x1, segue x1 = 13+ 7x3. Logo, toda solução deste sis-tema é da forma x1

x2x3

= 1330

+ x3

761

Observe que [13, 3, 0]T é uma solução particular do sistema e [7, 6, 1]T é solução

do sistema homogêneo associado. O valor de x3 poder variar livremente no conjunto dosnúmeros reais.

No exemplo anterior, as variáveis x1 e x2 foram expressas em termos de x3. neste caso,chamamos x1 e x2 de variáveis principais e x3 é a variável livre.

1.4 Sistema escalonado

Uma matriz escalonada é aquela em que

1. Todas as linhas nulas estão abaixo das linhas não nulas.

2. Numa linha não nula, o primeiro elemento não nulo é igual a 1. Este elemento échamado de pivô ou líder da linha.

3. O pivô de uma linha está à direita do pivô da linha de cima.

Exemplo 1.7 A matriz 1 0 3 00 0 1 20 0 0 0

é escalonada.

Notas de aula do Prof. Antonio Cândido Faleiros 7

Um sistema Ax = b é escalonado quando a matriz A for escalonada. As variáveis quemultiplicam os pivôs são denominadas de variáveis principais e as demais de variáveislivres ou parâmetros.Achar as soluções de um sistema escalonado é bastante simples. Podem aparecer

equações degeneradas na parte inferior do sistema. Se uma dessas equações degeneradaspossuir segundo membro não nulo, o sistema não possui solução. Se todos os segundosmembros das equações degeneradas forem nulas, o sistema tem solução. Para obtê-las,podemos desconsiderar as equações degeneradas.Eliminadas as equações degeneradas, explicitamos as variáveis principais de cada linha

em função das demais, começando na última linha e retornando até a primeira. A partirda penúltima equação use as variáveis principais já explicitadas para colocar a variávelprincipal daquela equação em termos das variáveis livres. Com este processo obtém-setodas as variáveis principais em termos das variáveis livres. Esta técnica de solução édenominada de substituição reversa.

Exemplo 1.8 O sistema1 0 2 −10 1 3 50 0 0 10 0 0 0

x1x2x3x4

=

−3080

é escalonado. As variáveis x1, x2 e x4 são as variáveis prinicipais e x3 é a variávellivre. A última equação é degenerada mas compatível pois o segundo membro também énulo. O sistema possui solução e esta última equação pode ser desconsidereda uma vezque qualquer matriz coluna real [x1, x2, x3, x3]T é uma solução. Eliminada esta equação,a terceira passa a ser a última, onde explicitamos x4 = 8. Da segunda, explicitamos x2 =−3x3 −5x4. Usando o valor de x4 determinado na etapa anterior, obtemos x2 = −3x3−40. Na primeira, explicitamos x1 = −3 −2x3 +x4. Usando o valor de x4 determinadoanteriormente, obtemos x1 = −3 −2x3 +8 = 5 −2x3. Colocamos as três variáveis prin-cipais x1, x2 e x4 em função da variável livre x3. A solução geral do sistema será

x1x2x3x4

=

5− 2x3−40− 3x3

x38

=

5−4008

+ x3

−2−310

onde a variável livre x3 pode assumir qualquer valor real. É interessante observar que[−2, −3, 1, 0]T é solução do sistema homogêneo associado Ax = 0.

UmamatrizA de tamanhom×n é escalonada reduzida se for escalonada e cada pivôé o único elemento não nulo em sua coluna. Neste caso, o sistema Ax = b é denominadode sistema escalonado reduzido.

8 Notas de aula do Prof. Antonio Cândido Faleiros

Exemplo 1.9 O sistema 1 2 0 30 0 1 10 0 0 0

x1x2x3x4

=

−300

é escalonado reduzido. As variáveis x1 e x3 são principais e x2 e x4 são livres. A últimaequação é degenerada mas compatível. O método da substituição reversa nos fornece x3 =−x4 e x1 = −3 −2x2 −3x4, onde as variáveis principais estão em função das variáveislivres.

Algoritmo da substituição reversa

Este algoritmo resolve o sistema Rx = b pelo método da substituição reversa, onde R équadrada, inversível e triangular superior. Isto significa que

R =

r11 r12 · · · r1m

r22 · · · r2m. . .

...rmm

com rii 6= 0, para i = 1, . . . , m. Para resolver o sistema Rx = b, iniciamos explicitandoxm na última equação e, retornando até a primeira, explicitando as variáveis principaisde cada equação em função das variáveis determinadas nas etapas anteriores. Assim,

xm = bm/rmm

xm−1 = (bm−1 − rm−1,mxm) /rm−1,m−1xm−2 = (bm−2 − rm−2,m−1xm−1 − rm−2,mxm) /rm−2,m−2

e assim por diante. O caso geral, em que j = m− 1, m− 2, . . . , 1, assume a forma

xj =

Ãbj −

mXk=j+1

rjkxk

!,rm−j,m−j

==================================

Entrada: Matriz R de tamanho m×m e matriz b de tamanho m× 1.Saída: Matriz x de tamanho m× 1.

==================================x = b ;x(m) = b(m) / R(m,m);for j = m-1:-1:1x(j) = ( b(j) - R(j, j+1:m) * x(j+1:m) ) / R(j,j);

end==================================

Notas de aula do Prof. Antonio Cândido Faleiros 9

1.5 Sistema inferiormente escalonado

Um procedimento semelhante pode ser adotado para matrizes m × n inferiormenteescalonadas, que são aquelas com as seguintes características:

1. Se existirem linhas nulas, elas se localizam na parte inferior da matriz.

2. O último elemento não nulo de uma linha é igual a 1, sendo denominado de pivôou lider da linha.

3. O pivô de uma linha se encontra à direita do pivô da linha anterior.

Quando A for escalonada inferiormente, o sistema Ax = b é chamado de sistemainferiormente escalonado. As variáveis que multiplicam os pivôs são denominadasde principais e as demais são denominadas livres. Se as equações degeneradas destesistema forem compatíveis, o sistema possui solução que pode ser obtida pelo processo desubstituição direta. Primeiro, descartam-se as equações degeneradas. Em seguida, apartir da primeira equação, explicita-se a variável principal em função das variáveis livres.A partir da segunda, prossiga até a última, explicitando a variável principal daquelaequação em função das demais, usando as expressões das variáveis principais obtidasanteriormente para explicitar a variável principal em função das variáveis livres apenas.Uma matriz A de tamanho m × n é inferiormente escalonada reduzida quando

for inferiormente escalonada e cada pivô for o único elemento não nulo em sua coluna.Neste caso, o sistema Ax = b é denominado de sistema inferiormente escalonadoreduzido. Tais sistemas, quando compatíveis, são facilmente resolvidos pelo processo desubstituição direta.

Algoritmo da substituição direta

Este algoritmo resolve o sistema Rx = b pelo método da substituição reversa, onde R équadrada, inversível e triangular inferior. Isto significa que

R =

r11r21 r22...

. . .rm1 rm2 · · · rmm

com rii 6= 0, para i = 1, . . . , m. Para resolver o sistema Rx = b, iniciamos explicitandox1 na primeira equação e, prosseguindo até a última, vamos explicitando as variáveisprincipais de cada equação em função das variáveis determinadas nas etapas anteriores.Assim,

x1 = b1/r11

x2 = (b2 − r21x1) /r22

x3 = (b3 − r31x1 − r32x2) /r3,3

10 Notas de aula do Prof. Antonio Cândido Faleiros

e assim por diante. O caso geral, em que j = 2, 3, . . . , m, assume a forma

xj =

Ãbj −

j−1Xk=1

rjkxk

!,rjj

Algoritmo da substituição diretaEste algoritmo resolve pelo método da substituição direta um sistema Rx = b, onde

R é uma matriz quadrada m×m, triangular inferior, inversível e b é uma matriz colunam× 1.

==================================

Entrada: Matrizes R e b.Saída: Matriz x, solução dos sistema Rx = b.

==================================x = b ;x(1) = b(1) / R(1,1);for j = 2:mx(j) = ( b(j) - R(j, 1:j-1) * x(1:j-1) ) / R(j,j);

end==================================

1.6 Sistemas equivalentes

Uma técnica muito usada para resolver sistemas de equações lineares consiste em realizartransformações sobre o sistema original até se chegar a um sistema escalonado cuja soluçãoé simples. Para que esta técnica se torne efetiva, as transformações não podem alterar oconjunto solução do sistema.

Definição 1.10 Dois sistemas Ax = b e Bx = c são equivalentes quando ambos pos-suem o mesmo conjunto solução.

Existem operações, denominadas elementares que, ao serem aplicadas a um sistema,preserva suas soluções, transformando-o em outro sistema equivalente. As operações ele-mentares são:

1. Permutar a ordem de duas equações.

2. Multiplicar uma equação por uma constante não nula.

3. Adicionar a uma equação um múltiplo de outra.

Notas de aula do Prof. Antonio Cândido Faleiros 11

Num sistema de equações, podemos enumerá-las: equação 1, 2, . . . , m. Sejam i e jnúmeros inteiros entre 1 e n.O operação que permuta as equações i e j será denotada porO(li ↔ lj), a operação que

multiplica a equação i por um número r não nulo será denotada por O(rli) e a operaçãoque consiste em adicionar à equação i um múltiplo r de outra equação j será denotadapor O(li + rlj).As operações elementares são reversíveis. A operação O(li ↔ lj) pode ser revertida

aplicando novamente esta mesma operação. A operação O(rli) pode ser revertida apli-cando a operação O(r−1li) e a operação O(li+rlj) pode ser revertida aplicando a operaçãoO(li − rlj).Vamos mostrar que essas transformações levam o sistema original em outro equivalente.

Façamos a prova para um caso particular que representa o caso geral.Se [x1, x2, x3]T for uma solução do sistema

a11x1 + a12x2 + a13x3 = b1

a21x1 + a22x2 + a23x3 = b2 (1.2)

a31x1 + a32x2 + a33x3 = b3

e r for um número real, então vale ainda a igualdade

(a11 + ra21)x1 + (a12 + ra22)x2 + (a13 + ra23)x1 =

a11x1 + a12x2 + a13x3 + r(a21x1 + a22x2 + a23x3) = b1 + rb2

mostrando que [x1, x2, x3]T é solução do sistema

(a11 + ra21)x1 + (a12 + ra22)x2 + (a13 + ra23)x1 = b1 + rb2

a21x1 + a22x2 + a23x3 = b2 (1.3)

a31x1 + a32x2 + a33x3 = b3

Isto significa que as soluções do sistema (1.2) são soluções do sistema (1.3) que foi obtidodo original a partir da transformação elementar O(l1+ rl2). Logo, as soluções de (1.3) sãosoluções de (1.2) pois esta pode ser obtida daquela pela operação O(l1− rl2). Concluímosque os sistemas original e o transformado são equivalentes.De modo semelhante se pode provar que as outras operações elementares transformam

um sistema em outro equivalente.

1.7 O método da eliminação de Gauss

O método de Gauss consiste em realisar operações elementares sobre linhas no sistemaAx = b, transformando-o num sistema escalonado equivalente e resolvendo-o por substi-tuição reversa.Como a matriz A dos coeficientes e a matriz b das constantes contêm todas as in-

formações necessárias para montar o sistema, vamos considerar a matriz completa do

12 Notas de aula do Prof. Antonio Cândido Faleiros

sistema, obtida ao acrescentar a coluna b à direita de A. Esta matriz será denotada por[A b]. A realização de operações elementares sobre as equações é equivalente à realizaçãode operações elementares sobre as linhas da matriz completa.Vamos escreve A → R quando for possível levar A em R efetuando operações ele-

mentares sobre as linhas deA. SeR for escalonada, diremos que ela é a forma escalonadade A. Se R for escalonada reduzida, diremos que ela é a forma escalonada reduzidade A. Pode-se provar que a forma escalonada reduzida de uma matriz é única.O processo de Gauss para resolver um sistema Ax = b é descrito pelo algoritmo abaixo,

realizado sobre a matriz completa [A b].Passo 1. Se A = 0, encerre o algoritmo. O sistema já é escalonado.Passo 2. Percorra as colunas da matriz completa [A b] da esquerda para a direita,

localizando a primeira não nula.Passo 3. Percorra esta coluna de cima para baixo, localizando seu primeiro elemento

não nulo. Seja p o valor deste elemento.Passo 4. Permute esta linha com a primeira.Passo 5. Multiplique a atual primeira linha por p−1, fazendo com que o primeiro

elemento não nulo da primeira linha fique igual a 1. Este será o pivô da primeira linha.A partir deste ponto, a primeira linha não sofrerá outras modificações.Passo 6. Passe à segunda linha, tranformando-a na primeira da próxima etapa.Passo 7. Repita os passos de 1 a 6 com todas as linhas restantes.Com este algoritmo, partimos da matriz [A b] e chegamos à matriz [R c], onde R é a

forma escalonada de A. O sistema Rx = c é equivalente ao original.Se existirem equações degeneradas incompatíveis no sistema Rx = c, então o sistema

Ax = b não tem solução.Se todas as equações degeneradas de Rx = c forem compatíveis, o sistema Ax = b

tem solução. Exclua as equações degeneradas e use a substituição reversa para obter assoluções do sistema euqivalente Rx = c. Estas soluções possuirão a forma

x = w0 + c1v1 + · · ·+ crvr

onde w0 é uma solução deRx = c e v1, . . . , vr são soluções do sistema homogêneo associadoRx = 0. Os números reais ci são arbitrários e relacionados com as variáveis livres. Osnúmeros reais c1, . . . , cr são denominados de parâmetros.O número de pivôs de R é igual ao número de linhas não nulas de R. Se existirem k

pivôs, este será o número de variáveis principais do sistema. Se o número de incógnitasdo sistema for n, o número de variáveis livres será n− k.Se R for escalonada e A pode ser levada em R por transformações elementares, o

número de pivôs de R é chamado de posto da matriz A.

Exemplo 1.11 Considere o sistema

x+ y − 2z = 0

2x+ 2y − 3z = 2

3x− y + 2z = 12

Notas de aula do Prof. Antonio Cândido Faleiros 13

cuja matriz aumentada é 1 1 −2 02 2 −3 23 −1 2 12

Realizando as operações O(l2 = l2 − 2l1) e O(l3 = l3 − 3l1) sobre a matriz chegamos em 1 1 −2 0

0 0 1 20 −4 8 12

.

Realizando a operação O(l2 ↔ l3) segue 1 1 −2 00 −4 8 120 0 1 2

que é uma matriz diagonal superior. Encerramos a primeira etapa do método de elimi-nação de Gauss.Para completar o método, caminhando de baixo para cima e da esquerda para a direita,

anulamos os elementos nas colunas acima da diagonal principal. Com as operações O(l2 =l2 − 8l3) e O(l1 = l1 + 2l3), obtemos 1 1 0 4

0 −4 0 −40 0 1 2

Com as operações O(l2 = −(1/4)l2) seguida de O(l1 = l1 − l2) chegamos à matriz 1 0 0 3

0 1 0 10 0 1 2

A matriz A foi transformada até se tornar uma matriz identidade. Agora, obter a soluçãodo problema é trivial x = 3, y = 1 e z = 2.

1.8 Matrizes inversas

Uma matriz quadrada A de tamanho m × m é inversível quando existir uma matrizquadrada B de tamanho m×m tal que AB = BA = Im onde Im é a matriz identidadede ordem m. A matriz B é chamada de inversa de A e é denotada por A−1.Pela própria definição, a matriz B também é inversível e sua inversa é A. Assim, B−1 =

A e ¡A−1

¢−1= A.

Se A e B forem inversíveis, então AB são inversíveis e (AB)−1 = B−1 A−1. Se umamatriz for triangular inferior, sua inversa também será triangular inferior e, quando elafor triangular superior, sua inversa também será triangular superior.

14 Notas de aula do Prof. Antonio Cândido Faleiros

Teorema 1.12 Seja A uma matriz quadrada. São equivalentes as afirmações:

1. A é inversível.

2. O sistema homogêneo Ax = 0 possui apenas a solução trivial x = 0.

3. A forma escalonada reduzida de A é a matriz identidade.

4. O sistema Ax = b possui uma única solução para cada matriz coluna b.

5. Existe uma matriz quadrada B tal que AB = I.

Prova. (1) =⇒ (2) pois, se A é inversível e Ax = 0, então A−1Ax = 0 o que implicaem x = 0.(2) =⇒ (3) pois, se a forma escalonada reduzida R de A não for a matriz identidade,

uma de suas linhas é nula pois R é quadrada. Portanto, Rx = 0 tem soluções não nulas.Se este fosse o caso, o sistema Ax = 0 teria soluções não nulas, contrariando (2).(3) =⇒ (4) pois, se A → I então o sistema Ax = b é equivalente ao sistema Ix = c,

para alguma matriz coluna c, cuja solução é x = c, mostrando que o sistema Ax = b temsempre uma única solução para cada b.(4) =⇒ (5) pois, sendo ej a coluna j da matriz identidade I, o sistema Ax = ej tem

uma única solução x = bj para j = 1, 2, . . . , n. Sendo B = [b1, . . . , bn], obtemos AB = I.(5) =⇒ (1) pois, se AB = I e Bx = 0, então ABx = 0 ou Ix = 0 o que implica em

x = 0. Logo, a condição (2) vale para B no lugar de A e, consequentemente, valem (3)e (4) com B no lugar de A. Logo, pela parte (5), existe uma matriz C tal que BC = I.Como C = IC = (AB)C = A(BC) = A, obtemos BA = I. Como AB = I por hipótese,provamos que A é inversível. ¤

Corolário 1.13 Sejam A e B matrizes quadradas m×m. Se AB = I, então A e B sãoinversíveis e uma é a inversa da outra.

Prova. Se AB = I, provamos que A é inversível e que B é a inversa de A. Logo, B éinversível e sua inversa é A. ¤

Este corolário garante que AB = I é o bastante para garantir que A e B são inversíveis,sendo uma a inversa da outra.

Corolário 1.14 Se A = BC for inversível, então B e C são inversíveis.

Prova. Sendo A = BC inversível, (A−1B)C = A−1(BC) = A−1A = I e assim C éinversível. Por outro lado, B(CA−1) = (BC)A−1 = AA−1 = I e B é inversível. ¤

Notas de aula do Prof. Antonio Cândido Faleiros 15

1.9 Matrizes elementares

As matrizes elementares são aquelas obtidas a partir da identidade mediante umaúnica operação elementar. Vamos denotar por E(li ←→ lj) a matriz elementar obtida apartir da identidade pela permuta das linhas i e j. A matriz E(li+ rlj) denotará a matrizelementar obtida da identidade adicionando à linha i um múltiplo r da linha j. Se r é umnúmero não nulo, E(rli) denotará a matriz elementar obtida da identidade multiplicandosua linha i por r.

Exemplo 1.15 As matrizes abaixo são elementares 0 0 10 1 01 0 0

7 0 00 1 00 0 1

1 0 00 1 03 0 1

sendo, respectivamente, as matrizes E(l1 ↔ l3), E(7l1) e E(l3 + 3l1).

Os produtosE(li ←→ lj)A , E(rli)A , E(li + rlj)A

realizam sobre A as operações elementares O(li ←→ lj), O(rli), e O(li + rlj), respectiva-mente.

Exemplo 1.16 Os produtos abaixo ilustram as afirmações acima. Seja

A =

a1 a2 a3b1 b2 b3c1 c2 c3

.O produto

E(l1 ↔ l3)A =

0 0 10 1 01 0 0

a1 a2 a3b1 b2 b3c1 c2 c3

= c1 c2 c3

b1 b2 b3a1 a2 a3

permuta a primeira com a terceira linha de A. O produto

E(7l1)A =

7 0 00 1 00 0 1

a1 a2 a3b1 b2 b3c1 c2 c3

= 7a1 7a2 7a3

b1 b2 b3c1 c2 c3

multiplica a primeira linha de A por 7. O produto

E(l3 + 5l1)A =

1 0 00 1 05 0 1

a1 a2 a3b1 b2 b3c1 c2 c3

= a1 a2 a3

b1 b2 b35a1 + c1 5a2 + c2 5a3 + c3

adiciona à terceira linha de A o quíntuplo de sua primeira linha.

16 Notas de aula do Prof. Antonio Cândido Faleiros

As matrizes elementares são inversíveis. A inversa de E(li+rlj) é E(li−rlj), a inversade E(li ↔ lj) é ela mesma e, para r 6= 0, a inversa de E(rli) é E((1/r)li).Há um teorema muito interessante relacionando matrizes inversíveis com matrizes

elementares.

Teorema 1.17 Uma matriz quadrada é inversível se e só se for igual a um produto dematrizes elementares.

Prova. Se uma matriz quadrada for o produto de matrizes elementares, ela é inversívelpois cada matriz elementar é inversível.Se A for inversível, então o teorema 1.12 garante que a forma escalonada reduzida de

A é a matriz identidade. Em consequência„ existem matrizes elementares E1, E2, . . . ,Ek tais que Ek · · ·E2 E1 A = I. Neste caso, A = E−11 E−12 · · ·E−1k . Como as inversas dematrizes elementares são elementares, segue que A é o produto de matrizes elementares.¤

Em termos de matrizes elementares, o método da eliminação de Gauss usado pararesolver o sistema Ax = b pode ser descrito nos seguintes termos: multiplicamos os doislados do sistema sucessivamente por matrizes elementares E1, E2, . . . , Ek

Ek · · ·E2E1Ax = Ek · · ·E2E1bexecutando operações elementares sobre as linhas de A, até obter a matriz escalonada

U = Ek · · ·E2E1A.Sendo E = Ek · · · E2 E1, o sistema original se transforma no sistema equivalente escalon-ado

Ux = Eb

que terá solução se linhas nulas em U corresponderem a linhas nulas em Eb. Quando estefor o caso, o sistema é resolvido por substituição reversa.Se existirem linhas nulas em U e as linhas correspondentes de Eb não forem nulas, o

sistema não tem solução, é incompatível.

Exemplo 1.18 Vamos usar transformações elementares para obter a forma escalonadade

A =

5 1 310 5 815 6 16

.Em lugar de executar uma operação elementar por vez, vamos executar as operações lin-eares necessárias para anular todos os elementos de cada coluna abaixo da diagonal prin-cipal. Efetuando o produto

E1A =

1 0 0−2 1 0−3 0 1

5 1 310 5 815 6 16

= 5 1 30 3 20 3 7

Notas de aula do Prof. Antonio Cândido Faleiros 17

obtemos uma matriz onde os elementos da primeira linha abaixo da diagonal principal sãonulos. A matriz E1 não é elementar mas é o produto de duas matrizes elementares

E1 =

1 0 0−2 1 00 0 1

1 0 00 1 0−3 0 1

.Efetuando o produto de E1A pela matriz elementar E3 definida abaixo, obtemos

E2E1A =

1 0 00 1 00 −1 1

5 1 30 3 20 3 7

= 5 1 30 3 20 0 5

que é triangular superior. Denotemos por U esta matriz, de modo que E2 E1 A = U. Amatriz

E2E1 =

1 0 00 1 00 −1 1

1 0 0−2 1 0−3 0 1

= 1 0 0−2 1 0−1 −1 1

é triangular inferior, os elementos de sua diagonal principal é unitária e sua inversa é

L =

1 0 02 1 01 1 1

.Um fato notável desta inversa reside no fato de ser exatamente igual ao produto E2 E1,onde os elementos abaixo da diagonal principal aparecem com os sinais trocados. Assim,

E2E1A = U =

5 1 30 3 20 0 5

.1.10 Cálculo da inversa

Podemos completar o processo iniciado no exemplo da seção anterior até obter a inversade A.

Exemplo 1.19 No exemplo anterior, multiplicamos

A =

5 1 310 5 815 6 16

e E2E1 =

1 0 0−2 1 0−1 −1 1

,para obter

U = E2E1A =

5 1 30 3 20 0 5

.

18 Notas de aula do Prof. Antonio Cândido Faleiros

Podemos multiplicar U por matrizes elementares até obter a inversa de A. Efetuando oproduto

E3U =

1 0 −3/50 1 −2/50 0 1/5

5 1 30 3 20 0 5

= 5 1 00 3 00 0 1

anulamos os elementos da terceira coluna acima da diagonal principal. A matriz E3 é oproduto de três matrizes elementares

E3 =

1 0 00 1 00 0 1/5

1 0 00 1 −2/50 0 1

1 0 −3/50 1 00 0 1

.Em seguida, efetuamos o seguinte produto

E4E3U =

1 −1/3 00 1/3 00 0 1

5 1 00 3 00 0 1

= 5 0 00 1 00 0 1

onde E4 é o produto de duas matrizes elementares

E4 =

1 0 00 1/3 00 0 1

1 −1/3 00 1 00 0 1

.Finalmente, multiplicando E4E3U pela matriz elementar

E5 =

1/5 0 00 1 00 0 1

obtemos

E5E4E3U = E5E4E3E2E1A = I

onde I é a matriz identidade. O produto E5E4E3E2E1 é a inversa procurada

A−1 =

3275

275− 775− 8

15715− 215−1

5−15

15

.Este exemplo é típico do método de Gauss-Jordan para determinar a inversa de

uma matriz A. Se E for o produto de matrizes elementares para as quais EA = I, entãoA−1 = E. Esta observação nos permite construir o seguinte algoritmo: tome a matrizaumentada [A I] e realize operações elementares sobre ela obtendo a matriz [EA EI]. Nomomento que EA for igual á identidade, EI = E será a inversa A−1 de A.Se nalgum ponto deste processo chegarmos a uma matriz aumentada [EA EI] com

linha nula, concluímos que A não tem inversa.

Notas de aula do Prof. Antonio Cândido Faleiros 19

Exemplo 1.20 Vamos usar o método de Gauss-Jordan para obter a inversa de

A =

1 2 11 3 42 7 12

.Inicialmente formamos a matriz aumentada

[A I] =

1 2 1 1 0 01 3 4 0 1 02 7 12 0 0 1

e realizamos operações elementares sobre linha até chegar a (I | A−1). Em lugar de aplicaruma transformação elementar por vez, vamos aplicar um produto de transformações lin-eares que agirão sobre toda uma coluna. 1 0 0

−1 1 0−2 0 1

1 2 1 1 0 01 3 4 0 1 02 7 12 0 0 1

= 1 2 1 1 0 00 1 3 −1 1 00 3 10 −2 0 1

1 0 00 1 00 −3 1

1 2 1 1 0 00 1 3 −1 1 00 3 10 −2 0 1

= 1 2 1 1 0 00 1 3 −1 1 00 0 1 1 −3 1

1 0 −10 1 −30 0 1

1 2 1 1 0 00 1 3 −1 1 00 0 1 1 −3 1

= 1 2 0 0 3 −10 1 0 −4 10 −30 0 1 1 −3 1

1 −2 00 1 00 0 1

1 2 0 0 3 −10 1 0 −4 10 −30 0 1 1 −3 1

= 1 0 0 8 −17 50 1 0 −4 10 −30 0 1 1 −3 1

Logo, a inversa de A é 8 −17 5

−4 10 −31 −3 1

.1.11 Fatoração LU

Multiplicando uma matriz A por matrizes elementares, podemos chegar a uma matriz Utriangular superior.Para descrever o processo, vamos ampliar um pouco nosso conceito de matriz elemen-

tar e também denominar de elementar aquelas matrizes obtidas a partir da identidadepermitindo que os elementos de uma única coluna abaixo da diagonal principal sejamdiferentes de zero.

20 Notas de aula do Prof. Antonio Cândido Faleiros

Exemplo 1.21 Neste conceito ampliado, a matriz 1 0 02 1 03 0 1

é elementar. Ela é o produto de duas matrizes elementares 1 0 0

2 1 00 0 1

e

1 0 00 1 03 0 1

.Podemos usar essas matrizes elementares para zerar todos os elementos abaixo da

diagonal principal de uma coluna de uma matriz A.

Exemplo 1.22 Este exemplo ilustra o anulamento de todos os elementos de abaixo dadiagonal da primeira coluna de uma matriz mediante o uso de uma matriz elementar 1 0 0

−2 1 0−6 0 1

2 6 −14 3 812 7 9

= 2 6 −10 −9 100 −29 15

.SejaA umamatrizm×m. SejamE1, . . . , Em−1 matrizes elementares que, multiplicadas

à esquerda de A a levam numa matriz triangular superior U. Os elementos abaixo dadiagonal principal da primeira coluna de E1A são nulos. Os elementos abaixo da diagonalprincipal da primeira e segunda colunas de E2E1A são nulos e assim por diante. Esteprocedimento resulta em

Ek · · ·E1A = U

onde U é triangular superior. A matriz

E = Ek · · ·E1é triangular inferior e os elementos da diagonal principal são todos iguais a 1. Sua inversaL também é triangular inferior e os elementos da diagonal principal são todos iguais a 1.Com isto, obtemos a fatoração

A = LU

onde U é uma matriz triangular superior e L é uma matriz triangular inferior inversível,cujos elementos da diagonal principal são iguais a 1.

Exemplo 1.23 Vamos obter a decomposição LU da matriz

A =

1 2 02 1 54 −1 13

.

Notas de aula do Prof. Antonio Cândido Faleiros 21

Efetuando o produto

E1A =

1 0 0−2 1 0−4 0 1

1 2 02 1 54 −1 13

= 1 2 00 −3 50 −9 13

obtemos uma matriz cujos elementos abaixo da diagonal principal da primeira coluna sãoiguais a zero. Agora, efetuando o produto

E2E1A =

1 0 00 1 00 −3 1

1 2 00 −3 50 −9 13

= 1 2 00 −3 50 0 −2

obtemos a forma escalonada de A. Para chegar à decomposição LU, basta calcular a in-versa L = E−11 E−22 . As matrizes E1 e E2 nas multiplicações acima são elementares

E1 =

1 0 0−2 1 0−4 0 1

e E2 =

1 0 00 1 00 −3 1

e pode-se verificar que

E−11 =

1 0 02 1 04 0 1

e E−12 =

1 0 00 1 00 3 1

Oberve um fato interessante: para obter as inversas de E1 e E2, basta trocar os sinais doselementos não nulos abaixo da diagonal principal. Em seguida, efetuando o produto

L = E−11 E−12 =

1 0 02 1 04 0 1

1 0 00 1 00 3 1

= 1 0 02 1 04 3 1

percebemos outro fato fantástico: para obter o produto L, basta colocar na matriz iden-tidade os elementos não nulos de E−11 e E−12 nos seus devidos lugares. Agora tem-se adecomposição LU de A

A =

1 0 02 1 04 3 1

1 2 00 −3 50 0 −2

.O fato ocorrido no cálculo de L do exemplo anterior não é fortuito e sim um resultado

geral.Para provar esta afirmação baseando-nos no livro de Trefethen e Bau.

22 Notas de aula do Prof. Antonio Cândido Faleiros

As matrizes L e U da decomposição LU de A podem ser obtidas pelo método deeliminação de Gauss. Como é raro aplicar este método a matrizes retangulares, vamosdescrevê-lo para matrizes quadradas A pertencentes a Cm×m. Considere a matriz

A =

x x x xx x x xx x x xx x x x

onde o x indica números quaisquer. Façamos a primeira transformação

L1A =

x x x x0 x x x0 x x x0 x x x

zerando os elementos abaixo da diagonal principal da primeira coluna. Façamos a segundatransformação

L2L1A =

x x x x0 x x x0 0 x x0 0 x x

zerando os elementos abaixo da diagonal principal da segunda coluna. Finalmente, coma terceira transformação,

L3L2L1A =

x x x x0 x x x0 0 x x0 0 0 x

= U

zeramos o elemento abaixo da diagonal principal da terceira coluna, obtendo assim amatriz U.O negrito indica os elementos que forammodificados na transformação. Vejamosum caso concreto.

Exemplo 1.24 A decomposição LU de

A =

1 3 2 02 7 5 11 5 5 40 3 4 6

é

A =

1 0 0 02 1 0 01 2 1 00 3 1 1

1 3 2 00 1 1 10 0 1 20 0 0 1

.

Notas de aula do Prof. Antonio Cândido Faleiros 23

que foi obtida multiplicando A pela esquerda por

L1 =

1 0 0 0−2 1 0 0−1 0 1 00 0 0 1

, L2 =

1 0 0 00 1 0 00 −2 1 00 −3 0 1

, L3 =

1 0 0 00 1 0 00 0 1 00 0 −1 1

As inversas de L1, L2 e L3 são

1 0 0 02 1 0 01 0 1 00 0 0 1

,

1 0 0 00 1 0 00 2 1 00 3 0 1

,

1 0 0 00 1 0 00 0 1 00 0 1 1

,

e podem ser obtidas de L1, L2 e L3 trocando o sinal dos elementos não nulos abaixo dadiagonal principal. Ainda

L = L−11 L−12 L−13 =

1 0 0 02 1 0 01 2 1 00 3 1 1

é obtido a partir de L−11 , L−12 e L−13 simplesmente colocando na matriz identidade ostermos não nulos dessas três matrizes em suas respectivos posições.

Fórmulas gerais e dois golpes de sorte

Seja A uma matriz m × m e denote por X a matriz obtida depois de k − 1 passo deeliminação. Denote por xk a coluna k de X no início do passo k. A transformação Lk

deve ser escolhida de modo que

xk =

x1k...

xkkxk+1,k...

xm,k

→ Lkxk =

x1k...

xkk0...0

.

Para obter este efeito, para j = k + 1, . . . , m, subtraímos

λjk =xjkxkk

24 Notas de aula do Prof. Antonio Cândido Faleiros

vezes a linha k da linha j. A forma da matriz Lk é

Lk =

1. . .

1−λk+1,k 1...

. . .−λm,k 1

.

Nos exemplos anteriores observamos dois golpes da sorte:

1. A inversa de Lk é obtida trocando os sinais dos elementos abaixo da diagonal.

2. A matriz L = L−11 L−12 · · ·L−1m−1 pode ser formada coletando as entradas de λjk noslocais apropriados.

Podemos reunir esses pedaços de boa fortuna como segue. Seja

λk =

0...0

λk+1,k...

λm,k

.

Então Lk = I− λke∗k, onde ek é a coluna k da matriz identidade m ×m. Das definições

de λk e ek obtemose∗kλk = 0

e(I − λke

∗k)(I + λke

∗k) = I − λk(e

∗kλk)e

∗k = I,

mostrando que a inversa de Lk é

L−1k = I + λke∗k.

Para o segundo golpe de sorte, argumentamos como segue. Considere, por exemplo, oproduto L−1k L−1k+1. Como e

∗kλk+1 = 0, segue

L−1k L−1k+1 = (I + λke∗k)(I + λk+1e

∗k+1) = I + λke

∗k + λk+1e

∗k+1

que escrita por extenso é

L−1k L−1k+1 =

1. . .

1λk+1,k 1λk+2,k λk+2,k+1 1...

.... . .

λm,k λm,k+1 1

Notas de aula do Prof. Antonio Cândido Faleiros 25

Esta matriz é triangular inferior sendo obtida a partir da matriz identidade substituindoos elementos abaixo da diagonal principal das coluna k e k + 1 pelos elementos de L−1k eL−1k+1 inseridas em seus lugares usuais abaixo da diagonal. Quando tomamos o produtode todas estas matrizes para formar L, obtemos

L = L−11 L−12 · · ·L−1m−1 =

1λ21 1λ31 λ32 1...

.... . . . . .

λm1 λm2 · · · λm,m−1 1

onde

λjk =xjkxkk

são os multiplicadores necessários para anular os elementos abaixo da diagonal da matrizX = Ek−1 · · ·E1A.Tais fatos geram o seguinte algoritmo

=====================================

Algoritmo da eliminação gaussiana sem pivotamento

=====================================

Entrada: ASaída: U e L.

=====================================U = A e L = I.for k = 1:m-1for j = k+1:mL(j,k) = U(j,k)/U(k,k);U(j,k:m) = U(j,k:m) - L(j,k) * U(k,k:m);

endend=====================================

Neste algoritmo podemos usar uma única matriz para armazenar L e U se abrirmosmão de gravar a diagonal de L cujos elementos são unitário. Se a matriz A não for maisnecessária, podemos usá-la para gravar L e U.

Solução Ax = b por fatoração LU

Dada a decomposição A = LU, o sistema Ax = b é equivalente a LUx = b. Defina y =Ux, resolva Ly = b e, em seguida, Ux = y para obter a solução do sistema original. Aprimeira etapa, para a fatoração A = LU, exige ∼ 2

3m3 flops. O segundo e o terceiro,

26 Notas de aula do Prof. Antonio Cândido Faleiros

para resolver os sistemas triangulares Ly = b e Ux = y, exigem ∼ m2 flops. Dessa forma,a resolução pelo método de Gauss, exige ∼ 2

3m3 flops.

A resolução usando refletores de Householder, que veremos posteriormente, usa ∼ 43m3

flops. Qual seria a vantagem da fatoração QR sobre a fatoração LU?

1.12 Decomposição PLU

Nem sempre uma matriz A possui uma decomposição LU e um exemplo clássico é·0 11 1

¸. Entretanto, a matriz B =

·1 10 1

¸obtida de A pela permutação das linhas

possui uma decomposição LU

B =

·1 00 1

¸ ·1 10 1

¸.

Sempre é possível permutar as linhas de uma matriz A de modo que a matriz assimobtida possui uma decomposição LU.Umamatriz de permutação é aquela obtida a partir da matriz identidade mediante

uma permutação qualquer de suas linhas. A matriz elementar E(li ←→ lj) obtida daidentidade pela permutação das linhas i e j pertence a esta classe. Toda matriz depermutação é o produto de matrizes elementares deste tipo. O produto de duas matrizesde permutação é uma matriz de permutação e a inversa de uma matriz de permutaçãoé uma matriz de permutação. Como tivemos a oportunidade de destacar, a inversa deE(li ←→ lj) é ela mesma.

Exemplo 1.25 São matrizes de permutação1 0 0 00 0 0 10 0 1 00 1 0 0

0 0 1 01 0 0 00 0 0 10 1 0 0

.A segunda permutação é a transformação elementar E(l2 ←→ l4).

Seja P uma matriz de permutação obtida da identidade permutando as linha i e j.Seja E a matriz elementar que, a não ser pelo fato de a coluna k possuir elementos nãonulos abaixo da diagonal principal, é a identidade. Se k < i < j, então

E = PEP

é uma matriz com os elementos das linhas i e j da coluna k permutados de seus lugares.

Exemplo 1.26 Sejam

P =

1 0 0 00 0 0 10 0 1 00 1 0 0

e E =

1 0 0 02 1 0 03 0 1 04 0 0 1

Notas de aula do Prof. Antonio Cândido Faleiros 27

onde P é a matriz de permutação obtida da identidade pela troca das linhas 2 e 4 e E é amatriz elementar com elementos não nulos fora da diagonal principal da primeira coluna.Neste caso, k = 1, i = 2 e j = 4. O produto PAP é igual a

1 0 0 04 1 0 03 0 1 02 0 0 1

.Esta matriz pode ser obtida de A permutando os elementos das linhas 2 e 4 da coluna 1.Fato interessantíssimo.

Vamos descrever a decomposição PLU, obtida pelo método da eliminação de Gausscom pivotamento. Seguiremos o tratamento de Trefethen e Bau.Seja X a matriz obtida no processo de eliminação Gaussiana depois de zerados os

elementos abaixo da diagonal principal das k − 1 primeiras colunas. No passo seguinte,múltiplos da linha k são subtraídas das linhas k+1, . . . , m da matrizX com a qual se estátrabalhando, para introduzir zeros nas entradas k dessas linhas. A entrada xkk da matrizX é chamado de pivô da coluna k. Prosseguindo o processo de eliminação, aplica-se aX uma transformação elementar para zerar os elementos da coluna k abaixo da diagonalprincipal.

xkk x x xx x x xx x x xx x x x

xkk x x x0 x x x0 x x x0 x x x

Entretanto, xkk pode ser nulo ou muito pequeno quando comparado aos demais elemen-tos daquela coluna abaixo da diagonal. Neste caso, para evitar instabilidade numérica,procura-se naquela coluna, dentre os elementos abaixo da diagonal principal, o de maiormódulo. Troca-se esta linha com a linha k e este elemento de maior módulo passa a sero pivô da linha k. Esta troca de linhas é denominada de pivotamento parcial. Há umprocesso conhecido por pivotamento onde se toma por pivô o elemento de maior módulona submatriz Xk:m,k:m e o coloca na posição (k, k) mediante a troca de linhas e colunas.Devido à dificuldade de gerenciar a troca de colunas e ao trabalho computacional para seencontrar o pivô, prefere-se o pivotamento parcial.

xkk ∗ ∗ ∗∗ ∗ ∗ ∗xjk ∗ ∗ ∗∗ ∗ ∗ ∗

P1−→

xjk ∗ ∗ ∗∗ ∗ ∗ ∗xkk ∗ ∗ ∗∗ ∗ ∗ ∗

L1−→

xjk ∗ ∗ ∗0 ∗ ∗ ∗0 ∗ ∗ ∗0 ∗ ∗ ∗

Este algoritmo pode ser expresso como um produto de matrizes. No pivotamento parcial,em cada etapa, realiza-se uma permutação para posicionar o pivô da coluna no localcorreto para, em seguida, aplicar uma matriz elementar para zerar os elementos abaixo

28 Notas de aula do Prof. Antonio Cândido Faleiros

da diagonal principal da coluna k. Este processo pode ser repetido coluna a coluna, atétransformar A numa matriz U triangular superior

Lm−1Pm−1 · · ·L2P2L1P1A = U.

Exemplo 1.27 Considere a matriz (exemplo copiado)

A =

2 1 1 04 3 3 18 7 9 56 7 9 8

.Para o pivotamento parcial, permutamos a primeira com a terceira coluna calculandoP1A =

0 0 1 00 1 0 01 0 0 00 0 0 1

2 1 1 04 3 3 18 7 9 56 7 9 8

=8 7 9 54 3 3 12 1 1 06 7 9 8

.Agora efetuamos o primeiro passo de eliminação: L1P1A =

1 0 0 0−121 0 0

−140 1 0

−340 0 1

8 7 9 54 3 3 12 1 1 06 7 9 8

=8 7 9 50 −1

2−32−32

0 −34−54−54

0 74

94

174

.Em seguida, trocamos a segunda com a quarta linha: P2L1P1A =

1 0 0 00 0 0 10 0 1 00 1 0 0

8 7 9 50 −1

2−32−32

0 −34−54−54

0 74

94

174

=8 7 9 50 7

494

174

0 −34−54−54

0 −12−32−32

.Efetuamos a segunda eliminação: L2P2L1P1A =

1 0 0 00 1 0 00 3

71 0

0 270 1

8 7 9 50 7

494

174

0 −34−54−54

0 −12−32−32

=8 7 9 50 7

494

174

0 0 −27

47

0 0 −67−27

.Agora permutamos a terceira linha com a quarta: P3L2P2L1P1A =

1 0 0 00 1 0 00 0 0 10 0 1 0

8 7 9 50 7

494

174

0 0 −27

47

0 0 −67−27

=8 7 9 50 7

494

174

0 0 −67−27

0 0 −27

47

.Finalmente, efetuamos a última eliminação: L3P3L2P2L1P1A =

1 0 0 00 1 0 00 0 1 00 0 −1

31

8 7 9 50 7

494

174

0 0 −67−27

0 0 −27

47

=8 7 9 50 7

494

174

0 0 −67−27

0 0 0 23

.

Notas de aula do Prof. Antonio Cândido Faleiros 29

Um terceiro golpe de sorte na fatoração PLU

Todos os elementos de L abaixo da diagonal principal são menores ou iguais a 1 pois opivô de cada linha é escolhido de modo a tornar |xkk| = {|xjk| : k ≤ j ≤ m}Analisemos a decomposição de uma matriz A de tamanho 4× 4 que toma a forma

L3P3L2P2L1P1A = U

As matrizes P1, P2 e P3 são suas próprias inversas. Assim podemos escrever

L3P3L2P2L1P1 = L3P3L2(P3P3)P2L1(P2P3P3P2)P1

onde acrescentamos algumas matrizes ao produto e foram colocadas entre parêntesis. Noteque elas são iguais à matriz identidade. Podemos associar este produto

L3P3L2P2L1P1 = L3(P3L2P3)(P3P2L1P2P3)(P3P2P1) = (L1L2L3)(P3P2P1)

ondeL3 = L3, L = P3L2P3, L = P3P2L1P2P3

são matrizes elementares obtidas de L3, L2, L1 permutando elementos abaixo da diagonalprincipal.Em geral, para uma matriz m×m, a fatoração fornecida pela eliminação Gaussiana

com pivotamento parcial pode ser escrita na forma

(Lm−1 · · · L2L1)(Pm−1 · · ·P2P1)A = U,

ondeLk = Pm−1 · · ·Pk+1LkP

−1k+1 · · ·P−1m−1.

O produto das matrizes Lk é triangular inferior com elementos unitários na diagonalprincipal e facilmente invertível. Basta trocar o sinal das entradas abaixo da diagonal,como na eliminação Gaussiana sem pivotamento. Escrevendo

L = (Lm−1 · · · L2L1)−1 e P = Pm−1 · · ·P2P1,temos

PA = LU.

Qualquer matriz quadrada A, singular ou não, possui uma fatoração deste tipo, onde Pé uma matriz de permutação, L é uma matriz triangular inferior com elementos unitáriosna diagonal principal e U é triangular superior. Esta fatoração é conhecida por fatoraçãoPLU de A.Para obter a fatoração PLU de A, multiplique a matriz A por uma matriz de permu-

tação P e calcule a decomposição LU de A. Na prática, não é assim que se procede poisnão se conhece P a priori.Vamos descrever um procedimento que justifica o algoritmo que vamos descrever

abaixo. Seja A uma matriz m × m e X = EkPk · · · E1P1 A = Ek · · · E1 Pk · · ·P1 A,

30 Notas de aula do Prof. Antonio Cândido Faleiros

onde Pi são matrizes de permutação que posicionam o pivô no lugar correto e Ei sãomatrizes elementares que zeram as entradas abaixo da diagonal da coluna i de Pk · · ·P1A. Vamos escrever X = E A onde E = Ek · · · E1 e A = Pk · · ·P1 A. Se k < m − 1, oprocesso não terminou e X, em geral, não é triangular superior. A próxima etapa consisteem aplicar uma permutação P que trocará uma linha i de X com sua linha k + 1 paraposicionar o pivô da coluna no local correto. Neste caso, i > k + 1. A inversa de P é P eassim PP = I. Podemos usar este fato para escrever

PX = PEA = PE(PP )A = (PEP )(PA).

Lembramos que PEP é triangular inferior e é a matriz E onde se permutou a partenão nula das linhas i e k + 1, situadas abaixo da diagonal ficam permutadas. Destaforma, sempre que se aplica uma permutação à matriz A se deve efetuar uma permutaçãocorrespondente na matriz E.Este comentáriio justifica o algoritmo da eliminação Gaussiana com pivotamento par-

cial descrito abaixo.Algoritmo da eliminação Gaussiana com pivotamento parcial

=============================U = A, L = I, P = Ifor k = 1:m-1Selecione na coluna k a linha i na qual |u(i,k)| eh maximoPermute as linhas U(k,k:m) e U(i,k:m)Permute as linhas L(k,1:k-1) e L(i,1:k-1)Permute as linhas P(k,:) e P(i,:)for j = k+1:mL(j,k) = U(j,k) / U(k,k)U(j,k:m) = U(j,k:m) - L(j,k)*U(k,k:m)

endend=============================

1.13 Decomposição de Cholesky

Se a matriz A for simétrica e inversível, uma permutação PA dessa matriz tem umadecomposição PLU. Vamos, num primeiro momento, nos esquecer da permutação P eescrever esta decomposição na forma A = LU de modo que

LU = A = AT = UTLT .

Como L e U são inversíveis,

U¡LT¢−1

= L−1UT = D

Notas de aula do Prof. Antonio Cândido Faleiros 31

é diagonal pois U¡LT¢−1

é triangular superior e L−1UT é triangular inferior. Assim, U =DLT e obtemos a decomposição

A = LDLT

onde L é triangular inferior cujos elementos diagonais são iguais a 1 e D = L−1UT édiagonal.Como os elementos da diagonal principal de L são iguais a 1, D = diag(U) onde

diag(U) é uma matriz diagonal, cujos elementos da diagonal principal são iguais aoselementos da diagonal de U.

Exemplo 1.28 Considere a decomposição A = LU abaixo

2 −1 0−1 2 −10 −1 2

= 1 0 0−1/2 1 00 −2/3 1

2 −1 00 3/2 −10 0 4/3

Sendo D = L−1UT =

2 0 00 3/2 00 0 4/3

obtemos a decomposição LDLT

2 −1 0−1 2 −10 −1 2

= 1 0 0−1/2 1 00 −2/3 1

2 0 00 3/2 00 0 4/3

1 −1/2 00 1 −2/30 0 1

.Definição 1.29 Uma matriz simétrica A é positiva definida se os elementos diagonaisde D na decomposição A = LDLT forem todos maiores do que zero. Neste caso, podemoscalcular a matriz

√D e definir M = L

√D, para assim obter a decomposição A =MMT

denominada de decomposição de Cholesky da matriz A.

No exemplo acima,

M =

1 0 0−1/2 1 00 −2/3 1

√2 0 0

0p3/2 0

0 0p4/3

=

√2 0 0

−p1/2 p3/2 0

0 −p2/3 p4/3

.A decomposição de Cholesky de A é

2 −1 0−1 2 −10 −1 2

= √

2 0 0

−12

√2 1

2

√6 0

0 −13

√6 2

3

√3

√2 −12√2 0

0 12

√6 −1

3

√6

0 0 23

√3

.

32 Notas de aula do Prof. Antonio Cândido Faleiros

Capítulo 2

Espaço vetorial

2.1 Conceito de espaço vetorial

Seja K um corpo e V um conjunto não vazio, onde definimos duas operações, sendo umaa adição de vetores e a outra a multiplicação de um elemento do corpo K por umelemento de V. Sejam v e w dois elementos de V e k um elemento do corpoK. Denotaremosa adição de v e w por v + w e a multiplicação de k e v por kv. O conjunto V, com essasoperações é denominado de espaço vetorial sobre o corpo K se, para todo u, v, w deV e todo α, β de K, se verificarem as propriedades

1. Comutativa: v + w = w + v.

2. Associativa: (u+ v) + w = u+ (v + w).

3. Elemento neutro: Existe um elemento de V denotado por 0 tal que 0+v = v+0 = v.

4. Elemento oposto: Dado v em V existe um elemento denotado por −v e tal quev + (−v) = (−v) + v = 0.

5. Associatividade: (αβ)v = α(βv).

6. Distributividade: (α+ β)v = αv + βv.

7. Distributividade: α(v + w) = αv + αw.

8. Elemento unitário: A multiplicação do elemento unitário 1 de K pelo elemento vde V é igual a v, isto é, 1v = v.

Os elementos de V são chamados vetores e os elementos de K de escalares. Oelemento v+w é o vetor soma de v com w e o elemento αv é o produto de α por v ouainda que αv é um múltiplo de v. O vetor −v é denominado oposto de v e 0 é o vetornulo ou vetor zero. Definimos a diferença v − w (leia-se v menos w) entre os vetoresv e w por v + (−w).

33

34 Notas de aula do Prof. Antonio Cândido Faleiros

Em nosso curso, o corpoK será o corpoR dos números reais ou o corpoC dos númeroscomplexos. Quando V for um espaço vetorial sobre o corpo dos números reais, diremosque V é um espaço vetorial real. Quando V for um espaço vetorial sobre o corpo dosnúmeros complexos, diremos que V é um espaço vetorial complexo.Quando se diz que V é um espaço vetorial sobre o corpo K entenda-se que está

implícito a existência das operações de adição de vetores e multiplicação de um escalarpor um vetor. Quando o contexto permitir, omite-se a referência ao corpo K e se dizapenas que V é um espaço vetorial. O espaço vetorial {0} que contém apenas o vetornulo é denominado de espaço vetorial trivial.

Exemplo 2.1 Seja Rn o conjunto de todas as ênuplas ordenadas (x1, x2, . . . , xn) denúmeros reais. Duas ênuplas ordenadas (x1, x2, . . . , xn) e (y1, y2, . . . , yn) são iguais sex1 = y1, x2 = y2, . . . , xn = yn. Define-se a operação de adição em Rn por

(x1, x2, . . . , xn) + (y1, y2, . . . , yn) = (x1 + y1, x2 + y2, . . . , xn + yn)

e a multiplicação de um número real por uma ênupla ordenada é definida por

α(x1, x2, . . . , xn) = (αx1, αx2, . . . , αxn).

ORn com as operações de adição de duas ênuplas ordenadas e multiplicação de um escalarpor uma ênupla é um espaço vetorial sobre os reais.

Exemplo 2.2 O conjunto Rm×n das matrizes m×n com elementos reais munido com asoperações de adição de matrizes e multiplicação de um número complexo por uma matrizé um espaço vetorial sobre o corpo dos números reais. O zero deste espaço vetorial é amatriz nula e o elemento oposto (inverso aditivo) de A = [aij] é −A = [−aij].Exemplo 2.3 O conjunto das matrizes m por n com elementos complexos, que denotare-mos por Cm×n, munido com as operações de adição de matrizes e multiplicação de umnúmero complexo por uma matriz é um espaço vetorial sobre o corpo dos números com-plexos. O zero deste espaço vetorial é a matriz nula e o elemento oposto (inverso aditivo)de A = [aij] é −A = [−aij].Exemplo 2.4 O conjunto de todos os polinômios de grau menor ou igual a n, com coe-ficientes reais, munido com as operações de adição de polinômios e multiplicação de umnúmero real por um polinômio, é um espaço vetorial sobre o corpo dos reais. O conjuntodos polinômios de grau menor ou igual a n com coeficientes complexos com as operaçõesacima é um espaço vetorial sobre o corpo dos números complexos.

Exemplo 2.5 O conjunto de todos os polinômios com coeficientes reais, munido com asoperações de adição de polinômios e multiplicação de um número real por um polinômio,é um espaço vetorial sobre o corpo dos reais. O conjunto de todos os polinômios comcoeficientes complexos com as operações acima é um espaço vetorial sobre o corpo dosnúmeros complexos.

Exemplo 2.6 O conjunto C[a, b] = {f : [a, b] → R : f é contínua} com as operações deadição de funções e multiplicação de um número real por uma função é um espaço vetorialsobre R.

Notas de aula do Prof. Antonio Cândido Faleiros 35

2.2 Dependência linear

Todo elemento (x, y) do R2 pode ser decomposto na seguinte soma

(x, y) = x(1, 0) + y(0, 1).

Esta maneira de decompor um vetor é muito utilizada em Álgebra Linear.Sejam v1, . . . , vn vetores do espaço vetorial V e escalares α1, . . . , αn. O vetor α1v1+

· · ·+ αnvn é uma combinação linear dos vetores v1, . . . , vn.

Exemplo 2.7 O vetor (2, 3) do R2 é uma combinação linear dos vetores (1, 0) e (0, 1)pois (2, 3) = 2(1, 0)+ 3(0, 1).

Seja {v1, . . . , vn} um subconjunto finito de V. Este conjunto é linearmente depen-dente se existirem escalares α1, . . . , αn, nem todos nulos tais que

α1v1 + · · ·+ αnvn = 0.

Também se diz que os vetores v1, . . . , vn são linearmente dependentes. Notem que aigualdade acima se verifica para α1 = · · · = αn = 0. Se a ênupla (α1, . . . , αn) = (0, . . . ,0) for a única para a qual

α1v1 + · · ·+ αnvn = 0,

diremos que o conjunto {v1, . . . , vn} é linearmente independente ou que os vetoresv1, . . . , vn são linearmente independentes.

Exemplo 2.8 O conjunto S = { (5, 7), (1, 0), (0, 1) } de vetores do R2 é linearmentedependente pois

1(5, 7)− 5(1, 0)− 7(0, 1) = (0, 0).O conjunto { (1, 2, 3), (0, 1, 1), (0, 0, 2) } de vetores doR3 é linearmente independente.

De fato, se α1, α2 e α3 forem escalares tais que

α1(1, 2, 3) + α2(0, 1, 1) + α3(0, 0, 2) = (0, 0, 0)

então

α1 + 0α2 + 0α3 = 0

2α1 + α2 + 0α3 = 0

3α1 + α2 + 2α3 = 0

cuja única solução é α1 = α2 = α3 = 0.

Todo conjunto {0, v1, . . . vp} que contém o vetor nulo é linearmente dependente pois

1 · 0 + 0v1 + · · ·+ 0vp = 0.

36 Notas de aula do Prof. Antonio Cândido Faleiros

Observe que, a dependência linear do conjunto S = { (5, 7), (1, 0), (0, 1) } de vetoresdo R2 que se expressa por

1(5, 7)− 5(1, 0)− 7(0, 1) = (0, 0).

implica na possibilidade de escrever (5, 7) como uma combinação linear dos vetores (1, 0)e (0, 1)

(5, 7) = 5(1, 0) + 7(0, 1).

Esta igualdade também implica na dependência linear de S = { (5, 7), (1, 0), (0, 1) }. Talfato é enunciado de modo geral no próximo teorema.

Proposição 2.9 Um conjunto {v1, . . . , vn} de vetores de um espaço vetorial V é linear-mente dependente se e só se um dos seus elementos for combinação linear dos demais.

Prova. Se {v1, . . . , vn} for linearmente dependente, existem escalares α1, . . . , αn, nemtodos nulos, tais que α1v1+ · · ·+ αnvn = 0. Supondo α1 6= 0 (se α1 = 0, basta permutar osvetores do conjunto para trazer o coeficiente não nulo para a primeira posição) podemosescrever v1 como combinação linear de v2, . . . , vn

v1 =¡−α−11 α2

¢v2 − · · ·

¡−α−11 αn

¢vn.

Se v1 for uma combinação linear de v2, . . . , vn, então existem escalares β2, . . . , βn taisque

v1 = β2v2 + · · ·+ βnvn

ev1 + (−β2) v2 + · · ·+ (−βn) vn = 0,

mostrando que {v1, . . . , vn} é linearmente dependente. ¤

Todo conjunto que contém um subconjunto linearmente dependente é linearmentedependente. Todo subconjunto de um conjunto de vetores linearmente independente élinearmente independente.

Proposição 2.10 Seja S um conjunto finito de vetores.

1. Se S for linearmente dependente, qualquer conjunto finito de vetores que o contémtambém será linearmente dependente.

2. Se S for linearmente independente, qualquer subconjunto de S será linearmenteindependente.

Prova. Seja S = {v1, . . . , vn}.

Notas de aula do Prof. Antonio Cândido Faleiros 37

1. Se S for linearmente dependente, existem escalares α1, . . . , αn nem todos nulos taisque α1v1+ · · ·+ αnvn = 0. Seja S0 um conjunto finito que contém S. Se w1, . . . , wm

forem os elementos de S0 que não pertencem a S, então

α1v1 + · · ·+ αnvn + 0w1 + · · ·+ 0wm = 0

provando que S0 é linearmente dependente.

2. Se S for linearmente independente, seja S0 um subconjunto de S. Se S0 fosse linear-mente dependente, S também o seria pela primeira parte. Logo S0 é linearmenteindependente.

¤

2.3 Base e dimensão

Seja B = {v1, . . . , vn} um conjunto finito de vetores em V. Se todo elemento de V foruma combinação linear dos elementos de B, diremos que B gera V.

Exemplo 2.11 O conjunto B = {(1, 2), (1, 0), (0, 1)} gera o R2. Qualquer par ordenado(x, y) pode ser decomposto nas combinações lineares

(x, y) = 0(1, 2) + x(1, 0) + y(0, 1)

ou(x, y) = x(1, 2) + 0(1, 0) + (y − 2x)(0, 1).

Neste exemplo, o modo de escrever (x, y) como combinação linear dos elementos de B nãoé única.

Exemplo 2.12 O conjunto B = {(2, 1), (1, 0) } gera o R2 pois podemos escrever um parordenado (x, y) qualquer como combinação linear desses dois vetores

(x, y) = x(2, 1) + (y − x)(1, 0).

Neste exemplo, o modo de escrever (x, y) como combinação linear dos elementos de B éúnica.

Que diferença existe entre os conjuntos geradores dos exemplos acima? O primeiro élinearmente dependente e o segundo é linearmente dependente.

Definição 2.13 Um conjunto finito de vetores linearmente independente e que gera V éuma base de V.

38 Notas de aula do Prof. Antonio Cândido Faleiros

Uma base B = {v1, . . . , vn} gera V. Assim, para cada vetor v em V existem escalaresα1, . . . , αn tais que

v = α1v1 + · · ·+ αnvn.

Os vetores α1v1, . . . , αnvn são denominados de componentes do vetor v na base B, osescalares α1, . . . , αn são as coordenadas de v na base B e a matriz coluna

[v]B = [α1 . . . αn]T

é a matriz das coordenadas de v na base B.Uma base ordenada B = {v1, v2, . . . , vn} é aquela em que se estabelece que v1 é o

seu primeiro elemento, que v2 é o seu segundo elemento, e assim por diante. A ordem emque seus elementos são escritos é relevante.

Proposição 2.14 A matriz das coordenadas de um vetor numa base ordenada é única.

Prova. Seja B = {v1, . . . , vn} uma base ordenada de um espaço vetorial V. Se v =x1v1+ · · ·+ xnvn e v = y1v1+ · · ·+ ynvn forem duas decomposições de v nos elementosda base B, então

0 = v − v = (x1 − y1)v1 + · · ·+ (xn − yn)vn

e, da independência linear dos vetores da base, xi = yi para i = 1, . . . , n. ¤

De ora em diante, uma base ordenada será chamada simplesmente de base. O contextoindicará a necessidade de ser a base ordenada ou não.

Exemplo 2.15 Considere as ênuplas e1 = (1, 0, . . . , 0), e2 = (0, 1, . . . , 0), en = (0, 0,. . . , 1), onde ek é a linha k da matriz identidade n × n. O conjunto de vetores {e1, e2,. . . , en} é uma base tanto do Rn quanto do Cn e é chamada de base canônica. Se x =(x1, . . . , xn), então x = x1e1+ · · ·+ xnen. Isto significa que as coordenadas de x na basecanônica são exatamente os elementos da ênupla x.

Exemplo 2.16 O conjunto {1, x, x2} é uma base do espaço vetorial dos polinômios degrau menor ou igual a dois com coeficientes complexos.

Nem todo espaço vetorial possui uma base tal como se definiu acima. O espaço vetorialde todos os polinômios com coeficientes complexos não possui base no sentido definidoneste texto. Não existe conjunto finito de polinômios que gera todos os demais. Todoconjunto finito de polinômios tem um polinômio de grau máximo, que não seria capaz degerar os polinômios de grau superior ao polinômio de grau máximo do conjunto.Todas as bases de um espaço vetorial possuem o mesmo número de elementos, como

provaremos em seguida. Precederemos o teorema principal por três lemas.

Lema 2.17 Seja {v1, . . . , vn} uma base de V e w = α1v1 + · · ·+ αnvn. Se αi 6= 0, então{v1, . . . , vi−1, w, vi+1, , . . . , vn}

também é base.

Notas de aula do Prof. Antonio Cândido Faleiros 39

Prova. Para simplificar, provaremos o teorema supondo α1 6= 0. Se α1 = 0, podemosreordenar os elementos da base para trazer para a primeira posição uma componente de wdiferente de zero. Sendo α1 6= 0, podemos explicitar v1 na igualdade w = α1v1+ · · ·+αnvnpara obter

v1 =1

α1w − α2

α1v2 − · · ·− αn

α1vn = β1w + β2v2 + · · ·+ βnvn.

Vamos provar que {w, v2, . . . , vn} gera V. Sendo v um vetor qualquer de V, existemescalares x1, x2, . . . , xn tais que

v = x1v1 + x2v2 + · · ·+ xnvn

= x1(β1w + β2v2 + · · ·+ βnvn) + x2v2 + · · ·+ xnvn

= (x1β1)w + (x1β2 + x2)v2 + · · ·+ (x1βn + xn)vn,

provando que o conjunto {w, v2, . . . , vn} gera V.Vamos provar que {w, v2, . . . , vn} é linearmente independente. Sejam k1, k2, . . . , kn

escalares tais que k1w+ k2v2+ · · ·+ knvn = 0. Se k1 6= 0, entãok1(α1v1 + α2v2 + · · ·+ αnvn) + k2v2 + · · ·+ knvn = 0

ouk1α1v1 + (k1α2 + k2)v2 + · · ·+ (k1αn + kn)vn = 0

com k1α1 6= 0, o que contraria o fato de {v1, v2, . . . , vn} ser base de V. Logo, k1 = 0e a combinação linear k1w+ k2v2+ · · ·+ knvn = 0 se reduz a k2v2+ · · ·+ knvn = 0. Daindependência linear do conjunto {v2, . . . , vn}, obtemos k2 = · · · = kn = 0, provando aindependência linear de {w, v2, . . . , vn} que, portanto, é base de V. ¤

Lema 2.18 Seja {v1, . . . , vn} uma base com n elementos do espaço vetorial V. Todoconjunto linearmente independente com n elementos é base de V.

Prova. Seja {w1, . . . , wn} um conjunto linearmente independente com n vetores deV. Pode-se decompor w1 na base {v1, . . . , vn} e escrever

w1 = c11v1 + · · ·+ cn1v1.

Como w1 6= 0, pelo menos um dos coeficientes desta combinação linear é diferente de zero.Podemos supor que c11 6= 0 (se o c11 fosse nulo, bastaria reordenar a base {v1, v2, . . . , vn}de modo que, nesta nova ordem, c11 6= 0).Pelo lema anterior, {w1, v2, . . . , vn} é base e podemos escrever

w2 = c12w1 + c22v2 + · · ·+ cn2vn.

Os coeficientes c22, . . . , cn2 não podem ser todos nulos. De fato, se todos eles fossem nulos,então w2 = c12w1, o que contraria a hipótese de o conjunto {w1, . . . , wn} ser linearmente

40 Notas de aula do Prof. Antonio Cândido Faleiros

independente. Assim, pelo menos um dos coeficientes c22, . . . , cn2 não é nulo. Comoantes, podemos supor, sem perda de generalidade, que c22 6= 0.Pelo lema anterior, {w1, w2, v3, . . . , vn} é base de V.Prosseguindo com este raciocínio, substituímos todos os elementos da base {v1, . . . ,

vn} por w1, w2, . . . , wn, provando que {w1, w2, . . . , wn} é base. ¤

Lema 2.19 Se um espaço vetorial V possuir uma base com n elementos, então todoconjunto de vetores em V com mais de n elementos é linearmente dependente.

Prova. De fato, se houvesse um conjunto linearmente independente com mais do quen elementos, qualquer subconjunto dele com n elementos seria base e os vetores restantesseriam combinações lineares desses n selecionados, contrariando a hipótese de independên-cia linear do conjunto. Logo, não existe conjunto de vetores linearmente independentecom mais do que n elementos. ¤

Estes lemas nos permitem enunciar o

Teorema 2.20 Se um espaço vetorial V possuir uma base com n elementos, todas asoutras bases deste espaço vetorial têm o mesmo número de elementos.

Prova. De fato, como todo conjunto com mais do que n elementos é linearmentedependente, não há base com mais do que n elementos.Seja B1 a base com n elementos. Se existisse alguma base B2 com k elementos e k <

n, pelo lema anterior, a base B1 seria linearmente dependente, possibilidade que se excluipela definição de base. Logo não existe base com menos do que n elementos. ¤

Este teorema garante que todas as bases de um espaço vetorial possui o mesmo númerode elementos o que justifica a definição que segue.

Definição 2.21 Se um espaço vetorial possui uma base, diremos que ele possui dimen-são finita e que o número de elementos das bases é a sua dimensão. Por definição, adimensão do espaço vetorial trivial, aquele que contém apenas o vetor nulo, é zero.

2.4 Matriz de mudança de base

Seja V um espaço vetorial complexo de dimensão finita n > 0. Sejam B1 = {u1, . . . , un}e B2 = {v1, . . . , vn} duas bases de V. Podemos decompor cada elemento de B2 numacombinação linear dos elementos de B1

v1 = p11u1 + p21u2 + · · ·+ pn1un

v2 = p12u1 + p22u2 + · · ·+ pn2un

· · ·vn = p1nu1 + p2nu2 + · · ·+ pnnun

Notas de aula do Prof. Antonio Cândido Faleiros 41

A matriz

M12 =

p11 p12 · · · p1np21 p22 · · · p2n...

.... . .

...pn1 pn2 · · · pnn

é chamada de matriz de mudança de base, mais especificamente, matriz de mudançada base B1 para a base B2. Observe que as coordenadas do desenvolvimento de v1 nabase B1 formam a primeira coluna, as coordenadas do desenvolvimento de v2 na base B1formam a primeira coluna,Sendo B3 = {w1, . . . , wn} uma terceira base de V, podemos escrever os vetores de B3

como combinações lineares dos elementos da base B2. Usando o símbolo de somatório,

wj =nXi=1

qijvi

e agora, M23 = [qij] é a matriz de mudança da base B2 para a base B3.Das duas decomposições acima segue

wj =Xk

qkjvk =Xk

qkjXi

pikui

=Xi

ÃXk

pikqkj

!ui =

Xi

rijui

onde M13 = [rij] = [P

k pikqkj] é a matriz de mudança da base B1 para a base B3. Como

M13 = [rij] =

"Xk

pikqkj

#= [pik][qkj] =M12M23,

provamos a identidadeM13 =M12M23.

Quando B3 = B1, a matriz M13 é a identidade I e M23 = M21. Da igualdade acima segue

M12M21 = I,

mostrando que as matrizes de mudança de base são inversíveis e que a inversa de M12 éM21.Sejam i e j inteiros do conjunto {1, 2, . . . , n}. O delta de Kronecker δij, é um

conjunto de n2 números definidos do seguinte modo: δij = 1 quando i = j e δij = 0quando i 6= j.Observe que o elemento da linha i coluna j da matriz identidade I de ordem n× n é

exatamente δij e podemos usar o delta de Kronecker para escrever I = [δij].As igualdades matriciais

M12M21 = I e M21M12 = I

42 Notas de aula do Prof. Antonio Cândido Faleiros

quando escritas componente a componente, forneceXk

pikqkj = δij eXk

qikpkj = δij

para i e j percorrendo os valores 1, . . . , n.

Mudança de coordenadas

Teorema 2.22 Sejam B1 e B2 duas bases do espaço vetorial V. Sejam[u]1 a matriz das coordenadas de u na base B1,[u]2 a matriz das coordenadas de u na base B2 eM12 a matriz de mudança da base B1 para a base B2.Então

[u]1 =M12[u]2

Prova. Sejam B1 = {v1, . . . , vn} e B2 = {w1, . . . , wn} as bases em questão. Se [u]1 =[x1, . . . , xn]

T for a matriz das coordenadas de u na base B1, se [u]2 = [y1, . . . , yn]T for amatriz das coordenadas de u na base B2 e seM12 = [pij] for a matriz de mudança da baseB1 para a base B2, segue

u =Xi

xivi =Xj

yjwj

e

wj =nXi=1

pijvi.

Portanto,

u =Xj

yjwj =Xj

yjXi

pijvi

=Xi

ÃXj

pijyj

!vi.

Como u =P

i xivi, segue da unicidade da decomposição de um vetor nos elementos dabase que

xi =Xj

pijyj

que corresponde à igualdade matricial

[u]1 =M12[u]2.

¤

Notas de aula do Prof. Antonio Cândido Faleiros 43

2.5 Subespaço vetorial

Seja V um espaço vetorial e W um subconjunto não vazio de V. Diremos que W é umsubespaço vetorial de V se, para todo v e w em W e todo escalar λ, os vetores λw ev + w pertencerem a W. Em outras palavras, o subespaço vetorial é aquele subconjuntofechado em relação à adição e à multiplicação por um escalar.As operações de adição de vetores e multiplicação por uma escalar definidas em V,

também se aplicam aos vetores deW, que está contido em V. Certamente, essas operaçõesem W gozam das mesmas propriedades que em V. Deste argumento se conclui que todosubespaço vetorial é, ele próprio, um espaço vetorial.O próprio V é um subespaço vetorial dele mesmo. O subespaço {0} é denominado de

subespaço trivial de V. Os subespaços distintos de V são denominados de subespaçospróprios de V.

Exemplo 2.23 O conjunto W = { (x, y, 0) : x, y ∈ R } é um subespaço próprio de R3.

Um subespaço vetorial sempre contém o vetor nulo. De fato, sendo 0 o escalar nulo,para todo vetor v do subespaço, 0v é o vetor nulo e, por definição, pertence ao subespaço.SejamW1 eW2 subespaços vetoriais de um espaço vetorial V.A soma dos subespaços

W1 +W2, definida por

W1 +W2 = {w1 + w2 : w1 ∈W1 e w2 ∈W2}

e a interseção dos subespaços W1 ∩W2, definida por

W1 ∩W2 = {w : w ∈W1 e w ∈W2}

são subespaços vetoriais de V.

Nota 2.24 Nem sempre a união

W1 ∪W2 = {w ∈ V : w ∈W1 ou w ∈W2}

de dois subespaços W1 e W2 de V é um subespaço vetorial de V. Se u e v pertencerem àunião, u + v pode não pertencer. Quando W1 estiver contido em W2, então W1 ∪W2 =W2 e daí a união será um subespaço vetorial de V.

Seja W um subepaço vetorial de V, um espaço vetorial com dimensão finita. Entãodim(W ) = dim(V ) se e só se W = V e dim(W ) < dim(V ) se e só se W for subespaçopróprio de V.Os subespaços de dimensão n− 1 de um espaço vetorial de dimensão n são chamados

de hiperplanos.

Exemplo 2.25 O subespaço vetorial W = { x(1, 2, 0) + y(0, 3, 1) : x e y ∈ R } do R3 éum hiperplano.

44 Notas de aula do Prof. Antonio Cândido Faleiros

2.6 Subespaço gerado

Seja S um subconjunto de V. O conjunto de todas as combinações lineares finitas deelementos de S é um subespaço vetorial de V, chamado de subespaço gerado por S e édenotado por hSi . Diz-se ainda que S gera hSi ou que hSi é gerado por S. O subespaçogerado por S é um subespaço vetorial de V.Sendo S = { w1, . . . , wk } finito, então

hSi = {α1w1 + · · ·+ αkwk : α1, . . . , αk ∈ R}.

Exemplo 2.26 Seja S = {e1, e3} um subconjunto do R3 onde e1 = (1, 0, 0, ) e e3 = (0,0, 1). O subespaço gerado por S é hSi = { (x, 0, y) : x, y ∈ R3 }. Se considerarmos Scomo subconjunto de C3 então hSi = { (x, 0, y) : x, y ∈ C}.

Base do subespaço gerado

Seja S = {w1, . . . , wk} um conjunto de vetores de Cn, de modo que

w1 = (w11, w12, . . . , w1n)

w2 = (w21, w22, . . . , w2n)

· · ·wk = (wk1, wk2, . . . , wkn)

Vamos descrever um processo para determinar uma base para o espaço gerado por S noqual lançamos mão de alguns fatos para nos auxiliar nesta tarefa. Vamos enumerá-losabaixo.

1. Retirar os vetores nulos de S não altera o espaço gerado por S.

2. Permutar a ordem dos vetores de S não altera o espaço gerado por S.

3. Se multiplicarmos um ou mais vetores de S por escalares não nulos, o espaço geradopor S não se altera.

4. Se substituirmos em S o vetor wi pelo vetor wi+ cwj, onde c é um escalar, o espaçogerado por S permanece inalterado.

5. Se nenhum vetor de S for nulo e a matrizw11 w12 · · · w1nw21 w22 · · · w2n...

.... . .

...wk1 wk2 · · · wkn

for escalonada, então S é linearmente independente e, portanto, é uma base doespaço gerado por S.

Notas de aula do Prof. Antonio Cândido Faleiros 45

Os fatos enumerados acima nos permitem usar o método da eliminação de Gauss paradeterminar uma base para o espaço gerado por S : Construa a matriz cujas linhas sãoos elementos de w1, w2, . . . , wk, como acima e obtenha sua forma escalonada usando ométodo da eliminação de Gauss. As linhas não nulas da forma escalonada desta matriz

R =

r11 r12 · · · r1n0 r22 · · · r2n0 0 · · · r3n...

.... . .

...

formarão a base de hSi .Este procedimento pode ser usado para determinar o subespaço gerado por S = { w1,

. . . , wk} mesmo quando S for um conjunto de vetores num espaço vetorial de dimensãofinita V qualquer. Basta tomar uma base B = { v1, v2, . . . , vn} de V e decompor cadaelementos de S numa combinação linear de elementos de B

w1 = β11v1 + β12v2 + · · ·+ β1nvn

w2 = β21v1 + β22v2 + · · ·+ β2nvn

· · ·wk = βk1v1 + βk2v2 + · · ·+ βknvn

formar a matriz β11 β12 · · · β1nβ21 β22 · · · β2n...

.... . .

...βk1 βk2 · · · βkn

e proceder como no caso em que o espaço vetorial é o Cn, obtendo, obter sua formaescalonada

R =

r11 r12 · · · r1n0 r22 · · · r2n0 0 · · · r3n...

.... . .

...

Os vetores não nulos obtidos na forma escalonada

r11v1 + r12v2 + · · ·+ r1nvn

r22v2 + r23v3 + · · ·+ r2nvn

r33v3 + r34v4 + · · ·+ r3nvn...

formarão uma base para o espaço gerado por V.

46 Notas de aula do Prof. Antonio Cândido Faleiros

Exemplo 2.27 Vamos determinar uma base do subespaço vetorial do R5 gerado por

w1 = (1, 2, 2,−3,−4),w2 = (3, 8, 0, 2, 8),

w3 = (1, 2, 2,−1, 0),w4 = (−1,−2, 8, 8, 8),w5 = (2, 6, 3, 5, 9).

Construímos a matriz 1 2 2 −3 −43 8 0 2 81 2 2 −1 0−1 −2 8 8 82 6 3 5 9

e a escalonamos

1 0 0 0 0−3 1 0 0 0−1 0 1 0 01 0 0 1 0−2 0 0 0 1

1 2 2 −3 −43 8 0 2 81 2 2 −1 0−1 −2 8 8 82 6 3 5 9

=1 2 2 −3 −40 2 −6 11 200 0 0 2 40 0 10 5 40 2 −1 11 17

1 0 0 0 00 1 0 0 00 0 1 0 00 0 0 1 00 −1 0 0 1

1 2 2 −3 −40 2 −6 11 200 0 0 2 40 0 10 5 40 2 −1 11 17

=1 2 2 −3 −40 2 −6 11 200 0 0 2 40 0 10 5 40 0 5 0 −3

1 0 0 0 00 1 0 0 00 0 0 0 10 0 0 1 00 0 1 0 0

1 2 2 −3 −40 2 −6 11 200 0 0 2 40 0 10 5 40 0 5 0 −3

=1 2 2 −3 −40 2 −6 11 200 0 5 0 −30 0 10 5 40 0 0 2 4

1 0 0 0 00 1 0 0 00 0 1 0 00 0 −2 1 00 0 0 0 1

1 2 2 −3 −40 2 −6 11 200 0 5 0 −30 0 10 5 40 0 0 2 4

=1 2 2 −3 −40 2 −6 11 200 0 5 0 −30 0 0 5 100 0 0 2 4

1 0 0 0 00 1 0 0 00 0 1 0 00 0 0 1/5 00 0 0 −2/5 1

1 2 2 −3 −40 2 −6 11 200 0 5 0 −30 0 0 5 100 0 0 2 4

=1 2 2 −3 −40 2 −6 11 200 0 5 0 −30 0 0 1 20 0 0 0 0

Notas de aula do Prof. Antonio Cândido Faleiros 47

e assim, uma base do espaço gerado por w1, w2, w3, w4, w5 é formada pelos vetores

z1 = (1, 2, 2,−3,−4),z2 = (0, 2,−6, 11, 20),z3 = (0, 0, 5, 0,−3),z4 = (0, 0, 0, 1, 2).

48 Notas de aula do Prof. Antonio Cândido Faleiros

Capítulo 3

Transformação linear

Neste capítulo consideraremos que os espaços vetoriais estão definidos em ummesmo corpoK. Nos exemplos, K será o corpo dos números reais ou o corpo dos números complexos.Sejam V e W dois espaços vetoriais sobre um mesmo corpo K. Uma função L : V → Wé uma transformação linear se, para todo par de vetores v, w em V e todo escalar αdo corpo K,

L(v + w) = L(v) + L(w),

L(αv) = αL(v).

A notação Lv também é usada para indicar L(v).Podemos unir as duas igualdades acima dizendo que L é linear quando a igualdade

L(αv + βw) = αL(v) + βL(w)

se verificar para todo α e β escalares e para todo v e w em V.Toda transformação linear leva o zero de V no zero de W. De fato, L(0) = L(0+ 0) =

L(0)+ L(0) = 2L(0) o que implica em L(0) = 0.

Exemplo 3.1 A transformação L1 : R2 → R definida por L1(x, y) = 3x+ 2y é linear.A transformação L2 : R2 → R2 definida por L2(x, y) = (x− y, 0) é linear.A transformação T : R2 → R definida por T (x, y) = x+y+2 não é linear pois T (2x,

2y) = 2x+ 2y+ 2 é diferente de 2T (x, y) = 2x+ 2y+ 4.

Uma transformação linear L : V → V de um espaço V sobre ele mesmo recebe o nomede operador linear. Se V for um espaço vetorial sobre um corpo K, uma transformaçãolinear L : V → K recebe o nome de funcional linear.Sendo L : V →W e T :W → U, definimos a composta T ◦ L : V → U por

T ◦ L(v) = T (L(v)).

Também se denota T ◦ L por TL. Assim, TL(v) = T (L(v)).

49

50 Notas de aula do Prof. Antonio Cândido Faleiros

Pode-se provar por indução que, se L : V →W for linear, se v1, . . . , vn forem vetoresde V e se α1, . . . , αn forem escalares, então

L (α1v1 + · · ·+ αnvn) = α1L(v1) + · · ·+ αnL(vn).

A partir desta fórmula podemos afirmar que quando L for linear e {v1, . . . , vn} forbase de V, o conhecimento dos vetores w1 = L(v1), . . . , wn = L(vn) é suficiente paracalcular o valor de L em qualquer vetor v. Basta decompor v em uma combinação lineardos vetores da base

v = x1v1 + · · ·+ xnvn

e calcular

L(v) = L(x1v1 + · · ·+ xnvn) = x1L(v1) + · · ·+ xnL(vn) = x1w1 + · · ·+ xnwn.

Exemplo 3.2 Seja L : R3 → R uma transformação linear e e1 = (1, 0, 0), e2 = (0, 1,0) e e3 = (0, 0, 1) os elementos da base canônica do R3. Se Le1 = 5, Le2 = 7, Le3 = 11,para qualquer (x1, x2, x3) em R3, teremos

L(x1, x2, x3) = L(x1e1 + x2e2 + x3e3)

= x1L(e1) + x2L(e2) + x3L(e3)

= 5x1 + 7x2 + 11x3.

Generalizando este exemplo, se Le1 = a1, Le2 = a2 e Le3 = a3, então

L(x1, x2, x3) = L(x1e1 + x2e2 + x3e3)

= x1L(e1) + x2L(e2) + x3L(e3)

= a1x1 + a2x2 + a3x3.

Este exemplo nos dá uma indicação da forma geral de um funcional linear L de Rn

em R. Vamos determiná-la. Seja {e1, e2, . . . , en} a base canônica do Rn. Se L(ei) = aipara i = 1, . . . , n, então, para todo (x1, . . . , xn) vale

L(x1, . . . , xn) = L(x1e1 + · · ·+ xnen) = x1L(e1) + · · ·+ xnL(en)

ouL(x1, . . . , xn) = a1x1 + · · ·+ anxn.

Esta é a forma geral de um funcional linear do Rn em R.

Exemplo 3.3 Utilizando a forma geral, vemos que L1(x, y) = 5x− 4y e L2(x, y) = 3xsão transformações lineares de R2 em R. Todavia, T (x, y) = x+ 2 não é linear pois nãopossui o formato estabelecido acima e observe que T não leva o zero de R2 no zero de R.

Notas de aula do Prof. Antonio Cândido Faleiros 51

Vamos determinar agora a forma geral de uma uma transformação linear L de Rn emRm. Iniciemos com um exemplo ilustrativo com a transformação

L(x1, x2) = (x1 − 3x2, 2x1,−x1 + 4x2)de R2 em R3. Se definirmos

L1(x1, x2) = x1 − 3x2, L2(x1, x2) = 3x2 e L3(x1, x2) = −x1 + 4x2então

L(x1, x2) = ( L1(x1, x2), L2(x1, x2), L3(x1, x2) ).

Baseados neste exemplo, vemos que, se L é uma transformação linear do Rn emRm, paraqualquer x no Rn, tem-se

L(x) = ( L1(x), . . . , Lm(x) ),

onde L1(x), . . . , Lm(x) são números reais, dependentes de x. Vamos mostrar que L1, . . . ,Lm são funcionais lineares de Rn em R. De fato, sendo α e β escalares e x, y ênuplasordenadas, então

L(αx+ βy) = αLx+ βLy

e assim,

( L1(αx+ βy), . . . , Lm(αx+ βy) ) = ( αL1x+ βL1y, . . . , αLmx+ βLmy )

e, da igualdade desses elementos de Rm, obtemos

L1(αx+ βy) = αL1x+ βL1y

. . .

Lm(αx+ βy) = αLmx+ βLmy

mostrando que L1, . . . , Lm são funcionais lineares de Rn em R. A partir daí, concluímosque toda transformação linear L de Rn em Rm é da forma

L(x1, . . . , xn) = ( a11x1 + · · ·+ a1nxn, . . . , am1x1 + · · ·+ am,nxn )

onde aij, para i = 1, . . . , m e j = 1, . . . , n, são números reais.

Exemplo 3.4 A transformação

L(x, y) = (2x− y, x+ y, y)

de R2 em R3 é linear. A transformação

T (x, y) = (x, 0, x+ 2y,−3x+ y, 4y)

de R2 em R5 é linear.

52 Notas de aula do Prof. Antonio Cândido Faleiros

Seja L : V →W uma transformação linear. O conjunto

kerL = {v ∈ V : Lv = 0}é chamado de núcleo (kernel em inglês) de L e o conjunto

ImL = {Lv : v ∈ V }é a imagem de L. Tanto o núcleo de L quanto a sua imagem, são subespaços vetoriaisde V. A dimensão do núcleo de L é denominada de nulidade de L.

Exemplo 3.5 Seja L a transformação linear de R3 em R3 definida por

L(x, y, z) = (x+ z, 2x+ y + z, x+ 2y − z).

Para determinar o núcleo de L escreva

L(x, y, z) = (x+ z, 2x+ y + z, x+ 2y − z) = (0, 0, 0)

e resolva o sistema correspondente à igualdade acima

x+ z = 0

2x+ y + z = 0

x+ 2y − z = 0

cuja solução x = −z e y = z pode ser obtida pelo método da eliminação de Gauss. Assim,

kerL = {(−z, z, z) : z ∈ R}.O kerL é gerado por (−1, 1, 1) e, portanto, tem dimensão 1.Para determinar a imagem de L escrevemos

L(x, y, z) = (x+ z, 2x+ y + z, x+ 2y − z)

= x(1, 2, 1) + y(0, 1, 2) + z(1, 1,−1)mostrando que todo elemento da imagem de L é uma combinação linear dos vetores (1, 2,1), (0, 1, 2) e (1, 1, −1). Para determinar uma base do espaço gerado usamos o processode escalonamento. Construímos a matriz 1 2 1

0 1 21 1 −1

cujas linhas são os elementos dos vetores que geram o subespaço. Usando operaçõeselementares sobre as linhas chegamos a 1 2 1

0 1 21 1 −1

l3=l3−l1→ 1 2 10 1 20 −1 −2

l3=l3−l2→ 1 2 10 1 20 0 0

Notas de aula do Prof. Antonio Cândido Faleiros 53

e chegamos a uma base da imagem de L que é formada pelos vetores

(1, 2, 1) , (0, 1, 2)

e concluímos que a imagem de L tem dimensão 2.Adicionando a dimensão do núcleo com a dimensão da imagem obtemos 3 que é a

dimensão do domínio de L.

O resultado do exemplo anterior em que a soma das dimensões do núcleo e da imagemde L é igual à dimensão do domínio de L é um resultado geral, como enuncia o próximoteorema.

Teorema 3.6 Sejam V e W espaços vetoriais e L : V →W linear. Se a dimensão de Vfor finita, então

dimV = dim Im (L) + dimker(L).

Prova. Quando L é a transformação linear nula, que leva todos os vetores de Vno zero a Im (L) = {0} e nada resta a provar, uma vez que ker(L) = V. Assim, comodim Im (L) = 0 e dimker(L) = dim(V ).Se L não for a transformação linear nula, Im (L) 6= {0}. Seja {v1, . . . , vp} uma base do

ker(L). Podemos acrescentar vetores a este conjunto até obter uma base B = {v1, . . . , vp,vp+1, . . . , vn} de V. Se provarmos que {L(vp+1), . . . , L(vn)} é base da Im (L), o teoremaestará provado pois

dimker(L) + dim Im (L) = p+ (n− p) = n = dim(V ).

Inicialmente, observamos que nenhum dos vetores L(vp+1), . . . , L(vn) é nulo. Se fosse, ovetor correspondente pertenceria ao núcleo de L e B seria linearmente dependente, o quenão é o caso pois é base de V.Provemos agora que {L(vp+1), . . . , L(vn)} é base da Im (L).

1. O conjunto {L(vp+1), . . . , L(vn)} gera Im (L).De fato, se w pertence à Im (L), então existe v em V tal que w = Lv. Podemosescrever v como uma combinação linear dos elementos da base B,

v = x1v1 + · · ·+ xpvp + xp+1vp+1 + · · ·+ xnvn

de onde segue

w = Lv = L(x1v1 + · · ·+ xpvp + xp+1vp+1 + · · ·+ xnvn)

= x1Lv1 + · · ·+ xpLvp + xp+1Lvp+1 + · · ·+ xnLvn

= xp+1Lvp+1 + · · ·+ xnLvn,

mostrando que {Lvp+1, . . . , Lvn} gera a Im (L).

54 Notas de aula do Prof. Antonio Cândido Faleiros

2. O conjunto {Lvp+1, . . . , Lvn} é linearmente independente.

Se fosse linearmente dependente, existiriam escalares kp+1, . . . , kn, nem todos nulos,tais que

kp+1L(vp+1) + · · ·+ knL(vn) = 0

o que implica emL(kp+1vp+1 + · · ·+ knvn) = 0

indicando que o vetor kp+1vp+1+ · · ·+ knvn pertenceria ao ker(L), sendo igual a umacombinação linear dos vetores v1, . . . , vp que formam uma base do núcleo de L. Portanto,existem escalares k1, . . . , kp tais que

kp+1vp+1 + · · ·+ knvn = k1v1 + · · ·+ kpvp

ouk1v1 + · · ·+ kpvp − kp+1vp+1 − · · ·− knvn = 0

onde pelo menos um dos ki, com i = 1, . . . , p, diferente de zero, o que vai contraria ahipótese de B ser base de V.Das partes 1 e 2 concluímos que {Lvp+1, . . . , Lvn} é base da Im (L).Como {v1, . . . , vp} é base do ker(L) e {Lvp+1, . . . , Lvn} é base da Im (L), então

dimkerL+ dim ImL = p+ (n− p) = n = dimV

e o teorema está provado. ¤

3.1 Matriz de uma transformação linear

Seja B1 = {v1, . . . , vn} uma base de um espaço vetorial V, B2 = {w1, . . . , wm} uma basede um espaço vetorial W e L : V → W uma transformação linear. Podemos decomporcada vetor Lvj, com j = 1, . . . , n, numa combinação linear dos elementos da base B2

Lv1 = a11w1 + a21w2 + · · ·+ am1wm

Lv2 = a12w1 + a22w2 + · · ·+ am2wm

· · ·Lvn = a1nw1 + a2nw2 + · · ·+ amnwm

Estas expressões podem ser escritas de modo taquigráfico usando somatório: para j = 1,2, . . . , n

Lvj =mXi=1

aijwi.

Notas de aula do Prof. Antonio Cândido Faleiros 55

A matriz m por n

[L]12 =

a11 a12 · · · a1na21 a22 · · · a2n...

.... . .

...am1 am2 · · · amn

é denominada dematriz de L nas bases B1 e B2. Ainda se diz que [L]12 é a representaçãomatricial de L nas bases B1 e B2.QuandoW = V e B2 = B1, a matriz [L]12 é denotada por [L]1 e denominada de matriz

de L na base B1. Também se diz que [L]1 é a representação matricial de L na base B1.Para simplificar a notação, podemos escrever [L] em lugar de [L]12 ou [L]1, conforme ocaso, sempre que o contexto for claro quanto às bases envolvidas.

Teorema 3.7 Sejam B1 e B2 bases dos espaços vetoriais V e W, respectivamente. SejaL : V → W uma transformação linear e v um vetor de V. Se [v]1 for a matriz de v nabase B1, [Lv]2 a matriz de Lv na base B2 e [L]12 for ma matriz de Lv nas bases B1 e B2então

[Lv]2 = [L]12[v]1.

Prova. Sejam B1 = {v1, . . . , vn} e B2 = {w1, . . . , wm} as bases de V e W. Se

v =nX

j=1

xjvj, Lv =mXi=1

yiwi, Lvj =mXi=1

aijwi,

então [v]1 = [x1, . . . , xn]T , [Lv]2 = [y1, . . . , ym]

T são matrizes coluna e [L]12 = [aij] éuma matriz retangular m× n.Por um lado,

Lv = L

ÃXj

xjvj

!=Xj

xjL (vj)

=Xj

xjXi

aijwi =Xi

ÃXj

aijxj

!wi

e por outro,Lv =

Xi

yiwi.

Da unicidade da decomposição de um vetor nos elementos da base,

yi =nX

j=1

aijxj

para i = 1, . . . , m que equivale à igualdade matricial

[Lv]2 = [L]12[v]1.

¤

56 Notas de aula do Prof. Antonio Cândido Faleiros

Teorema 3.8 Sejam B1, B2 e B3, respectivamente, bases dos espaços vetoriais V, W e U.Sejam L1 : V →W e L2 :W → U lineares. Então

[L2 ◦ L1]13 = [L2]23[L1]12.

Prova. Sejam B1 = {v1, . . . , vn}, B2 = {w1, . . . , wm} e B3 = {u1, . . . , up} as basesem questão. Se

L1vj =mXi=1

aijwi,

L2wi =

pXk=1

bkiuk,

L2L1vj =

pXk=1

ckjuk,

então [L1]12 = [aij], [L2]23 = [bki] e [L2L1]13 = [ckj]. Como

L2L1vj = L2

ÃmXi=1

aijwi

!=

mXi=1

aijL2 (wi)

=mXi=1

aij

pXk=1

bkiuk =

pXk=1

ÃmXi=1

bkiaij

!uk

segue

ckj =mXi=1

bkiaij

para k = 1, . . . , p e j = 1, . . . , n, que resulta na igualdade matricial

[L2L1]13 = [L2]23[L]12.

¤

Teorema 3.9 Sejam B1 e B2 duas bases do espaço vetorial V e L : V → V um operadorlinear. Seja M12 a matriz de mudança da base B1 para a base B2. Então

M12 [L]2 = [L]1 M12 ou [L]2 =M−112 [L]1 M12.

Prova. Sejam B1 = {v1, . . . , vn} e B2 = {w1, . . . , wn} as bases em questão. SejaM12 = [mij] a matriz de mudança da base B1 para a base B2, de modo que

wj =nXi=1

mijvi.

Notas de aula do Prof. Antonio Cândido Faleiros 57

Sejam [L]1 = [aij] e [L]2 = [bij] as matrizes de L nas bases B1 e B2, respectivamente.Podemos escrever, para j = 1, . . . , n,

Lvj =nXi=1

aijvi, e Lwj =nXi=1

bijwi.

Por um lado,

Lwj =Xk

bkjwk =Xk

bkjXi

mikvi =Xi

ÃXk

mikbkj

!vi

e por outro,

Lwj = L

ÃXk

mkjvk

!=Xk

mkjL (vk) =Xk

mkj

Xi

aikvi

=Xi

ÃXk

aikmkj

!vi.

Pela unicidade de decomposição de vetores numa base, segueXk

mikbkj =Xk

aikmkj,

igualdade válida para i = 1, . . . , n e j = 1, . . . , m. Usando a notação matricial, conclui-sea prova do teorema:

M12 [L]2 = [L]1 M12.

¤

Definição 3.10 Duas matrizes A e B são semelhantes se existir uma matriz inversívelP tal que

B = P−1AP.

De acordo com o teorema anterior, as representações matriciais de uma transformaçãolinear L : V → V são semelhantes.

3.2 Isomorfismo

Sejam V e W dois espaços vetoriais sobre o mesmo corpo. Uma tranformação L : V →W é injetora se, para todo v1 6= v2 em V, então L(v1) 6= L(v2). De forma equivalente, Lé injetora se para todo v1 e v2 em V com L(v1) = L(v2) tem-se v1 = v2.

58 Notas de aula do Prof. Antonio Cândido Faleiros

Teorema 3.11 Sejam V e W espaços vetoriais sobre o mesmo corpo. Seja L : V → Wlinear. L é injetora se e só se ker(L) = {0}. Em outras palavras, L é injetora se e só seo zero é o único vetor levado por L em zero.

Uma transformação L : V → W é sobrejetora se, para todo w em W, existe pelomenos um v em V tal que Lv = w. Uma transformação bijetora é aquela que é ao mesmotempo injetora e sobrejetora. As transformações bijetoras L : V → W possuem inversaL−1 : W → V que, por sua vez, é bijetora e sua inversa é L.Denominamos isomorfismo à transformação L : V → W que é linear e bijetora.

Neste caso sua inversa L−1 : W → V é linear e, portanto, um isomorfismo. Dois espaçosvetoriais V e W são isomorfos quando houver um isomorfismo de V em W.

Teorema 3.12 Dois espaços vetoriais V eW sobre um mesmo corpo e de dimensão finitasão isomorfos se e só se dimV = dimW.

Prova. Sejam V e W isomorfos e L : V →W um isomorfismo entre eles. Dada umabase {v1, . . . , vn} de V, vamos mostrar que {Lv1, . . . , Lvn} é base de W.

1. Provemos que {Lv1, . . . , Lvn} gera W. Sendo L bijetora, para qualquer w em W,existe v em V tal que w = Lv. Decompondo v na base {v1, . . . , vn}, obtemos v =x1v1+ · · ·+ xnvn e w = Lv = x1Lv1+ · · ·+ xnLvn, provando que {Lv1, . . . , Lvn}gera W.

2. Provemos que {Lv1, . . . , Lvn} é linearmente independente. Sejam k1, . . . , kn es-calares tais que k1Lv1+ · · ·+ knLvn = 0. Então L(k1v1+ · · ·+ knvn) = 0 e, comoL(0) = 0 e L é bijetora, segue k1v1+ · · ·+ knvn = 0. Pelo fato de {v1, . . . , vn} serbase de V, concluímos que k1 = · · · = kn = 0, provando a independência linear doconjunto {Lv1, . . . , Lvn}.

As partes 1 e 2 provam que dimV = dimW.Tomando dimV = dimW = n como hipótese, provemos que V e W são isomorfos.

Seja B1 = {v1, . . . , vn} base de V e B2 = {w1, . . . , wn} base deW. Seja L a transformaçãolinear de V em W que leva vi em wi, para i = 1, . . . , n, ou seja Lvi = wi. Vamos provarque L é um isomorfismo entre V e W.

3. Provemos que L é sobrejetor. Dado qualquer s em W, podemos escrever

s = s1w1 + · · ·+ snwn = s1Lv1 + · · ·+ snLvn

= L(s1v1 + · · ·+ snvn),

provando que s está na imagem de L, provando a sobrejetividade de L.

4. Provemos que L é injetor. Sejam x = x1v1+ · · ·+ xnvn e y = y1v1+ · · ·+ ynvn doisvetores de V tais que Lx = Ly. Logo,

L(x1v1 + · · ·+ xnvn) = L(y1v1 + · · ·+ ynvn)

Notas de aula do Prof. Antonio Cândido Faleiros 59

ou seja,x1w1 + · · ·+ xnwn = y1w1 + · · ·+ ynwn.

Da independência linear de B2, concluímos que x1 = y1, . . . , xn = yn, de onde resultaa igualdade x = y, provando que L é injetora.

De 3 e 4 concluímos que L é um isomorfismo. ¤

Teorema 3.13 Sejam V e W espaços vetoriais sobre o mesmo corpo, ambos com amesma dimensão e L : V →W linear. São equivalentes:

1. L é um isomorfismo.

2. L é sobrejetora.

3. L é injetora.

4. Se L(v) = 0, então v = 0. Em outras palavras, ker(L) = {0}.

Prova. Provemos que (2) implica em (3). Seja L sobrejetora e {w1, . . . , wn} umabase de W. Da sobrejetividade de L, existe um conjunto de vetores B = {v1, . . . , vn} emV tais que Lvi = wi, para i = 1, . . . , n. O conjunto B é base de V. Sejam x = x1v1+ · · ·+xnvn e y = y1v1+ · · ·+ ynvn dois vetores de V tais que Lx = Ly. Desta igualdade seguex1w1+ · · ·+ xnwn = y1w1+ · · ·+ ynwn. A independência linear de {w1, . . . , wn} implicaem x1 = y1, . . . , xn = yn, ou x = y, provando a injetividade de L.Provemos que (3) implica em (4). Se L é injetora e L(v) = 0, como L(0) = 0, segue

que v = 0, provando que (3) implica em (4).Provemos que (4) implica em (2). Sendo ker(L) = {0} e {v1, . . . , vn} uma base de V,

então {Lv1, . . . , Lvn} é uma base de W. De fato, se k1, . . . , kn forem escalares tais quek1Lv1+ · · ·+ knLvn = 0, então L(k1v1+ · · ·+ knvn) = 0 e, como o núcleo de L contémapenas o zero, k1v1+ · · ·+ knvn = 0. A independência linear dos vi acarreta em k1 = · · · =kn = 0, provando que conjunto {Lv1, . . . , Lvn} é linearmente independente e, portanto,base de W. Logo, L é sobrejetor. ¤

Teorema 3.14 Sejam B1 e B2 bases dos espaços V e W respectivamente e L : V → Wum isomorfismo. Se A for a representação matricial de L nas bases B1 e B2, então A−1

será a representação matricial de L−1 nas bases B2 e B1.

Prova. Seja A = [aij] a representação matricial de L nas bases B1 e B2. Seja B = [bij]a representação matricial de L−1 nas bases B2 e B1. Como L−1L o operador identidade,BA é a matriz da transformação identidade na base B1 e esta é a matriz identidade. Aindatemos que LL−1 é o operador identidade e, desta maneira, AB é a matriz da transformaçãoidentidade na base B2 e esta é a matriz identidade o que prova ser B = A−1. ¤

60 Notas de aula do Prof. Antonio Cândido Faleiros

Teorema 3.15 Todo um espaço vetorial V de dimensão n sobre um corpo K é isomorfoa Kn.

Prova. Se {v1, . . . , vn} for uma base de V, então definimos a transformação linear L :V → Kn por Lvi = ei, onde {e1, . . . , en} é a base canônica do Kn, isto é, ei = (0, . . . ,0, 1, 0, . . . , 0) onde o único elemento não nulo é o i-ésimo. Como L leva uma base de Vnuma base de Kn ela é injetora e, portanto, um isomorfismo. ¤

Podemos afirmar que os isomorfismos são os mensageiros que trazem e levam as pro-priedades de um espaço vetorial a outro. Se dois espaços vetoriais vetoriais forem iso-morfos, todas as propriedades de um podem ser levados ao outro pelo isomorfismo. Istosignifica que, ao estudar as propriedades de um deles, teremos estudado as propriedadesdo outro.Por esta razão, ao estudar um espaço vetorial real ou complexo V de dimensão n, os

protótipos são o Rn e o Cn, respectivamente. Se soubermos como proceder com um dosdois, saberemos como proceder com V. Se{v1, . . . , vn} for uma base de V, basta usar acorrespondência

x1v1 + · · ·+ xnvn ↔ (x1, . . . , xn)

definida pelo isomorfismo estabelecido no teorema anterior.

3.3 Transformações lineares em Cm×1

Seja A uma matriz complexa m por n. Então L : Cn×1 → Cm×1 definida por L(x) = Axé uma transformação linear.Reciprocamente, vamos mostrar que toda transformação linear L : Cn×1 → Cm×1 é

da forma L(x) = Ax, onde A é uma matriz m por n.Se {e1, . . . , en} for a base canônica do Cn×1 então aj = L(ej) são vetores coluna em

Cm×1. Dado o vetor coluna x = [x1, . . . , xn]T = x1e1+ · · ·+ xnen do Cn, então

L(x) = L

ÃnX

j=1

xjej

!=

nXj=1

xjL (ej)

=nX

j=1

xjaj = Ax

onde A = [a1, . . . , an] é a matriz complexa m por n, cujas colunas são a1, . . . , an.Em síntese, toda transformação L : Cn×1 → Cm×1 é do tipo L(x) = Ax, onde A é

uma matriz complexa de ordem m por n. Por esta razão, podemos dizer que a matriz Aé uma transformação linear e escrever A : Cn×1 → Cm×1.É intessante observar que, se B1 = {e1, . . . , en} for a base canônica do Cn×1, se B2 =

{f1, . . . , fm} for a base canônica do Cm×1 e se A for uma matriz complexam por n, entãoa representação matricial da transformação linear A : Cn×1 → Cm×1 nas bases B1 e B2 é,exatamente, a matriz A.

Capítulo 4

Produto interno e norma

Neste capítulo trabalharemos apenas com espaços vetoriais sobre o corpo dos númerosreais ou sobre o corpo dos números complexos.

4.1 Produto interno em espaços vetoriais reais

Seja V um espaço vetorial sobre o corpo R dos números reais. Um produto interno emV é uma operação

h , i : V × V → R

que possui as propriedades abaixo, válidas para todo v, w e z em V e todo a e b em R :

1. O produto interno é positivo definido

hv, vi ≥ 0 e hv, vi = 0 se e só se v = 0.

2. O produto interno é simétrico

hv, wi = hw, vi .

3. O produto interno é linear na segunda variável

hv, aw + bzi = a hv, wi+ b hv, zi .

Das propriedades (2) e (3) se conclui que o produto interno é liner na primeira variável

hav + bw, zi = a hv, zi+ b hw, zi .Essas propriedades se extrai a linearidade do produto interno em relação à primeira e àsegunda variável. Tanto é que, se v1, . . . , vp e w1, . . . , wq forem vetores de V e ai, bjforem números reais, então*

pXi=1

aivi,

qXj=1

bjwj

+=

pXi=1

qXj=1

aibj hvi, wji .

61

62 Notas de aula do Prof. Antonio Cândido Faleiros

Exemplo 4.1 Se x e y forem matrizes coluna Rn×1, o produto matricial xTy, onde xT éa matriz transposta de x, é denominado produto escalar das matrizes x e y. Um produtointerno em Rn×1 é proveniente do produto escalar hx, yi = xTy.

Exemplo 4.2 Seja P2(R) o conjunto dos polinômios com coeficientes reais e grau menorou igual a 2. Neste espaço vetorial,­

a0 + a1x+ a2x2, b0 + b1x+ b2x

2®= a0b0 + a1b1 + a2b2

é um produto interno e

hf(x), g(x)i =Z 1

−1f(x)g(x)dx

é outro.

Exemplo 4.3 Seja C [a, b] o conjunto das funções reais de variável real, definidas e con-tínuas no intervalo [a, b]. Com as operações de adição de funções e a multiplicação de umnúmero real por uma função, C [a, b] é um espaço vetorial sobre o corpo de números reais.Nele

hf, gi =Z b

a

f(t)g(t) dt

é um produto interno.

4.2 Produto interno em espaços vetoriais complexos

Vamos agora definir produto interno em um espaço vetorial sobre o corpo C dos númeroscomplexos. O corpo dos números complexos é formado pelo conjunto de pares ordenados(a, b) de números reais, no qual definimos duas operações, uma de adição e outra demultiplicação. Os elementos desse corpo são denominados números complexos. Doisnúmeros complexos (a, b) e (c, d) são iguais quando a = c e b = d e se escreve (a, b) =(c, d) para expressar esta igualdade. O a é a parte real e o b é a parte imaginária donúmero complexo (a, b). Definimos as operações de adição e de multiplicação de doisnúmeros complexos por

(a, b) + (c, d) = (a+ c, b+ d)

e(a, b)× (c, d) = (ac− bd, ad+ bc).

O sinal de multiplicação pode ser omitido e tanto (a, b)× (c, d) quanto (a, b) (c, d) possuemo mesmo significado. O número complexo (0, 1) é denotado por i e denominado unidadeimaginária. Se denotarmos o número complexo (a, 0) simplesmente por a e vemos quetodo número complexo (a, b) pode ser escrito na forma a+ bi. De fato,

(a, b) = (a, 0) + (b, 0)(0, 1) = a+ bi

Notas de aula do Prof. Antonio Cândido Faleiros 63

e, a partir daí, obtemos

(a+ bi) + (c+ di) = (a+ c) + (b+ d)i

e(a+ bi)× (c+ di) = (ac− bd) + (ad+ bc)i.

O sinal de multiplicação pode ser omitido e tanto (a+bi)× (c+di) quanto (a+bi) (c+di)possuem o mesmo significado. Com a notação introduzida que identifica o par (a, b) coma+bi, os números complexos a+bi e c+di são iguais se a = c e b = d e se escreve a+bi =c+ di para expressar esta igualdade. O número complexo z1 + z2 é a soma de z1 e z2. Onúmero complexo z1 × z2 é o produto de z1 e z2.O conjunto de todos os números complexos com as operações de adição e multiplicação

é um corpo, denotado por C e denominado corpo dos números complexos. O elementoneutro da adição é o 0 = 0+ 0i e o elemento neutro da multiplicação é o 1 = 1+ 0i. O 0é denominado zero e 1 é denominado de unidade. Se a+ bi for um número complexo,então seu inverso aditivo ou seu oposto, é −a+ ( −b)i e seu inverso multiplicativoou seu inverso, é

(a+ bi)

µa

a2 + b2− b

a2 + b2i

¶.

que existe apenas quando a+ bi for diferente de zero. O oposto de z é denotado por −ze o inverso de z é denotado por z−1.Definimos a subtração z1− z2 de dois números complexos z1 e z2 por

z1 − z2 = z1 + (−z2)

e a divisão z1/z2, onde z2 6= 0, porz1z2= z1z

−12 .

Sendo z = a + bi um número complexo, onde a e b são reais, z = a− bi é o seucomplexo conjugado e o número real |z| = √zz = √a2 + b2 é o seu módulo. Nestecaso, sendo z 6= 0, então

z−1 =z

z z

Exemplo 4.4 Se z = 3 + 4i, então z = 3 − 4i e zz = (3 + 4i)(3 − 4i) = 25. Logo,z−1 = (3− 4i)/25.

Se z e w são números complexos, valem as propriedades

z + w = z + w

zw = zw

z−1 = z−1.

64 Notas de aula do Prof. Antonio Cândido Faleiros

Vamos tentar definir um produto interno em Cn que mantenha as propriedades doproduto interno do Rn. Se x = (x1, . . . , xn) e y = (y1, . . . , yn) forem dois elementos deCn, então, uma primeira tentativa seria

hx, yi = x1y1 + · · ·+ xnyn.

Entretanto, com esta definição a primeira propriedade hx, xi ≥ 0 falha pois hx, xi nemsempre é real. Uma correção possível consiste em definir

hx, yi = x1y1 + · · ·+ xnyn

que agora satisfaz às propriedades 1 e 3 do produto interno em espaços vetoriais sobre osreais. Entretanto, a propriedade 2 não é satisfeita. Em seu lugar vale

hx, yi = hy, xi.Aceitamos esta propriedade como uma consequência inevitável e com isto em mente defin-imos o produto interno em espaços vetoriais sobre o corpo dos números complexos.Seja V um espaço vetorial sobre o corpo C dos números complexos. Um produto

interno em V é uma operação

h , i : V × V → C

com as propriedades abaixo, válidas para todo v, w e z em V e todo a e b em C :

1. O produto interno é positivo definido

hv, vi ≥ 0 e hv, vi = 0 se e só se v = 0.

2. O produto interno é hermitiano

hv, wi = hw, vi.

3. O produto interno é linear na segunda variável

hv , aw + bz i = a hv, wi+ b hv, zi .

A partir das propriedades 2 e 3, se conclui que

h av + bw , zi = a hv, zi+ b hw, zi .Se v, v1, . . . , vp e w. w1, . . . , wq forem vetores de V, se a1, . . . , ap e b1, . . . , bq forem

números complexos, prova-se por indução que*v,Xj

bjwj

+=

Xj

bj hv, wji*Xi

aivi, w

+=

Xi

ai hvi, wi

Notas de aula do Prof. Antonio Cândido Faleiros 65

e, juntando as duas proprieades,*Xi

aivi,Xj

bjwj

+=Xi

Xj

aibj hvi, wji .

Exemplo 4.5 Se x = [x1, . . . , xn]T e y = [y1, . . . , yn]T forem matrizes coluna em Cn×1,definimos x∗ = [x1, . . . , xn]. A operação hx, yi = x∗y, que leva duas matrizes coluna emCn×1 em uma matriz complexa 1×1 é um produto interno em Cn. Aqui identificamos [a],uma matriz 1× 1, com o número complexo a.

Exemplo 4.6 Seja V = {f : [a, b]→ C : f é contínua}. Este conjunto com as operaçõesde adição de funções de V e multiplicação de um número complexo por uma função deV é um espaço vetorial sobre o corpo dos números complexos. Um produto interno nesteespaço vetorial é dado por

hf, gi =Z L

−Lf(t)g(t) dt.

4.3 Funcional linear

Seja V um espaço vetorial sobre um corpo C dos números complexos. Uma transformaçãolinear f : V → C recebe o nome de funcional linear em V.

Teorema 4.7 Seja V um espaço vetorial sobre C, com dimensão finita e produto interno.Dado um funcional linear f : V → C. Então existe um vetor w em V tal que f(v) =hw, vi para todo v em V.

Prova. Seja {v1, . . . , vn} uma base ortonormal de V. Decompondo v nesta base ecalculando f(v) obtemos

f(v) = f(a1v1 + · · ·+ anvn) = a1f(v1) + · · ·+ anf(vn) = hw, vionde w = f(v1)v1+ · · ·+ f(vn)vn.Vamos mostrar que este vetor é único. Se houvesse outro vetor u tal que hv, wi =

hv, ui para todo v em V, então hv, w − ui = 0 para todo v. Tomando v = w− u, seguehw − u,w − ui = 0, mostrando que w = u. ¤

O vetor w tal que f(v) = hw, vi para todo v em V pertence ao complemento ortogonaldo ker(f) uma vez que f(v) = 0 implica em hw, vi = 0.Toda transformação linear L de um espaço vetorial complexo V de dimensão n em

Cm é da formaL(v) = ( f1(v), . . . , fm(v) ),

onde fi é um funcional linear em V. Dado um produto interno em V, existem w1, . . . , wm

em V tais queL(v) = ( hw1, vi , . . . , hwm, vi ),

66 Notas de aula do Prof. Antonio Cândido Faleiros

4.4 Norma

Seja V um espaço vetorial real ou complexo e v um vetor de V. A norma de v é definidapor

kvk =phv, vi.

Se kvk = 1, diz-se que o vetor é unitário.Para todo v e w em V e todo escalar a, as igualdades abaixo se verificam.

1. kvk ≥ 0 e kvk = 0 se e só se v = 0.2. kavk = |a| kvk .3. kv + wk ≤ kvk+ kwk (Desigualdade triangular)

Para provar esta última desigualdade, devemos provar a desigualdade de Cauchy-Schwarz. Lembramos que, se a e b são reais, a é a parte real e b a parte imaginária donúmero complexo a + bi. As notações Re (a + bi) e Im (a + bi) são usadas para designaras partes real e imaginária do número complexo a+ bi. Observe que, se z for um númerocomplexo, então 2Re (z) = z + z e 2Im (z) = z − z.As desigualdades abaixo são úteis. Sendo z um número complexo,

Re (z) ≤ |Re (z)| ≤ |z|Im (z) ≤ |Im (z)| ≤ |z| .

Teorema 4.8 Seja V um espaço vetorial sobre o corpo C dos números complexos ondese definiu um produto interno. Sejam v e w dois vetores em V. Vale a desigualdade deCauchy-Schwarz

|hv, wi| ≤ kvk kwk .

Prova. Seja λ um número real qualquer. Então

0 ≤ hv + λw, v + λwi = hv, vi+ λ hv, wi+ λ hw, vi+ λ2 hw,wi= kvk2 + λhv, wi+ λ hv, wi+ λ2 kwk2= kvk2 + 2λRe hv, wi+ λ2 kwk2≤ kvk2 + 2λ |hv, wi|+ λ2 kwk2

Como este polinômio real é maior ou igual a zero para todo λ, seu discriminante ∆ =4 |hv, wi|2− 4 kvk2 kwk2 é menor ou igual a zero, ou seja,

|hv, wi|2 ≤ kvk2 kwk2 .

¤

Notas de aula do Prof. Antonio Cândido Faleiros 67

Esta desigualdade implica em|hv, wi|kvk kwk ≤ 1

para todo par de vetores v e w não nulos.Seja V um espaço vetorial sobre o corpo dos números reais. A desigualdade de Cauchy-

Schwarz implica em

−1 ≤ hv, wikvk kwk ≤ 1

o que motiva a definição de ângulo entre v e w, como sendo aquele único número real θ,pertencente ao intervalo [0, π], para o qual

cos θ =hv, wikvk kwk .

Os vetores v e w são ortogonais quando θ = π/2 ou hv, wi = 0, fato que será indicadopelo símbolo v ⊥ w.Quando estivermos em um espaço vetorial sobre o corpo dos números complexos, não

tem sentido definir ângulo entre vetores pois, neste caso, hv, wi pode ser um númerocomplexo. Entretanto diremos que dois vetores v e w em tal espaço são ortogonaisquando hv, wi = 0 e usaremos o símbolo v ⊥ w para designar este fato.Se w for ortogonal a si mesmo, hw,wi = 0 e isto implica em w = 0. Se w for ortogonal

a todo elemento de V, então é ortogonal a si mesmo e w = 0. Se a dimensão de V forfinita e w for ortogonal a uma base de V, então w = 0.Um conjunto de vetores {v1, . . . , vp} é ortogonal quando seus elementos forem dois

a dois ortogonais entre si. Se além disto, todos os vetores possuírem norma unitária, oconjunto é ortonormal.

Teorema 4.9 Seja V um espaço vetorial de dimensão n e S = {v1, . . . , vn} um conjuntoortogonal de vetores de V. Então S é uma base.

Prova. Basta provar que S é linearmente independente. De fato, sejam k1, . . . , knescalares tais que k1v1 + · · ·+ knvn = 0. Como hvi, 0i = 0, obtemos

0 = hvi, 0i = hvi, k1v1 + · · ·+ knvni = ki hvi, vii = ki kvik2 .Como kvik 6= 0, segue que ki = 0, provando a independência linear de S. ¤

Seja {v1, . . . , vn} uma base ortonormal de um espaço vetorial V. Dado v = x1v1+ · · ·+xnvn neste espaço, multiplicando-o internamente por vi, obtemos xi = hvi, vi e assim,

v = hv1, vi v1 + · · ·+ hvp, vi vp.O próximo teorema apresenta a forma da matriz de mudança de bases quando as basesenvolvidas são ortonormais.Seja A = [aij] uma matriz complexa m × n. A matriz A∗ = [bij] onde bij = aij é a

matriz adjunta de A. Se A∗ = A, a matriz A é denominada hermitiana. Se A−1 = A∗ amatriz A é denominada unitária.

68 Notas de aula do Prof. Antonio Cândido Faleiros

Teorema 4.10 Sejam B1 e B2 bases ortonormais de um espaço vetorial V sobre o corpoC dos números complexos. A matriz M12 de mudança da base B1 para a base B2 éhermitiana e unitária.

Prova. Sejam B1 = {v1, . . . , vn} e B2 = {w1, . . . , wn} as bases em questão, M12 =[aij] e M21 = [bij] as matrizes de mudança da base B1 para a base B2 e da base B2 para abase B1, respectivamente. Sabemos que M−1

12 =M21 e que

wj =Xi

aijvi e vj =Xi

bijwi.

Sendo as bases ortonormais, aij = hvi, wji = aji e bij = hwi, vji = hvj, wii = aji,mostrandoque M∗

12 = M12 e M−112 = M∗

12. ¤

Exemplo 4.11 Consideremos as bases B1 = {e1, e2} e B2 = {f1, f2} do R2, onde e1 =(1, 0), e2 = (0, 1), f1 = (1/5)(3, 4) e f2 = (1/5)(4, −3). Ambas são ortonormais emrelação ao produto interno h(x1, y1), (x2, y2)i = x1x2 + y1y2. Temos

f1 =3

5e1 +

4

5e2

f1 =4

5e1 − 3

5e2

e

e1 =3

5f1 +

4

5f2

e1 =4

5f1 − 3

5f2.

Assim

M12 =M21 =

·35

45

45−35

¸.

A matriz M12 é hermitiana e M12M∗12 é a matriz identidade, mostrando que M12 é

unitária.

4.5 Ortogonalização de Gram-Schmidt

Podemos, a partir de uma base {v1, . . . , vn} uma base de um espaço vetorial V, obteruma base ortogonal {w1, . . . , wn} de V, seguindo o procedimento descrito em seguida econhecido como processo de ortogonalização de Gram-Schmidt.Defina

w1 = v1.

Agora escrevaw2 = v2 − β12w1

Notas de aula do Prof. Antonio Cândido Faleiros 69

e determine o escalar β12 para que a condição de ortogonalidade hw1, w2i = 0 seja satis-feita. Substitua w2 por v2− β12w1 nesta condição para obter

β12 =hw1, v2ihw1, w1i .

Em seguida, considerew3 = v3 − β13w1 − β23w3

e determine β13 e β23 para tornar w3 ortogonal a w1 e w2. Das condições de ortogonalidadehw1, w3i = 0 e hw2, w3i = 0 calcule

β13 =hw1, v3ihw1, w1i e β23 =

hw2, v3ihw2, w2i .

Prosseguindo com este raciocínio, se chega a um conjunto ortogonal {w1, . . . , wn} devetores que é base de V.Observe que os vetoresw1, w2, . . . , wn são definidos recursivamentepor

w1 = v1

ewk = vk − β1kw1 − · · ·− βk−1,kwk−1

para k = 2, . . . , n, onde

βik =hwi, vkihwi, wii .

A partir da base ortogonal {w1, . . . , wn} pode-se determinar uma base ortonormal {q1,. . . , qn}, onde qi = wi/ kwik . Esta base ortonormal pode ser obtida ao mesmo tempo emque se obtém a base ortogonal. Comece com

w1 = v1 e q1 = w1/ kw1k

e continue com o processo de ortogonalização, tomando

w2 = v2 − r12q1 e q2 = w2/ kw2k ,

w3 = v3 − r13q1 − r23q2 e q3 = w3/ kw3k ,e assim por diante, até que, num passo genérico k,

wk = vk − r1kq1 − · · ·− rk−1,kqk−1 e qk = wk/ kwkk ,

onderik = hqi, vki ,

para k = 2, . . . , n e i = 1, . . . , k − 1.

70 Notas de aula do Prof. Antonio Cândido Faleiros

Exemplo 4.12 Os ternos ordenados (1, 0, 0), (0, 3/5, 4/5), (0, 4/5, −3/5) formam umabase ortonormal no espaço vetorial Cnem relação ao produto interno

h (a1, a2, a3), (b1, b2, b3) i = a1b1 + a2b2 + a3b3.

Exemplo 4.13 Os polinômios 1, x, x2 formam uma base ortonormal no espaço vetorialsobre C dos polinômios de grau menor ou igual a 2 e coeficientes complexos, munido como produto interno­

a1 + a2x+ a3x2, b1 + b2x+ b3x

2®= a1b1 + a2b2 + a3b3.

Exemplo 4.14 Considere o espaço vetorial sobre C dos polinômios com coeficientes com-plexos de grau menor ou igual a 3, com o produto interno

hf, gi =Z 1

−1f(x)g(x)dx.

O conjunto {1, x, x2, x3} é uma base não ortogonal deste espaço vetorial. A base ortogonalobtida a partir dela, usando o procedimento de Gram-Schmidt, é

{ 1, x, x2 − 1/3, x3 − (3/5)x }.Este procedimento pode ser estendido para o espaço vetorial dos polinômios de grau

menor ou igual a n.Denotemos por p0(x), p1(x), p2(x), . . . os polinômios obtidos de 1, x, x2, . . . pelo

processo de ortogonalização de Gram-Schmidt, usando o produto interno definido acima.Os polinômios Lk(x) = pk(x)/pk(1) continuam ortogonais dois a dois e são denominadosde polinômios de Legendre. Os quatro primeiros são

L0(x) = 1, L1(x) = x, L2(x) =3

2x2 − 1

2, L3(x) =

5

2x3 − 3

2x.

Tanto {1, x, x2, x3} quanto {L0(x), L1(x), L2(x), L3(x)} são bases do espaço dos polinômiosde grau menor ou igual a 3. A segunda possui a vantagem de ser ortogonal, o que a tornamais adequada para determinados cálculos. Os métodos espectrais usam polinômios ortog-onais para resolver equações diferenciais parciais tanto analítica quanto numericamente.

4.6 Decomposição QR

Vamos analisar o caso especial do espaço vetorial complexo Cn×1 com o produto interno

hx, yi = x∗y.

Seja A = [v1, . . . , vn] uma matriz m × n cujo coluna k é vk. Um modo interessantede olhar para o produto Ax, onde x = [x1, . . . , xn]T é uma matriz em Cm×1 consiste emescrever

Ax = x1v1 + · · ·+ xnvn

Notas de aula do Prof. Antonio Cândido Faleiros 71

e observar que Ax é uma combinação linear das colunas de A.Mantendo a notação do parágrafo anterior, sendo b uma matriz coluna em Cm×1, a

igualdade matricial Ax = b, pode ser escrita na forma

b = x1v1 + · · ·+ xnvn

que pode ser interpretada do seguinte modo: x é a matriz de b na base formada pelascolunas de A. Se as colunas de A forem linearmente independentese b estiver na imagemde A, a decomposição é única.Ainda uma última observação, sendo A = [v1, . . . , vn], então

A∗ =

v∗1...v∗n

e

A∗A =

v∗1v1 v∗1v2 v∗1vnv∗2v1 v∗2v2 v∗2vn

v∗nv1 v∗nv2 v∗nvn

= [v∗i vj] .Se {q1, . . . , qn} for uma base ortonormal emCn×1, então q∗i qj = δij. Amatriz quadrada

Q = [q1, . . . , qn], cuja coluna k é qk, é unitária pois Q∗Q = [q∗i qj] = [δij] = I. Conclusão,quando as colunas de uma matriz quadrada formarem uma base ortonormal de Cn×1, elaé unitária.Vamos iniciar com um caso particular, em que n = 3. Seja {v1, v2, v3} uma base de

C3×1 e {q1, q2, q3} a base ortonormal de C3×1 obtida pelo processo de ortogonalizaçãode Gram-Schmidt. Seja A = [v1, v2, v3] a matriz cuja coluna k é vk e Q = [q1, q2, q3] amatriz cuja coluna k é qk. Sabemos, pelo desenvolvimento da seção anterior que

v1 = w1

v2 = r12q1 + w2

v3 = r13q1 + r23q2 + w3

onde rik = hqi, vki quando i 6= k ou ainda,

v1 = r11q1

v2 = r12q1 + r22q2

v3 = r13q1 + r23q2 + r33q3

com rkk = kwkk . Então,

[v1, v2, v3] = [q1, q2, q3]

r33 r12 r130 r33 r230 0 r33

72 Notas de aula do Prof. Antonio Cândido Faleiros

ou A = QR, onde Q é uma matriz unitária e

R =

r33 r12 r130 r33 r230 0 r33

é triangular superior. Esta é a chamada decomposição QR de uma matriz A,Motivados por esse exemplo, vamos mostrar um processo para obter a decomposição

QR de uma matriz A emCm×n, analizando dois casos separadamente. No primeiro, todasas colunas de A são linearmente independentes e, no segundo caso, nem todas as colunasde A são linearmente independentes.

As colunas da matriz são linearmente independentes

Seja A = [v1, . . . , vn] uma matriz complexa de ordem m por n, cujas colunas v1, . . . , vnsão vetores linearmente independentes de Cm×1, o que exige m ≥ n. Usando o processode ortogonalização de Gram-Schmidt, podemos escrever obter uma matriz Q = [q1, . . . ,qn] cujas colunas formam uma base ortonormal para o espaço gerado pelas colunas de Ae onde

v1 = r11q1

v2 = r12q1 + r22q2

v3 = r13q1 + r23q2 + r33q3

· · ·

Essas igualdades escritas na forma matricial resultam em

[v1, v2, v3, . . . , vn] = [q1, q2, q3, . . . , qn]

r11 r12 r13 · · ·0 r22 r23 · · ·0 0 r33 · · ·· · · · · · · · · · · ·

.que se resume em

A = QR

denominada decomposição QR reduzida de A.Nesta decomposição, observe que o espaço hv1i , gerado por v1 é igual ao espaço hq1i

gerado por q1, o espaço hv1, v2i gerado por v1 e v2 é igual ao espaço hq1, q2i gerado por q1,q2, e assim por diante,

hq1i = hv1i ,hq1, q2i = hv1, v2i ,

hq1, q2, q3i = hv1, v2, v3i ,. . .

Notas de aula do Prof. Antonio Cândido Faleiros 73

Completemos a base {q1, . . . , qn} com os vetores unitários qn+1, . . . , qm de modo que{q1, . . . , qn, . . . , qm} seja uma base ortonormal de Cm. A matriz Q = [q1, . . . , qn, . . . , qm]obtida pela inclusão de m − n colunas à direita de Q e a matriz R obtida pela inclusãode m− n linhas nulas na parte inferior de R são tais que

A = QR

que é a chamada decomposição QR completa de A ou decomposição QR de A.Realizado este desenvolvimento, podemos descrever o algoritmo clássico de Gram-

Schmidt, que possibilita a obtenção da decomposição QR de uma mariz A. Alertamos oleitor de que este algoritmo é numericamente instável.================================Algoritmo 8.1. Algoritmo clássico de Gram-Schmidt (instável)Entrada: Base {v1, . . . , vn} de Cn

Saída: Base ortonormal {q1, . . . , qn} de Cn

================================for k = 1 to n

wk = vkfor i = 1 to k − 1

rik = q∗i vkwk = wk− rikqi

rkk = kwkkqk = wk/rkk

================================

Solução de Ax = b usando a decomposição QR

Quando A é uma matriz quadrada de ordem m, cujas colunas são linearmente indepen-dentes, o sistema Ax = b possui uma única solução. Para resolver este sistema usando adecomposição QR, procedemos do seguinte modo:

1. Calcule a decomposição A = QR.

2. Determine y = Q∗b.

3. Resolva o sistema Rx = y na variável x.

As colunas da matriz são linearmente dependentes

Passemos ao caso em que m ≥ n e as colunas de A formam um conjunto linearmentedependente. Neste caso, lá pelas tantas, vk depende linearmente das colunas v1, . . . , vk−1,à sua esquerda, ou seja,

vk ∈ hv1, . . . , vk−1i = hq1, . . . , qk−1i

74 Notas de aula do Prof. Antonio Cândido Faleiros

e, para este valor de k,

wk = vk − r1kq1 − r2kq2 − · · ·− rk−1,kqk−1 = 0.

Quando isto ocorre, escolhemos um vetor unitário qj, ortogonal aos vetores q1, . . . , qj−1,obtendo um conjunto ortonormal {q1, . . . , qj−1, qj}.Vejamos um exemplo em que A = [v1, v2, v3, v4]. Suponha que v1 e v2 são linearmente

independentes. Usando o método de ortogonalização de Gram-Schmidt, calculamos

v1 = r11q1

v2 = r12q1 + r22q2

Supondo v3 no espaço gerado por {q1, q2}, tem-sew3 = v3 − r13q1 − r23q2 = 0

ev3 = r13q1 + r23q2

Daí, escolhe-se de modo arbitrário um q3 unitário, ortogonal a q1 e a q2. Com esta escolha,{q1, q2, q3} é ortonormal e o espaço que ele gera contém o espaço gerado por {v1, v2, v3}.Se v4 não pertencer ao espaço gerado por {q1, q2, q3}, Calcula-se

q4 =1

r44(v4 − r14q1 − r24q2 − r34q3)

quando então

[v1, v2, v3, v4] = [q1, q2, q3, q4]

r11 r12 r13 r140 r22 r23 r240 0 0 r340 0 0 r44

onde se observa que a matriz da direita é triangular superior. Note-se que o espaço geradopor {q1, q2, q3, q4} contém o espaço gerado por {v1, v2, v3, v4}.No caso genérico, este procedimento continua, até obter as matrizes Q e R. As colunas

da matriz Q = [q1, . . . , qn], de ordem m por n, são vetores ortogonais entre si e possuemmódulo unitário. Amatriz R, de ordem n por n, é triangular superior. Para estas matrizes,

A = QR.

Esta fatoração de A é conhecida como decomposição QR reduzida de A.Podemos acrescentar m−n colunas qn+1, . . . , qm à direita de Q, de modo que {q1, . . . ,

qn, . . . , qm} seja uma base ortonormal de Cm e assim, obter uma matriz unitária Q = [q1,. . . , qn, . . . , qm], de ordem m por m, cujas colunas formam uma base ortonormal de Cm.Na continuação, devemos acrescentar m− n linhas nulas na parte inferior de R, obtendouma matriz R, de ordem m por n, triangular superior. As matrizes Q e R assim obtidassão de tal forma que

A = QR.

Notas de aula do Prof. Antonio Cândido Faleiros 75

Esta é a decomposição QR completa de A ou apenas decomposição QR de A.Quando m < n, o procedimento é semelhante ao anterior. A decomposição se encerra

quando obtemos o conjunto de m vetores B = {q1, . . . , qm}, que formam uma baseortonormal deCm. Amatriz quadradaQ = [q1, . . . , qm], de ordemm, e a matriz triangularsuperior R de ordem m por n, obtidas no desenrolar do processo são tais que

A = QR.

Este produto é conhecido como decomposição QR completa da matriz A ou decomposiçãoQR de A.

Exemplo 4.15 A decomposição QR de −1 3 01 0 10 1 2

é −1/√2 3/

√22 −1/√11

1/√2 3/

√22 −1/√11

0 2/√22 3/

√11

√2 −3/√2 1/√2

0 11/√22 7/

√22

0 0 5/√11

.

Exemplo 4.16 A decomposição QR de −1 31 00 1

é −1/√2 3/

√22 1/

√11

1/√2 3/

√22 1/

√11

0p2/11 −3/√11

√2 −3/√20p11/2

0 0

Exemplo 4.17 A decomposição QR de

1 1 20 1 11 0 10 2 0

é

1/√2 1/

√22 2/

√33 3/

√3

0 2/√22 4/

√33 −3/√3

1/√2 −1/√22 −2/√33 −3/√3

0 4/√22 −3/√33 0

√2 1/

√2 3/

√2

0 1/√22 3/

√22

0 0 6/√33

0 0 0

Exemplo 4.18 A decomposição QR de

1 1 20 1 11 0 10 0 0

76 Notas de aula do Prof. Antonio Cândido Faleiros

é

1/√2 1/

√6 1/

√3 0

0 2/√6 −1√3 0

1/√2 −1/√6 −1√3 0

0 0 0 1

√2 1/

√2 3/

√2

0 3/√6 3/

√6

0 0 00 0 0

Exemplo 4.19 A decomposição QR de 1 1 2 0

0 1 1 11 0 1 3

é A = QR, onde

Q =

1/√2 1/

√6 1/

√3

0 2/√6 −1/√3

1/√2 −1/√6 −1/√3

e R =

√2 1/√2 3/

√2 3/

√2

0 3/√6 3/

√6 −1/√6

0 0 0 −4/√3

.

Capítulo 5

Soma de subespaços

Sejam V1, . . . , Vk subespaços vetoriais de V. O conjunto

V1 + · · ·+ Vk = { v1 + · · ·+ vk : vi ∈ Vi para i = 1, . . . , k }é um subespaço vetorial de V e recebe o nome de soma de V1, . . . , Vk.

Teorema 5.1 Sejam V e W dois subespaços de um espaço vetorial U. Então

dim(V +W ) = dim(V ) + dim(W )− dim(V ∩W ).

Prova. Quando V está contido em W, então V ∩W = V e V +W = W. Neste caso,

dim(V ) + dim(W )− dim(V ∩W ) = dim(V ) + dim(W )− dim(V ) = dim(W )o que prova o teorema para este caso particular. Do mesmo modo se prova que o teoremavale quando W está contido em V.Vamos agora tratar o caso em que V ∩W é diferente de V e de W. Seja B1 = {u1, . . . ,

up} uma base de V ∩W. Vamos completá-la de modo que B2 = {u1, . . . , up, v1, . . . , vq}seja base de V e B3 = {u1, . . . , up, w1, . . . , wr} seja base de W. O conjunto B4 = {u1,. . . , up, v1, . . . , vq, w1, . . . , wr} gera V +W e, se for linearmente independente, será basede V +W. Neste caso,

dim(V +W ) = p+ q + r = (q + p) + (r + p)− p

= dim(V ) + dim(W )− dim(V ∩W )e o teorema estará provado.Falta provar que B4 é linearmente independente. Vamos mostrar que, se x1, . . . , xp,

y1, . . . , yq, z1, . . . , zr forem escalares tais que

x1u1 + · · ·+ xpup + y1v1 + · · ·+ yqvq + z1w1 + · · ·+ zrwr = 0,

então todos eles são nulos. Analisemos esta possibilidade. Se algum yj for diferente dezero, o vetor não nulo y1v1+ · · ·+ yqvq seria uma combinação linear dos elementos de

77

78 Notas de aula do Prof. Antonio Cândido Faleiros

B3. Logo, ele estaria em W e em V ao mesmo tempo, estando na interseção V ∩ We assim y1v1+ · · ·+ yqvq poderia ser escrito como uma combinação linear de u1, . . . ,up, contrariando a hipótese de B2 ser base. Do mesmo modo não podemos ter um zkdiferente de zero. Logo, yj e zk são todos nulos e a equação se reduz a x1u1+ · · ·+ xpup =0. Sendo B1 uma base, concluímos que x1, . . . , xp são todos nulos. Daí B4 é linearmenteindependente. ¤

5.1 Soma direta

Definição 5.2 Sejam V1, . . . , Vk subespaços vetoriais de V. Se todo v em V puder serescrito de forma única como uma soma do tipo

v = v1 + · · ·+ vk

onde vi ∈ Vi, diremos que V é uma soma direta dos subespaços V1, . . . , Vk e escreveremos

V = V1 ⊕ · · ·⊕ Vk.

Se V = V1 ⊕ V2, então V1 e V2 são denominados complementares.

Dois subespaços vetoriais V1 e V2 de V são disjuntos se a interseção V1 ∩ V2 contiverapenas o zero.

Teorema 5.3 Sejam V1 e V2 subespaços vetorias de V tais que V = V1+ V2. Então V =V1⊕ V2 se e só se V1, V2 forem disjuntos.

Prova. Se V = V1⊕ V2, seja v um vetor de V na interseção de V1 e V2. Então

v = v|{z}∈V1

+ 0|{z}∈V2

= 0|{z}∈V1

+ v|{z}∈V2

e, como a decomposição é única, v = 0, provando que V1 e V2 são disjuntos.Se V1 e V2 forem disjuntos, como V = V1+ V2, todo v em V pode ser decomposto

numa soma v = v1+ v2, com v1 em V1 e v2 em V2. Se houvesse outra decomposição v =w1+ wk, com w1 em V1 e w2 em V2, então v1+ v2 = w1+ w2 e assim, v1 − w1 = w2−v2. Sendo v1− w1 um vetor de V1 igual a w2− v2, um vetor de V2, então v1− w1 está nainterseção de V1 com V2 e, como estes dois subespaços são disjuntos, v1− w1 = 0 ou v1 =w1. Com este resultado, obtemos w2− v2 = 0 ou v2 = w2, provando que a decomposiçãode v numa soma de um elemento de V1 com um elemento de V2 é única e assim, V = V1⊕V2. ¤

Quando V igual à soma de mais do que dois subespaços, o fato de os espaços envolvidosserem disjuntos dois a dois não é suficiente para garantir que V seja a soma direta dessessubespaços como nos mostra o exemplo a seguir.

Notas de aula do Prof. Antonio Cândido Faleiros 79

Exemplo 5.4 Seja V = R2 e V1 = {(x, 0) ∈ R2 : x ∈ R}, V2 = {(0, y) ∈ R2 : y ∈ R},V3 = {(x, x) ∈ R2 : x ∈ R}. Estes três subespaços são disjuntos dois a dois, V = V1+V2+ V3, mas V não é a soma direta de V1, V2 e V3.

A condição de serem disjuntos será substituida pela condição de serem independentes.Os subespaços vetoriais V1, . . . , Vk de V são independentes se

v1 + · · ·+ vk = 0,

com vi em Vi, para i = 1, . . . , k, então v1 = · · · = vk = 0.

Uma caracterização da independência dos subespaços é a seguinte: Os subespaços V1,. . . , Vk são independentes se e só se Vj for disjunto da soma V1+ · · ·+ Vj−1, para j = 2,. . . , k. Dois espaços vetoriais V1 e V2 de V são independentes se e só se forem disjuntos.

Teorema 5.5 Sejam V1, . . . , Vk subespaços vetoriais de um espaço vetorial V tais queV = V1+ · · ·+ Vk. Então V = V1⊕ · · ·⊕ Vk se e só se V1, . . . , Vk forem independentes.

Prova. Se V = V1⊕ · · ·⊕ Vk, sejam v1, . . . , vk vetores de V1, . . . , Vk, respectivamente,e tais que v1+ · · ·+ vk = 0. Como 0 = 0+ · · ·+ 0, da unicidade da decomposição,concluímos que vi = 0 para i = 1, . . . , k. Logo, V1, . . . , Vk são independentes.Se V = V1+ · · ·+ Vk e V1, . . . , Vk forem independentes, todo v em V pode ser

decomposto numa soma v = v1+ · · ·+ vk, com vi em Vi, para i = 1, . . . , k. Se houvesseoutra decomposição v = w1+ · · ·+ wk, com wi em Vi, então (v1−w1)+ · · ·+ (vk−wk) =0 e, da independência dos subespaços vetoriais Vi, concluímos que vi = wi, para i = 1,. . . , k. Logo, a decomposição de v como soma de vetores de V1, . . . , Vk é única e V = V1⊕· · ·⊕ Vk. ¤

Teorema 5.6 Sejam V1, . . . , Vk subespaços vetoriais de V, um espaço vetorial com di-mensão finita. Se V = V1 ⊕ · · · ⊕Vk então

dimV = dimV1 + · · ·+ dimVk.

Prova. Seja Bi base de Vi para i = 1, . . . , k.Se V = V1 ⊕ · · · ⊕Vk, todo v em V pode ser decomposto de forma única numa soma

v = v1+ · · ·+ vk, com vi em Vi, para i = 1, . . . , k. Cada vi pode ser decomposto deforma única nos vetores da base Bi. Logo, v pode ser escrito de forma única como umacombinação linear dos vetores da união B1∪ · · ·∪ Bk, provando que esta é uma base deV. ¤

80 Notas de aula do Prof. Antonio Cândido Faleiros

5.2 Complemento ortogonal

Definição 5.7 Seja V um espaço vetorial com produto interno e S um subespaço vetorialde V. O conjunto

S⊥ = {v ∈ V : hv, si = 0 para todo s em S }

é um subespaço de V, chamado de complemento ortogonal de S.

Para mostrar que um determinado vetor v está em S⊥, basta mostrar que ele é ortog-onal a todo vetor de uma base de S. O único vetor que está ao mesmo tempo em S e emS⊥ é o vetor nulo e daí,

S ∩ S⊥ = {0}.

Teorema 5.8 Seja S um subespaço vetorial de dimensão finita de um espaço vetorial Vcom produto interno. Então V = S ⊕ S⊥.

Prova. Seja {v1, . . . , vp} uma base ortonormal de S. Dado qualquer v em V, o vetor

w = v − hv1, vi v1 − · · ·− hvp, vi vpé ortogonal a todo vetor de S. Desta forma, qualquer vetor v pode ser decomposto numasoma v = s+ w, onde s = hv1, vi v1+ · · ·+ hvp, vi vp pertence a S e w pertence a S⊥ eassim, V = S+ S⊥.Vamos mostrar que esta decomposição é única. Se v = s1+ w1, com s1 em S e w1 em

S⊥, então s + w = s1+ w1 e assim, s − s1 = w1 − w, mostrando que os vetores s− s1 ew1−w estão na interseção S ∩S⊥. Como a interseção só possui o vetor nulo, s = s e w =w. ¤

Se v é um vetor de um subespaço S de um espaço vetorial V, então v é ortogonala todo vetor de S⊥ e assim ele pertence ao

¡S⊥¢⊥

, mostrando que S está contido no

complemento ortogonal do complemento ortogonal de S, isto é, S ⊂ ¡S⊥¢⊥ . Por outrolado, V = S⊕S⊥ = S⊥⊕¡S⊥¢⊥ e assim, dimV = dimS+ dimS⊥ = dimS⊥+ dim

¡S⊥¢⊥

,

que acarreta na igualdade dimS = dim¡S⊥¢⊥

. Estando S contido em¡S⊥¢⊥e possuindo

ambos a mesma dimensão, eles são iguais¡S⊥¢⊥= S.

Capítulo 6

Transformação adjunta

Sejam V e W espaços vetoriais complexos com dimensão finita e produto interno. Dadouma tansformação linear L : V →W, vamos mostrar que existe uma única transformaçãolinear L∗ : W → V tal que

hLv,wi = hv, L∗wi .para todo v em V e w em W.Primeiro a existência. Sendo B1 = {v1, . . . , vn} uma base ortonormal de V e B2 =

{w1, . . . , wm} uma base ortonormal deW podemos escrever Lvj, para j = 1, . . . , n, comouma combinação linear dos elementos de B2

Lv1 = a11w1 + a21w2 + · · ·+ am1wm

Lv2 = a12w1 + a22w2 + · · ·+ am2wm

· · ·Lvn = a1nw1 + a2nw2 + · · ·+ amnwm

Para definir uma transformação linear, basta estabelecer seu valor nos elementos de umabase do seu domínio. Seja L∗ : W → V aquela transformação linear que leva wi, para i =1, 2, . . . , m, nos seguintes vetores de V

L∗w1 = a11v1 + a12v2 + · · ·+ a1nvn

L∗w2 = a21v1 + a22v2 + · · ·+ a2nvn

· · ·L∗wm = am1v1 + am2v2 + · · ·+ amnvn

Usando o símbolo de somatório, os valores das transformações lineares L e L∗ nas basesde seus respectivos domínios se escrevem

Lvj =mXi=1

aijwi

L∗wi =nX

j=1

aijvj.

81

82 Notas de aula do Prof. Antonio Cândido Faleiros

Da ortonormalidade das bases B1 e B2, segue hLvj, wii = hvj, L∗wii fazendo com que

hLv,wi = hv, L∗wipara todo v em V e w em W, o que prova a existência.Agora a unicidade. Se T : W → V for outra transformação linear para a qual

hLv,wi = hv, Twipara todo v em V e w em W, então

hv, L∗wi = hv, Twiou

hv, (L∗ − T )wi = 0ainda para todo v em V e w em W. Fazendo v = (L∗ − T )w, obtemos

h (L∗ − T )w, (L∗ − T )w i = 0ou (L∗ − T )w = 0 para todo w em W, mostrando que T = L∗, o que prova a unicidade.A transformação linear L∗ recebe o nome de transformação adjunta de L.Se L : V →W e T : W → U forem duas transformações lineares, então

(TL)∗ = L∗T ∗.

Se A = [aij] for a matriz de L : V → W e B = [bij] for a matriz de L∗ : W → V nasbases ortonormais B1 e B2 de V e W, respectivamente, então bij = aji e

B = A∗.

Esta relação entre as matrizes de L e L∗ só se verifica se as bases forem ortonormais, comonos mostra o próximo exemplo.Este conceito de transformação adjunta se aplica a transformações lineares entre es-

paços vetoriais reais. Neste caso, os escalares serão reais e aij = aij e

Exemplo 6.1 Seja L(x, y) = (2x+3y, 5x+7y, 11x+13y) uma transformação linear doR2 noR3. Consideremos nestes dois espaços seus respectivos produtos internos euclidianos

h (x1, y1), (x2, y2) i = x1x2 + y1y2

eh (x1, y1, z1), (x2, y2, z2) i = x1x2 + y1y2 + z1z2.

Seja B1 = {e1, e2} a base canônica doR2 e B2 = (f1, f2, f3) a base canônica do R3 que sãoortonormais em relação aos produtos internos euclidianos de R2 e R3, respectivamente.Temos

Le1 = 2f1 + 5f2 + 11f3

Le2 = 3f1 + 7f2 + 13f3

Notas de aula do Prof. Antonio Cândido Faleiros 83

e

L∗f1 = 2e1 + 3e2

L∗f2 = 5e1 + 7e2

L∗f3 = 11e1 + 13e2

de modo que

[L]12 =

2 35 711 13

, [L∗]21 =·2 5 113 7 13

¸onde uma é a transposta da outra.Entretanto, se v1 = (1, 2), v2 = (0, 1), w1 = (1, 1, 1), w2 = (0, 1, 2) e w3 = (0, 0, 1)

então B3 = {v1, v2} será base de R2 e B4 = {w1, w2, w3} será base de R3. Nenhuma dasduas é ortonormal em relação ao produto interno euclidiano do R2 e R3. O leitor poderáverificar que

Lv1 = 8w1 + 11w2 + 7w3

Lv2 = 3w1 + 4w2 + 2w3

e

L∗w1 = 18v1 − 13v2L∗w2 = 27v1 − 21v2L∗w3 = 11v1 − 9v2

As matrizes

[L]34 =

8 311 47 2

e [L∗]43 =·18 27 11−13 −21 −9

¸não são mais uma a adjunta da outra.

Dada a transformação linear L, a transformação adjunta L∗ é a única que satisfazà igualdade hLv,wi = hv, L∗wi para todo v em V e todo w em W. De fato, se T foroutra transformação linear para a qual hLv,wi = hv, Twi para todo v e todo w, entãohv, Twi = hv, L∗wi e hv, Tw − L∗wi = 0 para todo v o que acarreta na igualdade Tw =L∗w para todo w, nos conduzindo à igualdade T = L∗.Para todo v em V e w em W, tem-se

hL∗w, vi = hv, L∗wi = hLv,wi = hw,Lvi ,mostrando que a adjunta da adjunta é igual a L, isto é,

(L∗)∗ = L.

Um operador linear L : V → V é auto-adjunto quando L∗ = L.Os operadores LL∗ e L∗L são auto-adjuntos.

84 Notas de aula do Prof. Antonio Cândido Faleiros

Exemplo 6.2 Sejam x = (x1, x2, x3) e y = (y1, y2, y3) dois pontos do R3, consideremos oproduto interno hx, yi = x1y2+ x2y2+ x2y3. Em relação a este produto interno, o operadorlinear L : R3 → R3 definido por L(x, y, z) = (2x+ 3y+ 5z, 3x+ y, 5x+ 4z) é auto-adjuntopois L∗ = L.

Teorema 6.3 Sejam V e W espaços vetoriais com produto interno e L : V →W linear.Sendo L∗ :W → V a adjunta de L, vale a relação

Im (L)⊥ = ker(L∗).

Prova. Se w ∈ Im (L)⊥, então hLv,wi = 0 ou hv, L∗wi = 0 para todo v ∈ V de ondese conclui que L∗w = 0 mostrando que w está no ker(L∗).Reciprocamente, se w ∈ ker(L∗), então hLv,wi = hv, L∗wi = hv, 0i = 0 para todo

v ∈ V, provando, deste modo, que w é ortogonal a todo elemento da imagem de L.Conclui-se que w pertence ao complemento ortogonal da Im (L). ¤

Como L∗∗ = L, substituindo L por L∗ na igualdade acima, segue

Im (L∗)⊥ = ker(L)

ouIm (L∗) = ker(L)⊥

Sejam V e W espaços vetoriais com produto interno e L : V → W linear. SendoL∗ :W → V a adjunta de L,

V = ker(L)⊕ Im (L∗).Esta igualdade ocorre porque V = ker(L) ⊕ ker(L)⊥ = ker(L)⊕ Im (L∗).Quando L é auto-adjunta,

Im (L)⊥ = ker(L).

Teorema 6.4 Sejam V e W espaços vetoriais com produto interno e L : V →W linear.Sendo L∗ :W → V a adjunta de L,

1. Im (L) = Im (LL∗).

2. ker(L∗) = ker(LL∗).

Prova. 1a. Inicialmente provaremos que ImLL∗ ⊂ ImL. Se w ∈ Im (LL∗), entãoexiste um w1 tal que w = LL∗w1 = L(L∗w1) provando que w ∈ Im (L).1b. Vamos provar agora que Im (L) ⊂ Im (LL∗). Se w ∈ Im (L), então w = Lv para

algum v em V. Podemos escrever de modo único v = v1 + v2 onde v1 ∈ Im (L∗) e v2 ∈ker(L). Logo w = Lv = Lv1+ Lv2 = Lv1. Como v1 ∈ ker(L)⊥ = Im(L∗), existe w1 tal quev1 = L∗w1 e assim w = LL∗w1, mostrando que w ∈ Im (LL∗), o que completa a prova darecíproca.

Notas de aula do Prof. Antonio Cândido Faleiros 85

2a. Se w ∈ ker(L∗) então L∗w = 0 e, em consequência, LL∗w = 0, provando queker(L∗) ⊂ ker(LL∗).2b. Se w ∈ ker(LL∗) então L(L∗w) = 0 e L∗w pertence ao ker(L) e à Im (L∗) cuja

interseção contém apenas o zero. Logo, L∗w = 0, provando que w está no ker(L∗). Comisto, provamos que ker(LL∗) ⊂ ker(L∗), o que completa a prova da parte 2 do teorema.¤

Resumindo: Para uma transformação linear L : V →W e sua adjunta L∗ : W → Vvalem as identidades

(L∗)∗ = L

Im (L∗) = ker(L)⊥

Im (LL∗) = Im (L),

ker(LL∗) = ker(L∗).

Definição 6.5 Seja V um espaço vetorial com produto interno. O operador linear L :V → V é antiadjunto quando L∗ = −L e unitário quando L∗ = L−1.

Teorema 6.6 Numa base ortonormal, a matriz A = [aij] de um operador auto-adjunto éhermitiana (A = A∗), a de um operador antiadjunto é antihermitiana (A = −A∗) e ade um operador unitário é unitária (A∗ = A−1).

Teorema 6.7 O operador linear L : V → V é unitário se e só se, para todo v1 e v2 emV,

hLv1, Lv2i = hv1, v2i .

Para fixar a nomenclatura, apresentamos o quadro abaixo.Espaço Real Espaço Complexo

Operador Matriz Operador Matrizauto-adjunto simétrica auto-adjunto hermitianaantiadjunto anti-simétrica antiadjunto antihermitianaortogonal ortogonal unitário unitária

6.1 Posto de uma transformação linear

Definição 6.8 Sejam V e W espaços vetoriais e L : V →W uma transformação linear.A dimensão da imagem de L é chamada de posto de L.Sendo A uma matriz complexa de ordem m por n. Considerada como uma trans-

formação linear de Cn em Cm, seu posto é igual ao número de colunas linearmenteindependentes que A possui.

O número de colunas linearmente independentes de uma matriz é igual ao número desuas linhas linearmente independente.

86 Notas de aula do Prof. Antonio Cândido Faleiros

Teorema 6.9 Sejam V e W espaços vetoriais de dimensão finita e L : V → W umatransformação linear. Seja A a representação matricial de L em relação a bases de V ede W. O posto de L é igual ao posto de A.

Exemplo 6.10 Seja L : R3 → R3 definida por

L(x, y, z) = ( x+ 2y − z, 2x+ 4y − 2z, y + 2z )= (x+ 2y − z)(1, 2, 0) + (y + 2z)(0, 0, 1),

cujo posto é 2. A matriz de L em relação à base canônica do R3 é

A =

1 2 −12 4 −20 1 2

a primeira e terceira linha são linearmente independentes e a segunda é o dobro daprimeira. As duas primeiras colunas são linearmente independentes e a terceira é igual a−5 vezes a primeira mais 2 vezes a segunda. O posto de A é dois.

Teorema 6.11 Sejam V e W espaços vetoriais com produto interno e dimensão finita.Seja L : V →W linear. O posto das transformações lineares L, L∗, L∗L e LL∗ são iguais.

Prova. Sabemos queV = ker(L)⊕ Im (L∗),

de onde obtemosdimker(L) + dim Im (L∗) = dimV.

Por outro lado,dimker(L) + dim Im(L) = dimV.

Dessas duas igualdades concluímos que dim Im (L∗) = dim Im (L) provando que o postode L é igual ao posto de L∗.Como Im (LL∗) = Im (L) e Im (L∗L) = Im (L∗), o teorema está provado. ¤

Corolário 6.12 Seja A uma matriz complexa. As matrizes A, A∗, AA∗ e A∗A possuemo mesmo posto.

Sejam V e W espaços vetoriais, ambos com dimensão finita. A imagem de umatransformação linear L : V → W está contida em W. Portanto, o posto de L deve sermenor ou igual do que a dimensão de W. Se {v1, . . . , vn} for uma base de V, qualquervetor v em V pode ser decomposto de modo único como uma combinação linear v =x1v1+ · · ·+ xnvn e assim, Lv = L(x1v1+ · · ·+ xnvn) = x1Lv1+ · · ·+ xnLvn, mostrandoque {Lv1, . . . , Lvn} gera a imagem de L o que assim o posto de L deve ser menor ouigual do que a dimensão de V. Concluímos que o posto de L não pode ser maior do quea dimensão de V nem maior do que a dimensão de W. Motivados por este comentário,diremos que L tem posto máximo quando o posto de L for igual ao mínimo entre adimensão de V e a dimensão de W.

Notas de aula do Prof. Antonio Cândido Faleiros 87

Teorema 6.13 Sejam V e W espaços vetoriais com dimensão finita, ambos com produtointerno. Seja L : V →W uma transformação linear com posto máximo.

1. Quando dimV ≤ dimW, a transformação linear L∗L : V → V é um isomorfismo.

2. Quando dimW ≤ dimV, a transformação linear LL∗ : W →W é um isomorfismo.

Prova. Quando

1. posto(L) = dimV ≤ dimW, então dim Im (L∗L) = dim Im (L) = dim(V ) e assimL∗L é sobrejetora e, portanto, um isomorfismo.

2. posto(L) = dimW ≤ dimV, então dim Im (LL∗) = dim Im (L∗) = dim(W ) e assimLL∗ é sobrejetora e, portanto, um isomorfismo.

¤

6.2 Existência de solução dos sistemas lineares

As igualdades Im (L)⊥ = ker(L∗) e Im (L∗) = ker(L)⊥ possuem uma consequência inter-essante para sistemas de equações lineares Ax = b, onde A é uma matriz complexa m×ne b é uma matriz complexa m× 1. Nestes sistemas, as matrizes A e b são dadas e o quese deseja é determinar se existem matrizes coluna complexas x de tamanho n × 1 taisque Ax = b. Tais matrizes x são denominadas soluções do sistema Ax = b. Existindosoluções, é importante determiná-las. Um método usado na obtenção das soluções é o daeliminação de Gauss.A matriz A é uma transformação linear de Cn×1 em Cm×1.O sistema Ax = b tem solução se e só se b estiver na imagem de A. Da igualdade

Im(A) = ker(A∗)⊥ conclímos que Ax = b tem solução se e só se b for ortogonal a todo yno núcleo de A∗ isto é,

hb, yi = 0para todo y em Cm×1 solução do sistema homogêneo A∗y = 0.O sistema homogêneo Ax = 0 tem solução x não nula se e só se x pertencer ao núcleo

de A. Da igualdade ker(A) = Im(A∗)⊥, concluímos que x é solução do sistema homogêneoAx = 0 se e só se x for ortogonal à imagem de A∗, isto é hx,A∗yi = para todo y em Cm×1.Percebe-se do comentado acima que há uma estreita relação entre os sistemas lineares

Ax = b e A∗y = c.

88 Notas de aula do Prof. Antonio Cândido Faleiros

Capítulo 7

Projetores

Seja V um espaço vetorial. Um operador linear P : V → V é um projetor em V seP 2 = P. Sendo I : V → V o operador identidade, o operador linear I − P também é umprojetor, denominado projetor complementar de P. Os projetores também recebem onome de operadores idempotentes.Sejam S1 e S2 dois subespaços de V tais que V = S1 ⊕ S2. Considere o operador

P : V → V definido por P (v1 + v2) = v1, para todo v1 em S1 e v2 em S2. O operadorassim definido é um projetor, denominado projetor sobre S1 ao longo de S2. Sob estascondições, S1 é a imagem de P e S2 é o núcleo de P.Se v estiver na imagem de P, então existe w em V tal que Pw = v. Sendo P uma

projeção, P 2w = Pw o que implica em Pv = v. A imagem de (I − P ) é igual ao núcleode P e a imagem de P é igual ao núcleo de I − P.

Teorema 7.1 Seja P : V → V um projetor. Então V = Im(P )⊕ ker(P ).

Prova. (1) Seja v um vetor em V. Podemos escrever v = Pv+ (I − P )v. Como Pvestá na imagem de P e (I − P )v está no núcleo de V, segue V = Im(P )+ ker(P ).(2) Se v1 na Im (P ) e v2 no ker(P ) forem tais que v = v1+ v2, então Pv = Pv1+ Pv2.

Como Pv1 = v1 e Pv2 = 0, segue Pv = v1 e (I−P )v = v2, mostrando que a decomposiçãode v numa soma de um elemento da Im (P ) com um elemento do ker(P ) é única. Logo,V = Im(P )⊕ ker(P ). ¤

De acordo com este teorema, todo projetor P é um projetor sobre sua imagem aolongo do seu núcleo.

7.1 Projetores ortogonais

Seja V um espaço vetorial com produto interno. Um projetor P em V é ortogonal se asua imagem e seu núcleo forem ortogonais. Quando este for o caso, se diz que P projetaortogonalmente sobre sua imagem.

89

90 Notas de aula do Prof. Antonio Cândido Faleiros

Seja P : V → V um projetor ortogonal e S sua imagem. Se a dimensão de S for finita,V = S⊕ S⊥. Dado v em V, existe um único s em S e um único w em S⊥ para os quaisv = s+ w e

P (v) = s.

Se B = {q1, . . . , qk} for uma base ortonormal de S, podemos decompor Pv nesta base eescrever

Pv = x1q1 + · · ·+ xkqk.

Para determinar x1, . . . , xk, usamos o fato de v− Pv ser ortogonal a todo vetor de S. Istosignifica que hqi, v − Pvi = 0 para i = 1, . . . , k. Destas relações e da ortonomalidade dabase B segue

0 = hqi, v − Pvi = hqi, vi− hqi, x1q1 + · · ·+ xkqki= hqi, vi− x1 hqi, q1i− · · ·− xi hqi, qii− · · ·− xk hqi, qki= hqi, vi− xi hqi, qii = hqi, vi− xi

ouxi = hqi, vi

o que nos permite escrever

Pv = hq1, vi q1 + · · ·+ hqk, vi qk.

e provamos o próximo teorema.

Teorema 7.2 Seja S um subespaço de dimensão finita de um espaço vetorial V com pro-duto interno. Seja {q1, . . . , qk} uma base ortonormal de S. Se P for o projetor ortogonalsobre S, então, para todo v em V,

Pv = hq1, vi q1 + · · ·+ hqk, vi qk.

A partir deste teorema obtemos outro de imediato para projetores em Cn×1. Vamoslembrar que toda transformação linear L de Cn×1 em Cn×1 é do tipo L(x) = Ax, onde Aé uma matriz quadrada n× n e iremos identificar a transformação linear L com a matrizA. Se P for uma projeção em Cn×1, então P será uma matriz n× n.

Corolário 7.3 Considere o espaço vetorial Cn×1 com o produto interno hx, yi = x∗y.Seja P um projetor ortogonal em Cn×1 e {q1, . . . , qk} uma base ortonormal da imagemde P. Então

P = q1q∗1 + · · ·+ qkq

∗k.

Prova. Observe que q1, q2, . . . , qk são matrizes coluna do Cn×1. Sendo x uma matrizcoluna em Cn×1, podemos escrever

hqi, xi qi = (q∗i x)qi = qi(q∗i x) = (qiq

∗i )x

Notas de aula do Prof. Antonio Cândido Faleiros 91

e assim,

Px = hq1, xi q1 + · · ·+ hqk, xi qk= (q1q

∗1)x+ · · ·+ (qkq∗k)x

= (q1q∗1 + · · ·+ qkq

∗k)x.

Como esta igualdade vale para todo x,

P = q1q∗1 + · · ·+ qkq

∗k.

¤

Quando P projeta ortogonalmente sobre o espaço gerado por um único vetor unitárioq, temos

P = qq∗.

Se x for uma matriz coluna não nula em Cn×1, não necessariamente unitário, então q =x/ kxk é unitário e a projeção ortogonal P sobre o espaço gerado por x é

P = qq∗ =x

kxkx∗

kxk =xx∗

x∗x.

Vamos relembrar que, sendo x uma matriz coluna do Cn×1, então x∗x é um número reale xx∗ é uma matriz complexa n por n.O projetor complementar de P é

I − xx∗

x∗x,

onde I é a matriz identidade n× n e sua imagem é o núcleo de P.

Teorema 7.4 Seja V um espaço vetorial com dimensão finita e um produto interno. Umprojetor P : V → V é ortogonal se e só se for auto-adjunto.

Prova. (1) Seja P uma projeção ortogonal e S = Im(P ). Então P é uma projeçãosobre S ao longo de S⊥. Sabemos que V = S ⊕ S⊥ e, para todo v e w em V, existem esão únicos v1 e w1 em S, v2 e w2 em S⊥ para os quais, v = v1+ v2 e w = w1+ w2. Assim,da ortogonalidade dos vetores,

hPv,wi = hv1, w1 + w2i = hv1, w1ie

hv, Pwi = hv1 + v2, w1i = hv1, w1iprovando que P é auto-adjunto.(2) Seja P uma projeção auto-adjunta de modo que

hPv,wi = hv, Pwi

92 Notas de aula do Prof. Antonio Cândido Faleiros

para todo v e w em V. Se w estiver no ker(P ), então

hPv,wi = hv, Pwi = hv, 0i = 0,e, como Pv está na imagem de P, provamos que o núcleo e a imagem de P são ortogonais.Logo, P é um projetor ortogonal. ¤

Teorema 7.5 Seja V um espaço vetorial com produto interno e P : V → V um projetorortogonal. O vetor Pv é o vetor da Im (P ) mais próximo de v.

Prova. Todo vetor u da imagem de P pode ser escrito na forma Pv+ w, com w naimagem de P. Assim, v − Pv pertence ao ker(P ) que é ortogonal à Im (P ) e acarretandona ortogonalidade hv − Pv,wi = 0 e

kv − uk2 = kv − Pv − wk2 = hv − Pv − w, v − Pv − wi= hv − Pv, v − Pvi− hv − Pv,wi− hw, v − Pvi+ hw,wi= kwk2 + kv − Pvk2 ≥ kv − Pvk2

provando que Pv é o ponto da imagem de P mais próximo de v. ¤

7.2 Projetores ortogonais em Cm×1

Nesta seção vamos considerar o espaço vetorial Cm×1 com o produto interno hx, yi = x∗y.

Usando uma base ortonormal

Seja P um projetor ortogonal em Cm×1 e S sua imagem. Sendo P ortogonal, seu núcleoé S⊥. Seja {q1, . . . , qn} uma base ortonormal de S e {qn+1, . . . , qm} uma base ortonormalde S⊥. Pelas propriedades provadas para uma projeção ortogonal P,

Pqi = qi para i = 1, . . . , n

Pqi = 0 para i = n+ 1, . . . , m

SejaQ = [ q1, . . . , qn, qn+1, . . . , qm ]

a matriz cujas colunas são os vetores da base ortonormal {q1, . . . , qn, qn+1, . . . , qm} doCm×1 e para a qual

PQ = QΣ,

onde Σ é uma matriz quadrada m ×m, onde os n primeiros elementos da diagonal sãoiguais a 1 e todos os demais elementos são nulos. Podemos escrevê-la usando blocos

Σ =

µI 00 0

Notas de aula do Prof. Antonio Cândido Faleiros 93

onde I é a matriz identidade de tamanho n× n. A matriz Q é unitária pois suas colunassão formadas a partir de uma base ortonormal de Cm×1. Sendo QQ∗ a matriz identidade,chega-se a

P = QΣQ∗.

Observe que apenas as n primeiras colunas deQ são relevantes neste produto. Eliminando-as obtemos a matriz Q = [q1, . . . , qn] com m linhas e n colunas para a qual

P = QQ∗.

Como já se provou, P =Pk

i=1 qiq∗i e dela obtemos a identidade

P = QQ∗ =kXi=1

qiq∗i

Usando uma base qualquer

Seja P um projetor ortogonal em Cm×1 e v1, . . . , vn matrizes coluna em Cm×1 tais queB = {v1, . . . , vn} é uma base da imagem de P. Para todo v em Cm×1, podemos escrever

Pv = x1v1 + · · ·+ xkvn = Ax,

onde x = [x1, . . . , xn]T é a matriz das coordenadas de Pv na base B e A = [v1, . . . , vn]é uma matriz de ordem m por n, cujas colunas são v1, . . . , vn. Esta matriz A define umatransformação linear de Cn×1 em Cm×1.O vetor v−Pv está no complemento ortogonal da imagem de P e, para j = 1, . . . , n,

hvj, v − Pvi = 0 ou v∗jPv = v∗jv,

de onde seguev∗jAx = v∗jv.

Como a j− ésima linha de A∗ é v∗j , a identidade acima resulta emA∗Ax = A∗v.

Como as colunas de A são linearmente independentes, seu posto é máximo e A∗A : Cn×1

→ Cn×1 é um isomorfismo, possuindo assim uma inversa, o que nos permite escrever

x = (A∗A)−1A∗v

de onde resultaPv = Ax = A(A∗A)−1A∗v.

Como esta igualdade vale para todo v em Cm×1,

P = A(A∗A)−1A∗.

Se a base B for ortonormal, a matriz A é unitária e daí A∗ = A−1. Com isto reobtemosP = AA∗, válida quando usamos uma base ortonormal.

94 Notas de aula do Prof. Antonio Cândido Faleiros

Exemplo 7.6 Determine o projetor ortogonal P sobre o espaço gerado pelos vetores v1 =(1, 2, 0)T e v2 = (0, 1, 1)T .Inicialmente estabelecemos

A = [v1, v2] =

1 02 10 1

e calculamos

P = A(A∗A)−1A∗ =

1/3 1/3 −1/31/3 5/6 1/6−1/3 1/6 5/6

.

Observe que Pv1 = v1 e Pv2 = v2.

7.3 Ortogonalização de Gram-Schmidt em Cm×1

Vamos considerar o espaço vetorial Cm×1 com o produto interno hx, yi = x∗y. Peloprocesso de ortogonalização de Gram-Schmidt, partindo de uma base {v1, . . . , vm} deCm×1, pode-se obter uma base ortonormal {q1, . . . , qm}, de modo iterativo

w1 = v1 e q1 =w1kw1k

w2 = v2 − hq1, v2i q1 e q2 =w2kw2k

w3 = v3 − hq1, v3i q1 − hq2, v3i q2 e q3 =w3kw3k· · ·

A partir de q1 = v1/ kv1k determinam-se recursivamente os demais elementos da baseortonormal, mediante a fórmula

wj = vj −j−1Xi=1

hqi, vji qi e qj =wj

kwjk ,

válida para j = 2, . . . , m. Como hqi, vji qi = qiq∗i vj, esta recorrência pode ser reescrita na

forma

wj = vj −j−1Xi=1

qiq∗i vj =

Ã1−

j−1Xi=1

qiq∗i

!vj

A projeção ortogonal sobre o subespaço Sj gerado por {q1, . . . , qj} é

QjQ∗j =

jXi=1

qiq∗i

Notas de aula do Prof. Antonio Cândido Faleiros 95

onde Qj = [q1, . . . , qj] é a matriz cujas colunas são q1, . . . , qj. A projeção ortogonal sobreo complemento orgogonal de Sj é

Pj = I − QjQ∗j

e a fórmula recursiva pode ser escrita de modo conciso como

wj = Pj−1vj e qj =wj

kwjk .

Conclui-se que o algoritmo clássico de Gram-Schmidt pode ser expresso em termos destesprojetores

q1 =P0v1kP0v1k , q2 =

P1v2kP1v2k , . . . , qm =

Pm−1vmkPm−1vmk ,

onde P0 é a identidade e Pj, para j = 1, . . . , n − 1, é a projeção ortogonal sobre ocomplemento ortogonal do espaço gerado por {q1, . . . , qj}.

7.4 Ortogonalização modificada de Gram-Schmidt

Se q for uma matriz coluna unitária em Cm×1, a projeção ortogonal sobre o complementoortogonal do espaço gerado por q é

P⊥q = I − qq∗.

Vamos, a partir de um conjunto linearmente independente {v1, . . . , vn} em Cm×1, obterum conjunto ortonormal de matrizes coluna {q1, . . . , qn} em Cm×1. Observe que

P⊥q2P⊥q1 = (I − q∗2q2)(I − q1q∗1) = I − q1q

∗1 − q2q

∗2 + q1q

∗1q2q

∗2 = I − q1q

∗1 − q2q

∗2

pois q1q∗1q2q∗2 = 0, uma vez que q

∗1q2 = 0. Prosseguindo com esse raciocínio, obtemos

P⊥qj · · ·P⊥q2P⊥q1 =

jYi=1

(I − qiq∗i ) =

= I −jX

i=1

qiq∗i = I − QjQ

∗j

uma vez que qrq∗rqsq∗s = 0 para todo r 6= s. O projetor Pj = I−QjQ

∗j é exatamente aquele

usado no algoritmo de Gram-Schmidt. A identidade

Pj = P⊥qj · · ·P⊥q2P⊥q1será usada no algoritmo modificado. A obtenção de Pj através das projeções sucessivasP⊥qj · · · P⊥q2 P⊥q1 é mais estável numericamente do que o cálculo clássico através damatriz Pj. Em lugar de calcular wj pela fórmula,

wj = Pj−1vj

96 Notas de aula do Prof. Antonio Cândido Faleiros

podemos usar outrawj = P⊥qj−1 · · ·P⊥q2P⊥q1vj.

O algoritmo modificado calcula wj usando a seqüência

w(1)j = vj

w(2)j = P⊥q1w

(1)j = w

(1)j − q1q

∗1w

(1)j

w(3)j = P⊥q2w

(2)j = w

(2)j − q2q

∗2w

(2)j ,

...

wj = w(j)j = P⊥qj−1w

(j−1)j = w

(j−1)j − qj−1q∗j−1w

(j−1)j .

Na aritmética computacional de precisão finita, este algoritmo introduz erros menores doque o algoritmo clássico.==============================Algoritmo 8.2 Gram-Schmidt modificado (estável)Entrada: Um conjunto {v1, . . . , vn} em Cm×1 linearmente independenteSaída: Um conjunto ortonormal {q1, . . . , qm} em Cm×1

==============================for j = 1 to n

wj = vjfor j = 1 to n

rjj = w∗jwj

qj = wj/rjjfor k = j + 1 to n

rjk = q∗jwk

wk = wk − rjkqj==============================Na prática, pode-se sobrescrever vj com wj e sobrescrever wj com qj para economizar

memória.

7.5 Contagem das operações

Vamos calcular o número de flops realizados na execução do algoritmo modificado deGram-Schmidt. Cada operação realizada contabilizará um flop em nossa contagem. Estaoperação pode ser uma adição, uma subtração, uma multiplicação, uma divisão ou aextração de uma raiz quadrada. Quando m e n forem grandes, o loop que domina oalgoritmo é o mais interno

for k = j + 1 to nrjk = q∗jwk

wk = wk − rjkqj

Notas de aula do Prof. Antonio Cândido Faleiros 97

O produto interno q∗jwk requermmultiplicações em−1 adições. O cálculo de wk−rjkqjnecessita de m multiplicações e um igual número de subtrações. Somamos 4m flops paraum único laço do loop. Como o laço em k, que varia de j + 1 a n, está dentro de outroem j que varia de 1 a n, o número de flops usado neste algoritmo é

nXj=1

nXk=j+1

4m = 4mnX

j=1

(n− j) = 4mn2 − n

2= 2mn2 − 2mn ∼ 2mn2,

onde o símbolo ∼ tem o seguinte significado

limm,n→∞

número de flops2mn2

= 1.

Concluimos que a fatoração QR usando Gram-Schmidt modificado demanda a realizaçãode ∼ 2mn2 flops.

98 Notas de aula do Prof. Antonio Cândido Faleiros

Capítulo 8

Refletor de Householder

Seja v um vetor não nulo de Cm. A matriz

Hv = I − 2vv∗

v∗vé chamada dematriz de Householder ou refletor de Householder. Se u for múltiplode v e w for ortogonal a v, então

Hvu = −u e Hvw = w.

Todo u que está em S é refletido em −u e todo w no complemento ortogonal de S semantém inalterado. Esta observação nos permite dizer que a matriz Hv reflete os vetoresde Cm no complemento ortogonal de S.

Teorema 8.1 Seja v um vetor não nulo em Cm. O refletor

Hv = I − 2vv∗

v∗vé hermitiano e unitário.

O refletor Hv é hermitiano e unitário mas não é um projetor, visto que

H2v = I.

Sejam x e y dois vetores do Cm com normas iguais e hx, yi = hy, xi . Os vetores

v =1

2(x+ y)

w =1

2(x− y)

são ortogonais e o refletor de Householder Hv é tal que

Hvx = −y.Este fato pode ser provado escrevendo x e y em termos de v e w

x = v + w e y = v − w.

99

100 Notas de aula do Prof. Antonio Cândido Faleiros

Nota 8.2 Se os elementos de x e y forem todas reais, basta ter kxk = kyk para garantira igualdade entre hx, yi e hy, xi .

Podemos definir um refletor de Householder que leva um vetor x do Cm num outroy = (y1, 0, . . . , 0) onde apenas a primeira coordenada y1 é não nula. Iremos usá-lo paracalcular a decomposição QR de uma matriz usando refletores de Householder, que sãooperadores auto-adjuntos. Vamos à sua descrição.O sinal de um número complexo z é definido por sign(0) = 1 e, quando z 6= 0,

sign(z) =z

|z| .

Observe que o sinal é um número complexo de módulo unitário. Se z for real, seu sinalserá +1 ou −1. Para todo número complexo z,

sign(z)sign(z) = 1.

Teorema 8.3 Seja x = (x1, x2, . . . , xm)T um vetor não nulo em Cm, com x1 complexo

não nulo e e1 = (1, 0, . . . , 0)T o primeiro elemento da base canônica do Cm. O refletorHv, onde

v =1

2(x+ sign(x1) kxk e1) ,

leva x em y = −sign(x1) kxk e1, cujo único elemento não nulo é o primeiro.

Prova. O vetor

w =1

2(x− sign(x1) kxk e1)

é ortogonal a v e

x = u+ w,

sign(x1) kxk e1 = u− w.

Portanto,

Hv(x) = Hvv +Hvw = −v + w = −sign(x1) kxk e1.¤

O y definido neste teorema tem a forma (y1, 0, . . . , 0)T , onde apenas y1 =−sign(x1) kxknão é nulo. Esta escolha de u assegura que kxk ≤ kyk , o que fornece uma maior estabili-dade numérica à decomposição QR usando refletores de Householder descrita em seguida.

Notas de aula do Prof. Antonio Cândido Faleiros 101

8.1 Decomposição QR usando o refletor de House-holder

A decomposição QR, baseada no processo de ortogonalização de Gram-Schmidt é o resul-tado de sucessivas multiplicações à direita de A = [v1, . . . , vn] por matrizes elementares,todas triangulares superiores, resultando numa matriz ortogonal Q = [q1, . . . , qn]

A×R1 × · · · ×Rn = Q.

A matriz R1× · · ·× Rn é triangular superior e sua inversa R nos fornece a decomposiçãoA = QR.Por seu turno, a decomposição QR baseada nas matrizes de Householder será o resul-

tado da multiplicação à esquerda de A por uma seqüência de matrizes ortogonais Q1, . . . ,Qn, que resultarão numa matriz triangular R

Qn × · · · ×Q1 ·A = R.

AmatrizQ1× · · ·×Qn é ortogonal e sua inversaQ nos fornecerá a decomposição A = QR.A idéia de Householder, proposta em 1958, foi a de escolher Qk para zerar aqueles

elementos da coluna k de A, situados abaixo da diagonal. A multiplicação pela matriz Qk

opera sobre A realizando uma combinação linear das linhas k, k+1, . . . , m, mantendo asprimeiras k − 1 colunas inalteradas e anulando os elementos da coluna k situados abaixoda diagonal. A matriz Q1 é uma matriz de Householder H1 e a forma geral de Qk, parak = 2, . . . , n, é

Qk =

·I 00 Hk

¸onde I é a matriz identidade de ordem k − 1 e Hk é uma matriz de Householder cujaordem é m− k+ 1.Se x for o vetor de Cm−k+1 formado pelos elementos da coluna k de A, extraídos da

diagonal principal para baixo, o refletor de Householder Hk procurado é I− vv∗/v∗v, onde

v =1

2(x+ sign(x1) kxk e1) ,

e e1 = (1, 0, . . . , 0) é o primeiro elemento da base canônica do Cm−k+1. Pelo que foi vistoanteriormente,

Hk x = (y1, 0, . . . , 0)T

onde y1 = −sign(x1) kxk é o único elemento não nulo de Hkx.Sendo

A = [a(1)1 , a

(1)2 , . . . , a(1)n ] =

a(1)11 a

(1)12 a

(1)13 · · · a

(1)1n

a(1)21 a

(1)22 a

(1)23 · · · a

(1)2n

a(1)31 a

(1)32 a

(1)33 · · · a

(1)3n

......

.... . .

...a(1)m1 a

(1)m2 a

(1)m3 · · · a

(1)mn

102 Notas de aula do Prof. Antonio Cândido Faleiros

então Q1 = H1 = I− v1v∗1/v

∗1v1 onde

v1 =1

2

a(1)11 + sign(a

(1)11 )°°°a(1)1 °°°

a(1)21

a(1)31...

a(1)m1

e a(1)1 =

a(1)11

a(1)21

a(1)31...

a(1)m1

estão em Cm. Assim,

Q1A =

−sign(a11)

°°°a(1)1 °°° a(2)12 a

(2)13 · · · a

(2)1n

0 a(2)22 a

(2)23 · · · a

(2)2n

0 a(2)32 a

(2)33 · · · a

(2)3n

......

.... . .

...0 a

(2)m2 a

(2)m3 · · · a

(2)mn

.

Eliminando a primeira linha e a primeira coluna de Q1A, obtemos a matriz

A1 = [a(2)2 , a

(2)3 , . . . , a(2)n ] =

a(2)22 a

(2)23 · · · a

(2)2n

a(2)32 a

(2)33 · · · a

(2)3n

......

. . ....

a(2)m2 a

(2)m3 · · · a

(2)mn

que é de ordem m− 1 por n− 1. Toma-se H2 = I − v2v

∗2/v

∗2v2, onde

v2 =1

2

a(2)22 + sign

³a(2)22

´°°°a(2)2 °°° e(2)1a(2)32...

a(2)m2

e a(2)2 =

a(2)22

a(2)32...

a(2)m2

estão em Cm−1. Toma-se

Q2 =

·1 00 H2

¸e, com esta escolha,

Q2Q1A =

−sign(a(1)11 )°°°a(1)1 °°° a

(2)12 a

(2)13 · · · a

(2)1n

0 −sign(a(2)22 )°°°a(2)2 °°° a

(3)23 · · · a

(3)2n

0 0 a(3)33 · · · a

(3)3n

......

.... . .

...0 0 a

(3)m3 · · · a

(3)mn

.

Notas de aula do Prof. Antonio Cândido Faleiros 103

Na terceira etapa, toma-se

Q3 =

1 0 00 1 00 0 H3

sendo H3 = I− v3v

∗3/v

∗3v3, onde

v3 =1

2

a(3)33 + sign

³a(3)33

´°°°a(3)3 °°°a(3)43...

a(3)m3

e a(3)3 =

a(3)33

a(3)43...

a(3)m3

.

estão em Cm−2. Com esta escolha,

Q2Q1A =

−sign³a(1)11

´°°°a(1)1 °°° a(2)12 a

(2)13 · · ·

0 −sign³a(2)22

´°°°a(2)2 °°° a(3)23 · · ·

0 0 −sign³a(3)33

´°°°a(3)3 °°° · · ·...

......

. . .0 0 0 · · ·

e o processo continua até obter uma matriz triangular superior

R = Qn · · ·Q2Q1A.

As matrizes Q1, Q2, . . . , Qn são todas unitárias, de modo que seu produto Qn · · · Q2 Q1,que denotaremos por Q∗, também é unitária sendo Q sua inversa. Assim, Q∗A = R, queresulta na decomposição

A = QR

onde Q é unitária e R é triangular superior.

8.2 O algoritmo para calcular R

O algoritmo seguinte calcula a matriz R, m por n, triangular superior da decomposiçãoQR de uma matriz A de ordem m por n, com m ≥ n. Além de R, este algoritmo constróios vetores de reflexão v1, . . . , vn.=================================Algoritmo 10.1 Fatoração QR de HouseholderEntrada: A = (aij), de ordem m por n.Saída: Substitui a matriz A porR, que é triangular superior. Calcula ainda as reflexões

v1, . . . , vn.=================================

104 Notas de aula do Prof. Antonio Cândido Faleiros

for k = 1 to nx = Ak:m,k

vk = x+ sign(x1) kxk e1vk = vk/ kvkkAk:m,k:n = Ak:m,k:n− 2vk(v∗kAk:m,k:n)

=================================

8.3 Contagem das operações

Em cada loop, o cálculo dominante é o de Ak:m,k:n. O vetor vk tem comprimento l =m− k+ 1. Para cada coluna de Ak:m,k:n, é preciso calcular o produto interno v∗kAk:m, j

o que exige 2l− 1 flops, sendo l multiplicações e l − 1 adições. Calculado este produtointerno, precisamos de 1 flop para calcular 2(v∗kAk:m, j) e l multiplicações para calcularo produto deste escalar, 2(v∗kAk:m, j) pelo vetor vk. Finalmente, l subtrações para obterAk:m, j− 2vk(v∗kAk:m, j). Efetuamos assim 4l operações para calcular Ak:m, j em cada loop.Para calcular as n− k+ 1 colunas de Ak:m,k:n serão necessários 4l(n − k + 1) flops e naexecução dos n loops exigirá

nXk=1

4l(n− k + 1) =nX

k=1

4(m− k + 1)(n− k + 1) = 2mn2 − 23n3 + 2mn+

2

3n

flops. Usamos no cálculo deste somatório os seguintes resultados

nXk=1

1 = n,nX

k=1

k =1

2n(n+ 1),

nXk=1

k2 =1

6(n+ 3n2 + 2n3).

Admitindo que m e n crescem na mesma razão, fazendo m e n →∞, obtemos

∼ 2mn2 − 23n3

flops para executar o algoritmo de Householder.

8.4 O algoritmo para calcular Q∗

A matriz Q ainda não foi calculada. Podemos usar as fórmulas

Q∗ = Qn · · ·Q2Q1

ouQ = Q∗1Q

∗2 · · ·Q∗n

para obtê-la. Lembramos aqui que as matrizes Qi são unitárias e assim Q∗i = Q−1i .Podemos calcular Q∗b ou Qx. O próximo algoritmo calcula Q∗b.

Notas de aula do Prof. Antonio Cândido Faleiros 105

=================================Algoritmo 10.2 Fatoração QR de HouseholderEntrada: As reflexões v1, . . . , vn de ordem m por 1 e b de ordem m por 1Saída: Substitui b pelo vetor Q∗b de ordem m por 1.=================================for k = 1 to n

bk:m = bk:m− 2vk(v∗kbk:m)=================================Podemos usar este algoritmo para obter Q∗, calculando suas colunas Q∗e1, . . . , Q∗em

de Q∗.

8.5 O algoritmo para calcular Q

O próximo algoritmo calcula Qx.=================================Algoritmo 10.3 Fatoração QR de HouseholderEntrada: As reflexões v1, . . . , vn, de ordem m por 1 e o vetor x de ordem n por 1.Saída: Substitui x pelo vetor Qx de ordem n por 1.=================================for k = n downto 1

xk:m = xk:m− 2vk(v∗kxk:m)=================================Podemos usar este algoritmo para calcular as colunas Qe1, . . . , Qem de Q. Este é o

método de escolha quando se deseja calcular a matriz unitária Q.Quando se deseja calcular apenas Q da decomposição reduzida, basta calcular as

colunas Qe1, . . . , Qen.

106 Notas de aula do Prof. Antonio Cândido Faleiros

Capítulo 9

Mínimos quadrados

Seja A uma matriz complexa m por n e b um vetor coluna do Cm. O sistema algébricoAx = b tem solução se e somente se b for um ponto da imagem de A. Quando, além dissoA for inversível, Ax = b possui uma única solução dada por x = A−1b.Quando b não pertencer à imagem de A, o sistema algébrico Ax = b não tem solução.

Entretanto, podemos escolher c na imagem deA que minimiza kc− bk2 e resolver o sistemaAx = c. O ponto c da imagem de A mais próximo de b é a projeção ortogonal de b sobrea imagem de A. Seja Pb esta projeção. As soluções de Ax = Pb, minimizam kAx− bk2 .Quando o ker(A) = {0}, o sistema Ax = Pb tem solução única. Entretanto, quando

ker(A) contiver vetores não nulos, o sistema Ax = Pb possuirá infinitas soluções. De fato,se n for um elemento não nulo do núcleo de A e x1 uma solução de Ax = Pb, então, paratodo número complexo c, A(x1 + cn) = Pb.

Se x for uma solução de Ax = Pb, podemos decompô-la numa soma x1 = r + n onder está na imagem de A∗ e n está no núcleo de A, uma vez que Cn = Im(A∗) ⊕ ker(A).Observe que r é a projeção ortogonal de x sobre a imagem de A∗. Sendo x1 qualquer outrasolução do sistema Ax = Pb, então A(x1 − x) = 0 e x1− x = n1 pertence ao núcleo de Ae assim x1 = x+ n1 = r+ (n+ n1), onde n+ n1 pertence ao núcleo de A e r é a projeçãoortogonal sobre a imagem de A∗ de uma solução qualquer do sistema Ax = Pb. Uma daslições que se tira do raciocínio acima é que projeção ortogonal sobre a imagem de A∗ deuma solução x qualquer de Ax = Pb sempre resulta no mesmo vetor r. Determinandouma única solução do sistema Ax = Pb e todas as soluções do sistema homogêneo Ax =0, teremos em mãos todas as soluções do sistema não homogêneo Ax = Pb.Cada solução de Ax = Pb é uma solução por mínimos quadrados de Ax = b.

A projeção ortogonal r de uma solução do sistema Ax = Pb sobre a imagem de A∗ échamada de solução principal por mínimos quadrados de Ax = b.Quando o sistema linear Ax = b tem solução, suas soluções coincidem com as soluções

por mínimos quadrados de Ax = b.

Seguindo o esquema estabelecido até o momento, para obter a solução principal pormínimos quadrados de Ax = b, precisamos seguir a seguinte receita:

1. Determine Pb, a projeção ortogonal de b sobre a imagem de A.

107

108 Notas de aula do Prof. Antonio Cândido Faleiros

2. Determine x, uma solução de Ax = Pb.

3. Determine r, a projeção ortogonal de x sobre a imagem de A∗, que é ortogonal aonúcleo de A.

Exercício 9.1 Para as matrizes abaixo, determine: a projeção ortogonal Pb de b sobrea imagem de A, uma solução de Ax = Pb e a projeção ortogonal r de x sobre a imagemde A∗.

1. A =

1 20 12 3

e b =

100

.

2. A =

1 0 12 1 03 1 1

e b =

111

.

Exercício 9.2 Na decomposição QR de A =

1 20 11 2

, Q =

1/√2 0

0 1

1/√2 0

. Determine

a matriz que projeta sobre a imagem de A. Resolva o problema de mínimos quadradosAx = (1, 0, 0)T . (Sugestão: note que as colunas de Q dão base ortogonal para a imagemde A.)

A resolução de um problema de mínimos quadrados é bastante árdua. Felizmenteexiste um atalho que nos é dado pela proposição seguinte.

Teorema 9.3 Seja A uma matriz m por n e b um vetor coluna m por 1. Seja P a matrizque projeta ortogonalmente sobre a imagem de A. Os sistemas lineares Ax = Pb e A∗Ax =A∗b possuem as mesmas soluções.

Prova. Observe inicialmente que Pb− b ∈ Im (A)⊥ = ker(A∗).1. Se x for solução de Ax = Pb, então Ax− b = Pb− b pertence ao núcleo de A∗ de

onde se conclui que A∗(Ax− b) = 0 ou

A∗Ax = A∗b.

2. Se x for solução de A∗Ax = A∗b, então A∗(b − Ax) = 0 e b− Ax pertence aonúcleo de A∗, que é ortogonal à imagem de A. Desta forma, b = Ax+ (b − Ax) é umadecomposição de b em um vetor Ax na imagem de A e outro b−Ax no seu complementoortogonal. Logo, Pb = Ax. ¤

Definição 9.4 A equaçãoA∗Ax = A∗b

é chamada de equação normal do problema de mínimos quadrados para Ax = b.

Notas de aula do Prof. Antonio Cândido Faleiros 109

Embora seja redundante, nunca é demais reafirmar que, se x for uma solução daequação normal, então a projeção ortogonal de b sobre a imagem de A é igual a Ax

Pb = Ax.

Quandom ≥ n e a matriz A, de ordemm por n, possuir posto máximo n, suas colunasserão linearmente independentes e o seu núcleo conterá apenas o zero. A matriz A∗A seráinversível e o problema de mínimos quadrados para Ax = b terá uma única solução

x = (A∗A)−1A∗b.

Como Pb = Ax, a projeção ortogonal P sobre a imagem de A será dada pelo produto

P = A(A∗A)−1A∗.

9.1 Mínimos quadrados e a decomposição QR

Seja A = QR a decomposição QR reduzida da matriz A. As colunas da matriz Q = [q1,. . . , qk] formam uma base ortonormal da imagem de A e Q∗Q é a matriz identidade k pork. A matriz R, de ordem k por n, é triangular superior,

A∗A = R∗Q∗QR = R∗R,

e a equação normal A∗Ax = A∗b toma a forma

R∗Rx = R∗Q∗b.

Este sistema pode ser resolvido com facilidade, posto que R é triangular superior e R∗ étriangular inferior.Quando m ≥ n e a matriz A de ordem m por n possuir posto máximo n, as matrizes

A∗A e R são inversíveis o que permite reduzir a equação normal à forma

Rx = Q∗b.

Neste caso, R é inversível e esta equação tem solução única. A projeção P = A (A∗A)−1

A∗ assumirá uma forma mais simples

P = A(A∗A)−1A∗ = QR(R∗R)−1R∗Q∗ = QQ∗.

9.2 Pseudo inversa

Quando m ≥ n e a matriz A de ordem m por n possuir posto máximo n, o problema demínimo quadrado para Ax = b tem uma única solução que coincide com a única soluçãoda equação normal

A∗Ax = A∗b.

110 Notas de aula do Prof. Antonio Cândido Faleiros

A matriz A∗A é inversível neste caso e

x = (A∗A)−1A∗b.

A matriz n por mA+ = (A∗A)−1A∗,

é chamada de pseudo-inversa de A. Ela recebe este nome pois x = A+b é a solução pormínimos quadrados de Ax = b.Sendo QR for a decomposição QR reduzida de A, então

x = R−1Q∗b

e a pseudo-inversa será dada porA+ = R−1Q∗.

Continuando com A de ordem m por n e posto máximo n, a matriz A∗A, além de serinversível, é hermitiana e possui uma decomposição de Cholesky A∗A = R∗R, onde R éinversível e triangular superior. Neste caso, a equação normal se reduz à forma

R∗Rx = A∗b

e, sendo R triangular superior e R∗ triangular inferior, é muito simples resolver o sistema.

9.3 Reta de regressão

Sejam (x1, y1), . . . , (xm, ym) pontos de C2. Determine a reta

y = c0 + c1x

que minimiza o resíduoPm

i=1 (c0 + c1xi − yi)2 .

Consideremos em Cm o produto interno definido por hx, yi = x∗y e a norma definidapor kxk2 = √x∗x. Sendo

A =

1 x1...

...1 xm

, c =

µc0c1

¶, d =

y1...ym

,

então

kAc− dk2 = hAc− d, Ac− di =mXi=1

(c0 + c1xi − yi)2.

Portanto, o problema proposto é equivalente ao problema de mínimos quadrados paraAc = d no produto interno de Cm definido por hx, yi = x∗y.

Notas de aula do Prof. Antonio Cândido Faleiros 111

Se x1, . . . , xm não forem todos iguais, a matriz A tem posto 2. A equação normalA∗Ac = A∗d do problema de mínimos quadrados para Ac = d éµ

mPm

i=1 xiPmi=1 xi

Pmi=1 x

2i

¶µc0c1

¶=

µ Pmi=1 yiPm

i=1 xiyi

¶que terá solução única.Sejam

x =1

m(x1 + · · ·+ xm) e y =

1

m(y1 + · · ·+ ym)

os valores médios de x1, . . . , xm e y1, . . . , ym, respectivamente. Podemos fazer a decom-posição A = WT, onde

W =

1 (x1 − x)...

...1 (xm − x)

, T =

µ1 x0 1

onde as colunas de W formam uma base ortogonal para a imagem de A e T é inversível.Com esta decomposição, a equação normal A∗Ac = A∗d assume a formaµ

m 00Pm

i=1(xi − x)2

¶µc0 + c1x

c1

¶=

µ Pmi=1 yiPm

i=1(xi − x)yi

¶cuja solução é imediata

c1 =

Pmi=1(xi − x)yiPmi=1(xi − x)2

e c0 = y − c1x.

Exercício 9.5 Calcule a reta de regressão para os dados (1; 3), (2; 6), (3; 5, 5), (4; 6, 5).

9.4 Interpolação polinomial

Dados os pontos (x1, y1), . . . , (xm, ym), determine c0, c1, . . . , cm−1, de modo que opolinômio

y = p(x) = c0 + c1x+ · · ·+ cm−1xm−1

seja tal que p(xi) = yi, para i = 1, 2, . . . , m− 1.Estas condições nos levam ao sistema de equações algébricas lineares Ac = d onde

A =

1 x1 x21 · · · xk11 x2 x22 · · · xk2...

......

. . ....

1 xm x2m · · · xkm

, c =

c0c1...ck

, d =

y1y2...ym

.

Se os pontos x1, x2, . . . , xm forem todos distintos, a matriz A é inversível e o problematem solução única para qualquer y1, y2, . . . , ym.

112 Notas de aula do Prof. Antonio Cândido Faleiros

O polinômio p(x) assim obtido é chamado de polinômio interpolador dos pares depontos (x1, y1), . . . , (xm, ym).À medida que o m cresce, o polinômio p oscila mais e mais. Se os pontos (xi, yi)

tiverem sido obtidos a partir de experimentos laboratoriais, p(x) pode não representar ofenômeno que se pretende descrever.

9.5 Ajuste polinomial

Se os dados (xi, yi), i = 1, 2, . . . , m, forem provenientes de experimentos, a interpolaçãopolinomial fornece um polinômio que oscila muito e não representa adequadamente osdados obtidos experimentalmente. Quanto maior for o conjunto de dados, mais oscilanteé o polinômio. Desta forma, é muito mais interessante procurar um polinômio de graumenor, que oscila menos e se ajuste melhor aos dados observados, embora não passe nec-essariamente por nenhum deles. Observando que dados experimentais são passíveis deerros, não é um absurdo obter um polinômio que se ajuste a eles sem passar necessaria-mente por nenhum deles. Fica no ar a pergunta: qual o grau do polinômio a ser usado.Em geral, quando se faz um experimento, existem modelos matemáticos que descrevem ofenômeno. Se não houver, busca-se um por tentativas e erros. O critério de ajuste podeser aquele fornecido pelo problema de mínimos quadrados.Dados os pontos (x1, y1), . . . , (xm, ym), determine o polinômio

y = p(x) = c0 + c1x+ · · ·+ ckxk

de grau k menor do que m− 1 que minimiza o resíduoPmi=1 (p(xi)− yi)

2 .Minimizar este resíduo é equivalente à minimização da norma kAc− dk2 , onde

A =

1 x1 x21 · · · xk11 x2 x22 · · · xk2...

......

. . ....

1 xm x2m · · · xkm

, c =

c0c1...ck

, d =

y1y2...ym

,

de modo que o problema proposto é equivalente àquele dos mínimos quadrados para Ac =d com o produto interno

hx, yi = x∗y.

Quando k = m− 1 caímos no caso anterior da interpolação polinomial.

9.6 Aproximação polinomial de funções

Um problema semelhante ao anterior consiste em determinar o polinômio

y = p(x) = c0 + c1x+ · · ·+ ckxk

Notas de aula do Prof. Antonio Cândido Faleiros 113

de grau menor ou igual a k que melhor aproxima uma função g(x) definida no intervalo[a, b]. Logo surge a pergunta: em que sentido p(x) é o melhor polinômio que aproximag(x)?

Numa tentativa de responder a esta indagação, legítima por sinal, poderíamos pegarm pontos a = x1 ≤ x2 ≤ · · · ≤ xm = b igualmente espaçados em [a, b] e assim determinaro polinômio p(x) que minimiza a soma

S =mXi=1

[p(xi)− g(xi)]2 .

Denotando g(xi) por yi, podemos resolver este problema usando a técnica anterior deajuste polinomial.Entretanto, antes de encerrar o caso, vamos elaborar um pouco mais este problema.

Para m fixo, seja ∆x = (b − a)/m. Minimizar S ou S ·∆x é a mesma coisa. À medidaque o m cresce,

S ·∆x =mXi=1

|p(xi)− g(xi)|2∆x

converge para a integralR ba[f(x)− g(x)]2 dx. Tal fato motiva a definição do produto in-

terno

hf, gi =Z b

a

f(x)g(x) dx

e a norma correspondente a ele

kfk =sZ b

a

|f(x)|2 dx.

Nesta norma, kp− gk2 = R ba|p(x)− g(x)|2 dx.

O problema agora pode ser reformulado como segue: Seja g uma função contínua,definida no intervalo real [a, b]. Determine o polinômio p(x) = c0+ c1x+ · · ·+ ckx

k degrau menor ou igual a k, que minimiza

kp− gk2 =Z b

a

|p(x)− g(x)|2 dx.

Sabemos que p é obtido projetando g ortogonalmente sobre o espaço dos polinômiosde grau menor ou igual a k. Podemos determinar este polinômio a partir de uma baseortogonal para este espaço vetorial. Sabemos que quando [a, b] = [−1, 1], estes polinômiosestão relacionados aos polinômios de Legendre.

114 Notas de aula do Prof. Antonio Cândido Faleiros

9.7 Aproximação trigonométrica

Podemos agora resolver um problema semelhante ao anterior, aproximando uma funçãoreal g(x), definida no intervalo [−L,L], por uma função trigonomérica

f(x) =a02+

mXk=1

ak cos

µkπ

Lx

¶+

mXk=1

bksen

µkπ

Lx

¶fazendo com que

kf − gk2 =Z L

−L|f(x)− g(x)|2 dx

seja o menor possível. A norma acima é proveniente do produto interno

hf, gi =Z L

−Lf(x)g(x) dx

e, o que é interessante observar, o conjunto de funções

{ 1, cosµkπ

Lx

¶, sen

µkπ

Lx

¶: k = 1, 2, . . . ,m }

é ortogonal em relação a este produto interno. Pode-se calcular que h1, 1i = 2L e¿cos

µkπ

Lx

¶, cos

µkπ

Lx

¶À=

¿sen

µkπ

Lx

¶, sen

µkπ

Lx

¶À= L.

Consequentemente,

a0 =1

L

Z L

−Lg(x)dx

ak =1

L

Z L

−Lg(x) cos

µkπ

Lx

¶dx

bk =1

L

Z L

−Lg(x)sen

µkπ

Lx

¶dx

para k = 1, 2, . . . , m.Seja g(x) uma função contínua por partes no intervalo [−L, L] e h(x) sua extensão

periódica para toda a reta. À medida que o m cresce, a aproximação trigonométricaconverge para o valor médio

g(x−) + g(x+)

2onde

g(x−) = lims→x−

g(s) e g(x+) = lims→x+

g(s).

A teoria que trata das aproximações por funções trigonométricas é denominada deAnálise de Fourier e a ciência que estuda as aproximações por seqüências de funçõesortogonais é denominada de Análise Harmônica.

Capítulo 10

Autovalores e autovetores

Definição 10.1 Seja V um espaço vetorial e L : V → V um operador linear. Um escalarλ é um autovalor de L se existir um vetor v, não nulo, tal que Lv = λv. O vetor v échamado de autovetor de L correspondente ao autovalor λ.

Uma matriz quadrada A define um operador linear de Rn em Rn se for real ou de Cn

em Cn se for complexa. Um número real λ é um autovalor de A se existir uma matrizcoluna x de ordem n por 1, não nula, tal que Ax = λx. O vetor coluna x é chamado deautovetor de A correspondente ao autovalor λ.Sendo x um autovetor de A correspondente ao autovalor λ então

(λI −A)x = 0,

onde I é a matriz identidade. A equação matricial acima possui solução não trivial se esó se

det(λI −A) = 0.

Se A for uma matriz de ordem n, o det(λI −A) é um polinômio de grau n em λ. Sobre ocorpo dos números complexos, a equação polinomial

det(tI −A) = 0

possui pelo menos uma raiz λ. Substituindo este valor na equação matricial (λI−A)x = 0,determinamos os autovalores x. Lembre-se: quando uma equação matricial homogêneapossui solução não trivial, esta solução não é única. Se x1 e x2 são dois autovetores de Acorrespondentes ao mesmo autovalor λ e α1, α2 forem dois escalares, então α1x1 + α2x2será autovetor de A correspondentes ao autovalor λ. O conjunto

auto(λ) = {x ∈ Cn : Ax = λx}é um subespaço vetorial de Cn, chamado de autoespaço de A correspodente ao autovalorλ.A matriz tI − A é chamada de matriz característica de A, o polinômio ∆(t) =

det(tI−A) é chamado de polinômio característico de A e a equação polinomial det(tI−A) = 0 é chamada de equação característica de A.

115

116 Notas de aula do Prof. Antonio Cândido Faleiros

Para obter os autovalores e autovetores de A, calcule as raízes λ1, . . . , λs da equaçãocaracterística det(λI−A) = 0 e, para cada autovalor λi, determine o conjunto solução dosistema homogêneo

(λI −A)x = 0

para obter o autoespaço de λ.Se duas matrizes quadradas A e B forem semelhantes, então existe uma matriz inver-

sível P tal que B = PAP−1 e

det(tI −B) = det(tP−1P − P−1AP ) = det(P−1(tI −A)P ) =

= det(P−1) det(tI −A) det(P ) = det(tI −A),

mostrando que matrizes semelhantes possuem a mesma equação característica e, portanto,os mesmos autovalores.Para determinar autovalores e autovetores de um operador linear L : V → V, onde V

é um espaço vetorial de dimensão finita n, escolhemos uma base B = {v1, . . . , vn} de V ecalculamos a matriz de L na base B que denotamos por A. Um escalar λ é autovalor deL se e só se for autovalor de A. Um vetor v não nulo é autovetor de L correspondente aoautovalor λ se e só se a matriz coluna x das coordenadas de v na base B for um autovetorde A correspondente ao autovalor λ.De fato, se A = (aij), então

Lvj =nXi=1

aijvi

e, se x = (x1, . . . , xn)T , então

v =nXi=1

xivi

e

Lv =nX

j=1

xjLvj =nX

j=1

xj

nXi=1

aijvi =nXi=1

ÃnX

j=1

aijxj

!vi.

Assim, Lv = λv se e só sePn

i=1

³Pnj=1 aijxj

´vi =

Pni=1 λxivi e, da independência linear

dos elementos de B, esta igualdade se verifica se e só sePnj=1 aijxj =

Pni=1 λxi, para i =

1, . . . , n, que corresponde à equação matricial Ax = λx.Desta forma, para calcular os autovalores e autovetores de um operador L num espaço

vetorial de dimensão finita, basta calcular sua matriz A numa base B, determinar seusautovalores λ1, . . . , λs, que serão os autovetores de L. A cada autovalor λi, determine oautoespaço de A correspondente a este autovalor

auto(λi) = {x ∈ Cn : Ax = λix}para obter os autovetores v de L correspondente ao autovalor λi que serão dados por

v = x1v1 + · · ·+ xnvn

Notas de aula do Prof. Antonio Cândido Faleiros 117

onde x = (x1, . . . , xn)T é autovetor de A correspondente ao autovalor λi.Seja λ um autovalor de L. Tal como no caso de matrizes, o conjunto

auto(λ) = {v ∈ V : Lv = λv}é um subespaço vetorial de V, denominado de autoespaço de L correspondente ao auto-valor λ.Se A for a matriz de L numa base B de V, então tI − A é chamada de matriz

característica de L, o polinômio det(tI −A) é chamado de polinômio característicode L e a equação polinomial det(tI −A) = 0 é chamada de equação característica deL.Como as matrizes de uma transformação linear em bases diferentes são semelhantes, o

polinômio característico de L não depende da base escolhida e, portanto, seus autovaloresnão dependem da base escolhida. A mesmo acontece com os autovetores de L. Suadeterminação não depende da base escolhida.

Teorema 10.2 Autovetores de L correspondentes a autovalores distintos são linearmenteindependentes.

Prova. Sejam v1, . . . , vr os autovetores de L correspondentes aos autovalores dis-tintos λ1, . . . , λr. Vamos provar que estes autovetores formam um conjunto linearmenteindependente.1. Inicialmente provaremos que {v1, v2} é linearmente independente. Sejam a1 e a2

dois escalares tais que a1v1 + a2v2 = 0. Multiplicando por λ1 e por A vem

a1λ1v1 + a2λ1v2 = 0

ea1λ1v1 + a2λ2v2 = 0.

Subtraindo uma da outra chega-se a a2(λ1 − λ2)v2 = 0. Como λ1 6= λ2 e v2 6= 0, obtemosa2 = 0 e, consequentemente, a1 = 0, provando que o conjunto {v1, v2} é linearmenteindependente. Do mesmo modo se prova que um conjunto formado por dois autovetores{vi, vj} são linearmente independentes.2. Vamos supor, como hipótese de indução, que qualquer subconjunto de {v1, . . . , vr}

com menos de r elementos é linearmente independente.3. Vamos provar que {v1, . . . , vr} é linearmente independente. Consideremos a

equaçãoa1v1 + a2v2 + · · ·+ arvr = 0,

onde ai são escalares. Multiplicando-a por A e por λ1, obtemos

a1λ1v1 + a2λ2v2 + · · ·+ arλrvr = 0

ea1λ1v1 + a2λ1v2 + · · ·+ arλ1vr = 0.

118 Notas de aula do Prof. Antonio Cândido Faleiros

Subtraindo uma da outra vem

a2(λ2 − λ1)v2 + · · ·+ ar(λr − λ1)vr = 0

Sendo o conjunto {v2, . . . , vr} linearmente independente, a2(λ2−λ1) = · · · = ar(λr−λ1) =0. Como os autovalores são distintos, a2 = · · · = ar = 0 e, em conseqüência, a1 também énulo, completando a prova de que o conjunto {v1, . . . , vr} é linearmente independente. ¤

Teorema 10.3 Seja V um espaço com produto interno e L : V → V auto-adjunto. Osautovalores de L são reais e os autovetores correspondentes a autovalores distintos sãoortogonais.

Prova. Se Lv = λv, onde v é um vetor não nulo e λ escalar, então hLv, vi = hv, Lvio que implica em λ hv, vi = λ hv, vi ou (λ− λ) hv, vi = 0, de onde se conclui que λ = λ.Se v e w forem autovetores correspondentes aos autovalores reais distintos λ e µ, então,

de hLv,wi = hv, Lwi o que implica em λ hv, wi = µ hv, wi ou (λ − µ) hv, wi = 0. Comoλ 6= µ, hv, wi = 0. ¤

Teorema 10.4 Seja V um espaço com produto interno e L : V → V linear. Os autoval-ores de L∗L são reais e não negativos, isto é, se λ for autovalor de L∗L, então λ ≥ 0.

Prova. Como L∗L é auto-adjunto, seus autovalores são reais. Seja v um autovetor deL∗L associado ao autovalor λ. De hLv,Lvi ≥ 0, segue

0 ≤ hLv,Lvi = hv, L∗ Lvi = hv, λvi = λ hv, viComo hv, vi > 0, conclui-se que λ ≥ 0. ¤

Teorema 10.5 Seja V um espaço com produto interno e L : V → V antiadjunto. Osautovalores de L são números imaginários puros (números complexos com parte real nula)e os autovetores correspondentes a autovalores distintos são ortogonais.

Prova. Se v for um autovetor de L, com Lv = λv então

hLv, vi = hv,−Lvi =⇒ λ hv, vi = −λ hv, vi =⇒ λ = −λprovando que λ é um número imaginário com parte real nula.Sejam v e w autovetores de L com Lv = λv, Lw = σw e λ 6= σ. Então

hLv,wi = hv,−Lwi =⇒ λ hv, wi = −σ hv, wi .Sendo λ e σ imaginários puros e distintos, λ 6= −σ e assim, hv, wi = 0. ¤

Notas de aula do Prof. Antonio Cândido Faleiros 119

Teorema 10.6 Seja V um espaço com produto interno e L : V → V unitário. Os auto-valores de L são números complexos com módulo unitário e os autovetores correspondentesa autovalores distintos são ortogonais.

Prova. Seja v um autovetor de L, com Lv = λv. Então

hLv,Lvi = hv, vi =⇒ λλ hv, vi = hv, vi =⇒ λλ = 1,

mostrando que λ é um número complexo de módulo unitário.Sejam v e w autovetores de L com Lv = σv, Lw = λw e σ 6= λ. Se hv, wi 6= 0, então

hLv,Lwi = hv, wi =⇒ σλ hv, wi = hv, wi =⇒ σλ = 1.

Como λ possui módulo unitário, podemos escrevê-lo na forma λ = exp(iθ), onde θ é umnúmero real. Assim σ exp(iθ) = 1 e σ = exp(−iθ) = λ de onde se conclui que λ = σ, oque contraria a hipótese. ¤

Definição 10.7 Seja p(t) = c0+ c1t+ · · ·+ cktk um polinômio em t e A uma matriz

quadrada. Define-se p(A), o valor do polinômio p(t) na matriz A, por

p(A) = c0I + c1A+ · · ·+ ckAk

onde I é a matriz identidade com ordem igual à de A. Se p(A) = 0, diremos que a matrizA é um zero do polinômio p(t).

Sejam Ak, k = 0, 1, . . . , r, matrizes quadradas de mesma ordem. Os elementos damatriz

A(t) = A0 +A1t+ · · ·+Artr

são polinômios de grau menor ou igual a r.

Teorema 10.8 (Cayley-Hamilton) Toda matriz é um zero do seu polinômio caracterís-tico.

Prova. Seja A uma matriz quadrada de ordem n e B = tI −A sua matriz caracterís-tica. Seu polinômio característico

detB = det(tI −A) = tn + cn−1tn−1 + · · ·+ c1t+ c0

tem grau n. Cada elemento da adjunta clássica deB, denotada por adj(B), é um polinômiode grau n − 1 ou inferior. Logo, adj(B) = Bn−1tn−1+ · · ·+ B1t+ B0 é um polinômiomatricial de grau n− 1 ou inferior. Sabe-se que B−1 = adj(B)/det(B) e assim,

det(B)I = adj(B) ·B.Como

det(B)I = Itn + cn−1Itn−1 + · · ·+ c1It+ c0I

120 Notas de aula do Prof. Antonio Cândido Faleiros

e

adj(B) ·B =¡Bn−1tn−1 + · · ·+B1t+B0

¢(tI −A)

= Bn−1tn + (Bn−2 −Bn−1A)tn−1 + · · ·+ (B0 −B1A)t+B0A

segue

I = Bn−1cn−1I = Bn−2 −Bn−1

· · ·c1I = B0 −B1A

c0I = B0A.

Multiplicando as igualdades, da primeira até a última por An, An−1, . . . , A e I, respecti-vamente, pela direita e adicionando os resultados, obtemos zero do lado direito e, do ladoesquerdo, o polinômio característico

An + cn−1An−1 + · · ·+ c1A+ c0I

calculado na matriz A. Isto prova o teorema de Cayley-Hamilton. ¤

Matrizes triangulares em bloco são aquelas do tipo

A =

µA1 B0 A2

¶onde A1 e A2 são matrizes quadradas, podendo ter a mesma ordem ou não. Então

det(A) = det(A1) det(A2).

A matriz característica de A também é triangular por blocos e

det(tI −A) = det(tI −A1) det(tI −A2).

Teorema 10.9 Seja A uma matriz triangular em blocos, cujos blocos diagonais são A1,. . . , Ar. Então o polinômio característico de A é o produto dos polinômios característicosde A1, . . . , Ar, isto é,

det(tI −A) = det(tI −A1) · · · det(tI −Ar).

O polinômio característico de uma matriz quadrada complexa A pode ser fatorado emfatores lineares,

∆(t) = (t− λ1)p1 · · · (t− λk)

pk ,

onde λ1, . . . , λk são suas raízes e p1, . . . , pk suas multiplicidades. O expoente pk é amultiplicidade algébrica do autovalor λk.

Notas de aula do Prof. Antonio Cândido Faleiros 121

Definição 10.10 Seja λ um autovalor de uma matriz quadrada A de ordem n. A mul-tiplicidade algébrica de λ é a multiplicidade de λ como raíz da equação característica.A multiplicade geométrica de λ é a dimensão do seu autoespaço.

Exemplo 10.11 O polinômio característico de A =

5 1 00 5 00 0 5

é (t − 5)3. Logo, 5 é

um autovalor de A de multiplicidade algébrica 3. O autoespaço deste autovalor é geradopor (1, 0, 0)T e (0, 0, 1)T . Logo, a multiplicidade geométrica do autovalor 5 é 2.

Teorema 10.12 A multiplicidade geométrica de um autovalor nunca excede sua multi-plicidade algébrica.

Prova. Seja V um espaço vetorial de dimensão n e L : V → V um operador linear.Seja g a multiplicidade geométrica de um autovalor λ de L. Existem g autovetores v1, . . . ,vg linearmente independentes correspondentes ao autovalor λ. Completemos este conjuntopara obter uma base de V. Seja B = {v1, . . . , vg, w1, . . . , wr} esta base. A matriz de Lnesta base é

M =

λ · · · 0 c11 · · · c1r.... . .

......

. . ....

0 · · · λ cp1 · · · cpr0 · · · 0 b11 · · · b1r.... . .

......

. . ....

0 · · · 0 br1 · · · brr

=

µA C0 B

onde A = λI.O polinômio característico deM é∆(t) = det(tI−M) = det(tI−A) det(tI−B) = (t − λ)g det(tI − B). Portanto, (t − λ)g deve dividir ∆(t). Para que isto ocorra, amultiplicidade algébrica de λ deve ser maior ou igual a g. ¤

Teorema 10.13 Uma matriz quadrada A de ordem n é semelhante a uma matriz diagonalD se e só se A tem n autovetores linearmente independentes.

Prova. 1. Se A for semelhante a uma matriz diagonal D, então existe uma matrizinversível P tal que AP = PD. Os elementos diagonais de D são os autovalores de A eas colunas de P os autovetores. Sendo inversível, as colunas de P são vetores linearmenteindependentes.2. Se A tem n autovetores linearmente independentes, sejam eles {v1, . . . , vn} que

formam uma base de V e para os quais Avi = λivi. Se P for a matriz cujas colunas sãoformadas por esses vetores, temos AP = PD onde D = diag(λ1, . . . , λn). ¤

Nota 10.14 No teorema anterior, os n autovalores λ1, . . . , λn não precisam ser todosdistintos.

122 Notas de aula do Prof. Antonio Cândido Faleiros

Seja P a matriz inversível para a qual D = P−1AP é diagonal. Então A = PDP−1 éa chamada de fatoração diagonal de A.Seja V um espaço vetorial com dimensão n. Seja L : V → V uma transformação linear,

cujo polinômio característico

∆(t) = (t− λ1)(t− λ2) · · · (t− λn)

pode ser fatorado em n fatores distintos do primeito grau. Então L possui n autovetoreslinearmente independentes e portanto, possui uma representação matricial diagonal, nabase formada pelos autovetores. Os elementos da diagonal desta representação são osautovalores λi.Se D for diagonal e seus elementos diagonais forem d11, d22, . . . , dnn denotaremos esta

matriz por D = diag(d11, d22, . . . , dnn). Sendo A = PDP−1, então

Am =¡PDP−1

¢m= PDmP−1 = Pdiag(dm11, d

m22, . . . , d

mnn)P

−1.

Sendo f(t) um polinômio,

f(A) = f¡P DP−1

¢= P f(D)P−1 = Pdiag( f(d11), f(d22), . . . , f(dnn) )P

−1.

Além disso, se os elementos diagonais de D forem não negativos, então

B = Pdiag³p

k1, . . . ,pkn

´P−1

é uma raiz quadrada de A pois B2 = A.

Capítulo 11

Espaços Invariantes

Definição 11.1 Seja L : V → V um operador linear eW um subespaço de V. Se L(W ) ⊂W, diremos que W é invariante sob L.

Exemplo 11.2 Seja L(x, y, z) = ( x − y, x + y, z ) um operador definido no espaçovetorial dos ternos ordenados. O subespaço W = { (x, y, 0) : x, y ∈ R } é invariante sobL.

O subespaço gerado por um vetor w não nulo é invariante sob L se e só se w for umautovetor de L.Seja L : V → V linear e f(t) um polinômio. O ker f(L) é invariante sob L. Se W for

invariante sob L, então W é invariante sob f(L).

Definição 11.3 Seja W um subespaço vetorial de V e L : V → V um operador linear.Se W for invariante sob L podemos definir T : W → W por T (w) = L(w) para todo wem W. O operador T é linear em W e recebe o nome de restrição de L em W.

Sendo W invariante sob L, então é invariante sob Lk, para todo k inteiro positivo. Sef(t) for um polinômio, então W é invariante sob f(L). Sendo T a restrição de L a W,para todo w em W, tem-se f(T )w = f(L)w.

Teorema 11.4 Seja L : V → V linear e W subespaço de V invariante sob L. Então Lpossui uma representação matricial em blocoµ

A C0 B

¶onde A é uma representação matricial da restrição de L em W.

123

124 Notas de aula do Prof. Antonio Cândido Faleiros

Prova. Seja {u1, . . . , uj} uma base de W e {u1, . . . , uj, v1, . . . , vk} uma base de V.Como W é invariante frente a L,

L(u1) = a11u1 + · · ·+ aj1uj

· · ·L(uj) = a1ju1 + · · ·+ ajjuj

L(v1) = c11u1 + · · ·+ cj1uj + b11v1 + · · ·+ bk1vk

· · ·L(vk) = c1ku1 + · · ·+ cjkuj + b1kv1 + · · ·+ bkkvk

e, portanto, a representação matricial de L nesta base é

a11 · · · a1j c11 · · · c1k...

. . ....

.... . .

...aj1 · · · ajj cj1 · · · cjk0 · · · 0 b11 · · · a1j...

. . ....

.... . .

...0 · · · 0 bk1 · · · bkk

=

µA C0 B

¶.

¤

Definição 11.5 Seja L : V → V linear e V = W1 ⊕ · · · ⊕Wr, onde Wi é invariante sobL. Seja Li a restrição de L a Wi. Neste caso se diz que L é a soma direta dos Li ou queL é decomponível nos operadores Li, quando então se escreve

L = L1 ⊕ · · ·⊕ Lr.

Ainda se diz que os subespaços W1, . . . , Wr reduzem L.

Teorema 11.6 Seja L : V → V linear e W1, . . . , Wr subespaços de V invariantes sob Le tais que V = W1⊕ · · · ⊕Wr. Neste caso, L possui uma representação matricial diagonalem bloco

A =

A1 0 · · · 00 A2 · · · 0...

.... . .

...0 0 · · · Ar

onde Ai é uma representação matricial da restrição Li de L no subespaço Wi.

Prova. Provaremos o teorema no caso em que V = W1 ⊕W2. Sejam B1 = {u1, . . . ,ur} base de W1 e B2 = {w1, . . . , ws} base de W2. Como W1 e W2 são invariantes frente

Notas de aula do Prof. Antonio Cândido Faleiros 125

L,

L(u1) = a11u1 + · · ·+ ar1ur

· · ·L(ur) = a1ru1 + · · ·+ arrur

L(w1) = b11w1 + · · ·+ bs1ws

· · ·L(ws) = b1sw1 + · · ·+ bssws

Desta forma, a representação matricial de L nesta base é

A =

a11 · · · a1r 0 · · · 0...

. . ....

.... . .

...ar1 · · · arr 0 · · · 00 · · · 0 b11 · · · b1s...

. . ....

.... . .

...0 · · · 0 bs1 · · · bss

=

µA 00 B

¶.

¤

Nas condições do teorema anterior, temos L = L1 ⊕ · · · ⊕Lr. A matriz A é chamadade soma direta de A1, . . . , Ar e se escreve

A = A1 ⊕ · · ·⊕Ar.

11.1 Polinômio mínimo

Para obter representações matriciais simplificadas de um operador linear é preciso obtersubespaços invariantes. Se f(t) for um polinômio e L for um operador linear, então onúcleo de f(L) é invariante sob L. Este fato nos fornece um modo sistemático de obtersubespaços invariantes.Em particular vamos provar que

Teorema 11.7 Seja L : V → V linear e g(t), h(t) polinômios mônicos primos entre si,tais que L é um zero do polinômio f(t) = g(t)h(t). Então os subespaços ker g(L) e ker g(L)são invariantes sob L e

V = ker g(L)⊕ kerh(L)Sabemos que L é um zero de seu polinômio característico. Vamos provar que todo

polinômio que tem L como zero possui os mesmos fatores irredutíveis. Dentre eles,destaca-se o de menor grau, denominado de polinômio mínimo de L.

Definição 11.8 Seja L : V → V um operador linear. O polinômio mínimo de L é aquelepolinômio mônico de menor grau para o qual m(L) = 0.

126 Notas de aula do Prof. Antonio Cândido Faleiros

Teorema 11.9 Toda matriz quadrada possui um único polinômio mínimo.

Prova. (Existência) Sabemos que a matriz L é um zero do seu polinômio característicoe assim, existe pelo menos um polinômio não nulo que possui L como zero. Considereo conjunto de todos os polinômios mônicos que se anulam em L. Existe pelo menos umpolinômio não nulo de grau mínimo neste conjunto. Este é um polinômio mínimo de L.(Unicidade) Seja m(t) o polinômio mônico de menor grau para o qual m(L) = 0. Seja

f(t) outro polinômio mônico de mesmo grau que m(t) e que possui L como zero. Entãog(t) = f(t)− m(t) não é nulo e seu grau é menor que o grau de m(t). Ao mesmo tempo,g(L) = 0, contrariando a hipótese de m(t) ser o polinômio de menor grau que possui Lcomo zero. ¤

Teorema 11.10 O polinômio mínimo de L divide todo polinômio que tem L como zero.Em particular, o polinômio mínimo de L divide o polinômio característico de L.

Prova. Seja m(t) o polinômio mínimo de L e f(t) um polinômio mônico para o qualf(L) = 0. O grau de f(t) é maior do que o grau de m(t) e, pelo algoritmo da divisão,f(t) = q(t)m(t)+r(t), onde grau(r) < grau(m). Existem duas possibilidades: r(t) = 0 our(t) 6= 0. Esta possibilidade, r(t) 6= 0, deve ser descartada pois nos leva a uma contradição,considerando-se que r(A) = 0 e o grau(r) < grau(m). Logo, r(t) = 0 e m(t) divide f(t).¤

Teorema 11.11 Seja m(t) o polinômio mínimo e ∆(t) o polinômio característico de umoperador linear L : V → V. Se a dimensão de V for n, então ∆(t) divide m(t)n.

Prova. Seja f(t) = c0 + c1t+ c2t2 + · · ·+ tr, qualquer polinômio mônico para o qual

f(L) = 0 ouc0I + c1L+ c2L

2 + · · ·+ Lr = 0,

onde se pode explicitar c0I

c0I = −c1L− c2L2 − · · ·− Lr.

Esta expressão pode ser usada para eliminar c0I em f(t)I.

f(t)I = c0I + c1tI + c2t2I + · · ·+ trI

= c1(tI − L) + c2(t2I − L2) + · · ·+ (trI − Lr)

= (tI − L)(c1 + c2(tI + L) + · · ·+ (tr−1I + tr−2L+ · · ·+ Lr−1))

= (tI − L)B(t).

Se f(t) for o polinômio mínimo m(t) de L, vale (tI − L)B(t) = m(t)I. Calculando odeterminante dos dois membros, segue

∆(t) detB(t) = m(t)n.

¤

Notas de aula do Prof. Antonio Cândido Faleiros 127

Teorema 11.12 Os polinômios mínimo e característico de um operador linear L possuemos mesmos fatores irredutíveis. Logo, possuem as mesmas raízes.

Prova. Seja m(t) o polinômio mínimo e ∆(t) o polinômio característico de L.Pelo teorema anterior, ∆(t) divide m(t)n. Assim, os fatores irredutíveis de ∆(t) devem

ser fatores irredutíveis de m(t)n que possui os mesmos fatores irredutíveis que m(t).Por outro lado, m(t) divide ∆(t). Logo, os fatores irredutíveis de m(t) também devem

ser fatores irredutíveis de ∆(t). Isto prova o teorema. ¤

Corolário 11.13 Um escalar λ é um autovalor de um operador linear L se e só se λ foruma raiz do polinômio mínimo de L.

Exemplo 11.14 Considere a matriz

A =

2 2 −53 7 −151 2 −4

.

, eigenvectors:

−21

0

,

501

↔ 1,

131

↔ 3Seu polinômio característico é

∆(t) = (t− 1)2(t− 3).Os candidatos a polinômio mínimo são ∆(t) e

f(t) = (t− 1)(t− 3).Já sabemos que ∆(A) = 0. Vamos verificar se f(A) = 0. Sendo f(t) = t2 − 4t + 3, umcálculo simples mostra que f(A) = A2 − 4A + 3I = 0. Logo, f(t) é o polinômio mínimode A.

Exemplo 11.15 O polinômio característico e mínimo da matriz 5 2 00 5 20 0 5

são ambos iguais a (t− 5)3 .Exemplo 11.16 Dada a matriz

A =

5 2 00 5 00 0 5

,

seu polinômio característico é (t− 5)3 e seu polinômio mínimo é (t− 5)2 .

128 Notas de aula do Prof. Antonio Cândido Faleiros

Exemplo 11.17 Dada a matriz

A =

5 0 00 5 00 0 5

,

seu polinômio característico é (t− λ)3 e seu polinômio mínimo é (t− λ) .

Exemplo 11.18 Os polinômios característico e mínimo de

A =

0 0 21 0 30 1 5

são ambos iguais a t3 − 5t2 − 3t− 2.Exemplo 11.19 Os polinômios característico e mínimo de

0 0 0 21 0 0 30 1 0 50 0 1 7

são ambos iguais a t4 − 7t3 − 5t2 − 3t− 2.Exemplo 11.20 Os polinômios característico e mínimo de

0 0 0 a01 0 0 a10 1 0 a20 0 1 a3

são ambos iguais a t4 − a3t

3 − a2t2 − a1t− a0.

Exemplo 11.21 A matriz A =µ5 63 −2

¶tem dois autovalores: −4 e 7. Os autovetores

correspondentes a eles sãoµ

2−3

¶eµ31

¶. Os polinômios característico e mínimo são

iguais ∆(t) = m(t) = t2 − 3t− 28. Assim1

11

µ1 −33 2

¶µ5 63 −2

¶µ2 3−3 1

¶=

µ −4 00 7

¶.

Exemplo 11.22 Os autovalores deµ5 63 2

¶são −1 e 8 e os autovetores correspondentes

a eles são, respectivamente,µ −1

1

¶eµ21

¶.

Notas de aula do Prof. Antonio Cândido Faleiros 129

Exemplo 11.23 A matriz C =

µ5 −11 3

¶possui um único autovalor real λ = 4 e um

único autovetor linearmente independenteµ11

¶. Os polinômios característico e mínimo

são iguais ∆(t) = m(t) = t2 − 8t+ 16.

Exemplo 11.24 Os autovalores deµ2 21 3

¶são 1 e 4. Os autovetores correspondentes

sãoµ

2−1

¶eµ11

¶. Os polinômios carcterístico e mínimo são iguais: t2 − 5t+ 4.

Exemplo 11.25 Os autovalores de

4 1 −12 5 −21 1 2

são 3 e 5. Correspondente a λ1 =

3 temos dois autovetores LI

−110

e

101

. Correspondente a λ2 = 5 temos um

autovetor LI

121

. Seu polinômio característico é ∆(t) = (t− 3)2 (t− 5) e mínimo é

m(t) = (t− 3) (t− 5) .

Exemplo 11.26 Os autovalores de A =

3 −1 10 6 −30 1 2

são 3 e 5. Correspondentes ao

autovalor λ1 = 3 temos dois autovetores linearmente independentes,

−110

e

101

.

Todos os autovetores correspondentes ao autovalor λ2 = 5 são múltiplos de

121

. O

polinômio característico de A é ∆(t) = (t− 3)2 (t− 5) e o polinômio mínimo é m(t) =(t− 3) (t− 5) .

Exemplo 11.27 Os autovalores de

−3 1 −1−7 5 −1−6 6 −2

são −2 e 4 e os autovetores corre-

spondentes são

110

e

011

. O polinômio característico e mínimo são ∆(t) = m(t) =

(t− 4) (t+ 2)2 .

Exemplo 11.28 Dada a matriz

2 0 00 2 00 0 2

, seu polinômio característico é (t− 2)3 e

seu polinômio mínimo é t− 2.

130 Notas de aula do Prof. Antonio Cândido Faleiros

Exemplo 11.29 Dada a matriz

2 1 00 2 00 0 2

, seu polinômio característico é (t− 2)3 e

seu polinômio mínimo é (t− 2)2 .

Exemplo 11.30 Dada a matriz

2 1 00 2 10 0 2

, seu polinômio característico é (t− 2)3 e

seu polinômio mínimo é (t− 2)3

Exemplo 11.31 Dada a matriz

2 0 0 0 00 2 0 0 00 0 2 0 00 0 0 2 00 0 0 0 2

, seus autovetores

10000

,

01000

,

00100

,

00010

,

00001

formam uma base de C5. Seu polinômio característico é (t− 2)5

e seu polinômio mínimo é t− 2.

Exemplo 11.32 Dada a matriz

2 1 0 0 00 2 0 0 00 0 2 0 00 0 0 2 00 0 0 0 2

, seus autovetores são

10000

,

00100

,

00010

,

00001

, seu polinômio característico é (t− 2)5 e seu polinômio mínimo é (t− 2)2 .

Exemplo 11.33 Dada a matriz

2 1 0 0 00 2 1 0 00 0 2 0 00 0 0 2 00 0 0 0 2

, seus autovetores são

10000

,

00010

,

00001

, seu polinômio característico é (t− 2)5 e seu polinômio mínimo é (t− 2)3 .

Notas de aula do Prof. Antonio Cândido Faleiros 131

Exemplo 11.34 Dada a matriz

2 1 0 0 00 2 1 0 00 0 2 1 00 0 0 2 00 0 0 0 2

, seus autovetores são

10000

00001

,polinômio característico: (t− 2)5, polinômio mínimo: (t− 2)4 .

Exemplo 11.35 Dada a matriz

2 1 0 0 00 2 1 0 00 0 2 1 00 0 0 2 10 0 0 0 2

, seus autovetores são

10000

, seu polinômio característico é (t− 2)5 e seu polinômio mínimo é (t− 2)5

Nota 11.36 Parece-me que dá para tirar uma regra para calcular a multiplicidade ge-ométrica de um autovalor: Calcule os polinômios característico e mínimo da matriz efatore-os. Se o polinômio característico possuir o fator (t − λ)n o polinômio caracterís-tico terá o fator (t − λ)m com m ≤ n. O número de autovetores correspondentes a λ(multiplicidade geométrica de λ) é n−m+ 1.

11.2 Matrizes em bloco

*** Incluir casos mais gerais do que apenas diagonais em bloco.Se A e B forem matrizes quadradas, então

D =

µA 00 B

¶,

onde 0 são matrizes retangulares nulas, é uma matriz diagonal em bloco. Se f(t) forum polinômio em t, então

f(D) =

µf(A) 00 f(B)

¶.

Teorema 11.37 Sejam A1 e A2 são matrizes quadradas e

A =

µA1 00 A2

¶uma matriz diagonal em bloco. Então o polinômio mínimo de A é igual ao mínimo múltiplocomum dos polinômios mínimos dos blocos diagonais A1 e A2.

132 Notas de aula do Prof. Antonio Cândido Faleiros

Prova. Sejam m(t), m1(t) e m2(t) os polinômios mínimos de A, A1 e A2, respectiva-mente. Vamos provar que m(t) = mmc{m1(t), m2(t)}. Sendo m(t) o polinômio mínimode A, então

m(A) =

µm(A1) 00 m(A2)

¶=

µ0 00 0

¶.

Conclui-se que m(A1) = m(A2) = 0. Logo, m1(t) e m2(t) dividem m(t) e daí, m(t) émultiplo comum de m1(t) e m2(t).Vamos mostrar que A é uma raiz de todo polinômio múltiplo de m1(t) e m2(t). Sendo

f(t) um múltiplo comum de m1(t) e m2(t), então

f(A) =

µf(A1) 00 f(A2)

¶=

µ0 00 0

¶= 0

pois f(A1) = 0 e f(A2) = 0. Daí A é um zero de todo múltiplo comum de m1(t) e m2(t).Sendo o polinômio mínimo o poliômio de menor grau que possui A como raiz, m(t) é omínimo múltiplo comum de g(t) e h(t). ¤

Teorema 11.38 Seja A uma matriz diagonal em bloco, cujos blocos diagonais são A1,A2, . . . , Ar. Então o polinômio mínimo de A é igual ao mínimo múltiplo comum (mmc)dos polinômios mínimos dos blocos diagonais Ai

mA(t) = mmc{ mA1(t), mA2(t), . . . , mAr(t) }.

Prova. A prova usa o teorema anterior e indução em r. ¤

Nota 11.39 Frisamos que este teorema se aplica a matrizes diagonais em blocos, en-quanto o Teorema (10.9) que é análogo a este e se refere aos polinômios característicos,aplica-se a matrizes triangulares em blocos.

11.3 Decomposição primária

Teorema 11.40 Seja L : V → V uma transformação linear e W invariante sob L. SejaLW : W → W a restrição de L em W. Sob estas hipóteses, o polinômio mínimo de LW

divide o polinômio mínimo de L.

Prova. Se m(t) for o polinômio mínimo de L, então m(L) = 0. Para todo w ∈ W,temos m(LW )(w) = m(L)(w) = 0. Sendo LW um zero de m(t), o polinômio mínimo deLW divide o polinômio mínimo de L. ¤

Lembramos que, se f(t) e g(t) forem dois polinômios quaisquer,

f(t)g(t) = mdc(f(t), g(t))mmc(f(t), g(t))

Notas de aula do Prof. Antonio Cândido Faleiros 133

Teorema 11.41 Seja L : V → V uma transformação linear, V1 e V2 invariantes sob Lde modo tal que V = V1 ⊕ V2. Sejam L1 e L2 as restrições de L a V1 e V2.

1. O polinômio mínimo de L é o mínimo múltiplo comum dos polinômios mínimos deL1 e L2.

2. O polinômio característico de L é o produto dos polinômios característicos de L1 ede L2.

Prova. 1. Sejam m(t), m1(t) e m2(t) os polinômios mínimos de L, L1 e L2, respecti-vamente. Pelo teorema anterior, m(t) é divisível por m1(t) e por m2(t).Seja f(t) outro polinômio que tem L por raiz. Então f(L1) = f(L2) = 0 e f é divisível

por m1(t) e m2(t). Provamos que todo polinômio que tem L por raiz é múltiplo comumde m1(t) e m2(t). Sendo m(t) o polinômio de menor grau que tem L como raiz,

m(t) = mmc(m1(t),m2(t)).

2. Se B1 = {u1, . . . , ur} for uma base de V1 e B2 = {w1, . . . , ws} for uma base de V2,então a união B1 ∪ B2 é uma base de V. Como V1 e V2 são invariantes sob L, para j = 1,. . . , r, tem-se

Luj =rX

i=1

aijui

e, para j = 1, . . . , s,

Lwj =rX

i=1

bijwi.

A matriz da transformação linear L nesta base é triangular em bloco

M =

µA 00 B

¶.

Consequentemente,

det(tI −M) = det(tI −A) det(tI −B) = ∆L1(t)∆L2(t).

¤

Nota 11.42 No teorema anterior, se m1(t) e m2(t) forem primos entre si, então m(t) =m1(t)m2(t).

Teorema 11.43 Seja L : V → V linear e g(t), h(t) polinômios mônicos primos entre si,tais que L é um zero do polinômio f(t) = g(t)h(t). Então:

1. Os subespaços ker g(L) e kerh(L) são invariantes sob L e

V = ker g(L)⊕ kerh(L)

134 Notas de aula do Prof. Antonio Cândido Faleiros

2. Se f(t) for o polinômio mínimo de L, então g(t) e h(t) são os polinômios mínimosdas restrições de L ao ker g(L) e ao kerh(L), respectivamente.

Prova. Inicialmente, observamos que ker g(L) e kerh(L) são invariantes sob L.

1. Como g(t) e h(t) são primos entre si, existem polinômios r(t) e s(t) tais que

r(t)g(t) + s(t)h(t) = 1,

acarretando na igualdade

I = r(L)g(L) + s(L)h(L).

Sendo v um elemento de V, podemos escrever

v = r(L)g(L)v + s(L)h(L)v.

Nesta soma, r(L)g(L)v pertence ao kerh(L) e w = s(L)h(L)v pertence ao ker g(L).De fato,

h(L)r(L)g(L)v = r(L)g(L)h(L)v = r(L)f(L)v = 0

pois f(L) = 0. De modo análogo se prova que s(L)h(L)v pertence ao ker g(L).Consequentemente,

V = ker g(L) + kerh(L).

Para completar a prova deste item, falta mostrar que esta decomposição é única.Seja v = u+ w, uma decomposição de v, com u ∈ ker g(L) e w ∈ kerh(L). Então,

u = r(L)g(L)u+ s(L)h(L)u = s(L)h(L)u

= s(L)h(L)(u+ w) = s(L)h(L)v.

De modo semelhante se prova que w = s(L)h(L)v.

Como a decomposição é única,

V = ker g(L)⊕ kerh(L).

2. Se f(t) = g(t)h(t) for o polinômio mínimo de L, então ele é divisível pelos polinômiosmínimos m1(t) e m2(t) de L1 e L2, como já se provou.

Por outro lado, g(L1) = 0 e h(L2) = 0. Portanto, m1(t) divide g(t) e m2(t) divideh(t). Como g(t) e h(t) são primos entre si, o mesmo ocorre com m1(t) e m2(t) queos divide.

Sendo m1(t) e m2(t) primos entre si e f(t) = mmc{m1(t), m2(t)}, seguef(t) = m1(t)m2(t).

Por outro lado, f(t) = g(t)h(t), de onde segue que m1(t) = g(t) e m2(t) = h(t).

Notas de aula do Prof. Antonio Cândido Faleiros 135

¤

Teorema 11.44 (Decomposição primária) Seja L : V → V linear cujo polinômio mínimoé igual a

m(t) = f1(t)n1 · · · fr(t)nr

onde os polinômios fi(t) são mônicos, distintos e irredutíveis. Então fi(t)ni são os

polinômios mínimos das restrições de L a Wi = ker (fi(L)ni) e

V =W1 ⊕ · · ·⊕Wr.

Prova. Para simplificar a prova, vamos abordar o caso particular em que m(t) =f1(t)

n1f2(t)n2 onde f1(t), f2(t) são polinômios mônicos, distintos e irredutíveis. Certa-

mente, f1(t)n1 e f2(t)n2 são primos entre si. Este teorema decorre imediatamente do

anterior.De fato, sabemos que V = W1⊕W2, onde Wi = ker fi(t)

ni e que fi(t)ni , é o polinômiomínimo da restrição de L em Wi. ¤

Teorema 11.45 Uma transformação linear L : V → V possui uma representação matri-cial diagonal se e só se seu polinômio mínimo,

m(t) = (t− λ1) · · · (t− λr)

for um produto de polinômios lineares distintos. Os elementos da diagonal principal destamatriz são os autovalores λ1, . . . , λr de L.

Prova. 1. Se L possui uma representação matricial diagonal D = diag( λ1, . . . , λn),admitamos que apenas os r primeiros λi são distintos. O polinômio característico destatransformação linear é da forma ∆(t) = (t − λ1)

n1 · · · (t − λr)nr . O polinômio mínimo

possui os mesmos fatores de ∆(t). Como (D−λ1I) · · · (D−λrI) = 0 o polinômio mínimode L é (t− λ1) · · · (t− λr).2. Sendo m(t) = (t−λ1) · · · (t−λr), então existe uma decomposição de V numa soma

direta W1 ⊕ · · · ⊕Wr, onde Wi = ker(L − λiI) é o autoespaço de V correspondente aoautovalor λi. Se Bi = {vi1, vi2, . . . , visi} for uma base de Wi, então L(vij) = λivij. Seja Ba união das bases Bi, para i = 1, . . . , r, que é uma base de V. Nesta base, a matriz querepresenta L é diagonal. ¤

11.4 Diagonalização de operadores normais

Um operador L : V → V é diagonalizável se existir uma base {v1, . . . , vn} de V tal quea matriz de L nesta base é diagonal. Isto significa que a matriz de L numa base qualquer

136 Notas de aula do Prof. Antonio Cândido Faleiros

é semelhante a uma matriz diagonal. Isto significa que, se A for a matriz de L numa basede V, então existe uma matriz inversível P e uma matriz diagonal D tais que

A = PDP−1.

Podemos nos perguntar qual a condição mais geral que um operador linear deve sat-isfazer para ser diagonalizável. Quando o operador linear L : V → V é auto-adjunto,antiadjunto ou unitário, então LL∗ = L∗L. Esta é a condição mais geral sob a qual umoperador é diagonalizável.

Definição 11.46 Um operador linear L : V → V é normal quando

LL∗ = L∗L.

A matriz quadrada A que satisfaz AA∗ = A∗A é denominada matriz normal.

Exemplo 11.47 Os operadores auto-adjuntos, antiadjuntos e unitários são normais.

Exemplo 11.48 Se L for normal, I for o operador identidade e λ um escalar, então ooperador L− λI é normal.

Se λ for autovalor de L, então λ é autovalor de L∗. Se L for um operador normal,provaremos logo em seguida que v é autovetor de L correspondente ao autovalor λ se e sóse v for autovetor de L∗ correspondente ao autovalor λ.Quando L não é normal, os autovetores de L não são, necessariamente, os autovetores

de L∗.Seja V um espaço vetorial de dimensão finita com produto interno e L : V → V um

operador linear. Se S for um subespaço de V invariante sob L então S⊥ é invariante sobL∗. Agora, quando L for normal e S for invariante sob L, provaremos que tanto S quantoS⊥ são invariantes sob L e L∗.

Teorema 11.49 Seja L um operador normal sobre um espaço vetorial de dimensão finitacom produto interno. Se v for autovetor de L correspondente ao autovalor λ, então v éautovetor de L∗ correspondente ao autovalor λ.

Prova. Se L é normal, LL∗ = L∗L e, portanto, hLv,Lwi = hL∗v, L∗wi para todov e w em V. Em particular, para todo v em V, hLv,Lvi = hL∗v, L∗vi que nos fornece aigualdade kLvk = kL∗vk . Para todo escalar λ, T = L− λI é normal pois T ∗ = L∗ − λI.Sendo T normal, kTvk = kT ∗vk para todo v em V. Desta forma, Tv = 0 se e só se T ∗v =0. Conclui-se que v é autovetor de L se e só se for autovetor de L∗.Se λ for autovalor de L, seja v o autovetor correspondente. No item anterior provou-se

que v é autovetor de L∗. Sendo µ o autovalor correspondente segue

λ hv, vi = hλv, vi = hLv, vi = hv, L∗vi = µ hv, vi .Sendo hv, vi 6= 0, segue µ = λ. ¤

Notas de aula do Prof. Antonio Cândido Faleiros 137

Teorema 11.50 Seja L uma transformação normal sobre um espaço vetorial de dimensãofinita com produto interno V. Então

1. V possui uma base ortonormal formada por autovetores de L.

2. Seja A uma matriz complexa normal de ordem n. Existe uma matriz unitária U euma matriz diagonal D para as quais

A = UDU−1.

Prova. 1. Seja n a dimensão de V. A transformação L possui pelo menos um autovetorv de módulo unitário. O subespaço vetorial W = ger(v) e W⊥ são invariantes sob L esob L∗. A dimensão de W é 1 e a de W⊥ é n− 1.Vamos provar que a restrição T de L em W⊥ é normal. Para todo v e w em W⊥

temos hv, T ∗wi = hTv,wi = hLv,wi = hv, L∗wi de onde concluímos que o adjunto de T éa restrição de L∗ a W⊥. Para todo v em W⊥, TT ∗v = LL∗v = L∗Lv = T ∗Tv, mostrandoque T é normal.O teorema agora será demonstrado por indução na dimensão n do espaço.Se n = 1, nada resta a provar: a base de V contém apenas um autovetor v1 de norma

unitária.Vamos supor, como hipótese de indução, que o teorema vale para todos os operadores

normais em espaços vetoriais de dimensão n− 1.Provemos que o teorema vale para todo operador normal L definido em um espaço

vetorial V de dimensão n. Seja v1 um autovetor de L e W = ger(v1). Seja T a restriçãode L a W⊥. O operador T é normal em W⊥ que tem dimensão n − 1. Pela hipótese deindução,W⊥ possui uma base ortonormal {v2, . . . , vn} cujos elementos são autovetores deT. Os autovetores de T são autovetores de L. Ao incluirmos v1 a este conjunto, obtemosa base ortonormal {v1, v2, . . . , vn} formada por autovetores de L. Nela, a representaçãomatricial de L é diagonal. ¤

Teorema 11.51 Seja L um operador linear sobre um espaço vetorial V de dimensãofinita. Se V possuir uma base ortonormal formada por autovetores de L, então L énormal.

Prova. Seja B = {v1, . . . , vn} uma base ortonormal de V cujos elementos são autove-tores de L, de modo que Lvi = λivi para i = 1, . . . , n. O escalar λi é o autovalor de Lcorrespondente ao autovetor vi. Se decompondo L∗vi na base B, podemos escrever

L∗vi =Xj

aijvj

onde, graças à ortonormalidade da base B, aij = hL∗vi, vji . Por outro lado,aij = hL∗vi, vji = hvi, Lvji = hvi, λjvji = λj hvi, vji = λjδij.

138 Notas de aula do Prof. Antonio Cândido Faleiros

Isto significa que aij = 0 quando i 6= j e aii = λi, de modo que L∗vi = λivi. Mostramosassim que vi é autovetor de L∗ correspondente ao autovalor λi. Portanto, L∗Lvi = λiλivi =|λi|2 vi e LL∗vi = λiλivi = |λi|2 vi. Sendo as transformações L∗L e LL∗ iguais em cadaelemento da base, são iguais no espaço todo, provando que L é normal. ¤

Seja V um espaço vetorial de dimensão finita com produto interno e L : V → V umatransformação normal. Sejam λ1, . . . , λr os autovalores de L e Si = {v ∈ V : Lv = λiv}o autoespaço do autovalor λi. Se {v1i, . . . , vsi} for uma base ortonormal de Si, então,para todo v em Si temos L(v) = λi hv1i, vi v1i+ · · ·+ λi hvsi, vi vsi = λiPi(v), onde Pi

é a projeção ortogonal de V sobre Si. Logo L coincide com λiPi em Si. Se a soma dosautoespaços Si resultar numa decomposição de V em soma direta, então

L = λ1P1 + · · ·+ λnPn.

Teorema 11.52 (Versão projetiva do teorema espectral) Seja V um espaço vetorial com-plexo com produto interno e dimensão n. Seja L : V → V um operador normal e {v1,. . . , vn} uma base ortonormal de V, formada pelos autovalores de L. Os autoespaços Si =auto(λi), i = 1, . . . , r, são ortogonais dois a dois e sua soma é igual a V. Se Pi : V → Vfor a projeção ortogonal sobre Si, então

P1 + · · ·+ Pn = I

eL = λ1P1 + · · ·+ λnPn.

Teorema 11.53 (Versão do teorema espectral para matriz real simétrica) Seja A umamatriz normal de ordem n. Sejam λ1, . . . , λr seus autovalores distintos. Então

A = λ1P1 + · · ·+ λrPr

onde Pi são as matrizes que projetam ortogonalmente sobre o autoespaço de λi. Estesautoespaços são ortogonais e sua soma direta é igual a Cn, de modo que

P1 + · · ·+ Pk = I.

Exemplo 11.54 A matriz A =

7 4 −54 −2 4−5 4 7

é simétrica. Seus autovalores são

6, 12 e −6. Os autovetores correspondentes são (1, 1, 1)T , (−1, 0, 1)T e (1, −2, 1)T .Para montar S tal que A = SDS−1, tomamos as colunas de S iguais aos autovetoresnormalizados

S =

1/√3 −1/√2 1/

√6

1/√3 0 −2/√6

1/√3 1/

√2 1/

√6

e D =

6 0 00 12 00 0 −6

.

Notas de aula do Prof. Antonio Cândido Faleiros 139

Podemos escrever A como uma combinação linear de matrizes de projeção

A = 6P1 + 12P2 − 6P3,

onde

P1 =

1/3 1/3 1/31/3 1/3 1/31/3 1/3 1/3

, P2 =

1/2 0 −1/20 0 0−1/2 0 1/2

e P3 =1

6

1 −2 1−2 4 −21 −2 1

Exemplo 11.55 A matriz A =

0 1 1−1 0 2−1 −2 0

é anti-simétrica. Seus autovalores são

0, i√5 e −i√5. Os autovetores correspondentes são (2, −1, 1), (−.4− .4899i, .2− .9798i,

1) e (−.4 + .4899i, .2 + .9798i, 1).

Exemplo 11.56 A matriz A =

1/√3 2/

√6 9

1/√3 −1/√6 −1/√2

1/√3 −1/√6 1/

√2

é ortogonal. Seus autoval-

ores são −1; 0, 9381+ 0, 3464i e 0, 9381− 0, 3464i. Os autovetores correspondentes são

(0, 5176; 1; 0, 4142),

(0, 1691 + 0, 9463i;−0, 3267 + 0, 4898i; 1),(0, 1691− 0, 9463i;−0, 3267− 0, 4898i; 1).

11.5 Decomposição de Schur

Teorema 11.57 Dada uma matriz complexa A de ordem n, existe uma matriz unitáriaU tal que

T = U∗AU

é triangular superior.

Prova. Será usada a indução sobre n. Se n = 1, A é triangular superior e nada restaa provar. Se n > 1, assuma, como hipótese de indução, que o teorema é verdadeiro paratoda matriz quadrada de ordem n−1. Seja q1 um autovetor unitário correspondente a umautovalor λ1 de A. Construa uma base de Cn onde um dos elementos é q1. Use o processode ortogonalização de Gram-Schmidt para obter uma base ortonormal {q1, . . . , qn} deCn. A matriz

U1 = [q1, . . . , qn]

é unitária e

U∗1AU1 =·λ1 b10 A1

¸

140 Notas de aula do Prof. Antonio Cândido Faleiros

onde A1 é uma matriz quadrada de ordem n− 1. De acordo com a hipótese de indução,existe uma matriz unitária V1 de ordem n− 1 tal que

T1 = V ∗1 A1V1

é triangular superior. A matriz

U2 =

·1 00 V1

¸é unitária e, sendo U = U1U2, segue

U∗AU = U∗2 (U∗1AU1)U2

=

·1 00 V ∗1

¸ ·λ1 b10 A1

¸ ·1 00 V1

¸=

·λ1 b1a10 V ∗1 A1V1

¸=

·λ1 b1a10 T1

¸= T

que é triangular superior. ¤

Como A e T são semelhantes, possuem os mesmos autovalores e com a mesma mul-tiplicidade. Sendo T triangular superior, os elementos da diagonal principal são seusautovalores e, consequentemente, autovalores de A.

Nota 11.58 Sejam λ1, . . . , λn os elementos da diagonal principal de T. Como matrizessemelhantes possuem o mesmo determinante e o mesmo traço, segue

det(A) = λ1 × · · · × λn e tr(A) = λ1 + · · ·+ λn.

Teorema 11.59 (Teorema Espectral). Se H é uma matriz hermitiana, existe uma matrizunitária U tal que U∗HU é diagonal.

Prova. Pelo teorema de Schur, existe U unitária tal que U∗HU = T é triangularsuperior. Como T ∗ = U∗H∗U = U∗HU = T, vemos que T é simética. Logo, também étriangular inferior, ou seja, é diagonal. ¤

A matriz A =·0 −11 0

¸não é hermitiana mas é ortogonalmente diagonalizável, com

U =1√2

· −1 ii −1

¸.

A matriz mais geral diagonalizável é a normal.

Teorema 11.60 Uma matriz de ordem n é diagonalizável unitariamente se e só se fornormal.

Notas de aula do Prof. Antonio Cândido Faleiros 141

Prova. Se A for uma matriz de ordem n diagonalizável unitáriamente, existe umamatriz unitária U tal que D = U∗AU é diagonal. Como D e D∗ são diagonais, segueque DD∗ = D∗D, ou (U∗AU)(U∗A∗U) = (U∗A∗U)(U∗AU) de onde segue U∗AA∗U =U∗A∗AU. Multiplicando à esquerda por U e à direita por U∗, obtemos AA∗ = A∗A,provando que A é normal.Se A for normal, então AA∗ = A∗A. Pelo teorema de Schur, existe uma matriz unitária

U tal que T = U∗AU é triangular superior. Vamos provar por indução em n que T édiagonal. Se n = 1, a matriz T é diagonal. Se n > 1, então

TT ∗ = T ∗T.

Sendo T = [tij], então igualando os elementos (1, 1) em na igualdade acima, obtemos

|t11|2 + |t12|2 + · · ·+ |t1n|2 = |t11|2

pois T é triangular superior. Segue que t12 = · · · = t1n = 0. Logo T tem a forma de blocos

T =

·t11 00 T1

¸onde T1 é normal e, por hipótese de indução, é diagonal. Cnclui-se daí que T é diagonal,completando a prova do teorema. ¤

Nota 11.61 As matrizes normais reais 2× 2 são as matrizes simétricas e aquelas com aforma ·

a −bb a

¸

11.6 Decomposição em valores singulares

Seja A uma matriz complexa m por n. A matriz A∗A é auto-adjunta e seus autovaloressão todos positivos ou nulos. Podemos posicioná-los em ordem descrescente

λ1 ≥ λ2 ≥ · · · ≥ λn ≥ 0.

Sendo A∗A auto-adjunta, existe uma base ortonormal {q1, . . . , qn} de Cn onde qi é oautovetor correspondente ao autovalor λi. A matriz

Q = [q1, . . . , qn]

cujas colunas são os autovetores de A∗A, é unitária e

A∗AQ = QD

142 Notas de aula do Prof. Antonio Cândido Faleiros

ondeD = diag(λ1, . . . , λn) é uma matriz quadrada diagonal n×n. Como λi ≥ 0, definimosσi =

√λi ≥ 0. Seja r ≤ n o número de valores σi diferentes de zero, de modo que

σ1 ≥ · · · ≥ σr > 0 e σr+1 = · · · = σn = 0.

Para i = 1, . . . , r os vetores de Cm definidos por

pi =1

σiAqi

formam um conjunto ortonormal. Uma vez que qr+1, . . . , qn estão no núcleo de A (poissão levados por A em 0), o conjunto {p1, . . . , pr} é uma base ortonormal da imagem deA e, por este motivo r é o posto de A que deve ser menor ou igual a m.Para provar que {p1, . . . , pr} é um conjunto ortonormal, basta calcular, para 1 ≤ i,

j ≤ r, o produto interno

hpi, pji =1

σiσjhAqi, Aqji = 1

σiσjhqi, A∗Aqji

=σ2jσiσj

hqi, qji = σjσihqi, qji = δij.

Pode-se completar {p1, . . . , pr} de modo a obter uma base ortonormal {p1, . . . , pr, pr+1,. . . , pm} de Cm.A matriz m×m

P = [p1, . . . , pr, pr+1, . . . , pm]

cujas colunas são os vetores pi, é unitária e, pelo modo como foi construída,

AQ = PΣ

ondeΣ = diag{σ1, . . . , σr, 0, . . . , 0}.

é umamatrizm×n onde todos os elementos são nulos, à excessão dos r primeiros elementosda diagonal principal que são σ1 ≥ · · · ≥ σr. Lembramos que r ≤ min(m,n).Como Q é unitária, obtemos a decomposição de A em valores singulares

A = PΣQ∗

Os números reais σ1, . . . , σr, 0, são denominado de valores singulares de A.Usando a expressão de A deduzida acima, prova-se que

A∗AQ = QΣ∗Σ e AA∗P = PΣΣ∗

mostrando que as colunas qi de Q são autovetores da matriz A∗A, que as colunas pi de Psão autovetores da matriz AA∗ e, tanto no primeiro quanto no segundo caso, autovetorescorrespondentes aos autovalores σ2i .Lembramos que ΣΣ∗ é uma matriz diagonalm×m e Σ∗Σ é uma matriz diagonal n×n.

Se A tiver posto máximo, então r = min{m,n} e uma das duas matrizes, ΣΣ∗ ou Σ∗Σ,possui todos os termos diagonais diferentes de zero e, portanto, é não singular.Provamos o seguinte teorema:

Notas de aula do Prof. Antonio Cândido Faleiros 143

Teorema 11.62 (Decomposição em valores singulares) Seja A uma matriz m × n cujoposto é r (r ≤ min{m,n}). Então:1. Esta matriz possui r valores singulares σ1 ≥ · · · ≥ σr não nulos (incluindo suamultiplicidade).

2. Existe um conjunto ortonormal {q1, . . . , qr} formado por autovetores de A∗A, cor-respondentes aos autovalores σ21 ≥ · · · ≥ σ2r tais que o conjunto

{p1, . . . , pr} = { 1σ1

Aq1, . . . ,1

σrAqr}

é uma base ortonormal da imagem de A.

3. Se {qr+1, . . . , qn} for uma base ortonormal do núcleo de A, então {q1, . . . , qr, qr+1,. . . , qn} é uma base ortonormal de Cn. Sendo

{ p1, . . . , pr, pr+1, . . . , pm}uma base ortonormal de Cm, então

A = PΣQ∗

onde

P = [p1, . . . , pm]

Q = [q1, . . . , qn]

Σ = diag(σ1, . . . , σr)

onde apenas os primeiros r elementos da diagonal principal são diferentes de zero eiguais a σ1, . . . , σr.

Exemplo 11.63 Obtenha a decomposição em valores singulares de A =µ1 2 02 1 0

¶.

Exemplo 11.64 Obtenha a decomposição em valores singulares de A =

1 2 0 11 0 2 12 2 2 2

.

Então A∗A =

6 6 6 66 8 4 66 4 8 66 6 6 6

cujos autovalores são 24, 4, 0 e 0.Os autovetores corre-

spondentes a eles são

1

2

1111

, 1√2

0−110

, 1√12

−3111

, 1√6

0−1−12

144 Notas de aula do Prof. Antonio Cândido Faleiros

Assim,

Q =

1/2 0 −3/√12 0

1/2 −1/√2 1/√12 −1/√6

1/2 1/√2 1/

√12 −1/√6

1/2 0 1/√12 2/

√6

, Σ =

√24 0 0 00 2 0 00 0 0 0

.

Para determinar P, calculamos p1 = (1/√24)Aq1 e p2 = (1/2)Aq2 para obter

1√6

112

,1√2

−110

.

Como o contradomínio de A tem dimensão 3, precisamos de mais um vetor para formara base. Calculamos p3 =

¡p13 p23 p33

¢Tunitário e fazendo-o ortogonal a p1 e a p2.

Obtemos então p3 = (1/√3)¡1 1 −1 ¢T . Com estes vetores montamos

P =

1/√6 −1/√2 1/

√3

1/√6 1/

√2 1/

√3

2/√6 0 −1/√3

.

Nota: Na decomposição em valores singulares deA, AQ = PΣ, de modo que kAq1k2 =kσ1p1k2 = σ1. Por outro lado, para qualquer x emRn com kxk2 = 1, temos x =

Pni=1 αiqi

ondePn

i=1 α2i = 1. Daí,

kAxk22 =°°°°°

nXi=1

αiAqi

°°°°°2

2

=

°°°°°rX

i=1

αiσipi

°°°°°2

2

=rX

i=1

σ2iα2i kpik22

sendo a segunda igualdade verdadeira pois Aqi = 0 para i > r e a última igualdade sejustifica pela ortogonalidade dos pi. Como kpik2 = 1, segue

kAxk22 =rX

i=1

σ2iα2i ≤ σ21

rXi=1

α2i ≤ σ21

nXi=1

α2i = σ21.

A primeira desigualdade se justifica pois σ1 é o maior valor singular e a segunda por termosacrescentado parcelas positivas à soma. Provamos que kAxk22 ≤ σ21 e que kAq1k2 = σ1.Logo,

kAk2 = supx∈Rn

kxk2=1kAxk2 = σ1.

Se restringirmos A ao espaço ger(q1)⊥ podemos calcular σ2, repetindo o procedimentoacima

σ2 = supx∈hq1i⊥kxk2=1

kAxk2 .

Certamente a decomposição por valores singulares não é única pois a escolha de Q ede P não é única. Entretanto, temos o seguinte teorema:

Notas de aula do Prof. Antonio Cândido Faleiros 145

Teorema 11.65 SeA = UST ∗

for outra decomposição por valores singulares de A, então S = Σ, as colunas t1, . . . , tn deT formam um conjunto ortonormal de autovetores de A∗A correspondentes aos autovaloresσ1 ≥ σ2 ≥ · · · ≥ σr ≥ 0 = · · · = 0, as colunas u1, . . . , um de U são autovetores de AA∗

correspondentes aos mesmos autovalores e, para i = 1, . . . , r,

ui =1

σiAti.

Prova. Como A∗A = TS∗U∗UST ∗ = T (S∗S)T ∗, vemos que a matriz diagonal S∗Sé semelhante à matriz A∗A e, portanto, possuem os mesmos autovalores, o que prova aigualdade S = Σ.Da decomposição acima, obtemos A∗AT = TS∗S de onde segue que as colunas de T

formam um conjunto ortonormal de autovetores de A∗A correspondentes aos autovaloresσ1 ≥ σ2 ≥ · · · ≥ σr ≥ 0 = · · · = 0.Da mesma decomposição, obtemos AA∗U = USS∗ de onde segue que as colunas de U

formam um conjunto ortonormal de autovetores de AA∗ correspondentes aos autovaloresσ1 ≥ σ2 ≥ · · · ≥ σr ≥ 0 = · · · = 0.Ainda da decomposição, segue AT = US, mostrando que ui = 1

σiAti para i = 1, . . . ,

r. ¤

146 Notas de aula do Prof. Antonio Cândido Faleiros

Capítulo 12

Forma canônica de Jordan

12.1 Operadores nilpotentes

Definição 12.1 Um operador linear L : V → V é nilpotente se Lk = 0 para alguminteiro k positivo. O menor k para o qual Lk = 0 é chamado de índice da nilpotênciade L.

Se o índice da nilpotência de L for k, significa que existe v em V tal que Lk−1v 6= 0.Observe que Lk = 0 quando Lkv = 0 para todo v em V. Se L for nilpotente com índice

k, seu polinômio mínimo será tk e assim o seu único autovalor é o zero.

Teorema 12.2 Seja L : V → V linear e v ∈ V não nulo tal que Lk−1(v) 6= 0 e Lk(v) = 0.Então:

1. O conjunto S = { v, Lv, . . . , Lk−1(v) } é linearmente independente.2. O subespaço gerado por S é invariante sob L.

3. A restrição de L ao subespaço gerado por S é nilpotente com índice k.

4. A matriz da restrição de L ao subespaço gerado por S em relação à base ordenadaS é da forma

0 0 0 0 · · ·1 0 0 0 · · ·0 1 0 0 · · ·0 0 1 0 · · ·............

.

Prova. Vamos provar um item por vez.

1. Sejam β1, . . . , βk escalares tais que β1v+ · · ·+ βkLk−1v = 0. Aplicando Lk−1 a

esta igualdade, obtemos β1Lk−1v = 0. Como Lk−1v 6= 0, segue β1 = 0. Aplicando

sucessivamente Li à igualdade inicial, com i = k−2, k−3, . . . , 1, se prova que β2 =β3 = · · · = βk = 0, o que prova a primeira parte do teorema.

147

148 Notas de aula do Prof. Antonio Cândido Faleiros

2. Seja w = α1v+ · · ·+ αkLk−1v, onde α1, . . . , αk são escalares, um vetor no subespaço

gerado por S. Assim, Lw = α1Lv+ · · ·+ αk−1Lk−1v e, portanto, Lw pertence aosubespaço gerado por S.

3. Seja T : [S] → [S] a restrição de L ao subespaço [S] gerado por S. Como T kw =0 para todo elemento de [S] e T k−1v = Lk−1v 6= 0, concluímos que T é nilpotentecom índice k.

4. Como T (v) = Lv, T (Lv) = L2v, . . . , T (Lk−2v) = Lk−1v, T (Lk−1v) = 0 e concluímosque a matriz de T na base S é exatamente aquela apresentada no enunciado.

¤

Em particular, quando L for nilpotente, seu índice de nilpotência é menor ou igual àdimensão do espaço vetorial.

Teorema 12.3 Seja L : V → V linear. Para todo inteiro i ≥ 0,

1. kerLi ⊂ ker Li+1

2. L(ker Li+1) ⊂ kerLi.

Prova. Se v pertence ao kerLi, então Liv = 0 e Li+1v = L(Liv) = L0 = 0. Logo, vpertence ao kerLi+1, o que prova a primeira parte do teorema.Seja w um elemento de L(kerLi+1) = {Lv : v ∈ kerLi+1}. Então w = Lv para algum

v no kerLi+1. Assim, Liw = Li+1v = 0, provando que w pertence ao kerLi. Provamos asegunda parte do teorema. ¤

Teorema 12.4 Seja L : V → V linear e i > 0 um inteiro. Pelo teorema anterior,

kerLi−1 ⊂ kerLi ⊂ kerLi+1.

Suponhamos que

{ u1, . . . , ur }{ u1, . . . , ur, v1, . . . , vs }{ u1, . . . , ur, v1, . . . , vs, w1, . . . , wt }

sejam bases de kerLi−1, kerLi e kerLi+1. Então o conjunto

{ u1, . . . , ur, Lw1, . . . , Lwt }

é linearmente independente e está contido no kerLi.

Notas de aula do Prof. Antonio Cândido Faleiros 149

Prova. O teorema anterior assegura que os vetores Lw1, . . . , Lwt pertencem ao kerLi.Sejam α1, . . . , αr, β1, . . . , βt escalares tais que

α1u1 + · · ·+ αr ur + β1Lw1 + · · ·+ βtLwt = 0.

Aplicando Li−1 a esta igualdade, segue

Li(β1w1 + · · ·+ βtwt) = 0,

mostrando que a combinação linear β1w1+ · · ·+βtwt pertence ao kerLi e pode ser escritocomo uma combinação linear de u1, . . . , ur, v1, . . . , vs

β1w1 + · · ·+ βtwt = c1u1 + · · ·+ crur + d1v1 + · · ·+ dsvs.

Sendo {u1, . . . , ur, v1, . . . , vs, w1, . . . , wt} uma base, concluímos que todos os escalaresna igualdade acima são nulos e, em particular, β1 = · · · = βt = 0. Sendo {u1, . . . , ur}uma base, deve-se ter também α1 = · · · = αr = 0, o que prova a independência linear doconjunto de vetores { u1, . . . , ur, Lw1, . . . , Lwt }. ¤

Este resultado é interessante pois ele nos permite inferir que s ≥ t. Sabemos que adimensão do kerLi cresce com i ou permanece inalterada. Além disso, o acréscimo nadimensão quando passamos do kerLi para o kerLi+1 nunca é maior do que o acréscimona dimensão quando passamos do kerLi−1 para o kerLi. ***

Teorema 12.5 (Forma canônica de um operador nilpotente) Seja L : V → V um oper-ador nilpotente com índice k. Existe uma base na qual a representação matricial de L tema forma bloco diagonal

N =

N1 0 0 · · ·0 N2 0 · · ·0 0 N3 · · ·...

......

. . .

.

Cada bloco diagonal Ni é uma matriz quadrada que pode ser 1× 1 e nula ou ter a forma

Ni =

0 1 0 · · · 0 00 0 1 · · · 0 0.......... . .

......

0 0 0 · · · 1 00 0 0 · · · 0 10 0 0 · · · 0 0

.

As ordens de todos os blocos são menores ou iguais a k. Pelo menos um bloco tem ordem k.O número de blocos é igual à nulidade de L. O número de blocos do tipo N é determinadode modo único por L.

Em lugar de demonstrar vamos dar exemplos.

150 Notas de aula do Prof. Antonio Cândido Faleiros

Exemplo 12.6 Seja L : V → V um operador linear nilpotente com índice k. Denotemospor Wi o núcleo de Li. Relembre inicialmente que, se

{u1, . . . , ur}{u1, . . . , ur, v1, . . . , vs}{u1, . . . , ur, v1, . . . , vs, w1, . . . , wt}

forem bases de Wi−1, Wi e Wi+1, respectivamente, então o conjunto

{ u1, . . . , ur, L(w1), . . . , L(wt) }é linearmente independente em Wi. Este fato nos fornece os fundamentos para obteruma base de V na qual a representação de um operador nilpotente se encontra na formacanônica preconizada.

1. Imaginemos que V tem dimensão n = 8 e que L : V → V é nilpotente com índicek = 4. Assim o kerL4 = V. Denotemos o kerLi por Wi. Seja {u1, u2, u3, u4, u5, u6,u7, u8} uma base de V = W4 = kerL

4, de modo que

{u1, u2, u3} é base do kerL.{u1, u2, u3, u4, u5} é base do kerL2.{u1, u2, u3, u4, u5, u6, u7} é base do kerL3.{u1, u2, u3, u4, u5, u6, u7, u8} é base de V = kerL4.

Podemos construir o seguinte quadro

W1 W2 W3 W4

u1 u2 u3 u4 u5 u6 u7 u8L3u8 L2u7 u10 L2u8 Lu7 Lu8 u9 u8w1 w5 w8 w2 w6 w3 w7 w4

A base ordenada {u1, . . . , u8} da segunda linha da tabela anterior é substituída pelabase ordenada da terceira linha, que são renomeados na quarta linha para {w1, . . . ,w8}. Os vetores u9 e u10 da terceira linha são construídos de modo que {Lu8, u9}gere o mesmo subespaço que {u6, u7} e {L3u8, L2u7, u10} gere o mesmo subespaçoque {u1, u2, u3}.Na base {w1, w2, w3, w4, w5, w6, w7, w8} a matriz de L possui a forma

0 1 0 0 0 0 0 00 0 1 0 0 0 0 00 0 0 1 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 1 0 00 0 0 0 0 0 1 00 0 0 0 0 0 0 00 0 0 0 0 0 0 0

Notas de aula do Prof. Antonio Cândido Faleiros 151

2. Consideremos ainda que V tem dimensão n = 8 e que L : V → V é nilpotente comíndice k = 4. Seja {u1, u2, u3, u4, u5, u6, u7, u8} uma base de V =W4, de modo que

{u1, u2, u3, u4} é base de W1

{u1, u2, u3, u4, u5, u6} é base de W2

{u1, u2, u3, u4, u5, u6, u7} é base de W3

{u1, u2, u3, u4, u5, u6, u7, u8} é base de W4

Podemos construir o seguinte quadro seguindo o esquema anterior.

W1 W2 W3 W4

u1 u2 u3 u4 u5 u6 u7 u8L3u8 Lu9 u10 u11 L2u8 u9 Lu8 u8w1 w5 w7 w8 w2 w6 w3 w4

Na base {w1, w2, w3, w4, w5, w6, w7, w8} a matriz de L possui a forma

0 1 0 0 0 0 0 00 0 1 0 0 0 0 00 0 0 1 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 1 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 0

12.2 Forma canônica de Jordan

Teorema 12.7 Seja L : V → V linear com polinômio característico e mínimo iguais a

∆(t) = (t− λ1)n1 · · · (t− λr)

nr

m(t) = (t− λ1)m1 · · · (t− λr)

mr .

Então L possui uma representação matricial em bloco diagonal J, denominada de formacanônica de Jordan do operador L, cujos elementos diagonais têm a forma

Jij =

λi 1 0 · · · 0 00 λi 1 · · · 0 0...

.... . . · · · ...

...

0 0 0. . . 1 0

0 0 0 · · · λi 10 0 0 · · · 0 λi

.

Para cada i fixado,

152 Notas de aula do Prof. Antonio Cândido Faleiros

1. Há pelo menos um Jij de ordem mi e todos os demais são de ordem menores ouiguais a mi.

2. A soma das ordens dos Jij é ni.

3. O número de Jij é igual à multiplicidade geométrica de λi, que é igual à nulidadede Ni = (Li − λiI).

4. O número de blocos Jij de cada ordem possível é univocamente determinado por L.

A matriz Jij é denominada bloco de Jordan pertencente ao autovalor λi.Observe que

Jij = λiI +N

onde

N =

0 1 0 · · · 0 00 0 1 · · · 0 0....... . . · · · ...

...

0 0 0. . . 1 0

0 0 0 · · · 0 10 0 0 · · · 0 0

é um bloco nilpotente.

Exemplo 12.8 Seja L : R7 → R7 linear, cujos polinômios característico e mínimo são

∆(t) = (t− 2)4(t− 3)3m(t) = (t− 2)2(t− 3)2

A forma canônica de Jordan de L é uma das seguintes

2 10 2

2 10 2

3 10 3

3

ou

2 10 2

223 10 3

3

A primeira matiz ocorre se L possui dois autovetores linearmente independentes perten-centes ao seu autovalor 2 e a segunda ocorre se L tem três autovetores linearmente inde-pendentes pertencentes ao seu autovalor 2.

Exemplo 12.9 Vamos determinar a forma canônica J da matriz A =

·0 1−1 2

¸. A

equação característica de A é (λ − 1)2 = 0 e uma base do autoespaço correspondente ao

Notas de aula do Prof. Antonio Cândido Faleiros 153

autovalor 1 é v1 =£1 1

¤T. Calculamos então (A−λI)2 =

·0 00 0

¸e vemos que o zero é

autovalor desta matriz e que qualquer vetor é autovetor correspondente ao zero. Tomemosv2 =

£0 1

¤Tque, juntamente com v1, forma uma base do espaço das matrizes 2× 1. A

matriz S =·1 01 1

¸, cujas colunas são v1 e v2, tem por inversa S−1 =

·1 0−1 1

¸e é tal

que J = S−1AS =·1 00 1

¸.

Exemplo 12.10 Vamos determinar a forma canônica J da matriz A =

3 −2 5−1 2 1−1 1 0

.A equação característica de A é (λ−1)(λ−2)2 = 0. A multiplicidade algébrica do autovalor1 é 1 e do autovalor 2 é 2. Uma base do autoespaço correspondente ao autovalor 1 é for-mada pelo vetor v1 =

£1 1 0

¤T. Uma base do autoespaço correspondente ao autovalor

2 é formada pelo vetor£1 3 1

¤T. Um conjunto gerador do autoespaço de (A− 2I)2 = −2 3 −7

−2 3 −70 0 0

correspondente ao autovalor 0 é formado pelos vetores v3 = £ 3 2 0¤T

e v4 =£ −7 0 2

¤T. Como nenhum deles é múltiplo de

£1 3 1

¤Tpodemos tomar

v3 para gerar a uma cadeia de Jordan de comprimento 2, correspondente ao autovalor 2

e calculamos v2 = (A − 2I)v3 =£ −1 −3 −1 ¤T . A matriz S =

1 −1 31 −3 20 −1 0

, cujainversa é S−1 =

−2 3 −70 0 −11 −1 2

é tal que J = S−1AS =

1 0 00 2 10 0 2

que é a formacanônica da matriz A.

Exemplo 12.11 ***

12.3 Subespaços cíclicos

Seja L : V → V linear e v ∈ V não nulo (v 6= 0). Consideremos a seqüênciav, Lv, L2v, . . .

Seja k o menor inteiro para o qual

Lkv ∈ [v, Lv, L2v, . . . , Lk−1v],

indicando com isto que o conjunto

{v, Lv, L2v, . . . , Lk−1v}

154 Notas de aula do Prof. Antonio Cândido Faleiros

é linearmente independente.O subespaço vetorial

Z(v, L) = [v, Lv, L2v, . . . , Lk−1v]

é chamado de subespaço cíclico de V gerado por L e v. Sua dimensão é k.Este subespaço é a interseção de todos os subespaços L invariantes que contêm v.Denotemos por Lv a restrição de L a Z(v, L). Se

Lkv = −a0v − a1Lv − a2L2v − · · ·− ak−1Lk−1v

entãomv(t) = a0 + a1t+ a2t

2 + · · ·+ ak−1tk−1 + tk

é o polinômio mínimo de Lv e a representação de Lv na base

{v, Lv, L2v, . . . , Lk−1v}é

C =

0 0 0 · · · 0 0 −a01 0 0 · · · 0 0 −a10 1 0 · · · 0 0 −a2.......... . .

......

...0 0 0 · · · 0 0 −ak−30 0 0 · · · 1 0 −ak−20 0 0 · · · 0 1 −ak−1

denominada de matriz companheira do polinômio mv(t). O polinômio mv(t) é denom-inado de L anulador de v e Z(v, L).

12.4 Forma canônica racional

Lema 12.12 11.13. Seja L : V → V linear, cujo polinômio mínimo é f(t)n, onde f(t) éirredutível. Então existem v1, v2, . . . , vr tais que

V = Z(v1, L)⊕ · · ·⊕ Z(vr, L).

O polinômio mínimo da restrição de L a Z(vi, L) é f(t)ni , onde ni é um número inteiromenor ou iguais a n. Pode-se ordenar os expoentes ni de modo que

n = n1 ≥ n2 ≥ · · · ≥ nr.

Qualquer outra decomposição de V em subespaços L cíclicos tem o mesmo conjunto depolinômios mínimos, que é determinado de modo único por L. Assim L tem uma repre-sentação matricial

C =

C(1) 0 · · · 00 C(2) · · · 0...

.... . .

...0 0 · · · C(r)

Notas de aula do Prof. Antonio Cândido Faleiros 155

onde C(i) é a matriz companheira do polinômio f(t)ni .

Teorema 12.13 (Forma canônica racional) Seja L : V → V linear com polinômio mín-imo

m(t) = f1(t)m1 . . . fs(t)

ms

onde fi(t) são polinômios mônicos irredutíveis distintos. Então L possui uma única rep-resentação matricial em bloco

C1 0 · · · 00 C2 · · · 0...

.... . .

...0 0 · · · Cs

onde cada Ci é uma matriz com o formato

Ci =

C(1)i 0 · · · 0

0 C(2)i · · · 0

......

. . ....

0 0 · · · C(r)i

em que C(j)

i são matrizes companheiras de fi(t)nij onde se pode ordenar os nij de modoque

m1 = n11 ≥ n12 ≥ · · · ≥ n1r1· · ·

ms = ns1 ≥ ns2 ≥ · · · ≥ nsrs

Esta é a chamada forma canônica racional de L. Os polinômios fi(t)nij são chamadosde divisores elementares de L.

12.5 Forma triangular

Se um operador linear L possuir uma representação matricial triangular

A =

a11 a12 · · · a1n0 a22 · · · a2n...

.... . .

...0 0 · · · ann

seu polinômio característico pode ser fatorado em polinômios do primeiro grau

∆(t) = det(tI −A) = (t− a11)(t− a22) · · · (t− ann).

A recíproca também é verdadeira.

156 Notas de aula do Prof. Antonio Cândido Faleiros

Teorema 12.14 Seja n a dimensão de V e L : V → V um operador linear cujo polinômiocaracterístico ∆(t) pode ser fatorado num produto de fatores lineares

∆(t) = (t− λ1)n1 · · · (t− λr)

nr

onde os números λi, i = 1, . . . , r são distintos e n1+ · · ·+ nr = n. Então L possui umarepresentação matricial em forma triangular.

Prova. *** Como ∆(t) pode ser fatorado em polinômios do primeiro grau, L possuiao menos um autovalor. Denotemo-lo λ1 e por v1 o autovetor correspondente, de modoque Lv1 = λ1v1. Então V = V1 ⊕ (V1)⊥ onde V1 = ger(v1). O espaço V1 é invariantes sobL. Seja L1 a restrição de L a V1. {v12, . . . , v1n} uma base ortonormal de (V1)⊥ . A matrizde L nesta base é da forma *** ¤

12.6 Espaços quocientes

Esta é uma maneira inteligente de definir “projeções” em espaços vetoriais que não pos-suem produto interno.Seja W um subespaço vetorial de V. Dado v ∈ V, definimos o conjunto

v +W = {v + w : w ∈W},denominado de classe lateral de W em V. Observe que 0 +W = W.Podemos definir duas operações no conjunto das classes laterais de modo a torná-lo

um espaço vetorial.Seja W um subespaço vetorial de V. Sejam u e v dois vetores em V e k um escalar

pertencente ao corpo sobre o qual se define o espaço vetorial V. Definimos no conjuntodas classes laterais deW as operações de adição de duas classes emultiplicação de umaclasse por um escalar por

(u+W ) + (v +W ) = (u+ v) +W,

k(u+W ) = ku+W.

O conjunto das classes laterais, com estas duas operações, é um espaço vetorial sobreo mesmo corpo sobre o qual se define V. Este espaço vetorial é denominado espaçoquociente de V por W e é denotado por V/W. Se a dimensão de V for finita entãodim(V/W ) = dim(V )− dim(W ).Teorema 12.15 Seja L : V → V linear e W um subespaço L invariante de V. Então Linduz um operador linear L em V/W definido por

L(v +W ) = L(v) +W.

Se L for um zero de um polinômio, então L também o é. Assim, o polinômio mínimo deL divide o polinômio mínimo de L.

Notas de aula do Prof. Antonio Cândido Faleiros 157

Exemplo 12.16 Vamos apresentar um exemplo que mostra como se pode obter uma rep-resentação matricial triangular de uma transformação linear. Seja L : R3 → R3 definidapor L(x, y, z) = (4x+ y− z, 2x+5y− 2z, x+ y+2z). A matriz de L na base canônica doR3 é

A =

4 1 −12 5 −21 1 2

Os vetores v1 = (−1, 1, 0), v2 = (0, 1, 0), v3 = (0, 0, 1) formam uma base do R3.

Destacamos que v1 é autovetor de L correspondente ao autovetor 3. Como

L(v1) = 3v1

L(v2) = −v1 + 6v2 + v3

L(v3) = v1 − 3v2 + 2v3a matriz de L na base {v1, v2, v3} é

B =

3 −1 10 6 −30 1 2

.

O espaço vetorial W gerado por v1 é invariante sob L. Observe que a matriz de L nabase {v1, v2, v3} já possui a primeira coluna na forma desejada para se chegar à formatriangular.Consideremos V = {v+W : v ∈ V } que é o espaço quociente V/W e a transformação

linear induzida L : V → V definida por L(v) = L(v) +W. Para esta transformação,

L(v1) = 3v1 +W =W = 0

L(v2) = −v1 + 6v2 + v3 +W = 6v2 + v3

L(v3) = v1 − 3v2 + 2v3 +W = −3v2 + 2v3de modo que a matriz de L em relação à base {v2, v3} de V é

C =

µ6 −31 2

¶.

Vamos omitir a barra e olhar para L no espaço gerado por v2 e v3. Sabemos que

L(v2) = 6v2 + v3

L(v3) = −3v2 + 2v3cuja matriz na base {v1, v2} é C. Os autovalores de C são 5 e 3 e o autovetor relativo aoautovalor 5 é 3v2 + v3. Vamos então passar da base {v1, v2, v3} para a base {w1, w2, w3}onde

w1 = v1, w2 = 3v2 + v3, w3 = v3.

158 Notas de aula do Prof. Antonio Cândido Faleiros

O w3 foi escolhido de modo arbitrário, exigimos apenas que {w1, w2, w3} seja uma basede V. Podemos inverter as relações acima para obter

v1 = w1, v2 = (w2 − w3)/3, v3 = w3.

Daí segue

L(w1) = 3w1

L(w2) = −2w1 + 5w2L(w3) = w1 − w2 + 3w3

e, nesta base, a matriz de L é

D =

3 −2 10 5 −10 0 3

que está na forma triangular. Esta transformação linear pode ser representada por umamatriz diagonal pois ela possui três autovetores linearmente independente.

Capítulo 13

Aplicações

Aproximação por polinômiosCadeias de MarkovCircuitos elétricosDiferenças finitasElementos finitosEquação de SchröedingerSistemas de equações diferenciaisExponencial de matrizFormas quadráticasCônicas e quádricasMínimos quadradosModelo econômico de LeontiefMétodo húngaro para alocação de tarefasCifras de HillProgramação linearSéries de FourierSistemas de equações diferenciaisTensão nos meios contínuosTeoria dos grafosTeoria dos jogos

159

160 Notas de aula do Prof. Antonio Cândido Faleiros

Apêndice A

Matrizes

Umamatriz é um arranjo retangular de números, denominados de elementos da matriz,dispostos em linhas e colunas. Quando uma matriz possuir m linhas e n colunas diremosque é uma matriz m×n ou matriz m por n ou matriz de ordem m por n. Matrizes reaissão aquelas cujos elementos são números reais e matrizes complexas são aquelas cujoselementos são números complexos. Em nosso curso trabalharemos com matrizes reais oucomplexas.Uma matriz com uma única coluna é chamada de vetor coluna e uma matriz com

uma única linha é chamada de vetor linha. Se o número de linhas for igual ao número decolunas se diz que a matriz é quadrada. Uma matriz quadrada com n linhas e n colunasé uma matriz n por n ou de ordem n. Neste caso, em lugar de dizermos que a ordem damatriz é m por m, diremos apenas que a matriz é de ordem m.A menos que se especifique o contrário, Rn é o conjunto das matrizes coluna reais,

que possuem n linhas e uma coluna. Denotaremos por Cn ao conjunto de matrizes colunacomplexas, com n linhas e uma coluna. Designaremos o conjunto das matrizes reaism porn pelo símbolo Rm×n e das matrizes complexas de ordem m por n pelo símbolo Cm×n.Também é usual escrever Am×n para indicar que A possui m linhas e n colunas. Umnúmero real ou complexo será denominado genericamente de escalar.Usaremos a notação abreviada A = (aij) para denotar uma matriz

A =

a11 · · · a1n...

. . ....

am1 · · · amn

onde aij é o elemento da linha i e coluna j. No conjunto das matrizes m por n, se definea adição de duas matrizes e a multiplicação de uma matriz por um escalar através dasfórmulas

(aij) + (bij) = (aij + bij)

k (aij) = (kaij)

onde k é um escalar, (aij) e (bij) são matrizes de ordemm por n. Quando for conveniente,escreveremos (aij)k em lugar de k(aij).

161

162 Notas de aula do Prof. Antonio Cândido Faleiros

A matriz em que todos os elementos são nulos é chamada de matriz nula e serádenotada por 0.Se A = (aij), então −A = (−aij) é chamada de matriz oposta de A. Definimos a

diferença entre as matrizes A e B de mesma ordem por A−B = A+ (−B).

Propriedades

Nas propriedades enumeradas abaixo, A, B e C são matrizes de mesma ordem, incluindoa matriz nula e k1, k2 são escalares. O 1 indica a unidade escalar.

1. Associatividade: A+ (B + C) = (A+B) + C.

2. Comutatividade: A+B = B+ A.

3. Elemento neutro: A+ 0 = 0 +A = A.

4. Elemento oposto: A+ (−A) = (−A) +A = 0.

5. Associatividade: (k1k2)A = k1(k2A).

6. Distributividade: (k1 + k2)A = k1A+ k2A.

7. Distributividade: k1(A+B) = k1A+ k1B.

8. Unidade: 1A = A

Estas propriedades indicam que o conjunto das matrizes m × n com as operações deadição e multiplicação por um escalar é um espaço vetorial sobre o corpo dos escalaresque, em nosso caso, será o corpo dos números reais ou dos números complexos.

A.1 Matrizes especiais

Seja A = (aij) uma matriz m por n e p = min{m,n}. Os elementos a11, a22, . . . , appformam a diagonal principal da matriz A. Uma matriz é diagonal se todos os elementosfora da diagonal principal forem nulos.A matriz identidade I de ordem m é a matriz diagonal cujos elementos da diagonal

principal são todos iguais a 1. O delta de Kronecker, definido para todo i e j inteiros por

δij = 1 se i = j

δij = 0 se i 6= j

pode ser usado para representar os elementos da matriz identidade. Em termos destesímbolo, I = (δij) .Se os elementos abaixo da diagonal principal da matriz A forem nulos, a matriz é

triangular superior. Se os elementos à direita da diagonal principal de A forem nulos,a matriz é triangular inferior.

Notas de aula do Prof. Antonio Cândido Faleiros 163

Uma matriz A é simétrica se AT = A, é anti-simétrica se AT = −A e ortogonalse AT = A−1.Seja A = (aij) uma matriz complexa de ordem m por n. Vamos indicar por aij ao

complexo conjugado de aij. A matriz A∗ = (bij) de ordem n por m, onde

bij = aji

é a adjunta de A. Se A for real, então A∗ = AT . Uma matriz complexa A é hermitianase A∗ = A, anti-hermitiana se A∗ = −A e unitária se A∗ = A−1. As matrizes reaissimétricas são hermitianas, as matrizes reais anti-simétricas são anti-hermitianas e asmatrizes reais ortogonais são unitárias.

Definição A.1 Uma matriz m por n possui a forma escalonada se:

1. As linhas nulas, se existirem, se encontram na parte inferior da matriz.

2. Ao percorrer as linhas de cima para baixo, o primeiro elemento não nulo de cadalinha vai se deslocando para a direita.

O primeiro elemento não nulo em cada linha, quando percorrida da esquerda para adireira, é chamado de pivô da linha.

Definição A.2 Uma matriz m por n possui a forma escalonada reduzida se:

1. As linhas nulas, se existirem, se encontram na parte inferior da matriz.

2. O primeiro elemento não nulo em cada linha, quando percorrida da esquerda paraa direira, é igual a 1. Este é o pivô da linha.

3. São nulos todos os demais elementos da coluna que contém o pivô.

4. Ao percorrer as linhas de cima para baixo, o primeiro elemento não nulo de cadalinha vai se deslocando para a direita.

A.2 Multiplicação de matrizes

A multiplicação é a operação que leva duas matrizes A = (aij)m×n e B = (bjk)n×p namatriz

AB =

ÃnX

k=1

aikbkj

!de ordemque é uma matriz m por p. Para efetuar o produto AB, o número de colunas deA deve ser igual ao número de linhas de B. Quando este for o caso, se diz que A e B sãoconformes para o produto.A multiplicação de matrizes é uma operação associativa e distributiva mas não é

comutativa. Assim,

164 Notas de aula do Prof. Antonio Cândido Faleiros

1. A1(B1C1) = (A1B1)C1

2. A2(B2 + C2) = A2B2 +A2C2

3. (A3 +B3)C3 = A3C3 +B3C3

desde que as matrizes Ai, Bi e Ci sejam conformes para a adição e a multiplicação.Se se o número de linhas for diferente do número de colunas em A e B, então o produto

AB pode estar definido e o produto BA não.

A.3 Inversa

Uma matriz quadrada A de ordem m é inversível se existir uma matriz quadrada B deordem m tal que AB = BA = I, onde I é a matriz identidade de ordem m. A matrizB é a inversa de A, sendo denotada por A−1. Sendo A = (aij) e B = (bij) , então asigualdades matriciais AB = BA = I resultam nas seguintes igualdades entre os elementosde A, B e I

nXk=1

aikbkj = δij enX

k=1

bikakj = δij.

Se a matriz não for inversível, diremos que é singular.A inversa de uma matriz é única pois, se B e C forem inversas de A, então

B = BI = B(AC) = (BA)C = IC = C.

Se A for inversível, então A−1 é inversível e (A−1)−1 = A. Se k for um escalar não nuloe A for inversível, então kA é inversível e (kA)−1 = k−1A−1.

Teorema A.3 Sejam A e B matrizes quadradas tais que AB = I. Isto é suficiente paragarantir que BA = I.

Prova. A prova deste fato se baseia em um teorema da Álgebra Linear que estabelece oseguinte: Se as matrizes envolvidas forem de ordem n, o posto de I é n e, consequentementeo posto de A é n, estabelecendo uma bijeção em Cn. Então B é necessariamente a bijeçãoinversa e BA = I. ¤

Se A e B forem inversíveis então AB é inversível e (AB)−1 = A−1B−1. Este resultadopode ser generalizado. Se A1, . . . , An forem inversíveis, então o produto A1 · · ·An éinversível e

(A1 · · ·An)−1 = A−1n · · ·A−11 .

Se A for uma matriz inversível, então as equações AX = B e Y A = C possuem soluçãoúnica dadas por X = A−1B e Y = CA−1.

Notas de aula do Prof. Antonio Cândido Faleiros 165

Se A for uma matriz quadrada, define-se as potências inteiras de A por

A0 = I,

Ak = Ak−1A,

A−k =¡A−1

¢k=¡Ak¢−1

.

para todo k ≥ 1 inteiro.O posto de uma matriz é o número de suas colunas que são linearmente independentes.

A nulidade de uma matriz é a dimensão do seu núcleo.

Teorema A.4 Seja A uma matriz m× n. O posto de A mais a nulidade de A é igual an.

Teorema A.5 O posto de uma matriz não se modifica se ela for multiplicada por umamatriz inversível.

Teorema A.6 Seja A uma matriz m× n de posto k. Existe uma matriz P de ordem n,e uma matriz Q de ordem m, ambas inversíveis e tais que D = Q−1AP é uma matrizdiagonal onde os k primeiros elementos da diagonal são iguais a 1 e os demais são todosnulos.

Teorema A.7 Seja A uma matriz m× n de posto k. Existe uma matriz inversível Q deordem m, tal que A0 = Q−1A é uma matriz escalonada reduzida.

A transposta da matriz A = (aij) de ordemm por n é a matriz AT = (bij) , de ordemn por m, onde bij = aji. Vale a propriedade

(AB)T = BTAT .

Teorema A.8 O número de linhas linearmente independentes de uma matriz é igual aonúmero de colunas linearmente independentes.

Prova. Seja A0 = Q−1A a matriz escalonada reduzida do teorema anterior. O númerode linhas não nulas é o número de linhas linearmente independentes em A0. Em A0, ascolunas linearmente independentes são aquelas que contém os pivôs. Logo, o númerode linhas linearmente independentes de A0 é igual ao número de colunas linearmenteindependentes. Como Q e QT são inversíveis, o posto de A = QA0 e o de AT = (A0)TQT

são idênticos, mostrando que o número de linhas e o número de colunas linearmenteindependentes de A são iguais. ¤

166 Notas de aula do Prof. Antonio Cândido Faleiros

A.4 Operações elementares e matrizes elementares

Operações elementares sobre linhas

1. Permutar duas linhas.

2. Multiplicar uma linha de A por um escalar não nulo.

3. Adicionar a uma linha um múltiplo de outra linha.

Operações elementares sobre colunas são definidas de modo análogo.As operações elementares podem ser executadas mediante o produto de matrizes el-

ementares. A matriz que troca a linha i pela linha j é aquela obtida a partir da matrizidentidade, trocando a linha i com a linha j. A matriz que multiplica a linha i de A porum escalar k 6= 0 é obtida a partir da identidade, trocando o elemento diagonal da linhai por k. A matriz que adiciona um múltiplo k da linha i à linha j é obtida a partir damatriz identidade, trocando o zero da linha i coluna j por k.Se E for uma matriz elementar, EA realiza operações elementares sobre as linhas de

A e AE realiza operações elementares sobre as colunas de A, como mostram os exemplosque seguem.Se

E =

0 1 01 0 00 0 1

,

então a matriz EA é obtida de A trocando a primeira linha com a segunda; AE é umamatriz obtida de A trocando a primeira coluna com segunda.Se

E =

β 0 00 1 00 0 1

,

então a matriz EA é obtida de A multiplicando a primeira linha por β; a matriz AE éobtida de A multiplicando a primeira coluna por β.Se

E =

1 β 00 1 00 0 1

,

então EA é uma matriz obtida de A adicionando β vezes a segunda linha à primeira; AEé uma matriz obtida de A adicionando β vezes a primeira coluna à segunda.As matrizes elementares são inversíveis. Se uma matriz A for inversível e E é uma

matriz elementar, então AE e EA são inversíveis.Se uma coluna ou uma linha de uma matriz for identicamente nula, ela é singular. Se

uma coluna de uma matriz for uma combinação linear das outras, a matriz é singular.

Teorema A.9 Uma matriz quadrada A é inversível se e só se puder ser escrita como umproduto matrizes elementares.

Notas de aula do Prof. Antonio Cândido Faleiros 167

Prova. Se A for o produto de matrizes elementares, ela é inversível pois as matrizeselementares são inversíveis. Vamos provar a recíproca.Como A = (aij) é inversível, nenhuma de suas colunas é identicamente nula. Pelo

menos um elemento da primeira coluna é diferente de zero. Se a11 for igual a zero,podemos permutar a primeira linha de A com outra cujo elemento da primeira colunaé diferente de zero. Denotemos ainda por a11 o elemento da primeira linha e primeiracoluna da matriz transformada. Podemos dividir a primeira linha por a11 de modo queo elemento da primeira linha primeira coluna fique igual a 1. Agora, podemos adicionaràs demais linhas de A múltiplos da primeira de modo que todos os elementos da primeiracoluna, exceto o primeiro, fiquem iguais a zero. Esta matriz obtida de A através deoperações elementares é inversível e será denotada por A1.Se todos os elementos da segunda coluna de A1 da diagonal principal para baixo forem

nulos, a segunda coluna de A1 seria um múltiplo da primeira e esta matriz seria singular.Como ela não é singular, pelo menos um elemento da segunda coluna da diagonal principalpara baixo é diferente de zero. Se necessário, trocamos a segunda linha com outra abaixodela que possui elemento não nulo na segunda coluna. O elemento da segunda linhasegunda coluna desta matriz assim transformada é não nulo e podemos dividir agora asegunda linha por ele. O elemento (2, 2) fica igual a 1. Podemos agora adicionar às outraslinhas múltiplos da segunda de modo a anular todos os demais elementos da segundacoluna. Observe que a primeira coluna não é modificada neste processo pois o elementoda primeira coluna da segunda linha é zero. Denominemos esta nova matriz de A2. Elafoi obtida de A1 a partir de operações elementares e, portanto, é inversível.Continuando com este processo, chegamos à matriz identidade, aplicando transfor-

mações elementares sobre as linhas de A. Sejam E1, E2, . . . , Ek as matrizes elementaresque realizam estas operações. Então Ek · · ·E1A = I e A = (Ek · · ·E1)−1I = E−11 · · ·E−1k .Como a inversa de uma matriz elementar é elementar, A é um produto de matrizes ele-mentares. ¤

168 Notas de aula do Prof. Antonio Cândido Faleiros

Apêndice B

Determinante

B.1 Permutação

Uma função bijetora σ : {1, 2, . . . , n} → {1, 2, . . . , n} é chamada de permutaçãodo conjunto {1, 2, . . . , n}. Basta apresentar a ênupla ordenada (σ(1), . . . , σ(n)) paraestabelecer σ sem ambiguidade. A identidade (1, 2, . . . , n) é uma permutação. Sendobijetora, a permutação é inversível e, se σ(i) = j, sua inversa σ−1 leva j em i.

Sejam j e k dois inteiros distintos no conjunto {1, 2, . . . , n}. Uma permutação queleva j em k e k em j, mantendo fixos os outros inteiros, é chamada de transposição.Se τ for uma transposição, basta informar que τ(j) = k para inferir que τ(k) = j e queτ(i) = i para todo i diferente de j e k.Toda permutação é a composição de um número finito de transposições. De fato,

sejam τ i, i = 1, . . . , n permutações que tanto pode ser uma transposição quanto umaidentidade, definidas por

τ 1(1) = σ(1),

τ 2τ 1(2) = σ(2),

. . . ,

τn(τn−1 · · · τ 2τ 1(n)) = σ(n).

Estas equações definem τ 1, τ 2, . . . , τn sem ambiguidade. Observe que, se σ(1) = 1, entãoτ 1 é a identidade. Se σ(2) = τ 1(2), τ 2 é a identidade. Em geral, para k ≥ 2, sendoσ(k) = τk−1 · · · τ 2τ 1(k), então τk é a permutação identidade. Em particular, τn é semprea identidade e foi colocada na composição apenas para ficarmos com um número exato den permutações, entre transposições e identidades. A permutação σ é igual à composiçãoτn · · · τ 2 τ 1.Retirando as identidades desta composição, vemos que σ é uma composição de permu-

tações que, entretanto, não é única. Todavia, duas decomposição de σ em permutaçõesterá ou um número par de fatores ou um número ímpar de fatores. Provaremos estaafirmação logo adiante.

169

170 Notas de aula do Prof. Antonio Cândido Faleiros

Seja σ uma permutação de {1, 2, . . . , n}. Se i < j e σ(i) > σ(j) diremos que o par(i, j) é uma inversão de σ. Definimos o sinal de σ do seguinte modo: Se o número deinversões de σ for par, seu sinal será +1. Se o número de inversões de σ for ímpar, seusinal será −1. O sinal de σ será denotado por sign(σ).A permutação identidade não apresenta nenhuma inversão. Portanto, seu sinal é +1.

Teorema B.1 Sejam σ1 e σ2 duas permutações de {1, 2, . . . , n}. Entãosign(σ2σ1) = sign(σ2)sign(σ1).

Prova. Observe a tabela que vem em seguida, onde i < j.Inversõesσ1 σ2 σ2σ1

σ1(i) < σ1(j) σ2σ1(i) < σ2σ1(j) 0 0 0σ1(i) < σ1(j) σ2σ1(i) > σ2σ1(j) 0 1 1σ1(i) > σ1(j) σ2σ1(i) < σ2σ1(j) 1 1 0σ1(i) > σ1(j) σ2σ1(i) > σ2σ1(j) 1 0 1Ela mostra que quando há uma inversão em σ2σ1 ou há uma inversão em σ1 ou há

uma em σ2 mas não em ambas ao mesmo tempo. Quando não há inversão em σ2σ1 entãonão há inversão nem em σ1 nem em σ2 ou ambas apresentam uma inversão. Isto significaque o número de inversões de σ2σ1 e a soma do número de inversões em σ1 e σ2 têm amesma paridade. Isto implica na igualdade dos sinais

sign(σ2σ1) = sign(σ2)sign(σ1).

¤

Se uma permutação σ mantém um número k fixo, isto é, se σ(k) = k, as inversõesenvolvendo este número não precisam ser contadas no cálculo do sinal. O número deinversões (i, k), com i < k é igual ao número de inversões (k, j) com k < j. Logo, onúmero mantido fixo pela permutação sempre leva a um número par de inversões. Estaobservação é útil na prova do próximo teorema.

Teorema B.2 O sinal de uma transposição é −1.Prova. Se a transposição levar i em j e j em i, de acordo com a observação feita

acima, podemos ignorar as inversões relativas aos números mantidos fixos. Sobram apenasi e j, para os quais há uma inversão. Logo, o sinal da transposição é −1. ¤

Teorema B.3 Toda permutação é uma composição de transposições. Esta composiçãonão é única. Entretanto, o número de transposições ou é sempre par ou é sempre ímpar.

Prova. O sinal de toda transposição é −1. Quando sign(σ) = +1, qualquer decom-posição de σ em transposições tem um número par de fatores. Quando sign(σ) = −1, onúmero de transposições que a compõem é ímpar. ¤

Notas de aula do Prof. Antonio Cândido Faleiros 171

Teorema B.4 O sinal de uma permutação é igual ao sinal de sua inversa.

Prova. Como σ−1σ é a identidade cujo sinal é+1, segue sign(σ−1)sign(σ) = sign(σ−1σ) =1. Logo, sign(σ−1) e sign(σ) são ambos iguais a +1 ou ambos iguais a −1. ¤

B.2 Determinante

Seja A = (aij) uma matriz quadrada de ordem n. O determinante de A é definido por

det(A) =Xσ

sign(σ)a1σ(1)a2σ(2) · · · anσ(n)

onde σ pecorre o conjunto de todas as permutações de {1, 2, . . . , n}.Cada permutação σ de {1, 2, . . . , n} possui inversa τ . Se σ(i) = j, então τ(j) = i

e aiσ(i) = aτ(j)j. Consequentemente, o produto a1σ(1) a2σ(2) · · · anσ(n) é uma reordenaçãoaτ(1)1 aτ(2)2 · · · aτ(n)n e, portanto, são iguais. Como sign(σ) = sign(τ), segue

det(A) =Xτ

sign(τ)aτ(1)1aτ(2)2 · · · aτ(n)n

onde τ percorre o conjunto de todas as permutações de {1, 2, . . . , n}.

Teorema B.5 O determinante de uma matriz é igual ao determinante de sua transposta.

Prova. Se B = (bij) for a transposta de A = (aij), então bij = aji. Assim,

det(A) =Xσ

sign(σ)aσ(1)1aσ(2)2 · · · aσ(n)n

=Xσ

sign(σ)b1σ(1)b2σ(2) · · · bnσ(n) = det(B).

¤

Teorema B.6 Se uma linha ou uma coluna de uma matriz quadrada for nula, seu deter-minante é zero.

Prova. Quando a linha i for nula, aiσ(i) = 0 para toda permutação σ e assim, det(A) =0. Uma coluna nula na matriz é uma linha nula na transposta. Assim, det(AT ) = 0 e,portanto, det(A) = 0. ¤

Teorema B.7 Se permutarmos duas linhas de uma matriz, o determinante muda desinal. Se permutarmos duas colunas de uma matriz, o determinante muda de sinal.

172 Notas de aula do Prof. Antonio Cândido Faleiros

Prova. Seja B = (bij) a matriz obtida de A = (aij) permutando-se as linhas r e s, demodo que brj = asj e bsj = arj. Assim,

det(B) =Xσ

sign(σ) · · · brσ(r) · · · bsσ(s) · · ·

=Xσ

sign(σ) · · · asσ(r) · · · arσ(s) · · ·

=Xσ

sign(σ) · · · arσ(s) · · · asσ(r) · · ·

= −Xστ

sign(στ) · · · ar,στ(r) · · · as,στ(s) · · ·

onde τ é a transposição que leva r em s e s em r. Como σ percorre todas as permutaçõespossíveis, στ também as percorre e assim,

det(B) = −Xσ

sign(σ) · · · arσ(r) · · · asσ(s) · · · = −det(A).

¤

Teorema B.8 Se duas linhas ou duas colunas de uma matriz quadrada forem iguais, seudeterminante é zero.

Prova. Se duas linhas da matriz A são iguais, ao trocar uma linha pela outra, a matrizA permanece inalterada e seu determinante troca de sinal. Logo, det(A) = −det(A), oque resulta em det(A) = 0. ¤

Teorema B.9 Seja A = [v1, . . . , vj+ wj, . . . , vn], B = [v1, . . . , vj, . . . , vn], e C = [v1,. . . , wj, . . . , vn], matrizes quadradas de ordem n, onde v1, . . . , vn e wj são as colunas deB e C. A coluna j de A é vj + wj . Então

det(A) = det(B) + det(C).

Prova. Imediata, a partir da definição. ¤

Vale um teorema análogo se os elementos de uma linha de A forem decompostos emduas parcelas.

Teorema B.10 Sejam v1, . . . , vn vetores coluna em Cn. Então para todo escalar β,

det[v1, . . . , βvi, . . . , vn] = β det[v1, . . . , vi, . . . , vn]

O mesmo resultado se aplica ao multiplicarmos uma linha de A por um escalar β.

Notas de aula do Prof. Antonio Cândido Faleiros 173

Prova. Imediata a partir da definição. ¤

Corolário B.11 Se A é uma matriz quadrada de ordem n e β um escalar,

det(βA) = βn det(A).

Teorema B.12 Se uma linha de uma matriz quadrada A for um múltiplo de outra linhade A, então det(A) = 0.

Prova. Se β 6= 0, det[ . . . , vi, . . . , βvi, . . . ] = β det[ . . . , vi, . . . , vi, . . . ] = 0.Quando β = 0, uma linha da matriz é nula e det(A) = 0. ¤

Teorema B.13 O determinante de uma matriz não se altera se adicionarmos a uma desuas colunas um múltiplo de outra. O mesmo resultado se aplica se adicionarmos a umade suas linhas um múltiplo de outra.

Prova. Se β 6= 0, det[ . . . , vi, . . . , vj+ βvi, . . . ] = det[ . . . , vi, . . . , vj, . . . ]+ β det[. . . , vi, . . . , vi, . . . ] = det[ . . . , vi, . . . , vj, . . . ]. ¤

Teorema B.14 Se A = (aij) for uma matriz quadrada triangular superior ou triangularinferior, então

det(A) = a11a22 · · · ann.

Prova. Se A for uma matriz quadrada de ordem n, triangular superior, então aij = 0quando i > j. Sendo σ uma permutação de {1, 2, . . . , n} termo

a1σ(1)a2σ(2) · · · anσ(n)será não nulo apenas quando σ(1) ≥ 1, σ(2) ≥ 2, . . . , σ(n) ≥ n. Isto só ocorre se σ(n) = n,. . . , σ(2) = 2, σ(1) = 1. Daí, o único termo não nulo do determinante de A é a11 a22 · · ·ann. ¤

Corolário B.15 O determinante da matriz identidade é igual a 1.

Teorema B.16 Seja A uma matriz quadrada. O det(A) 6= 0 se e só se A for inversível.

Prova. Se A for inversível, seja B a sua inversa. Como AB = I, det(A) det(B) = 1,provando que det(A) 6= 0.Quando A é inversível, suas colunas formam uma base da imagem indicando que suas

colunas são vetores linearmente independentes.Se A for singular, uma de suas linhas é combinação linear das outras e det(A) = 0. ¤

174 Notas de aula do Prof. Antonio Cândido Faleiros

Teorema B.17 Se E for uma matriz elementar e A uma matriz quadrada, todas deordem n, então det(EA) = det(E) det(A).

Prova. Se E for uma matriz elementar que permuta a linha i com a linha j, entãodet(E) = −1 e det(EA) = −det(A), provando que det(EA) = det(E) det(A) para estecaso.Se E for uma matriz elementar que multiplica uma linha por r, então det(E) = r e

det(EA) = r det(A), provando que neste caso também vale o teorema.Se E for uma matriz elementar que multiplica à linha i um múltiplo r da linha j, então

det(E) = 1 e det(EA) = det(A), provando que o teorema também vale neste último caso,o que completa a prova do teorema. ¤

Corolário B.18 Se E1, E2, . . . , Ek forem matrizes elementares e A for uma matrizquadrada, todas de ordem n, então det(E1 E2 · · · Ek A) = det(E1) det(E2) · · · det(Ek)det(A).

Teorema B.19 Se A e B forem matrizes quadradas de mesma ordem,

det(AB) = det(A) det(B).

Prova. Se A for inversível, A = E1 E2 · · · Ek, onde E1, E2, . . . , Ek são matrizeselementares. Assim, det(AB) = det(E1 E2 · · · Ek B) = det(E1) det(E2) · · · det(Ek)det(B) = det(A) det(B).Se A ou B for singular, AB é singular e det(AB) = 0 e det(A) det(B) = 0. ¤

Corolário B.20 Se A for uma matriz quadrada inversível, det(A−1) = 1/det(A).

Teorema B.21 Matrizes quadradas semelhantes possuem o mesmo determinante.

Prova. Se A e B forem matrizes quadradas semelhantes, então existe uma matrizinversível P de modo que B = PAP−1 e det(B) = det(P ) det(A) det(P−1) = det(A). ¤

B.3 Cofator

Seja A = (aij) uma matriz quadrada de ordem n. Seu determinante é

det(A) =Xσ

sign(σ)a1σ(1) · · · anσ(n)

onde o somatórioP

σ percorre todas as permutações do conjunto S = {1, 2, . . . , n}.Podemos agrupar esta soma do seguinte modo: tomemos todas as permutações que levam1 em 1, depois aquelas que levam 1 em 2 e assim por diante, até aquelas que levam 1 em

Notas de aula do Prof. Antonio Cândido Faleiros 175

n. Nas permutações que levam 1 em 1 podemos colocar a11 em evidência; nas que levam1 em 2, o a12 pode ser colocado em evidência e, naquelas que levam 1 em n podemoscolocar o a1n em evidência e escrever

det(A) = a11c11 + a12c12 + a13c13 + · · ·+ a1nc1n.

O escalar c1j é chamado de cofator de a1j.Vemos que c11 =

Pσ(1)=1 sign(σ)a2σ(2) · · · anσ(n) onde a soma percorre todas as per-

mutações que levam 1 em 1. A cada permutação σ em {1, 2, . . . , n} que mantém fixo o 1,corresponde a uma permutação π em S0 = {2, 3, . . . , n}, onde π(i) = σ(i) para i = 2, . . . ,n. Ambas possuem o mesmo número de inversões e, portanto, possuem o mesmo sinal.Para estabelecer o sinal de uma permutação, as inversões de um ponto fixo não precisamser contadas, uma vez que o número dessas inversões é um número par. Logo, c11 =P

π sign(π)a2π(2) · · · anπ(n) é o determinante de uma matriz que se obtém de A excluindoa primeira linha e a primeira coluna. Denotamos este determinante por A11.Em geral, vamos denotar por Aij o determinante da matriz obtida quando se elimina

a linha i e a coluna j de A.Para determinar o termo c12 faz-se o seguinte raciocínio: Permutando a primeira

coluna de A com a segunda, obtemos uma matriz B = (bij) onde b11 = a12 e det(B) =−det(A). Desta igualdade segue b11B11 + · · · = −a12c12+ · · · e, como a12 = b11, se concluique c12 = −B11. O escalar B11 é o determinante da matriz obtida de B ao excluir suaprimeira linha e sua primeira coluna, que são a primeira linha e a segunda coluna de A.Este determinante foi denotado por A12. Desta forma, c12 = −A12.O termo c13 pode ser obtido trazendo a terceira coluna para o lugar da primeira,

fazendo duas permutações: basta trocar esta coluna sucessivamente com as que estãoà sua esquerda até conduzi-la para a posição da primeira. Neste processo, o sinal dodeterminante da matriz se modifica duas vezes. O determinante da matriz final é igualao de A. Por um raciocínio análogo ao anterior, conclui-se que c13 = A13, onde A13 é odeterminante da matriz obtida ao eliminar a primeira linha e a terceira coluna de A.Prosseguindo com o raciocínio anterior, chega-se ao desenvolvimento

det(A) = a11c11 + a12c12 + a13c13 + · · ·+ a1nc1n

onde c1j = (−1)1jA1j é o cofator de a1j e A1j é o determinante da matriz obtida ao eliminara linha 1 e a coluna j de A. Esta fórmula desenvolve o determinante pela primeira linhae é conhecida por desenvolvimento do determinante pela primeira linha.De modo semelhante, podemos desenvolver o determinante pela linha i, usando o

argumento seguinte. O determinante de A é a soma de diversas parcelas, cada uma com nfatores. Dentre os fatores de uma parcela do determinante há um único elemento da linhai. Aquelas parcelas que possuem como fator um elemento da linha i coluna j, não contémcomo fator outro elemento da linha i nem outro elemento da coluna j. Nas parcelas quepossuem o fator aij, vamos colocá-lo em evidência. Denotemos por cij o termo que ficamultiplicado por aij e vamos chamá-lo de cofator de aij. Assim,

det(A) = aijcij + · · · ,

176 Notas de aula do Prof. Antonio Cândido Faleiros

onde os três pontos se referem às parcelas que contém elementos da linha i e colunasdistintas da j. Mediante transposição de linhas e colunas, podemos transformar a matrizA numa matriz B, onde o elemento aij fique posicionado na linha 1 coluna 1 de B.Basta transpor i− 1 vezes a linha i com as que estão acima, até posicioná-la no topo damatriz. Em seguida, mediante j − 1 transposições da coluna j com as que estão à suaesquerda, coloca-se o elemento aij na primeira posição da matriz. A cada transposição, odeterminante muda de sinal. Como há um total de (i−1)+(j−1) transposições, det(A) =(−1)(i−1)+(j−1) det(B) = (−1)i+j det(B). O determinante de B possuirá parcelas onde umdos fatores é o aij. Como aij ocupa a primeira linha primeira coluna de B, sabemos deantemão que det(B) = aijcij + · · · onde cij é o determinante de uma matriz obtida de Bpela eliminação de sua linha 1 coluna 1. Ora, a matriz obtida ao eliminar a linha 1 coluna1 de B é igual à matriz obtida ao eliminar a linha i coluna j de A. Assim, det(A) =(−1)i+jaij detAij, onde Aij é a matriz obtida de A retirando sua linha i e sua coluna j,chamada de menor (i, j) de A. Provamos que o cofator de aij no desenvolvimento dodet(A) é cij = (−1)i+j detAij.Na soma que define o determinante de A, podemos colocar em evidência os elementos

ai1, ai2, . . . , ain. A parcela que contém um desses fatores não conterá os demais. Cadaum deles será multiplicado pelo seu cofator e assim

det(A) = ai1ci1 + ai2ci2 + ai3ci3 + · · ·+ aincin

onde cij = (−1)i+j detA(i, j) é o cofator de aij. Como os elementos ai1, ai2, . . . , ain sãotodos da linha i, a fórmula acima é conhecida por desenvolvimento do determinante pelalinha i.Um argumento semelhante nos permite desenvolver o determinante pela coluna j.

Obtemos então o desenvolvimento do determinante pela coluna j

det(A) = a1jc1j + a2jc2j + a3jc3j + · · ·+ anjcnj

Um modo prático de utilizar estas fórmulas consiste em aplicar transformações ele-mentares sobre a matriz zerando o maior número de elementos de uma linha ou de umacoluna e usar as fórmulas acima para reduzir o determinante original a uma soma deoutros envolvendo matrizes de ordem n − 1. Este processo pode ser utilizado mais deuma vez reduzindo sucessivamente a ordem das matrizes cujos determinantes precisamser calculados.

Definição B.22 Seja A uma matriz quadrada de ordem n. A matriz cujo elemento dalinha i coluna j é cji (observe a ordem dos índices em que primeiro vem o j e depois o i)é chamada de matriz adjunta clássica de A e é denotada por adj(A).

Teorema B.23 Se A for inversível, então A · adj(A) = adj(A) ·A = det(A) · I.

Prova. Provamos que Xj

aijcij = det(A).

Notas de aula do Prof. Antonio Cândido Faleiros 177

Se i for diferente de k,P

j akjcij corresponderia ao determinante de uma matriz em quea linha i foi substituída pela linha k. As linhas i e k desta matriz seriam iguais e seudeterminante seria igual a zero. Portanto, para i 6= k,X

j

akjcij = 0.

Podemos usar o delta de Kronecker para unificar estas duas expressões em destaqueXj

akjcij = δik det(A).

Ora, o lado esquerdo desta expressão é o elemento da linha k coluna i da matriz A ·adj(A)e o lado direito é o elemento da linha k coluna i da matriz det(A) · I, provando queA · adj(A) = det(A) · I.O lado esquerdo da expressão também é o elemento da linha i coluna k da matriz

adj(A) ·A e o lado direito é o elemento da linha i coluna k da matriz det(A) · I, provandoque adj(A) ·A = det(A) · I. ¤

B.4 Regra de Cramer

Consideremos um sistema de n equações com n incógnitasnX

j=1

aijxj = bi,

para i = 1, 2, . . . , n. Se a matriz A = (aij) for inversível, o sistema possui solução única.O método de Cramer fornece um meio de resolver o sistema usando determinantes. Ele épouco eficiente e é usado apenas para sistemas pequenos.Sendo cij os cofatores de aij então

Pi aijcik = δjk det(A)

nXi=1

cikbi =nXi=1

cik

ÃnX

j=1

aijxj

!=

nXj=1

ÃnXi=1

aijcik

!xj =

nXj=1

det(A)δjkxj = det(A)xk

Dividindo pelo det(A) segue

xk =

Pni=1 cikbidet(A)

=∆k

det(A),

onde∆k =Pn

i=1 cikbi é o determinante de uma matriz obtida de A, trocando-se sua colunak por b

∆k = det

a11 · · · a1,k−1 b1 a1,k+1 · · · a1na21 · · · a2,k−1 b2 a2,k+1 · · · a2n...

. . ....

......

. . ....

an1 · · · an,k−1 bn an,k+1 · · · ann

178 Notas de aula do Prof. Antonio Cândido Faleiros

B.5 Determinante de Vandermonde

Sejam x1, . . . , xn números reais. O número real

Vn(x1, x2, . . . , xn) = det

1 x1 x21 · · · xn−11

1 x2 x22 · · · xn−12...

......

. . ....

1 xn x2n · · · xn−1n

é chamado de determinante de Vandermonde. Vamos mostrar que

Vn(x1, . . . , xn) = α(xn − x1)(xn − x2) · · · (xn − xn−1).

Desenvolvendo Vn(x1, . . . , xn) pela última linha, vemos que α é o cofator de xn−1n que éigual ao determinante de Vandermonde de ordem inferior

α = Vn−1(x1, . . . , xn−1).

Calculando os determinantes de Vandermonde para n = 2 e n = 3, obtemos V2(x1, x2) =x2 − x1 e V3(x1, x2, x3) = V2(x1, x2)(x3 − x1)(x3 − x2) = (x2 − x1) (x3 − x1)(x3 − x2).Vamos provar por indução que

Vn(x1, . . . , xn) =Yi<j

(xj − xi),

adotando como hipótese de indução a validade de

Vn−1(x1, . . . , xn−1) =Y

i<j<n

(xj − xi).

Daí,

Vn(x1, . . . , xn) = Vn−1(x1, . . . , xn−1)Yi<n

(xn − xi)

=Y

i<j<n

(xj − xi)Yi<n

(xn − xi)

=Yi<j

(xj − xi)

Esta igualdade vale mesmo quando os xi não forem distintos dois a dois, caso em que odeterminante de Vandermonde é nulo.Trocando o número xn pela variável x, Vn(x1, . . . , xn−1, x) se torna um polinômio em

x de grau n− 1 que possui x1, . . . , xn−1 como raízes. Assim,Vn(x1, . . . , xn−1, x) = α(x− x1)(x− x2) · · · (x− xn−1),

onde α é um número real que não depende de x.

Notas de aula do Prof. Antonio Cândido Faleiros 179

B.6 Determinante, uma definição alternativa

Seja A = (aij) uma matriz m × n e v1 = (a1j) , v2 = (a2j) . . . , vn = (anj) suas colunas.Usaremos a notação [v1, . . . , vn] para designar a matriz A. O determinante de A é onúmero real denotado por det(A) ou detA com as propriedades abaixo.

1. Multilinearidade

det[. . . , αvi + βwi, . . .] = α det[. . . , vi, . . .] + β det[. . . , wi, , . . .]

2. Alternatividade

det[. . . , vi, . . . , vj, . . .] = − det[. . . , vj, . . . , vi, . . .].

3. Normalizaçãodet I = det[e1, . . . , en] = 1,

onde I é a matriz identidade de ordem n e ej = (0, . . . , 0, 1, 0, . . . , 0)T é a matrizcoluna n× 1 cujo único elemento não nulo é o da linha j, que é igual a 1.

Pela alternatividade, se uma coluna da matriz for nula ou se duas colunas forem iguais,seu determinante é nulo. Agora, usando a multilinearidade e a observação acima, se α forum escalar,

det(. . . , vi, . . . , vj + αvi, . . .) = det(. . . , vi, . . . , vj, . . .).

Daí fica evidente que, se uma coluna for uma combinação linear das demais, então seudeterminante é nulo. Se σ for uma permutação de {1, 2, . . . , n} então a alternatividadegarante que

det[eσ(1), eσ(2), . . . , eσ(n)] = sign(σ)

pois a cada inversão de colunas há uma troca de sinal. Observando que vj =Pn

ij=1aijjeij

obtemosdet(A) =

Xi1

Xi2

· · ·Xin

ai11ai22 · · · ainn det[ei1, ei2 , . . . , ein].

Se dois índices em det[ei1 , ei2, . . . , ein] forem iguais, o determinante é nulo. Logo, asparcelas não nulas são aquelas em que {i1, i2, . . . , in} for uma permutação σ de {1, 2,. . . , n} e assim,

det(A) =Xi1

Xi2

· · ·Xin

sign(i1, i2, . . . , in)ai11ai22 · · · ainn

=Xσ

sign(σ)aσ(1)1aσ(2)2 · · · aσ(n)n

onde o somatório percorre todas as permutação σ de {1, 2, . . . , n}. Esta é exatamentea definição anterior. A fórmula acima ainda indica que as três propriedades enumeradasna definição de determinante são suficientes para garantir a existência e unicidade dodeterminante.

180 Notas de aula do Prof. Antonio Cândido Faleiros

Referências Bibliográficas

[CaDoCo] Callioli, C.A., Domingues, H.H., e Costa R.C.F., Álgebra Linear e Aplicações.Editora Atual.

[Franklin] Joel N. Franklin, Matrix Theory, Dover publications, Inc., 1993.

[Hoffman] Hoffmann & Kunze, Álgebra Linear. Editora da USP com Editora Polígono.

[Kolman] Bernard Kolman, Introdução à Álgebra Linear com Aplicações, sexta edição.Editora LTC, 1998.

[Lang] Serge Lang, Álgebra Linear. Editora Edgard Blücher.

[Lawson] Terry Lawson, Álgebra Linear. Editora Edgard Blücher, 1997. Acompanhameste livro: Matlab Labs for Linear Algebra, Mathematica Labs for LinearAlgebra, Maple Labs for Linear Algebra.

[Lipschutz] Seymour Lipschutz, Álgebra Linear. Coleção Schaum. Makron Books.

[Nering] Evar D. Nering, Linear Algebra and Matrix Theory. JohnWiley & Sons, 1970.

[Nicholson] W. Keith Nicholson, Álgebra Linear, segunda ed. McGraw-Hill, 2004.

[NobDan] Ben Noble & James W. Daniel, Álgebra Linear Aplicada. Guanabara Koogan.

[Poole] David Poole (Foi traduzido), Linear Algebra: A Modern Introduction (withCD-ROM) 2ed. Brooks Cole 2005.

[RoHo] Chris Rorres e Howard Anton, Álgebra Linear com Aplicações, oitava edição.Editora Bookman, 2001.

[TrefBau] Lloyd N. Trefethen and David Bau III, Numerical Linear Algebra. SIAM,Society for Industrial and Applied Mathematics, 1997.

181