universidad de buenos aires maestría en ingeniería …

48
UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería Matemática Optimización en Espacios de Hilbert. Operadores y Estimaciones de Mínimos Cuadrados Notas de Matemática Área: Teoría de Operadores Autor: Fernando Suárez

Upload: others

Post on 30-Jun-2022

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

UNIVERSIDAD DE BUENOS AIRES

Maestría en Ingeniería Matemática

Optimización en Espacios de Hilbert. Operadores y Estimaciones de Mínimos Cuadrados

Notas de Matemática

Área: Teoría de Operadores

Autor: Fernando Suárez

Page 2: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

1

Índice Introducción 1. Generalidades de los espacios de Hilbert

2. El Teorema de la Proyección

3. Operadores en espacios de Hilbert de variables aleatorias

4. Estimación de mínimos cuadrados

5. Estimaciones insesgadas a priori y a posteriori

6. Optimización en espacios de Hilbert

7. Operadores pseudo-inversos

8. Conclusiones

9. Bibliografía

Page 3: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

2

Introducción

El análisis funcional es una rama de la matemática abstracta que se origina a partir del análisis clásico, el álgebra lineal, la teoría de la aproximación y las ecuaciones integrales lineales entre otras, hace ya varias décadas.

El avance en la investigación de problemas en diferentes campos hizo tomar consciencia a los matemáticos que a pesar de la diversidad de los temas tratados, los mismos presentaban características y propiedades relacionadas.

Este hecho fue el causante de una búsqueda de una visión unificadora que no se detuviera en detalles poco importantes, sino que pudiera sacar provecho de un planteo abstracto y más amplio para muchas disciplinas.

A pesar de esto, el método abstracto del análisis funcional especifica modelos concretos y muy versátiles que son de aplicación práctica sobre todo en la relación de conceptos que a primera vista parecen tener poco que ver.

Dentro del análisis funcional, la teoría de operadores juega un papel preponderante en esta aplicación práctica del sistema lógico construido, y es la que ha reportado mayores avances en los últimos tiempos.

El presente trabajo intenta recorrer algunas propiedades y axiomas esenciales de los espacios de Hilbert, para luego definir los operadores necesarios en los mismos con aplicación a problemas de optimización.

Como veremos en el desarrollo del trabajo, se hará especial énfasis en el teorema de la proyección, su aplicación a estimadores de mínimos cuadrados y finalmente en este contexto, la introducción del operador pseudo-inverso para una resolución más general de problemas de mínima norma.

Page 4: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

3

1. Generalidades de los espacios de Hilbert

Los problemas donde se plantea encontrar distancias mínimas, ya sea de un punto a una recta, de un punto a un plano, o bien encontrar un vector que presente la mínima distancia desde un punto cualquiera a un subespacio cualquiera, son posibles en los llamados espacios Euclídeos.

En los mismos se hallan presentes las nociones de distancia, ángulo entre dos vectores, producto interno y otras más, que permiten aplicar principios de optimización, entre los cuales uno de los más utilizados e importantes es el teorema de la proyección, en cualquiera de sus versiones.

Sin embargo uno de los conceptos fundamentales como lo es el principio de ortogonalidad, no puede ser generalizado a espacios normados, lo que imposibilita utilizar argumentos geométricos en los mismos.

Sin embargo, sabemos que los espacios de Hilbert son espacios normados completos donde se ha definido un producto interno, en los cuales podemos aplicar los conceptos de ángulo entre dos vectores, a la manera de la geometría analítica y con analogías con los espacios Euclídeos.

Dada la importancia de los mismos y por ser los espacios donde desarrollaremos nuestro trabajo, introduciremos primero las generalidades de los espacios de Hilbert y sus propiedades.

Espacios pre-Hilbertianos

Llamaremos espacios pre-Hilbertianos a aquellos que cumplan las propiedades que se desarrollaran en los acápites que siguen:

1.1 Producto Interno

Definición 1: Un espacio pre-Hilbertiano es un espacio vectorial lineal X junto con un producto interno definido en X X× . Para cada par de vectores x, y definidos en X el

producto interno ,x y de x e y es un escalar, y satisface los siguientes axiomas:

1) , ,x y x y=

2) , , ,x y z x z y z+ = +

3) , ,x y x yλ λ=

4) , 0x x ≥ y , 0x x = si y solo si x θ=

Page 5: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

4

En el axioma 1 la barra representa complejo conjugado, y los axiomas 2 y 3 aseguran que el producto interno es lineal en la primera componente. 1.2 Norma

Definición 2: La expresión ,x x se la denota como x . Verificamos que sea una

norma si satisface:

1) x xα α= , dado por los axiomas anteriores 1 y 3.

2) 0x > six θ≠ , dado por el axioma anterior 4.

3) x y x y+ ≤ + (desigualdad triangular), se probará en la proposición 1.

Por lo tanto constituye una norma en nuestro espacio pre-Hilbertiano. 1.3 Desigualdad de Cauchy-Bunyakovsky-Schwarz

Lema 1: Para todo par x,y en un espacio con producto interno, se cumple que

,x y x y≤ . La igualdad se sostiene si y solo si x yλ= o bieny θ= .

Demostración: Si y θ= , la desigualdad se da trivialmente. Entonces, asumamos que

y θ≠ . Para todo escalar λ , tenemos:

2

0 , , , , ,x y x y x x y x x y y yλ λ λ λ λ≤ − − = − − +

En particular, tomando , ,x y y yλ = nos queda:

2

,0 ,

,

x yx x

y y≤ −

o bien,

, , ,x y x x y y x y≤ =

Esta conclusión es necesaria para demostrar la proposición 1:

Proposición 1: En un espacio pre-Hilbertiano la función ,x x x= constituye una

norma. Demostración:

Page 6: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

5

Ya hemos verificado las condiciones 1 y 2, por lo que falta verificar la condición 3, o sea, la desigualdad triangular. Entonces para cada par ,x y X∈ , tenemos que:

2

2 2

, , , , ,

2 ,

x y x y x y x x x y y x y y

x x y y

+ = + + = + + +

≤ + +

Pero por la desigualdad de Cauchy-Bunyakovsky-Schwarz, nos queda:

( )22 2 22x y x x y y x y+ ≤ + + = +

El resultado buscado es la raíz cuadrada de la expresión anterior, con lo cual queda demostrada la proposición 1.

De esta manera, la norma queda expresada en términos del producto interno.

Lema 2: En un espacio pre-Hilbertiano la afirmación , 0x y = para todo y implica que

x θ= .

Demostración:

Haciendo x y= implica que , 0x x = .

1.4 Ley del Paralelogramo

Lema 3: En un espacio pre-Hilbertiano se cumple:

2 2 2 22 2x y x y x y+ + − = +

Demostración:

Expandiendo 2

x y+ nos queda:

2 2 2

, , ,x y x y x y x x y y x y+ = + + = + + +

expandiendo 2

x y− nos queda:

2 2 2

, , ,x y x y x y x x y y x y− = − − = − − +

Sumando miembro a miembro las dos expresiones anteriores llegamos al resultado buscado.

Page 7: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

6

Podemos apreciar la interpretación geométrica en dos dimensiones del resultado anterior en la figura 1:

Figura 1

1.5 Identidad de Polarización

Lema 4: En un espacio pre-Hilbertiano se cumple:

{ }2 2 2 21,

4x y x y x y i x iy i x iy= + − − + + − −

Demostración:

a) Utilizando la expresión:

2 2 2, , ,x y x y x y x x y y x y+ = + + = + + +

Y en la misma reemplazando y por iy nos queda:

2 2 2, , ,x iy x iy x iy x i x y i y x y+ = + + = − + +

b) De forma análoga utilizando la expresión:

2 2 2, , ,x y x y x y x x y y x y− = − − = − − +

Y en la misma reemplazando y por -iy nos queda:

2 2 2, , ,x iy x iy x iy x i x y i y x y− = − − = + − +

El resultado buscado se obtiene sumando miembro a miembro las expresiones finales obtenidas en a) y b) y reagrupando.

De esta manera, el producto interno queda expresado en términos de las normas.

Page 8: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

7

Definición 3:

1) Una sucesión { }nx en un espacio normado X se llama fuertemente convergente a un

vector x en X si 0 0x x− → a medida que n→ ∞ , y la denotamos como

fnx x→ .

2) Una sucesión { }nx en un espacio normado X se llama sucesión de Cauchy si

0m nx x− → a medida que m→ ∞ y n→ ∞ .

3) Un espacio normado X se denomina completo si toda sucesión de Cauchy tiene

límite en X, esto es, si 0m nx x− → a medida que m→ ∞ y n→ ∞ , entonces

existe un 0x X∈ tal que 0 0x x− → a medida que n→ ∞ .

4) Una sucesión { }nx en un espacio con producto interno X se llama débilmente

convergente a un vector x en X si , , 0nx y x y− → para todo y X∈ a medida

que n→ ∞ , y la denotamos como d

nx x→ .

Espacios de Hilbert

Definición 4: Al espacio pre-Hilbertiano que sea completo lo llamaremos espacio de Hilbert.

De acuerdo a definiciones anteriores, un espacio de Hilbert es un espacio normado, o de Banach, equipado con un producto interno que induce la norma antes

vista. Los espacios nE , 2l y [ ]2 ,L a b son todos ejemplos de espacios de Hilbert. Además

el producto interno goza de la siguiente propiedad de continuidad:

Lema 5: (Continuidad del producto interno). Supongamos que nx x→ y que ny y→ en

un espacio pre-Hilbertiano. Entonces se cumple que , ,n nx y x y→ .

Demostración: Como la sucesión { }nx es convergente, entonces es acotada, esto es,

nx M≤ . Ahora:

, , , , , ,

, ,

n n n n n n

n n n

x y x y x y x y x y x y

x y y x x y

− = − + −

≤ − + −

Ahora al aplicar la desigualdad de Cauchy-Bunyakovsky-Schwarz obtenemos:

Page 9: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

8

, ,n n n n nx y x y x y y x x y− ≤ − + −

Como nx es acotada, entonces:

, , 0n n n nx y x y M y y x x y− ≤ − + − →

Ejercicio 1: Mostrar que en un espacio con producto interno X estas afirmaciones son equivalentes: a) x y⊥ .

b) x ky x ky+ = − para todo escalar k.

c) x ky x+ > para todo escalar k.

Solución: Para todo ,x y X∈ y escalares k, tenemos:

2

2 2 2

,

, , , ,

, , , ,

2Re ,

x ky x ky x ky

x x x ky ky x ky ky

x x k x y k x y kk y y

x k x y k y

+ = + +

= + + +

= + + +

= + +

Cambiando k por –k, tenemos:

2 2 2 22Re ,x ky x k x y k y− = − +

Supongamos que a) se cumple. Entonces , 0x y = . Entonces de las expresiones

anteriormente obtenidas:

2 2

2 2 2 2 2

x ky x ky

x ky x k y x

+ = −

+ = + ≥

Esto muestra que a) b) y que a) c)⇒ ⇒ .

Por otra parte, supongamos que b) se cumple. Entonces de las mismas expresiones utilizadas vemos que:

Re , 0k x y = para todo k

Page 10: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

9

Tomando ,k x y= tenemos que:

2, 0x y =

Y por eso , 0x y = , es decir, a) se cumple.

Por último, supongamos que c) se mantiene. Entonces recurriendo a las expresiones de siempre:

2 22Re , 0k x y k y+ ≥ para todo k

Si y = 0 entonces , 0x y = . Si 0y ≠ tomamos:

2

,x yk

y

−=

Luego:

2

2 2 2

2 4

2

2

,,0 2Re , 2Re ,

,

x yx yk x y k y x y y

y y

x y

y

≤ + = −

= −

Esto implica que , 0x y = , o sea, que a) se cumple.

Ejercicio 2: Dejemos que { }nx sea una sucesión en un espacio con producto interno X.

Probar que:

a) Si , , y , entoncesn n nx x x x x x x x→ → → .

b) Si dnx x→ y , entoncesn nx x x x→ → .

Solución: a) Como:

2,

, , , ,

n n n

n n n n

x x x x x x

x x x x x x x x

− = − −

= − − +

2 2,

, , ,

n n n

n n

x x x x

x x x x x x

= →

= →

Page 11: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

10

Entonces vemos que:

2 2, , , 0nx x x x x x x x x− → − − + =

Esto es nx x→ .

b) Hagamos z X∈ . Definamos :f X →K por:

( ) , ,f x x z x X= ∈

Entonces f es una funcional lineal y:

( ) ,f x x z x z= ≤

Entonces f X′∈ . Por eso si dnx x→ , entonces ( ) ( )nf x f x→ , que es

, ,nx z x z→ .

Esto último es verdadero para cualquier z en X. Haciendo z = x el resultado deseado se sigue de a).

Page 12: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

11

2. El Teorema de la Proyección

Si bien los temas que van a ser tratados a continuación están en conexión con el acápite anterior, hemos preferido agruparlos en torno al teorema de la proyección, dada la importancia del mismo en el desarrollo futuro de este trabajo.

Las definiciones y lemas vistos hasta ahora aportan la base teórica necesaria para formular dos versiones de este importante teorema, fundamento de técnicas de optimización y del método de los mínimos cuadrados.

Así podemos decir que el principio de ortogonalidad deriva en los espacios pre-

Hilbertianos muchas de las propiedades presentes en la geometría del plano.

Definición 5: Dos vectores x e y que pertenecen a un espacio pre-Hilbertiano se llaman

ortogonales si , 0x y = , y lo simbolizamos como x y⊥ . Análogamente un vector x se

dice que es ortogonal a un conjunto S, escribiéndolo como x S⊥ , si x s⊥ para cada s S∈ .

Lema 6: (Teorema de Pitágoras). Si x y⊥ , entonces 2 2 2

x y x y+ = + .

Demostración:

2 2 2, , ,x y x y x y x x y y x y+ = + + = + + +

Pero como x y⊥ esto implica que , , 0x y y x= = , por lo que obtenemos que:

2 2 2

x y x y+ = +

Ahora bien para poder introducir y dar respuesta a un primer planteo de un problema de optimización nos será necesario disponer de las conclusiones del teorema de la Proyección para poder caracterizar la solución.

En esta instancia resulta oportuno no perder de vista el objetivo que estamos

persiguiendo, o sea, resolver problemas de optimización en espacios de Hilbert mediante operadores convenientes y estimadores de mínimos cuadrados; por lo tanto adelantaremos a grandes rasgos el planteo básico del mismo.

El problema de optimización consiste en lo siguiente: dado un vector cualquiera x en un espacio pre-Hilbertiano X , y un subespacio M en X , debemos encontrar el vector

Page 13: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

12

m M∈ más cercano a x, y esto significa en este contexto minimizar la expresión

x m− .

Adelantaremos también que el resultado puede derivar en tres alternativas: 1) Que el problema posea una única solución m M∈ , que no sea la trivial (si también

se verifica que x M∈ ). 2) Que el problema no tenga solución. 3) Que el problema posea más de una solución.

A continuación enunciaremos y demostraremos dos versiones del teorema de la

Proyección, una en espacios pre-Hilbertianos y otra para espacios de Hilbert.

Teorema 1: Sea X un espacio pre-Hilbertiano, M un subespacio de X, y x un vector

arbitrario en X. Si existe un vector 0m M∈ tal que 0x m x m− ≤ − para todo m M∈ ,

entonces 0m único. Una condición necesaria y suficiente para que 0m M∈ sea el único

vector minimizante en M es que el vector error 0x m− sea ortogonal a M.

Demostración: Primero mostraremos que si 0m es un vector minimizante, entonces

0x m− es ortogonal a M. Lo haremos por el absurdo, suponiendo lo contrario, es decir,

que existe un vector m M∈ el cual no es ortogonal a 0x m− .

Para simplificar podemos hacer que 1m = y que 0, 0x m m δ− = ≠ . Definamos

el vector 1m en M como 1 0m m mδ= + . Entonces:

2 2

1 0

2 2

0 0 0

2 2 2

0 0

, ,

x m x m m

x m x m m m x m

x m x m

δ

δ δ δ

δ

− = − −

= − − − − − +

= − − < −

Así, si 0x m− no es ortogonal a M, 0m no es un vector minimizante.

Ahora debemos mostrar que si 0x m− es ortogonal a M, entonces 0m es el único

vector minimizante. Para cualquier vector m M∈ , el teorema de Pitágoras nos da:

2 2 2 2

0 0 0 0x m x m m m x m m m− = − + − = − + −

Así, 2 2

0x m x m− > − para 0m m≠ .

Page 14: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

13

Podemos apreciar la interpretación geométrica en tres dimensiones del teorema

anterior en la figura 2:

Figura 2

Teorema 2: (Teorema Clásico de la Proyección). Sea H un espacio de Hilbert y M un

subespacio cerrado de H. Para cualquier vector x H∈ , existe un único vector om M∈

tal que ox m x m− ≤ − para todo m M∈ . Más aun, una condición necesaria y

suficiente para que om M∈ sea el único vector minimizante es que ox m− sea ortogonal

a M.

Demostración: La unicidad y ortogonalidad ya se estableció en el teorema 1. Solo se requiere establecer la existencia del vector minimizante.

Si x M∈ , entonces 0m x= y todo queda establecido. Ahora asumamos que x M∉ y

definamos infm M

x mδ∈

= − . Queremos determinar un om M∈ con 0x m δ− = . Para

este propósito, hagamos que { }im sea una sucesión de vectores en M tal que

ix m δ− → . Ahora, aplicando la ley del paralelogramo:

( ) ( ) ( ) ( )2 2 2 2

2 2j i j i j im x x m m x x m m x x m− + − + − − − = − + −

Reagrupando, tenemos:

22 2 2

2 2 42

i jj i j i

m mm m m x x m x

+− = − + − − −

Para todo i, j el vector ( ) 2i jm m+ está en M dado que M es un subespacio lineal.

Entonces, por la definición de δ , ( ) 2i jx m m δ− + ≥ y obtenemos:

Page 15: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

14

2 2 2 22 2 4j i j im m m x x m δ− ≤ − + − −

Desde que 2 2

im x δ− → a medida que i → ∞ , concluimos que:

20j im m− → a medida que ,i j → ∞

Entonces, { }im es una sucesión de Cauchy, y desde que M es un subespacio

cerrado de un espacio completo, la sucesión { }im tiene como límite om en M. Por

continuidad de la norma, se sigue que ox m δ− = .

Una observación que vale la pena hacer es que ni el enunciado ni la demostración de la existencia del vector minimizante hacen referencia explícita al producto interno. Sin embargo, la demostración utiliza principalmente la ley del paralelogramo, la cual sí es fuertemente dependiente del producto interno.

2.1 Complementos Ortogonales

Veremos ahora que la aplicación del teorema de la proyección nos permitirá establecer algunas propiedades estructurales de los espacios de Hilbert. El objetivo que nos plantearemos es ver que en cualquier subespacio de Hilbert dado, cualquier vector se puede escribir como la suma de dos vectores: uno en el subespacio dado y el otro en el ortogonal al primero.

Definición 6: Dado un subconjunto S de un espacio pre-Hilbertiano, el conjunto de todos los vectores ortogonales a S se llama complemento ortogonal de S, y se lo denota

como S⊥ .

El complemento ortogonal del conjunto que consiste solamente en el vector nulo θ es todo el espacio.

Además, para cualquier conjunto S, S⊥ es un subespacio cerrado:

a) Es un subespacio porque una combinación lineal de vectores ortogonales a un conjunto es también ortogonal al conjunto.

b) Es cerrado porque si { }nx es una sucesión convergente de S⊥ , o sea que nx x→ ,

la continuidad del producto interno implica que 0 , ,nx s x s= → para todo s S∈

, por lo que x S⊥∈ .

Las siguientes proposiciones, que resumen las relaciones básicas entre un conjunto y su complemento ortogonal se dan sin demostración:

Page 16: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

15

Proposición 2: Sean S y T subespacios de un espacio de Hilbert. Entonces se cumple que:

1) S⊥ es un subespacio cerrado.

2) S S⊥⊥⊂ .

3) Si S T⊂ , entonces T S⊥ ⊥⊂ .

4) S S⊥⊥⊥ ⊥= .

5) [ ]S S⊥⊥ = , es decir, S⊥⊥ es el subespacio cerrado más pequeño que contiene a S.

[ ]S denota la clausura de S.

Definición 7: Decimos que un espacio vectorial X es la suma directa de dos subespacios M y N si todo vector x X∈ tiene una única representación de la forma x m n= + donde m M∈ y n N∈ . Este hecho lo denotamos como X M N= ⊕ . La diferencia fundamental entre esta definición de suma directa y la anterior definición de suma, es el agregado del requerimiento de unicidad.

El siguiente teorema, que sugiere la expresión “complemento ortogonal” para un conjunto de vectores ortogonal a un conjunto, da la idea que si el conjunto en cuestión es un subespacio cerrado en un espacio de Hilbert, su complemento ortogonal contiene suficientes vectores adicionales para generar el espacio. Teorema 3: Si M es un subespacio lineal cerrado de un espacio de Hilbert H, entonces

H M M ⊥= ⊕ y M M ⊥⊥= . Demostración: La demostración se sigue de la aplicación del teorema de la proyección.

Hagamos que x H∈ . Por el teorema de la proyección, existe un único vector 0m M∈

tal que 0x m x m− ≤ − para todo m M∈ , y 0 0n x m M⊥= − ∈ . Así, 0 0x m n= + con

0m M∈ y 0n M ⊥∈ .

Para ver la unicidad de la anterior representación, supongamos que 1 1x m n= +

con 1m M∈ , 1n M ⊥∈ . Luego 1 0 1 0m m n nθ = − + − pero 1 0m m− y 1 0n n− son

ortogonales.

Por el teorema de Pitágoras, 2 2 2

1 0 1 0m m n nθ = − + − . Esto implica que 0 1m m= y

0 1n n= .

Para ver que M M ⊥⊥= , solo basta mostrar que M M⊥⊥ ⊂ , dado que sabemos

que M M ⊥⊥⊂ . Ahora hagamos que x M ⊥⊥∈ . Por lo visto en la primera parte del

presente teorema, x m n= + , donde m M∈ , n M ⊥⊥∈ . Desde que x M ⊥⊥∈ y m M⊥⊥∈ ,

Page 17: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

16

tenemos que x m M⊥⊥− ∈ . Esto último significa que n M ⊥⊥∈ . Pero también n M⊥∈ ,

entonces n n⊥ , lo que implica que n θ= . Así x m M= ∈ y M M⊥⊥ ⊂ . De acuerdo a los resultados vistos anteriormente, dado un vector x y un

subespacio cerrado M en u espacio de Hilbert, el vector 0m M∈ tal que 0x m M⊥− ∈ se

lo llama proyección ortogonal de x en M. 2.2 Procedimiento de Gram-Schmidt

En el contexto de los espacios de Hilbert los conjuntos ortonormales son preferidos por sobre otros tipos de conjuntos linealmente independientes, asumiendo que existen y que además pueden ser construidos con facilidad. Definición 8: Se dice que un conjunto S de vectores en un espacio pre-Hilbertiano es un conjunto ortogonal si x y⊥ para cada ,x y S∈ , x y≠ . El conjunto se dice ortonormal

si, además, cada vector en el conjunto tiene norma igual a uno. Proposición 3: Un conjunto ortogonal de vectores no nulos es un conjunto linealmente independiente.

Demostración: Supongamos que { }1 2, , , nx x x… es un subconjunto finito del conjunto

ortogonal dado y que hay n escalares iα , 1,2, ,i n= ⋯ , tal que 1

n

i ii

xα θ=

=∑ . Tomando

producto interno en ambos lados de esta ecuación con kx resulta:

1

, ,n

i i k ki

x x xα θ=

=∑

O lo que es lo mismo:

, 0k k kx xα =

Así, 0kα = para cada k y los vectores son linealmente independientes.

El siguiente teorema afirma que de hecho un conjunto ortonormal se puede obtener a partir de un conjunto arbitrario linealmente independiente. Usualmente se lo denomina procedimiento de ortonormalización de Gram-Schmidt.

Page 18: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

17

Teorema 4: (Gram-Schmidt) Dejemos que { }ix sea una sucesión finita o numerable de

vectores linealmente independientes en un espacio pre-Hilbertiano X. Luego, existe una

sucesión ortonormal { }ie tal que para cada n el espacio generado por los primeros n ie

es el mismo que el espacio generado por los primeros n ix . Entonces, por ejemplo, para

cada n tendremos que:

[ ] [ ]2 2, , , , , ,i n i ne e e x x x=… …

Demostración: Para el primer vector hagamos:

11

1

xe

x=

entonces 1 1e = . Hagamos 2 2 2 1 1,y x x e e= − , entonces:

2 1 2 1 1 1, , , 0y e x e e e= =

Hagamos ahora:

22

2

ye

y=

por lo tanto 2 1, 0e e = de acuerdo a lo anterior y también 2 1e = . Escribimos ahora

3 3 3 1 1 3 2 2, ,y x x e e x e e= − − , entonces:

3 1 3 1 3 1 1 1 3 2 2 1, , , , , , 0y e x e x e e e x e e e= − − =

y también:

3 2 3 2 3 1 1 2 3 2 2 2, , , , , , 0y e x e x e e e x e e e= − − =

Ahora hagamos:

33

3

ye

y=

luego 3, 0 para 1,2je e j= = y 3 1e = .

Page 19: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

18

Si generalizamos hagamos que: 1

1

,j

j j j k kk

y x x e e−

=

= −∑

y para 1, 2, ,jj

j

ye j n

y= = ⋯ . Repitiendo esta metodología, el sistema { }2, , ,i ne e e…

resulta un sistema de vectores ortonormales en X por inducción. La figura 3 ilustra la notación del teorema:

Figura 3

2.3 Ecuaciones normales y matrices de Gram

En este apartado adelantaremos un problema de aproximación que nos será útil para desarrollar los problemas de estimación, al mismo tiempo que daremos algunas definiciones de utilidad.

Supongamos que 1 2, , , ny y y… son elementos de un espacio de Hilbert H. Estos

vectores generan un subespacio cerrado de dimensión finita M de H. Dado un vector

arbitrario x H∈ , al vector ɵx en M que es el más cercano a x.

Si ɵx es expresado en términos de los vectores iy como

ɵ1 1 2 2 n nx y y yα α α= + + +⋯ , el problema es equivalente a encontrar los n escalares

, 1,2, ,i i nα = … que minimizan a 1 1 2 2 n nx y y yα α α− − − −⋯ .

Page 20: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

19

Ahora, y de acuerdo al teorema de la proyección, el único vector minimizante ɵx

es la proyección ortogonal de x en M, o de forma equivalente el vector diferencia ɵx x−

es ortogonal a cada uno de los vectores iy . Entonces, aplicando producto interno:

1 1 2 2 , 0n n ix y y y yα α α− − − − =⋯

para 1,2, ,i n= … . O también, de forma equivalente:

1 1 1 2 1 2 1 1

1 2 1 2 2 2 2 2

1 1 2 2

, , , ,

, , , ,

, , , ,

n n

n n

n n n n n n

y y y y y y x y

y y y y y y x y

y y y y y y x y

α α αα α α

α α α

+ + + =

+ + + =

+ + + =

⋮ ⋮ ⋮ ⋮

Estas ecuaciones en los n coeficientes iα son las llamadas ecuaciones normales

del problema de minimización.

Correspondiendo a los vectores 1 2, , , ny y y… , la matriz de dimensión n n× :

( )1 1 1 2 1

2 11 2

1

, , ,

,, , ,

, ,

n

n

n n n

y y y y y y

y yG G y y y

y y y y

= =

⋮⋯

⋮ ⋮

⋯ ⋯

es llamada Matriz de Gram de 1 2, , , ny y y… , o también Gramiano, que resulta ser la

traspuesta de la matriz de coeficientes de las ecuaciones normales.

El problema de aproximación resulta resuelto cuando se resuelven las ecuaciones normales. Para que dicho sistema tenga una única solución, es condición necesaria y suficiente que el determinante de la matriz de Gram sea no nulo.

Ejercicio 3: Sea X un espacio con producto interno y ,x y X∈ . Probar lo siguiente:

a) x y⊥ si y solo si

2 2 2kx y kx y+ = + para todo k∈K .

b) Teorema de Pitágoras: Si x y⊥ entonces

Page 21: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

20

2 2 2x y x y+ = + .

c) Si X es real, luego el punto b) implica que x y⊥ .

d) Si X es complejo, luego el punto b) no implica que x y⊥ .

Solución: a) Por las propiedades definidas de producto interno y norma tenemos que:

2

2 2

,

, ,

, , , ,

, ,

kx y kx y kx y

kx kx y y kx y

kx kx kx y y kx y y

kx k x y k x y y

+ = + +

= + + +

= + + +

= + + +

El punto a) se mantiene si y solo si

, , 0k x y k x y+ = para todok∈K .

Si x y⊥ entonces , 0x y = y se cumple la expresión anterior. Contrariamente, si la

expresión anterior se mantiene y eligiendo ,k x y= en ella, tenemos:

2 2

, , 0x y x y+ =

Y entonces , 0x y = . Así se cumple x y⊥ . Esto prueba a).

b) Usando a) con 1k = se prueba b).

c) Si = ℝK y a) se cumple con 1k = entonces:

, , 0x y x y+ =

Entonces , 0x y = y queda probado c).

d) Hagamos X = = ℂK . Luego ,x y xy= . Hagamos 1,x y i= = de forma tal que:

( ), , 0x y x y i i+ = − + =

O sea que , , 0k x y k x y+ = se cumple con 1k = . Entonces b) se mantiene aunque

, 0x y i= − ≠ . Esto completa la prueba.

Page 22: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

21

Ejercicio 4: Dejemos que X sea un espacio con producto interno, 1x un elemento no

nulo en X, y c un escalar. Mostrar que el elemento x en X que minimiza ,x x sujeto a

1,x x c= es ( )1 1 1,cx x x .

Solución: Hagamos 1 1y c x= , donde:

( )1 1 1,c x x .

Luego,

1 1 1 1 1 1 1, , ,y x c x x c x x c= = =

Si x es un elemento cualquiera en X con 1,x x c= , luego:

1 1 1, , , 0x y x x x y x− = − =

Entonces,

1 1, , 0x y y x y c x− = − =

( ) 22 2 2 2x x y y x y y y= − + = − + ≥ ,

usando el teorema de Pitágoras.

Así, 2 2

y x≤ para todo x con 1,x x c= . Esto prueba el resultado.

Ejercicio 5: Si M es un subconjunto no vacío de un espacio con producto interno X,

mostrar que su complemento ortogonal M ⊥ es un subespacio cerrado de X.

Solución: Si ,x y M⊥∈ y k es un escalar, luego para todo z M∈ , tenemos que:

, , , 0kx y z k x z y z+ = + =

dado que , 0 ,x z y z= = . Esto muestra que kx y M⊥+ ∈ . Así M ⊥ es un subespacio.

Dejemos ahora que x sea un elemento cualquiera en la clausura del subespacio M ⊥ .

Entonces existe nx en M ⊥ tal que nx x→ . Por lo tanto, , ,nx z x z→ para cualquier

z. Si z M∈ , entonces , 0nx z = para todo n y entonces , 0x z = para cualquier

z M∈ .

Así, x M⊥∈ , y entonces M ⊥ es cerrado. Esto prueba el resultado.

Page 23: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

22

3. Operadores en espacios de Hilbert de variables aleatorias

El objetivo de la presente sección es construir varios espacios de Hilbert de variables aleatorias que nos sirvan para encontrar las ecuaciones normales que le darán solución a los tres problemas básicos de estimación que analizaremos más adelante.

Para una adecuada y rigurosa definición de variable aleatoria y los conceptos de probabilidad asociados deberíamos recurrir a la teoría de la medida e integración. Sin embargo, como nuestro enfoque principal es la estimación por mínimos cuadrados, sabemos que este tema solo hace un uso indirecto de tal herramental, por lo que reduciremos los conceptos de probabilidad al mínimo y sí consideraremos un enfoque de valor esperado (central en mínimos cuadrados) como operador.

3.1 Espacios de Hilbert de variables aleatorias

Si x es una variable aleatoria real, definimos a la función distribución de probabilidades F de x como:

( ) ( )Prob F xξ ξ= ≤

Dada una colección finita de variables aleatorias reales { }1 2, , , nx x x… , definimos

la función distribución conjunta de probabilidades F como:

( ) ( )1 2 1 1 2 2, , , Prob , , ,n n nF x x xξ ξ ξ ξ ξ ξ= ≤ ≤ ≤… …

Contando con estas definiciones podemos construir un espacio de Hilbert de

variables aleatorias. Hagamos que { }1 2, , , my y y… sea una colección de variables

aleatorias. El espacio de Hilbert H queda definido como el constituido por todas las

variables aleatorias que son combinaciones lineales de los iy .

Entonces el producto interno de dos elementos x, y en H queda definido como:

[ ],x y E xy=

El espacio H es un espacio de Hilbert de dimensión finita con dimensión igual como máximo m.

El concepto de variable aleatoria puede ser generalizado a una faceta muy útil e importante. Podemos decir que un vector aleatorio n-dimensional es una colección ordenada de n variables aleatorias escalares. En general la notación de x es como un vector columna:

Page 24: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

23

1

2

3

.

.

.

n

x

x

x

x

x

=

Un espacio de Hilbert de vectores aleatorios se puede generar a partir de un conjunto dado de vectores aleatorios, de una manera análoga a lo hecho para variables

aleatorias. Supongamos que { }1 2, , , my y y… es una colección de vectores aleatorios n-

dimensionales. Cada elemento iy tiene n componentes , 1,2, ,ijy j n= … , cada uno de

los cuales es una variable aleatoria con varianza finita.

Un espacio de Hilbert H de vectores aleatorios n-dimensionales queda definido como el constituido por todos los vectores cuyas componentes son combinaciones

lineales de las componentes de los iy .

Así un elemento arbitrario y en el espacio H se lo puede expresar como:

1 1 2 2 m my K y K y K y= + + +⋯

donde los iK son matrices reales de dimensión n n× .

3.2 Operadores en espacios de Hilbert de variables aleatorias

Al haber definido los conceptos fundamentales de probabilidad y variables aleatorias en espacios de Hilbert, una consecuencia lógica es que las medidas asociadas en variables aleatorias serán en este contexto operadores.

El operador esperanza de cualquier función ( )g x se lo define como:

( ) ( ) ( )E g x g dFξ ξ∞

−∞

= ∫

que puede no ser finito.

El principal interés es definir al operador esperanza (o esperanza matemática) de una variable aleatoria:

Page 25: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

24

[ ]E x , valor esperado de x

Podemos ver que dicho operador es lineal:

a) [ ] [ ]E x E xλ λ= , con λ ∈ℝ

b) [ ] [ ] [ ]E x y E x E y+ = +

Procediendo de forma análoga es posible mediante el operador esperanza definir:

2E x , momento absoluto de segundo orden de x

3E x , momento absoluto de tercer orden de x

4E x , momento absoluto de cuarto orden de x

siendo estas últimas expresiones útiles para caracterizar de forma unívoca a la distribución de probabilidades.

Si ahora en vez de tomar momentos absolutos, tomamos diferencias de cuadrados respecto de la esperanza matemática obtenemos lo que comúnmente se conoce como varianza de x:

[ ]( )2E x E X −

( ) ( ) ( )1 2 1 2 1 2, , , , , , , , ,n n nE g x x x g dFξ ξ ξ ξ ξ ξ∞ ∞ ∞

−∞ −∞ −∞

= ∫ ∫ ∫… ⋯ … …

Todos los momentos de segundo orden de estas variables aleatorias se pueden describir mediante los n operadores esperanza:

[ ]iE x , 1,2, ,i n= …

y con el agregado del operador covarianza, definido mediante la matriz de covarianzas, de dimensión n n× , cuyo elemento ij -ésimo se lo define como:

( ) ( ){ }i i j jE x E x x E x − −

que en el caso de estar en presencia de media aritmética cero se reduce a i jE x x .

Dos variables aleatorias se denominan no-correlacionadas si:

[ ]i j i jE x x E x E x =

Page 26: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

25

o bien, si el ij -ésimo elemento de la matriz de covarianzas es cero.

Volviendo a la definición previa de producto interno:

[ ],x y E xy=

Como x e y son combinaciones lineales de los iy , el producto interno precedente

se lo puede calcular a partir del momento mixto de segundo orden de los iy , que si

asumimos las siguientes expresiones particulares:

i ix yα=∑ i iy yβ=∑

nos queda:

i j i i j ji j

E x x E y yα β

= ∑ ∑

Si la matriz { }i jG E y y = no es definida positiva, habrá combinaciones lineales

no triviales i jyα∑ con norma cero en el espacio H, que deben ser consideradas

equivalentes al elemento cero.

Al ser H un espacio normado completo dotado de un producto interno, podemos definir al mismo como:

1

,n

i ii

x z E x z=

= ∑

siendo x y z elementos de H, resulta el valor esperado de un producto interno n-

dimensional. Podemos utilizar para el mismo la siguiente notación: [ ],x z E x z′= .

La norma de un elemento x en el espacio de vectores aleatorios n-dimensional se puede escribir como:

[ ]{ }1 2Traza x E xx′=

en donde:

[ ]

[ ] [ ] [ ][ ] [ ] [ ]

[ ] [ ] [ ]

1 1 1 2 1

2 1 2 2 2

1 2

n

n

n n n n

E x x E x x E x x

E x x E x x E x xE xx

E x x E x x E x x

′ =

⋮ ⋮

es el valor esperado de la matriz aleatoria de los pares xx′ . De forma similar tenemos que:

Page 27: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

26

[ ], Traza x z E xz′=

De forma análoga a lo anteriormente visto, en el caso de estar en presencia de

media aritmética cero la matriz [ ]E xx′ es simplemente la matriz de covarianza de las ix

variables aleatorias que forman las componentes de x. La matriz de covarianzas de

arriba se la puede ver como la matriz de Gram que corresponde a { }1 2, , , nx x x… .

De acuerdo al caso general planteado con media aritmética cero, la matriz de covarianzas correspondiente queda definida como:

( ) [ ]( ) [ ]( )cov x E x E x x E x ′= − −

Ejercicio 6: Probar que si x es una variable aleatoria, si a, b y c son constantes,

entonces para funciones cualquiera ( )1g x y ( )2g x cuyas esperanzas existen, la

esperanza de una combinación lineal es:

( ) ( ) ( ) ( )1 2 1 2E ag x bg x c aE g x bE g x c+ + = + +

o sea que la esperanza es un operador lineal.

Solución: Sólo probaremos el caso continuo, el caso discreto se demuestra de forma similar. Partiendo de la definición, tenemos que:

( ) ( ) ( ) ( )( ) ( )

( ) ( ) ( ) ( ) ( )1 2 1 2

1 2

x

x x x

E ag x bg x c ag x bg x c f x dx

ag x f x dx bg x f x dx c f x dx

−∞

∞ ∞ ∞

−∞ −∞ −∞

+ + = + +

= + +

∫ ∫ ∫

por aditividad de la integral. Como a, b y c son constantes pueden salir fuera de las integrales correspondientes y tenemos:

( ) ( ) ( ) ( ) ( ) ( ) ( )1 2 1 2x x xE ag x bg x c a g x f x dx b g x f x dx c f x dx∞ ∞ ∞

−∞ −∞ −∞+ + = + + ∫ ∫ ∫

pero por esperanza de una función:

( ) ( ) ( )

( ) ( ) ( )1 1

2 2

x

x

g x f x dx E g x

g x f x dx E g x

−∞∞

−∞

=

=

y aplicando la definición de función de densidad tenemos:

( ) 1xf x dx∞

−∞=∫

Page 28: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

27

por lo tanto nos queda:

( ) ( ) ( ) ( )1 2 1 2E ag x bg x c aE g x bE g x c+ + = + +

Ejercicio 7: Probar que si x es una variable aleatoria con varianza finita, si a y b son constantes, la varianza de una combinación lineal es:

( ) 2var var(x)ax b a+ =

o sea que la varianza no es un operador lineal.

Solución: Partiendo de la definición, tenemos que:

( ) ( ) ( )( )2var ax b E ax b E ax b + = + − +

Pero sabemos que ( ) [ ]E ax b aE X b+ = + , por lo tanto:

( ) [ ]( )[ ]( )

( )

2

22

2

var

var

ax b E ax aE x

a E x E x

a x

+ = −

= −

=

Sin embargo muchas veces resulta más fácil una fórmula alternativa para el operador varianza, dado por:

( ) [ ]( )22var x E x E x = −

La cual se deduce a continuación:

( ) [ ]( ) [ ] [ ]( )[ ]( ) [ ]( )

[ ]( )

2 22

2 22

22

var 2

2

x E x E x E x xE x E x

E x E x E x

E x E x

= − = − +

= − +

= −

Page 29: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

28

Ejercicio 8: Probar que si x e y son dos variables aleatorias y a y b son constantes, la varianza de una combinación lineal es:

a) ( ) ( )2 2var var( ) var( )+2 cov ,ax by a x b y ab x y+ = +

b) Pero ( ) 2 2var var( ) var( )ax by a x b y+ = + si x e y son independientes.

Solución: a) El operador esperanza de ( )ax by+ es:

( ) [ ] [ ] x yE ax by aE X bE X a bµ µ+ = + = +

Así que:

( ) ( ) ( )( )( ) ( )( )( ) ( ) ( ) ( )( ) ( ) ( )( )

( ) ( ) ( )

2

2

222 2

222 2

2 2

var

2

2

var var 2 cov ,

x y

x y

x y x y

x y x y

ax by E ax by a b

E a x b y

E a x b y ab x y

a E x b E y abE x y

a x b y ab x y

µ µ

µ µ

µ µ µ µ

µ µ µ µ

+ = + − +

= − + −

= − + − + − −

= − + − + − −

= + +

b) Si x e y son independientes esto implica que ( )cov , 0x y = , por lo que reemplazando

en la expresión anterior se llega al resultado propuesto.

Page 30: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

29

4. Estimación de mínimos cuadrados

El haber dedicado la sección anterior al teorema de la proyección cobra sentido al reconocer que la aplicación más directa y con mayores consecuencias del mismo es el área de la estimación estadística en general, y la estimación de mínimos cuadrados en particular.

Los problemas que se plantearán en el presente acápite son en el fondo formulaciones de mínima norma en espacios de Hilbert, y se resolverán con la adecuada aplicación del teorema de la proyección.

La teoría de la estimación estadística presenta tres grandes alternativas:

a) Estimaciones de mínimos cuadrados. b) Estimación mediante el método de máxima verosimilitud. c) Estimación Bayesiana.

La gran ventaja que presenta la estimación por mínimos cuadrados es que a

diferencia de las dos últimas mencionadas, solo requiere especificaciones de medias, varianzas y covarianzas, es decir aplicación directa de los operadores ya definidos. Tanto los estimadores de máxima verosimilitud como la estimación Bayesiana, requieren una descripción rigurosa y completa de las funciones de densidad conjuntas, lo cual los convierte en problemas difíciles de abordar cuando la dimensión es elevada.

Como anticipamos en la sección correspondiente al teorema de la proyección, el

objetivo que nos plantearemos en adelante es resolver los tres problemas básicos de la estimación lineal, que aunque son bastante similares, difieren en la elección del criterio de optimalidad y en los supuestos estadísticos de partida.

Supongamos ahora que relevamos una cierta cantidad de datos consistiendo en m números reales, por ejemplo de un fenómeno de estudio, en donde identificamos una cierta cantidad de variables de interés. Podemos agrupar a estos números como las m componentes de un vector y. Puede suceder que debido a la naturaleza del problema, el vector y resulte ser una función lineal de parámetros desconocidos.

Si estos parámetros son dispuestos como las componentes de un vector n-dimensional β , donde n m< , podemos asumir como hipótesis que el vector y es de la

forma y Wβ= . La matriz W, de dimensión n m× se la determina a partir del

experimento en cuestión y la vamos a considerar conocida, al igual que el vector de datos y.

Page 31: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

30

Entonces el problema que tenemos que resolver consiste en determinar el vector β . Como n m< , en general no es posible obtener un vector β que satisfaga

exactamente y Wβ= .

La alternativa más conveniente a este problema sin solución consiste en obtener un valor de β que sea la mejor aproximación a la solución en el sentido de minimizar la

norma y Wβ− . Si esta norma es la norma usual de un espacio Euclídeo m-

dimensional, entonces este enfoque nos lleva a una estimación de mínimos cuadrados.

Como se puede inferir, este problema no estadístico, sino más general. Consiste simplemente en aproximar a y por un vector perteneciente al subespacio generado por los n vectores columna de la matriz W. A pesar de ello esta técnica es de uso frecuente en estadística y proporciona un medio de comparación útil respecto a otros métodos estadísticos, como ser la estimación bayesiana y los estimadores de máxima verosimilitud.

Podemos ver como ejemplo una aplicación en donde nos proponemos encontrar una recta que sea la mejor aproximación a los datos representados en la figura 4.

Figura 4

Para lograrlo proponemos un modelo de la forma s tβ= y encontramos a β por

mínimos cuadrados. El vector y en este caso está constituido por los valores medidos s y la matriz W consiste en una simple columna constituida por los correspondientes valores de t.

Page 32: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

31

Teorema 5: (Estimación de Mínimos Cuadrados) Supongamos que y es un vector m-dimensional y que W es una matriz n m× con columnas linealmente independientes.

Entonces existe un único vector n dimensional �β que minimiza y Wβ− (la norma

como la norma Euclídea para un espacio m-dimensional) para todo β . Además:

� ( ) 1W W W yβ −′ ′=

Demostración: Tal como habíamos señalado más arriba, este problema consiste en aproximar a y por una combinación lineal de columnas de W. La existencia y unicidad se sigue de forma inmediata de la aplicación del teorema de la proyección y de la independencia de las columnas de W. Más aún, la matriz de Gram correspondiente a los vectores columna de W son claramente W W′ . El vector W y′ tiene por componentes a

los productos internos de las columnas de W con el vector y.

Las ecuaciones normales son entonces:

�W W W yβ′ ′=

La matriz de Gram W W′ resulta no singular por ser las columnas de W linealmente independientes.

Ejercicio 9: (Rudimentos de la teoría de regresión lineal) Supongamos que existen dos variables aleatorias, y y x organizadas en pares, que corresponden a resultados de un determinado experimento, que además pueden ser representadas en el plano y su gráfico guarda similitud con la figura 4.

Estos resultados pueden ser resumidos afirmando que y guarda una relación lineal respecto de x, de la forma descripta por la ecuación y a bx= + . La forma natural de

elegir la recta correspondiente es la que minimiza la suma total de los errores al

cuadrado, 2

1

n

ii

e=∑ , donde ( )i i ie y a bx= − + y representa la distancia vertical entre una

observación individual cualquiera y la recta de regresión.

Obtener:

a) El mejor predictor lineal de y respecto de x. b) El error cuadrático medio de la predicción.

Solución: a) Debemos elegir a a y b de manera que minimicen ( )( )2E y a bx − +

.

Ahora:

Page 33: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

32

( )( )[ ] [ ] [ ]

2 2 2 2 2

2 2 2 2

2 2 2

2 2 2

E y a bx E y ay bxy a abx b x

E y aE y bE xy a abE x b E x

− + = − − + + +

= − − + + +

Tomando derivadas parciales respecto de a y b, e igualando a cero:

( ) [ ] [ ]

( ) [ ] [ ]

2

2 2

2 2 2 0

2 2 2 0

E y a bx E y a bE xa

E y a bx E xy aE x bE xb

∂ − − = − + + = ∂

∂ − − = − + + = ∂

Resolviendo el sistema para a y b obtenemos la solución:

[ ] [ ] [ ][ ]( )

( )

[ ] [ ] [ ] [ ]

2 22

cov , y

x x

y

x

E xy E x E y x yb

E x E x

E xa E y bE x E y

σρ

σ σ

σρ

σ

−= = =

= − = −

Donde ( )cov ,

x y

x yρ

σ σ= es el coeficiente de correlación lineal y representa una medida de

la asociación entre las variables x e y, ( )2 varx xσ = y ( )2 vary yσ = .

El mejor predictor lineal (en el sentido de minimizar el error cuadrático medio) de y en función de x resulta:

( )yy x

x

xρσ

µ µσ

+ −

Donde [ ]x E xµ = y [ ]y E yµ = .

b) El error cuadrático medio de la predicción está dado por:

( )

( ) ( ) ( )( )

( )

2

22 22

2

2 2 2 2 2 2 2

2

2 1

yy x

x

y yy x y x

x x

y y y y

E y x

E y E X E y x

σµ ρ µ

σ

σ σµ ρ µ ρ µ µ

σ σ

σ ρ σ ρ σ σ ρ

− − − =

= − + − − − −

= + − = −

Page 34: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

33

5. Estimaciones insesgadas a priori y a posteriori

En esta sección plantearemos otro enfoque de estimación al ya visto en el acápite anterior para encontrar estimadores que nos sirvan para resolver los tres problemas anteriormente planteados, haciendo una distinción de la información disponible en dos instancias, a priori y a posteriori.

5.1 Estimadores insesgados de mínima varianza

Supongamos que un cierto experimento nos conduce a un vector de datos m-

dimensional y de la forma:

y Wβ ε= +

En este modelo W es una matriz conocida, β es un vector n-dimensional de

parámetros desconocidos, y ε es un vector aleatorio m-dimensional con media cero y

covarianza [ ]E Qεε ′ = que asumimos como definida positiva.

Al considerar a β como desconocido estamos en el caso de una estimación a

priori, considerando el momento en donde nos hacemos la pregunta con la información disponible.

El vector y se interpreta generalmente como los resultados de m mediciones

inexactas, con el vector ε presentando los errores de ese proceso de medición. Entonces

las repetidas mediciones de la cantidad β se pueden representar como i iy β ε= + en

donde la matriz W tendría solamente una columna cuyas componentes serían iguales a uno.

Debemos considerar entonces un método para estimar al vector de parámetros

desconocidos β a partir del vectory , o sea un estimador lineal de β de la forma:

� Kyβ =

donde K es una matriz de constantes de n m× .

De acuerdo con este planteo, y resulta ser un vector aleatorio por ser suma del

vector aleatorio ε y el vector constante Wβ .

Page 35: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

34

Por consiguiente, tanto el estimador �β como el error � -β β son vectores

aleatorios con estadísticos determinados por los ε y por K . El criterio de optimalidad inmediato bajo este planteo es la minimización de la

norma del error, expresado como:

�2

-E β β

donde es la norma Euclídea usual en un espacio normado n-dimensional.

Este problema podría expresarse también en términos de los componentes de �β así:

� �( )22

1

-n

i ii

E Eβ β β β=

= − ∑

Podemos ahora escribir este error en forma explícita en términos de las variables

del problema:

( )

2 2 2

2

- - -

-

E E Ky E KW K

KW Traza KQK

β β β β ε β

β β

= = +

′= + (1)

La matriz K que minimiza esta expresión es función del vector de parámetros desconocidos β , por lo que no es posible encontrar la solución buscada con el

problema así planteado. Pero si se cumple que KW I= , la norma del error es independiente de β .

Entonces podemos plantear en estos términos un problema alternativo: encontrar la

estimación � Kyβ = minimizando �2

-E β β

mientras se satisface:

KW I= (2)

Esta solución es independiente de β . Si ahora aplicamos el operador esperanza al

estimador �β nos queda:

� [ ] [ ]E E Ky E KW K KWβ β ε β = = + =

Page 36: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

35

Si KW I= , la expresión se reduce a �E β β = , por lo que el valor esperado del

estimador de β es el mismo β . Los estimadores que exhiben esta propiedad se los

llama insesgados. La solución alternativa consiste en resolver el problema determinístico

equivalente a seleccionar la matriz óptima K . Si retomamos las anteriores ecuaciones (1) y (2), el problema ahora es seleccionar

la matriz de n m× K :

{ }minimizar Traza

sujeto a

KQK

KW I

=

Podemos considerar a este problema como un problema de mínima norma, o

también podemos escribirlo descomponiéndolo en términos de los componentes de �β .

Así el i-ésimo subproblema es ahora:

minimizar

sujeto a 1,2, ,

i i

i j ij

k Qk

k w j nδ

′ = = …

donde jw es la j-ésima columna de W y ijδ es la función delta de Kronecker.

Introduciendo el producto interno ,Q

x y x Qy′= el problema se convierte en:

1

minimizar ,

sujeto a , 1,2, ,

i i Q

i j ijQ

k k

k Q w j nδ− = = …

Y este es un problema convencional de mínima norma ya visto en secciones anteriores, con lo que resulta que:

( ) 11 1i ik Q W W Q W e

−− −′=

donde ie es el vector n-dimensional con el i-ésimo componente unitario y el resto ceros.

Finalmente, teniendo en cuenta todos los subproblemas resulta:

( ) 11 1K Q W W Q W−− −′ ′=

Page 37: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

36

El análisis hecho hasta aquí puede ser resumido por un teorema clásico atribuido a Gauss y a Markov que sintetiza además los supuestos que deben cumplir los estimadores.

Teorema 6: (Gauss-Markov) Supongamos que y Wβ ε= + donde

[ ]

[ ]

E

E Q

ε θ

εε

=

′ =

con Q definida positiva. El estimador lineal insesgado de mínima varianza de β es

� ( ) 1 1W QW W Q yβ − −′ ′=

y la covarianza del error correspondiente

�( ) �( ) ( ) 11E W Q Wβ β β β−− ′ ′− − =

Demostración: La deducción del estimador ya fue realizada más arriba. Sólo queda por calcular la covarianza del error:

�( ) �( ) ( )( )

[ ]( ) ( )

( )

1 11 1 1 1

11

E E Ky Ky

E K K

KQK W Q W W Q QQ W W Q W

W Q W

β β β β β β

εε− −− − − −

−−

′ ′− − = − −

′ ′=

′ ′ ′ ′= =

′=

Podemos afirmar por lo visto que la estimación de Gauss-Markov proporciona un

estimador insesgado de mínima varianza para cada componente más que solamente un vector óptimo en el sentido de minimizar la suma de las varianzas individuales.

Una propiedad interesante que posee el resultado del teorema de Gauss-Markov es

que si [ ]E Iεε ′ = , el estimador lineal insesgado de mínima varianza es idéntico al

obtenido con los estimadores de mínimos cuadrados de la sección anterior.

Page 38: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

37

5.2 Estimadores de mínima varianza

En el apartado anterior vimos que el vector de parámetros β era desconocido, por

lo cual podría haber asumido cualquier valor, dado que considerábamos el juicio que nos brindaba la información era a priori.

En muchas situaciones podemos contar con cierta información, una de ellas podría

ser la media y el desvío del vector de parámetros β . Esta información (a priori) puede

ser aprovechada para producir una estimación a posteriori con una varianza del error menor que con estimadores insesgados de mínima varianza.

Volveremos a considerar la estimación de β con mediciones repetidas de la

forma:

y Wβ ε= +

En este caso tanto β como ε son vectores aleatorios. El criterio de optimalidad

sigue siendo la minimización de �2

-E β β

.

El siguiente teorema que es simplemente una aplicación de las ecuaciones normales, resume este esfuerzo y tiene una aplicación más general.

Teorema 7: (Estimación de mínima varianza) Hagamos que y y β sean vectores

aleatorios, pero no necesariamente de la misma dimensión. Asumamos que [ ]( ) 1E yy

−′

también existe. El estimador lineal �β de β , basado en y , que minimiza la expresión

�2

-E β β

es

� [ ] [ ]( ) 1E y E yy yβ β

−′ ′=

y la correspondiente matriz de covarianza del error

�( ) �( ) [ ] � �

[ ] [ ] [ ]( ) [ ]1

E E E

E E y E yy E y

β β β β ββ β β

ββ β β−

′ ′′− − = −

′ ′ ′ ′= −

Demostración: Para demostrar este teorema procederemos de forma análoga a la demostración del teorema anterior, descomponiéndolo en un problema separado para

Page 39: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

38

cada componente iβ . Al no haber restricciones, el i-ésimo subproblema es simplemente

encontrar la mejor aproximación de iβ en el subespacio generado por los iy .

Escribiendo el estimador óptimo como� Kyβ = , donde K es una matriz de

dimensión n m× , el i-ésimo subproblema es equivalente a seleccionar la i-ésima fila de

K la cual devuelve la óptima combinación lineal de los jy para � iβ .

Entonces, cada fila de K satisface las ecuaciones normales que corresponden a

proyectar los iβ en los jy . Podemos escribir las ecuaciones normales para los n

subproblemas en forma matricial:

[ ]( ) [ ]E yy K E yβ′ ′ ′=

de lo cual se sigue que:

[ ] [ ]( ) 1K E y E yyβ −′ ′=

el cual representa el resultado buscado. La demostración de la fórmula de la covarianza del error sale por sustitución directa.

Ejercicio 10: Dejemos que 1 2,, , nX X X… sean variables aleatorias independientes e

idénticamente distribuidas con media µ y varianza 2σ , y dejemos que 1

n

ii

X X n=

=∑

(media muestral) y que ( )2

2

1 1

ni

i

X XS

n=

−=

−∑ (varianza muestral). Mostrar que:

a) E X µ = .

b) 2

var Xn

σ = .

c) ( ) ( )2

2

1

1n

ii

E X X n σ=

− = − ∑ .

d) 2 2E S σ = .

Solución: a)

Page 40: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

39

[ ]

[ ]

1

1

1

1

1

por ser

ni

i

n

ii

n

ii

i

XE X E

n

E Xn

E Xn

E Xµ µ

=

=

=

=

=

=

= =

b)

[ ]

2

1

2

1

2

1var var

1var por ser independientes

n

ii

n

ii

X Xn

Xn

n

σ

=

=

=

=

=

c) Comenzamos con la siguiente identidad algebraica:

( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( )

22

1

22

1 1 1

22

1

22

1

1

2

2

n

ii

n n n

i ii i i

n

ii

n

ii

n S X X

X X X X

X n X X n X

X n X

µ µ

µ µ µ µ

µ µ µ µ

µ µ

=

= = =

=

=

− = − + −

= − + − − − −

= − + − − − −

= − − −

∑ ∑ ∑

Tomando esperanzas en ambos miembros tenemos:

( ) ( ) ( )

( )

222

1

2

2

1

var

1

n

ii

n E S E X nE X

n n X

n

µ µ

σ

σ

=

− = − − −

= −

= −

d) De la expresión anterior y haciendo pasaje de términos:

2 2E S σ =

Page 41: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

40

6. Optimización en espacios de Hilbert

Hemos llegado al punto en el que vamos a plantear y resolver los tres problemas asociados al método de mínimos cuadrados y que son aplicación directa del teorema de la proyección. Los mismos se derivan de las alternativas de soluciones posibles de la ecuación lineal Ax y= .

Supongamos que A es un operador lineal y acotado que va de un espacio de

Hilbert G a un espacio de H, o sea, :A G H→ . Entonces como vimos previamente, la

ecuación lineal Ax y= puede presentar, para un y H∈ , las siguientes alternativas:

a) Tener una única solución x G∈ , b) No tener solución, c) Tener más de una solución.

Analizaremos ahora cada una de las alternativas: 6.1 El sistema tiene una única solución

Este caso es el más simple desde muchos aspectos, es decir, que A tenga una única

inversa acotada 1A− .

En realidad y ahora generalizando a espacios normados, dado un operador lineal y continuo A que va de un espacio normado cualquiera X a otro espacio normado

cualquiera Y , y asumiendo que A tenga una inversa 1A− , se sigue que 1A− es lineal pero no necesariamente continua.

Sin embargo, si ahora tanto X como Y son espacios de Banach, 1A− si existe, debe ser continua. Este importante resultado del análisis funcional, conocido como el teorema inverso de Banach, lo es no solo en su aspecto analítico sino por las aplicaciones que de él se derivan.

Establecer el resultado anterior implica demostrar primero un lema también muy importante, y el teorema en cuestión. Dado lo extenso de las demostraciones, los enunciaremos solamente.

Page 42: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

41

Proposición 4: Si un operador lineal :A X Y→ tiene una inversa, la inversa 1A− es lineal.

Demostración: Supongamos que ( ) ( )1 11 1 2 2,A y x A y x− −= = , luego:

( ) ( )1 1 2 2,A x y A x y= =

y la linealidad de A implica que ( )1 1 2 2 1 1 2 2A x x y yα α α α+ = + . Así:

( ) ( ) ( )1 1 11 1 2 2 1 1 2 2A y y A y A yα α α α− − −+ = +

Lema 7: (Baire) Un espacio de Banach X no es la unión numerable de muchos densos en ninguna parte conjuntos en X.

Por denso en ninguna parte en X entendemos que el interior de su clausura es vacío.

Teorema 8: (Teorema Inverso de Banach) Dejemos que A sea un operador linear y continuo que va de un espacio de Banach X a un espacio de Banach Y , y supongamos

que la inversa del operador, o sea 1A− , existe. Entonces 1A− es continua.

6.2 El sistema no tiene solución

En este caso, cuando no existe solución, vamos a resolver el problema encontrando una solución por aproximación.

Teorema 9: Hagamos que G y H sean dos espacios de Hilbert y dejemos que

( ),A B G H∈ . Entonces para un y H∈ fijo el vector x G∈ minimiza a y Ax− si y

solo si * *A Ax A y= .

Demostración: Este problema es equivalente a aquel que minimizaba ɵy y− donde

ɵ ( )y R A∈ . Así, aplicando el teorema de la proyección, ɵy es un vector minimizante si y

solo si ɵ ( )y y R A⊥− ∈ . Pero como ( ) ( )R A Nu A

⊥ ∗= , entonces ɵ ( )y y Nu A∗− ∈ .

También ɵ( )A y y A y A Axθ ∗ ∗ ∗= − = − .

Page 43: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

42

El teorema precedente es solo una variación del primer teorema de la proyección

aplicado al subespacio ( )R A , aunque no hay afirmación de existencia en el teorema

dado que, en general, ( )R A puede no ser cerrado.

Tampoco hay afirmación de unicidad del vector minimizante x , dado que aunque ɵy Ax= es único, la pre-imagen de ɵy puede no ser única. Si A A∗ es inversible, la

solución toma la forma de:

( ) 1x A A A y

−∗ ∗=

6.3 El sistema tiene más de una solución

Si la ecuación Ax y= tiene más de una solución, podemos elegir la solución que

exhiba la mínima norma.

Teorema 10: Hagamos que G y H sean dos espacios de Hilbert y dejemos que

( ),A B G H∈ con rango cerrado en H. Entonces el vector x de mínima norma que

satisface Ax y= está dado por x A z∗= , donde z es cualquier solución deAA z y∗ = .

Demostración: Si 1x es una solución deAx y= , la solución general es 1x x u= +

donde ( )u Nu A∈ . Al ser ( )Nu A cerrado, se sigue que allí existe un único vector x de

mínima norma que satisface Ax y= y que este vector es ortogonal a( )Nu A . Así, dado

que ( )R A se lo asume cerrado:

( ) ( )x Nu A R A⊥ ∗∈ =

entonces, x A z∗= para algún z H∈ , y como Ax y= concluimos que AA z y∗ = .

Debemos tener en cuenta que el operador AA∗ es inversible, como suele a menudo ocurrir, la solución óptima toma la forma de:

( ) 1x A AA y

−∗ ∗=

Page 44: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

43

7. Operadores pseudo-inversos

En la última sección hemos podido encontrar una solución para problemas de aproximación o de mínima norma para Ax y= . Sin embargo, es posible utilizar un

enfoque más general que recurre al concepto de operador pseudo-inverso.

Supongamos como hicimos antes que G y H sean dos espacios de Hilbert y que

( ),A B G H∈ con ( )R A cerrado. En aplicaciones prácticas veremos que la clausura de

( )R A se suple si G o H son de dimensión finita.

Definición 9: Entre todos los vectores 1x G∈ que satisfacen:

1 minx

Ax y Ax y− = −

dejemos que 0x sea el único vector de mínima norma. El pseudo-inverso †A de A es el

operador que mapea a y con su correspondiente 0x a medida que y varía en H.

Como se procede en general, debemos mostrar las propiedades inmediatas de †A , es decir, que está bien definido, que sea lineal y por último también acotado.

a) †A está bien definido:

Para esto debemos verificar que hay un único 0x correspondiente a cada y H∈ .

Sabemos que minx

Ax y− se alcanza dado que esto equivale a aproximar a y por un

vector en el subespacio cerrado ( )R A . Esta aproximación es única, aunque 1x pueda no

serlo.

El conjunto de vectores 1x que satisfacen que ɵ1Ax y= es una variedad lineal, por

ser una traslación del subespacio ( )Nu A . Como esta variedad es cerrada, contiene un

único 0x de mínima norma. Por lo tanto †A está bien definido.

b) †A es lineal:

Podemos expresar al espacio G como:

( ) ( )G Nu A Nu A⊥= ⊕

Page 45: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

44

Asimismo, como a ( )R A lo asumimos como cerrado:

( ) ( )H R A R A⊥= ⊕

El operador A restringido a ( )Nu A⊥

puede ser considerado como un operador que

va desde el espacio de Hilbert ( )Nu A⊥

al espacio de Hilbert ( )R A . Entre esos espacios

A el operador es inyectivo y sobreyectivo, por lo que tiene una inversa lineal.

c) †A es acotado: Dado que el operador inverso de A existe y es lineal, aplicando el teorema inverso de Banach, concluimos que también es acotado.

El operador inverso define a †A en ( )R A y su dominio se puede extender a todo

H si definimos †A y θ= para ( )y R A⊥∈ .

Todos estos conceptos pueden verse ilustrados en la figura 5, que además muestra

la relación entre todos los subespacios:

Figura 5

Cualquier y H∈ se puede expresar de exclusivamente como ɵ 1y y y= + donde

ɵ ( )y R A∈ y ( )1y R A⊥∈ . Así ɵy es la mejor aproximación a y en ( )R A .

Luego ɵ( ) ɵ† † †1A y A y y A y= + = . Definamos a †

0x A y= . Entonces por definición

ɵ0Ax y= . Más aún, ( )0x Nu A

⊥∈ y entonces la solución de mínima norma de ɵ1Ax y= .

Page 46: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

45

El operador pseudo-inverso posee un gran número de propiedades algebraicas que son generalizaciones de las propiedades que corresponden a las inversas. Al no ser importantes desde el punto de vista de la optimización, solo las enunciaremos.

Proposición 5: Dejemos que A sea un operador lineal y acotado con rango cerrado y

dejemos que †A denote su pseudo-inverso. Entonces se cumple que:

1) †A es lineal.

2) †A es acotado.

3) ( )††A A= .

4) ( ) ( )† †A A∗∗ = .

5) † † †A AA A= .

6) †AA A A= .

7) ( )† †A A A A∗

= .

8) ( )††A A A A∗ ∗= .

9) ( )††A A AA∗ ∗= .

El operador pseudo-inverso no es de construcción inmediata y para la obtención del mismo no existen fórmulas sencillas. En general se debe recurrir a descomposiciones de la matriz asociada.

Sin embargo, en ciertos casos particulares se puede dar para †A una fórmula

explícita. Por ejemplo, si A A∗ es inversible, entonces ( ) 1†A A A A−∗ ∗= . Si AA∗ es

inversible, entonces ( ) 1†A A AA−∗ ∗= .

Ejercicio 11: Dejemos que m nA ×∈ℝ , mB∈ℝ y supongamos que †AA b b= . Mostrar que cualquier vector de la forma:

( )† † donde es arbitrarionx A b I A A y y= + − ∈ℝ

es solución de Ax b= .

Solución: Para verificar que la expresión dada es una solución, pre-multiplicamos por A:

( )( )

† †

x AA b A I A A y

b A AA A y

b

= + −

= + −

=

Aplicando la propiedad 6) y la definición de operador pseudo-inverso se logra la prueba.

Page 47: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

46

8. Conclusiones

El presente trabajo tuvo por objetivo investigar los operadores más importantes para aplicarlos a problemas de optimización en el contexto de los espacios de Hilbert.

Por lo tanto primero se repasaron los conceptos fundamentales y propiedades en

dichos espacios, teniendo siempre presente que los espacios de Hilbert son espacios normados completos donde se ha definido un producto interno, hecho que hace posible derivar una serie de propiedades geométricas útiles.

A partir del principio de ortogonalidad pudimos desarrollar el teorema de la

proyección y descubrir su central importancia en la resolución de cualquier problema de optimización en estos espacios.

Se pudieron definir entonces variables aleatorias en los espacios de Hilbert, se

definieron los operadores mínimos necesarios y pudimos comprobar que en estos espacios, las medidas usuales utilizadas en probabilidad y estadística, como ser la varianza y la covarianza se pueden calcular a partir del producto interno.

Se planteó el método de los mínimos cuadrados para la resolución del problema

de optimización, hecho que como hemos visto nos lleva en realidad a tres tipos de alternativas.

Por lo tanto, al generalizar este método a los espacios de Hilbert, se pudieron

estudiar la resolución de estas alternativas utilizando las técnicas propuestas. Para el último problema fue necesaria la definición del operador pseudo-inverso,

que nos proporciona un enfoque aún más general para la resolución de problemas de mínima norma.

En casi todas las secciones se enunciaron y resolvieron ejercicios adecuados para

brindar una aplicación práctica a los conceptos estudiados.

Page 48: UNIVERSIDAD DE BUENOS AIRES Maestría en Ingeniería …

47

9. Bibliografía Furuta, Takayuki. Invitation to Lineal Operators. Taylor & Francis Group. CRC Press, Boca Raton, 2001.

Gohberg, Israel y Goldberg, Seymour. Basic Operator Theory. I. Gohberg edition, Birkhäuser, Boston, 1980. Kreyszig, Erwin. Introductory Functional Analysis with Applications. John Wiley & Sons, New York, 1978. Lax, Peter D. Functional Analysis. John Wiley & Sons, New York, 2002. Luenberger, David G. Optimization by Vector Space Methods. John Wiley & Sons, New York, 1969.