teoría de núcleos reproductivos y aplicaciones a máquinas

64
TEORÍA DE NÚCLEOS REPRODUCTIVOS EN ESPACIOS DE HILBERT Y APLICACIONES A MÁQUINAS DE SOPORTE VECTORIAL Laura Sánchez Gómez Tesis presentada al Departamento de Matemáticas, Facultad de Ciencias, Pontificia Universidad Javeriana para optar por el grado de Matemáticas Dirigida por: Gerardo R. Chacón Ph.D. Mayo, 2012 Bogotá - Colombia

Upload: others

Post on 04-Nov-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

TEORÍA DE NÚCLEOS REPRODUCTIVOS EN

ESPACIOS DE HILBERT Y APLICACIONES A

MÁQUINAS DE SOPORTE VECTORIAL

Laura Sánchez Gómez

Tesis presentada al Departamento de Matemáticas, Facultad de Ciencias,Pontificia Universidad Javeriana para optar por el grado de Matemáticas

Dirigida por:Gerardo R. Chacón Ph.D.

Mayo, 2012

Bogotá - Colombia

Í N D I C E G E N E R A L

Agradecimientos 5

Introducción 7

1 preliminares 11

1.1 Espacios de Hilbert 11

1.2 Optimización con Restricciones en Rn34

2 máquinas de soporte vectorial 39

2.1 Aprendizaje de Máquinas 39

2.2 Máquinas de Soporte Vectorial 44

2.3 Dualidad de Lagrange 49

3 aplicación 59

Bibliografía 63

3

A G R A D E C I M I E N T O S

Quiero agradecer principalmente a Gerardo Chacón Ph.D., por su eterna pa-ciencia y disposición para trabajar conmigo y ayudarme a cumplir mis sueños;a Renato Colucci Ph.D. por sus aportes a este trabajo, a la Pontificia Universi-dad Javeriana por brindarme los medios para alcanzar este logro, y a todos losprofesores que hicieron parte del proceso.

5

I N T R O D U C C I Ó N

El Aprendizaje de Máquinas es un tema de gran interés que ha ido creciendo enlos últimos años y del que tenemos referencia a partir de la ciencia ficción. Eneste momento, se habla de aprendizaje de máquinas como algo natural, a pesarde ser un objetivo que todavía parece ser lejano. Las llamadas Máquinas de So-porte Vectorial, surgen como una posible manera de desarrollar el aprendizaje enmáquinas, siendo un método novedoso en la clasificación de datos.

La teoría del aprendizaje de máquinas comenzó a crecer a partir de 1900, dondeempezaron a surgir diferentes técnicas de aprendizaje que promovieron el desa-rrollo del concepto. Las máquinas de soporte vectorial pueden ser vistas comouna aplicación del Análisis Funcional, que surgió como un nuevo grupo de algo-ritmos de aprendizaje, y tiene sus raíces en la Teoría del Aprendizaje Estadístico[5]. La Teoría del Aprendizaje Estadístico fue desarrollada por los matemáticosrusos Vladimir Vapnik y Alexey Chervonenkis en 1974. Más adelante, en 1992,Vapnik, Isabelle Guyon, Bernhardt E. Boser presentaron en la conferencia sobreTeoría del Aprendizaje Computacional (COLT) una investigación acerca de algo-ritmos muy similares a los que hoy se denominan Máquinas de Soporte Vectorial.A partir de entonces, a nivel mundial existe mucha gente trabajando en el tema,el cual ha ido adquiriendo importancia con diferentes aplicaciones en camposcomo las finanzas, la bioinformática y la genética entre otros [6], [17], [19], [20],[21].

Las máquinas de soporte vectorial constituyen una técnica de clasificación dedatos, en la cual se cuenta con dos o más grupos de clasificación y se parte deun conjunto de datos de muestra previamente catalogados en esos grupos. Seproporciona un nuevo conjunto de datos, los cuales deben ser clasificados en losgrupos establecidos anteriormente. Para esto, se cuenta con una serie de algorit-mos y funciones, entre otras herramientas, que permiten realizar la clasificaciónde forma correcta. Mediante estas herramientas, se compara el grado de simila-ridad entre los datos de muestra y los nuevos datos, de manera que habiendoestablecido ciertos parámetros de similitud, es posible establecer a qué grupopertenecen los datos problema [5].

7

8 Introducción

La técnica antes mencionada se desarrolla por medio de los denominados Nú-cleos Reproductivos. En 1907, Stanislaw Zaremba introdujo por primera vez unnúcleo correspondiente a determinada clase de funciones. Dos años después, Ja-mes Mercer descubrió que dichos núcleos poseían una propiedad particular, lapropiedad reproductiva. A partir de ahí, Mercer comenzó a estudiar funciones realesque satisfacían la propiedad reproductiva en la Teoría de Ecuaciones Integralesde Hilbert, y las nombró núcleos definidos positivos, y fue Eliakim H. Moore en1935, quien amplió la teoría a funciones complejas. En 1950, Nachman Aronszajnpublicó “Teoría de Núcleos Reproductivos” donde demostró que cada núcleo re-productivo definido positivo y simétrico, determina un único Espacio de Hilbertcon Núcleo Reproductivo, teorema que ahora se conoce como el Teorema de Moore- Aronszajn [9].

En el Departamento de Matemáticas de nuestra Universidad, el tema de Má-quinas de Soporte Vectorial es poco conocido, a pesar de que constituye unainteresante aplicación del análisis funcional a problemas actuales [10], [14], [15];por lo tanto, en el presente trabajo, se realizará una recopilación bibliográfica yun estado del arte sobre la Teoría de los Núcleos Reproductivos en espacios deHilbert Funcionales, enfocándose en sus propiedades e importancia en el desarro-llo del aprendizaje de máquinas por medio del algoritmo de máquinas de soportevectorial, y se mostrarán aplicaciones que tiene toda esta teoría en el mundo realy más específicamente en Colombia.

El primer capítulo está compuesto por temas preliminares, necesarios para elestudio de la Teoría de Núcleos Reproductivos. La sección 1.1, es una recopilaciónde definiciones y resultados básicos de la Teoría de Espacios de Hilbert, nos ba-saremos en [1], [2], [3], [11]. La sección 1.2, incluye teoría sobre Optimización conRestricciones en Rn, haciendo uso de [12], [16]. El segundo capítulo trata sobreMáquinas de Soporte Vectorial y Núcleos Reproductivos; la sección 2.1, incluyeuna pequeña introducción acerca de Aprendizaje de Máquinas, utilizando [8]; enla sección 2.2 se desarrolla la teoría de Máquinas de Soporte Vectorial, basada en[8], [7], [5]; en la sección 2.3, se encuentra la Dualidad de Lagrange, indispensablepara la solución de problemas de optimización con restricciones de igualdad ydesigualdad, empleando [12]. En el tercer capítulo, daremos un ejemplo de dón-de es posible aplicar las Máquinas de Soporte Vectorial, y describiremos su usopara la clasificación de datos provenientes de electroencefalogramas de pacientes

Introducción 9

que sufren de epilepsia, tomando como referencia [23]; para ello comenzaremosdando una breve introducción a la teoría de Series de Tiempo, tomando comobase [4].

1P R E L I M I N A R E S

En este primer capítulo haremos una recopilación de conceptos previos nece-sarios para la Teoría de Máquinas de Soporte Vectorial. En la primera sección,encontraremos una introducción a la Teoría de Espacios de Hilbert y posterior-mente a la Teoría de Núcleos Reproductivos. La segunda sección, describe laOptimización con Restricciones en Rn.

1.1 espacios de hilbert

Los Espacios de Hilbert son espacios vectoriales con propiedades adicionales,que los dotan de ciertas nociones geométricas similares a los espacios de dimen-sión finita. Comenzaremos con la definición de espacio vectorial y a partir de ahí,iremos desarrollando la teoría.

Definición 1.1.1. Sea (X, K,+, ·) un espacio vectorial, con dos operaciones, definidascomo + : X×X→ X y · : X×K→ X tales que para todo x,y, z ∈ X, y todo α,β ∈ K

(i) x+ y = y+ x

(ii) (x+ y) + z = x+ (y+ z)

(iii) Existe un único 0 ∈ X tal que x+ 0 = x

(iv) Para todo x ∈ X, existe un único −x ∈ X tal que x+ (−x) = 0

(v) 1 · x = x

(vi) (αβ) · x = α(β · x)

(vii) α · (x+ y) = αx+αy

(viii) (α+β) · x = α · x+β · x

Observación 1.1.2. Para el resto del documento, denotaremos por K al cuerpo R ó alcuerpo C.

Definiremos a continuación el producto interno.

Definición 1.1.3. Sea X un espacio vectorial. Un producto interno sobre X es una fun-ción 〈·, ·〉 : X×X→ K tal que para todo x,y, z ∈ X

11

12 preliminares

(i) 〈x+ y, z〉 = 〈x, z〉+ 〈y, z〉

(ii) 〈αx,y〉 = α〈x,y〉

(iii) 〈x,y〉 = 〈y, x〉

(iv) 〈x, x〉 > 0; 〈x, x〉 = 0 si y sólo si x = 0

A continuación, daremos la definición de una norma sobre un espacio vectorialX, y posteriormente, de base de Schauder.

Definición 1.1.4. Sea X un espacio vectorial. Una norma ‖ · ‖ : X→ R+ es una funciónque satisface:

(i) ‖x‖ = 0 si y sólo si x = 0

(ii) ‖αx‖ = |α|‖x‖, para todo α ∈ K y todo x ∈ X

(iii) ‖x+ y‖ 6 ‖x‖+ ‖y‖, para todo x,y ∈ X

Definición 1.1.5. Sea (X, ‖ · ‖) un espacio normado. Si existen vectores e1, e2, e3, . . . ∈X tales que para todo x ∈ X, existen α1,α2,α3, . . . ∈ K con ‖x − (α1e1 + . . . +

αnen)‖ → 0, cuando n→∞, decimos que {ei} es una Base de Schauder para X.

El producto interno cuenta con las siguientes propiedades:

Teorema 1.1.6 (Identidad del Paralelogramo).

‖x+ y‖2 + ‖x− y‖2 =(‖x‖2 + ‖y‖2

)∀x,y ∈ X

donde ‖x‖2 = 〈x, x〉.

Demostración.

‖x+ y‖2 + ‖x− y‖2 = 〈x+ y, x+ y〉+ 〈x− y, x− y〉= 〈x, x+ y〉+ 〈y, x+ y〉+ 〈x, x− y〉− 〈y, x− y〉= 〈x, x〉+ 〈x,y〉+ 〈y, x〉+ 〈y,y〉+ 〈x, x〉

− 〈x,y〉− 〈y, x〉+ 〈y,y〉= 2 〈x, x〉+ 2 〈y,y〉

= 2(‖x‖2 + ‖y‖2

)

Cuando una norma satisface la identidad del paralelogramo, puede demostrar-se que ésta proviene de un producto interno.

1.1 espacios de hilbert 13

Teorema 1.1.7 (Identidad de Polarización). Si ‖ · ‖ norma, satisface la Identidad delParalelogramo, entonces, para todo x,y ∈ X,

(i) Si K = R

〈x,y〉 = 1

4

(‖x+ y‖2 − ‖x− y‖2

)(ii) Si K = C

Re 〈x,y〉 = 1

4

(‖x+ y‖2 − ‖x− y‖2

)Im 〈x,y〉 = 1

4

(‖x+ iy‖2 − ‖x− iy‖2

)Demostración. (i) Sea K = R, y sean x,y ∈ X

1

4

(‖x+ y‖2 − ‖x− y‖2

)=

1

4(〈x+ y, x+ y〉− 〈x− y, x− y〉)

=1

4(〈x, x〉− 〈x, x〉+ 〈y,y〉− 〈y,y〉+ 2 〈x,y〉+ 〈y, x〉)

=1

2(〈x,y〉+ 〈y, x〉)

Como K = R, 〈x,y〉 = 〈x,y〉, entonces

=2

2〈x,y〉

= 〈x,y〉

(ii) Sea K = C, y sean x,y ∈ X. Veamos primero la parte real,

1

4

(‖x+ y‖2 − ‖x− y‖2

)=

1

4(〈x+ y, x+ y〉− 〈x− y, x− y〉)

=1

2(〈x,y〉+ 〈y, x〉)

=1

2

(〈x,y〉+ 〈x,y〉

)= Re 〈x,y〉

Veamos ahora la parte imaginaria,

1

4

(‖x+ iy‖2 − ‖x− iy‖2

)=

1

4(〈x+ iy, x+ iy〉− 〈x− iy, x− iy〉)

=1

2(〈x, iy〉+ 〈iy, x〉)

=1

2i

(〈x,y〉− 〈x,y〉

)= Im 〈x,y〉

14 preliminares

Teorema 1.1.8 (Desigualdad de Cauchy-Schwarz).

| 〈x,y〉 | 6 ‖x‖‖y‖ ∀x,y ∈ X

Demostración. Sea α ∈ K, entonces

0 6 ‖x−αy‖2

= 〈x−αy, x−αy〉= 〈x, x−αy〉−α 〈y, x−αy〉= 〈x, x〉−α 〈x,y〉−α 〈y, x〉+ |α|2 〈y,y〉= ‖x‖2 −α〈y, x〉−α 〈y, x〉+ |α|2‖y‖2

= ‖x‖2 − 2Re (α 〈y, x〉) + |α|2‖y‖2

Si y 6= 0, entonces tomamos α =〈y, x〉‖y‖2

, entonces

0 6 ‖x‖2 − 2Re

(〈y, x〉‖y‖2

〈y, x〉

)+

|〈y, x〉|2

‖y‖4‖y‖2

= ‖x‖2 − 2 |〈y, x〉 |2

‖y‖2+

| 〈x,y〉 |2

‖y‖2

= ‖x‖2 − | 〈x,y〉 |2

‖y‖2

Luego,| 〈x,y〉 |2 6 ‖x‖2‖y‖2

Sacando raíz cuadrada a ambos lados de la desigualdad, obtenemos el resultado.

Observación 1.1.9. La igualdad se obtiene si y = 0 ó si ‖x−αy‖2 = 0 i.e. si x = αy.

Proposición 1.1.10. Si ‖x‖ = 〈x, x〉1/2, entonces ‖x+ y‖ 6 ‖x‖+ ‖y‖.

Demostración.

‖x+ y‖2 = 〈x+ y, x+ y〉= 〈x, x〉+ 〈x,y〉+ 〈y, x〉+ 〈y,y〉6 ‖x‖2 + 2‖x‖‖y‖+ ‖y‖2

= (‖x‖+ ‖y‖)2

1.1 espacios de hilbert 15

Ahora, daremos la definición de Espacio de Banach, y posteriormente de Espa-cio de Hilbert.

Definición 1.1.11. Un espacio es completo si toda sucesión de Cauchy es convergentedentro del espacio.

Definición 1.1.12. Un espacio normado completo se dice un Espacio de Banach.

Definición 1.1.13. Un espacio H completo, con producto interno se dice un Espacio deHilbert.

El producto interno, es una función continua.

Lema 1.1.14. Sea X un espacio con producto interno; Sean (xn), (yn) sucesiones en Htales que xn → x y yn → y con x,y ∈ H. Entonces

〈xn,yn〉 → 〈x,y〉

Demostración.

| 〈xn,yn〉− 〈x,y〉 | = | 〈xn,yn〉− 〈xn,y〉+ 〈xn,y〉− 〈x,y〉 |6 | 〈xn,yn − y〉 |+ | 〈xn − x,y〉6 ‖xn‖‖yn − y‖+ ‖xn − x‖‖y‖

Como (xn) es convergente, existe M > 0 tal que ‖xn‖ 6M y como ‖xn − x‖ → 0

y ‖yn − y‖ → 0, se obtiene el resultado.

Introduciremos ahora funciones denominadas operadores lineales, es decir,funciones definidas sobre espacios vectoriales, en particular, son funciones de-finidas sobre espacios normados.

Definición 1.1.15. Un operador lineal T es una función con dominio D(T) y rango R(T)ambos espacios vectoriales definidos sobre el mismo cuerpo K que satisface

(i) T(x+ y) = Tx+ Ty para todo x,y ∈ D(T)

(ii) T(αx) = αTx para todo α ∈ K y todo x ∈ D(T)

Definiremos a continuación operadores lineales acotados.

Definición 1.1.16. Sea T : D(T) ⊂ X → Y un operador lineal. T es acotado si existec > 0 tal que

‖Tx‖Y 6 c‖x‖Xpara todo x ∈ D(T). En otras palabras, T envía conjuntos acotados, en conjuntos acota-dos.

16 preliminares

Definición 1.1.17. Si x 6= 0, entonces‖Tx‖Y‖x‖X

6 c para todo x 6= 0, x ∈ D(T). Definimos

‖T‖ := sup{‖Tx‖‖x‖

: x 6= 0, x ∈ D(T)

}Lema 1.1.18. Sea T acotado. Entonces,

(i)

‖T‖ = sup{‖Tx‖‖x‖

: ‖x‖ = 1}

= sup {‖Tx‖ : ‖x‖ = 1}

(ii) ‖ · ‖ es una norma en el espacio vectorial de los operadores lineales acotados.

Demostración. (i)

‖T‖ = sup{∥∥∥∥ 1

‖x‖Tx

∥∥∥∥ : x 6= 0, x ∈ D(T)

}= sup

{∥∥∥∥T ( x

‖x‖

)∥∥∥∥ : x 6= 0, x ∈ D(T)

}= sup {‖Ty‖ : ‖y‖ = 1}

(ii) Veamos ahora que ‖ · ‖ es una norma en el espacio de los operadores. Vea-mos que ‖T‖ = 0⇔ Tx = 0

‖T‖ = 0 → sup {‖Tx‖ : ‖x‖ = 1} = 0⇔ ‖Tx‖ = 0 ∀x ∈ D(T); ‖x‖ = 1⇔ Tx = 0 ∀x ∈ D(T); ‖x‖ = 1

Ahora bien si y 6= 0, y ∈ D(T) entoncesy

‖y‖tiene norma 1 y por lo tanto,

0 = T

(y

‖y‖

)=

1

‖y‖‖Ty‖ → ‖Ty‖ = 0

Veamos ahora que ‖αT‖ = |α|‖T‖ para todo α ∈ K.

‖αT‖ = sup {‖αTx‖ : ‖x‖ = 1}= sup {|α|‖Tx‖ : ‖x‖ = 1}= |α| sup {‖Tx‖ : ‖x‖ = 1}= |α|‖T‖ ∀α ∈ K

1.1 espacios de hilbert 17

Veamos ahora que ‖T + L‖ 6 ‖T‖+ ‖L‖ para L operador lineal acotado.

‖T + L‖ = sup {‖(T + L)x‖ : ‖x‖ = 1}= sup {‖Tx+ Lx‖ : ‖x‖ = 1}6 sup {‖Tx‖+ ‖Lx‖ : ‖x‖ = 1}= sup {‖Tx‖ : ‖x‖ = 1}+ sup {‖Lx‖ : ‖x‖ = 1}= ‖T‖+ ‖L‖

Observación 1.1.19. Si T es un operador lineal acotado,

‖Tx‖ 6 ‖T‖‖x‖

Teorema 1.1.20. Sea X normado, dim(X) < ∞. Entonces todo operador lineal es acota-do.

Demostración. Sea {e1, . . . , en} una base de X. Sea x ∈ X, x = α1e1, . . . ,αnen. SeaT : X→ X un operador lineal, entonces

‖Tx‖ = ‖T (α1e1 + . . .+αnen)‖= ‖α1Te1 + . . .+αnTen‖6 |α1|‖Te1‖+ . . .+ |αn|‖Ten‖6 max

16i6n‖Tei‖ (|α1|+ . . .+ |αn|)

6 c−1 max16i6n

‖Tei‖‖x‖

donde c−1 max16i6n

‖Tei‖ es constante, luego T es acotado.

Teorema 1.1.21. Sea T : D(T) ⊂ X→ Y, X, Y espacios normados.

(i) T es continuo si y sólo si T es acotado.

(ii) Si T es continuo en un punto, entonces T es continuo en D(T).

Demostración. (i) ⇐) Sea x ∈ D(T) arbitrario y ε > 0. Tomemos 0 < δ <ε

‖T‖,

T 6= 0, entonces si ‖x− y‖ < δ

‖Tx− Ty‖ = ‖T(x− y)‖ 6 ‖T‖‖x− y‖ < ‖T‖δ < ε

18 preliminares

El caso T = 0 es trivial.⇒) Sean x,y ∈ D(T). Dado ε > 0 existe δ > 0 tal que ‖y− z‖ < δ, entonces,

‖Ty− Tz‖ < ε. Sea z = y−δx

2‖x‖. Entonces,

‖y− z‖ =∥∥∥∥ δx

2‖x‖

∥∥∥∥ =δ

2< δ

Luego por continuidad se tiene que

‖Ty− Tz‖ = ‖T(y− z)‖ =∥∥∥∥T ( δx

2‖x‖

)∥∥∥∥ < ε → δ

2‖x‖‖Tx‖ < ε

→ ‖Tx‖ < 2ε

δ‖x‖

Luego T es acotado.

(ii) T es continua en y, por lo tanto T es acotada, así, por (i), T es continua.

Corolario 1.1.22. Sea T : D(T) ⊂ X→ Y acotado. Entonces,

(i) Si xn → x, xn, x ∈ D(T), entonces Txn → Tx en Y.

(ii) N(T) es cerrado.

Demostración. (i) Se tiene directamente de la continuidad de T .

(ii) Sea (xn) ⊂ N(T) convergente. Supongamos xn → x. Como T es acotado,Txn → Tx pero Txn = 0 entonces, Txn → 0. Luego Tx = 0, entonces x ∈N(T) y por lo tanto N(T) es cerrado.

Teorema 1.1.23. Sea T : D(T) ⊂ X→ Y lineal y acotado, Y espacio de Banach. Entoncesexiste una extensión T : D(T) → Y tal que T |D(T) = T , T es lineal y acotado, y ‖T‖ =‖T‖.

Demostración. Sea x ∈ D(T)\D(T), existe (xn) ⊂ D(T) tal que xn → x. Entonces(xn) es de Cauchy y como T es continua, (Txn) es de Cauchy en Y. Así, como Yes completo, existe y ∈ Y tal que Txn → y. Definimos Tx := y. Veamos que Txestá bien definido. Supongamos wn → x, (wn) ⊂ D(T).

‖Txn − Twn‖ = |T(xn −wn)‖ 6 ‖T‖‖xn −wn‖ → 0

1.1 espacios de hilbert 19

Luego T está bien definido en D(T)\D(T).Definimos ahora T |D(T) = T . Sean x,w ∈ D(T)\D(T), α,β ∈ K. Existen D(T) 3xn → x, D(T) 3 wn → w

T(αx,βw) = lımn→∞ T(αxn +βwn)

= lımn→∞ T(αxn) + T(βwn)

= α lımn→∞ Txn +β lım

n→∞ Twn= αTx+βTw

Sea x ∈ D(T)\D(T), entonces

‖T‖ =∥∥∥ lımn→∞ Txn

∥∥∥= lım

n→∞ ‖Txn‖6 lım

n→∞ ‖T‖‖xn‖= ‖T‖‖x‖

entonces, T es acotado y ‖T‖ 6 ‖T‖.Por otro lado,

‖T‖ = sup{‖Tx‖ : ‖x‖ = 1, x ∈ D(T)

}‖T‖ = sup {‖Tx‖ : ‖x‖ = 1, x ∈ D(T)}

entonces ‖T‖ > ‖T‖, debido a que tomamos el supremo sobre ‖T‖ ⊃ ‖T‖.

Supongamos que contamos con un espacio con producto interno, es posiblecompletar dicho espacio, de manera que se obtenga un espacio de Hilbert, comose muestra a continuación.

Teorema 1.1.24. Sea X un espacio con producto interno. Entonces existe un espaciocompleto con producto interno H y un operador lineal T tal que T : X→W ⊂ H sea unisomorfismo de X en W y W sea denso en H.

Demostración. X es un espacio normado, por lo tanto, existe H espacio de Banach,W ⊂ H denso en H y T : X→W isomorfismo de espacios normados.

Nótese que si z,w ∈W, podemos definir

〈z,w〉H := 〈Tx, Ty〉H= 〈x,y〉X

20 preliminares

donde Tx = z y Ty = w.

Ahora, si z,w ∈W, existen (zn), (wn) ⊂W tales que zn → z y wn → w.

Definimos 〈z,w〉 := lımn→∞ 〈zn,wn〉.

Veamos ahora que 〈·, ·〉 está bien definido y que además es un producto interno.Sean zn → z,wn → w, veamos que

|〈zn,wn〉− 〈zn,wn〉| = 0

lımn→∞ |〈zn,wn〉− 〈zn,wn〉| =

∣∣∣ lımn→∞ (〈zn,wn〉− 〈zn,wn〉)

∣∣∣= |〈z,w〉− 〈z,w〉|

Así, |〈zn,wn〉− 〈zn,wn〉|→ 0.

Veamos ahora que 〈·, ·〉 es un producto interno. Sean z,w, v ∈ H y sea α ∈ K

(i)

〈z+w, v〉 = 〈z, v〉+ 〈w, v〉〈z+w, v〉 = lım

n→∞ 〈zn +wn, vn〉

= lımn→∞ (〈zn, vn〉+ 〈wn, vn〉)

= lımn→∞ 〈zn, vn〉+ lım

n→∞ 〈wn, vn〉

= 〈z, v〉+ 〈w, v〉

(ii)

〈αz,w〉 = α 〈z,w〉〈αz,w〉 = lım

n→∞ 〈αzn,wn〉

= lımn→∞ (α 〈zn,wn〉)

= α lımn→∞ 〈zn,wn〉

= α 〈z,w〉

1.1 espacios de hilbert 21

(iii)

〈z,w〉 = 〈w, z〉〈z,w〉 = lım

n→∞ 〈zn,wn〉

=⟨

lımn→∞ zn, lım

n→∞wn⟩

=⟨

lımn→∞wn, lım

n→∞ zn⟩

= lımn→∞ 〈wn, zn〉

= 〈w, z〉

(iv)

〈z, z〉 > 0

〈z, z〉 = lımn→∞ 〈zn, zn〉

> 0

〈z, z〉 = 0 ⇔ z = 0

〈z, z〉 = 0 ⇔ lımn→∞ 〈zn, zn〉 = 0

⇔ lımn→∞ zn = 0

⇔ z = 0

Definición 1.1.25. Un funcional lineal es un operador lineal con rango en el espacio delos escalares

f : D(f)→ K

Definición 1.1.26. Sea X un espacio vectorial normado. Definimos el Dual Algebráicoy el Doble Dual Algebráico como

X∗ = {f : X→ K : f es lineal}

X∗∗ = {g : X∗ → K : g es lineal}

respectivamente.

Para cada x ∈ X, definimos gx : X∗ → K tal que gx(f) := f(x). Nótese que gx eslineal, con f,h ∈ X∗

gx(αf+βh) = (αf+βh)(x)

= αf(x) +βh(x)

= αgx(f) +βgx(h)

22 preliminares

Por lo tanto, gx ∈ X∗∗.

Ahora, a cada x ∈ X le corresponde un gx ∈ X∗∗. Definimos entonces la Inmer-sión Canónica Q como

Q : X→ X∗∗

x 7→ gx

Veamos que Q es lineal, sea f ∈ X∗

Q(αx+βy) = gαx+βy(f)

= f(αx+βy)

= αf(x) +βf(y)

= αgx(f) +βgy(f)

= αQ(x) +βQ(y)

Definición 1.1.27. Sea T : X→ Y operador lineal, donde dim(X) <∞ y dim(Y) <∞.Sea {e1, . . . , en} una base para X y {b1, . . . ,bm} una base para Y. Tomemos x ∈ X,entonces

x = α1e1 + . . .+αnen

y por lo tantoTx = α1Te1 + . . .+αnTen

Asociamos al operador T ↔ (τjk)j=1,...,mk=1,...,n

de modo que

Tek =

m∑j=1

τjkbj

Ahora, sea f : X → K un funcional lineal. f(x) = α1f(e1) + . . .+ αnf(en) asociamos af↔ (f(e1), . . . , f(en)). Definimos, para k = 1, . . . ,n

fk(ej) := δkj =

{1 Si k = j

0 Si k 6= jProposición 1.1.28. {f1, . . . , fn} son una base para X∗.

Demostración. (i) Veamos que los f ′ks son linealmente independientes. Supon-gamos que

n∑k=1

βkfk = 0

→n∑k=1

βkfk(ej) = 0 ∀j = 1, . . . ,n

→ βj = 0 ∀j = 1, . . . ,n

1.1 espacios de hilbert 23

(ii) Veamos ahora que {f1, . . . , fn} genera X∗. Sea f ∈ X∗

f(x) = α1f(e1) + . . .+αnf(en)

fj(x) = αj

f(x) = f1(x)f(e1) + . . .+ fn(x)f(en)

f =

n∑j=1

f(ej)fj

Luego {f1, . . . , fn} es una base para X∗. Más aun, dim(X∗) = dim(X) = n.

Lema 1.1.29. Sea x ∈ X, dim(X) < ∞. Si x es tal que f(x) = 0 para todo f ∈ X∗,entonces x = 0.

Demostración.

x = α1e1 + . . .+αnen

f(x) =

n∑j=1

αjf(ej) = 0 ∀f ∈ X∗

entonces, para cualquier vector (β1, . . . ,βn),n∑j=1

αjβj = 0. En particular, para

todo i, tomemos (0, . . . , 0, 1,i-ésima

0, . . . , 0), entonces, αi = 0 para todo i, y por lo

tanto x = 0.

Teorema 1.1.30. Todo espacio finito dimensional es algebráicamente reflexivo, i.e. X esalgebráicamente reflexivo si Q es biyectiva. Sea

Q : X → X∗∗

x 7→ Q(x)

Demostración. Veamos que Q es inyectiva. Supongamos que Q(x) = 0, es decirQ(x)(f) = 0 para todo f ∈ X∗∗, entonces f(x) = 0 para todo f ∈ X∗, luego x = 0.Así N(Q) = {0} y por lo tanto Q es inyectiva. Luego Q−1 : R(Q) → X existe y esun operador lineal. Más aun, como dim(X) <∞, entonces dim(X) = dim(R(Q)).Pero sabemos que dim(X∗∗) = dim(X∗) = dim(X) = dim(R(Q)), entonces, X∗∗ =R(Q).

Si X es un espacio normado, definimos su Dual X ′ como el espacio vectorial delos funcionales lineales acotados.

24 preliminares

Observación 1.1.31. X ′ ⊂ X∗

Definición 1.1.32. Un isomorfismo T entre dos espacios normados X e Y es un operadorlineal biyectivo T : X→ Y tal que

‖Tx‖ = ‖x‖

para todo x ∈ X.

A continuación, introduciremos los conceptos de suma directa y los comple-mentos ortogonales, veamos algunas propiedades de la ortogonalidad primero.Iniciaremos recordando la definición de distancia entre un punto y un conjunto.

Definición 1.1.33. Sean x un punto, Y un conjunto arbitrarios. Definimos la distanciaentre x y Y como

d (x, Y) := ınf {d (x,y) : y ∈ Y}= ınf {‖x− y‖ : y ∈ Y}

Definición 1.1.34. Dos vectores x,y en H son ortogonales si 〈x,y〉H = 0.

Definición 1.1.35. Sea X un espacio métrico y sea M ⊂ X. M es convexo si paratodo x,y ∈ M, el segmento que los une está totalmente contenido en M. Es decir, seaSt(x,y) := xt+ (1− t)y, St(x,y) ∈M para todo t ∈ [0, 1].

Teorema 1.1.36. Sea X un espacio con producto interno. Sea M ⊂ X no vacío, completoy convexo. Entonces si x ∈ X, existe un único y ∈M tal que ‖x− y‖ = d(x,M).

Demostración. Si x ∈M, entonces d(x,M) = 0 y ‖x− x‖ = d(x,M).

Ahora, si x /∈ M,d(x,M) = ınf {‖x− y‖ : y ∈M}. Por propiedades del ínfimo,existe (yn) ⊂M tal que ‖x− yn‖ → d(x,M). Veamos que (yn) es de Cauchy. Seax− yn = vn,

‖vn + vm‖ = ‖− ym − yn + 2x‖= ‖yn + ym − 2x‖

= 2

∥∥∥∥yn + ym2− x

∥∥∥∥> 2d(x,M)

nótese queyn + ym

2∈M pues M es convexo.

1.1 espacios de hilbert 25

Ahora bien

‖yn − ym‖2 = ‖yn − x+ x− ym‖2

= ‖vm − vn‖2

= −‖vm + vn‖2 + 2(‖vm‖2 + ‖vn‖2

)6 −4 (d(x,M))2 + 2

(‖x− yn‖2 + ‖x− ym‖2

)→ 0, si n,m→∞

Entonces, (yn) ⊂M es de Cauchy y por lo tanto yn → y ∈M.

Luego

d(x,M) = lımn→∞ ‖x− yn‖

=∥∥∥x− lım

n→∞yn∥∥∥

= ‖x− y‖

Estudiaremos ahora la unicidad. Supongamos que existe y ∈M tal que‖x− y‖ = d(x,M)

‖y− y‖2 = ‖(y− x) − (y− x)‖2

= −‖(y− x) + (y− x‖2 + 2(‖y− x‖2 + ‖y− x‖2

)= −4

∥∥∥∥y+ y2 − x

∥∥∥∥2 + 4 (d(x,M))2

6 −4 (d(x,M))2 + 4 (d(x,M))2

= 0

así, y = y.

Lema 1.1.37. Sea X un espacio con producto interno, Y ⊂ X un subespacio completo. Six ∈ X, sabemos que existe y ∈ Y tal que

‖y− x‖ = d(x, Y)

Entonces z := x− y es ortogonal al espacio Y, i.e., 〈z,w〉 = 0, para todo w ∈ Y.

Demostración. Supongamos que existe y ∈ Y tal que 〈z, y〉 6= 0.

‖z−αy‖2 = 〈z−αy, z−αy〉= ‖z‖2 −α 〈y, z〉− α 〈z, y〉+ |α|2 ‖y‖2

= ‖z‖2 − α 〈z, y〉−α(〈y, z〉− α ‖y‖2

)

26 preliminares

Queremos que 〈y, z〉− α ‖y‖2 = 0. Tomemos α =〈y, z〉‖y‖2

. Entonces,

‖z−αy‖2 = ‖z‖2 −|〈z, y〉|2

‖y‖2

6 ‖z‖2 − (d(x, Y))2

Pero z− αy = x− (y+αy) con (y+αy) ∈ Y, lo que es una contradicción. Así,〈z, y〉 = 0.

Definición 1.1.38. Sea Y ⊂ X completo

(i) Definimos el complemento ortogonal como Y⊥ := {x ∈ X : x⊥Y}. Nótese que Y⊥

es no vacío, pues contiene siempre al 0.

(ii) Un espacio X es una suma directa de dos subespacios Y,Z i.e. X = Y ⊕ Z si todovector x ∈ X se escribe de manera única como x = y+ z donde y ∈ Y y z ∈ Z.

Teorema 1.1.39. Sea H un espacio de Hilbert y Y ⊂ H un subespacio cerrado de H.Entonces,

H = Y ⊕ Y⊥

Demostración. Por el lema anterior, para todo x ∈ H, existe z ∈ Y⊥. Pero x =

z+ (x− z) = z+ y donde y es tal que ‖x− y‖ = d(x, Y).Veamos que x se escribe de manera única. Supongamos x = y1+ z1 donde y1 ∈ Yy z1 ∈ Y⊥. Luego,

y+ z = y1 + z1

Y 3 (y− y1) = (z1 − z) ∈ Y⊥

Entonces,

(y− y1) ∈ Y ∩ Y⊥ → 〈y− y1,y− y1〉 = 0→ y = y1

(z− z1) ∈ Y ∩ Y⊥ → 〈z− z1, z− z1〉 = 0→ z = z1

A continuación, encontramos el Teorema de Representación de Riesz I, el cualnos permite tener una representación explícita y única, de funcionales linealesacotados. Posteriormente en esta sección, cuando se introduzcan los Núcleos Re-productivos,este Teorema será de particular interés, debido a que es la base de laPropiedad Reproductiva.

1.1 espacios de hilbert 27

Teorema 1.1.40 (Teorema de Representación de Riesz I). Todo funcional lineal aco-tado f en un espacio de Hilbert H puede ser representado como

f(x) = 〈x, z〉

de forma única, donde z depende de f, más aun ‖f‖ = ‖z‖.

Demostración. (i) Demostremos la representación. Si f ≡ 0, basta tomar z = 0 yf(x) = 〈x, z〉 para todo x ∈ H.

Supongamos ahora f 6= 0. Como H es un espacio de Hilbert y N(f) escerrado, entonces

H = N(f)⊕N(f)⊥

Como f 6= 0, N(f) 6= H y por lo tanto N(f)⊥ 6= 0. Fijemos x ∈ H.

Sea z ∈ N(f)⊥ y consideremos el siguiente vector

v := f(x)z− f(z)x

Nótese que f(v) = 0 por lo tanto x ∈ N(f). Así,

0 = 〈v, z〉= 〈f(x)z− f(z)x, z〉= f(x) ‖z‖2 − f(z) 〈x, z〉

luego,

f(x) =f(z) 〈x, z〉‖z‖2

=

⟨x, z

f(z)

‖z‖2

Por lo tanto, tomando z =zf(z)

‖z‖2obtenemos el resultado.

(ii) Veamos ahora que z es único. Supongamos que existe z ′ ∈ H tal que

f(x) = 〈x, z〉 = 〈x, z ′〉 para todo x ∈ H

entonces 〈x, z− z ′〉 = 0 para todo x ∈ H. En particular,⟨z− z ′, z− z ′

⟩= 0 →

∥∥z− z ′∥∥2 = 0→ z = z ′

28 preliminares

(iii) Veamos ahora que ‖f‖ = ‖z‖. Sabemos que f(x) = 〈x, z〉 para todo x ∈ H.En particular

f(z) = 〈z, z〉= ‖z‖2

6 ‖f‖‖z‖→ ‖z‖ 6 ‖f‖

Ahora,

|f(x)| = |〈x, z〉|6 ‖x‖‖z‖

→ ‖f‖ 6 ‖z‖

Así, ‖f‖ = ‖z‖.

Observación 1.1.41. Si 〈x,y〉 = 0 para todo x ∈ H, entonces y = 0.

Definición 1.1.42. Sean X y Y dos espacios vectoriales sobre el mismo cuerpo K. Unaforma sesquilineal es una aplicación h : X× Y → K tal que para todo x, x1, x2 ∈ X, todoy,y1,y2 ∈ Y y todo α,β ∈ K

(i) h (αx1 +βx2,y) = αh (x1,y) +βh (x2,y)

(ii) h (x,αy1 +βy2) = αh (x,y1) + βh (x,y2)

Definición 1.1.43. Una forma sesquilineal es acotada si existe c > 0 tal que

|h(x,y)| 6 c‖x‖‖y‖ para todo x ∈ X y todo y ∈ Y.

Más aun,

‖h‖ := ınf {c > 0 : |h(x,y)| 6 c‖x‖‖y‖}

= sup(x,y)∈X×Y

|h(x,y)|‖x‖‖y‖

= sup‖x‖=1‖y‖=1

|h(x,y)|

El Teorema de Representación de Riesz II, nos permite representar de formaúnica una función sesquilineal acotada, como un producto interno sobre un es-pacio de Hilbert.

1.1 espacios de hilbert 29

Teorema 1.1.44 (Teorema de Representación de Riesz II). Sean H1 y H2 espacios deHilbert y h : H1 ×H2 → K una forma sesquilineal acotada. Entonces, existe un únicooperador lineal acotado S : H1 → H2 tal que

h(x,y) = 〈Sx,y〉H2para todo x ∈ H1 y para todo elemento y ∈ H2.

Más aun, ‖h‖ = ‖S‖.

Demostración. Sea x fijo. Tomemos fx : H2 → K definido como fx(y) = h(x,y).Nótese que fx es lineal. Además,

|fx(y)| =∣∣∣h(x,y)

∣∣∣= |h(x,y)|6 ‖h‖‖x‖‖y‖

entonces fx es acotado y ‖fx‖ = ‖h‖‖x‖.

Por el Teorema de Representación de Riesz I existe z ∈ H1 tal que fx(y) = 〈y, z〉H2.

Es decir, h(x,y) = 〈y, z〉H2para todo y ∈ H2. Entonces h(x,y) = 〈y, z〉H2

paratodo y ∈ H2.

Definamos S : H1 → H2 como Sx = z

〈S (αx1 +βx2) ,y〉H2= h (αx1 +βx2)

= αh (x1,y) +βh (x2,y)= α 〈Sx1,y〉+β 〈Sx2,y〉= 〈αSx1 +βSx2,y〉H2

para todo y ∈ H2. Entonces, 〈S (αx1 +βx2) −αSx1 +βSx2,y〉H2= 0 para todo

y ∈ H2.Así, S (αx1,βx2) = αSx1 +βSx2, y por lo tanto S es lineal.

30 preliminares

Veamos ahora que ‖h‖ = ‖S‖.

‖h‖ = supx6=0y 6=0

|h(x,y)|‖x‖‖y‖

= supx6=0y 6=0

|〈Sx,y〉|‖x‖‖y‖

> supx6=0

|〈Sx,Sx〉|‖x‖‖Sx‖

= supx6=0

‖Sx‖‖x‖

= ‖S‖

Así, S es acotado y ‖S‖ 6 ‖h‖.Ahora,

‖h‖ = supx6=0y 6=0

|h(x,y)|‖x‖‖y‖

= supx6=0y 6=0

|〈Sx,y〉|‖x‖‖y‖

6 supx6=0y 6=0

‖Sx‖ ‖y‖‖x‖‖y‖

= ‖S‖

Así, ‖h‖ 6 ‖S‖, y por lo tanto ‖h‖ = ‖S‖.

Veamos ahora que S es único. Supongamos que S y T satisfacen

h(x,y)H2= 〈Sx,y〉 = 〈Tx,y〉

para todo x ∈ H1 y todo y ∈ H2. Entonces,

〈Sx− Tx,y〉 = 0 ∀x ∈ H1, y ∀y ∈ H2→ Sx− Tx = 0 ∀x ∈ H1→ S = T

1.1 espacios de hilbert 31

Introduciremos ahora Espacios de Hilbert con Núcleo Reproductivo. Este con-cepto es fundamental para las Máquinas de Soporte Vectorial, debido a que estosespacios permitirán la clasificación de los datos, cuando éstos no son linealmenteseparables.

Definición 1.1.45. Sea X ⊂ H no vacío y H un espacio de Hilbert de funciones f :

X → K, entonces H se denomina un Espacio de Hilbert con Núcleo Reproductivo(RKHS)(Por sus siglas en inglés: Reproducing Kernel Hilbert Space.) , si existe unafunción K : X×X→ K denominada núcleo reproductivo (En inglés reproducing kernel.)de H que cumple con la siguiente propiedad:

Propiedad Reproductiva Para todo x ∈ X y toda función f ∈ H,

f(x) = 〈f,K(x, ·)〉

Observación 1.1.46. Si todos los funcionales de evaluación son acotados, la propiedadreproductiva se sigue directamente del Teorema de Representación de Riesz I 1.1.40.

Veamos algunas propiedades.

Proposición 1.1.47. Un Espacio de Hilbert con Núcleo Reproductivo determina un úni-co núcleo reproductivo.

Demostración. Sean K y K ′ generadores de H un RKHS.K y K ′ son simétricos pues

K(x, x ′) =⟨K(x, ·),K(x ′, ·)

⟩=⟨K(x ′, ·),K(x, ·)

⟩= K(x ′, x)

de manera análoga para K ′, luego,

K ′(x ′, x) =⟨K ′(x ′, ·),K(x, ·)

⟩=⟨K(x, ·),K ′(x ′, ·)

⟩= K(x, x ′)

pero K ′ es simétrico luego,

K(x, x ′) = K ′(x, x ′)

Definición 1.1.48. Dado K : X× X → K y entradas x1, . . . , xm ∈ X, la matriz K conelementos Kij := K

(xi, xj

)i, j = 1, . . .m, se denomina Matriz Gram de K (o matriz de

kernels) respecto a x1, . . . , xm.

Definición 1.1.49. Una matriz Km×m compleja, que satisface∑i,j

cicjKij > 0 (1)

para todo ci en C se denomina Matriz Definida Positiva. De manera similar, una matrizKm×m real y simétrica, que cumple con (1) para todo ci ∈ R.

32 preliminares

Definición 1.1.50. Sea X no vacío. Una función K en X×X tal que para todo i ∈ N ypara todo xi ∈ X, da lugar a una matriz definida positiva, se denomina Kernel DefinidoPositivo, o simplemente kernel.

Proposición 1.1.51. Si K es un kernel definido positivo y xi, xj ∈ X, entonces

(i) K(xi, xi) > 0, para todo xi ∈ X

(ii) K(xi, xj) = K(xj, xi)

(iii) |K(xi, xj)|2 6 K(xi, xi)K(xj, xj)

Demostración. (i) K(xi, xi) = 〈K(·, xi),K(·, xi)〉 = ‖K(·, xi)‖ > 0

(ii) K(xi, xj) =⟨K(·, xi),K(·, xj)

⟩=⟨K(·, xj),K(·, xi)

⟩= K(xj, xi)

(iii) Tomemos xi, xj como nuestros únicos puntos. Construimos la matriz dekernels correspondiente (

K(xi, xi) K(xi, xj)K(xj, xi) K(xj, xj)

)Los determinantes de toda submatriz principal de una matriz definida po-sitiva son positivos, luego

K(xi, xi)K(xj, xj) −K(xi, xj)K(xj, xi) > 0

K(xi, xi)K(xj, xj) −K(xi, xj)K(xi, xj) > 0

K(xi, xi)K(xj, xj) − |K(xi, xj)|2 > 0

Así, |K(xi, xj)|2 6 K(xi, xi)K(xj, xj).

Teorema 1.1.52 (Teorema de Moore-Aronszajn). Sea K un kernel reproductivo de-finido positivo y simétrico sobre un conjunto X. Entonces, existe un único espacio deHilbert de funciones en X para el cual K es un kernel reproductivo i.e. un kernel repro-ductivo definido positivo y simétrico determina un único espacio de Hilbert con núcleoreproductivo.

Demostración. Definimos para cada x ∈ X, Kx = K(x, ·). Sea H0 el espacio linealgenerado por {Kx : x ∈ X}. Definimos un producto interno sobre H0 como⟨

n∑j=1

βjKyj ,m∑i=1

αiKxi

⟩=

m∑i=1

n∑j=1

αiβjK(yj, xi)

1.1 espacios de hilbert 33

La simetría de este producto interno se tiene directamente de la simetría de K.Sea H la completación de H0 respecto al producto interno. Entonces las funcionesde H son de la forma

f(x) =

∞∑i=1

αiKxi(x)

donde∞∑i=1

α2iK(xi, xi) <∞ por la desigualdad de Cauchy-Schwarz.

Veamos ahora que se cumple la Propiedad Reproductiva.

〈f,Kx〉 =

⟨ ∞∑i=1

αiKxi ,Kx

=

∞∑i=1

αiK(xi, x)

= f(x)

Ahora veamos que H es único. Supongamos existe H otro espacio de Hilbertde funciones para el que K es núcleo reproductivo. Para todo x,y ∈ X, por lapropiedad reproductiva tenemos que

〈Kx,Ky〉H = K(x,y)= 〈Kx,Ky〉H

Pues por linealidad, 〈·, ·〉H = 〈·, ·〉H en el espacio generado por {Kx : x ∈ X}. Así,H = H por la unicidad de la completitud.

Ejemplos 1.1.53 (Núcleos Reproductivos). Sea X ⊂ Rn

(i) Kernel Polinomial K(x, x ′) = 〈x, x ′〉d

(ii) Kernel Gaussiano K(x, x ′) = exp[−‖x− x ′‖2

2σ2

]Demostración. (i) Para demostrar que es un núcleo reproductivo, basta ver que

la matriz de kernels es definida positiva.∑ij

cicj⟨xi, xj

⟩d=∑ij

⟨c1/di xi, c

1/dj xj

⟩d> k

⟨∑i

c1/di xi,

∑j

c1/dj xj

⟩d

= k

∥∥∥∥∥∑i

c1/di xi

∥∥∥∥∥2

> 0

34 preliminares

Así, el Kernel polinomial es un núcleo reproductivo.

(ii) Para demostras que

K(x, x ′) = exp[−‖x− x ′‖2

2σ2

]es definido positivo, basta con demostrar que∑

ij

cicj(−‖xi − xj‖2) > 0

Supongamosn∑i=1

ci = 0, entonces

n∑i,j=1

cicj‖xi − xj‖2 =

n∑i,j=1

cicj

(‖xi‖2 + ‖xj‖2 − 〈xi, xj〉− 〈xj, xi〉

)=

n∑i=1

ci‖xi‖2n∑j=1

cj +

n∑j=1

cj‖xj‖2n∑i=1

ci

⟨n∑i=1

cixi,n∑j=1

cjxj

⟩−

⟨n∑j=1

cjxj,n∑i=1

cixi

= −

∥∥∥∥∥n∑i=1

cixi

∥∥∥∥∥2

∥∥∥∥∥n∑i=1

cixi

∥∥∥∥∥2

6 0

Así,n∑

i,j=1

cicj(−‖xi−xj‖2) es definido positivo, y por lo tanto exp[−‖x− x ′‖2

2σ2

]también lo es.

1.2 optimización con restricciones en Rn

En esta sección discutiremos problemas de optimización con restricciones enRn, tanto con restricciones de igualdad y desigualdad.

Consideremos el siguiente problema de optimizaciónminimizar f(x),sujeto a:x ∈ X

(2)

1.2 optimización con restricciones en Rn35

Con X ⊂ Rn.

Definición 1.2.1. Sea f : Rn → R y consideremos un problema de optimización comoen (2), donde X ⊂ Rn es no vacío

(i) Los puntos de X se denominan soluciones posibles para (2).

(ii) Sea x ∈ X. Si f(x) > f(x) para todo x ∈ X, entonces x se denomina una soluciónóptima para el problema.

(iii) La colección de soluciones óptimas se denomina conjunto de soluciones óptimasalternativas.

(iv) Sea x ∈ X. Si existe un entorno Nε(x) de x tal que f(x) > f(x) para todo x ∈X∩Nε(x), entonces x se denomina una solución óptima local.

(v) Sea x ∈ X. Si f(x) > f(x) para todo x ∈ X∩Nε(x), x 6= x, para ε > 0, entonces xse denomina una solución óptima local estricta.

Teorema 1.2.2. Consideremos el problema de optimización (2), donde X es un conjuntoconvexo no vacío de Rn, y f : X→ R es convexa en X. Si x ∈ X es una solución óptimalocal del problema, entonces x es una solución óptima global. Más aun, si x es un mínimolocal estricto, o si f es estrictamente convexa, entonces x es la única solución óptimaglobal.

Demostración. Como x es una solución óptima local, entonces existe un entornoNε(x) de x tal que

f(x) > f(x) para todo x ∈ X∩Nε(x) (3)

Supongamos por contradicción que x no es una solución óptima global, entoncesexite x tal que f(x) < f(x) para algún x ∈ X. Como f es convexa tenemos

f(λx+ (1− λ)x) 6 λf(x) + (1− λ)f(x)

< λf(x) + (1− λ)f(x)

= f(x)

para λ ∈ (0, 1). Si tomamos λ > 0 suficientemente pequeño, λx + (1 − λ)x =

x+ λ(x− x) ∈ X ∩Nε(x) lo que contradice (3), y por lo tanto x es una soluciónóptima global.Ahora, sea x un mínimo local estricto. Luego por lo anterior, x es un mínimo glo-bal. Veamos que es la única solución óptima global. Sea x ∈ X tal que f(x) = f(x).Definimos xλ = λx+(1−λ)x para λ ∈ [0, 1]. Por convexidad de f y S tenemos que,f(xλ) 6 λf(x) + (1− λ)f(x) = f(x), donde xλ ∈ X para todo λ ∈ [0, 1]. Tomando

36 preliminares

λ → 0+, obtenemos que xλ ∈ X ∩Nε(x) para todo ε > 0, lo que contradice elhecho de que x es un mínimo local estricto y por lo tanto, x es la única soluciónóptima global.Supongamos ahora que f es estrictamente convexa y que x es una solución ópti-ma local. Como la convexidad estricta implica la convexidad, entonces x es unasolución óptima global. Sea x ∈ X, x 6= x, tal que f(x) = f(x). Como f es estric-

tamente convexa, f(1

2x+

1

2x

)<1

2f(x) +

1

2f(x) = f(x). Dado que S es convexa,

1

2x+

1

2x ∈ S, lo que contradice el hecho de que x es una solución óptima global,

luego x es la única solución óptima global.

Para la resolución de problemas de optimización con restricciones de igualdad,introduciremos el Método de Multiplicadores de Lagrange. Consideremos entoncesun problema de la siguiente forma

minimizar f(x),sujeto a:gi(x) = 0 i = 1, . . . ,mx ∈ X

(4)

Este método nos dice que los valores extremos (o puntos críticos) de la funciónf(x), cuyas variables están sujetas a una restricción g(x) = 0, se encuentran en lasuperficie de g = 0 entre los puntos donde

∇f =n∑i=1

λi∇gi

para λi ∈ R para todo i = 1, . . . ,n, denominados Multiplicadores de Lagrange.

Teorema 1.2.3. Sea f(x) diferenciable en una región cuyo interior contiene una curvasuave

C : r(t) = (h1(t), . . . ,hn(t)) .

Si P0 es un punto en C donde f tiene un máximo (mínimo) local respecto a sus valores enla curva C, entonces ∇f es ortogonal a C en P0.

Demostración. Veamos que ∇f es ortogonal al vector de la velocidad de la cur-va C en el punto P0. Los valores de f en C están dados por la composiciónf (h1(t), . . . ,hn(t)), derivando con respecto a t obtenemos

df

dt=∂f

∂x1

dh1dt

+ . . .+∂f

∂xn

dhn

dt= ∇f · v.

1.2 optimización con restricciones en Rn37

En cualquier punto P0 donde f tiene un máximo (mínimo) local respecto a sus

valores en la curva C,df

dt= 0, entonces

∇f · v = 0.

Consideremos ahora problemas de optimización con restricciones de desigual-dad. Sea

S = {x ∈ X : gi(x) 6 0, i = 1, . . . ,m} ,

donde gi : Rn → R para i = 1, . . . ,m y X ⊂ Rn no vacío. De esta forma, obtene-mos el siguiente problema de optimización

minimizar f(x),sujeto a:gi(x) 6 0 para i = 1, . . . ,m,x ∈ X

(5)

Observación 1.2.4. Para el resto del documento, denotaremos

(i)

g1(x) 6 0...

gm(x) 6 0

como g(x) 6 0.

(ii)

λ1 = 0...

λm = 0

como λ = 0.

(iii)

h1(x) = 0...

hm(x) = 0

como h(x) = 0.

38 preliminares

Introduciremos ahora las Condiciones Karusch-Kuhn-Tucker para problemasde optimización convexos. La demostración de dicho Teorema puede encontrarseen [13], a continuación encontramos el enunciado.

Teorema 1.2.5 (Condiciones Karusch-Kuhn-Tucker). Supongamos (5) es un proble-ma de optimización convexo. Entonces, x ∈ X es una solución óptima si y sólo si, existeun vector λ = (λ1, . . . , λm) ∈ Rm tal que

(i) ∇f(x) +m∑i=1

λi∇gi(x) = 0

(ii) g(x) 6 0

(iii) λ > 0

(iv) λ>g(x) = 0

2M Á Q U I N A S D E S O P O RT E V E C T O R I A L

2.1 aprendizaje de máquinas

El aprendizaje de Máquinas se puede entender como la habilidad de una má-quina para perfeccionarse a si misma simulando la forma en que los humanosaprendemos por medio de diferentes algoritmos. El aprendizaje de máquinas sedivide en varios algoritmos, pero los dos más comunes pues han adquirido ma-yor importancia son [8]:

Aprendizaje Supervisado, donde contamos con {(xi,yi) : i = 1, . . . ,m} ⊆ X× Yun conjunto muestra previamente clasificados, donde los xi denominadosentradas (los datos a clasificar) son vectores de características, y los yi de-nominados etiquetas (la clasificación) pertenecen ya sea a un conjunto dis-creto o a un conjunto continuo. Si Y = R hablamos de una regresión, y siY = {1, ...,n} hablamos de un problema de clasificación.

Aprendizaje No Supervisado, donde los datos no se encuentran entiquetados.Los algoritmos buscan patrones en los datos para crear una representaciónde ellos, que puede ser utilizada para toma de decisiones, para predecirfuturas entradas, o para comunicar de forma eficiente las entradas xi aotras máquinas.

Ejemplos 2.1.1. 1. Supongamos que queremos vender una casa. Sean xi ∈ X, i =1, . . . ,m las características de otras casas y sean yi ∈ Y = R, i = 1, . . . ,m losprecios de esas casas. Por medio de estos datos queremos determinar a qué preciopodemos vender nuestra casa.Supongamos nuestro xi es una sola característica.

39

40 máquinas de soporte vectorial

Área (m2) Precio (Millones de Pesos)

116

123

180

240

320...

75

80

295

320

400...

Graficamos estos datos y realizamos una regresión (en este caso lineal) y obtenemosun precio estimado para nuestra casa de acuerdo con su área.

Figura 1: Gráfica de área de las casas contra el precio, se realiza regresión lineal, con elfin de predecir a partir de ella el precio de una casa dada su área.

2. Sea Y = {0, 1} Contamos con datos de tumores cancerígenos y no cancerígenos.Representaremos los tumores cancerígenos con × y los no cancerígenos con ◦. Su-pongamos que al graficar los datos obtenemos lo siguiente

2.1 aprendizaje de máquinas 41

Figura 2: Clasificación de tumores benignos y tumores malignos.

El algoritmo que estemos usando dividirá el plano de modo que los tumores cancerí-genos quedarán separados de los no cancerígenos. Así, cuando introduzcamos lascaracterísiticas de un tumor nuevo, dependiendo de la sección del plano donde seencuentre, el algoritmo dirá si es o no cancerígeno.

Consideremos el problema de clasificación de puntos en dos conjuntos A =

{p1, . . . ,pn} y B = {q1, . . . ,qm}. Dicho problema es obviamente demasiado gene-ral a menos que coloquemos ciertas condiciones y cierto espacio ambiente.

Supongamos por un momento que los puntos son representables en el plano(digamos pi = (xi,yi)) y que buscamos hallar una recta que los divide. Este pro-blema resulta más sencillo pues basta con considerar las posibles ecuaciones delas rectas centradas en el origen y observar si existe una recta y una translaciónde dicha recta que nos permita resolver el problema.

Analicemos un poco más este procedimiento: Tomamos una función de la for-ma fm(x,y) = y−mx (un funcional lineal) y calculamos el subespacio Ker(fm).Luego procedemos a ver si existe un vector a tal que a+ Ker(fm) constituye larecta buscada.

Miremos este procedimiento desde un punto de vista más abstracto: Podemospensar en el espacio R2 como en un espacio de funciones definidas sobre elconjunto {1, 2} a valores reales. Es decir

R2 = {g : {1, 2}→ R}

42 máquinas de soporte vectorial

por medio de la identificación g ↔ (g(1),g(2)). Observemos que para cada i ∈{1, 2} se tiene que

|g(i)| 6√

(g(1))2 + (g(2))2

por lo tanto, los funcionales de evaluación γi : R2 → R definidos como γi(g) :=g(i) son acotados.

En otras palabras, tenemos que γ1,γ2 ∈ R2 y por el Teorema de representaciónde Riesz, existen elementos K1 y K2 en R2 tales que

γi(g) = 〈g,Ki〉.

Se puede ver fácilmente que en este caso K1 ↔ (1, 0) y K2 ↔ (0, 1). Esto nosdice que dichas funciones son además generadoras del espacio R2.

Si ahora observamos al funcional fm por medio de su representación como vec-tor de R2: fm ↔ (−m, 1), tenemos entonces que f = −mK1 + K2 y por lo tantoresolver el problema de hallar la recta adecuada puede ser visto como el pro-blema de hallar el hiperplano −mK1x+ K2y = a donde a es cierta constante demanera que al sustituir los valores dados por los puntos iniciales del problema,nos resulte que los puntos de un conjunto estén a un lado diferente de la rectaque los puntos del otro conjunto.

Es claro que este procedimiento puede no funcionar pues es posible que lospuntos no puedan ser divididos por una recta. Pero entonces podríamos tratarde aumentar en cierta manera la dimensión del espacio y observar si tenemosmayores posibilidades de resolverlo.

Una forma de hacer esto es suponiendo que por ejemplo tenemos más funcio-nes del tipo de K1 y K2 con las que podemos trabajar. Digamos entonces quetenemos una familia de funciones K1, . . . Kn que forman una base de un ciertoespacio vectorial V . Entonces el problema se reduce a encontrar un hiperplano

de la forman∑i=1

αiKi(·) = C de manera que los puntos iniciales se encuentren

divididos adecuadamente a cada lado del hiperplano.

Al aumentar la dimensión del espacio conservando el mismo número de pun-tos a clasificar, es entonces de esperarse que en algún momento sea posible hallarsuficientes elementos de la forma Ki para poder realizar la clasificación.

2.1 aprendizaje de máquinas 43

Dichos funcionales son los llamados núcleos reproductivos. Explicaremos a con-tinuación cómo se desarrolla el algoritmo de máquinas de soporte vectorial antesde implementar núcleos reproductivos y posteriormente cómo se desarrolla unavez implementados.

Tomamos un conjunto de datos en X ⊂ Rn cuya clasificación es conocida (elconjunto muestra). Supongamos que la clasificación es una clasificación binaria,y denotemos por A y B los dos conjuntos de clasificación. Si X no es un conjuntolinealmente separable, construimos una función, denominada función caracterís-tica (en inglés Feature Map) ϕ : X → H con dim(X) < dim(H), la cual envíalos vectores de nuestro conjunto muestra a un espacio de dimensión mayor, elespacio característico H (en inglés feature space). Debido a que queremos me-dir la similaridad entre los datos de muestra y los datos a clasificar, buscamosun espacio que tenga ciertas características geométricas, por lo tanto, se esperaque dicha función característica envíe los datos a un espacio de Hilbert, dondepor medio del producto interno caractericemos la similitud. Una vez calculada ϕde forma explícita, separamos los datos de A y B por medio de un hiperplano,y procedemos a clasificar los datos nuevos. Los datos se clasifican midiendo lasimilaridad entre ellos y cada uno de los datos previamente clasificados, de lasiguiente manera. Sea xi ∈ A y zi un dato a clasificar. Calculamos el productointerno

〈ϕ(xi),ϕ(zi)〉

Después de determinar si zi pertenece a A o a B, calculamos nuevamente elhiperplano óptimo para separar a A de B y posteriormente volvemos al espacioX donde estábamos trabajando inicialmente.

La función ϕ tiene dos problemas, primero, puede ser complicado determinar-la, y segundo, es posible que dim(H) sea muy alta, o incluso infinito.

Ejemplo 2.1.2. Sea X = R2. Sea

ϕ : R2 → H = R4

(x1, x2) 7→ (x21, x22, x1x2, x2x1)

Cuando contamos con funciones de este tipo, donde miramos todos los productos ordena-dos de cierto grado, la dimensión del espacio de Hilbert estará dado por(

d+n− 1

d

)=

(d+n− 1)!d! (n− 1)!

donde n es la dimensión del espacio de entradas y d es el grado de dicho producto. Nóteseque si n→∞ y d→∞, entonces dim(H) =∞.

44 máquinas de soporte vectorial

Como solución a esto, surgen los núcleos reproductivos. Utilizamos el KernelTrick, el cual consisten en definir K(xi, zi) := 〈ϕ(xi),ϕ(zi)〉, donde K(·, ·) es unnúcleo reproductivo. De esta forma, no es necesario calcular ϕ y los datos sonenviados por medio de K a un Espacio de Hilbert con Núcleo Reproductivo,donde K calculará la similitud entre los datos sin necesidad del producto interno.

2.2 máquinas de soporte vectorial

Sea X un espacio de Hilbert, debido a que el producto interno es consideradouna medida de similaridad. Sea {(xi,yi) : i = 1, . . . ,m} ⊆ X× {−1, 1} un conjuntode datos linealmente separables (es decir que los datos se pueden separar pormedio de un segmento de recta). Esto se denomina clasificación de datos, puesexisten dos tipos de datos.

Supongamos que al graficar los datos obtenemos lo siguiente:

Figura 3: Clasificación de datos linealmente separables.

Definición 2.2.1. Sea H un espacio de Hilbert y sean x1, . . . , xm ∈ H. Un hiperplanoL en H se define como L = {x ∈ H : 〈w, x〉+ b = 0}, donde w ∈ H, b ∈ R. Geomé-tricamente, w, el vector ponderación, es un vector perpendicular al hiperplano, y b es eldesplazamiento del hiperplano desde el origen.

Definición 2.2.2. Sea {(xi,yi) : i = 1, . . . ,m} un conjunto muestra de datos. Definimosel margen funcional de (w,b) con respecto al conjunto muestra como

γi = yi (〈w, xi〉+ b)

2.2 máquinas de soporte vectorial 45

Si γi > 0, esto implica que (xi,yi) se clasificó correctamente.

Dado un conjunto muestra S = {(xi,yi) : i = 1, . . . ,m}, definimos el margen funcio-nal de (w,b) respecto a S como

γ = mıni=1,...,m

γi

Definición 2.2.3. Definimos el margen geométrico γi como la menor distancia entrexi y el hiperplano L, la cual está dada por

γi = yi

(⟨w

‖w‖, xi

⟩+

b

‖w‖

)Definimos el margen geométrico de (w,b) respecto a S como

γ = mıni=1,...,m

γi

Veamos el origen de esta fórmula. Sean xi un dato en el plano y x ′i un puntoen el hiperplano, el cual está dado por

x ′i = xi − γiw

‖w‖

Ahora, como x ′i es un punto del hiperplano,⟨w, x ′i

⟩+ b = 0

Reemplazamos y obtenemos⟨w, xi − γi

w

‖w‖

⟩+ b = 0

Despejamos γi

〈w, xi〉−γi‖w‖

〈w,w〉+ b = 0

‖w‖ (〈w, xi〉+ b)‖w‖

=γi‖w‖2

‖w‖

‖w‖(〈w, xi〉+ b‖w‖

)= γi‖w‖⟨

w

‖w‖, xi

⟩+

b

‖w‖= γi

Esto lo hicimos con (xi,yi = 1), luego en general tenemos,

46 máquinas de soporte vectorial

γi = yi

(⟨w

‖w‖, xi

⟩+

b

‖w‖

). (6)

Intuitivamente, lo que queremos es que todos los xi nos queden lo más lejos po-sible del hiperplano, pues de esta forma la máquina tendrá más confianza sobresu clasificación. Aquellos datos que se encuentran muy cercanos al hiperplanolos llamaremos vectores de soporte. Para que los vectores de soporte estén lo másalejados posible del hiperplano, planteamos el siguiente problema de optimiza-ción:

Proposición 2.2.4 (Clasificador de Margen Óptimo). Sea S = {(xi,yi) : i = 1, . . . ,m}

un conjunto muestra. El hiperplano que soluciona el problema de optimización

maxγ,w,b

γ,

sujeto a:yi (〈w, xi〉X + b) > γ i = 1, . . . ,m‖w‖ = 1

provee el máximo margen geométrico, y por lo tanto es un hiperplano óptimo.

Demostración. Nótese que ‖w‖ = 1 es una restricción no convexa, además, por (6)

γ =γ

‖w‖. Reemplazando en nuestro problema de optimización, obtenemos

maxγ,w,b

γ

‖w‖,

Sujeto a:yi (〈w, xi〉X + b) > γ i = 1, . . . ,m

Ahora, contamos con una restricción convexa, pero nuestro objetivoγ

‖w‖es no

convexo. Fijemos γ = 1. Más aun, maximizar1

‖w‖, es lo mismo que minimizar

‖w‖2, por lo que nuestro problema de optimización se transforma enmınγ,w,b

1

2‖w‖2,

Sujeto a:yi (〈w, xi〉X + b) > 1 i = 1, . . . ,m

A continuación, utilizaremos multiplicadores de Lagrange para transformarnuestro problema de optimización original en un problema de optimización dual.

2.2 máquinas de soporte vectorial 47

Con el fin de mantener la continuidad del presente trabajo, la Teoría de Dualidadde Lagrange se desarrollará en la sección 2.3. Escribiremos la restricción como

gi(w) = −yi (〈w, xi〉X + b) + 1 6 0

El Lagrangiano está dado por

L (w,b,α) =1

2‖w‖2 −

m∑i=1

αi [yi (〈w, xi〉X + b) − 1]

donde los αi > 0 son los multiplicadores de Lagrange. Hallemos la derivadaparcial de L respecto a w y a b, e igualemos a cero

∂wL (w,b,α) = w−

m∑i=1

αiyixi = 0

de la ecuación anterior obtenemos que

w =

m∑i=1

αiyixi (7)

∂bL (w,b,α) =

m∑i=1

αiyi = 0 (8)

Reemplazamos ahora (7) y (8) en el Lagrangiano

L (w,b,α) =1

2〈w,w〉X −

m∑i=1

[αiyi 〈w, xi〉X + bαiyi −αi]

=1

2

⟨m∑i=1

αiyixi,m∑j=1

αjyjxj

⟩X

m∑i=1

αiyi

⟨m∑j=1

αjyjxj, xi

⟩X

−b

m∑i=1

αiyi +

m∑i=1

αi

=1

2

m∑i,j=1

αiαjyiyj⟨xi, xj

⟩X−

m∑i,j=1

αiαjyiyj⟨xi, xj

⟩X+

m∑i=1

αi

=

m∑i=1

αi −1

2

m∑i,j=1

αiαjyiyj⟨xi, xj

⟩X

El problema de optimización dual estará dado por

48 máquinas de soporte vectorial

maxαW(α) =

m∑i=1

αi −1

2

m∑i,j=1

αiαjyiyj⟨xi, xj

⟩X

,

Sujeto a:αi > 0 i = 1, . . . ,mm∑i=1

αiyi = 0

Supongamos ahora que α∗ denota los parámetros que resuelven el problema

de optimización dual, y que w∗ =m∑i=1

α∗iyixi denota su vector ponderación debi-

do a (7).

Nótese que el valor de b∗ no se obtiene de resolver el problema dual, sino quese obtiene directamente del problema original y está dado por

b∗ = −

maxi:yi=−1

〈w∗, xi〉+ mıni:yi=1

〈w∗, xi〉

2

Ahora bien, las condiciones KKT, establecen que las soluciones óptimas α∗, (w∗,b∗)deben satisfacer

α∗i [yi (〈w∗, xi〉+ b∗) − 1] = 0, i = 1, . . . ,m

Esto implica que sólo para entradas xi, para las cuales el margen funcional esigual a 1, los α∗i son distintos de cero. Así, sólo estas entradas son tenidas encuenta para calcular el vector ponderación w∗, y son los puntos que denomina-mos vectores de soporte.

Finalmente, el hiperplano óptimo en la representación dual está dado en tér-minos de esos vectores de soporte

f(x,α∗,b∗) =m∑i=1

yiα∗i 〈xi, x〉+ b∗ =

∑i∈sv

yiα∗i 〈xi, x〉+ b∗

donde sv denota el conjunto de los índices de los vectores de soporte.

A continuación se encuentra el Teorema de Mercer, el cual nos permite estable-cer cuándo una función es un núcleo reproductivo.

2.3 dualidad de lagrange 49

Teorema 2.2.5 (Teorema de Mercer). Sea K : X× X → R continuo. K es un núcleoreproductivo definido positivo en X si y sólo si∫

X

∫XK(x, x ′)f(x)f(x ′)dxdx ′ > 0

para toda función f ∈ L2(X,µ). Donde µ es la medida de Lebesgue [22].

Demostración. ⇒) Para f continua, la suma de Riemann satisface∑ij

K(xi, xj)f(xi)f(xj)µ(Ei)µ(Ej) > 0

Nótese que la integral del enunciado es el límite de dichas sumas y por lo tantoes no negativa. Para f ∈ L2(X,µ), aproximamos f con una función continua yobtenemos el resultado.

⇐) Supongamos que

n∑i,j=1

cicjK(zi, zj) = −δ > 0

Como K es continua, existe un entorno abierto Ui de xi tal que

n∑i,j=1

cicjK(zi, zj) 6−δ

2

para todo zi ∈ Ui. Es posible aproximar con una función continua f a∑i

ciµ(Ui)

IUi.

2.3 dualidad de lagrange

Introduciremos ahora la Dualidad de Lagrange, donde a partir de un proble-ma de optimización denominado problema original (en inglés primal problem),obtenemos otro denominado problema dual, más sencillo, cuya resolución, bajodeterminadas condiciones de convexidad, resulta ser equivalente a resolver elproblema original.

50 máquinas de soporte vectorial

Consideremos el siguiente problema de optimización

minimizar f(x),sujeto a:gi(x) 6 0 para i = 1, . . . ,m,hi(x) = 0 para i = 1, . . . , lx ∈ X

(9)

Éste será denominado el problema original. El problema dual de Lagrange, sedefine de la siguiente manera

maximizar θ(u, v),sujeto a:u > 0

(10)

donde

θ(u, v) = ınf

{f(x) +

m∑i=1

uigi(x) +

l∑i=1

vihi(x) : x ∈ X

}(11)

es la Función Dual de Lagrange, donde los vectores u y v, tienen como compo-nentes ui para i = 1 . . . ,m y vi para i = 1 . . . , l a los multiplicadores de Lagrange.Nótese que los multiplicadores de Lagrange ui correspondientes a las restriccio-nes de desigualdad gi(x) 6 0 deben ser no negativos; mientras que los multi-plicadores de Lagrange vi de las restricciones de igualdad hi(x) = 0, no tienenrestricción en el signo.

Dado un problema original, existen varios problemas duales de Lagrange, de-pendiendo de cuáles restricciones son dadas por gi(x) 6 0 y hi(x) = 0 y cualesson dadas por el conjunto X. Debido a esto, X debe tomarse de manera apropiada,teniendo en cuenta qué es lo que quiere obtenerse de la solución del problemadual.

Es posible escribir los problemas original y dual de manera vectorial. Consi-deremos f : Rn → R, y consideremos también g : Rn → Rm y h : Rn → Rl.Entonces podemos escribir el problema original como

2.3 dualidad de lagrange 51

minimizar f(x),sujeto a:g(x) 6 0

h(x) = 0

x ∈ X

(12)

y el problema dual como maximizar θ(u, v),sujeto a:u > 0

(13)

donde

θ(u, v) = ınf{f(x) + u>g(x) + v>h(x) : x ∈ X

}A continuación estudiaremos la relación entre los problemas original y dual

de Lagrange. Para estudiar la interpretación geométrica de la dualidad de La-grange, consideremos un problema original más sencillo, que contenga una solarestricción de desigualdad y ninguna de igualdad

minimizar f(x),sujeto a:g(x) 6 0

x ∈ X

(14)

donde f : Rn → R, g : Rn → R y definimos el siguiente conjunto G ⊂ R2 como

G = {(y, z) : y = g(x), z = f(x) para algún x ∈ X} (15)

esto es, G es la imagen de X, bajo el mapa (g, f). El problema original, consiste enencontrar un punto en G, con y 6 0 cuyo mínimo en el eje de las ordenadas es z.

52 máquinas de soporte vectorial

Figura 4: Interpretación geométrica de la Dualidad de Lagrange, cuando no existe brechadual.

Consideremos ahora el problema dualmaximizar θ(u),sujeto a:u > 0

(16)

Para solucionar el problema dual de Lagrange, debemos considerar primero elproblema subyacente

θ(u) = ınf{f(x) + ug(x) : x ∈ X} (17)

Si tomamos u > 0, (17), es equivalente a minimizar z+ uy sobre los puntos(y, z) de G. Sea z+ uy = α, la ecuación de una recta, con pendiente −u y cuyaintersección con el eje z es α. Geométricamente, minimizar z+ uy = α signifi-ca bajar la recta tanto como sea posible (de forma paralela), de modo que sigainterceptando a G. Nótese que después de minimizar dicha recta, el punto deintersección con el eje z, es precisamente θ(u), dado u > 0. Así, para cada u > 0,obtenemos un θ(u); resolver el problema de optimización dual, es precisamen-te tomar el más grande de todos los θ(u) obtenidos del problema subyacente.Observemos, que para este ejemplo particular, la solución del problema original,

2.3 dualidad de lagrange 53

como del problema dual, son iguales. Cuando esto ocurre, decimos que no existebrecha dual (en inglés Dual Gap).

En general, queremos que tanto el problema original, como el problema dualtengan la misma solución. Introduciremos algunas hipótesis, de modo que novaya a haber brecha dual. Para esto, presentamos dos teoremas, el Teorema de laDualidad Débil y posteriormente el Teorema de la Dualidad Fuerte.

Figura 5: Interpretación geométrica de la Dualidad de Lagrange, cuando se presenta bre-cha dual.

Teorema 2.3.1 (Teorema de la Dualidad Débil). Consideremos el problema de optimi-zación original (12), y su problema dual (13). Sea x una solución del problema original,esto es x ∈ X, g(x) 6 0 y h(x) = 0. Sea (u, v) solución del problema dual, con u > 0.Entonces

f(x) > θ(u, v)

Demostración. Recordemos, por (11) que la función dual de Lagrange está dadapor

θ(u, v) = ınf

{f(x) +

m∑i=1

uigi(x) +

l∑i=1

vihi(x) : x ∈ X

}

54 máquinas de soporte vectorial

además, tenemos que x ∈ X, u > 0, g(x) 6 0 y h(x) = 0, luego

θ(u, v) = ınf{f(x) + u>g(x) + v>h(x) : x ∈ X

}6 f(x) + ug(x) + vh(x)

6 f(x)

Corolario 2.3.2. Con la notación del Teorema 2.3.1, se cumple la siguiente desigualdad

ınf {f(x) : x ∈ X,g(x) 6 0,h(x) = 0} > sup {θ(u, v) : u > 0} (18)

Por el Corolario anterior, podemos ver que el valor óptimo del problema origi-nal, es mayor o igual que el valor óptimo del problema dual. Cuando la desigual-dad es estricta, decimos que existe una brecha dual, entre ambos problemas. Enla siguiente figura, vemos un ejemplo de un problema de optimización, dondeexiste una brecha dual entre el problema original y el problema dual. Nótese quela brecha dual depende de que G sea o no convexo, por lo tanto, bajo ciertascondiciones de convexidad, que veremos en el Teorema de la Dualidad Fuerte, lasolución tanto del problema de optimización original como del problema de op-timización dual es la misma. A continuación veremos un lema, necesario para elTeorema de la Dualidad Fuerte.

Lema 2.3.3. Sea X subconjunto no vacío, convexo de Rn. Sean ψ : Rn → R yg : Rn → Rm funciones convexas, y sea h : Rn → Rl una función afín, i.e. unafunción de la forma h(x) = Ax+ b. Sean también u0 ∈ R, u ∈ Rm y v ∈ Rl. Conside-remos los siguientes sistemas:

Sistema 1:

ψ(x) < 0

g(x) 6 0

h(x) = 0

para algún x ∈ X.

Sistema 2:u0ψ(x) + u

>g(x) + v>h(x) > 0

para algún (u0,u, v) 6= (0, 0, 0), (u0,u) > (0, 0) y todo x ∈ X.

2.3 dualidad de lagrange 55

Si el Sistema 1 no tiene solución x, entonces el Sistema 2 tiene solución (u0,u, v). Demanera inversa, si el Sistema 2 tiene solución (u0,u, v), con u0 > 0, entonces el Sistema1 no tiene solución.

Demostración. Supongamos primero que el Sistema 1 no tiene solución. Defini-mos el siguiente conjunto:

S = {(p,q, r) : ψ(x) 6 p,g(x) 6 q,h(x) = r, para algún x ∈ X}

S es convexo. En efecto, sean (p1,q1, r1), (p2,q2, r2) ∈ S. Veamos que

(p1,q1, r1)t+ (1− t)(p2,q2, r2) ∈ S para t ∈ [0, 1]

Queremos ver que

p1t+ (1− t)p2 > ψ(x),q1t+ (1− t)q2 > g(x),r1t+ (1− t)r2 = h(x).

Si t = 0

p2 > ψ(x),q2 > g(x),r2 = h(x).

Si t = 1

p1 > ψ(x),q1 > g(x),r1 = h(x).

Ahora bien, como el Sistema 1 no tiene solución, (0, 0, 0) /∈ Sy dado que S es convexo, existe un vector no cero (u0,u, v) tal que,

(u0,u, v)>[(p,q, r) − (0, 0, 0)] = u0p+ u>q+ v>r > 0, (19)

para cada (p,q, r) ∈ cl(S). Sea x ∈ X fijo. Por la definición de S, p,q puedentomarse arbitrariamente grandes, luego u0 > 0 y u > 0, de forma que (19) sesatisfaga. Veamos que (ψ(x),g(x),h(X)) ∈ cl(S). Sea

Bε(ψ(x),g(x),h(x)) = {(a,b, c) : |ψ(x) − a| < ε, |g(x) − b| < ε, |h(x) − c| < ε}

56 máquinas de soporte vectorial

una bola abierta en R3. Sea (a,b, c) ∈ Bε(ψ(x),g(x),h(x)), con a = ψ(x) + ε/2,b = g(x) y c = h(x), como ε > 0, (a,b, c) ∈ S, luego (ψ(x),g(x),h(X)) ∈ cl(S).Así,

u0ψ(x) + u>g(x) + v>h(x) > 0.

Como esto se tiene para cualquier x ∈ X, el Sistema 2, tiene solución.

Supongamos ahora que el Sistema 2 tiene una solución (u0,u, v), tal que u0 > 0,u > 0 y u0ψ(x)+u>g(x)+ v>h(x) > 0 para todo x ∈ X. Sea x ∈ X tal que g(x) 6 0y h(x) = 0. Luego

u0ψ(x) + u>g(x) > 0

u0ψ(x) > −u>g(x) > 0

pues u > 0 y g(x) 6 0. Pero u0 > 0, luego necesariamente ψ(x) > 0, y por lotanto el Sistema 1 no tiene solución.

Finalmente, el siguiente teorema nos dice que bajo ciertos supuestos de con-vexidad, no existe brecha dual entre el problema de optimización original y elproblema de optimización dual.

Teorema 2.3.4 (Teorema de la Dualidad Fuerte). Sea X subconjunto no vacío, convexode Rn. Sean f : Rn → R y g : Rn → Rm funciones convexas, y h : Rn → Rl unafunción afín. Supongamos que se cumple la siguiente restricción. Existe x ∈ X tal queg(x) < 0 y h(x) = 0, con 0 ∈ int(h(X)), donde h(X) = {h(x) : x ∈ X}. Entonces,

ınf{f(x) : x ∈ X,g(x) 6 0,h(x) = 0} = sup{θ(u, v) : u > 0} (20)

donde θ(u, v) = ınf{f(x) + u>g(x) + v>h(x) : x ∈ X}. Más aun, si el ínfimo es finito,entonces sup{θ(u, v) : u > 0}, es alcanzado en (u, v) con u > 0. Si el ínfimo es alcanzadoen x, entonces u>g(x) = 0.

Demostración. Sea α = ınf {f(x) : x ∈ X,g(x) 6 0,h(x) = 0}. Por hiótesis, existe unasolución del problema original x y por lo tanto, α <∞. Si α = −∞, entonces porel Corolario 2.3.2, sup{θ(u, v) : u > 0} = −∞ y por lo tanto, (20) se satisface. Así,podemos suponer que α es finito. Consideremos el siguiente sistema

f(x) −α(x) < 0,g(x) 6 0,h(x) = 0

para algún x ∈ X. Este sistema no posee solución debido a la definición de α.Luego por el Lema 2.3.3, existe un vector (u0,u, v) distinto del cero, con (u0,u) >(0, 0) tal que

u0(f(x) −α) + u>g(x) + v>h(x) > 0 para todo x ∈ X.

2.3 dualidad de lagrange 57

Veamos ahora que u0 > 0. Supongamos u0 = 0. Por hipótesis, existe x ∈ X, talque g(x) < 0 y h(x) = 0. Sustituyendo en (2.3), obtenemos que u>g(x) > 0, perocomo g(x) < 0 y u > 0, entonces u = 0. Ahora, u0 = 0 y u = 0, por lo tantov>h(x) > 0 para todo x ∈ X. Como 0 ∈ int(h(x)), podemos escoger un x ∈ X talque h(x) = −λv, con λ > 0. Sustituimos para obtener 0 6 v>h(x) = −λ‖v‖2, comoλ > 0 y ‖v‖2 > 0, entonces esto implica que v = 0. En consecuencia, si u0 = 0,entonces (u0,u, v) = (0, 0, 0) lo que es una contradicción. Así, u0 > 0.

Ahora bien, sean u = u/u0 y v = v/v0. Dividiendo (2.3) entre u0, obtenemos

f(x) + u>g(x) + v>h(x) > α para todo x ∈ X. (21)

Así,θ(u, v) = ınf{f(x) + u>g(x) + v>h(x) : x ∈ X} > α.

Por el Teorema de la Dualidad Débil, θ(u, v) = α, y por el Corolario 2.3.2 (u, v)es solución del problema dual.

Para finalizar, supongamos ahora que x es una solución óptima para el proble-ma original, luego x ∈ X, f(x) = α, g(x) 6 0 y h(x) = 0. Si sustituimos x = x en(21), obtenemos que u>g(x) > 0, pero u > 0 y g(x) 6 0, luego u>g(x) = 0.

3A P L I C A C I Ó N

En este capítulo veremos primero la definición de series de tiempo, la cual seráútil para el desarrollo de la aplicación que explicaremos posteriormente.

Una serie de tiempo es una colección de observaciones, que varían en funcióndel tiempo, y se representan como variables indexadas según el momento en quefue hecha cada observación.

Definición 3.0.5. Una serie de tiempo es un vector (y1, . . . ,yτ) de tamaño τ, donde laprimera observación fue realizada en el momento t = 1 y la última en el momento t = τ.

La información contenida en una serie de tiempo permite predecir observacio-nes tanto previas al dato y1, como posteriores al dato yτ.

La teoría de máquinas de soporte vectorial es utilizada en varios campos comose mencionó anteriormente. En medicina, más específicamente en neurología, sehan implementado máquinas de soporte vectorial y núcleos reproductivos paraclasificar lecturas provenientes de electroencefalogramas (EEGs) de personas quesufren de epilepsia. En este capítulo, explicaremos cómo se utiliza el Kernel deDeformación Dinámica Temporal (En inglés Dynamic Time Warping Kernel), paraclasificar dichas lecturas, con el fin de determinar si un paciente está teniendolecturas normales, o previas a un ataque de epilepsia.

Las lecturas provenientes de EEGs son caracterizadas por series de tiempo, seescoge una distancia fija entre los puntos de las lecturas, y se discretizan dichosdatos. Todas estas lecturas tienen la misma longitud, por lo tanto se obtendránseries de tiempo de igual longitud. Para el conjunto muestra, se toman lecturasprovenientes de EEGs, las cuales se sabe con claridad si pertenecen a una lecturanormal, o a una lectura previa a un episodio.

Ahora bien, sean X e Y dos series de tiempo de igual longitud, es decir |X| =

|Y| = n, para determinar la similitud entre dichas series, utilizaremos el kernel dedeformación dinámica temporal. Las dos series de tiempo de alinean. La mejoralineación será determinada mediante la Deformación Dinámica Temporal, haciendouso de la función de costo

59

60 aplicación

Dalign(X, Y) = mın1

K

K∑k=1

d(xki,ykj) (22)

donde K es la longitud del camino y xki,ykj son los puntos de la matriz que per-tenecen a dicho camino.

Para esto, se alinea la serie de tiempo X con la serie de tiempo Y, de maneraque a cada punto en X, le corresponda otro punto de Y. Se construye una ma-triz n× n, midiendo la distancia euclidiana entre los puntos de las dos seriesd(xi,yj) = (xi − yj)

2. Una vez construida la matriz, se escoge un camino el cualdebe comenzar siempre en la posición (1, 1), es decir en d(x1,y1) y terminar en laposición (n,n), i.e. d(xn,yn), además, i y j deben ser monótonas crecientes, comolo muestra el siguiente ejemplo, para series de tiempo de longitud 7

d(x1, y1) d(x1,y2) d(x1,y3) d(x1,y4) d(x1,y5) d(x1,y6) d(x1,y7)d(x2, y1) d(x2, y2) d(x2,y3) d(x2,y4) d(x2,y5) d(x2,y6) d(x2,y7)d(x3,y1) d(x3,y2) d(x3, y3) d(x3,y4) d(x3,y5) d(x3,y6) d(x3,y7)d(x4,y1) d(x4,y2) d(x4, y3) d(x4, y4) d(x4,y5) d(x4,y6) d(x4,y7)d(x5,y1) d(x5,y2) d(x5,y3) d(x5,y4) d(x5, y5) d(x5,y6) d(x5,y7)d(x6,y1) d(x6,y2) d(x6,y3) d(x6,y4) d(x6, y5) d(x6, y6) d(x6, y7)

d(x7,y1) d(x7,y2) d(x7,y3) d(x7,y4) d(x7,y5) d(x7,y6) d(x7, y7)

Mediante la función de costo (22), se calcula cuál es el camino que supone me-

nor costo, y este indicará la correcta alineación entre X e Y. Una vez alineadas lasdos series de tiempo, procedemos a calcular la similaridad entre ellas, utilizan-do el kernel de deformación de dinámica temporal, el cual encontrará el caminoóptimo que maximice la similaridad acumulada

KDTW(x,y) = maxψI,ψJ

1

n∑k=1

m(k)xψI(k)yψJ(k)

Sujeto a1 6 ψI(k) 6 ψI(k+ 1) 6 n

1 6 ψJ(k) 6 ψJ(k+ 1) 6 n

(23)

donde |X| = |Y| = n, ψI(k) y ψJ(k) son funciones lineales de deformación, m(k)

es un coeficiente de peso no negativo y Mψ es un factor de normalización.

aplicación 61

Las series de tiempo se comparan dos a dos, y teniendo en cuenta su similari-dad, el algoritmo de máquinas de soporte vectorial procede de igual forma.

B I B L I O G R A F Í A

[1] Kreyszig, E. Introductory Functional Analysis With Applications. Wiley, 1989.

[2] Teschl, G. Topics in Real and Functional Analysis. Mathematics subject classifi-cation, 2012.

[3] Daners, D. Introduction to Functional Analysis. The University of Sydney, 2008.

[4] Hamilton, J.D. Time Series Analysis. Princeton University Press, 1994.

[5] Schölkopf, B. and Smola, A.J. Learning With Kernels: Support Vector Machines,Regularization, Optimization, and Beyond. MIT Press, 2001.

[6] Sewell, M. History of Support Vector Machines.http://www.svms.org/history.html, Recuperado el 19 de Marzo de 2011.

[7] Cristianini, N. and Shawe-Taylor, J. An Introduction to Support Vector Machinesand Other Kernel-based Learning Methods. Cambridge University Press, 2000.

[8] Ng, A. Machine Learning. Lecture Notes, Standford University, 2010.

[9] Aronszajn, N. Theory of Reproducing Kernels. Transactions of the AmericanMathematical Society, Vol. 68, No. 3 (May, 1950), pp. 337-404.

[10] Burges, C.J.C. A Tutorial on Support Vector Machines for Pattern Recognition.Data Mining and Knowledge Discovery, 2, pp. 121-167 (1998).

[11] Okutmustur, B. Reproducing Kernel Hilbert Spaces. Department of Mathema-tics, Institute of Engineering and Science, Bilkent University, 2005.

[12] Goodwin, G.C., Serón, M.M. and De Doná, J.A. Constrained Control and Esti-mation: An Optimisation Approach. Springer, 2005.

[13] Liberti, L. Introduction to Global Optimization. Ecole Polytechnique, 2008.

[14] Peters, H. and Vogel, M. Machine Learning Research Progress. Nova SciencePublishers, Inc., 2010.

[15] Michalski, R.S., Bratko, I. and Kubat, M. Machine Learning and Data Mining:Methods and Applications. John Wiley & Sons LTD, 1998.

63

64 Bibliografía

[16] Hass, J., Weir, M.D. and Thomas, G.B. Jr. Multivariable University CalculusEarly Transcendentals. Pearson, 2007.

[17] Iba, H. Applied Genetic Programming and Machine Learning. CRC Press, 2010.

[18] Tsai, J. Machine Learning in Cyber Trust Security, Privacy, and Reliability. Sprin-ger, 2009.

[19] Zhang, Y-Q. Machine Learning in Bioinformatics. John Wiley & Sons LTD, 2009.

[20] Peters, J. Machine Learning for Robotics Learning Methods for Robot Motor Skills.VDM Verlag Dr. Müller, 2008.

[21] Robinson, J. Support Vector Machine Learning Application to Comprenssion ofDigital Images. VDM Verlag Dr. Müller, 2008.

[22] Stein, E.M. and Shakarchi, R. Real Analysis: Measure Theory, Integration andHilbert Spaces. Princeton Lectures in Analysis, 2005.

[23] Chaovalitwongse, W.A. and Pardalos, P.M. On the Time Series Support Vec-tor Machine Using Dynamic Time Warping Kernel for Brain Activity Classifi-cation. Cybernetics and Systems Analysis. 1 (44) (2008) pp. 125-138.