Download - Apuntes (Curso-09-10)
APUNTES DE
OPTIMIZACION
Marco Antonio Lopez Cerda
Francisco Javier Aragon Artacho
Departamento de Estadıstica e Investigacion Operativa
Universidad de Alicante
Mayo 2009
Los autores quieren manifestar su agradecimiento a los Profs. Lola Canovas y Juan Parra,
de la Universidad Miguel Hernandez, por sus aportaciones en la elaboracion de este material
docente. Particularmente por la esmerada redaccion de buena parte del Capıtulo 13.
Indice
1. Optimizacion sin restricciones 1
1.1. Condiciones de optimalidad para el problema irrestringido . . . . . . . . . . . . . 1
2. Metodos de busqueda lineal 4
2.1. Familia de metodos del gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3. Tamano de paso 6
3.1. Condiciones de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2. Condiciones de Goldstein y “backtracking” . . . . . . . . . . . . . . . . . . . . . 10
4. Convergencia de los metodos de busqueda lineal 11
4.1. Metodos del gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5. Tasa de convergencia 14
6. Analisis del modelo cuadratico 19
6.1. Metodo del descenso mas rapido . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6.2. Metodos del gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.3. Caso general: funciones no cuadraticas . . . . . . . . . . . . . . . . . . . . . . . . 24
7. Resultados sobre la tasa de convergencia 24
7.1. Convergencia superlineal de los metodos quasi-Newton . . . . . . . . . . . . . . . 24
8. El metodo de Newton y sus variaciones 27
8.1. Convergencia local . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
8.2. Convergencia global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
8.2.1. Metodos de las regiones de confianza (’trust region’ methods) . . . . . . . 30
9. Problemas de Mınimos-Cuadrados 31
10. Metodos de direcciones conjugadas 33
10.1. El metodo del gradiente conjugado . . . . . . . . . . . . . . . . . . . . . . . . . . 35
11. Metodos Quasi-Newton 38
11.1. Comparacion de los metodos Quasi-Newton con otros metodos . . . . . . . . . . . 42
12. Metodos que no usan derivadas 42
12.1. Metodo de descenso por coordenadas . . . . . . . . . . . . . . . . . . . . . . . . 42
12.2. El metodo simplex de Nelder y Mead . . . . . . . . . . . . . . . . . . . . . . . . 43
13. Optimizacion con restricciones 46
13.1. Restricciones en forma de igualdad . . . . . . . . . . . . . . . . . . . . . . . . . . 46
13.2. Restricciones en forma de desigualdad . . . . . . . . . . . . . . . . . . . . . . . . 53
13.3. Problemas de PNL con igualdades y desigualdades. . . . . . . . . . . . . . . . . . 68
13.3.1. Apendice A: Las condiciones de Fritz-John . . . . . . . . . . . . . . . . . 70
13.3.2. Apendice B: El teorema de la funcion implıcita. Aplicacion en la obtencion
de condiciones de optimalidad . . . . . . . . . . . . . . . . . . . . . . . . 71
13.3.3. Demostracion del Theorem 58 (iii) . . . . . . . . . . . . . . . . . . . . . . 71
13.3.4. Apendice C: Complementos diversos . . . . . . . . . . . . . . . . . . . . 73
13.3.5. Apendice D: Condiciones de segundo orden . . . . . . . . . . . . . . . . . 75
13.3.6. Interpretacion de los multiplicadores de KKT . . . . . . . . . . . . . . . . 79
14. Metodos de penalizacion 83
14.1. Metodos que utilizan funciones de penalizacion exteriores . . . . . . . . . . . . . 84
15. Apendice 90
15.1. Numero de condicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Bibliografıa 92
1. Optimizacion sin restricciones
Sea el problema de optimizacion
(P) ≡ ( f ,X) := mın f (x)s.a x ∈ X ⊂ R
n
siendo f : X → R, f ∈ C 2(X). Si X ≡ Rn se dice que (P) es un problema de optimizacion sin
restricciones.
1.1. Condiciones de optimalidad para el problema irrestringido
Teorema 1. Sea x∗ un mınimo local de f : Rn → R, y asumamos que f es diferenciable en x∗.
Entonces
∇ f (x∗) = 0n (Condicion necesaria de 1er orden).
Si, ademas, f es dos veces diferenciable en x∗, se cumple tambien que
∇2 f (x∗) � 0 (Condicion necesaria de 2o orden),
es decir, ∇2 f (x∗) es una matriz semidefinida positiva.
Demostracion. Fijemos p ∈ Rn, p 6= 0n. Entonces
0 ≤ lımα↓0
f (x∗ +α p)− f (x∗)α
= f ′(x∗; p) = ∇ f (x∗)T p,
donde f ′(x∗; p) representa la derivada direccional de la funcion f en el punto x∗ y en la direccion
p. La desigualdad viene dada por ser x∗ mınimo local de f . Obviamente, ∇ f (x∗)T p ≥ 0,∀p 6= 0n,
implica ∇ f (x∗) = 0n.
Si f es dos veces diferenciable en x∗
f (x∗ +α p)− f (x∗) = α∇ f (x∗)T p+α2
2pT ∇2 f (x∗)p+o(α2).
Teniendo en cuenta que ∇ f (x∗) = 0n, y dada la optimalidad local de x∗, deducimos que si α es
suficientemente pequeno
0 ≤ f (x∗ +α p)− f (x∗)α2
=1
2pT ∇2 f (x∗)p+
o(α2)
α2.
Tomando lımites cuando α → 0, y dado que lımα→0o(α2)
α2 = 0, deducimos pT ∇2 f (x∗)p ≥ 0, es
decir ∇2 f (x∗) es semidefinida positiva.
Proposicion 2. Supongamos que f es una funcion convexa y diferenciable en Rn. Entonces x∗ es
un mınimo global de f si, y solo si, ∇ f (x∗) = 0n, en otras palabras, la condicion necesaria de
optimalidad de 1er orden es tambien suficiente para funciones convexas diferenciables.
Observacion 3. Recuerdese que para funciones convexas, todo mınimo local es global.
1
Demostracion. Solo hay que probar que ∇ f (x∗) = 0n es tambien condicion suficiente para que x∗
sea un mınimo global de f .Al ser f es convexa y diferenciable en R
n, sabemos del curso de Analisis Convexo que
f (x) ≥ f (x∗)+∇ f (x∗)T (x− x∗), ∀x ∈ X .
Obviamente, si ∇ f (x∗) = 0n se verificara f (x) ≥ f (x∗), ∀x ∈ X .
En ausencia de convexidad establecemos la siguiente condicion suficiente de optimalidad:
Teorema 4. Sea f : Rn → R, f ∈ C 2(W ), siendo W abierto de R
n. Supongamos que x∗ ∈ W y
∇ f (x∗) = 0n. Entonces se tiene:
(i) Si ∇2 f (x∗) ≻ 0, es decir si ∇2 f (x∗) es una matriz definida positiva, x∗ es un mınimo local
estricto (irrestingido) de la funcion f y existen escalares γ > 0 y ε > 0 tales que
f (x) ≥ f (x∗)+ γ ‖x− x∗‖2 , ∀x ∈ B(x∗;ε). (1)
(ii) Si ∇2 f (x∗) tiene valores propios de distintos signos, x∗ es un punto de silla.
Demostracion. (i) Al ser f ∈ C 2(W ), ∇2 f (x∗) sera simetrica, y sus valores propios seran todos
numeros reales. Como ∇2 f (x∗) es, por hipotesis, definida positiva, sus valores propios seran todos
positivos, y representaremos por λ1 el mas pequeno de dichos valores propios. Si u1,u2, . . . ,un
son vectores propios ortonormales asociados a los valores propios λ1 ≤ λ2 ≤ ... ≤ λn, todo vector
p ∈ Rn podra expresarse de la siguiente forma:
p =n
∑i=1
ρiui.
Por lo tanto
∇2 f (x∗)p =n
∑i=1
ρi∇2 f (x∗)ui =
n
∑i=1
ρiλiui,
y
pT ∇2 f (x∗)p =
{n
∑i=1
ρiuTi
}{n
∑j=1
ρ jλ ju j
}=
n
∑i=1
ρ2i λi ‖ui‖2 =
n
∑i=1
ρ2i λi ≥ λ1‖p‖2 .
Utilizando esta acotacion, la condicion de estacionariedad ∇ f (x∗) = 0n y el desarrollo de Taylor
de segundo orden, se obtiene para todo p:
f (x∗ + p)− f (x∗) = ∇ f (x∗)T p+1
2pT ∇2 f (x∗)p+o(‖p‖2)
≥ λ1
2‖p‖2 +o(‖p‖2) =
(λ1
2+
o(‖p‖2)
‖p‖2
)‖p‖2 .
Hemos comprobado, pues, que (1) es satisfecha para cualquier ε > 0 y γ > 0 tales que
λ1
2+
o(‖p‖2)
‖p‖2≥ γ, ∀p tal que ‖p‖ < ε.
Podrıa tomarse, por ejemplo, γ = λ14
.
2
(ii) Si ∇2 f (x∗) tiene valores propios de distintos signos, sera λ1 < 0 y λn > 0. Si u1 es un vector
propio de norma uno asociado a λ1 se verificara
f (x∗ +αu1)− f (x∗) = α∇ f (x∗)T u1 +1
2α2uT
1 ∇2 f (x∗)u1 +o(α2)
=λ1
2α2 +o(α2) =
(λ1
2+
o(α2)
α2
)α2.
Existira pues α0 > 0 tal que
f (x∗ +αu1)− f (x∗) =
(λ1
2+
o(α2)
α2
)α2 < 0, ∀α ∈]0,α0[.
Si un es un vector propio de norma uno asociado a λn, un razonamiento paralelo conduce a la
conclusion de que existe µ0 > 0 tal que
f (x∗ + µun)− f (x∗) =
(λn
2+
o(µ2)
µ2
)µ2 > 0, ∀µ ∈]0,µ0[.
Por tanto, x∗ es un punto de silla.
Proposicion 5. Sea f : R2 → R, f ∈ C 2(W ), siendo W abierto de R
2. Supongamos que x∗ ∈W y
∇ f (x∗) = 0n. Sean
∇2 f (x∗) =
(A B
B C
)y ∆ := det∇2 f (x∗) = AC−B2.
Entonces se tiene:
(i) Si ∆ < 0, x∗ es un punto de silla.(ii) Si ∆ > 0 y A > 0, x∗ es un mınimo local estricto.
(iii) Si ∆ > 0 y A < 0, x∗ es un maximo local estricto.
Demostracion. La ecuacion caracterıstica
det(∇2 f (x∗)−λ I) = 0,
que hay que resolver para calcular los valores propios es la ecuacion de segundo grado
λ 2 − (A+C)λ +∆ = 0.
Sus raıces, λ1 y λ2, estan relacionados con sus coeficientes del siguiente modo
λ1 +λ2 = A+C, λ1λ2 = ∆.
(i) Si ∆ < 0, los autovalores tienen signos opuestos y por el teorema anterior, x∗ es un punto de
silla.(ii) e (iii) Si ∆ > 0, los autovalores tiene el mismo signo. En este caso
AC > B2 ≥ 0,
con lo que A y C tienen el mismo signo, el mismo que λ1 y λ2 al ser λ1 +λ2 = A+C. Esto prueba
(ii) e (iii).
3
OPTIMIZACION: ALGORITMOS
En un problema de optimizacion sin restricciones, se pretende minimizar una funcion objetivo
f : Rn → R (que supondremos generalmente suave) que depende de n ≥ 1 variables reales, cuyos
valores no estan restringidos.
Un algoritmo debe generar, a partir de un punto inicial x0, una sucesion de puntos x1,x2, . . . Para
decidir como pasar de una iteracion xk a la siguiente los algoritmos utilizan informacion sobre f en
xk (y quizas tambien sobre las anteriores iteraciones x0, . . . ,xk−1). Normalmente esta informacion
no la obtenemos “gratuitamente”, por lo que preferiremos algoritmos que no hagan uso de esta
informacion innecesariamente.
2. Metodos de busqueda lineal
El algoritmo elige una direccion pk y busca a partir del punto xk una nueva iteracion en esta
direccion con un valor de la funcion menor, avanzando αk en la direccion pk. La distancia que nos
movemos a lo largo de pk puede encontrarse resolviendo aproximadamente el siguiente problema:
mınα>0
f (xk +α pk). (2)
El coste de resolver exactamente (2) serıa elevado e innecesario. En su vez, los algoritmos gene-
ran un numero limitado de longitudes de paso de prueba hasta encontrar una que se aproxime al
mınimo de (2). La iteracion vendrıa dada por
xk+1 = xk +αk pk, (3)
donde pk es la direccion de busqueda y αk es el tamano del paso. La eficiencia del metodo depen-
dera de ambas elecciones.
x�pk
pk+1
xk
xk+1
xk+2
f(x)=c0
f(x)=c1 <c0
f(x)=c2 <c1
Figura 1: Algoritmo de busqueda lineal para minimizar una funcion f .
La mayorıa de los metodos de busqueda lineal exigen que pk sea una direccion de descenso:
4
Definicion 6. Se dice que pk es una direccion de descenso para la funcion f en xk si
f ′(xk; pk) = ∇ f (xk)T pk < 0. (4)
Las direcciones de descenso nos garantizan un decrecimiento del valor de f cuando se parte de
xk en la direccion pk: para α > 0 suficientemente pequeno se tiene
f (xk+1) = f (xk +α pk) = f (xk)+α∇ f (xk)T pk +O(α2) < f (xk). (5)
Para simplificar, denotaremos ∇ f (xk) ≡ ∇ fk.
La direccion unitaria de decrecimiento mas rapido sera la solucion del problema
mın‖p‖=1
pT ∇ fk. (6)
Como pT ∇ fk = ‖p‖‖∇ fk‖cosθ , donde θ es el angulo entre p y ∇ fk, tenemos que (6) es minimi-
zado cuando cosθ toma su valor mınimo −1 en θ = 180◦, es decir, cuando
p = − ∇ fk
‖∇ fk‖. (7)
Esta direccion es la que se utiliza en el llamado metodo del descenso mas rapido. Debido a (5),
cualquier direccion que forme un angulo menor de 90◦ con −∇ fk sera una direccion de descenso.
2.1. Familia de metodos del gradiente
Se llama ası al conjunto de metodos cuya direccion de busqueda tiene la forma
pk = −B−1k ∇ fk, (8)
donde Bk es una matriz simetrica no singular. Observese que si Bk es definida positiva, se trata de
un metodo de descenso, ya que si ∇ fk 6= 0,
f ′(xk; pk) = ∇ f (xk)T pk = −∇ f (xk)
T B−1k ∇ fk pk < 0.
Los algoritmos mas importantes son:
Bk = I, en el metodo de descenso mas rapido (7);
Bk = ∇2 fk, en el metodo de Newton;
Bk ≈ ∇2 fk, en los metodos quasi-Newton.
La idea del metodo de Newton es minimizar en cada iteracion la aproximacion de segundo
orden de f (xk + p):
f (xk + p) ≈ fk + pT ∇ fk +1
2pT ∇2 fk p =: mk(p). (9)
Suponiendo por el momento que ∇2 fk es definida positiva, al buscar el vector p que minimiza
mk(p) obtenemos la direccion de Newton. Efectivamente, igualando a cero la derivada de mk(p),encontramos su forma explıcita:
pk = −(∇2 fk)−1∇ fk. (10)
5
En el metodo de Newton puro, la longitud de paso se toma constante αk = 1. Observese que este
metodo encuentra el mınimo en un solo paso cuando f es una forma cuadratica definida positiva.
La mayorıa de las implementaciones del metodo de Newton utilizan la longitud de paso α = 1
cuando es posible y solo ajustan su tamano en caso de no producirse una reduccion satisfactoria en
el valor de f . Cuando ∇2 fk no es definida positiva, la direccion de Newton (10) podrıa no existir
o no ser una direccion de descenso. En este caso, los metodos de busqueda lineales modifican la
direccion pk para convertirla en una direccion de descenso.
3. Tamano de paso
Al calcular la longitud de paso αk debemos equilibrar dos objetivos. Por un lado nos gustarıa
elegir αk de manera que f se reduzca sustancialmente, pero al mismo tiempo, no queremos dedicar
un tiempo excesivo en su eleccion. La eleccion ideal serıa un mınimo de la funcion univariante φ(·)definida por
φ(α) := f (xk +α pk), α > 0, (11)
pero, en general, es muy costoso computacionalmente la identificacion de dicho(s) valor(es). Inclu-
so, encontrar un mınimo local de φ con una moderada precision requiere generalmente demasiadas
evaluaciones de f y posiblemente de su gradiente ∇ f . Estrategias mas practicas realizan busque-
das lineales inexactas para identificar un αk que consiga una adecuada reduccion de f con un coste
mınimo.
Los algoritmos tıpicos de busqueda lineal prueban una serie de valores candidatos para αk,
aceptando uno de estos valores cuando ciertas condiciones son satisfechas. La busqueda lineal se
realiza en dos fases: en una primera se determina un intervalo conteniendo longitudes de paso
deseables, y una fase de biseccion o interpolacion computa despues una “buena” longitud de paso
en dicho intervalo. A continuacion analizaremos diferentes criterios de parada para los algoritmos
de busqueda lineal, y probaremos que las longitudes de paso efectivas no necesitan estar cerca de
los mınimos de la funcion φ(α).Una condicion sencilla que podemos imponer a αk es que proporcione una reduccion en f , i.e.,
que f (xk + αk pk) < f (xk). Sin embargo, en la Figura 2 podemos ver que este requerimiento no
es suficiente: el mınimo (global) de f (x) = x2 − 1 es f ∗ = −1, pero la sucesion de valores de la
funcion f (xk) = 1/k, para k = 1,2, . . ., es estrictamente decreciente pero converge a cero y no a
−1.
x0 x1x2 x3x4 x5
f(x)=x2�1 x
f(x)
Figura 2: f (xk) = 1/k converge a 0 y no al mınimo −1.
6
El problema es que el procedimiento aplicado no garantiza una “reduccion suficiente” en la
funcion f , concepto que discutiremos a continuacion.
3.1. Condiciones de Wolfe
Primero de todo αk debe garantizar un decrecimiento suficiente de f , estipulado en los siguien-
tes terminos:
f (xk +α pk) ≤ f (xk)+ c1α∇ f Tk pk, (12)
para cierta constante c1 ∈ ]0,1[ . La desigualdad (12) es tambien conocida como condicion de Ar-
mijo. En terminos de la funcion φ definida en (11), esta condicion es equivalente a
φ(α) ≤ φ(0)+ c1αφ ′(0).
La funcion lineal l(α) = φ(0)+c1αφ ′(0) tiene pendiente negativa c1∇ f Tk pk, pero se encuentra por
encima de la grafica de φ(α) para valores pequenos de α , como consecuencia de que c1 ∈ ]0,1[ .La condicion de decrecimiento suficiente establece que α es aceptable solo si φ(α) ≤ l(α). En la
practica, c1 es elegido bastante pequeno, del orden de 10−4.
Figura 3: Condicion de decrecimiento suficiente.
Esta primera regla evita comportamientos como el mostrado en la Figura 2, pero sin embargo
es satisfecha por valores muy pequenos de α . Si estos fueran adoptados como valores de αk, el
algoritmo no proporcionarıa un progreso razonable.
Para excluir etapas excesivamente cortas, se introduce la condicion de curvatura, que requiere
que αk satisfaga
∇ f (xk +αk pk)T pk ≥ c2∇ f T
k pk, (13)
para alguna constante c2 ∈ ]c1,1[ . En terminos de la funcion φ es (13) equivalente a
φ ′(αk) ≥ c2φ ′(0),
es decir, la condicion de curvatura asegura que la pendiente de la curva φ en αk es mayor que
c2 veces la pendiente de φ en 0. Esto tiene sentido ya que si la pendiente φ ′(α) es fuertemente
7
negativa, tenemos una indicacion de que podemos reducir significativamente f moviendonos aun
mas a lo largo de la direccion elegida. La condicion de curvatura viene ilustrada en la Figura 4.
Valores tıpicos de c2 son 0,9 cuando pk es obtenida por los metodos de Newton o quasi-Newton, y
de 0,1 cuando pk se calcula mediante el metodo del gradiente conjugado.
Figura 4: Condicion de curvatura.
Las condiciones de decrecimiento suficiente y de curvatura se conocen conjuntamente como
condiciones de Wolfe:
f (xk +αk pk) ≤ f (xk)+ c1αk∇ f Tk pk, (14a)
∇ f (xk +αk pk)T pk ≥ c2∇ f T
k pk, (14b)
donde 0 < c1 < c2 < 1. Una longitud de paso puede satisfacer las condiciones de Wolfe sin estar
particularmente proximo a un mınimo de φ , como mostramos en la Figura 5.
Figura 5: Longitudes de paso que satisfacen las condiciones de Wolfe.
8
Sin embargo, podemos modificar la condicion de curvatura para forzar que αk este al menos
en un ancho entorno de un mınimo local o punto estacionario de φ . Ası, las llamadas condiciones
fuertes de Wolfe requieren que αk satisfaga:
f (xk +αk pk) ≤ f (xk)+ c1αk∇ f Tk pk, (15a)
|∇ f (xk +αk pk)T pk| ≤ c2|∇ f T
k pk|, (15b)
donde 0 < c1 < c2 < 1. La unica diferencia con las condiciones de Wolfe (14) es que no permitimos
tampoco que la derivada φ ′(αk) sea demasiado positiva. De esta forma excluimos puntos que esten
lejos de los puntos estacionarios de φ .
No es difıcil probar que existen longitudes de paso que satisfacen las condiciones de Wolfe
para toda funcion f que sea suave y acotada inferiormente.
Proposicion 7. Supongamos que f : Rn →R es continuamente diferenciable. Sea pk una direccion
de descenso en xk, y asumamos que f esta acotada inferiormente a lo largo de la semirrecta
{xk + α pk | α > 0}. Entonces, si 0 < c1 < c2 < 1, existiran intervalos de longitudes de paso
satisfaciendo las condiciones de Wolfe (14) y las condiciones fuertes de Wolfe (15).
Demostracion. Como φ(α) = f (xk + α pk) esta acotada inferiormente para α > 0, y puesto que
0 < c1 < 1, la recta
l(α) = f (xk)+αc1∇ f Tk pk
debe intersecar la grafica de φ por lo menos una vez. Sea α ′ > 0 el valor mas pequeno de α para
el que se produce esta interseccion, esto es
φ(α ′) = l(α ′)
o lo que es lo mismo,
f (xk +α ′pk) = f (xk)+α ′c1∇ f Tk pk. (16)
Obviamente, la condicion de descenso suficiente (14a) se cumple para cualquier longitud de paso
α menor o igual que α ′.Por el teorema del valor medio, existira un α ′′ ∈ ]0,α ′[ tal que
φ(α ′)−φ(0) = φ ′(α ′′)α ′,
es decir,
f (xk +α ′pk)− f (xk) = α ′∇ f (xk +α ′′pk)T pk. (17)
Combinando (16) y (17), obtenemos
∇ f (xk +α ′′pk)T pk = c1∇ f T
k pk > c2∇ f Tk pk, (18)
puesto que c1 < c2 y ∇ f Tk pk < 0. Por tanto α ′′ satisface las condiciones de Wolfe (14), y ambas
desigualdades se verifican estrictamente. Por ser f suave (de clase C 1), existira un intervalo al-
rededor de α ′′ para el cual las condiciones de Wolfe se cumplen. Ademas, puesto que el termino
de la izquierda de (18) es negativo, las condiciones fuertes de Wolfe (15) se cumplen en el mismo
intervalo.
9
3.2. Condiciones de Goldstein y “backtracking”
Al igual que las condiciones de Wolfe (14), las condiciones de Goldstein tambien aseguran que
el tamano de paso α alcanza un decrecimiento suficiente, evitando a su vez que α sea demasiado
pequeno. Se definen mediante el siguiente par de desigualdades:
f (xk)+(1− c)αk∇ f Tk pk ≤ f (xk +αk pk) ≤ f (xk)+ cαk∇ f T
k pk, (19)
donde 0 < c < 1/2. La segunda desigualdad es simplemente la condicion de decrecimiento sufi-
ciente (12), mientras que la primera desigualdad se introduce para controlar el tamano de paso por
abajo (ver Figura 6).
Figura 6: Condiciones de Goldstein.
Una desventaja de las condiciones de Goldstein comparadas con las condiciones de Wolfe
es que la primera desigualdad en (19) puede excluir todos los mınimos de φ . Sin embargo, las
condiciones de Goldstein y las de Wolfe tienen mucho en comun, y sus resultados de convergencia
son bastante similares. Las condiciones de Goldstein suelen usarse a menudo en metodos de tipo
Newton, mientras que su comportamiento no es demasiado bueno en los metodos quasi-Newton,
donde las condiciones de Wolfe son comunmente utilizadas.
Hemos visto que la condicion de decrecimiento suficiente (14a) sola no basta para asegurar
que el algoritmo haga un progreso “razonable” a lo largo de la direccion dada. No obstante, si el
algoritmo de busqueda lineal elige sus tamanos de paso candidatos apropiadamente, empleando el
llamado procedimiento de “backtracking”, podemos prescindir de la condicion (14b) y usar solo la
condicion de decrecimiento suficiente. En su forma mas basica, dada unas constantes c,ρ ∈ ]0,1[ ,el procedimiento de “backtracking” parte de un punto inicial α = α > 0 en el cual se comprueba
si se verifica (14a). En caso contrario se toma α = ρα y se repite el proceso hasta que se cumpla
esa condicion:
10
Algoritmmo 1 (Backtracking).
Elegir α > 0, ρ,c ∈ ]0,1[. Tomar α = α.while f (xk +α pk) > f (xk)+ cα∇ f T
k pk:
α = ραreturn αk = α
Una longitud de paso aceptable sera encontrada tras un numero finito de intentos, ya que a
partir de un momento α sera suficientemente pequeno (ver Figura 3). Con el procedimiento de
“backtracking” nos aseguramos de que o bien la longitud de paso sea un valor fijo en todos los
pasos (α inicial), o bien que satisfaga la condicion de decrecimiento suficiente pero que no sea
“demasiado” pequeno. Normalmente se toma la longitud de paso inicial α = 1 en los metodos
de tipo Newton, donde esta estrategia es bastante utilizada. Para los metodos quasi-Newton y del
gradiente conjugado suele ser menos apropiado.
4. Convergencia de los metodos de busqueda lineal
Para obtener convergencia global de un algoritmo, debemos no solo elegir bien las longitudes
de paso, sino tambien las direcciones de busqueda pk. En esta seccion nos centraremos en los
requerimientos de las direcciones de busqueda, fijandonos en una propiedad clave: el angulo θk
entre pk y la direccion de descenso mas rapido −∇ fk, definido por
cosθk =−∇ f T
k pk
‖∇ fk‖‖pk‖. (20)
El siguiente teorema tiene importantes consecuencias. Demuestra, por ejemplo, que el metodo
de descenso mas rapido es globalmente convergente. Para otros algoritmos nos describe cuanto
puede desviarse pk de la direccion de descenso mas rapido para seguir garantizandose la conver-
gencia global.
Teorema 8 (Zoutendijk). Consideremos un algoritmo iterativo lineal de la forma xk+1 = xk +αk pk,
donde pk es una direccion de descenso y αk satisface las condiciones de Wolfe (14). Supongamos
que f esta acotada inferiormente sobre Rn y que f ∈ C 1(U), donde U es un abierto que contiene
al conjunto inferior L := {x ∈ Rn | f (x) ≤ f (x0)}, siendo x0 el punto inicial de la iteracion.
Asumamos tambien que ∇ f (·) es Lipschitz continua sobre U; i.e., existe λ > 0 tal que
‖∇ f (x)−∇ f (y)‖ ≤ λ‖x− y‖, ∀x,y ∈U.
Entonces, se cumple∞
∑k=0
(cos2 θk)‖∇ f (xk)‖2 < ∞. (21)
Demostracion. Por la segunda condicion de Wolfe (14b) y ser xk+1 = xk +αk pk, tenemos que
(∇ fk+1 −∇ fk)T pk ≥ (c2 −1)∇ f T
k pk.
Aplicando la condicion de Lipschitz,
(∇ fk+1 −∇ fk)T pk ≤ ‖∇ fk+1 −∇ fk‖‖pk‖ ≤ λαk‖pk‖2.
11
Combinando estas dos relaciones, obtenemos
αk ≥(
c2 −1
λ
)∇ f T
k pk
‖pk‖2.
Sustituyendo esta desigualdad en la primera condicion de Wolfe (14a),
fk+1 ≤ fk − (−αk)c1∇ f Tk pk ≤ fk − c1
(c2 −1
λ
)(∇ f T
k pk)2
‖pk‖2.
Usando la definicion (20), podemos escribir esta relacion como
fk+1 ≤ fk − ccos2 θk‖∇ fk‖2,
donde c = c1(1− c2)/λ . Sumando esta expresion para todos los ındices menores o iguales que k:
fk+1 ≤ f0 − ck
∑j=0
cos2 θ j‖∇ f j‖2. (22)
Como f esta acotada inferiormente, tenemos que f0 − fk+1 es menor que cierta constante positiva,
para todo k. Tomando lımites en (22), deducimos (21).
Resultados similares pueden obtenerse cuando se usan las condiciones de Goldstein (19) o las
condiciones fuertes de Wolfe (15) en lugar de las condiciones de Wolfe.
Observese que las hipotesis del teorema anterior no son demasiado restrictivas. Si la funcion
f no estuviera acotada inferiormente, el problema de optimizacion no se considerarıa “bien defi-
nido”. La hipotesis de suavidad (continuidad Lipschitz del gradiente) viene implicada por muchas
de las condiciones de convergencia local de los algoritmos mas representativos.
Ejercicio 9. Sea f : Rn → R, con f ∈ C 2(U). Si la matriz hessiana ∇2 f esta acotada sobre U,
conjunto abierto que supondremos adicionalmente convexo, demostrar que ∇ f es Lipschitz conti-
nua en U.
Solucion: Para todo x,y ∈U se tiene que
∇ f (y)−∇ f (x) =∫ 1
0∇2 f (x+ t(y− x))(y− x)dt.
Tomando normas, obtenemos
‖∇ f (y)−∇ f (x)‖ ≤∫ 1
0‖∇2 f (x+ t(y− x))(y− x)‖dt ≤
∫ 1
0‖∇2 f (x+ t(y− x))‖‖y− x‖dt.
Como ∇2 f (·) esta acotada en U, existe una constante λ > 0 tal que ‖∇ f (z)‖ ≤ λ , ∀z ∈U. Al ser
U convexo, si t ∈ [0,1], se tiene que x + t(y− x) ∈ U, por lo que ‖∇2 f (x + t(y− x))‖ ≤ λ . Ası,
deducimos que
‖∇ f (y)−∇ f (x)‖ ≤∫ 1
0λ‖x− y‖dt = λ‖x− y‖.
12
Observacion 10. En las hipotesis del Teorema 8 solo exigimos que ∇ f sea Lipschitz continua en
U, no pedimos que lo sea en todo el espacio. Por ejemplo, para la funcion f (x) = x4, se tiene que
|∇ f (x)−∇ f (y)| = 4|x3 − y3| = 4|x2 + xy+ y2| |x− y|.
La expresion |x2 + xy + y2| no esta acotada sobre la recta real; sin embargo sı lo esta sobre el
conjunto U, ver Figura 7.
x0
f(x)=x4
U L=[�|x0 |,|x0 |]
Figura 7: ∇ f es Lipschitz continua en U sin serlo en todo el espacio.
La propiedad (21), llamada condicion de Zoutendijk, implica que
cos2 θk‖∇ f (xk)‖2 → 0. (23)
Este lımite puede usarse para derivar resultados de convergencia global para los algoritmos de
busqueda lineal. Si nuestro metodo de eleccion de pk asegura que el angulo θk esta acotado supe-
riormente, y que esta cota θ es menor de 90◦, existira una contante positiva δ tal que
cosθk ≥ cosθ = δ > 0, para todo k. (24)
Se sigue entonces de (23) que
lımk→∞
‖∇ f (xk)‖ = 0. (25)
En otras palabras, podemos asegurar que ∇ f (xk) → 0n siempre que las direcciones de busqueda
se mantengan “uniformemente” apartadas de la ortogonalidad con el gradiente. En particular, el
metodo de descenso mas rapido (en el que θk = 0 para todo k) cumple trivialmente esta condicion,
y produce una sucesion de puntos xk tales que ∇ f (xk) convergen a 0n, siempre que las busquedas
lineales satisfagan las condiciones de Wolfe (14) (o las de Goldstein (19)).
La condicion (25) se conoce como convergencia global, y el Teorema de Zoutendijk es un
resultado de convergencia global, en cuanto que la validez del resultado no depende de donde
se ubique el punto de partida x0. No obstante, es importante observar que el resultado no nos
garantiza que el metodo converja a un mınimo, sino a un punto estacionario. Solo introduciendo
requerimientos adicionales en las direcciones de busqueda pk podrıamos fortalecer el resultado
para obtener la convergencia a un mınimo local.
13
Observese que, si L = {x ∈ Rn | f (x) ≤ f (x0)} es acotado, como {xk} ⊂ L , existira una
subsucesion convergente a un punto x∗ ∈L . Para abreviar notacion, supondremos que es la propia
sucesion {xk} la que converge a x∗. Como f ∈ C1(U) y L ⊂U ,
∇ f (x∗) = ∇ f ( lımk→∞
xk) = lımk→∞
∇ f (xk) = 0n,
y x∗ sera un punto estacionario.
4.1. Metodos del gradiente
Consideremos ahora metodos del gradiente del tipo
pk = −B−1k ∇ fk, (26)
donde Bk son matrices simetricas definidas positivas con un numero de condicion1 uniformemente
acotado, es decir, existe una constante M > 0 tal que
cond(Bk) = ‖Bk‖‖B−1k ‖ ≤ M, para todo k.
En este caso, vamos a ver que
cosθk ≥1
M, ∀k, (27)
por lo que ∇ fk → 0. En efecto, si λ1(Bk) y λn(Bk) son el menor y el mayor valor propio de Bk
respectivamente, se tiene que
cosθk = − ∇ f Tk pk
‖∇ fk‖‖pk‖=
∇ f Tk B−1
k∇ fk
‖∇ fk‖‖B−1k ∇ fk‖
≥‖∇ fk‖2 1
λn(Bk)
‖∇ fk‖‖B−1k ∇ fk‖
≥‖∇ fk‖ 1
λn(Bk)
‖B−1k ‖‖∇ fk‖
=1
λn(Bk)λ1(Bk)
=1
cond(Bk)≥ 1
M.
En la primera desigualdad hemos usado el hecho de que para toda matriz A simetrica, se tiene que2
λ1(A)‖z‖2 ≤ zT Az ≤ λn(A)‖z‖2.
5. Tasa de convergencia
El mero hecho de que una sucesion {xk} converja a un punto estacionario x∗ no servirıa de nada
en la practica a menos que los puntos xk estuvieran relativamente cerca de x∗ tras “relativamente
pocas” iteraciones. Ası, el estudio de la tasa de convergencia es el criterio predominante a la hora
de seleccionar un algoritmo con respecto de otros para la resolucion de un problema.
Hay diferentes criterios a la hora de cuantificar la tasa de convergencia de un algoritmo.
Podrıamos estudiar la complejidad computacional del algoritmo; bien estimando el numero de
operaciones elementales necesarias para encontrar una solucion exacta o con una tolerancia de
ε > 0, o bien analizando el numero de evaluaciones de la funcion (y posiblemente del gradiente)
del algoritmo. El problema de este metodo es que en su analisis se considera el peor caso posible, y
1Ver Seccion 15.12Para demostrarlo, representar z en funcion de una base ortonormal de vectores propios de A.
14
se ha demostrado que en la practica, algoritmos “malos” en cuanto a complejidad tenıan un mejor
comportamiento que otros calificados como “mejores”. Esto ocurre porque los casos en los que
estos primeros algoritmos se comportaban mal, son improbables en modelos reales.
Vamos a centrarnos pues en el analisis local del algoritmo. Sus principales caracterısticas son
las siguientes:
Nos restringiremos a sucesiones {xk} que convergen a un unico punto lımite x∗.
La tasa de convergencia es evaluada usando una funcion de error e : Rn →R+ tal que e(x∗) =
0. Elecciones tıpicas son:
• e(x) = ‖x− x∗‖ (distancia Euclıdea);
• e(x) = | f (x)− f (x∗)| (diferencia en el coste).
Queremos ver lo “rapido” que {xk} converge a x∗, o lo “rapido” que lo hace { f (xk)} a f (x∗).Puede ocurrir que nos aproximemos rapido al valor de la funcion f (x∗) sin que lo hagamos
al punto x∗, como podemos ver en la Figura 8.
x�xk
f(x�)f(xk )
Figura 8: xk esta lejos de x∗ pese a estar f (xk) cerca de f (x∗).
Nuestro analisis es asintotico; esto es, atendemos a la tasa de convergencia de la cola de la
sucesion de errores {e(xk)}.
Definicion 11. Diremos que {e(xk)} converge linealmente si existe una constante β ∈ ]0,1[ tal que
lımsupk→∞
e(xk+1)
e(xk)≤ β . (28)
Cuando esta ultima desigualdad es valida para todo β ∈ ]0,1[ , es decir, si
lımk→∞
e(xk+1)
e(xk)= 0,
diremos que {e(xk)} converge superlinealmente. Si la sucesion {e(xk)} converge pero la desigual-
dad (28) no se verifica para ningun β ∈ ]0,1[ , diremos que {e(xk)} converge sublinealmente.
15
Para refinar la nocion de convergencia superlineal, establecemos la siguiente definicion:
Definicion 12. Se dice que {e(xk)} converge superlinealmente con orden p, con p > 1, cuando
lımsupk→∞
e(xk+1)
e(xk)p< ∞. (29)
El caso p = 2 se conoce como convergencia cuadratica.
Observacion 13. Una sucesion que converge sublinealmente es considerada en la practica como
no convergente: la convergencia puede ser tan lenta que un algoritmo con esta tasa no debe ser
utilizado.
Ejercicio 14. Probar que la convergencia lineal implica convergencia geometrica, i.e., existen
unas constantes q > 0 y β ′ ∈ ]0,1[ tales que
e(xk) ≤ q(β ′)k, ∀k. (30)
Demostrar que en general el recıproco no es cierto.
Solucion: Efectivamente, dado β ∈ ]0,1[ verificando (28), si tomamos β ′ ∈ ]β ,1[ , existe k0 tal que
e(xk+1)
e(xk)≤ β ′, para todo k ≥ k0.
Despejando se obtiene
e(xk0+p) ≤ (β ′)pe(xk0), ∀p.
Sea q ≥ max{e(xk)/(β ′)k, k = 1,2, . . . ,k0}. Se verificara, entonces,
e(xk) ≤ q(β ′)k, k = 1,2, . . . ,k0,
y reemplazando en la desigualdad anterior
e(xk0+p) ≤ (β ′)pe(xk0) ≤ q(β ′)k0+p, ∀p,
y por consiguiente se verifica (30).
La implicacion contraria no es cierta: la convergencia geometrica no implica convergencia
lineal. Como ejemplo, sea e(x2p) = β 3p+1, e(x2p+1) = β 2p+1, con β ∈ ]0,1[ . Se tiene que e(xk) ≤β k, pero
lımsupk→∞
e(xk+1)
e(xk)= lım
p→∞
e(x2p+1)
e(x2p)= lım
p→∞
β 2p+1
β 3p+1= lım
p→∞
1
β p= ∞,
y por tanto {e(xk)} no converge linealmente.
La relacion e(xk+1) ≤ β ′e(xk), ∀k ≥ k0, significa que, asintoticamente, el error se reduce en
cada iteracion por un factor que es, por lo menos, β ′ ∈ ]β ,1[ . Es por ello que se denomina conver-
gencia lineal, ver Figura 9.
16
e(xk )e(xk+1)e(xk+2)…
y=��x
e(xk+1)
e(xk+2)e(xk+3)
Figura 9: Convergencia lineal.
De acuerdo con la definicion de lımsup es evidente que (29) es equivalente a
e(xk+1) = O(e(xk)p),
es decir, existe q > 0 tal que e(xk+1) ≤ qe(xk)p, ∀k. De ello se deduce la interpretacion geometrica
que se muestra a continuacion en la Figura 10.
e(xk )e(xk+1)…
y=qxp
e(xk+1)
e(xk+2)
Figura 10: Convergencia superlineal de orden p > 1.
Es facil probar que la convergencia superlineal de orden p implica convergencia superlineal:
supongamos que
lımsupk→∞
e(xk+1)
e(xk)p< M,
para cierto M > 0. Entonces existe un k0 tal que
e(xk+1)
e(xk)p≤ M, para todo k ≥ k0,
17
o, equivalentemente,e(xk+1)
e(xk)≤ Me(xk)
p−1, para todo k ≥ k0.
Tomando supremos a ambos lados, tenemos que
supk≥n
e(xk+1)
e(xk)≤ sup
k≥n
Me(xk)p−1,
para todo n ≥ k0. Como p > 1 y e(xk) converge a cero, tomando lımite cuando n → ∞ en la
expresion anterior obtenemos finalmente que
lımsupk→∞
e(xk+1)
e(xk)= lım
n→∞supk≥n
e(xk+1)
e(xk)≤ lım
n→∞supk≥n
Me(xk)p−1 = lım
k→∞Me(xk)
p−1 = 0,
por lo que lımk→∞ e(xk+1)/e(xk) = 0.
Ejercicio 15. Hallar la tasa de convergencia de las siguientes sucesiones de errores:
1. e(xk) =1
k;
2. e(xk) = (0,5)2k;
3. e(xk) =1
k!.
Solucion:
1. La tasa de convergencia es sublineal, puesto que
lımsupk→∞
e(xk+1)
e(xk)= lım
k→∞
k
k +1= 1.
La sucesion no converge geometricamente. De ser ası, existirıa q > 0 y β ∈ ]0,1[ tales que
e(xk) ≤ qβ k,∀k. Por lo que1
q≤ kβ k, ∀k. (31)
Pero aplicando L’Hopital, deducimos que
lımx→∞
x
β−x= lım
x→∞
1
(− logβ )β−x= − 1
logβlımx→∞
β x = 0,
obteniendo una contradiccion con (31).
2. La tasa de convergencia es cuadratica:
lımsupk→∞
e(xk+1)
e(xk)2= lım
k→∞
(0,5)2k+1
[(0,5)2k
]2 = 1.
3. La tasa de convergencia es superlineal, ya que
lımsupk→∞
e(xk+1)
e(xk)= lım
k→∞
k!
(k +1)!= lım
k→∞
1
k +1= 0.
Sin embargo, no converge cuadraticamente:
lımsupk→∞
e(xk+1)
e(xk)2= lım
k→∞
(k!)2
(k +1)!= lım
k→∞
k!
k +1= ∞.
18
6. Analisis del modelo cuadratico
Podemos aprender mucho acerca de la tasa de convergencia de los metodos del gradiente cuan-
do estudiamos el caso ideal: cuando la funcion de coste es cuadratica. Si la funcion no es cuadratica
pero es dos veces continuamente diferenciable y x∗ es un mınimo local no singular, por el teorema
de Taylor, f podra ser aproximada de forma precisa cerca de x∗ mediante la funcion cuadratica
f (x∗)+1
2(x− x∗)T ∇2 f (x∗)(x− x∗),
por lo que “esperaremos” que los resultados asintoticos de convergencia obtenidos para el caso
cuadratico tengan resultados analogos para el caso general. Esta conjetura puede de hecho ser
demostrada y ha sido corroborada mediante una abundante experimentacion numerica.
Supongamos pues que f es una funcion cuadratica con una matriz hessiana Q (simetrica) defi-
nida positiva. Podemos suponer, sin perdida de generalidad3, que f alcanza su mınimo en x∗ = 0 y
que f (x∗) = 0. Ası tenemos
f (x) =1
2xT Qx, ∇ f (x) = Qx, ∇2 f (x) = Q. (32)
6.1. Metodo del descenso mas rapido
Para el modelo cuadratico (32), el metodo de descenso mas rapido toma la forma
xk+1 = xk −αk∇ f (xk) = (I −αkQ)xk.
Por tanto,
‖xk+1‖2 = xTk (I −αkQ)2xk ≤
(max. valor propio de (I −αkQ)2
)‖xk‖2.
Los valores propios de (I −αQ)2 son (1−αkλi)2, donde λ1, . . . ,λn son los valores propios de Q.
Si denotamos por m y M el valores propio mas pequeno y mas grande, respectivamente, tendremos
que
max. valor propio de (I −αkQ)2 = max{(1−αkm)2,(1−αkM)2}.Se sigue pues que, para xk 6= 0n,
‖xk+1‖‖xk‖
≤ max{|1−αkm|, |1−αkM|}. (33)
El valor de αk que minimiza esta cota es
α∗ =2
M +m,
segun se desprende de la Figura 11:
3Si f (x) = 12xT Qx− bT x + c, el mınimo x∗ vendra dado por Qx∗ = b. Entonces, haciendo el cambio z = x− x∗,
g(z) := 12zT Qz = 1
2(x− x∗)︸ ︷︷ ︸
z
T Q(x− x∗)︸ ︷︷ ︸z
=1
2xT Qx− (x∗)T Qx︸ ︷︷ ︸
f (x)
+1
2(x∗)T Qx∗− c︸ ︷︷ ︸
− f (x∗)
= f (x)− f (x∗).
19
1m
1
M
2
M+m2
M
1
M�mM+m
|1��M| |1��m|
max|1�m|,|1�M|��
longitudes de paso quegarantizan la convergencia
Figura 11: La cota se minimiza cuando 1−αm = αM−1, i.e., en α∗ = 2/(M +m).
En este caso,
‖xk+1‖‖xk‖
≤ M−m
M +m=
Mm−1
Mm
+1=
cond(Q)−1
cond(Q)+1. (34)
Esta es la mejor cota a la tasa de convergencia para el metodo de descenso mas rapido con tamano
de paso constante. Observese que, gracias a (33), la convergencia esta garantizada para cualquier
longitud de paso αk tal que
max{|1−αkm|, |1−αkM|} < 1,
esto es, para todo αk ∈ ]0,2/M[ (ver Figura 11).
Existe otro resultado interesante relativo a la tasa de convergencia del metodo del descenso mas
rapido cuando αk es elegido mediante una busqueda lineal exacta. Este resultado cuantifica la tasa
a la que desciende la funcion de coste:
f (xk+1)
f (xk)≤(
M−m
M +m
)2
=
(cond(Q)−1
cond(Q)+1
)2
. (35)
Observacion 16. A partir de (34) y (35) podemos ver que el metodo de descenso mas rapido puede
converger muy despacio cuando el numero de condicionamiento de Q es grande. Si cond(Q) ≈ 1,
la convergencia sera buena. En el mejor de los casos, cuando cond(Q) = 1, llegamos al optimo en
una etapa. Observese que, al ser (34) y (35) menor que 1, la tasa de convergencia sera lineal.
Para demostrar (35) haremos uso del siguiente resultado:
Lema 17 (Desigualdad de Kantorovich). Sea Q una matriz n× n simetrica y definida positiva.
Entonces, para todo y 6= 0n, se tiene
(yT y)2
(yT Qy)(yT Q−1y)≥ 4Mm
(M +m)2, (36)
donde M y m son el mayor y el menor valor propio de Q, respectivamente.
Demostracion. Sean λ1, . . . ,λn los valores propios de Q, y asumamos que
0 < m = λ1 ≤ λ2 ≤ . . . ≤ λn = M.
20
Sea S una matriz formada por los n vectores (columna) ortonormales asociados a λ1, . . . ,λn. En-
tonces, ST QS es una matriz diagonal, con λ1, . . . ,λn en la diagonal. Por consiguiente, podemos
suponer sin perdida de generalidad4 que Q es una matriz diagonal, con elementos de la diagonal
λ1, . . . ,λn. Ası, para todo y = (y1, . . . ,yn)T 6= 0n,
(yT y)2
(yT Qy)(yT Q−1y)=
(∑n
i=1 y2i
)2
(∑n
i=1 λiy2i
)(∑n
i=1y2
i
λi
) .
Consideremos la funcion convexa φ(λ ) = 1/λ y sea ξ = (ξ1, . . . ,ξn)T , donde
ξ j :=y2
j
∑ni=1 y2
i
, j = 1, . . . ,n.
Entonces tenemos que
(yT y)2
(yT Qy)(yT Q−1y)=
1(∑n
i=1 λiξi
)(∑n
i=1 φ(λi)ξi
) . (37)
Sea
λ :=n
∑i=1
λiξi, λφ :=n
∑i=1
φ(λi)ξi.
Como ξi ≥ 0 y ∑ni=1 ξi = 1, tendremos que λ1 ≤ λ ≤ λn. Supongamos que λ1 6= λn (en caso con-
trario (37) es igual a 1 y se verifica (36) con igualdad). Cada λi se puede representar como una
combinacion convexa de λ1 y λn:
λi =λi −λn
λ1 −λn
λ1 +λ1 −λi
λ1 −λn
λn.
Por la convexidad de φ se tiene que
φ(λi) ≤λi −λn
λ1 −λnφ(λ1)+
λ1 −λi
λ1 −λnφ(λn).
Por tanto,
λφ ≤n
∑i=1
(λi −λn
λ1 −λn
φ(λ1)+λ1 −λi
λ1 −λn
φ(λn)
)ξi =
n
∑i=1
λ1 +λn −λi
λ1λn
ξi =λ1 +λn −λ
λ1λn
,
y de (37) se sigue que
(yT y)2
(yT Qy)(yT Q−1y)=
1
λλφ≥ λ1λn
λ (λ1 +λn −λ )
≥ λ1λn
maxλ∈[λ1,λn]{λ (λ1 +λn −λ )} =4λ1λn
(λ1 +λn)2,
lo que concluye la demostracion.
4Haciendo una transformacion en el sistema de coordenadas que reemplace y por Sx.
21
Proposicion 18. Sea f (x) = 12xT Qx, con Q simetrica y definida positiva. Consideremos el metodo
del descenso mas rapido
xk+1 = xk −αk∇ f (xk),
donde αk es elegido por busqueda lineal exacta, satisfaciendo pues
f (xk −αk∇ f (xk)) = mınα≥0
f (xk −α∇ f (xk)). (38)
Entonces,
f (xk+1) ≤(
M−m
M +m
)2
f (xk), ∀k, (39)
donde M y m son el mayor y el menor valor propio de Q, respectivamente.
Demostracion. Denotemos
gk := ∇ f (xk) = Qxk.
El resultado se verifica de forma obvia si gk = 0n (ya que xk+1 = xk = 0n), por lo que supondremos
gk 6= 0n. Comencemos calculando el tamano de paso que minimiza (38):
d
dαf (xk −αgk) = −gT
k Q(xk −αgk) = −gTk gk +αgT
k Qgk.
Igualando esta derivada a cero, obtenemos:
αk =gT
k gk
gTk Qgk
.
Entonces,
f (xk+1) =1
2(xk −αkgk)
T Q(xk −αkgk) =1
2(xT
k Qxk −2αkgTk
gk︷︸︸︷Qxk +α2
k gTk Qgk)
=1
2
(xT
k Qxk −(gT
k gk)2
gkQgk
).
En base al hecho de que
f (xk) =1
2xT
k Qxk =1
2gT
k Q−1gk,
se deduce, aplicando el Lema 17,
f (xk+1) =
(1− (gT
k gk)2
(gkQgk)(gkQ−1gk)
)f (xk)
≤(
1− 4Mm
(M +m)2
)f (xk) =
(M−m
M +m
)2
f (xk),
y la prueba esta completa.
Es posible ver que las cotas (34) y (39) son “ajustadas”, en el sentido de que se alcanza la
igualdad para ciertos puntos iniciales (ejemplo5: f (x) = 12 ∑n
i=1 λix2i , donde 0 < λ1 ≤ . . . ≤ λn,
tomando x0 = (λ−11 ,0, . . . ,0,λ−1
n )T ).
5Cualquier funcion cuadratica definida positiva puede expresarse en esta forma. Los detalles de este ejemplo apa-
recen en [4, pag. 68].
22
6.2. Metodos del gradiente
Consideremos el siguiente metodo:
xk+1 = xk −αkB−1k ∇ f (xk), (40)
donde Bk es simetrica y definida positiva. Vamos a ver que es posible hacer un cambio de variables
para transformar este tipo de algoritmos en el del descenso mas rapido.
Realizamos un cambio de variable x = Sy, donde6
S = (B−1k )1/2.
En el espacio de las variables y, el problema puede escribirse como
Min h(y) ≡ f (Sy)s.a y ∈ R
n.
El metodo del descenso mas rapido aplicado a este problema toma la forma
yk+1 = yk −αk∇h(yk). (41)
Multiplicando por S, obtenemos
Syk+1 = Syk −αkS∇h(yk).
Como ∇h(yk) = S∇ f (xk) y S2 = B−1k , se tiene que
xk+1 = xk −αkB−1k ∇ f (xk).
Ası pues, el metodo del gradiente (40) no es otra cosa que el metodo del descenso mas rapido (41)
en el espacio de las variables y.
Apliquemos, en consecuencia, los resultados obtenidos para el metodo del descenso mas rapido
a la iteracion reescalada (41). Obtenemos:
‖yk+1‖‖yk‖
≤ max{|1−αkmk|, |1−αkMk|}, (42)
y
f (xk+1)
f (xk)=
h(yk+1)
h(yk)≤(
Mk −mk
Mk +mk
)2
, (43)
donde mk y Mk son el menor y el mayor valor propio de ∇2h(y), respectivamente, cuyo valor viene
dado por
∇2h(y) = S∇2 f (x)S = B−1/2
k QB−1/2
k .
Usando la relacion yk = S−1xk = B1/2
kxk, se deduce de (42)
xTk+1Bkxk+1
xTk Bkxk
≤ max{(1−αkmk)2,(1−αkMk)
2}.
6Si A es una matriz simetrica semidefinida positiva, con valores propios λ1, . . . ,λn y una base de vectores propios
ortonormales asociada u1, . . . ,un, entonces A1/2 := ∑ni=1 λ
1/2i uiu
Ti es una matriz simetrica (e invertible si lo es A) que
verifica A1/2A1/2 = A.
23
El tamano de paso que minimiza esta cota es
2
Mk +mk
. (44)
El punto importante a tener en cuenta es que si Mk/mk es mucho mas grande que la unidad, la tasa
de convergencia puede ser muy lenta, incluso si un tamano de paso optimo es considerado.
Observacion 19. Si Bk es una “buena aproximacion” de ∇2 f (x) = Q, se tendra que
∇2h(y) = B−1/2
k QB−1/2
k ≈ B−1/2
k BkB−1/2
k = B−1/2
k (B1/2
k B1/2
k )B−1/2
k = I.
En este caso, cabe esperar que mk ≈ 1 ≈ Mk. Ademas, el tamano de paso αk = 1 es “casi” optimo,
de acuerdo con (44).
6.3. Caso general: funciones no cuadraticas
Es posible demostrar resultados de convergencia similares a los probados para el modelo
cuadratico, cuando la funcion f es dos veces continuamente diferenciable. La demostracion de
estos involucra la repeticion de las pruebas realizadas para los modelos cuadraticos, aunque los
detalles son mas complicados.
En general, no esperamos que la tasa de convergencia mejore si realizamos una busqueda
inexacta del tamano de paso, por lo que la Proposicion 18 nos muestra que el metodo de descenso
mas rapido puede tener una tasa de convergencia “inaceptablemente” lenta, incluso cuando la ma-
triz hessiana esta “razonablemente” bien condicionada. Por ejemplo, si cond(Q) = 800, f (x0) = 1
y f (x∗) = 0, debido a (35), el valor de la funcion podrıa ser superior a 0,08 tras 500 iteraciones del
metodo de descenso mas rapido.
7. Resultados sobre la tasa de convergencia
7.1. Convergencia superlineal de los metodos quasi-Newton
La proposicion siguiente prueba que puede obtenerse convergencia superlineal cuando la direc-
cion pk aproxima a la direccion de Newton −(∇2 f (x∗))−1∇ f (xk) y el metodo de “backtracking”
es aplicado.
Proposicion 20 (Convergencia superlineal de los metodos quasi-Newton).
Sea f dos veces continuamente diferenciable. Consideremos una sucesion {xk} generada por el
metodo de busqueda lineal xk+1 = xk +αk pk, y supongamos que
xk → x∗, ∇ f (x∗) = 0n y ∇2 f (x∗) es definida positiva. (45)
Asumamos tambien que ∇ f (xk) 6= 0n, ∀k, y que
lımk→∞
‖pk +(∇2 f (x∗))−1∇ f (xk)‖‖∇ f (xk)‖
= 0. (46)
Entonces, si αk es elegido por el metodo de “backtracking” con α = 1 y c < 1/2, tendremos
lımk→∞
‖xk+1 − x∗‖‖xk − x∗‖ = 0. (47)
Ademas, existe un entero k0 ≥ 0 tal que αk = 1, ∀k ≥ k0.
24
Demostracion. Probaremos, en primer lugar, que existe un k0 ≥ 0 tal que
f (xk + pk)− f (xk) ≤ c∇ f (xk)T pk, ∀k ≥ k0; (48)
i.e., el valor α = 1 “pasa” el test de la regla de Armijo. Por el teorema de Taylor, tenemos
f (xk + pk)− f (xk) = ∇ f (xk)T pk +
1
2pT
k ∇2 f (xk)pk,
donde xk ∈ [xk,xk + pk]. Por lo tanto, sera suficiente probar que, para k suficientemente grande, se
tiene
∇ f (xk)T pk +
1
2pT
k ∇2 f (xk)pk ≤ c∇ f (xk)T pk. (49)
Definiendo
gk :=∇ fk
‖∇ fk‖y pk :=
pk
‖∇ fk‖,
la ecuacion (49) toma la forma
(1− c)gTk pk +
1
2pT
k ∇2 f (xk)pk ≤ 0. (50)
De la ecuacion (46) se deduce
pk +(∇2 f (x∗))−1gk → 0n. (51)
Como ‖gk‖ = 1,∀k, es evidente que {pk} es una sucesion acotada:
‖pk +(∇2 f (x∗))−1gk‖ ≥ ‖pk‖−‖(∇2 f (x∗))−1gk‖ ≥ ‖pk‖−‖(∇2 f (x∗))−1‖‖gk‖.
Al ser ∇ f continua, ∇ f (xk) → ∇ f (x∗) = 0n, por lo que debera ser pk → 0n. De ahı se deduce
xk + pk → x∗, y por lo tanto, xk → x∗, lo que a su vez conlleva ∇2 f (xk) → ∇2 f (x∗), pues f ∈ C2.
Sea bk := pk +(∇2 f (x∗))−1gk. Entonces (51) implica bk → 0n. Teniendo en cuenta que pk =−(∇2 f (x∗))−1gk +bk, escribimos (50) como
−(1− c)gTk
(− (∇2 f (x∗))−1gk +bk
)≥ 1
2pT
k
(∇2 f (xk)−∇2 f (x∗)
)pk
+1
2
(− gT
k (∇2 f (x∗))−1 +bTk
)∇2 f (x∗)
(− (∇2 f (x∗))−1gk +bk
),
o, equivalentemente,
(1
2− c
)gT
k (∇2 f (x∗))−1gk ≥(1− c)gTk bk +
1
2pT
k
(∇2 f (xk)−∇2 f (x∗)
)pk
− gTk bk +
1
2bT
k ∇2 f (x∗)bk.
Llamemos γk a la parte derecha de la anterior desigualdad, esto es,
γk := −cgTk bk +
1
2pT
k
(∇2 f (xk)−∇2 f (x∗)
)pk +
1
2bT
k ∇2 f (x∗)bk.
Ası, llegamos a que la desigualdad (49) es equivalente a
(1
2− c
)gT
k (∇2 f (x∗))−1gk ≥ γk. (52)
25
Como ∇2 f (xk) → ∇2 f (x∗), se tendra pues que γk → 0. Por otra parte, al ser (∇2 f (x∗))−1 definida
positiva, se tiene que
gTk (∇2 f (x∗))−1gk ≥
1
M‖gk‖2 =
1
M,
donde M es el mayor valor propio de ∇2 f (x∗), y por consiguiente, se verifica (52) para k suficien-
temente grande, pues c < 1/2 y γk → 0. Esto concluye la demostracion de (48).
Para completar la prueba observamos que, a partir de (46), se tiene que
pk +(∇2 f (x∗))−1∇ f (xk) = ‖∇ f (xk)‖qk, (53)
donde qk → 0n. A partir del teorema de Taylor (aplicado a ∇ f ) se tiene
∇ f (xk) = ∇ f (x∗)︸ ︷︷ ︸0n
+∇2 f (x∗)(xk − x∗)+o(‖xk − x∗‖), (54)
y de ahı,
‖∇ f (xk)‖ ≤ ‖∇2 f (x∗)‖‖xk − x∗‖+o(‖xk − x∗‖) =
(‖∇2 f (x∗)‖+
o(‖xk − x∗‖)‖xk − x∗‖
)‖xk − x∗‖,
es decir,
∇ f (xk) = O(‖xk − x∗‖).A partir de (54) tambien obtenemos
(∇2 f (x∗))−1∇ f (xk) = xk − x∗ +o(‖xk − x∗‖).
Usando estas dos ultimas relaciones en (53), resulta
pk + xk − x∗ = O(‖xk − x∗‖)qk +o(‖xk − x∗‖) = o(‖xk − x∗‖),
pues qk → 0n. Por otra parte, hemos demostrado al principio que para k suficientemente grande,
xk+1 = xk + pk, y ası
xk+1 − x∗ = o(‖xk − x∗‖),lo que implica (47) y concluye la demostracion.
En particular vemos que el metodo de Newton combinado con el algoritmo “backtracking”
con α = 1, converge superlinealmente cuando converge a un mınimo local x∗ tal que ∇ f (x∗) es
definida positiva.
Si pk es una direccion de busqueda quasi-Newton del tipo pk = −B−1k ∇ fk, entonces (46) es
equivalente a
0 = lımk→∞
∥∥((∇2 f (x∗))−1 −B−1k
)∇ fk
∥∥‖∇ fk‖
= lımk→∞
∥∥∥∥((∇2 f (x∗))−1 −B−1
k
) ∇ fk
‖∇ fk‖
∥∥∥∥ .
Ejercicio 21. Demostrar que si x∗ es un mınimo local no singular (i.e., ∇ f (x∗) = 0n y ∇2 f (x∗) es
definida positiva) y f ∈ C 2, entonces ∇ f (x) 6= 0n en un entorno de x∗.
26
Solucion: Veamos primero que, por continuidad de ∇2 f , existira un entorno U abierto convexo de
x∗ tal que ∇2 f (x) es definida positiva ∀x ∈U. Efectivamente,
pT ∇2 f (x)p = pT ∇2 f (x∗)p+ pT(
∇2 f (x)−∇2 f (x∗))
p ≥(
λ1 −‖∇2 f (x)−∇2 f (x∗)‖)‖p‖2,
donde λ1 es el menor valor propio de ∇2 f (x∗). Por continuidad de ∇2 f , existira un entorno con-
vexo U de x∗ tal que ‖∇2 f (x)−∇2 f (x∗)‖ < λ1, ∀x ∈U, y por tanto ∇2 f (x) sera definida positiva
∀x ∈U.
Supongamos, por reduccion al absurdo, que existe un x ∈U \{x∗} tal que ∇ f (x) = 0n. Como
∇ f (x)−∇ f (x∗) =
∫ 1
0∇2 f (x∗ + t(x− x∗))(x− x∗)dt,
multiplicando por (x− x∗)T , obtenemos
0 = (x− x∗)T 0n =
∫ 1
0(x− x∗)T
︸ ︷︷ ︸6=0n
∇2 f (x∗ + t(x− x∗))︸ ︷︷ ︸definida positiva:
U convexo, x∗,x∈U
(x− x∗)dt > 0,
llegando ası a una contradiccion.
8. El metodo de Newton y sus variaciones
El metodo de Newton, en su forma pura, genera las sucesivas iteraciones mediante la formula
xk+1 = xk −(
∇2 f (xk))−1
∇ f (xk), (55)
asumiendo que la llamada direccion de Newton
dNk := −
(∇2 f (xk)
)−1
∇ f (xk), (56)
este definida y sea de ‘descenso’, es decir, ∇ f (xk)T dNk < 0.
El analisis del metodo de Newton tiene dos facetas:
1. Convergencia local, del metodo ‘puro’ cuando x0 esta suficientemente proximo a un mınimo
local no singular.
2. Convergencia global, que analiza las modificaciones que son necesarias para asegurar la con-
vergencia del algoritmo a algun mınimo local independiente de la ubicacion del punto de
arranque x0.
Comenzaremos por afirmar que cuando el numero de variables n es grande, el computo de(∇2 f (xk)
)−1es de elevado coste.
27
8.1. Convergencia local
Discutiremos las propiedades de la tasa de convergencia local del metodo de Newton, en su
forma pura.
Si x esta suficientemente proximo a un punto x∗ tal que ∇2 f (x∗) es definida positiva, el hessiano
∇2 f (x) tambien sera definido positivo. Entonces, el metodo de Newton puro estara bien definido
en esta region, y convergera cuadraticamente.
Teorema 22. Supongamos que ∇2 f es Lipschitz continua en la bola cerrada B(x∗;β ), siendo x∗ un
punto en el que se satisfacen las condiciones suficientes de optimalidad. Consideremos la iteracion
xk+1 = xk + dkN , donde dk = dN
k ha sido definida en (56). Entonces, se cumplen las siguientes
propiedades:
1) Si el punto inicial x0 esta suficientemente proximo a x∗, la sucesion de puntos generada por
el algoritmo{
xk}∞
k=0converge a x∗ con tasa de convergencia es cuadratica.
2) La sucesion {‖∇ fk‖}∞k=0 converge cuadraticamente a cero.
Demostracion. 1) A partir de la definicion de dNk y de la condicion de optimalidad de 1er orden
∇ f (x∗) = 0n, tendremos:
xk +dNk − x∗ = xk − x∗− (∇2 fk)
−1∇ fk (57)
=(∇2 fk
)−1{(
∇2 fk
)(xk − x∗
)− (∇ fk −∇ f∗)
},
donde ∇2 fk ≡ ∇2 f (xk), ∇ fk ≡ ∇ f (xk), y ∇ f∗ ≡ ∇ f (x∗).Puesto que
∇ fk −∇ f∗ =∫ 1
0∇2 f
(x∗ + t
(xk − x∗
))(xk − x∗
)dt,
se tiene ∥∥∥(∇2 fk
)(xk − x∗
)− (∇ fk −∇ f∗)
∥∥∥ (58)
=
∥∥∥∥∫ 1
0
[∇2 fk −∇2 f
(x∗ + t
(xk − x∗
))](xk − x∗
)dt
∥∥∥∥
≤∫ 1
0
∥∥∥∇2 fk −∇2 f(
x∗ + t(
xk − x∗))∥∥∥
∥∥∥xk − x∗∥∥∥ dt
≤∥∥∥xk − x∗
∥∥∥2∫ 1
0L(1− t) dt =
1
2L
∥∥∥xk − x∗∥∥∥
2
,
si xk ∈ B(x∗;β ) y donde L es la constante de Lipschitz para ∇2 f (x) en dicho entorno de x∗.
Puesto que[∇2 f (x)
]−1es continua; podemos tomar β suficientemente pequeno para garantizar
∥∥∥[∇2 f (x)
]−1∥∥∥≤ 2
∥∥∥[∇2 f (x∗)
]−1∥∥∥ (59)
para todo x ∈ B(x∗;β ).Si xk ∈ B(x∗;β ), y sustituyendo en (57) y (58) se obtiene:
∥∥∥xk+1 − x∗∥∥∥ =
∥∥∥xk +dNk − x∗
∥∥∥ (60)
≤ L
∥∥∥[∇2 f (x∗)
]−1∥∥∥∥∥∥xk − x∗
∥∥∥2
= L
∥∥∥xk − x∗∥∥∥
2
28
donde L := L
∥∥∥[∇2 f (x∗)
]−1∥∥∥.
Tomemos β suficientemente pequeno para que, ademas de (59) se cumpla que β L < 1. Enton-
ces∥∥∥xk+1 − x∗
∥∥∥ ≤ L
∥∥∥xk − x∗∥∥∥∥∥∥xk − x∗
∥∥∥
≤ β L
∥∥∥xk − x∗∥∥∥≤
∥∥∥xk − x∗∥∥∥≤ β ,
donde la antepenultima desigualdad se deduce de que xk ∈ B(x∗;β ).Por lo tanto, si x0 ∈ B(x∗;β ), se tendra
{xk}∞
k=0∈ B(x∗;β ), y ademas
∥∥∥xk+1 − x∗∥∥∥ ≤ β L
∥∥∥xk − x∗∥∥∥
≤ (β L)k+1∥∥x0 − x∗
∥∥ ,
de donde se desprende que xk → x∗. De (60) se deuce la convergencia cuadratica.
2) Teniendo en cuenta las relaciones xk+1 − xk = dNk , y ∇ fk +(∇2 fk)d
Nk = 0n, obtenemos:
∥∥∥∇ f (xk+1)∥∥∥ =
∥∥∥∇ f (xk+1)−∇ f (xk)−∇2 f (xk)dNk
∥∥∥
=
∥∥∥∥∫ 1
0∇2 f (xk + tdN
k )(xk+1 − xk)dt −∇2 f (xk)dNk
∥∥∥∥
≤∫ 1
0
∥∥∥∇2 f (xk + tdNk )−∇2 f (xk)
∥∥∥∥∥dN
k
∥∥ dt
≤ 1
2L∥∥dN
k
∥∥2
≤ 1
2L
∥∥∥∇2 f (xk)−1∥∥∥
2∥∥∥∇ f (xk)∥∥∥
2
≤ 2L∥∥∇2 f (x∗)−1
∥∥2∥∥∥∇ f (xk)
∥∥∥2
,
donde la penultima desigualdad la obtenemos por la formula (59). Y con esto hemos probado que
las normas de los gradientes convergen cuadraticamente a cero.
8.2. Convergencia global
Las limitaciones del metodo puro de Newton surgen de los siguientes hechos:
1. La convergencia en las primeras iteraciones puede ser lenta.
2. Puede fallar la convergencia a un mınimo local porque:
El hessiano sea singular (¡si ∇2 f (xk) es singular, dNk no esta definida!).
El tamano de paso tk = 1 es ’demasiado grande’ (¡la aproximacion cuadratica es ’me-
nos’ satisfactoria si nos alejamos en exceso de xk!)
29
Se trata de modificar el metodo de Newton puro con el proposito de ’forzar’ la convergencia
global, pero manteniendo la ’buena tasa’ de convergencia local. Una posibilidad simple consiste
en reemplazar la direccion de Newton por la direccion del descenso mas rapido, cuando la primera
no esta definida o no es de descenso.
Generalmente, ninguna de las variantes del metodo de Newton puro puede garantizar conver-
gencia rapida en las primeras iteraciones, pero hay procedimientos que pueden usar informacion
de 2o orden de forma efectiva, incluso cuando el hessiano no es definido positivo. Estos esquemas
se basan en modificaciones de la diagonal del hessiano, de forma que la direccion de busqueda dk
se obtiene resolviendo el sistema
(∇2 f (xk)+∆k
)dk = −∇ f (xk),
cuando la direccion de Newton, dNk , no esta definida o no es de descenso. ∆k es una matriz diagonal
que se elige de tal forma que ∇2 f (xk)+∆k sea definida positiva. A continuacion describimos una
de las posibilidades mas caracterısticas.
8.2.1. Metodos de las regiones de confianza (’trust region’ methods)
Recordemos que el metodo de Newton puro se basa en la minimizacion sobre d, de la aproxi-
macion cuadratica a f alrededor de xk, dada por:
fk(d) := f (xk)+∇ f (xk)T d +1
2dT ∇2 f (xk)d.
Sabemos que fk(d) es una ’buena’ aproximacion de f (xk +d) cuando d esta en un ’pequeno’
entorno de 0n. El problema estriba en que la minimizacion irrestringida de fk(d) puede conducirnos
a un nuevo punto, xk+1 = xk +dk con dk ∈ argmin{ fk(d) : d ∈ Rn} que este lejos de dicho entorno.
Cobra, pues, sentido considerar una etapa de Newton restringida, dk, obtenida minimizando
fk(d) sobre un entorno ’conveniente’ de 0n, llamado region de confianza:
dk ∈ argmin{ fk(d) : ‖d‖ ≤ γk}donde γk es un escalar positivo. Aplicando las condiciones de KKT, tras formular la restriccion
‖d‖ ≤ γk como 12dT Id ≤ 1
2γ2
k , puede probarse que la etapa restringida de Newton, dk, tambien
tiene que satisfacer un sistema de la forma
(∇2 f (xk)+δkI
)d = −∇ f (xk),
donde I es la matriz identidad, y δk es un escalar no-negativo. De esta forma se evidencia que
el presente metodo de determinacion de dk corresponde a la estrategia de utilizar una correccion
’diagonal’ del hessiano.
Una importante observacion que procede efectuar aquı es que incluso cuando ∇2 f (xk) no es
definida positiva, la direccion restringida de Newton dk mejorara el coste, siempre que ∇ f (xk) 6= 0n
y γk sea suficientemente pequena. Para comprobar tal afirmacion, observemos que para todo d tal
que ‖d‖ ≤ γk
f (xk +d) = fk(d)+o(γ2k ),
30
de forma que
f (xk +dk) = fk(dk)+o(γ2
k ) = f (xk)+ mın‖d‖≤γk
{∇ f (xk)T d +
1
2dT ∇2 f (xk)d
}+o(γ2
k )
Ası pues, denotando
dk := − ∇ f (xk)∥∥∇ f (xk)∥∥γk,
se tendra:
f (xk+1) = f (xk +dk)
≤ f (xk)+∇ f (xk)T dk +1
2dT
k ∇2 f (xk)dk +o(γ2k ) =
f (xk)+ γk
(−∥∥∥∇ f (xk)
∥∥∥+γk
2∥∥ f (xk)
∥∥2∇ f (xk)T ∇2 f (xk)∇ f (xk)+o(γk)
).
Se aprecia que para γk suficientemente pequeno, el termino −∥∥∇ f (xk)
∥∥ domina a los otros dos
terminos en la expresion contenida entre parentesis, mostrando que f (xk+1) < f (xk).La eleccion del valor inicial de γk es crucial en este esquema: si es elegido demasiado grande,
quizas se necesitaran numerosas reducciones de γk hasta que una mejora de la funcion objetivo sea
lograda; si, por el contrario, el valor inicial de γk es demasiado pequeno, la tasa de convergencia
puede ser muy pobre.
9. Problemas de Mınimos-Cuadrados
El problema del que nos vamos a ocupar es el siguiente
(P) mın
{f (x) :=
1
2‖g(x)‖2 =
1
2
m
∑i=1
gi(x)2; s.a. x ∈ R
n
}, (61)
donde g = (g1, . . . ,gm)T : Rn → R
m, y gi ∈ C 1, i = 1,2, ...,m.
Si nustro objetivo es resolver la ecuacion vectorial (o sistema de ecuaciones) g(x) = 0m, es
evidente que x∗ es una solucion del tal sistema si y solo si x∗ minimiza 12‖g(x)‖2
, y el valor optimo
es cero.
Otras muchas aplicaciones pueden encontrarse en campos tan diversos como el ajuste de cur-
vas, las redes neuronales, la clasificacion de patrones, etc. (ver Bert95, pags 93-97).
Describiremos el metodo mas comunmente usado para resolver el problema (61), conocido
como metodo de Gauss-Newton. Dado un punto xk, la forma pura del metodo de Gauss-Newton se
basa en linealizar la funcion g(.) alrededor del punto xk, es decir, considerar la funcion lineal
ℓk(x) := g(xk)+∇g(xk)T (x− xk),
y minimizar, acto seguido, la norma de la funcion lineal ℓk(x). De esta forma
xk+1 = argmin
{1
2‖ℓk(x)‖2
: x ∈ Rn
}=
argmin
{1
2
{ ∥∥g(xk)∥∥2
+2g(xk)T ∇g(xk)T (x− xk)+(x− xk)T ∇g(xk)∇g(xk)T (x− xk)
}: x ∈ R
n
}.
31
Asumiendo que la matriz, cuadrada de dimensiones n× n, ∇g(xk)∇g(xk)T sea invertible, el
anterior problema de minimizacion conduce a:
xk+1 = xk −(
∇g(xk)∇g(xk)T)−1
∇g(xk)g(xk). (62)
Notese que si g es una funcion lineal, tenemos ‖g(x)‖2 = ‖ℓk(x)‖2y el metodo converge en
una simple iteracion. Observese tambien que la direccion utilizada en (62)
−(
∇g(xk)∇g(xk)T)−1
∇g(xk)g(xk),
es de descenso, puesto que ∇g(xk)g(xk)7 es el gradiente, en xk, de la funcion de coste 12‖g(x)‖2
, y la
matriz(∇g(xk)∇g(xk)T
)−1es definida positiva (bajo la hipotesis formulada de que sea invertible).
Para asegurar que se produzca el ’descenso’, en el caso de que la matriz ∇g(xk)∇g(xk)T sea
singular (tambien para ’reforzar’ la convergencia cuando dicha matriz esta proxima a ser singular!),
el metodo implementado frecuentemente realiza la iteracion
xk+1 = xk − tk
(∇g(xk)∇g(xk)T +∆k
)−1
∇g(xk)g(xk),
donde tk es elegido mediante alguna de las reglas de determinacion del tamano de salto, y ∆k es
una matriz diagonal tal que
∇g(xk)∇g(xk)T +∆k
es definida positiva. En el conocido metodo de Levenberg-Marquardt ∆k es un multiplo positivo de
la matriz identidad.
El metodo de Gauss-Newton guarda estrecha relacion con el metodo de Newton. De hecho, el
hessiano de la funcion objetivo es
∇g(xk)∇g(xk)T +m
∑i=1
gi(xk)∇2gi(x
k),
por lo que (62) equivaldrıa a una iteracion del metodo de Newton puro, pero omitiendo el termino
de segundo ordenm
∑i=1
gi(xk)∇2gi(x
k). (63)
Ası pues, en el metodo de Gauss-Newton ahorramos el computo de este termino, al precio de
algun deterioro en la tasa de convergencia. Por tanto, si el termino (63) es relativamente pequeno,
cerca de un mınimo, la tasa de convergencia del metodo de Gauss-Newton es bastante satisfactoria.
Esto sera particularmente cierto en aquellos casos en que g es practicamente lineal, y tambien
cuando las componentes gi(x) son pequenas, cerca de la solucion.
En el caso en que m = n, y tratamos de resolver el sistema g(x) = 0n, el termino omitido (63)
es nulo en la solucion. En este caso, asumiendo que ∇g(xk) es invertible, se cumple
(∇g(xk)∇g(xk)T
)−1
∇g(xk)g(xk) =(
∇g(xk)T)−1
g(xk),
y la forma pura del metodo puro de Gauss-Newton (62) toma la forma:
xk+1 = xk −(
∇g(xk)T)−1
g(xk),
que coincide con el metodo de Newton para resolver g(x) = 0n.
7∇g(xk)g(xk) = ∑mi=1 gi(x
k)∇gi(xk)
32
10. Metodos de direcciones conjugadas
El proposito de esta familia de metodos es mejorar la tasa de convergencia del metodo de des-
censo mas rapido, sin incurrir en la sobrecarga computacional del metodo de Newton.
Originalmente se desarrollaron para resolver el problema cuadratico
mın
{f (x) =
1
2xT Qx−bT x
}
s.a. x ∈ Rn, (64)
donde Q es una matriz simetrica y definida positiva, o bien para resolver el sistema lineal
Qx = b.
Los metodos de direcciones conjugadas resuelven estos problemas en un maximo de n itera-
ciones. Tambien se aplican a problemas de optimizacion en un entorno de un mınimo local x∗ tal
que ∇2 f (x∗) ≻ 0 (Bert95, pag. 118).
Definicion 23. Dada una matriz n×n simetrica y definida positiva Q, decimos que el conjunto de
vectores no-nulos d0,d1, . . . ,dk representan direcciones Q-conjugadas si
(di)T Qd j = 0, ∀i, j, tal que i 6= j.
Lema 24. Si d0,d1, . . . ,dk son Q-conjugadas seran linealmente independientes.
Demostracion. Supongamos (sin perdida de generalidad) que:
d0 = t1d1 + . . .+ tkdk.
Entonces
(d0)T Qd0 =k
∑i=1
ti(di)T Qd0 = 0,
ya que dTi Qd0 = 0, y esto contradice el hecho de que Q ≻ 0.
Para un conjunto (maximal) de direcciones Q-conjugadas, d0, d1, ...,dn−1, el metodo de direc-
ciones conjugadas destinado a resolver el problema (64), viene dado por
xk+1 = xk + tkdk, k = 0,1, . . . ,n−1,
donde x0 es un punto inicial arbitrario, y tk se obtiene mediante una busqueda lineal exacta, es decir
f (xk + tkdk) = mın{
f (xk + tdk) : t ∈ R
}. (65)
Proposicion 25. Para cada k se verifica
xk+1 = argmin{ f (x) : x ∈ Mk} , (66)
donde
Mk := x0 + span{d0, d1, ...,dk}.En particular, xn minimiza f sobre R
n, puesto que Mn−1 = Rn.
33
Demostracion. Por (65) se tiene
d f (xi + tdi)
dt|t=ti = ∇ f (xi+1)T di = 0,
y, para i = 0,1, ...,k−1,
∇ f (xk+1)T di =(
Qxk+1 −b)T
di =
(xi+1 +
k
∑j=i+1
t jdj
)T
Qdi −bT di
= (xi+1)T Qdi −bT di =(Qxi+1 −b
)Tdi = ∇ f (xi+1)T di,
donde hemos tenido en cuenta que di y d j, j = i+1, ...,k, son Q-conjugadas. Combinando las dos
ultimas igualdades resulta
∇ f (xk+1)T di = 0, i = 0,1, . . . ,k. (67)
De esta forma∂ f (x0 + γ0d0 + . . .+ γkdk)
∂γi
∣∣∣∣γ j=t j, j=0,1,...,k
= 0, i = 0, . . . ,k,
y se obtiene la conclusion deseada.
Dado un conjunto de vectores linealmente independientes {v0,v1, ...,vk}, nos planteamos ahora
la tarea de construir un conjunto de direcciones Q-conjugadas {d0,d1, ...,dk} tal que
span{d0,d1, ...,dk} = span{v0,v1, ...,vk}. (68)
Para ello recurriremos a una variante del metodo Gram-Schmidt. Aplicaremos un mecanismo
recursivo, comenzando con
d0 = v0. (69)
Supongamos que, para algun i < k, disponemos ya de direcciones Q-conjugadas d0,d1, ...,di
tales que
span{d0,d1, ...,di} = span{v0,v1, ...,vi}. (70)
Definiremos ahora
di+1 := vi+1 +i
∑m=0
ci+1,mdm, (71)
eligiendo los coeficientes ci+1,m, m = 0,1, ..., i, de forma que se garantice que di+1 es Q-conjugada
a d0,d1, ...,di. Esto sucedera si, para cada j = 0,1, ..., i, se cumple
0 = (di+1)T Qd j = (vi+1)T Qd j +i
∑m=0
ci+1,m(dm)T Qd j
= (vi+1)T Qd j + ci+1, j(dj)T Qd j,
de donde
ci+1, j = −(vi+1)T Qd j
(d j)T Qd j, j = 0,1, ..., i. (72)
Observese que el denominador (d j)T Qd j es positivo, puesto que las direcciones d0,d1, ...,di
son (por hipotesis de induccion) Q-conjugadas y, por tanto, no-nulas.
34
Notese tambien que di+1 6= 0n puesto que si fuese di+1 = 0n tendrıamos por (71) y (70)
vi+1 ∈ span{d0,d1, ...,di} = span{v0,v1, ...,vi},
entrando en contradiccion con la independencia lineal de los vectores v0,v1, ...,vk.Finalmente, por (71),
vi+1 ∈ span{d0,d1, ...,di,di+1},mientras que
di+1 ∈ span{d0,d1, ...,di}+ span{vi+1}= span{v0,v1, ...,vi}+ span{vi+1}= span{v0,v1, ...,vi,vi+1}.
Ası pues (70), se cumple tambien cuando i se incrementa a i+1.
Tambien merece la pena estudiar el caso en que los vectores v0,v1, ...,vi son linealmente in-
dependientes, pero el vector vi+1 depende linealmente de ellos. En este caso, el procedimiento
anterior (71), y las formulas (72) siguen siendo validas, pero el nuevo vector di+1 sera nulo. De
hecho, a partir de (70) y (71), se tiene
di+1 ∈ span{v0,v1, ...,vi,vi+1}= span{v0,v1, ...,vi},
y
di+1 =i
∑m=0
γmdm. (73)
Premultiplicando (73) por (d j)T Q, j = 0,1, ..., i, resulta γm = 0, m = 0,1, ..., i, y di+1 = 0n.Podemos usar esta propiedad para construir un conjunto de direcciones Q-conjugadas que ge-
neran el mismo espacio que los vectores v0,v1, ...,vk, los cuales a priori no tienen porque ser
linealmente independientes. Cada vez que mediante (71) y (72) se genera una ’nueva’ direccion
di+1 que es nula, sera descartada, y se incorporara vi+2.
10.1. El metodo del gradiente conjugado
Se aplica el metodo de Gram-Schmidt, recientemente descrito, a los vectores
vk = −gk ≡−∇ f (xk) = −(Qxk −b), k = 0,1, ...,n−1.
Ası pues, el metodo del gradiente conjugado progresa mediante iteraciones
xk+1 = xk + tkdk,
donde tk se obtiene mediante minimizacion de f sobre la recta {xk + tdk : t ∈ R}, y dk es obtenida
aplicando (71) a −gk y a las direcciones d0,d1, ...,dk−1 previamente determinadas, con coeficientes
dados por (72):
dk = −gk +k−1
∑j=0
(gk)T Qd j
(d j)T Qd jd j. (74)
35
Observese que d0 = −g0, y el metodo termina cuando llega a un punto xk tal que gk = 0n.
Logicamente, el metodo tambien se detiene cuando dk = 0n, pero veremos que esto solo puede
acontecer cuando gk = 0n.La propiedad clave del metodo del gradiente conjugado estriba en que la formula (74) puede
ser simplificada de forma considerable. En particular todos salvo uno de los coeficientes de (74) se
anulan, y ello como consecuencia de (67), ecuacion que establece que el gradiente gk es ortogonal
a d0,d1, ...,dk−1. De hecho tenemos la siguiente proposicion:
Proposicion 26. Las direcciones de busqueda utilizadas en el metodo del gradiente conjugado son
d0 = −g0,
dk = −gk +βkdk−1, k = 1,2, ...,n−1,
con
βk :=(gk)
T gk
(gk−1)T gk−1
. (75)
Ademas, el metodo termina en una solucion optima en un maximo de n etapas.
Demostracion. Usuaremos la induccion para comprobar que los gradientes gk generados hasta la
terminacion son linealmente independientes. El resultado es obvio k = 0. Supongamos, pues, que el
metodo no ha terminado despues de k etapas, y que g0,g1, ...,gk−1 son linealmente independientes.
Entonces, y puesto que se trata de un metodo de direcciones conjugadas,
span{d0,d1, ...,dk−1} = span{g0,g1, ...,gk−1}.
Hay dos posibilidades:
i) gk = 0n, en cuyo caso el metodo termina.
ii) gk 6= 0n, en cuyo caso, por (67),
gk ⊥ span{d0,d1, ...,dk−1}⇒ gk ⊥ span{g0,g1, ...,gk−1}, (76)
y ello conlleva que gk sea linealmente independiente de g0,g1, ...,gk−1.
Puesto que como maximo n gradientes linealmente independientes podran ser generados, se
sigue que el gradiente sera 0n despues de n iteraciones, y el metodo termina obteniendo el mınimo
(global) de f .
Veamos ahora que (74) se simplifica en los terminos indicados. Sea j tal que g j 6= 0n. Se
verifica, entonces,
g j+1 −g j = Q(x j+1 − x j) = t jQd j. (77)
Observese que t j 6= 0, porque si fuese t j = 0 se tendrıa g j+1 = g j, lo que implicarıa (en virtud de
(76)) que g j = 0n (¡descartado por hipotesis!). Ası pues,
(gi)T Qd j =
1
t j(gi)
T (g j+1−g j) =
{0, si j = 0,1, ..., i−2,1
ti−1(gi)
T gi, si j = i−1,
y tambien
(d j)T Qd j =1
t j
(d j)T (g j+1 −g j).
36
Sustituyendo en (74) se obtiene
dk = −gk +βkdk−1, (78)
con
βk =
1tk−1
(gk)T gk
1tk−1
(dk−1)T (gk −gk−1)(79)
=(gk)
T gk
(dk−1)T (gk −gk−1). (80)
A partir de (78) se deduce
dk−1 = −gk−1 +βk−1dk−2.
Usando esta ecuacion, la ortogonalidad de gk y gk−1, y de dk−2 y gk −gk−1 (por (76)), el denomi-
nador de (80) se reduce a (gk−1)T gk−1, como pretendıamos probar.
Observese que la ortogonalidad de gk y gk−1 permite escribir la formula (75) como:
βk :=gT
k (gk −gk−1)
gTk−1
gk−1
. (81)
Mientras que (75) y (81) son equivalentes en el caso cuadratico, en el caso no-cuadratico exis-
ten diferencias notables entre ambas formulas.
Aplicacion a problemas no-cuadraticos El metodo del gradiente conjugado puede ser aplicado
al problema no-cuadratico
mın { f (x), s.a. x ∈ Rn},
en cuyo caso procede de la siguiente forma:
xk+1 = xk + tkdk,
donde tk es obtenido mediante una busqueda lineal exacta
f(
xk + tkdk)
= mın{ f(
xk + tdk)
, t ∈ R}, (82)
y
dk := −∇ f (xk)+βkdk−1. (83)
La forma mas comun de calcular βk es a traves de la formula
βk =∇ f (xk)T
(∇ f (xk)−∇ f (xk−1)
)
∇ f (xk−1)T ∇ f (xk−1).
(Comparese esta formula con (81)).
La direccion dk suministrada por (83) es de descenso:
∇ f (xk)T dk = −∥∥∥∇ f (xk)
∥∥∥2
+βk∇ f (xk)T dk−1 = −∥∥∥∇ f (xk)
∥∥∥2
,
37
donde la primera igualdad se deduce de (83) y la segunda de (82).
El metodo del gradiente conjugado es a menudo empleado en problemas en que el numero
de variables n es grande, y es frecuente que el metodo de repente comience a generar de repente
direcciones de busqueda ineficientes. Por esta razon, es importante operar en ciclos de etapas que
usen direcciones conjugadas”, con una primera iteracion en el ciclo realizada mediante el metodo
de descenso mas rapido. Un par de posibles polıticas para el ’reinicio’ es:
1. Reiniciar (un nuevo ciclo) con una etapa del metodo del descenso mas rapido despues de
exactamente n iteraciones.
2. Reiniciar con la correspondiente etapa del metodo del descenso mas rapido bien si se han
realizado n iteraciones desde el reinicio ultimo o si
∣∣∣∇ f (xk)T ∇ f (xk−1)∣∣∣> γ
∥∥∥∇ f (xk−1)∥∥∥
2
, (84)
donde γ es un escalar fijo con 0 < γ < 1. La relacion anterior es un test de ’perdida de con-
jugacion’, puesto que si las direcciones generadas fuesen conjugadas entonces tendrıamos
∇ f (xk)T ∇ f (xk−1) = 0.
11. Metodos Quasi-Newton
Son metodos del gradiente de la forma xk+1 = xk + tkdk, con
dk := −Dk∇ f (xk), (85)
donde Dk es una matriz simetrica y definida positiva que se ajusta en cada iteracion de modo que dk
se aproxime progresivamente a la direccion de Newton. Por su parte, Dk se aproxima a (∇2 f )−1.
Tıpicamente, su convergencia es rapida, y evitan los calculos relativos a las segundas derivadas
que conlleva el metodo de Newton. Requieren el almacenamiento de la matriz Dk, y de los demas
elementos que intervienen en la obtencion de Dk+1 a partir de Dk.
Una idea fundamental en los metodos Quasi-Newton es que cada dos puntos consecutivos, xk
y xk+1, junto con sus gradientes, ∇ f (xk) y ∇ f (xk+1), proporcionan informacion sobre la curvatura
de f , a traves de la relacion aproximada
qk ≈ ∇2 f (xk+1)pk, (86)
donde
pk := xk+1 − xk,
y
qk := ∇ f (xk+1)−∇ f (xk).
Observese que si f es cuadratica, ∇2 f es constante, y (86) es una identidad.
En los metodos Quasi-Newton mas populares, la matriz Dk+1 es obtenida a partir de Dk, y de
los vectores pk y qk, a traves de la ecuacion
Dk+1 := Dk +pk(pk)T
(pk)T qk− Dkqk(qk)T Dk
(qk)T Dkqk+ξkτkvk(vk)T , (87)
38
donde
vk : =pk
(pk)T qT− Dkqk
τk
, (88)
τk : = (qk)T Dkqk, (89)
los escalares ξk satisfacen, ∀k,
0 ≤ ξk ≤ 1,
y D0 es una matriz simetrica definida positiva arbitraria.
Los escalares ξk parametrizan el metodo. Si ξk = 0 para todo k, obtendremos el metodo de
Davidon-Fletcher-Powell (DFP), que es historicamente el primer metodo Quasi-Newton. Si ξk =1 para todo k, se obtiene el metodo de Broyden-Fletcher-Goldfarb-Shanno (BFGS), el cual se
considera el mejor metodo Quasi-Newton conocido hasta el presente (de proposito general).
Probaremos, a continuacion, que bajo una condicion debil, las matrices Dk generadas por (87)
son definidas positivas. Ello garantiza que la direccion de busqueda dk dada por (85) es de descen-
so.
Proposicion 27. Si Dk es definida positiva, y tk > 0 es elegida de tal modo que
∇ f (xk)T dk < ∇ f (xk+1)T dk, (90)
entonces Dk+1, dada por (87), tambien es definida positiva.
Observacion 28. En particular, si tk es determinada mediante una minimizacion sobre la recta
{xk + tdk : t ∈ R}, tendremos que ∇ f (xk+1)T dk = 0 y (90) se cumple trivialmente.
Demostracion. Observemos, en primera instancia, que (90) implica tk 6= 0 y qk 6= 0n. Ası pues,
(pk)T qk = tk(dk)T(
∇ f (xk+1)−∇ f (xk))
> 0. (91)
Esta desigualdad la obtenemos por (90) y por el hecho de que tk > 0.
Concluimos que ’todos’ los denominadores en (87), (88) y (89) son no-nulos (de hecho son
positivos), y Dk+1 esta ’bien definida’. Ahora para cualquier z 6= 0n, se obtiene
zT Dk+1z = zT Dkz+(zT pk)2
(pk)T qk−((qk)T Dkz
)2
(qk)T Dkqk+ξkτk((v
k)T z)2. (92)
Usando la notacion
a := D12
k , b := D12
k qk,
(92) se expresa como
zT Dk+1z =‖a‖2‖b‖2 − (aT b)2
‖b‖2+
(zT pk)2
(pk)T qk+ξkτk((v
k)T z)2. (93)
A partir de (89) y de (91), junto con la desigualdad de Cauchy-Schwarz, deducimos que todos los
terminos en el segundo miembro de (93) son no-negativos. Para probar que zT Dk+1z es, de hecho,
positivo mostraremos que no se pueden satisfacer simultaneamente
‖a‖2 ‖b‖2 = (aT b)2 y zT pk = 0.
39
De hecho, si ‖a‖2 ‖b‖2 = (aT b)2, se tendra a = λb o, equivalentemente,
z = λqk.
Puesto que z 6= 0n, se sigue que λ 6= 0, de forma que si zT pk = 0 tiene que cumplirse (qk)T pk = 0,
lo que es imposible en virtud de (90).
Proposicion 29. Sean {xk}, {dk}, y {Dk} sucesiones generadas por el algoritmo Quasi-Newton
(85), (87) a (89), aplicado a minimizar la funcion
f (x) =1
2xT Qx−bT x,
donde Q es simetrica y definida positiva, con tk elegido de manera que
f (xk + tkdk) = mın{ f (xk + tdk) : t > 0}. (94)
Asumamos que ninguno de los puntos x0,x1, ...,xn−1 es un mınimo. Entonces se tiene que:
(i) Los vectores d0,d1, ...,dn−1 son Q-conjugados;
(ii) Dn = Q−1.
Demostracion. Probaremos que, para todo k,
(di)T Qd j = 0, 0 ≤ i < j ≤ k, (95)
Dk+1Qpi = pi, 0 ≤ i ≤ k. (96)
(95) establece (i), mientras que probaremos que (96) conduce a (ii). De hecho, y puesto que hemos
asumido que para i < n ninguno de los puntos xi es optimo, y di es una direccion de descenso
(por (85) y la proposicion anterior), tenemos que pi 6= 0n. Puesto que pi = tidiy d0,d1, . . . ,dn−1
son Q-conjugados, se sigue que p0, p1, . . . , pn−1 son linealmente independientes y, ası pues, (96)
implica que DnQ es igual a la matriz identidad.
Probaremos en primer lugar, que
Dk+1Qpk = pk, ∀k. (97)
A partir de la ecuacion Qpk = qk, y la formula (87), se obtiene
Dk+1Qpk = Dk+1qk
= Dkqk +pk(pk)T qk
(pk)T qk− Dkqk(qk)T Dkqk
(qk)T Dkqk+ξkτkvk(vk)T qk
= pk +ξkτkvk(vk)T qk.
A partir de (88) y (89) se deduce
(vk)T qk =
(pk)T qk
(pk)T qk− (qk)T Dkqk
τk
= 1−1 = 0,
y resulta
Dk+1Qpk = pk
40
A continuacion probaremos por induccion, y de forma simultanea (95) y (96). Para k = 0, (96) se
cumple en virtud de (97). De otro lado:
(d1)T Qd0 = −∇ f (x1)T D1Qd0
= − 1
t0∇ f (x1)T (D1Qp0) = − 1
t0∇ f (x1)T p0 = ∇ f (x1)T d0 = 0.
Asumiremos que (95) y (96) se cumplen para k, y comprobaremos que tambien son validas para
k +1. Se tiene, para i < k,
∇ f (xk+1) = ∇ f (xi+1)+Q(pi+1 + . . .+ pk). (98)
Veamos que pi es ortogonal a cada vector presente en el miembro de la derecha en (98). De hecho
pi es ortogonal a Qpi+1, . . . ,Qpk dado que los vectores p0, . . . , pk son Q-conjugados (pi = tidi), y
es ortogonal a ∇ f (xi+1) porque ti se determina mediante una minimizacion (94). Ası pues, de (98)
se deduce
pi∇ f (xk+1) = 0, 0 ≤ i < k. (99)
A partir de esta igualdad, y de (96) (junto con la hipotesis de induccion):
(pi)T QDk+1∇ f (xk+1) = (pi)T ∇ f (xk+1) = 0, 0 ≤ i ≤ k, (100)
donde la primera igualdad la obtenemos por (96), y la segunda por (99) (el caso i = k, es conse-
cuencia de (94)), y puesto que pi = tidi, y dk+1 = −Dk+1∇ f (xk+1), obtenemos de (100)
−ti(di)T Qdk+1 = 0, 0 ≤ i ≤ k, donde ti 6= 0, (101)
y esto prueba (95) para k +1.
A partir de la hipotesis de induccion relativa a (96) y por (101), tenemos para todo i tal que
0 ≤ i ≤ k:
(qk+1)T Dk+1Qpi = (qk+1)T pi = (pk+1)T Qpi = tk+1tidk+1Qdi = 0. (102)
De (87):
Dk+2qi = Dk+1qi +pk+1(pk+1)T qi
(pk+1)T qk+1− Dk+1qk+1(qk+1)T Dk+1qi
(qk+1)T Dk+1qk+1
+ξk+1τk+1vk+1(vk+1)T qi.
Puesto que (pk+1)T qi = (pk+1)T Qpi = 0, el segundo termino en el miembro de la derecha de la
expresion anterior es cero. Similarmente:
(qk+1)T Dk+1qi = (qk+1)T Dk+1Qpi = (qk+1)T pi = (pk+1)T Qpi = 0,
(donde la antepenultima igualdad se obtiene por la formula (96)) y el tercer termino en el segundo
miembro de la expresion que estamos analizando tambien es cero.
Finalmente,
(vk+1)T qi =(pk+1)T qi
(pk+1)T qk+1− (qk+1)T Dk+1qi
τk+1
= 0−0 = 0.
Ası pues
Dk+2Qpi = Dk+2qi = Dk+1qi = Dk+1Qpi = pi, 0 ≤ i ≤ k.
Por (97),
Dk+2Qpk+1 = pk+1,
y queda verificado que (96)se cumple para k +1.
41
11.1. Comparacion de los metodos Quasi-Newton con otros metodos
La principal ventaja de los metodos Quasi-Newton estriba en que si las busquedas lineales se
realizan con ’relativa’ precision, estos algoritmos, no solo ’tienden’ a generar direcciones conjuga-
das, sino que estas direcciones ’tienden’ a la del metodo de Newton, disfrutando de una rapida tasa
de convergencia en las inmediaciones de un mınimo local no-singular. Ello ademas, no depende
de la matriz inicial D0, con lo que no es usualmente necesario el intercalar etapas de ’reinicio’ que
recurran al metodo de descenso mas rapido.
Si las evaluaciones multiples de la funcion objetivo y del gradiente a realizar durante las busquedas
lineales son computacionalmente costosos, las ventajas computacionales del metodo del gradiente
conjugado vendrıan compensadas por la rapidez de convergencia de los metodos Quasi-Newton.
12. Metodos que no usan derivadas
Los metodos del gradiente que hemos visto con anterioridad requieren al menos el calculo
del gradiente ∇ f (xk) y posiblemente el hessiano ∇2 f (xk) en cada punto generado xk. En muchos
problemas, o bien estas derivadas no estan disponibles en forma explıcita, o bien vienen dadas
por expresiones muy complicadas. En estos casos, podrıamos utilizar una aproximacion de las
derivadas mediante diferencias finitas y aplicar el correspondiente metodo del gradiente usando
estas aproximaciones. En esta seccion vamos a presentar otros metodos que no utilizan derivadas.
12.1. Metodo de descenso por coordenadas
En el metodo de descenso por coordenadas la funcion objetivo es minimizada a lo largo de una
direccion coordenada en cada iteracion. El orden en que las direcciones coordenadas son elegidas
puede variar en el curso del algoritmo. Ası, el metodo utiliza alguna de las direcciones coordenadas
e1,e2, . . . ,en (o sus direcciones contrarias −ei) como direccion de busqueda. En el caso de que el
orden sea cıclico, tras n iteraciones, el metodo vuelve a tomar e1 como direccion de busqueda. Otra
variante es el metodo de doble barrido de Aitken (tambien llamado “back-and-forth”), que utiliza
las direcciones coordenadas en el siguiente orden
e1,e2, . . . ,en−1,en,en−1, . . . ,e2,e1,e2, . . .
Estos metodos cıclicos tienen la ventaja de no requerir ninguna informacion acerca de ∇ f para
determinar las direcciones de descenso.
Si el gradiente de f esta disponible, tiene sentido elegir la direccion coordenada en base a ∇ fk.
Una tecnica popular es el llamado metodo de Gauss-Southwell, donde en cada etapa es elegida
como direccion de busqueda la direccion coordenada correspondiente a la componenente mayor
(en valor absoluto) del gradiente de f .
42
Figura 12: Metodo de descenso por coordenadas.
A pesar de parecer un metodo simple e intuitivo, puede ser bastante ineficiente. La experiencia
practica demuestra que tıpicamente se requieren n iteraciones del metodo de descenso por coor-
denadas para igualar una iteracion del metodo de descenso mas rapido. De hecho, el metodo de
descenso de coordenadas con busqueda lineal exacta puede iterar infinitamente sin aproximarse
nunca a un punto donde el gradiente de la funcion objetivo tienda a cero. Esta dificultad provie-
ne del hecho de que el gradiente ∇ fk puede volverse cada vez mas perpendicular a la direccion
coordenada, y ası, cosθk puede aproximarse suficientemente rapido a cero de manera que la con-
dicion de Zoutendijk (21) es satisfecha aunque ∇ fk no se aproxime a cero. Sin embargo, este
metodo puede ser practico en diversas situaciones ya que no requiere el calculo del gradiente ∇ fk,
y ademas, la velocidad de convergencia puede ser bastante aceptable si las variables no estan “muy
interaccionadas” (es decir, si la matriz hessiana es casi diagonal).
12.2. El metodo simplex de Nelder y Mead
El metodo simplex8 de Nelder y Mead es un algoritmo de busqueda directa, que se diferencia
bastante de los algoritmos de busqueda lineal que hemos visto anteriormente. En una iteracion
de este metodo, se parte de un simplex, que es la envoltura convexa de n +1 puntos x0,x1, . . . ,xn
afınmente independientes9.Sean xmin y xmax el “mejor” y el “peor” de los vertices del simplex, es
decir, aquellos vertices que satisfacen
f (xmin) = mıni=0,1,...,n
f (xi) y f (xmax) = maxi=0,1,...,n
f (xi).
Sea x el centroide (o baricentro) de la cara del simplex formada por todos los vertices que no
son xmax, es decir,
x :=1
n
(−xmax +
n
∑i=0
xi
).
8Para evitar la confusion con el metodo simplex de programacion lineal es tambien llamado el algoritmo politopo.9Equivalentemente, x1 − x0, . . . ,xn − x0 son linealmente independientes.
43
La iteracion reemplaza el “peor” vertice xmax por uno “mejor”. Para ello se computa el punto
reflejado
xre f := 2x− xmax,
que esta en la recta determinada por xmax y x, siendo simetrico a xmax respecto de x. Dependiendo
del valor de la funcion objetivo en xre f , en relacion con el valor de la funcion objetivo en los
restantes puntos del simplex (excluido xmax), un nuevo vertice xnew es obtenido, y un nuevo simplex
es formado reemplazando xmax por xnew, conservando los otros n vertices.
Algoritmmo 2 (Iteracion del metodo simplex de Nelder y Mead).
xre f = 2x− xmax
if f (xmin) > f (xre f ) :
xexp = 2xre f − x
if f (xexp) < f (xre f ) :
xnew = xexp
else:
xnew = xre f
Caso 1: xre f tiene coste mınimo
(intento de expansion)
elif f (xmin) ≤ f (xre f ) < max{ f (xi) | xi 6= xmax} :
xnew = xre f
}Caso 2: xre f tiene coste intermedio
(uso de la reflexion)
else:
if f (xmax) ≤ f (xre f ) :
xnew = 12(xmax + x)
else:
xnew = 12(xre f + x)
Caso 3: xre f tiene coste maximo
(contraccion)
Formar el nuevo simplex reemplazando xmax por xnew.
xminxmax
xi x
xref
xexp1
2(xref+ x)
1
2(xmax+ x)
Figura 13: Elecciones posibles para el nuevo punto xnew en el algoritmo simplex.
Una cuestion importante consiste en saber cuando una solucion “adecuada” ha sido encontrada.
Nelder y Mead sugirieron utilizar la desviacion estandar de los valores de la funcion:
test =
√1
n
n
∑i=0
( f (xi)−M)2, donde M =1
n+1
n
∑i=0
f (xi).
44
El algoritmo se detendrıa cuando el valor test fuera menor que cierto valor de tolerancia preasig-
nado. Esta regla de parada resulta ser razonable en aplicaciones estadısticas, donde este metodo
aun es utilizado. Otra posibilidad consistirıa en detener el algoritmo cuando el valor de la funcion
en todos los puntos del simplex sea el mismo, es decir, cuando f (xmin) = f (xmax) (o cuando su
diferencia sea menor que cierto valor de tolerancia).
Cuando f no es convexa es posible que f (xnew) > f (xmax), no experimentandose una “mejora”
de la funcion objetivo en la correspondiente etapa. En este caso una modificacion posible consistirıa
en contraer el simplex hacia el mejor vertice xmin, reemplazando los vertices originales xi por
xi =1
2(xi + xmin), i = 0,1, . . . ,n.
Este metodo con la modificacion descrita, funciona razonablemente bien en la practica para pro-
blemas de dimension pequena (hasta 10), aunque no garantiza unas propiedades de convergencia
teoricamente deseables (un contraejemplo para la convergencia con n = 2 y f estrictamente con-
vexa es dado por McKinnon, ver [16]).
En la Figura 14 podemos ver el resultado de aplicar el metodo simplex a dos funciones utiliza-
das habitualmente en los tests de algoritmos.
-5 -4 -3 -2 -1 -0 1 2 3 4 5
-5
-4
-3
-2
-1
-0
1
2
3
4
5
-1 -0.75 -0.5 -0.25 -0 0.25 0.5 0.75 1
-0
0.5
1
1.5
Figura 14: Metodo simplex de Nelder y Mead aplicado a las funciones clasicas de Himmelblau
f (x,y) = (x2 +y−11)2 +(x+y2−7)2 (izq.) y Rosenbrock f (x,y) = 100(y−x2)2 +(1−x)2 (der.).
Formas mas generales de del Algoritmo 2 toman combinaciones convexas arbitrarias para
obtener los puntos calculados por el metodo: xre f = x + λ (x− xmax), xexp = xre f + γ(xre f − x),xnew = θxmax +(1−θ)x, o xnew = θxre f +(1−θ)x para ciertas constantes λ ,γ > 0 y θ ∈ (0,1).Otra modificacion posible consiste en reiniciar el simplex actual tras realizarse varias etapas de
expansion (Caso 1, cuando xnew = xexp), para ası evitar una deformacion grande del simplex. En
este caso, los dos mejores puntos son retenidos, y la distancia entre ellos determina la longitud del
lado del nuevo simplex regular. Dado un punto x0, es facil obtener un simplex regular de longitud
δ > 0 con vertice en x0. Basta tomar
α :=δ
n√
2(n−1+
√n+1), β :=
δ
n√
2(−1+
√n+1),
45
y definir
xi := x0 +(β , . . . ,β ,α,β , . . . ,β )T , i = 1, . . . ,n.⇑
componenente i
Normalmente, el metodo parte de un simplex regular generado a partir de un punto inicial introdu-
cido, aplicando a continuacion el Algoritmo 2.
13. Optimizacion con restricciones
13.1. Restricciones en forma de igualdad
Consideremos el problema de optimizacion (P) en el que las variables estan sometidas a res-
tricciones en forma de igualdad
(P) := mın f (x) (103)
s.a. hi(x) = 0, i = 1, . . . ,m,
donde f : Rn →R, hi : R
n →R, i = 1,2, . . . ,m (o, equivalentemente, h = (h1, . . . ,hm)T : Rn →R
m).
Representaremos por F el conjunto de soluciones factibles, i.e.
F := {x ∈ Rn : h(x) = 0m}.
Sea x∗ un mınimo local de (P). Supondremos, de ahora en adelante, que todas las funciones
involucradas ( f y hi, i = 1, . . . ,m) son C 1(W ), donde W es un abierto que contiene a x∗.
Llamaremos matriz gradiente de h a la matriz n×m
∇h(x) := [∇h1(x) ... ∇hm(x)] ,
mientras que la matriz jacobiana es la matriz m×n
Jh(x) := ∇h(x)T =
∇h1(x)T
...
∇hm(x)T
.
Teorema 30. (Condicion necesaria de optimalidad). Sea x∗ un mınimo local del problema (P)introducido en (103), y asumamos que los gradientes de las restricciones, ∇h1(x
∗), . . . ,∇hm(x∗),son linealmente independientes10. Entonces existe un unico vector λ ∗ = (λ ∗
1 , . . . ,λ ∗m)T , llamado
vector de multiplicadores de Lagrange, tal que:
∇ f (x∗)+m
∑i=1
λ ∗i ∇hi(x
∗) = ∇ f (x∗)+∇h(x)λ ∗ = 0n. (104)
Si ademas f y h son funciones C 2(W ), se cumplira tambien
yT
(∇2 f (x∗)+
m
∑i=1
λ ∗i ∇hi(x
∗)
)y ≥ 0, ∀y ∈V (x∗) (105)
10Ello obliga a que m ≤ n. Se dice entonces que x∗ es un punto regular.
46
donde
V (x∗) : ={
y ∈ Rn : ∇hi(x
∗)T y = 0, i = 1, . . . ,m}
= {y ∈ Rn : Jh(x
∗)y = 0} .
Este teorema se conoce como teorema del los multiplicadores de Lagrange y los escalares
λ ∗1 ,λ ∗
2 , ...,λ ∗m se denominan multiplicadores de Lagrange. De hecho, el sistema de ecuaciones
(104) es la base del llamado metodo de los multiplicadores de Lagrange, establecido por este autor
en 1788, en su libro Mecanique Analytique11. Las dos pruebas mas populares se basan, respectiva-
mente, en el teorema de la funcion implıcita o en la consideracion de una funcion de penalizacion.
A continuacion daremos la segunda de estas pruebas.
Demostracion. a) Introduzcamos, para cada k = 1,2, . . . , la funcion Ψk : Rn → R definida como
Ψk(x) := f (x)+k
2‖h(x)‖2 +
α
2‖x− x∗‖2 ,
donde α > 0 es arbitrario.
Sea ε > 0 tal que f (x∗)≤ f (x) para todo x∈F∩B(x∗;ε), con B(x∗;ε) := {x ∈ Rn : ‖x− x∗‖ ≤ ε},
y sea
xk ∈ argminx∈B(x∗;ε) Ψk(x).
Este punto xk existira siempre puesto que estamos minimizando una funcion continua Ψk en el
compacto B(x∗;ε). Tenemos
Ψk(xk) = f (xk)+k
2‖h(xk)‖2 +
α
2‖xk − x∗‖2 ≤ Ψk(x
∗) = f (x∗). (106)
b) Como {xk} ⊂ B(x∗;ε), existira un punto de acumulacion de esta sucesion, x∗; es decir,
existira una subsucesion {xkr} que converge a x∗ ∈ B(x∗;ε). Veamos que
h(x) = lımr→∞
h(xkr) = 0m,
i.e. x∗ ∈ F. Si no fuera ası, tendrıamos
lımr→∞
‖h(xkr)‖ = ‖h(x)‖ > 0,
y tomando lımites en (106) obtendrıamos una contradiccion puesto que
lımr→∞
{f (xkr
)+α
2‖xkr
− x∗‖2}
= f (x)+α
2‖x− x∗‖2 ,
mientras que
lımr→∞
kr
2‖h(xkr
)‖2 = +∞,
es decir, llegamos a la contradiccion
lımr→∞
{f (xkr
)+kr
2‖h(xkr
)‖2 +α
2‖xkr
− x∗‖2
}= +∞ ≤ f (x∗).
11Presentado en su dıa como una herramienta clave para encontrar el estado de equilibrio estable de un sistema
mecanico.
47
c) Puesto que a partir de (106) se deduce
f (xkr)+
α
2‖xkr
− x∗‖2 ≤ f (x∗),
tomando lımites para r → ∞ resulta
f (x)+α
2‖x− x∗‖2 ≤ f (x∗).
Como f (x∗)≤ f (x∗), al ser x∗ ∈ B(x∗;ε)∩F , obtenemos ‖x∗− x∗‖ = 0, esto es x∗ = x∗. Como
x∗ es el unico punto de acumulacion de {xk}, resulta que
lımk→∞
xk = x∗.
d) La convergencia de xk a x∗ entrana que para k grande, xk es un punto interior de B(x∗;ε), y
xk es un mınimo local irrestringido de Ψk(·). A partir de la condicion necesaria de optimalidad de
primer orden se deduce
0n = ∇Ψk(xk) = ∇ f (xk)+ k∇h(xk)h(xk)+α (xk − x∗) . (107)
Puesto que ∇h(x∗) tiene rango m, ∇h(xk) tambien tendra rango m si k es suficientemente grande
(porque hi ∈ C 1(W), i = 1,2, ...,m) de manera que
∇h(xk)T ∇h(xk)
es una matrix m×m invertible. Ası pues, premultiplicando (107) por
(∇h(xk)
T ∇h(xk))−1
∇h(xk)T ,
resultara
kh(xk) = −(∇h(xk)
T ∇h(xk))−1
∇h(xk)T {∇ f (xk)+α(xk − x∗)} .
Tomando lımites para k → ∞, vemos que la sucesion de vectores {kh(xk)} converge a
λ ∗ := −(∇h(x∗)T ∇h(x∗)
)−1∇h(x∗)T ∇ f (x∗).
Tomando lımites, tambien para k → ∞ en (107) resulta
0n = ∇ f (x∗)+∇h(x∗)λ ∗,
lo que prueba (104).
e) Utilizando, ahora, la condicion necesaria de optimalidad de segundo orden, vemos que, para
k suficientemente grande, la matriz hessiana12
∇2Ψk(xk) = ∇2 f (xk)+ k∇h(xk)∇h(xk)T +
km
∑i=1
hi(xk)∇2hi(xk)+αI.
12Sabemos que∂Ψk(x)
∂x j= ∂ f (x)
∂x j+ k ∑m
p=1 hp(x)∂hp(x)
∂x j+ α(x j − x∗j)
Por lo tanto:∂ 2Ψk(x)∂xi∂x j
= ∂ 2 f (x)∂xi∂x j
+ k[∑m
p=1∂hp(x)
∂xi
∂hp(x)∂x j
+ ∑mp=1 hp(x)
∂ 2hp(x)∂xi∂x j
]+ αδi j
(δi j =
{1, si i = j
0, si i 6= j
})
Por lo tanto:
∇2Ψk(x) = ∇2 f (x)+ k ∑mp=1 hp(x)∇
2hp(x)+ k (∇h1(x) . . .∇hm(x))(∇h1(x)
T . . .∇hm(x)T)T
48
es semidefinida positiva, cualquiera que sea α > 0.
Fijemos y ∈ V (x∗) (esto es, ∇h(x∗)T y = 0m). Recordando que, para k suficientemente grande,
la matriz ∇h(xk)T ∇h(xk) sera invertible, una comprobacion elemental nos permite observar que
yk := y−∇h(xk)[∇h(xk)
T ∇h(xk)]−1
∇h(xk)T y ∈V (xk). (108)
Puesto que ∇h(xk)T yk = 0m y que la matriz ∇2Ψk(xk) es semidefinida positiva, obtenemos
0 ≤ yTk ∇2Ψk(xk)yk = yT
k
(∇2 f (xk)+ k
m
∑i=1
hi(xk)∇2hi(xk)
)yk +α ‖yk‖2 . (109)
Puesto que ∇h(x∗)T y = 0m y xk → x∗, de (108) se deduce yk → y.
De (109) tomando lımites y del hecho de que khi(xk) → λ ∗i cuando k → ∞, se desprende:
0 ≤ yT
(∇2 f (x∗)+
m
∑i=1
λ ∗i ∇2hi(x
∗)
)y+α ‖y‖2 .
Dado que α puede ser tomado arbitrariamente proximo a cero, obtenemos
0 ≤ yT
(∇2 f (x∗)+
m
∑i=1
λ ∗i ∇2hi(x
∗)
)y.
Como y es un elemento generico de V (x∗), el teorema esta probado.
El ejemplo siguiente ilustra la situacion en la que el punto x∗ no es regular, es decir, aquella
situacion en que los gradientes ∇h1(x∗), . . . ,∇hm(x∗) son linealmente dependientes.
Consideremos el problema en R2
(P) := mın f (x) = x1 + x2 (110)
s.a.h1(x) = (x1 −1)2 + x2
2 −1 = 0
h2(x) = (x1 −2)2 + x22 −4 = 0
Se advierte que en el mınimo local (y global) x∗ = (0,0)Tel gradiente de la funcion objetivo,
∇ f (x∗)= (1,1)Tno puede ser expresado como una combinacion lineal de los gradientes ∇h1(x
∗) =(−2,0)T
y ∇h2(x∗) = (−4,0)T
. Ası pues, la condicion necesaria de 1er orden (104) no puede
satisfacerse, cualesquiera que sean λ ∗1 y λ ∗
2 .
La dificultad radica en que el subespacio de las variaciones posibles de primer orden: V (x∗) ={y ∈ R
2 : y1 = 0}
tiene dimension superior a la del conjunto de direcciones factibles verdaderas{y ∈ R
2 : y = 0n
}.
En muchas ocasiones es conveniente escribir las condiciones de optimalidad en terminos de la
funcion lagrangiana L : Rn+m → R, definida por
L(x,λ ) := f (x)+m
∑i=1
λihi(x). (111)
Entonces, si x∗ es un mınimo local del problema (P), las condiciones necesarias de optimalidad
(104) y (105) junto con la condicion de ‘factibilidad’ h(x∗) = 0m, se expresan compactamente
∇xL(x∗,λ ∗) = 0n, ∇λ L(x∗,λ ∗) = 0m, (112)
yT ∇2xxL(x∗,λ ∗)y ≥ 0, ∀y ∈V (x∗). (113)
49
Tal y como la experiencia en el caso irrestringido indica, una solucion del sistema (de n + m
ecuaciones, con n+m incognitas) (112) podrıa incluso corresponder a un maximo.
Consideremos el problema
(P) := mın1
2(x2
1 + x22 + x2
3) (114)
s.a. x1 + x2 + x3 = 3.
Las condiciones necesarias de optimalidad de primer orden (112) conducen al siguiente sistema
x∗1 +λ ∗ = 0,
x∗2 +λ ∗ = 0,
x∗3 +λ ∗ = 0,
x1 + x2 + x3 = 3.
Este es un sistema de cuatro ecuaciones con cuatro incognitas (n + m = 3 + 1 = 4), con una
unica solucion
x∗1 = x∗2 = x∗3 = 1, λ ∗ = −1.
El gradiente de h es (1,1,1)Ten cualquier punto factible, y todo punto factible sera regular.
Ası pues, x∗ = (1,1,1)Tes el unico candidato a optimo local. Ademas, puesto que ∇2
xxL(x∗,λ ∗)es la matriz identidad, la condicion necesaria de segundo orden es trivialmente satisfecha. Por lo
tanto, ciertamente, x∗ = (1,1,1)Tqueda acreditado como unico candidato a mınimo local.
Para tomar una decision definitiva acerca de si x∗ es ciertamente un mınimo local, necesi-
tamos de las condiciones suficientes de optimalidad, aunque en este caso concreto tambien se
puede apelar a un sencillo argumento ‘variacional’, por el que resulta inmediato comprobar que
x∗ = (1,1,1)T es un mınimo local de la funcion f sobre {x : h(x) = 0} (y por lo tanto es, tambien
mınimo global, por convexidad de f ).
Sea z = (z1,z2,z3)T
tal que h(x∗ + z) = 0 (es decir, z es un vector de variaciones que preserva
la factibilidad). Tiene, pues, que verificarse
(x∗1 + z1)+(x∗2 + z2)+(x∗3 + z3) = 3 ⇒ z1 + z2 + z3 = 0. (115)
Entonces:
f (x∗ + z) =1
2
[(x∗1 + z1)
2 +(x∗2 + z2)2 +(x∗3 + z3)
2]
= f (x∗)+(z1 + z2 + z3)︸ ︷︷ ︸0
+1
2
(z2
1 + z22 + z2
3
)︸ ︷︷ ︸
>0
> f (x∗).
Si en vez del problema inicial hubiesemos considerado el problema
mın −1
2
(x2
1 + x22 + x2
3
), (116)
s.a x1 + x2 + x3 = 3,
50
las condiciones (104) hubiesen proporcionado
x∗ = (1,1,1)T y λ ∗ = 1.
Sin embargo, la condicion necesaria de segundo orden (113) no es satisfecha, y como todo
punto factible es regular, no podra existir mınimo local del problema (116).
Antes de establecer las condiciones suficientes de optimalidad para el problema (P) del princi-
pio del capıtulo, estableceremos un lema previo:
Lema 31. Sean P y Q dos matrices simetricas n× n. Asumamos que Q es semidefinida positiva,
mientras que P es definida positiva sobre el espacio nulo de Q, esto es
xT Px > 0, ∀x 6= 0n tal que Qx = 0n.
Entonces, existe un escalar c tal que
P+ cQ es definida positiva ∀c ≥ c. (117)
Demostracion. Por ser Q semidefinida positiva, si existe c tal que P + cQ es definida positiva,
entonces se verifica ∀x 6= 0n y ∀c ≥ c :
0 < xT Px+ cxT Qx ≤ xT Px+ cxT Qx = xT (P+ cQ)x,
luego (117) se cumple.
Asumamos lo contrario, es decir que no existe c ∈ R tal que P + cQ es definida positiva. En
particular no existira k ∈N tal que P+kQ sea definida positiva. Entonces, para todo numero natural
k, existira un vector xk tal que ‖xk‖ = 1 y
xTk Pxk + kxT
k Qxk ≤ 0. (118)
Puesto que {xk} esta contenda en un compacto, existira una subsucesion {xkr} convergente a x∗
(‖x∗‖ = 1). Tomando lımites en (118) para k = kr y r → ∞:
xTkr
Pxkr≤−krx
Tkr
Qxkr≤ 0 ⇒ lım
r→∞xT
krPxkr
= xT Px ≤ 0. (119)
Ahora veamos que
lımr→∞
xTkr
Qxkr= 0.
Supongamos que no es ası, en cuyo caso existirıa un ε > 0 tal que para todo j ∈N existe un kr j> j
tal que
xTkr j
Qxkr j≥ ε,
por lo que
lımj→∞
{xT
kr jPxkr j
+ kr jxT
kr jQxkr j
}= +∞,
lo cual contradice (118). En definitivas cuentas hemos probado que
xT Qx = 0. (120)
Veamos ahora que Qx = 0n, con lo que habremos llegado a una contradiccion con la hipotesis
de partida.
51
Sean
0 = λ1 = λ2 = · · · = λi0−1 < λi0 ≤ ·· · ≤ λn
los valores propios de Q, y sean x1,x2, . . . ,xn vectores unitarios, mutuamente ortogonales, tales que
xi es un vector propio asociado a λi. Entonces ∀i
0 = xT Qx = xT
(n
∑i=i0
λixixTi
)x =
=n
∑i=i0
λi
(xT xi
)2 ⇒ x ⊥ xi, para i = i0, . . . , in.
Entonces
Qx =
(n
∑i=i0
λixixTi
)x =
n
∑i=i0
λixi
(xT xi
)= 0n.
A continuacion estableceremos las condiciones suficientes de optimalidad para el problema
(P). Proponemos una prueba basada en la nocion de lagrangiano aumentado, base conceptual de
muchos algoritmos importantes, y que se define del siguiente modo
Lc(x,λ ) := f (x)+λ T h(x)+c
2‖h(x)‖2 ,
con c ∈ R.
Esta funcion coincide con el lagrangiano ordinario del problema
mın f (x)+c
2‖h(x)‖2
(121)
s.a. h(x) = 0m,
problema que tiene los mismos mınimos locales que nuestro problema original de minimizar f (x)sujeto a h(x) = 0m. El gradiente y el hessiano de Lc con respecto a x son:
∇xLc(x,λ ) = ∇ f (x)+∇h(x)(λ + ch(x)),
∇2xxLc(x,λ ) = ∇2 f (x)+
m
∑i=1
(λi + chi(x))∇2hi(x)+ c∇h(x)∇h(x)T .
Teorema 32. (Condicion suficiente de optimalidad) Asumamos que las funciones f y hi, i =1, . . . ,m, son de clase C 2 en un abierto W ⊂ R
n. Supongamos que x∗ ∈ W y λ ∗ ∈ Rm satisfa-
cen las siguientes condiciones:
∇xL(x∗,λ ∗) = 0n, ∇λ L(x∗,λ ∗) = 0m, (122)
yT ∇2xxL(x∗,λ ∗)y > 0, ∀y 6= 0n tal que ∇h(x∗)T y = 0m. (123)
Entonces, x∗ es un mınimo local estricto del problema (P). Existiran, ademas, escalares γ > 0 y
ε > 0 tales que
f (x) ≥ f (x∗)+γ
2‖x− x∗‖2 , ∀x tal que h(x) = 0m y ‖x− x∗‖ < ε. (124)
52
Demostracion. Si x∗ y λ ∗ satisfacen la condicion (122) se tendra, dadas las relaciones probadas
anteriormente:
∇xLc(x∗,λ ∗) = ∇ f (x∗)+∇h(x∗)(λ ∗ + ch(x∗))
= ∇xL(x∗,λ ∗) = 0n, (125)
∇2xxLc(x
∗,λ ∗) = ∇2xxL(x∗,λ ∗)+ c∇h(x∗)∇h(x∗)T . (126)
Por (123), tenemos que yT ∇2xxL(x∗,λ ∗)y > 0 para todo y tal que ∇h(x∗)T y = 0 (lo que es equiva-
lente a que y pertenezca al espacio nulo de ∇h(x∗)∇h(x∗)T ). Aplicando el ultimo lema, existira un
c tal que, por (126),
∇2xxLc(x
∗,λ ∗) es definida positiva ∀c > c. (127)
Aplicando las condiciones suficientes de optimalidad para el problema irrestringido, concluimos a
partir de (125) y (127) que, para c > c, x∗ es un mınimo local irrestringido de la funcion Lc(·,λ ∗)y que, ademas, existen γ > 0 y ε > 0 tales que
Lc(x,λ∗) ≥ Lc(x
∗,λ ∗)+γ
2‖x− x∗‖2 , ∀x tal que ‖x− x∗‖ < ε.
Puesto que ∀x con h(x) = 0, tenemos Lc(x,λ∗) = f (x), se sigue que
f (x) ≥ f (x∗)+γ
2‖x− x∗‖2 , ∀x tal que h(x) = 0m y ‖x− x∗‖ < ε.
Ası pues, x∗ es un mınimo local (estricto) de f sobre h(x) = 0m, que verifica adicionalmente la
desigualdad (124).
Para ilustrar el ultimo teorema, consideremos el siguiente problema de optimizacion con dos
variables:
(P) := mın f (x) =1
2(x2
1 − x22)− x2, (128)
s.a. x2 = 0.
Se comprueba, con facilidad, que x∗ = (0,0)Ty λ ∗ = 1 es el unico par (x,λ ) que satisface las
condiciones (122) y (123). Obviamente x∗ = (0,0)Tes el unico mınimo global del problema (P)
(que es equivalente a minimizar 12x2
1 en R, y tomar x∗2 = 0).
El lagrangiano aumentado es:
Lc(x,λ∗) =
1
2(x2
1 − x22)− x2 +λ ∗x2 +
c
2x2
2 =
=1
2x2
1 +1
2(c−1)x2
2
y x∗ es el unico mınimo irrestringido de Lc(x,λ∗), si c > c = 1.
13.2. Restricciones en forma de desigualdad
Consideremos el problema de Programacion No-Lineal (abreviadamente, PNL) dado por:
(P) Min f (x)s.a. gi(x) ≤ 0, i = 1,2, ...,m,
(1.1)
53
donde x ∈ Rn es el vector de variables, f : R
n → R es la funcion objetivo de (P), y gi : Rn → R,
con i = 1,2, ...,m, son las funciones que determinan las restricciones de (P) . A medida que se
vayan requiriendo, iremos incorporando ciertas hipotesis de continuidad y diferenciabilidad a estas
funciones. El conjunto factible de (P) sera
F := {x ∈ Rn | gi(x) ≤ 0, i = 1,2, ...,m}.
A lo largo de esta seccion se presentan diferentes condiciones necesarias y condiciones sufi-
cientes para que un punto x∗ ∈ F sea optimo local de (P)13. De nuevo, x∗ ∈ F es optimo local de
(P) si existe un entorno U ⊂ Rn de x∗ tal que f (x∗)≤ f (x) para todo x ∈ F ∩U ; asimismo, se dice
que x∗ ∈ F es un optimo global de (P) si f (x∗) ≤ f (x) para todo x ∈ F .
La condiciones de optimalidad, ademas de proporcionar tecnicas analıticas de resolucion de
problemas de PNL, constituyen una herramienta clave en la descripcion de los metodos numericos
de aproximacion de las soluciones optimas de dichos problemas. De hecho, la verificacion de
ciertas condiciones de optimalidad suele utilizarse como criterio de parada en dichos metodos.
A este respecto, las condiciones de Karush-Kuhn-Tucker (que abreviamos por KKT) juegan un
papel destacado en optimizacion. Estas condiciones, bajo ciertas hipotesis adicionales sobre las
restricciones de (P) (referidas en la literatura como cualificaciones de restricciones), se convierten
en condiciones necesarias de optimalidad (local), proporcionando ası un metodo con el que obtener
todos los ‘candidatos’ a optimos locales de (P) .Con el proposito de establecer condiciones de optimalidad en la linea de la condiciones de
Lagrange, habremos de distinguir entre dos clases de restricciones que vienen asociadas a cada
x∗ ∈ F: el conjunto de restricciones activas en x∗, aquellas que se satisfacen con igualdad en x∗, y
el formado por las restantes (restricciones inactivas). Denotaremos por I (x∗) al conjunto de ındices
asociados a las primeras; esto es,
I (x∗) := {i ∈ {1,2, ...,m} | gi (x∗) = 0} .
Veamos que, bajo ciertas hipotesis de continuidad, en la busqueda de optimos locales de (P) po-
demos prescindir de las restricciones inactivas. En terminos formales, si x∗ ∈ F es un optimo local
de (P) , y las gi, con i /∈ I (x∗) , son continuas en x∗, entonces el mismo punto es optimo local del
problema
(PI(x∗)) Min f (x)s.a gi(x) ≤ 0, i ∈ I (x∗) .
En efecto, sea U ⊂Rn un entorno de x∗ tal que f (x∗)≤ f (x) , para todo x ∈ F ∩U, y sea V ⊂R
n un
entorno de x∗ de forma que gi(x) < 0,para todo x ∈V, con i /∈ I (x∗) (la existencia de V se deduce
de la continuidad de estas funciones). Entonces, denotando por F al conjunto factible de (PI(x∗)),
se tiene que f (x∗) ≤ f (x) , para todo x ∈ F ∩V ∩U, puesto que F ∩V ⊂ F.Ademas, obviamente, x∗ tambien es optimo local del problema que resulta de reemplazar en
(PI(x∗)) las desigualdades por igualdades, pues F contedrıa al nuevo conjunto factible.
En un primer acercamiento a la mencionadas condiciones de KKT, observese que si x∗ ∈ F es
un optimo local de (P) , f es diferenciable en x∗, las gi, con i∈ I (x∗) , son de clase C 1 en un entorno
13Con el fin de simplificar la notacion, supondremos que las funciones que describen el modelo (P) estan definidas
en Rn. No obstante, todos los resultados incluidos en este tema que hacen referencia a optimos locales de (P) serıan
igualmente validos en el caso en que dichas funciones estuvieran definidas en un abierto W ⊂ Rn, en cuyo caso, el
conjunto factible vendrıa dado por F := {x ∈W | gi(x) ≤ 0, i = 1,2, ...,m} , y las definiciones de optimo local y global
son identicas a las expresadas en esta seccion.
54
de x∗, las gi, con i /∈ I (x∗) , son continuas en x∗ y el sistema de vectores {∇gi (x∗) : i ∈ I (x∗)} es
linealmente independiente, entonces, atendiendo a los comentarios anteriores y en virtud de las
condiciones de Lagrange (104), deducimos la existencia de ciertos escalares λ ∗i , i ∈ I (x∗) , tales
que
∇ f (x∗)+ ∑i∈I(x∗)
λ ∗i ∇gi (x
∗) = 0n. (1.4)
(En el caso I (x∗) = /0, quedarıa ∇ f (x∗) = 0n). Esta condicion, sin embargo, se puede refinar, con-
cluyendo ademas que pueden tomarse λ ∗i ≥ 0, i∈ I (x∗) , lo que dara paso a las condiciones de KKT.
Observamos ademas que la hipotesis de independencia lineal del sistema {∇gi (x∗) : i ∈ I (x∗)}
constituira una de las cualificaciones de restricciones a las que nos referıamos mas arriba.
El caso de problemas de PNL con restricciones de desigualdad fue ya considerado por Fourier
en 1798, tambien en el contexto de la Mecanica Analıtica, aportando algunas ideas fundamentales
acerca de las condiciones necesarias de optimalidad para cierto problema de equilibrio mecanico
que expreso en el formato (1.1). Estas condiciones, para dicho problema especıfico, fueron demos-
tradas por Farkas en 1898 y expresadas en la misma forma (1.4), con λ ∗i ≥ 0, i ∈ I (x∗) (vease
Prekopa (1980) para mayor detalle sobre los comienzos de la teorıa de la optimizacion). El si-
guiente resultado14, actualmente de referencia obligada en el campo de la Programacion Lineal y
No-Lineal, proporciona la clave para establecer la no negatividad de λi, i ∈ I (x∗) .
Teorema 33 (Lema de Farkas, 1901). Sea σ :={
aTi x ≤ 0, i = 1,2, ..., p
}un sistema de desigual-
dades lineales en la variable x ∈ Rn, donde ai ∈ R
n, i = 1,2, ..., p. La desigualdad aT x ≤ 0 es una
consecuencia de σ (esto es, aT z ≤ 0 para todo z ∈ Rn tal que aT
i z ≤ 0, i = 1,2, ..., p) si y solo si
existen ciertos λi ≥ 0, i = 1,2, ..., p, tales que
a =p
∑i=1
λiai.
El tratamiento sistematico de los problemas de PNL con restricciones de desigualdad fue inicia-
do por Karush (1939), y Kuhn y Tucker (1951). Estos autores obtuvieron, de forma independiente,
las condiciones necesarias de optimalidad comentadas en parrafos anteriores bajo determinadas
hipotesis de cualificaciones de restricciones. Desde la publicacion de Kuhn y Tucker (1951) dife-
rentes autores han dedicado un notable esfuerzo a la obtencion de tales condiciones bajo diferentes
hipotesis de cualificacion de restricciones como, por ejemplo, Cottle (1963), Abadie (1967), Man-
gasarian and Fromovitz (1967) y Guignard (1969). El material presentado aquı esta inspirado en
los textos de Bazaraa et al. (1993), Bertsekas (1995), Fletcher (1987), y Luenberger (1989), ası co-
mo en el trabajo de Peterson (1973). Particularmente este ultimo trabajo recoge una amplia gama
de cualificaciones de restricciones (introduce diecisiete de estas hipotesis) y analiza las conexio-
nes existentes entre ellas, dando lugar a diferentes cadenas de implicaciones que desembocan en
la hipotesis de cualificacion de restricciones mas debil, debida a Monique Guignard. La seleccion
de contenidos que hemos hecho en este tema obedece, por un lado, a cuestiones de simplicidad
y utilidad practica, presentando una cadena principal de implicaciones con ciertas ramificaciones,
conectando ası determinadas cualificaciones de restricciones que suelen ser facilmente verificables
en la practica (como son las de Slater, Mangasarian, Mangasarian-Fromovitz y la que suele refe-
rirse como hıpotesis de independencia lineal). Por otro lado, hemos incorporado, por ejemplo, la
cualificacion de restricciones de Kuhn y Tucker (1951), tanto por motivos historicos, como por el
14Aunque la prueba de este resultado se encuentra en un trabajo de este autor publicado en hungaro en 1898, la
referencia mas extendida es Farkas (1901).
55
valor teorico e interpretativo que anade al estudio de las restantes hipotesis de cualificaciones de
restricciones.
Finalmente hemos incorporado, en diferentes apendices, algunos complementos del tema (co-
mo son las condiciones de Fritz-John, en el Apendice A), detalles tecnicos de algunas pruebas y
ejercicios (en Apendice C), ası como la prueba completa del Teorema 58 (iii) (en el Apendice B).
Particularmente, esta prueba, de marcado caracter tecnico, ha sido incluida en un apendice en un
intento de dar mayor fluidez al desarrollo del tema; no obstante, se incluyen algunas ideas sobre la
prueba tras el correspondiente enunciado.
En el Apendice D se presentan una condicion necesaria de optimalidad y otra condicion sufi-
ciente, ambas de segundo orden. La condicion suficiente dara pie, bajo hipotesis adecuadas, a una
interpretacion de los multiplicadores de KKT que nos permitira realizar determinado analisis de
sensibilidad del modelo.
A continuacion presentamos aquellas herramientas del Analisis Convexo que son de especial
utilidad en las restantes secciones. Las incluimos aquı con el fin de hacer el tema autocontenido.
Definicion 34. Un subconjunto no vacıo de Rn, X , es un cono si para cualesquiera x ∈ X y λ ≥ 0
se tiene que λx ∈ X .
Observese que un cono no es necesariamente un conjunto convexo, ni tampoco tiene porque ser
un conjunto cerrado. Por ejemplo, el conjunto X =⋃
r∈N
{(x1,x2)
T ∈ R2 | x2 = rx1
}es un cono
y, sin embargo, no es un conjunto convexo, ni cerrado. Los conos convexos y cerrados juegan un
papel importante en el contexto de la optimizacion. Se comprueba facilmente que el conjunto de
soluciones de un sistema homogeneo de desigualdades lineales, pongamos X = {x ∈ Rn | aT
i x ≤ 0,para todo i ∈ I} siendo I un conjunto de ındices arbitrario (X = R
n, si I = /0), es siempre un cono
convexo y cerrado (de hecho, es interseccion de semiespacios cerrados).
Definicion 35. Sea Y ⊂ Rn. Llamaremos cono polar (negativo) de Y al conjunto dado por
Y ◦ ={
z ∈ Rn | yT z ≤ 0, para todo y ∈ Y
}.
Los comentarios anteriores permiten afirmar que Y ◦ es siempre un cono convexo y cerrado.
Definicion 36. Dado Y ⊂ Rn, denotaremos por cone(Y ) al cono convexo generado por Y, que
viene dado por
cone(Y ) =
{p
∑i=1
λiyi
∣∣∣∣∣ λi ≥ 0, yi ∈ Y, i = 1,2, ..., p, p ∈ N
}
(entendiendo que cone( /0) = {0n}).
Seguidamente presentamos una version generalizada del Lema de Farkas para sistemas ho-
mogeneos con una coleccion arbitraria (posiblemente infinita) de desigualdades lineales.
Teorema 37 (Lema de Farkas generalizado). Sea σ :={
aTi x ≤ 0, i ∈ I
}un sistema de desigual-
dades lineales en la variable x ∈ Rn, donde I es un conjunto de ındices arbitrario. La desigualdad
aT x ≤ 0 es una consecuencia de σ (esto es, aT z ≤ 0 si z ∈ Rn verifica aT
i z ≤ 0 para todo i ∈ I) si,
y solo si,
a ∈ cl(cone{ai, i ∈ I}) .
56
La siguiente proposicion recoge algunas propiedades basicas acerca de conos polares que seran
utilizadas en el resto del tema.
Proposicion 38. Sean Y, Z ⊂ Rn. Se verifican los siguientes enunciados:
(i) Si Y ⊂ Z, entonces Z◦ ⊂Y ◦;
(ii) Y ◦ = (cone(Y ))◦ = (cl(cone (Y )))◦ ;
(iii) Y ◦◦(:= (Y ◦)◦) = cl(cone(Y )) (Lema de Farkas generalizado);
(iv) Y ◦◦ = Y si y solo si Y es un cono convexo y cerrado.
Las condiciones (i) y (ii) de la proposicion anterior se obtienen facilmente a partir de la defi-
nicion de cono polar (negativo), mientras que (iv) es un consecuencia de (iii). Hemos destacado
el hecho de que la condicion (iii) es una traduccion del Lema del Farkas. En efecto, a ∈ Y ◦◦, por
definicion, si aT z ≤ 0, para todo z ∈ Rn tal que yT z ≤ 0, para todo y ∈ Y ; esto es, si aT x ≤ 0 es
consecuencia del sistema{
yT x ≤ 0, y ∈Y}
. Ası pues, empleando la notacion de cono polar, el
Lema de Farkas generalizado podrıa enunciarse como: a ∈Y ◦◦ si y solo si a ∈ cl(cone(Y )).
Observacion 39. Por su parte, el enunciado del Lema de Farkas para sistemas homogeneos finitos
(vease §1) se traducirıa en los terminos:
‘Si Y es finito, entonces Y◦◦=cone(Y ) ’,
lo que se deduce del hecho de que todo cono finitamente generado es cerrado.
Dado el problema
(P) Min f (x)s.a. gi(x) ≤ 0, i = 1,2, ...,m,
la siguiente proposicion expresa una primera condicion necesaria de optimalidad local en terminos
del llamado cono de las tangentes a F en x∗, Tx∗, que viene dado por:
Tx∗ :={
d ∈ Rn | d = lım
r→∞λr (x
r − x∗) ; λr > 0, xr ∈ F para todo r, y lımr→∞
xr = x∗}
.
Proposicion 40. Si x∗ ∈ F es un optimo local de (P) , y f es diferenciable en x∗, entonces
−∇ f (x∗) ∈ T ◦x∗.
Demostracion. Veamos que ∇ f (x∗)Td ≥ 0 para todo d ∈Tx∗. Pongamos d = lımr→∞ λr (x
r − x∗)con λr > 0, xr ∈ F para todo r, y lımr→∞ xr = x∗. Supongamos que d 6= 0 (en otro caso la desigual-
dad buscada es trivial), lo que permite suponer sin perdida de generalidad que xr−x∗ 6= 0 para todo
r. Por la diferenciabilidad de f , podemos escribir
f (xr) = f (x∗)+∇ f (x∗)T (xr − x∗)+o(‖xr − x∗‖). (3.1)
Puesto que f (xr)≥ f (x∗) para r suficientemente grande, pongamos r ≥ r0, (por ser x∗ optimo local
de (P)), de (3.1) se deduce que ∇ f (x∗)T (xr − x∗)+o(‖xr − x∗‖) ≥ 0, para r ≥ r0. Entonces,
∇ f (x∗)Td = lım
r→∞
{λr∇ f (x∗)T (xr − x∗)+λr ‖xr − x∗‖ o(‖xr − x∗‖)
‖xr − x∗‖
}≥ 0,
puesto que lımr→∞ λr ‖xr − x∗‖ = ‖d‖ .La condicion que se establece en esta proposicion, si bien en primera instancia no conduce a
un metodo practico de resolucion de problemas, sera de gran utilidad teorica en el resto de esta
seccion.
57
Definicion 41. Se dice que x∗ ∈ F es un punto de KKT de (P) si existen escalares λi ≥ 0, i ∈ I (x∗),tales que
−∇ f (x∗) = ∑i∈I(x∗)
λi∇gi (x∗) .
(En otros terminos, −∇ f (x∗) ∈ cone{∇gi (x∗) ; i ∈ I (x∗)}).
En ocasiones nos referiremos a las condiciones
−∇ f (x∗) = ∑i∈I(x∗)
λi∇gi (x∗) , λi ≥ 0, i ∈ I (x∗) , x∗ ∈ F,
como condiciones de KKT15. El conjunto Gx∗ que introducimos a continuacion nos permitira co-
nectar la condicion necesaria de optimalidad presentada en la proposicion 40 con las condiciones
de KKT16:
Gx∗ :={
d ∈ Rn | ∇gi (x
∗)Td ≤ 0, i ∈ I (x∗)
}.
Observacion 42. Sea x∗ ∈ F. Se tiene que x∗ es punto de KKT de (P) si, y solo si,
−∇ f (x∗) ∈ G◦x∗.
En efecto, basta observar que
cone{∇gi (x∗) , i ∈ I (x∗)} = {∇gi (x
∗) , i ∈ I (x∗)}◦◦ = G◦x∗ ,
donde hemos utilizado la traduccion del Lema de Farkas dada en la observacion 39.
El siguiente ejemplo ilustra la condicion necesaria de optimalidad establecida en la Proposicion
40, al tiempo que muestra una situacion en la que fallan las condiciones de KKT.
Ejemplo 43 (Kuhn y Tucker, 1951). . Consideremos el problema de PNL, en R2, dado por:
(P) Min x1
s.a. x2 − x31 ≤ 0,
−x2 ≤ 0.
Para x∗ = (0,0)T
se comprueba facilmente que Tx∗ = cone{(1,0)
T}
, mientras que Gx∗ coincide
con el subespacio vectorial generado por{(1,0)
T}
. Ası, −∇ f (x∗) = (−1,0)T ∈ T ◦x∗, mientras que
−∇ f (x∗) /∈ G◦x∗ , y por tanto no es un punto de KKT. Por otro lado, puede comprobarse facilmente
que x∗ es optimo local (de hecho global, pues todo punto factible verifica x31 ≥ x2 ≥ 0, y entonces
x1 ≥ 0). La Figura 15 ilustra graficamente, entre otros, los conjuntos F, T ◦x∗ y G◦
x∗ .
15Las condiciones de KKT pueden, alternativamente, expresarse de la siguiente forma: −∇ f (x) = ∑mi=1 λi∇gi (x) ,
λigi (x) = 0,λi ≥ 0, i = 1,2, ...,m, x ∈ F ; en cuyo caso las condiciones λigi (x) = 0, i = 1,2, ...,m, son referidas como
condiciones de complementariedad.
16Con el fin de dar mayor fluidez a la exposicion, supondremos implıcitamente que, cuando aparezcan gradientes
en el texto, estos existen. No obstante, en los enunciados formales (como teoremas, proposiciones, etc.) se explicitaran
las hipotesis de diferenciabilidad bajo las que estamos trabajando.
58
F
x*
- ∇ ( )
x*
∇ 1
( )
x*
∇ g
2 ( )
x*
x*
G
x*
T x*
G o
x*
o
x*
f
g
T
Figura 15: Elementos asociados al problema del ejemplo 3.4
Atendiendo a la observacion anterior, es obvio que la hipotesis T ◦x∗ = G◦
x∗ hace que las condicio-
nes de KKT sean necesarias para que x∗ sea optimo local. Por otro lado, la igualdad T ◦x∗ = G◦
x∗ puede
expresarse equivalentemente por cl(cone(Tx∗)) = Gx∗ . En efecto, si T ◦x∗ = G◦
x∗ , entonces aplican-
do la proposicion 38 (iii) y (iv) se tiene que cl(cone (Tx∗)) = T ◦◦x∗ = G◦◦
x∗ = Gx∗ . Recıprocamente,
si cl(cone (Tx∗)) = Gx∗ , entonces T ◦x∗ = (cl(cone(Tx∗)))
◦ = G◦x∗ , donde ahora hemos aplicado la
condicion (ii) de la misma proposicion. Hemos probado ası el siguiente teorema.
Teorema 44 (Condiciones de Karush-Kuhn-Tucker). Sea x∗ ∈ F es un optimo local de (P) . Su-
pongamos que las funciones f y gi, con i ∈ I (x∗) , son diferenciables en x∗, y que se verifica la
igualdad cl(cone(Tx∗)) = Gx∗ . Entonces x∗ es un punto de KKT.
De este modo la condicion ‘cl (cone(Tx∗)) = Gx∗’ constituye una hipotesis de cualificacion
de restricciones, que encontramos en la literatura como cualificacion de restricciones de Guig-
nard (que abreviaremos por GCQ, del ingles Guignard’s constraint qualification). Esta hipotesis
de cualificacion de restricciones es la mas debil de todas las posibles, en el sentido de que si no
se cumple, puede encontrarse una funcion objetivo para la que x∗ es optimo local del problema
correspondiente, y no es punto de KKT.
Seguidamente analizaremos diferentes cualificaciones de restricciones, con el fin de proporcio-
nar nuevas condiciones mas operativas desde un punto de vista practico. Para ello, consideremos
los siguientes conjuntos asociados a x∗ ∈ F:
Gx∗ : ={
d ∈ Rn | ∇gi (x
∗)Td < 0, i ∈ I (x∗)
};
Dx∗ : =
{d ∈ R
n
∣∣∣∣∃ε > 0, ∃α : [0,ε]→F derivable en [0,ε[, con
α (0) = x∗, y α ′ (0) = d
}.
Asimismo consideraremos el conjunto dado por:
Ax∗ :=
{d ∈ R
n
∣∣∣∣∃ε > 0, ∃α : [0,ε]→F derivable en 0, con
α (0) = x∗, y α ′ (0) = d
}.
En ocasiones Ax∗ es referido como el conjunto de las direcciones admisibles en x∗.
59
Observacion 45. Puede comprobarse facilmente que, asumiendo la diferenciabilidad de las fun-
ciones gi, i ∈ I (x∗) , en x∗, y la continuidad en el mismo punto x∗ de las funciones gi, i /∈ I (x∗) ,
se verifica el contenido Gx∗ ⊂ Dx∗ . Sin embargo, con el fin de facilitar el analisis de la relacion
existente entre diferentes cualificaciones de restricciones que vendran asociadas a estos conjuntos,
probaremos que cl(
Gx∗)⊂ Dx∗ . Observese que este ultimo enunciado no es consecuencia directa
de la inclusion Gx∗ ⊂ Dx∗ puesto que Dx∗ no es, en general, cerrado (vease Apendice C).
Teorema 46. Sea x∗ ∈ F y supongamos que las funciones gi, con i ∈ I (x∗) , son diferenciables en
x∗, y las funciones gi, con i /∈ I (x∗) , son continuas en x∗. Se verifican las siguientes relaciones:
(i) cl(
Gx∗)
= Gx∗ si y solo si Gx∗ 6= /0;
(ii) cl(
Gx∗)⊂ Dx∗ ⊂ Ax∗ ⊂ Tx∗ ⊂ cl(cone(Tx∗)) ⊂ Gx∗ .
Demostracion. (i). Puesto que Gx∗ es siempre no vacio (0n ∈ Gx∗), si cl(
Gx∗)
= Gx∗ , entonces
ha de ser Gx∗ 6= /0. Recıprocamente, supongamos que Gx∗ 6= /0 y sea d ∈ Gx∗ . Veamos que Gx∗ ⊂cl(
Gx∗)
(el otro contenido es inmediato, pues Gx∗ ⊂ Gx∗ y Gx∗ es cerrado). Para cualquier d ∈Gx∗ se tiene que dr :=
(1− 1
r
)d + 1
rd ∈ Gx∗ , para todo r = 1,2, ..., puesto que ∇gi (x
∗)Tdr =
(1− 1
r
)∇gi (x
∗)Td + 1
r∇gi (x
∗)Td < 0, para cada i ∈ I (x∗) . Ası pues, d = lımr→∞ dr ∈ cl
(Gx∗)
.
(ii). Es obvio que Dx∗ ⊂ Ax∗.
Ademas Ax∗ ⊂ Tx∗ , ya que si d ∈ Ax∗ podemos escribir d = lımt→0+α(t)−α(0)
tpara alguna fun-
cion α : [0,ε] → F (siendo ε > 0), y en particular d = lımr→∞rε (α (ε/r)−α (0)) ∈ Tx∗ .
Veamos ahora que cl(cone(Tx∗)) ⊂ Gx∗ . Puesto que Gx∗ es un cono convexo y cerrado, bas-
tara probar que Tx∗ ⊂ Gx∗. Sea d ∈ Tx∗ y pongamos d = lımr→∞ λr (xr − x∗) con λr > 0, xr ∈ F para
todo r, y lımr→∞ xr = x∗. Por la diferenciabilidad de gi, para i ∈ I (x∗), se tiene que
gi (xr) = gi (x
∗)+∇gi (x∗)T (xr − x∗)+o(‖xr − x∗‖), para r = 1,2, ... (129)
Dado que gi (xr) ≤ 0, para todo r ∈ N, multiplicando en (129) por λr y haciendo r → +∞ se tiene
que
∇gi (x∗)T
d = lımr→∞
{λr∇gi (x
∗)T (xr − x∗)+‖λr(xr − x∗)‖ o(‖xr − x∗‖)
‖xr − x∗‖
}≤ 0,
concluyendo que d ∈ Gx∗ .
A continuacion probaremos el contenido ‘cl(
Gx∗)⊂ Dx∗’. Sea d ∈ cl
(Gx∗)
, y sea d ∈ Gx∗ .
En primer lugar observese que el mismo argumento utilizado en la prueba de (i) muestra que
dλ := (1−λ )d + λ d ∈ Gx∗, para todo λ ∈ ]0,1] . Ademas, bajo las hipotesis actuales, para cada
λ ∈ ]0,1] existe cierto tλ > 0 tal que x∗+tdλ ∈ F para todo t ∈ [0, tλ ] . En efecto, fijemos λ ∈ ]0,1] .Para i ∈ I (x∗) , como consecuencia de la diferenciabilidad de gi en x∗ podemos escribir
gi
(x∗ + tdλ
)= gi (x
∗)+ t∇gi (x∗)T
dλ +o(t).
Puesto que ∇gi (x∗)T
dλ < 0, para t suficientemente pequeno (pongamos 0 < t ≤ tλ ,i, para cierto
tλ ,i > 0) tendremos que ∇gi (x∗)T
dλ + o(t)t
< 0. Entonces, para t ∈[0, tλ ,i
], se cumplira gi
(x∗ + tdλ
)≤
0. Por otro lado, si i /∈ I (x∗) (esto es, gi (x∗) < 0), como consecuencia de la continuidad de gi en x∗
tambien deducimos la existencia de cierto tλ ,i > 0 tal que gi
(x∗ + tdλ
)≤ 0, para todo t ∈
[0, tλ ,i
].
60
Basta tomar entonces tλ := mın{
tλ ,i, i = 1,2, ...,m}
para asegurar que x∗ + tdλ ∈ F para todo
t ∈ [0, tλ ] .Definamos para cada λ ∈ ]0,1]
tλ := sup{
t > 0 | x∗ + tdλ ∈ F, para todo t ∈ [0, t] y todo i = 1,2, ...,m}
,
(en el parrafo anterior se prueba que este conjunto es no vacıo). Asimismo, para cada λ ∈ ]0,1]consideremos
Tλ := ınf{
tµ | µ ≥ λ}
.
A continuacion veremos que Tλ > 0 para todo λ ∈ ]0,1] . Razonando por reduccion al absurdo
supongamos que Tλ0= 0, para cierto λ0 ∈ ]0,1] . Entonces, existe una sucesion
{tµr
}⊂ ]0,+∞[,
asociada a la sucesion {µr} ⊂ [λ0,1] , tal que lımr→∞ tµr= 0. Ademas {µr} tendra un subsucesion,
que denotaremos de la misma forma, convergente a cierto µ0 ≥ λ0, y como consecuencia la su-
cesion {dµr} convergera hacia dµ0. Por otro lado, por la definicion de tµr, para cada r, existiran
ir ∈ {1,2, ...,m} y tµr∈]0, tµr
+ 1r
[tales que gir
(x∗ + tµr
dµr)> 0. Puesto que, ir ∈ {1,2, ...,m} pa-
ra todo r, podemos suponer sin perdida de generalidad que {ir} es constante (en otro caso, tendrıa
una subsucesion constante y trabajarıamos con dicha subsucesion). Poniendo entonces ir = i0 para
todo r, deducimos gi0 (x∗) ≥ 0 como consecuencia de la continuidad en x∗ de gi0 (observese que
lımr→∞(x∗ + tµrdµr) = x∗). La unica posibilidad entonces es que i0 ∈ I (x∗) . Pero, aplicando ahora
la diferenciabilidad de gi0 en x∗, tendremos, para todo r = 1,2, ...,
0 < gi0
(x∗ + tµr
dµr)
= gi0 (x∗)+ tµr∇gi (x
∗)Tdµr +o
(tµr
).
Si ahora, para cada r, dividimos por tµr, y hacemos r → +∞, obtenemos ∇gi (x
∗)Tdµ0 ≥ 0. Esta
desigualdad contradice el hecho de que dµ0 ∈ Gx∗.Ası pues, Tλ > 0 para todo λ ∈ ]0,1] . Ademas, es una consecuencia directa de la definicion
que Tλ es creciente en λ . Seguidamente distinguiremos dos casos.
Caso1. lımλ→0+ Tλ = T > 0. En este caso, podemos definir la curva α : [0,ε] → Rn, siendo
ε := mın{
T2,1}
dada por
α (0) := x∗, α (λ ) = x∗ +λdλ = x∗ +λ((1−λ )d +λ d
), para λ ∈ ]0,ε] .
Ası, αT (0) = d, α es diferenciable en [0,ε] , y ademas α (λ ) ∈ F para todo λ ∈ [0,ε] (puesto que
λ < T ≤ Tλ ≤ tλ ).Caso2. lımλ→0+ Tλ = 0. Sea {λr} ⊂ ]0,1] estrictamente decreciente y convergente a cero.
Puesto que la sucesion asociada{
Tλr
}tambien converge a cero, podemos suponer sin perdida
de generalidad (tomando una subsucesion adecuada si es necesario) que Tλr+1<
Tλr
2, para todo r.
Definiremos en este caso una curva diferenciable en[0,
Tλ1
2
]de la siguiente manera:
α (t) :=
x∗ + tdλr , si t ∈[Tλr+1
,Tλr
2
], r = 1,2, ...,
x∗ + t((1−ϕr (t))dλr+1 +ϕr (t)dλr
), si t ∈
]Tλr+1
2,Tλr+1
[, r = 1,2, ...,
siendo α (0) := x∗, y donde para cada r, ϕr :[
Tλr+1
2,Tλr+1
]→ [0,1] esta dada por
ϕr (t) :=
(t − Tλr+1
2
)2
(t − Tλr+1
2
)2
+(t −Tλr+1
)2.
61
Puede comprobarse que (los calculos correspondientes se encuentran en el Apendice C):
i) α (t) ∈ F para todo t ∈[0,
Tλ12
];
ii) α es diferenciable (sera de hecho de clase C 1) en el intervalo[0,
Tλ1
2
];
iii) αT (0) = d.La relacion de contenidos entre los conjuntos considerados en esta seccion conduce a las si-
guientes hipotesis de cualificacion de restricciones relativas a x∗, y redunda en la relacion de im-
plicaciones que se expresa a continuacion (recuerdese que estamos suponiendo que las gi, con
i ∈ I (x∗) , son diferenciables en x∗, y las gi, con i /∈ I (x∗) continuas en x∗):
Cualificacion de
restricciones de :Abreviada por: Hipotesis:
Mangasarian-Fromovitz
(o tambien de Cottle)MFCQ
‘cl(
Gx∗)
= Gx∗’
(⇔ Gx∗ 6= /0)Kuhn-Tucker KTCQ ‘Dx∗ = Gx∗’
Arrow-Hurwicz-Uzawa AHUCQ ‘Ax∗ = Gx∗’
Abadie ACQ ‘Tx∗ = Gx∗’
Guignard GCQ ‘cl (cone(Tx∗)) = Gx∗’
MFCQ ⇒ KTCQ ⇒ AHUCQ ⇒ ACQ ⇒ GCQ
Seguidamente introduciremos nuevas hipotesis de cualificacion de restricciones, que consti-
tuiran condiciones suficientes para alguna de la mencionadas anteriormente, y que en determinados
casos practicos pueden resultar mas operativas. Una de ellas se basara en el siguiente teorema de
alternativa. Observese ademas que el enunciado de este teorema presenta una caracterizacion de la
condicion Gx∗ 6= /0 (MFCQ).
Teorema 47 (de alternativa de Gordan). El sistema de desigualdades estrictas, en Rn, {aT
i x <0; i = 1,2, ..., p} no tiene solucion si y solo si existen escalares λ1, ...,λp ≥ 0, con algun λi > 0
tales quep
∑i=1
λiai = 0n.
Demostracion. Supongamos que el sistema{
aTi x < 0; i = 1,2, ..., p
}no tiene solucion. En-
tonces si para algun(
xxn+1
)∈ R
n+1 se tiene que aTi x + xn+1 ≤ 0, i = 1,2, ..., p, debe ser xn+1 ≤ 0.
Ası, en virtud del Lema de Farkas se deduce la existencia de ciertos λ1, ...,λp ≥ 0 tales que
(0n
1
)=
p
∑i=1
λi
(ai
1
).
Observando entoces las n primeras coordenadas de esta igualdad vectorial tenemos ∑pi=1 λiai = 0n,
y la ultima expresa que ∑pi=1 λi = 1. Hemos probado ası la condicion ‘si’ del presente teorema.
Supongamos ahora que existen escalares λ1, ...,λp ≥ 0, no todos nulos, tales que ∑pi=1 λiai = 0n.
Si existiera algun x0 ∈ Rn verificando aT x0 < 0, i = 1, ..., p, alcanzarıamos la contradiccion 0 =
∑pi=1 λia
T x0 < 0.
62
Proposicion 48. Sea x∗ ∈ F, y supongamos que gi, i ∈ I (x∗) , son diferenciables en x∗. Se verifican
las siguientes afirmaciones:
(i) Si los vectores {∇gi (x∗) , i ∈ I (x∗)} son linealmente independientes, entonces Gx∗ 6= /0;
(ii) Si las funciones gi, i ∈ I (x∗) , son convexas y existe x ∈ Rn tal que gi (x) < 0, i ∈ I (x∗) ,
entonces Gx∗ 6= /0;
(iii) Si las funciones gi, i ∈ I (x∗) , son concavas, y gi, con i /∈ I (x∗) continuas en x∗ entonces
Dx∗ = Gx∗ .
Demostracion. La condicion (i) es consecuencia directa del Teorema de Gordan. Probemos (ii).
Sea x ∈ Rn tal que gi (x) < 0, i ∈ I (x∗) . Puesto que las funciones gi, i ∈ I (x∗) , son convexas en R
n
y diferenciables en x∗ se tiene que
gi (x∗)+∇gi (x
∗)T (x− x∗) ≤ gi (x) , para todo x ∈ Rn.
En particular ∇gi (x∗)T (x− x∗) = gi (x
∗)+∇gi (x∗)T (x− x∗)≤ gi (x) < 0, para todo i ∈ I (x∗) ; esto
es, x− x∗ ∈ Gx∗ .(iii). Supongamos que las funciones gi, i ∈ I (x∗) , son concavas (en R
n) y veamos que Gx∗ ⊂Dx∗ (el otro contenido ya fue establecido exigiendo unicamente la diferenciabilidad de las gi, con
i ∈ I (x∗)). Sea d ∈ Gx∗, esto es ∇gi (x∗)T
d ≤ 0, para todo i ∈ I (x∗) . La concavidad de las gi,i ∈ I (x∗) , junto con la diferenciabilidad de las mismas en x∗ implica que
gi (x) ≤ gi (x∗)+∇gi (x
∗)T (x− x∗) , para todo x ∈ Rn.
Particularizando en los puntos de la forma x∗ + td, con t > 0, obtenemos:
gi (x∗ + td) ≤ gi (x
∗)+ t∇gi (x∗)T
d ≤ 0.
Por otro lado, puesto que las gi, con i /∈ I (x∗) , son continuas en x∗ (y gi (x∗) < 0 para todo i /∈
I (x∗)), existe un t > 0, tal que gi (x∗ + td) < 0, para todo t ∈ [0, t] . Concluimos entonces que la
funcion α : [0, t] → Rn dada por α (t) = x∗ + td, verifica: α (t) ∈ F para todo t ∈ [0, t] , α (0) = x∗,
y obviamente αT (0) = d. Ası pues, d ∈ Dx∗ .La proposicion anterior proporciona en (i), (ii) y (iii) tres nuevas cualificaciones de restriccio-
nes, que expresamos a continuacion, ası como sus conexiones con las introducidas previamente.
- Cualificacion de restricciones de independencia lineal (LICQ): El sistema de vectores {∇gi(x∗), i∈
I(x∗)} es linealmente independiente.
- Cualificacion de restricciones de Slater (SCQ): gi, i ∈ I (x∗) , son convexas y existe x ∈Rn tal
que gi (x) < 0, i ∈ I (x∗) .- Cualificacion de restricciones de Mangasarian (MCQ): gi, i ∈ I (x∗) , son concavas.
Siendo x∗ ∈ F, gi, con i ∈ I (x∗) , diferenciables en x∗, y gi, con i /∈ I (x∗) , continuas en x∗,podemos presentar el siguiente esquema:
LICQ ⇒ MFCQ ⇒ KTCQ ⇒ AHUCQ ⇒ ACQ ⇒ GCQ
⇑ ⇑SCQ MCQ
Corolario 49. Sea x∗ ∈ F un optimo local de (P) y supongamos que las funciones f y gi, con
i ∈ I (x∗) , son diferenciables en x∗, y que las gi,con i /∈ I (x∗) , son continuas en x∗. Si se cumple
alguna de las hipotesis indicadas en el esquema anterior, entonces x∗ es un punto de KKT.
63
Con el fin de ilustrar el teorema anterior, por un lado, y demostrar que no se verifica ninguno
de los recıprocos de las condiciones establecidas en el esquema previo, presentamos los siguientes
ejemplos.
Ejemplo 50. (MFCQ, ‘no LICQ, ni SCQ’). Consideremos el problema de PNL, en R2, dado por:
(P) Min x1
s.a. x2 − x31 ≤ 0,
−x1 ≤ 0,−x1 + x2 ≤ 0.
Para x∗ = (0,0)T , el conjunto de ındices activos viene dado por I (x∗) = {1,2,3} , y ∇g1 (x∗) =(0,1)T , ∇g2 (x∗) = (−1,0)T , ∇g3 (x∗) = (−1,1)T . Ası, {∇gi (x
∗) , i ∈ I (x∗)} forman un sistema
linealmente dependiente, no teniendose entonces la hipotesis LICQ. Tampoco se cumple SCQ,
pues g1 no es convexa en Rn. Sin embargo Gx∗ ={
d ∈ R2 | d2 < 0, −d1 < 0, −d1 +d2 < 0
}6= /0,
luego se cumple MFCQ.
La Figura 16 muestra graficamente el conjunto factible de (P) , y el conjunto Gx∗. Observese
que x∗ es un optimo local de (P), y tambien un punto de KKT.
x*
G �
x*
F
-∇ f ( ) x*
x*
∇ g 1 ( ) x*
∇g2 ( *) x
∇g3 ( ) x*
Figura 16: Elementos asociados al problema del ejemplo 3.11
Ejemplo 51. (KTCQ, ‘no MCQ, ni MFCQ’). Consideremos el problema de PNL, en R2, dado por:
(P) Min x1
s.a. x2 − x31 ≤ 0,
−x1 ≤ 0,−x2 ≤ 0.
Tomemos x∗ = (0,0)T
. Es inmediato que Gx∗ = /0, pues ∇g1 (x∗) = (0,1)T , y ∇g3 (x∗) = (0,−1)T ,y por tanto no se cumple MFCQ. Tampoco se verifica MCQ pues g1 no es concava. Por otro
lado, Gx∗ = cone{(1,0)T
}⊂ Dx∗ , pues x∗ + t (1,0)
T ∈ F para todo t ∈ [0,+∞[ y, por tanto, se
cumple KTCQ. x∗ = (0,0)T
es un optimo local de (P), y punto de KKT. Observese que este solo
se diferencia del Ejemplo 43 en que anade la restriccion −x1 ≤ 0, la cual, por otro lado, es una
restriccion redundante.
64
Ejemplo 52. (AHU, ‘no KTCQ’). Consideremos el problema de PNL, en R, dado por:
(P) Min x1
s.a. g1 (x1) ≤ 0,g2 (x1) ≤ 0,
−x1 ≤ 0.
siendo g1 (x1) = x21 sin
(πx1
), si x1 6= 0, g1 (x1) = 0, si x1 = 0, y siendo g2 (x1) = −g1 (x1) . Sea
x∗ = 0. Se tiene que Gx∗ = {d1 ∈ R |d1 ≥ 0} , puesto que g′1 (0) = g′2 (0) = 0.En este caso F =
{1k, k = 1,2, ...
}∪ {0} y obviamente no puede construirse ninguna curva
α : [0,ε] → F, diferenciable en [0,ε] y tal que α (0) = 0, y α ′ (0) = 1. De hecho si α : [0,ε] → F
es continua en [0,ε] , y α (0) = 0, entonces ha de ser α (t) = 0, para todo t ∈ [0,ε] (pues la imagen
de un conjunto conexo mediante una funcion continua es un conexo), pero entonces α ′ (0) = 0.Ası pues 1 ∈ Gx∗\Dx∗, y por tanto no se verifica KTCQ. Sin embargo, sı puede definirse una
funcion α : [0,ε] → F, derivable en 0 y con α ′ (0) = 1, verificando ademas que α (0) = 0. Por
ejemplo, sea α : [0,1]→ F, dada por α (t) = 1k, si t ∈
]1
k+1, 1
k
], k = 1,2, ..., α (0) := 0. Se tiene que
lımt→0+α(t)−α(0)
t= 1, como consecuencia de que 1 ≤ α(t)
t≤
1k1
k+1
= k+1k
, para todo t ∈]
1k+1
, 1k
].
Ası pues, α ′ (0) = 1, y por tanto se verifica AHUCQ.
Ejemplo 53. (ACQ, ‘no AHUCQ’) Consideremos el problema de PNL, en R, dado por:
(P) Min x1
s.a. g1 (x1) ≤ 0,g2 (x1) ≤ 0,
−x1 ≤ 0.
siendo g1 (x1) = x21 sin (π ln |x1|) , si x1 6= 0, g1 (x1) = 0, si x1 = 0, y siendo g2 (x1) = −g1 (x1) .
El conjunto factible de (P) es F ={
ek, k ∈ Z}∪{0}. Si se considera x∗ = 0, se tiene que T
x∗ ={x1 ∈ R |x1 ≥ 0} = Gx∗ , y por tanto se verifica ACQ. Sin embargo, en este caso no existe ninguna
funcion α : [0,ε] → F, con α (0) = 0 y α ′ (0) = 1. De hecho, la unica funcion α : [0,ε] → F
diferenciable en 0, con α (0) = 0, es la funcion identicamente nula (vease Apendice C).
Ejemplo 54. (GCQ, ‘no ACQ’) Consideremos el problema de PNL, en R2, dado por:
(P) Min x1
s.a. x1x2 ≤ 0,−x1x2 ≤ 0,−x1 ≤ 0,−x2 ≤ 0.
Es inmediato que F ={
x ∈ R2 | x1 ≥ 0, x2 = 0
}∪{
x ∈ R2 | x1 = 0, x2 ≥ 0
}. Ası, para x∗ =
02, se tiene que Tx∗ = cone
{(1,0)
T}∪cone
{(0,1)
T}
, mientras que Gx∗ = cone{(1,0)
T
,(0,1)T}
.
Por tanto, no se cumple ACQ, mientras que cl(cone
(T
x∗))
= Gx∗, y por tanto sı se verifica GCQ.
Observese que las hipotesis de cualificacion de restricciones solo involucran a las propias res-
tricciones, o directamente al conjunto factible, y al punto x∗ considerado. De este modo, en cuanto
65
se cumple alguna de ellas (como ocurrıa en los ejemplos anteriores), podremos completar el pro-
blema (P) con cualquier funcion objetivo y tener la seguridad de que si x∗ es optimo local, entonces
es punto de KKT.
Resolucion de un problema de PNL aplicando las condiciones de KKT. En los ejemplos
anteriores estudiabamos si se verificaba alguna cualificacion de restricciones, y si se cumplıan o
no las condiciones de KKT, en un punto dado x∗. Sin embargo, cuando nos enfrentamos a la re-
solucion de un problema, no tendremos, a priori, ningun punto destacado sobre el que analizar
estas propiedades, de modo que tendremos que buscar todos los ‘candidatos’ a optimos analizando
todas las posibles elecciones de ındices activos. De este modo, atendiendo a los resultados presen-
tados en esta seccion, consideraremos como candidatos a optimos aquellos puntos en los que se
verifican simultaneamente alguna cualificacion de restricciones y las condiciones de KKT, por un
lado, y aquellos en los que no se verifica ninguna cualificacion de restricciones. Ilustramos estos
comentarios con el siguiente ejemplo.
Ejemplo 55. Consideremos el problema de PNL, en R2, dado por:
(P) Min x2
s.a. − x21 − x2
2 +1 ≤ 0,
(x1 −1)2 + x22 −1 ≤ 0,
−2(x1 − 1
2
)3+ x2
2 − 34
≤ 0.
Analizando las diferentes elecciones de conjuntos de ındices activos, obtenemos las siguientes
situaciones (observese que, puesto que tenemos tres restricciones, tendremos que contemplar 23 =8 casos).
(1) I (x) = /0. Ningun punto verifica ∇ f (x) = 02.(2) I (x) = {1} . Puesto que g1 es concava, se verifica la cualificacion de restricciones de Manga-
sarian, por lo que los posibles candidatos a optimos en este caso seran los puntos de KKT. Ası pues,
planteamos el sistema(
0−1
)= λ1
(−2x1
−2x2
). La unica solucion con λ1 ≥ 0 es (x1,x2,λ1)
T =(0,1, 1
2
)T,
que no proporciona un punto factible. No tenemos ningun candidato.
(3) I (x) = {2} . En este caso se verifica la cualificacion de restricciones de Slater (g2 es con-
vexa, y por ejemplo g2 (1,0) = −1 < 0). Planteando las condiciones de KKT, encontramos una
solucion (x1,x2,λ2)T =
(1,−1, 1
2
)T, que no corresponde a este caso puesto que la tercera restric-
cion tambien es activa.(4) I (x) = {3} . Se verifica la cualificacion de restricciones de independencia lineal, pues la
unica solucion de ∇g3 (x) = 02 es x =(
12,0)T
, que no es un punto factible. Del sistema −∇ f (x) =
λ3∇g3 (x) , obtenemos las unicas soluciones (x1,x2,λ3)T =
(12,√
32
,− 1√3
), y (x1,x2,λ3)
T =(
12, −
√3
2, 1√
3
);
el primero no es punto de KKT pues λ3 < 0. El segundo hace activas tambien a las dos primeras,
ası que no corresponde a este caso. Situaciones analogas presentan los casos (5) I (x) = {1,2} y
(6) I (x) = {1,3} .(7) I (x) = {2,3} . Se verifica LICQ, y las condiciones de KKT proporcionan como unico can-
didato (realmente correspondiente a este caso) a (x1,x2,λ2,λ3)T =
(1,−1, 1
2,0)
Finalmente, en el caso I (x) = {1,2,3} no se verifican MCQ, SCQ, ni LICQ, sin embargo, puede
comprobarse que sı se verifica MFCQ. El unico punto de KKT en este caso es x =(
12, −
√3
2
).
En resumen, disponemos de dos candidatos a optimos locales: (1,−1) y(
12, −
√3
2
). En la Figu-
ra (17), en la que hemos representado el conjunto factible de (P) , puede apreciarse intuitivamente
66
que(
12, −
√3
2
)no es realidad un optimo local17.
-1 -0.5 0 0.5 1 1.5 2 -1.5
-1
-0.5
0
0.5
1
1.5
F
Figura 17: Ilustracion del ejemplo 3.16
El punto x = (1,−1) , sera un optimo local de (P) , y de hecho global. En este caso particular no
hace falta realizar ningun calculo adicional, pues F es un compacto. En esta situacion, el teorema
de Weierstrass asegura que debe existir un optimo global de (P) . Puesto que (1,−1) es el unico
candidato, este ha de ser un optimo global de (P) .
Las condiciones de KKT, si bien se presentan como condiciones necesarias de optimalidad (ba-
jo alguna cualificacion de restricciones), no son, sin embargo, suficientes, como puede observarse
en el ejemplo anterior. Por otro lado, como se muestra en el Apendice D, bajo determinada con-
dicion adicional, las condiciones de KKT se convierten en condiciones suficientes de optimalidad.
En cualquier caso, estos resultados hacen referencia a optimos locales. La siguiente proposicion
muestra como bajo determinadas hipotesis de convexidad, las condiciones de KKT seran suficien-
tes para garantizar, no solo optimalidad local, sino directamente optimalidad global.
Teorema 56. Si x∗ es un punto de KKT de (P) y asumimos que las funciones f y gi, con i ∈ I (x∗) ,son diferenciables en x∗ y convexas en R
n, entonces x∗ es un optimo global de (P) .
Demostracion. Bajo las hipotesis actuales podemos escribir, para todo x ∈ Rn,
f (x) ≥ f (x∗)+∇ f (x∗)T (x− x∗) ,
gi (x) ≥ gi (x∗)+∇gi (x
∗)T (x− x∗) , i ∈ I (x∗) .
Por otro lado, sean λi ≥ 0, i ∈ I (x∗) , tales que ∇ f (x∗) + ∑i∈I(x∗) λi∇gi (x∗) = 0n. Entonces, del
sistema anterior de desigualdades obtenemos
f (x)+ ∑i∈I(x∗)
λigi (x) ≥ f (x∗) , para todo x ∈ Rn.
En particular, si x ∈ F tendremos f (x) ≥ f (x∗) .
17Esto puede formalizarse tomando, por ejemplo, la sucesion xr :=(
12+ 1
r,−√
34+ 1
r3
), r = 2,3..., que converge a
x =
(12,−√
34
), y verifica xr ∈ F y f (xr) < f (x) , para todo r ≥ 2.
67
13.3. Problemas de PNL con igualdades y desigualdades.
El objetivo de esta ultima subseccion es senalar las diferencias que introduce en el estudio de
condiciones de optimalidad el hecho de anadir restricciones de igualdad a nuestro planteamiento.
Particularmente, en esta subseccion trataremos con problemas de PNL de la forma:
(P) Min f (x)s.a. gi(x) ≤ 0, i = 1,2, ...,m,
h j (x) = 0, j = 1,2, ..., p.(130)
En un principio podrıamos pensar en reemplazar cada una de las igualdades h j (x) = 0 por dos
desigualdades h j(x) ≤ 0 y −h j(x) ≤ 0 y, una vez adaptado (P) al formato analizado en la sub-
seccion anterior, aplicar entonces aquellos resultados. Este procedimiento es posible, y de hecho,
puesto que la region factible de (P) no se altera con esta nueva representacion, dado x∗ ∈ F, los
conjuntos Dx∗,Ax∗ , Tx∗ se definen de igual manera que en el caso anterior, tienen las mismas propie-
dades, y guardan la misma relacion entre ellos (recuerdese ‘Dx∗ ⊂Ax∗ ⊂ Tx∗’). Sin embargo, a partir
de esta representacion en terminos de desigualdades, la adaptacion del conjunto que denotabamos
por Gx∗ nos darıa siempre un conjunto vacio. De este modo, no dispondrıamos de aquellas cua-
lificaciones de restricciones que se apoyaban en este conjunto. Ası pues, a la hora de introducir
cualificaciones de restricciones en la lınea de la anterior hipotesis ‘Gx∗ = /0’, resultara conveniente
tratar las igualdades como tales.
Consideremos los siguientes conjuntos:
Gx∗ : ={
d ∈ Rn | ∇gi (x
∗)Td < 0; i ∈ I (x∗)
};
Gx∗ : ={
d ∈ Rn | ∇gi (x
∗)Td ≤ 0; i ∈ I (x∗)
};
Hx∗ : ={
d ∈ Rn | ∇h j (x
∗)Td = 0; j = 1,2, ..., p
},
donde ahora I (x∗) := {i ∈ {1, ...,m} | gi(x∗) = 0} .
Comenzaremos observando que el Teorema 44, que establecıa las condiciones de KKT como
condiciones necesarias de optimalidad bajo la cualificacion de restricciones de Guignard (que en
aquel momento se formulaba como ‘cl(cone(Tx∗)) = Gx∗’), puede adaptarse facilmente a este
nuevo contexto. Reproduciendo los pasos dados en la prueba de aquel teorema, considerando en
este caso cada igualdad h j (x) = 0 como dos desigualdades h j(x) ≤ 0 y −h j(x) ≤ 0, el nuevo
enunciado quedarıa como sigue:
Teorema 57. Sea x∗ ∈ F un optimo local del problema (130). Supongamos que las funciones
f , gi, con i ∈ I (x∗) , y h j, j = 1, ..., p, son diferenciables en x∗, y que se verifica la igualdad
cl(cone (Tx∗)) = Gx∗ ∩Hx∗ . Entonces existen escalares λi ≥ 0, i ∈ I (x∗), µ j ∈ R, j = 1,2, ..., p,tales que
−∇ f (x∗) = ∑i∈I(x∗)
λi∇gi (x∗)+
p
∑j=1
µ j∇h j (x∗) .
(Se dice que x∗ es un punto de KKT del problema (3.2)).
El siguiente resultado establece las relaciones de contenido existentes entre los conjuntos de
direcciones considerados en esta subseccion, y que daran paso a las nuevas cualificaciones de
restricciones. Observese que este nuevo enunciado adapta al contexto de los problemas (130) las
68
condiciones establecidas en el Teorema 46. En este punto senalamos que aparecera una diferen-
cia notable con respecto al planteamiento anterior de problemas, unicamente con desigualdades.
Particularmente la adaptacion de la condicion (iii) de dicho Teorema 46 (‘cl(
Gx∗ ∩Hx∗)⊂ Dx∗’)
requerira ahora la aplicacion del teorema de la funcion implıcita.
Teorema 58. Sea x∗ un punto factible del problema (130). Supongamos que las funciones gi,
con i ∈ I (x∗) , y h j, j = 1, ..., p, son diferenciables en x∗. Entonces se verifican los siguientes
enunciados:
(i) Dx∗ ⊂ Ax∗ ⊂ Tx∗ ⊂ cl(cone(Tx∗)) ⊂ Gx∗ ∩Hx∗ .
(ii) Gx∗ ∩Hx∗ 6= /0 si y solo si cl(
Gx∗ ∩Hx∗)
= Gx∗ ∩Hx∗.
(iii) Si adicionalmente suponemos que las funciones gi, con i /∈ I (x∗) son continuas, las h j,j = 1, ..., p, son continuamente diferenciables en un entorno de x∗, y que
{∇h j (x
∗) , j = 1, ..., p}
es un sistema linealmente independiente, entonces cl(
Gx∗ ∩Hx∗)⊂ Dx∗.
Idea de la prueba. (Los detalles tecnicos de la demostracion de (iii) se encuentran en el
Apendice B). Las condiciones (i) y (ii) pueden probarse reproduciendo los pasos de la prueba de (i)
y (ii) en el Teorema 46. En la demostracion de (iii) tambien se aplica dicho teorema. Para ello, en un
primer paso, haciendo uso de la hipotesis de independencia lineal de{
∇h j (x∗) , j = 1, ..., p
}, y en
virtud del teorema de la funcion implıcita veremos que el sistema de ecuaciones{
h j (x) = 0, j = 1, ..., p}
define a p de las variables como funciones implıcitas de las restantes. De este modo se reduce la
dimension del espacio de las variables al tiempo que el nuevo conjunto factible (en las nuevas va-
riables) viene descrito exclusivamente en terminos de desigualdades. Para aplicar entonces el apar-
tado (iii) del Teorema 46, habra que comprobar que si d ∈ cl(
Gx∗ ∩Hx∗)
, entonces el (sub)vector
cuyas coordenadas se corresponden con los ındices de las nuevas variables tambien verifica una
propiedad analoga en relacion con el nuevo sistema de desigualdades.
La relacion de contenidos establecidos en el teorema anterior justifica que las siguientes condi-
ciones constituyen hipotesis de cualificaciones de restricciones para nuestro problema de PNL con
igualdades y desigualdades (bajo las adecuadas hipotesis de continuidad y diferenciabilidad). Asi-
mismo, garantiza la cadena de implicaciones existente entre ellas que expresamos a continuacion.
Cualificacion de
restricciones de :Abrev. por: Hipotesis:
Mangasarian-Fromovitz
(o tambien de Cottle)MFCQ
‘{
∇h j (x∗) , j = 1, ..., p
}L.I.
y Gx∗ ∩Hx∗ 6= /0)’Kuhn-Tucker KTCQ ‘Dx∗ = Gx∗ ∩Hx∗’
Arrow-Hurwicz-Uzawa AHUCQ ‘Ax∗ = Gx∗ ∩Hx∗’
Abadie ACQ ‘Tx∗ = Gx∗ ∩Hx∗’
Guignard GCQ ‘cl(cone (Tx∗)) = Gx∗ ∩Hx∗’
Independencia lineal LICQ‘{∇gi (x
∗) , i ∈ I (x∗) ;
∇h j (x∗) , j = 1, ..., p} L.I.’
Mangasarian MCQ‘gi, i ∈ I (x∗) , concavas,
h j, j = 1, ..., p lineales’
Supongamos que las funciones h j, j = 1, ..., p, son de clase C 1 en un entorno de x∗, las gi, con
i ∈ I (x∗) , son diferenciables en x∗ y las funciones gi, con i /∈ I (x∗) , son continuas, entonces:
69
LICQ ⇒ MFCQ ⇒ KTCQ ⇒ AHUCQ ⇒ ACQ ⇒ GCQ
⇑MCQ
Las pruebas de las implicaciones ‘LICQ⇒MFCQ’ y ‘MCQ⇒KTCQ’ se obtienen adaptando a
este nuevo planteamiento los argumentos dados en la Proposicion 48.18
13.3.1. Apendice A: Las condiciones de Fritz-John
Como complemento del material de esta seccion presentamos una nueva condicion necesaria
de optimalidad en la linea de las condiciones de KKT, aunque mas debil. Como contrapartida, no
requiere ninguna cualificacion de restricciones, y por tanto estara indicada cuando no dispongamos
de alguna de estas hipotesis. Como veremos a continuacion, la nueva condicion es consecuencia
inmediata de los resultados presentados anteriormente. Consideraremos de nuevo el problema
(P) Min f (x)s.a. gi(x) ≤ 0, i = 1,2, ...,m.
Teorema 59 (Condiciones de Fritz John). Sea x∗ un optimo local de (P) , y supongamos que las
funciones f y gi, con i ∈ I (x∗) , son diferenciables en x∗, y las gi, con i /∈ I (x∗) son continuas en
x∗. Entonces existen escalares λ0,λi ≥ 0, i ∈ I (x∗), no todos nulos, tales que
λ0∇ f (x∗)+ ∑i∈I(x∗)
λi ∇gi (x∗) = 0n.
Demostracion. En las condiciones actuales, la Proposicion 40 establece que −∇ f (x∗) ∈ T ◦x∗. Por
otro lado, en el Teorema 46 vimos que Gx∗ ⊂ Tx∗, lo que implica que T ◦x∗ ⊂ G◦
x∗ . Ası pues,
−∇ f (x∗) ∈(
Gx∗)◦
.
En otros terminos, ∇ f (x∗)Td ≥ 0 para todo d ∈R
n verificando ∇gi (x∗)T
d < 0 para todo i∈ I (x∗) ;
esto es, el sistema{
∇ f (x∗)Td < 0; ∇gi (x
∗)Td < 0, i ∈ I (x∗)
}no tiene solucion (en la variable
d ∈Rn). Entonces, en virtud del teorema de Gordan, existiran λ0,λi ≥ 0, i ∈ I (x∗), no todos nulos,
tales que λ0∇ f (x∗)+∑i∈I(x∗) λi ∇gi (x∗) = 0n.
El siguiente esquema pretende mostrar la relacion existente entre las condiciones de Fritz-
John y otras condiciones necesarias de optimalidad introducidas en esta seccion. Una vez mas,
estamos asumiendo que x∗ es un optimo local de (P) , que las funciones f y gi, con i ∈ I (x∗) ,son diferenciables en x∗, y las gi, con i /∈ I (x∗) , son continuas en x∗. Bajo estas hipotesis, dicho
esquema es consecuencia directa de la relacion de contenidos
cl(
Gx∗)⊂ Dx∗ ⊂ Ax∗ ⊂ Tx∗ ⊂ cl(cone(Tx∗)) ⊂ Gx∗ ,
que establecıamos mas arriba.
18Particularmente, la implicacion ‘MCQ⇒KTCQ’ es consecuencia directa de la establecida en la condicion
(iii) de esta proposicion. Por su parte, la implicacion ‘LICQ⇒MFCQ’, se obtiene a partir del siguiente teore-
ma de alternativa (que generaliza al Teorema de Gordan, por incluir restricciones de igualdad): ‘El sistema
{a′ix < 0, i = 1,2, ...,s; a′ix = 0, i = s+ 1, ...,r} no tiene solucion si y solo si existen escalares λ1, ...,λs ≥ 0, con algun
λi > 0 , y µs+1,...,µr ∈ R tales ques
∑i=1
λiai +m
∑i=s+1
µiai = 0n.’ Este resultado se obtiene practicamente reproduciendo
los pasos de la demostracion del Teorema de Gordan.
70
Cond. de Fritz-John −∇ f (x∗) ∈(
Gx∗)◦
∪D◦
x∗
∪A◦
x∗
∪−∇ f (x∗) ∈ T ◦
x∗
∪Cond. de Karush-Kuhn-Tucker −∇ f (x∗) ¿ ∈? G◦
x∗
13.3.2. Apendice B: El teorema de la funcion implıcita. Aplicacion en la obtencion de con-
diciones de optimalidad
Considerese un sistema de ecuaciones del tipo
f1 (x1, ...,xn,y1, ...,ym) = 0
.............................................fm (x1, ...,xn,y1, ...,ym) = 0
, (131)
o equivalentemente la ecuacion vectorial
f (x,y) = 0m,
donde f = ( f1, ..., fm) es una funcion vectorial definida y de clase C p (p ≥ 1) en un subconjunto
abierto W de Rn+m con valores en R
m, y donde x e y representan a los vectores (x1, ...,xn) e
(y1, ...,ym) de Rn y R
m respectivamente. El siguiente teorema proporciona una condicion suficiente
para que el sistema (131) defina a la variable y como funcion implıcita de x en un entorno de una
solucion particular de dicho sistema (a,b) = (a1, ...,an,b1, ...,bm).
Teorema 60. Sea f = ( f1, ..., fm) : W −→ Rm una funcion de clase C p (p ≥ 1) en el conjunto
abierto W ⊂ Rn+m. Supongamos que en el punto (a,b) de W se verifican las condiciones siguien-
tes:
(i) f (a,b) = 0m,(ii) det∇y f (a,b) 6= 0.Entonces existen un entorno M×N de (a,b) , contenido en W, y una unica funcion φ : M −→ N
tales que f (x,φ (x)) = 0m para todo x ∈ M. Esto es19,
{(x,y) ∈ M×N | f (x,y) = 0m} = {(x,φ (x)) | x ∈ M} .
En particular, φ (a) = b. Ademas φ es de clase C p en M.
13.3.3. Demostracion del Theorem 58 (iii)
Veamos (iii). A lo largo de la prueba de este apartado, con el fin de simplificar la notacion, su-
pondremos que I (x∗) = {1,2, ...,s} (s ≤ m), y representaremos por g : Rn → R
s a la funcion vecto-
rial dada por g(x) = (gi (x))i=1,...,s , y por h : Rn →R
p a la funcion dada por h(x) = (hi (x))i=1,...,p .
19En estas condiciones diremos que la expresion y = φ (x) resuelve la ecuacion f (x,y) = 0m en M×N.
71
Asimismo, para una funcion ϕ : Rk → R
l, representaremos por ∇ϕ (x) , a la matriz de orden k× l
que tiene en sus columnas los respectivos gradientes (evaluados en x∈Rk) de las ϕi, con i = 1, ..., l.
Comenzaremos observando que si d ∈ cl(
Gx∗ ∩Hx∗)⊂ cl
(Gx∗)∩Hx∗ , entonces ∇g(x∗)T
d ≤0s, y ∇h(x∗)T
d = 0p. Veamos que bajo las hipotesis de (iii) existe una curva α : [0,ε] → F dife-
renciable en [0,1] y tal que α (0) = x∗, α ′ (0) = d.En primer lugar, bajo la hipotesis de independencia lineal del sistema {∇h j (x
∗) , j = 1, ..., p},la matriz ∇h(x∗) tendra una submatriz inversible de orden p. De nuevo, por simplicidad, supondre-
mos que esta submatriz, que denotaremos por B, esta formada por las p primeras filas de ∇h(x∗) .
Ası, escribiremos ∇h(x∗) =
(B
N
), donde N recoge las n− p ultimas filas de ∇h(x∗) . Del mismo
modo, escribiremos x =
(xB
xN
), donde xB contiene las p primeras coordenadas de x ∈ R
n, y xN las
restantes. Podemos suponer sin perdida de generalidad que p < n, pues en otro caso, si p = n, en-
tonces Hx∗ = {0n} , y entonces Gx∗∩Hx∗ = /0, y por tanto cl(
Gx∗ ∩Hx∗)
= /0. Aplicando el teorema
de la funcion implıcita (vease Apendice B) a la ecuacion vectorial h(x) = 0p, y teniendo en cuenta
que h(x∗) = 0p, concluimos la existencia de un entorno U ⊂ Rp de x∗B, un entorno V ⊂ R
n−p de
x∗N y una unica funcion φ : V →U verificando h(φ (xN) ,xN) = 0p, para todo xN ∈V (en particular
φ (x∗N) = x∗B), siendo, ademas de clase C1 en V.Consideremos entonces las nuevas funciones g : V → R
s, dada por g(xN) = g(φ (xN) ,xN) , y
h : V → Rp, dada por h(xN) = h(φ (xN) ,xN) . Puesto que h es constantemente nula en V, entonces
0(n−p)×p = ∇h(x∗N) . Por otro lado, aplicando la regla de la cadena, ∇h(x∗N) = ∇φ (x∗N)B +N, de
donde
∇φ (x∗N) = −NB−1.
Ademas, si escribimos d =
(dB
dN
), de ∇h(x∗)T
d = 0p, obtenemos que
dB = −(NB−1
)TdN,
puesto que ∇h(x∗)Td = 0p. Entonces
∇g(x∗N) = ∇φ (x∗N)∇xBg(x∗)+∇xN
g(x∗) = −NB−1∇xBg(x∗)+∇xN
g(x∗) ,
donde ∇xBg(x∗) recoge a las p primeras filas de ∇g(x∗) , y ∇xN
g(x∗) a las n− p restantes. Ası pues,
∇g(x∗N)TdN = −∇xB
g(x∗)T (NB−1
)TdN +∇xN
g(x∗)TdN
= ∇xBg(x∗)T
dB +∇xNg(x∗)T
dN = ∇g(x∗)Td ≤ 0s.
Ahora estamos en condiciones de aplicar el apartado (iii) del Theorem 4620, concluyendo la
existencia de una curva α : [0,ε] → Rn−p diferenciable en [0,ε] , y verificando que α (0) = x∗N ,
α ′ (0) = dN , y g(α (t))≤ 0s, para todo t ∈ [0,ε] . Podemos suponer, sin perdida de generalidad que
α (t)∈V, para todo t ∈ [0,ε] , pues en otro caso tomarıamos su restriccion sobre cierto [0,δ ] , δ > 0,y posteriormente, mediante un cambio de variable adecuado conseguirıamos que la nueva curva
20En rigor, para aplicar directamente este teorema, g tendrıa que estar definida en todo Rn−p. Esto sin embargo, no
supone ningun obstaculo, puesto que la unica hipotesis que ha de cumplir g es la diferenciabilidad en xN . Podemos
extender entonces el dominio de g a Rn−p, definiendola de manera arbitraria en R
n−p\V. Por otro lado, se comprueba
inmediatamente que existe dN tal que ∇g(xN)′ dN < 0s.
72
estuviera en las condiciones indicadas. A partir de esta, construimos la curva α : [0,ε]→ Rn, dada
por α (t) =
(φ (α (t))
α (t)
), t ∈ [0,ε] . Se tiene que α (0) =
(φ (x∗N)
x∗N
)= x∗, g(α (t)) = g(α (t)) ≤ 0s,
y podemos, de hecho, suponer sin perdida de generalidad21 que para aquellos ındices i /∈ I (x∗)tambien se verifica gi (α (t)) ≤ 0; ası pues, α (t) ∈ F, para todo t ∈ [0,ε] . Ademas,
α ′ (0) =
(∇φ (x∗N)T α ′ (0)
α ′ (0)
)=
((−NB−1)T
dN
dN
)= d.
13.3.4. Apendice C: Complementos diversos
Tx∗ es un cono cerrado, mientras que Dx∗ es un cono pero no es cerrado en general.
Es inmediato que ambos son conos. En efecto, si d ∈ Tx∗ , existen λr > 0, xr ∈ F, r = 1,2, ...,tales que d = lımr→∞ λr (x
r − x∗) , y entonces λd = lımr→∞ λλr (xr − x∗) ∈ Tx∗ , para todo λ > 0;
por otro lado, si λ = 0, entonces puede ponerse λd = 0n = lımr→∞ λr (x∗− x∗) ∈ Tx∗ . Ası pues, Tx∗
es un cono.
Dx∗ tambien es un cono. En efecto, si d ∈Dx∗ , existe una curva α : [0, ε]→ F, para algun ε > 0,diferenciable en [0, ε] y tal que α ′ (0) = d y α (0) = x∗. Si λ > 0, entonces la curva β : [0, ε
λ ]→ F,dada por β (t) = α (λ t) , verifica β (0) = α (0) = x∗, y β ′ (0) = λα ′ (0) = λd ∈ Dx∗. Si λ = 0,basta considerar α : [0, ε] → F, constantemente igual a x∗, y entonces λd = 0n ∈ Dx∗ .
Tx∗ es cerrado. En efecto, sea{
dk}⊂ Tx∗ convergente hacia cierto d ∈R
n. Mediante un proceso
diagonal concluiremos que d ∈ Tx∗ . Pongamos
dk = lımr→∞
λk,r
(xk,r − x∗
),k = 1,2, ....
Para cada k sea rk tal que∥∥dk −λk,rk
(xk,rk − x∗
)∥∥≤ 1k. Entonces
lımk→∞
λk,rk
(xk,rk − x∗
)= d ∈ Tx∗ .
Sin embargo Dx∗ no es cerrado en general. Basta considerar F = {x ∈ R2 | g1 (x1,x2) = 0,
x1 − x22 ≥ 0}, siendo g1 (x1,x2) = x2
1 sin(
π x2
x1
), si x1 6= 0, y g1 (0,x2) = 0. Ası
F = {02}∪⋃
r∈Z
{x ∈ R
2 | x2 = rx1, 0 ≤ x1 ≤1
r2
},
y entonces dr = r(
1r2 ,
1r
)=(
1r,1)T ∈ Dx∗ , r = 1,2, ..., y sin embargo (0,1)T /∈ Dx∗ .
Comprobacion de la diferenciabilidad de α (t) de la prueba de (iii) en el Teorema 46
Comprobaremos que la curva α :[0,
Tλ1
2
]→ R
n definida en la prueba de dicho teorema verifica
todas las propiedades allı anunciadas. En primer lugar, se comprueba inmediatamente que, si a < b,a,b ∈ R, la funcion ϕ : [a,b] → [0,1] definida por
ϕ (t) :=(t −a)2
(t −a)2 +(t −b)2
21En otro caso, de la continuidad en 0 de t 7→ gi (α (t)) , para todo i /∈ I (x) , y puesto que gi (α (0)) < 0, encon-
trarıamos un δ > 0, tal que gi (α (t)) ≤ 0, para todo t ∈ [0,δ ] , y todo i /∈ I (x) . Como hemos indicado anteriormente,
bastarıa entonces considerar la restriccion de α a dicho intervalo, y luego realizar un cambio de variable adecuado.
73
verifica ϕ (a) = 0, ϕ (b) = 1, y
0 = ϕ ′ (a) = ϕ ′ (b) < ϕ ′ (t) ≤ ϕ ′(
a+b
2
)=
2
b−apara todo t ∈ ]a,b[ .
En particular ϕ es estrictamente creciente.
La continuidad de α en[0,
Tλ12
]se comprueba sin dificultad (para t = 0 se sigue de la acotacion
deα(t)−x∗
ten]0,
Tλ12
]). Ademas:
(1) α (t)∈ F para todo t ∈[0,
Tλ12
]. En efecto, para t ∈
[Tλr+1
,Tλr
2
]es evidente por la definicion
de Tλ y, para t ∈]
Tλr+1
2,Tλr+1
[, podemos escribir α (t) = x∗ + tdµ , con µ = (1−ϕr (t))λr+1 +
ϕr (t)λr ≥ λr+1 (a fortiori λr ↓ 0); con lo que α (t) ∈ F puesto que t < Tλr+1≤ Tµ .
(2) α es diferenciable (de hecho de clase C 1) en el intervalo[0,
Tλ12
]y α ′ (0) = d. En efecto,
se tiene
α ′ (t) :=
dλr si t ∈
]Tλr+1
,Tλr
2
[, r = 1,2, ...,
dλr+1 +(ϕr (t)+ tϕ ′r (t))
(dλr −dλr+1
), si t ∈
]Tλr+1
2,Tλr+1
[, r = 1,2, ....
Puesto que, para cada t0 ∈]0,
Tλ12
], α es continua en t0 y lımt→t0 α ′ (t) existe, dicho lımite coinci-
de con α ′ (t0) (esta propiedad, coordenada a coordenada, es consecuencia de la regla de L’Hopital).
Ası pues, α es de clase C 1 en]0,
Tλ12
]. Ademas las propiedades de ϕr aseguran que |ϕr (t)+ tϕ ′
r (t)| ≤
5 para cada t ∈]
Tλr+1
2,Tλr+1
[, r = 1,2, .... Este hecho, junto con lımr→∞ dλr = d, nos conduce
a lımt→0 α ′ (t) = d y, de nuevo por la regla de L’Hopital (aplicada coordenada a coordenada),
α ′ (0) = d. Luego α es de clase C1 en
[0,
Tλ12
].
Complementos del Ejemplo 53
Sea α : [0,ρ]→ F (ρ > 0), derivable en 0, con α (0) = 0. Veamos que necesariamente α ′ (0) =0. Supongamos, por reduccion al absurdo, que α ′ (0) = v 6= 0. Entonces, en virtud de la continuidad
de la funcion valor absoluto y habida cuenta de que α (0) = 0, se tiene lımt→0+
α (t)
t= v > 0 (puesto
que α (t) ∈ F, α (t) ≥ 0 = α (0) para todo t ∈ [0,ε]), luego existe un δ0 > 0 tal que α (t) > 0 si
0 < t < δ0, en cuyo caso, en virtud de la descripcion de F, ha de existir un kt ∈Z tal que α (t) = ekt .
Por otro lado lımt→0+
t
α (t)=
1
v> 0, luego fijado ε ∈
]0,
1
v
[(mas tarde precisaremos el valor que de
ε)22 existe un δ ∈ ]0,δ0[ tal que 0 < t < δ implica
(1
v− ε
)ekt < t <
(1
v+ ε
)ekt . (132)
22Aunque en estos casos la eleccion del ε siempre queda motivada a posteriori, preferimos por motivos didacticos
fijar el valor de ε una vez que dicho valor este motivado.
74
Elijamos ε de forma que
(1
v+ ε
)ekt <
(1
v− ε
)ekt+1; esto es,
(1
v+ ε
)(1
v− ε
)−1
< e.
Por ejemplo, sea ε =1
5v.La formula (132) implica en particular que
]0,δ [ ⊂⋃
k∈Z
]αk,βk[ ,
siendo αk :=4ek
5vy βk :=
6ek
5vpara cada k ∈Z, lo que constituye una contradiccion, pues la eleccion
de ε garantiza que βk < αk+1 para todo k ∈ Z. Notese que, por ejemplo, la sucesion de numeros
positivos (pr)r∈Ndada por pr =
β−r +α−r+1
2, r = 1,2, ..., tiene lımite 0 cuando r → +∞, por lo
que para r suficientemente grande sera pr ∈ ]0,δ [\⋃
k∈Z
]αk,βk[ .
13.3.5. Apendice D: Condiciones de segundo orden
El objetivo de esta seccion es doble. Por un lado, pretende dar un paso mas en deteccion de
optimos locales de un problema de PNL, anadiendo nuevas condiciones a las presentadas en esta
seccion (que ahora involucraran derivadas de segundo orden); por otro lado pretende proporcionar,
bajo hipotesis adecuadas, una interpretacion de los multiplicadores de KKT relacionada con el
analisis de sensibilidad del problema.
Comenzaremos estableciendo una condicion necesaria de optimalidad de segundo orden. Esta
podrıa obtenerse a partir de su homologa para el problema de optimizacion con restricciones de
igualdad. No obstante, con el fin de hacer el tema autocontenido, y al mismo tiempo proporcionar
las herramientas que darıan pie a posibles generalizaciones, optaremos por una prueba directa,
basada en resultados anteriores.
Consideremos la funcion de Lagrange, L : Rn ×R
m+×R
p → R, asociada al problema:
(P) Min f (x) (133)
s.a. gi(x) ≤ 0, i = 1,2, ...,m,h j (x) = 0, j = 1,2, ..., p,
que viene dada por L(x,λ ,µ) := f (x)+λ T g(x)+µT h(x) , donde g (respectivamente, h) representa
a la funcion vectorial que tiene a las gi (respectivamente, a las h j) como sus funciones coordenadas.
Asimismo denotaremos por ∇xL(x,λ ,µ) al gradiente, respecto de x, de L; esto es,
∇xL(x,λ ,µ) = ∇ f (x)+m
∑i=1
λi∇gi (x)+p
∑j=1
µ j∇h j (x) .
Ası pues, las condiciones de KKT para el problema (133) pueden alternativamente expresarse
75
como23
∇xL(x,λ ,µ) = 0n,λ T g(x) = 0, λ ≥ 0m,g(x) ≤ 0m, h(x) = 0p.
(D.2)
En los respectivos enunciados de la condicion necesaria y condicion suficiente establecidos en
esta subseccion distinguiremos entre dos clases de restricciones activas asociadas a un punto de
KKT x∗, y al vector λ ∗ que recoge los multiplicadores de KKT asociados a las restricciones de
desigualdad. Siguiendo la terminologıa de Fletcher (1987), llamaremos restricciones fuertemente
activas (o tambien, no degeneradas) a las asociadas al conjunto de ındices
I+ (x∗,λ ∗) := {i ∈ I (x∗) | λ ∗i > 0} ,
mientras que el resto de restricciones de desigualdad activas son denominadas restricciones debil-
mente activas. En terminos informales, esta distincion viene motivada por el hecho de que esta
ultima clase de restricciones activas no desempenan ningun papel en las condiciones de KKT (es-
tas condiciones se verifican, aun eliminando del planteamiento dichas restricciones).
En lo que sigue denotaremos por ∇2xxL(x,λ ,µ) a la matriz hessiana, respecto de x, de L; esto
es
∇2xxL(x,λ ,µ) := ∇2 f (x)+
m
∑i=1
λi∇2gi (x)+
p
∑j=1
µ j∇2h j (x) ,
donde ∇2 f (x) , ∇2gi (x) , i = 1, ...,m, ∇2h j (x) , j = 1, ..., p denotan a las matrices hessianas de las
correspondientes funciones.
Teorema 61 (Condicion necesaria de segundo orden). Sea x∗ un optimo local del problema (P) , in-
troducido en (133). Supongamos que f , gi, i∈ I (x∗) y h j, j = 1, ..., p, son de clase C 2 en un entorno
de x∗, que gi, i /∈ I (x∗) son funciones continuas en x∗, y que{
∇gi (x∗) , i ∈ I (x∗) ; ∇h j (x
∗) , j = 1,2, ..., p}
forma un sistema linealmente independiente24. Entonces se verifican los siguientes enunciados:
(i) Existen unos unicos , λ ∗ ≥ 0m, µ∗ ∈ Rp, verificando
∇xL(x∗,λ ∗,µ∗) = 0n, y λ ∗T g(x∗) = 0; (134)
(ii) Ademas, para todo d ∈ M (x∗,λ ∗) , se tiene que dT ∇2xxL(x∗,λ ∗,µ∗)d ≥ 0, siendo
M (x∗,λ ∗) :=
d ∈ R
n :
∇gi (x∗)T
d ≤ 0, i ∈ I (x∗)\I+ (x∗,λ ∗) ;
∇gi (x∗)T
d = 0, i ∈ I+ (x∗,λ ∗) ;
∇h j (x∗)T
d = 0, j = 1,2, ..., p
.
23Recuerdese que las condiciones de KKT para el problema (D.1) se formulan en los terminos ‘existen x ∈ F y
λ i ≥ 0, i ∈ I (x) , µ j ∈ R, tales que ∇ f (x)+ ∑i∈I(x) λ i∇gi (x)+ ∑pj=1 µ j∇h j (x) = 0n’; considerando entonces λ i = 0,
para i ∈ {1, ...,m}\I (x) , tendremos unos vectores λ ≥ 0m, y µ ∈ Rp tales que ∇xL
(x,λ ,µ
)= 0n, con λ
′g(x) = 0.
Reciprocamente, si x ∈ F, λ ≥ 0m, µ ∈ Rp verifican ∇xL
(x,λ ,µ
)= 0n, con λ
′g(x) = 0, de esta ultima igualdad se
deduce que λ igi (x) = 0 (puesto que λ i ≥ 0 y gi (x) ≤ 0), para todo i = 1, ...,m. Ası pues, si i /∈ I (x) , ha de ser λ i = 0,de donde se obtienen inmediatamente las condiciones de KKT en el formato inicial.
24Recordemos que esta hipotesis constituye la cualificacion de restricciones que abreviabamos por LICQ. En esta
situacion, se dice que x∗ es un punto regular de (P) .
76
Demostracion. (i) ya ha sido probada mas arriba, incluso bajo hipotesis mas generales. Veamos
(ii).
Comenzaremos observando que, puesto que x∗ es un optimo local de (P) , tambien lo sera del
problema 25
(P) Min f (x)s.a. gi(x) ≤ 0, i ∈ I (x∗)\I+ (x∗,λ ∗) ,
gi(x) = 0, i ∈ I+ (x∗,λ ∗) ,h j (x) = 0, j = 1,2, ..., p.
Distinguiremos con el sımbolo ‘ ’ a los elementos asociados al problema (P). Ası, F sera su con-
junto factible, y Tx∗, Gx∗ , Hx∗, representaran, respectivamente, el cono de las tangentes en x∗, el
polar del conjunto formado por los gradientes en x∗ de las gi,con i ∈ I (x∗)\I+ (x∗,λ ∗) , y el orto-
gonal del conjunto formado por los gradientes, en x∗, de las funciones que definen las igualdades.
Con esta notacion, el conjunto M (x∗,λ ∗) introducido en (ii) no es otro que Gx∗ ∩ Hx∗ . Ademas, la
hipotesis de independencia lineal del sistema{
∇gi (x∗) , i ∈ I (x∗) ; ∇h j (x
∗) , j = 1,2, ..., p}
pue-
de verse tambien como la cualificacion de restricciones que denotabamos por LICQ, en x∗, pa-
ra el problema (P). Esta cualificacion de restricciones implica la de Abadie, concluyendose que
Gx∗ ∩ H = Tx∗ .Sea d ∈ M (x∗,λ ∗) . De los comentarios anteriores, se deduce que d ∈ Tx∗ . Ası pues, pongamos
d = lımr→∞ ρr (xr − x∗) , con xr ∈ F para todo r, y siendo {xr} convergente a x∗. Las hipotesis
actuales de diferenciabilidad permiten escribir
f (xr) = f (x∗)+∇ f (x∗)T (xr − x∗)+ 1
2(xr − x∗)T ∇2 f (x∗)(xr − x∗)+o(‖xr − x∗‖2),
gi (xr) = gi (x
∗)+∇gi (x∗)T (xr − x∗)
+ 12(xr − x∗)T ∇2gi (x
∗)(xr − x∗)+o(‖xr − x∗‖2), i ∈ I+ (x∗,λ ∗) ,
h j (xr) = h j (x
∗)+∇h j (x∗)T (xr − x∗)
+ 12(xr − x∗)T ∇2h j (x
∗)(xr − x∗)+o(‖xr − x∗‖2), j = 1, ..., p.
(D.3)
Ası pues,
L(xr,λ ∗,µ∗) = f (xr)+ ∑i∈I+(x∗,λ ∗)
λ ∗i gi (x
r)+p
∑j=1
µ∗j h j (x
r) (D.4)
= f (x∗)+1
2(xr − x∗)T ∇2
xxL(xr,λ ∗,µ∗)(xr − x∗)+o(‖xr − x∗‖2).
Puesto que gi (xr) = 0, para todo r (por ser xr ∈ F , para todo r), f (xr) ≥ f (x∗) para r suficiente-
mente grande (por ser x∗ optimo local de (P)), se tiene que
0 ≤ 1
2(xr − x∗)T ∇2
xxL(xr,λ ∗,µ∗)(xr − x∗)+o(‖xr − x∗‖2), para r ≥ r0.
Multiplicando entonces, para cada r, por (ρr)2 , y haciendo r →+∞ concluimos que dT ∇2
xxL(x∗,λ ∗,µ∗)d ≥0.
25En la introduccion del tema se presento un argumento directo para probar un resultado analogo a esta observacion.
77
Observacion 62. En la practica, en vez de verificar la condicion (ii), resulta mas sencillo com-
probar si se cumple otra mas debil, a saber ‘si ∇2xxL(x∗,λ ∗,µ∗) es semidefinida positiva o definida
positiva sobre el subespacio
{d ∈ R
n | ∇gi (x∗)T
d = 0, i ∈ I (x∗) ; ∇h j (x∗)T
d = 0, j = 1,2, ..., p}
,
pues esta ultima puede ser analizada a traves de un simple caculo matricial.
Observacion 63. La hipotesis de independencia lineal utilizada en el enunciado del teorema an-
terior, podrıa reemplazarse por cualquier otra que suponga una cualificacion de restricciones en
x∗ simultaneamente para los problemas (P) y (P), y que en este ultimo caso resulte ser una con-
dicion suficiente para la cualificacion de restricciones de Abadie. Este es el caso, por ejemplo, si
gi, i ∈ I+ (x∗,λ ∗) , y h j, j = 1, ...,m son lineales y gi, i ∈ I (x∗)\I+ (x∗,λ ∗) son concavas.
Teorema 64 (Condicion suficiente de segundo orden). Sea x∗ ∈ F un punto de KKT del problema
(P) introducido en (133) y sean λ ∗ ≥ 0m, µ∗ ∈ Rp vectores de multiplicadores asociados a x∗
(esto es, (x∗,λ ∗,µ∗) verifica las condiciones de KKT (134)). Supongamos que f , gi, i ∈ I (x∗) , h j,j = 1, ..., p son de clase C 2 en un entorno de x∗, y que gi, i /∈ I (x∗) son funciones continuas en x∗.Si ademas se verifica que dT ∇2
xxL(x∗,λ ∗,µ∗)d > 0 para todo d ∈ M (x∗,λ ∗)\{0n} , entonces x∗
es un optimo local (estricto) de (P).
Demostracion. Razonando por reduccion al absurdo, supongamos que dT ∇2xxL(x∗,λ ∗,µ∗)d > 0
para todo d ∈M (x∗,λ ∗)\{0n} , y, sin embargo, x∗ no es un mınimo local estricto de (P) . Entonces
existe una sucesion {xr} ⊂ F\{x∗} convergente a x∗ y tal que f (xr)≤ f (x∗) , para todo r; ası pues
L(xr,λ ∗,µ∗) ≤ f (x∗) , para todo r.
Por otro lado, podemos suponer sin perdida de generalidad que
{(xr − x∗)‖xr − x∗‖
}es convergente ha-
cia cierto d ∈ Rn (en otro caso tomarıamos una subsucesion en estas condiciones). Es inmediato
que d ha de pertenecer al cono de las tangentes a F en x∗, y por tanto d ∈ Gx∗ ∩Hx∗ ; esto es,
∇gi (x∗)T
d ≤ 0, i ∈ I (x∗) , y ∇h j (x∗)T
d = 0, j = 1,2, ..., p. De hecho d ∈ M (x∗,λ ∗) . En efec-
to, si ∇gi (x∗)T
d < 0,para algun i ∈ I+ (x∗,λ ∗) , como consecuencia de las condiciones de KKT
tendrıamos ∇ f (x∗)Td > 0, encontrando una contradiccion con la hipotesis actual ‘ f (xr)≤ f (x∗) ,
para todo r’ (de dicha hipotesis, y de la diferenciabilidad de f en x∗, mediante un argumento
estandar (vease por ejemplo la demostracion de la Proposicion 40), se deduce ∇ f (x∗)Td ≤ 0).
De nuevo por las hipotesis de diferenciabilidad, y por ser x∗ un punto de KKT, desarrollando
de forma identica a (D.3) y (D.4) obtenemos
L(xr,λ ∗,µ∗) = f (x∗)+1
2(xr − x∗)T ∇2
xxL(xr,λ ∗,µ∗)(xr − x∗)+o(‖xr − x∗‖2)
≤ f (x∗) .
Por tanto1
2(xr − x∗)T ∇2
xxL(xr,λ ∗,µ∗)(xr − x∗)+o(‖xr − x∗‖2) ≤ 0.
Dividiendo entonces por ‖xr − x∗‖2y haciendo r → +∞ concluimos dT ∇2
xxL(x∗,λ ∗,µ∗)d ≤ 0,alcanzando de este modo una contradiccion (recuerdese que d ∈ M (x∗,λ ∗)). Ası pues, x∗ es un
mınimo local estricto de (P) .
78
13.3.6. Interpretacion de los multiplicadores de KKT
Imaginemos que deseamos construir una caja de carton como la de la figura:
x2/2
x2 /2
x3
x1
x2
solapa
Supongamos que el beneficio que reporta para nosotros la construccion de dicha caja es propor-
cional a su volumen una vez cerrada, de forma que nos interesa minimizar f (x1,x2,x3) =−x1x2x3
(lo que equivale a maximizar el volumen). Supongamos asimismo que tenemos restringida la can-
tidad de material (area total), estando sujetos a la restriccion
g(x1,x2,x3) = 2(x1 + x2)(x2 + x3)− c0 ≤ 0,
siendo c0 una constante positiva, y por supuesto x1 ≥ 0, x2 ≥ 0 y x3 ≥ 0.Dada la naturaleza del problema, en un optimo local de problema tendran que ser positivos x1,
x2 y x3 (pues si alguno de ellos fuese cero el volumen de la caja serıa nulo, y evidentemente no
tendrıamos un optimo local). Esto significa que, con el fin de buscar puntos de KKT que pudieran
ser optimos locales, podremos considerar x1 ≥ 0, x2 ≥ 0 y x3 ≥ 0 como restricciones inactivas.
Ası, considerando la restriccion de material como la unica activa, encontramos que el unico
punto de KKT es x∗ =(
23
√c0
2, 1
3
√c0
2, 2
3
√c0
2
), teniendose ademas que ∇g(x∗) =
√2c0 (1,2,1)T 6=
03. El multiplicador de KKT asociado es λ ∗1 = 1
9
√c0
2. Poniendo λ ∗ = (λ ∗
1 ,0,0,0)T , se tiene que
la restriccion de ∇2xxL(a) al subespacio
{v ∈ R
3 | v1 +2v2 + v3 = 0}
es definida positiva, por lo
que en virtud de la condicion suficiente de segundo orden, el problema considerado presenta en x∗
un optimo local (puede comprobarse a partir de la definicion que, de hecho, se trata de un optimo
global), teniendose f (x∗) = −√
227
c3/20 (esto es un volumen maximo de
√2
27c
3/20 ).
Llegados a este punto nos planteamos la siguiente pregunta: ¿Cuanto mejorarıa nuestro objetivo
si pudiesemos disponer de una pequena cantidad adicional, c−c0, de area total? En otras palabras,
si tuviesemos la posibilidad de aumentar un poco el area total de la caja, ¿hasta que precio por
unidad de area (expresado en las mismas unidades que el objetivo) estarıamos dispuestos a pagar
por esa pequena cantidad adicional de area? La respuesta es sencilla: dicho precio es λ , puesto que
el ”beneficio cambiado de signo” es B(c0) = f (x∗) = −√
227
c3/2
0 , y se tiene
B′ (c0) =−√
2
27
3
2c
1/2
0 =−1
9
√c0
2= −λ .
79
Veremos a continuacion que, bajo hipotesis adecuadas, este resultado se verifica en general:
λi puede interpretarse como el “precio” (en las unidades de la funcion objetivo) que estarıamos
dispuestos a pagar por unidad de incremento del miembro derecho de la i-esima ligadura (pa-
ra incrementos pequenos), pues esa unidad producirıa una mejora (disminucion) del objetivo de,
aproximadamente, λi unidades.
Teorema 65. Sea x∗ un punto de KKT del problema (P) introducido en (133), y sean λ ∗ ≥ 0m
y µ∗ ∈ Rp vectores de multiplicadores asociados a x∗. Supongamos que f , gi, i ∈ I (x∗) , h j, j =
1, ..., p son de clase C 2 en un entorno de x∗, que gi, i /∈ I (x∗) son funciones continuas en x∗.Supongamos ademas que se verifican las siguientes condiciones:
(h1){
∇gi (x∗) , i ∈ I (x∗) ; ∇h j (x
∗) , j = 1,2, ..., p}
forma un sistema linealmente indepen-
diente;
(h2) I (x∗) = I+ (x∗,λ ∗) (todas las restricciones activas son fuertemente activas; en este caso
M (x∗,λ ∗) es un subespacio vectorial);
(h3) ∇2xxL(x∗,λ ∗,µ∗) es definida positiva sobre el subespacio M (x∗,λ ∗) (condicion suficiente
de segundo orden).
Entonces existen un entorno V ⊂ Rn de x∗, y un entorno W ⊂ R
m+p de 0m+p, tales que para
todo
(β
θ
)∈W el problema parametrizado
(P(β ,θ)) Min f (x)s.a. g(x) ≤ β ,
h(x) = θ ,
presenta en V un unico optimo local, que ademas es estricto, x(β ,θ) ; en particular x(0m,0p) = x∗.Ademas x∗ (·, ·) es de clase C 1 en V, y
∇(β ,θ ) f (x(β ,θ))∣∣(β ,θ )=(0m,0p)
=
(−λ ∗
−µ∗
).
Demostracion. Las condiciones de KKT para el problema (P(β ,θ)) pueden expresarse como
∇ f (x)+∇g(x)λ +∇h(x)µ = 0n,λi (gi (x)−βi) = 0, i = 1, ...,m,
h(x)−θ = 0p,(D.5)
λ ≥ 0m, g(x) ≤ β . (D.6)
Obviaremos por el momento las condiciones dadas en (D.6) y nos centraremos en el sistema de
ecuaciones (D.5). Para β = 0m, y θ = 0p, (x∗,λ ∗,µ∗) es una solucion de dicho sistema. Apli-
caremos entonces el teorema de la funcion implıcita para mostrar que el sistema (D.5) define
localmente a (x,λ ,µ)Tcomo funcion implıcita de (β ,θ)T . Para ello hemos de verificar que la
matriz jacobiana del sistema, con respecto a (x,λ ,µ)T , evaluada en (x∗,λ ∗,µ∗)Tes no singular.
Esta matriz viene dada por:
J :=
∇2xxL(x∗,λ ∗,µ∗) ∇g(x∗) ∇h(x∗)(
λ ∗i ∇gi (x
∗)T)
i=1,...,mdiag(gi (x
∗) , i = 1, ..,m) 0m×p
∇h(x∗)T0p×m 0p×p
,
80
donde(
λ ∗i ∇gi (x
∗)T)
i=1,...,mrepresenta a la matriz cuya i-esima fila es λ ∗
i ∇gi (x∗)T , y diag(gi (x
∗) , i = 1, ..,m)
la matriz diagonal cuyos elementos diagonales son precisamente {gi (x∗) , i = 1, ..,m} .
Supongamos que J es singular, entonces existe(uT ,vT ,wT
)T ∈ Rn+m+p\
{0n+m+p
}tal que
J(uT ,vT ,wT
)T= 0n+m+p. En primer lugar notese que u 6= 0n, pues de lo contrario, el sistema
formado por las n primeras ecuaciones de J(uT ,vT ,wT
)T= 0n+m+p, se traducirıa en ∇g(x∗)v +
∇h(x∗)w = 0n, y del sistema formado por las m siguientes obtendrıamos vi = 0, si i /∈ I (x∗) ,contradiciendo ası (h1) , pues habrıamos encontrado entonces una combinacion lineal nula del
sistema{
∇gi (x∗) , i ∈ I (x∗) ; ∇h j (x
∗) , j = 1,2, ..., p}
.
Veamos que ademas u ∈ M (x∗,λ ∗) . Del bloque formado por las p ultimas ecuaciones se tiene
que ∇h j (x∗)T
u = 0, para todo j = 1, ..., p. Atendiendo de nuevo al bloque de las m ecuaciones
anteriores a estas, tendrıamos λ ∗i ∇gi (x
∗)Tu + gi (x
∗)vi = 0, para todo i = 1, ...,m. Ası pues, si
i ∈ I (x∗) , entonces ∇gi (x∗)T
u = 0, pues estamos suponiendo que λ ∗i > 0, para todo i ∈ I (x∗) .
Entonces, multiplicando a izquierda por uT en
∇2xxL(x∗,λ ∗,µ∗)u+∇g(x∗)v+∇h(x∗)w = 0n,
concluimos que
uT ∇2xxL(x∗,λ ∗,µ∗)u+uT ∇g(x∗)v+uT ∇h(x∗)w = uT ∇2
xxL(x∗,λ ∗,µ∗)u = 0n,
puesto que uT ∇h(x∗)w = 0 (pues uT ∇h(x∗) = 01×p), y uT ∇g(x∗)v = ∑mi=1 uT ∇gi (x
∗)vi = 0 (ya
hemos visto que uT ∇gi (x∗) = 0, si i ∈ I (x∗) , y notese que vi = 0, si i /∈ I (x∗) , como consecuencia
de λ ∗i ∇gi (x
∗)Tu+gi (x
∗)vi = 0).
Hemos encontrado ası u 6= 0n, con u ∈ M (x∗,λ ∗) , y uT ∇2xxL(x∗,λ ∗,µ∗)u = 0n, alcanzando
una contradiccion con (h3) .Una vez comprobado que J es no singular, estamos en condiciones de aplicar el teorema de la
funcion implıcita, concluyendo la existencia de un entorno U ⊂ Rm+p de (λ ∗,µ∗)T , un entorno
V ⊂ Rn de x∗, y un entorno W ⊂ R
m+p de 0m+p, y una unica funcion Φ : W → V ×U, tales
que (Φ(β ,θ) ,β ,θ) resuelve el sistema (D.5) para todo
(β
θ
)∈ W. Ademas, como parte de la
tesis del teorema de la funcion implıcita se obtiene que Φ es de clase C 1 en W. En lo que sigue
representaremos por (x(β ,θ) ,λ (β ,θ) ,µ (β ,θ)) a Φ(β ,θ) . Puesto que λ ∗i > 0, para todo i ∈
I (x∗) , y gi (x∗) < 0, para todo i /∈ I (x∗) , puede tomarse W suficientemente pequeno para garantizar
λ ∗i (β ,θ) > 0, i ∈ I (x∗) (y por tanto gi (x(β ,θ)) = βi), y gi (x(β ,θ)) < βi, si i /∈ I (x∗) , y por tanto
λ ∗i (β ,θ) = 0, i /∈ I (x∗) .
De este modo aseguramos que (D.6) tambien se cumple, y entonces (x(β ,θ) ,λ (β ,θ) ,µ (β ,θ))verifica las condiciones de KKT para el problema (P(β ,θ)) .
Asimismo, como consecuencia de la continuidad de Φ, puede probarse que el punto (x(β ,θ) ,λ (β ,θ) ,µ (β ,θsigue verificando la condicion de optimalidad suficiente presentada en el Teorema 64.
En lo que sigue, ∇x(β ,θ) representara a la matriz, de orden (m+ p)× n, que tiene en su i-
esima columna ∇(x∗i (β ,θ)) , i = 1, ...,n, y ∇β x(β ,θ) y ∇θ x(β ,θ) las matrices que contienen por
columnas los grandientes de cada x∗i (β ,θ) con respecto a β y θ , respectivamente.
Finalmente, aplicando la regla de la cadena concluiremos que
∇(β ,θ ) f (x(β ,θ))∣∣(β ,θ )=0m+p
=
(−λ ∗
−µ∗
).
81
En efecto, de la regla de la cadena obtenemos que ∇(β ,θ ) f (x(β ,θ))∣∣(β ,θ )=0m+p
= ∇x(0m+p)∇ f (x∗) .
Por otro lado, tenıamos que ∇ f (x∗) = −(∇g(x∗)λ ∗ +∇h(x∗)µ∗) . Veamos,
∇x(0m+p)∇g(x∗)λ ∗ =
(λ ∗
0p
), y (D.7)
∇x(0m+p)∇h(x∗)µ∗ =
(0m
µ∗
), (D.8)
y entonces habremos probado que
∇(β ,θ ) f (x(β ,θ))∣∣(β ,θ )=0m+p
= −∇x(0m+p)(∇g(x∗)λ ∗ +∇h(x∗)µ∗) =
(−λ ∗
−µ∗
).
Resta entonces probar (D.7) y (D.8). Comenzaremos estableciendo (D.7) ; esto es
∇β x(0m+p)∇g(x∗)λ ∗ = λ ∗, y
∇θ x(0m+p)∇g(x∗)λ ∗ = 0p,
donde se ha considerado la particion ∇x(0m+p) =
(∇β x(0m+p)
∇θ x(0m+p)
). Obtendremos dichas desigual-
dades derivando respecto de βi y respecto de θ j en el sistema proporcionado por las condiciones
de complementariedad
{λk (β ,θ)(gk (x(β ,θ))−βk) = 0, k = 1, ...,m}.
En efecto, si derivamos en cada una de las ecuaciones respecto de βi, sustituimos en el punto
(β ,θ) = 0m+p y luego sumamos, obtenemos
m
∑k=1
{(∂λk (β ,θ)
∂βi
∣∣∣∣(β ,θ )=0m+p
)gk (x∗)+λ ∗
k
(∂x(β ,θ)
∂βi
∣∣∣∣(β ,θ )=0m+p
)∇gk (x∗)−δik
}
=m
∑k=1
{λ ∗
k
(∂x(β ,θ)
∂βi
∣∣∣∣(β ,θ )=0m+p
)∇gk (x∗)
}−λ ∗
i = 0,
donde δik := 1, i = k, δik := 0, i 6= k (obervese que
(∂λk(β ,θ )
∂βi
∣∣∣(β ,θ )=0m+p
)gk (x∗) = 0, para todo
k, pues lo es trivialmente si k ∈ I (x∗) , y por otro lado, si k /∈ I (x∗) , entonces λk (β ,θ) es cons-
tantemente nulo en un entorno de 0m+p). Hemos probado ası que la coordenada (fila) i-esima de
∇β x(0m+p)∇g(x∗)λ ∗ coincide con λ ∗i , para todo i, y por tanto ∇β x(0m+p)∇g(x∗)λ ∗ = λ ∗.
Por otro lado, derivando en el mismo sistema anterior con respecto a θ j, evaluando esta deri-
vada en (β ,θ) = 0m+p, y sumando obtenemos:
m
∑k=1
{(∂λk (β ,θ)
∂θ j
∣∣∣∣(β ,θ )=0m+p
)gk (x∗)+λ ∗
k
(∂x(β ,θ)
∂θ j
∣∣∣∣(β ,θ )=0m+p
)∇gk (x∗)
}
=m
∑k=1
{λ ∗
k
(∂x(β ,θ)
∂θ j
∣∣∣∣(β ,θ )=0m+p
)∇gk (x∗)
}= 0.
Y por tanto ∇θ x(0m+p)∇g(x∗)λ ∗ = 0p.La igualdad indicada en (D.8) se deduce de h(x(β ,θ)) = θ , para todo (β ,θ) ∈ W, puesto
que ∇(β ,θ )h(x(β ,θ))∣∣(β ,θ )=0m+p
= ∇x(0m+p)∇h(x∗) =(
0m×p
Ip
). Ası pues, ∇x(0m+p)∇h(x∗)µ∗ =
(0m
µ∗).
82
14. Metodos de penalizacion
Sea el problema de optimizacion con una unica restriccion
(P)
{mın f (x)
s.a. h(x) = 0.
Supongamos que este problema se reemplaza por el siguiente problema irrestringido, donde
c > 0 es un numero suficientemente grande,
(Pc)
{mın { f (x)+ ch2(x)}
x ∈ Rn.
Intuitivamente vemos que una solucion x∗ al problema anterior tiene que ser tal que h(x∗)sea proximo a cero (de no ser ası, una pequena disminucion en el valor de h(x∗) producirıa un
decrecimiento de la penalizacion que compensarıa cualquier posible aumento de f (x)).Consideremos, ahora, el problema con una unica restriccion en forma de desigualdad
(P)
{mın f (x)
s.a. g(x) ≤ 0.
Es claro que el termino cg2(x) no constituira una penalizacion adecuada puesto que ‘casti-
gara’ a aquellos puntos factibles que satisfagan g(x) < 0. Una posibilidad razonable consiste en
reemplazar (P) por el problema
mınx∈Rn
f (x)+ cmax{0,g(x)}︸ ︷︷ ︸
≡g+(x)
. (135)
Una dificultad asociada con la penalizacion introducida en (135) estriba en que la funcion
g+(x) = max{0,g(x)} puede no ser diferenciable en los puntos x tales que g(x) = 0. Una alternativa
serıa considerar la penalizacion c(g+(x))2, cuya derivada en cualquier x ∈ R
n es
2cg+(x)g′(x).
En general una funcion de penalizacion adecuada tiene que producir una penalizacion positiva
en los puntos infactibles, y ninguna penalizacion en los puntos factibles. Si las restricciones son
de la forma hi(x) = 0, i = 1, . . . ,m, g j(x) ≤ 0, j = 1, . . . ,r, entonces una funcion de penalizacion
adecuada serıa
α(x) :=m
∑i=1
ψ (hi(x))+r
∑j=1
φ(g j(x)
), (136)
donde ψ y φ son funciones continuas que satisfacen las condiciones
ψ(y) = 0 si y = 0, y ψ(y) > 0 si y 6= 0;
φ(y) = 0 si y ≤ 0, y φ(y) > 0 si y > 0. (137)
Tıpicamente, ψ y φ son de la forma
ψ(y) = |y|p
φ(y) = (max{0,y})p =(y+)p
,
83
donde p es un entero positivo. Ası pues, una funcion de penalizacion usual es la siguiente
α(x) =m
∑i=1
|hi(x)|p +r
∑j=1
(g+
j (x))p
.
Ejemplo 66. Consideremos el problema siguiente:
mınx
s.a. − x+2 ≤ 0.
Sea α(x) = [g+(x)]2, es decir,
α(x) =
{0, si x ≥ 2,
(−x+2)2 , si x < 2.
El mınimo de f + cα se alcanza en 2− 12c
, que tiende al mınimo del problema original x∗ = 2
cuando c → ∞.
Ejemplo 67. Sea el problema
mın x21 + x2
2
s.a. x1 + x2 −1 = 0.
La unica solucion optima de este problema es x∗ =(
12, 1
2
)T, con valor asociado de la funcion
objetivo de 12.
Ahora consideraremos el siguiente problema de penalizacion, con c > 0,
mın {x21 + x2
2 + c(x1 + x2 −1)2}s.a. x = (x1,x2)
T ∈ R2.
Puesto que la funcion objetivo de este problema es convexa, cualquiera que sea c ≥ 0, una condi-
cion necesaria y suficiente de optimalidad es que su gradiente se anule, es decir:
x1 + c(x1 + x2 −1) = 0,
x2 + c(x1 + x2 −1) = 0.
Resolviendo este sistema obtenemos x1 = x2 = c1+2c
, siendo evidente que la (unica) solucion opti-
ma del problema de penalizacion se aproxima a la solucion optima del problema original a medida
que c → ∞.
14.1. Metodos que utilizan funciones de penalizacion exteriores
Nuestro problema es
(P) mın { f (x), s.a. h(x) = 0m, g(x) ≤ 0p}.De momento exigiremos solamente que las funciones involucradas
(f ,hi,g j
)sean continuas. Al
problema (P) le llamaremos primal.
Sea α una funcion continua de la forma que satisfaga las propiedades (137). El metodo basico
de penalizacion intentarıa resolver el problema dual
(D) max {θ(µ), s.a. µ ≥ 0},donde
84
θ(µ) := ınf{ f (x)+ µα(x) : x ∈ Rn} .
El teorema fundamental, que probaremos mas abajo, establece que
ınf{
f (x)| x ∈ Rn, h(x) = 0m, g(x) ≤ 0p
}= sup
µ≥0
θ(µ) = lımµ→∞
θ(µ).
La principal consecuencia de este resultado, es que el valor optimo ’primal’ se puede aproxi-
mar, tanto como se quiera, calculando θ(µ) con µ suficientemente grande. La desventaja de este
tipo de procedimientos es que si xµ es solucion optima del problema con valor optimo θ(µ), xµ
no sera en general ’factible’ para (P). Por esta razon, hemos denominado a estas funciones de
penalizacion exterior.
El teorema fundamental al que nos acabamos de referir se basa en el siguiente lema:
Lema 68. Sean f , h1, . . . ,hm, g1, . . . ,gp funciones continuas (en Rn), y sea α una funcion de
penalizacion (continua), del tipo definido en (136) y (137). Supongamos que, para cada µ > 0,
existe xµ tal que
θ(µ) = f (xµ)+ µα(xµ).
Entonces si representamos por v(P) y v(D) los correspondientes valores optimos de los problemas
duales considerados; es decir, si
v(P) : = ınf{
f (x) : h(x) = 0m, g(x) ≤ 0p
},
v(D) : = sup{θ(µ) : µ ≥ 0} ,
se verifican las proposiciones siguientes:
(1) v(P) ≥ v(D) (desigualdad dual debil);
(2) f (xµ) y θ(µ) son funciones no-decrecientes de µ , y α(xµ) es una funcion no-creciente de
µ .
Demostracion. Sea x ∈ Rn, tal que h(x) = 0m y g(x) ≤ 0p. Obviamente, para este vector x se
verifica α(x) = 0. Cualquiera que sea µ ≥ 0
f (x) ≡ f (x)+ µα(x) ≥ ınf{ f (y)+ µα(y) | y ∈ Rn} ≡ θ(µ),
y por lo tanto,
f (x) ≥ supµ≥0
θ(µ) ≡ v(D).
Como la desigualdad ultima se verifica para todo x factible de (P), tomando ınfimos se deduce
v(P) ≥ v(D), con lo que queda probado (1).
Vamos ahora a probar (2). Sean 0 < λ < µ , y consideremos la definicion de θ(µ) y de xµ . Se
cumplira:
f (xµ)+λα(xµ) ≥ θ(λ ) ≡ f (xλ )+λα(xλ ), (138)
f (xλ )+ µα(xλ ) ≥ θ(µ) ≡ f (xµ)+ µα(xµ). (139)
Sumando estas desigualdades resulta:
(µ −λ )[α(xλ )−α(xµ)
]≥ 0.
85
Puesto que µ > λ , tendra que ser
α(xλ ) ≥ α(xµ),
y α(xµ) ciertamente es una funcion no-creciente de µ .
Sumando y restando µα(xµ) al miembro de la izquierda de (139) se obtiene:
θ(µ)+(λ −µ)α(xµ) = f (xµ)+ µα(xµ)+(λ −µ)α(xµ ) ≥ θ(λ ).
Puesto que µ > λ y α(xµ) ≥ 0, se deduce que θ(µ) ≥ θ(λ ), y θ es no-decreciente.
Finalmente, queda por demostrar f (xµ) ≥ f (xλ ). De no ser ası, se tendrıa f (xµ) < f (xλ ) y
f (xµ)+λα(xµ) < f (xλ )+λα(xµ) ≤ f (xλ )+λα(xλ ),
que contradice (138).
Proposicion 69. Sean (P) y (D) los problemas duales definidos mas arriba, y supongamos que se
verifican las mismas condiciones que en el ultimo lema, ası como que{
xµ : µ ≥ 0}
esta contenido
en un compacto X. Entonces:
(a) v(P) = v(D) (igualdad dual);
(b) v(D) = lımµ↑∞ θ(µ);(c) Cualquier punto de acumulacion de la sucesion xµk
, con µk ↑ ∞, sera solucion optima de
(P), y µkα(xµk) → 0 cuando k → ∞.
Demostracion. (b) Como θ(µ) es no-decreciente
v(D) = supµ≥0
θ(µ) = lımµ↑∞
θ(µ).
(a) Probemos, en primer lugar, que
lımµ→∞
α(xµ) = 0. (140)
Sea y una solucion factible de (P), y sea ε > 0. De acuerdo con nuestra notacion x1 sera un punto
tal que
θ(1) = f (x1)+α(x1).
Sea ahora cualquier µ tal que
µ ≥ 1
ε| f (y)− f (x1)|+2.
Como µ ≥ 2 > 1, se tendra f (xµ) ≥ f (x1), por (2) en el lema previo. Ahora probaremos que
α(xµ) < ε , y ello ciertamente conlleva que lımµ→∞ α(xµ) = 0.
Razonando por reduccion al absurdo, si fuese α(xµ) ≥ ε ,
v(P) ≥ v(D) ≥ θ(µ) = f (xµ)+ µα(xµ)
≥ f (x1)+ µα(xµ) ≥ f (x1)+ | f (y)− f (x1)|+2ε
≥ f (x1)+ f (y)− f (x1)+2ε > f (y).
La desigualdad v(P) > f (y) es imposible, puesto que y is factible para (P).Sea x∗ un punto de acumulacion de
{xµk
}, con µk ↑ ∞ (existira por la hipotesis de que dicho
conjunto esta contenido en un compacto). Sin perdida de generalidad, escribiremos lımk→∞ xµk=
x∗. Entonces:
v(D) = supµ≥0
θ(µ) ≥ θ(µk) = f (xµk)+ µkα(xµk
) ≥ f (xµk).
86
Puesto que xµk→ x∗, y f es continua, tomando lımites en la ultima desigualdad:
v(D) ≥ lımk→∞
f (xµk) = f (x∗). (141)
Puesto que µk ↑ ∞, por (140) se tiene
lımk→∞
α(xµk) = 0 = α(x∗).
Por lo tanto, x∗ es factible para (P), y (141) implica (a).
(c) Finalmente, observemos que
µkα(xµk) = θ(µk)− f (xµk
), (142)
y cuando k → ∞, lımk→∞ θ(µk) = v(D), mientras que lımk→∞ f (xµk) = f (x∗) = v(P) = v(D). De
(142) se desprende
lımk→∞
µkα(xµk) = 0.
Corolario 70. Si α(xµ) = 0 para algun µ , entonces xµ es solucion optima del problema (P).
Demostracion. Si α(xµ) = 0, entonces xµ es factible para (P). Ademas se tiene
v(P) ≥ θ(µ) = f (xµ)+ µα(xµ) = f (xµ),
de donde se sigue que xµ es optima para (P), y v(P) = v(D) = f (xµ).A partir de la proposicion anterior se sigue que la solucion optima xµ al problema de minimizar
f (x)+ µα(x), x ∈ Rn, puede hacerse arbitrariamente proxima a una solucion optima del proble-
ma original sin mas que tomar µ sufientemente grande. Ello motiva un esquema de algoritmo
consistente en resolver una sucesion de problemas de la forma
mın{ f (x)+ µkα(x) | x ∈ Rn} ,
para una sucesion de valores del parametro {µk} que tienda a +∞.
Bajo ciertas condiciones pueden usarse las soluciones a la sucesion de ’problemas penalizados’
para recuperar los multiplicadores de KKT (Karush-Kuhn-Tucker) asociados con las restricciones
del problema original
(P) mın { f (x), s.a. h(x) = 0m, g(x) ≤ 0p}.
Asumamos que la funcion de penalizacion α(.) es la introducida en (136) y (137) y que, adi-
cionalmente, ψ y φ son continuamente diferenciables, con φ ′(y) ≥ 0 para todo y, y φ ′(y) = 0 para
y ≤ 0. Asumamos, tambien, que las condiciones de la proposicion anterior se satisfacen. Puesto
que xµ resuelve el problema de minimizar f (x) + µα(x) el gradiente de esta funcion tiene que
anularse en xµ , esto es:
∇ f (xµ)+m
∑i=1
µψ ′(hi(xµ))∇hi(xµ)+p
∑j=1
µφ ′(g j(xµ))∇g j(xµ) = 0n. (143)
Ahora sea x∗ un punto de acumulacion de la sucesion{
xµk
}, con µk → ∞ a medida que k → ∞. Sin
perdida de generalidad, escribiremos,
87
lımk→∞
xµk= x∗.
Recordando que I(x∗) ={
j| g j(x∗) = 0
}, si j /∈ I(x∗) se tendra g j(x
∗) < 0, y para k suficientemente
grande g j(xµk) < 0, lo que a su vez entrana µkφ ′(g j(xµk
)) = 0, por la hipotesis adicional que se ha
hecho en relacion con φ ′.Ahora (143), con µ = µk, podra reescribirse como:
0n = ∇ f (xµk)+
m
∑i=1
(vik)∇hi(xµk
)+ ∑j∈I(x∗)
(ujk)∇g j(xµk
),
donde vk y uk son vectores con componentes
vik : = µkψ ′(hi(xµk
)), i = 1, . . . ,m, (144)
ujk : = µkφ ′(g j(xµk
)) ≥ 0, j ∈ I(x∗). (145)
Si x∗ es un punto regular, existiran unos multiplicadores ’unicos’ λ ∗i con i = 1, . . . ,m, µ∗
j ≥ 0 con
j ∈ I(x∗), tales que:
0n = ∇ f (x∗)+m
∑i=1
λ ∗i ∇hi(x
∗)+ ∑j∈I(x∗)
µ∗j ∇g j(x
∗).
Puesto que todas las funciones involucradas ( f ,hi,g j,ψ,φ) son continuamente diferenciables, y
xµk→ x∗, a partir de las ultimas igualdades se deduce que:
λ ∗i = lım
k→∞µkψ ′(hi(xµk
)), i = 1, . . . ,m
µ∗j = lım
k→∞µkφ ′(g j(xµk
)), j ∈ I(x∗).
Por lo tanto, para k suficientemente grande, los multiplicadores dados en (144) y (145) pueden ser
usados para estimar los multiplicadores de KKT en el punto optimo x∗. Por ejemplo, si α es la
funcion de penalizacion cuadratica dada por
α(x) =m
∑i=1
h2i (x)+
p
∑j=1
(g′j(x))2,
es decir
ψ(y) = y2 ⇒ ψ ′(y) = 2y,
φ(y) = (y+)2 ⇒ φ ′(y) = 2y+,
entonces
λ ∗i = lım
k→∞2µkhi(xµk
), i = 1, . . . ,m
µ∗j = lım
k→∞2µkg+
j (xµk), j ∈ I(x∗).
88
En particular, observemos que si µ∗j > 0, para un cierto j ∈ I(x∗) entonces g′j(xµk
) > 0 para k
suficientemente grande, lo que significa que la restriccion g j(x) ≤ 0 es violada a lo largo de la
trayectoria que conduce a x∗, y necesariamente:
lımk→∞
g j(xµk) = g j(x
∗) = 0,
porque x∗ si es factible, y por tanto g j(x∗) ≤ 0.
Extendiendo este argumento, si µ∗j > 0, ∀ j ∈ I(x∗), y λ ∗
i 6= 0, con i = 1, . . . ,m, concluiremos
que todas las restricciones de (P) son violadas en los puntos xµkde la trayectoria (¡de la parte
final!).
Ejemplo 71. (revisitado) Recordemos que
xµk=
µk
2µk +1(1,1)T ,
con lo que calculamos
h(xµk) = − 1
2µk +1,
por lo que
vk = 2µkh(xµk) = − 2µk
2µk +1.
Tomando lımites:
λ ∗ = lımk→∞
vk = −1,
que es el multiplicador de Lagrange asociado a la solucion optima:
x∗ = lımk→∞
xµk=
1
2(1,1)T .
89
15. Apendice
15.1. Numero de condicion
Antes de nada, recordemos algunas nociones acerca del numero de condicion y la norma de
una matriz An×n cualquiera. Dada una norma ‖ · ‖ en Rn, su norma matricial inducida se define
como
‖A‖ = max‖x‖=1
‖Ax‖.
El numero de condicion con respecto a una norma matricial ‖ · ‖ se define como
cond(A) = ‖A‖‖A−1‖,
si A es regular; y cond(A) = +∞ si A es singular. El numero de condicion tiene las siguientes
propiedades, entre otras:
cond(A) ≥ 1, ya que ‖A‖‖A−1‖ ≥ ‖A ·A−1‖ = ‖I‖ = 1.
cond(A) = cond(A−1).
cond(λA) = cond(A), para todo λ 6= 0.
Matrices con un numero de condicion cercano a 1 se dice que estan bien condicionadas. En
caso contrario, si su numero de condicion es muy grande decimos que estan mal condicionadas.
El numero de condicion es una medida de la estabilidad o sensibilidad de una matriz (o del sis-
tema linear que representa) a operaciones numericas. Es decir, podemos decir que “desconfiamos”
en los resultados de computaciones con matrices mal condicionadas. Por ejemplo, supongamos
que tenemos un sistema Ax = b, con A ∈ Rn×n no singular y x es una solucion del sistema. Si
perturbamos A a A y b a b y x es la solucion del sistema perturbado Ax = b (suponiendo que A es
“todavıa” invertible), se tiene
‖x− x‖‖x‖ ≈ cond(A)
(‖A− A‖‖A‖ +
‖b− b‖‖b‖
),
(ver [9, Seccion 2.7, pags. 80-81]). Veamos un ejemplo de problema mal condicionado: el sistema[
1,00001 1
1 1
][x1
x2
]=
[2,00001
2
](146)
tiene como solucion (exacta) x = (1,1)T , pero si cambiamos el primer elemento de la derecha de
2,00001 a 2, la solucion cambia drasticamente a x = (0,2)T . Podemos comprobar que el numero de
condicion de la matriz del sistema (con la norma inducida por la norma euclıdea) es muy grande:
cond(A) ≈ 4 ·105.
La norma matricial consistente con la norma euclıdea de una matriz A viene dada por
‖A‖ =√
ρ(AT A),
donde ρ(AT A) es el radio espectral de la matriz AT A, cuyo valor es el maximo de los valores
propios de la matriz AT A. Si A es una matriz simetrica y λ1 ≤ . . . ≤ λn son sus valores propios
(reales), se tendra que
‖A‖ =√
ρ(A2) =√
max{|λ1|2, |λn|2} = max{|λ1|, |λn|}.
90
Obviamente, si A es simetrica y definida positiva, ‖A‖ = λn, y su numero de condicion sera
cond(A) = ‖A‖‖A−1‖ = λn ·1
λ1=
λn
λ1.
91
Bibliografıa
[1] J. ABADIE, On the Kuhn-Tucker Theorem, Nonlinear Programming, J. Abadie (Ed.), 1967.
[2] R. BARBOLLA, E. CERDA Y P. SANZ, Optimizacion Matematica: Teorıa, Ejemplos y Con-
traejemplos, Espasa Calpe, Madrid, 1991.
[3] M.S. BAZARAA, H.D. SHERALI Y C.M. SHETTY, Nonlinear Programming: Theory and
Algorithms, John Wiley & Sons, New York, 1993.
[4] D.P. BERTSEKAS, Nonlinear Programming, Athena Scientific, Belmont, Massachusetts,
1995.
[5] J.F. BONNANS, J.C. GILBERT, C. LEMARECHAL, C. SAGASTIZABAL, Numerical optimi-
zation: Theoretical and practical aspects, Universitext, Springer-Verlag, Berlin, 2003.
[6] R.W. COTTLE A Theorem of Fritz John in Mathematical Programming, RAND Corporation
Memo, RM-3858-PR, 1963.
[7] GY. FARKAS Theorie der einfachen Ungleichungen, J. Reine Angew. Math., 124, pp.1-27,
1901.
[8] R. FLETCHER, Practical Methods of Optimization (2nd ed.), John Wiley and Sons, New York,
1987.
[9] G.H. GOLUB, C.F. VAN LOAN, Matrix computations, Johns Hopkins University Press, Bal-
timore, MD, 1996.
[10] M. GUIGNARD, Generalized Kuhn-Tucker Conditions for Mathematical Programming Pro-
blems in a Banach Space, SIAM J. Control, 7, pp. 232-241, 1969.
[11] F. JOHN, Extremum Problems with Inequalities as Side Conditions, Studies and Essays,
Courant Anniversary Volume, K.O. Friedrichs, O.E. Neugebauer, and J.J. Stoker (Ed.), Wiley-
InTerscience, New York, 1948.
[12] H.W. KUHN Y A.W. TUCKER, Nonlinear programming, Proc. 2nd Berkeley Symposium
on Mathematical Statistics and Probability, J. Neyman (Ed.), University of California Press,
Berkeley, Calif., 1951.
[13] D.G. LUENBERGER, Programacion Lineal y No Lineal, Addison-Wesley Iberoamericana,
Mexico, 1989.
[14] O.L. MANGASARIAN Y S. FROMOVITZ, The Fritz-John Necessary Optimality Conditions
in the Presence of Equality and Inequality Constraints, J. Mathematical Analysis and Ap-
plications, 17, pp. 37–47, 1967.
[15] G.P. MCCORMICK, Nonlinear Programming: Theory, Algorithms and Applications, John
Wiley & Sons, New York, 1983.
[16] K. I. M. MCKINNON, Convergence of the Nelder–Mead Simplex Method to a Nonstationary
Point, SIAM J. on Optimization, 9 (1998), n.1, pp. 148–158.
92
[17] J. NOCEDAL, J. WRIGHT, Numerical Optimization, Springer Series in Operations Research,
Springer Verlag, New York, 1999.
[18] D.W. PETERSON, A review of constraint qualifications in finite-dimensional spaces, SIAM
Review, vol. 15 n.3, 1973.
[19] A. PREKOPA, On the development of optimization theory, American Mathematical Monthly,
87 (1980), pp. 527-542.
[20] R.T. ROCKAFELLAR, Convex Analysis, Princeton University Press, Princeton, NJ, 1970.
[21] Y.J. ZHU, Generalizations of some fundamental theorems on linear inequalities, Acta Math.
Sinica, 16 (1966), pp. 25-40.
93