ispg, institut galil´ee d´epartement de math´ematiques...

191
ISPG, Institut Galil´ ee epartement de math´ ematiques Analyse num´ erique: optimisation Promotion 2006-2009 Sp´ ecialit´ e MACS Optimisation continue et introduction au contrˆole optimal PGD Math´ ematiques Appliqu´ ees Centrale Marseille (Promotion 2005) Olivier Lafitte 12 1 Institut Galil´ ee, Universit´ e de Paris XIII 2 Commissariat ` a l’Energie Atomique, Centre d’´ etudes de Saclay, olivier.lafi[email protected]

Upload: others

Post on 19-Oct-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

ISPG, Institut Galilee

Departement de mathematiques

Analyse numerique: optimisation

Promotion 2006-2009

Specialite MACS

Optimisation continue et introduction au controle optimal

PGD Mathematiques Appliquees

Centrale Marseille (Promotion 2005)

Olivier Lafitte12

1Institut Galilee, Universite de Paris XIII2Commissariat a l’Energie Atomique, Centre d’etudes de Saclay, [email protected]

Page 2: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

2

Page 3: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

Contents

1 Introduction et exemples 7

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Euler-Legendre 19

2.1 Condition generale d’existence (suffisante) . . . . . . . . . . . . . . . . 19

2.2 Condition d’Euler, condition de Legendre . . . . . . . . . . . . . . . . 20

2.2.1 Derivabilite au sens de Frechet et au sens de Gateaux . . . . . 20

2.2.2 Conditions necessaires d’optimalite. Conditions suffisantes d’optimalite 22

2.3 Inequation d’Euler dans un probleme avec contraintes . . . . . . . . . 23

2.4 Multiplicateurs de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . 24

2.4.1 L’inegalite de Hardy. . . . . . . . . . . . . . . . . . . . . . . . . 31

2.4.2 Probleme mixte . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.4.3 Le probleme des entrepots . . . . . . . . . . . . . . . . . . . . . 36

2.4.4 Demonstration du lemme de Kantorovich . . . . . . . . . . . . 37

2.4.5 Calcul de la constante optimale de Poincare . . . . . . . . . . . 38

3 Calcul des variations 41

3.1 Introduction et un peu d’histoire . . . . . . . . . . . . . . . . . . . . . 41

3.2 Problemes isoperimetriques . . . . . . . . . . . . . . . . . . . . . . . . 42

3.2.1 Egalite d’Euler-Lagrange . . . . . . . . . . . . . . . . . . . . . 42

3.2.2 Derivee de Frechet et de Gateaux, inegalite d’Euler-Lagrange . 43

3.2.3 Egalite d’Euler-Lagrange pour une contrainte integrale . . . . . 44

3.2.4 Les problemes de Bolza . . . . . . . . . . . . . . . . . . . . . . 46

3.3 Les equations d’Euler pour les problemes de la mecanique . . . . . . . 46

3.4 Formulation hamiltonienne . . . . . . . . . . . . . . . . . . . . . . . . 47

4 Programme convexe 51

4.1 Fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.2 Minimisation de fonctionnelles convexes . . . . . . . . . . . . . . . . . 56

4.3 Fonctionnelles quadratiques. Formulations variationnelles. . . . . . . . 58

4.4 Notion de point selle, et theoreme de Kuhn et Tucker . . . . . . . . . 59

4.4.1 Introduction a la notion de Lagrangien . . . . . . . . . . . . . . 59

4.4.2 Point selle, lagrangien, et minimisation de fonctionnelle convexe 61

4.4.3 Principe du Min-Max . . . . . . . . . . . . . . . . . . . . . . . 64

3

Page 4: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

4 CONTENTS

5 Introduction au controle optimal 67

5.1 Le probleme general . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.2 Traitement abstrait du cas general . . . . . . . . . . . . . . . . . . . . 68

5.3 Le cas particulier du controle distribue pour le probleme de Dirichlet . 69

5.3.1 Systeme gouverne par un probleme de Neumann . . . . . . . . 70

5.4 Equation de Hamilton-Jacobi-Bellmann . . . . . . . . . . . . . . . . . 71

6 Approximation de solutions 77

6.0.1 Algorithme de relaxation . . . . . . . . . . . . . . . . . . . . . 77

6.1 Algorithmes de descente . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.2 Cas classiques d’algorithmes de descente . . . . . . . . . . . . . . . . . 81

6.2.1 Pas optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.2.2 Pas de Curry . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.2.3 Pas de Goldstein . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.2.4 Pas de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.3 Resultats de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.4 Algorithmes de gradient . . . . . . . . . . . . . . . . . . . . . . . . . . 87

6.4.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

6.4.2 L’algorithme de gradient a pas optimal . . . . . . . . . . . . . . 87

6.4.3 Algorithme de gradient a pas constant . . . . . . . . . . . . . . 89

6.4.4 Taux de convergence de l’algorithme du gradient en dimensionfinie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

6.4.5 Algorithme de gradient reduit . . . . . . . . . . . . . . . . . . . 93

6.5 Algorithmes de gradient conjugue . . . . . . . . . . . . . . . . . . . . . 96

6.5.1 Exemple en dimension 2 . . . . . . . . . . . . . . . . . . . . . . 96

6.5.2 Algorithme de directions conjuguees . . . . . . . . . . . . . . . 97

6.5.3 Algorithme du gradient conjugue . . . . . . . . . . . . . . . . . 100

6.5.4 Un exemple en dimension 3 . . . . . . . . . . . . . . . . . . . . 106

6.6 Descente pseudo-conjugue . . . . . . . . . . . . . . . . . . . . . . . . . 107

6.7 Methode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

6.8 Algorithmes d’optimisation avec contraintes . . . . . . . . . . . . . . . 113

6.8.1 Le gradient avec projection . . . . . . . . . . . . . . . . . . . . 113

6.8.2 Penalisation des contraintes . . . . . . . . . . . . . . . . . . . . 115

6.8.3 Algorithme d’Uzawa . . . . . . . . . . . . . . . . . . . . . . . . 117

7 Introduction a la discretisation 119

7.1 Les differences finies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

7.2 Les elements finis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

8 Problemes d’examens 127

8.1 Probleme des splines: texte du probleme de 1999 . . . . . . . . . . . . 127

8.2 Texte du probleme 2000 . . . . . . . . . . . . . . . . . . . . . . . . . . 135

8.3 Texte du probleme 2000-2001 . . . . . . . . . . . . . . . . . . . . . . . 137

8.3.1 Partie I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

8.3.2 Partie II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

8.4 Examen Optimisation Marseille 2003 . . . . . . . . . . . . . . . . . . . 141

8.4.1 Partie generale . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

8.4.2 Regularite L2 et regularite H1 . . . . . . . . . . . . . . . . . . 142

Page 5: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

CONTENTS 5

8.4.3 Calcul explicite avec un point . . . . . . . . . . . . . . . . . . . 142

8.5 Examen maitrise juin 03 . . . . . . . . . . . . . . . . . . . . . . . . . . 143

8.5.1 Partie I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

8.5.2 Partie II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

8.5.3 Partie III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

8.5.4 Partie IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

8.5.5 Partie V . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

8.6 Rattrapage 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

8.7 Epreuve de Septembre 2002 . . . . . . . . . . . . . . . . . . . . . . . . 147

8.8 Examen juin maitrise 2001 . . . . . . . . . . . . . . . . . . . . . . . . . 148

8.8.1 Exercice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

8.8.2 Exercice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

8.9 Epreuve de juin 2003 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

8.9.1 Exercice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

8.9.2 Exercice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

8.10 Examen Analyse Fonctionnelle Appliquee 2001 . . . . . . . . . . . . . 152

8.11 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

8.12 Maıtrise, annee 2001-2002 . . . . . . . . . . . . . . . . . . . . . . . . . 155

8.13 Examen rattrapage optimisation EGIM: Mai 2006 . . . . . . . . . . . 157

8.14 Examen maitrise septembre 2004 . . . . . . . . . . . . . . . . . . . . . 159

8.14.1 Exercice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

8.14.2 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

8.15 Partiel Decembre 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

8.15.1 Enonce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

8.15.2 Correction (redigee par B. Merlet) . . . . . . . . . . . . . . . . 162

8.16 Examen janvier 2006 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

8.17 Examen centrale Marseille 2007 . . . . . . . . . . . . . . . . . . . . . . 167

8.18 Examen Optimisation 2006 . . . . . . . . . . . . . . . . . . . . . . . . 168

8.19 Examen optimisation 2007 (janvier) . . . . . . . . . . . . . . . . . . . 169

9 Resume de cours (auteure Laurence Halpern) 173

9.1 Resultats d’existence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

9.1.1 Theoreme de Weierstrass . . . . . . . . . . . . . . . . . . . . . 173

9.1.2 Cas convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

9.2 Rappels de calcul differentiel . . . . . . . . . . . . . . . . . . . . . . . 174

9.2.1 Derivees premieres . . . . . . . . . . . . . . . . . . . . . . . . . 174

9.2.2 Derivees secondes . . . . . . . . . . . . . . . . . . . . . . . . . . 175

9.2.3 Formules de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . 175

9.3 Caracterisation des extrema . . . . . . . . . . . . . . . . . . . . . . . . 177

9.3.1 Equation d’Euler, cas general . . . . . . . . . . . . . . . . . . . 177

9.3.2 Inequation d’Euler, cas convexe . . . . . . . . . . . . . . . . . . 177

9.3.3 Multiplicateurs de Lagrange, cas general . . . . . . . . . . . . . 179

9.3.4 contraintes egalites . . . . . . . . . . . . . . . . . . . . . . . . . 179

9.3.5 contraintes inegalites . . . . . . . . . . . . . . . . . . . . . . . . 180

9.4 Lagrangien et point selle . . . . . . . . . . . . . . . . . . . . . . . . . . 181

9.4.1 Point selle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

9.4.2 Theorie de Kuhn et Tucker . . . . . . . . . . . . . . . . . . . . 182

9.5 Methodes de descente. Problemes sans contraintes . . . . . . . . . . . 183

Page 6: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6 CONTENTS

9.5.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1839.5.2 Methode de relaxation . . . . . . . . . . . . . . . . . . . . . . . 1839.5.3 Methode du gradient . . . . . . . . . . . . . . . . . . . . . . . . 184

9.6 Estimations et convergence dans le cas quadratique . . . . . . . . . . . 1849.6.1 Methode a pas optimal . . . . . . . . . . . . . . . . . . . . . . 1859.6.2 Methode de gradient a pas constant . . . . . . . . . . . . . . . 185

9.7 Methode du gradient conjugue . . . . . . . . . . . . . . . . . . . . . . 1859.7.1 Principe de la methode . . . . . . . . . . . . . . . . . . . . . . 1869.7.2 Ecriture comme algorithme de descente . . . . . . . . . . . . . 1869.7.3 Analyse de convergence . . . . . . . . . . . . . . . . . . . . . . 186

9.8 Methodes pour les problemes avec contraintes . . . . . . . . . . . . . . 1879.8.1 Methode de gradient projete a pas variable . . . . . . . . . . . 1879.8.2 Algorithme d’Uzawa . . . . . . . . . . . . . . . . . . . . . . . . 188

Page 7: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

Chapter 1

Introduction et exemples

1.1 Introduction

Le but de ce cours est d’introduire quelques unes des methodes de la theorie del’optimisation. La methode employee dans ce cours consiste essentiellement a presenterune suite (non exhaustive) d’exemple simples issu en majeure partie de la physiqueet de l’economie pour mettre en valeur une question que l’on se pose dans le cadre del’optimisation: trouver la meilleure quantite ou le meilleur choix pour un problemelie a la physique ou a l’economie. Ce cours presentera peu de resultats (les theoremesprincipaux sont peu nombreux). Nous avons essaye de traiter explicitement ici desexemples modeles simples, qui peuvent nous permettre d’introduire des notions et depouvoir les generaliser.

Les theories liees a l’optimisation sont tres variees. On rencontre par exemple(et cela est le plus courant) des problemes de minimisation sons contraintes, desresolutions d’equations aux derivees partielles sous forme variationnelle, des problemesde controle, des problemes de commande. Elles ont en commun la minimisation d’uncritere, c’est-a-dire d’une fonction chargee de mesurer le cout d’un probleme, enfonction de variables dites d’etat (caracterisant la position d’une particule par exem-ple) et de variables dites de commande (qui modelisent les parametres par lesquelson peut agir sur un systeme). Nous evoquerons ainsi dans le cours la notion de com-mande optimale, dans les cas ou, a partir de variables d’etat x et de commandes u,on souhaite soit minimiser un critere, soit atteindre un etat fixe.

Un des atouts de l’optimisation est la facilite d’obtention d’algorithmes numeriquesqui convergent, et nous en aborderons certains: algorithmes d’optimisation sans con-trainte, comme un algorithme ou on recherche un optimum surN variables en resolvant,a chaque etape, N algorithmes d’optimisation sur chaque variable, des algorithmes ditde gradient (a pas fixe ou a pas optimal, c’est a dire une generalisation de la methodede Newton de recherche de zeros), des algorithmes de minimisation avec contraintes,l’algorithme d’Uzawa.

Pour l’instant, nous allons donner une liste non exhaustive d’exemples, provenantdes references [2], [3], [1]. Certains pourront etre resolus dans cette introduction sansutiliser de theoremes nouveaux, d’autres non, et nous voulons, dans la suite de cecours, pouvoir resoudre les problemes abordes ici.

Les exemples abordes dans cette introduction peuvent etre lus apres le cours cor-respondant, ils sont faits pour motiver les theoremes du cours d’optimisation et decalcul des variations.

7

Page 8: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8 CHAPTER 1. INTRODUCTION ET EXEMPLES

On peut, tres sommairement, diviser les resultats en conditions necessaires et enconditions necessaires et suffisantes d’optimalite. Par exemple, x2 est minimum enx = 0, ou sa derivee s’annule, mais la derivee de 1−x2 est dans le meme cas, alors que1 − x2 est maximum en x = 0. La condition “la derivee s’annule” est une conditionnecessaire de minimum, mais n’est pas une condition suffisante.

1.2 Exemples

1. Resolution d’un systeme matriciel.

Soit A une matrice symetrique N×N definie positive et b un vecteur de IRN . Lasolution du systeme lineaire Ax = b est donnee par le point de minimum suivant

infx∈IRN

1

2(Ax, x) − (b, x)

Preuve On designe par x0 la solution de Ax = b. On verifie alors que

1

2(A(x − x0), x− x0) =

1

2(Ax, x) − 1

2(b, x) − 1

2(Ax, x0) +

1

2(b, x0).

Comme (Ax, x0) = (x, tAx0) = (x,Ax0) = (x, b) car A est symetrique

1

2(Ax, x) − (b, x) = −1

2(b, x0) +

1

2(A(x− x0), x− x0).

On diagonalise A qui est symetrique definie positive, on ecrit x = x0 +∑

i yiei,ou les ei sont les vecteurs orthonormes qui diagonalisent A, alors

1

2(Ax, x) − (b, x) = −1

2(b, x0) +

1

2

i=N∑

i=1

λiy2i .

L’expression ci-dessus est minimum lorsque tous les yi sont nuls, car tous les λisont strictement positifs, donc lorsque x = x0. Le resultat est demontre.

Remarque Lorsque la matrice A n’est pas symetrique, l’expression ci-dessusexiste. La matrice A peut alors etre remplacee par A = 1

2(A+ tA) et ce sont les

proprietes de A qui sont importantes et non celles de A.On resume dans:

Proposition Le minimum de la fonction 12(Ax, x)−(b, x) est unique et atteint

en x0 = (12 (A+At))−1b si 1

2 (A+At) est definie positive

2. Projection sur un convexe.

Soit K un ensemble convexe ferme dans un espace de Hilbert V . On appelleprojection de u0 sur K, et on note p(u0), le point de K le plus proche de u0, soit||p(u0)−u0|| = infv∈K ||v−u0||. On note que, de la relation ∀v ∈ K, ||v−u0||2 ≥||p(u0) − u0||2, et, plus precisement de ∀v ∈ K,∀λ ∈]0, 1[, ||λv + (1 − λ)p(u0) −u0||2 ≥ ||p(u0) − u0||2, on tire

Page 9: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

1.2. EXEMPLES 9

λ2||v − p(u0)||2 + 2λ(v − p(u0), p(u0) − u0) ≥ 0.

Divisant par λ et faisant tendre λ vers 0, on en deduit l’inegalite

(v − p(u0), p(u0) − u0) ≥ 0∀v ∈ K.

Dans le plan, cette egalite implique que (v − p(u0), u0 − p(u0)) ≤ 0, c’est-a-direl’angle entre les vecteurs joignant la projection a u0 et a un element quelquonquede K est obtus.

Reciproquement, si cette inegalite est verifiee, alors

||v−u0||2 = ||v−p(u0)||2+||p(u0)−u0||2+2(v−p(u0), p(u0)−u0) ≥ ||v−p(u0)||2.

Il y a unicite de la projection. En effet, si on designe par v0 une autre projection,on a

(v − v0, u0 − v0) ≤ 0, (v − p(u0), u0 − p(u0)) ≤ 0.

Dans la premiere inegalite on considere v = p(u0) et dans la deuxieme on con-sidere v = v0. Alors

(p(u0) − v0, u0 − v0) ≤ 0, (−v0 + p(u0),−u0 + p(u0)) ≤ 0.

Additionnant les deux egalites, on obtient

(p(u0) − v0, p(u0) − v0) ≤ 0

ce qui implique v0 = p(u0). Il y a unicite de la projection sur un convexe. Ceciest la redemonstration du theoreme de Hahn-Banach.On resume dans

Proposition Si K est un convexe ferme, le minimum de la distance de x a Kest atteint en un unique point p(x), qui s’appelle la projection de x sur K et quiest caracterise par l’inegalite

∀y ∈ K, (y − p(x), x− p(x)) ≤ 0.

3. Un exemple simple avec contraintes.

On veut trouver min(12v

2 − cv) sous la contrainte v ≤ b. Pour cela, on voit que,si b ≤ c, minv≤b(

12v

2 − cv) = (12v

2 − cv)|v=b et si b > c, minv≤b(12v

2 − cv) =(12v

2 − cv)|v=c. Dans le premier cas, la contrainte est saturee, dans le deuxiemecas elle est insaturee.

Page 10: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

10 CHAPTER 1. INTRODUCTION ET EXEMPLES

4. Minimisation quadratique dans IR2. Cet exemple est caracteristique des methodesqui seront developpees dans le cours: il aborde les contraintes de type egaliteainsi qu’inegalite en dimension finie, dans le cas ou les expressions sont tressimples. Il aborde aussi des methodes qui seront developpees sous le nom degradient reduit.

On introduit la fonctionnelle J(y1, y2) = 12(y2

1 + y22) − b1y1 − b2y2 et on cherche

a resoudre les deux problemes

inf J(y), a.y = a1y1 + a2y2 = 0

inf J(y), a1y1 + a2y2 ≤ 0

Dans le premier cas, on a plusieurs methodes a notre disposition. La plusevidente est de supposer a1 6= 0, ainsi y1 = −a2

a1y2, et on se ramene a

inf1

2(1 +

a21

a22

)y21 −

b2a1 − b1a2

a1y2

qui est atteint au point y2 = a1b2a1−b1a2a21+a22

et donc y1 = −a2b2a1−b1a2a21+a22

.

On peut simplifier les expressions en verifiant que, dans y2, le coefficient de b2s’ecrit avec a2

1/(a21 + a2

2), ainsi

(y1, y2) = (b1, b2) −a1b1 + a2b2a2

1 + a22

(a1, a2).

Cette methode n’est pas instructive, mais son resultat l’est: le minimum estobtenu au point b+ λa. Le reel λ est nul lorsque a.b = 0.

Distinguons les cas b.b = 0 et a.b 6= 0. Notons avant cela que le minimumabsolu de la fonctionnelle se situe au point b. Si b est dans la contrainte, alorsce minimum absolu est atteint sur la contrainte, et donc le probleme

inf J, a.y = 0

admet comme solution y = b, de meme que le probleme

inf J, a.y ≤ 0.

Si b n’est pas dans la contrainte egalite, on designe par b0 la projection de b sur ladroite a.y = 0. On a bien sur J(y) = −1

2b2 + 1

2(y−b)2, donc minimiser J revientdonc a minimiser la distance de b a la droite a.y = 0. Le point qui realise ceciest bien sur y = b0. On verifie alors que y = b+ (b0 − b), et, avec b0 − b = −λa,on a l’egalite y = b − λa. Le minimum est solution de y − b + λa = 0, ce quisera dans le cours l’egalite de definition du point selle et du multiplicateur deLagrange. On note que, par b0.y = 0, on a λ = a.b

a2.

On etudie maintenant la contrainte inegalite a.y ≤ 0.

Si on considere b tel que a.b ≤ 0, on n’a besoin de rien d’autre, le minimumabsolu est dans l’espace des contraintes, donc le minimum de la fonctionnelle

Page 11: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

1.2. EXEMPLES 11

est atteint en y = b. On suppose donc que b est dans la zone a.y > 0. Grace al’egalite b0 = b−λa et a l’egalite b0.a = 0, on trouve que λa2 > 0, et donc λ > 0et le minimum est en b0.

Lorsque on suppose que b n’est pas dans la zone a.y > 0, on trouve que b0 = b−λaavec λa2 ≤ 0 et λ ≤ 0. Le minimum est alors obtenu en b et on a b = b+ 0a.

On voit sur cet exemple et sur la notion de projection que l’on forme y− b+ λaet a.y = 0. Lorsque la resolution de ce systeme conduit a λ ≤ 0, on dit que lacontrainte est insaturee et on a y = b comme minimum. Le point de minimumabsolu de la fonction J se trouve dans l’espace des contraintes. Lorsque laresolution du systeme conduit a λ ≥ 0 , la contrainte est saturee et y = b − λaconvient.

5. Soit f une application de IRM dans IRN . On appelle solution de l’equationf(x) = 0 une solution du probleme

infx∈IRM

|f(x)|2.

Par exemple, soit B une matrice N ×M , et c un element de IRN . On appellesolution de Bx = c au sens des moindres carres (remarquons qu’une solution deBx = c n’existe pas forcement) un point de minimum de |Bx− c|2. Nous allonsidentifier de telles solutions.

En effet, on cherche un point minimum de (Bx−c,Bx−c) = (Bx,Bx)−(c,Bx)−(Bx, c) + (c, c), c’est a dire de (tBBx, x) − 2(tBc, x) + (c, c). La matrice tBBest symetrique, et son noyau est le noyau de B (ceci car tBBx = 0 implique|Bx|2 = 0, soit Bx = 0).

On verifie que ImtBB ⊂ ImtB. De plus, pour y ∈ (ImtB)⊥, on a

∀x ∈ IRN , (y, tBx) = 0

ce qui implique (By, x) = 0∀x ∈ IRN . Ainsi By = 0, donc y ∈ kerB. Lareciproque est claire. Par le theoreme du rang on a dim(ker tBB)+dim(ImtBB) =M = dim(kerB)+dim(ImB) = M . On trouve donc que l’image de tBB est con-fondue avec l’image de tB. L’equation donnant le minimum etant tBBx = tBc,on en conclut que x existe necessairement, puisqu’il existe d ∈ IRN tel quetBBd = tBc. Le systeme d’equations ainsi ecrit s’appelle le systeme d’equationsnormales. On remarque que c’est un espace affine passant par d dirige parker tBB = kerB.Une autre methode plus directe: on diagonalise tBB dans une base orthonormee, les valeurs propresetant 0 ≤ λ1 ≤ ... ≤ λM associees aux vecteurs propres (e1, ...eM). Alors on introduit p (eventuellementil n’existe pas) tel que λp = 0 et λp+1 > 0. Alors (e1, ...ep) forme une base de ker tBB, donc de kerB.On constate alors qu’en ecrivant x =

P

i yiei, on trouve

(tBBx, x) − 2(tBc, x) =X

i>p

λiy2i − 2

X

i

(tBc, ei)yi.

Verifiant alors que pour i ≤ p, (tBc, ei) = (c,Bei) = 0, on en deduit que la fonction ne depend que desyi, i > p. On applique le resultat precedent et l’ensemble des solutions est un espace affine dirige parkerB.

Ce resultat se retrouve en considerant la projection de c sur l’hyperespace ImB. Alors on realise le

minimum de la distance au sous espace ferme ImB. Soit p(c) cette projection. Le minimum de |Bx− c|

Page 12: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

12 CHAPTER 1. INTRODUCTION ET EXEMPLES

est alors l’ensemble des points tels que Bx = p(c). En effet, par caracterisation de la projection, on

a, pour tout z ∈ ImB, (Bx, z) = (p(c), z) = (c, z), ce qui equivaut a ∀y, (Bx,By) = (p(c), By), soit

utilisant c − p(c) orthogonal a ImB, (tBBx, y) − (tBc, y) pour tout y. On verifie immediatement que

si x0 verifie Bx0 = p(c), alors (B(x− x0), B(x− x0)) = |Bx− c|2 + (Bx0, Bx0) − (c, c), ce qui indique

le resultat de minimum.

6. Recherche de la plus petite valeur propre d’une matrice symetrique.

Proposition La plus petite valeur propre d’une matrice symetrique A de IRN×IRN est le minimum du quotient de Rayleigh:

λ1 = infv∈IRN ,||v||=1

(Av, v) = infIRN−0

(Av, v)

(v, v).

La matrice A est symetrique donc diagonalisable. On ecrit (Av, v) =∑

i λiv2i .

Pour∑

v2i = 1, on trouve (Av, v) ≥ λ1, avec egalite si vi = 0 si λi 6= λ1. Ceci

permet de conclure sur l’existence d’un inf, qu’il est atteint, et que le minimumest λ1. Le lieu des points realisant le minimum est la sphere unite dans le sous-espace propre associe a λ1. Quant a l’autre terme de l’egalite, il provient du faitque v

(v,v)12

est de norme 1 lorsque v 6= 0.

7. Gain minimum pour un turfiste.

On suppose qu’un tierce presente N chevaux au depart, chacun etant cote avecun rapport ri. Montrer que la condition necessaire et suffisante pour qu’unjoueur recupere au moins sa mise est

i1ri

≤ 1.

Posons les inconnues de ce probleme. On suppose que le joueur joue xi sur chaque cheval. Son gainest alors yi0 = xi0ri0 si le cheval i0 l’emporte. Pour simplifier notre analyse, on suppose

P

xi = 1 (onmise 1) et on veut qu’il existe une combinaison de sorte que chaque yi soit plus grand que 1. Ainsi ona

X

i

yi

ri= 1, yi ≥ 1∀i ⇒ 1 =

X yi

ri≥

X

i

1

ri.

Ainsi la condition 1 ≥P 1

riest necessaire pour que le gain soit au moins egal a la mise.

Reciproquement, on suppose 1 ≥ P 1ri

, et on veut yi pour tout i plus grand que i. Le cas limite

est obtenu pour tous les yi egaux, et cette valeur commune est yi = 1P

1

rp

, ce qui impose de choisir

xi = 1ri

1P

1

rp

. Dans ce cas, le gain est 1P

1

rp

pour tout i; il est donc plus grand que 1.

8. Un exemple de programme lineaire en recherche operationnelle

On considere M entrepots, chacun presentant si unites d’un stock. On connaitles N destinations, et on doit livrer rj unites a la destination j. Les couts detransport unitaire cij de l’entrepot i a la destination j sont connus, et on lesappelle cij . Comment livrer au meilleur cout?

Pour formaliser le probleme, on appelle vij la quantite livree a j a partir del’entrepot i. On a comme conditions:

vij ≥ 0,

j=N∑

j=1

vij ≤ si,i=M∑

i=1

vij ≥ rj

Page 13: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

1.2. EXEMPLES 13

et le cout de livraison est∑

i,j cijvij. On cherche l’inf de cette fonction.

Notons tout d’abord que, si l’on designe par cj le min pour i = 1..M des cij , ontrouve

i,j

cijvij ≥j=N∑

j=1

cj(

i=M∑

i=1

vij) ≥∑

j

cjrj.

Ainsi l’inf existe et est strictement positif. La resolution precise de cet exem-ple ne peut etre faite maintenant, nous renvoyons a la section 2.4.3. Notonssimplement que les points ou le minimum doit etre etudie sont ’au bord’ descontraintes (’est-a-dire les inegalites deviennent des egalites).

Dans la suite des exemples de cette partie, on ne considere plus comme inconnuesdes vecteurs, mais les inconnues deviennent des fonctions. La fonction a min-imiser s’appelle alors une fonctionnelle, et la theorie correspondante s’appelle lecalcul des variations. Ce sont parmi les plus anciens problemes etudies par lesmecaniciens.

9. Equilibre d’un fil pesant.

On se place dans le champ de pesanteur ~g = −g~j, et on se donne deux points(x0, y0) et (x1, y1). On se place dans une situation suffisamment simple pourqu’un fil place entre ces deux points puisse etre represente par y(x), avec y(x0) =y0, y(x1) = y1. La longueur de ce fil est supposee fixe, egale a l, ce qui se traduitpar l’egalite (basee sur la notion d’abscisse curviligne, s = 0 au point (x0, y0) ets = l au point (x1, y1))

l =

∫ l

0ds =

∫ x1

x0

(1 + (y′(x))2)12 dx.

Il est en equilibre lorsque son energie potentielle est minimum. L’origine del’energie potentielle est placee en y1. Alors, si on designe par ρ sa masse lineique,l’energie potentielle du fil est

ρg

∫ l

0(y(x(s)) − y1)ds = −ρgy1l + ρg

∫ x1

x0

y(x)(1 + (y′(x))2)12 dx.

L’energie totale, qui est constante, fait intervenir la vitesse, qui est donc nulle.On a donc le probleme

infy∈C0

∫ x1

x0

y(x)(1 + (y′(x))2)12 dx

sous les contraintes∫ x1

x0

(1 + (y′(x))2)12dx = l, y(x0) = y0, y(x1) = y1.

10. Le probleme de Pappus, ou comment Didon a pu construire Carthage.

“Parmi toutes les courbes de longueur donnee joignant (0, 0) a (ξ, 0), trouvercelle qui conduit a l’aire maximum”

Page 14: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

14 CHAPTER 1. INTRODUCTION ET EXEMPLES

On se donne l’equation de cette courbe y = v(x). On a les contraintes

v ≥ 0, v(0) = v(ξ) = 0,

∫ ξ

0(1 + (v′(x))2)

12 dx = l

et on recherche a minimiser −∫ ξ

0 v(x)dx. Notons ici l’emploi du signe − lorsqu’ona a trouver un maximum et non un minimum.

11. Principe de Fermat et de Huyghens

On veut trouver la trajectoire reliant en temps minimum les points (x0, y0) et(x1, y1), en sachant qu’en (x, y), la vitesse est c(x, y). Alors on cherche v (quel’on precisera) telle que v(x0) = y0, v(x1) = y1 et

∫ s

0ds

c(x(s),y(s)) soit minimum,c’est-a-dire

inf

∫ x1

x0

(1 + (v′(x))2)12

c(x, v(x))dx.

Lorsque on veut par exemple evaluer le rayon entre deux milieux de vitesse c1et c2, tels que c(x, y) = c11x>0 + c21x>0, on a donc, appliquant ce qui est ecritci-dessus a trouver le lieu de

inf[

∫ 0

x0

(1 + (v′(x))2)12

c1dx+

∫ x1

0

(1 + (v′(x))2)12

c2dx].

12. Problemes d’equilibre en mecanique des milieux continus

Soit Ω un ouvert de IRn et Γ sa frontiere. On se donne les trois energies

U1(v) =1

Ω|∇v|2dx

U2(v) =1

2k

Ω|v|2dx

U3(v) = −∫

Ωf(x)v(x)dx

qui sont respectivement l’energie potentielle de deformation, l’energie potentielleelastique, l’energie d’une force exterieure constante dans le temps.

On etudie deux fonctionnelles J1 = U1 + U2 + U3 et J2 = U1 + U3. On ecriraquatre types de problemes:

infv∈H1

0 (Ω)J2(v), inf

v∈H1(Ω)J1(v), inf

v∈H1(Ω),v|Γ≥0J1, inf

v∈H10 (Ω),v≥ψ

J2

qui sont respectivement les problemes de Dirichlet, Neumann, elasticite aveccontraintes unilaterales, equilibre avec obstacle.

Pour introduire certaines des methodes de ce cours, traitons le premier probleme.Nous allons le faire a l’aide de ce que nous avons utilise pour le theoreme de

Page 15: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

1.2. EXEMPLES 15

Hahn-Banach. On suppose que u existe. Alors, pour toute fonction φ dansC∞

0 (Ω), on remarque que u+ φ ∈ H10 (Ω), ainsi on a

J2(u+ φ) ≥ J2(u).

Cette inegalite se traduit par

∀φ ∈ C∞0 (Ω), λ

Ω∇u∇φ+ J2(φ) ≥ 0.

On choisit alors ψ et on considere φ = εψ, ou ε tend vers 0. Alors on en deduit,au passage a la limite, l’inegalite λ

Ω ∇u∇ψ−∫

fψ ≥ 0 pour toute ψ ∈ C∞0 (Ω).

On remplace ψ par −ψ. On en deduit

∀ψ ∈ C∞0 (Ω), λ

Ω∇u∇ψ −

fψ = 0.

Un resultat d’integrations par parties indique que, au sens des distributions deH−1(Ω) (dual, rappelons le, des distributions de H1

0 (Ω)), on a la relation

−λ∆u = f

Reciproquement, lorsque u est dansH10 (Ω) solution dansH−1(Ω) de ce probleme,

alors par ecriture du produit scalaire qui correspond a la dualite des distribu-tions, on trouve

J2(v) − J2(u) =1

(∇v −∇u)2dx.

En effet

J2(v) − J2(u) = 12λ∫

(∇v)2dx−∫

fvdx− 12λ∫

(∇u)2dx+∫

fudx= 1

2λ∫

(∇v −∇u)2dx+ λ∫

∇u∇v −∫

fvdx− λ∫

(∇u)2dx+∫

fudx

et les deux termes sont nuls en prenant respectivement w = v puis w = u dansl’egalite λ

∇u∇wdx =∫

fwdx.

13. Probleme de Neumann avec contrainte.

Nous etudions ici le cas du probleme inf J1(u), u|Γ ≥ 0, ou u ∈ H1(Ω), ∂Ω = Γ.On prend d’abord φ ∈ C∞

0 (Ω), ainsi, pour tout ε > 0, u+εφ est dans le domaineK defini par K = u ∈ H1(Ω), u|Γ ≥ 0 des que u ∈ K. On applique alors lameme methode que precedemment, de faire tendre ε vers 0 apres avoir divisel’inegalite deduite de J1(u+ εφ) ≥ J1(u) par ε. Ainsi on a

∀φ ∈ C∞0 (Ω), λ

∇u∇φdx+ k

uφdx =

fφdx.

On en deduit, dans D′(Ω), l’egalite

−λ∆u+ ku = f.

Page 16: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

16 CHAPTER 1. INTRODUCTION ET EXEMPLES

Desormais, on considere v ∈ H1(Ω), v|Γ ≥ 0. Ainsi, de J1(v) ≥ J1(u), ecrivantv = u+ (v − u), on deduit

J1(v)−J1(u) = U1(v−u)+U2(v−u)+∫

Ω[λ∇u∇(v−u)+ku(v−u)−f(v−u)]dx ≥ 0

(1.2.1)

D’une part, si v = cu, c ≥ 0, alors v ∈ K. On trouve alors

(c− 1)2[U1(u) + U2(u)] + (c− 1)

Ω(λ(∇u)2 + k(u)2 − fu)dx ≥ 0.

Comme c ∈]0,+∞[, alors c−1 ∈]−1,+∞[. On peut prendre une valeur negativeet une valeur positive de c− 1, ce qui implique la relation (faisant tendre c− 1vers 0)

Ω(λ(∇u)2 + k(u)2 − fu)dx = 0.

Remplacant alors cette egalite dans l’inegalite (1.2.1), on trouve, pour tout v ∈K:

U1(v − u) + U2(v − u) +

Ω[λ∇u∇v + kuv − fv]dx ≥ 0

On remplace f par −λ∆u+ ku et on utilise la relation∫

∆uvdx = −∫

Ω∇u∇vdx+

Ω∂nuvdσ

qui permet de definir ∂nu pour u ∈ H1(Ω) et v ∈ H1(Ω) comme le resultat d’untheoreme de Riesz. Pour cela, on introduit la fonctionnelle v →

Ω ∇u∇v+ <∆u, v >. Lorsque v ∈ C∞(Ω), il est clair que cette fonctionnelle est continue etque, par dualite, comme u ∈ H1(Ω), ∆u ∈ H−1(Ω) lorsque le bord est regulier,on trouve

|∫

Ω∇u∇v+ < ∆u, v > | ≤ C||v||H1(Ω).

Pour v = φ ∈ C∞0 (Ω), on trouve 0, donc c’est une distribution qui ne considere

que les valeurs au bord de v = φ. D’autre part, lorsque u ∈ H2(Ω), on trouveque cette fonctionnelle permet de definir la derivee normale de u, ∂nu par laformule de Green usuelle.

Finalement, pour u ∈ H2(Ω) et v ∈ C∞(Ω), il existe C1 telle que (on ameliorela relation precedente)

|∫

Ω∇u∇v+ < ∆u, v > | ≤ C1||v|Γ||

H12 (Γ)

.

La relation obtenue est alors ∀v ∈ K,∫

Γ ∂nuv|Γdσ ≥ 0.

Nous avons pu ici etudier le probleme facilement car la fonctionnelle est uneforme quadratique. Dans le cas ou elle ne l’est pas, il s’agit d’etudier u+ ψ, eton verifie que si x ∈ Γα ou Γα est la partie du bord ou u est superieur ou egal

Page 17: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

1.2. EXEMPLES 17

a α, alors on peut prendre ψ tel que ψ = 0 sur Γ − Γα et |ψ| ≤ α2 sur Γα, ψ

identiquement egale a 1 sur le bord dans un voisinage d’un point x0 de Γα. Onpeut alors verifier que u+ ψ et que u− ψ sont dans K, ce qui permet d’obtenirdirectement, avec v − u = ±ψ, la relation au bord

Γ ∂nuψdσ = 0, ce qui donne∂nu = 0 sur Γα. On a donc

∀α > 0, ∂nu|Γα = 0,

Γu∂nudσ = 0

ce qui permet de partitionner Γ en Γ1 = x, u(x) = 0 et Γ2 = Γ0 = Γ − Γα,sur lequel ∂nu = 0, et on a, par la condition

Γ ∂nuvdσ ≥ 0 pour tout v tel quev|Γ ≥ 0, la condition ∂nu ≥ 0.

14. Cas de non existence d’un minimum.

On se place dans l’espace H1(]0, 1[) muni de la norme usuelle, et on definitJ(v) =

∫ 10 [(|v′(x)| − 1)2 + (v(x))2]dx. On note que J(v) ≥ 0 et qu’il n’existe

pas de u tel que J(u) = 0. En effet, si il en existe un, |u′| = 1 p.p. et u = 0impossible dans H1. D’autre part, si on construit un(x) = 1

2n − |x − 2k+12n | sur

l’intervalle [ kn, k+1

n] pour 0 ≤ k ≤ n−1, on trouve

k+1n

kn

(un(x))2 = 2

∫12n

0 x2 = 16n3

et∫

k+1n

kn

(|u′(x)| − 1)2dx = 0. Ainsi

J(un) =1

6n2

et inf J = 0, alors qu’il n’existe pas de u tel que J(u) = inf J .

15. Un exemple de controle optimal

On considere y0 ∈ IRN , T > 0, f ∈ L1(]0, T [, IRN ) et A matrice N×N , B matriceN ×M donnees. On considere, pour chaque v ∈ L2(]0, T [,K), la solution y(v)du systeme

dy(v)

dt(t) = Ay(v)(t) +Bv + f(t)

avec y(v)(0) = y0. On cherche a minimiser le critere, qui peut s’exprimer par“avec un v aussi petit que possible sur ]0, T [, trouver y(v) aussi proche quepossible de g aussi bien pondere sur ]0, T [ qu’en t = T” Le critere que j’ecris est

J(v) =∫ T

0 (v(t), v(t))dt +∫ T

0 (Q(y(v)(t) − g(t)), y(v)(t) − g(t))dt+(R(y(v)(T )) − g(T ), y(v)(T ) − g(T ))

On note pour l’instant que y(v) peut etre calculee, par exemple a l’aide de y(0)puis de l’exponentielle de A dans une base ou par exemple A est diagonalisable,mais cela ne sera pas de grande aide pour calculer et minimiser le critere.

16. Commande en temps minimal

Dans ce cas, le critere s’ecrit de la maniere suivante: “atteindre une cible donneeC dans le temps le plus petit possible”. On introduit alors le temps d’arrivee ala cible:

Page 18: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

18 CHAPTER 1. INTRODUCTION ET EXEMPLES

J(v) = +∞ si y(v) /∈ C∀tJ(v) = inft ≥ 0, y(v)(t) ∈ C si il existe t0 tel que y(v)(t0) ∈ C.

Commander le systeme en temps minimal est trouver inf J pour v dans l’espacede commande et trouver un v0 tel que J(v0) = inf J .

17. On se donne A = a ∈ L∞([0, 1]), 0 < α ≤ a(x) ≤ β∀x. On se donne aussifi, ui des fonctions (a preciser sur [0, 1]). On cherche a trouver a et ui de sorteque

− d

dx(

1

a(x)

duidx

) = fi(x),∀x, ui(0) = ui(1) = 0 (1.2.2)

infa∈A

i

∫ 1

0|ui(x) − ui(x)|2dx. (1.2.3)

C’est un probleme modele pour certains problemes de la physique. Ici, oncherche une equation de la chaleur (caracterisee par sa distribution a) telle queles resultats theoriques de l’observation (pour chaque donnee exterieure fi onconstruit mathematiquement une solution de (1.2.2)) soient les plus prochespossible de ce l’on observe (ui).

Dans un premier temps, on peut resoudre explicitement (8.2.1) en introduisantA(x) =

∫ x

0 a(s)ds, mais trouver le meilleur a n’est pas encore a notre portee.On peut le faire quand a(x) est une constante.

Dans le cas general, on trouve

dui

dx= CA′(x) + A′(x)

Z x

0fi(t)dt =

d

dx(CA(x) +A(x)

Z x

0fi(t)dt) − A(x)fi(x),

soit

ui(x) = CA(x) + A(x)

Z x

0fi(t)dt −

Z x

0A(t)fi(t)dt

en ayant utilise ui(0) = 0. On identifie C grace a ui(1) = 0, ce qui donne

ui(x) =A(x)

A(1)(

Z 1

0A(t)fi(t)dt − A(1)

Z 1

0fi(t)dt) +

Z x

0(A(x) −A(t))fi(t)dt.

Dans le cas a(x) = a, on trouve ui(x) = au1i (x), avec

u1i (x) = x

Z 1

0(t− 1)fi(t)dt +

Z x

0(x− t)fi(t)dt.

Il est immediat que le critere s’ecrit

J(a) = a2Z 1

0(u1

i (t))2dt − 2a

Z 1

0u1

i (x)ui(x)dx+

Z 1

0(ui(x))

2dx

et qu’il est minimum en a0 =Pi=N

i=1

R

1

0u1

i (t)ui(t)dtP

i=Ni=1

R

1

0(u1

i(t))2dt

. Son minimum, d’apres les inegalites de Cauchy-

Schwarz, est positif ou nul et n’est nul que si tous les u1i sont egaux a un coefficient foit ui.

Page 19: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

Chapter 2

Minimum dans IRN ou dans unespace de Hilbert, conditionsd’Euler et de Legendre

2.1 Condition generale d’existence (suffisante)

Nous allons d’abord donner des conditions suffisantes d’existence d’un minimum. Letheoreme le plus classique, que l’on trouve au debut de chaque cours d’optimisation,est le resultat en dimension finie:

Theoreme 2.1 Soit K ⊂ IRN , soit J une fonctionnelle continue sur Ω contenant K,et K ferme.

Si K est compact, ou si J est ∞ a l’∞ (c’est-a-dire, pour toute suite vn telle que|vn| → +∞, J(vn) → +∞), alors J a au moins un minimum sur K.

On peut extraire de toute suite minimisante sur K une sous-suite convergeant versun point de minimum sur K.

Preuve Toute partie non vide de IR admet une borne inferieure l. SiK est compacte,d’une suite un telle que J(un) tend vers l, on peut extraire (car un ∈ K compact),une sous-suite convergente un′ → a. Comme J est continue, J(un′) tend vers J(a), etdonc J(a) = l. Si K n’est pas compacte, on verifie cependant que la suite est bornee(si elle ne l’etait pas, on trouverait une sous-suite extraite un′ telle que |un′ | → +∞,auquel cas J(un′) → +∞ par l’hypothese sur le comportement de J , et donc J(un′)ne converge pas vers l). Soit B une boule fermee contenant tous les termes de la suite.Alors un ∈ K ∩ B est une suite dans un compact, une suite extraite converge doncvers une valeur minimisante.

On note que dans l’exemple 16 de l’introduction, la fonctionnelle verifie la conditiona l’infini, mais il n’y a pourtant pas de minimum car dans un espace de dimensioninfinie, un ferme borne n’est pas necessairement compact.

Il s’agit maintenant d’etre capable, comme dans les exemples traites precedemment,de calculer les solutions. Nous allons faire cela, en ecrivant des conditions tres anci-ennes, necessaires pour certaines, suffisantes pour d’autres.

19

Page 20: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

20 CHAPTER 2. EULER-LEGENDRE

2.2 Condition d’Euler, condition de Legendre

Du traitement des exemples 13 et 15, on deduit un certain nombre de notions. Nousreviendrons sur certaines d’entre elles plus loin. Pour l’instant, interessons nous adeux notions:

• la notion de derivee dont nous avons besoin• la notion de direction admissible.La notion de derivee que nous cherchons a obtenir s’obtient en comparant (ce qui

a ete fait dans les exemples 13 et 15), J(u + εv) et J(u) apres avoir divise par ε etfait tendre ε vers 0. On voit ainsi que la bonne notion est de considerer

limε→0

1

ε[J(u+ εv) − J(u)]

et d’ecrire l’inegalite, valable pour tout v tel que u+ εv est dans le domaine etudie

limε→0

1

ε[J(u+ εv) − J(u)] ≥ 0.

2.2.1 Derivabilite au sens de Frechet et au sens de Gateaux

La derivee d’une fonction d’une variable element d’un espace vectoriel de dimensionfinie doit etre generalisee aux fonctionnelles, application d’un espace vectoriel de di-mension infinie dans IR. Il faut se placer dans un espace norme, et un espace pourlequel l’espace dual est isomorphe a l’espace (on verra plus loin que cela permettra dedefinir une application gradient). On se place sur un espace de Hilbert V , dans lequelon a isomorphisme entre V et V ′, et donc le theoreme de Riesz.

Definition 2.1 Lorsque, pour tout w, la limite limε→01ε[J(u+ εw)− J(u)] existe, on

la note J ′(u;w) et on l’appelle derivee directionnelle de J en u dans la direction w,qui est une fonction definie de V × V dans IR, homogene de degre 1 dans la variablew.

Lorsque, de plus, la fonction w → J ′(u;w) est une fonction lineaire continue,alors il existe, par le theoreme de Riesz, un element de l’espace de Hilbert V , que l’onappelle la derivee de Gateaux de J en u et que l’on note J ′(u). On notera souventde la meme facon la forme lineaire et son representant dans le produit scalaire, soit(J ′(u), w) = J ′(u;w).

On peut aussi definir la derivee seconde J”(u) si elle existe, lorsque la limite

limδ→0

1

δ[J ′(u+ δw1;w2) − J ′(u;w2)]

existe pour tout (w1, w2) et est une forme bilineaire continue sur V ×V . La limite estalors (J”(u)w1, w2) par representation des formes bilineaires continues.

On rappelle la definition de la derivee au sens de Frechet, qui n’est plus cette foisune forme lineaire definie sur chaque direction:

Definition 2.2 J est derivable au sens de Frechet en u si

J(u+ v) = J(u) + Lu(v) + ε(v)||v||avec Lu forme lineaire continue sur V et ε(v) → 0 quand v → 0.

Page 21: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

2.2. CONDITION D’EULER, CONDITION DE LEGENDRE 21

Lorsque J est derivable au sens de Frechet, elle est derivable au sens de Gateaux, maisla reciproque est fausse, car l’ecriture de la derivabilite au sens de Frechet corresponda ε(v)

||v|| tend vers 0, alors que la derivabilite au sens de Gateaux correspond a ε(λw)λ

tendvers 0 lorsque λ tend vers 0 et on perd l’uniformite de w.

On peut alors ecrire des formules de Taylor sur v a l’ordre 2

Proposition 2.1 si J est deux fois differentiable au sens de Frechet:

J(u+ v) = J(u) + (J ′(u), v) +1

2(J”(u)v, v) + o(||v||2) (2.2.1)

Si J est differentiable au sens de Frechet et si sa derivee est differentiable au sensde Gateaux, alors on a aussi une formule de Taylor:

J(u+ tw) = J(u) + t(J ′(u), w) +1

2t2(J”(u)w,w) + o(t2). (2.2.2)

Lorsque J” est continue, on peut ecrire la formule de Taylor avec reste integral

J(u+ tw) = J(u) + t(J ′(u), w) + t2∫ 1

0(1 − x)(J”(u + xtw)w,w)dx. (2.2.3)

Preuve La demonstration de ces egalites de Taylor peut par exemple se faire enconsiderant la fonction de la variable reelle

φ(t) = J(u+ tw).

On verifie que

φ(t+ h) − φ(t)

h→ (J ′(u+ tw), w)

ainsi φ′(t) = (J ′(u+ tw), w).

On voit alors que φ′(t)−φ′(0)t

= (J ′(u+tw),w)−(J ′(u),w)t

tend vers φ”(0) = (J”(u)w,w).Ainsi on peut ecrire la formule de Taylor

φ(t) = φ(0) + tφ′(0) +t2

2φ”(0) + o(t2)

et on a obtenu la formule de Taylor pour une fonction differentiable, qui admet unederivee seconde au sens de Gateaux.

D’autre part, si J est deux fois differentiable au sens de Frechet dans un voisinagede u, on a

φ”(t) = (J”(u+ tw)w,w)

ainsi la formule de Taylor avec reste integral pour la fonction φ conduit a l’egalite(2.2.3).

Avec les outils de differentiabilite ainsi definis, on peut donner les resultats d’optimaliteconnus sous le nom de condition d’Euler et de Legendre.

Page 22: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

22 CHAPTER 2. EULER-LEGENDRE

2.2.2 Conditions necessaires d’optimalite. Conditions suffisantes d’optimalite

On ecrit des conditions necessaires dans le

Theoreme 2.2 Soit V un espace de Hilbert et J une fonctionnelle differentiable (1ou 2 fois) au sens des definitions precedentes

Pour que u ∈ V soit solution de

inf J(v)v ∈ V

(2.2.4)

il FAUT que J ′(u) = 0 (condition d’Euler).

(c’est-a-dire former cette equation, appelee equation d’Euler, donne tous les min-ima, entre autres points (elle donne aussi tous les maxima locaux)).

Si J est differentiable deux fois, on a, de plus necessairement

∀w ∈ V, (J”(u)w,w) ≥ 0.

(condition de Legendre)

Demonstration:

On verifie que, si u est un point d’optimum de J , alors, pour tout v ∈ V on a

J(u+ v) ≥ J(u).

Si on utilise la derivee de Frechet de J , on en deduit que

∀v ∈ V,Lu(v) + o(v) ≥ 0.

On ecrit v = tw, et on fait tendre t vers 0, t > 0. On en deduit , par passage a lalimite, Lu(w) ≥ 0. On choisit alors v = −tw, t > 0 et on en deduit Lu(−w) ≥ 0. Ona alors, ∀w,Lu(w) = 0. Ceci equivaut a J ′(u) = 0.

Pour la condition de Legendre, on suppose que la fonctionnelle est derivable ausens de Frechet et que sa derivee de Frechet est differentiable au sens de Gateaux.

On utilise alors la formule de Taylor (2.2.2), ce qui donne, si u est un minimum,utilisant J ′(u) = 0:

J(u+ tw) = J(u) +t2

2(J”(u)w,w) + o(t2)

et l’inegalite J(u + tw) ≥ J(u) conduit a (J”(u)w,w) ≥ 0 pour tout w. Le theoremeest demontre.

Ce theoreme est complete par une ecriture de conditions suffisantes, valables pourun minimum local

Theoreme 2.3 Un ensemble de conditions suffisantes pour que u soit solution duprobleme du theoreme precedent est

J ′(u) = 0

et pour tout u dans un voisinage V0 de u0, on ait la condition (J”(u)w,w) ≥ 0.(condition forte de Legendre)

Page 23: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

2.3. INEQUATION D’EULER DANS UN PROBLEME AVEC CONTRAINTES 23

De maniere operatoire, on peut aussi ecrire une condition plus forte que la conditionforte sous la forme

Il existe α > 0 tel que (J”(u)w,w) ≥ α(w,w)1.

Demontrons le theoreme. On suppose que J ′(u) = 0 et (J”(u)w,w) ≥ 0 pour toutu dans un voisinage de u, et J deux fois Frechet differentiable. On utilise la formulede Taylor avec reste integral

J(u+ tw) = J(u) + t2∫ 1

0(1 − x)(J”(u + txw)w,w)dx.

Soit u ∈ V0. On choisit t = 1 et w = u− u de sorte que u+ txw = xu+ (1 − x)u estdans ce meme voisinage, alors J(u) ≥ J(u) et u est un point de minimum local, cequ’il fallait demontrer.

Notons que l’on n’a pas ainsi de condition necessaire et suffisante. En effet, si onconsidere dans V = IR J(x) = x6(1 + sin 1

x), et J(0) = 0, on verifie que J(x) ≥ 0

car sinu ≥ −1. Ainsi J(x) ≥ J(0) pour tout x et 0 est un point de minimumabsolu. On verifie que J est continue en 0 (car limx sin 1

x= 0). Sa derivee est

J ′(x) = 6x5(1+sin 1x)−x4 cos 1

x, elle verifie J ′(x) → 0 lorsque x tend vers 0, et de plus,

J(x)−J(0)x

tend vers 0, donc J est derivable et sa derivee est continue. Alors J”(x) =−x2[sin 1

x−30x2(1+sin 1

x)−10x cos 1

x]. On verifie que J”(0) = 0 et que J”( 1

(n+ 12)π

) =

−( 1(n+ 1

2)π

)2[(−1)n−30( 1(n+ 1

2)π

)2(1+(−1)n)], dont le signe est alternativement + et −pour n pair ou impair assez grand (par exemple n ≥ 4). Ceci prouve que J ne verifiepas la condition forte de Legendre et pourtant J admet un minimum absolu en 0.

2.3 Inequation d’Euler dans un probleme avec contraintes

Les problemes avec contrainte s’ecrivent aussi probleme d’optimum lies. Il s’agiten particulier de l’exemple 15. On voit, dans ce probleme, que la remarque utiliseegeneralement est que l’on doit pouvoir avoir u+εφ dans le domaine K si u est donnee,afin d’ecrire les conditions J(u + εψ) ≥ J(u). Il faut alors que ψ soit positive sur lebord lorsque u|Γ est nulle en ce point du bord, alors que, modulo le fait que ε soitchoisi assez petit, ψ peut etre prise arbitraire sur le bord hors des points ou u estnulle.

Lorsque K est l’ensemble des contraintes, et lorsque u ∈ K, on definit les direc-tions admissibles de u dans K par

Definition 2.3 L’espace des directions admissibles au sens de Frechet pour u ∈ Kest l’ensemble des w de V tels qu’il existe une suite wn de V tendant vers w et unesuite en ≥ 0 telle que u + enwn ∈ K. L’ensemble des directions admissibles est noteK(u).

Definition 2.4 L’espace des directions admissibles au sens de Gateaux est l’ensembledes w tels que, pour ε assez petit, u+ εw soit dans K. L’ensemble de telles directionsw est aussi appele ensemble de directions admissibles interieures et note K(u).

1Notons que dans un Hilbert de dimension finie, cette inegalite est equivalente a l’inegalite(J”(u)w, w) > 0 pour tout w non nul, puisque dans ce cas la la matrice J”(u) n’a pas de vecteurpropre nul, et α est sa plus petite valeur propre

Page 24: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

24 CHAPTER 2. EULER-LEGENDRE

On note que les deux ensembles ainsi definis sont des cones, et que K(u) ⊂ K(u).On a alors les conditions necessaires suivantes sur un minimum de la fonctionnelle

sous contraintes:

Theoreme 2.4 (Inequations d’Euler)Si J est derivable au sens usuel (de Frechet), pour que u soit solution de (2.2.4),

il faut que

∀w ∈ K(u), (J ′(u), w) ≥ 0.

Si J est derivable au sens de Gateaux, il faut que

∀w ∈ K(u), (J ′(u), w) ≥ 0.

Soit u une solution de (2.2.4). Alors, comme u+ enwn ∈ K, on a J(u+ enwn) ≥J(u). Ainsi on en deduit

1

en[J(u+ enwn) − J(u)] ≥ 0 ∀n

puisque en ≥ 0. Ainsi, en passant a la limite dans l’egalite de definition de la deriveede Frechet, on obtient 1

en[J(u + enwn) − J(u) − (J ′(u), enwn)] → 0, ainsi, ecrivant

(J ′(u), wn) − (J ′(u), w) = (J ′(u), wn − w) → 0, on a

(J ′(u), w) ≥ 0.

Pour le deuxieme, on verifie que J(u+ εw) − J(u) ≥ 0, ainsi, en divisant par ε eten faisant tendre ε vers 0 pour w ∈ K(u), on trouve

∀w ∈ K(u), (J ′(u), w) ≥ 0.

2.4 Multiplicateurs de Lagrange

Nous appliquons les resultats de la section precedente a des contraintes particulieres,qui sont les plus simples que nous rencontrons. Les contraintes les plus simples sontles contraintes egalites et les contraintes inegalites. Par exemple, on peut ecrire

K = u ∈ V, F1(u) = 0, F2(u) = 0, ..Fm(u) = 0les fonctions F1, ...Fm etant continues.

Par exemple, lorsque V = IR3, on peut donner comme condition l’appartenance ala sphere unite, qui s’ecrit x2 + y2 + z2 − 1 = 0. Ici F (x, y, z) = x2 + y2 + z2 − 1.

Nous traitons le cas particulier de la contrainte egalite x2 + y2 + z2 = 1.Commencons par l’ensemble ouvert K((x, y, z)). On considere (w1, w2, w3) tels que (x +

ǫw1)2 + (y + ǫw2)

2 + (z + ǫw3)2 = 1 et x2 + y2 + z2 = 1. Ainsi, en utilisant ces deux egalites

et en divisant par ǫ, on obtient

(∗)(xw1 + yw2 + zw3) = − ǫ

2||w||2.

En faisant tendre ǫ vers 0, on trouve que xw1 + yw2 + zw3 = 0 car (x, y, z) et (w1, w2, w3)sont independants de ǫ. D’autre part, en remplacant cette egalite dans (*), on trouve ǫ||w||2 =

Page 25: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

2.4. MULTIPLICATEURS DE LAGRANGE 25

0. Comme on prend ǫ quelconque assez petit, la norme de w est nulle donc w = 0. On trouveK((x, y, z)) = (0, 0, 0).

D’autre part, considerons maintenant la definition de K((x, y, z)). Alors w ∈ K((x, y, z))lorsqu’il existe une suite en tendant vers 0 et une suite wn = (wn

1 , wn2 , w

n3 ) tendant vers w

telles que (x, y, z) + enwn soit dans la sphere. On cherche des conditions necessaires pour que

cela soit le cas. Comme precedemment, on ecrit les deux egalites et on obtient

xwn1 + ywn

2 + zwn3 = −en

2||wn||2.

En considerant la limite lorsque n tend vers l’infini, le membre de gauche tend vers xw1+yw2+zw3 et le membre de droite tend vers 0, donc une condition necessaire est xw1+yw2+zw3 = 0.

Montrons que cette condition est suffisante. On se donne un element (w1, w2, w3) telque u.w = 0, u = (x, y, z). On considere alors une suite quelconque wn qui tend vers w(c’est toujours possible a definir, ce serait-ce qu’en prenant w + 1

ne, ou e est un vecteur fixe

quelconque). On sait alors que x.wn tend vers 0. On construit alors wn = wn−2|u.wn|(x, y, z)(ceci veut dire wn

1 = w1n − 2|xw1

n + yw2n + zw3

n|x, wn2 = w2

n − 2|xw1n + yw2

n + zw3n|y). Il en

decoule que wn tend vers w car wn tend vers w et u.wn tend vers 0. De plus, wn.(x, y, z) =wn.u = wn.u− 2|wn.u| ≤ 0. On construit alors en = − 2uwn

||wn||2 ≥ 0. La suite (en, wn) verifie les

conditions de la definition, donc (w1, w2, w3) ∈ K(u) (exemple 1).Exemple1

Si K = (x, y, z), x2 + y2 + z2 ≤ 1, alors K(u) = K(u) = IR3 pour u = (x, y, z) telque x2 + y2 + z2 < 1 (en effet, il suffit, pour toute direction non nulle w, de considerer

u + 12 (1 − ||u||) w

||w|| , qui est dans la sphere unite, donc on verifie que pour ǫ0 = 12

(1−||u||)||w|| et

ǫ < ǫ0, u+ ǫw est dans la sphere). Pour un point du bord u2 = 1, on aboutit, en divisant paren ou par ǫ, a l’inegalite

u.w ≤ − ǫ

2||w||2, u.wn ≤ en

2||wn||2

ce qui aboutit aux relations K(u) = u.w < 0 et K(u) = u.w ≤ 0.Nous generalisons ces expressions. Commencons par une contrainte egalite F (v) =

0 (exemple 1). Ainsi w est une direction admissible pour u si il existe une suite wntendant vers w et une suite en > 0 tendant vers 0 telles que F (u+ enwn) = 0. Alorson en deduit, en supposant que F est differentiable

F (u) + (F ′(u), enwn) + o(en|wn|) = 0.

Faisant tendre en vers 0 apres avoir utilise F (u) = 0 et avoir divise par en conduit a(F ′(u), w) = 0.

Page 26: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

26 CHAPTER 2. EULER-LEGENDRE

Reciproquement, supposons (F ′(u), w) = 0. On introduit la fonction φ(λ, ε) =1εF (u+ εw + ελF ′(u)), φ(λ, 0) = (F ′(u), w + λF ′(u)). On a

φ(λ+ h, ε) − φ(λ, ε)

h=

1

εh(F (u+ εw + ελF ′(u) + εhF ′(u)) − F (u+ εw + ελF ′(u)))

donc

φ′λ(λ, ε) = (F ′(u+ εw + ελF ′(u)), F ′(u)).

On suppose que F ′ est Lipschitz et que F ′(u) 6= 0. On souhaite trouver λ(ε) telque φ(λ(ε), ε) = 0. On ecrit l’equation sous la forme

φ(λ, ε) − φ(0, ε) = −φ(0, ε)

De l’egalite (F ′(u), w) = 0, on deduit φ(0, ε) = o(1). De la relation F ′(u) 6= 0, on tireque la derivee de φ(λ, ε) − φ(0, ε) est ||F ′(u)||2 > 0, et, de plus, φ(0, 0) = 0. On estdans le cas d’application du theoreme des fonctions implicites et il existe ε0 et unefonction continue λ(ε) telle que, pour ε < ε0 on ait

φ(λ(ε), ε) − φ(0, ε) = −φ(0, ε).

La fonction λ(ε) tend vers 0 lorsque ε tend vers 0. On peut aussi voir ce resultat enecrivant l’equation sous la forme

λ

∫ 1

0φ′λ(λx, ε)dx = −φ(0, ε)

ce qui donne, par approximation de la derivee premiere

λ[||F ′(u)||2 +O(ε)] = −φ(0, ε)

soit

λ = − φ(0, ε)

||F ′(u)||2 (1 +O(ε)),

d’ou une expression de λ(ε) (dont on a montre l’existence et l’unicite ci-dessus). Ainsion a trouve wε = w + λ0F

′(u) tel que F (u+ εwε) = 0 et wε → w. La direction w estune direction admissible. Lorsque F ′(u) = 0, w est quelconque, mais cela n’assure pasl’existence d’un w non nul qui soit une direction admissible. Par exemple, F (x) = x2

conduit, dans la definition, a ecrire le cone des directions admissibles a 0 dans IR,qui correspond a 0, car dans ce cas 0 + enwn = 0 ce qui implique wn = 0, et nonpas tout l’axe reel.

Lemme 2.1 Le cone K(u) associe a u tel que F (u) = 0 est, dans le cas F ′(u) 6= 0l’ensemble des w ∈ V tels que (F ′(u), w) = 0.

On en deduit la representation suivante

Definition 2.5 Soit K = u, F1(u) = 0, F2(u) = 0, ...Fm(u) = 0. Lorsque lesvecteurs (F ′

1(u), F′2(u), ..F

′m(u)) sont lineairement independants, on dit que les con-

traintes sont regulieres en u.

Page 27: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

2.4. MULTIPLICATEURS DE LAGRANGE 27

Lemme 2.2 Si les contraintes sont regulieres en u, alors K(u) = w ∈ V, (F ′i (u), w) =

0∀i = 1..m.

L’inclusion directe est facile. L’inclusion reciproque est une consequence du theoremedes fonctions implicites matriciel. On choisit donc, pour un w tel que (F ′

j(u), w) = 0pour tout j, de regarder une perturbation de u+ εw et de determiner (µ1, .., µm) telsque

∀j, ε−1Fj(u+ εw +

k=m∑

k=1

εµkF′k(u)) = 0.

On regarde alors ce systeme comme une application de IRM dans lui meme.Le jacobien de cette application est, pour ε = 0, la matrice des produits scalaires(F ′

j(u), F′k(u)). La famille est libre, donc cette matrice est inversible et cette propriete

est vraie pour ε < ε0 lorsque les µj appartiennent a un compact. On applique alors letheoreme des fonctions implicites de IRM+1 dans IRM et on conclut sur l’existence deM fonctions µk(ε) tendant vers 0 lorsque ε tend vers 0 telles que ces egalites soientverifiees pour ε petit. Il suffit alors de prendre ε = 1

npour conclure sur l’existence

d’une suite wn telle que u + 1nwn soit dans K et wn tende vers w. Ainsi w est une

direction admissible et on a montre l’egalite des ensembles. Lorsque les vecteurs F ′i (u)

ne forment pas une famille libre, on a le meme probleme que precedemment dans lecas F ′(u) = 0.On ne peut pas assurer l’existence de directions admissibles. Par exemple, considerant(x, y), x2 + y2 = 1, x3 + y3 = 1, il est reduit a (1, 0), (0, 1) et ces points sont isolesdonc n’ont pas de directions admissibles. On peut aussi considerer l’exemple d’unesphere S et d’un de ses plans tangents P . Au point d’intersection, les deux vecteursF ′i (u) sont egaux a la direction normale a la sphere, et l’intersection est reduite au

point.Lorsque le cone K(u) est facile a evaluer, le theoreme 2.4 permet de calculer ce

que l’on appelle les multiplicateurs de Lagrange.

Theoreme 2.5 Pour que u tel que (F ′j(u))j forme une famille libre (on dit que les

contraintes Fj(v), 1 ≤ j ≤ m sont regulieres en u), soit solution de (2.2.4), ilfaut qu’il existe m reels λ1, ...λm tels que

J ′(u) + λ1F′1(u) + λ2F

′2(u) + ...+ λmF

′m(u) = 0

Preuve La partie difficile de la preuve a ete faite. En effet, si u est regulier, onidentifie aisement le cone K(u) des directions admissibles; c’est l’espace vectoriel or-thogonal a l’espace vectoriel F engendre par la famille (F ′

j(u))j=1..m. Le theoreme(2.4) se traduit alors par

∀w ∈ K(u), (J ′(u), w) ≥ 0.

Comme K(u) est un espace vectoriel, −w ∈ K(u) lorsque w ∈ K(u), ce qui se traduitpar

∀w ∈ K(u), (J ′(u), w) = 0.

Page 28: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

28 CHAPTER 2. EULER-LEGENDRE

Ainsi J ′(u) est dans l’espace vectoriel orthogonal a F⊥, c’est-a-dire F , et l’egalite dutheoreme est vraie.

On peut aussi le verifier comme suit. Il existe des scalaires λj et un vecteur r,orthogonal a tous les F ′

j(u), tels que J ′(u) = −∑mj=1 λjF

′j(u) + r. Alors r ∈ K(u) et

(J ′(u), r) = 0, ce qui s’ecrit (r, r) = 0 soit r = 0.

Un travail identique peut etre fait pour les contraintes inegalites. On suppose doncF (u) ≤ 0 une contrainte donnee de V dans IR. Soit u ∈ K, verifiant ainsi F (u) ≤ 0.Une direction w de K(u) est alors telle que F (u + εw) ≤ 0 pour ε assez petit, soitF (u) + ε(F ′(u), w) + o(εw) ≤ 0.

Deux cas sont alors a envisager:

• soit F (u) < 0, auquel cas, des que ε est assez petit, tout element w est admissible.La contrainte F (u) ≤ 0 n’ajoute donc pas de condition dans le theoreme 2.4, lacondition necessaire est donc l’egalite d’Euler J ′(u) = 0 qui provient de (J ′(u), w) ≥0∀w ∈ K(u). On dit pour cette raison que la contrainte est inactive (on dira aussi detemps en temps insaturee).

• soit F (u) = 0, auquel cas, comme ε > 0, il faut et il suffit, dans le cas F ′(u) 6= 0,que (F ′(u), w) ≤ 0.

On note tout de suite que si (F ′(u), w) < 0, alors il est clair que, pour ε assez petit,F (u+ εw) = ε(F ′(u), w) + o(ε) < 0. Le probleme se pose lorsque (F ′(u), w) = 0 pourtrouver un element de l’espace des contraintes. On doit donc introduire une notionde plus grande regularite des contraintes.

Par exemple la condition F ′(u) 6= 0 est assuree lorsqu’il existe w tel que (F ′(u), w) <0.

D’autre part, lorsqu’il y a plusieurs contraintes inegalites, on veut pouvoir montrerque l’ensemble des directions admissibles n’est pas vide.

Pour cela, il faut trouver un w0 tels que, pour toutes les contraintes Fj saturees,on a (F ′

j(u), w0) ≤ 0.

Cette condition n’est pas assez restrictive. En effet, la definition des directions ad-missibles w conduit a la relation (F ′

j(u), w) ≤ 0. En revanche, si on ne peut trouver unw0 que dans le cas ou il existe un couple (j1, j2) tels que (F ′

j1(u), w0) = (F ′

j2(u), w0) =

0, on pourrait se trouver dans la situation ou les deux hypersurfaces Fj1 ≤ 0 etFj2 ≤ 0 sont tangentes en u, de vecteur normal w0, et (par exemple) de concavitestricte opposee (exemple 2):

Exemple 2

Dans ce cas, l’intersection des contraintes Fj1 ≤ 0 et Fj2 ≤ 0 est reduite a u, eton ne peut plus parler de direction admissible.

Une condition pour que l’ensemble des directions admissibles soit non vide estalors la condition:

Il existe w0 tel que, ∀j, (F ′j(u), w0) < 0.

Page 29: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

2.4. MULTIPLICATEURS DE LAGRANGE 29

Cette condition est peu utilisable, car trop restrictive; en particulier une contrainteaffine pourra donner une direction admissible avec uniquement l’egalite. On utilisealors plutot la condition suivante:

Il existe w0 tel que ∀j, (F ′j(u), w0) < 0 (contraintes non affines) et (F ′

j(u), w0) = 0si la contrainte est affine, car on sait que dans ce cas l’intersection entre le demihyperplan defini par la contrainte affine et les autres conditions est non vide.

Enfin, on elimine grace a cela la condition d’independance des (F ′j(u)) que l’on avait

utilise pour caracteriser les directions admissibles (qui est non pas automatique, maisinutile: voir exemple 3). Exemple 3

Cette etude induit une definition de contraintes qualifiees, qui est une hypothesetechnique mais qui est l’hypothese la plus classique en theorie des multiplicateurs deLagrange:

Definition 2.6 Soit K = u, Fj(u) ≤ 0, j = 1..m.• On dit qu’une contrainte Fj est active si Fj(u) = 0, et elle est inactive si Fj(u) <

0. On note I(u) l’ensemble des indices des contraintes actives.• On dit que l’ensemble des contraintes (Fj) est qualifie si il existe w0 ∈ V tel que

pour tout j ∈ I(u) (pour les contraintes actives), (F ′i (u), w0) ≤ 0, et (F ′

j(u), w0) = 0uniquement pour Fj affine.

Commencons par ranger les contraintes actives affines pour j ∈ I ′(u). On prendw0 dans l’orthogonal de l’espace vectoriel F0 engendre par les F ′

j(u), j ∈ I ′(u), qui estindependant de u. Il suffit alors de voir que, pour tout w0 ∈ F0 et pour tout j ∈ I ′(u),on a Fj(u + w0) = Fj(u) = 0. Il suffit alors de regarder, pour les autres conditions,(j ∈ I(u) − I ′(u)), (F ′

j(u), w0) et K(u) est non vide lorsque w0 existe.Une notion moins restrictive mais plus abstraite est la notion de contraintes

qualifiables:

Definition 2.7 On dit que les contraintes inegalites Fj(u) ≤ 0 sont qualifiables enu si

K(u) = w, (F ′j(u), w) ≤ 0 pour j ∈ I(u).

On a alors le lemme suivant

Lemme 2.3 On suppose que les contraintes Fj , 1 ≤ j ≤ m, sont qualifiees en u ∈ K.Alors elles sont qualifiables en u.

La preuve de ce lemme s’appuie sur l’existence de w0 pour la demonstration de la reciproque;en effet l’implication directe est une consequence de la derivabilite et du fait de faire tendreen vers 0.

Page 30: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

30 CHAPTER 2. EULER-LEGENDRE

On considere donc w dans w ∈ V, (F ′j(u), w) ≤ 0∀j ∈ I(u), et on forme, pour tout ε

et pour tout δ positif fixe u + ε(w + δw0). Pour ε assez petit, par continuite de Fj pourj /∈ I(u), Fj(u + ε(w + δw0)) < 0. D’autre part, pour j ∈ I ′(u), on a Fj(u + ε(w + δw0)) =Fj(u) + ε(F ′

j(u), w + δw0)) = ε(F ′j(u), w) ≤ 0. Enfin, pour j ∈ I(u) − I ′(u), il vient Fj(u +

ε(w + δw0)) = Fj(u) + ε(F ′j(u), w + δw0)) + o(ε). Comme Fj(u) = 0, (F ′

i (u), w0) < 0 et(F ′

j(u), w) ≤ 0, on trouve

Fj(u+ ε(w + δw0)) ≤ δε(F ′j(u), w0) + o(ε).

Le second membre est strictement negatif lorsque ε tend vers 0, car (F ′j(u), w0) et o(ε)/ε tend

vers 0. Le lemme est demontre.

Theoreme 2.6 Sous l’hypothese que J est derivable, que les Fj sont derivables, etque, en u, les contraintes sont qualifiables, pour que u soit une solution de (2.2.4), ilfaut qu’il existe λ1, ...λm ≥ 0 tels que λj = 0 pour j ∈ 1, ..,m − I(u) et

J ′(u) +i=m∑

i=1

λiF′i (u) = 0.

Le theoreme 2.6 est une consequence simple du lemme suivant, dit de Farkas, etde la representation des directions admissibles du lemme 2.3. On applique alors letheoreme 2.4 pour en deduire l’existence des multiplicateurs de Lagrange positifs.

Lemme 2.4 (Farkas)Soit K l’intersection des demi hyperplans orthogonaux a aj, 1 ≤ j ≤ m, K =

(aj , v) ≤ 0∀j.

∀v ∈ K, (p, v) ≥ 0 ⇒ ∃(λ1, ...λm) ∈ (IR+)m, v = −∑

λiai.

On definit B = −∑λiai, 1 ≤ i ≤ M. Nous demontrerons que B est un convexeferme. Admettons le pour l’instant. On peut alors appliquer la notion de projectionsur un convexe ferme non vide. On suppose donc que p0 verifie les hypotheses dulemme de Farkas et que p0 n’appartient pas a B. On montre que la projection p de p0

sur B est egale a p0, d’ou contradiction. On trouve, de ||p0 − p||2 ≥ ||p0 −w||2, w ∈ B,que ∀w ∈ B, (p− p0, w− p) ≤ 0. Dans cette inegalite, on choisit alors w = −λai et onfait tendre λ vers +∞. Il reste donc (ai, p0 − p) ≥ 0 pour tout i. Ceci implique quep−p0 est dans K. De l’inegalite 0 ≤ (p0, p−p0) = −|p0−p|2+(p0−p, 0−p) ≤ −|p0−p|2(car 0 ∈ B) on deduit que p0 = p. On a montre que p0 ∈ B, contradiction.

Il reste a demontrer que B est ferme convexe. Il est convexe de maniere evidente(on considere 0 ≤ µ ≤ 1, alors µλ1

i +(1−µ)λ2i ≥ 0, et donc il existe une representation

de µv1+(1−µ)v2 qui soit une combinaison lineaire a coefficients negatifs). En revanchele caractere ferme est plus difficile a obtenir.

Si la famille (ai) est libre, la matrice (ai.aj) est symetrique definie positive. Onnote ||a|| le max des normes des ai et α la plus petite valeur propre de la matrice. Onobtient

λiai.aj = −v.aj, donc il vient |λi| ≤ α−1||v||.||a||. Si la suite vn d’elementsde B converge vers v, on peut identifier les λni associes, et les suites λni sont bornees.Quitte a faire des extractions de suite en cascade, il existe une sous-suite convergente

λψ(n)i , qui converge vers des valeurs positives λi, donc v = −∑λiai. La limite est

donc dans B.

Page 31: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

2.4. MULTIPLICATEURS DE LAGRANGE 31

Deuxieme cas, si la famille est lineairement dependante, il existe µ1, ..µm tels que∑

µiai = 0 (avec au moins un des coefficients qui est positif), et donc un elementde B s’ecrit v = −∑(λi + tµi)ai. Il faut montrer que pour une valeur de t ≤ 0,cette somme est une combinaison a coefficients positifs de m − 1 termes, et on sesera ramene a une famille avec moins d’elements pour tout t. Pour t = 0, tous lescoefficients sont positifs ou nuls, donc de deux choses l’une: ou bien µi1 ≤ 0, auquelcas µi1t ≥ 0 et le coefficient correspondant ne s’annulera pas si λi1 6= 0, ou bien

µi1 > 0, ce qui implique que t = −λi1µi1

est une valeur ou le coefficient s’annule. On

prend alors t0 = mini,µi>0λi

µiet la combinaison precedente a un coefficient qui s’annule

pour t = −t0. Cette construction est valable pour chaque element de B.

On considere alors une suite xn d’elements de B, suite de Cauchy dans l’espaceengendre par les ai, espace vectoriel de dimension finie. Elle s’ecrit −∑λni ai. Par laconstruction ci-dessus, pour chaque n, il existe i(n) tel que −∑λni ai = −∑i6=i(n) λ

ni ai.

On a donc enleve chaque fois un element de la famille (ai). On note Ii = n, i(n) = i.L’union des Ii est l’ensemble des entiers naturels, donc il existe au moins un i0 tel que

Ii est infini, soit Ii = φ(m),m = 0, 1..+∞. La suite extraite xφ(n) = −∑i6=i0 λφ(m)i ai

est une suite qui correspond a la famille (ai)i6=i0 . Si cette famille est libre, on s’estramene au cas precedent, et la suite extraite xφ(n) converge vers un element de B.Comme la suite est de Cauchy, elle converge vers x et la limite de toute suite extraiteest x.

Si cette famille est liee, on reprend l’argument avec la suite xφ(n). Comme la famillen’est pas identiquement nulle (sinon B est reduit a 0 et on n’a rien a demontrer),alors au bout d’un nombre fini d’iterations, on aboutit a une famille libre (aj) et lademonstration est finie puisque la limite est dans B pour cette suite extraite.

On a donc montre que B est ferme, donc on peut utiliser le theoreme de projectionsur un convexe ferme.

2.4.1 L’inegalite de Hardy.

On peut obtenir en exercice l’inegalite

(1

n

i=n∑

i=1

|xi|p)1p ≤ (

1

n

i=n∑

i=1

|xi|q)1q , q ≥ p

En effet, on suppose la contrainte∑ |xi|q = 1 et on cherche a minimiser J(x) =

∑ |xi|p. On ecrit, avec le multiplicateur de Lagrange λ, yi = |xi| pyp−1i + λqyq−1

i = 0,sous la contrainte

yqi = 1. On trouve alors yq−pi = − pλq

ou yi = 0. Soit k le nombre

de valeurs de yi non nulles. Alors elles sont egales, donc yi = ( 1k)

1q , ce qui donne

J(y) = k( 1k)

pq = k

p−qq . Lorsque q < p, la plus petite valeur est atteinte pour k = 1,

et le minimum est atteint lorsque l’un seulement est non nul. Lorsque q ≥ p, la pluspetite valeur est atteinte lorsque tous les yi sont egaux, et la plus petite valeur de J

est np−q

q . On en deduit∑

ypi ≥ nq−p

q ,∑

ypi = 1 ainsi, en notant zi = yi

(P

ypi)1p, tel que

zpi = 1, on a le resultat.

Page 32: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

32 CHAPTER 2. EULER-LEGENDRE

2.4.2 Probleme mixte

On appelle probleme mixte un probleme ou les contraintes apparaissant sont a la foisdes contraintes egalite et des contraintes inegalite. Nous commencons dans ce para-graphe l’etude par le cas de contraintes egalite que nous transformons en contraintesinegalite.Si on considere l’ensemble des contraintes egalites (regulieres) comme l’ensemble detoutes les contraintes inegalites (Fj(u) = 0, 1 ≤ j ≤ m equivaut a Fj(u) ≤ 0,−Fj(u) ≤0), toutes les contraintes sont actives, car si u est tel que Fj(u) < 0, alors −Fj(u) > 0donc (bien sur) u n’est pas dans l’ensemble!!. On ecrit la condition sur les multipli-cateurs de Lagrange λj ≥ 0, µj ≥ 0, J ′(u) +

∑j=mj=1 λjF

′j(u) +

∑j=mj=1 µj(−F ′

j(u)) = 0,J ′(u) +

j pjF′j(u) = 0 avec pj = λj − µj ∈ IR. Notons pour l’instant que les

contraintes ne sont pas qualifiees en un point. En effet, si on prend une descontraintes egalite sous la forme F1(u) ≤ 0 et −F1(u) ≤ 0, il n’existe pas de w telque l’on ait simultanement (F ′

1(u), w) < 0 et (−F ′1(u), w) < 0. La notion de contrainte

qualifiee ne s’applique pas dans ce cas. En revanche on sait que les contraintes sontqualifiables: en effet, si les contraintes egalite sont regulieres en u, alors

K(u) = w, (F ′j(u), w) = 0, 1 ≤ j ≤ m = w, (F ′

j(u), w) ≤ 0, (−F ′j(u), w) ≤ 0, 1 ≤ j ≤ m.

Nous considerons donc

K = u, Fj(u) = 0, 1 ≤ j ≤ m,Fm+k(u) ≤ 0, 1 ≤ k ≤ p.

Nous supposons K non vide. Nous montrons le

Theoreme 2.7 Nous considerons les points u de K tels que la propriete suivante soitverifiee (contraintes mixtes qualifiees):Les contraintes egalites sont regulieres en u, et les contraintes inegalite sont qualifieesen u, ou le vecteur de qualification w0 est dans l’ensemble (V ect(F ′

1(u), ..., F′m(u)))⊥.

Pour que u soit minimum de J sur K, il faut qu’il existe λ1, ..., λm, λm+1, ..., λm+p,∀i ∈ 1, ..., p, λm+i ≥ 0 tel que

J ′(u) +

m+p∑

j=1

λjF′j(u) = 0, λkFk(u) = 0, k ≥ m+ 1.

Nous proposons deux preuves. La premiere preuve s’appuie directement sur ladefinition des contraintes mixtes qualifiees, nous allons construire une suite de di-rections admissibles. On sait bien sur que l’ensemble des directions admissibles estinclus dans w, (F ′

j(u), w) = 0∀j, 1 ≤ j ≤ m, (F ′m+k(u), w) ≤ 0, k ∈ I(u), ou

I(u) = k, Fm+k(u) = 0. On considere ainsi

w(δ, xj) = w + δw0 +

m∑

j=1

xjF′j(u).

On resout tout d’abord

t−1Fj(u+ tw(δ, xj)) = 0, 1 ≤ j ≤ m.

Page 33: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

2.4. MULTIPLICATEURS DE LAGRANGE 33

C’est un systeme de m equations a m inconnues et deux parametres. Quand nouscalculons le jacobien de ce systeme, il est non nul en (t, δ) = (0, 0) car les contraintesegalite sont regulieres en u. En effet, si on note φj(t, δ, x) la fonction ci-dessus,

∂φj

∂xk(t, δ, x) = (F ′

j(u+ tw(δ, x)), F ′k(u))

et φj(0, δ, x) = (F ′j(u), w+ δw0 +

xkF′k(u)) =

k xk(F′j(u), F

′k(u)). Ainsi on verifie

que le point (t, δ) = (0, 0), x = 0 est une solution du systeme et le jacobien en ce pointest inversible. On en conclut qu’il existe m fonctions Xj telles que

∀j, 1 ≤ j ≤ m,Fj(u+ tw(δ,Xj(t, δ))) = 0.

Considerons maintenant les contraintes actives. On calcule ainsi le developpementlimite

Fm+k(u+ tw(δ,Xj(t, δ))) = t(F ′m+k(u), w + δw0 +

Xj(t, δ)F′j(u)) + o(t)

= t[δ(F ′m+k(u), w0) +

Xj(t, δ)(F′m+k(u), F

′j(u)) + o(1)].

Dans le crochet, le premier terme est strictement negatif et le deuxieme tend vers0 si (t, δ) tend vers 0. Il s’agit de montrer precisement ce resultat. Il s’appuie sur

φj(0, δ, 0) = 0 ainsi que sur∂φj

∂δ(t, δ, x) = (F ′

j(u + tw + t∑

xkF′j(u) + tδw0), w0). On

en deduit que∂φj

∂δ(0, δ, 0) = 0. Donc, considerant l’identite

φj(t, δ,X(t, δ)) = 0

et la derivant par rapport a δ, il vient donc

∂φj

∂δ(t, δ,X(t, δ)) +

k

∂φj

∂xk(t, δ,X(t, δ))∂X(t,δ)

∂δ= 0.

Appliquant en t = 0 pour lequel X(0, δ) = 0 et utilisant l’inversibilite de la matrice(F ′

j(u), F′k(u)) on trouve que ∂X

∂δ(0, δ) = 0.

Enfin, on regarde pour p indice actif

Fm+p(u+ t(w + δw0 +∑

kXk(t, δ)F′k(u)))

= t[(F ′m+p(u), w + δw0 +

kXk(t, δ)F′k(u)) + ot(1)]

= t[(F ′m+p(u), w) + (F ′

m+p(u),∑

k(Xk(t, δ) −Xk(0, δ))F′k(u) + o(t)

+δ[(F ′m+p(u), w0) +

kXk(0,δ)

δ(F ′

m+p(u), F′k(u))]]

On peut alors choisir δ independamment de t de sorte que le terme [(F ′m+p(u), w0) +

kXk

0,δ δ(F′m+p(u), F

′k(u))] soit strictement negatif pour δ ≤ δ0. Alors la limite lorsque

t tend vers 0 du crochet est negative ou nulle, donc pour t < ε0 on trouve

(F ′m+p(u), w) + (F ′

m+p(u),∑

k(Xk(t, δ) −Xk(0, δ))F′k(u)) + o(t)

< 12 |(F ′

m+p(u), w0) +∑

kXk(0,δ0)

δ0(F ′

m+p(u), F′k(u))|

Les points u + t(w + δ0w0 +∑

kXk(t, δ0)F′k(u)) verifient la contrainte Fm+p(v) ≤ 0

pour t < ε0. Ainsi on peut faire le meme raisonnement pour toutes les contraintesactives, d’ou le resultat attendu: construction d’une suite qui montre que w est unedirection admissible puisque ce raisonnement est valable pour tout δ ≤ δ0.La deuxieme methode correspond a la resolution locale du probleme. Nous allons faire

Page 34: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

34 CHAPTER 2. EULER-LEGENDRE

la resolution des contraintes egalite au voisinage d’un point regulier. Pour cela, on fixeun point u0 qui verifie les contraintes, autour duquel nous allons etudier le probleme.Considerons F = V ect(F ′

1(u0), ..., F′m(u0). On utilise la projection orthogonale sur

F . Alors a tout point u de V on associe m reels sj(u) et un element π(u) de F⊥ telsque u =

j Sj(u)F′j(u0) + π(u). Le systeme

Fj(u) = 0, 1 ≤ j ≤ m

se reecrit, pour r ∈ F⊥

Fj(∑

k

skF′k(u) + π(u0) + r) = 0, 1 ≤ j ≤ m.

Comme les contraintes sont regulieres on peut donc resoudre localement le systeme

Fj(∑

k

skF′k(u) + r + π(u0)) = 0, 1 ≤ j ≤ m.

On trouve alors sk(r), pour tout r ∈ F⊥, tel que u =∑

sk(r)F′k(u) + r+π(u0) verifie

les m contraintes egalite, sachant que sk(0) = Sk(u0) pour tout k. On se ramene doncau probleme de minimisation sous contraintes de

J(r) = J(∑

sk(r)F′k(u) + r + π(u0))

sous les contraintes inegalite Gp(r) = Fm+p(∑m

k=1 sk(r)F′k(u)+r+π(u0)) dans l’espace

F⊥.Comme sk(r + εw) = sk(r) + ε(s′k(r), w) + o(ε), il est alors clair que

(G′p(r), w) = (F ′

m+p(∑

k

sk(r)F′k(u) + r), w +

k

(s′k(r), w)F ′k(u))).

En excluant de notre propos les contraintes affines, nous supposons donc que lescontraintes Fm+p sont qualifiees, la direction de qualification etant w0 dans F⊥. Nousallons trouver une direction w dans F⊥ pour laquelle Gp forment des contraintesqualifiees. On sait d’autre part que les identites, pour 1 ≤ j ≤ m,

Fj(u(r)) = 0

ou u(r) = π(u0) + r +∑

k sk(r)F′k(u) + r impliquent les relations

∀w ∈ F⊥,∀j, 1 ≤ j ≤ m,∑

k

(F ′j(u(r)), F

′k(u))(s

′k(r), w) + (F ′

j(u(r)), w) = 0.

Pour r = 0, on verifie que (F ′j(u(r)), w) = (F ′

j(u), w) = 0, donc nous avons l’egalite

∀w ∈ F⊥,∀j, 1 ≤ j ≤ m,∑

k

(F ′j(u), F

′k(u))(s

′k(0), w) = 0.

Comme les contraintes sont regulieres, le systeme ci-dessus, ou les inconnues sont(s′k(0), w), est inversible, homogene, donc sa solution est la solution nulle. On trouvedonc

∀w ∈ F⊥,∀k, 1 ≤ k ≤ m, (s′k(0), w) = 0.

Page 35: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

2.4. MULTIPLICATEURS DE LAGRANGE 35

Nous cherchons a montrer que l’on peut ecrire un critere de qualification en u. Lepoint u0 correspond a r = 0 et a sk(0) = Sk(u0) comme nous l’avons vu plus haut.On voit ainsi que, pour tout w ∈ F⊥

(G′p(0), w) = (F ′

m+p(u0), w)

car (s′k(0), w) = 0. Ainsi, on trouve que (G′p(0, w0) < 0. Les contraintes Gp sont alors

qualifiables en 0.On peut alors appliquer le theoreme des multiplicateurs de Lagrange: il existe (λ1, ..., λq)positifs ou nuls tels que

J ′(0) +∑

p

λpG′p(0) = 0. (2.4.5)

On controle alors que

(J ′(0), w) = limε→0J(π(u0)+r+εw+

P

k sk(r+εw)F ′

k(u0))−J(u0)

ε

= (J ′(u0), w) +∑

k(J′(u0), F

′k(u0))(s

′k(0), w) = (J ′(u0), w).

On controle aussi que si on note Fj(r) = Fj(u(r)), comme cette fonction est iden-tiquement nulle, la derivee est nulle donc elle n’intervient pas dans l’ecriture de larelation des multiplicateurs de Lagrange. En revanche, si on veut revenir aux fonc-tions Fj et Fm+p et exprimer le resultat (2.4.5) avec ces fonctions ainsi qu’avec J ,il est necessaire d’introduire des multiplicateurs de Lagrange supplementaires commenous allons le voir dans l’exemple qui suit.Le probleme correspondant en dimension finie fait aussi l’objet de la section 6.4.5 dansla partie sur les algorithmes. Nous allons reecrire le probleme dans le cas ou l’espacede base est IR3, la condition de type egalite conduit a z = φ(x, y), ou encore, notantF la constante, F (x, y, φ(x, y)) = 0. La fonctionnelle a minimiser est J(x, y, z), lacontrainte inegalite est h(x, y, z) ≤ 0. On reecrit donc le probleme sous la forme

infh(x,y,φ(x,y))≤0J(x, y, φ(x, y)).

On suppose que la contrainte est active. On ecrit le theoreme des multiplicateurs deLagrange: ∃λ ≥ 0,

∂J∂x

+ λ∂h∂x

= 0∂J∂y

+ λ∂h∂y

= 0

Comme ∂J∂x

= ∂xJ + ∂zJ∂xφ, ∂h∂x

= ∂xh+ ∂zh∂xφ, on trouve

∂xJ + λ∂xh+ (∂zJ + λ∂zh)∂xφ = 0. (2.4.6)

On introduit alors µ tel que

∂zJ + λ∂zh+ µ∂zF = 0

On remarque que ∂xF + ∂zF∂xφ = 0, donc

(∂zJ + λ∂zh)∂xφ+ µ∂xφ∂zF = 0

ou encore(∂zJ + λ∂zh)∂xφ = µ∂xF

Page 36: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

36 CHAPTER 2. EULER-LEGENDRE

On remplace cette identite dans l’egalite (2.4.6) pour obtenir

∂xJ + λ∂xh+ µ∂xF = 0.

On a de meme∂yJ + λ∂yh+ µ∂yF = 0

d’ou l’egalite des multiplicateurs de Lagrange pour un probleme mixte.

2.4.3 Le probleme des entrepots

On resout ici le probleme de deux entrepots et de deux lieux de livraison decrit dansl’introduction. Les contraintes s’ecrivent (on met a cote le multiplicateur de Lagrange)

−vij ≤ 0 µij ≥ 0v11 + v21 = r1 λ1

v12 + v22 = r2 λ2

s1 − v11 − v12 ≤ 0 µ1 ≥ 0s2 − v21 − v22 ≤ 0 µ2 ≥ 0

On verifie d’abord que, comme r1r2 > 0, v11 et v21 ne sont pas nuls en meme temps,pareil pour v12 et pour v22. De meme avec s1s2 > 0, on ne peut pas avoir v11 et v12nuls en meme temps et v21 et v22 nuls en meme temps (afin de determiner quelles sontles contraintes actives). On etudie les cas suivants

1. aucun des vij n’est nul

2. v11 = v22 = 0 (auquel cas on connait v21 = r1, v12 = r2)

3. v12 = v21 = 0 (auquel cas on connait v11 = r1, v22 = r2)

4. v11 = 0 (d’ou v21 = r1)

5. v21 = 0 (d’ou v11 = r1)

6. v12 = 0 (d’ou v22 = r2)

7. v22 = 0 (d’ou v12 = r2)

Dans le premier cas, tous les µij sont nuls. Le systeme des multiplicateurs de Lagrange(en supposant µ1 et µ2 non nuls, soit les egalites v11+v12 = s1 ainsi que v21+v22 = s2,ce qui donne s1 + s2 = r1 + r2) est

c11 + λ1 − µ1 = 0c12 + λ2 − µ1 = 0c21 + λ1 − µ2 = 0c22 + λ2 − µ2 = 0

Ce systeme implique alors la condition c11 + c22 = c12 + c21. Si cette condition n’estpas verifiee, on sait que l’hypothese du premier cas est impossible.Si cette condition est verifiee, on ecrit c12 − c22 = c11 − c21, et on regarde la fonctioncout

φ = c11v11 + c12v12 + c21v21 + c22v22 = c21r1 + c22r2 + (c11 − c21)v11 + (c12 − c22)v12= c21r1 + c22r2 + (c11 − c21)(v11 + +v12) = c11r1 + c12r2 + (c22 − c12)(v21 + v22)

Page 37: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

2.4. MULTIPLICATEURS DE LAGRANGE 37

Dans le cas ou les deux conditions sont realisees il vient que la fonction cout estconstante et vaut c11r1 + c12r2 + (c22 − c12)s2. Si on a l’egalite v11 + v12 = s1 etv21 + v22 > s2. Alors µ2 = 0 et on a le systeme

c11 + λ1 − µ1 = 0c12 + λ2 − µ1 = 0c21 + λ1 = 0c22 + λ2 = 0

On en tire µ1 = c11 − c21 = c12 − c22 (soit la meme condition) et la fonction cout estconstante aussi. Sa valeur est alors c12s1 + c21r1 + c22(r2 − s1).Dans les cas 2 et 3, on connait toutes les inconnues, donc on calcule la valeur de lafonction cout. Dans les cas suivants, on se ramene a une seule inconnue (dans le cas4 et 5 on prend v12 et dans les cas 6 et 7 on prend v11). La fonction cout s’ecrit alorsa+bx, ou x est l’inconnue et b est le coefficient dependant des cij . On n’a pas besoin dusysteme des multiplicateurs de Lagrange dans ce cas et il faut determiner l’intervallede variation de x. Le probleme se ramene donc a la comparaison de la valeurde la fonction cout sur le bord du domaine (methode du simplexe).

2.4.4 Demonstration du lemme de Kantorovich

Le lemme de Kantorovich, qui sera utilise dans l’etude de l’algorithme de gradient a

pas optimal (chapitre 6.4.2) consiste en l’etude du maximum de 1− (y,y)2

(Ay,y)(A−1y,y)afin

de trouver le moins bon des taux de convergence possibles pour cet algorithme. Onetudie alors le probleme de maximisation sans contrainte de

(A−1y, y)(Ay, y)

(y, y)2.

Il est equivalent au probleme de maximisation avec contrainte sur la fonctionnelle(A−1y, y)(Ay, y) sur |y| de norme 1, puisque la fonctionnelle du lemme de Kantorovichest homogene d’ordre 0.

On doit donc calculer sur les vecteurs de norme 1

sup(∑

λpy2p)(∑

λ−1p y2

p).

On suppose pour simplifier que toutes les valeurs propres sont distinctes, λ1 <λ2 < ... < λm.

On voit que l’egalite du multiplicateur de Lagrange s’ecrit

yj[λ−1j (∑

λpy2p) + λj(

λ−1p y2

p) + µ] = 0∀j.

On remarque d’abord que l’egalite x−1a + xb = −µ a au plus deux solutions xquand a et b sont non nuls. Donc il existe au plus deux valeurs distinctes de j tellesque yj 6= 0 (en notant a =

λpy2p et b =

λ−1p y2

p).Dans le cas ou y = (δii0), on voit que la fonctionnelle vaut 1. On comparera cette

valeur a celle obtenue dans le cas ou il y a deux valeurs possibles pour i, pour lequelon a a etudier

(λpy2p + λqy

2q )(λ

−1p y2

p + λ−1q y2

q) = y4p + y4

q + (λqλp

+λpλq

)y2py

2q .

Page 38: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

38 CHAPTER 2. EULER-LEGENDRE

C’est une fonctionnelle concave, donc en prenant x = y2p, on se ramene a f(x) =

x2 + (1− x)2 + (λq

λp+

λp

λq)x(1− x), concave, qui est maximum pour x = 0.5. La valeur

du maximum est alors 12 + 1

4 (λq

λp+λp

λq) et comme la fonction 1

2 + 14(t+ 1

t) est strictement

croissante pour t ≥ 1, sa plus grande valeur est obtenue, dans l’hypothese λp > λq,

pour t = maxλp

λq= λmax

λmin.

On remarque alors que cette valeur est plus grande que la valeur en t = 1, qui estexactement 1, lorsque γ 6= 0.

Les deux seuls cas possibles sont alors• un seul des yi est non nul, auquel cas on trouve 1 pour la valeur de la fonctionnelle• deux valeurs de yi sont non nulles, et on trouve le resultat precedent. On

remarque alors que la valeur obtenue dans le paragraphe precedent est maximum sip = 1 et q = n, soit yj = 0 pour j 6= 0 et j 6= n, et y1 = ± 1√

2, yn = ± 1√

2.

On verifie que la valeur de la derivee seconde de f(x) est

f”(x) = 2(2 − λqλp

+λpλq

) = 2(λqλp

− 1)(λpλq

− 1)

et comme si λp/λq est plus grand que 1, λq/λp est plus petit que 1 donc le produit estnegatif.

Ce calcul est aussi celui qui prouve que la valeur 1 est plus petite que 12 + 1

4(λq

λp+λp

λq).

2.4.5 Calcul de la constante optimale de Poincare

ON sait (voir chapitre sur les formulations variationnelles ??) que si u ∈ H10 (Ω) et si

Ω est un ouvert borne, alors il existe une constante Cp, appelee constante de Poincare,telle que

Ω|∇u|2dx ≥ Cp

Ω|u|2dx.

Pour se souvenir de l’ordre, il est conseille de se souvenir de l’egalite

u(x) =

∫ x

0u′(t)dt, u(0) = 0

et d’appliquer l’inegalite de Cauchy-Schwartz, qui donne (u(x))2 ≤ x||u′||2L2([0,1], d’ou

∫ 10 (u(x))2dx ≤ 1

2 ||u′||2L2([0,1].Trouver la meilleure constante Cp, c’est trouver la plus grande constante Cp.

Proposition 2.2 La meilleure constante de Poincare est la plus petite valeur del’operateur −∆ avec condition de Dirichlet nulle au bord.

Controlons que

J(u) =R

Ω |∇u(x)|2dxR

Ω|u(x)|2dx

est plus grande que Cp, donc nous cherchons le minimum de J . Trouver le minimumde J est alors equivalent a trouver la solution de

infRΩ |∇u|2dx

sous la contrainte∫

Ω |u|2dx = 1 et u dans H10 (Ω). En effet, si on considere la fonction

v = uk, avec k = (

Ω |u|2dx)12 , elle verifie

Ω v2dx = 1. La formulation variationnelle

Page 39: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

2.4. MULTIPLICATEURS DE LAGRANGE 39

(qui n’est autre que l’application du theoreme des multiplicateurs de Lagrange dansH1

0 (Ω) implique qu’il existe λ tel que

∀w ∈ H10 (Ω), (J ′(u), w) + λ((k2)′(u), w) = 0.

Cette egalite se traduit

∀w ∈ Ω

Ω(∇u∇w + λuw)dx = 0

donc −∆u + λu = 0 dans D′(Ω), donc λ est une valeur propre du Laplacien aveccondition de Dirichlet sur Ω. On a alors

J(u) =

Ω(∇u)2dx = −

Ω∆uudx = −λ

u2dx = −λ.

La proposition est demontree.Dans le cas particulier de l’intervalle [0, L], on voit que u′′ = λu, donc si λ > 0 lasolution est une combinaison A cosh

√λx + B sinh

√λx, donc A = 0 puis B = 0.

Necessairement, λ < 0, on note λ = −ω2, donc u(x) = A cosωx + B sinωx. Comme

u(0) = 0, A = 0, et comme u(L) = 0, B sinωL = 0, donc ωL = nπ, donc λ = −n2π2

L2 .

La plus petite est alors π2

L2 , qui est la constante de Poincare pour un segment.

Page 40: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

40 CHAPTER 2. EULER-LEGENDRE

Page 41: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

Chapter 3

Calcul des variations, lagrangien,hamiltonien.

3.1 Introduction et un peu d’histoire

Dans cette section, qui est a l’origine des theories des extrema et de calcul des vari-ations, on considere des fonctions d’un intervalle de IR dans un espace de Hilbert H.Comme dans l’exemple 8 de l’introduction, il peut s’agir de la trajectoire d’une par-ticule, le parametre important variant dans un intervalle de IR etant le temps. Il peutaussi s’agir de l’equation d’une courbe dans le plan Oxy, sous la forme y = y(x). Lesnotations employees sont extremement variees, et nous les mettrons en relation. Alorson minimise un critere J , qui s’appelle une integrale d’action, sous une contrainte,qui peut etre les points origine et destination de la courbe, ou une contrainte de typecommande sous la forme inf J(x, u) ou x est solution de x = f(x, u, t). Il peut s’agiraussi d’une contrainte integrale, comme une contrainte sur la longueur de la courbey = y(x): l =

∫ x2

x1(1 + (y′)2)

12 dx. Les resultats de ce chapitre sont tres anciens; ils

forment la base du calcul classique des variations. Les methodes que nous verronsmontrent en quel sens le mot “variations” doit etre entendu.

En 1696, Leibniz a resolu le probleme de la brachistochrone. Il faut trouverla courbe qui realise le minimum du temps de parcours entre deux points (x1, y1) et(x2, y2) dans un meme plan vertical lorsque le point materiel glissant est soumis a laforce de pesanteur. Ce probleme avait ete pose par J. Bernoulli1. Ce probleme peutetre facilement resolu car les contraintes peuvent etre incluses a une integrale premiere.Cependant, apres sa publication, des problemes plus generaux ont ete enonces sous lenom general de problemes isoperimetriques, et on peut les resumer en “quelles sont lescourbes de longueur donnee qui entourent la plus grande surface?”. Le premier de cesproblemes est legendaire, comme nous l’avons rappele dans l’exemple 11 (Probleme deDidon). En effet, Didon, descendante des Troyens et fuyant sa cite apres la chute deTroie, a demande a Jarbas, roi des terres africaines, la terre que pouvait recouvrir unepeau d’un bœuf. Ce roi, ne pensant pas a une quelconque astuce, accepta et Didondecoupa la peau d’un bœuf en de fines lanieres, qu’elle attacha entre elles (et si onsuppose que la largeur de la laniere etait d’un millimetre, la longueur obtenue etaitdonc de 1000S). Elle forma la plus grande surface enclose par cette laniere s’appuyant

1Problema novum, ad cujus solitionem mathematici invitantur

41

Page 42: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

42 CHAPTER 3. CALCUL DES VARIATIONS

sur la cote mediterraneenne, et fonda Carthage, la grande rivale de Rome2.J. Bernoulli demanda a un de ses eleves, le mathematicien L. Euler, de resoudre ce

probleme, ce qu’il fit en 17443, par une methode de serie, suivi en 1755 par Lagrange,qui inventa la methode classique de calcul des variations. Continuant ses travaux,Lagrange introduisit ses multiplicateurs en 1797.

3.2 Problemes isoperimetriques

3.2.1 Egalite d’Euler-Lagrange

On considere ici y(x) ∈ C1([x1, x2]), y(x1) = y1, y(x2) = y2 et on cherche a minimiser:

I(y) =

∫ x2

x1

f(x, y, y′)dx

ou f est une fonction de classe C2(IR ×H ×H).On suppose connue une famille de fonctions y(x, ε) telle que y(x1, ε) = y1, y(x2, ε) =

y2 et y(x, 0) = y0(x), solution a trouver du probleme de minimisation. On supposey ∈ C2([x1, x2] × [0, ε0]). On introduit la premiere variation de y:

η(x, ε) =∂y

∂ε(x, ε)

(ce qui explique le nom de calcul des variations). On se ramene donc a une fonctionde ε:

J(ε) = I(y(., ε)).

Une condition necessaire pour que y0 soit une solution du probleme de minimisationest la suivante:

J ′(0) = 0.

Par application du theoreme de derivation sous le signe integral, et en remarquantque comme y est de classe C2, alors ∂

∂ε(y′(x, ε)) = ∂

∂x(∂y∂ε

(x, ε)) = η′(x, ε), on obtient

∫ x2

x1

(∂yf(x, y0(x), y′0(x)).η(x, 0) + ∂y′f(x, y0(x), y

′0(x)).η

′(x, 0))dx = 0. (3.2.1)

Notons dans cette egalite comme dans l’ecriture de f que l’on a considere le terme y′

comme une variable independante de y et non comme la derivee de y par rapport a x.On utilise alors la relation y(x1, ε) = y1, de sorte que, en derivant par rapport a

ε, η(x1, ε) = 0. De meme, η(x2, ε) = 0. On peut alors utiliser ces conditions de bordpour effectuer une integration par parties:

∫ x2

x1

∂y′f(x, y0(x), y′0(x)).η

′(x, 0)dx = −∫ x2

x1

d

dx(∂y′f(x, y0(x), y

′0(x))).η(x, 0)dx.

2Delenda Cartago est! (Caton)3Methodus inveniendi lineas curvas maximi minimive proprietate gaudentes, sive solutio problema-

tis isoperimetrici latissimo sensu accepti

Page 43: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

3.2. PROBLEMES ISOPERIMETRIQUES 43

En ecrivant l’egalite (3.2.1) et en verifiant qu’elle est vraie quelle que soit la fonctionη(x, 0) nulle en x1 et en x2 (pour s’en convaincre, il suffit d’ecrire y(x, ε) = y0(x) +εg(x), ou g est nulle aux deux bouts), on trouve l’equation d’Euler-Lagrange:

d

dx(∂f

∂y′(x, y0(x), y

′0(x))) =

∂f

∂y(x, y0(x), y

′0(x)). (3.2.2)

Bien sur, cette equation s’obtient facilement en utilisant le theoreme 2.4 demontredans le chapitre 2. Nous allons l’etablir de deux facons distinctes. Avant cela, cepen-dant, donnons un resultat important lorsque f ne depend que des variables de positiony et y′:

Lemme 3.1 Lorsque f ne depend pas de x, une solution des equations d’Euler verifiel’egalite suivante:

d

dx

(

y′0∂y′f(y0, y′0))

− f(y0, y′0)) = 0.

Cette egalite donne une integrale premiere.

La demonstration intuitive la plus facile est de voir comment varie l’action lorsquel’integrale d’action est minimale, soit

ddx

(f(y0, y′0)) = ∂yf(y0, y

′0)y

′0 + ∂y′f(y0, y

′0)y

′′0

= ddx

(∂y′f(y0, y′0))y

′0 + ∂y′f(y0, y

′0)y

′′0

= ddx

(y′0∂y′f(y0, y′0)).

3.2.2 Derivee de Frechet et de Gateaux, inegalite d’Euler-Lagrange

Dans un premier temps, en vue d’appliquer le theoreme 2.4 , nous allons calculer laderivee de Frechet (qui existe puisque f est de classe C2) de J . En fait, nous allonscalculer deux objets:

• le produit scalaire (J ′(y0), w) pour w ∈ K(y0),• la distribution J ′(y0).Le cone des directions admissibles K(y0) ⊂ H1(]x1, x2[) est l’ensemble des w tels

qu’il existe wn et en > 0 tels que en → 0 et wn → w et (y0+enwn) est dans l’espace descontraintes, soit y0(x1)+ enwn(x1) = y1 = y0(x1) et y0(x2)+ enwn(x2) = y2 = y0(x2).Comme en > 0, on trouve que wn(x1) = wn(x2) = 0. Comme les fonctions H1(]x1, x2[)sont continues aux bords x1 et x2, et que l’application trace est continue, on en deduitque w(x1) = w(x2) = 0. Reciproquement, si w(x1) = w(x2) = 0, on construit y0 + 1

nw

qui verifie bien les contraintes.

K(y0) = H10 ([x1, x2]).

Alors le calcul de (J ′(y0), w), qui est le calcul de la limite

limε→0

J(y0 + εw) − J(y0)

ε

conduit exactement a

∀w ∈ H1([x0, x1]),

∫ x2

x1

(∂f

∂y(x, y0, y

′0) −

d

dx(∂f

∂y′(x, y0(x), y

′0(x))))w(x)dx ≥ 0

Page 44: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

44 CHAPTER 3. CALCUL DES VARIATIONS

Le cone des directions admissibles est un espace vectoriel, donc cette inegalite devientune egalite, et cette egalite entraine l’equation d’Euler-Lagrange.

D’autre part, pour w ∈ H1([x1, x2]), une integration par parties conduit a

(J ′(y0), w) =∫ x2

x1(∂f∂y

(x, y0, y′0) − d

dx( ∂f∂y′

(x, y0(x), y′0(x))))w(x)dx

+ ∂f∂y′

(x2, y0(x2), y′0(x2))w(x2) − ∂f

∂y′(x1, y0(x1), y

′0(x1))w(x1).

En utilisant la distribution de Dirac (δx1 , w) = w(x1), on trouve

J ′(y0) = ∂f∂y

(x, y0, y′0) − d

dx[ ∂f∂y′

(x, y0(x), y′0(x))]

+ ∂f∂y′

(x2, y0(x2), y′0(x2))δx2 − ∂f

∂y′(x1, y0(x1), y

′0(x1))δx1 .

L’emploi des multiplicateurs de Lagrange pour des contraintes egalites, qui sont re-spectivement F1(y) = y(x1) − y1 et F2(y) = y(x2) − y2, ce qui donne F ′

1(y0) = δx1 etF ′

2(y0) = δx2 , conduit a

J ′(y0) + λ1F′1(y0) + λ2F

′2(y0) = 0

(notons ici le retablissement des signes permettant d’avoir la meme formulation pourles contraintes egalite et inegalite). On trouve alors l’equation d’Euler-Lagrange et lesegalites, qui donnent les multiplicateurs de Lagrange:

λ1 =∂f

∂y′(x1, y0(x1), y

′0(x1)), λ2 = − ∂f

∂y′(x2, y0(x2), y

′0(x2)). (3.2.3)

Cette egalite aura une tres jolie interpretation ci-dessous.

3.2.3 Egalite d’Euler-Lagrange pour une contrainte integrale

Dans cette section, nous cherchons la solution de

inf

∫ x2

x1

f(x, y, y′)dx

sous les contraintes∫ x2

x1g(x, y, y′)dx = C, y(x1) = y1, y(x2) = y2. Le cas modele est

le probleme de Didon: f(x, y, y′) = y et g(x, y, y′) = (1 + (y′)2)12 .

Une methode usuelle classique consiste a employer une double variation, c’est-a-dire a tenir compte de la contrainte

∫ x2

x1g(x, y, y′)dx = C en ajoutant a une premiere

variation y0 + εη1 une deuxieme variation faite pour la contrebalancer:

y0 + ε1η1 + ε2η2.

On introduit dans η1 et η2 les contraintes d’extremite sous la forme ηi(xj) = 0,i, j = 1, 2.On ecrit alors que I =

∫ x2

x1f(x, y, y′)dx et C =

∫ x2

x1g(x, y, y′)dx sont deux

fonctions de ε1 et de ε2, et on forme

∆(ε1, ε2) =

(

∂I∂ε1

∂I∂ε2

∂C∂ε1

∂C∂ε2

)

.

Ce determinant doit etre nul pour y0, solution, en ε1, ε2. En effet, si ∆ 6= 0, il estclair que le couple (I, C) ne stationne pas, alors que par hypotese C est constant

Page 45: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

3.2. PROBLEMES ISOPERIMETRIQUES 45

donc stationne et I stationne (noter l’emploi du mot “stationne”). Par integrationpar parties, on trouve

∆(ε1, ε2) =

(

∫ x2

x1(∂yf − d

dx(∂y′f))η1dx

∫ x2

x1(∂yf − d

dx(∂y′f))η2dx

∫ x2

x1(∂yg − d

dx(∂y′g))η1dx

∫ x2

x1(∂yg − d

dx(∂y′g))η2dx

)

.

On note les deux reels λ1 =∫ x2

x1(∂yf− d

dx(∂y′f))η2dx et λ2 =

∫ x2

x1(∂yg− d

dx(∂y′g))η2dx.

Si les deux reels sont nuls pour tous les choix de η2, cela veut dire que f et g verifienttous deux l’equation d’Euler. Nous verrons ce cas plus tard. Sinon, on note, pour unη2 donne non nul, que, pour tout η1:

∫ x2

x1

[λ2(∂yf − d

dx(∂y′f)) − λ1(∂yg −

d

dx(∂y′g))]η1dx = 0

ce qui donne l’existence d’un h = f + λg tel que h verifie l’equation d’Euler. Lorsquef et g verifient toutes deux l’equation d’Euler, alors cette equation est verifiee quelque soit λ.

A l’evidence, cette methode est celle que l’on emploie pour les multiplicateurs deLagrange. On ecrit ainsi l’existence de λ, λ1, λ2 tels que

J ′(y0) + λC ′(y0) + λ1F′1(y0) + λ2F

′2(y0) = 0

(par application du theoreme 2.5). Ainsi on trouve immediatement, sans avoir besoinde considerer des variations qui se compensent:

∂yf − ddx

(∂y′f) + λ(∂yg − ddx

(∂y′g))+(λ1 − ∂yf(x1, y1, y

′0(x1)) − λ∂yg(x1, y1, y

′0(x1)))δx1

+(λ2 + ∂yf(x2, y2, y′0(x2)) + λ∂yg(x2, y2, y

′0(x2)))δx2 = 0.

L’ecriture de l’equation d’Euler pour −y + λ(1 + (y′)2)12 donne

1 =d

dx(λ

y′

(1 + (y′)2)12

)

soit encore

y′

(1 + (y′)2)12

=x

λ.

On obtient y′ = ± x

(λ2−x2)12, dont la solution s’ecrit

y(x) = y(x1) ± (λ2 − x2)12 .

On suppose y1 < y2, donc y(x) = y1 + (λ2 − x21)

12 − (λ2 − x2)

12 car y(x1) = y1. On

identifie λ en ecrivant y(x2) = y2, soit (λ− x22)

12 − (λ− x2

1)12 = y1 − y2, ce qui permet

de trouver les valeurs de (λ2 − x22)

12 et (λ2 − x2

1)12 . Lorsque y1 = y2 = 0, on trouve un

demi-cercle de rayon R et l’aire est πR2, correspondant a R = 1000S2π .

Page 46: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

46 CHAPTER 3. CALCUL DES VARIATIONS

3.2.4 Les problemes de Bolza

On peut aussi vouloir inclure les contraintes dans la fonctionnelle a minimiser. Laclasse de problemes correspondants s’ecrit

inf[

∫ x2

x1

f(x, y, y′)dx+ l(y(x1), y(x2))].

Il est clair que l’on obtient l’equation d’Euler:

d

dx(∂f

∂y′(x, y0, y

′0)) =

∂f

∂y(x, y0, y

′0)

et les equations sur les contraintes

∂u1 l(y(x1), y(x2)) = ∂y′f(x1, y(x1), y′(x1))

∂u2 l(y(x1), y(x2)) = −∂y′f(x2, y(x2), y′(x2)).

Prenons un exemple simple pour le probleme de Bolza:

lε(u1, u2) =1

ε[(u1 − y1)

2 + (u2 − y2)2].

Soit y0 la solution du probleme de minimisation de J(y) =∫ x2

x1f(x, y, y′)dx avec

les contraintes y(x1) = y1, y(x2) = y2. Si K = y, y(x1) = y1, y(x2) = y2, alors, pourtout y ∈ K, J(y) + lε(y(x1) − y1, y(x2) − y2) = J(y). On utilise alors

infy∈H1

J(y) + lε(y(x1) − y1, y(x2) − y2) ≤ infy∈K

J(y) = J(y0).

On note la solution du probleme de Bolza yε. Ainsi

J(yε) + lε(yε(x1) − y1, yε(x2) − y2) ≤ J(y0)

Ainsi J(yε) est majore. De plus, si on suppose f positive, lε(yε(x1) − y1, yε(x2) − y2)est majoree par J(y0). On en deduit que la suite (yε(xj)) converge vers yj, j = 1..2.En revanche, on ne sait rien sur la convergence de la suite yε dans ce cadre la. Il fautse reporter au chapitre concernant le programme convexe pour comprendre et obtenirdes resultats convaincants; cela s’appellera la penalisation des contraintes.

3.3 Les equations d’Euler pour les problemes de la mecanique

On considere un probleme de la mecanique du point, ainsi on introduit les coordonnees(x, y, z) et on veut retrouver mX = ~f lorsque m est la masse de la particule, X =(x, y, z) et ~f = −∇U est la force derivant d’un potentiel. Analysons d’abord lephenomene. Il est classique de reconnaitre, en multipliant les equations par X et eninegrant sur 0, T , que

1

2m(X(T ))2 + U(X(T )) =

1

2m(X(0))2 + U(X(0)).

Cette egalite s’ecrit comme la conservation de l’energie. Ce n’est pas celle ci que l’onsouhaite obtenir, mais on cherche a interpreter le probleme comme la solution d’une

Page 47: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

3.4. FORMULATION HAMILTONIENNE 47

equation d’Euler. Il faut donc que mX = ~f s’ecrive ddt

( ∂f∂X

) = ∂f∂X

. Pour cela, il serait

simple d’avoir ∂f

∂X= mX et ∂f

∂X= −∇U . Une solution a variables separees est alors

f(X, X) =1

2m(X)2 − U(X).

On verifie que l’equation d’Euler dans ce cas est bien l’equation dite loi de Newton.On en deduit que

La solution des equations du mouvement d’une particule dans un champde forces conservatif, c’est-a-dire derivant d’un potentiel, est la fonctionqui minimise l’integrale d’action

A(X) =

∫ t1

t0

[1

2m(X(t))2 − U(X(t))]dt =

∫ t1

t0

(T − U)dt.

On a note ici l’energie cinetique T = 12m(X(t))2.

Soit L(q, q) = T (q)−U(q). Le changement de notation ici illustre la facon dont lesmecaniciens notent ce probleme. Si ξ est un element de l’espace H1(]t0, t1[), le calculde 1

ε[L(q0 + εξ, q0 + εξ) − L(q0, q0)] conduit a l’expression

L′(q0, q0) = ∂qL(q0, q0) −d

dt[∂qL(q0, q0)] + ∂qL(q0, q0)(t1)δt1 − ∂qL(q0, q0)(t0)δt0 .

La theorie des multiplicateurs de Lagrange avec q(t0) = q0, q(t1) = q1 donne alorsimmediatement le systeme

∂qL(q0, q0) − ddt

[∂qL(q0, q0)] = 0( equation d’Euler)q0(t0) = q0, q0(t1) = q1( contraintes actives)λ1 = −∂qL(q0, q0)(t1)λ0 = ∂qL(q0, q0)(t0)

L’ecriture des deux premieres egalites permet d’avoir les conditions d’extremite etl’equation de Newton. Les deux dernieres donnent les multiplicateurs de Lagrange.On obtient

λ1 = −mq0(t1), λ0 = mq0(t0).

On interprete alors les multiplicateurs de Lagrange comme les quantites de mou-vement aux extremites de la courbe. On verra que la quantite de mouvement (oul’impulsion) joue un role particulier ci-dessous.

3.4 Formulation hamiltonienne

On ecrit dans ce cas l’action L(q, q). On sait que la quantite q0∂qL(q0, q0)−L(q0, q0) seconserve. Generalisons en etudiant la quantite q(t)p(t)−L(q(t), q(t)). Cette quantitea pour derivee

q(p− ∂qL) + q(p− ∂qL).

On voit que cette quantite est nulle lorsque p = ∂qL et p = ∂qL, ce qui impliqueque q est solution de l’equation d’Euler. D’autre part, la maximisation de qp−L(q, q)

Page 48: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

48 CHAPTER 3. CALCUL DES VARIATIONS

dans le cas L convexe en q conduit a la premiere egalite p = ∂qL(q, q), ce qui porte unnom: transformation de Legendre. Revenant au cas ou L depend de t (car ceci n’estpas essentiel pour cette partie de l’analyse), soit

H(t, q, p) = maxq

(qp− L(t, q, q)).

Par definition, H est la transformee de Legendre de L lorsqu’elle existe, et on a leresultat suivant:

“La transformee de Legendre de H est L.”

Dans le cas de la mecanique du point L(t, q, q) = 12m(q)2 − U(q) ce qui donne

p = mq et ainsi H(t, q, p) = 12p2

m+ U(q). Apparait dans cette egalite l’energie qui est

l’hamiltonien, et la quantite de mouvement p qui est egale a mq.

On verifie que si la matrice hessienne de L en q au point (q, q) est definie positive(au voisinage de (q0, q0)), l’equation p = ∂qL(t, q, q) admet une solution unique par letheoreme des fonctions implicites, que l’on note Q(t, q, p). On verifie alors

H(t, q, p) = pQ(q, p) − L(t, q,Q(q, p)).

On trouve alors les relations

∂qH(t, q, p) = (p− ∂qL(t, q,Q(q, p))).∂qQ(t, q, p) − ∂qL(t, q,Q(q, p)) = −∂qL(t, q,Q(q, p))∂pH(t, q, p) = Q(t, q, p) + (p − ∂qL(t, q,Q(q, p))).∂pQ(t, q, p) = Q(t, q, p).

On remarque alors, par unicite de la solution de l’equation p = ∂qL, que pourp(t) = ∂L

∂q(t, q0(t), q0(t)), alors Q(t, q0(t), p(t)) = q0(t), soit

Q(t, q0(t),∂L

∂q(t, q0(t), q0(t))) = q0(t).

On en tire que, pour toute fonction q0(t), on a l’identite

∂pH(t, q0(t),∂L

∂q(t, q0(t), q0(t))) = q0(t).

Maintenant, si q0 est solution de l’equation d’Euler, on trouve

d

dt(∂L

∂q(t, q0(t), q0(t))) =

∂L

∂q(t, q0(t), q0(t)),

soit

d

dt(∂L

∂q(t, q0(t), q0(t))) = −∂qH(t, q0(t),

∂L

∂q(t, q0(t), q0(t))).

On en deduit le systeme, appele systeme hamiltonien:

dpdt

= −∂H∂q

(t, q0(t), p(t))dq0dt

= ∂H∂p

(t, q0(t), p(t))

On a ainsi transforme l’equation d’Euler, du second ordre, en un systeme d’equationdu premier ordre, appele systeme hamiltonien.

Page 49: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

3.4. FORMULATION HAMILTONIENNE 49

Lorsque, de plus, L ne depend pas de t, alors H ne depend pas de t et on sait queH(q0(t), p(t)) = H(q0(t0), p(t0)). L’hamiltonien est une integrale premiere du systemehamiltonien.

Reciproquement, soit H(t, q, p) l’hamiltonien associe a L(t, q, p) lorsque ∂2q2L >

0. La solution du systeme hamiltonien (q(t), p(t)) permet de construire q(t) par lapremiere equation du systeme hamiltonien, qui est q(t) = q(t), ou q(t) est la solutionde p(t) = ∂qL(t, q(t), q(t)) et la dexieme equation permet de verifier que

d

dt(∂qL(t, q(t), q(t)) = ∂pL(t, q(t), q(t)).

Soit L une action (un lagrangien) de la forme L(t, q(t), q(t)). Lorsque q(t) est unefonction donnee, L est une fonction de t uniquement. Lorsque on veut considerer lesproblemes d’integrale d’action, on se ramene a la fonctionnelle de IR× IRd× IRd dansIR qui a (t, q, q) fait correspondre L(t, q, q).

On a demontre la proposition suivante, dans le cas ou L est une fonction stricte-ment convexe dans les variables (q, q):

Proposition 3.1 On introduit le hamiltonien, fonctionnelle sur IR× IRd × IRd, par

H(t, q, p) = maxq

(pq − L(t, q, q)).

Dire que le couple de fonctions de IR dans IRd (q0(t), p0(t)) est solution du systemehamiltonien

q0(t) = ∂H∂p

(t, q0(t), p0(t))

p0(t) = −∂H∂q

(t, q0(t), p0(t))

p0(0) = p0, q0(0) = q0

equivaut a dire que

la fonction q0(t) est solution de l’equation d’Euler

d

dt(∂L

∂q(t, q0(t), q0(t))) =

∂L

∂q(t, q0(t), q0(t))

avec les conditions initiales q0(0) = q0, q0(0) = q0, ou q0 est la solution de p0 =∂L∂q

(t, q0, q0).

Ce systeme hamiltonien est tres couramment utilise en optique, mais il faut modifier pourcela la formulation de l’exemple 12 de l’introduction. En effet, l’equation d’Euler devient alors

d

dx(

y′(x)

c(x, y(x))(1 + (y′(x))2)1

2

) = −(1 + (y′(x))2)1

2

∂yc

c2(3.4.4)

d’ou on deduit

y”(x)

c(x, y(x))(1 + (y′(x))2)3

2

+1

c2(1 + (y′(x))2)1

2

∂xc =y′(x)

c2(1 + (y′(x))2)1

2

.

On en deduit donc

d

dx(

1

c(x, y(x))(1 + (y′(x))2)1

2

= −(1 + (y′(x))2)1

2

∂xc

c2. (3.4.5)

Page 50: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

50 CHAPTER 3. CALCUL DES VARIATIONS

Les deux relations (3.4.5) et (3.4.4) expriment que~tc

a sa derivee qui suit le gradient de1c, les rayons suivent le gradient de l’indice.

D’autre part, le hamiltonien equivalent au lagrangien (1+(y′)2)1

2

c(x,y(x)) ne peut pas etre calcule,

car le lagrangien n’est pas strictement convexe.

Pour se ramener a un lagrangien strictement convexe, on considere que le terme (1+(y′)2)1

2

c(x,y(x))

est un double produit, donc on a

(1 + (y′)2)1

2

c(x, y(x))=

1

2[−(

w

c(x, y)− (1 + (y′)2)

1

2

w)2 +

w2

c2+

1 + (y′)2

w2].

Nous allons faire le raisonnement sur Lw(q1, q2, q1, q2) =q2

1+q2

2

w2 + w2

c2(q1,q2) . En effet, Lw(q1, q2, q1, q2) ≥Lw0

(q1, q2, q1, q2) pour w0 qui realise le minimum en w, c’est a dire w20 = c(q21 + q22)

1

2 . Dansce cas on sait que d’une part

inf

∫ t2

t1

Lw(q1, q2, q1, q2)dt = inf

∫ t2

t1

(q21 + q22)1

2

c(q1, q2)dt

et d’autre part

inf

∫ t2

t1

Lw(q1, q2, q1, q2)dt = inf

∫ t2

t1

Lw0(q1, q2, q1, q2)dt

Ceci est une forme abstraite pour dire, dans le cas qui nous interesse que

inf

∫ t2

t1

(q21 + q22)1

2

c(q1, q2)dt = inf

1

2

∫ t2

t1

(q21 + q22c2(q1, q2)

+ 1)dt

Pour ce nouveau lagrangien

L(x, y, x, y) =1

2(x2 + y2

c2+ 1)

le hamiltonien est H(x, y, p, q) = 12 ((p2 + q2)c2 − 1). Ses courbes integrales sont

dxds

= pc2dyds

= qc2dpds

= −c∂xc(p2 + q2)

dqds

= −c∂yc(p2 + q2)

Il est constant sur les courbes bicaracteristiques. Si les donnees initiales sont telles que lehamiltonien soit nul, on trouve que p2+q2 = 1

c2 . On choisit le changement d’abscisse curvilignedonne par du = c(x(s), y(s))ds, alors

dxdu

= p

(p2+q2)1

2

dydu

= q

(p2+q2)1

2

dpdu

= ∂x1c

dqdu

= ∂y1c.

Le vecteur d’onde suit les courbes integrales du gradient d’indice. Ceci correspond a une

theorie d’optique geometrique, comme cela avait ete vu ci-dessus .

Page 51: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

Chapter 4

Programme convexe

4.1 Fonctions convexes

Nous voyons dans ce chapitre une application tres importante des calculs precedents,dans la droite ligne des exemples 1, 2, 5, 13, 14, 15. Il s’agit du cas ou J est convexe etou les contraintes sont convexes. Cette partie de l’analyse fonctionnelle est importante,car dans ce cas les conditions necessaires et les conditions suffisantes d’optimalitedeviennent des caracterisations des points d’extremum.

Nous avons deja vu dans l’exemple que l’ensemble des points de minimum globald’une fonctionnelle convexe forment un ensemble convexe. Nous allons preciser leschoses ici, par des definitions et par un resultat

Definition 4.1 Soit K un ensemble convexe non vide (c’est-a-dire verifiant, pourtout u, v dans K et tout reel β de [0, 1], βu+ (1 − β)v ∈ K.) On dit que la fonctionJ definie sur K est une fonction convexe si et seulement si on a

∀β ∈ [0, 1],∀(u, v) ∈ K2, J(βu + (1 − β)v) ≤ βJ(u) + (1 − β)J(v).

La fonctionnelle J est strictement convexe si l’inegalite precedente est stricte pourβ ∈]0, 1[ et u 6= v.

La fonctionnelle J est dite α−convexe lorsque

J(u+ v

2) ≤ J(u) + J(v)

2− α

8||u− v||2

On peut definir un espace convexe simple a partir de J fonctionnelle convexe: ils’appelle l’epigraphe.

Definition 4.2 On appelle epigraphe de J fonctionnelle convexe sur un convexe Kl’espace Epi(J) des (λ, v), v ∈ K,λ ≥ J(v). C’est un convexe.

On verifie que si (λ, v) et (µ,w) sont dans Epi(J), alors pour 0 ≤ θ ≤ 1 on aJ(θv + (1 − θ)w) ≤ θJ(v) + (1 − θ)J(w) ≤ θλ+ (1 − θ)µ donc θ(λ, v) + (1 − θ)(µ,w)est dans Epi(J).

Lemme 4.1 Si J est α−convexe et continue, elle est strictement convexe. De plus,

J(θu+ (1 − θ)v) ≤ θJ(u) + (1 − θ)J(v) − αθ(1 − θ)

2||u− v||2.

51

Page 52: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

52 CHAPTER 4. PROGRAMME CONVEXE

Preuve On effectue d’abord un raisonnement par recurrence pour demontrer, pourtout n ≥ 1, pour tout p ≤ 2n, l’inegalite pour θ = p

2n . Pour cela, on ecrit, pourp ≥ 2n−1

pu+ (2n − p)v

2n=u

2+

p−2n−1

2n−1 u+ 2n−p2n−1 v

2

et on fait l’hypothese de recurrence sur l’indice n− 1, pour tout p. Ainsi on a

J(pu+ (2n − p)v

2n) ≤ 1

2(J(u)+J(

p − 2n−1

2n−1u+

2n − p

2n−1v))−α

2||p− 2n−1

2n−1u+

2n − p

2n−1v−u||2.

Appliquant l’hypothese de recurrence, il vient

J(pu+(2n−p)v2n ) ≤ 1

2(J(u) + p−2n−1

2n−1 J(u) + 2n−p2n−1 J(v)) − 1

4αp−2n−1

2n−12n−p2n−1 ||v − u||2

−α8 ||

p−2n−1

2n−1 u+ 2n−p2n−1 v − u||2.

Le premier terme est alors egal a p2nJ(u) + 2n−p

2n J(v). Le second terme est ainsiα8

2n−p2n−1

p2n−1 ||u − v||2, et est donc egal a α

2p2n

2n−p2n ||u − v||2. Le cas p < 2n−1 se traite

en echangeant les roles de u et de v. L’inegalite est demontree pour θ de la forme p2n ,

puisque pour n− 1, on a p = 0 ou p = 1.Pour la demontrer pour θ quelconque, on utilise le fait que, pour tout n, il existe

θn egal a∑i=n

i=1αi

2i tel que αi(θ) ∈ 0, 1 et tel que |θ − θn| ≤ 12n (developpement

binaire).On a, pour tout n

J(θnu+ (1 − θn)v) ≤ θnJ(u) + (1 − θn)J(v) − αθn(1 − θn)

2||u− v||2.

La limite des deux membres existe, car J est continue, ainsi on a

J(θu+ (1 − θ)v) ≤ θJ(u) + (1 − θ)J(v) − αθ(1 − θ)

2||v − u||2.

Le lemme est demontre, et on verifie la stricte convexite sans souci.On a les resultats suivants:

Proposition 4.1 Si J est convexe continue sur K convexe ferme non vide, il existeune forme lineaire continue L et une constante δ telles que J(v) ≥ L(v) + δ. Si J estα−convexe, on a J(v) ≥ α

8 ||v||2 − C

Preuve Si J est convexe continu, son epigraphe est convexe ferme non vide.Demontrons qu’il est ferme. Soit (λn, vn) une suite de points de l’epigraphe qui con-

verge vers (λ, v) dans l’espace de Hilbert IR × V muni de la norme (λ2 + ||v||2) 12 . On

verifie que

λn ≥ J(vn). (4.1.1)

Soit, si J(vφ(n)) tend vers a, on en deduit que λ ≥ a. Bien sur, comme J estcontinue, a = J(v).

On remarque aussi que si J(v) ≤ a pour tout a valeur d’adherence de la suiteJ(vn), alors on a (λ, v) qui est dans l’epigraphe, et l’epigraphe est ferme.

On remarque alors que le Lemme suivant est vrai

Page 53: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

4.1. FONCTIONS CONVEXES 53

Lemme 4.2 Si, pour tout v, on a

J(v) ≤ infa, a valeur d’adherence de toute suite J(vn), vn → v,

alors l’epigraphe de J est ferme. Toute fonction dont l’epigraphe est ferme est semi-continue inferieurement (on le note f s.c.i.).

Notons en particulier que la demonstration de la relation sur la convexite (J(θu+(1−θ)v) ≤ θJ(u) + (1 − θ)J(v)) est vraie des que J est s.c.i.Reprenons la demonstration de la proposition 4.1.

Soit v0 ∈ K et λ0 < J(v0).On note ce point p0, qui est a l’exterieur de l’epigraphe et on designe sa projection

sur l’epigraphe Epi(J) par p∗ = (λ∗, w0). On montre d’abord λ∗ = J(w0).

Comme la projection realise le minimum de la distance, on a ∀(λ, v), λ ≥ J(v),l’inegalite (λ− λ0)

2 + (v − v0)2 ≥ (λ∗ − λ0)

2 + (w0 − v0)2.

On suppose v = w0, auquel cas pour λ ≥ J(w0) on a (λ − λ0)2 ≥ (λ∗ − λ0)

2. Onsait que λ∗ ≥ J(w0). Si J(w0) ≥ λ0, on trouve λ ≥ J(w0) ⇒ λ ≥ λ0, donc λ ≥ λ∗pour λ ≥ J(w0) et on en deduit J(w0) ≥ λ∗ et comme (λ∗, w0) est dans l’epigraphe,λ∗ = J(w0).

Si J(w0) < λ0, le point (λ0, w0) est dans l’epigraphe, donc on trouve (λ∗−λ0)2 ≤ 0,

donc λ∗ = λ0.

Dans le cas ou J est continue, il existe θ tel que J(θv0 + (1− θ)w0) = λ0, puisqueJ(v0) < λ0 < J(w0). Alors, pour ce θ, on trouve

(1 − θ)2(v0 − w0)2 ≥ (v0 − w0)

2

ce qui est impossible puisque pour θ = 1, la valeur est distincte de λ0.Dans le cas general, soit θ0 tel que θ0J(v0) + (1 − θ0)J(w0) = λ0. Alors J(θ0v0 +

(1−θ0)w0) ≤ λ0, et le point (λ0, θ0v0 +(1−θ0)w0) est dans l’epigraphe. On en deduit

(1 − θ0)2(v0 −w0)

2 ≥ (v0 − w0)2

ce qui entraine v0 = w0, impossible car J(v0) < λ0 < J(w0).On a donc montre que λ∗ = J(w0).

On a alors l’inegalite fondamentale de la projection:

(p0 − p∗, p0 − p) ≥ 0∀p ∈ Epi(J).

Cette inegalite s’ecrit, pour p = (J(v), v)

(λ0 − J(w0))(λ0 − J(v)) + (v0 − w0, v0 − v) ≥ 0

soit

(J(w0) − λ0)J(v) ≥ (v0 − w0, v − v0) + (J(w0) − λ0)λ0. (4.1.2)

La demonstration du premier alinea est alors la consequence de J(w0) − λ0 > 0, ceque nous allons demontrer.

Si on avait J(w0) − λ0 ≤ 0, alors le point (λ0, w0) serait dans Epi(J) donc onaurait

||(J(w0), w0) − (λ0, v0)|| ≤ ||(λ0, v0) − (λ0, w0)||

Page 54: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

54 CHAPTER 4. PROGRAMME CONVEXE

soit (J(w0) − λ0)2 + ||w0 − v0||2 ≤ ||v0 − w0||2, ce qui donne λ0 = J(w0).

Il faut alors eliminer l’egalite λ0 = J(w0). Pour cela, introduisons 0 ≤ θ ≤ 1 etraisonnons par l’absurde, soit J(w0) = λ0 < J(v0). Le point θv0 + (1 − θ)w0 est dansle convexe K , donc (θv0 +(1− θ)w0, J(θv0 +(1− θ)w0)) est dans Epi(J). On a donc,pour λ ≥ J(θv0 + (1 − θ)w0)

(λ− J(w0))2 + (1 − θ)2||v0 − w0||2 ≥ ||v0 − w0||2.

Deux cas: ou il existe une suite θn tendant vers 0 telle que J(θnv0 + (1− θn)w0) <J(w0), et dans ce cas je prends λ = λ0 = J(w0) ce qui donne v0 = w0 impossible, oualors il existe θ0 tel que pour 0 < θ < θ0 on ait J(θv0 + (1 − θ)w0) ≥ J(w0). Dansce cas, pour 0 < θ < θ0 on trouve, replacant λ par J(θv0 + (1 − θ)w0) et utilisantl’inegalite J(θv0 + (1 − θ)w0) − J(w0) ≤ θ(J(v0) − J(w0)),on en deduit

θ(J(v0) − J(w0))2 ≥ (2 − θ)||v0 − w0||2.

La limite θ → 0 conduit a v0 = w0, impossible.

On a donc elimine J(w0) = λ0 donc, par les deux raisonnements, J(w0) − λ0 > 0.

On divise par cette quantite l’inegalite (4.1.2). On trouve

J(v) ≥ ( v0−w0(J(w0)−λ0) , v − v0) + (J(w0) − λ0)λ0.

La premiere inegalite de la proposition est demontree. Notons que la difficulte de cettepreuve provient de la continuite et non la derivabilite de J dans nos hypotheses; eneffet le cas ou J est derivable est evident dans la mesure ou J derivable et convexeentraine l’inegalite J(u) ≥ J(u0)+(J ′(u0), u−u0), donc la forme lineaire est naturelle.L’α−convexite entraine tout de suite apres la relation J(u) ≥ J(u0) + α

4 ||u − u0||2 +[α4 ||u − u0||2 + (J ′(u0, u − u0)], et le deuxieme terme est une forme quadratique dontle minimum est explicite.

D’autre part, on trouve, pour v0 fixe

J(v) + J(v0)

2≥ J(

v + v02

) +α

8||v − v0||2 ≥ L(

v + v02

) + δ +α

8||v − v0||2

On utilise alors le fait que α8 ||v − v0||2 + L(v)

2 est quadratique pour voir que cettefonction, dont on peut calculer explicitement le minimum (c.f. supra), est minoreepar

α

8||v||2 − [||L|| + α

4||v0||]||v||

qui peut etre minore par α4 ||v||2 − C1, d’ou le resultat.

La relation entre les fonctionnelles convexes et les problemes de minimisation estla suivante:

Proposition 4.2 Soit J une fonctionnelle convexe sur un ensemble convexe K. Toutpoint de minimum local est un point de minimum global, et les points de minimumforment un ensemble convexe. Cet ensemble convexe est reduit a un point lorsque Jest strictement convexe

Page 55: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

4.1. FONCTIONS CONVEXES 55

Soit u un point de minimum local. Pour v ∈ K, et pour θ petit, u+ θ(v − u) estdans un voisinage de u, et donc, pour 0 < θ < θ0, J(u+θ(v−u)) ≥ J(u). De l’inegaliteJ(u+θ(v−u)) ≤ (1−θ)J(u)+θJ(v), on deduit que J(v)−J(u) ≥ 0, et donc u est unminimum global. On a deja montre que si deux points etaient minimum global, alorstout le segment l’etait, grace a J(u) ≤ J(θu+(1− θ)v) ≤ θJ(u)+ (1− θ)J(v) = J(u).Enfin, si u et v sont deux minima globaux distincts et si J est strictement convexe,

J(u+ v

2) <

1

2(J(u) + J(v)) = J(u)

ce qui est impossible.

On ecrit ensuite des proprietes des fonctions convexes derivables. On a la

Proposition 4.3 Soit J une application differentiable. Il est equivalent de dire

(i) la fonctionnelle J est convexe

(ii) Pour tous (u, v) dans V , J(v) ≥ J(u) + (J ′(u), v − u)

(iii) Pour tous (u, v) (J ′(u) − J ′(v), u− v) ≥ 0.

De meme on caracterise l’α−convexite par

J(v) ≥ J(u) + (J ′(u), v − u) +α

2||v − u||2

ou par

(J ′(u) − J ′(v), u − v) ≥ α||u − v||2.(iv) Si de plus, J est deux fois differentiable, on a le resultat suivant:

(i) equivalent a

∀w ∈ H, (J ′′(u)w,w) ≥ α||w||2.

Lorsque J est α−convexe, on a

J(u+ θ(v − u)) ≤ J(u) + θ(J(v) − J(u)) − α

2θ(1 − θ)||u− v||2.

Ainsi

J(u+ θh) − J(u)

θ≤ J(u+ h) − J(u) − α

2(1 − θ)||h||2.

Passant a la limite en θ → 0, on trouve la premiere inegalite.

Ensuite, lorsque la premiere inegalite est verifiee, on l’ecrit pour u et pour v:

J(v) ≥ J(u) + (J ′(u), v − u) +α

2||v − u||2

J(u) ≥ J(v) + (J ′(v), u − v) +α

2||v − u||2

et on les additionne pour trouver la deuxieme inegalite.

Enfin, considerant u verifiant la deuxieme inegalite, on veut etudier φ(t) = J(tu+(1 − t)v).

On voit que φ′(t) = J ′(tu+ (1− t)v), u− v). On en deduit φ′(t)− φ′(s) = J ′(tu+(1− t)v), u−v)−J ′(su+(1−s)v), u−v) = 1

t−s [J′(tu+(1− t)v−J ′(su+(1−s)v), tu+

Page 56: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

56 CHAPTER 4. PROGRAMME CONVEXE

(1−t)v−su−(1−s)v)]. Lorsque t ≥ s, on trouve bien φ′(t)−φ′(s) ≥ α||v−u||2(t−s).Integrant de s = 0 a s = 1

2 et de t = 12 a t = 1, on trouve

1

2[φ(1) − 2φ(

1

2) + φ(0)] ≥ α||u− v||2

∫ 1

12

[1

2t− 1

8]dt =

α

8||u− v||2.

On a donc l’inegalite d’α−convexite. Les caracterisations d’α−convexite sont obtenues.

D’autre part, on note que dans le cas α = 0 on a φ′(t) − φ′(s) ≥ 0 si t ≥ s.

Ainsi on trouve∫ 1θdt∫ θ

0 ds(φ′(t) − φ′(s))ds = θφ(1) + (1 − θ)φ(0) − φ(θ) et c’est un

reel positif. On a la convexite. Le raisonnement precedent est valable pour (i) ⇒(ii) ⇒ (iii) ⇒ (i). On note finalement que la convexite et l’α−convexite sont aussicaracterisees, pour le cas simple de J deux fois differentiable, par (J ′′(u)w,w) ≥ 0 etpar (J ′′(u)w,w) ≥ α(w,w).

4.2 Minimisation de fonctionnelles convexes

Le resultat agreable dans le programme convexe est que, contrairement au cas del’exemple 16, la condition J infinie a l’infini suffit.

Theoreme 4.1 Soit K un convexe ferme non vide dans un Hilbert V et soit J unefonctionnelle convexe continue sur K.

• Si J est infinie a l’infini, alors J admet un minimum.

• Si J est α−convexe continue, le minimum u est unique, et on a

∀v ∈ K, ||v − u||2 ≤ 4

α[J(v) − J(u)].

Le premier resultat se base sur la convergence faible d’une suite minimisante un.Nous l’admettons ici.

Le deuxieme resultat provient de l’ecriture, pour un suite minimisante, de la rela-tion, notant l l’inf de J

l ≤ J(un + um

2) ≤ J(un) + J(um)

2− α

8||un − um||2

qui implique

||un − um||2 ≤ 4

α[(J(um) − l) + (J(un) − l)]

Nous sommes exactement dans le cas d’application du critere de Cauchy, ainsi la suiteum est de Cauchy, donc possede une limite u. On passe a la limite en m dans l’inegaliteci-dessus, ce qui implique que

||un − u||2 ≤ 4

α[J(un) − l] =

4

α[J(un) − J(u)].

Le resultat est demontre.

Dans le cas convexe, on a une condition necessaire et suffisante d’optimalite,obtenue a partir de la condition necessaire provenant de l’equation d’Euler, que jerappelle ci-dessous

Page 57: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

4.2. MINIMISATION DE FONCTIONNELLES CONVEXES 57

Proposition 4.4 Soit K convexe. On suppose que J est differentiable en u. Si u estun point de minimum local de J sur K, alors

∀v ∈ K, (J ′(u), v − u) ≥ 0

Remarque On a alors, si J est α−convexe differentiable, l’inegalite J(v) ≥ J(u) +α2 ||v − u||2, qui implique l’inegalite

||v − u||2 ≤ 2α(J(v) − J(u))

ameliorant ainsi l’inegalite du theoreme 4.1.Cette proposition est une consequence du fait que, pour u ∈ K, toutes les directionsadmissibles sont v − u pour v ∈ K, car u+ θ(v − u) est dans K pour 0 < θ < 1.

On a

Theoreme 4.2 Si K est convexe et si J est une fonctionnelle convexe,

u minimum de J ⇔ ∀v ∈ K, (J ′(u), v − u) ≥ 0.

On sait que, si ∀v ∈ K, (J ′(u), v − u) ≥ 0, alors, de (ii) de la proposition 4.3implique que

∀v ∈ K,J(v) ≥ J(u).

Ainsi u est un minimum global.1

On note que, lorsque le K est un cone convexe ferme (c’est-a-dire λv ∈ K pourv ∈ K et λ > 0), on a

Proposition 4.5 Le minimum de J est caracterise par

(J ′(u), u) = 0 et (J ′(u), w) ≥ 0∀w ∈ K

La demonstration de cette proposition suit les idees utilisees dans la resolution del’exemple 15, ou on a choisi v = cu. On prend ainsi l’inegalite

(J ′(u), v − u) ≥ 0∀v ∈ K

et on prend v = λu. Les deux cas λ > 1 et 0 < λ < 1 donnent (J ′(u), u) = 0, et leremplacer dans l’inegalite donne le resultat de la proposition.

1La redemonstration rapide de l’inequation d’Euler provient de 1θ(J(u + θ(v − u)) − J(u)) ≥ 0

lorsque u est le minimum.

Page 58: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

58 CHAPTER 4. PROGRAMME CONVEXE

4.3 Fonctionnelles quadratiques. Formulations variation-nelles.

Le cas particulier de ces resultats le plus important correspond a la minimisationde fonctionnelles quadratiques, c’est-a-dire, dans l’exemple le plus classique, si(, ) designe le produit scalaire sur V Hilbert

J(v) =1

2a(v, v) − (b, v)

ou a est une forme bilineaire continue sur V et b est un element de V .

Definition 4.3 On dit que la forme bilineaire a continue sur V est coercive si etseulement si il existe ν > 0 tel que

∀u ∈ V a(u, u) ≥ ν||u||2.

On a alors le

Lemme 4.3 Si a est coercive, et qu’une de ses constantes de coercivite est ν, alors aest ν−convexe.

ce qui entraine

Theoreme 4.3 Le minimum de J sur K convexe est unique et note u. C’est l’uniquesolution du probleme

u ∈ K et ∀v ∈ K,a(u, v − u) ≥ (b, v − u).

Preuve du Lemme On verifie ainsi que

(J ′(u), w) = limε→0

1

ε[J(u+εw)−J(u)] = lim

ε→0

1

ε[εa(u,w)+

ε2

2a(w,w)−ε(b, w)] = a(u,w)−(b, w).

Alors (J ′(u)−J ′(v), u−v) = a(u, u−v)−(b, u−v)−a(v, u−v)+(b, u−v) = a(u−v, u−v),donc

(J ′(u) − J ′(v), u − v) ≥ ν(u− v, u− v).

D’apres la proposition 4.3, on a le lemme. L’identification de la derivee donne l’inegalitecaracterisant le minimum (obtenue au theoreme 4.2):

a(u, v − u) − (b, v − u) ≥ 0∀v ∈ K

ce qui est le resultat du theoreme.Les problemes d’equations aux derivees partielles lineaires elliptiques rentrent dans lecadre des formes quadratiques. En effet, on intitule ces problemes des problemes deformulation variationnelles.L’exemple le plus classique d’operateur elliptique est l’operateur −∆ et le problemed’EDP classique a resoudre est, pour Ω ouvert borne

−∆u = f, u|∂Ω = 0, u ∈ H1(Ω).

Page 59: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

4.4. NOTION DE POINT SELLE, ET THEOREME DE KUHN ET TUCKER 59

Pour obtenir la formulation variationnelle, on effectue la demarche inverse de celle quia ete employee pour trouver la meilleure constante de Poincare:de −∆u = f , on deduit, pour tout φ ∈ C∞

0 (Ω), < −∆u− f, φ >= 0.par application de la definition des derivees au sens des distributions, on verifie quececi est equivalent a

∀φ ∈ C∞0 (Ω), < ∇u,∇φ > − < f, φ >= 0.

Comme on recherche une solution dans H1, ∇u ∈ L2(Ω) donc cette egalite implique,par continuite

∀φ ∈ H10 (Ω),

Ω(∇u∇φ− fφ)dx = 0.

Dans cette egalite, φ appartient a H10 (Ω) car le complete pour la norme H1 de C∞

0 (Ω)est H1

0 (Ω).L’egalite ci-dessus s’ecrit donc a(u, φ) = (b, φ), ou a est une forme bilineaire continue etb est un element du dual de H1

0 (Ω). C’est donc l’equation d’Euler pour la fonctionnelle

12a(u, u) − (b, u).

Comme Ω est borne, la norme ||u||H1 est equivalente a la norme ||∇u||L2 par l’inegalitede Poincare, donc d’apres le calcul de derivee seconde qui precede, la fonctionnelleest ν−convexe, donc il y a existence et unicite du minimum, qui est la solution duprobleme variationnel.

4.4 Notion de point selle, et theoreme de Kuhn et Tucker

4.4.1 Introduction a la notion de Lagrangien

Nous nous reportons a l’exemple inf 12(y2

1 + y22) − b.y sous la contrainte a.y = 0 ou

sons la contrainte a.y ≤ 0. Nous avons vu que cela pouvait etre simple (et que c’etaitcertainement naturel) de considerer la projection du minimum absolu b sur l’ensembledes contraintes. Nous avons vu que si b est dans l’ensemble des contraintes, sa projec-tion est lui meme, et en revanche si b n’y est pas, le point ou la fonctionnelle atteintson minimum est bien le point b0 de projection de b sur l’ensemble des contraintes.Nous avons ecrit le point b0 = b− λa, c’est a dire nous avons resolu y − b+ λa = 0.

Montrons d’abord que tous les arguments precedents s’appliquent. On verifie que

J(x1 + y1

2,x2 + y2

2) − 1

2J(x1, y1) −

1

2J(x2, y2) = −1

8(x1 − y1)

2 − 1

8(x2 − y2)

2

ce qui fait que J est 1−convexe! D’autre part, une contrainte lineaire est convexe, onest donc dans le cas du programme convexe. D’autre part, on trouve J ′(y1, y2) = y−b.La condition necessaire d’optimalite est alors

(y0 − b, y − y0) ≥ 0,∀y, a.y = 0

• cas egalite:

Si y0 est interieur a a.y = 0 (c’est-a-dire a.y0 6= 0) alors y0 = b et si b verifiea.b = 0 cela convient.

Page 60: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

60 CHAPTER 4. PROGRAMME CONVEXE

Si y0 est au bord de a.y = 0 (c’est-a-dire a.y0 = 0) on a a.(y− y0) = 0 donc y− y0

est proportionnel a aT , ainsi (y0 − b, µaT ) ≥ 0 pour tout µ, donc (y0 − b).aT = 0, soity0 − b = −λa, et on identifie λ grace a y0.a = 0.

• cas inegalite:

si y0 est interieur a a.y ≤ 0, alors a.y0 < 0 et donc toutes les directions sontadmissibles et donc y0 = b. Si on n’est pas dans le cas b.a < 0, le point b n’estpas le minimum sur l’espace des contraintes car il n’est pas interieur a l’espace descontraintes.

On suppose donc maintenant que a.b ≥ 0. On sait donc que y0 est sur le borda.y0 = 0. On voit alors que pour tout y ∈ a.y ≤ 0, alors a.(y−y0) ≤ 0. Les directionspossibles pour y−y0 sont donc aT et a, le coefficient devant a etant negatif. On ecrity − y0 = µaT − µ1a, et on en deduit que

∀µ ∈ IR,∀µ1 ∈ IR+, (y0 − b, µaT − µ1a) ≥ 0

Ceci implique que y0 − b est orthogonal a aT et que (y0 − b, a) ≤ 0. On en deduity0 − b = −λa avec λ ≥ 0 et de plus, comme y0 est sur le bord, y0.a = 0 donc(b− λa).a = 0 donc λ = b.a

a2, qui est negatif ou nul grace a l’hypothese a.b ≥ 0.

Nous avons ici reconstruit les multiplicateurs de Lagrange, de maniere plus directepuisque avec une seule contrainte dans IR2 on n’a pas besoin d’un resultat aussi generalque le lemme de Farkas.

Remarque Utilisons la forme du minimum obtenu pour ecrire y = b− λa+ z. Ontrouve

J(y) =1

2z2 − 1

2b2 +

1

2λ2a2 − λa.b.

La contrainte s’ecrit a.b− λa2 + a.z ≤ 0.

Le minimum de la fonctionnelle en λ est donc obtenu pour λ0 = a.ba2

, la contrainterestante dans ce cas est alors a.z ≤ 0 et il reste la minimisation de 1

2z2, minimum

atteint pour z = 0.

Remarque Soit w une direction admissible pour la contrainte inegalite F (y) ≤ 0(ici c’est a.y ≤ 0 et donc on a (F ′(y), w) ≤ 0 soit encore a.w ≤ 0). On supposequ’il existe un couple (y0, λ0) dans F ≤ 0 × IR+, tel que J ′(y0) + λ0F

′(y0) = 0 etF (y0) = 0. Alors on introduit

φ(t) = J(y0 + tw)

On a φ′(t) = (J ′(y0 + tw), w) et φ′(0) = −λ0(F′(y0), w) ≥ 0. Comme w est une

direction admissible, y0 + tw est dans l’espace des contraintes, donc on doit retrouverque φ′(t) ≥ 0. On a bien sur φ′(0) ≥ 0 donc φ(t) ≥ φ(0) ce qu’il faut verifier pour quey0 soit un minimum.

D’autre part, on verifie que ddt

(F (y0 + tw)) = (F ′(y0 + tw), w) donc il est trivialque

d

dt(φ(t) + λ0F (y0 + tw))|t=0 = 0.

Page 61: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

4.4. NOTION DE POINT SELLE, ET THEOREME DE KUHN ET TUCKER 61

On verifie ainsi tres directement que y0 n’est pas seulement le minimum de J maisaussi le minimum de J + λ0F .

Ceci nous amene a introduire dans l’exemple canonique en dimension 2 cette nouvelle fonctionnelle. Onpose

L(y, λ) = J(y) + λa.y

Le minimum sur IR2 de cette fonctionnelle est obtenu en y = b − λa, ce qui correspond a la remarque que

nous avons deja faite sur le fait que cette ecriture est la bonne ecriture pour trouver le minimum. Maintenant,

lorsque y est dans l’interieur de l’espace des contraintes a.y < 0 et que λ est assez petit, alors y+ λa est aussi

dans l’espace des contraintes, donc le minimum de L(y, λ) est atteint en un point yλ de l’espace des contraintes,

et on verifie que ce minimum vaut − 12(b− λa)2. Cette fonction de λ admet un maximum en λ = a.b

a2. et cette

valeur du point ou elle est maximum est celle cherchee pour obtenir le point critique de J sous les contraintes

a.y ≤ 0 lorsque b n’est pas dans l’espace des contraintes.

D’autre part, lorsque y n’est pas dans l’espace F (y) = 0, on voit que L(y, λ)n’a certainement pas d’extremum en λ (contrairement a ce que l’on a fait dans leparagraphe ci-dessus) et on a probablement identifie un probleme equivalent.

4.4.2 Point selle, lagrangien, et minimisation de fonctionnelle con-vexe

On considere une fonctionnelle J a minimiser sur V , et on introduit, dans le cas deM contraintes inegalites ou de M contraintes egalites, une application de V × IRM

dans IR. Elle s’appellera Lagrangien, et on construit le Lagrangien associe a J et auxcontraintes inegalites Fj(v):

L(v, q) = J(v) +∑

j

qjFj(v).

Dans le cas des contraintes inegalites, on designe par P = (IR+)M , et dans le casde contraintes egalites, on note P = (IRM ). Soit U ⊂ V

Definition 4.4 On dit que (u, p) ∈ V × P est un point selle de L sur U × P si on ales inegalites

∀q ∈ P,L(u, q) ≤ L(u, p) ≤ L(v, p)∀v ∈ U.

Notons que cette definition est la bonne definition pour les multiplicateurs deLagrange, puisque les extrema sont caracterises par la derivee nulle.

On a

Proposition 4.6 Si les fonctions J , F1, ...FM sont continues sur V et si (u, p) estun point selle de L sur U ×P . Alors, K etant defini par les contraintes Fj (egalite siP = IRM , inegalites si P = (IR+)M , et K ⊂ U , on a

• l’element u est dans K• c’est un minimum global de J sur K• Dans le cas ou K est inclus dans l’interieur de U , et ou les fonctionnelles sont

derivables, on a

J ′(u) +

M∑

j=1

pjF′j(u) = 0.

Page 62: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

62 CHAPTER 4. PROGRAMME CONVEXE

Preuve On suppose que (u, p) est un point selle. On se place tout d’abord dans lecas de contraintes d’egalite. Si on suppose que, pour tout q dans IRM , alors L(q, u) ≤L(p, u), comme L(q, u) est une fonction affine en q, cette inegalite ne peut etre verifieeque lorsque F (u) = 0. On a donc, ecrivant la deuxieme inegalite, J(u) ≤ J(v) pourtout v ∈ U , donc a fortiori pour tout v ∈ K, et donc u est un minimum global de Jsur K.

On se place ensuite dans le cas de contraintes inegalites. Si on a, ∀q ∈ (IR+)M ,l’inegalite, ceci veut dire que, en faisant tendre q vers +∞ composante apres com-posante, que F (u) ≤ 0. On trouve alors pF (u) ≥ 0 par l’inegalite, et comme Fj(u) ≤ 0,on trouve que pjFj(u) = 0 pour tout j. Ceci permet de conclure sur le fait que u estun minimum global de J car pF (v) ≤ 0 ainsi J(v) + pF (v) ≤ J(v) et donc l’inegalitede droite de definition du point selle entraine J(u) + 0 ≤ J(v). Le point u est aussiminimum de la fonctionnelle J(v) + pF (v), donc necessairement la derivee de cettefonctionnelle est nulle si K est interieur a U .

Ce qui est extraordinaire est qu’il y a des conditions pour lesquelles cette propo-sition donne une condition necessaire et suffisante d’optimalite

Theoreme 4.4 (Theoreme de Kuhn et Tucker, 1951)

On suppose que J, F sont convexes, continues, derivables, et on suppose qu’il existeun element de V tel que v verifie

“ou bien Fi(v) < 0, ou bien Fi(v) = 0 et Fi affine.”

u est minimum global de J sur K si et seulement si il existe p ∈ (IR+)M tel que(u, p) soit un point selle du Lagrangien L sur V × (IR+)M .

Autrement dit, un minimum d’une fonctionnelle convexe avec contraintes est unminimum libre du Lagrangien lorsqu’on choisit les parametres de Lagrange.

Preuve La premiere partie de la demonstration a ete faite: si (u, p) est un pointselle du Lagrangien sur V × IRM

+ , alors u est un minimum global de la fonctionnellesur K defini par les contraintes.

Etudions la reciproque. On suppose donc que u est un point de minimum globalde J sur K. On suppose que les contraintes verifient il existe v tel que Fi(v) < 0 pourles contraintes actives non affines, Fi(v) ≤ 0 pour les contraintes actives affines.

On considere l’ensemble

A = (µ0, µ) ∈ IRM+1,∃v ∈ V, µ0 > J(v), µj > Fj(v).

A est un ouvert convexe. On rappelle l’hypothese u est un minimum global pour lafonctionnelle sur l’espace des contraintes, alors ∀v, Fj(v) ≤ 0 on a J(v) ≥ J(u).

Ceci veut dire que (J(u), 0) /∈ A (en effet si ce point etant dans A, il existerait vtel que J(u) > J(v) et 0 > Fj(v) pour tout j). La projection sur un convexe ouvertest aussi possible. On projette le point (J(u), 0) sur A. Il existe donc (p0, p) ∈ IRM+1

tel que

∀(µ0, µ) ∈ A, (µ0 − p0)(J(u) − p0) + (µ− p).(−p) ≤ 0.

On sait que dans cette egalite, on peut faire tendre µ0 et µ vers +∞, donc on endeduit que J(u) − p0 ≤ 0 et −pj ≤ 0 pour tout j. On note q = p, q0 = p0 − J(u).Alors on trouve

Page 63: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

4.4. NOTION DE POINT SELLE, ET THEOREME DE KUHN ET TUCKER 63

(µ0 − J(u) − q0)q0 + (µ− p)p ≥ 0

soit

(µ0 − J(u))q0 + µp ≥ q2 + q20 .

On commence par demontrer que les valeurs qj associees a des contraintes inactivessont nulles. En effet, si la contrainte j est inactive, Fj(u) < 0, et il suffit de prendre

µk = ǫ pour k 6= j, µj =Fj(u)

2 puis µ0 = J(u) + ǫ pour verifier que ce point est dans

A, ce qui conduit a qjFj(u)

2 + O(ǫ) ≥ q20 + q2, ce qui est possible uniquement lorsqueqj = 0. On en deduit alors que q.F (u) = 0 (pour les contraintes actives le terme estnul car Fj(u) est nul et pour les contraintes inactives le terme est nul car qj = 0).

On demontre que q0 > 0. Si cela est le cas, alors on voit que

∀(µ0, µ) ∈ A,µ0 − J(u) + µq

q0≥ q2 + q20

q0

donc si on prend le point µ0 = J(v) + ǫ, µj = Fj(v) + ǫ qui est dans A on voit quepour tout v ∈ V

J(v) − J(u) + F (v).q

q0+ ε(1 +

∑ qjq0

) ≥ 0

et comme ceci est vrai pour tout ǫ, on a

∀v ∈ V, J(v) + F (v).q

q0≥ J(u) = J(u) + F (u).

q

q0.

La condition q0 6= 0 implique que l’une des inegalites du point selle est verifiee.

On doit donc traiter le cas q0 = 0. L’inegalite devient µq ≥ q2 pour tout (µ0, µ)

dans A. On prend ainsi µ0 = J(v) + ǫ, µj = −Fj(v)2 si la contrainte est inactive ou

active non affine, et µj = ǫ si la contrainte est active affine. Ainsi ce point est dans Acar on a µ0 > J(v) et µj > Fj(v). Il vient donc

j∈Iaǫqj + −1

2

In

qjFj(v) ≥ q2.

Ainsi il n’y a aucu probleme si il existe une contrainte active non affine, car dans ce

cas on se ramene a qjFj(v)

2 ≥ q2, donc qj = 0. Il reste donc les contraintes activesaffines. Elles sont donnees par Fj(v) = (aj , v) et il suffit de changer de vecteur v pourprendre successivement un vecteur orthogonal a tous les vecteurs ap p 6= p0 et dont leproduit scalaire avec ap0 est negatif. On en deduit que q = 0 ce qui donne donc uneinegalite trivialement verifiee. Ainsi on trouve p0 = J(u) et p = 0 donc la projectionde (J(u), 0) est lui meme. C’est impossible car le point en question ne peut pas etredans A.

L’egalite qq0.F (u) = 0 entraine donc

∀v ∈ V, J(v) + (q

q0, F (v)) ≥ J(u) + (

q

p = q0, F (u)) ≥ J(u) + (r, F (u))∀r, rj ≥ 0.

Le point (u, qq0

) est donc un point selle et on a montre l’implication

”minimum global ⇒ il existe un point selle”.

Page 64: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

64 CHAPTER 4. PROGRAMME CONVEXE

4.4.3 Principe du Min-Max

De la definition d’un point selle (u, p), on deduit deux problemes d’optimisation as-socies a K = Fj(u) ≤ 0 et a la fonctionnelle J(v). En effet, on a, pour P = (IR+)m

et p ∈ P :

∀v ∈ V,L(u, p) ≤ L(v, p)

ce qui implique que, utilisant L(v, p) ≤ supq∈P L(v, q):

∀v ∈ V,L(u, p) ≤ supq∈P

L(v, q).

De meme,

∀q ∈ P,L(u, q) ≤ L(u, p)

donc, utilisant cette fois L(u, q) ≥ infv∈V L(v, q), on obtient

∀q ∈ P, infv∈V

L(v, q) ≤ L(u, p).

Ceci donne l’idee d’introduire deux fonctionnelles definies par ces inegalites, l’unesur V , l’autre sur P , par

J(v) = supq∈P

L(v, q),G(q) = infv∈V

L(v, q).

Dans le cas etudie, on a L(v, q) = J(v) + qF (v), donc, si il existe j0 tel queFj0(v) > 0, alors supq∈P L(v, q) = +∞, et, si on a ∀j ∈ 1, ...,m, Fj (v) ≤ 0 alorssupq∈P L(v, q) = maxq∈ L(v, q) = L(v, 0) = J(v).

Ainsi

J(v) =

J(v), v ∈ K+∞, v /∈ K

La minimisation de J est equivalente a celle de J sur K. Ce probleme s’apppellele probleme primal.

Le probleme dual est le probleme de maximisation de G sur P .On remarque que ∀q ∈ P,L(u, q) ≤ L(u, p), donc supq∈P L(u, q) = L(u, p) = J(u).

On sait que L(u, p) ≤ supq∈P L(v, q), donc

∀v ∈ V,L(u, p) ≤ J(v)

ce qui s’ecrit

∀v ∈ V, J(u) ≤ J(v)

On en deduit que u est le minimum de J sur V . De meme

∀v ∈ V,L(u, p) ≤ L(v, p)

donc

infv∈V

L(v, p) = L(u, p) = G(p).

Page 65: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

4.4. NOTION DE POINT SELLE, ET THEOREME DE KUHN ET TUCKER 65

Comme infv∈V L(v, q) ≤ L(u, p), on a, ∀q ∈ P,G(q) ≤ G(p), donc p est unmaximum de G. On a ainsi demontre:

minv∈V

(maxq∈P

L(v, q)) = maxq∈P

(minv∈V

L(v, q))

et le point de min-max est atteint en v = u, q = p. Le point selle est solution duprobleme de min-max, et la reciproque est vraie.

Exemple minimisation de la fonctionnelle J(v) = 12(Av, v) − (b, v) sur l’ensemble

convexe K = bV − c ≤ 0. Pour etre dans le cadre d’application du theoreme deKuhn et Tucker, on suppose la matrice A symetrique definie positive. La fonctionnelledu probleme primal est calculee facilement. Celle du probleme dual G est donnee parl’equation sur v

∂L∂v

(v, q) = 0

qui admet une solution unique car L est α−convexe, ou α est la plus petite valeurpropre de la matrice 1

2A.On trouve Av − b+ tBq = 0, soit v = A−1b−A−1tBq, donc

G(q) = −1

2(tBq,A−1tBq) + (BA−1b− c, q) − 1

2(b,A−1b)

qui est strictement concave donc admet un maximum. Le gain dans cette formulationest que les contraintes s’ecrivent vraiment simplement: en l’occurence elles sont sousla forme q ≥ 0.

Page 66: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

66 CHAPTER 4. PROGRAMME CONVEXE

Page 67: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

Chapter 5

Introduction au controle optimal

5.1 Le probleme general

On etudie dans ce cas le controle de problemes variationnels elliptiques. On se donnedeux espaces de Hilbert V et H, dont les normes respectives sont designees par ||.|| et|.|. On suppose V ⊂ H, V dense dans H et injection continue.On introduit une forme bilineaire continue sur V , coercive, c’est-a-dire a(v, v) ≥α||v||2, α > 0, et une forme lineaire continue sur V , L(v) = (f, v) ou f ∈ V ′ espacedual de V . On peut par exemple pour fixer les idees prendre V = H1

0 et V ′ = H−1.C’est en ce sens que les problemes de controle utilisent la theorie des distributions etessentiellement des espaces de Sobolev.On rappelle alors que pour tout f dans V ′ il existe un unique y dans V tel que

∀ψ ∈ V, a(y, ψ) = (f, ψ).

On appelle A l’operateur qui a y fait correspondre f , qui est donc bijectif de V dansV ′, lineaire, bicontinu.Autrement dit Ay = f .On appelle systeme gouverne par l’operateur A et controle par un espace U de controleun systeme dont l’etat est donne par

Ay = f +Bu

ou B est un operateur de U dans V ′. La solution unique de ce probleme est alorsy(u), dependant de u.On introduit enfin l’observation qui est l’action sur la solution de l’operateur d’observationC de V dans un Hilbert H0 petit, sous la forme

z(u) = Cy(u).

On introduit enfin sur l’espace U des controles un operateur coercifN tel que (Nu, u) ≥ν0||u||2H0

.Le cout du controle est alors

J(u) = ||Cy(u) − zd||2 + (Nu, u).

Notons que le terme ||Cy(u) − zd||2 est un vrai terme de controle et le terme N estun terme de penalisation.

Definition 5.1 Le probleme de controle est de trouver l’inf de J(u) sur l’ensembledes u admissibles.

67

Page 68: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

68 CHAPTER 5. INTRODUCTION AU CONTROLE OPTIMAL

5.2 Traitement abstrait du cas general

Nous avons le theoreme

Theoreme 5.1 On suppose que l’ensemble des u admissibles forme un ensemble con-vexe ferme. Alors il existe un unique element u admissible tel que infJ soit atteinten u.

Comme l’ensemble des controles admissibles Uad est un convexe ferme, l’ensemble desdirections admissibles en u est l’ensemble des v − u, v ∈ Uad. L’inequation d’Eulersur la solution u du probleme, qui existe et qui est unique (on considere une suiteminimisante, comme J est coercive, elle est de Cauchy donc converge) est

(J ′(u), v − u) ≥ 0∀v

On sait que y(u) = A−1(f+Bu) (revenant au cas general), d’ou on deduit (y′(u), w) =A−1Bw. On a donc

(y′(u), v − u) = A−1B(v − u) = A−1(f +Bv − f −Bu) = y(v) − y(u).

Cette egalite sera utilisee en permanence. On calcule alors J ′(u), v − u). On trouve

(J ′(u), w) = limt→0J(u+tw)−J(u)

t

Avec

J(u+ tw) − J(u) = ||Cy(u+ tw) − zd||2 − ||Cy(u) − zd||2 + 2t(Nu,w) + t2(Nw,w)

et en developpant la difference des deux carres scalaires, on deduit

J(u+ tw) − J(u) = (C(y(u) + (y(u+ tw) − y(u))) − zd, C(y(u) + (y(u+ tw) − y(u))+(C(y(u+ tw) − y(u)), C(y(u + tw) − y(u))) − (Cy(u) − zd, Cy(u) − zd)+2t(Nu,w) + t2(Nw,w).

Divisant par t et passant a la limite, il vient

(J ′(u), w) = 2(Cy(u) − zd, C(y′(u), w)) + 2(Nu,w).

On utilise alors w = v − u et le resultat (y′(u), v − u) = y(v) − y(u)) pour obtenir

(J ′(u), v − u) = 2(Cy(u) − zd, C(y(v) − y(u))) + 2(Nu, v − u).

On a donc l’inequation d’Euler. On introduit l’adjoint C∗ de C, et on suppose poursimplifier que le dual de H0 est lui meme. Alors il vient

(C∗(Cy(u) − zd), y(v) − y(u)) + (Nu, v − u) ≥ 0∀v.

On introduit l’etat adjoint p(v) donne par

C∗(Cy(w) − zd) = A∗p(w)

ou A∗ est l’operateur adjoint de A. Ceci permet de reecrire le premier terme del’inegalite:

(A∗p(u), y(v) − y(u)) + (Nu, v − u) ≥ 0∀v

Page 69: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

5.3. LE CAS PARTICULIER DU CONTROLE DISTRIBUE POUR LE PROBLEME DE DIRICHLET69

(p(u), A(y(v) − y(u))) + (Nu, v − u) ≥ 0∀vet avec la relation A(y(v) − y(u)) = B(v − u) on obtient

(p(u), Bv −Bu) + (Nu, v − u) ≥ 0∀v

et enfin en introduisant l’adjoint B∗ on trouve

(B∗p(u) +Nu, v − u) ≥ 0∀v.

Cette inegalite est plus facile a traiter. On resume alors les resultats dans le

Theoreme 5.2 On calcule la solution controlee y(u) telle que Ay(u) = f +Bu.On forme l’etat adjoint p(u) qui est solution de l’equation A∗p(u) = C∗(C(y) − zd).L’inequation d’Euler qui caracterise la solution du probleme de controle est:

(B∗p(u) +Nu, v − u) ≥ 0∀v ∈ Uad.

5.3 Le cas particulier du controle distribue pour le problemede Dirichlet

On se place dans ce cas dans le cas suivant: V = H10 (Ω), Ω ouvert borne donc nous

avons l’inegalite de Poincare (voir paragraphe ??). De plus H = L2(Ω). L’operateura est donne par

a(φ,ψ) =

Ω

i,j

aij(x)∂iφ∂jψdx+

Ωa0(x)φψdx.

On suppose dans le cas general les aij et a0 dans L∞, a0(x) ≥ α > 0,∑

aijξiξj ≥α||ξ||2. L’operateur A est l’operateur elliptique du second ordre

Aφ = −∑

i

∂i(∑

j

aij∂jφ) + a0φ

On prend pour B l’identite, et C l’injection canonique de V dans H et H0 = H.La donnee sur C veut dire que l’on observe y(u) sur tout le domaine Ω dans notre cas.On regarde donc le probleme de Dirichlet

Ay(u) = f + u, y(u) ∈ H10 (Ω).

L’operateur adjoint A∗ est donne par (Aφ,ψ) = (φ,A∗ψ). En faisant le calcul dansles fonctions C∞

0 (Ω), on trouve

(Aφ,ψ) =∑

i,j(aij(x)∂jφ, ∂iψ) + (a0(x)φ,ψ)

= −∑i,j(φ, aij(x)∂iψ) + (a0(x)φ,ψ)

On verifie que si la matrice n’est pas symetrique, A∗ et A different.Le probleme de controle s’ecrit alors

Ay(u) = f + u, y(u) ∈ H10 (Ω)

A∗p(u) = y(u) − zd, p(u) ∈ H10 (Ω)

(p(u) +Nu)(v − u)dx ≥ 0∀v ∈ UadLe controle est dit distribue car u est defini dans tout Ω.

Page 70: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

70 CHAPTER 5. INTRODUCTION AU CONTROLE OPTIMAL

Le cas sans contrainte C’est un cas vraiment operatoire. En effet, la conditiond’Euler se ramene a p(u) + Nu = 0. On a donc le systeme a resoudre (eliminant lecontrole u:

Ay +N−1p = fA∗p− y = −zdy, p ∈ H1

0 (Ω)

et on recupere le controle en ayant resolu ce systeme d’EDP sous forme faible. Onretrouve u = −N−1p ou u = Ay − f .

5.3.1 Systeme gouverne par un probleme de Neumann

On prend cette fois V = H1(Ω), H = L2(Ω), et la meme forme bilineaire a. On utilisealors A donne par le resultat suivant:

a(y, ψ) = f(ψ)∀ψ ∈ V ⇔ Ay = f.

On suppose que l’on a a la fois une donnee au bord g ∈ H−12 (Γ) et une donnee dans

l’ouvert f1 ∈ L2(Ω), de sorte que la forme lineaire soit, γ etant l’operateur de trace:

f(ψ) =

Ωf1ψdx+

Γγψgdσ =

Ωf1ψdx+ < g, γψ > .

L’etat y(u) est alors la solution unique du probleme dit de Neumann:

Ay(u) = f1 + u,dansΩ∂y∂nA = g

ou la derivee normale associee a l’operateur A s’obtient grace a:

< Aφ,ψ >=∑

i,j

(aij∂jφ∂iψ) + (a0φ,ψ) + (∂nAφ, γψ)Γ

et donc par integration par parties

∂nAφ =

niaij∂jφ|Γ.

l’egalite ci-dessus sur < Aφ,ψ > permet de construire de maniere abstraite la derivee

normale par passage a la limite pour φ,ψ dans H1 donc γψ ∈ H12 (Γ).

L’etat adjoint est identifie comme la solution du probleme de Neumann adjoint, ou iln’y a pas de terme source sur le bord:

A∗p(u) = y(u) − zd, ∂nA∗p(u) = 0.

En conclusion, pour l’ensemble des problemes de controle, il suffit d’identifier l’equationde l’etat adjoint, dans le cas ou la regularite Sobolev le permet.

Page 71: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

5.4. EQUATION DE HAMILTON-JACOBI-BELLMANN 71

5.4 Equation de Hamilton-Jacobi-Bellmann

On cherche a minimiser un critere dependant de variables d’etat x(t), t ∈ [0, 1], etd’une commande u(t), sachant que x est solution d’une equation de commande:

x(t) = f(x(t), u(t), t)

avec une valeur initiale x(0) = x0.Le critere etudie est J(u) =

∫ 10 g(x(t), u(t), t)dt + C(x(1)).

On forme le lagrangien du probleme, sous les contraintes

(i)x(0) − x0 = 0(ii)x(t) − f(x(t), u(t), t) = 0

La contrainte (i) admet λ comme multiplicateur, la contrainte (ii) admet p(t) commemultiplicateur (en effet, l’une est continue, l’autre est ponctuelle). Le lagrangien est

L(x, u, λ, p) =

∫ 1

0g(x(t), u(t), t)dt+C(x(1))+

∫ 1

0p(t)(x(t)−f(x(t), u(t), t))dt+λ(x(0)−x0).

Par integrations par parties, on trouve

L(x, u, λ, p) =∫ 10 g(x(t), u(t), t)dt + p(1)x(1) + C(x(1)) + λ(x(0) − x0) − p(0)x0

−∫ 10 (p(t)x(t) + p(t)f(x(t), u(t), t))dt

.

Les equations de point selle sont Lx = 0, Lu = 0, Lp = 0. On obtient les equationsformelles

∫ 1

0gx(x(t), u(t), t)w(t)dt −

∫ 1

0(p(t) + p(t)fx(x(t), u(t), t))w(t)dt = 0,

∫ 1

0gu(x(t), u(t), t)w(t)dt−

∫ 1

0p(t)fu(x(t), u(t), t)w(t)dt = 0,

∫ 1

0(π(t)x(t) + π(t)fx(x(t), u(t), t))dt = 0.

De la deuxieme, on deduit gu(x(t), u(t), t) = p(t)fu(x(t), u(t), t). De la premiere,on deduit p(t) + fx(x(t), u(t), t)p(t) = gx(x(t), u(t), t). De la troisieme, en effectuantune integration par parties, on deduit l’equation (ii).

On note que le multiplicateur de Lagrange p est solution d’une equation que l’onappelle equation adjointe de x = f(x, u, t).

On remplace l’equation obtenue pour p dans le lagrangien. Alors

L(x, u, p, t) =∫ 10 [g(x(t), u(t), t) − xgx(t)]dt + p(1)x(1) +C(x(1)) −

∫ 10 p(t)(−x(t)fx

+f(x(t), u(t), t))dt + λ(x(0) − x0) − p(0)x0.

Les expressions ci-dessus ressemblent de maniere frappante aux expressions duhamiltonien (integrale premiere de l’equation d’Euler). En effet, g − xgx ressemble aL− xLx.

Page 72: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

72 CHAPTER 5. INTRODUCTION AU CONTROLE OPTIMAL

On introduit alors l’hamiltonien de Pontryaguine:

H(x, u, p, t) = pf(x, u, t) − g(x, u, t).

On verifie ∂xH = pfx − gx et ∂uH = pfu − gu. L’egalite gu = pfu obtenue a partir dela deuxieme equation ci-dessus implique que ∂uH = 0.

L’equation adjointe s’ecrit p = −∂xH(x(t), u(t), p(t), t). D’autre part, l’equationsur x se reecrit x = ∂pH(x(t), u(t), p(t), t).

Ainsi les conditions necessaires d’optimalite impliquent que (x(t), u(t), p(t)) estsolution du systeme:

x(t) = ∂pH(x(t), u(t), p(t), t)p(t) = −∂xH(x(t), u(t), p(t), t)0 = ∂uH(x(t), u(t), p(t), t)

Si on introduit le Lagrangien instantane L(x, x, u, p, t) = g(x, u, t) + p(x− f(x, u, t)),alors l’equation de l’etat adjoint est

d

dt(Lx) = Lx

qui est l’equation d’Euler associee a ce lagrangien. D’autre part, de ce probleme, ondeduit l’equation de Hamilton-Jacobi-Bellman.

Pour ecrire cette equation on considere le meme probleme:

inf

J(u) =∫ 10 g(x(t), u(t), t)dt + C(x(1))

x(t) = f(x(t), u(t), t), x(0) = x0

et on introduit, comme pour l’etude des problemes primaux et duaux, la solution deinfB(x, u). Plus exactement, on considere τ ∈ [0, 1], y dans l’espace d’arrivee, et x lasolution de x(t) = f(x(t), u(t), t), x(τ) = y. On introduit

V (y, t) = min

∫ 1τg(x(t), u(t), t)dt + C(x(1))

x(t) = f(x(t), u(t), t), x(τ) = y

Il semble bien sur que le probleme est aussi complique que de trouver le minimumpour le probleme precedent. Mais on va montrer que V est solution d’une equationaux derivees partielles.

Pour cela, on cherche V (y, τ + ǫ).

V (y, τ + ǫ) = minu

[

∫ 1

τ+ǫg(x(t), u(t), t)dt + c(x(1)), x(t) = f(x(t), u(t), t), x(τ + ǫ) = y].

D”autre part

∫ 1

τ

g(x(t), u(t), t)dt =

∫ τ+ǫ

τ

g(x(t), u(t), t)dt +

∫ 1

τ+ǫg(x(t), u(t), t).

Soit u la solution du probleme de minimisation pour∫ 1τg(x(t), u(t), t)dt. On trouve

V (y, τ) = minv=u(τ)

[g(y, v, τ)ǫ + o(ǫ) + V (x(τ + ǫ), τ + ǫ)]

Page 73: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

5.4. EQUATION DE HAMILTON-JACOBI-BELLMANN 73

V (y, τ) = minv

[g(y, v, τ) + V (y + ǫf(y, v, τ) + o(ǫ), τ + ǫ)].

Heuristiquement, l’equation s’en deduit aisement en soustrayant a V (y+ǫf(y, v, τ)+o(ǫ), τ + ǫ) le terme V (y, τ + ǫ) et en divisant par ǫ. On a

−∂τV (y, τ) = minv

[g(y, v, τ) + ∂yV (y, τ)f(y, v, τ)].

Donc, meme si V n’est pas connue, on peut acceder a l’equation differentielle sur V .Ceci s’exprime dans le

Theoreme 5.3 Si l’equation de Hamilton-Jacobi-Bellman

∂V

∂t+ min

v[g(y, v, t) +

∂V

∂yf(y, v, t)] = 0

admet une solution de classe C1 telle que V (x, 1) = C(x), alors le probleme

inf

J(u) =∫ 10 g(x(t), u(t), t)dt + C(x(1))

x(t) = f(x(t), u(t), t), x(0) = x0

admet une commande optimale v(x, t), qui minimise en v a chaque instant

g(x, v, t) +∂V

∂x(x, t)f(x, v, t).

L’equation de HJB s’ecrit Vt = maxH(x,−V tx , u, t).

On considere pour cela G(x, u, t) = g(x, u, t) + ∂V∂x

(x, t)f(x, u, t) + ∂V∂t

(x, t). Elleverifie

∀t ∈ [0, 1],minuG(x, u, t) = 0.

On note u∗ le point ou ce minimum est atteint.On remarque alors que

∫ 10 G(x(u), u, t)dt ≥ 0 pour tout u et que

∫ 1

0[∂V

∂x(x(u), t)f(x(u), u, t) +

∂V

∂t(x(u), t)]dt = V (x(1), 1) − V (x(0), 0)

d’ou on deduit

0 = J(u∗) − V (x0, 0) ≤ J(u) − V (x0, 0).

et donc bien sur u∗ realise le minimum de J .

Exemple Dans le cadre de cette equation de Hamilton-Jacobi Bellman, etudions unexemple. C’est un probleme de controle-commande (objet de la page de garde ...)

On considere un oscillateur, qui peut etre excite, et on souhaite le faire passer d’unetat donne a un autre etat.

Cet oscillateur est regi par l’equation differentielle

x+ ω2(1 − εu(t))x = 0,

Page 74: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

74 CHAPTER 5. INTRODUCTION AU CONTROLE OPTIMAL

ou x(0) et x(0) sont connus, et on veut l’amener a l’etat (x(t1), x(t1)), ou (x(t1))2 +

(x(t1))2 > (x(0))2 + (x(0))2. On peut le faire en introduisant la commande u(t) qui

verifie 0 ≤ u(t) ≤ 1. Ainsi, on peut faire varier la frequence d’oscillation du ressortentre ω2 et ω2(1 − ε).

On est dans la situation de ce chapitre lorsque on ecrit cette equation differentiellesous la forme du systeme differentiel

x = y, y = −(1 − εu(t))x.

Ainsi f1(x, y, u, t) = y, f2(x, y, u, t) = −(1 − εu(t))x et X = f . D’autre part, onintroduit le multiplicateur de Lagrange (p, q) associe a (x, y). Il n’y a pas d’equationde controle sur u.

Le Lagrangien est alors

L(x, u, λ, µ, k, p, q) =∫ t10 (x(t) − f1(x, y, u, t))p(t) + (y(t) − f2(x, y, u, t))q(t))dt

+λ(x(0) − x0) + µ(y(0) − y0) + k((x(t1))2 + (y(t1))

2 − 1).

Apres integration par parties en temps, on trouve les equations adjointes pour pet q de sorte que ce Lagrangien ait un extremum (point selle). Il s’agit de

L(x, u, λ, µ, k, p, q) = −∫ t10 [xp+ yp+ yq − (1 − εu)xq]dt + x(t1)p(t1) + y(t1)q(t1)

−x(0)p(0) − y(0)q(0) + λ(x(0) − x0) + µ(y(0) − y0)+k((x(t1))

2 + (y(t1))2 − 1)

et on en deduit les relations p = (1 − εu(t))q et q = −p. En utilisant l’extremalite ent1, on trouve aussi que p(t1) = −kx(t1), q(t1) = −ky(t1). De plus, en regardant ent = 0, on trouve p(0) = λ, q(0) = µ, ce qui fait que les conditions initiales ne sont pasconnues. Il faudra alors partir de la condition finale.

Le Hamiltonien de Pontriaguine est alors H = pf1 + qf2 = py− q(1− εu)x = py−qx+ εuxq. Le principe du maximum de Pontriaguine, enonce ici sans demonstration(car on se trouve dans le cas discontinu) est de choisir (x, u, p) qui realise l’extremumde H, et plus precisement on prend le maximum en u sur les contraintes. Lorsquexq < 0, ce maximum est atteint en u = 0, lorsque xq > 0, il est atteint en u = 1. Lecontrole optimal prendra donc les valeurs 0 ou 1 selon le signe de qx.

Si k = 0, les conditions finales pour q et p sont 0, et l’equation differentielle desecond ordre sur q a ses conditions de Cauchy nulles en t = t1, donc p et q sontnulles, ce qui est impossible car on ne peut pas commander le systeme. Donc k 6= 0,et donc, en divisant q et p par cette constante, on se ramene a k = 1. Dans ce cas,pour t = t1, q(t1)x(t1) = −1

2ddt

[(x(t))2](t1). Si cette quantite est negative, elle lereste dans un intervalle ]t1 − ε, t1[, donc le controle u est egal a 0 dans cet intervalle,et donc l’energie en t1 est egale a l’energie en t1 − ε, ce qui est contradictoire avecle fait que le controle est optimal. Ainsi le controle est egal a 1 dans ce voisinage,donc −xx(t1) < 0. On peut positionner le point d’arriver dans le quatrieme quadrant(x > 0, y < 0).On ecrit x(t1) = cosα, y(t1) = sinα, α ∈] − π

2 , 0[. Ainsi on trouveq(t1) = cos(α+ π

2 ), p(t1) = sin(α+ π2 ). Le point (p(t), q(t)) est, dans un voisinage de

t1, sur l’ellipse q2 + p2

1−ε = a2 = sin2 α+ cos2 α1−ε , et le point (x(t), y(t)) est sur l’ellipse

x2 + y2

1−ε = b2 = cos2 α+ sin2 α1−ε . On controle que a2 = 1−ε sin2 α

1−ε et b2 = 1−ε cos2 α1−ε .

Dans ce qui suit, on va construire une trajectoire ’en remontant le sens du temps’a partir du point d’arrivee. PLus precisement, on adopte la demarche suivante:

Page 75: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

5.4. EQUATION DE HAMILTON-JACOBI-BELLMANN 75

1. on determine T > t1 tel que x(t) ne s’annule pas sur [t1, T [ et s’annule en t = T .Le controle reste u = 1.

2. on cherche le premier point t2 < t1 tel que q s’annule (u = 1 sur ]t2, T [)

3. on construit t3 < t2 tel que x s’annule en t3 (u = 0 sur ]t3, t2[)

4. on construit t4 < t3 tel que q s’annule en t4 (u = 1 sur ]t4, t3[)

5. on construit T < t4 tel que x s’annule en T (u = 0 sur ]T , t4[).

• Sur ]t2, T [:On commence par donner la forme des fonctions x et q. On trouve x(t) = b cos((1−

ε)12 (t−t1)+β), x(t) = y = −b(1−ε) 1

2 sin((1−ε) 12 (t−t1)+β), d’ou on deduit β ∈]0, π2 [

et tan β = − tanα

(1−ε)12.

On suppose que le systeme reste dans l’etat excite avec u = 1. On sait que q(t) =

a cos((1 − ε)12 (t− t1) + γ) avec γ ∈] − π

2 , 0[, a cos γ = − sinα, a(1 − ε)12 sin γ = cosα.

On en deduit γ ∈]− π2 , 0[ et tan γ = 1

(1−ε)12 tanα

. On controle alors que ab cos(γ−β) =

ε sinα cosα1−ε < 0, donc, ajoutant le fait que γ − β ∈] − π, 0[, il vient γ − β ∈] − π,−π

2 [.

On remarque que ab sin(γ − β) = − 1

(1−ε)12.

Soit T tel que (1 − ε)12 (T − t1) + β = π

2 . On en deduit que, pour t ∈]t1, T ],

γ + (1 − ε)12 (t− t1) decrit ]γ, γ + π

2 − β] ⊂] − π2 , 0], avec

q(T ) = a cos(π

2+ γ − β), q(T ) = −a(1 − ε)

12 sin(

π

2+ γ − β).

Lorsque l’on introduit ρ(α) et ω(α) tels que q(T ) = ρ(α) cos ω(α) et q(T ) =

ρ(α) sinω(α), on obtient tanω(α) = −(1−ε) 12 tan(π2 +γ−β), ce qui donne tanω(α) =

−ε cosα sinα. De plus, (ρ(α))2 = a2 sin2(γ−β)+a2(1−ε) cos2(γ−β) = 1+ε2 sin2 α cos2 α1−ε cos2 α .

De plus x(T ) = −b(1 − ε)12 = −(1 − ε cos2 α)

12 .

On commence a remonter le temps a partir de t = T . On ecrit

x(t) = b cos((1 − ε)12 (t− T ) + π

2 )

q(t) = a cos((1 − ε)12 (t− T ) + π

2 + γ − β).

Comme π2 + γ − β ∈] − π

2 , 0[, on voit qu’en remontant le sens du temps, le premierpoint ou le produit qx change de signe est atteint pour q au temps t2 tel que

(1 − ε)12 (t2 − T ) +

π

2+ γ − β = −π

2.

Le controle est u = 1 pour t ∈]t2, T [, et q(t2) = a(1 − ε)12 . On verifie aussi que

x(t2) = b cos(β−γ−π+π

2) = ρ(α)

b

acosω(α), x(t2) = −b(1−ε) 1

2 sin(β−γ−π2) = ρ(α)

b

asinω(α).

• Sur ]t3, t2[:Le controle est u = 0, et les trajectoires sont des cercles. On identifie directement

x(t) = ρ(α) ba

cos(t− t2 − ω(α))

q(t) = a(1 − ε)12 cos(t− t2 − π

2 ).

Page 76: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

76 CHAPTER 5. INTRODUCTION AU CONTROLE OPTIMAL

On voit que la premiere quantite qui s’annule est x(t), au point t3 = t2 +ω(α)− π2 .

On a alors

x(t3) = ρ(α)b

a, q(t3) = −a(1 − ε)

12 cosω(α), q(t3) = a(1 − ε)

12 sinω(α).

• Sur ]t4, t3[:Le controle est a nouveau u = 1. Les courbes decrites par les points sont

(x(t))2 +(x(t))2

1 − ε= ρ2(α)

b2

a2(1 − ε), (q(t))2 +

(q(t))2

1 − ε= a2(1 − ε cos2 ω(α))

ce qui donne

x(t) = ρ(α) ba

1

(1−ε)12

cos((1 − ε)12 (t− t3) − π

2 )

q(t) = a(1 − ε cos2 ω(α))12 cos((1 − ε)

12 (t− t3) + β(α))

avec les relations

sin β(α) = − sinω(α)

(1 − ε cos2 ω(α))12

, cos β(α) = − (1 − ε)12 cosω(α)

(1 − ε cos2 ω(α))12

.

On trouve donc β(α) ∈] − π,−π2 [ et tan β(α) = − ε sinα cosα

(1−ε)12

.

Le point ou q(t) s’annule (qui est le premier point inferieur a t3 ou xq change designe) est donne par

(1 − ε)12 (t4 − t3) + β(α) = −3π

2.

On ax(t4) = −µ(α) cos ω(α), x(t4) = −µ(α) sinω(α),

avec

(µ(α))2 = (ρ(α)b

a)2(

cos2 β(α)

1 − ε+ sin2 β(α)) =

(1 + ε2 cos2 α sin2 α)

(1 − ε+ ε2 cos2 α sin2 α)(1 − ε sin2 α).

• Pour t ∈]T , t4[:le controle est alors u = 0, les points se deplacent sur des cercles, donc x(t) =

µ(α) cos(t− t4 − π + ω(α)). Le point ou x(t) s’annule est alors T = t4 − π2 − ω(α), ce

qui donne tout de suite x(T ) = −µ(α).Dans ce cas, on a fait un tour complet de l’espce des phases pour x(t), y(t) de t = T

a t = T . Le gain d’orbite (rapport entre la valeur du point pour les deux temps) estalors

x(T )

x(T )=b(1 − ε)

12

µ(α)=

1 − ε+ ε2 cos2 α sin2 α

1 + ε2 cos2 α sin2 α

en ayant utilise 1 − ε+ ε2 cos2 α sin2 α = (1 − ε cos2 α)(1 − ε sin2 α).

On verifie alors que x(t2)x(t2) = tanω(α), x(t4)

x(t4) = tanω(α) et limt→T,t<Tx(t)x(t) = +∞,

limt→t3,t>t3x(t)x(t) = −∞, limt→t3,t<t3

x(t)x(t) = +∞, limt→T ,t>T

x(t)x(t) = −∞.

On a ainsi vu que le controle est donne par u(t) = H( x(t)x(t) −tanω(α)), ou H designe

la fonction de Heaviside.

Page 77: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

Chapter 6

Approximation de solutions deproblemes d’optimisation

Nous donnons dans cette section des algorithmes d’approximation de solutions deproblemes de minimisation, afin de pouvoir mettre en œuvre des methodes numeriques.Nous nous restreignons aux fonctionnelles convexes, car, si il est difficile de trouver lasolution de minimisation de problemes non convexes, il est encore moins evident detrouver des algorithmes qui convergent vers de telles solutions. Nous etudierons iciles algorithmes de relaxation, ou on fait les calculs successifs sur chaque variable, lesalgorithmes de gradient, l’algorithme d’Uzawa, et, chose que je considere comme tresimportante, la methode de penalisation des contraintes, qui est celle que nous avonsaborde dans l’etude du probleme de Bolza.

6.0.1 Algorithme de relaxation

On suppose que l’on etudie un minimum sans contraintes pour J(v) = J(v1, ..., vN ),chaque vj etant element d’un espace de Hilbert Vj. On suppose J α−convexedifferentiable. Le minimum existe et est unique. On note ce minimum (u1, ..., uN ).

L’algorithme de relaxation utilise le fait que la restriction de J a Vj , toutes lesautres composantes etant fixees, est aussi α−convexe. On dit que c’est de la relaxation,car on ‘ne traite pas’ toutes les composantes en meme temps, on en relaxe une surlaquelle on minimise.

Soit u0 = (u01, .., u

0N ) donne. On ecrit une suite un = (un1 , .., u

nN ). Pour simplifier la

comprehension, on suppose N = 3, mais le resultat s’etend, avec une petite surchagede notations, pour N quelconque.

On suppose le n−ieme terme construit un = (un1 , un2 , u

n3 ). On resout

infv1∈V1

J(v1, un2 , u

n3 ) = J(un+1

1 , un2 , un3 )

puis

infv2∈V2

J(un+11 , v2, u

n3 ) = J(un+1

1 , un+12 , un3 )

enfin

infv3∈V3

J(un+11 , un+1

2 , v3) = J(un+11 , un+1

2 , un+13 ).

77

Page 78: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

78 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Exemple d’utilisation de la methode de relaxation On considere la fonction-nelle J(x1, x2) = 1

2 (x21 + x2

2 + x1x2) − αx1 − βx2.Son minimum est atteint en un point (x0

1, x02) donne par

x1 +1

2x2 = α, x2 +

1

2x1 = β

soit

x01 =

4

3α− 2

3β, x0

2 =4

3β − 2

3α.

L’algorithme de relaxation consiste a partir du point (x, y) quelconque, puis adeterminer le point ou J(x1, y) est minimum (c’est donc x1

1 = α− 12y), evaluer le point

x2 ou J(x11, x2) est minimum, soit x1

2 = β − 12x

11, et donc etudier la suite recurrente

xn+11 = α− 1

2xn2 , x

n+12 = β − 1

2xn+1

1 .

On obtient ainsi une relation de recurrence qui est

xn+11 − (

4

3α− 2

3β) =

1

4(xn1 − (

4

3α− 2

3β))

qui conduit a

xn1 − (4

3α− 2

3β) =

1

4n[x1

1 − (4

3α− 2

3β)]

dont on a la convergence vers la valeur x01.

Un resultat general est le suivant:

Theoreme 6.1 On suppose que J est α−convexe differentiable et que, de plus J ′ estLipschitzien sur tout borne:

||J ′(v) − J ′(w)|| ≤ C||v − w||.Alors la suite un construite par le procede decrit converge vers la solution de

inf(v1,...,vn)∈V1×...×VN

J(v1, ..., vN ).

Preuve On introduit, pour chaque i, la solution du i−eme probleme intermediaire.Ainsi

un+1,1 = (un+11 , un2 , u

n3 ), un+1,2 = (un+1

1 , un+12 , un3 ), un+1,3 = (un+1

1 , un+12 , un+1

3 ).

On note J ′i la derivee de J par rapport a l’element de Vj, tous les autres elements

etant fixes:

(J ′i(v1, ..., vN ), wi) = lim

ε→0

J(v1, .., vi + εwi, ..., vN ) − J(v)

ε.

Comme un+1i est solution d’un probleme de minimisation avec une fonctionnelle

α−convexe, il est unique et J ′i(u

n,i) = 0.

Page 79: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

79

Revenons a N = 3 pour alleger les notations. En utilisant l’α−convexite de J , onecrit

J(un) − J(un,1) ≥ (J ′1(u

n,1), un − un,1) +α

2||un,1 − un||2,

J(un,1) − J(un,2) ≥ (J ′2(u

n,2), un,1 − un,2) +α

2||un,2 − un,1||2,

J(un,2) − J(un,3) ≥ (J ′3(u

n,3), un,2 − un,3) +α

2||un,3 − un,2||2,

et en sommant les trois egalites et en utilisant les egalites d’Euler partielles

J(un) − J(un+1) ≥ α

2||un+1 − un||2.

• Comme la suite J(un) est ainsi decroissante, minoree par J(u), elle converge,donc la difference J(un+1)− J(un) tend vers 0, donc un+1 − un tend vers 0. Notonsque cela ne permet pas de conclure sur la convergence de un.

• La suite un est bornee. En effet, si elle ne l’etait pas, il existerait une sous-suitetelle que ||un′ || tendrait vers l’infini. Ainsi, comme J est α−convexe, J(un′) tendraitvers l’infini, ce qui est impossible car la suite J(un) est decroissante. On peut alorsappliquer l’inegalite Lipschitz.

• On utilise l’α−convexite:

(J ′(un) − J ′(u), un − u) = (J ′(un), un − u) ≥ α|un − u|2

puis la definition des derivees partielles:

(J ′(un), un − u) =∑

i

(J ′i(u

n), uni − ui)

puis les N equations d’Euler partielles1

(J ′(un), un − u) =∑

i(J′i(u

n) − J ′i(u

n,i), uni − ui)≤ C

i≤N−1 ||un − un,i||||uni − ui||≤ C(N − 1)

12 ||un+1 − un||.||un − u||.

Il vient alors, par l’inegalite d’α−convexite:

α||un − u||2 ≤ C(N − 1)12 ||un+1 − un||.||un − u||.

Cela donne

||un − u|| ≤ C(N − 1)12

α||un+1 − un||.

On a demontre la convergence de un vers u et la majoration entre les deux suites.

1noter la difference de notations entre uni et un,i, on l’explicite pour N = 3 et on utilise J ′

3(un,3) = 0:

(J ′(un), un − u) = (J ′

1(un1 , un

2 , un3 ) − J ′

1(un1 , un−1

2 , un−13 ), un

1 − u1)+(J ′

2(un1 , un

2 , un3 ) − J ′

2(un1 , un

2 , un−13 ), un

2 − u2)

ce qui permet d’utiliser le caractere Lipschitz, pour avoir

(J ′(un), un − u) ≤ C[(||un−12 − un

2 ||2 + ||un−13 − un

3 ||2)1

2 ||un1 − u1|| + ||un

3 − un−13 ||.||un

2 − u2||]≤ C

√2||un+1 − un||.||un − u||

grace a ||un1 −u1||+ ||un

2 −u2|| ≤√

2(||un1 −u1||2 + ||un

2 −u2||2)1

2 ce qui acheve la preuve de l’inegalite.

Page 80: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

80 CHAPTER 6. APPROXIMATION DE SOLUTIONS

6.1 Algorithmes de descente

On commence par la definition d’une direction de descente. Pour cela, on se place enun point u du domaine d’etude, pour une fonctionnelle J et on cherche des points vtels que J(v) < J(u) et v aussi dans le domaine. On en deduit qu’il suffit que v − usoit une direction admissible pour ǫ = 1.

Ceci nous amene a la

Definition 6.1 Soit J une fonctionnelle continue sur V , espace de Hilbert et soit Kl’espace des contraintes. On dit que d est une direction de descente au point u de Ksi

i) d est une direction admissible de K(u)ii) Il existe ρ0 > 0 tel que

∀ǫ ∈]0, ρ0[, J(u+ ǫd) < J(u).

On peut aussi ecrire une definition plus generale, qui tienne compte des contraintesegalites:

Definition 6.2 On suppose que d ∈ K(u) et que, de plus, il existe ǫ0 > 0 et d(ǫ)tels que d(ǫ) → d et ∀ǫ < ǫ0, u + ǫd(ǫ) ∈ K (generalisation continue de la directionadmissible au sens de Frechet).

On dit que d est une direction de descente limite au point u de K si il existe ǫ1 ≤ ǫ0tel que

pour 0 < ǫ < ǫ1, on a J(u+ ǫd(ǫ)) < J(u).

Il est alors clair que

Lemme 6.1 Si d est une direction de descente, c’est une direction de descente limite.

Ceci est une consequence du fait que si d est une direction de descente, d ∈ K(u)donc d ∈ K(u) et la suite que l’on peut definir est d(ǫ) = d.

On a alors le resultat suivant

Lemme 6.2 Si J est differentiable en u et si (J ′(u), d) < 0, d direction admissiblecontinue, alors d est une direction de descente limite.

Preuve Comme d est une direction admissible continue, il existe d(ǫ) et ǫ0 tels que,pour ǫ < ǫ0, u + ǫd(ǫ) soit dans K. Comme J est differentiable en u, on peut ecrirel’egalite de Taylor definissant la derivabilite au sens de Frechet:

J(u+ ǫd(ǫ)) = J(u) + ǫ[(J ′(u), d) + (J ′(u), d(ǫ) − d) + o(1)].

On sait que (J ′(u), d) < 0 et la forme lineaire representee par J ′(u) est continuedonc (J ′(u), d(ǫ) − d) + o(1) tend vers 0. Il existe ǫ1 < ǫ0 tel que, pour ǫ < ǫ1,|(J ′(u), d(ǫ) − d) + o(1)| ≤ −1

2(J ′(u), d). Ainsi, pour de tels ǫ on trouve [(J ′(u), d) +(J ′(u), d(ǫ) − d) + o(1)] < 0, donc J(u+ ǫd(ǫ)) < J(u), ce qu’il fallait demontrer.

Remarque: la reciproque est fausse. Il suffit de prendre la fonction J(x, y) =−(x4 + y4). Au point (0, 0), toute direction est une direction de descente continue etpourtant la derivee est la forme differentielle nulle. Si on prend J(x, y) = x + y −

Page 81: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.2. CAS CLASSIQUES D’ALGORITHMES DE DESCENTE 81

(x4 + y4), la forme lineaire derivee est (J ′(0, 0), h1 , h2) = h1 + h2, et toute directiontelle que h1 + h2 ≤ 0 est une direction de descente.

La definition ou on etudie le point u+ǫd n’est pas adaptee aux contraintes egalites,pour lesquelles la bonne notion (pour une direction admissible) est la notion de direc-tion admissible continue. En fait, avoir a la fois le parametre ǫ et la direction d(ǫ) quivarient n’est pas pratique dans l’ecriture d’un algorithme. On ecrit donc un resultat,qui permet de s’affranchir du cas des contraintes egalite:

Proposition 6.1 Soit J une fonctionnelle differentiable sur un espace de Hilbert Vet F une fonctionnelle differentiable. Le probleme:

infJ(v)v ∈ K,F (v) = 0

est equivalent, pour tous les points u ou F (u) = 0, F ′(u) 6= 0, a un probleme deminimisation sur (F ′(u))⊥ de la forme

v + tF ′(u) ∈ K, t = g(v), v ∈ (F ′(u))⊥pour la fonctionnelle J(v) = J(v + g(v)F ′(u)).

Ceci est un resultat de reduction des variables. On en verra l’utilisation plus loin,lorsqu’on etudiera l’algorithme de gradient reduit.

Preuve Comme F ′(u) est non nul, il definit une droite vectorielle dans l’espace deHilbert, qui est un ferme convexe. Ainsi tout point w de l’espace de Hilbert se projetteen un point φ(w)F ′(u), et on a w − φ(w)F ′(u) dans l’espace orthogonal a F ′(u).

L’egalite F (v+u+ tF ′(u)) = 0 a pour solution t = 0, v = 0 car u verifie F (u) = 0.Pour chaque v dans (F ′(u))⊥, on trouve, par le theoreme des fonctions implicites (dua ∂t(F (v+u+ tF ′(u))) = ||F ′(u)||2 > 0) une unique solution de l’egalite ci-dessus, soitt = g(v). Alors, au voisinage de u, on etudie pour tout v dans l’intersection Iu d’uneboule de petit rayon et de (F ′(u))⊥, la fonctionnelle sous les contraintes. On voit alorsque pour tout v dans Iu, le probleme de minimisation s’ecrit u + v + tF ′(u) ∈ K etu+v+tF ′(u) ∈ F (w) = 0, soit u+v+tF ′(u) ∈ K et t = g(v), soit u+v+g(v)F ′(u) ∈K. Ainsi on s’est ramene a la fonctionnelle J(v) = J(u+v+g(v)F ′(u)) et au probleme

infJ(v)v ∈ Iuv + g(v)F ′(u) ∈ K

La contrainte egalite a ainsi ete resolue. On note cependant que resoudre unprobleme numerique en utilisant le theoreme des fonctions implicites est quasimentimpossible, sauf si les contraintes sont affines.

6.2 Cas classiques d’algorithmes de descente

Un algorithme de descente est donne par la definition suivante:

Definition 6.3 Un algorithme de descente est une suite de points de V × V × IR+,qui s’ecrit

Page 82: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

82 CHAPTER 6. APPROXIMATION DE SOLUTIONS

(un, dn, ln)

telle quei) dn est une direction de descente en xn pour J , associee a ρn tel que J(un+ǫdn) <

J(un) pour 0 < ǫ < ρnii) ln est un pas verifiant 0 < ln < ρniii) un+1 = un + lndn.

Les algorithmes les plus courants sont des algorithmes de recherche lineaires.En effet, ces algorithmes conduisent, une fois la direction de descente choisie, a larecherche d’une valeur reelle qui est la valeur du pas. On suppose ainsi que, a chaqueetape, la direction de descente dn soit choisie. Nous allons decrire dans ce qui suit uncertain nombre d’algorithmes.

Dans tous les cas, on notera, par souci de simplicite

φ(ǫ) = J(u+ ǫd). (6.2.1)

6.2.1 Pas optimal

Definition 6.4 Pour chaque couple (u, d), on note, si elle existe, la solution duprobleme

Minǫ≥0J(u+ ǫd) = Minǫ≥0φ(ǫ).

Il s’appelle le pas optimal.

L’algorithme dit du pas optimal conduit a associer, a chaque (un, dn), le point ǫnconstruit par la definition 6.4. C’est l’algorithme le plus satisfaisant, en theorie, maisil conduit a determiner la solution d’un probleme de minimisation chaque fois.

6.2.2 Pas de Curry

Le pas de Curry est donne par:

Definition 6.5 Le pas de Curry est le premier extremum local de φ, soit encore

lc = infǫ > 0, φ′(ǫ) = 0.Alors φ(lc) < φ(0), et pour 0 ≤ ǫ ≤ lc, φ(ǫ) ≥ φ(lc).

Comme φ′ ne s’annule pas sur ]0, lc[, φ′ garde le meme signe sur cet intervalle, soit

φ′ ≥ 0 ou φ′ ≤ 0. Dans le cas φ′ ≥ 0, on verifie que φ(ǫ) − φ(0) ≥∫ ǫ

0 φ′(t)dt, ainsi

φ(ǫ) ≥ φ(0), contradiction avec le fait que d soit une direction de descente.Ainsi φ′(ǫ) ≤ 0 sur [0, lc]. Pour ǫ ∈ [0, lc], on verifie

φ(lc) − φ(ǫ) =

∫ lc

ǫ

φ′(t)dt

donc, pour 0 ≤ ǫ ≤ lc, on trouve φ(lc) ≤ φ(ǫ).Dans le cas ou lc est un point d’inflexion, on ne peut bien sur pas conclure sur le

fait que lc soit un minimum local. En revanche, on sait que pour cette valeur, φ(lc)est le minimum de φ sur [0, lc].

Page 83: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.2. CAS CLASSIQUES D’ALGORITHMES DE DESCENTE 83

6.2.3 Pas de Goldstein

Definition 6.6 On dit que lg est un pas de Goldstein si il existe m1,m2 tels que0 < m1 < m2 < 1 tels que

φ(lg) ≤ φ(0) +m1lgφ′(0)

φ(lg) ≥ φ(0) +m2lgφ′(0)

C’est un pas pseudo optimal, qui verifie

0 < m1 ≤ φ(lg) − φ(0)

lgφ′(0)≤ m2 < 1.

Exemples:figure 1 figure 2Dans la situation de la figure 2, il n’existe pas de pas de Goldstein, mais en revanche

on a ∀ǫ ∈ [0, ρ0], φ(ǫ) ≤ φ(0) + ǫφ′(0), ce qui fait que l’on peut choisir pour ǫ la valeurρ0, meme si cela a un inconvenient, comme on le verra ci-dessous.

La situation importante est la situation ou il existe au moins ǫ1, 0 < ǫ1 < ρ0 telque

φ(0) + ǫ1φ′(0) < φ(ǫ1) < φ(0).

Dans ce cas, on a la

Proposition 6.2 i) Si φ(ǫ) ≤ φ(0)+ ǫφ′(0) pour tout ǫ ∈ [0, ρ0], il n’existe pas de pasde Goldstein.

ii) Dans le cas contraire, il existe m1,m2 ∈]0, 1[, m1 < m2 tel que l’ensemble despoints l verifiant les inegalites de la definition 6.6 soit non vide.

iii) Toujours dans le cas contraire, il existe ǫ2 > 0 et M > 0 (dans le cas ou lafonctionnelle admet un minimum) tel que, pour tout lg, ǫ2 ≤ lg ≤M .

Selon le point iii), il y a une borne superieure pour lg, et lg n’est pas trop petit. Cesdeux remarques sont importantes, et en particulier si on avait φ(ǫ) ≤ φ(0) + ǫφ′(0) onn’aurait pas de majorant a priori de ǫ.

Preuve On notem = φ(ǫ1)−φ(0)ǫ1φ′(0)

. On sait quem ∈]0, 1[ et si on choisit m1 < m < m2,

l’ensemble des pas de Goldstein associes a [m1,m2] est non vide. En effet, definissons

h(ǫ) = φ(ǫ)−φ(0)ǫφ′(0) et, par continuite, h(0) = 1. La fonction h est une fonction continue.

Par le theoreme des valeurs intermediaires, comme h(0) = 1 et h(ǫ1) = m, l’imagereciproque dans [0, ǫ1] de [m,m2] ⊂ [m, 1] est non vide. Tout point de [m,m2] a aumoins un antecedent par h, qui est un pas de Goldstein.

D’autre part, l’image reciproque de ]m2, 1] contient un voisinage [0, ǫ2] de ǫ = 0puisque h(0) = 1. Ainsi on a ∀ǫ ∈ h−1(]m2, 1]), ǫ n’est pas un pas de Goldstein, doncsi lg est un pas de Goldstein, lg ≥ ǫ2.

Enfin, on ne peut pas avoir ǫ → ∞. En effet, cela impliquerait que pour tout ǫ,ou au moins pour une suite ǫn tendant vers +∞, la relation

φ(ǫn) − φ(0)

ǫnφ′(0)≥ m1

Page 84: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

84 CHAPTER 6. APPROXIMATION DE SOLUTIONS

soit φ(ǫn) ≤ φ(0)+m1φ′(0)ǫn. Il existe donc une suite ǫn telle que J(u+ ǫnd) → −∞,

et le minimum n’existe pas.

6.2.4 Pas de Wolfe

Definition 6.7 lw est un pas de Wolfe si il existe m1,m2, 0 < m1 < m2 < 1 tels que

φ(lw) ≤ φ(0) +m1lwφ′(0)

φ′(lw) ≥ m2φ′(0)

Ce pas de Wolfe a les memes proprietes que celui de Goldstein; en effet on a

Proposition 6.3 i) Si φ′(ǫ) ≤ φ′(0) pour tout ǫ ∈ [0, ρ0[, il n’existe pas de pas deWolfe. (On note que cela implique qu’il n’existe pas de pas de Goldstein).

ii) Dans le cas contraire, il existe (m1,m2) tels que l’ensemble des points l verifiantles inegalites de la definition 6.7 est non vide.

iii) Il existe ǫ′2 > 0 et M > 0 tels que lw ≥ ǫ′2, lw ≤M .

Preuve Si ǫ1 donne tel que φ′(ǫ1) > φ′(0), alors m = φ′(ǫ1)φ′(0) < 1 et donc on choisit

m2 ∈]m, 1[. Comme φ′(0)φ′(0) = 1 et que la fonction ǫ → φ′(ǫ)

φ′(0) est continue, par le

theoreme des valeurs intermediaires, tout point de ]m, 1] a au moins un antecedent,et l’image reciproque de ]m2, 1] contient un voisinage de 0. On prend un point l de(φ′)−1[m2φ

′(0),mφ′(0)], ainsi l ≥ ǫ′2.

La fonction ǫ→ φ(ǫ)−φ(0)φ′(0)ǫ est continue sur le compact [ǫ′2, ρ0] et ne s’annule pas sur

cet intervalle, donc

infǫ∈[ǫ′2,ρ0]φ(ǫ) − φ(0)

φ′(0)ǫ= α > 0.

Si on choisit 0 < m1 < α, on trouve que pour tout ǫ ∈ [ǫ′2, ρ0],φ(ǫ)−φ(0)φ′(0)ǫ ≥ α, donc ǫ

est un pas de Wolfe.Enfin, si on etait dans le cas ρ0 = +∞ et si il existait une suite de pas de Wolfe

qui tendait vers +∞, il existe donc ǫn telle que φ(ǫn) ≤ φ(0) + m1ǫnφ′(0), donc

J(u+ ǫnd) → −∞ et le minimum n’existe pas.

6.3 Resultats de convergence

On a le

Theoreme 6.2 On suppose J continuement differentiable et on suppose que l’on a unalgorithme de descente (un, dn, ln) verifiant ||dn|| = 1. On suppose qu’il existe α > 0tel que

(H) (J ′(un), dn) ≤ −α|dn||J ′(un)| = −α|J ′(un)|.i) Si, a chaque etape n, ln est un pas de Curry ou de Wolfe, et si la suite un

converge, elle converge vers une solution de J ′(u) = 0.ii) si ln est un pas de Goldstein ou de Wolfe, alors J(un) → −∞ ou lim inf||J ′(un)|| =

0.

Page 85: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.3. RESULTATS DE CONVERGENCE 85

On demontre ce theoreme.

Preuve de i)On suppose que la suite un converge (dans le cas du pas de Curry). Ainsi, comme

un+1 −un tend vers 0, ln tend vers 0 puisque dn est de norme 1. D’autre part, commeJ est continuement differentiable, la derivee de φ est

φ′(ǫ) = (J ′(un + ǫdn), dn).

Dans le cas ou ln est le pas de Curry, on a (J ′(un + lndn), dn) = 0. D’autre part

(J ′(un + lndn) − J ′(un), dn) = −(J ′(un), dn) ≥ α||J ′(un)||.On a l’inegalite

|(J ′(un + lndn) − J ′(un), dn)| ≤ ||J ′(un + lndn) − J ′(un)||On trouve alors

||J ′(un)|| ≤1

α||J ′(un + lndn) − J ′(un)||.

Comme J ′ est continue, on verifie que J ′(un+1) − J ′(u) − (J ′(un) − J ′(u)) tend vers0 dans l’espace des formes lineaires, donc on en deduit que J ′(un) tend vers 0.

D’autre part, la suite J(un) est strictement decroissante (par construction) donccomme un converge vers u, la suite J(un) converge vers J(u) et la suite J ′(un) convergevers J ′(u). On en deduit J ′(u) = 0. Le point i) est demontre pour le pas de Curry.

Demontrons le point i) pour la regle de Wolfe. On suppose que un converge. Parcontinuite J(un) converge vers J(u) et J ′(un) converge vers J ′(u). On a (J ′(un), dn) ∈[−α||J ′(un)||, 0] donc toute suite extraite convergente de (J ′(un), dn) converge vers unelimite l dans l’intervalle [−α||J ′(u)||, 0].

On utilise la deuxieme inegalite du pas de Wolfe. On a alors (J ′(un+1), dn) ≥m2(J

′(un), dn). On note que si on prend une suite extraite convergente de (J ′(un), dn),notee (J ′(uφ(n)), dφ(n)), la suite (J ′(uφ(n)+1), dφ(n)) converge aussi vers l car la differenceest majoree par un terme tendant vers 0 par continuite de J ′ et convergence de la suiteun. Ainsi, l qui est negatif verifie l’inegalite l ≥ m2l, soit (1 −m2)l ≥ 0 donc l = 0.

On a demontre le point i) pour la regle de Wolfe.Demontrons le point ii). Pour cela, suposons que liminf||J ′(un)|| = α0 > 0. Alors

il existe N assez grand tel que, pour tout n ≥ N on ait ||J ′(un)|| > α02 . Si cela

n’etait pas le cas, il existerait un nombre infini de termes de cette suite de nombrespositifs qui sont compris entre 0 et α0

2 , donc il existerait une sous-suite extraite decette suite qui convergerait vers une valeur comprise entre 0 et α0

2 , contradictoire avecl’hypothese que α0 est la plus petite des limites des suites extraites.

On en deduit alors

αα0

2||un+1 − un|| ≤ J(un) − J(un+1).

Si J(un), qui est une suite decroissante, ne tend pas vers −∞, alors elle tend versune limite l et la serie de terme general (J(un) − J(un+1)) est une serie convergente,donc la somme de la serie u1 +

n(−un + un+1) existe, et on la note u, qui est lalimite de la suite un. Deux cas se presentent: l’application de la regle de Wolfe et decelle de Goldstein.

Page 86: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

86 CHAPTER 6. APPROXIMATION DE SOLUTIONS

i) Regle de Wolfe. D’apres le i), comme un a une limite, notee u, on sait que lasuite J ′(un) est convergente et que sa limite est J ′(u) = 0, ce qui est contradictoireavec l’hypothese que la limite inf de ||J ′(un)|| est nulle.

On a donc demontre que liminf||J ′(un)|| = α0 > 0 ⇒ J(un) → −∞. On en deduitque si J(un) converge vers une limite finie, alors liminf||J ′(un)|| = 0. Notons qu’on nepeut pas conclure directement que la suite un converge.

ii) Regle de Goldstein

On suppose donc que la suite J(un) converge vers une limite l. On suppose aussique liminf||J ′(un)|| = α0 > 0. Ceci implique que la suite un est convergente, et salimite est notee u. Par continuite de J et de J ′, J(un) tend vers J(u) et J ′(un) tendvers J ′(u). Contrairement a la regle de Wolfe, on n’a pas d’autre information sur laderivee. En effet, l’information sur la limite inf nous apprend que ||J ′(un)|| ≥ α0

2 pourn ≥ n0, mais on n’a pas le meme resultat pour (J ′(un), dn).

On sait, par la regle de Goldstein, que

J(un) − J(un+1)

(J ′(un), un − un+1)∈ [m1,m2].

Dans le cas ou on suppose que J ′ est uniformement continue sur unborne contenant u, alors pour n assez grand comme la suite un converge vers u, lespoints un sont dans ce borne. Ainsi on aura

−J(un) + J(un+1) =

∫ 1

0(J ′(un + θ(un+1 − un)), un+1 − un)dθ

donc on en deduit que

|J(un) − J(un+1) − (J ′(un), un+1 − un)| ≤ ǫ||un+1 − un||, n ≥ nǫ.

Ainsi, divisant les deux membres par (J ′(un), un+1 − un) et utilisant l’inegalite(J ′(un), dn) ≤ −α||J ′(un)||, dans le cas ou J ′(un) ne tend pas vers 0, pour n ≥ nǫ,

| J(un) − J(un+1)

(J ′(un), un+1 − un)−1| ≤ ||un+1 − un||

|(J ′(un), un+1 − un)|ǫ =

ǫ

|(J ′(un), dn)|≤ ǫ

α||J ′(un)||≤ 2ǫ

αα0.

On en deduit que le quotient J(un)−J(un+1)(J ′(un),un+1−un) tend vers 1. Comme ce quotient appar-

tient a [m1,m2] et que m2 < 1 il y a contradiction. Le resultat est demontre sousl’hypothese d’uniforme continuite ou de continuite dans un borne en dimension finie.

Remarque 1 : le i) peut s’etendre a toute sous-suite convergente dans le cas oula suite ln tend vers 0. On note que ceci n’implique pas que la suite un converge :exemple si dn = e1 pour tout n et si ln = 1

nalors il n’y a pas convergence de un.

Remarque 2 :Pour la regle de Goldstein, il suffit, en dimension finie que J verifiel’une des deux conditions suivantes :

(*) J ′ est uniformement Lipschitz sur tout borne

(**) la fonctionnnelle J est deux fois Frechet derivable a derivee continue (quiimplique la condition (*) et qui se retrouve le plus frequemment)

Page 87: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.4. ALGORITHMES DE GRADIENT 87

6.4 Algorithmes de gradient

6.4.1 Definition

On commence par le resultat suivant, qui nous donnera l’algorithme de gradient

Proposition 6.4 Soit φ(l, d) = J(un + ld). On suppose J ′(un) 6= 0.

inf||d||=1

φ′(0, d) = −||J ′(un)||

et ce minimum est atteint pour d = − J ′(un)||J ′(un)|| .

On note que φ′(0, d) = −(J ′(un), d). On a, par l’inegalite triangulaire

|φ′(0, d)| ≥ −||d||||J ′(un)||et l’egalite est atteinte dans le cas d’egalite pour Cauchy-Schwartz, soit pour d colineairea J ′(un), ce qui correspond au vecteur indique.

La direction du gradient est, parmi les directions de norme 1, la meilleure pourle taux de decroissance de la fonctionnelle. C’est par ce type d’algorithme que l’onrecherche la solution de f = 0 par la methode de Newton.

6.4.2 L’algorithme de gradient a pas optimal

On demontre le

Theoreme 6.3 Soit J une fonctionnelle α−convexe sur un espace de Hilbert H, telleque J ′ est uniformement continue sur tout borne. La suite, definie par la relation

un+1 = un − µnJ′(un),

ou µn est la solution unique de (J ′(un−µJ ′(un)), J ′(un)) = 0 qui s’appelle l’algorithmede gradient a pas optimal, converge vers l’unique valeur qui rend minimum la fonc-tionnelle J .

L’agorithme de gradient a pas optimal est defini par la suite

un+1 = un − µJ ′(un)

et on cherche un+1 = infµ∈IR J(un − µJ ′(un)). Il est clair que la derivee de φ(µ) =J(un − µJ ′(un)) est donnee par

φ′(µ) = −(J ′(un − µJ ′(un)), J ′(un)).

Comme J est α−convexe, lorsque J ′(un) 6= 0 (ce qui correspond au cas ou on n’a pasatteint le point de minimum) on a φ α(||J ′(un)||2)−convexe. En effet

(J ′(un − µ1J′(un)) − J ′(un − µ2J

′(un)), un − µ1J′(un) − un + µ2J

′(un))≥ α||un − µ1J

′(un) − un + µ2J′(un))||2

= α(µ2 − µ1)2||J ′(un)||2.

En remplacant la difference, on trouve

Page 88: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

88 CHAPTER 6. APPROXIMATION DE SOLUTIONS

(φ′(µ1) − φ′(µ2), µ1 − µ2) ≥ α(µ2 − µ1)2||J ′(un)||2

d’ou l’α−convexite de φ. Le probleme de minimisation admet donc une solutionunique µn. De plus, µn est solution de φ′(µn) = (J ′(un − µnJ

′(un)), J ′(un)) = 0, onen deduit que (J ′(un+1), J ′(un)) = 0 et deux directions de descente successives sontorthogonales.

La demonstration du theoreme 6.3 s’appuie sur l’inegalite de convexite

J(un) − J(un+1) ≥ (J ′(un+1), un − un+1) +α

2||un+1 − un||2

et sur l’egalite un+1 − un = −µnJ ′(un), ce qui annule le premier terme de l’inegaliteci-dessus car (J ′(un+1), J ′(un)) = 0.

On a donc demontre que J(un) − J(un+1) ≥ α2 ||un − un+1||2. La suite J(un) est

decroissante, bornee par le minimum de J , donc elle converge, donc on en deduit que||un − un+1|| tend vers 0.

D’autre part, on verifie que

||J ′(un)||2 = (J ′(un), J ′(un) − J ′(un+1))

car deux directions successives sont orthogonales. Ainsi

||J ′(un)|| ≤ ||J ′(un) − J ′(un+1)||.D’autre part, la suite un est bornee. En effet, si elle ne l’etait pas, il existerait

une sous suite uφ(n) qui tendrait, en norme, vers +∞, et comme la fonctionnelleJ est α−convexe, elle est infinie a l’infini et la suite J(uφ(n)) tendrait vers +∞,contradiction. Dans ce cas, en utilisant l’uniforme continuite sur une boule fermeequi contient tous les termes de la suite un, on en deduit que ||J ′(un) − J ′(un+1)|| ≤C||un − un+1||. On a alors

||J ′(un)|| ≤ C||un − un+1|| ≤ (2

α)

12C√

J(un) − J(un+1).

On en deduit la convergence de la suite J ′(un) vers 0. On note u le point ou J estminimale. Par la coercivite

(J ′(un) − J ′(u), un − u) ≥ α||un − u||2.Par l’inegalite de Cauchy-Schwarz, on trouve

α||un − u||2 ≤ ||J ′(un)||.||un − u||ce qui implique

||un − u|| ≤ 1

α||J ′(un)||

donc

||un − u|| ≤ 1

α(2

α)

12C√

J(un) − J(un+1)

et donc la suite un converge vers u.

Page 89: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.4. ALGORITHMES DE GRADIENT 89

Proposition 6.5 Pour que les hypotheses du theoreme 6.3 soient verifiees, il suffitque J verifie

i) soit J fonctionnelle α−convexe derivable, J ′ continue en dimension finie

ii) soit J fonctionnelle α−convexe derivable, J ′ Lipschitzienne sur tout borne endimension infinie

iii) soit J est une fonctionnelle deux fois Frechet derivable, telle que la deriveeseconde soit autoadjointe et verifie

m||w||2 ≤ (J ′′(u)w,w) ≤M ||w||2

avec m > 0.

On remarque que ces conditions sont telles que iii) → ii) → i).

Ce resultat provient de l’uniforme continuite sur un compact d’une fonctionnellecontinue en dimension finie.

6.4.3 Algorithme de gradient a pas constant

Theoreme 6.4 On a convergence de l’algorithme de gradient a pas fixe, seulementsi J ′ est Lipschitzien sur V tout entier, lorsque 0 < µ < 2α

C2 .

La preuve est plus simple. On ecrit un+1−un = −µJ ′(un). Ainsi, soit u la solutionOn trouve un+1 − u = un − u − µ(J ′(un) − J ′(u)). On utilise un argument de type“theoreme du point fixe”. Ainsi

||un+1 − u||2 = ||un − u||2 − 2µ(J ′(un) − J ′(u), un − u) + µ2||J ′(un) − J ′(u)||2≤ (1 − 2µα+ µ2C2)||un − u||2

ou C est la constante de Lipschitz de J ′ sur tout l’espace de Hilbert. La demonstrationest terminee car la suite ||un − u|| est alors majoree par une suite geometrique con-vergeant vers 0. Dans cette inegalite, on peut choisir la meilleure valeur de µ,c’est-a-dire celle qui minimise le taux de convergence. Le minimum de la fonction1 − 2µα + µ2C2 est alors atteint en µ = α

C2 et le taux de convergence est alors√

1 − α2

C2 . En particulier, si la fonctionnelle est une fonctionnelle quadratique en di-

mension finie, la valeur optimale de α est la plus petite des valeurs propres de A = J ′′

alors que la valeur optimale de C est la plus grande des valeurs propres de A. On voitdonc la difficulte essentielle a choisir correctement la meilleure valeur de µ puisque larecherche des valeurs propres est un probleme difficile. On peut esperer une valeur deα inferieure a λmin et une valeur de C plus grande que λmax, ce qui reduit d’autantle pas.

6.4.4 Taux de convergence de l’algorithme du gradient en dimensionfinie

Le but de cette section est de demontrer le resultat suivant:

Theoreme 6.5 On suppose J de classe C2, α−convexe et on suppose que le HilbertV est de dimension finie d. Soit u la valeur du point ou J atteint son minimum. On

Page 90: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

90 CHAPTER 6. APPROXIMATION DE SOLUTIONS

note λmax et λmin les plus grande et plus petite valeur propre de la matrice hessienne(definie positive) J”(u). On designe par

γ =λmaxλmin

.

Cette valeur s’appelle le conditionnement de J”(u). On note β = γ−1γ+1 , et si β est

proche de 1, l’algorithme peut converger tres lentement. On dit dans ce cas que lamatrice J”(u) est mal conditionnee.

i) Lorsque J est quadratique, l’algorithme de gradient verifie l’inegalite:

||un+1 − u||J”(u) ≤ βn||u1 − u||J”(u).

ii) Lorsque J est quelconque, l’algorithme de gradient verifie l’inegalite

∀β > γ − 1

γ + 1,∃n0,

∀n ≥ n0, ||un+n0 − u|| ≤ Dβn||un0 − u||.

Ce theoreme est tres important de maniere theorique, mais la valeur du condition-nement est difficilement accessible donc il est difficile a utiliser en pratique. Cependant,en comparant les deux algorithmes, celui-ci a un taux de convergence en γ−1

γ+1 alors

que l’algorithme du gradient a pas constant a pour taux de convergence (1− 1γ2 )

12 . Sa

demonstration se fait en deux temps:

i) on le demontre pour J(x) = 12(Ax, x)

ii) on le demontre dans le cas general.

On se place d’abord dans le cas J(x) = 12(Ax, x).

Pour toute fonctionnelle quadratique, on peut se ramener a ce cas car si A estdefinie positive symetrique, on note x0 la solution de Ax = b et la forme quadratique(qui par definition a pour derivee seconde A) verifie Q(x)− 1

2 (Ax, x) est affine continue,donc par le theoreme de representation de Riesz, Q(x)− 1

2(Ax, x)−Q(0) etant lineairecontinue, il existe b telle que Q(x) − 1

2 (Ax, x) − Q(0) = (b, x). On verifie alors queQ(x)−Q(0) = 1

2(A(x−x0), x−x0)− 12 (Ax0, x0). Une fois la representation precedente

obtenue, on introduit φ(l) = J(u− lJ ′(u)). On a

φ(l) = J(u− lAu) =1

2(Au− lA2u, u− lAu) =

1

2(Au, u) − l(A2u, u) +

l2

2(A2u,Au).

On en deduit que la valeur du pas optimal est l = (Au,Au)(A2u,Au) et que la valeur minimale

de φ est1

2[(Au, u) − (Au,Au)2

(A2u,Au)] = J(u)(1 − (Au,Au)2

(A2u,Au)(Au, u)).

Le resultat dans ce cas s’appuie alors sur le lemme de Kantorovitch:

Lemme 6.3 On a l’inegalite, pour A matrice symetrique definie positive:

∀y ∈ IRm\0, (y, y)2

(Ay, y)(A−1y, y)≥ 4λminλmax

(λmin + λmax)2.

Page 91: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.4. ALGORITHMES DE GRADIENT 91

Ce resultat est demontre dans la section 2.4.4. La suite donnee par l’algorithme degradient a pas optimal est un+1 = un − lnAu

n, ou ln = (Aun,Aun)(A2un,Aun)

et on trouve

J(un+1) = J(un)(1 − (Aun, Aun)2

(A2un, Aun)(Aun, un)).

Dans cette egalite, on prend yn = Aun et on utilise le lemme de Kantorovitch.Alors on trouve

J(un+1) ≤ J(un)(1 − 4λminλmax(λmax + λmin)2

) = (λmax − λminλmax + λmin

)2.

Comme ||un||A =√

2J(un), on trouve l’inegalite

||un+1 − 0||A ≤ β||un − 0||Ad’ou la convergence geometrique de la suite un vers 0.

Nous passons a l’etude dans le cas general. Pour ce faire, on utilise la formule deTaylor avec reste integral pour J et pour J ′. Pour simplifier les notations, on effectueune translation sur l’inconnue u pour se ramener au minimum u = 0 et on changeJ(u) en J(u) − l ou l est le minimum de J .

Les formules de Taylor s’ecrivent

J(u) =

∫ 1

0(1−θ)(J ′′(0+θu)u, u)dθ =

1

2(J ′′(0)u, u)+([

∫ 1

0(1−θ)(J ′′(θu)−J ′′(0))]u, u).

J ′(u) = J ′′(0)u+ (

∫ 1

0J ′′(θu)dθ − J ′′(0))u

que l’on ecrira pour simplifier J(u) = 12(J ′′(0)u, u) + (Q(u)u, u) et J ′(u) = J ′′(0)u +

R(u)u, ou Q et R, par la continuite de la derivee seconde au sens de Frechet, sontegales a o(1) (c’est a dire tendent vers 0 lorsque u tend vers 0).

On sait deja que l’algorithme du gradient converge, donc il existe n0 tel que||un|| ≤ δ0 pour n ≥ n0. On cherche donc, pour u donne l’unique solution de(J ′(u − µJ ′(u)), J ′(u)) = 0. On note, comme precedemment, φ(µ) = J(u − µJ ′(u)),φ′(µ) = −(J ′(u− µJ ′(u)), J ′(u)), φ′′(µ) = (J ′′(u− µJ ′(u))J ′(u), J ′(u)).

On verifie que

−φ′(µ) = (J ′′(0)(u − µJ ′(u)) +R(u− µJ ′(u))(u − µJ ′(u)), J ′′(0)u+R(u)u)= (J ′′(0)u, J ′′(0)u) − µ(J ′′(0)J ′(u), J ′′(0)u)+R(u− µJ ′(u))(u− µJ ′(u)), J ′′(0)u +R(u)u)= (J ′′(0)u, J ′′(0)u) − µ(J ′′(0)2u, J ′′(0)u) − µ(J ′′(0)R(u)u, J ′′(0)u)+R(u− µJ ′(u))(u− µJ ′(u)), J ′′(0)u +R(u)u)

.

Ainsi si on etudie, pour u tendant vers 0, la solution de φ′(µ) = 0, on trouve que µ

est proche de µ0(u) = (J ′′(0)u,J ′′(0)u)(J ′′(0)2u,J ′′(0)u)

, qui est homogene de degre 0 en u, non singulier

car la matrice J”(0) est symetrique definie positive. On ecrit alors µ = µ0 + β. Ontrouve

−φ′(µ) = −β(J ′′(0)2u, J ′′(0)u) − (µ0 + β)(J ′′(0)R(u)u, J ′′(0)u)+R(u− (µ0 + β)J ′(u))(u − (µ0 + β)J ′(u)), J ′′(0)u+R(u)u).

Page 92: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

92 CHAPTER 6. APPROXIMATION DE SOLUTIONS

La relation φ′(µ) = 0 s’ecrit alors aussi sous la forme

β+(µ0+β)(J ′′(0)R(u)u, J ′′(0)u)

(J ′′(0)2u, J ′′(0)u)−R(u− (µ0 + β)J ′(u))(u − (µ0 + β)J ′(u)), J ′′(0)u+R(u)u)

(J ′′(0)2u, J ′′(0)u)= 0.

On verifie alors que, par le theoreme des fonctions implicites, il existe une fonctionβ(u) telle que β(u) = o(1) c’est-a-dire tend vers 0 avec ||u||. Cette valeur de β(u)determine l’unique pas optimal.

On calcule alors

J(u− (µ0 + β(u))J ′(u)).

On s’interesse au point de base. Il reste

φ(u) = u− (µ0 + β(u))J ′(u) = u− µ0J”(0)u − β(u)J”(0)u − µ0R(u)u

et ce terme peut s’ecrire

φ(u) = u− µ0J”(0)u + S(u)u

ou S(u) = β(u)J”(0) +µ0R(u), et tend vers 0 dans l’espace des matrices comme ||u||.On a alors J(φ(u)) = 1

2(J”(0)(u − µ0J”(0)u + S(u)u), u − µ0J”(0)u + S(u)u) +(Q(φ(u))φ(u), φ(u)). On remarque alors que, comme φ(u) = u − µ0J”(0)u + S(u)u,pour ||u|| assez petit on trouve que ||φ(u)|| ≤ C||u||. Ainsi on trouve

J(φ(u)) =1

2(J”(0)(u − µ0J”(0)u), u − µ0J”(0)u) + ǫ(u)||u||2,

ou le terme ǫ(u) tend vers 0 avec ||u||.On reconnait le calcul dans le cas de la forme quadratique 1

2(Au, u), ce qui donnetout de suite

J(φ(u)) =1

2(J”(0)u, u)(1 − (J”(0)u, J”(0)u)2

(J”(0)u, u)((J”(0))2u, J”(0)u)) + ǫ(u)||u||2.

Enfin, on reconnait que J(u) = 12(J”(0)u, u)(1+η(u)) avec η(u) tend vers 0 comme

||u|| puisque J”(0) est symetrique definie positive donc (J”(0)u, u) ≥ λmin||u||2. Ainsiil vient

J(φ(u)) = J(u)1+η(u) (1 − (J”(0)u,J”(0)u)2

(J”(0)u,u)((J”(0))2u,J”(0)u)) + ǫ(u)||u||2

= J(u)(1 − (J”(0)u,J”(0)u)2

(J”(0)u,u)((J”(0))2u,J”(0)u)) + ǫ(u)||u||2

− η(u)1+η(u)(1 − (J”(0)u,J”(0)u)2

(J”(0)u,u)((J”(0))2u,J”(0)u))J(u).

Utilisant alors la plus petite valeur propre de J”(0), on constate qu’il existe unefonction g(u), tendant vers 0 si ||u|| → 0, telle que

J(φ(u)) = J(u)(1 − (J”(0)u, J”(0)u)2

(J”(0)u, u)((J”(0))2u, J”(0)u)+ g(u)).

On se donne β > λmax−λmin

λmax+λmin. On remarque que β2 + 4λmaxλmin

(λmax+λmin)2> 1. Alors,

comme la suite un converge vers le minimum de la fonctionnelle 0, il existe n0 tel quepour n ≥ n0 on ait

Page 93: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.4. ALGORITHMES DE GRADIENT 93

1 + g(u) ≤ β2 +4λmaxλmin

(λmax + λmin)2.

On en deduit, par application du lemme de Kantorovitch

1 + g(u) − (J”(0)u,J”(0)u)2

(J”(0)u,u)((J”(0))2u,J”(0)u)≤ β2 + 4λmaxλmin

(λmax+λmin)2− (J”(0)u,J”(0)u)2

(J”(0)u,u)((J”(0))2u,J”(0)u)

≤ β2.

On a donc, pour n ≥ n0

J(un+1) ≤ β2J(un)

ce qui donne

J(un+n0) ≤ β2nJ(un0).

Il suffit de rappeler la relation que l’on a obtenue precedemment

||un − u|| ≤ 1

α(2

α)

12C√

J(un) − J(un+1).

On utilise α = λmin et C = λmax, et J(un) − J(un+1) ≤ β2J(un) pour obtenir

||un+n0 − u|| ≤ λmax

λ32min

βn+1√

2J(un0).

On a donc demontre une convergence geometrique de la suite un vers u, ayant untaux de convergence β arbitraire, strictement superieur a γ−1

γ+1 . Ce taux de convergenceest moins bon au fur et a mesure que le conditionnement de la matrice γ tend vers+∞. c’est par exemple ce qui se passe dans un espace de Hilbert lorsqu’on l’approximepar des espaces de dimension finie de plus en plus grand et que la matrice admet desvaleurs propres formant une suite tendant vers +∞. Le point ii) du theoreme estdemontre.

6.4.5 Algorithme de gradient reduit

On cherche dans cette section a minimiser une fonctionnelle J(x) sous la contraintex ∈ K = Ax = b, A matrice d×m de rang d < m.

On suppose pour simplifier l’expression que les inconnues sont ordonnees de sorteque

A = (A0, A1)

ou A0 est une matrice d× d inversible et A1 est une matrice d× (m− d).

Proposition 6.6 L’algorithme de gradient reduit est une suite (un, dn, µn) donneepar

u0 = (A−10 (b−A1y

0), y0), d0 = J ′y(u

0) − (A−10 A1)

tJ ′x(u

0)

et, tant que dn non nul, on construit la suite par

Page 94: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

94 CHAPTER 6. APPROXIMATION DE SOLUTIONS

y1 = y0 − µ0d0, u1 = (A−1

0 (b−A1y1), y1), d1 = J ′

y(u1) − (A−1

0 A1)tJ ′x(u

1),

yn+1 = yn−µndn, un+1 = (A−10 (b−A1y

n+1), yn+1), dn+1 = J ′y(u

n+1)−(A−10 A1)

tJ ′x(u

n+1).

Cet algorithme de gradient reduit est un algorithme de descente pour le problemeavec contrainte. Si le pas est choisi convenablement, il converge. Dans le cas ou lafonctionnelle est α−convexe et Lipschitzienne sur tout borne, il converge (pas optimalou pas fixe).

On verifie tout d’abord que IRm = (x, y), x ∈ IRd, y ∈ IRm−d, et que A(x, y) =A0x+A1y. On en deduit que (x, y) ∈ K ⇔ A0x = b−A1y, soit x = A−1

0 (b−A1y).On utilise la procedure decrite dans la proposition 6.1. On en deduit que

J(u) = J(A−10 (b−A1y), y) = Jr(y).

Pour calculer la derivee, on emploie la differentielle de Gateaux. On trouve alors,pour w ∈ IRm−d, et notant p(y) = (A−1

0 (b−A1y), y)

Jr(y + ǫw) − Jr(y) = J(A−10 (b−A1(y + ǫw)), y + ǫw) − J(p(y))

= J(p(y) − ǫA−10 A1w, y + ǫw) − J(p(y))

= (J ′(p(y)), (−A−10 A1w,w)) + o(ǫ)

Si on ecrit la derivee J ′ en (J ′x, J

′y), on trouve que

(J ′r(y), w) = (J ′

x(p(y)),−A−10 A1w) + (J ′

y(p(y)), y), w)

Utilisant la transposee, il vient

(J ′r(y), w) = (J ′

y(p(y)) − (A−10 A1)

tJ ′x(p(y)), w).

On en deduit la relation

J ′r = J ′

y − (A−10 A1)

tJ ′x.

L’algorithme de gradient usuel construit une suite (yn, dn) caracerisee par

un = (A−10 (b−A1y

n), yn), dn = J ′y(u

n) − (A−10 A1)

tJ ′x(u

n).

On se place dans le cas ou dn 6= 0 (car sinon on aurait atteint le point de minimum).Dans ce cas, on introduit

Dnx = −A−1

0 A1dn.

On a, par definition, A0Dnx + A1dn = 0. Soit J ′(un) = (dnx, d

ny ). Le vecteur Dn =

(Dnx , dn) verifie

(Dn, J ′(un)) = (−A−10 A1dn, d

nx) + (dn, d

ny ) = (dn, d

ny − (A−1

0 A1)tdnx) = (dn, dn) > 0

donc la direction −Dn est a la fois une direction admissible (continue) et une directionde descente pour la fonctionnelle J . C’est donc une direction de descente pour leprobleme avec contrainte.

Page 95: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.4. ALGORITHMES DE GRADIENT 95

D’autre part, si on a J ′r(y

n) = 0, alors on a dny = (A−10 A1)

tdnx , ce qui s’ecrit

dny = At1((A−10 )tdnx)

dnx = At0((A−10 )tdnx)

dont on deduit le multiplicateur de Lagrange, egal a −(A−10 )tdnx , car on a

J ′(un) + λAt = 0.

L’algorithme ainsi construit est un algorithe de gradient pour Jr. Ainsi, pour lasuite yn, dn, il suffit de choisir le pas convenablement pour se placer dans la categoriedes algorithmes de gradient convergents.

En particulier, si la fonctionnelle est α−convexe Lipschitz alors Jr est aussi α−convexeLipschitz puisque les contraintes forment un espace convexe. La proposition estdemontree.

Generalisation a des contraintes non affines On cherche a generaliser cet algo-rithme de gradient reduit a une situation ou la contrainte n’est plus affine. Pour fixerles idees, on suppose de meme que le probleme s’ecrit

infF (x,y)=0J(x, y)

ou ∇xF (x0, y0) inversible pour un point (x0, y0) tel que F (x0, y0) = 0. Notons quecela signifie que F est une application de K dans IRd, et que si on suppose K ⊂ IRm

(ou plus generalement il existe un systeme de coordonnees sur K qui est inclus dansun espace vectoriel de dimension m > d, eventuellement de dimension non finie), alorsx ∈ IRd et y ∈ IRm−d. Comme F est un systeme de d equations avec d inconnues x etm−d parametres y, on se trouve dans le cadre d’application du theoreme des fonctionsimplicites au voisinage de y0, c’est a dire on peut resoudre localement F (x, y) = 0 sousla forme y = G(x). L’application G est alors une application de IRd dans IRm−d.Le probleme de minimisation s’ecrit alors localement

infJ(G(y), y).

On note J∗(y) = J(G(y), y). Calculons le gradient de J∗ (qui est donc le gradientreduit). On note h l’accroissement en y et on ecrit la derivee de Gateaux:

J∗(y+ǫh)−J∗(y)ǫ

= J(G(y+ǫh),y+ǫh)−J(G(y),y)ǫ

=J(G(y)+ǫ(∇yG(y),h)+o(ǫ),y+ǫh)−J(G(y),y)

ǫ

On constate que le taux d’accroissement precedent est un taux d’accroissement pourJ au point (G(y), y) dans la direction ((∇yG(y), h), h) (qui est un vecteur ayant mcomposantes puisque G est une application de IRm−d dans IRd et donc son gradientest une matrice d × (m − d) (le nombre de lignes de la matrice est le nombre decoordonnees de G et le nombre de colonnes est le nombre de derivees), ainsi danscette notation (∇yG,h) = ∇yG.h est un vecteur de taille d comme application de lamatrice d× (m− d) au vecteur dual h dans IRm−d ).Ainsi, prenant la limite lorsque ǫ→ 0, on trouve

(J ′∗(y), h) = (J ′(G(y), y), (∇yG.h, h))

=(

(∇xJ(G(y), y),∇yJ(G(y), y)), (∇yG.h, h))

= ∇xJ(G(y), y).[∇yG.h] + ∇yJ(G(y), y).h.

Page 96: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

96 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Il faut alors calculer la derivee de G. Pour cela, on utilise l’identite caracterisant G:

F (G(y), y) = 0.

Ainsi, utilisant la meme methode que pour le calcul de la derivee de J∗: on trouveque F∗(y) = F (G(y), y) a pour derivee 0 (car c’est la fonction nulle) et que

((F∗)′(y), h) = (∇xF (G(y), y), [∇yG.h]) + (∇yF (G(y), y), h)

ou on note que comme F presente d equations, ce gradient est un ensemble de dvecteurs gradient.

L’egalite F∗(y) = 0 implique donc

∇yF (G(y), y) + ∇xF (G(y), y).∇yG(y) = 0.

On en deduit alors

∇yG = −(∇xF (G(y), y))−1.∇yF (G(y), y)

Verifions la coherence de cette formule. On a dit que G etait une application deIRm−d dans IRd, donc son gradient est une matrice d×m− d. L’application F est uneapplication de IRm dans IRd, donc son gradient en y est une matrice d ×m − d, songradient en x est une matrice d× d, donc (∇xF )−1∇yF ) est une matrice d ×m− d.QED. Finalement, on tire alors que J ′

∗ = J ′y − J ′

x(∇xF )−1∇yF ).

6.5 Algorithmes de gradient conjugue

Dans cette section, nous construisons un des algorithmes les plus utilises: le gradientconjugue.

6.5.1 Exemple en dimension 2

Nous commencons par un exemple en dimension 2, qui prouve que meme si localementla direction de gradient est la meilleure direction, ce n’est pas la meilleure globalement.

En effet, on considere f(x, y) = a2x2 + b2y2. Les isovaleurs de f sont des ellipseset le minimum est trivialement 0.

Lorsqu’on utilise l’algorithme du gradient a pas optimal, on sait que la suite verifie,pour tout n:

(f ′(xn+1, yn+1), f ′(xn, yn)) = 0.

Comme on est en dimension 2, cela veut dire qu’il existe λn tel que

f ′(xn+1, yn+1) = λn(f′(xn, yn))⊥

On en deduit, utilisant

f ′(xn+2, yn+2) = λn+1(f′(xn+1, yn+1))⊥

f ′(xn+2, yn+2) = −λnλn+1f′(xn, yn)

Page 97: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.5. ALGORITHMES DE GRADIENT CONJUGUE 97

Dans le cas ou a 6= b, la suite est donc infinie et converge par iterations successivesvers le minimum. Si a = b, bien sur une direction de gradient pointe vers le centre ducercle et on converge en une iteration.

Mais il est clair que (x0, y0) − (x0, y0) = (0, 0), donc la direction optimale n’estpas celle du gradient mais celle du vecteur pointant vers le centre!

Nous cherchons a exploiter cette idee. En effet, en dimension 2, il n’y a quedeux directions possibles, donc meme si au premier pas on n’a pas trouve la bonnedirection, on le trouvera au deuxieme pas. Pour cela, on considere la direction dugradient comme direction de depart. On trouve que

(x1, y1) = (x0, y0) − λ0(2a2x0, 2b

2y0), λ0 =a4x2

0 + b4y20

2(a6x20 + b6y2

0).

La bonne direction est (x1, y1), car elle conduit tout de suite au minimum. Onverifie que

((2a2x0, 2b2y0), A(x1, y1))

= ((2a2x0, 2b2y0), (2a

2x1, 2b2y1))

= ((2a2x0, 2b2y0), (2a

2x0, 2b2y0)) − λ0((2a

2x0, 2b2y0), (4a

4x0, 4b4y0))

= 4a4x20 + 4b4y2

0 − (8a6x20 + 8b6y2

0)λ0

= 0.

La direction d1 = (x1, y1) verifie alors (d0, Ad1) = 0 et grace a elle, l’algorithmes’arrete immediatement.

6.5.2 Algorithme de directions conjuguees

Dans le cas de la minimisation d’une fonctionnelle quadratique en dimension finie ouinfinie, par exemple J(x) = 1

2(Ax, x)−(b, x), ou on sait que Ax = b admet une solutionx0, on verifie que

J(x) =1

2(Ax, x) − (Ax0, x) =

1

2(A(x− x0), x− x0) −

1

2(b, x0).

Ainsi minimiser J revient a minimiser la norme ||x− x0||A.

On se place en dimension finie N . La matrice A est symetrique definie positive,donc elle est diagonalisable dans une base orthogonale notee (p1, .., pN ). On a alors,comme (Api, pj) = 0 pour i 6= j

||x− x0||2A =∑

i

(xi − x0,i)2(Api, pi).

On part du point x1. On cherche le minimum de la fonction sur IR egale a λ →J(x1 + λp1). On trouve que la relation donnant le minimum en λ est

(A(x1 + λp1) − b, p1) = 0

soit

λ = λ1 =(b−Ax1, p1)

(Ap1, p1).

Page 98: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

98 CHAPTER 6. APPROXIMATION DE SOLUTIONS

On regarde alors le deuxieme point x2 = x1 + λp2. On trouve que la valeur de λest λ2 = (b−Ax2,p2)

(Ap2,p2).

D’autre part, on considere φ(λ, µ) = J(x1 +λp1 +µp2). C’est une fonction de deuxvariables, qui est minimale pour

∂λφ = ∂µφ = 0.

On obtient les relations

(J ′(x1 + λp1 + µp2), p1) = 0(J ′(x1 + λp1 + µp2), p2) = 0

soit

(Ax1 − b+ λAp1 + µAp2, p1) = 0(Ax1 − b+ λAp1 + µAp2, p2) = 0

(Ax1 − b, p1) + λ(Ap1, p1) = 0(Ax1 − b, p2 + µ(Ap2, p2) = 0

ce qui conduit a λ = λ1 et µ = λ2.On voit donc que le point x3 = x1 +λ1p1 +λ2p2 est le point qui realise le minimum

de J sur l’espace affine x1 + Vect(p1, p2).On definit alors la suite de recurrence par

xn+1 = xn + λnpn

avec

λn =(b−Axn, pn)

(Apn, pn)

Alors xn+1 est le point ou J est minimum sur En = x1 + Vect(p1, p2, ..., pn).Cet algorithme est un algorithme de directions conjuguees. On ecrit alors la

Proposition 6.7 Soit (pn) une suite dans V Hilbert de directions conjuguees au sensou (pi, Apj) = (Api, pj) = 0 pour i 6= j tel que l’espace vectoriel ferme engendre par lasuite des pj est l’espace de Hilbert tout entier (c’est a dire que tout element de l’espacede Hilbert est limite d’une suite de combinaisons lineaires finies des pj).

La suite definie par

xn+1 = xn + λnpn

λn = (pn,b−Axn)(pn,Apn)

verifie les relations(b−Apn, pk) = 0 pourk ≤ n− 1

et xn converge vers x0 la solution unique de Ax = b.

Pour demontrer cette proposition, on ecrit effectivement la norme. On voit alorsque

x1 =∑

xi1pi, x0 =∑

Xipi, b =∑

XiApi

λ1 =(p1, b−Ax1)

(p1, Ap1)= −(p1,

(xi1 −Xi)Api)

(p1, Ap1)= −(x1

1 −X1)

Page 99: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.5. ALGORITHMES DE GRADIENT CONJUGUE 99

donc x2 = X1p1 +∑

i≥2 xi1pi.

On voit alors que b − Ax2 =∑

i≥2(Xi − xi1)Api, donc (b − Ax2, p2) = (X2 −x2

1)(Ap2, p2) donc λ2 = X2 − x21 et x3 = X1p1 +X2p2 +

i≥3 xi1pi.

On continue le raisonnement pour obtenir

xn =∑

1≤i≤n−1

Xipi +∑

i≥nxi1pi.

On voit alors que

||xn − x0||2A =∑

i≥n(Xi − xi1)

2(Api, pi)

et la suite ||xn−x0||2A est une suite decroissante positive. Elle a donc une limite. Cettelimite est 0 car la famille (pj) est une famille complete. On en deduit que la suite xntend vers la solution du probleme. La proposition est demontree. On remarque aussique xn identifie deja les n− 1 premiers termes de x0.

Ce raisonnement n’est reellement applicable que lorsqu’on connait A donc la formequadratique. Dans le cas general, on va combiner cette methode avec une methodede gradient afin de construire une suite par un procede d’orthogonalisation de Gram-Schmidt.

Application aux polynomes de Hermite On definit les polynomes de Hermitepar la relation

Hn(x) = (−1)ndn

dxn(e−

x2

2 )ex2

2 .

On verifie par recurrence que Hn est un polynome de degre n dont le monome deplus haut degre est xn. En effet,

Hn+1(x) = − d

dx(Hn(x)e

−x2

2 )ex2

2 = xHn(x) −H ′n(x).

Comme, par hypothese, Hn est de degre n dont le monome de plus haut degreest xn (dans le raisonnement par recurrence), on sait que H ′

n est de degre n− 1 doncxHn −H ′

n est de degre n+ 1 et son terme de plus haut degre est xn+1. D’autre part,H1(x) = 1 donc l’hypothese de recurrence est vraie pour n = 1.

On controle que

IRHn(x)Hp(x)e

−x2

2 dx =

IRHn(x)(−1)p

dp

dxp(e−

x2

2 )dx.

Sans restreindre la generalit, on peut supposer soit p = n soit p > n. Dans le casp > n, en faisant p integrations par parties, on trouve que

IRHn(x)Hp(x)e

−x2

2 dx =

IR

dp

dxp(Hn(x))e

−x2

2 dx = 0

car Hn est un polynome de degre n < p.D’autre part, pour p = n on trouve que

IRHn(x)Hn(x)e

−x2

2 dx = n!

IRe−

x2

2 dx = n!√

Page 100: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

100 CHAPTER 6. APPROXIMATION DE SOLUTIONS

La famille de polynomes Hn est donc une famille orthogonale pour le produit scalaire

f(x)g(x)e−x2

2 dx

et c’est donc une famille conjuguee pour l’application Af = fe−x2

2 .

6.5.3 Algorithme du gradient conjugue

Theoreme 6.6 On considere une fonctionnelle quadratique J(x). On construit lasuite de directions dj par

d0 = −J ′(x0)

xn+1 = xn + ρndn, ρn = arginfJ(xn + ρdn)

dn+1 = −J ′(xn+1) + βn+1dn.

βn+1 =|J ′(xn+1)|2|J ′(xn)|2

, ρn = − |J ′(xn)|2(Adn, J ′(xn))

.

La famille (dj) definit une famille de directions conjuguees associees a A telle queJ ′(x) − J ′(y) = A(x− y).

La famille des directions J ′(xp) est une famille orthogonale pour le produit scalaireusuel.

L’espace vectoriel engendre par la famille (J ′(xp)), 0 ≤ p ≤ j est egal a l’espacevectoriel engendre par la famille (dp), 0 ≤ p ≤ j.

En dimension finie N la famille de directions conjuguees est complete et l’algorithmedonne dans la partie precedente converge en au plus N iterations.

Pour faire la demonstration correctement, il s’agit de construire les elements dela suite successivement. On suppose que l’on minimise la fonctionelle quadratique12(Ax, x) − (b, x). On utilisera la relation

J ′(x) − J ′(y) = A(x− y). (6.5.2)

Etape 1. On commence avec un point x0 et on introduit

x1 = x0 + ρ0d0

d0 = −J ′(x0)

La condition d’optimalite s’ecrit

(J ′(x1), d0) = 0.

On en deduit(J ′(x1) − J ′(x0), d0) + (J ′(x0), d0) = 0.

(A(x1 − x0), d0) = |J ′(x0)|2

soit ρ0(Ad0, d0) = |J ′(x0)|2, ou encore

Page 101: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.5. ALGORITHMES DE GRADIENT CONJUGUE 101

ρ0 =|J ′(x0)|2(Ad0, d0)

= − |J ′(x0)|2(Ad0, J ′(x0))

.

On note alors que (J ′(x1), J′(x0)) = 0.

Etape 2. On construit une direction conjuguee. Alors d1 verifie (Ad1, d0) = 0. Onimpose de plus que cette direction conjuguee soit une direction de descente reliee augradient, par

d1 = −J ′(x1) + β1d0.

Ceci implique que l’on veuille trouver une direction conjuguee dans l’espace vec-toriel engendre par les gradients successifs (J ′(x0), J

′(x1)). On a simplement imposeque cette direction conjuguee soit telle que d1 + J ′(x1) = 0. On verra plus loin quecela ne restreint pas la generalite de faire ainsi.

Comme c’est une direction conjuguee, on trouve

(d1, Ad0) = 0

soit(J ′(x1), Ad0) = β1(Ad0, d0).

On multiplie les deux membres de l’egalite par ρ0, et on remarque que ρ0d0 = x1−x0,ce qui donne

(J ′(x1), A(x1 − x0)) = β1(A(x1 − x0),−J ′(x0))

ou encore en utilisant la relation (6.5.2)

(J ′(x1), J′(x1) − J ′(x0)) = β1(J

′(x1) − J ′(x0),−J ′(x0)).

On utilise l’orthogonalite de J ′(x0) et de J ′(x1) pour obtenir

β1 =|J ′(x1)|2|J ′(x0)|2

.

La condition d’optimalite pour ρ1 s’ecrit (J ′(x2), d1) = 0. Comme de plus

(J ′(x2), d0) = (J ′(x2) − J ′(x1), d0) + (J ′(x1), d0) = ρ1(Ad1, d0) + 0 = 0

on en deduit que J ′(x2) est orthogonal a d0 et a d1, donc est orthogonal a J ′(x0) et aJ ′(x1).

La condition d’optimalite donne alors la valeur de ρ1 par

(J ′(x2) − J ′(x1), d1) + (J ′(x1), d1) = 0

ρ1(Ad1, d1) = |J ′(x1)|2

puisque d1 = −J ′(x1) + β1d0, et que (J ′(x1), d0) = −(J ′(x1), J′(x0)) = 0. D’autre

part, d1 = −J ′(x1) + β1d0 et (Ad1, d0) = 0 donc (Ad1, d1) = −(Ad1, J′(x1)). Il vient

ρ1 = − |J ′(x1)|2(Ad1, J ′(x1))

=|J ′(x1)|2(Ad1, d1)

.

Page 102: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

102 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Pour bien comprendre la procedure, nous etudions l’etape 2.On construit donc une direction conjuguee d2. Elle est conjuguee donc

(Ad2, d1) = (Ad2, d0) = 0.

On suppose que cette direction conjuguee appartient a l’espace vectoriel engendrepar la famille (J ′(x0), J

′(x1), J′(x2)). Comme l’espace vectoriel engendre par (J ′(x0), J

′(x1))est l’espace vectoriel engendre par (d0, d1), on ecrit d2 = −J ′(x2) + β0

2d0 + β12d1.

Pour justifier cette forme, prenons une direction quelconque de V ect(J ′(x0), J′(x1), J

′(x2)).Comme l’espace vectoriel engendre par J ′(x0), J

′(x1) est le meme que l’espace vectorielengendre par d0, d1, une direction quelconque est donc sous la forme

d2 = αJ ′(x2) + βd0 + γd1.

Cette direction est une direction de descente, donc necessairement (d2, J′(x2)) ≤ 0.

Comme J ′(x2) est orthogonal a d0 et a d1, on en deduit que α ≤ 0. On veut eviterle cas ou α = 0 car on est dans l’espace vectoriel engendre par d0 et d1 qui sont deuxdirections de descente que l’on a utilise, ainsi α < 0.

D’autre part, si on considere un point dans cette direction de descente, il s’ecrit

x2 + rd2 = x2 + (−αr)(−J ′(x2) +−βαd0 +

−γαd1).

On a donc, par le fait que le pas ρ1 est optimal

(J ′(x2), d1) = 0

D’autre part, on a J ′(x2)−J ′(x1) = A(x2−x1) = A(ρ1d1), donc (J ′(x2)−J ′(x1), d0) =0 car (Ad1, d0) = 0. Ainsi, comme par la condition d’optimalite (J ′(x1), d0) = 0 onen deduit que (J ′(x2), d0) = 0. Comme J ′(x2) est orthogonal a l’espace vectorielengendre par d0 et d1, il est orthogonal a J ′(x0) et a J ′(x1).

On a retrouve le pas ρ = −αr ≥ 0 et l’ecriture de la direction de descente d2. Ona de plus, uniquement grace aux conditions d’optimalite, que les trois vecteurs J ′(x0),J ′(x1) et J ′(x2) sont orthogonaux.

Pour identifier les coefficients, on n’a besoin que des conditions de conjugaison.On trouve alors

(−J ′(x2) + β02d0 + β1

2d1, Ad0) = 0(−J ′(x2) + β0

2d0 + β12d1, Ad1) = 0

En utilisant le fait que les directions d0 et d1 sont conjuguees, on trouve

β02(d0, Ad0) = (J ′(x2), Ad0), β

12(d1, Ad1) = (J ′(x2), Ad1).

On multiplie respectivement chacune de ces egalites par ρ0 et par ρ1 et on utiliseρ1d1 = x2 − x1, ρ0d0 = x1 − x0. Alors il vient

β02(d0, Aρ0d0) = (J ′(x2), A(x1 − x0)), β

12 (d1, Aρ1d1) = (J ′(x2), A(x2 − x1))

On utilise la remarque (6.5.2) pour obtenir

β02(d0, Aρ0d0) = (J ′(x2), J

′(x1) − J ′(x0)), β12ρ1(d1, Ad1) = (J ′(x2), J

′(x2) − J ′(x1)).

Page 103: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.5. ALGORITHMES DE GRADIENT CONJUGUE 103

On utilise alors ρ1d1 = x2 − x1, ce qui fait que ρ1(d1, Ad1) = (d1, A(x2 − x1)) =(d1, J

′(x2)−J ′(x1)) = (−J ′(x1)+β1d0, J′(x2)−J ′(x1)) = (−J ′(x1)−β1J

′(x0), J′(x2)−

J ′(x1)). On utilise alors l’orthogonalite des vecteurs derivees. Ainsi il reste β02 = 0 et

β12ρ1(d1, Ad1) = (J ′(x2), J

′(x2))

Comme d1 = −J ′(x1) + β1d0 = −J ′(x1) − β1J′(x0), il vient

−β12 |J ′(x1)|2 = |J ′(x2)|2.

D’autre part la condition d’optimalite est (J ′(x3), d2) = 0, x3 = x2 + ρ2d2. Onsait d’autre part que

(J ′(x3), d1) = (J ′(x3) − J ′(x2), d1) + (J ′(x2), d1)= (J ′(x3) − J ′(x2), d1) optimalite pour x2

= (A(x3 − x2), d1) = ρ2(Ad2, d1) = 0 conjuguees

(J ′(x3), d0) = (J ′(x2), d0) + ρ2(Ad2, d0) = (J ′(x2), d0) = −(J ′(x2), J′(x0)) = 0.

On sait donc que J ′(x3) est orthogonal a l’espace vectoriel engendre par d0, d1, d2

donc est orthogonal a J ′(x0), J′(x1), J

′(x2).Finalement le coefficient ρ2 est donne par

ρ2(Ad2, d2) + (J ′(x2), d2) = 0

soit, utilisant d2 = −J ′(x2) + β12d1 et l’orthogonalite de d1 et de J ′(x2)

ρ2(Ad2, d2) = |J ′(x2)|2

et on en deduit, utilisant le fait que les directions sont conjuguees

ρ2 = − |J ′(x2)|2(J ′(x2), Ad2)

=|J ′(x2)|2d2, Ad2)

.

Raisonnement par recurrence On suppose donc que l’on a construit une suite(xp, ρp, dp), p ≤ n, et xn+1 ayant les proprietes suivantes:

• la suite (dp) est une suite de directions conjuguees

• dp+1 = −J ′(xp+1) + βp+1dp pour p ≤ n− 1 avec

βp+1 =|J ′(xp+1)|2|J ′(xp)|2

.

• les vecteurs (J ′(xp)) forment une famille orthogonale pour le produit scalaireusuel pour 0 ≤ p ≤ n

• xp+1 = xp + ρpdp pour p ≤ n, les ρp etant donnes par la relation

ρp = − |J ′(xp)|2(J ′(xp), Adp)

.

• On commence par verifier que J ′(xn+1) est orthogonal a tous les autres. Pourcela, on demontre que J ′(xn+1) est orthogonal a tous les dp, 0 ≤ p ≤ n.

Page 104: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

104 CHAPTER 6. APPROXIMATION DE SOLUTIONS

La premiere relation est la condition d’optimalite, qui s’ecrit

(J ′(xn+1), dn) = 0

(et qui vient du fait que l’on minimise J(xn+ tdn)). On utilise ensuite, pour j ≤ n−1,la relation

(J ′(xj+1), dj) = 0

et on trouve

(J ′(xn+1) − J ′(xj+1), dj) = (J ′(xn+1), dj) = (A(xn+1 − xj), dj)

soit

(J ′(xn+1), dj) = (A(ρndn + ..+ ρj+1dj+1), dj)

et il suffit d’utiliser le fait que dj soit conjugue, par l’hypothese de recurrence, avectous les dk, j+1 ≤ k ≤ n. On a donc demontre que J ′(xn+1) est orthogonal a tous lesdj , j ≤ n. Comme l’espace vectoriel engendre par les dj , 0 ≤ j ≤ n est le meme quel’espace vectoriel engendre par les J ′(xj), 0 ≤ j ≤ n, on a le resultat d’orthogonalite.

On construit donc xn+2, dn+1 et ρn+1 comme suit. On veut que l’espace vectorielengendre par (J ′(x0), .., J

′(xp+1)) soit aussi l’espace vectoriel engendre par les direc-tions (d0, .., dp+1). On impose de plus que dp+1 = −J ′(xp+1) + lp, ou lp est dansl’espace vectoriel engendre par (d0, .., dp) qui est egal, par l’hypothese de recurrence,a l’espace vectoriel engendre par (J ′(x0), .., J

′(xp)).On sait deja que

dn+1 = −J ′(xn+1) +n∑

j=0

βjn+1dj

Les directions sont conjuguees, donc (dn+1, Adp) = 0∀p. On en deduit donc que

n∑

j=0

βjn+1(dj , Adp) = (J ′(xn+1), Adp).

Utilisant le fait que la famille de directions dj est conjuguee, il vient

βpn+1(dp, Adp) = (J ′(xn+1), Adp).

On multiplie les deux membres de l’egalite par ρp et on utilise ρpAdp = J ′(xp+1) −J ′(xp). Ensuite, comme la famille (J ′(xk)), 0 ≤ k ≤ n+ 1 est une famille orthogonale(ce qu’on a juste demontre), on en deduit que J ′(xn+1) est orthogonal a tous lesJ ′(xp+1) pour p+ 1 ≤ n et a tous les J ′(xp) pour p ≤ n. On en deduit que βpn+1 = 0pour p 6= n. Il reste alors seulement un terme

βnn+1(dn, J′(xn+1 − J ′(xn)) = (J ′(xn+1), J

′(xn+1) − J ′(xn)) = |J ′(xn+1)|2

Comme d’autre part dn = −J ′(xn) + βn−1dn−1, utilisant le fait que dn−1 est dansl’espace vectoriel engendre par J ′(x0), .., J

′(xn−1) donc est orthogonal a J ′(xn) et aJ ′(xn+1), il reste

Page 105: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.5. ALGORITHMES DE GRADIENT CONJUGUE 105

βnn+1(−J ′(xn), J′(xn+1) − J ′(xn)) = |J ′(xn+1)|2

soit

βn = βnn+1 =|J ′(xn+1)|2|J ′(xn)|2

.

On a donc construit une direction dn+1 = −J ′(xn+1)+βndn telle que les directions(dp), 0 ≤ p ≤ n+ 1 soient conjuguees.

Enfin, ecrivons la condition d’optimalite. On a donc,

(A(xn+2 − xn+1), dn+1) + (J ′(xn+1), dn+1) = 0

soit utilisant dn+1 = −J ′(xn+1) + βndn, ρn+1(Adn+1, dn+1) = |J ′(xn+1)|2.On en tire la relation

ρn+1 = − |J ′(xn+1)|2(Adn+1, J ′(xn+1))

.

Toutes les hypotheses du raisonnement par recurrence ont ete verifiees, ainsi l’algorithmecontinue jusqua obtenir J ′(xN ) = 0. En dimension finie d, on aura necessairementcette condition puisque la famille (J ′(x0), .., J

′(xd−1)) est une famille orthogonale. Sic’est une famille libre, c’est une base et J ′(xd) orthogonal a tous les elements impliqueque J ′(xd) = 0. Si c’est une famille liee, comme le vecteur J ′(xd−1) est orthogonala tous les autres, si il est combinaison lineaire de tous les autres, cette combinaisonlineaire est nulle si tous sont non nuls, donc il en existe au moins un qui est nul.

Corollaire 6.1 Le coefficient de dp dans la suite de directions conjuguees de l’algorithmede gradient conjugue est la valeur qui maximise le facteur de reduction de l’erreur,erreur definie par E(x) = (r(x), A−1(r(x))) ou r(x) = −J ′(x).

On remarque que dans le cas de la forme quadratique J(x) = 12(Ax, x), on trouve

J ′(x) = Ax donc E(x) = 2J(x). On a alors immediatement

xn+1 = xn + ρndn, dn = −J ′(xn) + βn−1dn−1.

Le terme ρn est calcule par 0 = (Axn + ρnAdn, dn), soit ρn = − (Axn,dn)(Adn,dn) . Dans ce

cas, on applique le resultat donne precedemment et on trouve

E(xn+1) = E(xn)[1 − (Axn, dn)2

(Adn, dn)(xn, Axn)],

On voit alors que (Axn, dn) = (Axn,−Axn + βn−1dn−1) = −(Axn, Axn) car Axnest orthogonal a dn−1. Maximiser le facteur de reduction de l’erreur revient alors a

maximiser (Axn,dn)2

(Adn,dn)(xn,Axn) , donc a minimiser (Adn, dn). Comme

(Adn, dn) = (−A2xn + βn−1Adn−1,−Axn + βn−1dn−1)= (A2xn, Axn) − 2βn−1(Adn−1, Axn) + β2

n−1(Adn−1, dn−1)

le minimum de cette fonction quadratique est obtenu pour βn−1 = (Adn−1,Axn)(Adn−1,dn−1)

, ce quicorrespond a la formule obtenue precedemment en utilisant αn−1dn−1 = xn − xn−1.

En effet, αn1dn−1 = xn − xn−1 donc βn−1 = (A(xn−xn−1),Axn)(A(xn−xn−1),dn−1) . En utilisant dn−1 =

−Axn−1 + βn−2dn−2 si n ≥ 2, d0 = −Ax0, dn−2 est orthogonal a Axn et a Axn−2

si n ≥ 2, donc (dn−1, Axn − Axn−1) = (−Axn−1, Axn − Axn−1) = ||J ′(xn−1)||2 =

||r(xn−1)||2, et il reste βn−1 = ||Axn||2||Axn−1||2 . Le Corollaire est demontre.

Page 106: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

106 CHAPTER 6. APPROXIMATION DE SOLUTIONS

6.5.4 Un exemple en dimension 3

En dimension 3, on sait que pour une fonctionnelle quadratique l’algorithme du gra-dient conjugue converge en trois iterations au plus, c’est a dire on construit au mieuxd0, d1, d2. Nous donnons dans le cas de cet exemple les cas ou l’algorithme convergeen une iteration et en deux iterations.

La fonctionnelle etudiee ici est une fonctionnelle dont les lignes de niveau sont desellipsoides. On prend

J(x, y, z) =1

2(a2x2 + b2y2 + c2z2).

Le point de depart est le point (x0, y0, z0). Le gradient en ce point est (a2x0, b2y0, c

2z0).Les points de la droite de descente sont

(x0(1 − a2t), y0(1 − b2t), z0(1 − c2t)).

L’algorithme converge en une iteration lorsque le point d’arrivee est le point (0, 0, 0).On trouve donc

x0(1 − a2t) = 0y0(1 − b2t) = 0z0(1 − c2t) = 0

et donc, si x0 6= 0, alors t = 1a2

donc y0 = z0 = 0, et si c’est y0 qui est non nul ontrouve x0 = z0 = 0 et si z0 6= 0 alors x0 = y0 = 0.

On en deduit que l’algorithme converge en une iteration lorsque le pointest sur un des axes principaux de l’ellipsoide

Dans le cas contraire, on calcule la valeur de la fonctionnelle.On trouve, notant

φ(t) = J(x0(1 − a2t), y0(1 − b2t), z0(1 − c2t))

φ(t) =1

2(x2

0(1 − a2t)2a2 + y20(1 − b2t)2b2 + z2

0(1 − c2t)2c2)

qui atteint son minimum en t0 que l’on ne calculera pas.Le gradient en ce point est alors

J ′(x(1)) = (a2x0(1 − a2t0), b2y0(1 − b2t0), c

2z0(1 − c2t0))

On trouve alors que la direction d1, qui vaut d1 = −J ′(x(1))+β0d0, est de la forme

d1 = (αx0, βy0, γz0) = (a2x0(−1+a2t0+β0), b2y0(−1+b2t0+β0), c

2z0(−1+c2t0+β0))

et donc x(2) = x(1) + ρd1, soit

tx(2) =

a2x0[(1 − a2t0) + ρ(−1 + a2t0 + β0)]b2y0[(1 − b2t0) + ρ(−1 + b2t0 + β0)]c2z0[(1 − c2t0) + ρ(−1 + c2t0 + β0)])

.

On suppose que l’algorithme a converge en deux iterations. Alors les coordonnees dansl’expression ci-dessus sont nulles. On elimine le cas ou une seulement des valeurs de

Page 107: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.6. DESCENTE PSEUDO-CONJUGUE 107

(x0, y0, z0) est non nulle car c’est le cas precedent. Si x0y0z0 6= 0, on en deduit que lescoefficients sont nuls, c’est a dire on obtient un systeme sur t0, β0, ρ. On verifie que cesysteme n’a pas de solutions. En effet, on trouve les relations (1−a2t0)(1−ρ)+ρβ0 =(1 − b2t0)(1 − ρ) + β0ρ = 0, d’ou (a2 − b2)t0(1 − ρ) = 0. Le cas t0 est impossible (ilsuffit de verifier que t0(a

6x20 + b6y2

0 + c6z20) = a4x2

0 + b4y20 + c4z2

0). Il reste donc ρ = 1,ce qui donne β0 = 0. Comme β0 est le quotient des normes de J ′(x(1)) et de J ′(x(0)),on trouve que c’est impossible. Ainsi, seulement deux valeurs sur les trois sont nonnulles.

Dans ce cas, on considere par exemple z0 = 0. Alors le point de depart est dansle plan z = 0, ainsi que le vecteur gradient. Le point d’arrivee x(1) est alors dansce plan, et on s’est ramene au minimum de la fonctionnelle J(x, y, 0) qui est atteinten deux iterations, la premiere direction d0 = −J ′(x(0)) et la deuxieme directiond1 = −J ′(x(1)) + β0d0 comme dans le cas de l’ellipse.

On verifie alors que l’algorithme du gradient conjugue converge en deuxiterations seulement si le point de depart appartient a un des espaces dedimension 2 invariants par la matrice J”(0).

Remarque On considere la forme quadratique associee a la matrice A =

a2 1 01 b2 00 0 c2

.

On voit que les valeurs propres de cette matrice sont c2 et λ solution de λ2 − (a2 +b2)λ+ a2b2 − 1 = 0, soit

(λ− a2 + b2

2)2 = 1 + (

a2 − b2

2)2

Pour pouvoir ecrire la matrice comme precedemment, il faut diagonaliser la matricedonc rechercher les vecteurs propres (e±, f±, 0) pour les deux valeurs propres λ± =a2+b2

2 ±√

1 + (a2−b22 )2.

L’algorithme du gradient conjugue converge en deux iterations dans les trois cassuivants:

point de depart de la forme A(e+, f+, 0) +B(e−, f−, 0) = (x, y, 0),

point de depart de la forme A(e+, f+, 0) + C(0, 0, 1),

point de depart de la forme B(e−, f−, 0) + C(0, 0, 1).

6.6 Algorithme de descente pseudo-conjugue pour uneforme non quadratique

On peut construire, en s’inspirant de l’algorithme ci-dessus, des algorithmes de de-scente deduits de l’algorithme du gradient conjugue. En fait, l’idee consiste a conserverla relation dn+1 = −J ′(xn) + βndn et d0 = −J ′(x0) en construisant la suite βn et lasuite de pas ρn.

On l’ecrit dans la

Definition 6.8 Les algorithmes de descente suivants sont la generalisation de l’algorithmedu gradient conjugue pour une fonctionnelle quelconque:

• algorithme de Fletcher-Reeves:

Page 108: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

108 CHAPTER 6. APPROXIMATION DE SOLUTIONS

d0 = −J ′(x0)xn+1 = xn + ρndndn+1 = −J ′(xn) + βndn

βn = |J ′(xn+1|2|J ′(xn)|2

• algorithme de Polak-Ribiere

d0 = −J ′(x0)xn+1 = xn + ρndndn+1 = −J ′(xn) + βndn

βn = (J ′(xn+1,J′(xn+1)−J ′(xn))

|J ′(xn)|2

On a le resultat suivant (admis)

Proposition 6.8 L’algorithme de Fletcher-Reeves avec le choix du pas optimal pourρn est un algorithme de descente.

L’algorithme de Polak-Ribiere avec ρn pas de Wolfe pas trop grand est un algo-rithme de descente.

Si J est strictement convexe et de classe C2 alors l’algorithme de Polak-Ribiereavec pas optimal converge.

6.7 Methode de Newton

On se place sur un espace de Hilbert V , et on considere une fonctionnelle J quiadmet un gradient G(u) et une matrice hessienne H(u). On suppose que J admet sonminimum absolu en u. Il est alors necessaire que G(u) soit nul.

Rappelons tout d’abord la formule de Taylor au voisinage de v: il existe θ ∈]0, 1[tel que

(G(u), φ) = (G(v), φ) + (H(v + θ(u− v))(u− v), u − v).

La methode de Newton-Rophson usuelle construit la solution comme limite de lasuite uk, definie par recurrence: on calcule uk+1 a partir de uk en resolvant G(uk) +H(uk)(uk+1 − uk) = 0. Cette methode est efficace si la valeur initiale de la suite estproche de la solution cherchee.

Dans cette partie, on se restreint a des fonctionnelles assez regulieres:(H1) la fonctionnelle J est infinie a l’infini(H2) la fonctionnelle J a un gradient et un hessien reguliers (au moins continus

uniformement sur tout compact)(H3) H est uniformement V coercive sur tout borne K:

(H(v), φ, φ) ≥ αK ||φ||2,∀φ ∈ V,∀v ∈ K

(H4) H verifie une condition de Lipschitz sur les bornes:

||H(u) −H(v)|| ≤ βK ||u− v||,∀(u, v) ∈ K2

De plus, ce qui fait la difference avec la methode de Newton habituelle, c’estl’introduction d’une forme bilineaire supplementaire bk pour chaque element de la

Page 109: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.7. METHODE DE NEWTON 109

suite uk qui sera definie ulterieurement. Plus precisement, on definit b(u) qui verifiesoit les hypotheses (H5) ou (H6) ci dessous (sur un borne, par exemple)

(H5a) coercivite faible

b(u)(φ, φ) ≥ λ0(G(u), φ)2∀φ ∈ V

(H5b) continuite: |b(u)(φ,ψ)| ≤ µ0||G(u)||φ||||ψ||∀φ,ψ ∈ V(H6a) (1 + ǫ)-coercivite forte

b(u)(φ, φ) ≥ λ1||G(u)||1+ǫ||φ||2∀φ ∈ V

(H6b) (1 + ǫ)-continuite |b(u)(φ,ψ)| ≤ µ1||G(u)||1+ǫ||φ||||ψ||∀φ,ψ ∈ V .On a le

Theoreme 6.7 Sous les hypotheses (H1), (H2), (H3), (H4), et (H5) ou (H6) on a:• Le probleme de minimisation admet une solution unique u.

On considere u0 donne. Soit uk un element de la suite. L’element uk+1 est con-struit comme uk + ∆k, ou ∆k est la solution du probleme variationnel

∀φ ∈ V, (H(uk)∆k, φ) + bk(∆k, φ) = −(G(uk), φ). (6.7.3)

• La suite uk est bien definie, et elle converge vers u• Il existe deux constantes γ1 et γ2 telles que

γ1||uk+1 − uk|| ≤ ||u− uk|| ≤ γ2||uk+1 − uk||• Il existe une constante γ3 telle que

||uk+1 − u|| ≤ γ3||uk − u||2.

On commence par donner des exemples de formes de la fonctionnelle b(u). Onnotera bk la fonctionnelle b(uk) pour simplifier les notations.

Pour bk(φ,ψ) = λk(G(uk), φ)(G(uk), ψ), les hypotheses (H5a) et (H5b) sont verifiees.En revanche, on n’a pas l’hypothese (H6a).

Pour bk(φ,ψ) = λk||G(uk)||1+ǫ(φ,ψ), les hypotheses (H5a), (H5b), (H6a), (H6b)sont toutes verifiees.

Preuve Etapes de la demonstration.

On commence par demontrer que la suite J(uk) est decroissante si µ0 (resp. µ1)est choisi de maniere adequate dans l’hypothese (H5a) (resp. (H6a)). On en deduitque les termes de la suite restent dans un ferme borne fixe.

Dans un deuxieme temps, en choisissant dans la formulation variationnelle et dansl’egalite de developpement de Taylor des valeurs astucieuses de φ, on montre desestimations sur la difference de deux termes et sur la difference d’un terme de la suiteavec la limite. Pour cela, on utilise de maniere cruciale l’inegalite de coercivite sur leferme borne.

On definit

U = v ∈ V, J(v) ≤ J(u0).• Si J admet un minimum, il est dans U . Comme J est infinie en l’∞, U est

borne. Il est ferme. En effet, si vj ∈ U, vj → v, alors J(u0) ≥ J(vj) = J(v) +

Page 110: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

110 CHAPTER 6. APPROXIMATION DE SOLUTIONS

(G(v), vj − v) + 12(H(v + θ(vj − v))(vj − v), vj − v). Comme H est coercive, on a

J(u0) ≥ J(vj) ≥ J(v) + (G(v), vj − v). Comme v ne depend pas de j, on passe a lalimite et J(u0) ≥ J(v). Il vient v ∈ U .

• Le probleme variationnel lineaire (6.7.3) admet une seule solution ∆k. Prenantφ = ∆k dans l’egalite variationnelle (6.7.3), on en deduit que

(H(uk)∆k,∆k) + bk(∆k,∆k) = −(G(uk),∆k). (6.7.4)

Utilisant la coercivite de H et la positivite de bk, on en deduit

(H(uk)∆k,∆k) + bk(∆k,∆k) ≥ αU ||∆k||2.

On utilise l’inegalite

| − (G(uk),∆k)| ≤ ||∆k||||G(uk)||.

On divise, si ∆k 6= 0, par la norme et on obtient

α||∆k|| ≤ ||G(uk)||. (6.7.5)

Designant par ||G|| le maximum de G sur le ferme U , on en deduit

||∆k|| ≤ α−1||G||.

Soit

U1 = v ∈ V, ||v −w|| ≤ α−1||G||, w ∈ UIl vient uk+1 = uk + ∆k ∈ U1.

• Il s’agit maintenant de controler le terme J(uk+1) par rapport au terme J(uk);On effectue un developpement de Taylor pour J au voisinage de uk. Ainsi

J(uk+1) − J(uk) = (G(uk),∆k) +1

2(H(uk + θ∆k)∆k,∆k)

d’ou, en utilisant l’egalite (6.7.4) pour remplacer le terme (G(uk),∆k):

J(uk+1)−J(uk) = −1

2(H(uk)∆k,∆k)−bk(∆k,∆k)+

1

2([H(uk+θ∆k)−H(uk)]∆k,∆k).

On note β1 la constante de Lipschitz pour H sur U1. Si on suppose uk ∈ U0, on trouveuk + θ∆k ∈ U1. Ceci permet de minorer le terme −1

2([H(uk + θ∆k)−H(uk)]∆k,∆k).En utilisant la coercivite de H, on trouve l’inegalite

J(uk) − J(uk+1) ≥α

2||∆k||2(1 − β1

α||∆k||) + bk(∆k,∆k) ≥

α

2||∆k||2(1 − β1

α||∆k||).

Deux cas se presentent. Dans cette inegalite, on doit controler le signe du secondmembre.

• Si ||∆k|| est petit, c’est-a-dire ||∆k|| ≤ (1 − C) αβ1

, alors J(uk) − J(uk+1) ≥αC2 ||∆k||2 en utilisant uniquement la positivite de bk.

Dans le cas contraire, on utilise la forme de b.

Page 111: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.7. METHODE DE NEWTON 111

• On suppose verifiees les hypotheses (H5).

Dans ce cas, le terme bk(∆k,∆k) verifie

bk((∆k,∆k) ≥ λ0((G(uk),∆k))2.

On controle alors que par emploi de la relation (6.7.4), on trouve

−(G(uk),∆k) ≥ α||∆k||2

donc on tire

((G(uk),∆k))2 ≥ α2||∆k||4

Alors

J(uk) − J(uk+1) ≥α

2||∆k||21 + λ0α

2||∆k||4 −1

2β1||∆k||3.

La somme des deux derniers termes est du signe de λ0α2||∆k|| − β1

2 donc est

positive des que ||∆k|| ≥ β1

2λ0α2

Si on choisit λ0 de sorte que β1

2λ0α2 ≤ (1 − C) αβ1

, soit

λ0 >β2

1

2α3

il existe C telle que β1

2λ0α2 ≤ (1 − C) αβ1

. Dans ce cas, on voit que si ||∆k|| ≥(1 − C) α

β1, on obtient

||∆k|| ≥β1

2λ0α2

et donc

J(uk) − J(uk+1) ≥α

2||∆k||2.

En resume, sous cette hypothese sur λ0, on trouve, pour tout ∆k

J(uk) − J(uk+1) ≥αC

2||∆k||2. (6.7.6)

• Dans le cas ou J verifie les hypotheses (H6) pour ǫ = 1, et si la constante lambda1

(que l’on suppose assez grande) verifie λ1 >β21

8α3 , on verifie que λ1α2||∆k||2 +

α2 − β1

2 ||∆k|| ≥ 8µ0α3−β2

116µ0α2 = δ0 > α

2 , et donc J(uk) − J(uk+1) ≥ δ0||∆k||2 (la

condition sur λ1 est plus faible).

• Le raisonnement est le meme si l’hypothese (H6) est verifiee. En effet, onobtient

J(uk) − J(uk+1) ≥α

2||∆k||2(1 − β1

α||∆k||) + µ0||G(uk)||1+ǫ||∆k||2,

et, utilisant (6.7.5), on obtient

Page 112: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

112 CHAPTER 6. APPROXIMATION DE SOLUTIONS

J(uk) − J(uk+1) ≥α

2||∆k||2[

α

2− β1

2||∆k||) + µ0α

1+ǫ||∆k||1+ǫ],

Lorsque µ0 grand, le minimum de cette fonction est strictement positif pour toutǫ > 0 (il s’ecrit α

m2 − ǫψ(ǫ)µ−ǫ0 ), donc l’inegalite obtenue est toujours valable.

On a demontre que la suite J(uk+1) < J(uk) lorsque uk ∈ U . De u0 ∈ U , ondeduit alors J(u1) < J(u0) donc u1 ∈ U . Ainsi, par recurrence, J(uk+1 < J(uk)donc uk+1 ∈ U . La suite J(uk), decroissante et minoree, converge. Ainsi la suiteJ(uk) − J(uk+1) tend vers 0, donc ∆k tend vers 0 grace a l’inegalite (6.7.6)6.7.6).

Il faut montrer desormais que la suite uk converge. On ecrit la formule de Taylor(G(uk), φ) = (G(u), φ) + (H(u+ θ′(uk − u))(uk − u), φ), ce qui donne

(H(uk)∆k, φ) + bk(∆k, φ) = −(H(u+ θ′(uk − u))(uk − u), φ), (6.7.7)

par l’application de l’egalite variationnelle definissant ∆k. Comme U est convexe(la fonctionnelle est convexe car son Hessien est coercif), u + θ′(uk − u) est dansU . Ainsi, prenant φ = uk − u et appliquant les inegalites de Cauchy-Schwartz a(H(uk)∆k, uk−u)+ bk(∆k, uk−u) = −(H(u+ θ′(uk−u))(uk −u), uk−u), on trouve,notant γ la constante majorant les normes de H(uk) et de bk (ce qui est possiblepuisque uk ∈ U donc G(uk) est borne par ||G||):

γ||∆k||||uk − u|| ≥ α||uk − u||2.La convergence de ∆k vers 0 et l’inegalite ||uk − u|| ≤ α−1γ||∆k|| entrainent la con-vergence de uk vers u. De plus, on verifie facilement que si on considere φ = ∆k dansl’egalite (6.7.7), alors on trouve ||uk − u|| ≥ α

γ||∆k||.

On montre enfin la convergence quadratique. L’egalite (6.7.7) donne alors, ecrivantδk = uk − u et ∆k = δk+1 − δk, l’egalite

(H(uk)δk+1, φ) + bk(δk+1, φ) = (H(uk)δk, φ) + bk(δk, φ) − (H(u+ θ′(uk − u))δk, φ)

puis utilisant pour le terme de gauche la coercivite de H, pour le terme de droite lecaractere Lipschitz de H, et la positivite de bk pour le terme de gauche, il reste, pourφ = δk+1,

α||δk+1||2 ≤ µ1||G(uk)||1+ǫ||δk+1||||δk|| + β1||δk||2||δk+1||d’ou on deduit

α||δk+1|| ≤ µ1||G(uk)||1+ǫ||δk|| + β1||δk||2

Comme G est Lipschitz (puisque H est continue) et que G(u) = 0, on en deduit||G(uk)|| = ||G(uk) − G(u)|| ≤ Γ||δk||. Comme cette quantite est bornee par D con-stante, on en deduit l’inegalite

α||δk+1|| ≤ (µ1Γ1+ǫDǫ + β1)||δk||2,

qui est la convergence quadratique.Cette demonstration, bien que longue et fastidieuse, est importante et interessante,

car elle permet de manipuler les formulations variationnelles, de voir l’importance de

Page 113: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.8. ALGORITHMES D’OPTIMISATION AVEC CONTRAINTES 113

la coercivite, de voir les choix de fonctions test. Notons que les deux hypothesespossibles (H5) ou (H6) conduisent au resultat, et sont utilisees de maniere crucialedans la preuve de la decroissance de J(uk), preuve suffisante pour la convergence.C’est pour cela que cette methode conduit toujours a une solution. D’autre part, direque µ0 est assez grand est possible car on est libre du choix de b pour le problemed’optimisation. On peut rapprocher cette methode des methodes de penalisation.

6.8 Algorithmes d’optimisation avec contraintes

Les trois algorithmes que je compte presenter correspondent aux algorithmes de min-imisation sous contraintes.

6.8.1 Le gradient avec projection

On suppose dans ce premier cas que l’espace des contraintes K est convexe. Onrappelle dans ce cas qu’il existe une projection sur K, definie par

||x− pK(x)|| = infy∈K

||x− y||

et caracterise par l’inegalite

(y − pK(x), x− pK(x)) ≤ 0∀y ∈ K.Un des problemes essentiels d’un algorithe de gradient, lorsqu’on n’est pas dans

le cas du gradient reduit, est qu’il ne donne pas a l’iteration n + 1 un element del’espace des contraintes car on ne sait pas si la direction −J ′(xn) est une directionadmissible pour l’espace des contraintes si xn est dans K. D’autre part, la projectionest une application contractante, donc ||pK(x)−pK(y)|| ≤ ||x−y||, ce qui implique que||pK(x−αJ ′(x))−pK(y)|| ≤ ||x−αJ ′(x)−y|| donc en projetant le resultat d’un algo-rithme de gradient, on se rapproche plus de y solution du probleme de minimisation.L’algorithme de gradient avec projection est un algorithme de la forme

xn+1 = pK(xn − ρnJ′(xn)).

Proposition 6.9 Si J est convexe et que K est convexe, un point solution du problemede minimisation de J sur K est un point stationnaire de l’egalite x0 = pK(x0 −αJ ′(x0)).

Preuve On suppose que x0 est une solution du probleme de minimisation. CommeJ est convexe, la condition d’Euler est equivalente a

∀y ∈ K, (J ′(x0), y − x0) ≥ 0.

On en deduit, pour tout α > 0, que

(y − x0,−αJ ′(x0)) ≤ 0

donc

∀y ∈ K, (y − x0, x0 − αJ ′(x0) − x0) ≤ 0

Page 114: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

114 CHAPTER 6. APPROXIMATION DE SOLUTIONS

ce qui est la caracterisation de la projection de x0 −αJ ′(x0) en x0. On en deduit que

∀α > 0, x0 = pK(x0 − αJ ′(x0)).

Reciproquement, soit α0 > 0 tel que x0 = pK(x0 − α0J′(x0)). On a alors

∀y ∈ K, (y − x0, x0 − α0J′(x0) − x0) ≤ 0

soit

∀y ∈ K, (y − x0, J′(x0)) ≥ 0

ce qui, par la caracterisation dans le cas convexe, implique que x0 est solution duprobleme de minimisation.

On a meme un resultat lorsque le pas de l’algorithme de gradient avec projectionest bien choisi:

Theoreme 6.8 On suppose K convexe ferme non vide, J bornee inferieurement surK, de classe C1, Lipschitz uniformement sur K dont une constante de Lipschitz estL:

||J ′(x) − J ′(y)|| ≤ L||x− y||.Si il existe ǫ > 0 tel que, pour tout n, ρn ∈ [ǫ, 2

L(1 − ǫ)], la suite xn donnee par

l’algorithme de gradient avec projection verifie

||xn+1 − xn|| → 0

Tous les points d’adherence de cette suite sont des points stationnaires.

Preuve On verifie que, par caracterisation de la projection

∀y ∈ K, (y − pK(xn − ρnJ′(xn)), xn − ρnJ

′(xn) − pK(xn − ρnJ′(xn))) ≤ 0,

donc

∀y ∈ K, (y − xn+1, xn − ρnJ′(xn) − xn+1) ≤ 0.

On conmmence l’algorithme avec un point x0, pas forcement dans K. En revanche,pour n ≥ 1, tous les termes de la suite sont dans K donc on peut prendre y = xn. Onen deduit l’inegalite:

(xn − xn+1, xn − xn+1) − ρn(xn − xn+1, J′(xn)) ≤ 0

soit

(J ′(xn), xn+1 − xn) ≤ − 1

ρn||xn − xn+1||2.

On utilise

J(xn+1)−J(xn)−(J ′(xn), xn+1−xn) =

∫ 1

0

(

J ′(xn+t(xn+1−xn))−J ′(xn), xn+1−xn)

dt.

Page 115: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.8. ALGORITHMES D’OPTIMISATION AVEC CONTRAINTES 115

Comme on a L−Lipschitz, on trouve

|J(xn+1) − J(xn) − (J ′(xn), xn+1 − xn)| ≤∫ 10 ||J ′(xn + t(xn+1 − xn)) − J ′(xn)||||xn+1 − xn||dt

≤ L(∫ 10 tdt||xn+1 − xn||)||xn+1 − xn||

≤ L2 ||xn+1 − xn||2

On utilise alors la convexite de J pour obtenir

J(xn+1) ≥ J(xn) + (J ′(xn), xn+1 − xn).

On en deduit l’inegalite

J(xn+1) − J(xn) − (J ′(xn), xn+1 − xn) ≤L

2||xn+1 − xn||2

et de l’inegalite de caracterisation de la projection on deduit

(J ′(xn), xn+1 − xn) ≤ − 1

ρn||xn+1 − xn||2

donc

J(xn+1) − J(xn) ≤ (L

2− 1

ρn)||xn+1 − xn||2.

On utilise alors 1ρn

∈ [L21

1−ǫ ,1ǫ] soit L

2 − 1ρn

∈ [L2 − 1ǫ,−L

1−ǫ ], donc finalement la suiteJ(xn) est decroissante et on a

L

2

ǫ

1 − ǫ||xn+1 − xn||2 ≤ J(xn) − J(xn+1).

La suite J(xn) est minoree et decroissante, donc elle converge. La decroissance dela suite vient uniquement de l’hypothese sur le pas... On en deduit que J(xn+1)−J(xn)tend vers 0, donc il en est de meme de xn+1 − xn.

Enfin, si y est une valeur d’adherence de la suite, xφ(n) tend vers y, dont on deduitque xφ(n)+1 tend aussi vers y. De l’egalite xφ(n)+1 = pK(xφ(n) − ρφ(n)J

′((xφ(n))), onne peut rien deduire car on ne sait pas si la suite ρφ(n) converge. Il s’agit alors deremarquer que cette suite est bornee, donc on peut extraire une sous-suite convergente,que l’on note ρφ(ψ(n)). Elle converge vers α > 0, et de la continuite de J ′, de lacontinuite de la projection sur un convexe ferme, on deduit l’egalite y = pK(y−αJ ′(y)).

6.8.2 Penalisation des contraintes

Le premier concerne la penalisation des contraintes;on cherche a minimiser J(u) sousles contraintes Fj(u) ≤ 0. On introduit

Jε(v) = J(v) +1

ε

j=M∑

j=1

[max(Fj(v), 0)]2

On a

Page 116: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

116 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Theoreme 6.9 On suppose V = IRN .

On suppose que J est continue, α−convexe, que les Fj sont convexes et quel’ensemble des contraintes K est non vide. Si uε est l’unique solution de inf Jε etu l’unique solution de infv∈K J , alors

limε→0

uε = u.

De plus, sous l’hypothese J, F1, .., FM continuement differentiables, les contraintessont qualifiees en u, et la famille des contraintes actives est reguliere en u, les multi-plicateurs de Lagrange λj du probleme non penalise verifient

λi = limε→0

2

εmax(Fi(uε), 0).

Preuve L’existence et l’unicite de u et de uε sont claires car u→ 1ε

∑j=Mj=1 [max(Fj(v), 0)]

2 =G(u)ε

est une fonctionnelle convexe.

On sait d’autre part que

Jǫ(uǫ) ≤ infKJǫ,

et comme, pour y ∈ K, Jǫ(y) = J(y), on verifie que Jǫ(uǫ) ≤ J(u). Comme d’autrepart

Jǫ(uǫ) ≥ J(uǫ)

on a l’inegalite J(uǫ) ≤ J(u). Comme J est α−convexe, la suite uε est bornee. Onpeut extraire une sous-suite convergeant vers une limite u. De l’inegalite J(uε) ≤J(uε) + G(uε)

ε≤ J(u), on deduit l’inegalite G(uε) ≤ ε(J(u) − J(uε)), ce qui implique

que G(u) = 0 (car G est continue donc G(uε) tend vers G(u) pour la suite extraiteet que ε → 0). Cela exprime que u ∈ K. Ainsi comme J(uε) ≤ J(u), en consideranttoujours la meme suite extraite et la continuite de J , on trouve J(u) ≤ J(u). On ademontre que u = u et donc la suite uε admet une seule valeur d’adherence.

Pour les multiplicateurs de Lagrange, on trouve, par definition de la derivee en unpoint x de (max(x, 0))2 qui vaut 2max(x, 0), l’egalite

J ′(uε) +1

ε

j=M∑

j=1

2max(Fj(uε), 0)F′j(uε) = 0.

Comme J ′, F ′j sont continues, on trouve J ′(uε) → J ′(u) et F ′

j(uε) → F ′j(u). On

suppose que pour un element j, on ait Fj(uε) → F ′j(u) < 0. Alors il existe ε0 tel que,

pour ε < ε0, Fj(uε) < 0 et donc on trouve max(Fj(uε, 0) = 0. L’egalite devient, pourε assez petit

J ′(uε) +1

ε

j∈I(u)

2max(Fj(uε), 0)F′j(uε) = 0.

D’autre part, pour j ∈ I(u), on verifie qu’il existe une suite λ1, ..λM , avec λj = 0si j /∈ I(u), telle que J ′(u) +

λjF′j(u) = 0. Ainsi on trouve

Page 117: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

6.8. ALGORITHMES D’OPTIMISATION AVEC CONTRAINTES 117

J ′(uε) − J ′(u) + (1

ε

j∈I(u)

2max(Fj(uε), 0) − λj)F′j(uε) = 0.

La famille (F ′j(u) est libre, donc, par continuite, pour ε assez petit, la famille

(F ′j(uε) est libre. De plus, en formant le produit scalaire avec tous les F ′

j(uε), ledeterminant du systeme obtenu est, toujours pour ε petit, minore par une constante.Ceci permet d’assurer le fait que 2

εmax(F ′

j(uε, 0) est borne et donc que

2

εmax(F ′

j(uε), 0)(F′j(uε) − F ′

j(u))

tend vers 0 pour tout j. On en conclut sur la convergence, sur la base fixe des F ′j(u),

de J ′(uε) + 2εmax(F ′

j(uε), 0)F′j(u), d’ou le resultat de convergence des coefficients.

6.8.3 Algorithme d’Uzawa

En fait, il s’agit d’une methode de recherche de point selle.On sait que, pour L(v, q) = J(v) + (q, F (v)),

∀q ≥ 0,L(u, q) ≤ L(u, p) ≤ L(v, p)

Ainsi

∀q, q ≥ 0, (p − q, F (u)) ≥ 0.

Il vient, pour µ > 0

(p − q, p− (p+ µF (u))) ≤ 0∀q ∈ (IR+)M .

Ceci indique que, pour tout µ > 0, la projection de p + µF (u) est p sur l’espace(IR+)M .

On definit alors, pour µ parametre fixe, la suite (un, pn) donnee par

L(un, pn) = infv∈V

L(v, pn)

et le multiplicateur pn+1 est la projection sur (IR+)m de pn + µF (un).Cette projection se fait tres simplement: pour chaque coordonnee de pn+µF (un),

si la coordonnee est positive ou nulle, on ne la change pas, mais si elle est strictementnegative, on la met a 0. Cet algorithme converge: ce qui s’ecrit dans le

Theoreme 6.10 On suppose J α−convexe differentiable, Lipschitz de constante C etque le lagrangien L admet un point selle (u, p). Alors, pour 0 < µ < 2α

C2 , la suite un

donnee par l’algorithme d’Uzawa converge vers u .

On admettra la demonstration de ce theoreme.

Page 118: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

118 CHAPTER 6. APPROXIMATION DE SOLUTIONS

Page 119: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

Chapter 7

Introduction aux methodes dediscretisation des equations auxderivees partielles

On souhaite etudier les equations aux derivees partielles suivantes:i) Equation de la chaleur ∂tu− ∂2

x2u = 0ii) Equation des ondes ∂2

t2u− ∂2

x2u = 0iii) Equation de Laplace avec condition de Dirichlet

−∆u = f sur Ω, u|∂Ω = 0.

7.1 Les differences finies

Pour les deux premieres equations, on souhaite ramener ce probleme continu a unprobleme discretise, c’est-a-dire faisant intervenir les valeurs de la solution u auxpoints (j∆x, n∆t). Pour cela, il s’agit de calculer la derivee premiere et la derivee

seconde en fonction des points voisins, sur le modele de u(x+h)−u(x)h

≃ u′(x).

On ecrit pour cela ujn = u(j∆x, n∆t) pour u de classe C4, sur laquelle on appliquela formule de Taylor-Young.

uj+1n = ujn + ∆x∂xu(j∆x, n∆t) + 1

2(∆x)2∂2x2u(j∆x, n∆t) + 1

6(∆x)3∂3x3u(j∆x, n∆t)

+ 124(∆x)4∂4

x4u((j + θ)∆x, n∆t).

Il ne suffit pas de uj+1n et de ujn pour connaitre la derivee seconde; il faut un

troisieme point. On prend uj−1n , et on a

uj−1n = ujn − ∆x∂xu(j∆x, n∆t) + 1

2(∆x)2∂2x2u(j∆x, n∆t) − 1

6(∆x)3∂3x3u(j∆x, n∆t)

+ 124(∆x)4∂4

x4u((j − θ′)∆x, n∆t).

En additionnant les deux relations, on trouve ainsi

uj+1n +uj−1

n −2ujn = (∆x)2∂2x2u(j∆x, n∆t)+

(∆x)4

24[∂4x4u(j+θ)∆x, n∆t)+∂4

x4u(j−θ′)∆x, n∆t)],

119

Page 120: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

120 CHAPTER 7. INTRODUCTION A LA DISCRETISATION

ainsi

∂2x2u(j∆x, n∆t) =

uj+1n + uj−1

n − 2ujn(∆x)2

−(∆x)2

24[∂4x4u(j+θ)∆x, n∆t)+∂4

x4u(j−θ′)∆x, n∆t)],

ce qui donne, sur un compact K:

|∂2x2u(j∆x, n∆t) − uj+1

n + uj−1n − 2ujn

(∆x)2| ≤ (∆x)2

12||∂4

x4u(j∆x, n∆t)||.

On utilise aussi la relation

ujn+1 − ujn = ∆t∂tu(j∆x, n∆t) +O((∆t)2)

qui nous permet d’ecrire des schemas pour l’equation des ondes et pour l’equation dela chaleur.

Pour l’equation des ondes, on ecrit par exemple

ujn+1 − 2ujn + ujn−1

(∆t)2− uj+1

n − 2ujn + uj−1n

(∆x)2= 0 (7.1.1)

qui s’appelle un schema explicite puisque ujn+1 est connu explicitement en fonctiondes valeurs de ulk pour k ≤ n, c’est-a-dire que l’on connait les valeurs aux points situesau temps (n + 1)∆t en fonction des temps precedents.

On ecrit aussi

ujn+1 − 2ujn + ujn−1

(∆t)2− uj+1

n+1 − 2ujn+1 + uj−1n+1

(∆x)2= 0 (7.1.2)

qui s’appelle un schema implicite car on ne peut pas determiner les valeurs au temps(n+ 1)∆t en fonction des valeurs aux temps precedents.

On suppose que l’on se place sur un compact, par exemple x ∈ [0, 1]. On verifieque la discretisation correspond aux ∆x = 1

Net j ∈ [0, N ]. En ajoutant des conditions

aux extremites, on se ramene a un systeme de la forme

A

u1n+1

u2n+1

..uNn+1

=(

2un−1 − un−1

)

.

C’est un systeme lineaire de la forme Ax = b qui peut se resoudre par des methodesd’approximation du cours d’optimisation, sur la fonctionnelle

J(x) =1

2(Ax, x) − (b, x).

Pour l’equation de la chaleur, on ecrit les memes schemas:

ujn+1 − ujn

∆t− uj+1

n − 2ujn + uj−1n

(∆x)2= 0 (7.1.3)

qui est un schema explicite, et

Page 121: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

7.1. LES DIFFERENCES FINIES 121

ujn+1 − ujn

∆t− uj+1

n+1 − 2ujn+1 + uj−1n+1

(∆x)2= 0 (7.1.4)

qui est un schema implicite.Pour affiner l’analyse, nous introduisons les fonctions, polynomiales de degre 3

au plus, qui soient de classe C2 sur [0, 1] et qui coincident avec tous les ujn en tousles points j∆x pour ∆x = 1

N. Pour ces fonctions la, on verifie que la derivee sec-

onde sur tous les intervalles [j∆x, (j + 1)∆x] est exactement egale au

j+1n+1−2uj

n+1+uj−1n+1

(∆x)2 ,

puisque la fonction est de derivee quatrieme nulle sur chaque intervalle. On peutdonc deduire une formulation continue de cette formulation discrete, en remplacant

le termeu

j+1n+1−2uj

n+1+uj−1n+1

(∆x)2par un+1(x+∆x)+un+1(x−∆x)−2un+1(x)

(∆x)2. On emploiera en per-

manence cette notation desormais (utilisant l’indice pour la position en espace etl’exposant pour l’increment en temps). On ecrit les schemas sous la forme

un+1(x) − un(x)

∆t=un+1(x+ ∆x) + un+1(x− ∆x) − 2un+1(x)

(∆x)2

un+1(x) − un(x)

∆t=un(x+ ∆x) + un(x− ∆x) − 2un(x)

(∆x)2

Considerant la transformee de Fourier en x des deux egalites ci-dessus et utilisantla relation

eiξ∆x + e−iξ∆x − 2

(∆x)2= −4

sin2 ξ∆x2

(∆x)2

on trouve respectivement, en notant

vn(ξ) =

∫ +∞

−∞e−ixξun(x)dx

la relation pour le schema implicite pour l’equation de la chaleur

(1 + 4 sin2 ξ∆x

2

∆t

(∆x)2)vn+1(ξ) = vn(ξ)

et la relation pour le schema explicite pour l’equation de la chaleur

vn+1(ξ) = (1 − 4 sin2 ξ∆x

2

∆t

(∆x)2)vn(ξ).

Le but est d’assurer la convergence de la suite pour tout n (c’est a dire lorsque letemps devient grand).

• Dans le cas du schema explicite, il est necessaire pour cela que le coefficient(1 − 4 sin2 ξ∆x

2∆t

(∆x)2) soit de module plus petit que 1, soit l’inegalite

4 sin2 ξ∆x

2

∆t

(∆x)2> −2

ce qui est possible lorsque le coefficient ∆t(∆x)2 est plus petit que 1

2 . Cette condition

s’appelle une condition CFL et doit etre verifiee pour que la suite n’explose pas lorsque∆t tend vers 0 (ce qui est impose par [0, T ] = ∪k≤ T

∆t[k∆t, (k + 1)∆t]).

Page 122: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

122 CHAPTER 7. INTRODUCTION A LA DISCRETISATION

• Dans le cas du schema implicite, le coefficient (1+4 sin2 ξ∆x2

∆t(∆x)2

)−1 est toujours

plus petit que 1 et le schema implicite converge toujours.

Pour l’equation des ondes, la situation est similaire, sauf que la relation de recurrencepour la suite est une relation d’ordre 2, et on doit etudier les racines de la relationcaracteristique. On trouve par exemple, pour le schema explicite

vn+1(ξ) − 2(1 − 2 sin2 ξ∆x

2(∆t

∆x)2)vn+1(ξ) + vn(ξ) = 0

et pour le schema implicite

vn+1(ξ)(1 + 4 sin2 ξ∆x

2(∆t

∆x)2) − 2vn+1(ξ) + vn(ξ) = 0.

On constate pour le premier schema que le produit des racines de l’equation car-acteristique est 1, donc le produit des modules est egal a 1. Si le discriminant estnegatif, les deux racines sont complexes conjuguees de module 1, si le discriminant estpositif, une des racines est de module superieur a 1, donc il n’y a pas convergence.

Pour le deuxieme schema, le produit des racines est 1

1+4 sin2 ξ∆x2

( ∆t∆x

)2et le discrim-

inant est negatif, elles sont donc complexes conjuguees de module inferieur a 1 (egala 1 lorsque ξ∆x = 2πn), donc ce schema est convergent.

Ce schema n’est pas employe en general; les numericiens preferent employer leschema de Cranck-Nicholson qui se presente de la maniere suivante.

On introduit l’operateur Ah qui est l’operateur employe dans les algorithmesprecedents (le h correspond a ∆x). Cet operateur s’ecrit

(Ahφ)j = −φj+1 − 2φj + φj−1

(∆x)2(7.1.5)

sur une suite φj.

Le schema utilise habituellement est alors

un+1j + un−1

j − 2unj(∆t)2

+ (Ah(θun+1 + (1 − 2θ)un + θun+1))j = 0.

ou θ ∈ [0, 12 ]. Le choix θ = 0 correspond a un schema explicite comme vu precedemment.

La transformee de Fourier appliquee a ce schema comme cela a ete fait precedemmentconduit a la relation de recurrence

(1 + α(ξ)θ)vn+1(ξ) − (2 − (1 − 2θ)α(ξ))vn(ξ) + (1 + α(ξ)θ)vn−1(ξ) = 0,

ou

α(ξ) = 4(∆t

∆x)2 sin2 ξ∆x

2

associee a l’equation caracteristique

(1 + α(ξ)θ)r2 − (2 − (1 − 2θ)α(ξ))r + (1 + α(ξ)θ) = 0,

Comme precedemment, le produit des racines est 1, donc si les deux racines sontreelles et ne sont pas egales, le schema est instable car une des racines est plus grande

Page 123: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

7.1. LES DIFFERENCES FINIES 123

que 1. Il vient alors qu’une condition necessaire de stabilite est donnee par le fait queles deux racines sont complexes conjuguees, donc de module 1. Ceci s’ecrit

(2(1 + θα(ξ)) − α(ξ))2 − 4(1 + α(ξ)θ)2 ≤ 0

soit −α(ξ)(4(1 + α(ξ)θ) − α(ξ)) ≤ 0 ou encore

(4θ − 1)α+ 4 ≥ 0.

Lorsque θ ≥ 14 , cette inegalite est tout le temps vraie. Lorsque θ ∈ [0, 1

2 ], on trouveque cette inegalite est vraie pour

(∆t

∆x)2 sin2 ξ∆x

2≤ 1

1 − 4θ

ce qui est vrai sous la condition

∆t

∆x≤ 1√

1 − 4θ.

On resume les resultats de cette section dans:

Theoreme 7.1 Soit Ah l’operateur d’approximation donne par (7.1.5).1) Cet operateur d’approximation verifie l’inegalite, pour φ = (u(j∆x))j et u de

classe C4 sur [0, 1] et j ≤ N , ∆x = 1N

:

|(Ahu)j + u”(j∆x)| ≤ (∆x)2

12||u(4)||C0([0,1]).

2) Un schema explicite pour l’equation de la chaleur s’ecrit

un+1 − un

∆t+Ahu

n = 0.

Il est stable lorsque la condition suivante est satisfaite:

∆t

(∆x)2≤ 1

2.

3) Un schema implicite pour l’equation de la chaleur s’ecrit

un+1 − un

∆t+Ahu

n+1 = 0.

Il est tout le temps stable.4) Un schema explicite pour l’equation des ondes s’ecrit

un+1j + un−1

j − 2unj(∆t)2

+ (Ahun)j = 0.

Il est tout le temps instable5) Un schema implicite pour l’equation des ondes s’ecrit

un+1j + un−1

j − 2unj(∆t)2

+ (Ahun+1)j = 0.

Il est tout le temps stable.

Page 124: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

124 CHAPTER 7. INTRODUCTION A LA DISCRETISATION

6) Un schema implicite pour l’equation des ondes respectant l’invariance parrenversement du temps est

un+1j + un−1

j − 2unj(∆t)2

+ (Ah(θun+1 + (1 − 2θ)un + θun+1))j = 0.

Il est tout le temps stable pour 14 ≤ θ ≤ 1

2 .

Pour 0 ≤ θ ≤ 14 , il est stable sous la condition CFL

∆t

∆x≤ 1√

1 − 4θ.

7.2 Les elements finis

Nous terminons par une introduction a l’etude des elements finis en utilisant l’equation−∆u = f u ∈ H1(Ω) avec condition au bord de Dirichlet sur un ouvert Ω borne.

On verifie que, si cette equation est vraie au sens des distributions, alors on a

∀φ ∈∈ C∞(Ω), < −∆u, φ >=< f, φ > .

On utilise la definition de la derivee au sens des distributions pour obtenir

< ∇u,∇φ >=< f, φ > .

Comme on suppose u ∈ H10 (Ω), la forme lineaire

φ→< ∇u,∇φ >est continue sur C∞

0 (Ω) pour la norme de H10 (Ω) donc peut se prolonger par densite.

Si on suppose f ∈ L2(Ω), le second membre a les memes proprietes, donc

< ∇u,∇v >=

f(x)v(x)dx

pour v ∈ H10 (Ω). Cette egalite s’ecrit donc

∀v ∈ H10 (Ω),

Ωu(x)v(x)dx =

Ωf(x)v(x)dx. (7.2.6)

On reconnait dans le membre de gauche la derivee de Frechet de la fonctionnelle1−convexe 1

2

Ω(∇u)2dx, et l’egalite est l’ecriture de la condition d’Euler pour laminimisation sur H1

0 (Ω) (dont l’espace des directions admissibles est lui-meme) de

J(u) =1

2

Ω(∇u)2dx−

Ωf(x)u(x)dx.

On utilise alors les theoremes d’approximation, en supposant par exemple queΩ = [0, 1] × [0, 1], pour lequel on construit des sous espaces adaptes de fonctions H1

0 ,donnes par (h = 1

n)

Ph = u(x, y) ∈ H10 ([0, 1]×[0, 1]), continues, polynomes de degre 1 sur[ph, (p+1)h]×[qh, (q+1)h].

Page 125: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

7.2. LES ELEMENTS FINIS 125

On determine alors une base de Ph en definissant la valeur au bord et la valeur desderivees ∂xu et ∂yu sur chacun des paves du plan. On ecrit alors un element de Phsur une base, et on ecrit la minimisation de J sur Ph ⊂ H1

0 ([0, 1] × [0, 1]). Alors ontrouve, de l’egalite variationnelle (7.2.6) ecrite pour vh ∈ Ph et uh ∈ Ph, un systemeen dimension finie de la forme Ahuh = Fh, que l’on resout par les methodes usuellesdu cours (en minimisant par exemple 1

2(AhX,X) − (Fh,X)), et on essaie d’avoir unresultat en faisant tendre h vers 0.

Par exemple, la base de polynomes sur chaque pave est (1,X, Y ) donc tout polynomede degre au plus 1 s’ecrit

ap,q + bp,q(X − ph) + cp,q(Y − qh)

Son gradient est approche par (bp,q, cp,q) et sa valeur sur X = ph est donnee parap,q+ cp,q(Y − qh), sur X = (p+1)h est donnee par ap,q+h+ cp,q(Y − qh), sur Y = qhest ap,q + bp,q(X − ph) et sur Y = (q + 1)h par ap,q + h+ bp,q(X − ph). On peut alorscalculer l’integrale du produit d’elements de la base:

∫ h

0

∫ h

0 11dxdy = h2

∫ h

0

∫ h

0 1xdxdy = h3

2∫ h

0

∫ h

0 1ydxdy = h3

2∫ h

0

∫ h

0 x2dxdy = h4

3∫ h

0

∫ h

0 xydxdy = h4

4∫ h

0

∫ h

0 y2dxdy = h4

3

ce qui fait que le produit de deux elements a+ bx+ cy et a′ + b′x+ c′y donne

h2[aa′ + (ab′ + a′b+ ac′ + a′c)h

2+ (bc′ + b′c)

h

3+ (bb′ + cc′)

h2

4]

ainsi la matrice de la forme quadratique associee (en divisant par h2 pour plus desimplicite) est

1 h2

h2

h2

h2

4h2

3h2

h2

3h2

4

.

Il est clair que c’est une forme quadratique definie positive puisque

∫ h

0

∫ h

0(a+ bx+ cy)2dxdy = 0 ⇒ a = b = c = 0.

On utilise donc cette representation des fonctions de H1 par des des polynomes dedegre 1.

La presentation ainsi faite n’est pas satisfaisante; en effet un carre ou un rectanglea quatre sommets, et un polynome de degre 1 a trois coefficients. Ainsi on ne pourrapas construire une fonction generale prenant quatre valeurs donnees en tous les coinsABCD; il faut necessairement que

u(A) + u(D) = u(B) + u(C)

Si on veut construire une famille qui conduise a toutes les valeurs possibles aux pointsdu carre, il faut considerer les fonctions de la forme

Page 126: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

126 CHAPTER 7. INTRODUCTION A LA DISCRETISATION

u(x, y) = u(0, 0) + bx+ cy + dxy

qui sont des polynomes de degre 1 dans chacune des variables x, y. Alors on aura

u(1, 0) = u(0, 0) + b, u(0, 1) = u(0, 0) + c, u(1, 1) = u(0, 0) + b+ c+ d

donc b = u(1, 0) − u(0, 0), c = u(0, 1) − u(0, 0), d = u(1, 1) + u(0, 0) − u(0, 1) − u(1, 0),et cette famille permet de construire une solution dont les valeurs donnees sont lesvaleurs au coin.

Les valeurs aux sommets s’appellent les degres de liberte d’une fonction del’espace d’approximation. Dans le pave [0, 1] × [0, 1], on construit les sommets del’approximation aij = (ih, jh) et la base de l’espace d’approximation Vh (φij) desfonctions telles que

φij(ai′j′) = δii′δjj′

qui coincident avec les fonctions decrites ci-dessus sur tous les paves elementaires decote h. La fonction φij est la fonction nulle sur tout pave dont un coin n’est pas aijest est construite comme la fonction valant 1 au coin aij et 0 a tout autre coin pourun pave ayant aij comme coin. Toute fonction de Vh s’ecrit

u =∑

u(aij)φij

et il suffit d’evaluer∫

∇u∇vdx =∑

aijbi′j′∫

∇φij∇φi′j′dx pour obtenir la formequadratique.

Cette presentation fait partie d’un cadre plus general d’approximation, dont onresume les resultats:

Proposition 7.1 La formulation variationnelle d’un systeme d’equations aux deriveespartielles avec conditions aux limites prescrites est l’equation d’Euler associee a laminimisation sur un espace de Hilbert H de la fonctionnelle quadratique d’energieassociee au probleme 1

2a(u, u) − L(u),.Elle s’ecrit

∀v ∈ H,a(u, v) = L(v).

Une methode d’approximation s’obtient par le processus suivant: on definit unesuite d’espaces vectoriels de dimension finie Vh, associee a un parametre h tendantvers 0, dont on connait une base simple Bh, ayant les proprietes suivantes

i) pour tout element v de H on peut construire une suite vh ∈ Vh telle que

|v − vh|H → 0 lorsque h→ 0

ii) Le calcul de a(φ,ψ) pour φ et ψ dans Bh est simple.Alors si uh est le minimum de 1

2a(u, u) −Lh(u) sur Vh, dans certaines conditionsuh → u.

Page 127: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

Chapter 8

Problemes d’examens

Dans cette partie, nous donnons les sujets d’examens poses les annees precedentes.La solution sommaire est donnee en italique a la suite de chaque question.

8.1 Probleme des splines: texte du probleme de 1999

Dans ce long probleme, on cherche a presenter une theorie d’optimisation pour con-struire les fonctions spline cubiques, qui sont, rappelons le, des polynomes de degre 3qui se raccordent sur une subdivision. Dans un premier temps, on etudie des problemessemblables au calcul des variations, en imposant les valeurs en t = 0 et en t = 1. Dansune deuxieme partie, on etudiera une subdivision t0 = 0, t1, ..tN = 1 de [0, 1]. Lesquestions marquees d’une * sont soit un peu plus difficiles soit presentent des calculscompliques. Elles sont a considerer comme des questions facultatives, donnant unbonus lorsqu’elles sont resolues.

PARTIE I; Optimisation en deux points

On introduit y(t) ∈ H2(0, 1), v = (v0, v1) ∈ IR2. On definit

J0(y) = 12

∫ 10 (d

2ydt2

)2(t)dtJ(y, v) = J0(y) + 1

2(y(1) − v1)2 + 1

2 (y(0) − v0)2

Jε(y) = 12

∫ 10 (d

2ydt2

)2(t)dt + ε2

∫ 10 (dy

dt)2(t)dt+ ε

2

∫ 10 y

2(t)dt

1. On veut resoudre

(A)

inf J0(y)y(0) = v0y(1) = v1.

On note K = y ∈ H2(0, 1), y(0) = v0, y(1) = v1. Montrer que K est ferme.

On peut par exemple utiliser y(0) = y(12 ) −

∫ 10 y

′(s)ds. On se donne une suiteyn dans K qui converge vers y. Comme H2 est complet, y ∈ H2. Le point 1

2 estinterieur donc comme la norme C0 est majoree par la norme H2 sur tout compactinclus dans ]0, 1[, , yn(

12 ) converge vers y(1

2). On en deduit que yn(0) tend vers y(0)donc y(0) = v0 et K est ferme. Deuxieme solution elegante y(x)− v0 − (v1 − v0)x estdans H2

0 qui est un espqce complet inclus dans C1.

127

Page 128: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

128 CHAPTER 8. PROBLEMES D’EXAMENS

1.1. Calculer la derivee de Gateaux de J0 en y ∈ H2(0, 1) suivant la direction w ∈H2(0, 1).

On a la relation J0(y + ǫw) − J0(y) = 12ǫ

2J0(w) + ǫ∫ 10d2ydt2

d2wdt2

dt. Ainsi

(J ′0(y), w) =

∫ 1

0

d2y

dt2d2w

dt2dt.

1.2. Pour y ∈ K determiner le cone des directions admissibles K(y).Le cone des directions admissibles est K(y) = H2

0 ([0, 1]).

1.3. Ecrire l’equation d’Euler et donner les conditions necessaires sur y. Calculer lasolution generale dans H4(0, 1) de l’equation differentielle obtenue.

L’equation d’Euler est ∀w ∈ H2(0, 1),∫ 10d2ydt2

d2wdt2

dt = 0. On prend w ∈ C∞0 (0, 1),

ce qui implique que, au sens de D′(0, 1), y(4) = 0. On ne peut pas aller plus loin caron n’a aucune information sur la continuite de y” pour y ∈ H2, donc on ne peut pasutiliser la formule d’integration par parties.

La solution generale de l’equation differentielle dans H4 est y = a0 +a1x+a2x2 +

a3x3.

1.4. Calculer la solution y0 de (A) et donner J0(y0).Toute solution au sens des distributions de cette equation differentielle est alors

un polynome de degre 3. En effet, on montre que si z est une distribution de deriveenulle et ψ une fonction test, en utilisant une fonction test θ donnee d’integrale egalea 1, la fonction ψ(x)− (

ψ(x)dx)θ(x) est une fonction a support compact d’integralenulle, donc sa primitive φ(x) est une fonction a support compact. Ainsi < z,ψ >=<z,ψ−(

ψ(x)dx)θ) > + < z, θ >∫

ψ(x)dx =< z, φ′ > + < z, θ >∫

ψ(x)dx =< z, θ >∫

ψ(x)dx. On en deduit que z est constante.Maintenant, si y est de derivee quatrieme nulle, alors y(3) = 6a3, donc (y −

a3x3)(3) = 0. On reprend le raisonnement de proche en proche pour aboutir a la

conclusion. Maintenant, on peut appliquer, pour la solution de l’equation d’Euler,qui est (condition necessaire) un polynome de degre 3 donc est dans H4, les formulesd’integration par parties. Alors, utilisant w(0) = w(1) = 0, on trouve, utilisant desfonctions test telles que w′(0) 6= 0 et w′(1) 6= 0, les relations y”(0) = y”(1) = 0. Ontrouve donc 6a3 + 2a2 = 0 et a2 = 0, donc la solution est y0(x) = v0 + v1x, pourlaquelle J0(y0) = 0, donc c’est bien un minimum et il est unique.

2. On cherche a resoudre

(B)

inf Jε(y)y(0) = v0y(1) = v1.

2.1. Identifier α tel que Jε est α−convexe sur H2(0, 1) muni de sa norme usuelle

||u|| = (

∫ 1

0[(d2u

dt2)2 + (

du

dt)2 + u2]dt)

12 .

Il suffit de prendre α = min(ε, 1).

Page 129: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.1. PROBLEME DES SPLINES: TEXTE DU PROBLEME DE 1999 129

2.2. Justifier le fait que (B) admet une solution unique. Donner les conditionsnecessaires sur la solution yε, supposee encore ici dans H4(0, 1). *Montrer que cettesolution peut se decomposer sur une base de fonctions de la forme eλt et donner lesysteme verifie par les coefficients. Ne Pas le resoudre.

On applique le theoreme 4.1. L’equation d’Euler s’ecrit

∀w ∈ H2(0, 1),

∫ 1

0y”w” + ε(y′w′ + yw) = 0.

L’equation differentielle ordinaire est alors

y(4) − εy” + εy = 0.

Si la solution est dans H4, par integrations par parties, on trouve y”(1) = y”(0) =0. On a donc l’equation differentielle ordinaire + quatre conditions aux limites y(0) =v0, y(1) = v1, y”(0) = y”(1) = 0.

D’autre part, il est facile de voir que l’equation differentielle ordinaire a, dans H4,les solutions (pour ǫ < 4)

a+eλ1x+iλ2x + a−e

λ1x−iλ2x + b+e−λ1x+iλ2x + ba−e

−λ1x−iλ2x = y

ou λ1 = (√ε + ε

2)12 , λ2 = (

√ε− ε

2)12 . Les quatre conditions aux limites conduisent a

un systeme sur les coefficients.

2.3. * Montrer que, en utilisant y0, on a l’inegalite Jε(yε) ≤ Cε ou C est uneconstante dependant de v0 et de v1. Peut-on en deduire la limite, lorsque ε → 0, deyε? On pourra utiliser la formule de Taylor avec reste integral.

On a Jε(yε) ≤ Jε(y0), ce qui implique Jε(yε) ≤ ε2 [v2

0 −2v0v1 +v21 +v2

0 +v0v1 +v21 ] =

ε[v20 − v0v1

2 ].

On en deduit J0(yε) ≤ Cε, ce qui demontre, puisque y”ε est une suite de L2, quey”ε tend vers 0 dans L2. On ecrit alors

yε(x) = v0 + y′ε(0)x+ x2

∫ 1

0(1 − t)y”ε(tx)dt

egalite valable car yε est dans H4, et, de plus, on a la relation

y′ε(0) = v1 − v0 −∫ 1

0(1 − t)y”ε(t)dt

De ces deux egalites, on deduit que y′ε(0) converge vers v1 − v0, en utilisantl’inegalite de Cauchy-Schwartz sur l’integrale, puis que yε(x) converge vers v0 + (v1 −v0)x en tout point. On montre meme, utilisant la formule de Taylor avec reste integralsur y′ε, que yε tend vers y0 dans H2.

3. On veut resoudre

(C)

inf J(y, v)y ∈ H2(0, 1).

Page 130: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

130 CHAPTER 8. PROBLEMES D’EXAMENS

3.1. Montrer que, pour tout v ∈ IR2, il existe y(v)(t) telle que y”(v)(t) = 0∀t etJ(y, v) = J(y − y(v), 0).

Comme y” est nulle, y(v)(x) = a + bx. Dire que l’egalite demandee est vraie setraduit en

J(y − y(v)) = J0(y − y(v)) +1

2[(y(1) − a− b− v1)

2 + (y(0) − a− v0)2]

donc y(v)(x) = −v0 − (v1 − v0)x et l’egalite est verifiee.

3.2. Demontrer que, pour (y, z) ∈ H2(0, 1)

(J ′(y, 0) − J ′(z, 0), y − z) = 2J(y − z, 0).

On admet que z → (J(z, 0))12 est une norme sur H2(0, 1), equivalente a ||z||.

En deduire que J(y, 0) est une fonctionnelle α−convexe.L’egalite vient de (J ′(y), w) =

∫ 10 y”w”dt+yw(1)+yw(0). Pour montrer l’inegalite

de coercivite, on montre que∫ 10 y

2dx et∫ 10 (y′)2dx sont majores par C[(y(0))2 +

(y(1))2 +∫ 10 (y”)2dx], ce qui implique que ||y||2

H2 ≤ (C + 1)J(y, 0).

On demontre par exemple que y′(0) = y(1) − y(0) −∫ 10 (1 − t)y”(t)dt, donc

y(x) = y(0) + (y(1) − y(0))x+ x2

∫ 1

0(1 − t)y”(tx)dt − x

∫ 1

0(1 − t)y”(t)dt

y′(x) = y(1) − y(0) + x

∫ 1

0y”(xt)dt −

∫ 1

0y”(t)dt

On en deduit ((a+ b)2 ≤ 2(a2 + b2))

(y(x))2 ≤ 2[(y(0) + (y(1) − y(0))x)2 + (x2∫ 10 (1 − t)y”(tx)dt − x

∫ 10 (1 − t)y”(t)dt)2]

≤ 2[(y(0) + (y(1) − y(0))x)2 + 2(x2∫ 10 (1 − t)y”(tx)dt)2 + 2x2(

∫ 10 (1 − t)y”(t)dt)2]

≤ 2[(y(0) + (y(1) − y(0))x)2 + 2(x3

3 + x2

3 )||y”||2L2 ]

On en deduit

∫ 1

0(y(x))2dx ≤ 2((y(0))2+y(0)y(1)+(y(1))2)+

7

9||y”||2L2 ≤ 3((y(0))2+(y(1))2)+

7

9||y”||2L2

On a un resultat identique pour l’integrale de y′, donc on a la coercivite de J parl’equivalence des normes. On applique alors la proposition 4.3.

3.3. Demontrer que le probleme (C) admet une solution unique dans H2(0, 1). Enecrivant la condition d’Euler, determiner la solution de (C).

Comme il s’agit d’une fonctionnelle α−convexe, on a l’existence et l’unicite duminimum. Les equations d’Euler sont

∀w ∈ H2,

∫ 1

0y”w” + y(0)w(0) + y(1)w(1) = 0.

Page 131: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.1. PROBLEME DES SPLINES: TEXTE DU PROBLEME DE 1999 131

En prenant w ∈ C∞0 , on trouve que y est un polynome. Alors la formule d’integrations

par parties est licite, et on trouve

∀w ∈ H2, y”(1)w′(1) − y”(0)w′(0) + (y(0) − y(3)(0))w(0) + (y(1) − y(3)(1))w(1) = 0

ce qui donne quatre relations sur les coefficients 6a3 + 2a2 = 0, a2 = 0, a0 − 6a3 =0, a0+a1+a2+a3−6a3 = 0, donc la solution est 0. On aurait pu le trouver directementen rappelant qu’il y a une solution unique, que la valeur de J(y, 0) en y = 0 est leminimum, donc le minimum est 0.

4. Resultat general de calcul des variations:

Soit L(t, u, u, u) une fonction de classe C2 de toutes ses variables t ∈ [0, 1], u ∈IR, u ∈ IR, u ∈ IR.

On introduit, pour y ∈ C2([0, 1], IR), J(y) =∫ 10 L(s, y(s), y′(s), y”(s))ds. Determiner

l’equation d’Euler associee a la minimisation de J(y) pour y(0) = v0 et y(1) = v1.Donner les conditions aux limites sur y0, qui est le point ou J est supposee etreextremum.

En generalisant l’approche de l’equation d’Euler pour la mecanique, on ecrit

∀w ∈ C∞,∫ 1

0[∂yL(s, y, y′, y”)w + ∂y′L(s, y, y′, y”)w′ + ∂y”L(s, y, y′, y”)w”]ds = 0.

Au sens des distributions, on trouve ainsi

∂yL(t, y0(t), y′0(t), y”0(t))−

d

dt(∂y′L(t, y0(t), y

′0(t), y”0(t)))+

d2

dt2(∂y”L(t, y0(t), y

′0(t), y”0(t))) = 0.

En supposant la solution de classe C4 par exemple et en realisant les integrationspar parties, on obtient les quatre relations

∂y”L(1, v1, y′0(1), y0”(1)) = 0, ∂y”L(0, v0, y

′0(0), y”0(0)) = 0, y0(1) = v1, y0(0) = v0.

PARTIE II; Optimisation en N + 1 points

On donne (v0, ..., vN ) ∈ IRN+1, et 0 = t0 < t1 < ... < tN−1 < tN = 1. On introduit

S(y, v) =1

2

∫ 1

0(d2y

dt2)2dt +

1

2

j=N∑

j=0

(y(tj) − vj)2.

On cherche les solutions de

(D)

inf S(y, v)y ∈ H2(0, 1)

(E)

inf J0(y)y ∈ H2(0, 1), y(t0) = v0, ..., y(tj) = vj ...

5. Spline d’ajustement.

Page 132: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

132 CHAPTER 8. PROBLEMES D’EXAMENS

5.1. On supposeN ≥ 2. Determiner les relations sur t1, ..., tN1 , v1, ..., vN1 en fonctionde v0 et de vN de sorte que S(y, v) = 0 admette une solution y.

Si S(y, v) = 0, alors y est un polynome de degre 1, entierement determine pary(t0) = v0 et y(tN ) = vN : y(t) = v0 + vN−v0

tN−t0 (t − t0). Alors les conditions decompatiblite sont

(vj − v0)(tN − t0) = (vN − v0)(tj − t0),∀j.

5.2. Montrer que, pour N ≥ 1, la fonctionnelle y → S(y, v) est une fonctionnelleα−convexe sur H2(0, 1). On pourra remarquer que

S(y, v) = J(y, v0, vN ) +1

2

i=N−1∑

i=1

(y(ti) − vi)2

la somme etant vide si N = 1. On utilisera alors les questions 3.1., 3.2..On sait alors que J(y, v0, vN ) = J(y − y(v0, vN ), 0) ≥ α||y − y(v0, vN )||2

H2 , ce quiimplique la coercivite de S dans H2. L’α−convexite s’en deduit.

5.3. En deduire que (D) admet une solution unique y, pour laquelle on donnera lesconditions necessaires d’optimalite. On remarquera, pour obtenir ces equations, qu’iln’est pas licite de supposer y ∈ H4(0, 1), mais on demontrera en utilisant des fonctionstest adequates que l’on pourra prendre y ∈ H4(]ti, ti+1[) pour i ≤ N − 1.

Le fait qu’il y a une solution unique provient de l’α−convexite. La conditiond’Euler s’ecrit

∫ 1

0y”w”dt +

j

w(tj)(y(tj) − vj) = 0∀w ∈ H2.

On en deduit, prenant w ∈ C∞0 (]ti, ti+1[), que y(4) est nulle dans D′(]ti, ti+1[), ainsi

y ∈ H4(]tj , tj+1[).

5.4. Demontrer que y est une fonction spline cubique de classe C2 sur [0, 1]. Onl’appelle spline d’ajustement.

Comme y est dans H2, y est de classe C1 sur [0, 1] par inclusion d’espaces deSobolev. Ceci se demontre car y′(x) − y′(z) =

R zxy”(t)dt donc |y′(x) − y′(z)|| ≤ (|x − z|) 1

2 ||y||H2. Cette

simple inegalite ne suffit pas. On montre d’abord que, pour f de classe C2, on a l’inegalite |f ′(x) − f ′(z)| ≤(|x − z|) 1

2 ||f”||, ainsi on en deduit |f ′(x)| ≤ |f ′(z)| + (|x − z|) 1

2 ||f”||2, donc en integrant en z sur [0, 1] on

trouve |f ′(x)| ≤ ||f ′||2 + 43||f”||2. On voit donc que si yn est une suite de fonctions de classe C2 convergeant

vers y au sens H2, alors |y′n(x) − y′m(x)| verifie le critere de Cauchy, donc la suite y′n(x) converge pour tout

x, uniformement en x, vers une fonction continue notee g(x). On montre ainsi que, de meme, la suite yn(x)

converge uniformement. Soit y la limite uniforme de yn. Alors de l’egalite yn(x) − yn(a) =R x

ay′n(s)ds on

deduit que y(x) − y(a) =R x

ag(t)dt, donc y′ = g.

De plus, grace a l’equation d’Euler, en effectuant l’integration par parties sur]ti, ti+1[ et sur ]ti−1, ti[, on trouve

∫ ti+1

ti−1

y”w”dt = y”(ti+1−0)w′(ti+1)+w′(ti)(y”(ti−0)−y”(ti+0))−w′(ti−1)y”(ti−1−0)

Page 133: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.1. PROBLEME DES SPLINES: TEXTE DU PROBLEME DE 1999 133

en ayant utilise w ∈ H2 donc w′ continue, le −0 ou +0 etant une notation indiquantla limite de la derivee seconde du polynome de degre 3 representant y dans chaqueintervalle, pris dans l’intervalle consideree. Dire que l’equation d’Euler est vraie pourtoute fonction w dans H2 implique que y”(ti−0) = y”(ti+0) pour tout i, 1 ≤ i ≤ N−1et y”(0) = y”(1) = 0. On en conclut que y” est affine par morceaux admettant la memelimite a droite et a gauche en chaque point interieur; elle est donc continue, donc yest de classe C2.

Attention: sa valeur en un point tj n’est pas vj . En effet, ce qui provient del’equation d’Euler est la relation y(ti) = vi + (y′′′(ti − 0) − y′′′(ti + 0)).

5.5. Que se passe-t-il si on etudie le probleme

(D′)

inf 12

∫ 10 (d

2ydt2

)2dt+∑j=N

j=0 (y(tj) − vj)2

y ∈ H2(0, 1)

Reponse: on change la spline d’ajustement car on change la relation en y(ti) =vi +

12 (y′′′(ti − 0) − y′′′(ti + 0)).

6. Spline d’interpolation.

6.1 Montrer que (E) admet une solution, lorsque N ≥ 1. Donner les conditionsd’optimalite. On note y une solution de l’equation d’Euler.

Attention: on ne peut pas dire que J0 est infini a l’infini dans H2 car toute fonctionde la forme ya,b(x) = ax+ b verifie J0(y) = 0 et pourtant ||y||2

H2 = a2 + a + 2b, et ilsuffit de prendre b = 0 et a infini pour avoir y tend vers l’infini. On trouve aussi quepour tout y, J0(y + ya,b) = J0(y).

Lorsque N ≥ 1, on considere z(x) = y(x) − v0 − (v1 − v0)x. Lorsque y est dansl’espace des contraintes, cette fonction est dans H2

0 . Elle verifie les contraintes z(ti) =vi − v0 − (v1 − v0)ti. On voit que

z(t) =

∫ x

0(x− t)z”(t)dt − x

∫ 1

0(1t)z”(t)dt, z

′(t) =

∫ x

0tz”(t)dt −

∫ 1

x

(1 − t)z”(t)dt

ce qui donne les majorations |z(x)| ≤ 1√3||z”||L2x(1 − x)(

√x+

(1 − x)) et |z′(x)| ≤1√3||z”||L2(x

32 + (1 − x)

32 ). Ainsi, integrant sur (0, 1) le carre de ces fonctions pour

trouver la norme H2, on trouve

||z||H2 ≤ (1

45+

2

3+ 1)

12 ||z”||L2 .

6.2. En supposant y ∈ H4(]ti, ti+1[), trouver les equations differentielles verifiees pary. Donner les conditions aux limites aux points ti.

Ainsi, soit K0 = y, y(0) = v0, y(1) = v1. On a l’inegalite, pour tout y ∈ K0,√61

6√

5||y − y0||2H2 ≤ J0(y), ce qui permet d’en deduire l’existence et l’unicite d’un

minimum, puisque l’on a une fonctionnelle convexe sur un convexe. Ensuite, lesequations sur y sont bien y(4) = 0 sur ]tI , ti+1[. Comme l’equation d’Euler est

Page 134: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

134 CHAPTER 8. PROBLEMES D’EXAMENS

∫ 10 y”w”dt = 0 pour w ∈ H2, w(ti) = 0∀i, on trouve que y”(0) = 0, y”(1) = 0 ety”(ti + 0) − y”(ti − 0) = 0 puisque l’on peut prendre une fonction w quelconque telleque w(ti0) = 0, w′(ti0) = 1, et w a support compact dans ]ti0−1, ti0+1[ pour i0 6= 0, N .Ainsi les conditions aux limites sont y(ti) = vi, y” continue. On a repondu a laquestion suivante.

6.3. Demontrer que la solution est unique* et que c’est une spline cubique de classeC2.

6.4. Ecrire les conditions d’optimalite avec multiplicateurs de Lagrange, et retrouverles resultats precedents.

On trouve que

J ′0(y) = y(4) − y”(1)δ′1 + y”(0)δ′0 +

∑N−1i=1 (y”(ti + 0) − y”(ti − 0))δ′ti

+∑N−1

i=1 (y′′′(ti + 0) − y′′′(ti − 0))δti − y′′′(1)δ1 + y′′′(0)δ0

Il existe donc N + 1 valeurs λi telles que

y(4) − y”(1)δ′1 + y”(0)δ′0 +∑N−1

i=1 (y”(ti + 0) − y”(ti − 0))δ′ti+∑N−1

i=1 (y′′′(ti + 0) − y′′′(ti − 0))δti − y′′′(1)δ1 + y′′′(0)δ0 +∑

i λiδti = 0

ce qui redonne les conditions d’optimalite.

6.5. Comparer S(y, v) et J0(y). En deduire une comparaison des deux types d’approximation.On voit que S(y, v) = J0(y), donc, comme le minimum de S est atteint en y = y,

on a S(y, v) ≤ J0(y). On se place dans le cas N ≥ 1. Alors, si S(y, v) = J0(y), on endeduit, ∀y, S(y, v) ≥ J0(y) et donc y = y. Donc si y 6= y, alors S(y, v) < J0(y).

6.6. *Dans le cas N = 2, t1 = 12 , verifier que, pour t ≤ 1

2

y(t) = v0−1

6 + 124

(v0+v2−2v1)+t[v1−v0−1

8

1

6 + 124

(v0+v2−2v1)]+t3

3

1

6 + 124

(v0+v2−2v1)

et pour t ≥ 12

y(t) = v0 − (2 + 12) 1

6+ 124

(v0 + v2 − 2v1)

+t[v1 − v0 − 18

16+ 1

24

(v0 + v2 − 2v1)] + 16+ 1

24

(v0 + v2 − 2v1)t2

2

− t3

31

6+ 124

(v0 + v2 − 2v1).

De meme, verifier que, pour t ≤ 12

y(t) = v0 + t[v2 − v0 −3

2(v2 + v0 − 2v1)] + 2t3(v0 + v2 − 2v1)

et pour t ≥ 12 que

y(t) = v0 + 12(v0 + v2 − 2v1) + (v1 − v0 − (4 + 1

2 )(v0 + v2 − 2v1))t+6t2(v0 + v2 − 2v1) − 2t3(v0 + v2 − 2v1).

Page 135: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.2. TEXTE DU PROBLEME 2000 135

8.2 Texte du probleme 2000

Dans ce sujet, on considere le systeme suivant d’equations aux derivees partielles

−∆y + y3 = u dans Ωy = 0 sur ∂Ω

(8.2.1)

ou Ω est un ouvert borne regulier de IR3.On note ||y||H1

0 (Ω) = (∫

Ω |∇y(x)|2dx) 12 et ||y||H1(Ω) = (

Ω |∇y(x)|2dx+∫

Ω |y(x)|2dx) 12 .

On suppose que u ∈ L2(Ω).On rappelle que, pour tout p entier inferieur a 6, il existe une constante cp telle

que||y||Lp(Ω) ≤ cp||y||H1(Ω)

et que on a l’inegalite de Poincare pour y ∈ H10 (Ω):

||y||H1(Ω) ≤ C||y||H10 (Ω).

Les questions marquees d’une ∗ sont facultatives car plus difficiles, elles donnentdroit a un bonus.

0) Generalites et fonctions homogenesOn suppose que J(y) est une application d’un espace de Hilbert V dans IR, telle

que

J(y) = J2(y) + J1(y) + Jλ(y)

ou λ est un reel positif et ou on a, pour tout p ∈ 1, 2, λ, l’egalite d’homogeneite:

Jp(ky) = kpJ(y).

On suppose que J est de classe C2 et on considere sa derivee J ′ et sa deriveeseconde J”. Montrer les egalites:

∀y ∈ V, (J ′p(y), y) = pJp(y), (J”p(y), y, y) = p(p− 1)Jp(y).

On constate que Jp((k + ǫ)y) = Jp(ky + ǫy) = Jp(ky) + ǫ(J ′p(ky), y) + o(ǫ). D’autre

part, Jp((k + ǫ)y) = (k + ǫ)pJp(y) = kpJp(y) + pkp−1ǫJp(y) + o(ǫ), donc finalement(J ′p(ky), y) = pkp−1Jp(y). Il suffit de prendre k = 1 pour obtenir la premiere egalite.De plus, Jp(k(y + w)) = Jp(ky + kw) = Jp(ky) + k(J ′

p(ky), w) + o(w), donc(J ′p(ky), w) = kp−1(J ′

p(y), w). De cette derniere egalite, on deduit que J ′p est ho-

mogene de degre p − 1 donc (J”p(y)y,w) = (p − 1)(J ′p(y), w). Il suffit de prendre

w = y et d’appliquer le resultat precedent.1) a) Montrer que, si y ∈ H1

0 (Ω) est solution de (8.2.1) au sens des distributions,alors on a

∀φ ∈ C∞0 (Ω), L(y, φ) =

Ω∇y(x)∇φ(x)dx +

Ωy3φ(x)dx =

Ωu(x)φ(x)dx. (8.2.2)

Ceci provient du calcul de la formulation variationnelle associee a l’equation. Danstous les cas, on multiplie par une fonction φ et on utilise la formule d’integration parparties

Ω(−∆yφ)dx =∫

Ω ∇y∇φ−∫

∂Ω ∂nyφdσ. Lorsque φ ∈ C∞0 (Ω), le terme de bord

vaut 0, et on obtient l’egalite ci-dessus.

Page 136: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

136 CHAPTER 8. PROBLEMES D’EXAMENS

b) Demontrer que cette egalite est vraie pour φ ∈ C∞(IR3), ainsi que pourφ ∈ H1

0 (Ω).Lorsque φ est dans H1

0 (Ω), c’est la limite d’une suite de fonctions de C∞0 (Ω),

notee φn et on a L(y, φn) =∫

Ω uφndx. La limite lorsque φn tend vers φ dans H10 (Ω)

de∫

Ω uφn est∫

Ω uφdx car c’est une limite dans L2, et de meme dans H1(Ω). Undetail cependant: comme y ∈ H1

0 (Ω), on a l’inegalite

|∫

Ωy3(φn − φm)dx| ≤ (

Ωy6(x)dx)

12 ||φn − φm||L2 .

Cette inegalite assure la convergence de ce terme car y est dans L6.Pour φ dans C∞(IR3), l’egalite est fausse (contrairement a l’enonce) car ∂ny n’est

pas nul.c) Montrer que, si y ∈ H1

0 (Ω) est solution de (8.2.2) pour tout φ ∈ H10 (Ω), alors

y est solution de (8.2.1).On a, au sens des distributions,

Ω ∇y∇φ =< ∆y, φ >. Pour le demontrer, onpeut par exemple prendre une suite de fonctions yn de C∞

0 (Ω) qui converge vers y.Alors, comme φ|∂Ω = 0, on a

Ω ∇yn∇φ tend vers∫

Ω ∇y∇φ, et donc l’egalite estvraie. Ainsi on trouve

< −∆y + y3, φ >=

Ωuφdx,∀φ ∈ H1

0 (Ω).

On en deduit −∆y + y3 = u. Comme y ∈ H10 (Ω), y = 0 sur le bord.

2) En utilisant la question 0), trouver∗ p et Jp(y) fonction de classe C2 sur H10 (Ω)

de sorte que (J ′p(y), z) =

Ω(y(x))3z(x)dx. On verifie que (J ′p(y), y) = pJp(y), ce qui

nous donnerait pJp(y) =∫

Ω(y(x))4dx. On en deduit p = 4 car∫

Ω(ky(x))4dx =k4∫

Ω(y(x))4dx, donc J4(y) = 14

Ω(y(x))4dx.3) On introduit la fonctionnelle

Φ(y) =1

2

Ω|∇y(x)|2dx−

Ωy(x)u(x)dx+

1

4

Ω(y(x))4dx.

a) Montrer que Φ est une application α−convexe continue de H10 (Ω) dans IR, et

qu’elle possede un minimum unique, note y(u).On calcule (Φ′(y), v) =

Ω[∇y∇v+y3v]dx. On trouve alors (Φ′(y)−Φ′(z), y−z) =∫

Ω[(∇y − ∇z).(∇y − ∇z) + (y3 − z3)(y − z)]dx =∫

Ω[|∇(y − z)|2 + (y − z)2(y2 +yz + z2)]dx. On trouve alors, sachant que la norme sur H1

0 est∫

(∇φ)2, la relation(Φ′(y)−Φ′(z), y−z) ≥

Ω(∇y−∇z)2dx = ||y−z||2H1

0, donc l’application est α−convexe

continue de H10 (Ω) dans IR (la continuite est une consequence de l’inegalite

y4 ≤(∫

y6)12 (∫

y2)12 ≤ (c6)

3||y||4H1). On utilise l’inegalite de Poincare, d’ou la continuite

du terme∫

uydx. L’existence du minimum et l’unicite est alors une consequence d’untheoreme du cours.

b) Donner l’equation d’Euler associee a y(u). En effectuant un choix adequatde φ dans l’egalite L(y(u), φ) = 0, demontrer qu’il existe une constante c1, telle que

||y(u)||H10 (Ω) ≤ c1||u||L2(Ω).

L’equation d’Euler est alors ∀w,∫

Ω(∇y(u)∇w+ (y(u))3w− uw)dx = 0. On prendw = y(u) donc

Ω(∇y(u))2 +∫

(y(u))4 =∫

uy(u)dx. On en deduit, utilisant l’inegalitede Cauchy-Schwartz, et

(y(u))4dx ≥ 0:

Page 137: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.3. TEXTE DU PROBLEME 2000-2001 137

||y(u)||2H1

0 (Ω) ≤ (

Ωu2dx)

12 (

Ω(y(u))2dx)

12 ≤ (

Ωu2dx)

12

√C||y(u)||H1

0 (Ω),

d’ou on deduit l’inegalite

||y(u)||H10 (Ω) ≤

√C||u||L2(Ω).

c) Calculer, pour tout y les expressions

(Φ′(y), y), (Φ”(y), y, y).

On applique le resultat de la question 0). Alors (Φ′(y), y) =∫

Ω((∇y)2 + y4)dx,(Φ”(y)y, y) =

Ω((∇y)2 + 3y4)dx.4) Montrer∗ que la solution unique de

Infy,w(1

2

Ω(w(x) + (y(x))3)2dx)

sous la contrainte −∆y = u+w, y ∈ H10 (Ω), w ∈ L2(Ω) est le couple (y(u),−(y(u))3).

On remarque que ce couple verifie 12

Ω(w + y3)2dx = 0. On a donc l’existence d’unminimum. D’autre part, si on a un autre point de minimum, alors w + y3, qui estdans L2, est nul donc w = −y3 et la contrainte s’ecrit −∆y+ y3 = u, dont la solutionunique est y(u).

On note que l’on s’est donc ramene a la resolution d’un laplacien et ensuite d’uneminimisation sur w.

5) On considere u et v dans L2(Ω). On designe par y(u) et y(v) les deux solutionsprecedentes associees. On note

m(x) = (y(u)(x))2 + y(u)(x)y(v)(x) + (y(v)(x))2

et z(x) = y(u)(x) − y(v)(x). Montrer que m(x) ≥ 0.Montrer que z est solution H1

0 de l’equation

−∆z(x) +m(x)z(x) = u(x) − v(x).

En multipliant cette equation par z+(x) = max(0, z(x)) et en integrant sur Ω, (onadmettra l’egalite

Ω ∇z(x)∇z+(x)dx =∫

Ω |∇z+|2dx), montrer∗ que si v−u ≤ 0 surΩ, alors z(x) ≤ 0.

On integre l’egalite (−∆z(x) +m(x)z(x))z+(x) = (u(x) − v(x))z+(x). On verifieque

∇z+|2 +∫

m(x)z(x)z+(x)dx =∫

Ω(u − v)z+dx. D’autre part,∫

m(x)z+zdx =∫

m(x)(z+)2dx et m ≥ 0 donc necessairement de∫

(u−v)z+dx ≤ 0 on deduit∫

mz2+ =

0 et∫

(∇z+)2dx = 0 donc z+ = 0. On en deduit que max(z, 0) = 0 donc z ≤ 0.

8.3 Texte du probleme 2000-2001

AvertissementCet examen se compose de deux parties totalement independantes, et n’est pas

fait pour etre fini. Une premiere partie concerne les conditions aux limites et uneformulation lagrangienne de l’equation des ondes pour des cordes vibrantes. Une

Page 138: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

138 CHAPTER 8. PROBLEMES D’EXAMENS

deuxieme partie etudie un systeme electrique et introduit des contraintes de typeisoperimetrique.

Toute egalite enoncee dans le texte peut etre utilisee meme si elle n’a pas eteetablie.

8.3.1 Partie I

1) Resultat generalOn considere une fonction de C2(IR4) dans IR, notee L(p1, p2, q1, q2). On notera

parfois p ou ~p le vecteur de composantes (p1, p2) (de meme pour q).On introduit une fonction ~u(x, t) = (u1(x, t), u2(x, t)) une fonction de classe C2(IR2)

dans IR2. On la notera aussi u (omettant le vecteur). On veut minimiser

I(u) =

∫ T

0

∫ a

0L(∂t~u, ∂x~u)dxdt

On note que p1 = ∂tu1, p2 = ∂tu2...a) Etablir les equations d’Euler en tout point (x, t) ∈]0, a[×]0, T [ pour une solution

u0 de

inf I(u)

(on ne cherche pas a preciser les conditions aux limites sur le bord du rectangle Ωdans IR2).

On considere w ∈ C∞0 ([0, a] × [0, T ]). Alors on trouve

I(~u+ ǫ~w) − I(~u) =

∫ T

0

∫ a

0(L(∂t~u+ ǫ∂t ~w, ∂x~u+ ǫ~w) − L(∂t~u, ∂x~u))dxdt

En effectuant un developpement limite en ǫ → 0, on trouve que la limite du tauxd’accroissement est

∫ T

0

∫ a

0[∂pL(∂t~u, ∂x~u).∂t ~w + ∂qL(∂t~u, ∂x~u).∂x ~w]dtdx.

En effectuant une integration par parties en t pour le premier terme, et une integrationpar parties en x pour le deuxieme terme, on trouve

(I ′(u), w) = −∫ T

0

∫ a

0

[

w1[d

dt(∂p1L) +

d

dx(∂q1L)] + w2[

d

dt(∂p2L) +

d

dx(∂q2L)]

]

dtdx

et la condition d’Euler conduit aux deux equations

ddt

(∂p1L) + ddx

(∂q1L) = 0ddt

(∂p2L) + ddx

(∂q2L) = 0.

b) Soit u0 une solution des equations d’Euler precedentes. Montrer que

ddt

(∫ a

0 [L(∂tu0, ∂xu0) − ∂tu0∂pL(∂tu0, ∂xu0)](y, t)dy)=

∂tu0∂qL(∂tu0, ∂xu0)(a, t) − ∂tu0∂qL(∂tu0, ∂xu0)(0, t).

Page 139: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.3. TEXTE DU PROBLEME 2000-2001 139

(on pourra pour cela deriver la fonction composee ∂t(L(∂tu0, ∂xu0)) et une autre ex-pression)

On derive la fonction composee. On trouve ∂t(L(∂t~u0, ∂x~u0) = ∂2t2~u0 · ∂pL +

∂2tx~u0∂qL.

En utilisant l’equation d’Euler, on trouve

ddt

(∫ a

0 [L(∂t~u0∂x~u0) − ∂t~u0 · ∂pL(∂t~u0, ∂x~u0)](y, t)dy)=

∫ a

0 [∂2t2~u0 · ∂pL+ ∂2

tx~u0∂qL− ∂2t2~u0∂pL− ∂t~u0

ddt

(∂pL(∂t~u0, ∂x~u0))]dy=

∫ a

0 [∂2tx~u0∂qL+ ∂t~u0

ddx

(∂qL(∂t~u0, ∂x~u0))]dy

On reconnait dans le crochet la derivee par rapport a x de la fonction ∂t~u0∂qL, ce quidonne le resultat demande en integrant en y.

c) On considere les trois problemes

(P1)

inf I(u)u(x, 0) = u0(x)u(x, T ) = uf (x)

(P2)

inf I(u)u(x, 0) = u0(x)u(x, T ) = uf (x)u(0, t) = 0

(P3)

inf I(u)u(x, 0) = u0(x)u(x, T ) = uf (x)u(0, t) = 0u(a, t) = 0

.

Ecrire les equations d’Euler et les conditions aux limites en x = 0 et x = a pourchacun de ces problemes.

Pour cela, l’equation d’Euler est celle obtenue ci-dessus et on ne se preoccupera quedes conditions aux limites. Pour le probleme (P1), on trouve w(x, 0) = w(x, T ) = 0,ainsi quand on reprend l’egalite ci-dessus ayant abouti a (I ′(u), w), on trouve

(I ′(u), w) =

∫ T

0∂qL · ~w(a, t)dt −

∫ T

0∂qL · ~w(0, t)dt.

Comme cette quantite doit etre nulle pour tout ~w, on en deduit ∂qL(∂t~u0(a, t), ∂x~u0(a, t)) =0 et ∂qL(∂t~u0(0, t), ∂x~u0(0, t)) = 0. Ce sont les deux conditions aux limites que l’ondoit ajouter a ~u0(x, 0) = ~u0(x) et ~u0(x, T ) = ~uf (x).

Pour le probleme (P2) on a la condition aux limites supplementaire ∂qL(∂t~u0(a, t), ∂x~u0(a, t)) =0 par l’equation d’Euler.

Pour le probleme (P3), il n’y a aucune condition supplementaire.

Montrer, pour la solution uj0 de Pj , pour tout j, la relation

∫ a

0[L(∂tu

j0, ∂xu

j0) − ∂tu

j0∂pL(∂tu

j0, ∂xu

j0)](y, t)dy = Cj

ou Cj est une constante independante du temps.

On remplace les relations supplementaires obtenues dans le second membre du b).Alors on trouve, pour le probleme (P1), que ce second membre est nul car les deuxtermes ∂qL sont nuls en x = 0 et x = a. Pour le probleme (P2), on sait que le terme∂qL est nul en a et comme ~u(0, t) = 0 on trouve que ∂t~u0(0, t) = 0. Enfin, pour leprobleme (P3), il vient, d’apres ~u(0, t) = ~u(a, t) = 0 que le terme ∂t~u0(0, t) et le terme∂t~u0(a, t) sont nuls, d’ou le resultat.

Page 140: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

140 CHAPTER 8. PROBLEMES D’EXAMENS

2) Application a l’equation des ondes dans les cordes vibrantes

a) Etablissement de l’equation

On etudie les petits deplacements d’une corde autour de sa position d’equilibre(OA), O(0,0,0), A(a, 0,0).

La position d’un point de la courbe est (x, u1(x, t), u2(x, t)) = (x, u(x, t)).

La densite de la corde est ρ0, et cette corde est soumise a la tension ~T0, de moduleconstant T0, dirigee suivant le vecteur tangent unitaire τ .

Ecrire le bilan des forces et la relation fondamentale de la dynamique pour unsegment [x, x+ ∆x] en negligeant tous les termes d’ordre au moins 2 en u. En faisanttendre ∆x vers 0, en deduire l’equation

ρ0∂2~u

∂t2= T0

∂2~u

∂x2.

laisse en exercice (voir methodes mathematiques pour la physique, de L. Schwartz)

b) Etablir la relation, pour ~u0 solution de l’equation precedente

dE

dt=

d

dt

∫ a

0

1

2(ρ0(

∂~u

∂t)2 + T0(

∂~u

∂x)2)(y, t)dy = ∂t~u∂x~u(a, t) − ∂t~u∂x~u(0, t).

il suffit de multiplier par ∂t~u et de remarquer que l’on a

∂t(1

2(ρ0(

∂~u

∂t)2) = T0∂t~u0∂

2x2~u0 = T0∂x(∂t~u0∂x~u0) − T0∂

2tx(~u0)∂x~u0

et on integre sur [0, a], remarquant que le dernier terme est la derivee par rapport a tde 1

2T0(~u0)2.

Donner les solutions L(p, q) de l’egalite

1

2(ρ0p

2 + T0q2) = L(p, q) − p

∂L

∂p(p, q).

(on derivera cette egalite par rapport a p1 et p2).

En derivant par rapport a p, on trouve ρ0p = −p∂2p2L, ce qui donne ρ0 = −∂2

p2L.

Ainsi L = −12ρ0p

2+C(q)p+D(q). On remplace dans l’equation et on trouve −12ρ0p

2+C(q)p+D(q) + ρ0p

2 − pC(q) = 12(ρ0p

2 + T0q2), donc C(q) est indetermine et D(q) =

12T0q

2.

c) Montrer que l’equation des cordes vibrantes est le systeme des equations d’Eulerpour le Lagrangien L(p, q) = 1

2T0q2 − 1

2ρ0p2. Peut-on appliquer la theorie classique de

minimisation?

On applique le resultat du 1, a), car ∂pL = −ρ0p, ∂qL = T0q.

Deduire de 1) que

• lorsque les deux extremites de la corde sont fixees, les conditions en 0 et a sontles conditions de Dirichlet homogenes u = 0

• lorsqu’une extremite de la corde est libre, la condition a cette extremite s’ecrit∂~u∂x

= 0, qui est la condition de Neumann. En deduire que l’energie E est conservee.

C’est la traduction des resultats de 1).

Page 141: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.4. EXAMEN OPTIMISATION MARSEILLE 2003 141

8.3.2 Partie II

On cherche a minimiser la valeur moyenne de la tension J :

J(v0) =1

T

∫ T

0v0(t)dt

sous les conditions v0(0) = 0, v0(T ) = V (c’est a dire un systeme dans lequel on etablitune tension V en un temps T )et sous la contrainte d’energie dissipee par effet Joule constante:

K =

∫ T

0Ri2(t)dt

ou le courant electrique est produit par la mise sous tension v0(t) d’un condensateurC et d’une resistance R disposes en parallele (meme tension).

a) Peut-on resoudre ce probleme en considerant une perturbation εw(t) de la ten-sion v0(t)? Justifier.

b) On se donne ε1 et ε2, et on perturbe la solution cherchee par ε1w1(t)+ ε2w2(t).

Ecrire les conditions d’optimalite.

Montrer qu’il existe un reel λ tel que ces conditions d’optimalite correspondent auxconditions d’optimalite du lagrangien augmente J + λK, K etant considere commeune fonction de v(t). On pourra supposer a cet effet w2 fixe. On admettra pour lasuite ce resultat si il n’a pas ete demontre.

c) On considere λ ∈ IR. Determiner v0 qui realise le minimum de J(v)+λK(v), v(0) =0, v(T ) = 0.

d) Determiner λ de sorte que le v0 trouve au c) conduise a i0(t) tel que∫ T

0 R(i0(t))2 =

K. Calculer la solution v0(t) et interpreter. En particulier, pour K,V et R,C donnes,identifier les temps T pour lesquels on peut trouver v0(t).

Calculer la valeur maximum de J en fonction de K,V,R,C.

8.4 Examen Optimisation Marseille 2003

Le but de cette etude est d’etudier dans le cadre de la theorie de l’optimisation lameilleure approximation lineaire en N + 1 points de l’integrale d’une fonction. Il sedecompose en une partie generale, ou on considerera N+1 points x0 = 0, x1..., xN = 1,puis une partie ou on approxime en (0, 1

2 , 1).

On introduit

α(f) =N∑

j=0

ajf(xj) −∫ 1

0f(t)dt.

On note

L(f) = (α(f))2.

Le but de ce probleme est d’etudier, par rapport a deux normes standard de latheorie des fonctions, la plus petite valeur de |α(f)|.

Page 142: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

142 CHAPTER 8. PROBLEMES D’EXAMENS

8.4.1 Partie generale

1. Si∑N

j=1 aj = 1, demontrer que L(f) n’est pas infinie a l’infini pour la norme dusup.

2. Soit fn(x) = n(1 − kx) pour x ∈ [0, 1k], 0 pour x ≥ 1

k.

a) Calculer fn(0).

b) D‘eterminer k de sorte que fn(xj) = 0 pour tout j ≥ 1.

c) Calculer α(fn) et en deduire que si a0x1 ≤ 1, il existe une fonction fn telleque α(fn) = 0 et ||fn||∞ → +∞ si n→ +∞. En deduire que L n’est pas infiniea l’infini.

3. Demontrer que si a1x1 + ...+ aN = 12 , alors L n’est pas infinie a l’infini.

8.4.2 Regularite L2 et regularite H

1

On considere les deux fonctionnelles

H(f) =L(f)

∫ 10 (f(t))2dt

, G(f) =L(f)

∫ 10 (f(t))2dt+

∫ 10 (f ′(t))2dt

.

1. Que peut-on dire de H(af) et G(af) pour a reel positif?

2. Montrer que

inff∈C0([0,1])

H(f) = infR

(f(t))2dt=1,f∈C0([0,1])L(f).

supf∈C0([0,1])

H(f) = supR

(f(t))2dt=1,f∈C0([0,1])

L(f).

inff∈C0([0,1])

G(f) = infR

(f(t))2dt+R 10 (f ′(t))2dt=1,f∈C0([0,1])

L(f).

supf∈C0([0,1])

G(f) = supR

(f(t))2dt+R 10 (f ′(t))2dt=1,f∈C0([0,1])

L(f).

8.4.3 Calcul explicite avec un point

1. Dans cette question, on considere les trois points (0, x1 = 12 , 1) et on ecrit

L(f) = (a0f(0) + a1f(1

2) + a2f(1) −

∫ 1

0f(t)dt)2.

On cherche a evaluer si ils existent le maximum ou le minimum de L(f) sous lacontrainte

∫ 10 (f(t))2dt = 1.

a) Ecrire l’equation d’Euler associee a ces deux problemes.

b) Soit w ∈ C∞0 ([0, 1

2 ]). Calculer (L′(f), w) et en deduire qu’une solution f0 del’equation d’Euler avec multiplicateur de Lagrange verifie

f0 constante sur ]0, 12 [.

Page 143: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.5. EXAMEN MAITRISE JUIN 03 143

c) Demontrer que f0 est constante sur ]12 , 1[.

d) Deduire du c) que si l’un des trois nombres a0, a1, a2 est non nul, alors α(f0) =0.

e) en deduire que supH(f) = +∞, sous la condition d).

2. On veut retrouver dans le cas general le resultat de 3) e).

a) Determiner f telle que f(0) = n,∫ 10 f(t)dt = 1

2 ,∫ 10 (f(t))2dt = 1

3 , et pour toutx1 il existe n0 tel que pour n ≥ n0 on ait max supp(f) < x1.

b) Dans le cas ou a0 6= 0, demontrer supH(f) = +∞, et montrer infH(f) = 0.

3. a) Demontrer qu’il existe une constante C0 telle que

L(f) ≤ C0||f ||2H1([0,1]).

On rappelle pour cela l’inegalite de Poincare

||f ||∞ ≤ C||f ||H1([0,1]).

b) Conclure sur les extrema de G.

8.5 Examen maitrise juin 03

Ce sujet se rapporte a divers problemes de minimisation sur la somme de fonctionnellesde la variable reelle. Le sujet est long pour le temps imparti et le bareme est enconsequence.

Il est demande de continuer ce sujet en tant que devoir et le rendre le Jeudi 24avril.

On considere n fonctions convexes derivables J1, J2, ..., Jn sur IR et on definit lafonction sur IRn donnee par

J(v1, v2, .., vn) = J1(v1) + J2(v2) + ...+ Jn(vn).

Question initiale: soit K = (v1, ..., vn), vi ≥ 0∀i, v1 + ...+ vn ≤ 1.0) Le probleme de minimisation de J sur K admet-il des solutions?

8.5.1 Partie I

On se place dans le cas n = 2. On considere K = (v1, v2) ∈ IR2, v1 ≥ 0, v2 ≥0, v1 + v2 = 1.

1) Montrer que trouverinfJK

est equivalent a trouverinfJ1(v1) + J2(1 − v1)

0 ≤ v1 ≤ 1.

2) Donner des conditions necessaires d’optimalite pour ce probleme.

Page 144: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

144 CHAPTER 8. PROBLEMES D’EXAMENS

8.5.2 Partie II

On considere dans cette partie que les fonctionnelles Ji sont les suivantes

Ji(ui) =1

2(ui − ai)

2

ou ai ∈ IR.

1) Determiner le minimum de la fonctionnelle J .

2) On considere K0 = (u1, ..., un), u1 +u2 + ...+un ≤ 1. Determiner le minimumde J sur K0.

3) On considere K = (u1, ..., un), u21 + u2

2 + ..+ u2n ≥ 1, 1

4u21 + u2 ≤ 1.

a) Soit (u01, .., u

0n) qui verifie u2

1 + ... + u2n = 1 et u2

1 = 4 − 4u2. Demontrer queu2

1 +u22 = (u2 −2)2. Montrer que si u2 6= 1, alors cette egalite est impossible. On note

u0 l’unique point trouve dans cette question.

b) Montrer que les contraintes sont qualifiables et qualifiees en tout point de K −u0.

c) Ecrire les conditions d’optimalite avec les multiplicateurs de Lagrange, et trouverle point optimal dans K − u0.

d) Trouver le minumum de J sur K.

8.5.3 Partie III

On suppose dans cette question que a1, a2, b1, b2 sont des reels strictement positifs eton considere

J1(v1) = a1(e−b1v1 − 1), J2(v2) = a2(e

−b2v2 − 1).

1) Montrer que J1 est strictement convexe sur IR− et qu’elle est α−convexe sur IR−.On donnera la meilleure constante α.

2) Montrer que J1 est strictement convexe sur IR+ et qu’elle n’est pas α−convexesur IR+. 3) Etudier la stricte convexite et l’α−convexite de J1 sur [0, 1].

4) On se place sur K = (v1, v2) ∈ IR2, v1 ≥ 0, v2 ≥ 0, v1 + v2 = 1. Ecrireles conditions necessaires d’optimalite utilisant les multiplicateurs de Lagrange. etdeterminer v1 et v2 selon les valeurs de a1, a2, b1, b2.

8.5.4 Partie IV

On souhaite proposer une autre methode (qui fera l’objet d’une partie du cours). Onintroduit un parametre λ et la fonctionnelle (utilisant les fonctionnelles de la partieprecedente)

L(v, λ) = J1(v1) + J2(v2) + λ(v1 + v2 − 1)

sur v ∈ IR2+

1) Montrer que si λ < 0 alors l’inf de L(v, λ) est −∞2) Montrer que pour λ > 0, il existe un seul point (v0

1(λ), v02(λ)) qui minimise

L(v, λ) Calculer (v01(λ), v0

2(λ)).

3) On note G(λ) = L(v01(λ), v0

2(λ), λ).

En calculant la derivee G′(λ), demontrer que G admet un unique maximum λ0.Calculer ce maximum.

4) Montrer que l’on a

Page 145: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.5. EXAMEN MAITRISE JUIN 03 145

∀λ > 0,L(v0(λ), λ) ≤ L(v0(λ0), λ0)

∀v,L(v0(λ0), λ0) ≤ L(v, λ0).

5) Montrer que, pour λ > 0

∀v ∈ K,L(v, λ) ≤ J(v).

8.5.5 Partie V

Cette partie presente l’etude theorique de conditions mixtes dans IRn, c’est a dire descontraintes egalite et des contraintes inegalites. On suppose que l’on a, en tout point,des contraintes egalite regulieres et des contraintes inegalite qualifiables.

1) On considere les m contraintes egalite regulieres K1 = F1(v) = 0, F2(v) = 0....a) Pourquoi le cas n ≤ m n’est pas a considerer?

b) On se place dans le cas n > m. On prend v0 ∈ K1

Montrer qu’il existe un sous ensemble J de 1, ..., n, de cardinal m, tel que

∂Fi∂vj

(v0), 1 ≤ i ≤ m, j ∈ J

soit une matrice inversible.

c) On reordonne les variables v1, ..., vn de sorte que les m premieres variables soientles variables dont les indices sont dans J . (Ceci revient a dire J = 1, ...,m).

Montrer qu’il existe m fonctions ψ1, ...., ψm definies au voisinage de (v0m+1, ..., v

0n)

telles que

v ∈ K1 ∩ |v − v0| ≤ ǫ0,⇔ vj = ψj(vm+1, ..., vn)∀j, 1 ≤ j ≤ m.

Calculer ∂lψk en fonction des derivees des Jp.

2) Soit K2 = G1(v) ≤ 0, ..., GN (v) ≤ 0.Montrer que

K1 ∩K2 ∩ |v − v0| ≤ ǫ0 = (ψ1(v′), ..., ψm(v′), v′),Hk(v

′) ≤ 0, 1 ≤ k ≤ N

ou les fonctions H sont a identifier en fonction de G.

3) Montrer que les contraintes H1, ...,HN sont qualifiables en v

4) Montrer que si v0 est une solution du probleme de minimisation de J sur K,alors il existe λ1, ...λm ∈ IRm et µ1, ..., µN ∈ (IRN

+ ) telles que

J ′(v0) +∑

λjF′j(v0) +

µpG′p(v0) = 0

µpGp(v0) = 0, Fj(v0) = 0∀j.

Page 146: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

146 CHAPTER 8. PROBLEMES D’EXAMENS

8.6 Rattrapage 1

On se donne une constante k > 0. On considere

J0(u) =1

2[

∫ 1

0(u′)2dx+ k2

∫ 1

0u2dx]

J(u) =1

2[

∫ 1

0(u′)2dx+ k2

∫ 1

0(max(u, 0))2dx]

On suppose u ∈ H1([0, 1]).On veut etudier les deux problemes d’optimisation suivants, C est une constante:

(1)

minJ0(u)u ∈ H1([0, 1])u(0) = u(1) = C

(2)

minJ(u)u ∈ H1([0, 1])u(0) = u(1) = C

1) Calculer la derivee au sens de Gateaux de J0.

2) En deduire la solution du probleme (1). Determiner le signe de cette solutionen fonction de C. Representer cette solution pour deux valeurs de k differentes.

3) On se propose de calculer la derivee au sens de Gateaux de la fonctionnelle J .Pour cela, pour u ∈ H1([0, 1]), on introduit

I+α = x ∈]0, 1[, u(x) > α, I−α = x ∈]0, 1[, u(x) < −α, Oα = x ∈]0, 1[, |u(x)| ≤ α.

a) Pour w ∈ C∞0 ([0, 1]), demontrer l’inegalite

(max(u+ ǫw, 0))2dx ≤ (α+ ǫ||w||∞)2

ou ||w||∞ est la norme du maximum de w.b) On fixe w, non nul, dans C∞

0 ([0, 1]). Choisir α en fonction de ǫ et de ||w||∞,proportionnel a ǫ de sorte que

∀x ∈ I+α , u(x) + ǫw(x) > 0 et ∀x ∈ I−α , u(x) + ǫw(x) < 0.

c) Calculer J(u+ ǫw) − J(u) en choisissant le α trouve au b).

Demontrer que la limite de 1ǫ(J(u+ǫw)−J(u)) est egale a

∫ 10 u

′w′dx+k2∫ 10 max(u, 0)w(x)dx.

4) On veut resoudre le probleme (2).a) On note d

dxla derivee au sens des distributions. Montrer que la solution du

probleme (2) verifie

d

dx(u′) = k2max(u, 0).

En deduire que u′ est de classe C1 donc u est de classe C2.

b) On se place dans le cas C < 0. Montrer que deux cas sont possibles, le cas i)et le cas ii) ci-dessous.

i) il existe x1 et x2 tels que la solution u soit negative sur [0, x1[ et sur]x2, 1]. La calculer sur ces deux intervalles. Montrer que la formulation variationnelleimplique qu’il existe deux constantes α > 0, β < 0, que l’on determinera en fonctionde C, x1, x2 telles que

Page 147: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.7. EPREUVE DE SEPTEMBRE 2002 147

∀w,αw(x1) − βw(x2) +

∫ x2

x1

(u′w′ + k2max(u, 0)w)dx = 0.

Montrer que u′(x1) > 0 et calculer sa valeur. Montrer que u′(x2) < 0 et calculersa valeur.

Montrer qu’il existe x0 ∈]x1, x2[ tel que u′(x0) = 0. Est ce que cela est possible?

ii) u est negative partout: Identifier la solution. Quelle est la valeur de J(u)pour cette solution?

c) On se place dans le cas C > 0.

i) Dans le cas ou u s’annule en x1 et en x2, montrer que cela conduit a uneimpossibilite.

ii) Identifier la solution dans le cas ou elle ne s’annule pas.

8.7 Epreuve de Septembre 2002

Dans tout ce texte, on designe par J(u) la fonctionnelle suivante sur H1([0, 1]):

J(u) =1

2

∫ 1

0u2dx+

1

2

∫ 1

0(|u′| − 1)2.

On designera encore par J(u) la restriction de J a tout sous-espace de H10 ([0, 1]).

1) (question de cours). Demontrer que J n’admet pas de minimum sur H10 ([0, 1]).

On montrera successivement que J(u) ≥ 0 puis que l’egalite J(u) = 0 n’a pas desolution.

Ensuite, on considerera une suite un de fonctions continues, affines par morceaux,telle que u′ = ±1 et on determinera la suite de sorte que J(un) → 0.

2) On note Pn, n ≥ 2, le sous-espace de H10 ([0, 1]) des fonctions affines par

morceaux, continues, de la forme ax+ b sur l’intervalle [ kn, k+1

n].

a) Demontrer que Pn est de dimension n− 1. Demontrer qu’un element de Pn estuniquement determine par sa valeur en k

n, 1 ≤ k ≤ n− 1.

b) On se place dans P2. Determiner le minimum de J sur P2. Est ce que J estα−convexe sur P2? Tracer la courbe representative de J en fonction de la valeur deu ∈ P2 en x = 1

2 . Donner les extrema locaux de J . Peut-on les caracteriser parJ ′(u) = 0? Pourquoi?

3) a) On se place dans P3. On note u1 la valeur de u en x = 13 et u2 la valeur de

u en x = 23 .

Decrire la fonctionnelle F (u1, u2) telle que J(u) = F (u1, u2). Pour cela, on noteraque le plan (u1, u2) est divise en 6 regions ouvertes delimitees par les droites u1 = 0,u2 = 0, u1 = u2. On numerotera ces regions de 1 a 6 dans le sens trigonometriqueen commencant par la region correspondant aux valeurs de l’angle polaire θ comprisentre 0 et π

4 .

b) Demontrer que F (u1, u2) = F (u2, u1). En deduire que l’etude peut se faireuniquement dans les zones 2, 3, 4. Chercher les extrema de F dans chacune des

Page 148: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

148 CHAPTER 8. PROBLEMES D’EXAMENS

regions 2, 3, 4. Determiner la nature de ces extrema locaux. En deduire le minimumde F (u1, u2).

c) Donner tous les extrema de F dans le plan et donner leur nature.

4) a) Dans cette question, on se place dans Pn. Demontrer que J admet un mini-mum note Jn. Est ce que le point ou J atteint son minimum est unique? Demontrerque Jn tend vers 0 lorsque n tend vers +∞ et donner un majorant de Jn simple.

b) Determiner∫

k+1n

kn

u2(x)dx en fonction de u( kn) et u(k+1

n) et de n pour u ∈ Pn.

Pour simplifier, on notera uk la valeur de u en kn. On se place dans la region uk+1 >

uk > uk−1. Determiner le gradient de J dans la direction uk selon le signe de uk.

5) a) Determiner la derivee de Gateaux de la fonctionnelle J pour u ∈ H20 ([0, 1]).

On pourra remarquer que u′ est continue et designer par I l’image reciproque de0 par u′, I± l’image reciproque de IR± par u′. Peut-on faire le meme travail pouru ∈ H1

0 ([0, 1])? b) On se place sur Pn. Determiner la derivee de Gateaux de J endiscutant selon les cas envisages.

8.8 Examen juin maitrise 2001

8.8.1 Exercice 1

On considere la fonctionnelle sur IR2 donnee par

J(x, y) = 5x2 + 5y2 + 8xy − 36x− 18y.

1) Montrer que cette fonctionnelle est α−convexe et determiner la plus grandevaleur de α pour laquelle ceci est vrai. Calculer le minimum de J sur IR2 et le pointou J est minimum.

2) Soit F1(x, y) = (x+ 2)2 + (y + 3)2 − 2.Etudier le probleme

infJF1 ≤ 0.

3) Soit F2(x, y) = (x+ 4)2 + (y + 5)2 − 18.Etudier le probleme

infJF2 ≤ 0 ≤ F1.

N.B. Une figure pourra etre utile a la resolution de l’exercice.

8.8.2 Exercice 2

On considere un espace de Hilbert V , et on suppose qu’il existe deux espaces de HilbertV1 et V2 tels que

∀v ∈ V,∃(v1, v2) ∈ V1 × V2, v = v1 + v2

Page 149: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.8. EXAMEN JUIN MAITRISE 2001 149

et, si v est donne, toute decomposition de la forme

v = v1 + v2

verifie les inegalites

|v1|2 + |v2|2 ≤ C0|v|2.On etudie le probleme de minimisation sur V :

infJ(v)

avec

J(v) =1

2a(v, v) − L(v)

ou

i) la forme bilineaire a est une forme quadratique verifiant

∀u ∈ V α|u|2 ≤ a(u, u)

∀(u, v) ∈ V 2, |a(u, v)| ≤M |u||v|.ii) la forme lineaire L verifie |L(u)| ≤ ||L|||u|.On cherche a resoudre ce probleme de minimisation par l’intermediaire de problemes

de minimisation dans V1 et dans V2, generalisant en cela l’algorithme de relaxation.

1) Montrer que l’egalite variationnelle

∀v ∈ V, a(u, v) = L(v)

admet une unique solution u∗.2) On se donne u0 ∈ V et on definit la suite recurrente par ∀p ∈ IN, u2p+1 et u2p+2

sont donnes par la methode suivante:

i) u2p+1 est donne par les deux conditions suivantes

a(u2p+1, v1) = L(v1)∀v1 ∈ V.u2p+1 − u2p ∈ V1.

ii) u2p+2 est donne par les deux conditions suivantes

a(u2p+2, v2) = L(v2)∀v2 ∈ V.u2p+2 − u2p+1 ∈ V2.

Montrer que la suite un est bien definie pour tout n (on pourra par exemple ecrireune egalite variationnelle sur V1 pour definir u2p+1 − u2p)

3) Montrer l’inegalite

|un+1 − un| ≤ 2

α[||L|| +M |un|].

4) On note en = un − u∗, wn+1 = un+1 − un. Montrer les egalites

∀v1 ∈ V1, a(e2p+1, v1) = 0

Page 150: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

150 CHAPTER 8. PROBLEMES D’EXAMENS

∀v2 ∈ V2, a(e2p, v2) = 0

En deduire l’egalite

a(en, en) = a(en+1, en+1) + a(wn+1, wn+1)

5) Montrer l’egalite

∀v ∈ V,∀(v1, v2), v = v1 + v2, a(e2p, v) = −a(w2p+1, v1)

6) En deduire

∀v ∈ V, |a(en, v)| ≤M√C0|wn+1||v|

7) Montrer les inegalites

|en| ≤ M√C0

α|wn+1|.

8) Deduire de 4b) et 7), ainsi que des deux inegalites

α|en|2 ≤ a(en, en), a(wn+1, wn+1) ≤M |wn+1|2

que

a(en+1, en+1) ≤ a(en, en)(1 − α3

M3C0)a(en, en)

En deduire une valeur de ρ et de C telle que

|en| ≤ Cρn|e0|.

8.9 Epreuve de juin 2003

8.9.1 Exercice 1

On considere la fonctionnelle sur IR2 donnee par

J(x, y) = 5x2 + 5y2 + 8xy − 36x− 18y.

1) Montrer que cette fonctionnelle est α−convexe et determiner la plus grandevaleur de α pour laquelle ceci est vrai. Calculer le minimum de J sur IR2 et le pointou J est minimum.

2) Soit F1(x, y) = (x+ 2)2 + (y + 3)2 − 2.Etudier le probleme

infJF1 ≤ 0.

3) Soit F2(x, y) = (x+ 4)2 + (y + 5)2 − 18.Etudier le probleme

infJF2 ≤ 0 ≤ F1.

N.B. Une figure pourra etre utile a la resolution de l’exercice.

Page 151: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.9. EPREUVE DE JUIN 2003 151

8.9.2 Exercice 2

On considere un espace de Hilbert V , et on suppose qu’il existe deux espaces de HilbertV1 et V2 tels que

∀v ∈ V,∃(v1, v2) ∈ V1 × V2, v = v1 + v2

et, si v est donne, toute decomposition de la forme

v = v1 + v2

verifie les inegalites

|v1|2 + |v2|2 ≤ C0|v|2.On etudie le probleme de minimisation sur V :

infJ(v)

avec

J(v) =1

2a(v, v) − L(v)

ou

i) la forme bilineaire a est une forme quadratique verifiant

∀u ∈ V α|u|2 ≤ a(u, u)

∀(u, v) ∈ V 2, |a(u, v)| ≤M |u||v|.ii) la forme lineaire L verifie |L(u)| ≤ ||L|||u|.On cherche a resoudre ce probleme de minimisation par l’intermediaire de problemes

de minimisation dans V1 et dans V2, generalisant en cela l’algorithme de relaxation.

1) Montrer que l’egalite variationnelle

∀v ∈ V, a(u, v) = L(v)

admet une unique solution u∗.2) On se donne u0 ∈ V et on definit la suite recurrente par ∀p ∈ IN, u2p+1 et u2p+2

sont donnes par la methode suivante:

i) u2p+1 est donne par les deux conditions suivantes

a(u2p+1, v1) = L(v1)∀v1 ∈ V.u2p+1 − u2p ∈ V1.

ii) u2p+2 est donne par les deux conditions suivantes

a(u2p+2, v2) = L(v2)∀v2 ∈ V.u2p+2 − u2p+1 ∈ V2.

Montrer que la suite un est bien definie pour tout n (on pourra par exemple ecrireune egalite variationnelle sur V1 pour definir u2p+1 − u2p)

3) Montrer l’inegalite

Page 152: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

152 CHAPTER 8. PROBLEMES D’EXAMENS

|un+1 − un| ≤ 2

α[||L|| +M |un|].

4) On note en = un − u∗, wn+1 = un+1 − un. Montrer les egalites

∀v1 ∈ V1, a(e2p+1, v1) = 0

∀v2 ∈ V2, a(e2p, v2) = 0

En deduire l’egalite

a(en, en) = a(en+1, en+1) + a(wn+1, wn+1)

5) Montrer l’egalite

∀v ∈ V,∀(v1, v2), v = v1 + v2, a(e2p, v) = −a(w2p+1, v1)

6) En deduire

∀v ∈ V, |a(en, v)| ≤M√C0|wn+1||v|

7) Montrer les inegalites

|en| ≤ M√C0

α|wn+1|.

8) Deduire de 4b) et 7), ainsi que des deux inegalites

α|en|2 ≤ a(en, en), a(wn+1, wn+1) ≤M |wn+1|2

que

a(en+1, en+1) ≤ a(en, en)(1 − α3

M3C0)a(en, en)

En deduire une valeur de ρ et de C telle que

|en| ≤ Cρn|e0|.

8.10 Examen Analyse Fonctionnelle Appliquee 2001

8.11 Probleme

On considere les deux fonctionnelles sur H10 ([0, 1]):

I(u) =1

2

∫ 1

0(u′)2dx+

1

3

∫ 1

0u3dx

J(u) =1

2

∫ 1

0(u′)2dx+

1

4

∫ 1

0u4dx.

Partie I1) Trouver, sans calculs, le minimum de la fonctionnelle J sur H1([0, 1]).

Page 153: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.11. PROBLEME 153

2) Montrer que infH1([0,1])I(u) = −∞.On considere K = u ∈ H1([0, 1]), u(0) = u(1) = 1 ainsi que K0 = u ∈

H1([0, 1]),∫ 10 u

2dx = 1.Partie II3) Determiner les directions admissibles w pour u ∈ K. Calculer (J ′(u), w) pour

w direction admissible pour u dans K.4) Determiner les directions admissibles w pour u ∈ K0. Est ce que (J ′(u), w)

change par rapport a la question 3)?5) Calculer (J ′(u) − J ′(v), u − v) et en deduire que J est strictement convexe sur

K ou sur K0 (on pourra utiliser u2 + uv + v2 = (u+ 12v)

2 + 3v2

4 )6) Justifier que

inf J(v)v ∈ K

admet une unique solution que l’on notera u0. Montrer que u0 est solution de

(∗) − u0” + u30 = 0, u0(0) = u0(1) = 1

Il est clair (mais pas evident a montrer tres rigoureusement) que u0 est une fonctionC∞.

7) Soit v0 la fonction de H1([0, 1]) definie par v0(x) = u0(1 − x). Calculer J(v0).Que peut-on dire de v0? En deduire que u′(1

2) = 0.8) Montrer que u0 est solution de l’equation

d

dx[−(u′0)

2

2+u4

0

4] = 0.

En deduire que u0 verifie

(u′0(x))2 =

1

2((u0(

1

2))4 − (u0(x))

2).

9) On admet que u0 est strictement inferieure a 1 sur ]0, 1[. Quel est le signede∫ 10 u

20dx − 1? Demontrer que le minimum v0 de J sur K0 est unique. Former le

lagrangien associe a ce probleme et donner l’equation differentielle satisfaite par v0 etλ ainsi que les conditions satisfaites par v0. On ne cherchera pas a la resoudre.

Partie optionnelle Dans toute la suite (sauf dans la question 15) on supposeu0(

12 ) 6= 0.10) Demontrer que u0 ne s’annule pas sur [0, 1]. En deduire que u0 reste du meme

signe sur 0, 1], donc est strictement positive sur [0, 1].11) Deduire de la question precedente que u′0 est croissante sur [0, 1], negative

sur [0, 12 ] et positive sur [12 , 1]. Donner l’allure de la courbe representative de u0. On

etudiera u0 sur [12 , 1].

12) On note desormais h(x) = u0(x)

u0( 12). Demontrer que, pour x ∈ [12 , 1]

h′(x) =u0(

12)√2

(h4(x) − 1)12 .

13) Demontrer que h(x) est donnee par

∫ h(x)

1

ds√s4 − 1

=u0(

12 )√2

(x− 1

2).

Page 154: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

154 CHAPTER 8. PROBLEMES D’EXAMENS

14) Soit ψ(t) = t∫ t

1ds√s4−1

. Montrer que ψ est une bijection de [1,+∞[ sur [0,+∞[.

En deduire que u0(12 ) est l’unique solution de

ψ(1

u0(12 )

=1

2√

2.

15) On suppose u0(12) = 0.

a) Montrer que u0 est solution de

(u′0)2 =

u40

2.

b) On considere d’abord le cas ou u0 ne s’annule pas sur [0, 12 [. Dans ce cas, u′0

est croissante. Montrer que u′0(0) < 0 et que u′0 < 0 sur [0, 12 [. En deduire que

1u0(x)

= 1 + x√2. Conclusion?

c) Quelle est la contraposee de ”u0 ne s’annule pas sur [0, 12 [? Dans ce cas, on

designe par α0 la plus petite racine de u0 inferieure a 12 . Montrer que, pour x ∈ [0, α0[,

u′0 est croissante negative, et donc que 1u0(x) = 1 + x√

2. Conclure.

Partie IIIDans cette partie, En designe l’espace vectoriel des fonctions continues sur [0, 1]

qui coincident avec des fonctions affines sur chaque intervalle [ kn, k+1

n], 0 ≤ k ≤ n− 1.

16) Montrer que v ∈ En est entierement caracterise par ak = v( kn), 0 ≤ k ≤ n.

17) Montrer que si v ∈ En, alors w donnee par w(x) = v(1 − x) est dans En18) Soit L(a0, ..., an) = J(v) pour v( k

n) = ak. Montrer que L est une fonctionnelle

strictement convexe sur IRn+1. En deduire que L admet un unique point de minimumsur IRn+1 ∩a0 = an = 1. En deduire que J admet un unique point de minimum surEn ∩K que l’on designera par un.

19) On considere maintenant l’element vn de En donne par

vn(k

n) = u0(

k

n)

Montrer les inegalites

J(u0) ≤ J(un) ≤ J(vn) ≤ J(1) =1

4.

20) a)Dans le cas n = 2, calculer J(v) pour v ∈ E2 ∩ K.Determiner l’equationsatisfaite par a = u2(

12). Montrer que 9

10 < a < 1. Tracer u2.b) Sans le cas n = 3, calculer J(v) pour v ∈ E2 ∩ K. Determiner l’equation

satisfaite par b = u3(13) = u3(

23 ). Montrer que 21

23 < b < 1. Tracer u3.21) On rappelle que u′0 est croissante, s’annule en 1

2 , est symetrique par rapport a12 , 0 ≤ u0 ≤ 1. Montrer que u0 est strictement convexe.

Montrer que

J(vn) − J(u0) ≤1

2(

∫ 1

0((vn − u0)

′)2dx)12 (

∫ 1

0((vn + u0)

′)2dx)12 +

∫ 1

0(vn − u)v3

ndx.

Partie optionnelle 22) En utilisant l’egalite, pour x ∈ [ kn, k+1

n]

vn(x) − u0(x) =

∫ x

kn

(v′n(t) − u′0(t))dt

Page 155: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.12. MAITRISE, ANNEE 2001-2002 155

demontrer l’inegalite

0 ≤ vn(x) − u0(x) ≤√

x− k

n(

∫ kn

+ 12n

kn

(v′n(x) − u′0(x))2dx)

12 .

En deduire

∫ kn

+ 12n

kn

(vn(x) − u0(x))dx ≤ (

∫ kn

+ 12n

kn

(v′n(x) − u′0(x))2dx)

12

1

3√

2n32

.

Montrer alors que

∫ 1

0(vn(x) − u0(x))dx ≤ (

∫ 1

0(v′n − u′0)

2dx)12

1

3√

2n32

.

23) Montrer que, pour x ∈] kn, k+1

n[

u′0(k

n) − u′0(x) ≤ v′n(x) − u′0(x) ≤ u′0(

k + 1

n) − u′0(x).

En deduire

|v′n(x) − u′0(x)|2 ≤ max(u′0(k

n) − u′0(x))

2, (u′0(k + 1

n) − u′0(x))

2).

Montrer ensuite que

∫ k+1n

kn

(u′0(k

n) − u′0(x))

2dx ≤ 1

3n3.

24) Deduire des questions precedentes

J(vn) − J(u0) ≤1

3n2(1 + 3

√2n

3n ).

On a donc une estimation de l’ecart entre la valeur de la fonctionnelle pour lasolution et la valeur de la fonctionnelle pour la fonction affine par morceaux qui larepresente, et ceci nous donne l’estimation entre la valeur de la fonctionnelle pour lasolution (qui est inconnue) et la valeur de la fonctionnelle lorsqu’on resout le problemeen dimension finie sur les fonctions affines par morceaux, puisque J(un) − J(u0) ≤J(vn) − J(u0).

8.12 Maıtrise, annee 2001-2002

Partie I (Minimisation d’une fonctionnelle quadratique souscontrainte)Soit A une matrice symetrique definie positive d’ordre n et b ∈ IRn. On pose

∀x ∈ IRn, J(x) =1

2(Ax, x) − (b, x).

Soit C une matrice de type (m,n), de rang m ≤ n, et d ∈ IRm. On pose

K = x ∈ IRn; Cx = d,

Page 156: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

156 CHAPTER 8. PROBLEMES D’EXAMENS

et on considere le probleme de minimisation suivant :

minx∈K

J(x) (8.12.3)

1) Montrer que le probleme (8.16) admet une unique solution, notee x∗.

2) Trouver x0 ∈ IRn tel que (8.16) soit equivalent au probleme suivant :

minx∈K

‖x− x0‖2A,

avec ‖y‖A = (Ay, y), ∀y ∈ IRn.

3) En deduire que x∗ est une projection de x0 sur K verifiant

Cx∗ = d(Az, x∗ − x0) = 0, ∀z ∈ KerC

4) Verifier que CA−1Ct est inversible et demontrer que

x∗ = x0 −A−1Ct(CA−1Ct)−1(Cx0) − d

Pour les parties suivantes, on introduit H1(]0, 1[), l’ensemble des fonctions deL2(]0, 1[) dont les derivees premieres sont dans L2(]0, 1[). On admettra que H1(]0, 1[)est un espace de Hilbert pour le produit scalaire

(u, v)H1(]0,1[) =

∫ 1

0(u′v′ + uv)dx,

ou u′ = dudx

. On admet que H1(]0, 1[) est un sous espace de C0(]0, 1[).Partie II

Etudier la differentiabilite au sens de Gateaux et de Frechet des fonctions suivantes :

v ∈ H1(]0, 1[), J(v) =

∫ 1

0

1 + v′(x)2dx,

v ∈ H1(]0, 1[), J(v) = 12

∫ 1

0(v′(x))2dx−

∫ 1

0f(x)v(x)dx,

ou f ∈ L2(]0, 1[) est une fonction donnee.

Partie III

On considere la fonctionnelle, n etant un entier naturel

Jn(v) =

∫ 1

0[ (v

′(x))2

2 + (v(x))n

n]dx

1) Calculer la derivee de Frechet et la derivee de Gateaux de cette fonctionnelle.On donnera la forme lineaire qui represente la derivee et on ecrira l’equation qui donnele representant d’apres le theoreme de Riesz dans le produit scalaire sur H1(]0, 1[).

2) Calculer la derivee seconde (Hessienne) au sens de Frechet et au sens de Gateaux.

3) Verifier la formule de Taylor suivante

Page 157: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.13. EXAMEN RATTRAPAGE OPTIMISATION EGIM: MAI 2006 157

Jn(v+tw) = Jn(v)+t

∫ 1

0(v′(x)w′(x)+(v(x))n−1w(x))dx+t2

∫ 1

0(J”n(v+txw)w,w)(1−x)dx.

en utilisant la forme de la derivee seconde obtenue au 2).4) On souhaite etudier le probleme d’optimisation

infv∈H1

Jn(v) (8.12.1)

Lorsque n est impair, resoudre ce probleme.Lorsque n est pair, ecrire les conditions d’Euler et de Legendre.Montrer que la condition d’Euler implique l’equation, verifiee presque partout

−v” + vn−1 = 0

ainsi que les relations

v′(0) = v′(1) = 0.

Dans ce cas, a-t-on la condition de Legendre? A-t-on la condition forte de Legendre?5) On prend toujours n pair, et on ajoute la contrainte

F (v) =

∫ 1

0v(x)dx, F (v) ≤ 0.

Calculer l’espace des directions admissibles K(v).Ecrire la condition d’Euler avec multiplicateurs de Lagrange.Partie IV

On considere une fonction de classe C2 sur IR2, notee f(x, y). On suppose quela matrice hessienne de f (matrice carree des derivees secondes) est uniformementbornee sur IR2.

Calculer la derivee et la derivee seconde de la fonctionnelle

J(v) =

∫ 1

0f(v(x), v′(x))dx.

8.13 Examen rattrapage optimisation EGIM: Mai 2006

Tout resultat enonce dans le texte peut etre utilise sans demonstration. Tous lesdocuments sont autorises. Dans tout le texte, on introduit les fonctionnelles

J(u) = 18

∫ 1

0(u′)4dx+

∫ 1

0xu(x)dx.

F (u) =

∫ 1

0u(x)dx

0) En considerant une fonction simple f deH1([0, 1]) = f ∈ L2([0, 1]), f ′ ∈ L2([0, 1]),montrer que la fonctionnelle J n’est pas definie sur H1([0, 1]).

Page 158: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

158 CHAPTER 8. PROBLEMES D’EXAMENS

On se place dans tout ce qui suit sur V = u ∈ H2([0, 1]) et on montrera que Jest bien definie sur V .1) En considerant une suite simple de fonctions un, determiner

infJ(u)F (u) ≤ 0

2) On introduit, si elle existe, une solution u0 de

infJ(u)F (u) ≤ 0u(0) = 0

et une solution u00 deinfJ(u)F (u) ≤ 0u(0) = 0u(1) = 0

Determiner sans calcul le signe de J(u0) − J(u00).3) On introduit, si elle existe, une solution v0 de

infJ(u)u(0) = 0

et une solution v00 deinfJ(u)u(0) = 0, u(1) = 0

a) Determiner sans calculs le signe de J(v0) − J(v00).b) Demontrer que v′00 s’annule en un point x0 de ]0, 1[.c) Determiner v0 et v00 explicitement (on fera intervenir x0) (on ne cherchera pas acalculer les primitives qui interviennent)d) Donner l’equation permettant de determiner x0.e) Montrer que J(v0) = −3

8

∫ 10 (v′0)

4dx et que J(v00) = −38

∫ 10 (v′00)

4dx.4) a)Determiner les equations permettant de trouver u0 et u00.b) Demontrer qu’il existe un unique point x1 ∈]0, 1[ tel que u′00(x1) = 0.

c) En deduire que∫ 10 u00(x)dx < 0 et determiner u00.

d) En appliquant le meme raisonnement, determiner u0.e) Pouvait-on obtenir directement ce resultat auparavant?5) On se place sur l’espace de Hilbert W = u ∈ H2([0, 1]), u(0) = u(1) = 0. Noussouhaitons etudier un probleme approche associe a v00 (puisque le probleme correspon-dant a v0 est connu). On introduit un espace vectoriel de dimension finie EN ⊂ W ,dont une base est u1, ..., uN . On supposera que tous les uj verifient

∫ 10 uj(x)dx = −1.

a) Ecrire les equations permettant de resoudre le probleme

(P1)infJ(u)u ∈ EN , F (u) = 0

On traitera en particuler la condition F (u) = 0.b) Pouvez vous proposer une methode iterative s’appuyant sur ces espaces de dimen-sion finie?c) On prend u1(x) = 6x(x− 1). Determiner la solution du probleme (P1).

d) On prend u2(x) = − u1(x)2R 10 (u1(x))2dx

. Calculer la solution du probleme (P2).

Page 159: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.14. EXAMEN MAITRISE SEPTEMBRE 2004 159

8.14 Examen maitrise septembre 2004

8.14.1 Exercice

On considere K = (x, y) ∈ IR2, x2 + y2 ≥ 1, |x| ≤ 1, |y| ≤ 1. Pour les fonctionnellessuivantes, repondre aux questions suivantes

1) Determiner le minimum de J sur IR2

2) Determiner le minimum de J sur K

J(x, y) = x2 + y4 − 2y2

J(x, y) = x2 + y6

J(x, y) = x2 + y2 + y.

8.14.2 Probleme

On se place sur un espace de Hilbert V et on considere deux formes quadratiques J1

et J2. On introduit

Jε = J1 +1

εJ2.

Le but est d’etudier la suite uε, realisant, si elle existe, le minimum de Jε.1) Montrer que si J1 et J2 sont convexes, et si une au moins des deux formes

quadratiques est coercive, alors uε existe et est unique.Toujours dans le cas ou J1 et J2 sont convexes, est ce que la coercivite de Jε pour

tout ε entraine la coercivite d’au moins une des deux formes quadratiques?2) On suppose dans cette question que V = IRn.a) Demontrer qu’il existe deux matrices symetriques A1 et A2 et deux vecteurs b1

et b2 tels que

Ji(u) =1

2(Aiu, u) − (bi, u), i = 1, 2.

b) Ecrire l’equation d’Euler satisfaite par uε.c) Dans le cas ou J1 et J2 sont toutes les deux coercives, determiner les limites

limε→0uεlimε→+∞uε

On pourra utiliser le fait suivant, que l’on demontrera:Il existe t0 tel que (I + tA−1

1 A2) est inversible pour t ≤ t0 et la norme deson inverse est majoree par 2

3) On suppose dans cette question que V = IRn et J1 coercive. On suppose A2

matrice positive symetrique non nulle.Donner les conditions sur b2 pour que J2 admette un minimum non egal a −∞.b) On suppose que b2 verifie les conditions trouvees au a) Demontrer qu’il existe

une matrice B2 de taille m×n et un vecteur c2 de IRm tels que m est le rang de A2 et

J2(u) =1

2||B2u− c2||2 −

1

2||c2||2.

c) En utilisant la forme de J2 trouvee au b) et des proprietes de la la matrice B2,determiner la limite de uε lorsque ε tend vers 0. On pourra considerer

Page 160: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

160 CHAPTER 8. PROBLEMES D’EXAMENS

Jε(u) = Jε(u) +1

2ε||c2||2.

D’autre part, quelle est la limite de uε lorsque ε→ +∞.4) On suppose dans cette question que V est un espace de Hilbert quelconque,

on suppose que les deux fonctionnelles, toujours quadratiques, sont α−convexes et onsuppose que leurs derivees sont C−Lipschitz.

Determiner la limite de uε lorsque ε tend vers 0 et lorsque ε tend vers +∞.5) On suppose que V est un espace de Hilbert quelconque, que J1 est α−convexe

de derivee C−Lipschitz. On suppose que J2 est convexe et que

(J ′′2 u, u) = 0 ⇔ u ∈W

ou W est un espace vectoriel de dimension finie.On introduit W⊥ = v ∈ V, (J ′′

2 u, v) = 0∀u ∈W.a) Demontrer que, si v ∈ V s’ecrit v = w + p, w ∈W , p ∈W⊥, alors

(J ′′2 v, v) = (J ′′

2 p, p).

b) Determiner les conditions sur J2 pour que cette fonctionnelle admette un minimum.Est-il unique?

c) Determiner la limite de uε lorsque ε → 0. (On pourra considerer Jε = Jε −1εinfJ2)

8.15 Partiel Decembre 2005

8.15.1 Enonce

Dans tout le sujet, on introduit la fonctionnelle sur H10 ([0, 1]):

J(u) = 12

∫ 1

0(u′)2dx−

∫ 1

0xu(x)dx

ainsi que la fonctionnelle

F (u) =

∫ 1

0(u

4

4 − u2

2 )dx.

On rappelle que si u ∈ H10 ([0, 1]), elle est continue et on a l’inegalite de Poincare, pour

u ∈ H10 ([0, 1]):

||u||L2([0,1]) ≤ 1π||u′||L2([0,1])

ainsi que l’inegalite, pour u ∈ H10 ([0, 1]):

|u(x)| ≤ ||u′||L2([0,1]).

On tiendra particulierement compte de la rigueur dans la redaction de la solution dechaque question. On remarque que la question 4) est independante des questions 1),2), 3).On donne les egalites

α1 =

∫ 1

0(1−s2)4ds = 128

135 , β1 =

∫ 1

0(1−s2)4s2ds = 128

3465 , γ1 =

∫ 1

0s4(1−s2)4ds = 128

15015

Page 161: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.15. PARTIEL DECEMBRE 2005 161

1) a) Determiner le minimum absolu de J sur H10 ([0, 1]), ainsi que la fonction u0(x)

qui realise le minimum absolu.b) Montrer que J(u) = J(u0) + 1

2

∫ 10 (u′ − u′0)

2dx.2) a) Montrer que la fonctionnelle F est definie sur H1

0 ([0, 1]), continue sur H10 ([0, 1])

et qu’elle est Gateaux-derivable en tout point.b) Calculer, pour u ∈ H1

0 ([0, 1]) et w ∈ H10 ([0, 1]):

(F ′(u), w).

Est ce que F est Frechet derivable en tout point u ∈ H10 ([0, 1])?

3) a) Determiner une condition necessaire pour qu’une fonction u∗ ∈ H10 ([0, 1]) soit

solution du probleme

infF (u)=0,u∈H10 ([0,1])J(u). (8.15.1)

b) Demontrer qu’il existe λ ∈ IR tel que u∗ est solution au sens des distributions (oudes derivees faibles) de l’equation differentielle suivante:

−u′′∗ − x+ λ(u3∗ − u∗) = 0. (8.15.1)

c) Montrer que si u∗ ∈ H10 ([0, 1]) est solution au sens des distributions de (8.16), alors

elle est de classe C2.d) Montrer que u∗ verifie l’egalite

(u′∗(0))2−(u′

∗(x))2

2 + λ (u∗(x))4−2(u∗(x))2

4 − xu∗(x) +

∫ x

0u∗(t)dt = 0.

e) Deduire de (8.16) que u′′∗(0) = 0.4) On se place dans l’espace vectoriel des polynomes de degre 2 de H1

0 ([0, 1]) (donton donnera les elements). Determiner, sans aucun calcul, la solution (dont onmontrera l’existence par des methodes elementaires) du probleme de minimisationsous contraintes (8.16):

infF (u)=0,u∈H1

0 ([0,1]),u polynome de degre 2 J(u). (8.15.1)

On donne∫ 10 x

4(1 − x)4dx = 130×21 . Est ce que la solution verifie la condition du 3)

e)?5) On se place dans l’espace E des polynomes de degre superieur ou egal a 3 (rappelonsque 0 est un polynome de degre −∞). On note Pn l’espace des polynomes de degren.a) Montrer que u ∈ E ∩H1

0 ([0, 1]) et u′′(0) = 0 est equivalent a il existe une constantea et un polynome P tels que u(x) = a(x − x3) + x3(1 − x)P (x). On note E l’espacedes polynomes de ce type.En deduire la solution du probleme

infF (u)=0,u∈E∩P3J(u) (8.15.1)

6) a) Determiner la restriction de J a H10 ([0, 1])∩P3 On ecrira pour ce faire ua,b(x) =

(a+ b(x− 12))x(1 − x) et on considere le probleme

infF (u)=0,u∈H1

0 ([0,1]),u polynome de degre 3 J(u) (8.15.1)

Page 162: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

162 CHAPTER 8. PROBLEMES D’EXAMENS

b) Calculer F (ua,b) en effectuant le moins possible de calculs et en utilisant lessymetries par rapport a 1

2 . On utilisera les valeurs α1, β1, γ1 dans le calcul de Fapres changement d’origine t = x− 1

2 .c) Peut-on calculer la solution du probleme (8.16)? Est ce que la solution du probleme(8.16) verifie la condition du 3 e)?

8.15.2 Correction (redigee par B. Merlet)

1 a) Cas sans contrainte

L’espace H10 ([0, 1]) est un Hilbert. On a vu en TD que la fonctionnelle J est

strictement convexe continue et infinie a l’infini sur H1([0, 1]) (en TD, la fonctionx 7→ x etait remplacee par f ∈ L2(0, 1)). On en deduit que J a un unique minimiseuru0 sur H1

0 ([0, 1]). De plus on vu qu’elle est Frechet-differentiable de derivee donneepar

(J ′(u), v) =

∫ 1

0u′(x)v′(x)dx−

∫ 1

0xv(x)dx ∀ v ∈ H1

0 ([0, 1]).

L’equation d’Euler nous donne J ′(u0) = 0. On a alors pour tout w ∈ C∞c (]0, 1[) :

∫ 1

0u′0(x)v

′(x)dx =

∫ 1

0xv(x)dx.

Ce qui signifie que la derivee de u′0 au sens des derivees faibles est −x sur l’intervalle]0, 1[. On sait donc que u′ ∈ H1([0, 1]). Integrant une fois, on obtient qu’il existeC = u′0(0) telle que u′0(x) = −x2/2 + C pour x ∈ [0, 1] p.p. et ensuite qu’il existeD ∈ IR telle que u0(x) = −x3/6 + Cx+D. Comme u0(0) = u0(1) = 0 et que u0 estcontinue sur [0, 1], on conclut que D = 0 et C = 1/6, i.e : u0(x) = −x3/6 + x/6 pourx ∈ [0, 1]. Un calcul direct donne J(u0) = −1/30.

1 b)

Pour v ∈ H10 ([0, 1]), en utilisant le fait que J ′(u0) = 0, on calcule :

J(v) = J(u0 + (v − u0)) = J(u0) + (J ′(u0), v − u0) + 12

∫ 1

0(v′(x) − u′0(x))

2dx,

= J(u0) + 12

∫ 1

0(v′(x) − u′0(x))

2dx.

2 a) Etude de la contrainte F

Pour u ∈ H10 ([0, 1]), on a u ∈ C([0, 1], IR), en particulier, u est bornee et u4/4−u2/2

est integrable. La fonctionnelle F est donc bien definie sur [0, 1]. Montons qu’elle estcontinue. Soient u, v ∈ H1

0 ([0, 1]). On suppose que ‖u‖H10,‖v‖H1

0≤ R. En utilisant le

fait que la norme ‖ · ‖H10

controle la norme ‖ · ‖∞:

|F (u) − F (v)| ≤ 14

∫ 1

0|u4 − v4| + 1

2

∫ 1

0|u2 − v2|,

≤ 14

∫ 1

0|u− v||u3 + u2v + uv2 + v3| + 1

2

∫ 1

0|u− v||u+ v|,

≤ 14‖u− v‖∞(‖u‖3

∞ + ‖u‖2∞‖v‖∞ + ‖u‖∞‖v‖2

∞ + ‖v‖3∞) + 1

2‖u− v‖∞‖u+ v‖∞,≤ C‖u− v‖H1

0.

Page 163: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.15. PARTIEL DECEMBRE 2005 163

pour une constante C dependante de R. On en deduit que F est continue.

Montrons que F est Gateaux derivable. Fixons u ∈ H10 ([0, 1]) et prenons v ∈

H10 ([0, 1]). Pour t 6= 0, on calcule

F (u+ tv) − F (u) = 14

∫ 1

04tu3v + 6t2u2v2 + 4t3uv3 + t4v4 − 1

2

∫ 1

02tuv + t2v2,

= t

∫ 1

0(u3 − u)v + o(t).

On en deduit que si F est Gateaux derivable au point u, sa derivee est donnee

(F ′(u), v) =

∫ 1

0(u3 − u)v, ∀ v ∈ H1

0 ([0, 1]).

La seule chose qu’il reste a verifier est que v 7→ (F ′(u), v) est une forme lineairecontinue sur H1

0 ([0, 1]). Il est clair que cette application est lineaire. La continuite estune consequence de l’estimation suivante :

|(F ′(u), v)| ≤ ‖v‖∞(‖u‖3∞ + ‖u‖∞) ≤ C(u)‖v‖H1

0

2 b) Montrons que F est Frechet-derivable. Reprenant le calcul ci-dessus avec

t = 1, on obtient

F (u+ v) − F (u) − (F ′(u), v) = 14

∫ 1

06u2v2 + 4uv3 + v4 − 1

2

∫ 1

0v2,

|F (u+ v) − F (u) − (F ′(u), v)| ≤ ‖v‖2∞(3/2‖u‖2

∞ + ‖u‖∞‖v‖∞ + 1/4‖v‖2∞ + 1/2)

= O(‖v‖2∞) = O(‖v‖2

H10).

3 a) Conditions d’Euler-Lagrange

Les deux fonctionnelles J et F etant Frechet-derivable, une solution u⋆ du probleme(0.1) verifie l’equation d’Euler-Lagrange pour une conrainte egalite : ∃λ ∈ IR t.q.

J ′(u⋆) + λF ′(u⋆) = 0.

3 b) Interpretation en terme d’equation differentielle

Supposons u⋆ de classe C2. L’equation d’Euler-Lagrange s’ecrit

∫ 1

0u′⋆(x)v

′(x)dx−∫ 1

0xv(x)dx+ λ

∫ 1

0(u3⋆(x) − u⋆(x))v(x)dx = 0, ∀v ∈ H1

0 ([0, 1]).

Comme u⋆ est de classe C2, on peut integrer par parties dans le premier terme etobtenir :

∫ 1

0

(

− u′′⋆ − x+ λ(u3⋆(x) − u⋆(x))

)

v(x)dx = 0, ∀v ∈ H10 ([0, 1]),

et necessairement :

−u′′⋆(x) − x+ λ(u3⋆(x) − u⋆(x)) = 0, ∀x ∈ [0, 1].

Page 164: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

164 CHAPTER 8. PROBLEMES D’EXAMENS

3 c)

Si u⋆ est solution de (0.1), alors on deduit de l’equation d’Euler-Lagrange ecritepour v ∈ C∞

c (]0, 1[) que u′⋆ admet une derivee faible sur ]0, 1[ donnee par u′′⋆(x) =−x + λ(u3

⋆(x) − u⋆(x)). En particulier u′⋆ est uniformement continue sur ]0, 1[ (parcontinuite de x 7→ x et u⋆ sur [0, 1]) et u⋆ est de classe C2.

3 d)

Pour obtenir l’egalite souhaitee, on multiplie (0.2) par u′⋆(x) et on integre surl’intervalle [0, y], on a alors

∫ y

0−u′′⋆(x)u′⋆(x)dx−

∫ y

0xu′⋆(x)dx + λ

∫ y

0(u3⋆(x) − u⋆(x))u

′⋆(x)dx = 0

Le premier et le dernier terme s’integrent directement ([

−u′2⋆ /2]y

0et λ

[

u4⋆/4−u2

⋆/2]y

0).

Le second terme s’integre par parties pour donner −yu⋆(y)+∫ y

0 u⋆(x)dx. Finalement,on obtient bien (0.2).

3 e) u⋆ est de classe C2 sur [0, 1]. On applique (0.2) en x = 0 et comme

u⋆(0) = 0, on a bien u′′⋆(0) = 0.

4 Les polynomes de degre 2 qui sont dans H10 ([0, 1]) ont au moins 0 et 1 pour

racines. On travaille donc dans l’espace de dimension 1 : E := IRP ou P (x) = x(1−x).Pour ρ ∈ IR, on a

F (ρP ) = ρ4/4

∫ 1

0x4(1 − x)4ds− ρ2/2

∫ 1

0x2(1 − x)2dx,

= ρ4

41

30×21 − ρ2

2 (1/3 − 1/2 + 1/5),

= ρ2

30×4×21 (ρ2 − 42).

Il y a donc seulement trois elements de E qui annulent F :

P0 = 0, P− = −√

42P P+ =√

42P.

On calcule ensuite

J(ρP ) = ρ2

2

∫ 1

0(1 − 2x)2dx− ρ

∫ 1

0x2 − x3 dx

= ρ12(2ρ− 1)

Le minimiseur recherche est alors unique : c’est P0. En effet J(P−) > J(P+) > 0 =J(P0). On a clairement P ′′

0 (0) = 0.

5 Les elements de E ∩H10 ([0, 1]) admettent 0 et 1 pour racines, ils s’ecrivent

donc u(x) = x(1 − x)R(x) ou R est un polynome de degre au moins 1. Ecrivonsu′′(0) = 0, on obtient

u′′(0) = −2R(0) + 2R′(0) = 0,

et R(0) = R′(0) c’est a dire qu’il existe a ∈ IR et un polynome P tels que R(x) =a(1 + x) + x2P (x) avec a 6= 0 ou P 6= 0 (sinon u = 0). Finalement on a bien

u(x) = a(x− x3) + x3(1 − x)P (x).

Page 165: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.16. EXAMEN JANVIER 2006 165

Si en plus on demande u ∈ P3, alors P ≡ 0 et a 6= 0.Cherchons les elements de ce type qui verifient la contrainte F (u) = 0. On calcule

F (a(x− x3)) = a2 22

3×5×7

(

23a2

11×13 − 1)

et F (a(x− x3)) = 0 ⇔ a = ±√

11 × 13/8. On calcule ensuite

J(ax(1 − x)3) = 2a3

(

a− 13

)

.

Le minimiseur en a de l’expression precedente parmi a = ±√

11 × 13/8 est a+ =√

11 × 13/8. Le minimiseur recherche est unique et on a

Infu∈E∩P3, F (u)=0J(u) = J(a+) = 2a+

3

(

a+ − 13

)

.

6 a)

Les polynomes de H10 ([0, 1]) ∩ P3 admettent 0 et 1 pour racines. Ils sont donc de

la forme

ua,b(x) = x(1 − x)(a+ b(x− 1/2)).

6 b) On calcule F (ua,b) pour cela, on fait le changement de variable t =

2(x−1/2) dans les integrales. Pour se ramener a l’intervalle (−1, 1). L’integrale d’unefonction (integrable) impaire sur [−1, 1] etant nulle et celle d’une fonction paire etantegale a deux fois l’integrale sur [0, 1] et utilisant les constantes donnees dans l’enonce,on obtient :

F (ua,b) = 415

(

a4

2×7 + a2b2

4×7×11 + b4

25×7×11×13− a2 + b2

4×7

)

.

Pour terminer l’analyse, on ecrit l’egalite des multiplicateurs de Lagrange ∂aJ(ua,b)+λ∂aF (ua,b) = 0, ∂bJ(ua,b) + λ∂bF (ua,b) = 0, F (ua,b) = 0. On tire des deux premieresegalites que a et b sont proportionnels, ce que l’on remplace dans les trois egalites pourse ramener, avec b = µa, a un systeme sur λ, µ, et a. En particulier, on trouve a = 0ou µ donne par la contrainte. On trouve alors λ par une des deux egalites critiques,et on remplace µ et λ dans l’autre egalite critique.

8.16 Examen janvier 2006

Dans tout le sujet, on introduit la fonctionnelle sur H10 ([0, 1]):

J(u) = 12

∫ 1

0(u′)2dx−

∫ 1

0xu(x)dx

ainsi que la fonctionnelle

F (u) =

∫ 1

0(u

4

4 − u2

2 )dx.

On rappelle que si u ∈ H10 ([0, 1]), elle est continue et on a l’inegalite de Poincare, pour

u ∈ H10 ([0, 1]):

||u||L2([0,1]) ≤ 1π||u′||L2([0,1])

Page 166: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

166 CHAPTER 8. PROBLEMES D’EXAMENS

ainsi que l’inegalite, pour u ∈ H10 ([0, 1]):

|u(x)| ≤ ||u′||L2([0,1]).

On tiendra particulierement compte de la rigueur dans la redaction de la solution dechaque question. On remarque que la question 4) est independante des questions 1),2), 3).On donne les egalites

α1 =

∫ 1

0(1−s2)4ds = 128

135 , β1 =

∫ 1

0(1−s2)4s2ds = 128

3465 , γ1 =

∫ 1

0s4(1−s2)4ds = 128

15015

1) a) Determiner le minimum absolu de J sur H10 ([0, 1]), ainsi que la fonction u0(x)

qui realise le minimum absolu.b) Montrer que J(u) = J(u0) + 1

2

∫ 10 (u′ − u′0)

2dx.2) a) Montrer que la fonctionnelle F est definie sur H1

0 ([0, 1]), continue sur H10 ([0, 1])

et qu’elle est Gateaux-derivable en tout point.b) Calculer, pour u ∈ H1

0 ([0, 1]) et w ∈ H10 ([0, 1]):

(F ′(u), w).

Est ce que F est Frechet derivable en tout point u ∈ H10 ([0, 1])?

3) a) Determiner une condition necessaire pour qu’une fonction u∗ ∈ H10 ([0, 1]) soit

solution du probleme

infF (u)=0,u∈H10 ([0,1])J(u). (8.16.-31)

b) Demontrer qu’il existe λ ∈ IR tel que u∗ est solution au sens des distributions (oudes derivees faibles) de l’equation differentielle suivante:

−u′′∗ − x+ λ(u3∗ − u∗) = 0. (8.16.-31)

c) Montrer que si u∗ ∈ H10 ([0, 1]) est solution au sens des distributions de (8.16), alors

elle est de classe C2.d) Montrer que u∗ verifie l’egalite

(u′∗(0))2−(u′

∗(x))2

2 + λ (u∗(x))4−2(u∗(x))2

4 − xu∗(x) +

∫ x

0u∗(t)dt = 0.

e) Deduire de (8.16) que u′′∗(0) = 0.4) On se place dans l’espace vectoriel des polynomes de degre 2 de H1

0 ([0, 1]) (donton donnera les elements). Determiner, sans aucun calcul, la solution (dont onmontrera l’existence par des methodes elementaires) du probleme de minimisationsous contraintes (8.16):

infF (u)=0,u∈H1

0 ([0,1]),u polynome de degre 2 J(u). (8.16.-31)

On donne∫ 10 x

4(1 − x)4dx = 130×21 . Est ce que la solution verifie la condition du 3)

e)?5) On se place dans l’espace E des polynomes de degre superieur ou egal a 3 (rappelonsque 0 est un polynome de degre −∞). On note Pn l’espace des polynomes de degre

Page 167: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.17. EXAMEN CENTRALE MARSEILLE 2007 167

n.a) Montrer que u ∈ E ∩H1

0 ([0, 1]) et u′′(0) = 0 est equivalent a il existe une constantea et un polynome P tels que u(x) = a(x − x3) + x3(1 − x)P (x). On note E l’espacedes polynomes de ce type.En deduire la solution du probleme

infF (u)=0,u∈E∩P3J(u) (8.16.-31)

6) a) Determiner la restriction de J a H10 ([0, 1])∩P3 On ecrira pour ce faire ua,b(x) =

(a+ b(x− 12))x(1 − x) et on considere le probleme

infF (u)=0,u∈H1

0 ([0,1]),u polynome de degre 3 J(u) (8.16.-31)

b) Calculer F (ua,b) en effectuant le moins possible de calculs et en utilisant lessymetries par rapport a 1

2 . On utilisera les valeurs α1, β1, γ1 dans le calcul de Fapres changement d’origine t = x− 1

2 .c) Peut-on calculer la solution du probleme (8.16)? Est ce que la solution du probleme(8.16) verifie la condition du 3 e)?

8.17 Examen centrale Marseille 2007

Tout resultat enonce dans le texte peut etre utilise sans demonstration. Tous lesdocuments sont autorises.La fonctionnelle que nous etudions dans ce probleme est la fonctionnelle associee a untrou, qui a une importance faible (materiau moins resistant en elasticite, section moinsconductrice en electricite, ..), et nous nous preoccuplons des conditions aux limites.On se donne un parametre ǫ et on considere la fonctionnelle

J(u) =

∫ −13

−1(u′(x))2dx+ ǫ

∫13

−14

(u′(x))2dx+

∫ 1

13

(u′(x))2dx−∫ 1

−1f(x)u(x)dx

ou f est dans L2([−1, 1]) et ou u est dans H1([−1, 1]).1) Calculer, pour tout u ∈ H1([−1, 1]), les quantites (J ′(u), w) et (J ′′(u)w1, w2). Onpourra soit faire la demonstration soit citer un resultat du polycopie (avec la referencede la page).2) Est ce que J est α−convexe surH1([−1, 1])? Quelle est la valeur de infH1([−1,1])J(u)?3) On considere les espaces suivants

V1 = u ∈ H1([−1, 1]), u(−1) = 0, V2 = u ∈ H1([−1, 1]), u(−1) = −1, u(1) = 1,

V3 = u ∈ H1([−1, 1]), u(±1) = 0.a) Montrer que V2 = u0(x) + w,w ∈ V3 ou on trouvera u0(x). Unicite de u0?b) On rappelle l’inegalite de Poincare pour u ∈ V1:

∫ 1

−1(u(x))2dx ≤ 2

∫ 1

−1(u′(x))2dx.

Montrer que ||u||0 = (∫ 1−1(u

′(x))2dx)12 est une norme sur V1 equivalente a la norme

H1.C’est cette norme que l’on considerera desormais.

Page 168: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

168 CHAPTER 8. PROBLEMES D’EXAMENS

c) Soit ǫ < 0. Montrer que J n’a pas de minimum sur V1.On considerera desormaisǫ ≥ 0.d) Montrer que J α−convexe sur V1 equivaut a ǫ > 0. On donnera une des valeurspossibles de α.4) On se place maintenant dans le cas ǫ > 0. On introduit F l’unique fonction telleque F (−1) = F ′(−1) = 0 et F ′′ = f (obtenue par exemple explicitement par formulede Taylor avec reste integral F (x) =

∫ x

−1(x− y)f(y)dy, mais on n’a jamais besoin decette expression.)Determiner en fonction de F les solutions up(f) des problemes

infu∈VpJ(u).

Pour ce faire, on ecrira l’equation au sens des distributions equivalente a l’equationd’Euler, et on la resoudra sur trois intervalles.5) On se place dans le cas particulier ou le support de f ne contient pas [−1

3 ,13 ] (c’est-

a-dire le veritable cas du trou qui n’est pas soumis a une force). Determiner la limitede la solution u2 lorsque ǫ tend vers 0.6) On cherche une approche numerique sur V3.a) Montrer que un(x), un(x) = sinnπx est une famille orthogonale pour le produitscalaire H1

0 ([−1, 1]) de la question 3). On note desormais VN l’espace vectoriel en-gendre par u1, ..., uN .b) Determiner (J ′′(u)up, uq) pour tous p et q.c) On prend p = 1, 2, 3, 4 et N = 4. Calculer la solution du probleme de minimisationde J sur V4 pour f = 17) a) On se place dans le cas general sur N mais toujours pour f = 1. DeterminerAN et bN la matrice et le vecteur tels que si u ∈ VN est decompose comme u =∑N

j=1 xjuj(x), alors le probleme de minimisation s’ecrit

min12(ANx, x) − (bN , x).

b) Montrer que si f est paire, la solution du probleme est paire. Quelle est la solutiondu probleme de minimisation sur V N? Que vaut x0

N le point de minimum?8) Pourquoi faut-il considerer aussi les fonctions pn(x) = cos(nπx+ π

2x)? Montrer quele probleme de minimisation de J sur WN l’espace vectoriel engendre par les fonctionspn, 1 ≤ n ≤ N s’ecrit min1

2(DNx, x) − (cN , x) et resoudre ce probleme pour N = 2.9) Proposer une methode numerique pour trouver l’optimum. Comment adapter cettemethode au 2d?

8.18 Examen Optimisation 2006

Le but de cet exercice est d’etudier sommairement la theorie economique de productiond’energie. Pour simplifier, nous supposerons qu’il y a trois sources d’energie, qui sontle petrole, le charbon, et le nucleaire (dont les quantites produites, exprimees en tonnesequivalent petrole, TEP) sont respectivement p, c, n.

La Sylvanie est un pays d’Europe orientale, qui a les caracteristiques suivantespour l’exploitation de ses ressources naturelles (les fonctions Ai sont de classe C1:• la production d’une quantite p de petrole a un cout de C1(p) = C1p+A1(p).• la production d’une quantite c de charbon a un cout de C2(c) = C2c+A2(c).• la production d’une quantite n d’energie nucleaire a un cout de C3(n) = C3n+A3(n).

Page 169: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.19. EXAMEN OPTIMISATION 2007 (JANVIER) 169

a) Quel est le cout de production de l’ensemble (p, c, n) (qui est une repartition deproduction d’energie entre les trois sources)?b) Calculer la valeur du cout permettant de passer de la quantite p a la quantite

p + δp. On appelle cout marginal1 α1(p) la quantite limδp→0C1(p+δp)−C1(p)

δp. Calculer

αi(p) pour i = 1, 2, 3.c) L’hiver est rude en Sylvanie, et au 16 decembre 2006, on a besoin d’une quantiteP importante d’energie, sachant qu’une partie de la quantite d’energie produite peutetre stockee, et que, bien sur, on ne peut pas produire une quantite negative. Ecrirele probleme de minimisation avec contraintes inegalite que l’on obtient.d) Obtenir le theoreme suivant (en appliquant la theorie des multiplicateurs de La-grange au probleme du b))

Theoreme 8.1 Lorsque deux sources d’energie sont exploitees simultanement, leurscouts marginaux d’exploitation sont egaux.

e) Dans ce qui suit, on suppose pour simplifier que A1(p) = 0 et A3(n) = 50(n+100)2

(il y a un puits en Sylvanie uniquement, et une centrale nucleaire), et que A2(c) =(c− 1

8)2 (lorsqu’on va en veine profonde, cela coute de plus en plus cher).Etudier le point optimal de production (les constantes de calcul sont C1 = 1, C2 =14 , C3 = 1

10) en fonction de la production P souhaitee. Pour cela, on calculera lesmultiplicateurs de Lagrange de la question d en fonction de la production P et desconstantes du probleme. Je suggere de representer pour cela sur un meme graphiqueles fonctions α1, α2, α3 avec la meme variable. Question de reflexion, non obligatoiref) Application au cas non derivable. On suppose que le cout d’exploitation de l’energienucleaire est une fonction non derivable, dans le sens ou pour produire plus d’energienucleaire qu’une quantite produite par une centrale, il faut construire une nouvelle

centrale, et que A3(n) =

0 si n < NA si n ∈ [N, 2N [

. Trouver la solution du probleme de

minimisation en fonction de P dans le cas ou les productions de petrole et de charbonsont illimitees, et dans le cas ou les productions de petrole et de charbon sont majoreesnecessairement par Pmax et par Cmax.

8.19 Examen optimisation 2007 (janvier)

Toute relation ou expression introduite dans le texte pourra etre utilisee dans lesquestions ulterieures.Comme dans l’examen d’Isabelle Terrasse et al, on designe par T un trou ouvert dansΩ ouvert borne convexe regulier, et Ω = Ω ∪ T ∪ ∂T . Dans ce qui suit, la normeconsideree sur H1

0 (Ω) est la norme

||u||1,c = (

Ω(∇u)2dx)

12 .

Le produit scalaire qui lui est associe est (U, V ) =∫

∇U.∇V dx.0) Construire la fonctionnelle J(v) sur V espace de Hilbert telle que l’equation d’Eulerdont est solution l’eventuel minimum u de J est

∀w ∈ V, a(u,w) = (b, w)

1L’interpretation de ce fait est que le cout marginal d’exploitation d’une source denergie sedecompose en un cout proportionnel Ci et un cout variable.

Page 170: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

170 CHAPTER 8. PROBLEMES D’EXAMENS

ou b est un element de V ′ dual topologique de V . La demonstration devra se resumera indiquer precisement la reference dans le polycopie.1) Construire les fonctionnelles J1, J2, J3 respectivement associees aux formulationsvariationnelles (1), (2), (3) du precedent examen.2) On considere la fonctionnelle quadratique

J0(u) = 12

Ω(∇u)2dx−

Ωf(x)u(x)dx

pour u ∈ H1(Ω).a) Trouver l’equation d’Euler associee au probleme

infu∈H1(Ω),u|∂Ω=1J0(u).

b) Montrer que ce probleme admet une unique solution U0 surW = u ∈ H1(Ω), u|∂Ω =1.c) Montrer que W = u ∈ H1(Ω), u− 1 ∈ H1

0 (Ω).3) On designe par U0 l’unique fonction deH1

0 (Ω) (dont il n’est pas demande de prouverl’existence ni l’unicite) telle que

∀w ∈ H10 (Ω),

Ω∇U0∇wdx =

fwdx. (8.19.-31)

Relier U0 et U0.4) a)Montrer l’egalite J0(u) = J0(U0) + 1

2

Ω(∇u−∇U0)2dx.

b) En dedure en fonction2 de u et de U0 le representant de J ′0(u) dans le produit

scalaire de H10 (Ω).

c) Ecrire l’algorithme de gradient a pas optimal pour J0 pour un point de departquelconque u1. Que remarque-t-on? Est ce que cet algorithme abstrait peut etreutilise? 5) On suppose desormais que ν > 0. (On prendra la forme de J3 obtenuedans la question 1) et on raisonnera sur celle ci). Est ce que la fonctionnelle J3 estα−convexe? Si oui, preciser une valeur possible de α. On ne redemontrera pas leresultat obtenu eventuellement dans la premiere partie de l’examen.6) On suppose que le U0 du 3) a ete determine (remarquons que cela ne depend quede f et de Ω). On introduit V (u), dont on montrera l’existence, tel que

∀winH10 (Ω), (J ′

3(u), w) =

Ω∇(V (u) − U0).∇wdx. (8.19.-31)

a) Montrer que, pour u ∈ H2(Ω), pour lequel ∆u ∈ L2(Ω), V (u) est l’unique solutiondu probleme

∆V = ∆u dans Ω∆V = ν∆u dans Tν−1∂nV est continu sur ∂T

b)(*) pour u ∈ H10 (Ω), montrer que V (u) est l’unique solution de

div(ν(x)−1∇V ) = ∆u, [ν(x)−1∇V.~n] = 0,

2Il s’agit du vecteur W0(u) tel que (J ′

0(u), w) = (W0(u), w)H1

0

Page 171: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

8.19. EXAMEN OPTIMISATION 2007 (JANVIER) 171

(on remarquera que cette derniere egalite est dans H−12 (∂Ω)).

c)(*) En deduire que u → V (u) est une application lineaire continue de H10 (Ω) vers

H10 (Ω). On pourra utiliser pour cela la formulation variationnelle (8.19) pour montrer

la continuite. On a donc V (u1 + u2) = V (u1) + V (u2).d) Ecrire a l’aide de l’application V l’algorithme du gradient a pas optimal. Est ceque cela rappelle le resultat pour le cas quadratique en dimension finie?7) On considere maintenant Ω = [−1, 1], T = [−a, a] u1(x) = 1−x2, u2(x) = x(1−x2),u3(x) = (x2 + α)(1 − x2), u4(x) = x(x2 + β)(1 − x2).Trouver les egalites sur α et β telles que u1, u2, u3, u4 forme une base orthogonalepour le produit scalaire de H1

0 ([−1, 1]) pour les polynomes de H10 ([−1, 1]) de degre

inferieur ou egal a 5, espace que l’on designera par E4. On ne calculera pas α et β, onadmettra α = −1

5 , β = −37 . De plus, dans ce qui suit, vous designerez par des lettres

distinctes, sans les calculer, les constantes positives que vous obtiendrez, par exemplea11 =

∫ 1−1(u

′1)

2dx, bij = (J ′3(ui), uj).

8) Trouver l’expression de J3(u) sur E4 (on introduira u(x) =∑4

j=1 xjuj(x), eton utilisera que les integrales de fonctions impaires sont nulles sur un intervallesymetrique).9) a) Resoudre explicitement le probleme de minimisation de J3 sur E4. On noterau4

0(a, ν) cette solution. Montrer que l’on s’est ramene a deux problemes de minimisa-tion decouples (sur x1, x3 et sur x2, x4).b) Etudier le comportement de u4

0(a, ν) lorsque ν tend vers 0.10) Ecrire l’algorithme de gradient a pas constant pour J3 sur E4. Comparer avecles deux algorithmes de gradient a pas constant pour Ep4 = x1u1 + x3u3 et pourEi4 = x2u2 + x4u4.11) Repondre a la meme question pour le pas optimal. Quel est l’algorithme plusrapide?

Page 172: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

172 CHAPTER 8. PROBLEMES D’EXAMENS

Page 173: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

Chapter 9

Resume de cours (auteureLaurence Halpern)

9.1 Resultats d’existence

Soit V un espace de Hilbert (sur R), K une partie de V , J une fonction definie sur Va valeurs dans R . On dit que u est minimum local de J sur K si u appartient a Ket s’il existe un voisinage U de u dans K tel que

∀v ∈ U, J(u) ≤ J(v) (9.1.0)

Si la relation precedente est vraie pour tout v dans K, on dit que u est minimumglobal de J sur K. On definit un probleme de minimisation sur K par

u ∈ K,J(u) = inf

v∈KJ(v) (9.1.0)

On dit alors que u est solution optimale du probleme de minimisation sur K. Leprobleme de minimisation est dit sans contrainte si V = K, avec contraintes siV 6= K.

Bien evidemment, on definit un probleme de maximisation, en remplacant 6 par >

dans (9.1) et inf par sup dans (9.1). On parlera en general de probleme d’optimisation.On passe de l’un a l’autre en definissant la fonctionnelle opposee. Dans ce cours tousles resultats sont etablis sur les problemes de minimisation.

9.1.1 Theoreme de Weierstrass

Theoreme 9.1 . Si K est un compact non vide et si J est continue sur K, le problemede minimisation (9.1) admet une solution.

Remarque 9.1 . C’est un theoreme d’existence, mais il ne donne pas de resultatd’unicite.

Remarque 9.2 . Dans les problemes d’optimisation, les ensembles de contraintessont en general fermes bornes, mais pas forcement compacts. Par contre ils sontsouvent convexes.

173

Page 174: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

174 CHAPTER 9. RESUME DE COURS (AUTEURE LAURENCE HALPERN)

9.1.2 Cas convexe

On rappelle qu’une partie K de V est convexe si

∀(x, y) ∈ K,∀θ ∈ [0, 1], θx + (1 − θ)y ∈ K (9.1.0)

Une fonction J definie sur un convexe K est dite

• convexe si

∀(x, y) ∈ K,∀θ ∈ [0, 1], J(θx + (1 − θ)y) 6 θJ(x) + (1 − θ)J(y), (9.1.0)

• strictement convexe si

∀(x, y) ∈ K,x 6= y,∀θ ∈]0, 1[, J(θx+ (1 − θ)y) 6 θJ(x) + (1 − θ)J(y), (9.1.0)

• α convexe si

∀(x, y) ∈ K,∀θ ∈ [0, 1], J(θx + (1 − θ)y) 6 θJ(x)+(1 − θ)J(y)−− α

2 θ(1 − θ)||x− y||2.

Theoreme 9.2 . Si J est convexe, tout minimum local est global, et l’ensemble dessolutions optimales est convexe.

Theoreme 9.3 . Si J est strictement convexe, la solution optimale, si elle existe, estunique.

Theoreme 9.4 (Theoreme fondamental) . Soit K un convexe ferme non vide, June fonction definie sur K a valeurs dans R convexe continue. On suppose que J estinfinie a l’infini (i.e. J(v) → +∞ lorsque ||v|| → +∞) ou que K est borne. Alors leprobleme de minimisation admet une solution.

Corollaire 9.1 . Soit K un convexe ferme non vide, J une fonction definie sur Ka valeurs dans R, α-convexe continue. Alors le probleme de minimisation admet unesolution et une seule. De plus toute suite minimisante converge vers u.

9.2 Rappels de calcul differentiel

Soit J une fonctionnelle definie sur un Hilbert V a valeurs dans R. On note V ′ le dualde V , i.e. l’espace vectoriel des applications lineaires continues sur V a valeurs dansR.

9.2.1 Derivees premieres

Definition 9.1 (Differentiabilite) J est differentiable (au sens de Frechet) en u ∈V s’il existe lu dans V ′ telle que,

∀w ∈ V, J(u +w) = J(u) + lu(w) + ǫ(w)‖w‖, limǫ→0

ǫ(w) = 0 (9.2.0)

lu est la derivee de J et se note J ′(u). On ecrira J ′(u) · v = lu(v).

Page 175: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

9.2. RAPPELS DE CALCUL DIFFERENTIEL 175

Remarque 9.3 Par le theoreme de Riesz puisque J ′(u) est dans V ′, il existe ununique element de V note ∇J(u) tel que pour tout v dans V on ait

J ′(u) · v = (∇J(u), v)

Exemples de base

1. Les formes lineaires J(u) = (c, u), ou c est un vecteur donne dans V . AlorsJ ′(u).v = (c, v), ∇J(u) = c.

2. Les fonctions J(u) = a(u, u), ou a est une forme bilineaire continue sur V . AlorsJ ′(u).v = a(u, v) + a(v, u), et si a est symetrique J ′(u).v = 2a(u, v).

3. Si V = Rn, J ′(u) = ( ∂J

∂x1(u), · · · , ∂J

∂xn(u)) et J ′(u).v =

∑ni=1

∂J∂xi

(u)vi.

9.2.2 Derivees secondes

Si J : V 7→ R, J ′ : V 7→ V ′ admet une differentielle J ′′ et pour tout u, J ′′(u) ∈L(V, V ′), espace des applications lineaires continues de V dans V ′. Cet espace s’identifiea L2(V ), espace des applications bilineaires continues de V × V dans R. On noteraJ”(u) · v · w.

Exemples de base

1. J(u) = (c, u), J”(u) = 0.

2. J(u) = a(u, u), alors J ′′(u).v.w = a(v,w) + a(w, v), et si a est symetriqueJ ′′(u).v.w = 2a(v,w). Si V = R

n, J(u) = 12(Au, u) ou A est une matrice

symetrique, alors J”(u) = A pour tout u.

3. Si V = Rn, J ′′(u) est la matrice des derivees partielles secondes ∂2J

∂xi∂xj(u).

9.2.3 Formules de Taylor

Taylor Mac-Laurin ordre 1 Si J : V 7→ R est definie et continue sur [u, v], differentiablesur ]u, v[, il existe θ ∈]0, 1[ tel que

J(v) = J(u) + J ′(u+ θ(v − u)) · (v − u)

Taylor Mac-Laurin ordre 2 Si J : V 7→ R est definie et continue sur [u, v], 2 foisdifferentiable sur ]u, v[, il existe θ ∈]0, 1[ tel que

J(v) = J(u) + J ′(u) · (v − u) + 12J

′′(u+ θ(v − u)) · (v − u) · (v − u)

Taylor Young Si J : V 7→ Rp est definie et continue sur [u, v], de classe C1 sur [u, v],

2 fois differentiable dans un voisinage de u,

J(v) = J(u) + J ′(u) · (v − u) + ǫ(v − u)‖v − u‖, limǫ→0

ǫ(v − u) = 0

Theoreme 9.5 (caracterisation des fonctions convexes) . J est convexe si etseulement si l’une des conditions suivantes est verifiee :

Page 176: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

176 CHAPTER 9. RESUME DE COURS (AUTEURE LAURENCE HALPERN)

1. Si J est differentiable, le graphe de J est au-dessus de l’hyperplan tangent, i.e.

∀u, v ∈ V, J(v) ≥ J(u) + J ′(u) · (v − u) (9.2.0)

2. Si J est differentiable, J ′ est un operateur monotone, i.e.

∀u, v ∈ V, (J ′(v) − J ′(u)) · (v − u) ≥ 0 (9.2.0)

3. Si J est deux fois differentiable, J ′′ est un operateur non negatif, i.e.

∀u,w ∈ V, J ′′(u)w.w ≥ 0 (9.2.0)

Pour une fonction α -convexe, on a :

Theoreme 9.6 (caracterisation des fonctions α -convexes) . J est α- convexesi et seulement si l’une des conditions suivantes est verifiee :

1. Si J est differentiable,

∀u, v ∈ V, J(v) ≥ J(u) + J ′(u) · (v − u) + α2 ‖ v − u ‖2, (9.2.0)

2. Si J est differentiable,

∀u, v ∈ V, (J ′(v) − J ′(u)) · (v − u) ≥ α ‖ v − u ‖2, (9.2.0)

3. Si J est deux fois differentiable,

∀u,w ∈ V, J ′′(u)w.w ≥ α ‖ w ‖2 . (9.2.0)

En particulier les fonctionnelles de la forme J(u) = a(u, u), ou a est une formebilineaire symetrique continue sur V sont α-convexes si et seulement si

∀u ∈ V, 2a(w,w) ≥ α‖w‖2

Si l’on est dans Rn, avec J(u) = 1

2(Au, u), ceci revient a

∀u ∈ V, (Aw,w) ≥ α‖w‖2

La matrice A etant symetrique, elle diagonalise en base orthonormee, A = PDP T , ouD est la matrice des valeurs propres di et P la matrice des vecteurs propres. On aalors

(Aw,w) =n∑

i=1

di((Pw)i)2

> (min1≤i≤ndi)n∑

i=1

((Pw)i)2

(Aw,w) > (min1≤i≤ndi)‖Pw‖2 = (min1≤i≤ndi)‖w‖2

car, puisque P est orthogonale, ‖Pw‖ = ‖w‖. Si A est definie positive, a fonctionnelleest min1≤i≤ndi-convexe.

Page 177: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

9.3. CARACTERISATION DES EXTREMA 177

9.3 Caracterisation des extrema

9.3.1 Equation d’Euler, cas general

Theoreme 9.7 (condition necessaire) . Si u est minimum local de J dans V ,alors

1. Si J est differentiable, J ′(u) = 0,

2. Si J est deux fois differentiable, on a de plus ∀w ∈ V, J ′′(u)w.w ≥ 0.

Theoreme 9.8 (condition suffisante) . Soit J une fonction differentiable dans Vet u un point de V tel que J ′(u) = 0.

1. Si J est deux fois differentiable dans un voisinage de u et s’il existe un voisinageΩ de u tel que ∀v ∈ Ω,∀w ∈ V, J ′′(v)w.w ≥ 0, alors u est minimum local de J .

2. Si J est deux fois differentiable,et s’il existe α > 0 tel que

∀w ∈ V, J ′′(u)w.w ≥ α ‖ w ‖2,

alors u est minimum local strict pour J .

9.3.2 Inequation d’Euler, cas convexe

Dans cette section on considere le probleme de minimisation avec contraintes. Onsuppose que K est un convexe ferme non vide et que J est differentiable.

Theoreme 9.9 . Si u est solution optimale on a l’inequation d’Euler

u ∈ K∀v ∈ K,J ′(u).(v − u) ≥ 0.

(9.3.0)

Reciproquement si on a l’inequation d ’Euler en u et si de plus J est convexe, alors uest solution optimale.

Corollaire 9.2 [Projection sur un convexe ferme]. Soit K une partie convexe fermeenon vide d’un espace de Hilbert V , et w un point de V n’appartenant pas a K. alorsil existe un unique point de K, note PKw tel que

PKw ∈ K,‖w − PKw‖ = inf

v∈K‖w − v‖ (9.3.0)

Il est caracterise par∀v ∈ K, (PKw − w, v − PKw) > 0 (9.3.0)

Les cas particuliers sont tres importants.

1. K = V On a le

Theoreme 9.10 . Si J est convexe differentiable, alors u realise le minimumde J sur V si et seulement si J ′(u) = 0.

Page 178: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

178 CHAPTER 9. RESUME DE COURS (AUTEURE LAURENCE HALPERN)

Remarque 9.4 . En particulier si J est α-convexe, il existe une unique solutionoptimale, caracterisee par J ′(u) = 0.

2. K sous-espace affine engendre par l’espace vectoriel ferme E, i.e. K = u0 +v, v ∈ E, alors

(9.9) ⇔

u ∈ K

∀w ∈ K, J ′(u).w = 0(9.3.0)

Si E est defini par m contraintes, E = w ∈ V, (ai, w) = 0, 1 6 i 6 m, alors

(9.9) ⇔

u ∈ K

∃λ1, .., λm,∇J(u) +m∑

i=1

λiai = 0(9.3.0)

Remarque 9.5 Si l’on definit les fonctions affines Fi(w) = (w − u0, ai), alorsK = w ∈ V, Fi(w) = 0, et (9.3.2) se reecrit

(9.9) ⇔

u ∈ K

∃λ1, .., λm,∇J(u) +

m∑

i=1

λiF′i = 0.

(9.3.0)

3. K cone convexe ferme de sommet u0. On note K0 le cone de sommet O qui luiest parallele. Alors

(9.9) ⇔

u ∈ K

J ′(u).(u0 − u) = 0

∀w ∈ K0, J′(u).w > 0.

(9.3.0)

Pour M cone convexe ferme de sommet O, on definit le cone dual par

M⋆ = c ∈ V,∀v ∈M, (c, v) ≥ 0 (9.3.0)

Si M est engendre par un nombre fini de vecteurs, alors on peut decrire M⋆ :

Theoreme 9.11 (Lemme de Farkas) .Si M = c ∈ V,∀i ∈ 1, ..,m, (c, ai) 6 0, alors c ∈ M⋆ si et seulement si −cappartient au cone convexe engendre par les ai, i.e. il existe λ1, .., λm tous

≥ 0 tels que c = −m∑

i=1

λiai .

Interessons nous maintenant au cas ou K0 est defini par m contraintes, K0 =w ∈ V, (ai, w) ≤ 0, 1 6 i 6 m. Alors la troisieme ligne dans (9.3.2) exprimeque −J ′(u) est dans K⋆

0 , et donc (9.3.2) se reecrit

(9.9) ⇔

u ∈ K

J ′(u).(u0 − u) = 0

∃(λ1, · · · , λm) > 0,∇J(u) +∑m

i=1 λiai = 0

(9.3.0)

Page 179: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

9.3. CARACTERISATION DES EXTREMA 179

Remarquons comme dans le cas precedent que K se definit ici comme K = w ∈V, Fi(w) ≤ 0, 1 6 i 6 m, et (9.3.2) s’ecrit

(9.9) ⇔

u ∈ K

J ′(u).(u0 − u) = 0

∃(λ1, · · · , λm) > 0,∇J(u) +∑m

i=1 λiF′i = 0

(9.3.0)

9.3.3 Multiplicateurs de Lagrange, cas general

Le lemme de Farkas va nous permettre de trouver des conditions necessaires d’optimalitedans le cas general.Pour K ferme non vide, pour tout v dans K, nous definissons le cone des directionsadmissibles K(v). C’est un cone ferme de sommet O, defini par

K(v) = 0 ∪ w ∈ V,∃vkk∈N ⊂ K lim

k→+∞vk = v, vk 6= v pour tout k, lim

k→+∞vk−v

||vk−v|| = w||w||

Theoreme 9.12 . Si J a un minimum local en u ∈ K et si J est differentiable en u,alors J ′(u) ∈ K(u)⋆.

Remarque 9.6 . Si K et J sont convexes, alors c’est une condition necessaire etsuffisante.

9.3.4 contraintes egalites

K = v ∈ V, F (v) = 0 (9.3.0)

ou F est une fonction C1 de V dans Rm, ses coordonnees sont F1, .., Fm.

Definition 9.2 . Les contraintes sont regulieres en u ∈ K si les F ′i (u) sont lineairement

independantes. On dit alors que u est un point regulier.

On peut alors caracteriser le cone des directions admissibles :

Lemme 9.1 . Si les contraintes sont regulieres en u ∈ K, alors

K(u) = w ∈ V, F ′i (u).w = 0, 1 ≤ i ≤ m (9.3.0)

et en deduire l’existence de multiplicateurs de Lagrange :

Theoreme 9.13 . Si u ∈ K, u regulier, est minimum local pour J , il existe m reelsp1, .., pm tels que

J ′(u) +m∑

i=1

piF′i (u) = 0. (9.3.0)

Remarque 9.7 . Si K et J sont convexes, alors c’est une condition necessaire etsuffisante.

Page 180: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

180 CHAPTER 9. RESUME DE COURS (AUTEURE LAURENCE HALPERN)

Remarque 9.8 . Introduisons le lagrangien defini sur V × Rm a valeurs dans R par

L(v, q) ≡ J(v) +

m∑

i=1

qiFi(v), (9.3.0)

alors

L′v(v, q) ≡ ∂L

∂v(v, q) = J ′(v) +

m∑

i=1

qiF′i (v)

L′q(v, q) ≡ ∂L

∂q(v, q) = F (v)

(9.3.0)

etu ∈ K ⇔ ∀q ∈ R

m,L′v(u, q) = 0

u minimum local ⇔ ∃p ∈ Rm,L′

q(u, p) = 0(9.3.0)

9.3.5 contraintes inegalites

K = v ∈ V, F (v) ≤ 0 (9.3.0)

ou F est une fonction C1 de V dans Rm, ses coordonnees sont F1, .., Fm.

Definition 9.3 . Pour u ∈ K, on appelle I(u) l’ensemble des contraintes activesou saturees, i.e.Fi(u) = 0 si i ∈ I(u), Fi(u) < 0 sinon. Les contraintes sont ditesqualifiees en u si

∃w ∈ V,∀i ∈ I(u), (F ′i (u), w) < 0 ( resp. ≤ 0 si Fiest affine). (9.3.0)

On peut encore caracteriser le cone des directions admissibles :

Lemme 9.2 . Si les contraintes sont qualifiees en u ∈ K, alors

K(u) = w ∈ V,∀i ∈ I(u), F ′i (u).w ≤ 0 (9.3.0)

Le lemme de Farkas permet alors d’etablir le

Theoreme 9.14 . Si u ∈ K, ou les contraintes sont qualifiees, est minimum localpour J , il existe m reels p1, .., pm ≥ 0 tels que

J ′(u) +

m∑

i=1

piF′i (u) = 0

m∑

i=1

piFi(u) = 0

(9.3.0)

Remarque 9.9 . Le lagrangien est maintenant defini sur V ×Rm+ , et l’on peut ecrire

u ∈ K solution optimale ⇒ ∃p ∈ Rm+ ,

L′v(u, p) = L′

q(u, p).p = 0.(9.3.0)

Attention, contrairement au cas des contraintes egalites, on n’a qu’une conditionnecessaire.Le developpement d’une condition necessaire et suffisante est l’objet duchapitre suivant.

Page 181: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

9.4. LAGRANGIEN ET POINT SELLE 181

9.4 Lagrangien et point selle

9.4.1 Point selle

Soient V et M deux espaces de Hilbert, U une partie de V et P une partie de M . Ondefinit le lagrangien comme une application de U × P dans R et on le note L.

Exemple 9.1 au probleme d’optimisation du chapitre precedent,

u ∈ K,J(u) = inf

v∈KJ(v) (9.4.0)

nous avons associe de facon naturelle un lagrangien dans les cas suivants :

K = v, F (v) ≤ 0 ; L : K × Rm+ → R

K = v, F (v) = 0 ; L : K × Rm → R

(9.4.0)

ou F : V → Rm, et

L(v, q) = J(v) + (F (v), q) (9.4.0)

(.,.) designe le produit scalaire dans Rm.

Lemme 9.3 .supq∈P

infv∈U

L(v, q) ≤ infv∈U

supq∈P

L(v, q) (9.4.0)

Remarquons que l’on n’interdit pas les valeurs +∞ et −∞.

Definition 9.4 .(u, p) est point selle du lagrangien si

supq∈P

L(u, q) = L(u, p) = infv∈U

L(v, p) (9.4.0)

Lemme 9.4 . Si (u, p) est point selle du lagrangien, alors

supq∈P

infv∈U

L(v, q) = L(u, p) = infv∈U

supq∈P

L(v, q) (9.4.0)

On associe maintenant au lagrangien un probleme primal et un probleme dual. Ondefinit d’une part K et J par

K = v ∈ U, supq∈P

L(v, q) < +∞,

et pour v dans K,

J(v) = supq∈P

L(v, q).

Le probleme primal associe s’ecrit :

(P) Trouver u ∈ K tel que J(u) = infv∈K

J(v)

Page 182: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

182 CHAPTER 9. RESUME DE COURS (AUTEURE LAURENCE HALPERN)

On definit egalement K∗ et G par K∗ = q ∈ P, infv∈U

L(v, q) > −∞, et pour q dans

K∗, G(q) = infv∈U

L(v, q). Le probleme dual associe s’ecrit :

(P∗) Trouver p ∈ K∗ tel que G(p) = supq∈K∗

G(q)

Theoreme 9.15 . (u, p) est point selle du lagrangien si et seulement si u est solutionde (P), p est solution de (P∗), et J(u) = G(p).

9.4.2 Theorie de Kuhn et Tucker

On considere maintenant le probleme de minimisation convexe avec contraintes inegalite:

K = v ∈ V, F (v) ≤ 0 (9.4.0)

ou F est une fonction convexe C1 de V dans Rm, ses coordonnees sont F1, .., Fm. On

suppose J convexe et on definit le lagrangien sur V × Rm+ par

L(v, q) = J(v) + (F (v), q) (9.4.0)

On a vu au chapitre precedent une condition necessaire de minimum local, aumoyen des multiplicateurs de Lagrange. On va maintenant etablir une reciproque.

Definition 9.5 . Les contraintes sont qualifiees si

∃v ∈ V,∀i, 1 ≤ i ≤ m,Fi(v) < 0 (resp. ≤ 0 si Fi est affine). (9.4.0)

Remarque 9.10 .

1. Si aucune des Fi n’est affine, la definition 9.5 se resume aK 6= ∅. Si toutes les

Fi sont affines, elle signifie que K 6= ∅.

2. Si les contraintes sont qualifiees en ce sens, elles sont qualifiees en tout point ausens de la definition 9.3 du chapitre 2.

Theoreme 9.16 . Sous les hypotheses de qualification de la definition 9.5, si u estsolution de (P), il existe p dans R

m+ tel que (u, p) soit point selle du lagrangien.

Donc dans le cas convexe, avec l’hypothese de qualification des contraintesde la definition 9.5, on a le schema suivant :

u solution optimale de (9.1)(Th 9.14)=⇒ ∃p ∈ R

m+

J ′(u) +

m∑

i=1

piF′i (u) = 0

m∑

i=1

piFi(u) = 0

(Th 9.15)=⇒ (u, p) point selle du lagrangien

(Th 9.16)=⇒ u solution optimale de (9.1).

Page 183: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

9.5. METHODES DE DESCENTE. PROBLEMES SANS CONTRAINTES 183

Theoreme 9.17 (Kuhn et Tucker) . On suppose que les fonctions J et Fi1≤i≤msont convexes differentiables et que (9.5) est verifiee. Soit

K = v, Fi(v) ≤ 0, 1 ≤ i ≤ m.Alors u est minimum de J sur K si et seulement si il existe p dans R

m+ tel que

J ′(u) +m∑

i=1

piF′i (u) = 0

m∑

i=1

piFi(u) = 0

(9.4.0)

De plus p est solution du probleme dual (P∗).

Algorithmes

9.5 Methodes de descente. Problemes sans contraintes

9.5.1 Principe

On se place dans un espace de Hilbert V , et on cherche a calculer numeriquement unx (qui n’est pas forcement unique) tel que

∀y ∈ V, J(x) 6 J(y) (9.5.0)

Le principe est de construire un algorithme iteratif de la forme

xk+1 = xk − ρkdk (9.5.0)

dk est la direction de descente, ρk est le pas. Il est, soit fixe, eventuellementle meme pour toutes les etapes (on parle alors de methode a pas variable), soitcalcule a chaque etape de facon a minimiser J dans la direction dk (on parle alors demethode a pas optimal).

9.5.2 Methode de relaxation

On se place en dimension finie, i.e. V = Rn. Pour passer de xk a xk+1, on minimise

successivement dans les n directions de la base canonique.

1. xk,1 est defini parJ(xk,1) = inf

ρ∈R

J(xk − ρe1)

ou encorexk,1 = (xk1 − ρ1, x

k2 , .., x

kn)

On note xk+11 = xk1 − ρ1

2. a l’etape i on axk,i = (xk+1

1 , .., xk+1i , xki , .., x

kn)

xk,i+1 est maintenant defini par

J(xk,i+1) = infρJ(xk,i − ρei+1)

Page 184: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

184 CHAPTER 9. RESUME DE COURS (AUTEURE LAURENCE HALPERN)

3. xk+1 = xk,n

Theoreme 9.18 . Si J est α-convexe C1 sur Rn, l’algorithme de relaxation est bien

defini et converge vers la solution optimale.

Remarque 9.11 . Dans le cas ou J est quadratique, i.e. J(v) = 12(Av, v)− (b, v), on

retrouve l’algoritme de Gauss-Seidel ou S.O.R. pour la resolution du systeme lineaireAx = b.

9.5.3 Methode du gradient

Ici on choisit a chaque etape dk = ∇J(xk).

Methode a pas variable

On se donne le pas ρk, il peut etre different d’une etape a l’autre.

Theoreme 9.19 . Si J est α-convexe derivable sur V , si ∇J est uniformement lips-chitzien de constante de Lipschitz M , l’algorithme de gradient a pas variable convergevers la solution optimale pour 0 < a ≤ ρk ≤ b < 2α

M2 .

Remarque 9.12 . Si J est 2 fois differentiable, l’hypothese est

supv∈V

||D2J(v)|| ≤M

Methode a pas optimal

Ici on choisit a chaque etape ρk de facon que

J(xk − ρk∇J(xk)) = infρ∈R

J(xk − ρ∇J(xk)) (9.5.0)

Theoreme 9.20 . Si J est α-convexe derivable sur V , si ∇J est uniformementlipschitzien de constante de Lipschitz M , l’algorithme de gradient a pas optimal estbien defini et converge vers la solution optimale.

Remarque 9.13 . Les directions de descente sont orthogonales, i.e.

∇J(xk).∇J(xk+1) = 0.

9.6 Estimations et convergence dans le cas quadratique

Ici la fonctionnelle J est quadratique sur Rn:

J(v) = 12 (Av, v) − (b, v)

ou la matrice A est symetrique definie positive. La solution x du probleme deminimisation verifie Ax = b. On appellera residu a l’etape k la quantite rk = Axk−b

Page 185: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

9.7. METHODE DU GRADIENT CONJUGUE 185

9.6.1 Methode a pas optimal

On prend ici une direction de descente dk quelconque dans Rn, non orthogonale a rk.

A chaque etape, la valeur du parametre optimal ρk est donnee par

ρk = (rk,dk)(Adk ,dk)

(9.6.0)

et l’on a (rk+1, dk) = 0.Notons E(v) = 1

2(A(v − u), v − u), on a alors

E(xk+1) = (1 − γk)E(xk) (9.6.0)

avec

γk = 12

(rk,dk)2

(Adk ,dk)(A−1rk,rk). (9.6.0)

Puisque la quantite γk est par construction telle que 0 ≤ γk ≤ 1, on a l’estimationsuivante : si la direction de descente est telle que

(

rk

||rk|| ,dk

||dk||)2

> µ > 0 (9.6.0)

alors γk > γ = µK(A) (ou K(A) est le conditionnement de A, c’est-a-dire le rapport

de la plus grande a la plus petite valeur propre), et donc

E(xk+1) ≤ (1 − γ)E(xk) (9.6.0)

On dit que la methode converge lineairement.Dans le cas particulier de la methode du gradient, grace a l’inegalite de Kan-

torovitch on peut ecrire

E(xk) ≤(

K(A)−1K(A)+1

)2kE(x0) (9.6.0)

Remarque 9.14 . Plus la matrice est bien conditionnee (i.e. K(A) proche de 1),plus la convergence est rapide. Plus la matrice est mal conditionnee (i.e. K(A) >> 1),plus la convergence est lente.

9.6.2 Methode de gradient a pas constant

On choisit a chaque etape ρk = ρ. On a alors l’estimation

||xk − x||2 ≤[

max1≤i≤n

|1 − ρλi|]k||x0 − x||2 (9.6.0)

On en deduit que la methode converge si et seulement si ρ < 2λn

ou λn est la plusgrande valeur propre de A. Ici encore, la convergence est lineaire.

Remarque 9.15 Comparer avec le theoreme general 9.19.

9.7 Methode du gradient conjugue

On se place ici dans le cas ou la fonctionnelle J est quadratique sur RN : J(v) =

12(Av, v) − (b, v), la matrice A etant symetrique definie positive. La solution x duprobleme de minimisation verifie Ax = b.

Page 186: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

186 CHAPTER 9. RESUME DE COURS (AUTEURE LAURENCE HALPERN)

9.7.1 Principe de la methode

Les (k + 1) premieres iterees x0, .., xk etant donnees, on cherche xk+1, non plus dansla direction du gradient, mais dans l’espace vectoriel engendre par tous les gradientsprecedents. On note

Lk = vect∇J(x0), ..,∇J(xk) (9.7.0)

et on definit xk+1 par :

J(xk+1) = inf∆∈Lk

J(xk + ∆) (9.7.0)

Ceci definit xk+1 de maniere unique (cf Corollaire 9.1, Partie I) et

Theoreme 9.21 . On a les proprietes suivantes:

1. Les ∇J(xk) forment un systeme orthogonal (donc libre),

2. l’algorithme converge en au plus N iterations.

La premiere propriete traduit l’equation d’Euler (9.3.2, Partie I). Ce theoremenous dit que la methode du gradient conjugue est en fait une methode directe. Laforme (9.7.1) n’est pas pratique, aussi allons nous reecrire l’algorithme sous forme d’unalgorithme de descente.

9.7.2 Ecriture comme algorithme de descente

Theoreme 9.22 . L’algorithme du gradient conjugue s’ecrit sous la forme

xk+1 = xk − ρkdk

dk = ∇J(xk) + ||∇J(xk)||2||∇J(xk−1)||2d

k−1

ρk = ||∇J(xk)||2(Adk,dk)

(rk+1, dk) = 0

(9.7.0)

Il suffit de se donner d0 = ∇J(x0).N peut etre tres grand, on peut alors compter le nombre d’operations necessaires pourrealiser l’algorithme : une iteration necessite 2cN operations elementaires, ou c est lenombre moyen de coefficients non nuls par ligne de A. Si bien que pour une matricepleine, le nombre d’operations elementaires pour N iterations est 2N3. Cela risqueraitde disqualifier la methode par rapport a Cholewski (N

3

3 operations elementaires), si l’onne faisait une

9.7.3 Analyse de convergence

On introduit l’espace de Krylov

Kk = vectr0, Ar0, .., Akr0 (9.7.0)

et on a le

Theoreme 9.23 . Si rj 6= 0 pour j ≤ k, alors Kk ≡ Lk

Page 187: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

9.8. METHODES POUR LES PROBLEMES AVEC CONTRAINTES 187

On en deduit une premiere estimation de l’erreur

Theoreme 9.24

E(xk) = infP∈Pk−1

max1≤i≤N

[1 + λiP (λi)]2E(x0) (9.7.0)

ou les λi sont les valeurs propres de A.

et par un calcul assez long sur les polynomes de Tchebycheff,

Corollaire 9.3 . On a l’estimation d’erreur

E(xk) ≤ 4(

√K(A)−1√K(A)+1

)2kE(x0) (9.7.0)

De nouveau, la convergence est lineaire. Cette estimation est a comparer avecl’estimation d’erreur (9.6.1) pour l’algorithme du gradient a pas optimal :

E(xk) ≤(

K(A)−1K(A)+1

)2kE(x0)

Par exemple, d’apres ces estimations pour K(A) = 100, pour obtenir une erreurde 10−6, il faudrait 340 iterations du gradient a pas optimal et seulement 34 iterationsdu gradient conjugue ! Comme les iterations sont comparables, ces performancesfont de cet algoritme le favori de tous les gens qui font des calculs de grande taille.De nombreuses extensions ont ete proposees : BiCGSTAB, GMRES, etc, pour desproblemes non symetriques, a coefficients complexes, etc..

9.8 Methodes pour les problemes avec contraintes

9.8.1 Methode de gradient projete a pas variable

Soit le probleme de minimisation avec contraintes

u ∈ K,J(u) = inf

v∈KJ(v) (9.8.0)

ou K est un convexe ferme non vide de l’espace de Hilbert V . On rappelle quesi J est α convexe, il existe un minimum unique (corollaire 9.1, Partie I), caracterisedans le cas differentiable par (9.9, Partie I) :

u ∈ K∀v ∈ K,J ′(u).(v − u) ≥ 0.

(9.8.0)

On definit alors la suite des approximations uk par la relation de recurrence

uk+1 = PK(uk − ρkrk) (9.8.0)

ou rk est le residu a l’etape k, i.e. rk = ∇J(uk), et PK designe la projection surle convexe ferme K (Partie I,9.2).

Page 188: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

188 CHAPTER 9. RESUME DE COURS (AUTEURE LAURENCE HALPERN)

Theoreme 9.25 . Si J est α-convexe derivable sur V , si ∇J est uniformementlipschitzien de constante de Lipschitz M , l’algorithme de gradient projete a pas variableconverge vers la solution optimale pour 0 < a ≤ ρk ≤ b < 2α

M2 . De plus il existe uneconstante β < 1 telle que

‖uk − u‖ ≤ βk‖u0 − u‖ (9.8.0)

En general, on ne peut pas expliciter la projection, sauf quand V = Rn, et

K = v ∈ V,∀i, 1 ≤ i ≤ n, vi > 0, (9.8.0)

auquel cas

(PKw)i = max(wi, 0), 1 ≤ i ≤ n. (9.8.0)

Si K est le pave∏ni=1[ai, bi], alors

(PKw)i =

ai si wi ≤ aiwi si ai ≤ wi ≤ bibi si wi > bi

(9.8.0)

9.8.2 Algorithme d’Uzawa

Soit un probleme de minimisation avec contraintes inegalites

K = v, F (v) ≤ 0 (9.8.0)

ou F : V → Rm. On a defini un lagrangien

L(v, q) = J(v) + (F (v), q); L : K × Rm+ → R (9.8.0)

et le probleme dual :

K∗ = q ∈ P, infv∈U

L(v, q) > −∞ (9.8.0)

et pour q dans K∗, G(q) = infv∈U

L(v, q). Le probleme dual associe s’ecrit :

(P∗) Trouver p ∈ K∗ tel que G(p) = supq∈K∗

G(q)

L’idee est d’utiliser le probleme dual : si K∗ = Rm+ (ce qui est le cas pour des

contraintes affines), on peut mettre en œuvre un algorithme de gradient projete surle multiplicateur de Lagrange p. Pour q dans K∗, on a defini uq comme la solution duprobleme

infv∈V

L(v, q) = L(uq, q) (9.8.0)

L’algorithme se decrit alors comme suit:

pk → uk = upk→ pk+1 = PK∗(pk + ρ∇G(pk)) (9.8.0)

Page 189: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

9.8. METHODES POUR LES PROBLEMES AVEC CONTRAINTES 189

Theoreme 9.26 . On suppose que V = Rn et K = v ∈ V,Cv ≤ d. Alors K∗ = R

m+

et uk → u, unique solution de (P) . De plus si rgC = m, pk converge vers l’uniquesolution de (P∗).

Page 190: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

190 CHAPTER 9. RESUME DE COURS (AUTEURE LAURENCE HALPERN)

Page 191: ISPG, Institut Galil´ee D´epartement de math´ematiques ...documents.lamacs.fr/cours/macs2/optimisation/optimisation_2007-200… · PGD Math´ematiques Appliqu´ees Centrale Marseille

Bibliography

[1] J.C. Culioli: Optimisation: Cours a l’Ecole des Mines publie aux editions Ellipses(1994)

[2] P. Faurre: Optimisation Cours a l’X (Promotion 1984)

[3] B. Larrouturou et P.L. Lions: Cours d’optimisation et d’Analyse Numerique(Promotion 1986)

[4] J. Cea: Lectures on optimization-theory and algorithms: Tata institute of fun-damental research, Bombay, 1978.

[5] H. Sagan: Boundary and Eigenvalue Problems in Mathematical Physics JohnWiley and Sons, 1961.

[6] V. M. Tichomirov: Fundamental Principles of the Theory of Extremal Problems:John Wiley and Sons, 1982, 1986.

[7] P. G. Ciarlet: Introduction a l’analyse numerique matricielle et a l’optimisationMathematiques Appliquees pour la maitrise, Masson, 1982.

[8] G. Allaire: cours a l’Ecole Polytechnique (publie aux editions Ellipse, 2005)

191