estrategia de regularización en la aproximación de...

100
República Bolivariana de Venezuela. Universidad Nacional Abierta. Centro Local Lara. Estrategia de regularización en la aproximación de sumas de exponenciales. MSc. Adalys Alvarez Alvarado Barquisimeto, 2008

Upload: trinhdiep

Post on 13-Oct-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

República Bolivariana de Venezuela.Universidad Nacional Abierta.

Centro Local Lara.

Estrategia de regularización en la aproximación de sumas deexponenciales.

MSc. Adalys Alvarez Alvarado

Barquisimeto, 2008

República Bolivariana de Venezuela.Universidad Nacional Abierta.

Centro Local Lara.

Estrategia de regularización en la aproximación de sumas deexponenciales.

Trabajo de Ascenso presentado como requisito para optar a la categoría deProfesor Agregado.

Autor: MSc. Adalys Alvarez A.

Barquisimeto, 2008

Índice general

1. Preliminares 4

1.1. Algunas nociones de Estadística . . . . . . . . . . . . . . . . . 41.2. Algunas nociones de Optimización . . . . . . . . . . . . . . . . 81.3. Descomposición en valores singulares . . . . . . . . . . . . . . 131.4. Inversa de Moore-Penrose . . . . . . . . . . . . . . . . . . . . 141.5. Método de mínimos cuadrados . . . . . . . . . . . . . . . . . . 15

1.5.1. Interpretación geométrica para un modelo de regresiónlineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.5.2. Métodos de optimización para estimar parámetros enel problema de mínimos cuadrados no lineal . . . . . . 22

1.5.3. Algunos aspectos estadísticos . . . . . . . . . . . . . . 25

2. Aproximación en modelos de suma de exponenciales 28

2.1. Un modelo particular de suma de exponenciales . . . . . . . . 282.1.1. Problema Inverso . . . . . . . . . . . . . . . . . . . . . 29

2.2. Métodos de aproximación de suma de exponenciales . . . . . . 312.2.1. Método gráfico . . . . . . . . . . . . . . . . . . . . . . 312.2.2. Método Prony . . . . . . . . . . . . . . . . . . . . . . . 322.2.3. Método basado en sumas geométricas . . . . . . . . . . 352.2.4. Método Montecarlo . . . . . . . . . . . . . . . . . . . . 372.2.5. Métodos de Optimización . . . . . . . . . . . . . . . . 40

3. Regularización 42

3.1. Variable separable . . . . . . . . . . . . . . . . . . . . . . . . . 423.2. Problemas mal condicionados . . . . . . . . . . . . . . . . . . 453.3. Métodos de Regularización . . . . . . . . . . . . . . . . . . . . 51

3.3.1. Regularización Tikhonov . . . . . . . . . . . . . . . . . 523.3.2. Descomposición en valores singulares truncada . . . . . 563.3.3. Estimación Bayesiana . . . . . . . . . . . . . . . . . . . 59

3.4. Criterio de la curva-L . . . . . . . . . . . . . . . . . . . . . . . 64

ii

4. Estrategia de regularización en la aproximación de sumas de

exponenciales 67

4.1. Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

iii

A Alondra.

Agradezco al Dr.Hugo Lara por larevisión, correcciones y recomen-daciones para este trabajo de in-vestigación.

iv

Resumen

En este trabajo se utiliza una estrategia de regularización en un problemainverso mal puesto. Específicamente se aplica en la estimación de paráme-tros en un modelo de suma de exponenciales. Cabe destacar que el problemainverso se estudia desde el punto de vista de optimización. El objetivo esejecutar la regularización a partir del método Bayesiano, bajo hipótesis denormalidad para el ruido y la distribución de probabilidad a priori. En eltrabajo se realizan implementaciones numéricas asumiendo que el parámetrode regularización es dado. Se incluye información a priori para los valoresiniciales del algoritmo, basado en los resultados obtenidos por Petersson yHolmström [26]. Se comparan los resultados para diferentes valores del pará-metro de regularización, basado en la motivación heurística para este valor,el cual permite negociar la calidad del ajuste a través de mínimos cuadradoscon el tamaño de la función regularizada.

v

Introducción

La presente investigación surge de un problema inverso de física expe-rimental. Específicamente del análisis del tiempo de vida o de aniquilaciónde positrones. Un positrón es una partícula elemental de la antimateria, demasa en reposo igual a la del electrón y de carga opuesta.

En un experimento de tiempo de vida de aniquilación de positrones, losdatos colectados forman una curva de decaimiento. Los positrones de la fuentese aniquilan en uno o mas estados de la muestra, y si hay defectos en el sólidoque los contiene, pueden ser atrapados en ellos. Estos estados de aniquilaciónresultan en diferentes tiempos de vida, lo que conduce a un espectro dedecaimiento multiexponencial. A partir de una data se quiere extraer la den-sidad o proporción de defectos del sólido y el tiempo de vida promedio de lapartícula, presentes en la curva. Esta situación conduce al tipo de problemainverso de estimación de parámetros en un modelo de sumas de exponenciales.Son bien conocidas las dificultades de resolución de este problema, debido asu mal condicionamiento, por lo que es necesario regularizar [18, 31].

Regularizar implica reformular el problema, incluyendo información adi-cional, conocida como información a priori [22]. El propósito es obtenersolución significativa al modelo matemático aún cuando el problema sea malpuesto.

En la literatura existen métodos clásicos para regularizar propios delanálisis numérico, tales como: Tikhonov, descomposición en valores singularestruncada. También está el subproblema de region de confianza, y por otraparte, métodos probabilísticos tal como por ejemplo estimación bayesiana,máxima entropía, etc. Los problemas de sumas de exponenciales han sidotratados por las técnicas clásicas del análisis numérico y también por técni-cas bayesianas, siempre asumiendo que el número de términos de la suma esconocido.

Los diferentes métodos de regularización conducen a un problema de op-

1

timización y desde el punto de vista estadístico, a la construcción de esti-madores.

Cabe destacar que en este trabajo el problema inverso se estudia desde elpunto de vista de optimización. El problema regularizado es de optimizaciónsin restricciones al minimizar la suma de la función de desajuste y la de pre-ferencia ponderada por el parámetro de regularización.

El objetivo general del trabajo es implementar una estrategia de regulari-zación para aproximar sumas de exponenciales. La regularización se ejecutaa partir del método Bayesiano, bajo hipótesis de normalidad para el ruido yla distribución de probabilidad a priori.

Para la implementación numérica se diseña un código usando el softwarematemático Matlab (versión 7.0). En el código se incluye información a prioripara los valores iniciales del algoritmo y para la solución por defecto. Estainformación fue tomada de un artículo de Petersson y Holmström [26]. Pararesolver el problema se aprovecha la estructura especial del modelo de sumade exponenciales, separando los parámetros en lineales y no lineales, parareducir el tamaño del espacio de búsqueda en la rutina de optimización.

El propósito es realizar pruebas computacionales con igual informacióna priori y diferentes valores del parámetro de regularización, basado en lamotivación heurística de este valor que permite negociar la calidad del ajustea través de mínimos cuadrados con el tamaño de la función regularizada. Lasdiferentes corridas muestran la importancia de su escogencia y el desempeñode la estrategia de regularización considerada.

Dos años de revisión exhaustiva de diferentes maneras de abordar esteproblema, condujo al estudio tanto de variados métodos de estimación deparámetros en sumas de exponenciales, como de distintos métodos de regu-larización, encontrados en la literatura.

El trabajo se ha dividido en cuatro capítulos. En el capítulo 1 se pre-sentan los preliminares. El objetivo es proveer el lenguaje fundamental paraesta investigación. Se da una serie de definiciones y resultados, que por sertan diversos y de teoría básica se presentan sin demostración, pero con larespectiva fuente donde pueden ser consultados.

En el capítulo 2 el objetivo es analizar diferentes métodos para aproxi-mar sumas de exponenciales. Se presentan en forma resumida los métodosde estimación de parámetros estudiados para este modelo.

2

En el capítulo 3 se estudian métodos de regularización aplicables a pro-blemas mal condicionados, entre ellos el implementado en este estudio: elmétodo Bayesiano, por el cual se obtiene el estimador máximo a posteriori,desde el enfoque de optimización corresponde a la función objetivo a mini-mizar.

El capítulo 4 es el aporte de esta investigación. Se presenta la construc-ción e implementación de un código para el problema de aproximar sumas deexponenciales regularizado y se realiza el análisis numérico de los resultadosobtenidos. En general se verifica que el código funciona bien, en el sentido queaproxima la solución y muestra el comportamiento esperado al regularizar.En este capítulo, en un primer momento se explica la técnica de separación devariables usada para optimizar el estimador obtenido en el capítulo anterior.Luego se describe el diseño del código. Los resultados numéricos obtenidosluego de diferentes corridas, fueron tabulados y graficados, permitiendo es-coger un parámetro de regularización.

Este trabajo es el producto de un primer intento numérico realizado porla autora para resolver el problema. Actualmente estudia el problema deestimación en sumas de exponenciales, desde un enfoque más amplio, al con-siderar el número de términos de la suma variable, ya que en la prácticaexperimental también es un parámetro a estimar.

3

Capítulo 1

Preliminares

En esta sección se presentan algunos conceptos y resultados de utilidaden el desarrollo de la investigación, la cual se ubica dentro del área de Opti-mización.

Dado que el problema en estudio proviene del ajuste de datos se comen-zará con algunas definiciones básicas de Estadística sin profundizar en estaárea, para mayores detalles ver [10, 16, 36].

1.1. Algunas nociones de Estadística

Definición 1.1.1 Se denomina espacio muestral Λ, al conjunto de puntosque corresponde a todos los resultados posibles de un experimento. Un puntomuestral está relacionado con un resultado específico en el experimento. Acualquier subconjunto de Λ se le denomina evento y si además se le asociauna probabilidad entonces se conoce como evento aleatorio.

A un conjunto finito de observaciones se denominará data o muestra.

Definición 1.1.2 Se entiende por variable aleatoria a una función definidasobre un espacio muestral Λ, y que toma valores en R, la cual describe elresultado de un fenómeno asociado a una experiencia aleatoria. Esto es, unafunción y(t) cuyos valores se definen en cada punto muestral t1, t2, · · · , de Λ.

A y se le denomina variable dependiente o valor observado y t es la va-riable independiente, de control o del diseño.

Definición 1.1.3 Un diagrama de dispersión es un gráfico de valores mues-trales representados sobre el plano cartesiano que permite visualizar el com-portamiento conjunto de dos variables y se usa para establecer si existe relación

4

entre las variables consideradas, además sugiere el tipo de forma funcional(en caso de que exista) que explica el comportamiento de ambas variables,de allí parte el análisis estadístico de regresión entre dos variables. Ademásseñala puntos de comportamiento atípicos que demandan atención especial.

Definición 1.1.4 Una variable aleatoria X es discreta si toma un númerofinito o numerable de valores, es decir existe un conjunto finito o numerablex1, x2, . . . ⊂ R tal que X(ω) ∈ x1, x2, . . . ∀ω ∈ Λ.

Una variable aleatoria X es continua si existe una función f(x) ≥ 0 talque:

FX(x) =

∫ x

−∞

f(t)dt, ∀x ∈ R.

En este caso, a la función f se le denomina función de densidad de pro-babilidad de X o simplemente densidad de X.

Definición 1.1.5 La función de distribución de una variable aleatoria X,

frecuentemente llamada función de distribución acumulada es la función Fx

definida por:Fx = P (X ≤ x), x ∈ R.

Mientras que la función p(xi) definida por:

p(xi) = P (X = xi), i ∈ N.

se denomina función de probabilidad de X.

Es costumbre escoger una representación conveniente para describir ladistribución de una variable aleatoria, para el caso continuo generalmente esla distribución normal estándar, se dice que una variable aleatoria X poseetal distribución, lo cual se denota por: X ∼ N(0, 1), si X tiene la siguientefunción de densidad:

f(x) =1

(2π)1

2

exp

(

−x2

2

)

, x ∈ R.

Mientras que una variable aleatoria está distribuida exponencialmente, sisu función de probabilidad está dada por:

p(x) =

exp(

−xα

)

para x ≥ 0

0 para x < 0,

donde α es una constante.

5

Definición 1.1.6 Sea X una variable aleatoria discreta con función de pro-babilidad p(xi), la esperanza de X, también conocido como valor esperado, sedefine por:

E(X) =∑

i

xip(xi) =∑

i

xiP (X = xi).

Nótese que este valor está bien definido cuando la serie converge absolu-tamente.

La esperanza de X es una media ponderada, donde los pesos son las pro-babilidades p(xi), esto es, E(X) es una media de los valores posibles de X,

ponderada conforme a la distribución de la variable aleatoria X.

Definición 1.1.7 Sea X una variable aleatoria continua y f su función dedensidad de probabilidad se define la esperanza de X por:

E(X) =

∫ ∞

−∞

xf(x)dx,

siempre que la integral esté bien definida.

Definición 1.1.8 Un estimador es una función x : y 7→ x(y) que convierte alvector data en un número o vector numérico, según la dimensión del espacioen que se trabaje.

El problema analizado en este trabajo es de estimación, es decir, se trataráde buscar una solución al encontrar buenas aproximaciones de parámetrosdesconocidos a partir de valores observados en una muestra.

Cualquier función de los valores muestrales es una variable aleatoria realque recibe el nombre de estadístico.

A cualquier característica de la población en estudio (media, varianza,...)le corresponde una de la muestra (media muestral, varianza muestral,...),estas características son en particular estadísticos, pues son funciones de losvalores muestrales.

En un primer momento se debe entonces encontrar un estadístico, es decir,una función de los elementos de la muestra o data, que constituya una buenaestimación de los parámetros desconocidos. A este estadístico se le conocecomo estimador del parámetro desconocido. El valor numérico dado en ladefinición anterior es el estimado del parámetro.

6

Definición 1.1.9 Se denomina media muestral al estadístico:

X =1

n

n∑

j=1

Xj,

y varianza muestral al estadístico:

S2 =1

n

n∑

j=1

(Xj − X)2 =1

n

n∑

j=1

(Xj)2 − (X)2,

donde X1, . . . , Xn son puntos muestrales.A la raíz cuadrada de la varianza muestral se le denomina desviación

típica.

La varianza muestral y la poblacional están relacionadas por la siguienteexpresión:

V ar(X) = E[X2] − (E[X])2 =σ2

n.

Puede existir más de un estimador para estimar los parámetros descono-cidos, así que se debe escoger de acuerdo a que posea ciertas característicasdeseables, entre ellas la siguiente:

Definición 1.1.10 Un estimador T de un parámetro θ, se dice insesgado siE(T ) = θ. Al valor θ − E(T ), se le denomina sesgo del estimador T.

Otra propiedad deseable en un estimador es que sea de varianza mínima,la cual consiste en escoger entre varios estimadores insesgados de un paráme-tro, aquél que posee la menor varianza posible. La razón de esta escogencia sebasa primordialmente en el hecho que si θ1 y θ2 son estimadores insesgados,es decir, que ambos en promedio dan estimaciones cercanas a θ y como la va-rianza mide el grado de dispersión de la distribución, es lógico escoger aquelestimador cuya varianza sea menor. Es prudente remarcar que este criterioes utilizado cuando los estimadores que se comparan son insesgados.

Para comprobar si un estimador insesgado θ es un estimador de mínimavarianza se hace uso de la desigualdad conocida como cota de Cramer-Rao,que bajo ciertas condiciones establece que:

varθ >1

nE

[

(

∂ ln f(x;θ)∂θ

)2] ,

7

donde f(x; θ) es la densidad de la población de donde la muestra aleatoria detamaño n ha sido tomada, y θ es un parámetro de dicha distribución. Estadesigualdad es fundamental para definir la siguiente propiedad:

Definición 1.1.11 Un estimador insesgado θ de θ es eficiente si su varianzacoincide con la cota de Cramer-Rao,

varθ =1

nE

[

(

∂ ln f(x;θ)∂θ

)2] .

Se verifica en este caso que θ es un estimador insesgado de mínima va-rianza para θ, ver [36].

Para el caso que θ sea un estimador insesgado de θ, la propiedad de va-rianza mínima coincide con el error cuadrado medio, el cual se denota porECMθ(θ) y se define de la siguiente manera:

Definición 1.1.12 ECMθ(θ) := E[θ − θ]2.

Nótese que si θ es un estimador insesgado de θ entonces:

ECMθ(θ) = E[θ − E(θ)]2 = V arθ,

de esta forma si se tienen dos estimadores insesgados de θ, el de menorvarianza tiene menor ECM.

Todas estas nociones se presentan con la finalidad de analizar el criteriode ajuste a través de un problema de mínimos cuadrados, por otra parte,resolver tal problema corresponde a un objetivo clásico de optimización sinrestricciones, por lo que es necesario puntualizar algunos conceptos previosen esta área.

1.2. Algunas nociones de Optimización

Se entiende por problema de optimización a un modelo matemático querepresenta un problema complejo de decisión, que incluye la selección de va-lores para cierto número de variables interrelacionadas, centrando la atenciónen un sólo objetivo diseñado para cuantificar el rendimiento y medir la cali-dad de la decisión.

Este único objetivo, representado en una función matemática, llamadafunción objetivo, se minimiza (o maximiza, dependiendo de la formulación)

8

según las restricciones que pueden limitar la selección de los valores de lasvariables de decisión.

Las restricciones son ecuaciones o desigualdades, que también puedenser representadas por funciones. Como difícilmente se pueden representaren un modelo todas las variables que se interrelacionan, un problema deoptimización es una aproximación a la realidad y sus métodos de solucióncorresponden en su mayoría al análisis numérico, por lo cual se debe escogerla mejor solución aproximada al problema.

En el caso que tanto la función objetivo como las restricciones sean linea-les en las incógnitas el problema es de progamación lineal, en caso contrarioes de programación no lineal.

Aún cuando la mayoría de los problemas prácticos están sujetos a res-tricciones, existen problemas donde se minimiza o maximiza una función enausencia de cualquier restricción. Si no hay restricciones en las variables esun problema de optimización sin restricciones [20].

Definición 1.2.1 Un problema de optimización sin restricciones tiene la si-guiente forma:

mınx

f(x), donde f : Rn → R.

Definición 1.2.2 Un punto que satisfaga todas las restricciones se dice quees un punto factible y al conjunto de todos los puntos factibles se le comoconjunto o región factible.

Para problemas sin restricciones el conjunto factible es Rn.

Las técnicas de solución para este tipo de problemas pueden ser extendi-das e inclusive motivan procedimientos de solución a problemas restrictos. Elestudio de estas técnicas es importante ya que muchos algoritmos resuelvenun problema con restricciones al convertirlo en una sucesión de subproble-mas sin restricciones o con restricciones muy simples como por ejemplo cotassuperiores o inferiores a una variable. Un ejemplo de este tipo de problemasse abordará en la siguiente sección al estudiar mínimos cuadrados.

Definición 1.2.3 Un punto en el dominio de definición de la función obje-tivo que hace a esta función óptima es una solución óptima y el valor quealcanza la función en ese punto es su valor óptimo.

Es oportuno realizar la siguiente observación: en optimización se manejanformatos equivalentes ya que mın

xf(x), equivale a max

x(−f(x)) así que es

9

suficiente con discutir uno sólo de estos problemas.

Para estudiar una solución a un problema de optimización es necesariorecordar del cálculo básico las siguientes nociones:

Si f : Rn → R, f(x) = f(x1, x2, . . . , xn), el vector gradiente de f está

dado por: ∇f(x) =(

∂f(x)∂x1

,∂f(x)∂x2

, · · · ,∂f(x)∂xn

)T

.

Si f : Rn → Rm, la matriz jacobiana está dada por:

J(x) =

∂f1

∂x1(x) · · · ∂f1

∂xn(x)

......

∂fm

∂x1(x) · · · ∂fm

∂xn(x)

.

A la matriz cuyas componentes son las segundas derivadas se le denominamatriz Hessiana, es decir:

H(x) =[

∇2f(x)]

ij=

(

∂2f(x)

∂xi∂xj

)

.

Si f ∈ C2, entonces la matriz Hessiana, H(x) es simétrica, ya que:

∂2f(x)

∂xi∂xj

=∂2f(x)

∂xj∂xi

.

Para obtener un vector óptimo es necesario definir punto mínimo local:

Definición 1.2.4 Un mínimo local o relativo es un punto θ∗ que satisface lacondición: f(θ∗) ≤ f(θ), (∀θ) tal que ‖ θ − θ∗ ‖< ε con ε > 0, tan pequeñocomo se quiera.

Vale mencionar que en todo el trabajo se hará uso de la 2-norma.

El análisis convexo desempeña un papel importante en la teoría de opti-mización lineal.

Definición 1.2.5 Un subconjunto C de Rn es convexo si para cualquier par

de puntos x, y en C y θ ∈ [0, 1], el punto x + θ(y − x) también está en C.

Geométricamente un conjunto es convexo si el segmento que une dospuntos cualesquiera de C está contenido en C.

10

Definición 1.2.6 Sean xi puntos en Rn y λi números reales no negativos,

tales quen∑

i=1

λi = 1. A la suman∑

i=1

λixi se le denomina combinación lineal

convexa de puntos xi i = 1, · · ·n.

Definición 1.2.7 Dado un subconjunto convexo S de Rn, una función

f : S → R es convexa si

f(θx + (1 − θ)y) ≤ θf(x) + (1 − θ)f(y)

∀x, y ∈ S y θ ∈ [0, 1].

Teorema 1.2.1 Sea f una función convexa definida en un conjunto convexo,si f tiene un mínimo relativo se trata también de un mínimo global. Ademássi este mínimo se alcanza en más de un punto, el mínimo se alcanza enla combinación lineal convexa de todos esos puntos. Si f es estrictamenteconvexa entonces el mínimo global es único.

Definición 1.2.8 Una matriz A de dimensión m × n es de rango completosi rango(A) = mın(m,n). En caso contrario, es de rango deficiente.

Definición 1.2.9 Una matriz A de componentes en R, se denomina ortogonalsi:

AAT = AT A = I.

Definición 1.2.10 Se dice que una matriz cuadrada A es simétrica siA = AT .

Definición 1.2.11 Una matriz simétrica A es positiva definida si y sólo sixT Ax > 0 para todo vector x no nulo. En el caso que, xT Ax ≥ 0, se dice queA es semidefinida positiva.

En la práctica para verificar que una matriz es definida positiva se recurreal siguiente resultado:

Teorema 1.2.2 Una matriz simétrica H es definida positiva si y sólo sitodos sus autovalores son positivos.

Para demostrar este teorema se usa el hecho que por ser la matriz H

simétrica tiene todos sus autovalores en R y así H es diagonalizable, paraconcluir se usa la definición de ser definida positiva. Para los detalles ver[35].

A continuación se enuncian los resultados que caracterizan a un puntomínimo o vector óptimo, para las demostraciones, consultar [4]. El teoremasiguiente incluye la definición de dirección de descenso.

11

Teorema 1.2.3 Sea f : Rn → R diferenciable en θ∗. Si existe un vector d

tal que (∇f(θ∗))T d < 0, entonces existe un δ > 0 tal que f(θ∗ + λd) < f(θ∗)para cada λ ∈ (0, δ), por lo tanto d es una dirección de descenso de f en θ∗.

A continuación se enuncia la condición necesaria de optimalidad de primerorden:

Corolario 1.2.1 Sea f : Rn → R diferenciable en θ∗. Si θ∗ es un mínimo

local, entonces ∇f(θ∗) = 0.

La condición necesaria de optimalidad de segundo orden, se enuncia entérminos de la matriz Hessiana, H(θ):

Teorema 1.2.4 Sea f : Rn → R diferenciable dos veces en θ∗. Si θ∗ es un

mínimo local, entonces ∇f(θ∗) = 0, y H(θ∗) es semidefinida positiva.

El siguiente teorema establece una condición suficiente para que un puntosea mínimo local.

Teorema 1.2.5 Sea f ∈ C2 una función definida en una región en la que elpunto θ es un punto interior. Supóngase que ∇f(θ) = 0 y la matriz Hessianade f evaluada en θ, y denotada por H(θ), es definida positiva, entonces θ esun punto mínimo local estricto de f.

Como el gradiente de una función f da la dirección donde f crece másrápidamente −∇f = ∇(−f) da la dirección de máximo descenso o de con-vergencia rápida a un mínimo (bajo ciertas condiciones).

En el método clásico de Newton esta dirección de búsqueda se define por:

d = −[∇2f(x)]−1∇f(x) = −H−1(x)∇f(x), (1.1)

y es la base para muchos métodos de solución de problemas de optimizaciónsin restricciones, tales como el Gauss-Newton y el Levenberg-Marquardt.

Nótese que una limitación de usar esta dirección de búsqueda es que lamatriz Hessiana debe ser no singular, además el método converge para puntosiniciales cercanos al óptimo.

Los métodos de regiones de confianza ofrecen una alternativa a estaslimitaciones, éstos son métodos iterativos que producen una solución local.

Definición 1.2.12 Una región de confianza es el conjunto de todos los pun-tos

Bk = x ∈ Rn | ‖x − xk‖k ≤ ∆k,

donde ∆k, se denomina radio de la región de confianza.

12

En cada iterado, se construye un modelo que aproxima a la función obje-tivo en una vecindad adecuada de xk, la cual es llamada región de confianza[10].

Cuando la función objetivo es una función cuadrática entonces la regiónde confianza se conoce como elipsoide de concentración. Levenberg (1944) yMarquardt (1963) usaron un método de región de confianza como una técnicapara resolver problemas de mínimos cuadrados no lineal, el cual será descritobrevemente más adelante.

1.3. Descomposición en valores singulares

La noción de descomposición en valores singulares es una herramienta delálgebra lineal útil para el análisis teórico y computacional de problemas malcondicionados. En esta sección se enuncian algunas propiedades de esta des-composición, para su revisión ver [29], mientras que el mal condicionamientoes estudiado en el capítulo 3.

Dada una matriz Am×n, A : Rn → R

m, la descomposición en valoressingulares provee bases para R

n y Rm tal que la transformación asociada

con A es representada por una matriz diagonal.

Teorema 1.3.1 Dada una matriz Am×n, con rango r. Existen matrices or-togonales Um×m, Vn×n y una matriz diagonal Σm×n tal que

A = UΣT V,

con Σ = diag(σ1, σ2, · · · , σn), donde los σi son los valores singulares de A.

Sin pérdida de generalidad se asume que los valores singulares estánordenados en forma descendente, es decir, σ1 ≥ σ2 ≥, · · · , σr > 0, yσr+1 = σr+2 =, · · · , σn = 0. Las columnas de U = (u1, · · · , um) son losvectores singulares izquierdos y las columnas de V = (v1, · · · , vn) son losvectores singulares derechos, asociados con σi.

Algunas propiedades:

Los σ2i son únicos (excepto por el orden) y son los valores propios de

AT A y AAT .

Los vi son únicos para σ2i , valores propios simples, y generan el corres-

pondiente subespacio para valores propios múltiples. Los vi son obte-nidos como los vectores propios de AT A y los ui para i = 1, · · · , n,

13

a partir de Avi = σiui. El conjunto ui es completado a m con vec-tores ortogonales arbitrarios, por esta razón una matriz tiene diferentesdescomposiciones en valores singulares.

El siguiente teorema resume información que se obtiene de la matriz A apartir de la descomposición en valores singulares.

Teorema 1.3.2 Si A tiene la descomposición en valores singulares,

A = UΣV T ,

con las matrices definidas como antes, entonces:

1. El rango de A es r.

2. ‖A‖2 = σ1, es el máximo valor singular de A.

3. Avi = σiui, y AT ui = σivi, para i = 1, · · · , n.

x =n∑

i=1

(vTi x)vi, b =

m∑

i=1

(uTi b)ui, Ax =

n∑

i=1

σi(vTi x)ui.

4. vr+1, vr+2, · · · , vn es una base ortonormal para el espacio nulo de A,

ur+1, ur+2, · · · , um lo es para el espacio nulo de AT ,

u1, · · · , ur para el espacio imagen de A y v1, · · · , vr lo es para elespacio imagen de AT .

5. La matriz A rango − r puede ser escrita como la suma de matricesrango − 1 :

A = UΣV T =r∑

i=1

σiuivTi .

La descomposición en valores singulares indica cuán cerca está la matrizdada A a una matriz de rango inferior, y en particular, cuán cerca estáa una matriz de rango deficiente.

1.4. Inversa de Moore-Penrose

Es una pseudoinversa que satisface el siguiente resultado:

Teorema 1.4.1 Para cualquier matriz A, existe a lo más una matriz X quesatisface:

1. AXA = A,

14

2. XAX = X,

3. (AX)T = AX,

4. (XA)T = XA.

A esta matriz X se le denota por: A† y se le denomina inversa de Moore-Penrose.

Para A, rango fila completo, se verifica:

A† = AT (AAT )−1

y si A es rango columna completo se tiene que:

A† = (AT A)−1AT .

Si A es de rango completo, m = n = rango(A), entonces A† = A−1.

La inversa de Moore-Penrose es una matriz pseudoinversa en el sentidoque fallan algunas propiedades de la inversa, tales como:

(AB)† 6= B†A†, y AA† 6= A†A.

Para mayores detalles ver [29].

1.5. Método de mínimos cuadrados

El análisis de regresión es una técnica usada en numerosas investigacionesprácticas en la cual se extrae de una data la relación entre variables.

Se puede distinguir dos tipos de variables para un modelo de regresión: lasvariables predictoras, de entrada, de regresión o independientes (conocidascon cualesquiera de estos nombres), corresponden al conjunto de variablescon valores observados, pero no controlados, mientras que las variables derespuesta o dependientes miden el efecto transmitido experimentalmente aotras variables.

El análisis de regresión viene dado por una relación de la forma:

V ariable de respuesta = Modelo de Ajuste + Error Aleatorio

El modelo de ajuste usualmente es conocido y es una función de las varia-bles predictoras y de los parámetros a ser estimados desde la data o muestra

15

observada.

El método de mínimos cuadrados, el cual es un ejemplo clásico en opti-mización de problema de minimización sin restricciones, puede ser usado paraeste caso de ajuste de dos tipos de variables, por esto es común encontrarloen la literatura estadística como parte del análisis de regresión.

En la historia existe una controversia dada por Gauss, desde 1809, rela-cionada con quién implementó primero el método de mínimos cuadrados puesafirmó que él lo usó mucho antes que Legendre, quienes trabajaron en formaindependiente [10].

En la siguiente sección se presenta este método de estimación de paráme-tros.

Criterio de ajuste a través de mínimos cuadrados:

Dada una muestra (ti, yi) i = 1, · · · , n representada en un diagramade dispersión, y el modelo que ajusta a los datos contenidos en la muestra,bajo las hipótesis de independencia de los errores y asumiendo que el ruidoo distribución del error, es una variable aleatoria gaussiana con media cero yvarianza σ2, el problema de mínimos cuadrados constituye un criterio óptimode ajuste al modelo cuya función objetivo mide la diferencia que existe entrela data y el modelo, esto es entre el valor observado y el valor ajustado.

En general se tiene el modelo de ajuste siguiente, con una única variablepredictora t :

Y = f(t, θ) + η, (1.2)

donde:

Y es un vector en Rn, cuyas componentes son las yi observaciones de la

muestra, i = 1, · · · , n.f es la función, de forma conocida, del modelo de regresión. Si f es lineal en elparámetro θ se puede escribir como el producto de una matriz de dimensiónn × k por el vector θ.

θ es un vector de parámetros en Rk.

η es un vector de residuos o errores en Rn, tal que:

η = Y (t) − f(t, θ) =

y(t1) − f(t1, θ)...

y(tn) − f(tn, θ)

=

y1 − f1...

yn − fn

=

η1...

ηn

,

16

es decir, el i−ésimo error o residuo ηi en ti, conocido como el residual en elvalor ti, es la diferencia numérica que existe entre el valor observado y(ti),por simplicidad también denotado por yi y el correspondiente valor estimadof(ti, θ) ó fi.

Ajustar la data a través del método de mínimos cuadrados es encontrar elparámetro θ que resuelve el siguiente problema de minimización de residuos:

mınθ∈Rk

12

n∑

i=1

η2i (θ) ≡ 1

2ηT η

≡ 12‖ Y − f(t, θ) ‖2

≡ 12(Y − f(t, θ))T (Y − f(t, θ))

≡ 12

n∑

i=1

[yi − fi(t, θ)]2

≡ S(θ).

(1.3)

Geométricamente, el problema es encontrar un punto pθ sobre la superfi-cie definida por (f(t1, θ), · · · , f(tn, θ)) que es más cercano al punto de la datay = (y1, · · · , yn), ver sección (1.5.1).

El problema es llamado de mínimos cuadrados porque precisamente seminimiza a la función objetivo suma de los cuadrados del error, o residuales,al sustraer el modelo de predicción en t = ti del correspondiente valor me-dido yi. Nótese que yi y ti son tomados de la data o muestra por lo que sonvalores fijos, entonces la suma de los cuadrados de los residuos o errores esuna función de θ; en estadística, esta función usualmente es denotada porS(θ). A la solución de (1.3) se le denota por θ y se le denomina estimadorde mínimos cuadrados del parámetro θ, esto es el valor de θ que minimiza aS(θ).

En optimización y análisis numérico, a la función: Y (t) − f(t, θ), depen-diente de θ, se le conoce como función de desajuste y es denotada por ε(θ) yse suele usar la notación θ∗ para el vector óptimo. Esta solución existe y esúnica ya que la función objetivo S(θ) es convexa.

Por otra parte, si la función f(t, θ) es lineal entonces f es una función det solamente, no depende de los parámetros θ, en este caso, el modelo (1.2)puede escribirse como:

Y = F (t)θ + η, (1.4)

17

donde F es una matriz conocida de dimensión n× k, y para hallar θ en (1.3)se tiene:

η2(θ) = ηT η = (Y − F (t)θ)T (Y − F (t)θ)= Y T Y − Y T F (t)θ − θT F T (t)Y + θT F T (t)F (t)θ.

Como el segundo y tercer término de la suma anterior son escalares setiene que:

η2(θ) = Y T Y − 2θT F T (t)Y + θT F T (t)F (t)θ, (1.5)

al derivar (1.5) con respecto a θ e igualar a cero, se obtienen las ecuacionesmatriciales de normalidad, las cuales deben ser resueltas para θ.

Por tanto, usando la última igualdad (1.5), se obtienen las siguientesecuaciones normales lineales:

(F T F )θ = F T Y. (1.6)

Si en (1.6) algunas de las ecuaciones normales dependen linealmente deotras, F T F es singular y su inversa no existe, en este caso el modelo debe serexpresado en términos de pocos parámetros o deben asumirse restriccionesadicionales sobre los parámetros, tal como: que la solución tenga longitudmínima, esto es

θ = mınθ

‖ θ ‖, (1.7)

ya que el conjunto de todos los minimizadores es convexo entonces se garan-tiza la existencia de una única solución de este tipo. Mientras que si (1.6)consiste en k ecuaciones independientes entonces F T F es no singular, en estecaso la solución de la ecuación normal puede ser escrita como:

θ = (F T F )−1F T Y. (1.8)

A la inversa de F T F es lo que se conoce como matriz de información delproblema.

Resolver problemas del tipo (1.7) conducen al estudio de regiones de con-fianza, para detalles ver [8, 10, 38].

Sólo a modo de referencia, en las implementaciones numéricas de míni-mos cuadrados lineal, en general, se usan transformaciones ortogonales paracambiar el problema a uno equivalente, pero manipulable numéricamente,ver [29].

18

1.5.1. Interpretación geométrica para un modelo de re-

gresión lineal

Si se considera el modelo de regresión lineal dado por:

~Y = α0~1 + α1

~T + ~ε,

con los siguientes vectores del espacio n−dimensional Rn :

~Y = (y1, · · · , yn)T , vector de la variable respuesta, es decir: ~Y = f(T )+η.~1 = (1, · · · , 1)T , vector de unos.~T = (t1, · · · , tn)T , vector de la variable regresora.Y = (y1, · · · , yn)T , vector de las predicciones, esto es: Y = f(T ).

~η = (η1, · · · , ηn)T , vector de los residuos, dado por: ~η = ~Y − Y .

~ε = (ε1, · · · , εn)T , vector de los errores aleatorios,

el método de estimación por mínimos cuadrados tiene la siguiente inter-pretación geométrica:

El vector de predicciones Y es la proyección ortogonal del vector ~Y en elplano que generan los vectores ~T y ~1.

De esta forma el vector de residuos ~η es de módulo mínimo,

(

‖~η‖2 =n∑

i=1

η2i

)

.

Por tanto, el vector de residuos ~η es perpendicular al plano generado por~T y ~1. Y, en particular, es ortogonal a estos dos vectores, ésto es,

~η ⊥ ~1 ⇒ < ~η,~1 >= 0 ⇒n∑

i=1

ηi = 0.

~η ⊥ ~T ⇒ < ~η, ~T >= 0 ⇒n∑

i=1

ηiti = 0.

Del teorema de Pitágoras se deduce,

~Y = Y ⊥ ~η ⇒ ‖~Y ‖2 = ‖Y ‖2 + ‖~η‖2 ⇒n∑

i=1

y2i =

n∑

i=1

y2i +

n∑

i=1

η2i .

Para interpretaciones más generales consultar [10].

19

Figura 1.1: Interpretación geométrica del modelo de regresión lineal.

20

Si en el modelo (1.2), la función f(t, θ) es no lineal, las ecuaciones nor-males son no lineales y en general son difíciles de resolver, como se verá en elsiguiente ejemplo donde se plantea una ecuación normal para la estimaciónde un único parámetro θ en un modelo no lineal:

Ejemplo 1.5.1 : Sea Y = f(θ, t) + ε con f(θ, t) = e−θt.

Para una muestra (t1, y1), (t2, y2), · · · , (tn, yn), se desea obtener el es-timador θ de mínimos cuadrados para θ :

Para ello se deriva a la función S(θ) = 12(Y − f(t, θ))T (Y − f(t, θ)) con

respecto a θ, y se iguala a cero. Como ∂f

∂θ= −te−θt se tiene que:

n∑

i=1

[yi − e−θti ][−tie−2θti ] = 0,

o equivalentemente,

n∑

i=1

yitie−θti −

n∑

i=1

tie−2θti = 0,

es la ecuación normal para este ejemplo. Se observa que aún con un modelono lineal simple y la estimación de un único parámetro, la ecuación normalno lineal que se obtiene no es fácil de resolver.

Vale observar que existen modelos que son intrínsecamente lineales, esdecir pueden ser transformados a uno lineal, tal como el del ejemplo anterior,que puede ser transformado al tomar logaritmos y obtener ln Y = −θt+ ln ε,

el cual es un modelo lineal en el parámetro θ. Pero, existen otros en losque no es posible llevarlo a uno lineal, en este caso se dice que el modeloes intrínsecamente no lineal y las ecuaciones normales que se generan enel problema son no lineales y es complicado resolverlas, pues al derivar lafunción S(θ) con respecto a θ se obtienen k ecuaciones normales no linealesen la variable θ, del siguiente tipo:

n∑

i=1

[yi − f(ti, θ)]

[

∂f

∂θi

(ti, θ)

]

= 0.

Por otra parte, nótese que resolver el problema de mínimos cuadrados(1.3), consiste en minimizar una función S : R

k → R de la forma

S(θ) =1

2‖η(θ)‖2 =

1

2ηT η con η : Rk → R

n.

21

La condición para que θ sea un mínimo local de S(θ) están dadas entérminos del Jacobiano y de la matriz Hessiana para la función objetivo demínimos cuadrados S(θ).

Tanto el gradiente como la matriz Hessiana para el problema de mínimoscuadrados tienen una estructura especial.

En este caso la matriz Hessiana de S(θ) es la suma de dos términos: lascomponentes del gradiente de S respecto a θ son obtenidas por la regla dela cadena, así: ∇S(θ) = [∇η(θ)]T η(θ) y derivando ∇S con respecto a θj seobtiene:

∇2S(θ) = [∇η(θ)]T∇η(θ) +n∑

i=1

ηi(θ)∇2ηi(θ). (1.9)

La matriz correspondiente al segundo término de la suma anterior tiene lapropiedad que cuando el residual ‖η(θ)‖ tiende a cero conforme θ se aproximaa la solución, entonces esta matriz también tiende a cero. Es decir, si η(θ) = 0,es natural esperar que η(θ) ≈ 0 para θ ≈ θ luego para la matriz Hessiana setiene:

∇2S(θ) ≈ [∇η(θ)]T∇η(θ). (1.10)

Esta fórmula sólo envuelve las primeras derivadas de las funciones ηi

y sugiere usar una aproximación al Hessiano, esta es la idea básica de losmétodos clásicos de optimización para ajuste de datos a través de mínimoscuadrados.

Del análisis matemático se conoce que una condición suficiente para queθ sea mínimo local es que la matriz Hessiana sea definida positiva, ver elteorema (1.2.5).

1.5.2. Métodos de optimización para estimar paráme-

tros en el problema de mínimos cuadrados no li-

neal

Por ser el problema de mínimos cuadrados un ejemplo de optimizaciónno restringida los métodos clásicos de optimización sirven para resolverlo,basados originalmente en el método de Newton por el cual se obtiene unaaproximación cuadrática a través de la serie de Taylor de la función objeti-vo y luego se minimiza el subproblema obtenido. Una simplificación de estemétodo es el de Gauss-Newton y para el caso de problemas mal condiciona-dos, es decir, problemas sensibles a perturbaciones en la data o problemasque poseen una matriz con rango deficiente se regulariza a través del método

22

Levenberg-Marquardt.

A continuación se presenta una breve descripción de estos métodos deprogramación no lineal.

Linealización o aproximación por series de Taylor:

Sean yj = f(tj, θ) + εj j = 1, · · · , n y θ01, θ02, · · · , θ0k valores inicialespara las componentes de θ1, θ2, · · · , θk, respectivamente. El desarrollo en seriede Taylor de primer orden para f(tj, θ) en θ0 = (θ01, θ02, · · · , θ0k)

T es:

f(tj, θ) = f(tj, θ0) +k∑

i=1

[

∂f(tj, θ)

∂θi

]

θ=θ0

(θi − θ0i). (1.11)

Al hacer la siguiente notación:

f 0j = f(tj, θ0),

β0i = θi − θ0i,

Z0ij =

[

∂f(tj, θ)

∂θi

]

θ=θ0

,

(1.11) queda:

yj − f 0j ≈

k∑

i=1

β0i Z

0ij + εj. (1.12)

En otras palabras, el modelo está linealizado en el parámetro β0i

i = 1, 2, · · · , k y de acuerdo a lo planteado en (1.8),

β0 = (ZT0 Z0)

−1ZT0 (y − f 0)

minimiza a:

S(θ) =n∑

j=1

[

yj − f(tj, θ0) −k∑

i=1

β0i Z

0ij

]

, (1.13)

con respecto a β0i i = 1, · · · , k. Al hacer β0

i = θ1i−θ0i y hacer el procesoiterativo, es decir el desarrollo de Taylor para β0

i i = 1, · · · , k se actualizael estimado de β.

Se observa que (1.13) es la aproximación lineal para (1.3) cuando la fun-ción f(t, θ) es no lineal.

Este método es uno de los más simples para implementar, pero puede en

23

algunos casos, converger lentamente, puede oscilar o inclusive ser divergente.

Se requiere un cierto grado de suavidad de la función objetivo por lo quese pide que sea continuamente diferenciable. Por otra parte, debido al carác-ter local de la aproximación de Taylor se obtiene convergencia local.

El programa IBM, SHARE diseñado por G.W. Booth y T. I. Peterson(1958) bajo la dirección de G.E.P. Box implementa este método. Para may-ores detalles, ver [10].

Gauss-Newton:

En optimización, el método clásico para resolver un problema no lineales el Gauss-Newton. Obsérvese que la fórmula (1.10) sólo involucra a lasprimeras derivadas de las funciones ηi por lo que constituye una forma deaproximar a la matriz Hessiana cuando el modelo está bien ajustado a ladata, es decir que el residual en la solución sea pequeño, en esto se basa elmétodo Gauss-Newton.

En este método la dirección de búsqueda es obtenida en cada iteracióncomo la solución al problema de minimizar ‖∇η(θ)d− η(θ)‖2. En el caso queη(θ) = 0 y ∇η(θ) es de rango completo el método Gauss-Newton se comportacomo el método Newton, pero sin el costo de calcular segundas derivadas.Nótese que Gauss-Newton no funciona bien si el jacobiano de η no es derango completo [20].

En teoría el método converge, pero puede no hacerlo en la práctica. Paraun ejemplo numérico ver [29]. En estos casos técnicas de regularización, sonrecomendables y es lo que se hace en el siguiente método.

Levenberg-Marquardt:

Este método desarrollado en 1963, es un proceso de regularización aplicadoa la forma del método Gauss-Newton con el propósito de resolver problemasmal condicionados. También aproxima a la matriz Hessiana del problema, dela siguiente manera:

n∑

i=1

ηi(θ)∇2ηi(θ) ≈ λI,

24

para algún escalar λ, no negativo, usado para regularizar el problema e I

es la matriz identidad. La dirección de búsqueda es obtenida al resolver elsiguiente sistema lineal:

[

[∇η(θ)]T∇η(θ) + λI]

d = −∇η(θ)η(θ).

El escalar λ controla tanto la magnitud y dirección de d. Cuando λ = 0,la dirección coincide con la usada en Gauss-Newton. Conforme λ → ∞, ladirección en el método Levenberg-Marquardt tiende a un vector de ceros yuna dirección de máximo descenso. Lo que implica que para algún λ suficien-temente grande se tiene que η(θk + dk) < η(θk). Luego este método usa comodirección de búsqueda un balance entre Gauss-Newton y máximo descenso.Para una mejor descripción consultar [3, 5, 30].

Una implementación robusta de este método es el código MINPACK-1[40].

Es evidente que la sencillez de los métodos expuestos no se consigue to-talmente en la práctica, de hecho no existe un mejor método para resolvertodos los problemas de optimización no lineal, sino que dependen de las par-ticularidades de cada problema, y en el caso de mínimos cuadrados prevalecelas características particulares de la función correspondiente al modelo deajuste. Vale destacar también que todos los procedimientos iterativos re-quieren apropiados valores iniciales que pueden incidir en la convergencia delmétodo, lo cual involucra toda una teoría en el arte de precondicionar.

1.5.3. Algunos aspectos estadísticos

La idea esencial de este estudio es resolver un problema de estimaciónde parámetros, es decir, aproximar los parámetros desconocidos a partir devalores observados en una data o muestra de tamaño n, lo cual no se realizapor valores individuales sino por su distribución en el muestreo [25].

Una vez que se tiene el modelo, cabe preguntar: ¿el modelo ajusta ade-cuadamente a los datos?, ¿cuán sensitivos son los parámetros a cambios enlos datos? ¿cuál criterio de ajuste proporciona resultados más cercanos a larealidad?. Para este análisis se debe determinar un estadístico o función delos elementos de la data, que en este caso es la función suma de cuadrados

del error, S(θ) =n∑

i=1

[yi − f(ti, θ)]2 y bajo hipótesis apropiadas acerca de las

propiedades de los errores en las observaciones que intervienen en el modelo,conducen a determinar el estimador θ del parámetro desconocido θ [10].

25

Con el lenguaje básico del análisis de regresión, sin profundizar en lateoría estadística, el método de mínimos cuadrados, por el que se minimiza ala función S(θ) es un criterio óptimo de medir los errores residuales y de se-leccionar a los coeficientes o parámetros θ, llamados coeficientes de regresión,al incorporar las siguientes hipótesis:

Los errores o residuos ηi i = 1, · · · , n tienen la misma distribución deprobabilidad (frecuentemente se asume la normal).

El valor esperado es E(η) = 0. Para el modelo (1.2): Y = f(t, θ) + η,

se tiene entonces la siguiente manera equivalente de escribirlo:

E(Y ) = f(t, θ).

La matriz de varianza-covarianza denotada por Γ, tiene como compo-nentes:

qii = σ2 es la varianza de ηi

yqij = Cov(ηi, ηj) si i 6= j.

En general,v(θ) = Γσ2 = (F T F )−1σ2.

Debe asumirse que Γ sea no singular y a su inversa Γ−1 se le denominamatriz de ponderación, la cual en general la especifica el investigador.Un caso particular es mínimos cuadrados ordinarios donde Γ = σ2I

y en la práctica la estimación más sencilla es la de suponer que losresiduos no están correlacionados y por tanto Γ es diagonal, ya queqij = Cov(ηi, ηj) = 0 si i 6= j.

Obsérvese que el i−ésimo residuo ηi es la diferencia numérica que existeentre el valor observado yi y el correspondiente valor estimado yi

i = 1, · · · , n, por lo que describe el error en el ajuste del modelo enla i−ésima observación yi. Este residuo ηi se considera como una esti-mación del verdadero error no observable εi. El error cuadrado medioes la varianza de los residuos, lo que a su vez es una estimación de σ2,

ya que

ηT η =n∑

i=1

η2i =

n∑

i=1

(yi − yi)2,

y

E

(

n∑

i=1

η2i

)

= (n − 2)σ2.

26

Una hipótesis clave en la estimación por mínimos cuadrados, es que lavarianza de cada error aleatorio es la misma, esto es V (ε) = Iσ2. Perolo real es que los residuos tienden a disminuir o a aumentar conformese incrementan los valores estimados de la respuesta, así en general, lavarianza no puede considerarse constante. Por ejemplo, un valor grandede yj = y(tj) y uno grande de fj = f(tj) podría dar un error absolutogrande εj = yj−fj, aunque este sea pequeño; y un valor pequeño yj conun error pequeño εj = yj − fj, podría ser grande en medida relativa,tal como ocurre en la cola de curvas decrecientes como las del modelode suma de exponenciales.Si se emplea la estimación por mínimos cuadrados ordinarios en unasituación para la cual la varianza del error no es constante, las estima-ciones de los coeficientes de regresión no serían precisas. Sin embargo,el remedio apropiado para esta situación es aplicar mínimos cuadra-dos ponderados o con factores de peso, en los cuales las estimacionespara los coeficientes de regresión o parámetros desconocidos, se ob-tienen mediante la minimización de la suma con pesos o ponderacionesen los cuadrados de los errores, es decir, se mide la distancia relativa oponderada con la data, esto es:

(

yj − fj

yj

)2

,

ó∑

(

yj − fj

fj

)2

.

Los pesos se asignan a cada observación de la variable de respuestade acuerdo con alguna información respecto a la correspondiente va-rianza del error. Para el análisis residual en estimación de parámetrosno lineal, los estadísticos prefieren usar como ponderación pj = 1

yjó

pj = 1f(tj)

, esta última es la ponderación obtenida por el método demáxima verosimilitud. No obstante, máxima verosimilitud no toma encuenta el hecho que los errores residuales pueden que no sean propor-cionales a y y por otra parte es más sencillo usar mínimos cuadradosponderados que máxima verosimilitud [25].

27

Capítulo 2

Aproximación en modelos desuma de exponenciales

2.1. Un modelo particular de suma de expo-

nenciales

La motivación que dio origen al presente trabajo de investigación es unproblema de la Física en el que se busca analizar el tiempo de vida o deaniquilación del positrón (e+), la cual es una partícula elemental de la anti-materia, de masa en reposo igual a la del electrón y de carga opuesta.

Cuando en un experimento, se inyectan positrones en un sólido, éstos alaniquilarse producen energía, una señal gamma, que se utiliza para medir eltiempo de vida del positrón dentro del sólido. La aniquilación de esta partícu-la es un proceso probabilístico pues influyen diversos factores tales como: lamasa de las partículas, su posición y velocidad, así como los defectos delsólido que contiene a dichas partículas, lo que conduce a diferentes tiemposde vida promedio [31].

Se denota por τ al tiempo de vida promedio del positrón, es decir, el tiem-po que pasa entre el instante en que el positrón entra en el sólido y cuandose aniquila. La variable t, tiempo de vida del positrón, sigue una distribuciónexponencial:

p(t) = λ exp(−λ(t)).

El tiempo de vida promedio del positrón corresponde entonces al inversode la tasa de aniquilación, τ = 1

λ. Los experimentos muestran que este tiempo

28

de vida se ajusta gráficamente a través de una curva decreciente, que secorresponde con el modelo de suma de exponenciales siguiente:

D(ti) =k∑

j=1

ρj exp

(

−ti

τj

)

i = 1, · · · , n, (2.1)

donde D(ti) es el espectro de decaimiento del positrón en el tiempo ti, esdecir, indica el comportamiento del tiempo de vida del positrón de acuerdoal número y densidad de defectos del sólido, corresponde a la función f(t, θ)de (1.2). En este caso, los parámetros θ a estimar corresponden a ρ querepresenta la densidad o proporción de defectos del sólido y τ que representaal tiempo de vida promedio del positrón.

El modelo estadístico tiene la forma:

y(ti) = yi = D(ti) + ηi = D(ti, (ρ∗i , τ

∗i )),

con (ρ∗i , τ

∗i ) los valores verdaderos, pero desconocidos de los parámetros y

ηi son los errores aleatorios desconocidos que se suponen independientes,normalmente distribuidos, con media cero y varianza σ2.

El “mejor” estimador, por sus propiedades estadísticas, de los parámetrosρ y τ se obtiene al resolver el problema de mínimos cuadrados para el modelode suma de exponenciales:

mınθ∈Rk

1

2

n∑

i=1

η2i (θ) ≡ mın

ρ,τ∈Rk

1

2‖ Y − D(t) ‖2

≡ mınρ,τ∈Rk

1

2

n∑

i=1

[yi − D (ti, (ρ, τ))]2 (2.2)

≡ mınρ,τ∈Rk

1

2

n∑

i=1

[

yi −k∑

j=1

ρj exp

(

−ti

τj

)

]2

. (2.3)

La variable k representa el número de tipos de defectos del sólido enel que se encuentra la partícula. Este número es inicialmente desconocido. Esde resaltar que ρ, τ y k son dependientes.

2.1.1. Problema Inverso

En la situación planteada en la sección anterior se tienen dos supuestosrespecto al modelo que describe el fenómeno físico:

29

1. El espectro de decaimiento del positrón está dado por la suma de ex-ponenciales (2.1).

2. A partir de una data (ti, yi), i = 1, · · · , n, el modelo estadístico tienela forma

y(ti) = D(ti, (ρ, τ)) + ηi. i = 1, · · · , n, (2.4)

donde ηi corresponde al error, que es una variable normalmente dis-tribuida, con media cero y desviación típica σ.

El problema inicial es de análisis de regresión en cuanto se busca determi-nar la relación entre las variables a través de un procedimiento de estimación.

A su vez, el problema de estimación de parámetros es un problema in-verso, ya que responde a la interpretación entre causas y efectos de un fenó-meno experimental observado, dada por el investigador ruso Oleg MikailivitchAlifanov, quien afirmó que una solución a un problema inverso consiste en“ determinar causas basado en la observación de sus efectos” [41]. Es lo quese pretende cuando a partir de una nube de puntos (ti, yi), i = 1, · · · , n, seajusta el experimento a través del modelo de suma de exponenciales (2.1).

Esto es, se deben hallar el tiempo de vida en cada uno de los defectos otiempos promedios, τi = [τ1 , · · · , τk], y la proporción de tales defec-tos, ρi = [ρ1 , · · · , ρk].

El valor de y depende de los parámetros que se deben estimar (ρ, τ), dadauna data y un modelo de ajuste, dependencia dada por la relación establecidaen la ecuación (2.4).

En general, en un problema inverso, el espacio de todos los posibles valo-res que se desean reconstruir se denomina imagen,1 en este caso correspondeal espacio de parámetros.

Se tiene entonces que obtener estimaciones apropiadas de ρ y τ, bajo lossupuestos anteriores corresponde a resolver un problema inverso.

El problema directo, está dado por la relación no lineal

y(ti) = D(ti, (ρ, τ)). i = 1, · · · , n, (2.5)

con y(ti) la data verdadera. Mientras que (2.4) es la data con el ruido propiodel proceso de medición.

1algunos físicos lo denominan espacio imagen [33].

30

Cabe destacar que en (2.1) los parámetros a estimar son dependientesde k, que es el número de términos de la suma, y representa el número dedefectos del sólido, que también debe ser estimado, lo cual hace al problemadifícil de resolver desde el punto de vista probabilístico. No obstante, en estetrabajo se supondrá k conocido, tal como hacen los diferentes trabajos en-contrados en la literatura.

La validez del modelo de suma de exponenciales lo da el criterio de ajustea través de mínimos cuadrados. Por otra parte, existen diferentes manerasde estimar parámetros a través de este modelo. En las siguientes seccionesse expone un resumen de 40 años de investigación de diferentes métodosde estimación de parámetros para este modelo, recopilados por Petersson yHolmström [25]. Se ha comprobado que los tres primeros métodos de esti-mación de parámetros que se presentan a continuación su utilidad radica sóloen el permitir encontrar valores iniciales para los parámetros.

2.2. Métodos de aproximación de suma de ex-

ponenciales

2.2.1. Método gráfico

Este método ha sido discutido por Steyn y Wyk [32] y Wiscombe y Evans[39]. Es un método no preciso que puede ayudar a visualizar el comportamien-to inicial del modelo para estimar uno o dos términos de la suma.

La idea para identificar los parámetros se basa en transformación logarít-mica para lo cual:

1. Se grafica la curva (t, ln y), donde y ≈ D(t).

2. Se linealiza la cola de la gráfica y la pendiente de la linea recta aproxi-mada es −τ−1

1 .

3. Se aplica mínimos cuadrados lineal para estimar ρ1 y se obtiene elprimer término de la suma.

4. Se aproxima y con un término del modelo, esto es se calcula :

y := y − ρ1 exp

(

−t

τ1

)

.

5. Se grafica (t, ln y) y se repite el proceso.

31

Por lo general no se aproxima más de dos términos, debido a lo limitadodel método. Nótese que y puede ser escrito de la siguiente manera:

y =k∑

i=1

ρi exp

(

−t

τi

)

.

y = ρ1 exp

(

−t

τ1

) k∑

i=1

ρi

ρ1

exp

((

1

τ1

−1

τi

)

t

)

.

Luego,

ln y = ln ρ1 −t

τ1

+ ln

(

1 +k∑

i=2

ρi

ρ1

exp

((

1

τ1

−1

τi

)

t

)

)

. (2.6)

Haciendo el desarrollo de Taylor para t = s se observa en (2.6) quesi τ1 no es bien calculado, la segunda aproximación será inapropiada, deallí lo limitado e impreciso del método. Sin embargo puede ser usado paraencontrar un valor inicial aceptable para luego usar métodos iterativos demayor precisión.

2.2.2. Método Prony

Considérese la siguiente ecuación diferencial ordinaria lineal homogénea:

(r0Dn − r1D

n−1 − r2Dn−2 − · · · − rn−1D − rn)y = 0, (2.7)

donde D es un operador que actúa sobre y; r0, r1, r2, · · · , rn son constan-tes y

Dy =dy

dt,D2y = DDy =

d2y

dt2, · · · , Dny =

dny

dtn.

Si (2.7) se considera como un polinomio en la variable D, entonces seescribe: P (D) = 0 y

P (D) = r0(D − µ1)(D − µ2)(D − µ3) · · · (D − µn−1)(D − µn),

se denomina polinomio característico con µi, i = 1, · · · , n sus raíces y laecuación:

P (D)y = 0, (2.8)

es la ecuación característica.

32

Si µ1 6= µ2 6= · · · 6= µn entonces

y = c1 exp(µ1t) + c2 exp(µ2t) + · · · + cn exp(µnt),

es la solución de (2.8) que comprende n soluciones linealmente independien-tes con n constantes arbitrarias. Nótese que esta suma es análoga al modelode suma de exponenciales (2.1).

En el método Prony la no linealidad del modelo es concentrada en unaúnica ecuación algebraica, ya que el modelo de ajuste (2.1) es interpretadocomo una solución a la ecuación diferencial lineal homogénea (2.7), y losparámetros τi i = 1, · · · , k que intervienen en el modelo corresponden alinverso negativo de las raíces µi, i = 1, · · · , n del polinomio característico. Elmétodo se basa en la separación de los parámetros lineales y no lineales enel modelo de ajuste a través de suma de exponenciales (2.1).

Para aplicar este método primero se hace un cambio lineal de variables,para asumir tiempos equidistantes, de modo que los valores de y son obser-vados en N puntos igualmente espaciados que pueden ser reordenados como:

t0 = 0, t1 = 1, t2 = 2, · · · , tn = N − 1.

Para simplificar notación se realiza el siguiente cambio de variables en elmodelo de ajuste (2.1):

uj = exp(−µj) = exp

(

−1

τj

)

j = 1, · · · k,

y

fi = f(ti) ≈k∑

j=1

ρjuij.

Con el anterior cambio de variables, ajustar el modelo a través de estemétodo es resolver el problema en los parámetros no lineales solamente loque equivale a encontrar buenas aproximaciones a las siguientes ecuacionesno lineales en la variable u :

y0 ≈ f0 = f(t0) = ρ1 + ρ2 + · · · + ρk (2.9)

y1 ≈ f1 = f(t1) = ρ1u1 + ρ2u2 + · · · + ρkuk (2.10)

y2 ≈ f2 = f(t2) = ρ1u21 + ρ2u

22 + · · · + ρku

2k (2.11)

yN−1 ≈ fN−1 = f(tN−1) = ρ1uN−11 + ρ2u

N−12 + · · · + ρku

N−1k , (2.12)

33

para resolverlas considérense uj (j = 1, · · · k), las raíces de la siguienteecuación algebraica:

uk − α1uk−1 − α2u

k−2 − · · · −αk−1u− αk = (u− u1)(u− u2) · · · (u− uk) = 0,(2.13)

para determinar los coeficientes α1, · · · , αk, se multiplica la primera ecuaciónno lineal por αk, la segunda ecuación por αk−1, · · · , la k− ésima ecuaciónpor α1, y la (k + 1)−ésima ecuación por (−1), y se suman los resultados. Seusa el hecho que cada u satisface (2.13) para obtener:

fk − α1fk−1 − · · · − αkf0 = 0,

comenzando sucesivamente con la segunda, tercera, · · · , (N − k) ecuacionesno lineales y razonando de manera análoga se obtiene un conjunto de N−k−1ecuaciones:

fk−1α1 + fk−2α2 + · · · + f0αk = fk, (2.14)

fkα1 + fk−1α2 + · · · + f1αk = fk+1, (2.15)... (2.16)

fk−2α1 + fk−3α2 + · · · + fN−k−1αk = fN−1. (2.17)

como las coordenadas de f son conocidas, este último es un sistema de ecua-ciones lineales en la variable α. Una vez que los α son determinados los u sonencontrados como las raices de la ecuación algebraica (2.13).

Esta solución proporciona los parámetros no lineales ya que

uj = exp(−µj) = exp

(

−1

τj

)

j = 1, · · · k,

si:

τj = −1

µj

, j = 1, · · · k, entonces ln uj = −1

τj

,

así:

τj = −1

ln uj

= −1

µj

,

finalmente el parámetro lineal ρ es obtenido al resolver mínimos cuadradoslineal.

Para mayores detalles ver [15, 24, 25].

34

2.2.3. Método basado en sumas geométricas

El método basado en sumas geométricas o de interpolación generalizada,consiste en reescribir la suma de exponenciales como sumas geométricas, locual simplifica la expresión. Para diferentes particiones de la data se obtienendiferentes sumas parciales, de las cuales se derivan un conjunto de ecuaciones,pudiéndose escoger sumas parciales de igual longitud q.

Este método se desarrolla para datos igualmente espaciados en el tiempo.

Para hacerlos equidistantes bastará tener una unidad de medida d y hacer

tj = t1 + d(j − 1).

Así,

−1

τi

tj = −1

τi

(t1 + d(j − 1)) = −1

τi

(t1 − d) −1

τi

dj,

al asignar:

ρi = ρi exp

(

−1

τi

(t1 − d)

)

,

y

ui = exp

(

−d

τi

)

,

se tiene que:

f(tj) =k∑

i=1

ρi exp

(

−tj

τi

)

=k∑

i=1

ρiuji .

A esta última suma se le conoce como polinomio exponencial o formapolinomial.

Se observa que para k = 1 : f(tj) = ρuj y el valor esperado de y

corresponde a una suma geométrica, esto es,

E

(

n∑

j=1

y(tj)

)

=n∑

j=1

ρuj.

Cornell [9] dedujo una expresión analítica para este caso y presentó unprocedimiento numérico para k = 2. Petersson y Holmström [26] mejoraronel método para el caso k = 2, al encontrar una expresión analítica para u ydesarrollaron procedimientos numéricos para extender el método a los casosk = 3, 4. Para ello desarrollaron un algoritmo que encuentra valores iniciales

35

cuando k ≤ 4.

Para k = 1, sea n el número total de datos observados de modo que:n = 2q o n = 2q + 1, de donde q = n

2o q = n−1

2, luego se puede particionar

la forma polinomialn∑

i=1

ρuj en sumas parciales de la siguiente manera:

S1 =

q∑

j=1

ρuj = ρu1 − uq

1 − u= Σ1, (2.18)

y

S2 =n∑

j=q+1

ρuj = ρuq+1 1 − un

1 − u= Σ2, (2.19)

de donde se obtienen las siguientes ecuaciones lineales en ρ y no lineales enel vector u.

Σ1 − S1 = 0 (2.20)

Σ2 − S2 = 0 (2.21)

Haciendo zi = uqi y teniendo en cuenta que ui = exp

(

− dτi

)

se tiene que

las ecuaciones anteriores se resuelven para zi y luego se calculan los τi, yaque

ln zi = q ln ui ⇒ln zi

q= −

d

τi

⇒1

τi

= −ln zi

qd.

Nótese que si se restringe la búsqueda de los estimados para τi > 0 setiene que zmax = 1. Esta restricción es usada en (3.5).

En general se obtienen tantas ecuaciones como sumas parciales se deter-minen, lo que depende de cómo se haga la partición de la data.

Los sistemas de ecuaciones que se derivan de este método son complica-dos, inclusive desde k = 2, Petersson y Holmström usan técnicas de álgebracomputacional para resolverlos usando Maple y luego aplican el método paraajustar la suma de exponenciales a través de un algoritmo que desarrollaronen Matlab. En resumen, ellos implementan un algoritmo que encuentra es-timados τq usando sumas parciales de longitud 1 ≤ q ≤ 4. Para cada q

y τq resuelven un problema de mínimos cuadrados lineal no negativo paraobtener los correspondientes ρq. El algoritmo de valor inicial compara los di-ferentes valores estimados o vectores (ρq, τq) y escoge “el mejor” en el sentidode mínimos cuadrados, asignando a esta solución como (ρ0, τ0), es decir, coneste método sólo se espera que (ρ0, τ0) sean útiles como estimaciones iniciales

36

al problema de ajuste exponencial. Los autores lo probaron con tres seriesdiferentes de datos obteniendo buenos resultados. Para mayores detalles ver[26].

2.2.4. Método Montecarlo

Los métodos Montecarlo derivan su nombre de las técnicas para generarnúmeros al azar: vueltas a la ruleta, lanzamientos de dados, cartas, monedas,etc. Requieren muchas estimaciones empíricas para simular una situación realque implique elementos probabilísticos, no requieren fórmulas, sólo tabla denúmeros aleatorios o computadora. Agrupa los principios de distribución deprobabilidad, el muestreo y la toma de decisiones para dar solución a proble-mas complejos.

Para una distribución continua, el muestreo de Montecarlo usa númerosaleatorios entre cero y uno para resultados específicos en proporción a suprobabilidad de ocurrencia y usa una distribución de probabilidad acumu-lativa para la variable aleatoria. Por ejemplo, la serie de tiempos, (t, y) delproblema planteado representa una muestra aleatoria para la distribuciónexponencial y escribir P (t < 5 seg ) = 0,30 indica que la probabilidad que eltiempo de vida de la partícula sea a lo más de 5 seg es de 30 para cada 100datos observados. Este valor inicial es dado por el investigador y mejorado através del muestreo.

Este método es tratado por Burstein [7] para aproximar suma de expo-nenciales, él lo denominó algoritmo de variación de raíz. Es un método quese corre o se ejecuta, no se resuelve, en el sentido que es una serie de intentospor muetreo, los resultados se obtienen de estudiar numerosas muestras.

Una vez identificadas las variables significativas del problema, que paraeste trabajo, son ρ y τ, se determina una medida de eficiencia para el sistemaen estudio que involucre a las variables significativas, esta medida la da elinvestigador y es mejorada a través de numerosos muestreos o la selecciónrepetida de números aleatorios o la generación de datos por computador.

Burstein escoge un vector aleatorio u con k componentes tales que

ui ∈ (0, 1) i = 1, · · · , k.

Cada ui representa un valor de probabilidad acumulada para algún valorde t, tal como el ejemplo dado, ui = 0,30 = P (t < 5 seg ).

Los números aleatorios de esta distribución u = 1− exp(

− 1τt)

se generan

37

haciendo t = τ ln u.

Para cacular los coeficientes lineales ρ o densidad de defectos del sólidoque contiene a las partículas, se usa aproximación por mínimos cuadradoslineales. Luego de calcular diferentes densidades ρ, se comparan y se escoge“ la mejor solución” al usar como criterio de ajuste la desviación típica alrede-dor de ρ, denotada por Sρ, que indica cómo varían los datos alrededor delpromedio. Esto da la mejor solución entre las evaluadas, no necesariamentees la solución óptima.

El criterio de parada se basa en el resultado de probabilidad, conocidocomo “ ley de los grandes números”, en la versión de Bernoulli, que estableceque a medida que se incrementa el número de corridas u observaciones semejora en promedio la exactitud de la estimación del valor esperado de lavariable, es decir, la frecuencia relativa de un evento cuando el número de ex-periencias aumenta, tiende hacia la probabilidad de ese evento, en el sentidode “convergencia en probabilidad ” [16].

38

Método Montecarlo

Variables Significativas: ρ, τ, t

Medida de Eficiencia: ui

Dibujar-Tabular distribución acumulativa de la variable

Estudiar rangos de números aleatorios

Generar soluciones posibles: Series de τ, t y rangos de u

Generar números aleatorios. Precisar ui

Determinar valores esperados de: ρ, τ y Sρ

Escoger "la mejor solución". Criterio de ajuste Sρ

39

2.2.5. Métodos de Optimización

Muchos de los más avanzados algoritmos para el problema de ajuste ex-ponencial involucra como subproblema minimizar el objetivo de mínimoscuadrados no lineal por técnicas de optimización clásicas, presentadas en elcapítulo anterior. En esta sección se darán algunas referencias de investi-gadores que han usado códigos de optimización numérica clásica para esteproblema específico.

Steyn y Wik [32] comparan dos implementaciones de algoritmos de mí-nimos cuadrados no lineal para tres conjuntos especiales de valores iniciales.Usan el método básico Gauss-Newton, en una rutina llamada BMDP3R yuna rutina Marquard en el programa SHARE. Ellos prefirieron la rutinaMarquard debido a una mejor implementación y a que es menos sensitivo avalores iniciales.

Un antecedente a la presente investigación lo constituye el programa for-tran llamado POSITRON-FIT, desarrollado al comienzo de los setenta, porKirkegaard y Eldrup [18], para implementar un algoritmo de mínimos cuadra-dos no lineal separable para estimar espectro de tiempo de vida de positronesen física nuclear. Inicialmente lo hicieron bajo la hipótesis de que los residuosseguían una distribución de probabilidad normal y luego lo extendieron sinesta hipótesis. Este programa ha sido usado por muchos grupos de investi-gadores ya que converge rápidamente en la mayoría de los casos. Pero, sumayor limitación es que es muy sensible a la data de entrada.

Petersson y Holmström [26], basados en el método hibrido de Al-Baali-Fletcher [1] y de la técnica separable usada por Ruhe[27] implementaronen matlab el NLPLIB TB, el cual trabaja bien para el problema de ajusteexponencial con menos de 4 términos de la suma. Sus resultados sirven deinformación previa y es punto de comparación con los resultados numéricosdel presente trabajo.

Desde el desarrollo del método básico Gauss-Newton y el algoritmo deltipo Levenberg-Marquardt, nuevos tipos de algoritmos de optimización hansido desarrollados para el problema de mínimos cuadrados no lineal. En [25]se presenta una visión general de los pro y contra de muchos de ellos.

Otros Métodos:

Los métodos descritos tienen su importancia en que pueden ser usadospara obtener “buenos valores iniciales”, para resolver el problema (2.2). A

40

manera de información vale mencionar que es posible obtener solución al pro-blema de mínimos cuadrados a través de otros métodos, tales como: criteriode máxima verosimilitud, técnicas de transformadas, es decir transformadasdel tipo ortonormal, Laplace, Gardner, Fourier y Chi-cuadrado. En [25] sehace referencias a ellas, indicando sus limitaciones.

41

Capítulo 3

Regularización

Previo a tratar lo relativo a regularización, se presentará en la siguientesección la técnica de variable separable, usada por diferentes autores y enparticular por Petersson y Holmström, quienes desarrollaron un algoritmoque encuentra valores iniciales para un modelo de a lo más cuatro exponen-ciales [26], y cuyos resultados serán usados como información a priori en lapresente investigación.

3.1. Variable separable

En un primer momento, el criterio de ajuste para estimar los parámetrosρ y τ, para el modelo en estudio (2.1), es resolver el problema de mínimoscuadrados para el modelo de suma de exponenciales dado, es decir, encontrarla solución al siguiente problema:

mınθ∈Rk

1

2

n∑

i=1

η2i (θ) ≡ mın

ρ,τ∈Rk

1

2‖ Y − D(t) ‖2

≡ mınρ,τ∈Rk

1

2

n∑

i=1

[yi − D (ti, (ρ, τ))]2 (3.1)

≡ mınρ,τ∈Rk

1

2

n∑

i=1

[

yi −

k∑

j=1

ρj exp

(

−ti

τj

)

]2

. (3.2)

Según Osborne, un problema de mínimos cuadrados se conoce como separable,si la función de desajuste puede ser expresada como combinación lineal defunciones que involucran un parámetro no lineal [24].

42

Osborne mostró en 1975, que cuando un problema separable puede sertransformado en un problema de minimización que depende sólo de paráme-tros no lineales, constituye una generalización de la clásica técnica de Prony,descrita en el capítulo anterior [24].

En el modelo de suma de exponenciales (2.1), ρ y τ son los parámetroslineales y no lineales, respectivamente.

El término separable se justifica ya que esta técnica consiste en que elproblema de minimización (3.1) puede ser reducido a los parámetros no li-neales τ solamente y luego ρ puede ser determinado al resolver el problemade mínimos cuadrados lineales.

La técnica de variable separable ha sido usada de diferentes maneras porGolub y Pereira, quienes diseñaron el algoritmo Varpro (variable proyectada)[11], también usada por Ruhe [11, 27, 28] y por Petersson y Holmström [25].

Petersson y Holmström preasignan el parámetro τ en (3.1), con un algo-ritmo de valores iniciales diseñados por ellos [26].

Se tiene entonces que el modelo (2.1) es lineal en el parámetro ρ, porello es conveniente reformular el problema inverso de modo que bajo estapreasignación de τ, el modelo de regresión lineal esté dado por:

Θ(ρ, t) = D(tj) =k∑

i=1

ρi exp

(

−tj

τ0

)

j = 1, · · · , n; (3.3)

yη = y(t) − Θ(ρ, t) = y − E(τ0)ρ,

donde E(τ0) es la matriz del problema y está dada por:

E(τ0) =

e

−t1

τ01

. . . e

−t1

τ0k

.... . .

...

e

− tnτ01

. . . e

− tnτ0k

,

de modo que primero se resuelve el siguiente subproblema de mínimos cuadra-dos lineal ponderado y se logra una estimación del parámetro ρ.

minimizar ‖Ep∗(τ0).ρ − y(t)‖22,p∗

sujeto a ρi ≥ 0,(3.4)

43

donde (Ep∗(τ0))ij =

(

exp

(

−tj

τ0i

))

i = 1, · · · , k.

Luego, por técnicas clásicas de programación no lineal se resuelve el si-guiente subproblema de mínimos cuadrados:

minimizarn∑

j=1

(

pj

(

k∑

i=1

ρ∗i (τ0). exp

(

−tjτi

)

− y(tj)

))2

sujeto a 0 ≤ τi

τi ∈ R i = 1, · · · , k.

(3.5)

donde para cada iteración s, el valor ρ∗(τ s0 ) es calculado como la solución al

subproblema (3.4).

Como se ha observado en el problema de ajuste exponencial, los paráme-tros pueden ser divididos en dos clases, (ρ1, ρ2, . . . , ρk) los cuales dependenlinealmente de y y los no lineales (τ1, τ2, . . . , τk). En este trabajo para realizarla implementación numérica que se presenta en el próximo capítulo, se rea-grupan las variables en x = [τ ; ρ]. La idea es reducir el tamaño del espaciode búsqueda para la rutina de optimización a los parámetros no lineales so-lamente. Al optimizar la parte no lineal, se actualiza la matriz del problemay luego basta resolver un sistema de ecuaciones lineales.

Esta forma de separar variables se justifica dado que se puede escribirla relación de dependencia de y respecto a los parámetros de la siguientemanera:

yj =

(

e

−tj

τ1

· · · e

−tj

τk

)

ρ1

ρ2...ρk

, (3.6)

y1

y2...

yn

=

e

−t1τ1

. . . e

−t1τk

.... . .

...

e

− tnτ1

. . . e

− tnτk

ρ1

ρ2...ρk

, (3.7)

reagrupando las variables en lineales y no lineales, se tiene:

y = E(τ)ρ, (3.8)

44

3.2. Problemas mal condicionados

A continuación se presenta la definición de problema bien puesto, dada porHadamard en 1923, y la cual es necesaria para entender que, bajo hipótesisgenerales, el ajuste sólo por mínimos cuadrados proporciona datos no realesen problemas mal comportados.

En general si se considera la ecuación:

Y (t) = f(t, θ) + η, (3.9)

el problema inverso (3.9) de resolver para θ dado y se dice que es bien puestosi:

Para cualquier data, en el espacio D, del conjunto de todas las posiblesdatas, existe una solución θ, imagen a ser reconstruída, en el espacio F

de todos los posibles valores que toma la imagen,1 tal que

Y (t) = f(t, θ).

La solución θ es única.

La solución θ es estable con respecto a perturbaciones de y, lo queequivale a decir que la transformación inversa y → θ es continua.

Un problema es mal puesto si no satisface las condiciones anteriores, esdecir, si f no tiene inversa, o la inversa no es única porque más de una ima-gen es transformada en la misma data, o porque pequeños cambios en la datapueden ocasionar grandes cambios en la imagen.

Cuando la tercera condición falla se dice que el problema es mal condi-cionado, puesto que la solución es sensible, es decir, pequeñas pertubacionesen la data producen grandes variaciones en la solución [38].

La mayoría de los problemas inversos son mal puestos o al menos malcondicionados.

Para explicar el mal condicionamiento del problema en estudio, se cen-trará la atención en el modelo lineal, para ello se usará el esquema de sepa-ración de variables de Petersson y Holmström, planteado en la sección ante-rior.

1algunos físicos lo denominan espacio imagen [33], en el caso de estimación de paráme-tros corresponde al espacio de parámetros.

45

Luego de realizar la separación de las variables, el primer subproblema aresolver es entonces un problema lineal inverso dado por:

y = Eτ0ρ + η. (3.10)

Debe buscarse el valor que minimice al cuadrado del residuo:

‖η‖2 = ‖y(t) − Θ(ρ, t)‖2 = ‖y − Eτ0ρ‖2. (3.11)

Una imagen reconstruída, en este caso una estimación de (ρ, τ) es buena,en tanto que la data y = Eτ0 ρ es cercana a la data observada y. Por lo queuna medida de la calidad de la estimación, y por tanto de la calidad delajuste en el modelo de regresión es la función de desajuste, ε(ρ), dada por elcuadrado de la norma residual, ver [33]. Una vez separada las variables estafunción depende sólo de ρ.

Usualmente se discretizan los datos ya que se dispone de un número fini-to de observaciones y se realiza la descomposición en valores singulares de la

matriz del problema para obtener: Eτ0 =s∑

i=1

σiuivTi , y si rango(Eτ0) = k, es

conocido que existe una única solución para el problema de mínimos cuadra-dos lineal.

Lema 3.2.1 La solución al problema de mínimos cuadrados lineal (3.11),viene dada por:

ρ = ρ +k∑

i=1

(

uTi η

σi

)

vi. (3.12)

Demostración.

Sea Eτ0 =s∑

i=1

σiuivTi , la descomposición en valores singulares de la matriz

de coeficientes del problema, con uini=1 vectores singulares izquierdos y

viki=1 vectores singulares derechos.

Como uini=1 es base del “espacio data”, y se escribe como:

y =n∑

i=1

ui < uTi , y >,

entonces para cada ρ se tiene que:

‖y − Eτ0ρ‖2 =

n∑

i=1

ui < ui, y > −

s∑

i=1

σiuivTi ρ

2

,

46

así:

‖y − Eτ0ρ‖2 =

s∑

i=1

ui[uTi y − σi(v

Ti ρ)] +

n∑

i=s+1

ui < ui, y >

2

,

aplicando Pitágoras, ya que los ui son ortogonales, se obtiene:

‖y − Eτ0ρ‖2 =

s∑

i=1

∣uTi y − σi(v

Ti ρ)∣

2+

n∑

i=s+1

∣uTi y∣

2,

luego el argumento que minimiza a ‖y − Eτ0ρ‖2 se tiene si:

uTi ρ = σi(v

Ti ρ) =⇒ vT

i =uT

i ρ

σi

, i = 1, · · · , s.

Nótese que ρ está totalmente determinado si s = rango(Eτ0) = k.

ρ =k∑

i=1

vi(vTi ρ) =

k∑

i=1

vi

(

uTi y

σi

)

=

(

k∑

i=1

viuTi

σi

)

y. (3.13)

Por otra parte, (3.10) se puede escribir como:

y =

(

k∑

i=1

σiuivTi

)

ρ + η.

Sustituyendo esta última expresión en (3.13), se obtiene:

ρ =k∑

i=1

[

uTi

σi

(

k∑

j=1

σjujvTj

)

ρ + η

]

vi,

ρ =k∑

i=1

(

vTi ρ +

uTi η

σi

)

vi = ρ +k∑

i=1

(

uTi η

σi

)

vi.

La última igualdad se justifica por la descomposición de ρ en la base vi,

es decir ρ =k∑

i=1

(

vTi ρ)

vi.

47

A partir de la descomposición en valores singulares de la matriz Eτ0 ,

se observa el mal condicionamiento del problema de mínimos cuadrados li-neal, pues en la solución de éste se destaca que la contribución del ruidoη es amplificada en la dirección de vectores singulares correspondientes avalores singulares pequeños. Este comportamiento va asociado al mal condi-cionamiento del problema, ya que corresponde a un número de condición:κ := σmax

σmın

, grande.

Por otra parte, si rango(Eτ0) < k, infinitas soluciones minimizan a ε(ρ),ya que corresponde a un sistema de ecuaciones lineales mal condicionado. Enestos casos la solución se completa con una combinación lineal que esté enel espacio nulo de Eτ0 , por lo que la data no será afectada al adicionar a lareconstrucción cualquier vector en ese espacio nulo.

ρ =

j∑

i=1

(

uTi η

σi

)

vi + cj+1vj+1 + · · · + ckvk, (3.14)

luego se tienen infinitas soluciones que minimizan a la función desajuste,ε(ρ) = ‖η‖2, pero puede ocurrir que el tamaño de la norma ‖ρ − ρ‖ seagrande, es decir, no hay aporte para la adecuada estimación del parámetrolineal.

Si el problema de mínimos cuadrados en consideración es mal condiciona-do o es de rango deficiente, los algoritmos para resolverlos son inestables, porlo que pequeños cambios en la data pueden conducir a grandes cambios enlos resultados.

Se tienen entonces dos limitaciones básicas en problemas lineales malpuestos:

1. La imagen inversa está indeterminada debido a valores singulares pe-queños de la matriz del problema. En la práctica la situación es máscomplicada, porque la matriz depende del modelo y del proceso demedida, por lo que es necesario precisar si los valores singulares sonpequeños o cero.

2. Si el rango de la matriz del problema es menor que la dimensión delespacio de todos los posibles valores que toma la imagen, es decir,rango(Eτ0 < k), existen infinitas soluciones que minimizan a ε(ρ).

Se concluye entonces que no basta con resolver el problema de minimizarla función de desajuste lineal ε(ρ) = ‖y − Eτ0ρ‖

2 para estimar a ρ, puesse observa que los métodos basados sólo en mínimos cuadrados o inversión

48

generalizada no dan resultados ajustados a la realidad.

Es necesario continuar con la reformulación del problema y la idea es in-cluir información adicional que conduzcan a disminuir la influencia del ruidoy a seleccionar la mejor estimación de un conjunto de diferentes reconstruc-ciones factibles. Esta es la idea básica de los métodos de regularización quepermiten sustituir el subproblema original por otro mejor condicionado, quepermita obtener una solución aproximada útil [22].

49

Problema

mal puesto

Información

a priori

Problema

bien puesto

Realidad

física

+

Idea básica deregularización.

50

3.3. Métodos de Regularización

Los métodos de regularización reemplazan el problema original por unomejor condicionado, que negocia la calidad del ajuste de mínimos cuadradoscon el tamaño de la solución regularizada, con el objeto de filtrar o controlarla acción del ruido, el propósito es obtener solución significativa al modelomatemático. Al regularizar se determina la solución aproximada más suavecompatible con los datos observados para un cierto nivel de ruido.

Conceptualmente, regularizar significa encontrar una única solución es-table a un problema inverso mal puesto.

La búsqueda de la solución más suave o regular constituye una informa-ción adicional que transforma el problema mal puesto en uno bien puesto;por lo que regularizar implica, incluir en el problema lo que se conoce comoinformación a priori [22].

En la literatura existen métodos clásicos para regularizar propios delanálisis numérico, tales como: Tikhonov, descomposición en valores singu-lares truncada, los cuales dan resultados similares y se usan si el número devariables es menor a 400 [29]. También están el de subproblema de región deconfianza, etc. y por otra parte, métodos probabilísticos tal como por ejemploestimación bayesiana, máxima entropía, etc., de modo que cualquiera que seuse lleva a un problema de optimización y desde el punto de vista estadístico,a la construcción de estimadores.

Los métodos prácticos de regularización incorporan factores de filtro quecambian la solución (3.13)

ρ =k∑

i=1

αi

σi

vi, con αi = uTi y,

por:

ρfiltrado =k∑

i=1

fi

αi

σi

vi, (3.15)

donde usualmente se escoge 0 ≤ fi ≤ 1. En el caso que cada factor de filtrosea 1 se tiene la solución usual de mínimos cuadrados ordinarios.

Básicamente los diferentes métodos de regularización difieren en la formaen que se determina la función de filtro para el ruido, la cual se denomina depreferencia y será denotada por Ω(ρ).

A continuación se describe la regularización Tikhonov.

51

3.3.1. Regularización Tikhonov

En 1963, Tikhonov introduce un método que es un clásico en regulari-zación, para ello se introduce una función de penalidad, denotada por Ω(θ),que permite seleccionar estimaciones apropiadas a partir de diferentes valoresfactibles [34], esta función mide cuán distante está la solución de la informa-ción a priori, es la llamada función de preferencia.

El problema regularizado es de optimización sin restricciones al minimizarla suma ponderada dada por:

λ2Ω(θ) + ε(θ), (3.16)

donde λ > 0 es el parámetro de regularización, Ω(θ) = ‖θ − θ∞‖2 determinaque tan distante está la solución de la información a priori que se tiene delparámetro, denotada por θ∞, y ε(θ) es la función de desajuste.

Nótese que θ∞, también llamada solución por defecto, es una aproxi-mación a la solución si se tiene un buen estimado, o es cero, en cuyo caso lafunción de preferencia está dada por ‖θ‖.

θλ da la familia completa de soluciones parametrizadas por el factor depeso λ2.

En esta investigación, para la implementación numérica, se incluye comoinformación a priori los valores iniciales obtenidos por Petersson y Holmström[26], y además la función de preferencia incluye una solución por defecto.

Nótese que si λ = 0 el problema se reduce a mínimos cuadrados puro,con su sensibilidad extrema al ruido en la data. Si λ es pequeño se le da másimportancia al desajuste; mientras que a medida que λ aumenta, se ignorala data y cualquier ruido sobre la data.

En Ω pueden actuar diferentes operadores sobre θ − θ∞ y usar diferentesnormas. En este trabajo se usará el operador identidad y la 2−norma [33].

Obsérvese que el problema (3.16) es de mínimos cuadrados, luego pararesolverlo se deriva respecto a θj j = 1, · · · , k, y se iguala a cero paraobtener las ecuaciones matriciales de normalidad, tal como se hizo en el capí-tulo 1. Luego para (3.16) con el residual dado en (3.11), se tiene:

λ2Ω(ρ) + ε(ρ) = λ2‖ρ − ρ∞‖2 + ‖y − Eτ0ρ‖2

= λ2(ρ − ρ∞)IT I(ρ − ρ∞) + (y − Eτ0ρ)T (y − Eτ0ρ).

52

∂fj

λ2(ρ − ρ∞)IT I(ρ − ρ∞) + (y − Eτ0ρ)T (y − Eτ0ρ)

= 0, j = 1, · · · , k.

Así,

2λ2I(ρ − ρ∞) − 2ETτ0

(y − Eτ0ρ) = 0λ2Iρ − λ2Iρ∞ − Eτ0y + ET

τ0Eτ0ρ = 0

(λ2I + ETτ0

Eτ0)ρ − λ2Iρ∞ − Eτ0y = 0.

Luego se tiene:

(λ2I + ETτ0

Eτ0)ρλ = λ2Iρ∞ + ETτ0

y. (3.17)

Si λ = 0 coincide con las ecuaciones normales de mínimos cuadrados usual(ver (1.6)).

Si λ 6= 0 se tiene que, λ2I + ETτ0

Eτ0 , con I la matriz identidad de ordenk, altera sólo los valores y vectores propios de ET

τ0Eτ0 .

Si la matriz λ2I+ETτ0

Eτ0 es no singular entonces existe una única solución,dada por:

ρλ = (λ2I + ETτ0

Eτ0)−1(λ2Iρ∞ + ET

τ0y). (3.18)

Nótese así que el problema de estimar ρ es reducido a resolver un sistemade ecuaciones simultáneas con una matriz de coeficientes simétrica.

Lema 3.3.1 La solución regularizada Tikhonov está dada por:

ρλ = V (S2 + λ2I)−1(SUT y + λ2V T ρ∞).

Demostración.Usando una descomposición en valores singulares de, Eτ0 = USV T , en

(3.17), de la siguiente manera:

(V SUT USV T + λ2I)ρλ = V SUT y + λ2Iρ∞,

y al usar la ortogonalidad de las matrices U y V , se tiene:(V S2V T + λ2I)ρλ = V SUT y + λ2Iρ∞

⇒ (S2V T + λ2V T )ρλ = SUT y + λ2V T ρ∞

⇒ (S2 + λ2I)V T ρλ = SUT y + λ2V T ρ∞

⇒ V T ρλ = (S2 + λ2I)−1(SUT y + λ2V T ρ∞)⇒ ρλ = V (S2 + λ2I)−1(SUT y + λ2V T ρ∞).

53

De esta forma se obtiene una caracterización de la solución regularizadaTikhonov usando descomposición en valores singulares.

Los factores de filtro controlan el efecto de los términos correspondientesa valores singulares menores que el parámetro de regularización λ, con elpropósito de obtener una solución más suave en el sentido que sea cercana ala solución y sea menos afectada por el ruido presente en la data.

Lema 3.3.2 Los factores de filtro en la solución regularizada Tikhonov estándados por:

fj =σ2

j

σ2j + λ2

j = 1, · · · , k.

Demostración.

A partir de la solución Tikhonov y de la descomposición en valores sin-gulares de la matriz Eτ0 , se tiene que el lado izquierdo de la igualdad (3.17)es:

(λ2I + ETτ0

Eτ0)ρλ = λ2

k∑

j=1

ρλjvj +s∑

j=1

σ2j vjv

Tj ρλj.

Como I =k∑

j=1

vjvTj , es la resolución de la identidad en una base ortonormal

y usando la descomposición de ρλ en la base vj se tiene: ρλj = vTj ρλ, luego:

(λ2I + ETτ0

Eτ0)ρλ = λ2

k∑

j=1

ρλjvj +s∑

j=1

σ2j ρλjvj (3.19)

=s∑

j=1

(λ2 + σ2j )ρλjvj + λ2

k∑

j=s+1

ρλjvj. (3.20)

Por otra parte, el lado derecho de (3.17) es:

λ2Iρ∞ + ETτ0

y = λ2

k∑

j=1

ρ∞λjvj +

s∑

j=1

σjuTj vjy,

como yj = uTj y, se tiene:

λ2Iρ∞ + ETτ0

y = λ2

k∑

j=1

ρ∞λjvj +

s∑

j=1

σjyjvj,

54

luego:

λ2Iρ∞ + ETτ0

y =s∑

j=1

[

λ2ρ∞λj + σ2

j

(

yj

σj

)]

vj + λ2

k∑

j=s+1

ρ∞λjvj. (3.21)

Como (3.20) y (3.21) son iguales:

s∑

j=1

(λ2+σ2j )ρλjvj +λ2

k∑

j=s+1

ρλjvj =s∑

j=1

[

λ2ρ∞λj + σ2

j

(

yj

σj

)]

vj +λ2

k∑

j=s+1

ρ∞λjvj,

usando la independencia lineal de los vj, los coeficientes en la igualdad ante-rior quedan, para j = 1, · · · , s :

(λ2 + σ2j )ρλj = λ2ρ∞

j + σ2j

(

yj

σj

)

⇒ λ2ρ∞j = (λ2 + σ2

j )ρλj − σ2j

(

yj

σj

)

λ2

λ2 + σ2j

ρ∞j = ρλj −

σ2j

λ2 + σ2j

(

yj

σj

)

⇒ ρλj =λ2

λ2 + σ2j

ρ∞j +

σ2j

λ2 + σ2j

(

yj

σj

)

.

Paraj = s + 1, · · · , k : λ2ρλj = λ2ρ∞

j ⇒ ρλj = ρ∞j .

Por tanto,

ρλj =

λ2

λ2+σ2

j

ρ∞j +

σ2

j

λ2+σ2

j

(

yj

σj

)

para j = 1, · · · , s.

ρ∞j para j = s + 1, · · · , k.

El factor que pondera al cociente de la data entre el valor singular es elfactor filtro, el cual reduce la ponderación para las componentes de la dataasociados a valores singulares pequeños.

Se tiene entonces que a lo largo de las s−direcciones para la cual ladata aporta información la solución regularizada es una combinación linealponderada de ρ∞

j . Esta ponderación varía de acuerdo a la escogencia delparámetro de regularización. Mientras que en las direcciones de los vectoressingulares s+1, · · · , k, los cuales generan el espacio nulo de Eτ0 , la proyecciónρλj de la solución regularizada es igual a la proyección de la solución pordefecto ρ∞

j .

55

Nótese que

fj =

1 si σj λ

0 si σj λ.

Cuando λ = 0 entonces fj = 1 para j = 1, · · · , k, y además si Eτ0

es invertible, se tiene que existe una única solución ρλ tal que

‖y − Eτ0ρλ‖2 = 0,

la cual corresponde a la solución del problema de mínimos cuadrados usual.

Es de resaltar la importancia que tiene la escogencia apropiada del pará-metro λ. Este parámetro constituye un control del balance entre minimizarel término de regularización, el cual decide qué tan suave es la estimaciónrealizada, y minimizar el término correspondiente al ajuste de la data.

Existen diferentes criterios de escoger el parámetro de regularización:principio de discrepancia, validación cruzada, y la curva-L, de Lawson yHanson [19], esta última parece ser la más versátil y robusta [14, 29].

Mientras en la regularización Tikhonov este parámetro corresponde a laponderación que se le da a la función de preferencia, en el próximo métodoa describir se regulariza con el rango efectivo de la matriz del problema.

3.3.2. Descomposición en valores singulares truncada

Sea E(τ0) ∈ Rn×k, la matriz de coeficientes del problema, con

rango(E(τ0)) = k.

A partir de su descomposición en valores singulares, Eτ0 =s∑

i=1

σiuivTi , la

idea en este método es usar como parámetro de regularización el rango efecti-vo, denotado por l. Esto significa que en lugar de resolver el problema (3.10)se resuelve un problema con una matriz aproximada, es decir se minimiza

‖η‖2 = ‖y − Eτ0lρ‖2, con Eτ0l =

l∑

i=1

σiuivTi . (3.22)

Como el propósito es minimizar la influencia del ruido, la estrategia paraescoger este parámetro está basada en un tamaño de aceptación o toleran-cia sobre el tamaño de los valores singulares, ya que para valores singulares

56

grandes las componentes asociadas para la estimación de ρ están bien deter-minadas por la data, pero para los valores singulares pequeños no. Luego elmétodo simplemente consiste en truncar la suma

ρ =k∑

i=1

αi

σi

vi, con αi = uTi y,

en un límite superior l < k, antes que los valores singulares pequeños comien-cen a dominar.

Para el resto de las componentes, sea Vl la matriz k×(k− l) cuyas colum-nas son vj j = l + 1, · · · , k, es decir, Vl es la matriz cuyas columnasgeneran el espacio nulo efectivo de Eτ0 .

Se denota por ρ a la reconstrucción de la imagen que tiene proyección

nula en el espacio nulo efectivo, esto es: ρ =l∑

j=1

(

uTj y

σj

)

vj, y la reconstrucción

o estimación deseada es:

ρ = ρ +k∑

j=l+1

cjvj = ρ + Vlc,

donde c ∈ Rk−l, se escoge de forma que el vector solución ρ completo satisfagaun criterio de optimalidad como por ejemplo, minimizar una seminorma comose hace en Tikhonov. De esta forma se tiene:

Ω(ρ) = ‖ρ − ρ∞‖2

= ‖(ρ + Vlc) − ρ∞‖2

= ‖(ρ − ρ∞) + Vlc‖2

Por tanto,c = −(Vl)

†I(ρ − ρ∞),

donde † denota la inversa de Moore-Penrose de Vl, definida en el capítulo 1.

Luego la solución al problema (3.10) a través de descomposición en valoressingulares truncada puede escribirse como:

ρ = ρ − Vl(Vl)†I(ρ − ρ∞) =

l∑

j=1

(

uTj y

σj

)

vj − Vl(Vl)†I(ρ − ρ∞).

En la expresión anterior puede actuar otros operadores en lugar del ope-rador identidad, en ese caso en la literatura se habla de descomposición en

57

valores singulares generalizada.

Vale destacar que, según Scherer [29], tanto el método de descomposiciónen valores singulares truncado y Tikhonov, con frecuencia dan resultadossimilares en la práctica. Ambos métodos funcionan bien para k < 400.

Lema 3.3.3 Encontrar la solución del problema de mínimos cuadrados equi-vale a encontrar la inversa Moore-Penrose definida a través de descomposi-ción en valores singulares.

Demostración.

En efecto:

Usando descomposición en valores singulares para Eτ0 y ETτ0

se tiene res-pectivamente que:

Eτ0 =s∑

i=1

σiuivTi , ET

τ0=

s∑

j=1

σjvjuTj ,

Luego,

ETτ0

Eτ0 =

(

s∑

j=1

σjvjuTj

)

(

s∑

i=1

σiuivTi

)

=s∑

i=1

s∑

j=1

σiσjvj(uTj ui)v

Ti

=s∑

i=1

σ2i viv

Ti ,

ya que

uTj ui = δij =

1 si i = j

0 si i 6= j.

σ2i

si=1 son los valores propios no nulos de ET

τ0Eτ0 .

Como ETτ0

Eτ0 , es una matriz k × k, ella es invertible si y sólo si s = k.

Si ETτ0

Eτ0 , es invertible entonces:

(ETτ0

Eτ0)−1 =

s∑

i=1

1

σ2i

vivTi

y

58

(ETτ0

Eτ0)−1ET

τ0=

(

s∑

i=1

1σ2

i

vivTi

)

(

s∑

j=1

σjvjuTj

)

=s∑

i=1

1σi

viuTi .

Comparando esta última expresión con la solución de mínimos cuadrados(3.13) se tiene el resultado.

3.3.3. Estimación Bayesiana

Bajo esta teoría el objetivo es estudiar como a partir de un modelo mate-mático que se supone válido y de una serie de observaciones, correspondientesa los efectos medidos, se determinan las causas usando el teorema de Bayes.

Se aplicará esta teoría al modelo de ajuste exponencial. En este caso lascausas corresponden a los valores de los parámetros que intervienen en elmodelo.

De acuerdo a lo expuesto al inicio del capítulo anterior, el modelo mate-mático en estudio corresponde a un problema inverso, cuya solución tambiénse puede estimar usando las herramientas de probabilidad. Además cuandoa partir de una data, se trata de estimar los parámetros en una suma deexponenciales, el efecto del ruido e incertidumbre sobre la data medida, hacedifícil determinar las componentes en las direcciones de vectores singularesasociados con valores singulares pequeños. Ese factor de incertidumbre esprobabilístico pues depende del error.

Otro aspecto de problemas inversos donde influye la probabilidad, se veen el caso en que el rango de la matriz del problema sea menor que la dimen-sión del espacio de parámetros (espacio imagen), infinitas soluciones puedenminimizar el desajuste, al considerar estos aspectos. Las nociones de proba-bilidad ayudan a la optimización en el sentido de realizar la mejor estimaciónen cuanto:

1. Sea cercana a la data medida.

2. Sea cercana a la información a priori.

La función densidad de probabilidad representa los estados del conocimien-to sobre el espacio de posibilidades que se tiene. Se desea la mejor repre-sentación del estado de conocimiento de la imagen o parámetros, dada ladata y el conocimiento previo del problema.

59

En la teoría Bayesiana, el estado de conocimiento de un parámetro oconjunto de ellos corresponde a la función de densidad de probabilidad aposteriori, p(θ|y), es decir la probabilidad de la posible causa o imagen dadoque se ha observado algún efecto, lo que representa el estado de conocimientodel parámetro después de medir y [33].

El teorema de Bayes establece que:

p(θ|y) =p(y|θ)p(θ)

p(y),

donde p(θ) es lo que se conoce del parámetro antes de la medición, es decir,corresponde a la función de densidad de probabilidad a priori, p(y|θ) es laprobabilidad directa o función de verosimilitud y 1

p(y)es un factor que nor-

maliza, dado que la suma de la función de distribución de probabilidad aposteriori sobre todas las causas posibles debe ser igual a 1 [16]. Obtenién-dose como resultado p(θ|y) que es la función de probabilidad posteriori, oprobabilidad inversa: es la probabilidad de la posible causa dado que algúnefecto ha sido observado. Corresponde al estado de conocimiento del pará-metro después de medir y.

Se tiene entonces que el teorema de Bayes permite calcular la probabilidadposteriori o inversa a partir de la probabilidad a priori y de la probabilidadcondicional directa p(y|θ). Numerosos estudios aplican esta teoría al análisisde problemas inversos [22, 33].

Desde el punto de vista Bayesiano, el estado completo del conocimientode los parámetros después de las observaciones, está dado por la función dedensidad de probabilidad a posteriori. Pero lo que se estudia, es un “mejorestimador” de los parámetros más que la representación entera del estudio delconocimiento. Así es de interés dar una única función que permita obtenerevaluaciones de los parámetros. Entre estos estimadores se pueden nombrar:Estimador máximo a posteriori (MAP), la media de la probabilidad a poste-riori, el estimador de máxima verosimilitud.

A continuación se describe el método para estimar parámetros bajo estateoría:

Al tomar logaritmo en el teorema de Bayes se tiene que:

log p(θ|y) = constante −1

2ε(θ; y) +

1

2Ω(θ), (3.23)

donde Ω(θ) = 2 log p(θ) es la función de preferencia, relacionada con la in-formación a priori y la función ε(θ; y) = −2 log p(y|θ), mide el desajuste. Así

60

se define una función figura de mérito para el problema como:

ε(θ; y) − Ω(θ),

la cual es pequeña cuando la probabilidad posteriori es grande.

Encontrar el estimador máximo a posteriori (MAP) es resolver el proble-ma de minimización de la función figura de mérito. Mientras que determinarθ que minimiza a ε(θ; y) corresponde al estimador de máxima verosimilitud.

Usando la notación para el problema inverso (3.10), bajo las hipótesisdadas, de linealidad y de ruido independiente e idénticamente distribuidocomo normal con media cero y varianza σ2, se tiene que la función de vero-similitud está dada por:

p(y|ρ) = p(η = y−y) =1

(2π)n2 (det Γ)

1

2

exp

[

−1

2(y − Eτ0ρ)T Γ−1 (y − Eτ0ρ)

]

,

(3.24)

donde Γ es la matriz de covarianzas. Si se supone la desviación típica cons-tante, es decir, Γ = 1

σI, se tiene que la función de verosimilitud tiene la

siguiente forma cuadrática:

p(y|ρ) =1

(2πσ2)n2

exp

[

−1

2σ2(y − y(ρ))T (y − y(ρ))

]

. (3.25)

Luego la función de desajuste dada por

ε(ρ; y) = (y − Eτ0ρ)T Γ−1 (y − Eτ0ρ) ,

es una suma de cuadrados:

ε(ρ; y) =1

σ2‖y − Eτ0ρ‖

2 =n∑

i=1

1

σ2(yi − Eiρ)2 =

n∑

i=1

pi(yi − Eiρ)2.

Así, es necesario usar mínimos cuadrados ponderados donde los pesos co-rrespondan a una distribución de probabilidad apropiada.

Es necesario incluir una probabilidad a priori. Supóngase que ésta corres-ponde a una distribución Gaussiana con media no nula, se denota por P a la

61

matriz simétrica de covarianzas de la densidad de probabilidad a priori. Asíla función de preferencia está dada por:

Ω(ρ) = −(ρ − ρ)T P−1(ρ − ρ).

Luego del teorema de Bayes (3.23), se tiene que la función de densidadde probabilidad posteriori está dada por:

p(θ|y) ∝ exp

−1

2[ε(θ; y) − Ω(θ)]

,

sustituyendo:

p(θ|y) = exp

−1

2(y − Eτ0ρ)T Γ−1 (y − Eτ0ρ) +

1

2(ρ − ρ)T P−1(ρ − ρ)

.

(3.26)Así la función regularizada a minimizar

‖r‖2 =1

2[ε(θ; y) + λΩ(θ)]

se escribe de la siguiente manera:

‖r‖2 =1

2

[

n∑

i=1

1

σ2(yi − Eiρ)2 + λ2(ρ − ρ)T P−1(ρ − ρ)

]

(3.27)

De modo que si λ = 0 se tiene el residual correspondiente a mínimoscuadrados puros, pero si λ 6= 0 se tiene la función regularizada.

Teniendo presente que el objetivo en un primer momento es resolver elproblema lineal inverso (3.10), al usar teoría Bayesiana se destaca el he-cho que regularizar a través de Tikhonov es equivalente a obtener el esti-mador máximo a posteriori, bajo las hipótesis que el ruido es una variablealeatoria que sigue una distribución de densidad Gaussiana, con media ceroy desviación típica σ, y con función de densidad de probabilidad a prioritambién Gaussiana. Para los detalles ver [33].

La distribución Gaussiana tiene la ventaja de estar completamente deter-minada cuando se conoce el vector de medias y la matriz covarianza, es mássi los errores no están correlacionados sólo interesa los elementos de la diago-nal de la matriz de covarianzas, estos valores corresponden a las varianzas dela distribución. Otra ventaja es que la función de densidad de probabilidadGaussiana es unimodal y tiene la propiedad que su logaritmo es una función

62

cuadrática. El máximo de esta cuadrática da la posición de la media y la se-gunda derivada, evaluada en el máximo, da la curvatura, la cual proporcionainformación acerca de la varianza [16].

La función regularizada ‖r‖, obtenida en (3.27) es la función a minimizaren la implementación numérica realizada en este trabajo.

Otros Métodos:

Es importante resaltar que existen otras opciones para la información apriori de acuerdo a la naturaleza del problema. Shukla, Peter y Hoffmanndiseñaron un filtro lineal para el modelo de suma de exponenciales y lo re-suelven con técnicas de máxima entropía y estimación bayesiana, suponiendoruido con distribución Poisson. Usaron para la implementación numérica elcódigo MELT desarrollado por Bryan [6] y compararon sus resultados con elcódigo Posfit [18, 31]; sin embargo sus resultados no han sido satisfactorios,ya que por una parte una única data proporciona diferentes resultados conlos respectivos códigos; además, se ha observado que implementaciones prác-ticas de estos códigos no coinciden con datos teóricos conocidos.

Se han estudiado otros métodos de regularización del problema inversoplanteado, que permiten escoger la ley de probabilidad a priori. Por ejemplose tiene el método probabilístico de máxima entropía, usado en Física Estadís-tica. Fue propuesto por Jaynes (1957), está basado en la teoría matemáticade información de Shannon (1949) [31].

La entropía de una distribución θi está dada por el funcional E : P → R,

donde P es el espacio de parámetros y E(θ) := −∑

i

θi log θi, y la idea es

maximizar E(θ), dado que las propiedades de las variables aleatorias son de-terminadas por su distribuciones independientemente del espacio en que ellasestén definidas, el método de máxima entropía, es una técnica para hallardistribuciones de probabilidad usando únicamente información sobre valoresmedios medidos de las variables aleatorias, así la entropía es una medida dedistribución de los datos, en el caso en estudio corresponde a la cantidad deinformación que se tiene de los parámetros θ [22, 41].

En el 2005, Wang and Yuan, aplican métodos de regularización a travésde regiones de confianza, a problemas inversos mal puestos [38], independien-temente Grodzevich y Wolkowicz, propone un algoritmo para regularizar através de un subproblema de región de confianza, TRS, sus siglas en inglés,que permite moverse a través de puntos sobre la curva-L y alcanzar el puntode máxima curvatura [12].

63

Se trata de resolver un problema de mínimos cuadrados restricto:

minimizar ‖y − Eτ0ρ‖2

s.a. ‖ρ‖2 ≤ ε.

La regularización depende de escoger el parámetro ε correcto.

La restricción resulta en un error residual grande, pero reduce la propa-gación del error. Conforme ε crece se elimina la restricción y prevalece eldesajuste.

Un argumento de multiplicadores de Lagrange muestra la equivalenciaentre escoger el parámetro correcto λ en (3.16) y escoger el valor correctopara ε en TRS [12].

En cualquier caso, los diferentes métodos de regularización conducen aun problema de optimización.

3.4. Criterio de la curva-L

La curva-L, denominada así por su forma de L, es una gráfica parametriza-da del logaritmo de la norma de las funciones (ελ, Ωλ), para λ ∈ (0,∞), dondeελ es la función de desajuste, que mide el tamaño del correspondiente resi-dual y Ωλ mide el tamaño de la solución regularizada o cuán distante se estáde la información a priori, según cuál sea la función de preferencia escogida.

Si λ es pequeño se le da más importancia al desajuste, y la solución puedeestar contaminada por la influencia del ruido (propagación del error); mien-tras que si λ aumenta, se ignora la data y cualquier ruido sobre la data,obteniéndose valores que aunque cercanos a la información a priori consti-tuyen una pobre aproximación a la data.

La esquina o punto de curvatura máxima de la curva-L, proporcionadónde la solución θλ cambia de ser dominada por la solución regularizada,parte vertical, a ser dominada por la función de desajuste, parte horizontal.De allí que la esquina de la L corresponde al mejor balance entre la mini-mización del tamaño, medido en norma, de las dos funciones ε y Ω, es decircorresponde al mejor parámetro de regularización λL.

Este criterio puede ser usado cuando el comportamiento de ambas normases monótono, decreciente para la norma residual, creciente para la función depreferencia. Además el vértice de la curva-L tiene una cierta dependencia de

64

las propiedades espectrales de la matriz ETτ0

Eτ0 , el criterio falla si la soluciónes dominada por las primeras componentes de la descomposición en valoressingulares, en ese caso la solución es suave [14, 29].

El cálculo de la curva-L es muy costoso para problemas grandes, porquedeterminar un punto sobre la curva requiere que la norma de la funciónde preferencia y la norma de la función de desajuste correspondiente esténdisponibles. Se necesita resolver (3.16) para parámetros de regularizaciónapropiados. Usualmente se calculan sólo unos pocos puntos de la curva-Lpara escoger el parámetro de regularización.

Vale agregar que la evaluación numérica de la curvatura requiere el cál-culo costoso de las derivadas, dado que, si

Ω(ρ) := ‖ρλ − ρ∞λ ‖2 y Ω := log Ω

yε(ρ) := ‖y − Eτ0ρλ‖

2 y ε := log ε.

La fórmula para la curvatura κ de la L-curva, como una función de λ,

está dada por:

κλ = 2ε′

Ω′′

− ε′′

Ω′

(

(ε′2) + (Ω′)2) 3

2

.

Un análisis de las propiedades de la curva-L se encuentran en [14]. Lostrabajos de Hanke y Vogel, presentan las limitaciones de este criterio. Noobstante en la práctica funciona para muchos problemas [13, 37].

65

Figura 3.1: Curva-L.

66

Capítulo 4

Estrategia de regularización en laaproximación de sumas deexponenciales

En este capítulo se presenta el aporte de esta investigación dado por laimplementación numérica de una estrategia de regularización aplicado a laestimación de parámetros en el modelo de suma de exponenciales en estudio:

k∑

j=1

ρj exp

(

−ti

τj

)

.

Se asume que el número de términos de la suma k es conocido.

El objetivo es obtener una aproximación de la suma de exponencialesejecutando la regularización a partir del método Bayesiano, bajo hipótesisde normalidad para el ruido y la distribución de probabilidad a priori. Esconocido que bajo estos supuestos la regularización Tikhonov y el estimadormáximo posteriori son equivalentes [33]. La función regularizada a minimizarestá dada por (3.27).

4.1. Algoritmo

Para la implementación se usa data simulada series Lanczos, de orden 3,generada según el artículo de Petersson y Holmström [26], para lo cual setoma t ∈ [0; 1,15] con ∆t = 0,05 y la suma de exponenciales dada por:

D(t) = 0,0951 exp(−t) + 0,8607 exp(−3t) + 1,5576 exp(−5t).

El ajuste se hace para dos y tres términos, k = 2 y k = 3, respectivamente.

67

Es de observar que la función de desajuste a minimizar,

ε(ρ, τ) =1

2

n∑

i=1

[

yi −k∑

j=1

ρj exp

(

−ti

τj

)

]2

,

es cuadrática en la variable ρ y no lineal en la variable τ. Es no convexa porlo que tiene soluciones locales. Además de ser un problema mal condicionadocomo se explicó en el capítulo anterior. Luego es importante tener buenosvalores iniciales para reducir el riesgo de ser atrapados en una solución ina-propiada.

Conocido que dependiendo de los valores iniciales usados, un algoritmo demínimos cuadrados no lineal puede dejar de converger, en la implementaciónnumérica se incluye información a priori para los valores iniciales del algorit-mo. Estos valores pudieran ser calculados por cualquiera de los métodos quecontribuyen a determinar valores iniciales, revisados en el capítulo 2.

En este trabajo, los valores iniciales usados se basan en los resultadosobtenidos por Petersson y Holmström [26]. Para el cálculo de ellos, estosautores diseñaron un algoritmo basado en el método de sumas geométricas,(ver capítulo 2).

La información a priori la constituyen los valores iniciales tomados delartículo referido y la “solución por defecto,” para la cual se toman tres casospara comparar:

1. Valores óptimos, correspondientes a los valores reales, los cuales se iden-tificarán como “óptimo teórico”.

2. Valores “cercanos” al óptimo teórico.

3. Solución obtenida del artículo, los cuales se identificarán como “soluciónP-H” [26].

En el código se usa la notación ahat y bhat para la solución por defectolineal y no lineal, respectivamente.

El diseño del código se basa en la siguiente técnica de separar variables:

Se observa que en el problema de ajuste exponencial los parámetrospueden ser divididos en dos clases, (ρ1, ρ2, . . . , ρk) los cuales dependen li-nealmente de y y los no lineales (τ1, τ2, . . . , τk). La idea es reducir el tamañodel espacio de búsqueda para la rutina de optimización a los parámetros no

68

lineales solamente.

Se escribe la relación de dependencia de y respecto a los parámetros dela siguiente manera:

yj =

(

e

−tj

τ1

· · · e

−tj

τk

)

ρ1

ρ2...ρk

, (4.1)

y1

y2...

yn

=

e

−t1τ1

. . . e

−t1τk

.... . .

...

e

− tnτ1

. . . e

− tnτk

ρ1

ρ2...ρk

, (4.2)

reagrupando las variables en lineales y no lineales, se tiene:

x = [τ, ρ] = [xnl, xlin],

luego:y = C(xnl)xlin, (4.3)

donde xlin representa los parámetros lineales (ρ1, ρ2, . . . , ρk) y xnl represen-ta los parámetros no lineales (τ1, τ2, . . . , τk). En el código se estiman estosparámetros, para lo cual se usa esta última notación, recordando que y co-rresponde a la data aproximada y C es una variable que guarda el valor dela matriz del problema.

Con esta notación la función de desajuste se escribe como:

ε(θ, y) = ε(x, y) = ε(xlin, xnl; y) =1

σ2(y − y(x))T (y − y(x)). (4.4)

ε(xlin, xnl; y) =1

σ2(y − C(xnl)xlin)T (y − C(xnl)xlin). (4.5)

Al derivar con respecto a xlin e igualar a cero se obtienen las siguientesecuaciones simultáneas:

CT Cxlin = CT y. (4.6)

69

Luego,xlin = (CT C)−1CT y, (4.7)

donde C es evaluada en el valor de los parámetros no lineales, como se indicóen (4.3).

Habiendo estimado los parámetros lineales para una escogencia particularde los parámetros no lineales; usando (4.4), (4.3) y (4.7) se escribe la fun-ción de desajuste como una función sólo de los parámetros no lineales, de lasiguiente manera:

ε(xlin(xnl), xnl; y) =yT y − yT C(xnl)[C(xnl)T C(xnl)]−1C(xnl)T y

σ2. (4.8)

De esta forma se reduce el espacio de búsqueda para calcular xnl, lo cualse hace usando fminunc, del toolbox de matlab, para minimizar una funciónsin restricciones.

Por otra parte, considerando el ruido propio del proceso de medición setiene la relación:

y(ti) = C(xnl)xlin + ηi i = 1, · · · , n, (4.9)

como se explicó en el capítulo anterior, la presencia de valores singularespequeños o nulos en la descomposición en valores singulares de la matriz C,

causan amplificación del ruido y erróneas reconstrucciones de la imagen, estoes malas estimaciones de los parámetros, por lo que es necesario regularizaren la función a optimizar.

Así usando la reagrupación de las variables en lineales y no lineales, setiene que (3.27) se reescribe como:

‖r‖2 = 12

[

n∑

i=1

1σ2 (yi − Mxlin)2

]

+

12

[

l2(xlin − ahat)TPainv(xlin − ahat) + l2(xnl − bhat)T Pbinv(xnl − bhat)]

,

(4.10)

donde M es la matriz del problema, l es el parámetro de regularización,ahat y bhat corresponden a la información que se tiene sobre los parámetroslineales y no lineales, Painv y Pbinv denotan las respectivas matrices de co-varianzas. Esta es la función a minimizar. Corresponde al estimador máximoa posteriori con variable separable, bajo las hipótesis dadas.

70

Cuando se usa el criterio de la curva-L, la determinación de cada puntorequiere la solución a un problema de minimización, tal como (3.16), esto esun procedimiento costoso, lo que se suele hacer es calcular unos pocos pun-tos sobre la curva y usar estos puntos para determinar un valor adecuado delparámetro de regularización.

En la implementación numérica se asume que el parámetro de regula-rización l es dado, se realizan diferentes corridas con distintos valores delparámetro. En la teoría este parámetro se denotó por λ.

Se comparan los resultados para diferentes valores del parámetro de re-gularización, basado sólo en la motivación heurística para este valor, el cualpermite negociar la calidad del ajuste a través de mínimos cuadrados conel tamaño de la función de preferencia. Si l > 0, es muy pequeño, la solu-ción asociada θλ no es suave y la data es bien ajustada. Mientras que si l

es grande, se obtienen pobres soluciones aproximadas del problema (3.10),pues no ajusta bien la data aunque la solución θλ sea suave. Si l = 0 se tienemínimos cuadrados puros, es decir, sin la regularización a través de la funciónde preferencia.

El esquema de implementación es el siguiente:

1. Generar la data con espaciamiento equidistante de los tiempos, propor-cionando los parámetros iniciales.

2. Construir la matriz del problema.

3. Calcular y inicial.

4. Usar fminunc del toolbox de matlab para la optimización no lineal de(4.10) y así obtener el “mejor estimado” no lineal.

5. Actualizar la matriz y resolver el sistema de ecuaciones lineales, paradar la solución aproximada.

Se realizan las modificaciones necesarias para hacer otro ajuste con trestérminos de la suma y para diferentes valores del parámetro de regulariza-ción.

El código que se presenta a continuación se usa para generar la data si-mulada de suma de exponenciales, para hacer un ajuste con dos términos dela suma.

La data generada se archiva en fitdataL3.

71

Incluye información a priori: ahat y bhat, además de puntos iniciales li-neales: w = [0,4940 2,0190]′ los cuales fueron calculados por Petersson yHolmström [26].

clear alltlist=linspace(0,1.15,24)’; (tiempo en los cuales la data es medida)xlindata=[0.0951;0.8607;1.5576];xlin=[0.0951;0.8607];ahat=[0.3610;2.1460];Painv=eye(length(ahat));xnldata=[1.0000;3.0000;5.0000];

xnl=[1.0000;3.0000];bhat=[1.7120;4.5210];Pbinv=eye(length(bhat));xnl0=[1.9760;4.6840];l=0;C=makeE(xnldata,tlist); (calcula la matriz del problema)yhat=C*xlindata; y=yhat;w=[0.4940 2.0190]’;save fitdataL3 tlist xlin xnl xnl0 yhat l y w ahat bhat Painv Pbinv

La siguiente función calcula la matriz del problema, es decir la matrizM(b) = [exp((−b) ∗ tlist))], donde b = xnl es la variable no lineal.

function E = makeE(xnl,tlist)n=length(xnl);E=[];for i=1:nE=[E exp(-tlist*xnl(i))];end

Con el siguiente código se minimiza una función no lineal regularizada,usa fminunc para la optimización no lineal. Para usar fminunc la función aminimizar debe ser continua y definida en R. Por defecto usa el algoritmo degran escala de región de confianza de Newton.

Se implementa la técnica de reagrupar las variables descrita anterior-mente.

72

clear allload fitdataL3;options = optimset(’GradObj’,’on’);[xopt, fval, exitflag, output] =fminunc(@regularized, [xnl0; w], options, tlist, y, l, ahat, bhat, Painv, Pbinv);n=length(xopt)/2;xnlopt=xopt(1:n,1);xlinopt=xopt(n+1:2*n,1);CO=makeE(xnl,tlist);M=makeE(xnlopt,tlist);C=M’*M + Painv;xlinopt=(C)M ′ ∗ y + Painv ∗ ahat);figure(1);plot(tlist,y,’x’,tlist,M*xlinopt,’g’);zoom onxlabel(’tiempo’); ylabel(’Muestras y mejor ajuste’);xlin xnl xnlopt xlinopt fvalenl=abs(xnl-xnlopt)/norm(xnl); elin=abs(xlin-xlinopt)/norm(xlin);

el código anterior requiere la siguiente función de mérito a ser minimizada,es decir, desajuste más función de preferencia, con su respectivo gradiente.

function [r2,g]=regularized(x,tlist,y,l,ahat,bhat,Painv,Pbinv)n=length(x)/2;xnl=x(1:n,1);xlin=x(n+1:2*n,1);m=length(tlist);M=makeE(xnl,tlist);r2=(0.5)* sum(abs(y-M*xlin).2)+(0,5∗ (l2))∗ (xlin−ahat)′ ∗Painv ∗ (xlin−ahat) + (0,5 ∗ (l2)) ∗ (xnl − bhat)′ ∗ Pbinv ∗ (xnl − bhat);

if nargout >1,gb=diag(xlin)*M’*diag(tlist)*(M*xlin-y)+Pbinv*(xnl-bhat);ga=M’*(M*xlin-y)+Painv*(xlin-ahat);g=[gb;ga];end

73

La salida proporciona:

1. La estimación de los parámetros xnlopt y xlinopt, correspondientes alos parámetros no lineal y lineal, denotados respectivamente por τ y ρ

en el modelo.

2. El valor óptimo alcanzado, es decir la norma mínima de la funciónregularizada, dada por fval.

3. El error para la estimación lineal y no lineal, dados por enl y elin,

respectivamente.

4. El uso de fminunc proporciona el valor del gradiente de la función enla solución. Corresponde a “firstorderopt.”

5. En las diferentes corridas el algoritmo termina porque los valores en lositerados o en fval, reflejan poco cambio, es decir son menores que latolerancia.

4.2. Resultados

Es de interés para el estudio, el comportamiento de los estimados en lacercanía del óptimo. En esta investigación se toma una información a priorimuy precisa, dada por: los valores iniciales tomados del artículo de Peterssony Holmström [26], la solución real, una solución “cercana” a la real, y lasolución P-H, la cual se usa para comparar los resultados obtenidos en estetrabajo. Los resultados se presentan en las tablas anexas.

En general, el código funciona bien en el sentido que aproxima la solu-ción y muestra el comportamiento esperado al regularizar en las diferentescorridas. Por ejemplo, en este trabajo para el ajuste con k = 2, regula-rizando con información a priori de alta precisión, en el caso extremo deincluir el óptimo teórico, se obtiene: xnlopt = [0,9692 2,9498]T con l = 0,9(ver cuadro 4.1). El óptimo teórico o valor real es [1 3]. En otros estu-dios para el mismo experimento, Ruhe [28] obtuvo con su método de varia-ble separable, xnlopt = [1,75656 4,54746]T . Mientras que usando mínimoscuadrados ponderados, obteniendo los pesos a través de máxima verosimi-litud obtuvo xnlopt = [1,74940 4,54551]T . Petersson y Holmström obtu-vieron xnlopt = [1,712 4,521]T .

74

El cuadro 4.1, corresponde a los resultados para la data simulada seriesLanczos, de orden 3 con un ajuste para k = 2. Los valores iniciales son:

xlin0 = [0,4940 2,0190] y xnl0 = [1,9760 4,6840],

información válida tomada de [26], y por solución por defecto se toma exac-tamente el óptimo teórico o valor real. En condiciones similares se presentael cuadro 4.2, variando la solución por defecto con valores cercanos al óptimoteórico, y por último el cuadro 4.3 la solución por defecto es la solución P-H,ver página 68.

En el cuadro 4.4, se comparan las estimaciones obtenidas a través de:“la mejor solución regularizada” lograda en este trabajo, mínimos cuadradospuro y los valores teóricos.

En el cuadro 4.5, se hace similar comparación, esta vez con las estima-ciones obtenidas al incluir información a priori con solución por defecto cer-cana al óptimo teórico y la solución P-H. El mínimo aproximado para losvalores teóricos, en las respectivas tablas tiene una llamada con el símbolo ?,

no está dado en el citado artículo. El valor tabulado fue calculado con elcódigo aquí implementado.

Los cuadros siguientes exhiben los resultados para cada experimento rea-lizado con k = 3 y valores iniciales:

xlin0 = [0,3560 0,3120 1,8450] y xnl0 = [1,7140 3,7130 4,6840].

Queda abierta la posibilidad de hacer experimentación numérica con otrasdatas.

En esta etapa de la investigación se ignora la convergencia de los estima-dos o la convergencia del error a cero, dejando estos aspectos para posteriorestrabajos.

75

Observaciones respecto a los Cuadros 4.1 y 4.4:

1. Se observa al comparar los errores, que la estimación de los parámetrosno lineales mejor aproximada al óptimo teórico, se obtiene para el pará-metro de regularización l = 0,9, ver cuadro 4.1. La condición de primerorden, la cual corresponde al valor del gradiente de la función regula-rizada en la solución, es de 0,2026. Se obtiene un valor mínimo para lafunción regularizada, de fval = 0,6837. Estos resultados correspondena la figura 4.2.

2. La aproximación al estimado lineal no es buena, pero cabe destacar quese está ajustando con dos términos una suma de orden tres.

3. Al comenzar a regularizar, basta con l = 1, los estimados no linealescomienzan a aproximarse mejor al óptimo, aproximación que se pierdecuando la ponderación dada a la función de preferencia es alta.

4. Para el problema de mínimos cuadrados puro, l = 0, aunque el valorde la norma residual fval, es muy pequeño, fval = 8,5165e− 006, casicero y la visualización gráfica del ajuste es “aparentemente bueno”, verfigura 4.1, el error relativo es grande, ya que la solución está lejos delóptimo teórico. Ver cuadro 4.1.

5. En todas las corridas el algoritmo se detiene porque hay poco cambioen los estimados, es decir el cambio en la norma de xnlopt y xlinopt esmenor que la tolerancia especificada.

6. Para l = 0,9 se realizan 24 iteraciones. Para l = 0 se realizan 12 itera-ciones.

7. El error relativo es mayor para l = 0, respecto al obtenido para losestimados con l = 0,9.

8. En la gráfica 4.2 se visualiza que para k = 2, el ajuste aún regulari-zado no es bueno, lo cual ratifica la importancia de escoger en formaapropiada el número de términos de la suma.

9. El cuadro 4.4 permite comparar la “mejor solución regularizada” obteni-da, con la de mínimos cuadrados puro y los valores reales.

10. Por otra parte, si no se posee información sobre la solución por defecto,es necesario acotar adecuadamente la norma de la solución.

76

k = 2

xlin0 = [0,4940 2,0190] xnl0 = [1,9760 4,6840]

ahat = [0,0951 0,8607] bhat = [1,0000 3,0000]

l 10 5 0.9

xnlopt 0.7758 0.7758 0.96923.2219 3.2219 2.9498

xlinopt 0.2329 0.2329 0.23351.7111 1.7111 1.6650

fval 39.8487 10.3182 0.6837enl 0.0709 0.0709 0.0097

0.0702 0.0702 0.0159elin 0.1591 0.1591 0.1598

0.9821 0.9821 0.9288firstorderopt 1.5342 1.5342 0.2026

l 0.8 1 0

xnlopt 1.0925 0.9692 1.97563.3518 2.9498 4.6833

xlinopt 0.3334 0.2335 0.72111.6415 1.6650 1.4849

fval 0.5674 0.7557 8.5165e-006

enl 0.0292 0.0097 0.30850.1112 0.0159 0.5323

elin 0.2752 0.1598 0.72290.9017 0.9288 0.7209

firstorderopt 0.5605 0.2026 1.6839

Cuadro 4.1: Data Lanczos de orden 3.

77

0 0.2 0.4 0.6 0.8 1 1.2 1.40

0.5

1

1.5

2

2.5

3

tiempo

Mue

stra

s y

mej

or a

just

e

Figura 4.1: Mínimos cuadrados puro l=0.

78

0 0.2 0.4 0.6 0.8 1 1.2 1.40

0.5

1

1.5

2

2.5

3

tiempo

Mue

stra

s y

mej

or a

just

e

Figura 4.2: Regularización k=2, l=0.9.

79

k = 2

xlin0 = [0,4940 2,0190] xnl0 = [1,9760 4,6840]

ahat = [0,0700 0,7000] bhat = [0,7000 2,7000]

l 4 0.9 0.85

xnlopt 0.5119 0.7272 0.77912.4564 2.8920 2.9431

xlinopt 0.0627 0.1943 0.21631.6943 1.6515 1.6396

fval 8.2630 0.8919 0.8296enl 0.1544 0.0863 0.0698

0.1719 0.0342 0.0180elin 0.0374 0.1145 0.1400

0.9626 0.9133 0.8995firstorderopt 2.3749 0.5718 0.5504

l 0.8 0.5 0

xnlopt 0.8961 1.3937 1.97563.1118 3.7628 4.6833

xlinopt 0.2755 0.5108 0.72111.6129 1.5027 1.4849

fval 0.7748 0.4931 8.5165e-006

enl 0.0329 0.1245 0.30850.0353 0.2412 0.5323

elin 0.2084 0.4800 0.72290.8687 0.7413 0.7209

firstorderopt 0.6992 1.1699 1.6839

Cuadro 4.2: Data Lanczos de orden 3.

80

k = 2

xlin0 = [0,4940 2,0190] xnl0 = [1,9760 4,6840]

ahat = [0,3610 2,1460] bhat = [1,7120 4,5210]

l 2 1 0.9 0.8

xnlopt 1.7118 1.7120 1.7120 1.71294.5198 4.5201 4.5201 4.5221

xlinopt 0.3603 0.3604 0.3604 0.36082.1476 2.1476 2.1476 2.1475

fval *e-005 3.2707 2.7169 2.6955 2.4286enl 0.2251 0.2252 0.2252 0.2254

0.4806 0.4807 0.4807 0.4813elin 0.3062 0.3063 0.3063 0.3068

1.4861 1.4861 1.4861 1.4860firstorderopt 0.0021 0.0015 0.0015 0.0025

l 0.5 0.2 0.1 0

xnlopt 1.8653 1.8653 1.8653 1.97564.6056 4.6056 4.6056 4.6833

xlinopt 0.3897 0.3897 0.3897 0.72112.1377 2.1377 2.1377 1.4849

fval 0.0057 9.9758e- 3.3027e- 8.5165e-004 004 006

enl 0.2736 0.2736 0.2736 0.30850.5077 0.5077 0.5077 0.5323

elin 0.3402 0.3402 0.3402 0.72291.4747 1.4747 1.4747 0.7209

firstorderopt 0.1576 0.1576 0.1576 1.6839

Cuadro 4.3: Data Lanczos de orden 3.

81

Observaciones respecto a los Cuadros 4.2 y 4.5:

1. En el cuadro 4.2, para k = 2, con iguales valores iniciales, pero con unasolución por defecto diferente, se obtiene un comportamiento similaral caso anterior, de modo que observando los errores relativos y lacondición de primer orden, para l entre 0,8 y 0,9 se encuentran losmejores estimados. Específicamente para l = 0,85 se obtienen “la mejorsolución no lineal”. Para ponderaciones altas los estimados se alejan delvalor real.

2. Para l = 0, mínimos cuadrados puro, se tiene que el valor de la funcióna minimizar fval es muy pequeño, 8,5165e−006, con soluciones lejanasal óptimo, ver cuadro 4.5. El error relativo aumenta y la condición deprimer orden también aumenta a 1,6839. Ver cuadro 4.2.

3. La condición de parada del algoritmo está dada porque el cambio en lanorma de los estimados es menor que la tolerancia especificada.

4. Para l = 0,85 se realizan 16 iteraciones y para l = 0 se realizan 11.

Observaciones respecto al Cuadros 4.3:

El cuadro 4.3 resume el primer experimento numérico realizado, coniguales valores iniciales para un ajuste con k = 2 y con la solución P-Hpor defecto.

Se hicieron diferentes corridas que básicamente permitieron:

1. Observar la diferencia de la solución del problema de mínimos cuadra-dos puro y la solución regularizada.

2. A pesar que la solución P-H no es buena aproximación, da una idea decómo escoger el parámetro l. Al comparar la condición de primer ordenmás pequeña da precisamente para l = 0,9 o l = 1.

3. Para l = 0,9 se obtiene con una diferencia pequeña y por procedimientodistinto la solución P-H. Ver cuadros 4.3 y 4.5.

82

k = 2

l 0 0.9 Valor Realxlinopt xnlopt xlinopt xnlopt xlinopt xnlopt

Minimizador 0.7211 1.9756 0.2335 0.9692 0.0951 1.0000aproximado 1.4849 4.6833 1.6650 2.9498 0.8607 3.0000

Mínimo aproximado 8.5165e-006 0.6837 3.0598 ?

Cuadro 4.4: Comparación de resultados. Solución por defecto real.

Solución P-H xlinopt xnloptMinimizador 0.3610 1.7120aproximado 2.1460 4.5210

Mínimo aproximado 2.7243 ?

k = 2

l 0 0.9 Valor Realxlinopt xnlopt xlinopt xnlopt xlinopt xnlopt

Minimizador 0.7211 1.9756 0.2163 0.7791 0.0951 1.0000aproximado 1.4849 4.6831 1.6396 2.9431 0.8607 3.0000

Mínimo 8.5165e-006 0.8296 3.0598 ?

aproximado

Cuadro 4.5: Comparación de resultados. Solución por defecto cercana al óptimo

teórico.

83

Observaciones respecto a los Cuadros 4.6, 4.7, 4.8 y 4.9:

1. La estimación de los parámetros mejor aproximada al óptimo teóricose da en l = 0,6, con un valor de fval = 6,1194e − 008 y la condiciónde primer orden, es de 2,5612e − 004.Estos resultados corresponden a la figura 4.3.

2. Para l = 5 se obtiene prácticamente el óptimo teórico, pero esto puederesponder a una alta ponderación dada a la función de preferencia, lacual contiene información a priori precisa. Los estimados se mantienencon poco cambio inclusive para ponderaciones altas. Se probó por ejem-plo con l = 10 y l = 100. No obstante, fval es mayor que el valormínimo teórico. Ver cuadros 4.6 y 4.7.

3. Para el problema de mínimos cuadrados puro, l = 0, se observa comoen los casos anteriores el mal condicionamiento, pues aunque el valor dela norma residual es muy pequeño, los estimados están lejos del óptimoteórico o valor real. Ver cuadro 4.7.

4. Para valores donde la ponderación a la función de preferencia es mayor,el algoritmo para porque hay poco cambio en los valores fval, esto espara l entre 0,6 y 5. Pero para l = 0 ó l = 0,1 el algoritmo para porquehay poco cambio en la norma de los estimados.

5. Para l = 0,6 se realizan 10 iteraciones. Para l = 0 el número de itera-ciones es de 12.

6. La información a priori es de alta precisión por lo que en general, elerror relativo es muy pequeño. Se incrementa para l = 0 y l = 0,1.

7. Vale observar que al calcular con el código diseñado el mínimo teórico,ver ? en el cuadro 4.7, colocando como solución por defecto los valoresreales y el parámetro de regularización l = 0,6 se tiene que fval (valormínimo) es menor. Por tanto entre l = 0,6 y l = 5 se escoge el primerocomo “mejor parámetro de regularización”. Escogencia que se hace de-bido a que tiene condición de primer orden menor, cercanía adecuadaa los estimados y fval próximo al mínimo teórico. Esta escogencia dauna solución aproximada, porque teóricamente debe verificarse que lasuma residual regularizada sea menor que el mínimo teórico.

8. El buen desempeño del programa se ratifica con los estimados presenta-dos en el cuadro 4.8 donde se usa como solución por defecto los valoresreales y en el cuadro 4.9 donde la solución por defecto corresponde aun valor “cercano” al óptimo.

84

k = 3

xlin0 = [0,3560 0,3120 1,8450] xnl0 = [1,7140 3,7130 4,6840]

ahat = [0,0950 0,8610 1,5580] bhat = [1,0000 3,0000 5,0000]

l 5 4 1xnlopt 1.0000 0.9999 1.0000

3.0001 2.9998 2.99985.0000 4.9998 4.9999

xlinopt 0.0950 0.0949 0.09500.8608 0.8608 0.86081.5578 1.5578 1.5578

fval 1.4104e- 1.6550e- 3.8732e-006 006 007

1.0e-004* 1.0e-004* 1.0e-004*enl 0.0450 0.1074 0.0195

0.1578 0.4171 0.34180.0644 0.3330 0.1913

1.0e-004* 1.0e-004* 1.0e-004*elin 0.5663 0.9064 0.8296

0.5201 0.4976 0.50510.8647 0.9902 0.9637

firstorderopt 2.9982e- 2.5612e- 0.0024004 004

l 0.6 0.1 0xnlopt 0.9999 1.4634 1.7026

2.9998 3.4718 3.70164.9998 4.7840 4.6890

xlinopt 0.0949 0.1485 0.16910.8608 0.8493 0.84581.5578 1.5337 1.5275

fval 6.1194e- 0.0035 4.5412e-008 006

1.0e-004*enl 0.1074 0.0783 0.1188

0.4171 0.0797 0.11860.3330 0.0365 0.0526

1.0e-004*elin 0.9064 0.0299 0.0415

0.4976 0.0064 0.00830.9902 0.0134 0.0169

firstorderopt 2.5612e- 0.4722 0.7028004

Cuadro 4.6: Data Lanczos de orden 3.

85

k = 3

l 0 0.6 5 Valor Realxlinopt xnlopt xlinopt xnlopt xlinopt xnlopt xlinopt xnlopt

Minimizador 0.1691 1.7026 0.0949 0.9999 0.0950 1.0000 0.0951 1.0000aproximado 0.8458 3.7016 0.8608 2.9998 0.8608 3.0001 0.8610 3.0000

1.5275 4.6890 1.5578 4.9998 1.5578 5.0000 1.5580 5.0000Mínimo 4.5412e-006 6.1194e-008 1.4104e-006 2.6844e-008?

aproximado

Cuadro 4.7: Comparación de resultados.

0 0.2 0.4 0.6 0.8 1 1.2

0.5

1

1.5

2

2.5

tiempo

Mue

stra

s y

mej

or a

just

e

Figura 4.3: Solución regularizada l = 0,6. Para el ajuste con k = 3.

k = 3

xlin0 = [0,3560 0,3120 1,8450] xnl0 = [1,7140 3,7130 4,6840]

ahat = [0,0951 0,8607 1,5576] bhat = [1,0000 3,0000 5,0000]

l 0 0.6 0.9 5

xnlopt 1.7026 0.9999 1.0000 0.99993.7016 2.9997 2.9998 2.99974.6890 4.9998 4.9999 4.9998

xlinopt 0.1693 0.0950 0.0951 0.09500.8457 0.8607 0.8607 0.86071.5273 1.5576 1.5576 1.5576

fval 4.5294e- 2.6844e- 3.1200e- 1.7025e-006 008 007 006

1.0e-004* 1.0e-004* 1.0e-004*enl 0.1188 0.1402 0.0522 0.1402

0.1186 0.4738 0.3985 0.47380.0526 0.3446 0.2028 0.3446

1.0e-004* 1.0e-004* 1.0e-004*elin 0.0416 0.2867 0.2098 0.2867

0.0084 0.0194 0.0119 0.01940.0170 0.1055 0.0790 0.1055

firstorderopt 0.7028 2.5658e-004 0.0024 2.5658e-004

Cuadro 4.8: Data Lanczos de orden 3.

87

k = 3

xlin0 = [0,3560 0,3120 1,8450] xnl0 = [1,7140 3,7130 4,6840]

ahat = [0,0700 0,7000 1,7000] bhat = [0,7000 2,7000 4,7000]

l 0 0.6 0.9 5

xnlopt 1.7140 0.7000 0.6994 0.70153.7130 2.6983 2.6960 2.70374.6840 4.6998 4.6973 4.7065

xlinopt 0.1776 0.0499 0.0495 0.05100.6970 0.7107 0.7106 0.71091.6764 1.7238 1.7240 1.7234

fval 5.3469e- 0.0010 0.0013 0.0118006

enl 0.1207 0.0507 0.0508 0.05050.1205 0.0510 0.0514 0.05010.0534 0.0507 0.0512 0.0496

elin 0.0463 0.0254 0.0256 0.02470.0919 0.0842 0.0842 0.08410.0667 0.0933 0.0934 0.0931

firstorderopt 1.0143 0.0073 0.0068 0.0156

Cuadro 4.9: Data Lanczos de orden 3.

88

Conclusiones

1. En este trabajo, la estrategia de regularización para aproximar sumasde exponenciales, se ejecuta a partir del método Bayesiano. La funcióna minimizar, que permite obtener evaluaciones de los parámetros, es elestimador máximo a posteriori, obtenido bajo hipótesis de normalidadpara el ruido y para la distribución de probabilidad a priori. En estafunción, el término correspondiente a la información a priori, es ponde-rado por un parámetro de regularización. Para optimizar esta función seaprovecha la estructura del modelo de sumas de exponenciales, usandouna técnica de separación de variables, para lo cual primero se reduce eltamaño del espacio de búsqueda a los parámetros no lineales, se imple-menta la rutina de optimización no lineal. Luego se actualiza la matrizdel problema y para completar la estimación, se resuelve un sistema deecuaciones lineales.

2. En las diferentes corridas del programa se observa cómo las estimacionesse alejan o aproximan al valor real, de acuerdo a la ponderación dadaa la regularización. Para mínimos cuadrados puro aunque el valor dela norma residual es casi cero y la visualización gráfica del ajuste es“aparentemente bueno”, la estimación de los parámetros está lejos delvalor real, por lo que el error relativo es grande. Esta situación respondea que el problema es “mal puesto”. A medida que el parámetro deregularización aumenta, se logra obtener un balance entre el ajuste de ladata y el tamaño de la estimación, acercándose al óptimo teórico. Perosi el parámetro de regularización es “muy grande”, las estimaciones sealejan del óptimo teórico debido a una alta ponderación en la función depreferencia, despreciando el ajuste a la data. Estos resultados reafirmanel comportamiento heurístico que se espera obtener a través del criteriode la curva-L.

89

3. Con esta investigación se logró:

a) En cuanto a investigaciones anteriores:

El estudio teórico de métodos de estimación de parámetros ensumas de exponenciales.

El estudio teórico de diferentes métodos de regularización.

Conocer el estado del arte para el problema de aproximarsumas de exponenciales.

b) En cuanto a nuevos resultados:

Obtener un estimador máximo a posteriori con una técnicade separación de variables para el modelo de suma de expo-nenciales.

Diseñar e implementar un código en Matlab, usando el es-timador obtenido, permitiendo realizar el análisis numéricode una estrategia de regularización aplicado a la estimaciónde parámetros en sumas de exponenciales, usando adecua-da información a priori, tomada del artículo de Petersson yHolmström [26].

Comparar resultados teóricos presentados por Petersson yHolmström [26] con los obtenidos al implementar el códigodiseñado, obteniendo resultados similares.

4. Vale destacar que en los resultados numéricos obtenidos, en general, lanorma de la solución de mínimos cuadrados es mayor que la norma dela solución regularizada. Esta conclusión es importante para plantear elproblema de mínimos cuadrados restricto a que la norma de la soluciónesté acotada. Regularizar a través de la escogencia adecuada de estacota es la base para los métodos de región de confianza [12], lo cual estema de un próximo trabajo.

90

Bibliografía

[1] M. Al-Baali and R. Fletcher. Variational methods for non-linear leastsquares. J. Oper. Res. Soc., 36:405-421, 1985.

[2] A. Alvarez. Modelo de ajuste de sumas aleatorias de exponenciales usan-do técnicas de programación semidefinida. Proyecto de Tesis Doctoral.Doctorado en Matemáticas. Facultad de Ciencias. Universidad Centralde Venezuela. Abril. 2007.

[3] D.M. Bates and D.G. Watts, (1988). Nonlinear Regression Analysis andits applications. New York: Wiley.

[4] M. S. Bazaraa and C. M. Shetty. Nonlinear Programming. Theory andAlgorithms. John Wiley and Sons. New York, 1979.

[5] A. Björck. Numerical methods for Least Squares Problems, SIAM Pub-lications, Philadelphia, 1996.

[6] R. K. Bryan. Maximun Entropy and Bayesian Methods, ed. P.F. Fougère(Kluwer, Dordrecht, 1990) pp. 221-232.

[7] J. Burstein. Approximations by exponentials, their extensions and dif-ferential equations. Metric Press, Boston, 1997.

[8] A. R. Conn, N. I. M. Gould, P. L. Toint. Trust-Region Methods. MPS-SIAM Series on Optimization. Philadelphia, 2000.

[9] R. G. Cornell. A method for fitting linear combinations of exponentiales.Biometrics, pages 104-113, 1962.

[10] N. R. Draper H. Smith. Applied Regression Analysis. Wiley Series inProbability and Statistics. Third edition. New York, (1998).

[11] G. Golub and V. Pereyra. Separable nonlinear least squares: the varia-ble projection method and its applications. INVERSE PROBLEMS 19(2):R1-R26 APR 2003

91

[12] O. Grodzevich and H. Wolkowicz. Regularization using a parameterizedtrust region subproblem. University of Waterloo. Deparment of Combi-natorics Optimization. ontario, Canada. Research Report CORR 2005-11.

[13] M. Hanke. Limitations of the L-curve method in ill-posed problems, BIT,36(1996), pp. 287-301.

[14] P.C. Hansen and D.P.O’Leary. The use of the L-curve in the regular-ization of discrete ill-posed problems. SIAM J.SCI: COMPUT. Vol.14,Nž6, pp. 1487-1503, November, 1993.

[15] F. Hildebrand. Introduction to Numerical Analysis. McGraw-Hill, 1956.

[16] B. R. James. Probabilidade: um curso em nivel intermediário. ProjetoEuclides. IMPA, Rio de Janeiro, 1981.

[17] R. I. Jennrich and P. B. Bright. Fitting systems of linear differentialequations using computer generated exact derivatives. Technometrics,18(4): 385-392, November 1976.

[18] P. Kirkegaard and M. Eldrup. Positronfit: A versatile program foranalysing positron lifetime spectra. Computer Physics Communications,3:240-255, 1972.

[19] C.L. Lawson and R. J. Hanson, Solving Least Squares, SIAM, Philadel-phia, PA, 1995.

[20] D. E. Luenberguer. Programación lineal y no lineal. Addison-WesleyIberoamericana. Wilmington, Delaware, E.U.A. 1989.

[21] K.V.Mital. Métodos de Optimización.Editorial Limusa. México,1984.

[22] A. Mohammad-Djafari, J.-F.Giovannelli, G. Demoment, J. Idier. Regu-larization, maximum entropy and probabilistic methods in mass spec-trometry data procesing problems. International Journal of Mass Spec-trometry 215 (2002) 175-193.

[23] S. G. Nash and A. Sofer. Linear and Nonlinear Programming. McGraw-Hill. USA, 1996.

[24] M.R. Osborne. Some special nonlinear least squares problems. SIAM J.Numer. Anal. Vol. 12- 4, September 1975.

92

[25] J. Petersson and K. Holmström. A Review of the Parameter Estima-tion Problem of Fitting Positive Exponential Sums to Empirical Data.Technical Report IMa-TOM-1997-08, Center of Mathematical Modeling.Deparment of Mathematics and Physics Malardalen University, 1997.

[26] J. Petersson and K. Holmström. Methods for parameter estimation inexponential sums. Technical Report IMa-TOM-1997-5, Center of Math-ematical Modeling. Deparment of Mathematics and Physics MalardalenUniversity, 1997.

[27] A. Ruhe and P-A Wedin. Algorithms for Separable Nonlinear LeastSquares Problems. SIAM Review, 22:318-337, 1980.

[28] A. Ruhe. Fitting empirical data by positive sums of exponentials. SIAMJournal on Scientific and Statistical Computing, 1(4):481-498, 1980.

[29] G. Scherer. Solución de problemas de mínimos cuadrados y aplicaciones.Barquisimeto, EVESINCIC 2005.

[30] G.A.F. Seber and C.J. Wild (1989). Nonlinear Regression. New York:Wiley.

[31] A. Shukla, M. P. and L. Hoffman. Analysis of positron lifetime spectrausing quantified maximun entropy and a general linear filter. Départe-ment de Physique de la Matière Condensée, Université de Genève, 24Quai Ernest Ansermet, CH-1211 Genève 4, Switzerland, 1993.

[32] H.S. Steyn and J.W. Van Wyk. Some methods for fitting compartmentmodels to data. Technical report, Wetenskaplike bydraes van die pu vircho, Potchefstroomse Universiteit vir CHO, 1977.

[33] S.M. Tan and Colin. Physics 707 Inverse Problems. The University ofAuckland.

[34] A. N. Tikhonov and V. Y. Arsenin. Solution of ill-posed problems, JohnWiley and Sons. 1977.

[35] Universidad Nacional Abierta. Álgebra II, Caracas, tercera edición,1985.

[36] Universidad Nacional Abierta. Inferencia Estadística, Caracas, sextareimpresión, 1997.

[37] C.R. Vogel. Non convergence of the L-curve regularization parameterselection method. Inverse Problems, 12 (1996), pp. 535-547.

93

[38] Y. Wang and Y. Yuan. Convergence and regularity of trust regionmethods for nonlinear ill-posed inverse problems. Inverse Problems 21(2005) 821-838.

[39] W.J. Wiscombe and J.W. Evans. Exponential-Sum fitting of radiativetransmission functions. Computational Physics, 24(4):416-444, August1977.

[40] www.netlib.org

[41] http://www.ece.umn.edu/users/luozq

94