aula13

IA353 – Prof. Von ZubenDCA/FEEC/Unicamp

1

Regressão paramétrica e não-paramétrica

1. Introdução

• há dois grandes problemas na ciência moderna:

1. mais pessoas do que se aceita como razoável usam terminologias diferentes para

resolver os mesmos problemas;

2. muito mais pessoas usam a mesma terminologia para abordar questões

completamente distintas.

Autoria desconhecida

• diferentes denominações para o problema de estimar uma função a partir de

exemplos de estímulo-resposta (entrada-saída):

1. regressão (paramétrica/não-paramétrica) 2. aproximação de funções

3. identificação de sistemas 4. aprendizado supervisionado


2

• conjunto de treinamento: estímulo / entrada / variáveis independentesresposta / saída / variáveis dependentes

• regressão paramétrica: a forma do relacionamento funcional entre as variáveis

dependentes e independentes é conhecida, mas podem existir parâmetros cujos

valores são desconhecidos, embora passíveis de serem estimados a partir do

conjunto de treinamento.

• em problemas paramétricos, os parâmetros livres, bem como as variáveis

dependentes e independentes, geralmente têm uma interpretação física.

• Exemplo: ajuste de uma reta a uma distribuição de pontos

baxyxf +==)(

a,b desconhecidos

y: sujeito a ruído

•

• •

•

( x 1 ,y 1 )

( x 4 ,y 4 )

( x 3 ,y 3 )( x 2 ,y 2 )

x

y


3

• regressão não-paramétrica: sua característica distintiva é a ausência (completa ou

quase completa) de conhecimento a priori a respeito da forma da função que está

sendo estimada. Sendo assim, mesmo que a função continue a ser estimada a

partir do ajuste de parâmetros livres, o conjunto de “formas” que a função pode

assumir (classe de funções que o modelo do estimador pode prever) é muito

amplo.

• como conseqüência, vai existir um número elevado de parâmetros (por exemplo,

quando comparado ao número de dados de entrada-saída para treinamento), os

quais não mais admitem uma interpretação física isolada.

• •m odelos puram entenão-param étricos

(requerem um conjuntoinfin ito de dados

do prob lem a)

• ••m odelos puram ente

param étricos(requerem um conjunto

fin ito de dadosdo prob lem a)

R BFperceptron

m odelos baseadosem aprendizado

constru tivo


4

• todos os modelos de regressão que não são puramente paramétricos são

denominados não-paramétricos ou semi-paramétricos. Esta denominação não deve

causar confusão, principalmente levando-se em conta que modelos de regressão

puramente não-paramétricos são intratáveis.

• com base no exposto acima, fica evidente que redes neurais artificiais para

treinamento supervisionado pertencem à classe de modelos de regressão não-

paramétricos. Sendo assim, os pesos não apresentam um significado físico

particular em relação ao problema de aplicação.

• além disso, estimar os parâmetros de um modelo não-paramétrico (por exemplo,

pesos de uma rede neural artificial) não é o objetivo primário do aprendizado

supervisionado. O objetivo primário é estimar a “forma” da função em uma região

compacta do espaço de aproximação (ou ao menos a saída para certos valores

desejados de entrada).


5

• por outro lado, em regressão paramétrica, o objetivo primário é estimar o valor

dos parâmetros, por dois motivos:

1. a “forma” da função já é conhecida;

2. os parâmetros admitem uma interpretação física.

2. O problema de classificação de padrões revisitado

• problemas de classificação de padrões podem ser transformados em problemas de

regressão, pela simples introdução de um pós-processamento da saída do modelo

de regressão:

padrão aser

c lassificado

saída classem odelode

regressão

pós-processam ento

• obs: nos dois exemplos apresentados a seguir, o critério de erro deve ser tomado

como sendo o número de padrões classificados incorretamente, e não o erro

(quadrático médio) frente à saída desejada.


6

2.1 Tipos de pós-processamento: Exemplo 1

• número de classes: 3 (válido para

qualquer valor ≥ 2)

• intervalo de saída: (−1,+1)

saída classepós-processamento

• pós-processamento:Se saída ∈ (−1, 31− ], então classe é 1.Se saída ∈ ( 31− , 31+ ], então classe é 2.Se saída ∈ ( 31+ ,+1), então classe é 3.• limiar de erro para treinamento:Se classe é 1 e saída ∈ (−1, 21− ], então classificação correta → não ajustar pesos.

Se classe é 1 e saída ∉ (−1, 21− ], então classificação incorreta → ajustar pesos tomando como

saída desejada 43− .

Se classe é 2 e saída ∈ [ 41− , 41+ ], então classificação correta → não ajustar pesos.

Se classe é 2 e saída ∉ [ 41− , 41+ ], então classificação incorreta → ajustar pesos tomando

como saída desejada 0.Se classe é 3 e saída ∈ [+0.5,+1), então classificação correta → não ajustar pesos.Se classe é 3 e saída ∉ [+0.5,+1), então classificação incorreta → ajustar pesos tomando comosaída desejada 43+ .


7

2.2 Tipos de pós-processamento: Exemplo 2

• número de classes: 3 (válido para

qualquer valor ≥ 2)

• intervalo de saída i: (−1,+1)

saída 1classepós-

processamentosaída 2

saída 3

• pós-processamento:Se i

isaída max = saída 1, então classe é 1.

Se ii

saída max = saída 2, então classe é 2.

Se ii

saída max = saída 3, então classe é 3.

• limiar de erro para treinamento:Se classe é 1 e i

isaída max = saída 1, então classificação correta → não ajustar pesos.

Se classe é 1 e ii

saída max ≠ saída 1, então classificação incorreta → ajustar pesos tomando

como saída desejada (+1,−1,−1).Se classe é 2 e i

isaída max = saída 2, então classificação correta → não ajustar pesos.

Se classe é 2 e ii


como saída desejada (−1,+1,−1).


8

Se classe é 3 e ii

saída max = saída 3, então classificação correta → não ajustar pesos.

Se classe é 3 e ii


como saída desejada (−1,−1,+1).

2.3 Vantagens e desvantagens de cada tipo de pós-processamento

• o exemplo 1 representa um único problema de regressão multinivelado, contra

múltiplos problemas de regressão do exemplo 2.

• o exemplo 2 possui uma representação mais próxima da natureza do problema.

classe 1 classe 2 classe 3

c la s s e 1 c la s s e 2 c la s s e 3

c la s s e 1 c la s s e 2 c la s s e 3

Exemplo 1 Exemplo 2


9

3. Modelos de regressão lineares

• uma modelo linear f(x) para uma função y(x) assume a forma:

∑=

=m

jjj hwf

1

)()( xx ,

representando uma combinação linear de um conjunto de m funções fixas,

geralmente denominadas funções-base, por analogia com o conceito de vetor

gerado a partir de uma combinação linear de vetores-base.

• o modelo é linear porque a flexibilidade de f(⋅), ou seja, sua habilidade de assumir

“formas” diferentes, deriva apenas da liberdade de escolher diferentes valores para

os coeficientes da combinação linear, wj (j=1,...,m). As funções-base, que podem

ser não-lineares, e quaisquer parâmetros que elas possam conter, são assumidos

fixos. Caso contrário, para o caso de funções-base não-lineares o modelo seria

não-linear.


10

• em princípio, qualquer conjunto de funções pode ser escolhido para formar a base

hj(⋅), j=1,...,m, embora existam (o que não implica que possam ser facilmente

obtidos) conjuntos mais adequados para cada problema e também conjuntos

suficientemente flexíveis para apresentarem desempenho adequado frente a uma

ampla classe de funções y(⋅).

• como um caso particular e de grande interesse prático (em virtude da maior

facilidade de manipulação matemática e maior simplicidade na dedução de

propriedades básicas), existem os modelos lineares cujas funções-base são

compostas por elementos de uma única classe de funções.

• exemplos de classes de funções-base:

funções-base polinomiais: 1)( −= jj xxh

funções-base senoidais (série de Fourier): ( )

θ−π=

m

xjsenxh j

j

2)(

funções-base logísticas (perceptron): ( )jTj

jb

h0exp1

1)(

−+=

xbx


11

• Nota 1: no exemplo de regressão paramétrica apresentado no início deste tópico do

curso, foi utilizada a função baxxf +=)( , que representa um modelo com

funções-base h1(x) = 1 e h2(x) = x, e coeficientes w1 = b e w2 = a.

• Nota 2: o grande atrativo apresentado pelos modelos lineares está na possibilidade

de obter o conjunto de coeficientes da combinação linear em forma fechada,

através da aplicação de técnicas de solução baseadas em quadrados mínimos. O

mesmo não se aplica (na maioria absoluta dos casos) a modelos não-lineares, os

quais requerem processos numéricos iterativos (técnicas de otimização não-linear)

para obter a solução.

3.1 Funções de base radial

• é uma classe particular de funções-base caracterizadas por apresentarem uma

resposta que decresce (ou cresce) monotonicamente com a distância a um ponto

central.


12

• o centro e a taxa de decrescimento (ou crescimento) em cada direção são

parâmetros do modelo de regressão. Estes parâmetros devem ser fixos caso o

modelo seja tomado como linear.

• uma função de base radial monotonicamente decrescente típica é a função

Gaussiana, dada na forma:

( )

−−=

2

2

exp)(j

jj

r

cxxh , para o caso escalar

( ) ( )( )jjT

jjh cxRcxx −−−= −1exp)( , para o caso multivariável ( 1−jR > 0)

• a função ( )

j

jjj r

cxrxh

22

)(−+

= é um exemplo do caso monotonicamente

crescente.


13

-2 -1 0 1 20

0.2

0.4

0.6

0.8

1

x

hj(x)

-2 -1 0 1 20

0.5

1

1.5

2

2.5

3

x

hj(x)

Figura 1 - Funções radiais ( )

−−=

2

2

exp)(j

jj

r

cxxh e

( )j

jjj r

cxrxh

22

)(−+

= para cj = 0 e rj = 1

3.2 Rede neural de base radial (RBF: Radial Basis Function )

• em princípio, as funções de base radial podem ser utilizadas em qualquer tipo de

modelo de regressão (linear ou não-linear) e, particularmente, como função de

ativação de qualquer tipo de rede multicamada.


14

• as redes neurais de base radial foram originalmente propostas para o caso de uma

única camada intermediária, tomando a função Gaussiana como função de

ativação.

f(x)

w1wj

wm

h1(x ) hj(x ) hm(x )

x1 xi xn

... ...

... ...

Figura 2 - Rede neural de base radial (BROOMHEAD & L OWE, 1988)


15

• se apenas os pesos da camada de saída puderem ser ajustados, então a rede neural

é linear em relação aos parâmetros. Caso contrário, a rede neural é não-linear em

relação aos parâmetros, admitindo o próprio algoritmo de retro-propagação do erro

para o ajuste dos demais parâmetros (centros e taxas de decrescimento) via

treinamento supervisionado, como feito no caso do perceptron.

4. O método dos quadrados mínimos

• quando o treinamento supervisionado é aplicado a modelos lineares, o método dos

quadrados mínimos conduz a um problema de otimização que apresenta solução na

forma fechada.

• assim, com um modelo de regressão linear na forma

∑=

=m

jjj hwf

1

)()( xx


16

e o conjunto de treinamento dado por ( ){ }piii s 1, =x , o método dos quadrados

mínimos se ocupa em minimizar (em relação aos coeficientes da combinação

linear) a soma dos quadrados dos erros produzidos a partir de cada um dos p

padrões de entrada-saída.

( ) ∑ ∑∑= ==

−=−=

p

i

m

jijji

p

iii hwsfsS

1

2

11

2 )(min)(min)(min xxwwww

4.1 Obtenção da solução ótima

• do Cálculo Elementar sabe-se que a aplicação da condição de otimalidade

(restrições atendidas pelos pontos de máximo e mínimo de uma função

diferenciável) permite obter a solução ótima do problema de otimização

)(min ww

S , na forma:

1. diferencie a função em relação às variáveis livres;2. iguale o resultado a zero;3. resolva o sistema de equações resultante.


17

• no caso em questão, os parâmetros livres são os coeficientes da combinação linear,

dados na forma do vetor de pesos [ ]Tmj www ��1=w .

• para o j-ésimo peso temos:

( ) ( ) 0)()(2)(211

=−−=∂∂−−=

∂∂ ∑∑

==

p

iijii

p

i jii

j

hfsw

ffs

w

Sxxx , j=1,...,m.

• logo, o sistema de equações resultante assume a forma:

∑∑==

=p

iiji

p

iiji hshf

11

)()()( xxx , j=1,...,m.

• portanto, existem m equações para obter as m incógnitas. Exceto sob condições

patológicas, este sistema de equações vai apresentar uma solução única.

• para encontrar esta solução única do sistema de equações lineares, é interessante

recorrer à notação vetorial, fornecida pela álgebra linear, para obter:

shfh Tj

Tj = , j=1,...,m,

onde


18

=

)(

)( 1

pj

j

j

h

h

x

x

h � ,

=

)(

)( 1

pf

f

x

x

f � e

=

ps

s

�

1

s .

• como existem m equações, resulta:

=

sh

sh

fh

fh

Tm

T

Tm

T

��

11

• definindo a matriz H, com sua j-ésima coluna dada por hj, temos:

[ ]

==

)()()(

)()()(

)()()(

21

22221

11211

21

pmpp

m

m

m

hhh

hhh

hhh

xxx

xxx

xxx

hhhH

�

��

�

�

�

sendo possível reescrever o sistema de equações lineares como segue:

sHfH TT =


19

• o i-ésimo componente do vetor f pode ser apresentado na forma:

[ ]wxxxxx ∑=

===m

jimiiijjii hhhhwff

121 )()()()()( �

permitindo expressar f em função da matriz H, de modo que:

f = Hw

• substituindo no sistema de equações lineares, resulta a solução ótima para o vetor

de coeficientes da combinação linear (que, por exemplo, correspondem aos pesos

da camada de saída da rede neural de base radial):

( ) sHHHwsHHwH TTTT 1−=⇒=

• esta equação de solução do problema dos quadrados mínimos é conhecida como

equação normal. Para que exista a inversa de HTH, basta que a matriz H tenha

posto completo.


20

4.2 Exemplo

• o modelo linear de regressão mais simples é a reta, aplicada nos casos em que a

entrada é escalar: )()()( 2211 xhwxhwxf += , onde h1(x) = 1 e h2(x) = x.

• assuma que foram amostrados, na presença de ruído, três pontos da curva y = x,

gerando o conjunto de treinamento: { } { })1.3,3(),8.1,2(),1.1,1(),( 1 ==piii sx .

• obviamente, não se conhece a equação da curva, mas apenas estes três pontos

amostrados.

• para estimar w1 e w2, vamos proceder de acordo com os passos do método dos

quadrados mínimos.

=

=

31

21

11

)()(

)()(

)()(

3231

2221

1211

xhxh

xhxh

xhxh

H

=

1.3

8.1

1.1

s ( )

==

−

1

01sHHHw TT

• para o mesmo conjunto de treinamento, assuma agora que


21

)()()()( 332211 xhwxhwxhwxf ++= ,

onde h1(x) = 1, h2(x) = x e h3(x) = x2.

• o efeito da adição da função-base extra h3(x) representa a adição de uma coluna

=

=

9

4

1

)(

)(

)(

33

23

13

3

xh

xh

xh

h junto à matriz H, e a solução assume a forma

−=

3.0

2.0

1

w .

0 1 2 3 40

0.5

1

1.5

2

2.5

3

3.5

4

x

y

Figura 3 - Modelos de regressão linear (ordem 1 e ordem 2)


22

0 2 4 6 8 100

0.2

0.4

0.6

0.8

1

0 2 4 6 8 100

1

2

3

4

5

6

Pontos amostrados: (1,2); (3,7); (5,6)

=

5

3

1

c ;

=

3

1

2

r ;

=

930.5

850.2

945.0

w

0 2 4 6 8 100

1

2

3

4

5

6

7

8


23

0 2 4 6 8 100

0.2

0.4

0.6

0.8

1

0 2 4 6 8 100

1

2

3

4

5

6

Pontos amostrados: (1,2); (3,7); (5,6); (8,1)

=

5

3

1

c ;

=

3

1

2

r ;

=

538.5

084.3

012.1

w

0 2 4 6 8 100

1

2

3

4

5

6

7

8


24

5. Referências

BROOMHEAD, D.S. & LOWE, D. “Multivariate functional interpolation and adaptive

networks”, Complex Systems, vol. 2, pp. 321-355, 1988.

ORR, M.J.L. “Introduction to Radial Basis Function Networks”, Technical Report,

Centre for Cognitive Science, University of Edinburgh, Scotland, 1996.

aula13

Documents