aula13
DESCRIPTION
aula13TRANSCRIPT
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
1
Regressão paramétrica e não-paramétrica
1. Introdução
• há dois grandes problemas na ciência moderna:
1. mais pessoas do que se aceita como razoável usam terminologias diferentes para
resolver os mesmos problemas;
2. muito mais pessoas usam a mesma terminologia para abordar questões
completamente distintas.
Autoria desconhecida
• diferentes denominações para o problema de estimar uma função a partir de
exemplos de estímulo-resposta (entrada-saída):
1. regressão (paramétrica/não-paramétrica) 2. aproximação de funções
3. identificação de sistemas 4. aprendizado supervisionado
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
2
• conjunto de treinamento: estímulo / entrada / variáveis independentesresposta / saída / variáveis dependentes
• regressão paramétrica: a forma do relacionamento funcional entre as variáveis
dependentes e independentes é conhecida, mas podem existir parâmetros cujos
valores são desconhecidos, embora passíveis de serem estimados a partir do
conjunto de treinamento.
• em problemas paramétricos, os parâmetros livres, bem como as variáveis
dependentes e independentes, geralmente têm uma interpretação física.
• Exemplo: ajuste de uma reta a uma distribuição de pontos
baxyxf +==)(
a,b desconhecidos
y: sujeito a ruído
•
• •
•
( x 1 ,y 1 )
( x 4 ,y 4 )
( x 3 ,y 3 )( x 2 ,y 2 )
x
y
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
3
• regressão não-paramétrica: sua característica distintiva é a ausência (completa ou
quase completa) de conhecimento a priori a respeito da forma da função que está
sendo estimada. Sendo assim, mesmo que a função continue a ser estimada a
partir do ajuste de parâmetros livres, o conjunto de “formas” que a função pode
assumir (classe de funções que o modelo do estimador pode prever) é muito
amplo.
• como conseqüência, vai existir um número elevado de parâmetros (por exemplo,
quando comparado ao número de dados de entrada-saída para treinamento), os
quais não mais admitem uma interpretação física isolada.
• •m odelos puram entenão-param étricos
(requerem um conjuntoinfin ito de dados
do prob lem a)
• ••m odelos puram ente
param étricos(requerem um conjunto
fin ito de dadosdo prob lem a)
R BFperceptron
m odelos baseadosem aprendizado
constru tivo
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
4
• todos os modelos de regressão que não são puramente paramétricos são
denominados não-paramétricos ou semi-paramétricos. Esta denominação não deve
causar confusão, principalmente levando-se em conta que modelos de regressão
puramente não-paramétricos são intratáveis.
• com base no exposto acima, fica evidente que redes neurais artificiais para
treinamento supervisionado pertencem à classe de modelos de regressão não-
paramétricos. Sendo assim, os pesos não apresentam um significado físico
particular em relação ao problema de aplicação.
• além disso, estimar os parâmetros de um modelo não-paramétrico (por exemplo,
pesos de uma rede neural artificial) não é o objetivo primário do aprendizado
supervisionado. O objetivo primário é estimar a “forma” da função em uma região
compacta do espaço de aproximação (ou ao menos a saída para certos valores
desejados de entrada).
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
5
• por outro lado, em regressão paramétrica, o objetivo primário é estimar o valor
dos parâmetros, por dois motivos:
1. a “forma” da função já é conhecida;
2. os parâmetros admitem uma interpretação física.
2. O problema de classificação de padrões revisitado
• problemas de classificação de padrões podem ser transformados em problemas de
regressão, pela simples introdução de um pós-processamento da saída do modelo
de regressão:
padrão aser
c lassificado
saída classem odelode
regressão
pós-processam ento
• obs: nos dois exemplos apresentados a seguir, o critério de erro deve ser tomado
como sendo o número de padrões classificados incorretamente, e não o erro
(quadrático médio) frente à saída desejada.
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
6
2.1 Tipos de pós-processamento: Exemplo 1
• número de classes: 3 (válido para
qualquer valor ≥ 2)
• intervalo de saída: (−1,+1)
saída classepós-processamento
• pós-processamento:Se saída ∈ (−1, 31− ], então classe é 1.Se saída ∈ ( 31− , 31+ ], então classe é 2.Se saída ∈ ( 31+ ,+1), então classe é 3.• limiar de erro para treinamento:Se classe é 1 e saída ∈ (−1, 21− ], então classificação correta → não ajustar pesos.
Se classe é 1 e saída ∉ (−1, 21− ], então classificação incorreta → ajustar pesos tomando como
saída desejada 43− .
Se classe é 2 e saída ∈ [ 41− , 41+ ], então classificação correta → não ajustar pesos.
Se classe é 2 e saída ∉ [ 41− , 41+ ], então classificação incorreta → ajustar pesos tomando
como saída desejada 0.Se classe é 3 e saída ∈ [+0.5,+1), então classificação correta → não ajustar pesos.Se classe é 3 e saída ∉ [+0.5,+1), então classificação incorreta → ajustar pesos tomando comosaída desejada 43+ .
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
7
2.2 Tipos de pós-processamento: Exemplo 2
• número de classes: 3 (válido para
qualquer valor ≥ 2)
• intervalo de saída i: (−1,+1)
saída 1classepós-
processamentosaída 2
saída 3
• pós-processamento:Se i
isaída max = saída 1, então classe é 1.
Se ii
saída max = saída 2, então classe é 2.
Se ii
saída max = saída 3, então classe é 3.
• limiar de erro para treinamento:Se classe é 1 e i
isaída max = saída 1, então classificação correta → não ajustar pesos.
Se classe é 1 e ii
saída max ≠ saída 1, então classificação incorreta → ajustar pesos tomando
como saída desejada (+1,−1,−1).Se classe é 2 e i
isaída max = saída 2, então classificação correta → não ajustar pesos.
Se classe é 2 e ii
saída max ≠ saída 2, então classificação incorreta → ajustar pesos tomando
como saída desejada (−1,+1,−1).
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
8
Se classe é 3 e ii
saída max = saída 3, então classificação correta → não ajustar pesos.
Se classe é 3 e ii
saída max ≠ saída 3, então classificação incorreta → ajustar pesos tomando
como saída desejada (−1,−1,+1).
2.3 Vantagens e desvantagens de cada tipo de pós-processamento
• o exemplo 1 representa um único problema de regressão multinivelado, contra
múltiplos problemas de regressão do exemplo 2.
• o exemplo 2 possui uma representação mais próxima da natureza do problema.
classe 1 classe 2 classe 3
c la s s e 1 c la s s e 2 c la s s e 3
c la s s e 1 c la s s e 2 c la s s e 3
Exemplo 1 Exemplo 2
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
9
3. Modelos de regressão lineares
• uma modelo linear f(x) para uma função y(x) assume a forma:
∑=
=m
jjj hwf
1
)()( xx ,
representando uma combinação linear de um conjunto de m funções fixas,
geralmente denominadas funções-base, por analogia com o conceito de vetor
gerado a partir de uma combinação linear de vetores-base.
• o modelo é linear porque a flexibilidade de f(⋅), ou seja, sua habilidade de assumir
“formas” diferentes, deriva apenas da liberdade de escolher diferentes valores para
os coeficientes da combinação linear, wj (j=1,...,m). As funções-base, que podem
ser não-lineares, e quaisquer parâmetros que elas possam conter, são assumidos
fixos. Caso contrário, para o caso de funções-base não-lineares o modelo seria
não-linear.
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
10
• em princípio, qualquer conjunto de funções pode ser escolhido para formar a base
hj(⋅), j=1,...,m, embora existam (o que não implica que possam ser facilmente
obtidos) conjuntos mais adequados para cada problema e também conjuntos
suficientemente flexíveis para apresentarem desempenho adequado frente a uma
ampla classe de funções y(⋅).
• como um caso particular e de grande interesse prático (em virtude da maior
facilidade de manipulação matemática e maior simplicidade na dedução de
propriedades básicas), existem os modelos lineares cujas funções-base são
compostas por elementos de uma única classe de funções.
• exemplos de classes de funções-base:
funções-base polinomiais: 1)( −= jj xxh
funções-base senoidais (série de Fourier): ( )
θ−π=
m
xjsenxh j
j
2)(
funções-base logísticas (perceptron): ( )jTj
jb
h0exp1
1)(
−+=
xbx
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
11
• Nota 1: no exemplo de regressão paramétrica apresentado no início deste tópico do
curso, foi utilizada a função baxxf +=)( , que representa um modelo com
funções-base h1(x) = 1 e h2(x) = x, e coeficientes w1 = b e w2 = a.
• Nota 2: o grande atrativo apresentado pelos modelos lineares está na possibilidade
de obter o conjunto de coeficientes da combinação linear em forma fechada,
através da aplicação de técnicas de solução baseadas em quadrados mínimos. O
mesmo não se aplica (na maioria absoluta dos casos) a modelos não-lineares, os
quais requerem processos numéricos iterativos (técnicas de otimização não-linear)
para obter a solução.
3.1 Funções de base radial
• é uma classe particular de funções-base caracterizadas por apresentarem uma
resposta que decresce (ou cresce) monotonicamente com a distância a um ponto
central.
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
12
• o centro e a taxa de decrescimento (ou crescimento) em cada direção são
parâmetros do modelo de regressão. Estes parâmetros devem ser fixos caso o
modelo seja tomado como linear.
• uma função de base radial monotonicamente decrescente típica é a função
Gaussiana, dada na forma:
( )
−−=
2
2
exp)(j
jj
r
cxxh , para o caso escalar
( ) ( )( )jjT
jjh cxRcxx −−−= −1exp)( , para o caso multivariável ( 1−jR > 0)
• a função ( )
j
jjj r
cxrxh
22
)(−+
= é um exemplo do caso monotonicamente
crescente.
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
13
-2 -1 0 1 20
0.2
0.4
0.6
0.8
1
x
hj(x)
-2 -1 0 1 20
0.5
1
1.5
2
2.5
3
x
hj(x)
Figura 1 - Funções radiais ( )
−−=
2
2
exp)(j
jj
r
cxxh e
( )j
jjj r
cxrxh
22
)(−+
= para cj = 0 e rj = 1
3.2 Rede neural de base radial (RBF: Radial Basis Function )
• em princípio, as funções de base radial podem ser utilizadas em qualquer tipo de
modelo de regressão (linear ou não-linear) e, particularmente, como função de
ativação de qualquer tipo de rede multicamada.
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
14
• as redes neurais de base radial foram originalmente propostas para o caso de uma
única camada intermediária, tomando a função Gaussiana como função de
ativação.
f(x)
w1wj
wm
h1(x ) hj(x ) hm(x )
x1 xi xn
... ...
... ...
Figura 2 - Rede neural de base radial (BROOMHEAD & L OWE, 1988)
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
15
• se apenas os pesos da camada de saída puderem ser ajustados, então a rede neural
é linear em relação aos parâmetros. Caso contrário, a rede neural é não-linear em
relação aos parâmetros, admitindo o próprio algoritmo de retro-propagação do erro
para o ajuste dos demais parâmetros (centros e taxas de decrescimento) via
treinamento supervisionado, como feito no caso do perceptron.
4. O método dos quadrados mínimos
• quando o treinamento supervisionado é aplicado a modelos lineares, o método dos
quadrados mínimos conduz a um problema de otimização que apresenta solução na
forma fechada.
• assim, com um modelo de regressão linear na forma
∑=
=m
jjj hwf
1
)()( xx
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
16
e o conjunto de treinamento dado por ( ){ }piii s 1, =x , o método dos quadrados
mínimos se ocupa em minimizar (em relação aos coeficientes da combinação
linear) a soma dos quadrados dos erros produzidos a partir de cada um dos p
padrões de entrada-saída.
( ) ∑ ∑∑= ==
−=−=
p
i
m
jijji
p
iii hwsfsS
1
2
11
2 )(min)(min)(min xxwwww
4.1 Obtenção da solução ótima
• do Cálculo Elementar sabe-se que a aplicação da condição de otimalidade
(restrições atendidas pelos pontos de máximo e mínimo de uma função
diferenciável) permite obter a solução ótima do problema de otimização
)(min ww
S , na forma:
1. diferencie a função em relação às variáveis livres;2. iguale o resultado a zero;3. resolva o sistema de equações resultante.
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
17
• no caso em questão, os parâmetros livres são os coeficientes da combinação linear,
dados na forma do vetor de pesos [ ]Tmj www ��1=w .
• para o j-ésimo peso temos:
( ) ( ) 0)()(2)(211
=−−=∂∂−−=
∂∂ ∑∑
==
p
iijii
p
i jii
j
hfsw
ffs
w
Sxxx , j=1,...,m.
• logo, o sistema de equações resultante assume a forma:
∑∑==
=p
iiji
p
iiji hshf
11
)()()( xxx , j=1,...,m.
• portanto, existem m equações para obter as m incógnitas. Exceto sob condições
patológicas, este sistema de equações vai apresentar uma solução única.
• para encontrar esta solução única do sistema de equações lineares, é interessante
recorrer à notação vetorial, fornecida pela álgebra linear, para obter:
shfh Tj
Tj = , j=1,...,m,
onde
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
18
=
)(
)( 1
pj
j
j
h
h
x
x
h � ,
=
)(
)( 1
pf
f
x
x
f � e
=
ps
s
�
1
s .
• como existem m equações, resulta:
=
sh
sh
fh
fh
Tm
T
Tm
T
��
11
• definindo a matriz H, com sua j-ésima coluna dada por hj, temos:
[ ]
==
)()()(
)()()(
)()()(
21
22221
11211
21
pmpp
m
m
m
hhh
hhh
hhh
xxx
xxx
xxx
hhhH
�
����
�
�
�
sendo possível reescrever o sistema de equações lineares como segue:
sHfH TT =
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
19
• o i-ésimo componente do vetor f pode ser apresentado na forma:
[ ]wxxxxx ∑=
===m
jimiiijjii hhhhwff
121 )()()()()( �
permitindo expressar f em função da matriz H, de modo que:
f = Hw
• substituindo no sistema de equações lineares, resulta a solução ótima para o vetor
de coeficientes da combinação linear (que, por exemplo, correspondem aos pesos
da camada de saída da rede neural de base radial):
( ) sHHHwsHHwH TTTT 1−=⇒=
• esta equação de solução do problema dos quadrados mínimos é conhecida como
equação normal. Para que exista a inversa de HTH, basta que a matriz H tenha
posto completo.
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
20
4.2 Exemplo
• o modelo linear de regressão mais simples é a reta, aplicada nos casos em que a
entrada é escalar: )()()( 2211 xhwxhwxf += , onde h1(x) = 1 e h2(x) = x.
• assuma que foram amostrados, na presença de ruído, três pontos da curva y = x,
gerando o conjunto de treinamento: { } { })1.3,3(),8.1,2(),1.1,1(),( 1 ==piii sx .
• obviamente, não se conhece a equação da curva, mas apenas estes três pontos
amostrados.
• para estimar w1 e w2, vamos proceder de acordo com os passos do método dos
quadrados mínimos.
=
=
31
21
11
)()(
)()(
)()(
3231
2221
1211
xhxh
xhxh
xhxh
H
=
1.3
8.1
1.1
s ( )
==
−
1
01sHHHw TT
• para o mesmo conjunto de treinamento, assuma agora que
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
21
)()()()( 332211 xhwxhwxhwxf ++= ,
onde h1(x) = 1, h2(x) = x e h3(x) = x2.
• o efeito da adição da função-base extra h3(x) representa a adição de uma coluna
=
=
9
4
1
)(
)(
)(
33
23
13
3
xh
xh
xh
h junto à matriz H, e a solução assume a forma
−=
3.0
2.0
1
w .
0 1 2 3 40
0.5
1
1.5
2
2.5
3
3.5
4
x
y
Figura 3 - Modelos de regressão linear (ordem 1 e ordem 2)
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
22
0 2 4 6 8 100
0.2
0.4
0.6
0.8
1
0 2 4 6 8 100
1
2
3
4
5
6
Pontos amostrados: (1,2); (3,7); (5,6)
=
5
3
1
c ;
=
3
1
2
r ;
=
930.5
850.2
945.0
w
0 2 4 6 8 100
1
2
3
4
5
6
7
8
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
23
0 2 4 6 8 100
0.2
0.4
0.6
0.8
1
0 2 4 6 8 100
1
2
3
4
5
6
Pontos amostrados: (1,2); (3,7); (5,6); (8,1)
=
5
3
1
c ;
=
3
1
2
r ;
=
538.5
084.3
012.1
w
0 2 4 6 8 100
1
2
3
4
5
6
7
8
IA353 – Prof. Von ZubenDCA/FEEC/Unicamp
24
5. Referências
BROOMHEAD, D.S. & LOWE, D. “Multivariate functional interpolation and adaptive
networks”, Complex Systems, vol. 2, pp. 321-355, 1988.
ORR, M.J.L. “Introduction to Radial Basis Function Networks”, Technical Report,
Centre for Cognitive Science, University of Edinburgh, Scotland, 1996.