gradiente e regressão multivariada - w3.ualg.ptw3.ualg.pt/~jvo/ufc-ml-2013/mlufc2013t4.pdf · 9...
TRANSCRIPT
1
Gradiente e regressão multivariada
Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 – chapter 1-1.2.5; 3-3.2
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 2
ProblemaEncontrar x* tal que minimize
onde f é uma função suave
RRf n →:
1C
2
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 3
',...,),...,(1
1 ⎟⎟⎠
⎞⎜⎜⎝
⎛∂∂
∂∂
=∇n
n xf
xfxxf
RRf n →:
O gradiente
Exemplo de aplicação
:= f → ( ),x y⎛
⎝⎜⎜
⎞
⎠⎟⎟cos
12
x⎛
⎝⎜⎜
⎞
⎠⎟⎟cos
12
y x
22-Jul-13
3
Propriedades elementares do gradiente
O gradiente define um (hiper) plano queaproxima infinitesimalmente a função numponto.
yyfx
xfz Δ⋅
∂∂
+Δ⋅∂∂
=Δ
22-Jul-13
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 6
Propriedades elementares do gradienteProposição: Seja uma função suave em torno de um ponto p, se f tem um extremo (minímo ou máximo) em p então,
1C
0)( =∇ pf
RRf n →:
4
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 7
Algoritmo do gradiente (descendente)
i=0Inicializar (aleatoriamente)Repetir até
1. calcular a direção de procura2. atualizar
nRx ∈0
0)( =∇ ixf)( ii xfh −∇=
iii hxx ⋅+=+ η1
22-Jul-13
O algoritmo de gradiente ilustrado
5
θ0
θ1
J(θ0,θ1)
A importância das condições iniciais
22-Jul-13 16 – 9
22-Jul-13 http://w3.ualg.pt/~jvo/ml 18 – 10
Mínimos locais e inicialização de pesos
O método de gradiente descendente encontra um mínimo, não necessariamente global.
Corra o gradiente N vezes com valores aleatórios pequenos e diferentes dos pesos
6
Se η é muito pequeno, a convergência é muito lenta
Se η muito elevado, o gradiente pode ultrapassar o mínimo e até divergir
O parâmetro de passo de aprendizagem
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 11
Gradiente e regressão
7
Dado
Queremos
Esboço do algoritmo:
• Inicializar pesos
• Atualizar para reduzir
até ao mínimo (local)
Gradiente e regressão
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 13
Certo: atualização simultânea ERRADO
Gradiente e regressão
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 14
8
Algoritmo de gradiente Modelo de regressão linear
Gradiente e regressão - recapitulando
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 15
Regressão linear multivariada
9
Notação:= nº de características= entrada (característica) do conjunto de treino= valor da entrada no exemplo de treino
Área (m2)Nº de
quartosNº de
andaresIdade da
casa Preço ($)2104 5 1 45 4601416 3 2 40 2321534 3 2 30 315… … … … …
Mais realisticamente
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 17
Antes:
Regressão linear multivariada
Como reescrever na forma vetorial?
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 18
Agora:
10
Hipótese:
Função de custo:
Parâmetros:
Repetir
Gradiente:
Gradiente para regressão multivariada
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 19
Repetir
Antes (n=1): Repetir
Comparando
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 20
Agora:
11
E.g. = área (0-2000 m2)= nº de quartos (1-5)
Aspetos práticos: normalização de características
Uma possibilidade é fazer variar cada característica aproximadamente entre:
E.g.
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 21
y
size (x)
Escolha de características: Regressão polinomial
22-Jul-13 16 – 22
12
Solução analítica: a equação normal
Minimizar em ordem a
(para todo )
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 23
Exemplo (m=4, n=4)Área Nº de
quartosNº de
andaresIdade da
casaPreço
2104 5 1 45 4601416 3 2 40 2321534 3 2 30 315852 2 1 36 178
22-Jul-13
13
é a matrix inversa de
Equação normal
22-Jul-13 http://w3.ualg.pt/~jvo/ml 16 – 25
22-Jul-13 http://w3.ualg.pt/~jvo/ml 12 – 26
RecapitulandoO método de gradiente revisitadoO método de gradiente aplicado a regressão linearRegressão linear multivariadaAspetos práticosEscolha de características e a regressão polinomialSolução analítica: a equação normal