taller1
TRANSCRIPT
000
001
002
003
004
005
006
007
008
009
010
011
012
013
014
015
016
017
018
019
020
021
022
023
024
025
026
027
028
029
030
031
032
033
034
035
036
037
038
039
040
041
042
043
044
000
001
002
003
004
005
006
007
008
009
010
011
012
013
014
015
016
017
018
019
020
021
022
023
024
025
026
027
028
029
030
031
032
033
034
035
036
037
038
039
040
041
042
043
044
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
REDES NEURONALES TALLER I
Hernan Sanabria Páez cod: 20062005011
27 de marzo de 2016
1. Punto 1: Clasificador Bayesiano
El clasificador bayesiano, óptimo parte del hecho de que para minimizar elerror se debe optar por la mayor de las probabilidades a posteriori, es decir sitenemos un conjunto de clases se dice que un elemento X pertenece la clase Cisi:
P (Ci|X) > P (cj |X) ∀j 6= i (1)
por lo tanto se puede representar el clasificador de bayes como una función fi(x)que depende de lo expresado en (1) aplicando el teoremas de bayes:
fi(X) =P (Ci|X)P (Ci)
P (X)(2)
Para nuestro caso al tratarse de una distribución normal de 2 dimensiones tene-mos:
P(x) =1√
2π ×Σe− 1
2 (X−µ)TΣ−1(X−µ) (3)
Donde:
X es el vector [x1 x2]T
Σ es la matriz de covarianza de cada clase.µ es el vector de valor medio de cada clase.
Por lo tanto si aplicamos ln, y sus propiedades, a ambos lados de la ecuación (2)tenemos:
gi(X) = ln(P (Ci|X)) + ln(P (Ci))− ln(P (X)) (4)
Reemplazando (3) en (4) tenemos:
gi(X) = −1
2(X − µ)TΣ−1
i (X − µ)− 1
2ln(|Σi|) + ln(P (Ci)) (5)
Nótese que se han omitido los valores de ln(P (X)) y 12 ln(2π) puesto que son
valores constantes para cada una de las clases, y se cancelaran mas adelantecuanto se igualen las funciones de cada clase para hallar sus fronteras de decisión.
045
046
047
048
049
050
051
052
053
054
055
056
057
058
059
060
061
062
063
064
065
066
067
068
069
070
071
072
073
074
075
076
077
078
079
080
081
082
083
084
085
086
087
088
089
045
046
047
048
049
050
051
052
053
054
055
056
057
058
059
060
061
062
063
064
065
066
067
068
069
070
071
072
073
074
075
076
077
078
079
080
081
082
083
084
085
086
087
088
089
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
2 Universidad Distrital Francisco José de Caldas
Ahora se realizara una simplificación de (5) ,aprovechando la propiedad delasmatrices (A+B)T = AT +BT , para facilitar los cálculos así:
gi(X) = −1
2[XTΣ−1
i X−XTΣ−1i µi−µTi Σ−1
i X+µTi Σ−1i µi]−
1
2ln(|Σi|)+ln(P (Ci))
(6)y finalmente agruparemos dicha ecuación como:
gi(X) = XTWiX +1
2XTωi +
1
2ωTi X + ωi0 (7)
Donde:
Wi =12Σ
−1i
ωi = µiΣ−1i
ωi0 = − 12µ
Ti Σ
−1i µi − 1
2 ln(|Σi|) + ln(P (Ci))
y como XTωi = ωTi X dicha ecuación se reduce a:
gi(X) = XTWiX + ωTi X + ωi0 (8)
1.1. Ecuación a Partir de C1 y C2
Para determinar la ecuación del clasificador empezaremos calculando los pa-rámetros Σ y µ para las 2 clases C1 y C2 con la ayuda del software matlab. Paracalcular los vectores de valores medios utilizaremos un script con el siguientecódigo:
clear all %limpiar variablesclc %limpiar consolaload(’set1.mat’); %cargar datosmu1 = mean(clase1) %calcular el valor medio de la clase1mu2 = mean(clase2) %calcular el valor medio de la clase2
al ejecutar dicho script obtenemos:
mu1 =
1.4363 1.4757
mu2 =
-0.8955 -0.9752
090
091
092
093
094
095
096
097
098
099
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
090
091
092
093
094
095
096
097
098
099
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
Universidad Distrital Francisco José de Caldas 3
Por lo tanto tenemos que:
µ1 =
1,431,47
y µ2 =
−0,89−0,97
(9)
Ahora se procederá a calcular las matrices de covarianza y sus inversas para cadaclase agregando el siguientecodigo al anterior script:
%calculamos Xi-Xmedio para la covarianza extendiendo mu1 600veces
ce1 = clase1 - repmat(mu1 ,600 ,1);%calculamos la matriz de covarianza para la clase1cov1 =(1/600)*ce1 ’*ce1%calculamos Xi-Xmedio para la covarianza extendiendo mu1 400
vecesce2 = clase2 - repmat(mu2 ,400 ,1);%calculamos la matriz de covarianza para la clase2cov2 =(1/400)*ce2 ’*ce2invs1=inv(cov1) %inversa de la matriz de covarianza 1invs2=inv(cov2) %inversa de la matriz de covarianza 2det(cov1) %determinante de la matriz de covarianza 1det(cov2) %determinante de la matriz de covarianza 2
El cual nos entrega el siguiente resultado:
Σ1 =
0,9032 −0,0169
−0,0169 0,9782
y Σ2 =
2,2598 0,4484
0,4484 1,9683
(10)
Σ−11 =
1,1076 0,0191
0,0191 1,0226
y Σ−12 =
0,4635 −0,1056
−0,1056 0,5321
(11)
|Σ1| = 0,8832 y |Σ2| = 4,2468 (12)
Ahora que se tienen todos los parámetros se puede utilizar la ecuación (8) paracada una de las clases:
g1(X) = XTW1X + ωT1 X + ω10 (13)
g2(X) = XTW2X + ωT2 X + ω20 (14)
por lo tanto se empezará calculando el valor de XTW1X y XTW2X:
W1 =1
2Σ−1
1 (15)
XTW1X =1
2
[x1 x2
]·
1,1076 0,0191
0,0191 1,0226
·x1x2
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
4 Universidad Distrital Francisco José de Caldas
XTW1X = 0,5538x21 + 0,0191x1x2 + 0,5113x22 (16)
W2 =1
2Σ−1
1 (17)
XTW2X =1
2
[x1 x2
]·
0,4635 −0,1056
−0,1056 0,5321
·x1x2
XTW2X = 0,2317x21 − 0,1056x1x2 + 0,2661x22 (18)
Ahora se calculara el valor de ωT1 X y ωT2 X:
ωT1 = µT1Σ−11 (19)
ωT1 X =[1,4363 1,4757
]·
1,1076 0,0191
0,0191 1,0226
·x1x2
ωT1 X = 1,6191x1 + 1,5366x2 (20)
ωT2 = µT2Σ−12 (21)
ωT2 X =[−0,8955 −0,9752
]·
0,4635 −0,1056
−0,1056 0,5321
·x1x2
ωT2 X = −0,3121x1 − 0,4244x2 (22)
y finalmente se calculará el valor de ω01 y ω02:
ω10 = −1
2µTi Σ
−11 µ1 −
1
2ln(|Σ1|) + ln(P (C1)) (23)
ω01 = −1
2
[1,4363 1,4757
] 1,1076 0,0191
0,0191 1,0226
1,43631,4757
−1
2ln(0,8832)+ln
(600
1000
)
ω01 = −2,7452 (24)
ω20 = −1
2µT2Σ
−12 µ2 −
1
2ln(|Σ2|) + ln(P (C2)) (25)
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
Universidad Distrital Francisco José de Caldas 5
ω02 = −1
2
[−0,8955 −0,9752
] 0,4635 −0,1056
−0,1056 0,5321
1,43631,4757
−1
2ln(0,8832)+ln
(600
1000
)ω01 = −2,5865 (26)
Por lo tanto:
g1(X) = 0,5538x21+0,0191x1x2+0,5113x22+1,6191x1+1,5366x2−2,7452 (27)
g2(X) = 0,2317x21−0,1056x1x2+0,2661x22−0,3121x1−0,4244x2−2,5865 (28)
dichas funciones representan paraboloides que encierran la mayoría de los puntosde las dispersiones como se observa en la siguiente figura:
−6 −4 −2 0 2 4 6−5
0
5
0
10
20
30
40
50
x2
x1
g1(x1,x2)
Figura 1. paraboloide que encierra la mayoria de los puntos de la clase 1 en el planode z =0.
Si g1(X)=0 y g2(X)=0 obtenemos el siguiente resultado:
Etiqueta X1
EtiquetaX2
Funciones discriminantes para el clasificador bayesiano
−6 −4 −2 0 2 4 6
−6
−4
−2
0
2
4
6
Figura 2. Cortes de las superficies de decicion con el plano Z = 0
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
6 Universidad Distrital Francisco José de Caldas
Ahora si se iguala g1(X) y g2(X) y se reagrupan términos obtendremos lafrontera de decisión:
0 = 0,3321x21 + 0,1247x1x2 + 0,2452x22 + 1,9312x1 + 1,9610x2 − 0,1587 (29)
cuya gráfica es la siguiente:
Etiqueta X1
EtiquetaX2
Region de decisión clasificador bayesiano
−6 −4 −2 0 2 4
−8
−6
−4
−2
0
2
4
6
Figura 3. Frontera de decision
Si tomamos la ecuación (29) como una función que depende de x1 y x2 o sea:
g(x1, x2) = 0,3321x21+0,1247x1x2+0,2452x22+1,9312x1+1,9610x2−0,1587 (30)
si se realiza su gráfica tenemos:
−5
0
5 −5
0
5
0
10
20
30
40
50
g(x1,x2)
x1 x2
Figura 4. Superficie de decisión tomando g(x1, x2) = 0,3321x21 + 0,1247x1x2 +0,2452x22 + 1,9312x1 + 1,9610x2 − 0,1587, donde los puntos rojos corresponden a laclase 1 y los puntos verdes a la clase 2.
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
Universidad Distrital Francisco José de Caldas 7
Al ser la gráfica de la Figura 4, que corresponde a la función g(x2, x2), unparaboloide podemos deducir la siguiente regla de clasificación:
x ∈ C1 si g(x1, x2) > 0 de lo contrario x ∈ C2 (31)
1.2. Comparación clasificador Bayesiano vs Perceptron con bolsillo
Para realizar la comparación primero se ha entrenado un perceptron conbolsillo obteniendo una buena solución para separar las 2 clases, obteniendo lasiguiente gráfica:
−8 −6 −4 −2 0 2 4 6−6
−4
−2
0
2
4
6
Etiqueta X1
EtiquetaX2
Perceptrón con bolsillo
Figura 5. Perceptrón con bolsillo cuyo vector de pesos tras su entrenamiento es: W =[1,3458 3,0498 − 0,9292].
El error de generalización se ha estimado mediante un script que recorrelos mil puntos y determina cuales se encuentran bien clasificados obteniendo elsiguiente resultado:
clasificador/clasificacion Bien clasificados Mal calsificados % ErrorPerceptron 907 93 9.3
Bayes 904 95 9.5
Tabla 1. Error de generalización para los 2 clasificadores.
Para comparar los 2 clasificadores se ha realizado un script en matlab el cualtoma 100000 puntos al azar y cuenta cuanto puntos quedaron mal clasificados,dicho script se ejecuto 10 veces obteniendo los siguientes resultados:
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
8 Universidad Distrital Francisco José de Caldas
Perceptrón con bolsillo Clasificador de bayes9147 94619336 95109364 94809254 94169334 95579207 94559275 94569265 95029376 95059261 9377
Tabla 2. Cantidad de errores tras tomar 100000 puntos al azar 10 veces.
Al hacer el promedio se obtiene lo siguinte:
%errorPromedio Bayes 9509.2 9,5
Promedio perceptrón 9267.2 9,2
2. Punto 2: Transformación no lineal y clasificación conLMS
Para este ejercicio se ha comenzado entrenando una neurona con el algoritmoLMS. mediante el siguiente script:
clear all;clc;load(’set2.mat’);pex =[[ clase1;clase2] ones (2000 ,1)]; %puntos extendidosyi=[-1*ones (492 ,1) ; ones (1508 ,1)]; %clasificadorhold on;axis([-2 2 -2 2]);x = linspace (-5,5,100);w = [rand rand rand]; %vector de pesosys = -((w(1)/w(2))*x) -(w(3)/w(2));plot(x,ys,’k’);r = [];for j =1 : 1 :2000
r(end + 1)= dot(w’,pex(j,:)); %error en cada puntoend
etotal =(1/2)*sum((r’-yi).^2)contador = 0;miu =0.8; %Tasa de aprendizaje
while etotal > 790 %Error minimo requeridoj = randi (2000);g=dot(w,pex(j,:));
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
Universidad Distrital Francisco José de Caldas 9
e=yi(j)-g;w=w+miu*e*pex(j,:);ys = -((w(1)/w(2))*x) -(w(3)/w(2));plot(x,ys,’g’);r = [];for j =1 : 1 :2000
r(end + 1)= dot(w’,pex(j,:)); %error en cada puntoendetotal =0.5*sum((r’-yi).^2); %Error totalcontador=contador +1;
endetotal % error totalcontador %cantidad de iteraciones que tardo en encontrar la
solucion%impresion de los puntosfor k=1:1:2000
if yi(k) == -1plot(pex(k,1),pex(k,2),’r.’);
elseplot(pex(k,1),pex(k,2),’b.’);
endendys = -((w(1)/w(2))*x) -(w(3)/w(2)); %linea solucionplot(x,ys,’r--’);
Sin embargo al ser puntos no separables lineal mente la el algoritmo encuentrauna recta bastante lejana de la dispersión como se observa a continuación:
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
Etiqueta X 1
EtiquetaX2
Clasificacion con LMS
Figura 6. Gráfica Resultante de aplicar el algoritmo LMS al conjunto de puntos delejercicio, se observa que el algoritmo arroja que la recta con menor error esta fuera dela nube de puntos, las rectas verdes son pasos intermedios hasta encontrar la solución.
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
10 Universidad Distrital Francisco José de Caldas
Ahora se ha aplicado la transformación:
φ(X) : (x1, x2) 7→ (x12, x22,√2 · x1 · x2) (32)
La cual envía la nube de puntos a un espacio de 3 dimensiones como seobserva en la siguiente figura:
00.05
0.10.15
0.20.25 0
0.05
0.1
0.15
0.2
0.25
−0.4
−0.2
0
0.2
0.4
x1x2
f(x1,x2)
Figura 7. Gráfica Resultante de aplicar la transformación φ(X) : (x1, x2) 7→(x12, x22,
√2 · x1 · x2) al conjunto de puntos propuesto.
ahora se ha aplicado el algoritmo LMS para separar los puntos con la trans-formación expuesta en (32) mediante el siguiente script:
clear all;clc;load(’set2.mat’); %datos a clasificarscatter3(clase1 (:,1).^2, clase1 (:,2).^2,sqrt (2).*clase1 (:,1).*
clase1 (:,2),’g.’)hold onscatter3(clase2 (:,1).^2, clase2 (:,2).^2,sqrt (2).*clase2 (:,1).*
clase2 (:,2),’m.’)totaldatos =[ clase1;clase2 ];puntosex= [totaldatos (:,1).^2 totaldatos (:,2).^2 2.*
totaldatos (:,1).*totaldatos (:,2) ones (2000 ,1)]; %datosextendidos
yi = [ones (492 ,1);-1*ones (1508 ,1)];w=[rand rand rand rand]; %pesos inicialesr = [];for j =1 : 1 :2000
r(end + 1)= dot(w’,puntosex(j,:)); %error en cad puntoendetotal =0.5*sum((r’-yi).^2); %error totalmiu =1; % tasa de aprendizajeiteraciones = 0;
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
Universidad Distrital Francisco José de Caldas 11
while etotal > 440 %error minimo requeridoj = randi (2000);g=dot(w’,puntosex(j,:));e=yi(j)-g;w=w+miu*e*puntosex(j,:);r = [];for k =1 : 1 :2000
r(end + 1)= dot(w’,puntosex(k,:));endetotal =0.5*sum((r’-yi).^2);iteraciones=iteraciones +1;enditeraciones %cantidad deiteraciones para hallar la solucionetotal %error minimo obteido
xd=linspace ( -0.01 ,0.3);yd=linspace ( -0.3 ,0.3);[x,y]= meshgrid(xd,yd);z=-(w(1)/w(3))*x -(w(2)/w(3))*y-w(4)/w(3);surf(x,y,z)xlabel(’Etiqueta \textit{X}1’,’Interpreter ’,’latex’);ylabel(’Etiqueta \textit{X}2’,’Interpreter ’,’latex’);title({’Clasificacion con LMS’},’FontWeight ’,’bold’);
A partir de dicho script se ha obtenido una clasificación a través de un planocomo se observa a continuación:
−0.10
0.10.2
0.3
−0.4
−0.2
0
0.2
0.4−10
−5
0
5
10
15
Etiqueta X 1
Clasificacion con LMS
Etiqueta X 2
Figura 8. Gráfica Resultante de aplicar el algoritmo LMS a la transformación φ(X) :(x1, x2) 7→ (x12, x22,
√2 · x1 · x2).
La anterior gráfica se realizó con una taza de aprendizaje µ = 1,4 y un errormínimo requerido de 435.
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
12 Universidad Distrital Francisco José de Caldas
Para poner a prueba la velocidad del algoritmo con la transformación reali-zada se ha variado la tasa de aprendizaje entre 0 y 2 obteniedo:
tasa de aprendizaje número de iteraciones0.3 11050.5 675.50.8 442.161 329.331.2 2891.5 6161.8 2111.16
Tabla 4. Cantidad de iteraciones en promedio tras variar las tazas deaprendizaje con valores entre 0 y 2, se tomaron 10 datos para cada tasa de
aprendizaje.
La siguiente gráfica muestra como varia la velocidad de convergencia respectoa la tasa de aprendizaje:
Figura 9. Velocidad de convergencia al aplicar el algoritmo LMS a la transformaciónφ(X) : (x1, x2) 7→ (x12, x22,
√2 · x1 · x2) variando la tasa de aprendizaje.
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
Universidad Distrital Francisco José de Caldas 13
A continuación se presenta el comportamiento el error para una tasa deaprendizaje de 0,3:
0 200 400 600 800 1000 1200 14000
200
400
600
800
1000
1200
1400
1600
X= 1296Y= 434.9988
Iteraciones
Magnituderror
Error de generalizacion
Figura 10. Error de generalización para una tasa de aprendisaje de 0.3.
Se puede observar que aunque el error tiene oscilaciones, su tendencia es adecrecer exponencialmente hacia un valor , que para el caso tratado es de 430.
3. Punto 3: Método propuesto para solucionar elproblema de la función XOR
La función XOR se caracteriza por ser un problema no separable lineal-mentecomo se observa en la figura 11:
−1.5 −1 −0.5 0 0.5 1 1.5−1.5
−1
−0.5
0
0.5
1
1.5
Etiqueta X 1
EtiquetaX2
Funcion XOR
Figura 11. Función XOR, Obsérvese que no existe ninguna linea que pueda separar laclase1(puntos rojos), de la clase2(puntos magenta).
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
14 Universidad Distrital Francisco José de Caldas
Para la solución del problema de clasificación en este documento se proponeun método de clasificación basado en una ecuación general de segundo ordenmas exactamente el conjunto de ecuaciones de segundo orden cuyas gráficas es-tán representadas mediante Hipérbolas.
La ecuación general de segundo orden se representa como:
Ax2 +By2 + Cxy +Dx+ Ey + F = 0 (33)
La cual puede ser expresada de forma matricial como:
XT ·Aq ·X = 0 (34)
donde:X =
[x y 1
]Ty
Aq =
F D
2E2
D2 A C
2
E2
C2 B
Se denominará M0 a la submatriz de resultante de eliminar la primera fila y
la primera columna de Aq.
M0 =
A C2
C2 B
(35)
Dado lo anterior se sabe que (33) es la ecuación de una hipérbola si:
det(Aq) 6= 0 y det(M0) < 0 (36)
Donde det(•) representa el determinante de la correspondiente matriz.
3.1. El Hiperton.
Para la solución del problema de clasificación de la funcion XOR se proponeutilizar un método que usa el algoritmo del perceptrón junto con la ecuación deuna hipérbola para clasificar los puntos, al cual se denominará hipertrón.
En este método se toma un vector de pesos W igual al del perceptron, enel cual se pondrán tres de los coeficientes de la ecuación (33) de la siguientemanera:
W = [A B C D E] (37)
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
Universidad Distrital Francisco José de Caldas 15
Los coeficientes DyE se asignaran como 0 (aunque no se tendrán en cuentaen el resultado final sus valores obtenidos en W) y se comprobaran las condi-ciones descritas en (36) si no se cumplen se actualizara el vector de pesos igualque en el perceptrón y también se actualizarán las matrices AQ y M0 con losnuevos coeficientes deW y los coeficientes restantes se asignaran aleatoria-mente.
Después de que se cumplan las restricciones de (36) se procederá a clasificarun punto aleatoria-mente, si dicho punto no se encuentra bien clasificado se vol-verán a actualizar los pesos, y los demás parámetros.
La regla de clasificación que se utilizará será:
Ic =
x ∈ C1 si g(x1, x2) > 0
x ∈ C2 si g(x1, x2) 6 0(38)
Donde C1 y C2 son las 2 clases y g(x1, x2) se define como:
g(x1, x2) = A · (x1)2 +B · (x2)2 + C · x1 · x2 +D · x1 + E · x2 + F (39)
A continuación se presenta un script que implementa el algoritmo anterior-mente descrito:
clear allclcA=rand; B=rand; C=rand; D=0; E=0;F= -1.3;pex = [-1 -1 1 1 1; -1 1 1 1 1; 1 -1 1 1 1; 1 1 1 1 1];yi = [1 -1 -1 1];w = [A B C D E];p = [-1 -1; -1 1; 1 -1; 1 1];M=[F w(4)/2 w(5)/2; w(4)/2 w(1) w(3)/2; w(5)/2 w(3)/2 w(2)];M0=[w(1) w(3)/2; w(3)/2 w(2)];n=1;while n<100
j = randi (4);if det(M)~=0 && det(M0) <0
v=w(1)*p(j,1)^2 +w(2)*p(j,2)^2 + w(3)*p(j,1)*p(j,2) +D*p(j,1) + E*p(j,2)+F;
if v < 0 && yi(j)==-1
w = w + pex(j,:)*yi(j);M=[F w(4)/2 w(5)/2; w(4)/2 w(1) w(3)/2; w(5)/2
w(3)/2 w(2) ];;M0=[w(1) w(3)/2; w(3)/2 w(2)];
end%% % % % % % % % % % % % % % % % % % % %
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
16 Universidad Distrital Francisco José de Caldas
%segmento de codigo opcional , que para cuando encuentra lasolucion
%% % % % % % % % % % % % % % % % % % % % %%V1=w(1)*p(1,1)^2 +w(2)*p(1,2)^2 + w(3)*p(1,1)*p(1,2) + D*p
(1,1) + E*p(1,2)+F;%V2=w(1)*p(2,1)^2 +w(2)*p(2,2)^2 + w(3)*p(2,1)*p(2,2) + D*p
(2,1) + E*p(2,2)+F;%V3=w(1)*p(3,1)^2 +w(2)*p(3,2)^2 + w(3)*p(3,1)*p(3,2) + D*p
(3,1) + E*p(3,2)+F;%V4=w(1)*p(4,1)^2 +w(2)*p(4,2)^2 + w(3)*p(4,1)*p(4,2) + D*p
(4,1) + E*p(4,2)+F;%%if V1 <0 && V4 <0% if V2 >0 && V3 >0% disp(’pasos para la solucion:’);% n% break;% end% end%% % % % % % % % % % % % % % % % % % % % % % % % % % %5
elsew = w + pex(j,:)*yi(j);M=[F w(4)/2 w(5)/2; w(4)/2 w(1) w(3)/2; w(5)/2 w(3)/2 w(2)];M0=[w(1) w(3)/2; w(3)/2 w(2)];
endn=n+1;
endaxis([-2 2 -2 2]);syms g(x,y);A=w(1);B=w(2);C= w(3);g(x,y)=w(1)*x^2 +w(2)*y^2 + w(3)*x*y + D*x + E*y+F;hold onplot(p(1,1),p(1,2),’r.’);plot(p(2,1),p(2,2),’b.’);plot(p(3,1),p(3,2),’b.’);plot(p(4,1),p(4,2),’r.’);ezplot(g,[-7,7,-9,7])xlabel(’Etiqueta \textit{X}1’,’Interpreter ’,’latex’);ylabel(’Etiqueta \textit{X}2’,’Interpreter ’,’latex’);title({’Clasificacion con hiper -tron’},’FontWeight ’,’bold’);
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
Universidad Distrital Francisco José de Caldas 17
Si ejecutamos dicho script imprimiendo todos los pasos se puede ver el si-guiente resultado:
−6 −4 −2 0 2 4 6
−6
−4
−2
0
2
4
6
Etiqueta X 1
EtiquetaX2
Clasificacion con hiper−tron
Figura 12. Pasos intermedios hasta encontrar una solución.
A continuación se presentan una clasificaciones exitosa con el hipertrón y sucorrespondiente función g(x1, x2):
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
Etiqueta X 1
EtiquetaX2
Clasificacion con hiper−tron
−5
0
5−6 −4 −2 0 2 4 6
−200
−150
−100
−50
0
50
100
Clasificacion con hiper−tron
Etiqueta X 2Etiqueta X 1
Figura 13. clasificaciones exitosa con el hipertrón y su correspondiente función o su-perficie de decisión g(x1, x2).
Se puede observar que los puntos azules están por encima del paraboloidehiperbólico que representa su función de decisión.
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
ECCV#
ECCV#
Unive
rsid
adDist
rita
l Fran
cisc
oJo
sede
cald
as
18 Universidad Distrital Francisco José de Caldas
El modelo propuesto es posible de realizar para patrones d-dimensionales,acudiendo a la forma matricial de las ecuaciones de segundo grado para hiper-superficies, y tendría que establecerse las restricciones que se establecieron eseste modelo, un ejemplo para el caso particular de 3 dimensiones se podrían uti-lizar hiperboloides de 2 hojas para clasificar los patrones, y su hiper-superficiede decisión estaría en R4 siendo hipeparaboloides hiperblolicos en 4 dimensio-nes, a continuacion se muestra un hiperboloide de 2 hojas para el caso de 3dimensiones:
Figura 14. Ejemplo de clasificación para el caso de 3 dimensione.
4. Conclusiones
El clasificador bayesiano representa una clasificación óptimo para un proble-ma no separable lineal mente, pero en este caso se logro una mejor clasifica-ción con el perceptron con bolsillo, aunque eso se debe a que el clasificadorbayesiano toma en cuenta la probabilidad de escoger un punto y que estepertenezca a una clase, en este caso la probabilidad era 60/40 pero aun asíse cometían mas errores con el bayesiano que con el perceptron con bolsillo.
Para el caso de dos clases no separables linealmente como el del segundopunto, es muy útil encontrar una transformacion no lineal que facilite laseparación de los puntos como la que se propuso, se pudo observar que elalgoritmo LMS aplicado a dicho problema no tenia ningún efecto separandolos puntos, también se evidencio un costo computacional mayor al pasar deun espacio de 2 dimensiones a un espacio de 3.
he podido encontrar un método,(ignoro si ya existía) para solucionar el pro-blema de la XOR el cual converge la mayoría de las veces en pocos pasos.