informe clasificación bayesiana

Departamento de Ingenierıa ElectricaFacultad de Ciencias Fısicas y MatematicasUniversidad de ChileEL4106 - Inteligencia Computacional

Tarea N°1

Clasificador Bayesiano

Profesor:Javier Ruiz del Solar

Auxiliar:Patricio Loncomilla

Ayudantes:Felipe Valdes

Pedro Orellana

Integrantes:Roberto Rojas

Fecha:April 14, 2015

EL4106 - Inteligencia Computacional

1 Introduccion

El presente informe da cuenta de la primera tarea del curso, la cual pretende entregar una primeraaproximacion al proceso de clasificacion de caracterısticas. En particular, se pretende disenar unclasificador Bayesiano que permita determinar en forma probabilıstica si un vino pertenece a la claseBlanco o Tinto.

Dado que las verosimilitudes de las muestras son desconocidas, estas deberan ser estimadas. Paraello, se proponen dos enfoques: por un lado, utilizacion de histogramas en un escenario Naive Bayes,mientras que por otro, estimacion de vector media y matriz de covarianza para un modelo gaussianomultidimensional.

2 Marco Teorico

Esta seccion se basa en los contenidos expuestos por [1]. Especıficamente, el capıtulo 2 aborda demanera detallada la teorıa bayesiana de clasificacion, mientras que el capıtulo 3 muestra reglas deestimacion parametrica.

2.1 Clasificador de Bayes

El clasificador de Bayes se basa en la teorıa de deteccion bayesiana, en la cual se utiliza la regla queminimiza el riesgo.

En primer lugar, se define el riesgo condicional como el costo esperado de tomar la accion αi, dadoque se observa el vector de caracterısticas ~x:

R(αi|~x) =

c∑j=1

λ(αi|ωj)p(ωj |~x) (1)

donde λ(αi|ωj) es el costo de elegir αi cuando en realidad ~x pertenece a la clase wj y p(ωj |~x) es laprobabilidad de que, dado que observo ~x, este pertenezca a la clase ωj (c es la cantidad de clases).

La funcion riesgo condicional R(αi|~x) tiene dos grados de libertad: αi y ~x. Sin embargo, serıainteresante obtener una expresion que considere el costo esperado, pero sobre todo el espacio de car-acterısticas. Esta funcion se denomina riesgo bayesiano y, considerando un espacio de dimension d, seexpresa por:

R(α) =

∫Rd

R(α(~x)|~x)p(~x) d~x (2)

El clasificador bayesiano busca minimizar el riesgo bayesiano, lo cual implica minimizar el riesgocondicional en 1 para cada ~x. Si se tiene un set de datos o muestras { ~x1, ~x2, . . . , ~xn}, para cada xj seelige la decision αi que minimiza 1. En general, se tiene igual numero de decisiones que de clases, talque αi corresponde a decidir la clase ωi.

2.1.1 Caso particular: 2 clases

Para el caso particular de dos clases (y por ende dos decisiones), se debe computar el riesgo condicionalpara α1 y α2:

R(α1|~x) = λ11p(ω1|~x) + λ12p(ω2|~x)

R(α2|~x) = λ21p(ω1|~x) + λ22p(ω2|~x)

El clasificador elige la clase ω1(i.e. decision α1) si:

R(α1|~x) < R(α2|~x)

λ11p(ω1|~x) + λ12p(ω2|~x) < λ21p(ω1|~x) + λ22p(ω2|~x)

(λ11 − λ21)p(ω1|~x) < (λ22 − λ12)p(ω2|~x)

1


Se puede observar que la regla de decision encontrada queda en funcion de las probabilidades aposteriori, algo que no es dato y es difıcil de obtener. Sin embargo, usando la regla de Bayes:

(λ11 − λ21)p(~x|ω1)p(ω1) < (λ22 − λ12)p(~x|ω2)p(ω2)

Finalmente, considerando λii < λij , i 6= j (pues acertar deberıa tener un costo menor que fallar),resulta una regla de decision en la que se elige la clase w1 si:

p(~x|ω1)

p(~x|ω2)≥ (λ12 − λ22)p(ω2)

(λ21 − λ11)p(ω1)(3)

Las distribuciones o funciones likelihood en 3 pueden obtenerse de forma aproximada a partir de datosde entrenamiento. Una forma de hacerlo es a traves de estimacion.

2.2 Estimacion parametrica

En clasificacion, las tecnicas de estimacion se utilizan cuando no se tiene conocimiento de las funcionesde probabilidad p(~x|ωi).

Cuando se entrena un clasificador, lo que se hace realmente es utilizar un conjunto de entrenamiento{~xi, yi}i=1,2,...,M para ajustar los parametros del clasificador. En particular, para clasificadores prob-abilısticos, si se sabe que p(~x|ωi) distribuye de alguna forma particular (Gaussiana, por ejemplo), seutiliza el conjunto de entrenamiento para estimar el vector media ~µi y la matriz de covarianza Σi.

Supongamos que para cierta clase ωj , el vector de parametros que caracteriza a la ditribucion

p(~x|ωj) es ~θj = (θ1, θ2, . . . , θp)t, denotado como p(~x|ωj ; ~θj), y se posee un conjunto de muestras i.i.d.

D = {~xm1 , ~xm2 , ~xm3 , . . . , ~xmM } (cada muestra es una realizacion del vector de caracterısticas). El es-timador ML (maximum likelihood) busca maximizar la verosimilitud de las observaciones o muestras:

~θ = argmax~θj

p(D|ωj ; ~θj) = argmax~θj

p(~xm1 , ~xm2 , . . . , ~xmM |ωj ; ~θj)

= argmax~θj

M∏i=1

p(~xmi |ωj ; ~θj)

⇒ argmax~θj

M∑i=1

ln[p(~xmi |ωj ; ~θj)] = argmax~θj

M∑i=1

l(~θj)

donde se ha utilizado la independencia de las muestras y la monotonıa de la funcion ln[·]. Finalmente,como se desea maximizar, se considera el operador ∇~θj = ( ∂

∂θ1, ∂∂θ2

, . . . , ∂∂θp

)t para computar:

∇~θj l(~θj) =

M∑i=1

∇~θj [ln(p(~xmi |ωj ; ~θj))]!

= ~0 (4)

resultando p ecuaciones para resolver p parametros.

2.2.1 Distribucion gaussiana con media y varianza desconocida

Se analizara el caso univariante, en el cual el ~x es un escalar (solo 1 caracterıstica). Considerandoθ1 = µ y θ2 = σ2, la funcion log-likelihood es:

ln[p(xk|~θ)] = −1

2ln(2πθ2)− 1

2θ2(xk − θ1)2

y su derivada corresponde a:

∇~θ = ln[p(xk|~θ)] =

[1θ2

(xk − θ1)

− 12θ2

+ (xk−θ1)2

2θ22

]

2


Utilizando la condicion 4, se obtienen las dos ecuaciones que determinan los parametros desconocidos:

M∑k=1

1

θ2(xk − θ1) = 0

−M∑k=1

1

2θ2+

M∑k=1

(xk − θ1)2

2θ22

= 0

Luego, los estimadores de maxima verosimilitud para la media y varianza son:

µ =1

M

M∑k=1

xk

σ2 =1

M

M∑k=1

(xk − µ)2

(5)

Para el caso multivariante, i.e. dimension del espacio de caracterısticas mayor que uno, el analisis essimilar, pero requiere un mayor manejo matematico. Los estimadores en este caso corresponden a:

~µ =1

M

M∑k=1

~xk

Σ =1

M

M∑k=1

(~xk − ~µ)(~xk − ~µ)t

(6)

3 Resultados y Analisis

3.1 Base de datos

La base de datos utilizada en este trabajo corresponde a Wine Quality Data Set, la cual forma parte delUC Irvine Machine Learning Repository. La base de datos contiene 11 caracterısticas fisicoquımicasmedidas para cada muestra de vino.

a) En general, una base de datos se divide en 2 subconjuntos: conjunto de entrenamiento y con-junto de test o prueba. A su vez, el conjunto de entrenamiento se puede dividir, dejando unsubconjunto para el ajuste de parametros y el otro como un conjunto de validacion.

El conjunto de entrenamiento se utiliza para disenar o ajustar los parametros de algun sistemade aprendizaje, como un clasificador bayesiano o una red neuronal. Por ejemplo, si el clasificadorse basa en la funcion de probabilidad de las muestras, los parametros de ajuste serıan el vectorde medias y la matriz de covarianza, o la altura de los histogramas, dependiendo del enfoqueque se utilice. En el caso de una red neuronal, los parametros corresponden a los pesos sinapticos.

El conjunto de validacion se utiliza para comparar la performance o rendimiento de los clasifi-cadores candidatos y decidir ası con cual quedarse.

Finalmente, el conjunto de prueba se utiliza para obtener las caracterısticas o rendimiento delclasificador elegido. Si el clasificador funciona muy bien para el conjunto de entrenamiento, peromal para el conjunto test, es muy probable que exista un sobreajuste de datos en la etapa dediseno.

b) Para la base de datos completa, se pudo observar que el porcentaje de cada clase correspondePT into ≈ 49% y PBlanco ≈ 51%, para las clases Tinto y Blanco, respectivamente. El codigoen ‘Parte1.m’ realiza lo solicitado, generando aleatoriamente los conjuntos de entrenamiento ytest, siempre cumpliendose la proporcion que estas clases tienen en la base de datos completa.

3


3.2 Modelo con histogramas

a) La aproximacion Naive Bayes permite obtener de una manera mas simple las verosimilitudespara cada clase. Dado que ~x es un vector de caracterısticas, las verosimilitudes son distribu-ciones conjuntas. Si se adopta un enfoque discretizado (uso de histogramas) y la cantidad decaracterısticas consideradas es N , se requiere un histograma de dimension N para aproximar laverosimilitud de las muestras. La aproximacion Naive Bayes se basa en asumir independenciaentre las caracterısticas (variables aleatorias), de modo que la verosimilitud corresponde a lapitatoria de las distribuciones marginales (i.e. para cada caracterıstica por separado). De estemodo, se requieren N histogramas de dimension 1 dada una clase, simplificando el problema.

b) La funcion implementada ‘display hist parte2(Nbins).m’ entrega los 22 histogramas (11 porcada clase) que deben calcularse, pidiendo como entrada el numero de bins a considerar. Elconjunto de entrenamiento considerado corresponde al utilizado en todo el desarrollo de la tarea.

En este punto, es necesario hacer una observacion respecto a las muestras de la caracterıstica2. Existen 4 mediciones que se escapan notoriamente del valor que toman en general las demasmuestras. Estos valores corresponden a 1185, 1035, 1115 y 1025[g/L], mientras que el resto delas muestras no superan los 5[g/L]. Mas aun, los lımites legales de esta caracterıstica (Volatileacidity) en U.S. corresponde a 1.2[g/L] para el vino tinto y 1.1[g/L] para el vino blanco [2]. Dadolo anterior, si alguna de estas mediciones aparece en el conjunto de entrenamiento, se cambiadicho valor por el de la media empırica de las muestras (obviamente sin considerar estas ‘malas’mediciones).

c) La seccion Evaluate test set and Performance del codigo en parte2.m calcula las verosimili-tudes para cada muestra, buscando primero el bin en el que se encuentra cada una, tanto paralos histogramas de la clase Tinto como para los de la clase Blanco.

Cuando alguna muestra se encuentra fuera del rango considerado por los histogramas de en-trenamiento (bin cero), esta queda asociada con una probabilidad cero. Esta consideracion noes tan alejada de la realidad, dado que los histogramas poseen colas muy cercanas cero.

Finalmente, las verosimilitudes para cada ‘vector muestra’ dado clase Tinto se encuentran en elvector likelihood givenR, mientras que el vector likelihood givenW contiene las verosimilitudesdado clase Blanco (primero se debe correr el script Parte2.m).

d) El script Parte2.m contiene todo lo solicitado en la parte 2 de la tarea, para finalmente entregarun grafico de la curva ROC. La figura 1 muestra la curva ROC para el clasificador Naive Bayes,considerando 20 bins para cada histograma.

e) En primer lugar, se ha considerado el mismo numero de bins para cada histograma, tomando elmaximo valor de cada caracterıstica (en conjunto de entrenamiento) como el inicio del ultimobin. De esta forma, el vector rango se obtiene con la funcion de Matlab linspace(a,b,N).

La importancia de los histogramas radica en su aproximacion como funcion de probabilidad paracada caracterıstica. Por lo mismo, el histograma debe tener la forma de la distribucion a aprox-imar. El siguiente analisis se basa en comparar los histogramas para la caracterıstica 1, dadala clase Tinto, con la pdf empırica, obtenida mediante la funcion de Matlab ksdensity(muestras).

La figura 2 muestra que una cantidad de bins muy pequena no alcanza para una buena aprox-imacion, dado que solo dos bins (en los que se concentra toda la informacion) no bastan pararepresentar la forma cuasi-gaussiana de la pdf.

Por otro lado, la figura 3 muestra que una cantidad muy grande de bins tampoco aproximade buena manera la distribucion, puesto que existen bins que deberıan tener un valor mayordel que poseen. Especıficamente, si se considera la mitad creciente de la pdf, las probabilidades

4


0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

0.4

0.5

0.6

0.7

0.8

0.9

1

FPR

TP

R

ROC Curve Naive Bayes

Figura 1: Curva ROC para enfoque Naive Bayes, considerando 20 bins en histogramas.

o cuentas normalizadas de los bins tambien deberıan presentar un crecimiento monotono; sinembargo, hay bins que otorgan un crecimiento irregular o no monotono. Esto se debe a que lacantidad de muestras es muy poca para la cantidad de bins que se usa.

Por ultimo, la figura 4 muestra una mejor aproximacion que los casos anteriores. Luego, sedesprende que la cantidad de bins no debe ser muy pequena ni muy grande; debe ser ajustadoen un valor intermedio que, de hecho, dependera de la cantidad de muestras que se posee.

0 2 4 6 8 10 12 14 16 18 200

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

fixed acidity bins

norm

aliz

ed c

ount

s

Normalized histogram feature 1 given Red wine class

Normalized histogram 4 binsempirical pdf

Figura 2: Comparacion histograma fixed acidity clase Tinto con pdf empırica, considerando 4 bins.

5


0 5 10 150

0.05

0.1

0.15

0.2

0.25

0.3

0.35

fixed acidity bins

norm

aliz

ed c

ount

s




0 2 4 6 8 10 12 14 160

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

fixed acidity bins

norm

aliz

ed c

ount

s




El analisis anterior concuerda con el rendimiento que se alcanza considerando dichas cantidadesde bins. La figura 5 compara las curvas ROC obtenidas para 4, 10 y 60 bins.

3.3 Modelo Gaussiano

a) La densidad de probabilidad para un vector aleatorio gaussiano corresponde a:

f(x1, x2, . . . , xn) =1

(2π)n2 |Σ|

12

e−12

(~x−~u)tΣ−1(~x−~u) (7)

donde ~µ = E[~x] es el vector media y Σ es la matriz de covarianza, definida como:

Σij = E[(xi − µi)(xj − µj)] (8)

6


0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.90.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

FPR

TP

R

ROC Curves Naive Bayes for different Nbins

4 bins10 bins60 bins

Figura 5: Curvas ROC para 4, 10 y 60 bins.

b) En primera instancia, la idea es aplicar los estimadores ML descritos por 6. De hecho, la funcionmean(A) de Matlab calcula la media muestral. Sin embargo, el estimador para la matriz decovarianza descrito en 6 es sesgado, por lo que se utilizara la funcion cov(A) para tales efectos.La unica diferencia es el factor escalar: para cov(A) es 1

n−1 , mientras que para el estimador ML

es 1n . Dicho calculo se puede apreciar en la seccion Get mean vector and covariance matrix del

codigo parte3.m.

c) Una vez encontradas ~µTinto, ~µBlanco, ΣTinto y ΣBlanco, se debe computar p(~x|Tinto) y p(~x|Blanco)para cada muestra de prueba, utilizando la expresion en 7. Dicho calculo se puede apreciar enla seccion Evaluate test set and Performance del codigo parte3.m.

d) La figura 6 muestra la curva ROC obtenida para el clasificador de Bayes, asumiendo que ladistribucion conjunta de las caracterısticas corresponde a una gaussiana multidimensional.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.70.65

0.7

0.75

0.8

0.85

0.9

0.95

1

FPR

TP

R

ROC Curve MD Gaussian Model

Figura 6: Curva ROC para clasificador bayesiano, considerando un enfoque gaussiano multivariante.

7


3.4 Comparacion

a) La figura 7 muestra las curvas ROC obtenidas para ambos enfoques, donde se ha considerado20 bins para el modelo de histogramas.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.70

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

FPR

TP

R

ROC Curve Naive Bayes and MD Gaussian Model

Naive BayesMD Gaussian

Figura 7: Curvas ROC para clasificador bayesiano, considerando enfoque de histogramas (NaiveBayes) y modelo gaussiano multivariante.

Se puede observar en general un mejor rendimiento para el modelo gaussiano multivariante,dado que para un FPR fijo, la tasa de verdaderos positivos para dicho modelo es superior a laconseguida por el enfoque Naive Bayes. A pesar de esto, ambas curvas expresan un desempenodeseado, puesto que el ‘codo’ de estas se ubica en una zona donde la tasa de falsos positivos esmuy baja y la de verdaderos positivos muy alta.

Una de las ventajas que posee el enfoque gaussiano multivariante es la simplicidad en los calculos,puesto que el entrenamiento se basa en calcular 4 parametros a partir de las muestras (2 porcada clase), para luego evaluar cada muestra de test en base a 7. Por otro lado, para el enfoqueNaive Bayes se tuvo que calcular 11 histogramas por cada clase, dado que no se asumio ningunadistribucion para la funcion verosimilitud. Mas aun, el desempeno del modelo de histogramasdepende de que estos resulten una buena aproximacion de la pdf en cuestion, para lo cual debeelegirse una cantidad de bins acorde con el tamano del conjunto de entrenamiento que se posee.

Por ultimo, se pretende realizar un analisis del supuesto de independencia realizado para elenfoque Naive Bayes. Para ello, se calculo los coeficientes de correlacion muestrales entre car-acterısticas, para cada clase en el conjunto de entrenamiento. Las tablas 1 y 2 muestran losresultados, omitiendo la trianguar inferior dada la simetrıa existente en los coeficientes de cor-relacion. Se puede apreciar que, en general, los coeficientes son cercanos a cero para ambasclases. Los coeficientes mayores a 0.5 estan marcados con rojo, pues indican una correlacion nomenor entre las caracterısticas en cuestion. Estos valores altos permiten asegurar la dependenciaentre dichas caracterısticas, sin embargo nada puede afirmarse para los valores cercanos a cero.Esto, pues el teorema indica una implicancia entre independencia y no-correlacion, pero no unaequivalencia. Por lo tanto, para la clase Tinto por ejemplo, caracterısticas como 1 y 3, 1 y 8 o1 y 9 no son una buena aproximacion de independencia.

8


Features Feat.1 Feat.2 Feat.3 Feat.4 Feat.5 Feat.6 Feat.7 Feat.8 Feat.9 Feat.10 Feat.11

Feat.1 1,000 -0,017 0,642 0,015 0,105 -0,189 -0,149 0,584 -0,688 0,190 -0,055Feat.2 1,000 -0,047 0,045 0,008 -0,033 -0,030 0,002 0,067 -0,023 0,007Feat.3 1,000 0,114 0,176 -0,076 0,030 0,266 -0,504 0,300 0,164Feat.4 1,000 -0,010 0,185 0,245 0,233 -0,040 -0,039 0,111Feat.5 1,000 -0,034 0,016 0,205 -0,243 0,321 -0,223Feat.6 1,000 0,671 -0,066 0,033 0,027 -0,057Feat.7 1,000 0,026 -0,090 0,050 -0,178Feat.8 1,000 -0,283 0,145 -0,560Feat.9 1,000 -0,214 0,189

Feat.10 1,000 0,097Feat.11 1,000

Tabla 1: Coeficientes de correlacion muestrales entre caracterısticas, para clase Tinto .

Features Feat.1 Feat.2 Feat.3 Feat.4 Feat.5 Feat.6 Feat.7 Feat.8 Feat.9 Feat.10 Feat.11

Feat.1 1,000 -0,051 0,234 0,053 0,035 -0,036 0,063 0,249 -0,467 -0,039 -0,121Feat.2 1,000 -0,164 0,055 0,087 -0,062 0,136 0,008 0,001 -0,014 0,063Feat.3 1,000 0,039 0,200 0,076 0,070 0,115 -0,148 0,057 -0,082Feat.4 1,000 0,062 0,265 0,379 0,825 -0,143 -0,036 -0,442Feat.5 1,000 0,030 0,163 0,242 -0,107 0,047 -0,330Feat.6 1,000 0,645 0,283 -0,009 0,110 -0,242Feat.7 1,000 0,524 0,010 0,177 -0,445Feat.8 1,000 -0,099 0,090 -0,805Feat.9 1,000 0,131 0,166

Feat.10 1,000 -0,068Feat.11 1,000

Tabla 2: Coeficientes de correlacion muestrales entre caracterısticas, para clase Blanco .

4 Conclusion

� El modelo de histogramas con la simplificacion Naive Bayes entrega un clasificador con de-sempeno aceptable. Lo anterior radica en la curva ROC obtenida, la cual posee una zona dondelas tasas de verdederos positivos y negativos son muy altas (mayor a 96% y 99%, respectiva-mente).

� Los histogramas se utilizan para aproximar la distribucion probabilıstica (pdf ) de una carac-terıstica. La cantidad de bins considerada determina la forma del histograma, ante lo cual sepudo observar que no puede ser muy pequena ni muy grande. La cantidad optima de bins seraun numero intermedio que dependera de la cantidad de muestras que se tenga.

� El modelo gaussiano multivariante otorga un gran desempeno al clasificador. En la curva ROCobtenida se observa una zona donde la tasa de verdaderos positivos y negativos es 1.

� La implementacion del clasificador mediante el enfoque gaussiano multivariante es mas simple,puesto que el entrenamiento consiste en determinar 2 parametros por clase. Por otro lado, parael primer modelo utilizado se requirio un histograma por caracterıstica, dada una clase.

9


5 Anexos

5.1 Funciones implementadas

i) funcion parte2(training set,test set): Realiza lo solicitado en la parte 2 de la tarea, entregandocomo salida los vectores TPR y FPR. Considera 20 bins en histogramas.

ii) funcion parte3(training set,test set): Realiza lo solicitado en la parte 3 de la tarea, entregandocomo salida los vectores TPR y FPR.

iii) histogram feat(feat,Nbins): Recibe vector de muestras de alguna caracterıstica ‘feat’ y numerode bins ‘Nbins’. Entrega el rango y los bincounts del histograma.

iv) MD gaussian(row vector,mean vector,covariance matrix): Entrega el valor de la densidad de unagaussiana MD evaluada en ‘row vector’.

v) split(N,p1):Entrega vector con indices para dividir aleatoriamente un conjunto de datos en dossubconjuntos: subset1(p1 ·N datos) y subset2((1− p1) ·N datos).

References

[1] Richard O Duda, Peter E Hart, and David G Stork. Pattern classification. 2nd. Edition. NewYork, 2001.

[2] Davis University of California. Volatile Acidity. http://waterhouse.ucdavis.edu/

whats-in-wine/volatile-acidity, 2012. [Online; accessed 12-April-2015].

10

http://waterhouse.ucdavis.edu/whats-in-wine/volatile-acidity

http://waterhouse.ucdavis.edu/whats-in-wine/volatile-acidity

informe clasificación bayesiana

Documents