aprendizaje multi-instancia c on programación genética ... · pervisado [8, 13], con lo que a...

8
Aprendizaje Multi-instancia con Programación Genética para Web Mining Amelia Zafra, Sebastián Ventura Enrique Herrera-Viedma Departamento de Informática Departamento de Inteligencia Artificial y Análisis Numérico y Ciencias de la Computación Universidad de Córdoba Universidad de Granada 14071 Córdoba 18071 Granada {azafra,sventura}@uco.es [email protected] Resumen Este trabajo presenta un algoritmo de pro- gramación genética guiado por gramática para aprendizaje multi-instancia. Su funcionamien- to es evaluado en el marco de Web Mining, con la finalidad de identificar páginas índice que contengan enlaces de interés para los usua- rios. Esta nuevo algoritmo llamado G3P-MI es evaluado y comparado con otros algorit- mos disponibles. Los experimentos computa- cionales muestran que el algoritmo G3P-MI obtiene resultados competitivos, resuelve el problema de otros algoritmos como la escala- bilidad y añade comprensibilidad y claridad en el proceso de descubrimiento de conocimiento. 1. Introduction El aprendizaje con multi-instancia (MIL) in- troducido por Dietterich et al. [4] es un mar- co de aprendizaje reciente que ha adquirido mucha importancia en la comunidad de ma- chine learning. En este nuevo aprendizaje el conjunto de entrenamiento está compuesto por bolsas donde cada una contiene un conjunto de instancias. Una bolsa se etiqueta como po- sitiva si contiene al menos una instancia po- sitiva, en caso contrario se etiqueta como ne- gativa. La información que se posee es rela- tiva a las bolsas, no conociendo la clase a la que pertenece cada instancia individual. Como en todos los marcos de aprendizaje, la meta consiste en aprender conceptos a partir del conjunto de entrenamiento, en este caso para ser capaces de etiquetar correctamente nuevas bolsas. Desde la aparición de MIL, siguiendo el tra- bajo de Dietterich et al. [4] han aparecido una gran cantidad de nuevos métodos. Auer [2] re- alizó una investigación teórica y presentó el algoritmo MULTINST. Un trabajo también teórico fue desarrollado por Long and Tan [7] que demostraron teóricamente que es posible la generación de un aprendizaje PAC desde ejemplos multi-instancia. Los primeros enfo- ques usando aprendizaje perezoso, árboles de decisión y reglas de aprendizaje fueron inves- tigados durante el año 2000. En este contex- to, encontramos varios trabajos, Whang and Zucker [12] propusieron dos variantes del al- goritmo del vecino k más cercano (KNN) que ellos denominaron Citation-KNN y Bayesian- KNN. Con respecto a los árboles de decisión y las reglas de aprendizaje, Zucker and Cheva- leyre [19] implementaron ID3-MI y RIPPER- MI. En la misma época, Ruffo [9] presen- tó una versión multi-instancia de árboles de decisión C4.5, que fue llamada RELIC. Más tarde, Zhou et al. [18] presentaron el algo- ritmo Fretcit-KNN, que es una variante del Citation-KNN. También podemos encontrar muchos otros algoritmos populares de machine learning adaptados al entorno MIL, tales co- mo extensiones de las redes neuronales están- dar [14, 15], máquinas de vector de soporte 285

Upload: others

Post on 26-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Aprendizaje Multi-instancia c on Programación Genética ... · pervisado [8, 13], con lo que a priori parece interesante su adaptación a este nuevo marco de aprendizaje. ... [18],

Aprendizaje Multi-instancia con Programación Genética paraWeb Mining

Amelia Zafra, Sebastián Ventura Enrique Herrera-ViedmaDepartamento de Informática Departamento de Inteligencia Artificial

y Análisis Numérico y Ciencias de la Computación

Universidad de Córdoba Universidad de Granada

14071 Córdoba 18071 Granada

{azafra,sventura}@uco.es [email protected]

Resumen

Este trabajo presenta un algoritmo de pro-gramación genética guiado por gramática paraaprendizaje multi-instancia. Su funcionamien-to es evaluado en el marco de Web Mining,con la finalidad de identificar páginas índiceque contengan enlaces de interés para los usua-rios. Esta nuevo algoritmo llamado G3P-MIes evaluado y comparado con otros algorit-mos disponibles. Los experimentos computa-cionales muestran que el algoritmo G3P-MIobtiene resultados competitivos, resuelve elproblema de otros algoritmos como la escala-bilidad y añade comprensibilidad y claridad enel proceso de descubrimiento de conocimiento.

1. Introduction

El aprendizaje con multi-instancia (MIL) in-troducido por Dietterich et al. [4] es un mar-co de aprendizaje reciente que ha adquiridomucha importancia en la comunidad de ma-chine learning. En este nuevo aprendizaje elconjunto de entrenamiento está compuesto porbolsas donde cada una contiene un conjuntode instancias. Una bolsa se etiqueta como po-sitiva si contiene al menos una instancia po-sitiva, en caso contrario se etiqueta como ne-gativa. La información que se posee es rela-tiva a las bolsas, no conociendo la clase a laque pertenece cada instancia individual. Comoen todos los marcos de aprendizaje, la meta

consiste en aprender conceptos a partir delconjunto de entrenamiento, en este caso paraser capaces de etiquetar correctamente nuevasbolsas.

Desde la aparición de MIL, siguiendo el tra-bajo de Dietterich et al. [4] han aparecido unagran cantidad de nuevos métodos. Auer [2] re-alizó una investigación teórica y presentó elalgoritmo MULTINST. Un trabajo tambiénteórico fue desarrollado por Long and Tan [7]que demostraron teóricamente que es posiblela generación de un aprendizaje PAC desdeejemplos multi-instancia. Los primeros enfo-ques usando aprendizaje perezoso, árboles dedecisión y reglas de aprendizaje fueron inves-tigados durante el año 2000. En este contex-to, encontramos varios trabajos, Whang andZucker [12] propusieron dos variantes del al-goritmo del vecino k más cercano (KNN) queellos denominaron Citation-KNN y Bayesian-KNN. Con respecto a los árboles de decisión ylas reglas de aprendizaje, Zucker and Cheva-leyre [19] implementaron ID3-MI y RIPPER-MI. En la misma época, Ruffo [9] presen-tó una versión multi-instancia de árboles dedecisión C4.5, que fue llamada RELIC. Mástarde, Zhou et al. [18] presentaron el algo-ritmo Fretcit-KNN, que es una variante delCitation-KNN. También podemos encontrarmuchos otros algoritmos populares de machinelearning adaptados al entorno MIL, tales co-mo extensiones de las redes neuronales están-dar [14, 15], máquinas de vector de soporte

285

Page 2: Aprendizaje Multi-instancia c on Programación Genética ... · pervisado [8, 13], con lo que a priori parece interesante su adaptación a este nuevo marco de aprendizaje. ... [18],

[1, 16, 11] y el uso de ensembles [14].De la misma forma, también han aparecido

una gran variedad de tareas que se han formu-lado como problemas multi-instancias. Entreestas tareas, podemos encontrar la recomen-dación de páginas índice que consiste en deter-minar si una determinada página índice puedeser de interés para un usuario. Este problemaha sido resuelto tanto desde una perspectivatradicional, con técnicas como el k vecino máscercano [10] o la frecuencia inversa del docu-mento [5], como desde una perspectiva multi-instancia, adaptando el algoritmo del k vecinomás cercano [18]. Sin embargo, las variantesdel algoritmo del vecino más cercano presentandos limitaciones principales. La primera estárelacionada con la escalabilidad. Estos algorit-mos no escalan bien cuando el número de itemses elevado, viéndose afectada tanto la predic-ción como la precisión. El problema es que re-quieren cálculos que crecen linealmente con elnúmero de items. La segunda, está relaciona-da con la interpretabilidad del conocimientodescubierto. Es decir, actúan como una cajanegra, donde no se muestra ninguna informa-ción sobre las preferencias de los usuarios.

Aunque MIL ha sido investigado en unagran variedad de problemas, con una granvariedad de enfoques, no se ha abordado elproblema con enfoques de algoritmos evo-lutivos [3] cuando estos algoritmos han de-mostrado excelentes resultados en otros mar-cos de aprendizaje. En este trabajo, pretende-mos solucionar las limitaciones que presen-tan los métodos realizados hasta la fecha parala resolución del problema de recomendaciónde páginas índice proponiendo un nuevo al-goritmo de MIL usando programación genéti-ca guidada por gramática (G3P) que nos per-mite descubrir las preferencias de los usuariosen la tarea de recomendación. Este nuevo al-goritmo, llamado G3P-MI genera un clasifi-cador basado en reglas sencillas que mejoranla habilidad de generalización, incluyen inter-pretabilidad y claridad en el conocimiento des-cubierto proporcionando información sobre losintereses de los usuarios y clasifican nuevosejemplos (páginas webs) rápidamente. Resul-tados experimentales para resolver este proble-

ma muestran que este enfoque obtiene resul-tados competitivos en términos de accuracy,recall y precision.

El artículo se organiza en las siguientes sec-ciones. La sección 2 describe el algoritmo G3P-MI propuesto. La sección 3 presenta el proble-ma de recomendación de páginas índice. Lasección 4 muestra los resultados experimen-tales. Finalmente, la sección 5 presenta lasconclusiones y trabajo futuro.

2. Programación GenéticaMúltiple-instancia

La programación genética (GP) introducidapor John Koza [6] se ha convertido en unparadigma con un creciente interés en tareasde clasificación. Podemos encontrar diferentespropuestas que muestran que GP es una cam-po con experiencia que logra errores bajos conrespecto a otros algoritmos de aprendizaje su-pervisado [8, 13], con lo que a priori pareceinteresante su adaptación a este nuevo marcode aprendizaje.

Las siguientes secciones muestran las partesfundamentales de las que se compone nuestrosistema.

2.1. Representación de los Individuos

Un individuo está formado por dos compo-nentes, un genotipo que es codificado con unaestructura de árbol con profundidad limitadapara evitar un tamaño demasiado grande, y unfenotipo que representa la regla completa for-mada por un antecedente y un consecuente.El antecedente consiste en la estructura de ár-bol y representa una regla que puede contenermúltiples comparaciones unidas por conjun-ción o disyunción. El consecuente especifica laclase donde es clasificada la instancia que sa-tisface todas las condiciones del antecedente. Apartir de estos clasificadores, para llevar a cabola clasificación de bolsas debemos modificar ladefinición formal de cubrimiento, y emplear ladefinición de cubrimiento multi-instancia dadapor [17].

Para forzar las restricciones sintácticas ysatisfacer la propiedad de cierre, se emplea

286

Page 3: Aprendizaje Multi-instancia c on Programación Genética ... · pervisado [8, 13], con lo que a priori parece interesante su adaptación a este nuevo marco de aprendizaje. ... [18],

antecedente -> comparacionOR comparacion antecedente

AND comparacion antecedente

comparacion -> opComparacion valoresComparacion

opComparacion -> <

valoresComparacion -> atributo valor

(a) Usando frecuencia de los términos

antecedente -> comparacionOR comparacion antecedenteAND comparacion antecedente

comparacion -> opComparacion valoresComparacion

opComparacion -> CONTIENENO_CONTIENE

valoresComparacion -> atributo

(b) No usando frecuencia de los términos

Figura 1: Gramática para la representación de losindividuos

una gramática (ver Fig(1)). Esta gramáticamantiene una restricción sintáctica y semán-tica tanto para la generación de individuos enla población inicial, como para la producciónde nuevos individuos mediante los operadoresgenéticos.

2.2. Operadores Genéticos

Los elementos de la siguiente población songenerados por medio de tres operadores: cruce,copia y elitismo.

2.2.1. Cruce

El cruce se realiza intercambiando los subár-boles de dos padres a partir de dos puntos com-patibles seleccionados aleatoriamente en cadapadre. Dos nodos árboles son compatibles sisus operadores pueden ser intercambiados sinproducir un individuo inválido de acuerdo ala gramática definida. Si cualquiera de los des-cendientes es un individuo inválido, debido a laviolación de la condición de unicidad para losatributos en cada antecedente de la regla o unárbol demasiado profundo, será reemplazadospor uno de sus padres.

2.2.2. Copia

El operador de copia simplemente elige un in-dividuo en la población actual y lo copia sincambios en la nueva población.

2.2.3. Elitismo

El operador de elitismo copia el mejor indivi-duo de una generación y lo pasa sin cambiosa la siguiente generación, evitando así que elproceso estocástico de la evolución pierda adicho individuo.

2.3. Función Fitness

La función de fitness evalúa la calidad de cadaindividuo de acuerdo a tres criterios básicos:accuracy, recall y precision. Para comprenderestas medidas comentamos a continuación al-gunos conceptos necesarios, Pa bolsas positi-vas que son recomendadas, Pr bolsas positivasque son rechazadas, Na bolsas negativas queson recomendadas y Nr bolsas negativas queson rechazadas. Siendo P el número de bolsaspositivas y N el número de bolsas negativas,P = Pa + Pr y N = Na + Nr. La accuracy,recall y precision están definidas en las ecua-ciones (1), (2) y (3), respectivamente:

accuracy =Pa + Nr

P + N(1)

recall =Pa

P(2)

precision =Pa

Pa + Na(3)

Nuestra función fitness es definida como elproducto de todos los indicadores anteriores,ver (4). Todas las medidas son contrapuestas,conforme intentamos reducir el valor de algunade ellas, las otras aumentarán, con lo que seintentará obtener una solución de compromisoentre ellas.

fitness = Accuracy · Recall · Precision (4)

287

Page 4: Aprendizaje Multi-instancia c on Programación Genética ... · pervisado [8, 13], con lo que a priori parece interesante su adaptación a este nuevo marco de aprendizaje. ... [18],

3. Recomendación de PáginasÍndice como un Problema Multi-Instancia

Las páginas índices son páginas que contienenreferencias o breves resúmenes de otras pági-nas. En Internet podemos encontrar un grannúmero de estas páginas. La recomendaciónde páginas índice [18], es una tarea clasifica-da dentro de las tareas de Web Usage Min-ing. Su finalidad es analizar las páginas índiceautomáticamente y mostrar al usuario sólo laspáginas que contienen temás de su interés.Para ser capaces de decidir si una nueva pági-na índice contiene algún tema de interés parael usuario, se necesita como paso previo iden-tificar cuáles son sus intereses. La dificultadrecae en que el usuario especifica si está intere-sado en páginas índice, en lugar de especificarlos enlaces concretos en los que realmente estáinteresado.

Este problema puede ser visto como unproblema multi-instancia donde la meta es eti-quetar nuevas páginas índice como positivaso negativas. Una página índice es positiva siel usuario está interesado en al menos uno desus enlaces. Una página índice es negativa sininguno de sus enlaces es de interés para elusuario. En este problema, cada página índiceserá considerada como una bolsa mientras quesus páginas enlazadas serán consideradas comoinstancias en la bolsa. Cada instancia puedeser representada por un vector de términosT = [t1, t2, , tn], donde ti (i = 1, 2, .., n) es unode los n términos más frecuentes que aparecenen la correspondiente página enlazada. Todaslas páginas son descritas por el mismo númerode términos, con lo que todas las instanciastendrán el mismo número de componentes,aunque éstos pueden ser muy diferentes. Parabolsas diferentes, sus correspondientes páginasíndice pueden contener diferente número deenlaces, es decir, el número de instancias enlas bolsas puede ser diferente.

4. Experimentos y Resultados

Llevaremos a cabo dos tipos de experi-mentos. Un primer experimento comparará el

funcionamiento de nuestro algoritmo G3P-MIusando diferentes configuraciones sobre el pro-blema de recomendación de páginas índice. Elsegundo experimento evalúa nuestro mejor al-goritmo con otras técnicas de clasificación em-pleadas en la resolución de este problema. To-dos los experimentos son repetidos cinco vecescon diferentes semillas, y los valores medios deaccuracy, recall y precision son mostrados enlas siguientes secciones.

4.1. Datasets y Parámetros de Ejecución

Los experimentos han sido realizados so-bre nueve conjuntos de datos, en cada uno deellos un voluntario etiquetó 113 páginas índicede acuerdo a sus intereses. Para cada dataset,75 páginas índice son seleccionadas aleatori-amente como bolsas de entrenamiento mien-tras las restantes 38 páginas índice son us-adas como bolsas para test. Aunque mantemosexactamente las misma información estableci-da en [18], la conformación de los datasets esadaptada para trabajar con nuestro algoritmo.De esta forma se establece un vector por ca-da instancia, a su vez cada instancia contieneun atributo por cada palabra considerada y sele añaden dos atributos, el primero llamadobolsaid identifica la bolsa a la que pertenecey el segundo llamado bolsaclase determina laclase de su bolsa.

Todas las comparaciones de resultados sonllevada a cabo por asociación de datasets. Losdatasets son organizados en tres grupos, elprimer grupo formado por los datasets V1, V2y V3 contiene más bolsas negativas que posi-tivas (este grupo es referenciado como conjun-to de clase negativa mayoritaria). El segundogrupo está formado por los datasets V4, V5y V6 que contienen más bolsas positivas quenegativas (este grupo se referencia como con-junto mayoritario positivo) y el tercer grupoformado por los datasets V7, V8 y V9 contieneel mismo número de bolsas positivas que bol-sas negativas (este grupo se referencia comoconjunto balanceado). Esta asociación es in-teresante para darse cuenta y estudiar el com-portamiento de los algoritmos entre datos ba-lanceados y no balanceados.

288

Page 5: Aprendizaje Multi-instancia c on Programación Genética ... · pervisado [8, 13], con lo que a priori parece interesante su adaptación a este nuevo marco de aprendizaje. ... [18],

Cuadro 1: Resumen de los resultados de G3P-MI

Mayoría de Mayoría de Conjuntobolsas negativas bolsas positivas Balanceado

Algoritmo Acc Rec Prec Acc Rec Prec Acc Rec Prec

G3P −MIa 0.842 0.468 0.369 0.807 1.000 0.801 0.693 0.927 0.621G3P −MIb 0.807 0.690 0.379 0.825 0.877 0.895 0.711 0.750 0.727

G3P −MI1,a 0.842 0.559 0.660 0.816 1.000 0.809 0.474 1.000 0.474G3P −MI1,b 0.886 0.821 0.518 0.825 1.000 0.816 0.526 1.000 0.5001) Usando frecuencia de las palabrasa) Usando todas las palabrasb) Usando un conjunto de palabras más reducido

Los parámetros usados en todos las ejecu-ciones de GP fueron: tamaño de la población:1000, generaciones: 100, probabilidad de cruce:95%, probabilidad de reproducción: 5%,método de selección para ambos padres: laruleta, profundidad máxima del árbol: 15. Lapoblación inicial fue generada usando el méto-do ramped-half-and-half [6].

4.2. Comparaciones de G3P-MI

Se realizan dos comparaciones para evaluarel funcionamiento de nuestro algoritmo G3P-MI. La primera es entre datasets que conside-ran todas las palabras y datasets que conside-ran palabras que aparecen en más de 3 bolsasy menos de 40, este caso intenta eliminar tantolas palabras demasiado exclusivas como las de-masiado usuales. Estas palabras no son útilesen tareas de clasificación e incrementan el es-pacio de búsqueda. La segunda es entre clasi-ficadores que tienen en cuenta frecuencias delas palabras y clasificadores que sólo tienen encuenta si las palabras aparecen o no aparecen.En la tabla 1 se muestra un resumen compa-rativo de los valores medios obtenidos.

Podemos ver que en caso de usar un datasetcon un número reducido de palabras, ademásde reducir el espacio de búsqueda y requerirmenos tiempo de cómputo, los resultados sonmejores. Concretamente, los valores de accura-cy y precision aparecen incrementados, mien-tras los valores de recall aparecen decremen-

tados. Este comportamiento puede explicarsepor el hecho de que el clasificador es generadopara clasificar bolsas positivas, mientras quelas bolsas que no cubren el clasificador, sonconsideradas bolsas negativas. Por ello, si eli-minamos las palabras comunes y específicas,favorecemos que ciertas bolsas positivas no seincluyan porque no usamos palabras comunesque lo hacían incluirse (decrementamos el re-call), pero a su vez cometemos menos erro-res, porque al eliminar las palabras comunes,menos bolsas negativas son consideradas comobolsas positivas (incrementamos la precision).

Si comparamos entre el método que conside-ra la frecuencia de los términos o no, podemosver que el primero obtiene mejores valores derecall, pero peores valores de precision. Estonos indica que la inclusión de las frecuenciasnos determina reglas más generales que clasifi-can la mayoría de las bolsas positivas a expen-sas de cometer errores incluyendo como posi-tivas bolsas que no lo son. Esta relación quese produce entre estas dos medidas puede serexplicada si estudiamos el número de aciertosy errores producidos con respecto a cada clase.Un incremento de recall significa clasificar co-rrectamente más bolsas de la clase positiva.De este modo, un incremento de verdaderospositivos (casos positivos correctamente iden-tificados) está asociado con un incremento defalsos positivos (casos identificados como po-sitivos pero realmente son negativos), y un

289

Page 6: Aprendizaje Multi-instancia c on Programación Genética ... · pervisado [8, 13], con lo que a priori parece interesante su adaptación a este nuevo marco de aprendizaje. ... [18],

Cuadro 2: Resumen de los resultados generales

Mayoría de Mayoría de Conjuntobolsas negativas bolsas positivas Balanceado

Algoritmos Acc Rec Prec Acc Rec Prec Acc Rec Prec

Fretcit-kNN 0.879 0.622 0.514 0.854 0.925 0.896 0.698 0.603 0.718Txt-KNN 0.795 0.652 0.335 0.805 0.985 0.809 0.570 0.722 0.538Citation-KNN 0.803 0.433 0.336 0.796 0.864 0.875 0.674 0.561 0.701G3P-MI 0.807 0.690 0.379 0.825 0.877 0.895 0.711 0.750 0.727

Fretcit-kNN 0.870 0.627 0.486 0.810 0.915 0.856 0.732 0.605 0.802Txt-KNN 0.795 0.533 0.326 0.812 0.967 0.821 0.600 0.741 0.562Citation-KNN 0.833 0.456 0.429 0.782 0.852 0.858 0.674 0.594 0.695G3P-MI 0.886 0.821 0.518 0.825 1.000 0.816 0.526 1.000 0.500

decremento de los verdaderos negativos (casosnegativos identificados correctamente). Por lotanto, cualquier incremento en recall suele iracompañado por un decremento de la preci-sion.

4.3. Comparición con Otros Algoritmos

Nuestro algoritmo es comparado con otrosexistentes, que son Frecit-KNN, Citation-KNN y Txt-KNN. Ellos son descritos en [18].Txt-KNN es obtenido adaptando el algorit-mo KNN estandar a los objetos textuales.Citation-KNN es similar al anterior pero con-sidera tanto referencias como citas de los ob-jetos. Frecit-KNN es similar a Citation-KNN,pero a diferencia de los anteriores, este es unalgoritmo de múltiple instancia. Después deanalizar nuestro algoritmo en secciones ante-riores, elegimos para la comparación la con-figuración que reducía el número de palabrasconsideradas. Los resultados de los algoritmosse muestran en la tabla 2.

Si comparamos todos los métodos, pode-mos ver que G3P-MI obtiene mejores resulta-dos que Txt-KNN y Citation-KNN. Con res-pecto a Frecit-KNN, en caso de no conside-rar las frecuencias de palabras, nuestro algo-ritmo obtiene resultados ligeramente mejorespara datos balanceados, aunque son ligera-

mente peores para datos no balanceados. Ennuestra opinión, la gran ventaja que presentanuestro algoritmo es la habilidad de generar re-glas inteligibles que una vez interpretadas pro-porcionan una información muy valiosa paraconocer los intereses del usuario. A continua-ción, se muestra un clasificador obtenido parael dataset V1.

SI ((contiene planeta Y deforestación) O(contiene atmósfera)O (no_contiene fútbol) )

ENTONCESRecomendar la página al usuario V1.

SINONo recomendar la página al usuario V1.

Del clasificador generado para el usuario V1,podemos aprender temas que le interesan alusuario, conociendo sus preferencias. Así, es-taría interesado en temas como ecología y en-torno (con palabras de interés como planeta,deforestación y atmósfera) y no está interesa-do en temas deportivos relativos al fútbol.

Finalmente, podemos resumir dos motiva-ciones principales para usar G3P-MI:

1. No es necesario establecer el número detérminos considerados en cada instanciapara la ejecución del algoritmo. Como esconocido, el algoritmo del vecino k más

290

Page 7: Aprendizaje Multi-instancia c on Programación Genética ... · pervisado [8, 13], con lo que a priori parece interesante su adaptación a este nuevo marco de aprendizaje. ... [18],

cercano con el que se compara, es una téc-nica costosa que requiere cómputos quecrecen linealmente con el número de tér-minos.

2. Los algoritmos disponibles para resolvereste problema no generan hipótesis inter-pretables tales como conjunto de reglas.Nuestro algoritmo genera conocimientosimple, modular e intuitivo. Además, elconjunto de reglas inducido por G3P-MIes simple (sólo contiene unos cinco o seisliterales), facilitando de este modo la com-prensibilidad.

5. Conclusiones

Este artículo describe un primer intento deaplicar técnicas G3P para MIL. Es comparadocon las tres técnicas más empleadas para re-solver el problema de recomendación de pági-nas índices, Txt-KNN, Citation-KNN y Frecit-KNN. G3P-MI obtiene resultados competi-tivos en términos de accuracy, recall y pre-cision, sus resultados son significativamentemejores que dos técnicas y con respecto a laúltima mencionada son ligeramente mejorespara datos balanceados, y ligeramente peoresen los no balanceados. Sin embargo, la ca-racterística más relevante de G3P-MI es queañade los beneficios de la interpretabilidad yla claridad proporcionando información sobrelas preferencias de los usuarios, mientras quelos otros algoritmos no son capaces de generarconocimiento fácilmente comprensible.

El problema de recomendación de páginasíndice para algoritmos tales como G3P es com-plejo, debido al gran número de atributos, loque causa que algunas hipótesis no sean pre-dictivas debido a que el espacio de búsqueda esdemasiado amplio. Actualmente, estamos in-vestigando algoritmos de selección de carac-terísticas para solucionar este problema y asídecrementar el espacio de búsqueda y mejorarlos resultados.

Agradecimientos

Este trabajo ha sido financiado en partepor el proyecto TIN2005-08386-C05-02 de lacomisión inter-ministerial de ciencia y tec-nología (CICYT), fundación FEDER y proyec-to SAINFOWEB P05-TIC-602.

Referencias

[1] S. Andrews, I. Tsochantaridis, andT. Hofmann. Support vector machines formultiple-instance learning. In NIPS’02:Proceedings of Neural Information Pro-cessing System, pages 561–568, 2002.

[2] P. Auer. On learning from multi-instanceexamples: Empirical evaluation of a the-oretical approach. In ICML’97: Proceed-ings of the Fourteenth International Con-ference on Machine Learning, pages 21–29, San Francisco, CA, USA, 1997. Mor-gan Kaufmann Publishers.

[3] T. Back. Evolutionary algorithms intheory and practice: evolution strategies,evolutionary programming, genetic algo-rithms. Oxford University Press, Oxford,UK, 1996.

[4] T.G. Dietterich, R.H. Lathrop, andT. Lozano-Pérez. Solving the multiple in-stance problem with axis-parallel rectan-gles. Artifical Intelligence, 89(1-2):31–71,1997.

[5] T. Joachims. A probabilistic analysis ofthe Rocchio algorithm with TFIDF fortext categorization. In ICML’97: Pro-ceedings of 14th International Conferenceon Machine Learning), pages 143–151,Nashville, US, 1997. Morgan KaufmannPublishers.

[6] J.R. Koza. Genetic Programming: On theProgramming of Computers by Means ofNatural Selection. MIT Press, Dic 1992.

[7] P.M. Long and L. Tan. PAC learning axis-aligned rectangles with respect to prod-uct distributions from multiple-instance

291

Page 8: Aprendizaje Multi-instancia c on Programación Genética ... · pervisado [8, 13], con lo que a priori parece interesante su adaptación a este nuevo marco de aprendizaje. ... [18],

examples. Machine Learning, 30(1):7–21,1998.

[8] D.P. Muni, N.R. Pal, and J. Das. A nov-el approach to design classifiers using ge-netic programming. IEEE TransactionsEvolutionary Computation, 8(2):183–196,2004.

[9] G. Ruffo. Learning single and multiple in-stance decision tree for computer securi-ty applications. PhD thesis, Departmentof Computer Science. University of Turin,Torino, Italy, 2000.

[10] G. Shakhnarovich, T. Darrell, and P. In-dyk. Nearest-Neighbor Methods in Learn-ing and Vision: Theory and Practice(Neural Information Processing). TheMIT Press, 2006.

[11] Q. Tao, S. Scott, N.V. Vinodchandran,and T. Takeo Osugi. SVM-based gener-alized multiple-instance learning via ap-proximate box counting. In ICML’04:Proceedings of the twenty-first interna-tional conference on Machine learning,pages 799–806, New York, NY, USA,2004. ACM Press.

[12] J. Wang and J. Zucker. Solving themultiple-instance problem: A lazy learn-ing approach. In ICML’00: Proceedings ofthe Seventeenth International Conferenceon Machine Learning, pages 1119–1126,San Francisco, CA, USA, 2000. MorganKaufmann Publishers.

[13] M. Zhang and W. Smart. Using gaus-sian distribution to construct fitness func-

tions in genetic programming for multi-class object classification. Pattern Recog-nition Letters, 27(11):1266–1274, August2006.

[14] M. Zhang and Z. Zhou. Ensembles ofmulti-instance neural networks. In Intel-ligent information processing II, volume163, pages 471–474, London, UK, 2005.Springer Boston.

[15] M. Zhang and Z. Zhou. Adapting rbfneural networks to multi-instance learn-ing. Neural Processing Letters, 23(1):1–26, 2006.

[16] Q. Zhang and S. Goldman. EM-DD: Animproved multiple-instance learning tech-nique. In NIPS’01: Proceedings of NeuralInformation Processing System 14, pages1073–1080, 2001.

[17] Z. Zhou. Multi-instance learning from su-pervised view. Journal Computer Scienceand Technology, 21(5):800–809, 2006.

[18] Z. Zhou, K. Jiang, and M. Li. Multi-instance learning based web mining. Ap-plied Intelligence, 22(2):135–147, 2005.

[19] J. Zucker and Y. Chevaleyre. Solv-ing multiple-instance and multiple-partlearning problems with decision trees anddecision rules. Application to the mutage-nesis problem. In Proceedings of the 14thCanadian Conference on Artificial Intel-ligence, Lecture Notes in Artificial Intel-ligence, pages 204–214, Ottawa, Canada,2000.

292