integraciÓn entre python y weka aplicado en la mineria de datos

INTEGRACIÓN ENTRE PYTHON Y WEKA APLICADO EN LA

MINERIA DE DATOS

PYTHON INTEGRATION WITH WEKA APPLIED INTO DATA MINING

Ing. Yoanni Ordoñes Leyva 1, Ing. Ernesto Avilés Vázquez 2, Lic. Darian Horacio Grass Boada3

1 Instructor Recién Graduado, Dpto. Seguridad Informática, Centro Telemática, Facultad 2, Universidad de las Ciencias

Informáticas, Ciudad de la Habana, Cuba. [email protected]

2Instructor Recién Graduado, Dpto. Seguridad Informática, Centro Telemática, Facultad 2, Universidad de las Ciencias

Informáticas, Ciudad de la Habana, Cuba. [email protected]

3 Profesor Asistente, Dpto. Seguridad Informática, Centro Telemática, Facultad 2, Universidad de las Ciencias Informáticas,

Ciudad de la Habana, Cuba. [email protected]

RESUMEN

Las Bases de Datos surgieron como alternativa a la necesidad de persistir la información en los sistemas de cómputo, estando limitada a unos pocos Kbytes en su inicio. El avance de las tecnologías permitió un incremento exponencial en el volumen de información almacenada en estos sistemas, con lo cual las organizaciones han podido satisfacer sus necesidades cotidianas, pero ha superado la capacidad de éstas de analizar y transformar esta información en conocimiento útil que ayude a su mejor funcionamiento. Bajo estas condiciones surge la Minería de Datos como alternativa para la obtención de patrones ocultos en un conjunto de datos.

La Universidad de las Ciencias Informáticas (UCI) cuenta con un servicio de navegación por Internet donde se genera un enorme volumen de información que registran los servidores proxies. A la hora de la toma de decisiones, la Dirección de Redes y Seguridad Informática (DRSI) no aprovecha el conocimiento implícito en los registros de navegación que describa el uso de las cuotas de navegación por Internet.

Una de las herramientas líderes en la Minería de Datos es la biblioteca de algoritmos WEKA por sus características y su amplio uso. El presente trabajo muestra un estudio para la integración entre una plataforma escrita en Python y WEKA que permita el desarrollo de un proceso de Descubrir Conocimiento en Bases de Datos (KDD) en la UCI como ayuda al funcionamiento de la DRSI.

Palabras Claves: Minería de Datos, Registros de Navegación, Toma de Decisiones.

ABSTRACT

Databases emerged as an alternative to the need to persist the information in computer systems, being limited to few Kbytes at its inception. The advance of technology allowed an exponential increase in the volume of information stored in these systems, which the organizations have been able to satisfy their daily needs, but has exceeded the capacity of these to analyze and transform this information into useful knowledge that helps its best performance. Under these conditions arises Data Mining as an alternative to obtain the hidden patterns in a dataset.

The Informatics Sciences University (UCI) has a Web navigation service which generates a huge volume of information recorded proxy servers. When making decisions, the Department of Network and Computer Security (DRSI) not exploit the implicit knowledge in the navigation records describing the use of quotas for browsing.

One leader tools in Data Mining is the WEKA library for its characteristics and extended use. This work show a study for the integration among a platform developed in Python and WEKA that allows developing a Knowledge Discovery in Databases process (KDD) in the UCI that helps to the DRSI.

Keywords: Data Mining, Navigation Records, Decision Making.

mailto:[email protected]



“V Taller de Calidad en las Tecnologías de la Información y las Comunicaciones”

1. INTRODUCCIÓN

Con el transcurso de los últimos años, el aumento del volumen y variedad de información que se encuentra informatizada en bases de datos digitales y otras fuentes ha crecido espectacularmente [1]. El uso de esta información ha llegado a dominios que antes eran impensables, trayendo como consecuencia la necesidad de nuevas herramientas de administración y análisis que permitan lidiar con esta enorme cantidad de datos [2].

El análisis de datos es una tarea que consiste en buscar o encontrar tendencias o variaciones de comportamiento en los mismos, de tal manera que esta información resulte de utilidad para los usuarios finales. A estas tendencias o variaciones se le conocen como patrón, los cuales si son de importancia y útiles para el dominio en cuestión se le denomina conocimiento [2]. Esta extracción de conocimiento ha evolucionado desde su implementación manual (utilizando técnicas estadísticas), hasta la utilización de diferentes técnicas más novedosas como respuesta al gran volumen de datos y sus disímiles formatos (bases de datos relacionales, imágenes, audio, etc.).

En estas circunstancias surge la Minería de Datos (MD), como un proceso automático o semiautomático que busca descubrir patrones ocultos en un conjunto de datos y que además, sean potencialmente útiles para los usuarios de la organización [1], [2].

Existen numerosas definiciones acerca de la Minería de Datos, entre las que podemos mencionar:

“… el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos” [1].

“… es el proceso de descubrir nuevas correlaciones significativas, patrones y tendencias ocultas a través de grandes cantidades de datos almacenados en los repositorios, utilizando tecnologías de reconocimiento de patrones, así como técnicas estadísticas y matemáticas” [3].

De manera general, la Minería de Datos constituye un proceso para extraer conocimiento de un conjunto de datos a través de técnicas o herramientas, que sirvan en la toma de decisiones a las organizaciones.

Son innumerables los escenarios donde la Minería de Datos ha tenido presencia: financieras, procesos industriales, medicina, políticas,

económicas, policiales y educacionales, por solo citar varios ejemplos [4] - [10].

Uno de estos dominios lo constituye la World Wide Web, su acelerado crecimiento y la competencia entre las organizaciones ha traído la necesidad de mejorar la calidad de los sitios Web, utilizando como base el comportamiento de los usuarios que lo utilizan. Para el descubrimiento de información útil en la Web, la denominada Minería Web es una herramienta útil para el hallazgo de nuevos conocimientos; utilizando la información obtenida de los documentos y servicios Web (textos, imágenes, videos, hiperenlaces, ficheros Log, etc.) [11], esta puede ser clasificada, dependiendo de que parte de la Web se esté explotando, como: Minería del contenido (Content Mining), Minería de Estructura (Structure Mining) o Minería de Uso (Usage Mining) [12].

Cuando se visita un sitio en Internet se dejan huellas digitales (direcciones de IP, navegador, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (Log), constituyendo ésta la información fundamental en la Minería de Uso de la Web la cual está orientada a descubrir la información útil de los datos derivados de la interacción de los usuarios mientras navegan en la Web. Aplicando métodos estadísticos y de minería de datos a los web logs, pueden ser identificados los patrones interesantes concernientes al comportamiento de los usuarios en la navegación [13], con los cuales es posible llevar a cabo una personalización de los sitios Web [14].

Otro de los escenarios ricos en registros de navegación por Internet lo constituyen los logs del proxy, los cuales archivan la navegación de un grupo de usuarios de una determinada organización. La Universidad de las Ciencias Informáticas (UCI) cuenta con un servicio de navegación por Internet para miles de usuarios, la Dirección de Redes y Seguridad Informática no posee la capacidad de analizar el gran volumen de información presente en los logs del proxy en busca de patrones que identifiquen el uso de las cuotas de navegación por parte de los usuarios de la institución, dificultando la toma de decisiones.

El análisis de grandes volúmenes de datos resulta engorroso realizarlo manualmente, siendo necesaria su automatización. Existe un proceso definido para el análisis de datos con el fin de encontrar patrones, llamado Descubrimiento de Conocimiento en Bases de Datos (KDD por sus siglas en inglés). El presente trabajo es un módulo de un sistema encargado de automatizar este proceso, teniendo como escenario los registros de navegación por Internet de la UCI [15]. Se realiza

Ordoñes, Yoanni.; Avilés, Ernesto.,Grass, Darian. | “INTEGRACIÓN ENTRE PYTHON Y WEKA APLICADO EN LA MINERIA DE DATOS”


un estudio para la integración entre dos tecnologías diferentes: Python y Java, tecnologías utilizadas en el desarrollo del sistema y la biblioteca de algoritmos WEKA respectivamente.

2. MATERIALES Y METODOS

2.1. El Proceso de descubrir Conocimiento en Bases de Datos (KDD)

El término Minería de Datos en muchas ocasiones se utiliza como sinónimo con el de Descubrimiento de Conocimiento en Bases de Datos (Knowledge Discovery in Databases), siendo en realidad la Minería de Datos una de las fases de las que está compuesto el proceso KDD [16]. Tal como muestra la Figura 1, un proceso clásico de KDD se organiza en torno a cinco fases fundamentales [1]:

Figura 1: Fases de un proceso clásico de KDD [1]

En la primera fase de integración y recopilación se determinan las fuentes de información que pueden ser útiles y dónde conseguirlas; transformando los datos a un formato común, además de detectar y resolver las inconsistencias presentes en los mismos. Posteriormente en la fase de selección, limpieza y transformación, se eliminan o corrigen los datos incorrectos, decidiéndose la estrategia a seguir con los datos incompletos; además, se consideran únicamente aquellos atributos que van a ser relevantes, con el objetivo de hacer más fácil la tarea propia de minería. En la fase de minería de datos, se aplica el modelo, la

tarea, la técnica y el algoritmo seleccionado para la obtención de reglas y patrones. Luego en la fase de evaluación e interpretación se evalúan los patrones y se analizan por expertos, y si es necesario, se vuelve a las fases anteriores para una nueva iteración. Finalmente, en la fase de difusión se hace uso del nuevo conocimiento y se hace partícipe de él a todos los posibles interesados. Las fases que componen el KDD hacen que su desarrollo sea un proceso iterativo e interactivo con el usuario [1], es decir, podemos regresar a fases anteriores además de supervisar el proceso.

Cabe señalar que las dos primeras fases se engloban bajo el nombre de Preparación de Datos, por otro lado, previo a las fases descritas se incluye una etapa de entendimiento del dominio para el análisis de las necesidades de la organización, o sea, para definir y priorizar los objetivos del negocio [1]. Además, aproximadamente el 60 por ciento del esfuerzo total para realizar un proceso de KDD, se emplea durante la etapa de preparación de los datos [17], tal como lo muestra la Figura 2.

Figura 2: Esfuerzo requerido por fases en un

proceso de KDD [17]

2.2. Minería de Uso de la Web

La Minería de Uso de la Web (Web Usage Mining, WUM) intenta descubrir la información útil de los datos derivados de la interacción de los usuarios mientras navegan en la Web. Tiene como propósito entender los patrones de acceso, el comportamiento y las tendencias de los usuarios en su navegación por la Web, con la finalidad de reestructurar contenidos de los sitios, realizar búsquedas de uso personalizado, además de ayudar a entender el comportamiento de los usuarios y a mejorar la estructura y la disposición de recursos informáticos [13].

Durante el tráfico por la Web son muchas las huellas dejadas que describen la navegación de un



usuario, estos orígenes de datos pueden encontrarse tanto en los servidores Web, servidores proxy, así como del lado del cliente [18]. Muchas han sido las investigaciones realizadas sobre los logs del servidor Web [14], [19], [20], no siendo así sobre los logs del servidor proxy [21]. En cualquier de los casos es necesario llevar a cabo una serie de fases [13], [22], [23] para la extracción de patrones como se muestra en la

Figura 3.

Figura 3: Fases del proceso de la Minería Uso de la

Web [13]

Una vez recopilado los datos necesarios, se realiza la fase de preprocesamiento buscando: limpieza de los logs, identificación de usuario, creación de sesión de usuario [20], [24]. Con la limpieza de los registros estamos eliminando los archivos no útiles para la extracción de conocimiento como son: .gif, .jpg, .js, etc. [19]. Otra de las tareas sería la identificación de usuario, la cual llega a ser engorrosa debido a: cachés locales, firewalls, servidores proxy, etc. [19]. Por último debemos conformar el conjunto de transacciones o sesiones de usuarios para una mayor modularidad de la visita del usuario al sitio [20].

Luego de estas tareas se debe obtener un conjunto de datos más adecuado para las fases posteriores donde se aplicarán técnicas para la identificación de patrones.

2.3. Minería de Datos aplicada a los registros de navegación en la UCI.

La Universidad de las Ciencias informáticas cuenta con un servicio de navegación por Internet para miles de usuarios. Para ello cuenta con servidores proxies que gestionan todo el flujo de peticiones realizadas. Los sistemas actualmente instalados y en explotación [25] no cubren todo el

conocimiento implícito en estos logs, dificultando la toma de decisiones a la Dirección de Redes y Seguridad Informática (DRSI).

Por otra parte se cuenta con sistemas de gestión del personal trabajador y de la gestión académica estudiantil, información de mucha utilidad en conjunto con los registros de navegación de los diferentes usuarios del centro. Todos estos datos en su conjunto resultan de gran interés para la DRSI en busca de patrones que describan el uso de las cuotas de navegación de los diferentes usuarios de la institución.

Para aprovechar estos datos, fue necesario desarrollar una aplicación capaz de mezclar la información registrada por el servidor proxy con los contenidos en los sistemas de los trabajadores y el de gestión académica estudiantil [15]; extraer patrones descriptivos presentes en los datos, enfocados en la tarea de agrupamiento [1] con el fin de encontrar clases de usuarios que se comporten de manera similar en la navegación por Internet, ayudando en la toma de decisiones de la DRSI. Un módulo de esta aplicación se encarga de integrar el sistema con la biblioteca de algoritmos WEKA. A continuación se explicará su diseño e implementación.

2.4. Aplicación de las tareas de Minería de Datos.

En la fase de Minería de Datos es donde se aplica la(s) tarea(s) a utilizar en la extracción de conocimiento. Para la realización de estas tareas se han definido varios métodos o algoritmos [26], [27] que permiten el uso de técnicas capaces de conocer las anomalías presentes en los datos procesados.

Existen varias bibliotecas que contienen implementaciones de la mayoría de los algoritmos más utilizados en la Minería de Datos. Una de ellas es la desarrollada en la Universidad de Waikato, Nueva Zelanda que lleva por nombre WEKA.

Dicha biblioteca es multiplataforma por ser desarrollada en la tecnología Java. Ha sido utilizada en varias investigaciones con buenos resultados [4, 17, 28], además de ser libre y brindar un desacople de sus implementaciones proporcionando extensibilidad para los interesados en la modificación de algunos de sus procesos.

El proceso de extracción de conocimiento en los registros de navegación por Internet de los usuarios de la Universidad de las Ciencias Informáticas forma parte de una plataforma de Gestión de Servicios Telemáticos [29-32] desarrollada en Python. Las tecnologías en las cuales están escritas la plataforma y la biblioteca provocan un



problema al ser diferentes, por un lado Python y por otro Java.

La biblioteca WEKA brinda la posibilidad de ejecutar los diferentes algoritmos mediante líneas de comando, pero no brinda las necesarias opciones para la aplicación encargada de automatizar el proceso KDD. Provocando así la necesidad de crear un intermediario entre la aplicación contenida en la plataforma y la biblioteca de algoritmos.

2.5. Diseño de la solución de la integración.

A este intermediario se le nombró Agrupador. Se definió para esta aplicación una arquitectura en tres capas. Las capas definidas fueron: una para la interacción con el usuario, otra con el fin de realizar el negocio del sistema y una de acceso a datos encargada de persistir y obtener los datos necesarios. Este intermediario fue implementado en Java y dentro de sus funcionalidades está la interacción con la biblioteca para la obtención de los datos, la ejecución de los algoritmos contenidos en ella para la tarea a realizar, así como el almacenamiento de los resultados obtenidos de este proceso. Además, brinda la posibilidad de que se le especifique por líneas de comando las opciones de configuración para la ejecución de sus funcionalidades. La Figura 4 muestra el diseño de la arquitectura usada en el Agrupador.

Figura 4: Diseño de arquitectura en tres capas del

módulo Agrupador

Los datos a analizar se encuentran en forma de vista minable [1] en una tabla en la base de datos gestionada por un servidor PostgreSQL [33]. Para obtener los datos se utilizó la clase InstanceQuery de WEKA.

La tarea realizada en la investigación fue la tarea de agrupamiento utilizando la implementación de KMedias [34] contenida en la biblioteca. Los grupos o clústeres [1] encontrados como resultado

de la ejecución de dicho algoritmo, se almacenaron en la base datos utilizando la clase DatabaseSaver de WEKA.

El diseño de clases utilizado en el módulo Agrupador es ilustrado en la

Figura 5:

Figura 5: Diagrama de clases del diseño módulo

Agrupador [15]

Para conocer la cantidad de clústeres que se encontraron así como el nombre de las tablas donde se encuentran en la base de datos, además de las medias y/o modas de los mismos, fue necesario almacenarlas en un fichero con formato CSV utilizando la biblioteca JAVACSV. Para interpretar las opciones brindadas por Agrupador para su ejecución se utilizó la biblioteca ARGPARSER.

Con Agrupador se solucionó el problema de la interacción con WEKA. Para la ejecución del mismo desde la aplicación se decidió utilizar el patrón arquitectónico Bridge (Puente), que tiene como propósito separar la abstracción de la implementación, evitando la unión permanente, ayudando a aplicar cambios futuros sin la necesidad de que un cambio en uno provoque una modificación en el otro [35].

El uso de este patrón, garantiza que el código de una aplicación sea invariable aún cuando sea modificado el de la otra, además de poder sustituir la biblioteca de algoritmos en caso necesario sin causar cambios en la aplicación contenida en la plataforma.

3. RESULTADOS

Usando la combinación del patrón Bridge y el intermediario Agrupador, se pudo integrar satisfactoriamente dos aplicaciones desarrolladas



en tecnologías diferentes. La cual ayudó al desarrollo de un proceso de extracción de conocimiento en bases de datos sobre los registros de navegación por Internet de los usuarios de la UCI, brindando así una ayuda a la toma de decisiones por parte de la DRSI de la Universidad.

4. DISCUSIÓN

El desarrollo de este módulo demostró que es posible la integración de WEKA con otras tecnologías como Python. Se vio evidenciado que el uso de patrones de arquitectura, brinda una solución más comprensible y extensible. Además contribuyó al desarrollo de una herramienta que proporciona a la DRSI más información descriptiva de los registros del servidor proxy de la Universidad, aportando una investigación que puede tomarse como base para la explotación de la información oculta en los servidores que brindan servicios telemáticos en la UCI, así como en otra empresa o institución para perfeccionar el funcionamiento de los mismos.

5. REFERENCIAS 1. Hernández Orallo, J.a.R.Q., MJ and Ferri

Ramírez, C., Introducción a la Minería de Datos. 2004, España, Madrid: Pearson educacion SA.

2. Olmos-Pineda, I.a.G.-B., JA, Minería de Datos, in Semana de informática 2007. 2007: México.

3. Larose, D.T., Discovering knowledge in data: an introduction to data mining. 2005, John Wiley and Sons.

4. Segrera, S.a.M., M.N. and Miguel, L.A., Aplicación de la minería de datos en la evaluación de la aptitud física de las tierras para el cultivo de la caña de azúcar, in III Taller Nacional de Minería de Datos y Aprendizaje. 2005: TAMIDA. p. 10.

5. Ao, S.I., Data Mining and Applications in Genomics. 2008, Springer Verlag.

6. Berry, M.J.A.a.L., G.S., Data mining techniques: for marketing, sales, and customer relationship management. 2004, Wiley New York.

7. MITRA;TINKUACHARYA, S., Data Mining Multimedia, Soft Computing, and Bioinformatics. 2003, JOHN WILEY & SONS.

8. García-Salcines, E.a.R.-M., C. and Ventura-Soto, S. and Castro-Lozano, C., Sistema recomendador colaborativo usando minería de datos distribuida para la mejora continua de cursos e-learning. IEEE-RITA, 2008. 3(1): p. 19--30.

9. Sanz, C.Z.a.P., V.G. and Álvarez, U.C. and Guerrero, F.P. and Rodríguez, J.R., APLICACION DE LA MINERIA DE DATOS AL ESTUDIO DE LAS ALTERACIONES RESPIRATORIAS DURANTE EL SUEÑO. Pneuma, 2006. 6: p. 156--166.

10. Ascacíbar, F.J.M.d.P., Optimización mediante técnicas de minería de datos del ciclo de recocido de una línea de galvanizado. 2003, Universidad de La Rioja.

11. Reyes, S.C.F.a.L., M.R., Minería Web: un recurso insoslayable para el profesional de la información. Acimed, 2007. 16(4).

12. Sánchez, G.G.a.Á., S.D. and de la Rosa, J.L., Preprocesamiento de bases de datos masivas y multi-dimensionales en minería de uso web para modelar usuarios: comparación de herramientas y técnicas con un caso de estudio.

13. Londoño, A.A.a.C., D.A.O. and de Sistemas, E. and de Minas, F., Web Usage Mining: Revisión del Estado del Arte, Grupo de I+D en Inteligencia Artificial. Escuela de Sistemas, Facultad de Minas. Universidad Nacional de Colombia, Sede Medellín: Medellín.

14. Eirinaki, M.a.V., M., Web mining for web personalization. ACM Transactions on Internet Technology (TOIT), 2003. 3(1): p. 27.

15. Leyva, Y.O. and E.A. Vázquez, Herramienta informática de Minería de Uso de la Web sobre los registros de navegación por Internet. 2010, Universidad de las Ciencias Informáticas: Habana.

16. Han, J.a.K., M., Data mining: concepts and techniques. 2006, Morgan Kaufmann.

17. Molina López, J.a.G.H., J., Técnicas de Análisis de Datos. Aplicaciones Prácticas utilizando Microsoft Excel y WEKA. 2006, Madrid: Universidad Carlos III.

18. Srivastava, J.a.C., R. and Deshpande, M. and Tan, P.N., Web usage mining: Discovery and applications of usage patterns from web data. ACM SIGKDD Explorations Newsletter, 2000. 1(2): p. 23.

19. Omari, A., Data Mining for Retail Website Design and Enhanced Marketing. 2008, Citeseer.

20. Cooley, R.a.M., B. and Srivastava, J., Web mining: Information and pattern discovery on the world wide web, in Ninth IEEE International Conference on Tools with Artificial Intelligence, 1997. Proceedings. 1997.

21. Kerkhofs, J.a.V., K. and Pannemans, D., Web Usage Mining on Proxy Servers: A



Case Study. Limburg University Centre, 2001.

22. Iváncsy, R.a.V., I., Frequent pattern mining in web log data. Acta Polytechnica Hungarica, 2006. 3(1): p. 77--90.

23. Peñalvo, F.J.G., Minería web y personalización: Revisión bibliográfica y propuesta de un marco de referencia.

24. Mobasher, B.a.J., N. and Han, E. and Srivastava, J., Web mining: Pattern discovery from world wide web transactions, in Tech. Rep. 1996, Dept. Comput. Science, Univ. Minnesota: Minneapolis.

25. Martínez, L.O.M.A.Y.G., Sistema de Reportes de la Navegación por Internet, in Facultad 4. 2007, Universidad de las Ciencias Informáticas: Ciudad Habana.

26. Witten, I.H.a.F., E., Data Mining: Practical machine learning tools and techniques. 2005, Morgan Kaufmann Pub.

27. Pal, N.R.a.J., LC, Advanced techniques in knowledge discovery and data mining. 2005, Springer.

28. Escobar, H.S.A., Minería de datos aplicada a clases minoritarias. 2006, Universidad Autónoma Metropolitana.

29. González, C.D. and A.C. Ruiz, Plataforma de Gestión de Servicios Telemáticos en

GNU\Linux. Sistema de Inventario de Hardware y Software. Módulo Obtención de Información. 2010, Universidad de las Ciencias Informáticas: Habana.

30. Hurtado, A.P. and A.L.P. Moya, Plataforma de Gestión de Servicios Telemáticos en GNU\Linux. Módulo DNS v2.0. 2010, Universidad de las Ciencias Informáticas: Habana.

31. Pasteur, J.D.l.R. and E.Z. Sarria, Plataforma de Gestión de Servicios Telemáticos.en GNU\Linux. Módulo Directorio v2.0. 2010, Universidad de las Ciencias Informáticas: Habana.

32. Rodríguez, Y.G. and A.D. Rosales, Plataforma de Gestión de Servicios Telemáticos en GNU\Linux. Sistema de Inventario de Hardware y Software. Módulo Administración. 2010, Universidad de las Ciencias Informáticas: Habana.

33. Group, T.P.G.D., PostgresSQL 8.3.9 Documentation. 2008.

34. Jain, A.K., Data clustering: 50 years beyond K-means. Pattern Recognition Letters, 2009.

35. Software, U.D.d.I.d., Patrones del Gang of Four.

integraciÓn entre python y weka aplicado en la mineria de datos

Documents