clasificación automática de objetos de conocimiento con contenido no estructurado para el poblado...
DESCRIPTION
Hoy en día la cantidad de conocimiento generado de manera digital es considerable en cuanto a la cantidad de objetos de conocimiento disponibles, en específico de artículos científicos. La mayoría de los artículos científicos utilizan el PDF para ser distribuidos. La variedad de plantillas en los que se publican los artículos científicos complica la tarea de extracción secuencial del texto de forma manual, pues si no se tiene cuidado en la selección del texto, se podría extraer texto sin una secuencia correcta y sin sentido. Realizar la extracción de forma semiautomática o automática resulta una tarea más compleja. La clasificación de tales objetos de conocimiento de forma manual con base en el dominio de su contenido y utilizando las clases definidas en una taxonomía, requiere de tantos expertos como dominios de conocimientos en los que se desee clasificar, el salario de los expertos y además tiempo para realizar la clasificación de cada objeto de conocimiento. Cuando el poblado ontológico se realiza de manera manual, esta tarea conlleva tiempo y presenta una desventaja para instanciar múltiples elementos rápidamente. Hoy en día existen herramientas que realizan las tareas antes mencionadas de manera semiautomática o automática, pero de manera separada. Realizar la extracción, clasificación y el poblado ontológico a partir de objetos de conocimiento en PDF de forma manual, resulta una tarea que consume mucho tiempo cuando se requiere procesar múltiples objetos, en un menor tiempo. En el presente trabajo de investigación se analizaron las técnicas existentes para realizar la extracción secuencial del texto y la identificación de características del texto a partir de un artículo científico en PDF. También se analizaron algunos algoritmos de clasificación de textos, identificados a partir del estado del arte, con los cuales se implementaron diversas variaciones del clasificador, dichas variaciones del clasificador fueron probadas con un corpus formado manualmente y la taxonomía de la ACM, a partir de la librería de la ACM. De las ocho variaciones del clasificador, a través de los resultados obtenidos en las pruebas se pudo concluir cual variación arrojaba las mejores métricas. Además se identificó la lógica para realizar el poblado de una ontología que modela a los artículos científicos, las clases en las que pueden estar clasificados y los autores de los artículos. A partir del análisis previo se generó un mecanismo el cual implementa de forma unificada la extracción automática de texto, clasificación automática y el poblado ontológico semiautomático a partir de textos no estructurados en PDF. Al mecanismo que se realizó, se le diseñó una interfaz web que permite seleccionar un artículo científico en PDF y de forma automática se extrae el texto del artículo, se identifican algunas secciones del articulo como por ejemplo, el título, los autores, las palabras claveTRANSCRIPT
cnológico
Centro Nacional de Investigación y Desarrollo Tecnológico
Subdirección Académica
Cuernavaca, Morelos, México. Julio de 2014.
Departamento de Ciencias Computacionales
TESIS DE MAESTRÍA EN CIENCIAS
Clasificación Automática de Objetos de Conocimiento
con Contenido No Estructurado Para el Poblado Semiautomático de Ontologías Multidimensionales
presentada por
Ing. Juan Carlos Rendón Miranda
como requisito para la obtención del grado de Maestro en Ciencias de la Computación
Director de tesis Dr. Juan Gabriel González Serna
Codirectora de tesis
Dra. Azucena Montes Rendón
P á g i n a | i
i
P á g i n a | ii
ii
P á g i n a | iii
iii
Dedicatorias
A mis padres, sin ellos nada
A mis hermanos y hermanas, por su apoyo y experiencias
A mis sobrinas, porque las quiero ver triunfar en la vida
A mis tíos y demás familia, por el apoyo y los buenos momentos
A mis amigos, por invitarme a divertirme y ayudarme cuando lo necesité
P á g i n a | iv
iv
Agradecimientos
A mis directores de tesis, el Dr. Juan Gabriel y la Dra. Azucena, por ser guía y
apoyo incondicional para la realización de esta investigación y porque nunca
dejaron de creer en mí.
A mis revisores de tesis: Dr. Noé Alejandro Castro Sánchez, Dr. Máximo López
Sánchez y Dr. David Eduardo Pinto Avendaño, por su invaluable tiempo y
comentarios dedicados en la revisión de mi trabajo.
A los profesores que conocí como alumno de CENIDET, por sus enseñanzas.
A mis compañeros de generación Julia e Hiram, por ser parte de mi formación y
con quien compartí retos y éxitos.
A mi familia por ser mi base fundamental y que me ha apoyado con las
decisiones que he tomado durante la maestría.
A mis amigos que me apoyaron, comprendieron y con quienes he compartido
muy buenos momentos, en especial a H., N., M., T., Z. y O.
A todas las demás personas que fueron parte de mi formación y de este
proyecto, sin las cuales no hubiera sido lo mismo.
Al Centro Nacional de investigación y Desarrollo Tecnológico (CENIDET) por
darme la oportunidad de formarme dentro de sus aulas.
Al Consejo Nacional de Ciencia y Tecnología (CONACYT) por el apoyo económico
brindado durante mis estudios de maestría.
P á g i n a | v
v
Resumen
Hoy en día la cantidad de conocimiento generado de manera digital es considerable en
cuanto a la cantidad de objetos de conocimiento disponibles, en específico de artículos
científicos.
La mayoría de los artículos científicos utilizan el PDF para ser distribuidos. La
variedad de plantillas en los que se publican los artículos científicos complica la tarea
de extracción secuencial del texto de forma manual, pues si no se tiene cuidado en la
selección del texto, se podría extraer texto sin una secuencia correcta y sin sentido.
Realizar la extracción de forma semiautomática o automática resulta una tarea más
compleja.
La clasificación de tales objetos de conocimiento de forma manual con base en el
dominio de su contenido y utilizando las clases definidas en una taxonomía, requiere
de tantos expertos como dominios de conocimientos en los que se desee clasificar, el
salario de los expertos y además tiempo para realizar la clasificación de cada objeto de
conocimiento.
Cuando el poblado ontológico se realiza de manera manual, esta tarea conlleva tiempo
y presenta una desventaja para instanciar múltiples elementos rápidamente.
Hoy en día existen herramientas que realizan las tareas antes mencionadas de manera
semiautomática o automática, pero de manera separada.
Realizar la extracción, clasificación y el poblado ontológico a partir de objetos de
conocimiento en PDF de forma manual, resulta una tarea que consume mucho tiempo
cuando se requiere procesar múltiples objetos, en un menor tiempo.
En el presente trabajo de investigación se analizaron las técnicas existentes para
realizar la extracción secuencial del texto y la identificación de características del
texto a partir de un artículo científico en PDF.
También se analizaron algunos algoritmos de clasificación de textos, identificados a
partir del estado del arte, con los cuales se implementaron diversas variaciones del
clasificador, dichas variaciones del clasificador fueron probadas con un corpus
formado manualmente y la taxonomía de la ACM, a partir de la librería de la ACM. De
las ocho variaciones del clasificador, a través de los resultados obtenidos en las
pruebas se pudo concluir cual variación arrojaba las mejores métricas.
P á g i n a | vi
vi
Además se identificó la lógica para realizar el poblado de una ontología que modela a
los artículos científicos, las clases en las que pueden estar clasificados y los autores de
los artículos.
A partir del análisis previo se generó un mecanismo el cual implementa de forma
unificada la extracción automática de texto, clasificación automática y el poblado
ontológico semiautomático a partir de textos no estructurados en PDF.
Al mecanismo que se realizó, se le diseñó una interfaz web que permite seleccionar un
artículo científico en PDF y de forma automática se extrae el texto del artículo, se
identifican algunas secciones del articulo como por ejemplo, el título, los autores, las
palabras clave y el resumen; se realiza la clasificación automática del articulo con base
en la taxonomía de la ACM y finalmente se realiza el poblado ontológico
semiautomático con los elementos del articulo obtenidos en la extracción y la clase
obtenida en el clasificador.
El presente trabajo puede tomarse como base para realizar la clasificación de objetos
de conocimiento de otros dominios.
P á g i n a | vii
vii
Abstract
The amount of knowledge digitally generated nowadays is substantially based on the
quantity of knowledge objects available: research papers, specifically.
Most of the research papers are distributed in a PDF. The wide range of papers style
complicates the task of manual sequential extraction from a text. Furthermore what is
more important, if it is not followed the appropriate procedure of selecting the text to
extract may not follow a sequence or may have no meaning at all. Extracting a text
automatically or semi automatically becomes a more complex task.
Classifying knowledge objects manually, based on the content domain and using
defined taxonomies require as many experts as domains of knowledge to classify
them, also their wages and time to perform the classification of every single
knowledge object too.
When the ontology population is manually done, this task requires too much time and
it presents a disadvantage when trying to instantiate several elements rapidly, at the
same time.
These days, there are tools that are able to perform the text extraction, classification
and ontology population in an automatic or semi-automatic way.
Performing the extraction, classification and ontology population manually using
knowledge objects in PDF is a complex task when it is required processing several
objects in a minor time.
Several existing techniques were analyzed in this research in order to extract
sequential text and to identify text characteristics using a research paper in PDF.
Some text classifying algorithms were also analyzed. These algorithms were identified
based on the state of the art and by using these algorithms we were able to implement
several classifier variations that were tested with a research paper corpus manually
selected from the ACM digital library and the ACM taxonomy. From the eight classifier
variations we selected the one with the best results.
The logic to build up the population of an ontology that models the research paper, the
classes were the papers belong and the paper authors was identified.
A mechanism was developed from the previous analysis that implements the
automatic extraction, the automatic classification and semi-automatic ontology
population from non-structured text in PDF.
P á g i n a | viii
viii
Consequently, a Web interface was built up for the previous mechanism that allows
the user to pick a research paper in PDF. In the first stage it extracts the paper text
automatically, identifying some paper sections such as title, authors, keywords and
the abstract, then with the extracted information the paper classification is performed
using the ACM taxonomy and finally this paper is instantiated in the ontology.
This research can be used to perform classification of knowledge objects in several
knowledge domains.
P á g i n a | ix
ix
1 Índice 1. Introducción ................................................................................................................................ 2
1.1. Antecedentes ...................................................................................................................... 4
1.2. Planteamiento del problema .............................................................................................. 5
1.3. Objetivos ............................................................................................................................. 6
1.3.1. Objetivos específicos ................................................................................................... 6
1.4. Justificación ......................................................................................................................... 6
1.5. Beneficios ............................................................................................................................ 7
1.6. Estructura del documento................................................................................................... 8
2. Fundamento teórico .................................................................................................................. 10
2.1. Ontología ........................................................................................................................... 10
2.2. Taxonomía ......................................................................................................................... 10
2.3. Taxonomía de la ACM ....................................................................................................... 10
2.4. NLTK .................................................................................................................................. 11
2.5. Aprendizaje automático .................................................................................................... 12
2.6. Clasificación ....................................................................................................................... 12
2.7. Clasificación automática de textos .................................................................................... 13
2.8. Representación de los documentos .................................................................................. 14
2.9. Pre-procesamiento del texto ............................................................................................ 15
2.9.1. Normalización de términos ....................................................................................... 16
2.9.2. Eliminación de stopwords ......................................................................................... 17
2.9.3. Identificación de familias léxicas ............................................................................... 17
2.9.4. Segmentación ............................................................................................................ 18
2.9.5. Vectorización ............................................................................................................. 18
2.10. Métricas de evaluación ................................................................................................. 19
2.11. Algoritmos de clasificación ............................................................................................ 20
2.11.1. Naive Bayes ............................................................................................................... 21
2.11.2. Máquinas de vectores de soporte ............................................................................. 23
2.11.3. Arboles de decisión ................................................................................................... 25
2.11.4. k-nearest neighbors .................................................................................................. 26
3. Estado del arte .......................................................................................................................... 29
P á g i n a | x
x
3.1. Layout-aware text extraction from full-text PDF of scientific articles (Ramakrishnan,
Patnia, Hovy, & Burns, 2012) ........................................................................................................ 29
3.2. GROBID: Combining Automatic Bibliographic Data Recognition and Term Extraction for
Scholarship Publications (Lopez, 2009) ......................................................................................... 30
3.3. Evaluation of header metadata extraction approaches and tools for scientific PDF
documents (Lipinski, Yao, Breitinger, Beel, & Gipp, 2013) ........................................................... 31
3.4. Comparison of Text Categorization Algorithms (Yong-feng & Yan-ping, 2004) ................ 32
3.5. A Regularized Linear Classifier for Effective Text Classification (Nandanwar & Narasimha
Murty, 2012) ................................................................................................................................. 33
3.6. A hybrid text classification approach with low dependency on parameter by integrating
K-nearest neighbor and support vector machine (Heng Wana, Hong Leeb, & Rajkumarb, 2012) 34
3.7. Multi-label Hierarchical Text Classification using the ACM Taxonomy (Santos &
Rodrigues, 2009) ........................................................................................................................... 35
3.8. Support Vector Machines classification with a very large-scale taxonomy (Tie-Yan, Yang,
Hao, Hua-Jun, Zheng, & Wei-Ying, 2005) ...................................................................................... 36
3.9. Automated Arabic Text Categorization Using SVM and NB (Alsaleem, 2011) .................. 36
3.10. Tabla comparativa ......................................................................................................... 38
4. Metodología de solución para la extracción automática de información, clasificación
automática y poblado ontológico semiautomático de textos no estructurados en PDF ................. 41
4.1. Describiendo la metodología ............................................................................................ 42
4.1.1. Etapa 1. Extracción .................................................................................................... 42
4.1.2. Etapa 2. Clasificación ................................................................................................. 43
4.1.3. Etapa 3. Poblado ontológico ..................................................................................... 46
5. Implementación de la metodología de solución ....................................................................... 49
5.1. Formación del corpus ........................................................................................................ 51
5.1.1. Extracción .................................................................................................................. 54
5.1.2. División del corpus para obtener el conjunto de entrenamiento y el conjunto de
pruebas 55
5.2. Pre-procesamiento del conjunto de entrenamiento y representación vectorial ............. 56
5.3. Entrenamiento .................................................................................................................. 56
5.4. Pre-procesamiento del texto a clasificar y representación vectorial ................................ 58
5.5. Clasificador y texto clasificado .......................................................................................... 58
5.5.1. Variaciones del clasificador ....................................................................................... 58
P á g i n a | xi
xi
5.6. Poblado ontológico ........................................................................................................... 59
5.7. Planeación de las pruebas ................................................................................................. 60
6. Pruebas y resultados ................................................................................................................. 62
6.1. Resultados de las variaciones del clasificador .................................................................. 62
6.1.1. Bayes + Texto completo + Bigramas ......................................................................... 62
6.1.2. SVM + Texto completo + Bigramas ........................................................................... 62
6.1.3. Bayes + Resumen + Bigramas .................................................................................... 63
6.1.4. SVM + Resumen + Bigramas ...................................................................................... 64
6.1.5. Bayes + Texto completo + Unigramas ....................................................................... 64
6.1.6. SVM + Texto completo + Unigramas ......................................................................... 65
6.1.7. Bayes + Resumen + Unigramas ................................................................................. 65
6.1.8. SVM + Resumen + Unigramas ................................................................................... 66
6.2. Análisis de los resultados de las variaciones del clasificador ............................................ 67
7. Conclusiones.............................................................................................................................. 70
7.1. Hipótesis ............................................................................................................................ 70
7.2. Comprobación de la hipótesis ........................................................................................... 71
7.3. Conclusiones finales .......................................................................................................... 72
7.4. Aportaciones ..................................................................................................................... 73
7.4.1. Interfaz web para la implementación de la metodología ......................................... 73
7.5. Trabajos futuros ................................................................................................................ 74
8. Anexos ....................................................................................................................................... 76
8.1. Anexo 1. Resultados del clasificador SVM+Resumen+Bigramas ....................................... 76
9. Bibliografía .............................................................................................................................. 109
P á g i n a | xii
xii
2 Índice de Figuras Figura 1. Representación básica de la taxonomía de la ACM. Los cuadros azules representan las
clases finales a las que puede ser clasificado un objeto de conocimiento ....................................... 11
Figura 2. Los vectores de soporte están sobre las líneas punteadas. A través de un hiperplano h
identificado por SVM se puede separar los elementos positivos de los negativos a través de un
margen máximo ................................................................................................................................ 24
Figura 3. Árbol de decisión sencillo (Quinlan, 1986) ......................................................................... 25
Figura 4. Metodología de solución propuesta .................................................................................. 41
Figura 5. Esquema para la construcción y pruebas de un clasificador.............................................. 45
Figura 7. Vista parcial de la tabla taxonomia_acm, la cual modela la taxonomía de la ACM ........... 52
Figura 8. Captura de pantalla de una clase final de la librería online de la ACM (Combinatorial
algorithms - ACM DL) ........................................................................................................................ 53
Figura 9. Vista parcial de la tabla tesis_papers en la que se almacenaron los datos de los artículos
recuperados en la formación del corpus .......................................................................................... 54
Figura 10. Captura de pantalla de la página principal de la herramienta construida con interfaz web
........................................................................................................................................................... 73
Figura 11. Captura de pantalla de la página del resultado del procesamiento de la herramienta
construida con interfaz web .............................................................................................................. 74
P á g i n a | xiii
xiii
3 Índice de Tablas Tabla 1. Stopwords en inglés, incluidas en NLTK .............................................................................. 15
Tabla 2. Vocales en minúsculas del alfabeto inglés con acento derecho escrito y su codificación en
ISO8859-1 (ISO/IEC 8859-1:1998) ..................................................................................................... 16
Tabla 3. Resultado de la vectorización de un texto .......................................................................... 19
Tabla 4. Comportamiento de un sistema de clasificación automática de textos, según los aciertos y
errores ............................................................................................................................................... 20
Tabla 5. Comparativa de los trabajos relacionados .......................................................................... 39
Tabla 6. Reglas de selección por clase de las publicaciones para formar los conjuntos de
entrenamiento y pruebas .................................................................................................................. 55
Tabla 7. Representación de las listas de palabras iniciales y finales, asociadas a cada clase ........... 57
Tabla 8. Combinación de los algoritmos de clasificación y las características de los artículos
científicos .......................................................................................................................................... 59
Tabla 9. Combinación de los algoritmos de clasificación con las características de los artículos
científicos y los enfoques de selección de n-gramas ........................................................................ 59
Tabla 10. Resultados de las pruebas con la variación del clasificador: Bayes + Texto completo +
Bigramas ............................................................................................................................................ 62
Tabla 11. Resultados de las pruebas con la variación del clasificador: SVM + Texto completo +
Bigramas ............................................................................................................................................ 63
Tabla 12. Resultados de las pruebas con la variación del clasificador: Bayes + Resumen + Bigramas
........................................................................................................................................................... 63
Tabla 13. Resultados de las pruebas con la variación del clasificador: SVM + Resumen + Bigramas 64
Tabla 14. Resultados de las pruebas con la variación del clasificador: Bayes + Texto completo +
Unigramas ......................................................................................................................................... 65
Tabla 15. Resultados de las pruebas con la variación del clasificador: SVM + Texto completo +
Unigramas ......................................................................................................................................... 65
Tabla 16. Resultados de las pruebas con la variación del clasificador: Bayes + Resumen +
Unigramas ......................................................................................................................................... 66
Tabla 17. Resultados de las pruebas con la variación del clasificador: SVM + Resumen + Unigramas
........................................................................................................................................................... 66
Tabla 18. Promedios de los resultados de las pruebas de las ocho variaciones del clasificador ...... 67
Tabla 19. Resultados de la clasificación con la variación del ultimo nivel ........................................ 72
Tabla 20. Comparativa de los resultados promedios de la variación del clasificador que arrojó las
mejores puntuaciones y de los obtenidos en la comprobación de la hipótesis ............................... 72
Tabla 21. Clases de los objetos de conocimiento obtenidas a través del clasificador
SVM+Resumen+Bigramas y clases a las que pertenecen los objetos de conocimiento en la librería
digital de la ACM ............................................................................................................................. 107
CAPITULO I Introducción
C a p í t u l o I . I n t r o d u c c i ó n
2
1. Introducción Por naturaleza, los seres humanos han utilizado diferentes formas de expresión,
incluida la escritura, de la cual se han servido para expresar sus pensamientos, deseos,
conocimientos, etc. Con los avances tecnológicos el acervo de objetos de conocimiento
en formato texto ha pasado a ser de manera digital y la cantidad de información
disponible aumenta cada día.
Durante la última década, la generación y distribución de los documentos ha pasado a
ser en formato digital, de ahí que la mayoría de las publicaciones científicas estén en
texto PDF (Ramakrishnan, Patnia, Hovy, & Burns, 2012) dado a la aceptación global
que este formato ha tenido, gracias a que sin depender tanto del sistema operativo, se
puedan visualizar correctamente los documentos. Sin embargo la falta de una
estructura estandarizada dificulta la extracción de información de los artículos
científicos.
En la mayoría de las organizaciones, la producción de información comienza a
generarse sin tener una organización uniforme de los documentos desde el principio y
cuando la colección de conocimiento ya es significativa se identifica la dificultad del
manejo y la recuperación de la información relevante, para lo cual se requiere de una
organización de los documentos.
La organización de los documentos ayuda a aprovechar la información contenida
dentro de los objetos de conocimiento y eso se puede dar a través de una clasificación
de acuerdo al dominio del contenido de los objetos de conocimiento, esto para ayudar
a la recuperación de información relevante cuando se requiera.
Con los avances tecnológicos, la producción, distribución y el acceso digital a la
información se ha incrementado con los esfuerzos de estandarizar el idioma en el que
están escritos los documentos. La mayoría de los artículos científicos se encuentran
escritos en idioma inglés (Bordons & Gómez, 2004).
La minería de textos ha creado diferentes líneas de investigación para el tratamiento
automático de textos con la finalidad de mejorar la extracción, recuperación
(Henzinger, 2004) y clasificación automática de textos (Sebastiani, Classification of
text, automatic, 2006).
La clasificación de textos es una tarea que ayuda a la organización de información a
través de clases descriptivas, por ejemplo: en el sentido de opinión, atribución de
autoría de un texto (Bruce, 1972), o con base en el dominio de conocimiento de los
textos (Sebastiani, Machine learning in automated text categorization, 2002).
C a p í t u l o I . I n t r o d u c c i ó n
3
Con el paso de los años, la clasificación de textos ha pasado de ser manual a enfoques
semiautomáticos o automáticos, mejorando la precisión de la clasificación, reduciendo
tiempos de aprendizaje y clasificación, además de disminuir los costos del proceso de
clasificar textos.
En este documento hablaremos sobre la problemática y solución de la extracción de
información a partir de documentos de texto con contenido no estructurado, para ser
clasificados con base en el dominio de conocimiento de su contenido utilizando una
taxonomía.
En la línea de Sistemas Distribuidos del departamento de Ciencias Computacionales,
dentro del Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET), se
desarrolló un conjunto de ontologías, las que permiten modelar los recursos y
servicios de una organización, adicionalmente se han desarrollado investigaciones
relacionadas con sistemas de recomendación (SR), estos dos trabajos permiten
proporcionar a los usuarios recomendaciones con base en el su perfil y la información
de las recomendaciones es extraída del conjunto de ontologías desarrollada en el
laboratorio de Sistemas Distribuidos (LSD).
El sistema de recomendación implementado en el LSD tiene la capacidad de
recomendar ítems heterogéneos, por ejemplo: personas, lugares, eventos y objetos de
conocimiento. De estos últimos no se cuenta con un mecanismo que realice la
extracción automática de información de un documento no estructurado, por ejemplo
archivos PDF, como es el caso de los artículos científicos y que además puedan ser
clasificados con base en el dominio de conocimiento de su contenido, lo cual servirá al
sistema de recomendación desarrollado en el LSD para realizar las recomendaciones
pertinentes al usuario.
El objetivo de esta investigación fue analizar las técnicas existentes para la extracción
de información a partir de textos en PDF y la clasificación automática de textos, para
desarrollar un mecanismo que permita extraer de forma automática información de
un artículo científico, clasificarlo automáticamente con base en el dominio de
conocimiento de su contenido y además realizar el poblado ontológico de forma
semiautomática con la información extraída del objeto de conocimiento y la clase
asignada al mismo.
C a p í t u l o I . I n t r o d u c c i ó n
4
1.1. Antecedentes
En el grupo de Sistemas de Recomendación Sensibles al Contexto (por sus siglas en
inglés, CARS) de CENIDET, se ha realizado una serie de trabajos de investigación en el
marco del proyecto T-Guía, el cual consiste en el desarrollo de un sistema de
recomendación semántico sensible al contexto (SRSSC) diseñado para realizar
recomendaciones de personas, objetos de conocimiento, lugares, eventos, actividades,
recursos tecnológicos y servicios a los miembros o visitantes de una organización, con
especial énfasis en Instituciones de Educación Superior (IES).
Un sistema sensible al contexto es aquel que toma como uno de sus atributos de
entrada el entorno en el que se ejecuta.
T-Guía es un sistema de recomendación sensible al contexto, funciona en dispositivos
móviles inteligentes de los que aprovecha algunos de sus componentes y sensores. T-
Guía funciona a partir de una ubicación, orientación y perfil de usuario. Esta
caracterización permite extraer información instanciada en el conjunto de ontologías
denominadas Ontología de Memoria Organizacional (González Franco, 2012). Los
distintos tipos de ítems son recomendados al usuario con la finalidad de brindarle
información que pudiera serle de interés o utilidad.
Hasta el momento la Red de ontologías multidimensionales que se ha desarrollado en
el grupo CARS, denominada Ontología de Memoria Organizacional, tiene instanciados
objetos de conocimiento, sin embargo, estos no se encuentran clasificados, lo cual
podría considerarse una desventaja, pues un sistema de recomendación para poder
considerar con más precisión estos ítems, tendrían que estar previamente clasificados
para así poder seleccionarlos en recomendaciones con base en las temáticas de
interés de un usuario dado y a las temáticas del contenido de un objeto de
conocimiento.
El proyecto T-Guía extrae la información de la Ontología de Memoria Organizacional,
en donde se encuentra la ontología que modela objetos de conocimiento. El poblado
de los objetos de conocimiento se realiza de forma manual, esta tarea consume
bastante tiempo y este podría extenderse en situaciones en las que se cuenta con
grandes cantidades de objetos de conocimiento por instanciar.
En (Munguía Aguilar, 2012) se abordó el problema de la extracción de información de
un sitio web a través de un conjunto de reglas y especificaciones para realizar un
poblado ontológico de forma semiautomática.
En este trabajo encontramos un primer acercamiento para la extracción de
información, las soluciones planteadas en el mismo, podrían ser adaptadas
C a p í t u l o I . I n t r o d u c c i ó n
5
parcialmente a la extracción y procesamiento de los objetos de conocimiento, además
brinda información para realizar un poblado ontológico de forma semiautomática,
tarea que se tiene contemplada en el presente trabajo de investigación.
1.2. Planteamiento del problema
Actualmente, en el grupo de Sistemas de Recomendación Sensibles al Contexto (por
sus siglas en inglés, CARS), del Departamento de Ciencias Computacionales del
CENIDET, se cuenta con una Red de ontologías multidimensional cuyo fin es modelar
la información referente a un escenario organizacional incluyendo dimensiones
contextuales, conocimiento correspondiente a una memoria organizacional, a una
memoria individual y a las características de los usuarios del sistema.
Dentro de esta red de ontologías, existen algunas que se encargan de modelar el
capital intelectual de la organización, incluyendo objetos de conocimiento.
El poblado de este fragmento de la red se realiza de manera manual, tarea que
conlleva tiempo y presenta una desventaja para instanciar múltiples elementos
rápidamente.
Adicionalmente, se requiere que las instancias de objetos de conocimiento contenidas
en la red se encuentren clasificadas de acuerdo a su dominio conocimiento.
Hoy en día, existen herramientas capaces de instanciar una ontología a partir de texto.
Sin embargo, su capacidad de clasificar se encuentra limitada a la explícita mención
del dominio de conocimiento dentro del contenido del texto. A pesar de las palabras
clave que algunos objetos de conocimiento poseen, aún se requiere diferenciar entre
los distintos significados de las mismas. Por ejemplo, la palabra clave "ontología"
puede aplicar tanto para "Web Semántica" como para "Sociología", dependiendo del
contexto.
Debido a esto, el problema que el presente trabajo de investigación trata es sobre la
reducción de tiempo en la realización de manera unificada de las tareas de extracción
automática de la información, la clasificación automática con base en el dominio de
conocimiento y el poblado semiautomático de la ontología de objetos de conocimiento
a partir de un objeto de conocimiento de texto en PDF.
Una vez que se resuelva esta carencia, será posible realizar cálculos e inferencias
sobre la información poblada y clasificada, así T-GUIA podrá considerar los objetos de
conocimiento para poder brindarlos en recomendaciones con base en las temáticas
C a p í t u l o I . I n t r o d u c c i ó n
6
de interés de un usuario dado y a las temáticas del contenido de un objeto de
conocimiento.
1.3. Objetivos
Desarrollar un mecanismo que de manera unificada procese documentos de texto en
PDF, permita clasificarlos de forma automática de acuerdo al dominio de
conocimiento al que pertenece utilizando una taxonomía y realizar el poblado
semiautomático de la ontología que modela los objetos de conocimiento, la cual que
forma parte de la Ontología de Memoria Organizacional.
1.3.1. Objetivos específicos
Dado que se conoce el conjunto de ontologías multidimensionales desarrollada en
CARS (González Franco, 2012), se va a considerar la taxonomía de la ACM 2012, como
el conjunto de clases para la clasificación de los objetos de conocimiento, una vez que
se incorpore la taxonomía dentro del conjunto de ontologías denominada Ontología de
Memoria Organizacional 1.0.
Formar un corpus de objetos de conocimiento, con elementos previamente
clasificados en la taxonomía de la ACM 2012, que sirva como corpus para el
entrenamiento y pruebas de esta investigación.
Realizar la extracción automática de título, autores, keywords, resumen y texto
completo a partir de los objetos de conocimiento.
Someter el conjunto de pruebas al clasificador.
Realizar la instanciación ontológica de forma automática con la información extraída
de los objetos de conocimiento y la clase determinada por el clasificador.
1.4. Justificación
Dentro de la Red de ontologías multidimensionales (González Franco, 2012) que se ha
desarrollado en el grupo CARS, existen instanciados objetos de conocimiento, sin
embargo no se encuentran clasificados con base en el dominio de su contenido, lo cual
imposibilita que puedan ser brindados en las recomendaciones que T-GUIA realiza.
Una vez completado el proceso de extracción automática, clasificación automática y
poblado ontológico semiautomático, las instancias de la ontología podrán ser
utilizadas para ampliar las recomendaciones que realiza T-GUÍA, pudiendo brindar en
recomendaciones los objetos de conocimiento con base en el dominio de su contenido.
C a p í t u l o I . I n t r o d u c c i ó n
7
Como se mencionó en el planteamiento del problema, si se requirieran clasificar en
una taxonomía, múltiples objetos de conocimiento, necesitaríamos de expertos para
realizar una clasificación adecuada, sin embargo esta tarea se llevaría mucho tiempo y
se requeriría de tantos expertos como dominios de conocimiento en los que se desee
clasificar y los resultados de la clasificación manual podrían no ser los más óptimos,
pues dependeríamos de la subjetividad de los expertos, mientras que en el método
automático de clasificación que utilizaremos dependeremos de un conjunto
previamente clasificado para cada clase que servirá como entrenamiento.
1.5. Beneficios
Se cuenta con un mecanismo que de manera unificada permite realizar en un menor
tiempo la extracción automática de la información de los objetos de conocimiento de
texto en PDF, la clasificación automática de los mismos con base en las clases
definidas en la taxonomía, logrando además de la clasificación automática, el poblado
semiautomático de la ontología que modela objetos de conocimiento y que forma
parte de la red de ontologías multidimensionales denominada Ontología de Memoria
Organizacional.
Con el mecanismo propuesto, la clasificación de objetos de conocimiento se realiza de
manera automática, es decir, la tarea de clasificación de múltiples objetos de
conocimiento, se realiza en un menor tiempo y nuevos objetos de conocimiento
posteriores a los existentes, serán clasificados sin mayor contratiempo gracias a la
herramienta desarrollada.
Con la herramienta que se desarrolló, la clasificación de objetos de conocimiento se
realiza de manera automática, es decir, la tarea de clasificación de múltiples objetos de
conocimiento, se realiza en un menor tiempo y nuevos objetos de conocimiento
posteriores a los existentes, serán clasificados sin mayor contratiempo gracias a la
herramienta desarrollada.
Con la clasificación se tendrá una organización de los objetos de conocimiento con
base en una taxonomía, generando así un modelo que puede ser adaptado a diversos
dominios de conocimiento sin importar la cantidad de niveles en los que se requiera
clasificar.
Una vez clasificados e instanciados en la ontología de objetos de conocimiento, las
instancias podrán utilizarse para ampliar o mejorar las recomendaciones de objetos
de conocimiento que realiza la herramienta T-GUIA, así como el ahorro de tiempo,
C a p í t u l o I . I n t r o d u c c i ó n
8
dinero y esfuerzo, siendo beneficiada la institución que implemente la herramienta
desarrollada.
1.6. Estructura del documento
Este documento se encuentra organizado en siete capítulos, los cuales describen el
trabajo de investigación en sus diversas etapas como se indica a continuación:
En el capítulo II: Fundamento Teórico, se abordan los temas relevantes a la presente
investigación.
En el capítulo III: Estado del Arte, se presenta un panorama de la información
obtenida a través de la investigación sobre los enfoques para la extracción de
información a partir de textos en PDF, así de la clasificación de textos.
En el capítulo IV: Metodología de solución propuesta para la extracción automática de
información, clasificación automática y poblado ontológico semiautomático de textos
no estructurados en PDF.
En el capítulo V: Implementación de la Metodología para la Extracción automática de
información, clasificación automática y poblado ontológico semiautomático de textos
no estructurados en PDF, tomando como base las fases presentadas en el capítulo
anterior.
En el capítulo VI: Pruebas y Resultados, se presentan las pruebas realizadas y los
resultados obtenidos, con la finalidad de brindar resultados confiables y seleccionar la
mejor técnica de clasificación para ser implementada en la herramienta objetivo de
este trabajo de investigación.
Por último, en el capítulo VII, se presentan las conclusiones a las que se llegaron con
las pruebas realizadas, se identifican las aportaciones realizadas y los trabajos futuros
de la presente investigación.
CAPITULO II Fundamento teórico
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
10
2. Fundamento teórico Para la elaboración de la Clasificación automática de objetos de conocimiento con
contenido no estructurado para el poblado semiautomático de ontologías
multidimensionales, se han tomado en cuenta los conceptos básicos que ayuden a un
mejor entendimiento del presente trabajo de investigación
2.1. Ontología
En (Hepp, De Leenheer, De Moor, & Sure, 2007) se describe como los filósofos griegos
Sócrates y Aristóteles fueron los primeros en desarrollar los fundamentos de la
ontología. Sócrates introdujo la noción de las ideas abstractas, una jerarquía entre
ellos y las relaciones de instancia de clase. Aristóteles añadió las asociaciones lógicas.
Dando como resultado un modelo bien estructurado, que es capaz de describir el
mundo real. Sin embargo, no es trivial para incluir todas las relaciones amplias y
complejas de nuestro entorno. En la historia moderna, el termino ontología de
acuerdo con (Guber, 1995), se define como “Una especificación de una
conceptualización” donde una conceptualización es una visión abstracta y simplificada
del mundo que queremos representar con algún propósito. Una conceptualización se
refiere a un modelo abstracto de algún fenómeno en el mundo, identificando el
concepto relevante de este fenómeno.
2.2. Taxonomía
En (Unni & K., 2012) definen taxonomía como el conjunto de conceptos ordenados de
forma jerárquica, en donde los términos pertenecientes a cada nivel heredan atributos
a otros conceptos de jerarquías inferiores y en donde los conceptos de un mismo nivel
comparten ciertos atributos que son heredados de una jerarquía superior.
2.3. Taxonomía de la ACM
La taxonomía de la ACM 2012 es un conjunto de clases predefinidas que fue utilizada
en el esquema de clasificación de la ACM en la versión del año 2012 (Association for
Computing Machinery (ACM)). Las clases definidas están relacionadas con el área de
ciencias computacionales y existe una organización jerárquica de hasta seis niveles.
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
11
Figura 1. Representación básica de la taxonomía de la ACM. Los cuadros azules representan las clases finales a las que puede ser clasificado un objeto de conocimiento
El primer nivel está integrado por 14 clases codificadas con una letra mayúscula de la
A a la N, están subdivididas en el segundo nivel por clases identificadas con la letra
correspondiente al primer nivel y un número entero incrementable según la cantidad
de clases en este nivel, por ejemplo A.1, A.2, …, D.6, D.7, ..., N.5, N.6, las cuales, a su vez
están divididas en clases en un tercer nivel jerárquico. Hay clases que a partir del
tercer nivel y hasta el sexto nivel ya son clases finales, es decir, ya no tienen clases
hipónimas, por el contrario las clases que no son clases finales las podemos encontrar
hasta el quinto nivel. Las clases finales también son llamadas descriptores de temas.
La taxonomía de la ACM 2012, fue implementada a partir del año 2012 en el nuevo
esquema de clasificación, a través de esta taxonomía son indexadas de forma
ordenada las publicaciones de la ACM dentro de la librería digital.
La taxonomía de la ACM 2012 está disponible para su descarga en formato XML, Word
y HTML. Estos últimos dos formatos son en forma de lista, mientras que el formato
XML respeta y describe explícitamente las relaciones de jerarquía de las clases.
2.4. NLTK
El Natural Language Toolkit o mejor conocido como NLTK, es un conjunto de
programas de código abierto, cuenta con una variedad de algoritmos implementados
en Python, los cuales ayudan a realizar múltiples tareas del lenguaje natural (Loper &
Bird, 2002).
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
12
También cuenta con una variedad de conjuntos de datos de prueba y un libro (Bird,
Klein, & Loper, 2009) publicado bajo licencia Creative Commons (CC) en donde a
detalle se muestran en forma de manual, ejemplos claros de tareas a resolver en el
área del lenguaje natural con la implementación de estas librerías.
2.5. Aprendizaje automático
Una persona adquiere habilidades y conocimientos gracias a la experiencia o
enseñanza, entonces podemos decir que ha aprendido. Sin embargo hasta el momento
no existe una máquina que aprenda de la misma manera que el ser humano, sin
embargo, se han creado diversos algoritmos para algunas tareas de aprendizaje.
El aprendizaje automático se refiere a aquellos programas de computadora que una
vez construidos puedan mejorar automáticamente gracias a la experiencia, es decir,
que puedan aprender.
De manera formal, podemos definir que el aprendizaje automático de un programa se
da cuando a partir de la experiencia o entrenamiento (E), con respecto a una tarea o a
un conjunto de tareas (T) y a través de una métrica de desempeño (M), los resultados
de las M después de la ejecución de las T mejoran gracias al E. (Mitchell, 1997).
Generalmente son múltiples las tareas que deben resolverse para lograr el objetivo
del aprendizaje automático, es decir, que mejore a través de una experiencia dada.
2.6. Clasificación
La clasificación es el proceso de colocar de forma ordenada un objeto específico o
concepto, en un conjunto de clases (Gorunescu, 2011).
La clasificación se apoya en las características respectivas del concepto u objeto
especifíco que este tenga en común con las características definidas por un experto o
alguna clase del conjunto (Jain & Aggarwal, 2009).
Como el nombre lo sugiere, el tipo más sencillo del problema de clasificación se refiere
a la identificación de un objeto o fenómeno desconocido como miembro de una clase
conocida (Clancey, 1984).
El proceso de clasificación, es la identificación de la clase de un objeto. Esta
identificación se realiza por medio de un proceso de coincidencia de las propiedades
del objeto con las propiedades de alguna clase.
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
13
Si tenemos que un objeto está representado por * + y las clases están
representadas por * * + * +
* + * ++, vemos que tanto O como cada elemento de C
están formados por valores ( ) que llamaremos características. La tarea de
clasificación consiste en someter las características de O y de cada elemento de C a la
función llamada clasificador, la cual evalúa las coincidencias encontradas entre las
propiedades de O y las propiedades de cada elemento de C, con la finalidad de
encontrar el elemento de C con la cual O tuvo las mejores coincidencias.
Un ejemplo de clasificación, podría ser la identificación de una planta o animal,
utilizando una guía de características, tales como coloración, estructura, y tamaño.
2.7. Clasificación automática de textos
La clasificación automática de textos es el proceso de asignación de clases o etiquetas
a datos de textos no clasificados. Los datos de texto no clasificados pueden variar en
su longitud, pueden ser frases cortas o documentos con una longitud mayor.
La clasificación automática de textos tiene sus orígenes en la recuperación de
información y en la última década ha recibido mayor atención dado el incremento que
ha tenido la información disponible en formato electrónico. Debido a esto el ser
humano ha tenido la necesidad de contar con herramientas que permitan a un usuario
encontrar la información relevante que requiera en un tiempo adecuado. Con la
clasificación automática de textos, la búsqueda y recuperación de información
relevante puede ser posible en un menor tiempo al separar documentos de acuerdo a
un tema o una clasificación especifica.
La tarea de clasificación de textos puede ser definida como sigue: dado un conjunto de
documentos * + y un conjunto limitado de clases
* + se asigna una clase del conjunto C a cada elemento del conjunto
D (Jansen & Spink, 2009).
Para que dicha asignación sea posible, es necesario realizar un entrenamiento para la
tarea de clasificación, la cual permitirá al programa de computadora aprender y
determinar la clase de cada elemento del conjunto D.
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
14
2.8. Representación de los documentos
Un documento está formado por una secuencia de términos, entonces podemos decir
que un documento es un conjunto de términos que unidos de forma secuencial tienen
un significado en concreto dentro de un contexto (Pirzadeh, Hamou-Lhadj, & Shah,
2011).
La secuencia de términos de un documento se puede descomponer en n-gramas. Los
n-gramas son una subsecuencia de n términos de una secuencia dada (Shannon,
1948). De ahí que tenemos 1-gramas los cuales son llamados también unigramas, 2-
gramas los cuales son llamados también bígamas, 3-gramas llamados también
trigramas y así sucesivamente.
Con el siguiente ejemplo podemos tener más clara cómo es la descomposición de una
secuencia de términos en n-gramas. Dado el enunciado:
“programación orientada a objetos”
lo dividimos a nivel de palabra a través de un espacio simple “ “, entonces tenemos los
siguientes conjuntos, en donde cada elemento está separado por comas “,”:
unigramas={programación, orientada, a, objetos}
bigramas={programación orientada, orientada a, a objetos}
Dentro de los documentos hay términos, también llamados stopwords, que no tienen
un significado semántico relevante y sólo ayudan a unir palabras, por ejemplo, las
conjunciones. Estos términos tienen una frecuencia elevada dentro de los documentos
y de forma separada cada uno de estos términos no tienen un significado semántico
relevante.
Las stopwords o palabras vacías incluyen no solo a las conjunciones, sino también,
pronombres personales, preposiciones, algunos verbos, etc. En el idioma inglés se han
identificado (Bui, Redd, & Zeng-Treitler, 2012) algunas stopwords, en la Tabla 1
mostramos las stopwords incluidas dentro del NLTK y que son eliminadas del texto a
pre-procesar:
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
15
Stopwords 'i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', 'her', 'hers', 'herself', 'it', 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', 'will', 'just', 'don', 'should', 'now'
Tabla 1. Stopwords en inglés, incluidas en NLTK
Para llevar a cabo la clasificación automática de texto, es necesario representar a cada
documento que forma parte del conjunto de entrenamiento (CE) y a cada documento
que forma parte del conjunto de elementos no clasificados (CENC) de una forma a la
cual se le pueda aplicar el algoritmo de clasificación. La representación de los
documentos más utilizada en los procesos de clasificación automática de textos es el
modelo vectorial.
El modelo vectorial para la representación de textos o documentos, consiste en
representar cada documento como un conjunto de términos, donde cada palabra del
documento, es un elemento del conjunto de términos que representa a cada
documento (Ass & Eikvil, 1999).
A cada conjunto de términos de un documento se le llama vector, por lo que tenemos
que el vector de un documento es ( ), donde es un documento
específico del conjunto CE o CENC y cada es cada uno de los elementos de los n-
gramas del enunciado.
En este trabajo de investigación se realizó la selección de unigramas y bigramas para
ser sometidos a pruebas de forma separada.
2.9. Pre-procesamiento del texto
Dentro de los trabajos que se revisaron, por ejemplo en (Santos & Rodrigues, 2009)
(Figuerola, Alonso Berrocal, Zazo Rodríguez, & Mateos, 2008) (Zahedi & Ghanbari
Sorkhi, 2013), donde los investigadores realizaron clasificación de textos o
recuperación de textos, el pre-procesamiento de los textos era una etapa previa a la
tarea literal de clasificación o recuperación.
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
16
Las técnicas utilizadas para el pre-procesamiento de los textos varían en las
investigaciones, sin embargo se identificaron algunas de las técnicas de pre-
procesamiento utilizadas y que ayudan a convertir un texto en bruto, en un texto más
característico que sirva más para ser aplicados en los algoritmos de clasificación
automática de texto.
2.9.1. Normalización de términos
La normalización de términos consiste en estandarizar los caracteres de los términos
con la finalidad de convertir un texto enriquecido a un texto plano, y eso se consigue a
través de:
2.9.1.1. Texto a minúsculas
Todas las letras en mayúsculas se convierten en minúsculas, pues una comparación
estricta de dos palabras, por ejemplo Computadora y computadora podría generarnos
un conflicto de igualdad, mientras que para las operaciones de los algoritmos de
clasificación deberíamos tener los mismos términos.
2.9.1.2. Eliminación de acentos
El tener caracteres especiales no incluidos en el alfabeto inglés podría provocar
confusión para el sistema en el tratamiento de los mismos, ya que debido a la
variación de codificación de los textos un carácter acentuado podría convertirse en un
conjunto de caracteres especiales. En la siguiente tabla se presentan las vocales en
minúsculas del alfabeto inglés con acento escrito y su codificación en formato
ISO8859-1 (ISO/IEC 8859-1:1998).
Vocal Vocal con
acento
Vocal con acento
en iso8859-1
a á á
e é é
I í í
o ó ó
u ú ú Tabla 2. Vocales en minúsculas del alfabeto inglés con acento derecho escrito y su codificación en ISO8859-1 (ISO/IEC
8859-1:1998)
2.9.1.3. Eliminación de símbolos
Los símbolos y signos de puntuación dentro de un documento son irrelevantes para la
clasificación de textos, pues no brindan un significado relevante dentro de un
documento. Por lo cual, cada símbolo y signo de puntuación presente en un
documento a pre-procesar, es eliminado y reemplazado por espacios simples “ “.
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
17
2.9.1.4. Eliminación de saltos de línea y múltiples espacios
De igual manera que los símbolos son reemplazados por espacios en blanco “ “, los
salto de línea presentes en un documento son eliminados y reemplazados por
espacios y blanco “ “.
Y debido a la naturalidad del texto original, más el reemplazo realizado de los
símbolos y saltos de línea por espacios en blanco, puede que hayamos acumulado
múltiples espacios en blanco entre término y término, por lo cual, la secuencia de
varios espacios en blanco son reemplazados por sólo un espacio en blanco, de tal
manera que los términos estén separados por un espacio en blanco “ “.
2.9.2. Eliminación de stopwords
Las stopwords o también conocidas como palabras vacías son términos cuya
frecuencia en el texto de un documento es muy alta y que por sí solos no tienen un
significado relevante, por lo que la eliminación de estas ayuda a aligerar la longitud de
términos de un documento, disminuyendo el peso digital de un archivo y el ahorro de
tiempo para el procesamiento de las mismas dentro de la tarea de clasificación.
Dentro de las stopwords se encuentran preposiciones, conjunciones, adverbios,
artículos, pronombres y algunos verbos (Kongovi, Guzman, & Dasigi, 2002).
El número de stopwords únicas dentro de un documento puede ser baja, sin embargo
su frecuencia es muy alta. Ejemplos de stopwords identificadas en el idioma inglés
son: THE, FOR, IT, IS, AND (Lo, He, & Ounis, 2005).
2.9.3. Identificación de familias léxicas
La identificación de familias léxicas o stemming consiste en la reducción de un
término o un conjunto de términos a su raíz, lo cual permite que palabras que
literalmente son diferentes pero con una raíz en común puedan ser consideradas
como un solo término.
A través del stemming se eliminan algunos prefijos y sufijos comunes, los cuales
modifican en parte el significado de un término.
Por ejemplo las palabras computadora, computador, computadoras y computadores
hacen referencia a un mismo concepto y tienen la misma raíz, computad.
Entre los algoritmos conocidos para realizar la identificación de familias léxicas se
encuentran (Lovins, 1968), (Porter, 1980) y (Paice, 1990).
En este trabajo se utilizó la implementación del algoritmo de (Porter, 1980) incluida
en NLTK.
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
18
2.9.4. Segmentación
Conocida como tokenización, la segmentación se refiere a la división de un texto en
unidades más pequeñas conocidas como tokens (Carreras, Chao, Padró, & Padró,
2004). Generalmente la tokenización toma como carácter de separación los espacios
en blanco que hay entre un término y otro, aunque también pueden tomarse algunos
otros caracteres no incluidos en el alfabeto inglés como indicadores para realizar la
división de una cadena de texto.
Los algoritmos de clasificación calculan la probabilidad de un término, por lo que el
texto completo de un documento no nos serviría sino está dividido en unidades más
pequeñas.
2.9.5. Vectorización
La vectorización es el modelo de representación de los documentos generalmente
utilizada en tareas de clasificación automática de textos. Consiste en convertir un
texto en una lista de términos (tokens). Generalmente cada elemento o término del
vector está acompañado con algún otro valor, por ejemplo la frecuencia del término
dentro de .
A continuación mostramos la vectorización de un texto dividido en unigramas. Si
tenemos el siguiente texto:
una computadora computador tambien denominada ordenador maquina
electronica que recibe procesa datos para convertirlos informacion util una
computadora una coleccion circuitos integrados otros componentes
relacionados que puede ejecutar con exactitud rapidez acuerdo indicado
por un usuario automaticamente por otro programa una gran variedad de
secuencias rutinas de instrucciones que son ordenadas organizadas
Y eliminamos los términos repetidos pero contamos la frecuencia de cada uno y los
mantenemos, obtendríamos el siguiente vector que se muestra en la Tabla 3, en donde
cada elemento es un término y tiene la frecuencia de aparición del mismo:
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
19
{"una"=>4, "computadora"=>2, "computador"=>1,
"tambien"=>1, "denominada"=>1, "ordenador"=>1,
"maquina"=>1, "electronica"=>1, "que"=>3, "recibe"=>1,
"procesa"=>1, "datos"=>1, "para"=>1, "convertirlos"=>1,
"informacion"=>1, "util"=>1, "coleccion"=>1,
"circuitos"=>1, "integrados"=>1, "otros"=>1,
"componentes"=>1, "relacionados"=>1, "puede"=>1,
"ejecutar"=>1, "con"=>1, "exactitud"=>1, "rapidez"=>1,
"acuerdo"=>1, "indicado"=>1, "por"=>2, "un"=>1,
"usuario"=>1, "automaticamente"=>1, "otro"=>1,
"programa"=>1, "gran"=>1, "variedad"=>1, "de"=>2,
"secuencias"=>1, "rutinas"=>1, "instrucciones"=>1,
"son"=>1, "ordenadas"=>1, "organizadas"=>1}
Tabla 3. Resultado de la vectorización de un texto
2.10. Métricas de evaluación
Para evaluar la clasificación automática de textos, utilizaremos las métricas de
precisión y recuerdo (precision and recall), las cuales son las medidas más comunes
utilizadas para la medición del desempeño en tareas de recuperación de información.
Para poder aplicar estas métricas es necesario contar con un corpus de objetos
previamente clasificados, del cual podamos contar con un porcentaje de este corpus
para el entrenamiento del sistema y otro porcentaje para las pruebas del mismo. Los
resultados de la clasificación automática que arrojen los elementos del conjunto de
pruebas del corpus, serán a los que se les aplicarán las métricas de evaluación y así
tendremos la evaluación del desempeño de nuestro sistema de clasificación
automática de textos.
La precisión es la probabilidad de que un documento clasificado de forma automática
en la clase , pertenezca realmente a esa clase.
El recuerdo es la probabilidad de que un documento que pertenece a la clase , sea
clasificado en esa clase (Hernández, Ramírez, & Ferri, 2004) (Lewis D. , 1991).
Si representamos el problema de la predicción de las clases a través de la clasificación
automática de textos, podemos observar en la Tabla 4 el comportamiento de un
sistema de clasificación automática de textos, según los aciertos y errores que arrojen
las predicciones:
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
20
Predicción positiva
Predicción negativa
Total de predicciones
Clase positiva a b a + b Clase negativa c d c + d a + c b + d a + b + c + d = n
Tabla 4. Comportamiento de un sistema de clasificación automática de textos, según los aciertos y errores
En cada celda de la Tabla 4 se encuentra representado el número de predicciones
positivas y negativas. Donde son las predicciones correctas del sistema y
son las predicciones erróneas. Por lo que tenemos que la suma de
equivale al total de pruebas sometidas al sistema de clasificación automática de textos.
Con la tabla anterior, podemos definir las fórmulas para la obtención de las métricas
de precisión y recuerdo, las cuales quedan como sigue:
La precisión muestra la probabilidad de que el sistema de clasificación automática de
texto arroje una predicción correcta de la clase a un documento que se desea
clasificar.
El recuerdo expresa el porcentaje de los elementos de una clase que son clasificados
correctamente en ella.
Hay otra métrica denominada F1-Score, la cual combina las métricas de precisión y
recuerdo. F1-Score muestra a la precisión y el recuerdo, como una sola métrica, la cual
es definida como una medida armónica entre ambas, el valor de F1-Score oscila entre
0 y 1, donde 1 es el valor más idóneo.
F1-Score se obtiene a través de la fórmula:
(
)
2.11. Algoritmos de clasificación
La clasificación de textos ha sido ampliamente investigada (Li, 2007) con el objetivo
de encontrar los mejores métodos que permitan realizar esta tarea de forma
automática con la finalidad de reducir sustancialmente el tiempo consumido en la
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
21
clasificación de textos, así como mejorar la calidad de la clasificación de documentos
ya sea de uno o múltiples dominios.
Desde hace varios años se han propuesto varios métodos que sirven para el
procesamiento de textos y su clasificación, sin embargo cada técnica ha arrojado
resultados diferentes (Chang, 2005). Algunas técnicas han sido más investigadas,
mejoradas o combinadas con la finalidad de realizar un mejor trabajo de clasificación.
En esta sección del documento se presentan cuatro algoritmos de clasificación, los
cuales han sido aplicados en múltiples trabajos para la clasificación de textos
identificados en el estado del arte.
2.11.1. Naive Bayes
El algoritmo de Naive Bayes o más conocido como Bayes, fue descrito originalmente
en (Duda & Hart, 1973) y es uno de los métodos favoritos utilizados en tareas de
clasificación y recuperación de información, debido a los buenos resultados que arroja
su funcionamiento (Lewis D. , 1998).
En el caso de la clasificación de textos, el método bayesiano utiliza la frecuencia de las
palabras del objeto que se desea clasificar, así como las mismas características
pertenecientes a cada una de las clases con las cuales se realizará la comparación y
estimación de la probabilidad que un objeto perteneciente a un conjunto de
documentos pertenezca a cada una de las clases pertenecientes al conjunto de
clases .
Cada elemento del conjunto está representado por un vector ( )
formado por un conjunto de características previamente seleccionadas, n-gramas, en
el caso de un documento, de las cuales se conoce la frecuencia de aparición de las
mismas en el elemento .
Por su parte, cada uno los elementos del conjunto de clases ( ), de igual
manera están representados por un vector de características representativas de cada
clase, las cuales servirán para poder realizar el cálculo de la probabilidad de
elementos del conjunto a clasificar.
El clasificador de Bayes está basado en el teorema de probabilidad conocido como la
Regla de Bayes, el Teorema de Bayes o la Fórmula de Bayes:
( | ) ( ) ( | )
( )
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
22
dónde
( ) ∑ ( | ) ( )
Se da por hecho que en todos los posibles eventos de clasificación se les asigna a los
objetos exactamente una clase ( ) del conjunto de las mismas. es una clase
aleatoria en donde sus valores son el vector de características de ésta, mientras que
es un documento que se desea clasificar y sus valores son el vector de términos del
documento.
Dado que y son valores tomados de forma aleatoria a partir de y , en la
formula podemos omitir estos valores y reescribir la Regla de Bayes como sigue:
( | ) ( ) ( | )
( )
Ahora tenemos que ( | ) es el problema de clasificación que debemos de resolver y
la asignación de la clase al objeto a clasificar se realizará de acuerdo al resultado
mayor que obtengamos de ( | ).
Debido a que no se conoce el valor de ( | ) y la realidad es que es difícil estimarlo
directamente, la Regla de Bayes sugiere estimar ( ) y ( ), luego combinar los
resultados para poder estimar ( | ), que no es más que el producto de las
probabilidades de cada término que aparece en el vector de :
( | ) ∏ ( | )
| |
De las dos fórmulas previas se tiene que la probabilidad de que el documento
elegido de forma aleatoria pertenezca a la clase es:
( | ) ( )∏ ( | )
| |
con ( ) calculado como:
( )
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
23
dónde es el número de documentos en la clase y es el total de documentos
pertenecientes a las clases del conjunto . Mientras que ( | ) se suele calcular
como
( | ) ( )
| |
dónde ( ) es el número de veces en las que el término aparece en los
documentos de la clase .
Calculado lo anterior, puede ser asignado a la clase donde ( | ) es la máxima.
2.11.2. Máquinas de vectores de soporte
Las máquinas de vectores de soporte, máquinas de soporte vectorial o también
conocidas como SVM por sus siglas en inglés (Support Vector Machines), han tenido
un buen desempeño en una gran variedad de problemas de clasificación, como por
ejemplo: la identificación de partículas (Ranzato, Taylor, House, Flagan, LeCun, &
Perona, 2007), identificación de rostros (Guo, Li, & Chan, 2000) y clasificación de
textos (Joachims, 1998) (Tong & Koller, 2002) (Liu, Lv, Liu, & Shi, 2010).
Los orígenes de esta técnica estadística fueron presentados por (Vapnik, 1995). En el
caso de clasificación de textos, los elementos del conjunto (documentos) son
representados por medio de vectores y de forma separada son mapeados en un
espacio de alta dimensionalidad junto con los elementos del conjunto (clases) con
la finalidad de compararlos y separar los objetos positivos y negativos con la ayuda
de un margen máximo entre las dos clases de objetos, al plano de decisión que sirve de
separación de le llama hiperplano.
En la Figura 2 se puede observar puntos de datos que son linealmente separables a
través de un hiperplano. Las líneas punteadas paralelas a la línea solida muestran que
tanto el hiperplano puede moverse sin que conlleve a una mala clasificación, entre
mayor sea el margen, será menor el riesgo de una mala clasificación. El margen es la
distancia entre las líneas paralelas y los puntos más cercanos al hiperplano, a los que
se les conoce como vectores de soporte.
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
24
Figura 2. Los vectores de soporte están sobre las líneas punteadas. A través de un hiperplano h identificado por SVM se puede separar los elementos positivos de los negativos a través de un margen máximo
SVM puede clasificar un vector en una clase de dos posibles, y a través de:
( ) ∑ ( )
y se tiene que:
{
donde * + es la clase que corresponde a cada y donde * , +; ( ) es la
representación de en un espacio diferente al original a través de un kernel, los más
comunes son los polinómicos de grado como el definido por la función:
( ) ( )
SVM requiere de entrenamiento y éste consiste en determinar el vector que
maximice la distancia entre los objetos de las clases diferentes dentro del conjunto de
entrenamiento y en donde puede ser escrita como una combinación lineal de
valores , y ( ).
SVM surgió con el enfoque de clasificación binaria, sin embargo puede ser
generalizado para colecciones de más de dos clases de documentos. En (Weston &
Watkins, 1999) se presenta como un problema multiclase puede ser dividido en varios
problemas binarios de la forma uno contra uno o uno contra todos. En ambos casos un
objeto se asigna a la clase con el valor más alto.
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
25
La forma uno contra uno se refiere a que si se tienen clases, se tendrán que construir
( ) clasificadores usando los documentos de cada combinación de las dos
clases distintas. En uno contra todos se construyen clasificadores, uno para cada
clase, usando los valores de una clase y comparándolo con la mezcla de todas las
demás clases, lo cual genera una función que da un peso mayor a una de las dos clases
y el objeto a clasificar es relacionado a la clase que tuvo el valor más alto.
Debido a la alta dimensionalidad en conjuntos multiclase, los clasificadores basados
en SVM son generalmente implementados como clasificadores binarios en cascada, es
decir, se compara un objeto con todos los elementos del conjunto pero de forma
separada, así cada clasificador será capaz de reconocer entre una clase y el resto
(Burges, 1998).
2.11.3. Arboles de decisión
El método arboles de decisión ha sido uno de los más populares en el área de
inteligencia artificial para resolver tareas de clasificación, el cual fue presentado en
(Quinlan, 1986).
El método de aprendizaje supervisado de árboles de decisión funciona través de la
creación de reglas del tipo si entonces.
La Figura 3 muestra un árbol de decisión sencillo, el cual tiene reglas indicadas por las
etiquetas dentro de los rectángulos, las etiquetas sin recuadros son los posibles
valores y las etiquetas dentro de cuadros punteados son las hojas o decisiones
(categorías). Representa la posibilidad de que dado un pronóstico del clima se pueda
decidir si es posible (P) o no es posible (N) realizar actividades al aire libre.
Figura 3. Árbol de decisión sencillo (Quinlan, 1986)
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
26
Para cada nodo o rama del árbol se realiza un entrenamiento que consiste en la
creación de reglas, las cuales tienen como valor la dirección del siguiente nodo al cual
deberá dirigirse el objeto evaluado * , - , -+, las cuales
una vez evaluadas darán paso a una siguiente rama o a ninguna.
En los arboles de decisión se tiene como entrada un objeto * + el cual
está representado por un conjunto de características, en el caso de un documento,
palabras acompañadas de otro valor, por ejemplo, su frecuencia de aparición en el
documento . En el primer nodo del árbol, se evalúa alguna característica
especificada a través de las reglas correspondientes a este nodo y se da paso a la rama
correspondiente al valor de la característica evaluada del objeto , este proceso se
itera dependiendo de la cantidad de nodos existentes en el árbol de decisión hasta
llegar en el mejor de los casos a las hojas, las cuales en un problema de clasificación
serían las clases a donde tendría que anotarse el objeto evaluado.
2.11.4. k-nearest neighbors
El método k-nearest neighbors (k-NN) o también conocido como vecinos más cercanos,
es un método de los del tipo de aprendizaje basado en ejemplos el cual evalúa nuevos
elementos y los compara con elementos almacenados o ya aprendidos (Cover & Hart,
1967).
Se basa en la hipótesis de que un nuevo elemento puede tomar la clase de algún
elemento almacenado del cual tenga una similitud alta.
Este tipo de algoritmos funciona muy bien para agrupamiento de elementos debido a
que se calcula la similitud de un elemento con otro elemento y no con las
características de una clase en particular, aunque entre las mejoras que tiene este
método, se encuentra la comparación de las características de un elemento con las de
las clases.
Si partimos de que tenemos un conjunto de elementos pertenecientes al conjunto
* + y que cada elemento del conjunto está relacionado con algún
elemento del conjunto * +, nuevos elementos del conjunto
pueden ser relacionados con algún elemento del conjunto a través de una función
que calcule la similitud entre el nuevo elemento y los elementos existentes del
conjunto , ( ).
Utilizando el método vectorial y posteriormente alguna medida para calcular la
similitud entre vectores, por ejemplo coseno, podemos identificar con cuales de los
C a p í t u l o I I . F u n d a m e n t o t e ó r i c o
27
elementos vecinos , el elemento tiene una mayor similitud y el elemento
relacionado a los elementos va sumando puntuación, por lo que al terminar las
comparaciones entre vectores de con sus vecinos , podemos conocer el
elemento con el cual sus vecinos tienen mayor relación y así el nuevo elemento
podrá tomar esa relación como suya.
La regla de decisión de k-NN se define como:
( ) ∑ ( ) ( )
Donde ( ) * + es la clasificación para la instancia con respecto a la
categoría (1=si y 0=no), mientras que ( ) es el grado de similitud entre la
nueva instancia y la instancia de entrenamiento .
CAPITULO III Estado del arte
C a p í t u l o I I I . E s t a d o d e l a r t e
29
3. Estado del arte En esta sección se presentan los trabajos relacionados que se han realizado con la
temática de extracción de texto a partir de documentos de texto en PDF y de
clasificación automática de textos. Con estos trabajos se tiene un panorama general de
las técnicas utilizadas en la actualidad para la extracción de información a partir de
texto en PDF y de clasificación automática de textos.
3.1. Layout-aware text extraction from full-text PDF of scientific
articles (Ramakrishnan, Patnia, Hovy, & Burns, 2012)
Resumen
El Formato de Documento Portable, PDF, por sus siglas en inglés (Portable Document
Format), es el formato de documentos digitales más común utilizado para la
publicación de artículos científicos.
Las plantillas de los artículos científicos, para la presentación de la información dentro
de los archivos PDF son muy variables, aunque principalmente se utilizan
presentaciones con formatos en una columna y dos columnas.
Cuando uno extrae de forma manual información de un PDF, es común que si no se
tiene cuidado se pierda cierta secuencia entre un texto y otro, por lo que hacer esto de
forma automática o semiautomática resulta una tarea trivial.
Algunas de las secciones de un artículo científico son repetitivas y proporcionan poca
información no menos relevante, como los encabezados y pies de página, pero si no se
identifican adecuadamente podrían causar ruido o texto sin sentido en el texto una
vez extraído.
Entre otras de los sistemas que existen para la extracción de documentos se encuentra
PDF2Text, la cual sólo extrae el texto a partir de un PDF sin hacer mucho énfasis en
identificar la secuencia de los textos, lo cual provoca extracciones de texto no
secuenciales y sin sentido.
El sistema LA-PDFText desarrollado en este trabajo provee mayor precisión en la
extracción secuencial de texto de un PDF, según los resultados presentados, además
que es capaz de identificar secciones comunes de un artículo científico como: el título,
los autores, el resumen, resultados, métodos y referencias.
LA-PDFText es una herramienta open-source y su versión estable puede ser obtenida
en http://code.google.com/p/lapdftext/.
C a p í t u l o I I I . E s t a d o d e l a r t e
30
Similitud
Debido a que parte del trabajo para poder realizar la clasificación de los objetos de
conocimiento que se encuentran en formato PDF, es extraer el texto de éste, es
necesario que la extracción secuencial del mismo se dé con la mayor precisión posible,
por esta razón esta tarea se realizaría de forma automática.
Se había probado la librería PDF2Text que también ayuda para la extracción de textos
a partir de documentos textuales en PDF, sin embargo los resultados son muy básicos
y sólo se limitan a la extracción del texto sin tomar en cuenta las secciones o
secuencias que tiene el documento, especialmente cuando el texto está presentado en
más de una columna.
En las pruebas realizadas, LA-PDFText arrojó mejores resultados en la extracción de
textos a diferencia de PDF2Text.
3.2. GROBID: Combining Automatic Bibliographic Data Recognition and
Term Extraction for Scholarship Publications (Lopez, 2009)
Resumen
En este trabajo el autor presenta una descripción de la herramienta GROBID, la cual
ayuda en la identificación automática de descripciones complementarias de un
artículo técnico o científico.
La herramienta GROBID está desarrollada en Java y utiliza técnicas de aprendizaje
automático y de extracción de multi-términos.
El objetivo de GROBID es mejorar la extracción de metadatos (título, autores,
keywords, resumen, fecha de publicación) de artículos técnicos y científicos, enfocado
a la extracción automática de metadatos en librerías digitales en donde los
documentos se encuentran disponibles en texto en PDF.
En Github hay una comunidad de desarrolladores, para que los interesados ayuden a
mejorar la identificación de secciones de las publicaciones técnicas y científicas.
Similitud
Los documentos a procesar en nuestro trabajo de investigación se encuentran en texto
en PDF. Uno de los enfoques probados para la identificación de los metadatos de un
artículo científico, era convertir un PDF a XML, en donde además de extraer el texto
del documento, obteníamos etiquetas que describían el formato del mismo (tipo de
C a p í t u l o I I I . E s t a d o d e l a r t e
31
letra, tamaño, inicio y fin de un párrafo), sin embargo la variedad de plantillas en los
que se publican los artículos científicos dificultaba la identificación correcta de los
metadatos.
Con la implementación de GROBID pudimos realizar la identificación de ciertas
secciones de un artículo científico, a través de una interfaz de línea de comandos y
generando resultados en XML. Además de acuerdo a (Lipinski, Yao, Breitinger, Beel, &
Gipp, 2013), esta herramienta tiene los mejores resultados en cuando a la
identificación automática de secciones de un objeto de conocimiento se refiere.
3.3. Evaluation of header metadata extraction approaches and tools for
scientific PDF documents (Lipinski, Yao, Breitinger, Beel, & Gipp,
2013)
Resumen
En este trabajo presentan los resultados de la comparación de diversas herramientas
para la extracción de metadatos de artículos científicos con la finalidad de evaluar el
desempeño de dichas herramientas.
Los autores pretenden que este trabajo sirva de guía a los desarrolladores que buscan
realizar la extracción de metadatos de forma automática, especialmente enfocados a
librerías digitales de documentos de texto en PDF.
En las pruebas de extracción de Titulo, autores, Resumen y año de publicación, los
resultados evidenciaron que GROBID tiene el mejor desempeño en todos los campos.
Similitud
Como dice el resumen, este trabajo ayudó como guía para ayudar a seleccionar una
herramienta que nos ayude a la extracción de los metadatos descriptivos de una
publicación científica.
Al tener una comparativa de 7 herramientas enfocadas a la extracción de metadatos a
partir de documentos de texto en PDF, tenemos fundamentos para seleccionar a
GROBID como la herramienta que nos permita realizar dicha extracción de las
metadatos a los documentos de texto en PDF a los que serán sometidos a nuestra
herramienta objetivo.
C a p í t u l o I I I . E s t a d o d e l a r t e
32
3.4. Comparison of Text Categorization Algorithms (Yong-feng & Yan-
ping, 2004)
Resumen
En este trabajo se presenta un resumen de los algoritmos de clasificación automática
de textos, más utilizados en la actualidad: Naive Bayes (NB), Vecinos más cercanos
(KNN), Máquinas de soporte vectorial (SVM) y Redes neuronales (NN).
A través de una descripción de los mismos, un análisis de ventajas y desventajas y una
comparación se puede conocer en resumen la forma de trabajo de cada algoritmo. Los
autores realizaron pruebas implementándolos, con las cuales evaluaron a los
algoritmos y pudieron conocer su desempeño en el campo practico.
De acuerdo a los resultados presentados, el desempeño mostrado por SVM fue el
mejor, cercano a los resultados de KNN.
En general el campo de acción semántica de estos algoritmos está muy limitado por su
naturaleza con la que fueron concebidos, pero pueden ser aplicados para resolver
problemas de clasificación en dominios cerrados.
De acuerdo a los autores, la implementación de un algoritmo hibrido podría presentar
un mejor desempeño, una tendencia inevitable que se ha presentado en otros
trabajos.
En el desempeño de los algoritmos no solo influye la implementación de este, sino los
parámetros de entrada, como serían los textos, provenientes del conjunto de
documentos a clasificar, la extracción de los textos, el tratamiento de los términos y
otros pre-procesamientos que se aplican a estos.
Similitud
De entre los algoritmos analizados, los algoritmos de NB, SVM y KNN sobresalen al
igual que este trabajo presentado, siendo de entre los más utilizados en la actualidad
para tareas de clasificación automática de textos.
En nuestro trabajo de investigación, se realzó la implementación de un enfoque
hibrido lineal, el cual ayudó a realizar la clasificación multinivel con base en la
taxonomía de la ACM.
C a p í t u l o I I I . E s t a d o d e l a r t e
33
3.5. A Regularized Linear Classifier for Effective Text Classification
(Nandanwar & Narasimha Murty, 2012)
Resumen
Los resultados individuales arrojados por los algoritmos de clasificación Maquinas de
Soporte Vectorial (SVM) y Naive Bayes (NB) han demostrado buenos desempeños,
debido a eso su popularidad que han sido utilizados en diversas aplicaciones.
En este trabajo presentan una nueva manera de mezclar ambos algoritmos de tal
forma que complementen y mejoren el desempeño de la clasificación.
De los resultados presentados se observa que el modelo hibrido propuesto, en
promedio tiene una precisión de 91.79% frente a los 88.77% arrojados por NB.
Mientras que el promedio de la precisión obtenida con SVM es de 91.78% frente al
93.36% obtenido con el método propuesto.
Las mejoras obtenidas se dan desde el pre-procesamiento de los textos, pasando por
la selección de los términos característicos y el cálculo de los valores utilizados como
pesos de cada término. De forma separada se aplican NB y SVM y al final los valores
resultantes forman parte del cálculo del método hibrido propuesto que mejora la
precisión de la clasificación resultante.
Similitud
La sencillez y buen desempeño de NB lo ha hecho muy popular para diversos trabajos
de clasificación de textos, o como para tomar sus resultados como punto de referencia
para compararlos con resultados de otros algoritmos.
Así mismo en las reglas de decisión de cada uno de los algoritmos, nos percatamos de
que SVM es un algoritmo más robusto en comparación con NB. La implementación de
ambos de forma separada da buenos resultados, no muy lejanos al enfoque hibrido
presentado en este trabajo, no desestimado.
En nuestro trabajo realizamos la implementación hibrida lineal del algoritmo de
Arboles de decisión + Bayes y de forma separada Arboles de decisión + SVM, los cuales
fueron sometidos a pruebas para determinar cuál de las implementaciones hibridas
propuestas arrojaba mejores resultados.
Estamos conscientes de que el pre procesamiento de los textos para poder ser objetos
de entrada a un algoritmo de clasificación es algo básico y que comienza a definir los
resultados de las implementaciones hibridas propuestas.
C a p í t u l o I I I . E s t a d o d e l a r t e
34
3.6. A hybrid text classification approach with low dependency on
parameter by integrating K-nearest neighbor and support vector
machine (Heng Wana, Hong Leeb, & Rajkumarb, 2012)
Resumen
En este trabajo los autores presentan un nuevo enfoque de clasificación de textos
llamado Nearest Neighbor-Support Vector Machine (SVM-NN), que resulta de la
combinación de los algoritmos Maquinas de Soporte Vectorial (SVM) y de Vecinos más
cercanos (KNN).
De SVM se toma el enfoque de entrenamiento que se aplica a un clasificador,
ayudando así a reducir los ejemplos de entrenamiento de clasificación de cada clase.
Por otro lado, de KNN utilizan el enfoque de decisión para realizar la clasificación
debido a su bajo costo de implementación y a su alto grado de efectividad.
El problema de KNN radica en la determinación del valor k, de tal manera que este
afecta directamente a la precisión de la clasificación, sin embargo, si este incrementa,
el desempeño de la clasificación podría verse afectado por el hecho de la cantidad de
vecinos utilizados.
La decisión de asignación de clases por parte de KNN, se da tras haber realizado el
cálculo de la distancia entre el elemento evaluado y el conjunto de vectores de las
diferentes clases proveniente de la implementación de SVM.
Similitud
La reducción de clases a través de SVM permite a un sistema de clasificación,
disminuir el espacio de decisión, permitiendo que clases más probables a participar
en una clasificación sean las que se tomen en cuenta para evaluarse a través de KNN,
con lo cual se ahorran recursos, pues en cualquiera de los enfoques de KNN, uno
contra uno o uno contra todos, el tamaño del corpus influye en el tiempo de
desempeño y costo del clasificador.
Si tomamos en cuenta de que la taxonomía de la ACM consta de más de 1000 clases,
con la implementación del enfoque de reducción de clases nos permite disminuir el
tiempo de clasificación de los documentos al someter a la decisión de la clase para un
documento, solo aquellas clases que sean más probables, lo que se traduce en el
ahorro de recursos, a comparación de que si implementáramos uno de los enfoques de
KNN en donde participarían todas las clases, tanto las poco probables como las de
mayor probabilidad en el pronóstico de la clase de un documento.
C a p í t u l o I I I . E s t a d o d e l a r t e
35
3.7. Multi-label Hierarchical Text Classification using the ACM
Taxonomy (Santos & Rodrigues, 2009)
Resumen
Generalmente las clasificaciones de texto que se realizan en muchos trabajos,
corresponden a la asignación de una clase a un documento dado un conjunto
determinado de clases, esta es una clasificación pequeña o ligera.
En este trabajo se realiza una clasificación multiclase, que según los autores definen
como más compleja en comparación a las clasificaciones pequeñas de texto, en donde
se asigna una sola clase a un documento.
La complejidad de esta tarea se incrementa al involucrar un conjunto de clases
ordenadas en una estructura jerárquica, utilizando los dos primeros niveles de la
taxonomía de la ACM1998 y un corpus formado a partir de la librería de la ACM y
utilizando las fichas bibliográficas de cada artículo científico.
Además se describe brevemente el pre-procesamiento aplicado al texto previo a que
sean aplicados diferentes algoritmos de clasificación, en este caso, los algoritmos de
Binary Relevance (BR), Label Powerset (LP) y Multi-Label k-Nearest Neighbor
(MLkNN).
Finalmente presentan los resultados de la evaluación del desempeño de los diferentes
clasificadores construidos, pero solamente en forma de gráfica.
Similitud
En nuestro trabajo, hemos utilizado la taxonomía de la ACM2012 como el conjunto de
clases ordenadas de forma jerárquica, abarcando no solo dos, sino hasta los seis
niveles de clasificación en los que se extiende la misma.
Al tener el conjunto de clases de la ACM2012 como dominio de conocimiento, de igual
forma hemos formado un corpus de forma manual a partir de la librería de la ACM,
pero a diferencia de este trabajo, en el nuestro realizamos la extracción de la
información a partir de los archivos de texto en PDF de los artículos científicos y no de
la ficha bibliográfica de los mismos que se encuentra disponible a través de la librería
online de la ACM.
De este trabajo tomamos en cuenta algunas etapas del pre-procesamiento para
implementarlas en el nuestro.
C a p í t u l o I I I . E s t a d o d e l a r t e
36
Finalmente, nosotros mostramos de forma explícita los resultados a los que llegamos
y los presentamos en tablas, en donde es más fácil conocer los valores de precisión y
recuerdo que se obtuvieron como desempeño de los algoritmos de clasificación
utilizados.
3.8. Support Vector Machines classification with a very large-scale
taxonomy (Tie-Yan, Yang, Hao, Hua-Jun, Zheng, & Wei-Ying, 2005)
Resumen
En este trabajo se presentan los resultados obtenidos de realizar una clasificación
jerárquica utilizando una taxonomía muy larga que se extiende hasta en 16 niveles.
La clasificación se apoya utilizando la taxonomía de Yahoo Directory como el conjunto
ordenado de clases, la cual está formada por cientos de miles de clases en las que
puede ser clasificada una página web.
Con una implementación del algoritmo de máquinas de soporte vectorial (SVM), este
trabajo aborda la clasificación de los documentos y obtienen resultados de efectividad
cuyos valores van en decremento por cada nivel. Para el primer nivel los resultados en
la gráfica se muestran por encima del 0.7, los cuales se reducen hasta valores por
debajo del 0.3 para el nivel 16 de la taxonomía.
Similitud
En nuestro trabajo de igual forma implementamos una taxonomía la cual es
considerablemente menor que la de este trabajo, sin embargo, los resultados
obtenidos con la implementación del algoritmo SVM arrojan valores de F1-Score
superiores al 0.9.
No obstante, el enfoque utilizado para realizar la clasificación en cada nivel, fue una
guía para la implementación del clasificador jerárquico de nuestro trabajo.
3.9. Automated Arabic Text Categorization Using SVM and NB
(Alsaleem, 2011)
Resumen
En este trabajo los autores realizan el experimento de clasificar texto a un nivel y con
un conjunto de siete categorías, aplicado a conjuntos de noticias en idioma árabe.
C a p í t u l o I I I . E s t a d o d e l a r t e
37
Los autores implementaron por separado los algoritmos de Maquinas de Soporte
Vectorial (SVM) y de Naive Bayes (NB).
La evaluación del desempeño de cada clasificador se realiza a través de las métricas de
precisión, recuerdo y F1-Score.
Los resultados arrojaron valores para F1-Score de hasta 0.96 para una clase,
utilizando SVM. Mientras que los valores de la misma métrica utilizando NB fueron de
hasta 0.94.
Similitud
En nuestro trabajo de igual forma decidimos implementar de forma separada los
algoritmos de SVM y NB, para que con base en los resultados arrojados por cada uno,
se pudiera decidir cuál de los dos arrojaba los mejores valores utilizando las mismas
métricas, esto con la finalidad de poder ser implementados finalmente en la
herramienta objetivo de nuestra investigación.
A diferencia de este trabajo, nosotros realizamos una clasificación jerárquica y el
idioma en el que realizamos nuestras evaluaciones es el idioma inglés.
C a p í t u l o I I I . E s t a d o d e l a r t e
38
3.10. Tabla comparativa
A continuación en la Tabla 5 se muestran en resumen las similitudes entre los
artículos mencionados dentro del Capítulo III y este trabajo de Tesis, como parte del
estado del arte.
Do
cum
ento
Ext
racc
ión
sec
uen
cial
de
text
o a
par
tir
de
text
o d
e ar
tícu
los
cien
tífi
cos
en
PD
F
Ext
racc
ión
de
met
adat
os
a p
arti
r d
e te
xto
de
artí
culo
s ci
entí
fico
s en
P
DF
Cla
sifi
caci
ón
jerá
rqu
ica
de
text
o
Cla
sifi
caci
ón
de
text
o
uti
liza
nd
o p
or
lo m
eno
s 2
al
gori
tmo
s d
e cl
asif
icac
ión
d
e fo
rma
sep
arad
a
Po
bla
do
on
toló
gico
Layout-aware text extraction from full-text PDF of scientific articles
GROBID: Combining Automatic Bibliographic Data Recognition and Term Extraction for Scholarship Publications
Evaluation of header metadata extraction approaches and tools for scientific PDF documents
Comparison of Text Categorization Algorithms
A Regularized Linear Classifier for Effective Text Classification
A hybrid text classification approach with low dependency on parameter by integrating K-nearest neighbor and support vector machine
Multi-label Hierarchical Text Classification using the ACM Taxonomy
Support Vector Machines classification with a very large-scale taxonomy
Automated Arabic Text Categorization Using SVM and NB
C a p í t u l o I I I . E s t a d o d e l a r t e
39
Clasificación automática de objetos de conocimiento con contenido no estructurado para el poblado semiautomático de ontologías multidimensionales
Tabla 5. Comparativa de los trabajos relacionados
CAPITULO IV Metodología de solución
para la extracción
automática de
información, clasificación
automática y poblado
ontológico semiautomático
de textos no estructurados
en PDF
C a p í t u l o I V . M e t o d o l o g í a d e s o l u c i ó n
41
4. Metodología de solución para la extracción automática de
información, clasificación automática y poblado ontológico
semiautomático de textos no estructurados en PDF La metodología de solución propuesta abarca la extracción automática de
información, la clasificación automática y el poblado ontológico semiautomático a
partir de textos no estructurados en PDF.
Como nos percatamos en la Tabla 5 referente a la comparativa de los trabajos
relacionados, en la actualidad hay herramientas que realizan alguna de las tareas
antes mencionadas, pero de manera separada.
La metodología de solución propuesta y que describimos a continuación, la podemos
englobar en tres etapas principales:
Figura 4. Metodología de solución propuesta
En la etapa de extracción nos enfocamos a la recuperación del texto secuencial y de los
metadatos de un artículo científico de manera automática.
En la etapa de clasificación abordamos desde el pre-procesamiento del texto obtenido
en la fase de extracción, el entrenamiento del clasificador y la clasificación automática
del texto, pasando por la evaluación del clasificador.
En la etapa del poblado ontológico realizamos la instanciación de los objetos de
conocimiento con sus respectivos metadatos recuperados en la fase de extracción y de
la clase obtenida para cada objeto de conocimiento, dentro de las ontologías que
modelan los objetos de conocimiento y que forman parte de la Ontología de Memoria
Organizacional (González Franco, 2012).
A continuación se describen a detalle las etapas de la metodología de solución
propuesta.
Extracción Clasificación Poblado
ontológico
C a p í t u l o I V . M e t o d o l o g í a d e s o l u c i ó n
42
4.1. Describiendo la metodología
4.1.1. Etapa 1. Extracción
En esta fase de la metodología tenemos como entrada el objeto de conocimiento de
texto en PDF, es decir, un artículo científico sin restricciones de seguridad con formato
y con las secciones más representativas conocidas, como son el título, autores,
resumen y palabras clave. En algunos casos las dos últimas secciones no se
encuentran presentes en los objetos de conocimiento. Cabe mencionar que la
estructura y el orden de los mismos no siempre es la misma y varía la posición de los
mismos, de ahí que se les denomine objetos de conocimiento con contenido no
estructurado.
4.1.1.1. Extracción secuencial del texto
Extraer el texto secuencial de un documento PDF forma manual, puede generar una
extracción de texto sin secuencia y sin sentido. La dificultad de extraer texto de un
PDF, se incrementa cuando está distribuido a varias columnas y si no se tiene cuidado
en la selección manual del texto que se desea extraer, se puede llegar a extraer texto
lineal no secuencial, es decir, texto que está en la misma línea pero en diferentes
columnas.
Realizar la extracción del texto de un documento PDF, de forma automática resulta
una tarea trivial. Este proceso es llevado a cabo con la implementación de la librería
LA-PDFText (Ramakrishnan, Patnia, Hovy, & Burns, 2012). Con esta librería podemos
extraer el texto de un documento de texto en PDF sin importar si la distribución se
encuentra a una columna, dos columnas, etc., e incluso sin importar si hay objetos,
como tablas o imágenes, incrustados en el texto.
Una vez procesado el documento de texto en PDF por la librería LA-PDFText, el
resultado arrojado es un documento de texto plano, el cual es sometido al pre-
procesamiento.
4.1.1.2. Extracción de las secciones del texto
Los objetos de conocimiento tienen algunas secciones representativas que lo definen,
por ejemplo el título, autores, palabras clave y resumen.
La identificación manual de estas secciones no es mayor problema, sin embargo la
identificación automática de estas secciones presenta varias dificultades,
especialmente a la ausencia de una estructura definida y adoptada para todas las
publicaciones.
La identificación de estas secciones puede abordarse desde distintos enfoques, aquí
mencionados dos. El primero es a través de expresiones regulares, donde las reglas
C a p í t u l o I V . M e t o d o l o g í a d e s o l u c i ó n
43
coincidan con el texto. El otro enfoque es convirtiendo el texto con formato de un
documento PDF a una representación XML, donde obtenemos el texto etiquetado con
descriptores sobre la posición del texto en una página del documento, el tipo de fuente
y el tamaño, estas descripciones a su vez deben ser procesadas para que a partir de la
posición del texto dentro de las páginas del documento, los tamaños de fuente y
algunas expresiones regulares se puedan identificar los metadatos que describen a un
documento de texto en PDF.
De acuerdo al estado del arte revisado, en (Lipinski, Yao, Breitinger, Beel, & Gipp,
2013) se presenta un comparativo de diversas herramientas existentes para la
identificación de metadatos de artículos científicos en PDF. La librería GROBID (Lopez,
2009) resultó ser la mejor evaluada para la identificación de título, autores, palabras
clave, resumen, etc., a partir de un artículo científico en PDF.
Una vez procesado el documento de texto en PDF por la librería GROBID, el resultado
arrojado es un documento XML, el cual contiene dentro de etiquetas las secciones
identificadas del documento. A partir de este archivo podemos tener los metadatos,
entre ellos, el resumen de la publicación, el cual es sometido al pre-procesamiento.
4.1.2. Etapa 2. Clasificación
Para poder llevar a cabo la tarea de clasificación automática de texto es necesario
realizar un entrenamiento del clasificador que sirva para realizar las predicciones de
las clases de nuevos objetos a clasificar. Las entradas para el clasificador son el
conjunto de clases en las que se desea clasificar, el conjunto de entrenamiento y el
texto que se desea clasificar.
Es necesario que el texto de entrada para el entrenamiento del clasificador y el texto
que se desea clasificar sean sometidos a un pre-procesamiento que nos devuelva a
partir de un texto plano, la vectorización del mismo con el enfoque de n-gramas
deseado.
El pre-procesamiento al que hacemos referencia se encuentra descrito en el punto 2.9
de este trabajo de tesis. El texto a pre-procesar pasa por:
- Normalización de términos. Se convierte el texto a minúsculas y se reemplazan
las vocales con acento por vocales sin ninguna anotación extra.
- Eliminación de stopwords. Se eliminan las palabras vacías incluidas en el
NLTK.
- Identificación de familias léxicas. A través del algoritmo de Porter
implementado en NLTK, se reducen conjuntos de palabras comunes a su raíz.
- Segmentación. El texto es segmentado en n-gramas
C a p í t u l o I V . M e t o d o l o g í a d e s o l u c i ó n
44
- Vectorización. Los n-gramas resultado de la segmentación, son divididos a
través de comas “,”.
En la Figura 5 se muestra el esquema de clasificación y pruebas de un clasificador.
C a p í t u l o I V . M e t o d o l o g í a d e s o l u c i ó n
45
Figura 5. Esquema para la construcción y pruebas de un clasificador
C a p í t u l o I V . M e t o d o l o g í a d e s o l u c i ó n
46
4.1.2.1. Entrenamiento
El entrenamiento del clasificador se realiza con el resultado del pre-procesamiento de
los textos de los objetos de conocimiento que forman parte del conjunto de
entrenamiento.
Por ejemplo si se tienen las clases: A, B y C, el entrenamiento de A se realiza con el pre-
procesamiento de los documentos clasificados en A, el entrenamiento de B se realiza
con el pre-procesamiento de los documentos clasificados en B y el entrenamiento de C
se realiza con el pre-procesamiento de los documentos clasificados en C.
De esta manera se tienen vectores para cada clase A, B y C, los cuales son uno de los
parámetros de entrada del clasificador, y con los que el algoritmo de clasificación
implementado podrá realizar las predicciones de clases de los objetos a clasificar.
4.1.2.2. Clasificador
El clasificador es la implementación de uno o varios algoritmos de clasificación con la
finalidad de poder predecir la clase de pertenencia a objetos de conocimiento no
clasificados.
Una vez que se tiene pre-procesado el texto del conjunto de entrenamiento y el texto
que se desea clasificar, son sometidos al algoritmo de clasificación implementado, el
cual dará como resultado la clase de pertenencia del texto que se sometió a
clasificación.
4.1.2.3. Pruebas y evaluación del clasificador
Las pruebas a las que es sometido un clasificador, consisten en someter un conjunto
de documentos pre-clasificado y relacionados con el conjunto de entrenamiento, a una
clasificación a través del clasificador.
Los resultados de las clases obtenidas son comparadas con las clases que los
documentos tenían en el conjunto pre-clasificado y sometidas a las métricas de
precisión, recuerdo y F1-Score para medir el desempeño del clasificador.
4.1.3. Etapa 3. Poblado ontológico
El poblado ontológico se refiera a la instanciación de los objetos de conocimiento,
dentro de la ontología que los modela y que forma parte de la Ontología de Memoria
Organizacional.
La instanciación se los objetos de conocimiento se realiza con los metadatos obtenidos
en la Etapa de Extracción, presentada en este trabajo de Tesis.
C a p í t u l o I V . M e t o d o l o g í a d e s o l u c i ó n
47
Las instancias servirán para ampliar o mejorar las recomendaciones de objetos de
conocimiento que realiza la herramienta T-GUIA.
CAPITULO V Implementación de la
metodología de solución
C a p í t u l o V . I m p l e m e n t a c i ó n d e l a m e t o d o l o g í a
49
5. Implementación de la metodología de solución En este capítulo se muestra y explica la implementación de la metodología de solución
propuesta para llevar a cabo la extracción, clasificación y poblado ontológico de
documentos con contenido no estructurado de texto en PDF.
En la podemos observar gráficamente la implementación de la metodología de
solución propuesta para realizar la extracción, clasificación y poblado ontológico de
documentos con contenido no estructurado de texto en PDF.
C a p í t u l o V . I m p l e m e n t a c i ó n d e l a m e t o d o l o g í a
50
Figura 6. Esquema de la implementación de la metodología de solución propuesta
C a p í t u l o V . I m p l e m e n t a c i ó n d e l a m e t o d o l o g í a
51
5.1. Formación del corpus
Se creó un corpus de objetos de conocimiento de forma manual a partir de la librería
de la ACM.
La ACM es una organización a nivel mundial que reúne a los profesionales,
estudiantes, investigadores y personas interesadas en la ciencia de la computación.
Esta organización cuenta con miembros a nivel mundial y es reconocida como la
asociación número uno para los profesionales en computación.
Dentro de los recursos ofertados por la ACM, podemos encontrar: publicaciones,
artículos científicos, cursos y libros online, así como conferencias, noticias acerca de la
computación, bolsa de empleo, blogs de discusión, revistas científicas, entre otros.
La librería de la ACM utiliza un esquema de clasificación basado en una taxonomía, la
cual está formada por 2402 clases divididas en hasta 6 niveles jerárquicos.
El primer nivel de la taxonomía de la ACM, está identificado por una letra del alfabeto,
que va de la A a la N, acompañado de una etiqueta que representa el nombre de la
clase.
La taxonomía de la ACM2012 está disponible para su descarga, de entre los formatos
disponibles resalta el XML, en donde vienen las clases y relaciones jerárquicas de la
taxonomía. El manejo de la misma a través del XML resulta complejo, por lo que se
procedió a convertir el XML a un recurso disponible en una tabla de MySQL
denominada taxonomia_acm y como recurso OWL.
C a p í t u l o V . I m p l e m e n t a c i ó n d e l a m e t o d o l o g í a
52
Figura 7. Vista parcial de la tabla taxonomia_acm, la cual modela la taxonomía de la ACM
La ACM brinda acceso al público a su librería para consultar la ficha bibliográfica de
algunas publicaciones y para la obtención del objeto de conocimiento completo en
formato PDF hay que ser miembro de la ACM.
A través de la librería online de la ACM, se puede navegar entre las diversas clases que
conforman la taxonomía y las clases finales despliegan un listado de hasta las últimas
10 publicaciones (ver Figura 8) que están anotadas en esta clase. Por cada publicación
se tiene acceso a la ficha bibliográfica de la misma, en donde podemos conocer: título,
autores, palabras clave, resumen, foro de publicación, año de publicación y si el
usuario que consulta la librería online es socio de la ACM, podemos acceder al PDF del
objeto de conocimiento.
C a p í t u l o V . I m p l e m e n t a c i ó n d e l a m e t o d o l o g í a
53
Figura 8. Captura de pantalla de una clase final de la librería online de la ACM (Combinatorial algorithms - ACM DL)
Para la conformación del corpus, se realizó una navegación en la librería de la ACM,
por las más de 1000 clases de la taxonomía de la ACM, se recopiló el título, autores,
palabras clave, resumen, foro de publicación, año de publicación, estos datos fueron
almacenados en una tabla de MySQL llamada tesis_papers (Figura 9), en donde cada
publicación es identificada por un número entero auto-incrementable, el cual se tomó
como referencia para nombrar al archivo PDF de la publicación, en los casos en los
que el PDF estaba disponible.
C a p í t u l o V . I m p l e m e n t a c i ó n d e l a m e t o d o l o g í a
54
Figura 9. Vista parcial de la tabla tesis_papers en la que se almacenaron los datos de los artículos recuperados en la formación del corpus
La cantidad total de publicaciones que integran el corpus formado es de 5713
articulos.
5.1.1. Extracción
A partir de las publicaciones que integran el corpus formado manualmente, se
procedió a extraer el texto secuencial completo y los metadatos de cada publicación,
tal y como se describe en el punto 4.1.1 de este trabajo de Tesis.
El archivo que contiene el texto secuencial es almacenado para su posterior uso en la
fase de entrenamiento.
Mientras que el archivo XML que contiene los metadatos extraídos del documento
PDF, son almacenados en una tabla en MySQL denominada papers_up, muy similar a la
tabla tesis_papers. La diferencia es que la información de tesis_papers fue extraída de
forma manual y la información almacenada en papers_up es la que fue extraída de
forma automática.
C a p í t u l o V . I m p l e m e n t a c i ó n d e l a m e t o d o l o g í a
55
5.1.2. División del corpus para obtener el conjunto de entrenamiento y el
conjunto de pruebas
Para poder evaluar el desempeño del clasificador, el corpus conformado manualmente
a través de los recursos obtenidos de la ACM, fue dividido en un porcentaje de 70%
para el conjunto de entrenamiento y 30% para el conjunto de pruebas.
Como hay clases que tienen menos de 10 publicaciones, se procedió a crear una regla
de selección para los conjuntos de entrenamiento y prueba por cada clase y quedó
como se muestra en la Tabla 6.
Cantidad de artículos / Clase
Cantidad de
artículos para
el conjunto de
entrenamiento
Cantidad de
artículos para
el conjunto de
pruebas
2 1 1
3 2 1
4 3 1
5 3 2
6 4 2
7 4 3
8 5 3
9 6 3
10 7 3
Tabla 6. Reglas de selección por clase de las publicaciones para formar los conjuntos de entrenamiento y pruebas
C a p í t u l o V . I m p l e m e n t a c i ó n d e l a m e t o d o l o g í a
56
5.2. Pre-procesamiento del conjunto de entrenamiento y
representación vectorial
El texto secuencial completo y el resumen extraído con los demás metadatos de cada
publicación, es sometido al pre-procesamiento descrito en el punto 2.9 del presente
trabajo de Tesis, hasta obtener la representación vectorial de cada objeto de
conocimiento.
5.3. Entrenamiento
Como la clasificación que se realiza en este trabajo de Tesis es jerárquica, con la
utilización de una taxonomía como el conjunto ordenado de clases, el entrenamiento
fue realizado por nivel para cada clase.
El entrenamiento se realiza con el texto del resumen que fue extraído de los PDF.
Si partimos de que la taxonomía de la ACM tiene hasta seis niveles, el entrenamiento
para cada una de las clases del primer nivel, se realiza con las publicaciones que
pertenecen a cada clase o a una de las clases hipónimas de la misma, tomadas del
conjunto de entrenamiento. De igual forma, para realizar el entrenamiento de cada
una de las clases del segundo nivel, se realiza con las publicaciones que pertenecen a
cada clase o a una de las clases hipónimas de la misma tomadas del conjunto de
entrenamiento. De la misma manera se realiza el entrenamiento para los niveles
siguientes hasta llegar a las clases finales, en donde el entrenamiento de cada clase
final se realiza solamente con las publicaciones que pertenecen a esta clase y que son
tomadas del conjunto de entrenamiento.
Cada vez que se realiza el entrenamiento en un nivel, la representación vectorial de
cada clase es tratada como un conjunto y sometida a la operación de diferencia de
conjuntos, de tal manera de que cada clase tenga una lista de palabras asociada con
palabras que solo aparezcan en la lista de palabras de esta clase y no de las demás
clases del mismo nivel.
Por ejemplo, si tenemos las clases Rojo, Verde y Azul, inicialmente la representación
vectorial de cada una, que es tratada como conjunto, tiene una lista de palabras
asociada, la cual es sometida a la operación de diferencia contra las listas de palabras
de las demás clases que se encuentran al mismo nivel del entrenamiento.
Por ejemplo, para la clase Rojo, la operación de diferencia quedaría como sigue:
Mientras que para la clase Verde, la operación de diferencia quedaría como sigue:
C a p í t u l o V . I m p l e m e n t a c i ó n d e l a m e t o d o l o g í a
57
Y de la misma manera para la clase Azul, la operación se diferencia quedaría como
sigue:
En la Tabla 7 se tiene una representación de las listas de palabras iniciales de las
clases Rojo, Verde y Azul, las cuales son sometidas a las operaciones de diferencia
correspondientes y finalmente tenemos una lista de palabras única asociadas a cada
clase.
Rojo Verde Azul
Lista de palabras inicial, asociadas a las clases
rojo, verde,
lápices
plumas, azul,
verde
rojo, lápices,
plumas, azul
Operación de diferencia
Rojo=Rojo-
Verde-Azul
Verde=Verde-
Rojo-Azul
Azul=Verde-
Rojo
Lista de palabras final, asociadas a las clases
rojo verde azul
Tabla 7. Representación de las listas de palabras iniciales y finales, asociadas a cada clase
La lista de palabras final de la operación de diferencia para cada clase, es la
representación vectorial del entrenamiento para cada una.
La lista de palabras final asociada a cada clase en un mismo nivel del entrenamiento,
es uno de los atributos de entrada al clasificador.
C a p í t u l o V . I m p l e m e n t a c i ó n d e l a m e t o d o l o g í a
58
5.4. Pre-procesamiento del texto a clasificar y representación vectorial
En este caso el texto a clasificar está representado por todos los objetos de
conocimiento que forman parte del conjunto de pruebas.
El texto secuencial completo y el resumen extraído con los demás metadatos de cada
publicación a clasificar, es sometido al pre-procesamiento descrito en el punto 2.9 del
presente trabajo de Tesis, hasta obtener la representación vectorial de cada objeto de
conocimiento que se desea clasificar.
Una vez que tenemos la representación vectorial del objeto de conocimiento que
deseamos clasificar, es pasado al clasificador como otro atributo de entrada.
5.5. Clasificador y texto clasificado
La función del clasificador automático es predecir la clase de un objeto no clasificado,
con base en un entrenamiento.
Tanto para el algoritmo de Bayes como para el de SVM, los atributos de entrada son: el
conjunto de texto de entrenamiento y el texto que se desea clasificar.
En el presente trabajo se Tesis se implementó un clasificador hibrido lineal tomando
como base el algoritmo de Arboles de decisión + (Bayes o SVM). Además se implementó
el pre-procesamiento con unigramas y con bigramas.
El algoritmo de Arboles de decisión solo es utilizado para evaluar si la clase que arroja
Bayes o SVM, en el nivel que se está evaluando en la rama del árbol es una clase final.
Si se trata de una clase final de la taxonomía, el objeto a clasificar es anotado en esta
clase. Si no se trata de una clase final, el texto del documento a clasificar es sometido
de nueva cuenta al clasificador con Bayes o SVM pero ahora con el entrenamiento
hipónimo de las clases cuya clase hiperónima es la que se obtuvo en el último nivel
que se había evaluado, el resultado de Bayes o SVM en este nivel es nuevamente
evaluado por la rama correspondiente al árbol de decisión, así hasta encontrar la clase
final a la que debe ser anotado el texto que se desea clasificar.
Una vez que se ha identificado una clase final del texto a clasificar, la clasificación
automática del objeto de conocimiento ha concluido.
5.5.1. Variaciones del clasificador
Los elementos que tenemos para realizar la construcción del clasificador son:
- Algoritmos de clasificación
C a p í t u l o V . I m p l e m e n t a c i ó n d e l a m e t o d o l o g í a
59
o Bayes
o SVM
- Características del artículo científico
o Resumen
o Texto completo
- Enfoque se selección de n-gramas (keywords) a partir de las características del
artículo científico
o Unigramas
o Bigramas
Si realizamos una combinación simple de los algoritmos y las características, tenemos
como resultado cuatro combinaciones:
Bayes SVM
Resumen x x
Texto completo x x
Tabla 8. Combinación de los algoritmos de clasificación y las características de los artículos científicos
Y si esas cuatro combinaciones las combinamos a su vez con los dos enfoques de
selección de los n-gramas, tenemos como resultado, ocho combinaciones
Bayes +
Resumen
Bayes + Texto
completo
SVM +
Resumen
SVM + Texto
completo
Bigramas x x x x
Unigramas x x x x
Tabla 9. Combinación de los algoritmos de clasificación con las características de los artículos científicos y los enfoques de selección de n-gramas
5.6. Poblado ontológico
El poblado ontológico se realiza a través de un módulo desarrollado en Python, el cual
crea un archivo OWL siguiendo la lógica del lenguaje para el mapeo entre bases de
datos y ontologías, R2O (Barrasa, Corcho, & Gómez-Pérez, 2004). El OWL modela los
objetos de conocimiento, los autores, las clases de la taxonomía de la ACM, la relación
C a p í t u l o V . I m p l e m e n t a c i ó n d e l a m e t o d o l o g í a
60
de autoría entre los objetos de conocimiento y la relación de clasificación entre los
objetos de conocimiento y las clases de la taxonomía de la ACM.
El poblado referente a los objetos de conocimiento se realiza con los metadatos
obtenidos en la fase de extracción, los cuales son las propiedades que identifican a
cada objeto de conocimiento, realizando la instancia correspondiente del objeto de
conocimiento con sus respectivas relaciones.
5.7. Planeación de las pruebas
El corpus formado manualmente tuvo un total de 5713 objetos de conocimiento. Tras
una revisión se identificaron artículos científicos duplicados, es decir, que estaban
clasificados en dos o más clases. Los artículos científicos duplicados fueron eliminados
y solo se dejó un ejemplar de cada objeto de conocimiento, teniendo finalmente un
total de 4573 objetos de conocimiento en el corpus.
Los 4573 objetos de conocimiento del corpus sin duplicados, fueron divididos en un
70% para el conjunto de entrenamiento y el 30% para el conjunto de pruebas del
clasificador, teniendo un total de 3137 y 1339 artículos científicos para cada conjunto,
respectivamente.
Como se mostró en el punto 5.5.1 de este trabajo de Tesis, hay ocho variaciones del
clasificador. Por cada variación del clasificador fue sometido el conjunto de pruebas a
las pruebas del clasificador.
En total, por las ocho variaciones del clasificador se realizaron 10712 pruebas.
CAPITULO VI Pruebas y resultados
C a p í t u l o V I . P r u e b a s y r e s u l t a d o s
62
6. Pruebas y resultados En este capítulo se presentan los resultados y el análisis de los mismos, obtenidos de
la aplicación de la metodología de solución propuesta para la extracción, clasificación
y poblado ontológico de documentos con contenido no estructurado de texto en PDF,
obtenidos de la aplicación de la implementación de la metodología propuesta al
corpus formado manualmente y sin objetos de conocimiento duplicados.
6.1. Resultados de las variaciones del clasificador
6.1.1. Bayes + Texto completo + Bigramas
En esta variación del clasificador, se utilizó la implementación hibrida lineal de los
algoritmos de clasificación Arboles de decisión + Bayes, utilizando el texto completo de
los objetos de conocimiento a clasificar y la selección de bigramas a partir del texto
completo, como representación vectorial del texto de cada uno de los objetos de
conocimiento del conjunto de pruebas.
Los resultados obtenidos por cada nivel con esta variación del clasificador fueron los
que se muestran en la Tabla 10.
Bayes Precisión Recuerdo F1-Score
N1 0,4 0,37 0,36
N2 0,18 0,19 0,16
N3 0,02 0,04 0,02
N4 0,02 0,04 0,02
N5 0 0 0
N6 0 0 0
Tabla 10. Resultados de las pruebas con la variación del clasificador: Bayes + Texto completo + Bigramas
6.1.2. SVM + Texto completo + Bigramas
En esta variación del clasificador, se utilizó la implementación hibrida lineal de los
algoritmos de clasificación Arboles de decisión + SVM, utilizando el texto completo de
los objetos de conocimiento a clasificar y la selección de bigramas a partir del texto
completo, como representación vectorial del texto de cada uno de los objetos de
conocimiento del conjunto de pruebas.
C a p í t u l o V I . P r u e b a s y r e s u l t a d o s
63
Los resultados obtenidos por cada nivel con esta variación del clasificador fueron los
que se muestran en la Tabla 11.
SVM Precisión Recuerdo F1-Score
N1 0,42 0,35 0,36
N2 0,28 0,21 0,21
N3 0,17 0,16 0,14
N4 0,11 0,14 0,11
N5 0,17 0,24 0,19
N6 0,25 0,35 0,27
Tabla 11. Resultados de las pruebas con la variación del clasificador: SVM + Texto completo + Bigramas
6.1.3. Bayes + Resumen + Bigramas
En esta variación del clasificador, se utilizó la implementación hibrida lineal de los
algoritmos de clasificación Arboles de decisión + Bayes, utilizando el texto del resumen
de los objetos de conocimiento a clasificar y la selección de bigramas a partir del texto
del resumen, como representación vectorial del texto de cada uno de los objetos de
conocimiento del conjunto de pruebas.
Los resultados obtenidos por cada nivel con esta variación del clasificador fueron los
que se muestran en la Tabla 12.
Bayes Precisión Recuerdo F1-Score
N1 0,88 0,69 0,73
N2 0,62 0,52 0,52
N3 0,23 0,24 0,21
N4 0,06 0,16 0,08
N5 0,13 0,26 0,16
N6 0 0 0
Tabla 12. Resultados de las pruebas con la variación del clasificador: Bayes + Resumen + Bigramas
C a p í t u l o V I . P r u e b a s y r e s u l t a d o s
64
6.1.4. SVM + Resumen + Bigramas
En esta variación del clasificador, se utilizó la implementación hibrida lineal de los
algoritmos de clasificación Arboles de decisión + SVM, utilizando el texto del resumen
de los objetos de conocimiento a clasificar y la selección de bigramas a partir del texto
del resumen, como representación vectorial del texto de cada uno de los objetos de
conocimiento del conjunto de pruebas.
Los resultados obtenidos por cada nivel con esta variación del clasificador fueron los
que se muestran en la Tabla 13.
SVM Precisión Recuerdo F1-Score
N1 0,93 0,64 0,74
N2 0,76 0,54 0,61
N3 0,66 0,48 0,53
N4 0,54 0,47 0,47
N5 0,52 0,56 0,52
N6 0,32 0,38 0,33
Tabla 13. Resultados de las pruebas con la variación del clasificador: SVM + Resumen + Bigramas
6.1.5. Bayes + Texto completo + Unigramas
En esta variación del clasificador, se utilizó la implementación hibrida lineal de los
algoritmos de clasificación Arboles de decisión + Bayes, utilizando el texto completo de
los objetos de conocimiento a clasificar y la selección de unigramas a partir del texto
completo, como representación vectorial del texto de cada uno de los objetos de
conocimiento del conjunto de pruebas.
Los resultados obtenidos por cada nivel con esta variación del clasificador fueron los
que se muestran en la Tabla 14.
Bayes Precisión Recuerdo F1-Score
N1 0,42 0,35 0,36
N2 0,25 0,21 0,2
C a p í t u l o V I . P r u e b a s y r e s u l t a d o s
65
N3 0,07 0,09 0,07
N4 0,02 0,05 0,02
N5 0,01 0,05 0,02
N6 0 0 0
Tabla 14. Resultados de las pruebas con la variación del clasificador: Bayes + Texto completo + Unigramas
6.1.6. SVM + Texto completo + Unigramas
En esta variación del clasificador, se utilizó la implementación hibrida lineal de los
algoritmos de clasificación Arboles de decisión + SVM, utilizando el texto completo de
los objetos de conocimiento a clasificar y la selección de unigramas a partir del texto
completo, como representación vectorial del texto de cada uno de los objetos de
conocimiento del conjunto de pruebas.
Los resultados obtenidos por cada nivel con esta variación del clasificador fueron los
que se muestran en la Tabla 15.
SVM Precisión Recuerdo F1-Score
N1 0,42 0,35 0,36
N2 0,28 0,21 0,21
N3 0,17 0,16 0,14
N4 0,11 0,14 0,11
N5 0,17 0,24 0,19
N6 0,25 0,35 0,27
Tabla 15. Resultados de las pruebas con la variación del clasificador: SVM + Texto completo + Unigramas
6.1.7. Bayes + Resumen + Unigramas
En esta variación del clasificador, se utilizó la implementación hibrida lineal de los
algoritmos de clasificación Arboles de decisión + Bayes, utilizando el texto del resumen
de los objetos de conocimiento a clasificar y la selección de unigramas a partir del
texto del resumen, como representación vectorial del texto de cada uno de los objetos
de conocimiento del conjunto de pruebas.
C a p í t u l o V I . P r u e b a s y r e s u l t a d o s
66
Los resultados obtenidos por cada nivel con esta variación del clasificador fueron los
que se muestran en la Tabla 16.
Bayes Precisión Recuerdo F1-Score
N1 0,88 0,68 0,73
N2 0,61 0,51 0,52
N3 0,23 0,24 0,21
N4 0,06 0,16 0,08
N5 0,12 0,24 0,14
N6 0 0 0
Tabla 16. Resultados de las pruebas con la variación del clasificador: Bayes + Resumen + Unigramas
6.1.8. SVM + Resumen + Unigramas
En esta variación del clasificador, se utilizó la implementación hibrida lineal de los
algoritmos de clasificación Arboles de decisión + SVM, utilizando el texto del resumen
de los objetos de conocimiento a clasificar y la selección de unigramas a partir del
texto del resumen, como representación vectorial del texto de cada uno de los objetos
de conocimiento del conjunto de pruebas.
Los resultados obtenidos por cada nivel con esta variación del clasificador fueron los
que se muestran en la Tabla 17.
SVM Precisión Recuerdo F1-Score
N1 0,75 0,32 0,41
N2 0,63 0,25 0,31
N3 0,49 0,2 0,24
N4 0,33 0,2 0,22
N5 0,47 0,46 0,43
N6 0,64 0,45 0,5
Tabla 17. Resultados de las pruebas con la variación del clasificador: SVM + Resumen + Unigramas
C a p í t u l o V I . P r u e b a s y r e s u l t a d o s
67
6.2. Análisis de los resultados de las variaciones del clasificador
Los resultados obtenidos en cada variación del clasificador, son diferentes
dependiendo de la característica del objeto de conocimiento y de la selección de los n-
gramas utilizada. En la Tabla 18 podemos ver en resumen, los promedios que arrojo
cada una de las variaciones del clasificador sometida a las pruebas.
Precisión Recuerdo F1-Score
Bayes + Texto completo +
Bigramas 0,12 0,13 0,11
SVM + Texto completo +
Bigramas 0,24 0,25 0,22
Bayes + Texto completo +
Unigramas 0,15 0,15 0,13
SVM + Texto completo +
Unigramas 0,23 0,24 0,21
Bayes + Resumen +
Bigramas 0,38 0,37 0,34
SVM + Resumen +
Bigramas 0,62 0,51 0,53
Bayes + Resumen +
Unigramas 0,38 0,37 0,34
SVM + Resumen +
Unigramas 0,55 0,31 0,35
Tabla 18. Promedios de los resultados de las pruebas de las ocho variaciones del clasificador
Los resultados de las métricas utilizando el texto completo + bigramas, el algoritmo
que arrojo los mejores resultados fue el de SVM.
Los resultados de las métricas utilizando el texto completo + unigramas, el algoritmo
que arrojo los mejores resultados fue el de SVM.
C a p í t u l o V I . P r u e b a s y r e s u l t a d o s
68
Los resultados de las métricas utilizando el resumen + bigramas, el algoritmo que
arrojo los mejores resultados fue el de SVM.
Los resultados de las métricas utilizando el resumen + unigramas, el algoritmo que
arrojo los mejores resultados fue el de SVM.
De acuerdo a los resultados, las variaciones del clasificador que utilizaron el algoritmo
de SVM, fueron las que arrojaron los mejores valores en las métricas de evaluación del
clasificador.
Y de acuerdo a los resultados, la variación del clasificador que arrojo las mejores
métricas de evaluación del clasificador, fue la de SVM + Resumen + Bigramas.
CAPITULO VII Conclusiones
C a p í t u l o V I I I . A n e x o s
70
7. Conclusiones De acuerdo a los resultados de las pruebas de las ocho variaciones del clasificador,
podemos concluir que la mejor variación del clasificador fue la de SVM + Resumen +
Bigramas.
Si bien los valores de las métricas en la evaluación de cada variación del clasificador
son por debajo del 0.8, estos pueden generarse debido a:
- La clasificación que realiza la ACM es de forma manual, de ahí que se
identificaron artículos científicos duplicados, es decir, clasificados en más de
una clase.
- Puede que la clasificación manual de la ACM sea correcta para algunos
artículos científicos que no fueron clasificados correctamente y una de las
causas es que el contenido del texto del artículo científico, tiene una gran
frecuencia de keywords que son relevantes para otras clases. Por ejemplo:
o si tenemos dos categorías (colores y figuras)
o un artículo con el título “los colores de las figuras”, el cual está
clasificado manualmente en la clase “colores”
o la palabra figuras tiene una mayor frecuencia en el texto del artículo
o es sometido al clasificador, la clase resultante sería “figuras” y no
colores, debido a la alta frecuencia de la palabra figuras.
- Los artículos duplicados.
Con los resultados de las clases pronosticadas por el clasificador y las clases esperadas
para los elementos del conjunto de pruebas, llegamos a la siguiente hipótesis.
7.1. Hipótesis
Se observó que múltiples clases pronosticadas por el clasificador en comparación con
las clases esperadas de los elementos del conjunto de pruebas, tenían una ligera
variación en el último nivel.
Es decir, los primeros niveles eran los mismos en las clases pronosticadas y las clases
esperadas, pero el último nivel era diferente.
Por ejemplo:
- Tenemos un artículo pre-clasificado en: A.1.1
- El resultado del clasificador una vez sometido el mismo artículo arrojo la clase:
A.1.6
- Identificamos que el primer nivel es el mismo (A), el segundo nivel es el mismo
(A.1) pero el último nivel es diferente.
C a p í t u l o V I I I . A n e x o s
71
Esta diferencia pudo haber sido generada por una ligera variación en la coincidencia
de las keywords del artículo a clasificar y las clases que participan en la clasificación
en el nivel indicado, con una palabra que tenga el artículo y que sea más relevante
para una clase del mismo nivel y no sea relevante para la clase correcta, el resultado
en el último nivel será una clase errónea.
7.2. Comprobación de la hipótesis
Para comprobar la hipótesis tomamos los resultados arrojados por la mejor variación
del clasificador (SVM+Abstract+Bayes) y comparamos nivel por nivel la clase arrojada
por el clasificador con la clase de la pre-clasificación a la esta anotado el artículo.
En los casos donde los la clase pronosticada y la clase pre-clasificada en los primeros
niveles eran las mismas pero el último nivel era diferente, realizamos el reemplazo del
último nivel incorrecto con el último nivel correcto.
Por ejemplo, si tenemos un objeto de conocimiento preclasificado en: A.1.1 y el
pronóstico del clasificador fue A.1.6, observamos que los primeros dos niveles son los
mismos, pero el ultimo nivel cambia, realizamos el cambio de la clase del ultimo nivel
en la clase pronosticada por la clase del ultimo nivel de la clase pre-clasificada, a
través de la verificación como sigue:
Verificar que el Nivel 1 sea el mismo en la clase pronosticada y la clase pre-
clasificada
Verificar que el Nivel 2 sea el mismo en la clase pronosticada y la clase pre-
clasificada
Verificar que el Nivel 3 sea diferente en la clase pronosticada y la clase pre-
clasificada
o Si la última clase es diferente, entonces procedemos a realizar el cambio
en la clase pronosticada por la clase pre-clasificada
Las clases resultantes con los cambios propuestos en la hipótesis, arrojaron los
resultados que se presentan en la Tabla 19 una vez que fueron evaluados con las
métricas:
SVM Precisión Recuerdo F1-Score
N1 0,93 0,64 0,74
N2 0,76 0,54 0,61
N3 0,76 0,56 0,61
C a p í t u l o V I I I . A n e x o s
72
N4 0,83 0,71 0,74
N5 0,86 0,88 0,86
N6 0,9 0,93 0,91
Tabla 19. Resultados de la clasificación con la variación del ultimo nivel
Comparando los promedios de los resultados arrojados por la versión del clasificador
que arrojó los mejores valores en la evaluación de las variaciones de los clasificadores,
con los promedios obtenidos en la comprobación de la hipótesis, podemos observar
en la Tabla 20 que hubo una notable mejoría en los resultados, una vez comprobada la
hipótesis.
SVM Precisión Recuerdo F1-Score
Resultado 0,62 0,51 0,53
Hipótesis 0,84 0,71 0,75
Tabla 20. Comparativa de los resultados promedios de la variación del clasificador que arrojó las mejores puntuaciones y de los obtenidos en la comprobación de la hipótesis
7.3. Conclusiones finales
El desempeño del algoritmo de SVM arrojó los mejores resultados, al igual que en
algunos de los trabajos del estado del arte.
Además de que el enfoque de selección de las keywords a través de los bigramas
ayudo al clasificador a tener mejores resultados, los bigramas ayudan a contextualizar
al clasificador. Pues una secuencia de 2 términos en un contexto específico siempre va
a ser la misma.
Las clases finales de la taxonomía de la ACM 2012 al mismo nivel, son muy cercanas
respecto a los temas que tratan, por lo que a un nivel tan específico, una leve variación
en las keywords del objeto de conocimiento a clasificar podría suponer una
clasificación de último nivel incorrecta.
La lista de palabras asociadas a cada clase, fue solo de palabras positivas, la
implementación de palabras negativas podría ayudar a mejorar el desempeño del
clasificador.
C a p í t u l o V I I I . A n e x o s
73
7.4. Aportaciones
Se cuenta con una metodología y la implementación de la misma que permite realizar
la extracción automática, clasificación automática y poblado ontológico
semiautomático de documentos con contenido no estructurado de texto en PDF.
Se cuenta con un modelo de clasificación jerárquico que puede ser adaptado a otros
dominios de conocimiento.
7.4.1. Interfaz web para la implementación de la metodología
Se diseñó una interfaz web para la implementación de la variación del clasificador que
arrojó los mejores resultados, con la finalidad de brindar al usuario una interfaz
gráfica de la implementación de la metodología de solución propuesta.
En la página principal (Figura 10) de la interfaz web se tiene un formulario en donde
se puede seleccionar un artículo científico en idioma inglés de texto en PDF y sin
restricciones de seguridad.
.
Figura 10. Captura de pantalla de la página principal de la herramienta construida con interfaz web
Una vez seleccionado el documento PDF y al presionar el botón “Procesar”, comenzará
el proceso automático de extracción, clasificación y poblado ontológico a partir del
objeto de conocimiento seleccionado.
C a p í t u l o V I I I . A n e x o s
74
Figura 11. Captura de pantalla de la página del resultado del procesamiento de la herramienta construida con interfaz web
Una vez terminado el proceso automático, se puede observar en una segunda página
(Figura 11) el resultado de la extracción de los metadatos del objeto de conocimiento,
así como la clase pronosticada por el clasificador.
7.5. Trabajos futuros
Mejorar la generación de las listas de palabras asociadas a las clases, en base al corpus
de entrenamiento del clasificador.
Utilizar palabras negativas en la lista de palabras asociadas a las clases que se utilizan
para el entrenamiento del clasificador.
Realizar la clasificación de objetos de conocimiento de texto de otros dominios de
conocimiento.
Realizar la clasificación automática de objetos de conocimiento de texto de múltiples
dominios de conocimiento
CAPITULO VIII Anexos
C a p í t u l o V I I I . A n e x o s
76
8. Anexos
8.1. Anexo 1. Resultados del clasificador SVM+Resumen+Bigramas
En la Tabla 21 se muestran los resultados obtenidos utilizando el corpus de pruebas y
a variación del clasificador SVM + Resumen + Bigramas, que fue el que arrojó los
mejores valores en las métricas de evaluación.
La primera columna es el identificador del objeto de conocimiento, la segunda
muestra la clase obtenida por el clasificador y la última columna muestra la clase a la
que el objeto de conocimiento pertenece en la librería digital de la ACM, también
conocida como esperada.
ID del objeto de conocimiento
Clase pronosticada Clase esperada
2 A.1.2 A.1.1 5 D.2.4.1 A.1.1 9 A.1.6 A.1.1 13 I.1.2.2 A.1.2 17 A.1.1 A.1.3 18 A.1.1 A.1.3 21 D.2.2.1 A.1.3 26 L.11.4.7 A.1.4 29 A.1.5 A.1.4 32 A.1.5 A.1.5 35 A.1.2 A.1.6 39 D.7.7 A.1.6 41 A.1.1 A.1.6 46 D.8.12 A.2.1 50 A.2.3 A.2.1 51 A.2.8 A.2.1 54 A.2.3 A.2.3 57 D.3.1.1 A.2.3 63 A.2.8 A.2.3 66 A.2.5 A.2.4 69 A.2.11 A.2.4 73 A.2.8 A.2.5 74 A.2.3 A.2.5 75 A.2.1 A.2.5 84 A.2.9 A.2.8 85 A.2.5 A.2.8 91 A.2.3 A.2.8 95 A.2.5 A.2.9 96 D.3.1.1 A.2.9
C a p í t u l o V I I I . A n e x o s
77
100 D.3.1.1 A.2.9 101 A.2.11 A.2.10 104 A.2.11 A.2.10 108 A.2.11 A.2.10 111 A.2.10 A.2.11 113 A.2.11 A.2.11 114 A.2.3 A.2.11 121 D.7.6 B.2.2 125 B.2.5 B.2.2 126 B.2.10 B.2.2 130 B.2.3 B.2.3 136 B.2.10 B.2.3 137 B.2.3 B.2.3 142 D.2.2.1 B.2.4 146 B.2.11.1 B.2.4 155 D.2.3 B.2.5 157 D.6.3.4.4.1 B.2.5 159 B.2.4 B.2.5 163 B.2.11.1 B.2.7 164 D.2.3 B.2.7 166 B.2.2 B.2.7 170 B.2.10 B.2.10 175 D.2.4.1 B.2.10 177 B.2.10 B.2.10 180 B.2.11.1 B.2.11.1 184 B.2.11.1 B.2.11.1 188 B.2.11.1 B.2.11.1 189 B.2.11.2 B.2.11.2 190 D.7.7 B.2.11.2 197 B.2.11.2 B.2.11.2 203 D.2.3 B.2.13 204 D.2.2.1 B.2.13 374 B.4.12.2 B.4.12.2 207 D.8.7 B.2.13 216 B.3.2.1 B.3.2.1 221 D.2.2.1 B.3.2.1 223 B.3.2.1 B.3.2.1 225 B.3.2.3 B.3.2.2 228 B.2.11.2 B.3.2.2 231 B.3.2.3 B.3.2.3 235 B.3.2.3 B.3.2.3 237 B.3.2.3 B.3.2.3 248 B.3.3.1 B.3.3.1
C a p í t u l o V I I I . A n e x o s
78
251 B.3.3.2 B.3.3.1 254 B.3.3.1 B.3.3.1 256 B.3.3.2 B.3.3.2 257 B.3.3.4 B.3.3.2 261 B.2.11.2 B.3.3.2 278 B.3.3.4 B.3.3.4 280 D.2.2.1 B.3.3.4 282 D.2.3 B.3.4.2 283 B.3.4.2 B.3.4.2 290 B.3.4.2 B.3.4.2 291 B.3.5.3 B.3.5.1 293 B.3.5.1 B.3.5.1 296 B.3.5.4 B.3.5.1 305 B.3.5.4 B.3.5.3 308 B.3.5.1 B.3.5.3 309 B.3.5.1 B.3.5.3 315 B.3.5.3 B.3.5.4 316 B.3.5.4 B.3.5.4 317 D.2.4.1 B.3.5.4 322 B.3.5.4 B.3.5.5 324 B.3.5.3 B.3.5.5 327 D.8.7 B.3.5.5 332 B.3.5.1 B.3.5.6 334 B.3.5.6 B.3.5.6 338 B.3.5.6 B.3.5.6 341 B.4.3.1 B.4.3.1 346 B.4.3.1 B.4.3.1 350 B.4.3.1 B.4.3.1 352 B.4.3.2 B.4.3.2 353 D.7.6 B.4.3.2 354 D.8.5 B.4.3.2 363 B.4.3.3 B.4.3.3 365 B.4.3.3 B.4.3.3 370 D.2.2.1 B.4.3.3 373 B.4.12.2 B.4.12.2 378 B.4.12.2 B.4.12.2 382 B.4.13 B.4.13 385 D.8.7 B.4.13 388 B.4.3.3 B.4.13 392 B.6.1.2 B.6.1.1 397 B.6.1.1 B.6.1.1 399 B.6.1.2 B.6.1.1 402 D.2.5 B.6.1.2
C a p í t u l o V I I I . A n e x o s
79
403 D.2.3 B.6.1.2 410 B.6.1.2 B.6.1.2 412 B.6.2 B.6.2 417 D.7.6 B.6.2 419 B.6.1.2 B.6.2 427 B.6.3.2 B.6.3.2 428 B.6.3.2 B.6.3.2 433 B.6.1.1 B.6.4 438 B.6.2 B.6.4 440 B.6.4 B.6.4 441 B.6.5.4 B.6.5.3 447 B.6.5.4 B.6.5.3 450 D.3.1.1 B.6.5.3 451 B.6.5.4 B.6.5.4 454 D.2.2.1 B.6.5.4 458 B.6.5.4 B.6.5.4 471 B.7.1.8 B.7.1.1 472 D.6.2.2 B.7.1.1 484 D.7.7 B.7.1.5 486 B.7.1.5 B.7.1.5 487 B.7.1.8 B.7.1.5 496 B.7.1.1 B.7.1.8 499 D.2.2.1 B.7.1.8 500 B.7.1.8 B.7.1.8 505 B.8.4.1 B.8.4.1 507 B.8.4.2 B.8.4.1 513 D.2.1 B.8.4.2 516 B.8.4.2 B.8.4.2 517 B.8.6 B.8.6 523 B.8.4.2 B.8.6 526 B.8.8 B.8.6 529 B.8.6 B.8.8 530 B.8.8 B.8.8 532 B.8.8 B.8.8 539 B.9.1.4 B.9.1.1 540 B.9.1.1 B.9.1.1 544 B.9.1.1 B.9.1.1 547 B.9.1.1 B.9.1.4 552 B.9.1.4 B.9.1.4 554 D.2.5 B.9.1.4 558 B.9.2.2 B.9.2.2 560 B.9.2.2 B.9.2.2 564 D.8.7 B.9.2.2
C a p í t u l o V I I I . A n e x o s
80
580 D.2.1 B.9.3.5 584 D.7.7 B.9.3.5 585 D.6.2.2 B.9.3.5 587 B.10.1.2 B.10.1.2 589 B.10.1.2 B.10.1.2 591 B.10.1.2 B.10.1.2 598 B.10.3.3 B.10.3.3 603 B.10.3.3 B.10.3.3 604 B.10.3.3 B.10.3.3 610 B.10.10.4 B.10.10.4 613 B.10.10.4 B.10.10.4 614 D.2.4.1 B.10.10.4 619 C.1.1.4 C.1.1.1 624 D.7.7 C.1.1.1 625 D.7.7 C.1.1.1 640 C.1.1.3 C.1.1.3 642 D.6.2.2 C.1.1.3 645 C.1.1.4 C.1.1.3 647 C.1.1.4 C.1.1.4 652 C.1.1.1 C.1.1.4 655 C.1.1.1 C.1.1.4 657 D.8.12 C.1.1.5 671 C.1.2.4 C.1.2.2 672 C.1.2.7 C.1.2.2 674 D.8.7 C.1.2.2 678 C.1.2.4 C.1.2.3 684 D.2.4.1 C.1.2.3 686 C.1.2.7 C.1.2.3 692 C.1.2.4 C.1.2.4 695 C.1.2.7 C.1.2.4 696 C.1.2.4 C.1.2.4 701 C.1.2.3 C.1.2.6 702 C.1.2.7 C.1.2.6 706 C.1.2.7 C.1.2.6 712 C.1.2.4 C.1.2.7 714 C.1.2.7 C.1.2.7 715 C.1.2.7 C.1.2.7 729 D.2.4.1 C.1.3.2 731 C.1.3.2 C.1.3.2 737 C.1.3.2 C.1.3.2 749 C.1.4.1 C.1.4.1 751 C.1.4.1 C.1.4.1 754 C.1.4.1 C.1.4.1
C a p í t u l o V I I I . A n e x o s
81
759 D.7.7 C.1.4.2 761 C.1.4.11 C.1.4.2 763 C.1.4.10 C.1.4.2 770 D.8.11 C.1.4.3 776 C.1.4.11 C.1.4.3 783 D.7.6 C.1.4.4 784 C.1.4.11 C.1.4.4 786 C.1.4.11 C.1.4.4 789 D.7.7 C.1.4.5 790 C.1.4.5 C.1.4.5 792 C.1.4.1 C.1.4.5 810 E.3.4.5.5 C.1.4.10 816 D.6.3.4.4.1 C.1.4.11 818 D.7.7 C.1.4.11 819 C.1.4.11 C.1.4.11 826 C.2.2.3 C.2.2.1 829 D.2.2.1 C.2.2.1 830 C.2.2.3 C.2.2.1 831 C.2.2.3 C.2.2.3 834 C.2.2.3 C.2.2.3 838 D.6.3.4.4.2 C.2.2.3 842 C.2.2.3 C.2.2.4 843 C.2.2.3 C.2.2.4 844 C.2.2.1 C.2.2.4 865 C.2.5.3 C.2.5.1 877 C.2.5.3 C.2.5.3 879 C.2.5.3 C.2.5.3 884 C.2.5.1 C.2.5.3 903 D.7.6 C.4.2 905 D.2.3 C.4.2 926 D.2.1 D.2.1 933 D.2.1 D.2.1 934 D.2.4.1 D.2.1 938 D.2.2.1 D.2.2.1 939 D.2.2.1 D.2.2.1 940 D.2.2.1 D.2.2.1 945 D.2.1 D.2.3 953 D.2.3 D.2.3 954 D.2.1 D.2.3 955 D.2.4.1 D.2.4.1 958 D.2.4.1 D.2.4.1 963 D.3.1.1 D.2.4.1 965 D.2.4.1 D.2.5
C a p í t u l o V I I I . A n e x o s
82
968 D.2.1 D.2.5 973 D.2.5 D.2.5 978 D.3.1.1 D.3.1.1 981 D.3.1.1 D.3.1.1 984 D.3.1.1 D.3.1.1 991 D.6.2.2 D.6.2.2 1009 D.6.3.4.4.1 D.6.3.4.4. 1013 D.6.3.4.4.1 D.6.3.4.4. 1015 D.6.3.4.4.1 D.6.3.4.4. 1018 D.6.3.4.4.1 D.6.3.4.4. 1022 D.6.3.4.4.1 D.6.3.4.4. 1036 D.7.6 D.7.5 1039 D.7.5 D.7.5 1043 D.7.5 D.7.5 1046 D.7.5 D.7.6 1051 D.7.6 D.7.6 1054 D.7.7 D.7.6 1055 D.7.6 D.7.7 1060 D.7.7 D.7.7 1063 D.7.7 D.7.7 1067 D.8.7 D.8.5 1069 D.8.11 D.8.5 1073 D.8.11 D.8.5 1075 D.8.7 D.8.7 1077 D.8.7 D.8.7 1083 D.8.11 D.8.7 1089 D.3.1.1 D.8.11 1093 D.8.7 D.8.11 1094 D.8.11 D.8.11 1095 D.8.12 D.8.12 1099 D.8.12 D.8.12 1104 D.8.11 D.8.12 1107 D.6.3.4.4.1 E.1.1.1 1108 D.2.4.1 E.1.1.1 1109 D.2.2.1 E.1.1.1 1117 D.8.7 E.1.1.2.1 1123 E.3.4.3.1 E.1.1.2.1 1124 D.2.1 E.1.1.2.1 1125 E.1.1.3.2.2 E.1.1.3.1 1127 E.1.1.3.2.3 E.1.1.3.1 1128 E.1.1.3.2.3 E.1.1.3.1 1136 E.1.1.3.2.4 E.1.1.3.2.1 1138 D.7.6 E.1.1.3.2.1
C a p í t u l o V I I I . A n e x o s
83
1148 E.1.1.3.2.2 E.1.1.3.2.2 1149 D.2.1 E.1.1.3.2.2 1151 E.1.1.3.2.1 E.1.1.3.2.2 1161 D.2.2.1 E.1.1.3.2.3 1162 D.8.11 E.1.1.3.2.3 1163 E.1.1.3.2.4 E.1.1.3.2.3 1165 E.1.1.3.2.1 E.1.1.3.2.4 1169 E.1.1.3.2.4 E.1.1.3.2.4 1173 E.1.1.3.2.4 E.1.1.3.2.4 1176 E.1.1.3.2.5 E.1.1.3.2.5 1181 E.1.1.3.2.3 E.1.1.3.2.5 1182 D.3.1.1 E.1.1.3.2.5 1188 D.2.5 E.1.1.3.2.6 1190 D.8.7 E.1.1.3.2.6 1194 E.1.1.3.2.5 E.1.1.3.2.6 1196 E.1.1.3.3.7 E.1.1.3.3.1 1199 E.1.1.3.3.4 E.1.1.3.3.1 1202 E.1.1.3.3.3 E.1.1.3.3.1 1205 D.2.5 E.1.1.3.3.2 1207 D.2.3 E.1.1.3.3.2 1209 D.6.3.4.4.1 E.1.1.3.3.2 1217 D.7.7 E.1.1.3.3.3 1220 E.1.1.3.3.3 E.1.1.3.3.3 1227 D.6.3.4.4.1 E.1.1.3.3.4 1230 D.7.7 E.1.1.3.3.4 1234 D.2.2.1 E.1.1.3.3.4 1239 D.7.7 E.1.1.3.3.5 1240 E.1.1.3.3.5 E.1.1.3.3.5 1244 E.1.1.3.3.9 E.1.1.3.3.5 1247 D.8.5 E.1.1.3.3.6 1248 E.1.1.3.3.6 E.1.1.3.3.6 1249 E.1.1.3.3.6 E.1.1.3.3.6 1259 D.2.2.1 E.1.1.3.3.7 1260 D.2.2.1 E.1.1.3.3.7 1264 E.1.1.3.3.3 E.1.1.3.3.7 1266 E.1.1.3.3.4 E.1.1.3.3.9 1271 E.1.1.3.3.5 E.1.1.3.3.9 1276 D.7.5 E.1.1.3.4.1 1279 D.8.5 E.1.1.3.4.1 1280 A.2.9 E.1.1.3.4.1 1289 D.8.11 E.1.1.3.4.2 1294 D.2.5 E.1.1.3.4.2 1297 D.2.3 E.1.1.3.4.3
C a p í t u l o V I I I . A n e x o s
84
1300 E.1.1.3.4.3 E.1.1.3.4.3 1302 D.7.6 E.1.1.3.4.3 1305 E.1.1.4.1 E.1.1.4.1 1308 D.7.6 E.1.1.4.1 1314 E.3.3.4.1 E.1.1.4.1 1348 D.2.4.1 E.1.2.2.8 1349 E.1.2.2.8 E.1.2.2.8 1353 E.1.2.2.8 E.1.2.2.8 1357 D.2.5 E.1.2.3.1 1359 E.1.2.3.1 E.1.2.3.1 1362 D.2.5 E.1.2.3.1 1365 D.2.4.1 E.1.2.3.2 1369 E.1.2.3.1 E.1.2.3.2 1370 D.7.7 E.1.2.3.2 1375 D.7.7 E.1.2.5.2 1399 D.2.4.1 E.1.2.5.4 1401 D.8.11 E.1.2.5.4 1403 E.1.2.5.4 E.1.2.5.4 1417 D.7.6 E.1.2.7 1418 D.7.6 E.1.2.7 1422 D.7.5 E.1.2.7 1426 E.1.3.1.6 E.1.3.1.6 1430 D.2.4.1 E.1.3.1.6 1431 D.2.1 E.1.3.1.6 1436 D.6.2.2 E.1.3.2.1 1458 D.3.1.1 E.1.4.1 1463 H.1.1.1 E.1.4.1 1464 E.1.4.1 E.1.4.1 1468 D.2.1 E.1.4.2 1469 E.1.4.4.1 E.1.4.2 1474 D.2.2.1 E.1.4.2 1480 D.2.4.1 E.1.4.3 1481 E.1.4.3 E.1.4.3 1486 E.1.4.4.1 E.1.4.4.1 1488 E.1.4.4.1 E.1.4.4.1 1491 E.1.4.4.1 E.1.4.4.1 1499 E.2.3.5 E.2.1.1.1 1500 E.2.1.1.8 E.2.1.1.1 1502 D.2.2.1 E.2.1.1.1 1505 E.2.1.1.1 E.2.1.1.2 1506 E.2.1.1.4 E.2.1.1.2 1508 E.2.1.1.1 E.2.1.1.2 1518 D.3.1.1 E.2.1.1.3
C a p í t u l o V I I I . A n e x o s
85
1522 D.7.6 E.2.1.1.4 1525 D.2.2.1 E.2.1.1.4 1527 D.6.3.4.4.1 E.2.1.1.4 1535 E.2.1.1.1 E.2.1.1.5 1536 E.2.1.1.2 E.2.1.1.5 1539 E.2.1.1.8 E.2.1.1.5 1544 D.6.3.4.4.1 E.2.1.1.6 1549 D.2.3 E.2.1.1.6 1557 E.2.1.1.5 E.2.1.1.7 1559 D.2.2.1 E.2.1.1.7 1560 E.2.1.1.4 E.2.1.1.7 1565 D.6.3.4.4.1 E.2.1.1.8 1568 E.2.1.1.1 E.2.1.1.8 1569 D.7.6 E.2.1.1.8 1575 D.7.7 E.2.1.1.9 1576 E.2.1.1.9 E.2.1.1.9 1578 E.2.1.1.4 E.2.1.1.9 1581 E.2.1.1.11 E.2.1.1.10 1585 E.2.1.1.1 E.2.1.1.10 1591 D.7.5 E.2.1.1.11 1594 E.2.1.1.4 E.2.1.1.11 1597 D.7.6 E.2.1.1.11 1601 D.2.1 E.2.1.1.12 1607 E.2.1.1.4 E.2.1.1.12 1610 D.2.1 E.2.1.1.12 1611 E.2.1.2.9 E.2.1.2.1 1616 D.2.2.1 E.2.1.2.1 1617 D.2.2.1 E.2.1.2.1 1621 E.2.1.2.14 E.2.1.2.2 1626 E.2.1.2.8 E.2.1.2.2 1628 D.8.12 E.2.1.2.2 1632 E.2.1.2.11 E.2.1.2.3 1633 E.2.1.2.3 E.2.1.2.3 1638 D.7.7 E.2.1.2.3 1648 E.2.1.2.8 E.2.1.2.4 1649 D.2.4.1 E.2.1.2.5 1656 D.8.5 E.2.1.2.5 1658 E.2.1.2.10 E.2.1.2.5 1660 D.3.1.1 E.2.1.2.6 1662 E.2.1.2.11 E.2.1.2.6 1666 E.2.1.2.5 E.2.1.2.6 1670 D.2.3 E.2.1.2.7 1675 E.2.1.2.7 E.2.1.2.7
C a p í t u l o V I I I . A n e x o s
86
1678 D.7.5 E.2.1.2.7 1679 E.2.1.2.13 E.2.1.2.8 1684 D.2.4.1 E.2.1.2.8 1685 D.2.1 E.2.1.2.8 1692 E.2.1.2.12 E.2.1.2.9 1693 D.7.7 E.2.1.2.9 1698 E.2.1.2.3 E.2.1.2.9 1700 E.2.1.2.5 E.2.1.2.10 1702 E.2.1.2.9 E.2.1.2.10 1704 D.2.2.1 E.2.1.2.10 1725 D.2.2.1 E.2.1.2.11 1726 D.2.4.1 E.2.1.2.11 1728 E.2.1.2.11 E.2.1.2.11 1738 E.2.1.2.11 E.2.1.2.12 1742 D.3.1.1 E.2.1.2.13 1743 D.7.6 E.2.1.2.13 1745 E.2.1.2.14 E.2.1.2.14 1752 D.8.7 E.2.1.2.14 1753 E.2.1.2.1 E.2.1.2.14 1755 D.2.3 E.2.2.1 1756 E.2.2.1 E.2.2.1 1762 D.3.1.1 E.2.2.1 1766 E.2.2.2 E.2.2.2 1769 E.2.2.1 E.2.2.2 1774 E.2.2.1 E.2.2.2 1776 E.3.4.5.5 E.2.3.1 1781 E.3.1.4.1 E.2.3.1 1784 D.2.1 E.2.3.1 1785 E.2.3.2 E.2.3.2 1786 D.2.4.1 E.2.3.2 1791 D.6.3.4.4.1 E.2.3.2 1796 E.2.3.5 E.2.3.3 1798 E.2.3.5 E.2.3.3 1801 E.2.3.7 E.2.3.3 1808 E.2.3.5 E.2.3.5 1813 D.2.4.1 E.2.3.5 1814 E.2.3.5 E.2.3.5 1816 D.7.5 E.2.3.6 1818 E.2.3.10 E.2.3.6 1823 E.2.3.10 E.2.3.6 1829 E.2.3.2 E.2.3.7 1832 E.2.3.7 E.2.3.7 1834 E.2.3.2 E.2.3.7
C a p í t u l o V I I I . A n e x o s
87
1836 D.2.4.1 E.2.3.8 1841 D.7.6 E.2.3.8 1843 E.2.3.10 E.2.3.8 1846 E.2.3.1 E.2.3.9 1849 D.2.4.1 E.2.3.9 1851 E.2.3.3 E.2.3.9 1857 D.8.11 E.2.3.10 1860 D.2.4.1 E.2.3.10 1862 D.6.3.4.4.1 E.2.3.10 1876 D.7.5 E.2.4.3 1878 E.2.4.3 E.2.4.3 1880 E.2.4.12 E.2.4.3 1891 D.7.5 E.2.4.4 1893 E.2.4.12 E.2.4.4 1894 E.2.4.12 E.2.4.4 1899 D.2.1 E.2.4.7 1901 D.3.1.1 E.2.4.7 1902 D.2.3 E.2.4.7 1906 E.2.4.8 E.2.4.8 1910 L.3.7 E.2.4.8 1912 E.2.4.4 E.2.4.8 1928 E.2.4.4 E.2.4.12 1931 D.2.4.1 E.2.4.12 1933 D.6.2.2 E.2.4.12 1940 E.2.4.13 E.2.4.13 1941 D.2.4.1 E.2.4.13 1944 E.2.4.4 E.2.4.13 1945 D.7.7 E.2.5.1 1947 E.2.5.7 E.2.5.1 1948 E.2.5.1 E.2.5.1 1956 E.2.5.7 E.2.5.7 1958 E.3.1.4.1 E.2.5.7 1962 H.1.7.1 E.2.5.7 1965 D.3.1.1 E.2.6.1 1972 E.2.6.1 E.2.6.1 1974 D.2.4.1 E.2.6.1 1976 D.2.4.1 E.2.6.3 1981 E.2.6.1 E.2.6.3 1984 D.7.7 E.2.6.3 1987 D.8.7 E.2.6.4 1993 E.2.6.4 E.2.6.4 1994 E.2.6.1 E.2.6.4 2002 E.2.2.2 E.2.7
C a p í t u l o V I I I . A n e x o s
88
2003 J.1.2.2 E.2.7 2004 D.2.2.1 E.2.7 2005 J.1.2.6 E.2.8 2006 E.2.2.1 E.2.8 2012 E.2.1.2.11 E.2.8 2016 E.3.1.1 E.3.1.1 2018 D.7.5 E.3.1.1 2024 E.3.1.4.1 E.3.1.1 2028 E.2.1.2.9 E.3.1.4.1 2029 E.3.1.4.1 E.3.1.4.1 2032 E.3.1.4.1 E.3.1.4.1 2035 D.7.7 E.3.2.1.1 2037 D.7.7 E.3.2.1.1 2043 E.3.2.1.1 E.3.2.1.1 2048 D.7.6 E.3.3.1 2053 D.7.5 E.3.3.1 2066 D.7.5 E.3.3.3 2067 D.6.3.4.4.1 E.3.3.3 2068 E.3.3.4.1 E.3.3.3 2080 E.3.3.4.1 E.3.3.4.1 2082 E.3.3.4.1 E.3.3.4.1 2087 E.3.3.5 E.3.3.5 2090 D.7.6 E.3.3.5 2091 E.3.3.5 E.3.3.5 2107 E.3.4.6 E.3.4.2 2108 E.3.4.5.1 E.3.4.2 2113 D.8.5 E.3.4.2 2115 E.3.4.3.1 E.3.4.3.1 2117 E.3.4.3.1 E.3.4.3.1 2123 E.3.4.3.1 E.3.4.3.1 2128 D.7.7 E.3.4.5.1 2130 E.3.4.5.1 E.3.4.5.1 2134 D.3.1.1 E.3.4.5.1 2135 D.2.2.1 E.3.4.5.5 2138 E.3.4.5.5 E.3.4.5.5 2141 D.7.7 E.3.4.5.5 2145 D.3.1.1 E.3.4.6 2149 D.2.4.1 E.3.4.6 2155 E.3.4.5.1 E.3.4.7 2156 E.3.4.5.1 E.3.4.7 2167 E.3.5.5 E.3.5.1 2169 E.3.5.1 E.3.5.1 2174 E.3.5.1 E.3.5.1
C a p í t u l o V I I I . A n e x o s
89
2175 D.2.3 E.3.5.2 2177 E.3.5.5 E.3.5.2 2179 D.3.1.1 E.3.5.2 2187 D.2.1 E.3.5.3 2190 D.2.4.1 E.3.5.3 2191 E.3.5.1 E.3.5.3 2205 E.3.5.5 E.3.5.5 2206 E.3.5.5 E.3.5.5 2211 D.2.3 E.3.5.5 2219 D.3.1.1 E.3.5.6 2220 D.2.3 E.3.5.6 2222 E.3.6.2 E.3.6.2 2224 D.6.2.2 E.3.6.2 2225 D.3.1.1 E.3.6.2 2232 F.1.1.1 F.1.1.1 2233 F.1.1.1 F.1.1.1 2234 F.1.1.1 F.1.1.1 2242 F.1.1.2 F.1.1.2 2245 D.7.7 F.1.1.2 2255 K.8 F.1.1.3 2256 D.2.5 F.1.1.3 2257 D.7.7 F.1.1.3 2264 F.1.6.1 F.1.2 2266 F.1.6.1 F.1.2 2273 F.1.1.2 F.1.4 2276 D.2.4.1 F.1.4 2277 F.1.6.1 F.1.4 2283 F.1.6.1 F.1.6.1 2285 F.1.6.1 F.1.6.1 2290 F.1.6.1 F.1.6.1 2292 F.1.6.1 F.1.8 2295 D.7.6 F.1.8 2300 F.1.8 F.1.8 2303 D.2.5 F.2.1.1 2307 F.2.1.1 F.2.1.1 2308 D.2.2.1 F.2.1.1 2311 D.2.2.1 F.2.1.2 2315 D.6.3.4.4.1 F.2.1.2 2316 F.2.1.2 F.2.1.2 2323 D.8.11 F.2.3 2325 D.2.2.1 F.2.3 2326 F.2.1.1 F.2.3 2334 F.3.8 F.3.1
C a p í t u l o V I I I . A n e x o s
90
2336 F.3.10 F.3.1 2339 F.3.8 F.3.1 2343 F.3.5 F.3.2 2345 F.3.1 F.3.2 2346 F.3.2 F.3.2 2352 F.3.3 F.3.3 2356 D.2.4.1 F.3.3 2358 F.3.2 F.3.3 2362 D.7.6 F.3.5 2365 F.3.1 F.3.5 2366 F.3.2 F.3.5 2376 F.3.8 F.3.8 2378 F.3.2 F.3.8 2380 F.3.3 F.3.8 2393 F.3.10 F.3.10 2396 E.3.3.5 F.3.10 2403 D.7.5 F.4.1 2406 F.4.5 F.4.2 2413 F.4.12 F.4.2 2419 D.2.5 F.4.3 2421 F.4.1 F.4.3 2423 D.2.4.1 F.4.3 2429 D.8.12 F.4.4 2433 D.2.1 F.4.4 2436 F.4.1 F.4.5 2439 F.4.12 F.4.5 2440 E.3.4.5.5 F.4.5 2460 D.2.2.1 F.4.9 2461 D.2.4.1 F.4.9 2462 F.4.5 F.4.9 2467 F.4.4 F.4.12 2469 D.6.2.2 F.4.12 2474 F.4.13 F.4.12 2475 D.2.5 F.4.13 2478 F.4.5 F.4.13 2481 D.7.6 F.4.13 2495 F.4.5 F.4.15 2497 F.4.9 F.4.15 2503 D.3.1.1 F.4.15 2505 D.2.1 F.5.1.1 2507 F.5.1.1 F.5.1.1 2508 F.5.1.1 F.5.1.1 2517 F.5.2.1 F.5.2.1
C a p í t u l o V I I I . A n e x o s
91
2518 D.2.4.1 F.5.2.1 2524 F.5.2.1 F.5.2.1 2529 D.3.1.1 F.5.2.3 2530 F.5.2.1 F.5.2.3 2533 F.5.2.3 F.5.2.3 2540 G.5.2.2.1 G.5.2.2.1 2541 G.5.2.2.1 G.5.2.2.1 2542 G.5.2.2.3 G.5.2.2.1 2545 D.2.2.1 G.5.2.2.3 2551 G.3.2 G.5.2.2.3 2552 G.5.2.2.3 G.5.2.2.3 2558 G.5.2.2.1 G.5.2.2.5 2564 G.5.2.2.1 G.5.2.2.5 2565 G.5.2.2.3 G.5.2.2.6 2570 G.1.2.14 G.5.2.2.6 2572 J.5.2.1 G.5.2.2.6 2575 G.5.2.3.2 G.5.2.3.2 2577 G.5.2.3.2 G.5.2.3.2 2578 G.5.2.3.2 G.5.2.3.2 2586 D.3.1.1 F.5.4.1 2590 F.5.4.1 F.5.4.1 2593 F.5.4.3 F.5.4.1 2595 D.3.1.1 F.5.4.2 2596 D.2.4.1 F.5.4.2 2608 D.2.4.1 F.5.4.3 2609 D.2.4.1 F.5.4.3 2612 F.5.4.3 F.5.4.3 2624 D.7.5 F.5.10.1 2625 D.2.5 F.5.10.1 2632 F.5.10.5 F.5.10.1 2634 D.7.6 F.5.10.4 2635 F.5.10.1 F.5.10.4 2638 F.5.10.1 F.5.10.4 2645 F.5.10.5 F.5.10.5 2648 D.3.1.1 F.6.2 2649 F.6.2 F.6.2 2655 F.6.2 F.6.2 2658 F.6.2 F.6.6 2660 D.2.1 F.6.6 2666 D.2.1 F.6.6 2679 F.6.2 F.6.7 2684 F.6.2 F.6.7 2685 D.6.3.4.4.1 F.6.7
C a p í t u l o V I I I . A n e x o s
92
2690 F.7.1.7 F.7.1.7 2691 D.7.6 F.7.1.7 2695 D.8.12 F.7.1.7 2702 D.2.2.1 F.7.1.8 2719 F.7.1.16 F.7.1.16 2723 F.7.1.16 F.7.1.16 2727 D.6.3.4.4.1 F.7.3.4 2731 F.7.3.4 F.7.3.4 2734 E.2.3.9 F.7.3.4 2743 F.7.3.4 F.7.3.7 2745 F.7.3.7 F.7.3.7 2746 D.6.3.4.4.1 F.7.3.7 2748 F.7.3.8 F.7.3.8 2750 F.7.3.4 F.7.3.8 2752 D.7.6 F.7.3.8 2757 F.7.3.8 F.7.3.11 2758 F.7.3.11 F.7.3.11 2762 F.7.3.11 F.7.3.11 2767 D.6.3.4.4.1 F.8.1.1 2769 F.8.1.4 F.8.1.1 2776 D.7.6 F.8.1.1 2777 D.2.4.1 F.8.1.2 2778 F.8.1.5 F.8.1.2 2779 F.8.1.3 F.8.1.2 2791 D.6.3.4.4.2 F.8.1.3 2792 F.8.1.4 F.8.1.3 2796 F.8.1.3 F.8.1.3 2800 F.8.1.3 F.8.1.4 2805 D.2.5 F.8.1.4 2806 D.2.3 F.8.1.4 2811 F.8.1.2 F.8.1.5 2815 D.2.4.1 F.8.1.5 2816 F.8.1.3 F.8.1.5 2824 F.8.2.1 F.8.2.1 2828 F.8.2.1 F.8.2.2 2832 D.8.12 F.8.2.2 2836 F.8.2.1 F.8.2.2 2838 F.8.2.1 F.8.2.3 2841 F.8.2.1 F.8.2.3 2846 F.8.2.1 F.8.2.3 2848 D.2.4.1 F.8.3.1 2853 F.8.3.1 F.8.3.1 2855 F.8.3.5 F.8.3.1
C a p í t u l o V I I I . A n e x o s
93
2862 D.2.4.1 F.8.3.2 2863 F.8.3.2 F.8.3.2 2864 D.7.6 F.8.3.2 2869 D.2.2.1 F.8.3.3 2870 F.8.3.1 F.8.3.3 2878 D.2.4.1 F.8.3.4 2886 D.2.2.1 F.8.3.5 2893 D.2.1 F.8.3.5 2895 F.8.3.5 F.8.3.5 2908 D.2.4.1 F.8.3.7 2909 F.2.1.1 F.8.3.7 2910 D.7.6 F.8.3.7 2932 G.1.1.2 G.1.1.2 2933 G.1.1.4 G.1.1.2 2934 C.1.2.3 G.1.1.2 2940 G.1.1.3 G.1.1.3 2943 G.1.1.7 G.1.1.3 2945 D.2.4.1 G.1.1.3 2948 G.1.1.2 G.1.1.4 2960 G.1.1.4 G.1.1.7 2962 G.5.1.6 G.1.1.7 2963 G.1.1.3 G.1.1.7 2967 G.1.2.5 G.1.2.1 2973 D.2.4.1 G.1.2.1 2975 G.1.2.5 G.1.2.1 2976 D.2.4.1 G.1.2.2 2977 G.1.2.2 G.1.2.2 2980 G.1.2.2 G.1.2.2 2986 G.1.2.2 G.1.2.5 2988 D.6.2.2 G.1.2.5 2995 G.1.2.5 G.1.2.5 2999 D.2.2.1 G.1.2.6 3001 D.3.1.1 G.1.2.6 3005 G.1.2.2 G.1.2.6 3018 G.1.2.2 G.1.2.13 3020 L.3.4 G.1.2.13 3022 G.1.2.6 G.1.2.13 3026 G.1.2.14 G.1.2.14 3031 H.1.3.9.2 G.1.2.14 3032 G.1.2.6 G.1.2.14 3038 G.2.1.2 G.2.1.2 3045 G.2.4 G.2.1.2 3057 G.3.2 G.2.1.8.2
C a p í t u l o V I I I . A n e x o s
94
3059 G.2.1.8.2 G.2.1.8.2 3064 G.2.3.6 G.2.1.8.2 3068 G.2.3.5.3 G.2.3.5.3 3071 D.2.3 G.2.3.5.3 3073 G.2.3.5.3 G.2.3.5.4 3076 G.2.3.9 G.2.3.6 3078 G.2.3.5.3 G.2.3.6 3079 G.2.3.5.4 G.2.3.6 3086 D.7.7 G.2.3.7 3093 G.2.3.5.4 G.2.3.9 3094 D.2.1 G.2.3.9 3096 G.2.3.5.3 G.2.3.9 3104 G.2.5.1 G.2.4 3111 G.3.2 G.2.5.1 3112 D.2.2.1 G.2.5.1 3115 G.2.5.2 G.2.5.1 3118 G.2.5.10 G.2.5.2 3121 G.2.5.3.1 G.2.5.3.1 3125 G.2.5.2 G.2.5.4 3126 G.2.5.6 G.2.5.4 3129 D.7.7 G.2.5.4 3133 D.7.7 G.2.5.5 3142 D.2.2.1 G.2.5.8 3145 D.8.12 G.2.5.8 3146 G.2.5.2 G.2.5.8 3148 D.2.2.1 G.2.5.9 3153 D.2.4.1 G.2.5.9 3157 D.8.12 G.2.5.9 3160 A.2.5 G.2.5.10 3165 G.2.5.9 G.2.5.10 3166 D.2.3 G.2.5.10 3180 D.2.5 G.2.7 3181 G.2.5.4 G.2.7 3186 G.2.8 G.2.7 3192 D.2.2.1 G.2.8 3194 G.2.4 G.2.8 3196 G.2.4 G.2.8 3201 G.2.4 G.2.9 3204 D.8.11 G.2.9 3206 D.8.11 G.2.9 3209 D.8.5 G.3.2 3214 D.6.2.2 G.3.2 3216 D.6.3.4.4.1 G.3.2
C a p í t u l o V I I I . A n e x o s
95
3221 G.4.1 G.4.1 3224 G.4.1 G.4.1 3228 G.5.1.1 G.5.1.1 3233 D.8.5 G.5.1.1 3238 G.5.1.6 G.5.1.2 3241 G.5.1.1 G.5.1.2 3244 G.5.8 G.5.1.2 3248 D.6.3.4.4.1 G.5.1.3 3249 G.5.1.3 G.5.1.3 3251 D.2.4.1 G.5.1.3 3258 G.5.1.7 G.5.1.5 3259 G.5.1.3 G.5.1.5 3261 G.5.1.6 G.5.1.5 3270 E.1.1.3.2.1 G.5.1.6 3274 G.5.1.6 G.5.1.6 3276 D.2.2.1 G.5.1.6 3278 G.5.1.8 G.5.1.7 3280 G.5.8 G.5.1.7 3287 G.5.8 G.5.1.7 3288 D.7.6 G.5.1.8 3293 G.5.1.7 G.5.1.8 3297 G.5.1.9 G.5.1.8 3299 D.8.7 G.5.1.9 3305 G.5.1.6 G.5.1.9 3308 G.5.1.5 G.5.1.10 3311 G.5.1.10 G.5.1.10 3313 G.5.1.9 G.5.1.10 3372 G.5.3.3 G.5.3.1 3374 G.5.3.2 G.5.3.1 3376 H.1.1.4 G.5.3.1 3379 G.5.3.1 G.5.3.2 3380 G.5.3.2 G.5.3.2 3382 G.5.3.1 G.5.3.2 3390 G.5.3.3 G.5.3.3 3403 D.2.2.1 G.5.5.1 3407 D.8.11 G.5.5.1 3409 D.2.2.1 G.5.5.1 3415 G.5.1.6 G.5.6 3418 H.1.1.1 G.5.6 3425 G.5.8 G.5.7 3429 D.2.4.1 G.5.7 3438 D.8.11 G.5.8 3439 G.5.1.10 G.5.8
C a p í t u l o V I I I . A n e x o s
96
3441 D.8.11 G.5.8 3446 G.6.2.3 G.6.2.3 3449 D.8.7 G.6.2.3 3452 G.6.2.3 G.6.2.3 3455 H.1.1.1 H.1.1.1 3457 H.1.1.1 H.1.1.1 3459 H.1.1.4 H.1.1.1 3465 D.2.1 H.1.1.4 3468 H.1.1.1 H.1.1.4 3469 H.1.1.1 H.1.1.4 3487 D.2.1 H.1.2.2.2 3497 D.3.1.1 H.1.3.3.1 3500 H.1.3.9.2 H.1.3.3.1 3502 H.1.3.9.2 H.1.3.3.1 3503 D.8.7 H.1.3.3.3 3505 H.1.3.9.2 H.1.3.3.3 3509 H.1.3.9.2 H.1.3.3.3 3514 H.1.3.9.2 H.1.3.6 3520 H.1.3.9.2 H.1.3.6 3521 D.8.5 H.1.3.6 3558 C.1.2.2 H.1.5.1 3562 E.2.4.4 H.1.5.1 3563 H.1.5.1 H.1.5.4 3568 H.1.5.4 H.1.5.4 3571 D.7.6 H.1.5.4 3580 H.1.6.8 H.1.6.2 3583 D.7.6 H.1.6.8 3588 H.1.6.2 H.1.6.8 3589 H.1.6.2 H.1.6.8 3598 H.1.7.1 H.1.7.1 3600 E.3.4.3.1 H.1.7.1 3601 H.1.7.1 H.1.7.1 3613 H.1.7.3 H.1.7.3 3614 H.1.7.3 H.1.7.3 3620 H.1.7.3 H.1.7.3 3634 D.2.1 H.2.2.1.2 3639 H.2.2.1.2 H.2.2.1.2 3640 H.2.2.1.2 H.2.2.1.2 3651 H.2.2.1.2 H.2.2.1.3 3654 H.2.2.1.4 H.2.2.1.4 3656 H.2.2.1.4 H.2.2.1.4 3660 H.2.2.1.4 H.2.2.1.4 3685 H.2.4.3 H.2.4.3
C a p í t u l o V I I I . A n e x o s
97
3691 H.2.4.3 H.2.4.3 3692 H.2.4.3 H.2.4.3 3694 H.2.5.1 H.2.5.1 3699 H.2.5.1 H.2.5.1 3701 H.2.5.1 H.2.5.1 3703 L.2.1.3 L.2.1.3 3706 L.2.1.4 L.2.1.3 3708 L.2.1.3 L.2.1.3 3713 L.2.1.4 L.2.1.4 3719 L.2.1.4 L.2.1.4 3721 D.2.4.1 L.2.1.4 3724 J.3.3.7 J.3.3.7 3727 J.3.3.7 J.3.3.7 3729 J.3.3.8 J.3.3.7 3735 J.3.3.7 J.3.3.8 3737 J.3.3.8 J.3.3.8 3742 D.3.1.1 J.3.3.8 3760 H.3.4.3 H.3.4.2 3761 H.3.4.2 H.3.4.2 3763 D.2.2.1 H.3.4.3 3766 H.3.4.3 H.3.4.3 3771 H.3.4.3 H.3.4.3 3774 H.3.7.1 H.3.6 3779 D.3.1.1 H.3.6 3783 L.3.4 H.3.7.1 3784 H.3.7.1 H.3.7.1 3788 H.3.7.1 H.3.7.1 3804 D.2.1 H.3.8.4 3808 H.3.8.4 H.3.8.4 3811 D.2.4.1 H.3.8.4 3816 H.3.4.2 H.3.9 3821 D.6.2.2 H.3.9 3822 H.3.7.1 H.3.9 3825 H.4.1.5 H.4.1.5 3826 H.4.1.5 H.4.1.5 3828 H.4.1.5 H.4.1.5 3834 D.2.4.1 H.4.4.1.1 3837 H.4.4.1.1 H.4.4.1.1 3841 H.4.4.1.1 H.4.4.1.1 3849 H.4.4.1.1 H.4.4.1.5 3850 H.4.4.1.1 H.4.4.1.5 3852 D.8.11 H.4.4.1.5 3853 L.1 L.1.1.4.1
C a p í t u l o V I I I . A n e x o s
98
3856 L.1 L.1.1.4.1 3863 D.7.6 L.1.2.4.2 3868 D.2.1 L.1.2.4.2 3871 D.2.4.1 L.1.2.4.2 3873 L.1 L.1.3.4.3 3879 L.1 L.1.3.4.3 3881 D.7.6 L.1.3.4.3 3885 L.1 L.1.4.4.4 3891 L.1 L.1.4.4.4 3912 H.4.5.2 H.4.5.2 3916 H.4.5.2 H.4.5.2 3919 H.4.5.2 H.4.5.2 3924 H.5.1.8 H.5.1.3 3927 H.5.1.7 H.5.1.3 3931 H.5.1.3 H.5.1.3 3934 J.5.2.3 H.5.1.5 3937 H.5.1.5 H.5.1.5 3940 D.2.2.1 H.5.1.5 3944 H.5.1.3 H.5.1.7 3948 H.5.1.8 H.5.1.7 3949 H.5.1.7 H.5.1.7 3954 H.5.1.8 H.5.1.8 3955 H.5.1.8 H.5.1.8 3957 D.2.4.1 H.5.1.8 3972 H.5.5.1 H.5.5.1 3975 H.5.5.1 H.5.5.1 3981 D.7.7 H.5.5.1 3983 H.5.5.1 H.5.5.2 3987 H.5.5.2 H.5.5.2 3990 H.5.5.2 H.5.5.2 3995 H.5.5.4 H.5.5.3 4000 L.1 H.5.5.3 4006 D.7.7 H.5.5.4 4008 D.2.1 H.5.5.4 4022 D.2.4.1 H.5.6.2 4028 H.5.6.2 H.5.6.2 4030 D.2.3 H.5.6.2 4038 H.5.7.1 H.5.7.1 4040 H.5.7.1 H.5.7.1 4041 H.5.7.1 H.5.7.1 4051 H.5.7.1 H.5.7.3 4061 H.5.7.1 H.5.7.4 4062 D.7.5 H.5.8.2.3
C a p í t u l o V I I I . A n e x o s
99
4063 H.5.8.2.3 H.5.8.2.3 4070 H.5.8.2.3 H.5.8.2.3 4073 H.5.8.2.3 H.5.8.2.4 4076 H.5.8.2.3 H.5.8.2.4 4079 H.5.8.2.4 H.5.8.2.4 4086 I.1.2.2 I.1.2.2 4087 I.1.2.2 I.1.2.2 4090 I.1.2.2 I.1.2.2 4092 I.1.2.2 I.1.4 4095 I.1.2.2 I.1.4 4098 I.1.2.2 I.1.4 4117 I.3.2 I.3.2 4118 I.3.2 I.3.2 4123 D.8.11 I.3.2 4129 I.6.4 I.6.4 4130 I.6.4 I.6.4 4136 I.6.4 I.6.4 4152 I.9.4 I.9.4 4154 I.9.4 I.9.4 4156 I.9.4 I.9.4 4167 J.1.2.4 J.1.2.1 4174 D.2.1 J.1.2.1 4176 J.1.2.4 J.1.2.1 4179 D.8.11 J.1.2.2 4181 D.2.4.1 J.1.2.2 4182 J.1.2.2 J.1.2.2 4191 D.6.3.4.4.1 J.1.2.4 4194 J.1.2.2 J.1.2.4 4196 J.1.2.2 J.1.2.4 4212 J.1.2.7 J.1.2.6 4213 D.2.5 J.1.2.6 4216 J.1.2.6 J.1.2.6 4223 J.1.2.2 J.1.2.7 4225 D.7.7 J.1.2.7 4226 J.1.2.7 J.1.2.7 4227 J.1.3.1 J.1.3.1 4230 J.1.3.1 J.1.3.1 4231 F.1.1.2 J.1.3.1 4278 J.1.2.1 J.1.4 4282 D.2.3 J.1.4 4285 J.1.2.1 J.1.4 4290 J.1.5.1 J.1.5.1 4300 J.1.6.1 J.1.6.1
C a p í t u l o V I I I . A n e x o s
100
4301 J.1.6.1 J.1.6.1 4304 D.6.2.2 J.1.6.1 4307 J.1.2.1 J.1.7 4310 J.1.2.2 J.1.7 4315 J.1.7 J.1.7 4317 J.2.1.7 J.2.1.2 4319 J.2.1.2 J.2.1.2 4321 J.2.1.2 J.2.1.2 4328 J.2.1.7 J.2.1.7 4331 D.7.6 J.2.1.7 4333 J.2.1.7 J.2.1.7 4347 J.3.1.7 J.3.1.7 4354 J.3.1.7 J.3.1.7 4355 J.3.1.7 J.3.1.7 4379 J.5.2.1 J.5.2.1 4380 J.5.2.2 J.5.2.1 4393 J.5.2.2 J.5.2.2 4396 E.2.1.2.6 J.5.2.2 4401 J.5.2.3 J.5.2.3 4405 J.5.2.2 J.5.2.3 4421 D.2.4.1 K.1.1.2 4423 D.7.6 K.1.1.2 4424 D.2.4.1 K.1.1.2 4427 K.8 K.1.1.3 4430 D.8.5 K.1.1.3 4436 G.2.4 K.1.1.3 4444 D.2.4.1 K.1.1.10 4445 K.8 K.1.1.10 4452 K.8 K.1.1.11 4453 K.8 K.1.1.11 4456 D.6.3.4.4.1 K.1.1.11 4457 D.7.6 K.1.2.1 4463 D.7.5 K.1.2.1 4464 D.2.2.1 K.1.2.1 4468 B.3.5.1 K.1.3.4 4472 D.7.5 K.1.3.4 4474 K.8 K.1.3.4 4499 K.8 K.3.1.2 4503 D.7.7 K.3.1.2 4507 D.2.2.1 K.3.1.3 4508 D.2.4.1 K.3.1.3 4511 D.7.5 K.3.1.3 4518 K.8 K.3.1.4
C a p í t u l o V I I I . A n e x o s
101
4520 K.8 K.3.1.4 4522 D.6.2.2 K.3.1.4 4531 K.8 K.3.1.5 4532 K.8 K.3.1.5 4536 D.2.4.1 K.3.1.5 4551 K.8 K.3.1.8 4553 K.8 K.3.1.8 4556 K.8 K.3.1.8 4560 K.8 K.3.2.2 4561 D.7.6 K.3.2.2 4563 K.8 K.3.2.2 4571 K.8 K.3.2.3 4572 D.7.6 K.3.2.3 4575 D.2.2.1 K.3.2.3 4578 D.2.3 K.3.2.4 4581 D.7.6 K.3.2.4 4599 K.8 K.3.2.7 4602 D.2.4.1 K.3.2.7 4603 D.7.7 K.3.2.7 4608 D.7.7 K.3.2.8 4611 L.7.6 K.3.2.8 4614 K.8 K.3.2.8 4620 D.7.7 K.3.2.9 4624 K.8 K.3.2.9 4625 K.8 K.3.2.9 4633 D.2.3 K.3.2.10 4639 D.2.4.1 K.3.4.1 4640 K.8 K.3.4.1 4642 K.8 K.3.4.1 4652 D.7.7 K.3.4.2 4653 D.8.7 K.3.4.2 4655 D.2.2.1 K.3.4.2 4670 K.8 K.3.5.2 4671 D.7.7 K.3.5.2 4672 D.2.3 K.3.5.2 4678 K.8 K.3.5.3 4685 D.2.2.1 K.3.5.3 4686 K.8 K.3.5.3 4688 K.8 K.3.6.1 4690 D.2.3 K.3.6.1 4694 D.2.3 K.3.6.1 4699 K.8 K.3.7.1 4703 D.8.12 K.3.7.1
C a p í t u l o V I I I . A n e x o s
102
4704 D.2.4.1 K.3.7.1 4709 D.8.11 K.3.7.2 4710 D.2.4.1 K.3.7.2 4713 D.2.1 K.3.7.2 4718 K.8 K.3.7.4 4723 K.8 K.3.7.4 4724 K.8 K.3.7.4 4727 K.8 K.3.8.1.2 4731 K.8 K.3.8.1.2 4732 D.2.4.1 K.3.8.1.2 4740 K.8 K.3.8.1.4 4741 K.8 K.3.8.1.4 4746 K.8 K.3.8.1.4 4747 K.8 K.3.8.1.7 4750 K.8 K.3.8.1.7 4759 D.2.2.1 K.3.8.2.1 4762 D.2.3 K.3.8.2.1 4763 D.2.4.1 K.3.8.2.1 4768 K.8 K.3.8.2.2 4771 K.8 K.3.8.2.2 4772 L.11.3.4 K.3.8.2.2 4777 K.8 K.3.8.2.5 4778 K.8 K.3.8.2.5 4784 K.8 K.3.8.2.5 4788 K.8 K.3.8.2.6 4793 K.8 K.3.8.2.6 4794 K.8 K.3.8.2.6 4804 D.2.2.1 K.3.8.3.1 4806 K.8 K.3.8.3.1 4807 D.3.1.1 K.3.8.3.2 4808 K.8 K.3.8.3.2 4810 K.8 K.3.8.3.2 4820 K.8 K.3.8.3.3 4821 K.8 K.3.8.3.3 4826 D.7.6 K.3.8.3.3 4831 K.8 K.3.8.3.4 4833 D.2.2.1 K.3.8.3.4 4835 K.8 K.3.8.3.4 4838 K.8 K.3.8.4.1 4839 D.3.1.1 K.3.8.4.1 4843 K.8 K.3.8.4.1 4847 K.8 K.3.8.4.2 4849 K.8 K.3.8.4.2
C a p í t u l o V I I I . A n e x o s
103
4855 K.8 K.3.8.4.2 4871 D.8.11 K.3.8.4.4 4872 K.8 K.3.8.4.4 4875 K.8 K.3.8.4.4 4883 K.8 K.3.8.4.6 4884 K.8 K.3.8.4.6 4888 K.8 K.3.8.4.8 4893 D.7.5 K.3.8.4.8 4896 D.8.5 K.3.8.4.8 4897 D.7.6 K.3.8.4.9 4899 K.8 K.3.8.4.9 4903 D.7.5 K.3.8.4.9 4907 K.8 K.4.1.1.3 4912 D.2.4.1 K.4.1.1.3 4914 K.8 K.4.1.1.3 4943 K.8 K.4.3.1 4957 K.8 K.4.3.4.1 4958 K.8 K.4.3.4.1 4962 K.8 K.4.3.4.1 4972 K.8 K.4.3.7.4 4973 K.8 K.4.3.7.4 4975 D.6.2.2 K.4.3.7.4 4980 K.8 K.4.3.8 4983 D.7.6 K.4.3.8 4984 D.7.6 K.4.3.8 4989 D.7.7 K.4.3.9 4990 D.2.4.1 K.4.3.9 4996 D.7.6 K.4.3.9 5009 K.8 K.4.3.12 5013 D.2.5 K.4.3.12 5017 K.8 K.4.4.4 5022 D.7.6 K.4.4.4 5025 K.8 K.4.4.4 5027 K.8 K.5.1.1 5028 K.8 K.5.1.1 5034 D.2.3 K.5.1.1 5038 D.2.5 K.5.1.2 5039 D.7.6 K.5.1.2 5042 D.2.2.1 K.5.1.2 5051 D.7.7 K.5.2.1 5054 K.8 K.5.2.1 5056 K.8 K.5.2.1 5060 K.8 K.5.3.5
C a p í t u l o V I I I . A n e x o s
104
5062 K.8 K.5.3.5 5066 K.8 K.5.3.5 5068 K.8 K.5.3.7 5069 K.8 K.5.3.7 5074 D.2.4.1 K.5.3.7 5090 K.8 K.5.3.13 5112 K.8 K.5.3.17 5116 D.2.4.1 K.5.3.17 5117 D.7.7 K.5.3.17 5124 D.2.3 K.5.4.1 5127 D.2.5 K.5.4.1 5129 K.8 K.5.4.1 5132 D.7.6 K.5.4.2 5139 K.8 K.5.4.2 5140 K.8 K.5.4.2 5143 D.2.4.1 K.5.5 5145 K.8 K.5.5 5150 K.8 K.5.5 5189 D.6.3.4.4.1 K.6.2.1 5190 D.8.5 K.6.2.1 5193 K.8 K.6.2.2 5196 K.8 K.6.2.2 5199 K.8 K.6.2.2 5201 D.8.11 K.6.2.4 5204 K.8 K.6.2.4 5205 K.8 K.6.2.4 5215 D.2.4.1 K.6.2.5 5218 D.7.5 K.6.2.5 5219 K.8 K.6.2.5 5222 D.7.7 K.6.3.2 5224 K.8 K.6.3.2 5229 K.8 K.6.3.2 5231 K.8 K.6.3.3 5234 K.8 K.6.3.3 5237 K.8 K.6.3.3 5246 K.8 K.6.4.1 5247 D.8.11 K.6.4.1 5251 K.8 K.6.4.1 5273 K.8 K.6.4.4 5276 K.8 K.6.4.4 5280 K.8 K.6.4.4 5283 D.2.4.1 K.6.4.5 5286 K.8 K.6.4.5
C a p í t u l o V I I I . A n e x o s
105
5289 K.8 K.6.4.5 5305 K.8 K.6.5 5306 K.8 K.6.5 5311 K.8 K.6.5 5314 D.2.2.1 K.6.6.3 5315 K.8 K.6.6.3 5319 D.7.6 K.6.6.3 5322 D.7.7 K.6.6.4 5324 K.8 K.6.6.4 5331 K.8 K.6.6.4 5367 K.8 L.3.2 5369 D.7.5 L.3.2 5372 L.3.4 L.3.3 5373 L.3.6.1 L.3.3 5374 L.3.6.1 L.3.3 5385 L.3.4 L.3.4 5387 L.3.7 L.3.4 5391 L.3.4 L.3.4 5392 L.3.6.1 L.3.6.1 5394 L.3.6.1 L.3.6.1 5398 D.7.6 L.3.6.1 5402 L.3.2 L.3.7 5403 L.3.7 L.3.7 5411 D.8.5 L.3.7 5415 D.7.7 L.3.8 5416 L.3.6.1 L.3.8 5418 B.2.3 L.3.8 5422 L.4.3 L.4.3 5424 L.4.3 L.4.3 5425 L.4.3 L.4.3 5438 L.4.5 L.4.4 5440 D.7.7 L.4.4 5442 L.4.4 L.4.5 5447 L.4.3 L.4.5 5449 L.4.3 L.4.5 5464 L.5.2 L.5.2 5465 L.5.2 L.5.2 5467 D.7.7 L.5.2 5473 L.5.5 L.5.3 5479 L.5.5 L.5.3 5481 L.5.3 L.5.3 5485 L.5.3 L.5.4 5486 L.5.4 L.5.4
C a p í t u l o V I I I . A n e x o s
106
5489 D.6.3.4.4.2 L.5.4 5495 L.5.5 L.5.5 5496 L.5.5 L.5.5 5498 L.5.5 L.5.5 5506 E.2.4.12 L.7.1 5508 D.2.4.1 L.7.1 5509 L.7.4 L.7.1 5534 D.7.5 L.7.4 5538 L.7.4 L.7.4 5540 L.7.6 L.7.4 5543 D.2.2.1 L.7.6 5548 L.7.6 L.7.6 5550 D.8.7 L.7.6 5566 L.8.7.4 L.8.2 5567 D.2.4.1 L.8.2 5570 L.8.2 L.8.2 5572 L.8.7.1 L.8.4 5579 L.8.7.4 L.8.4 5581 L.8.7.1 L.8.7.1 5584 L.8.7.4 L.8.7.1 5585 L.5.2 L.8.7.1 5592 D.2.2.1 L.8.7.2 5599 L.7.4 L.8.7.2 5612 L.8.7.4 L.8.7.4 5614 L.8.7.4 L.8.7.4 5619 D.7.7 L.8.7.4 5622 L.9.2.2 L.9.1 5623 L.9.2.2 L.9.1 5630 D.2.1 L.9.1 5631 L.9.2.2 L.9.2.2 5636 L.9.2.2 L.9.2.2 5639 L.9.2.2 L.9.2.2 5641 L.9.2.2 L.9.3 5648 L.9.2.2 L.9.3 5651 L.9.2.2 L.9.7 5656 L.5.5 L.9.7 5674 L.10.2 L.10.2 5679 L.10.2 L.10.2 5686 L.10.2 L.10.4 5689 L.10.2 L.10.4 5696 L.10.2 L.10.6 5697 D.8.11 L.10.6 5714 L.10.2 L.10.8
C a p í t u l o V I I I . A n e x o s
107
5718 D.2.4.1 L.10.8 5719 L.10.2 L.10.8 5723 D.3.1.1 L.11.2.1 5727 L.11.2.2 L.11.2.1 5729 D.8.12 L.11.2.1 5734 D.2.1 L.11.2.2 5742 L.11.3.4 L.11.3.1 5743 L.11.3.4 L.11.3.1 5744 L.11.3.4 L.11.3.1 5746 L.11.3.4 L.11.3.2 5750 L.11.3.4 L.11.3.2 5754 D.7.7 L.11.3.2 5756 L.11.3.2 L.11.3.3 5760 L.11.3.2 L.11.3.3 5763 L.11.3.1 L.11.3.3 5771 L.11.3.1 L.11.3.4 5772 L.11.3.4 L.11.3.4 5777 L.11.4.6 L.11.4.3 5780 D.2.2.1 L.11.4.3 5781 L.11.4.7 L.11.4.3 5795 D.7.7 L.11.4.6 5800 L.11.4.3 L.11.4.6 5802 L.11.4.6 L.11.4.6 5806 D.2.4.1 L.11.4.7 5807 L.11.4.6 L.11.4.7 5812 D.8.7 L.11.4.7
Tabla 21. Clases de los objetos de conocimiento obtenidas a través del clasificador SVM+Resumen+Bigramas y clases a las que pertenecen los objetos de conocimiento en la librería digital de la ACM
CAPITULO IX Referencias
C a p í t u l o I X . R e f e r e n c i a s
109
9. Referencias Alsaleem, S. (2011). Automated Arabic Text Categorization Using SVM and NB. International Arab
Journal of e-Technology, Vol. 2, No. 2.
Ass, K., & Eikvil, L. (1999). Text categorization: A survey. Technical Report. Norwegian Computing
Center.
Association for Computing Machinery (ACM). (s.f.). The 2012 ACM Computing Classification
System. Recuperado el 18 de 10 de 2013, de http://www.acm.org/about/class/2012
Barrasa, J., Corcho, Ó., & Gómez-Pérez, A. (2004). R2O, an Extensible and Semantically Based
Database-to-ontology Mapping Language. Proceedings of the 2nd Workshop on Semantic
Web and Databases, 1069-1070.
Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python. O'Reilly Media, Inc.
Bordons, M., & Gómez, I. (2004). Towards a single language in science? A Spanish view. Serials
17(2), 189-195.
Bruce, D. (1972). Purposeful Writing. Addison-Wesley publishing company.
Bui, D., Redd, D., & Zeng-Treitler, Q. (2012). An Ensemble Approach for Expanding Queries.
Twenty-First Text REtrieval Conference.
Burges, C. (1998). A tutorial on Support Vector Machines for pattern recognition. Data Mining and
Knowledge Discovery, 121-167.
Carreras, X., Chao, I., Padró, L., & Padró, M. (2004). Freeling: An open-source suite of language
analyzers. Proceedings of the 4th International Conference on Language Resources and
Evaluation (LREC'04).
Chang, H.-C. (2005). Using Topic Keyword Clusters for Automatic Document Clustering. IEICE -
Transactions on Information and Systems.
Clancey, W. (1984). Classification problem solving. Technical Report. Classification problem solving
.
Combinatorial algorithms - ACM DL. (s.f.). Combinatorial algorithms - ACM Digital Library.
Recuperado el 21 de 05 de 2014, de ACM Digital Library:
http://dl.acm.org/ccs.cfm?id=10003628&lid=0.10002950.10003624.10003625.10003628
Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on
Information Theory V. 13 I. 1, 21-27.
C a p í t u l o I X . R e f e r e n c i a s
110
Duda, R., & Hart, P. (1973). Pattern and classfication and scene analysis. John Wiley & Sons
Canada.
Figuerola, C., Alonso Berrocal, J., Zazo Rodríguez, Á., & Mateos, M. (2008). REINA at WebCLEF
2008. Cross-Language System Evaluation Campaign, CLEF 2008.
González Franco, N. (2012). Sistema de Recomendación Contextual Basado en Ontologías para
Ambientes Organizacionales y de Usuario en Entornos de Cómputo Móvil.
Gorunescu, F. (2011). Data Mining: Concepts, Models and Techniques. Springer.
Guber, T. (1995). Towards principles for the design of ontologies used for knowledge sharing.
Kluwer Academic Publishers.
Guo, G., Li, S., & Chan, K. (2000). Face Recognition by Support Vector Machines. Proceedings of the
Fourth IEEE International Conference on Automatic Face and Gesture Recognition 2000,
196-201.
Heng Wana, C., Hong Leeb, L., & Rajkumarb, R. (2012). A hybrid text classification approach with
low dependency on parameter by integrating K-nearest neighbor and support vector
machine. Expert Systems with Applications. V 39.
Henzinger, M. (2004). The past, present and future of web information retrieval. Proceedings of
the 23th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, 46.
Hepp, M., De Leenheer, P., De Moor, A., & Sure, Y. (2007). Ontology management: semantic web,
semantic web services, and business applications.
Hernández, J., Ramírez, J., & Ferri, C. (2004). Introducción a la minería de Datos. Prentice Hall,
Pearson Educación, S.A.
ISO/IEC 8859-1:1998. (s.f.). Recuperado el 11 de 03 de 2014, de ISO/IEC 8859-1:1998 - Information
technology -- 8-bit single-byte coded graphic character sets -- Part 1: Latin alphabet No. 1:
http://www.iso.org/iso/catalogue_detail?csnumber=28245
Jain, T., & Aggarwal, D. (2009). Basic Statistics for BBA. FK Publications.
Jansen, B., & Spink, A. (2009). Handbook of Research on Web Log Analysis. IGI Global Snippet.
Joachims, T. (1998). Text Categorization with Support Vector Machines: Learning with Many
Relevant Features. Lecture Notes In Computer Science, Proceedings 10th, 137-142.
Kongovi, M., Guzman, J., & Dasigi, V. (2002). Text Categorization: An Experiment Using Phrases.
Advances in Information Retrieval. 24th BCS-IRSG European Colloquium on IR Research
Glasgow, UK, March 25–27, 2002 Proceedings, 213-228.
C a p í t u l o I X . R e f e r e n c i a s
111
Lewis, D. (1991). Evaluating text categorization. Proceedings of Speech and Natural Language
Workshop, 312-318.
Lewis, D. (1998). Naive (Bayes) at Forty: The Independence Assumption in Information Retrieval.
Proceedings of the 10th European Conference on Machine Learning, 4-15.
Li, Y. (2007). Text document clustering based on frequent word meaning sequences. Elsevier
Science Publishers B. V.
Lipinski, M., Yao, K., Breitinger, C., Beel, J., & Gipp, B. (2013). Evaluation of header metadata
extraction approaches and tools for scientific PDF documents. Proceedings of the 13th
ACM/IEEE-CS joint conference on Digital libraries.
Liu, Z., Lv, X., Liu, K., & Shi, S. (2010). Study on SVM Compared with the other Text Classification
Methods. Education Technology and Computer Science (ETCS), 2010 Second International
Workshop on V1, 219-222.
Lo, R.-W., He, B., & Ounis, I. (2005). Automatically Building a Stopword List for an Information
Retrieval System. Proceedings of the Fifth Dutch-Belgian Information Retrieval Workshop.
DIR’5, 17-24.
Loper, E., & Bird, S. (2002). Nltk: The natural language toolkit. Proceedings of the ACL Workshop on
Effective Tools and Methodologies for Teaching Natural Language Processing and
Computational Linguistics, 63-70.
Lopez, P. (2009). GROBID: Combining Automatic Bibliographic Data Recognition and Term
Extraction for Scholarship Publications. Proceedings of the 13th European Conference on
Digital Library (ECDL).
Lovins, J. (1968). Development of a Stemming Algorithm. Mechanical Translation and
Computational Linguistics, 22-31.
Mitchell, T. (1997). Machine Learning. McGraw Hill.
Munguía Aguilar, E. (2012). Poblado Semiautomático de Ontologías Organizacionales a Partir de
Análisis de Contenido Web.
Nandanwar, S., & Narasimha Murty, M. (2012). A Regularized Linear Classifier for Effective Text
Classification. Neural Information Processing: Lecture Notes in Computer Science.
Paice, C. D. (1990). Another stemmer. SIGIR Forum, 56-61.
Pirzadeh, H., Hamou-Lhadj, A., & Shah, M. (2011). Exploiting text mining techniques in the analysis
of execution traces. Software Maintenance (ICSM), 2011 27th IEEE International
Conference on, 223-232.
C a p í t u l o I X . R e f e r e n c i a s
112
Porter, M. F. (1980). An algorithm for suffix stripping. Program: electronic library and information
systems, Vol. 14, 130-137.
Quinlan, J. (1986). Induction of decision trees. Machine Learning, 81-106.
Ramakrishnan, C., Patnia, A., Hovy, E., & Burns, G. (2012). Layout-Aware Text Extraction from Full-
text PDF of Scientific Articles. Source Code for Biology and Medicine 7.
Ranzato, M., Taylor, P., House, J., Flagan, R., LeCun, Y., & Perona, P. (2007). Automatic recognition
of biological particles in microscopic images. Pattern Recogn. Lett., 31-39.
Santos, A. P., & Rodrigues, F. (2009). Multi-label Hierarchical Text Classification using the ACM
Taxonomy. Progress in Artificial Intelligence. 14th Portuguese Conference on Artificial
Intelligence, EPIA 2009.
Sebastiani, F. (2002). Machine learning in automated text categorization. ACM Computing Surveys,
34 (1), 1-47.
Sebastiani, F. (2006). Classification of text, automatic. The Encyclopedia of Language and
Linguistics, vol. 2, second ed., 457–463.
Shannon, C. (1948). A mathematical theory of communication. Bell System Technical Journal, vol.
27, 379-423.
Tie-Yan, L., Yang, Y., Hao, W., Hua-Jun, Z., Zheng, C., & Wei-Ying, M. (2005). Support Vector
Machines Classification with A Very Large-scale Taxonomy. ACM SIGKDD Explorations
Newsletter - Natural language processing and text mining, 36-43.
Tong, S., & Koller, D. (2002). Support vector machine active learning with applications to text
classification. J. Mach. Learn. Res., 45-66.
Unni, M., & K., B. (2012). Ontology based Semantic Querying of the Web using Protégé.
International Journal of Computer Applications.
Vapnik, V. (1995). The nature of statistical learning theory. Springer-Verlag New York, Inc.
Weston, J., & Watkins, C. (1999). Support Vector Machines for Multi-Class Pattern Recognition.
Proceedings of the 6th European Symposium on Artificial Neural Networks, 219-224.
Yong-feng, S., & Yan-ping, Z. (2004). Comparison of Text Categorization Algorithms. Wuhan
University Journal of Natural Sciences.
Zahedi, M., & Ghanbari Sorkhi, A. (2013). Improving Text Classification Performance Using PCA and
Recall-Precision Criteria. Arabian Journal for Science and Engineering.