clasificación automática de objetos de conocimiento con contenido no estructurado para el poblado...

cnológico

Centro Nacional de Investigación y Desarrollo Tecnológico

Subdirección Académica

Cuernavaca, Morelos, México. Julio de 2014.

Departamento de Ciencias Computacionales

TESIS DE MAESTRÍA EN CIENCIAS

Clasificación Automática de Objetos de Conocimiento

con Contenido No Estructurado Para el Poblado Semiautomático de Ontologías Multidimensionales

presentada por

Ing. Juan Carlos Rendón Miranda

como requisito para la obtención del grado de Maestro en Ciencias de la Computación

Director de tesis Dr. Juan Gabriel González Serna

Codirectora de tesis

Dra. Azucena Montes Rendón

P á g i n a | i

i

P á g i n a | ii

ii

P á g i n a | iii

iii

Dedicatorias

A mis padres, sin ellos nada

A mis hermanos y hermanas, por su apoyo y experiencias

A mis sobrinas, porque las quiero ver triunfar en la vida

A mis tíos y demás familia, por el apoyo y los buenos momentos

A mis amigos, por invitarme a divertirme y ayudarme cuando lo necesité

P á g i n a | iv

iv

Agradecimientos

A mis directores de tesis, el Dr. Juan Gabriel y la Dra. Azucena, por ser guía y

apoyo incondicional para la realización de esta investigación y porque nunca

dejaron de creer en mí.

A mis revisores de tesis: Dr. Noé Alejandro Castro Sánchez, Dr. Máximo López

Sánchez y Dr. David Eduardo Pinto Avendaño, por su invaluable tiempo y

comentarios dedicados en la revisión de mi trabajo.

A los profesores que conocí como alumno de CENIDET, por sus enseñanzas.

A mis compañeros de generación Julia e Hiram, por ser parte de mi formación y

con quien compartí retos y éxitos.

A mi familia por ser mi base fundamental y que me ha apoyado con las

decisiones que he tomado durante la maestría.

A mis amigos que me apoyaron, comprendieron y con quienes he compartido

muy buenos momentos, en especial a H., N., M., T., Z. y O.

A todas las demás personas que fueron parte de mi formación y de este

proyecto, sin las cuales no hubiera sido lo mismo.

Al Centro Nacional de investigación y Desarrollo Tecnológico (CENIDET) por

darme la oportunidad de formarme dentro de sus aulas.

Al Consejo Nacional de Ciencia y Tecnología (CONACYT) por el apoyo económico

brindado durante mis estudios de maestría.

P á g i n a | v

v

Resumen

Hoy en día la cantidad de conocimiento generado de manera digital es considerable en

cuanto a la cantidad de objetos de conocimiento disponibles, en específico de artículos

científicos.

La mayoría de los artículos científicos utilizan el PDF para ser distribuidos. La

variedad de plantillas en los que se publican los artículos científicos complica la tarea

de extracción secuencial del texto de forma manual, pues si no se tiene cuidado en la

selección del texto, se podría extraer texto sin una secuencia correcta y sin sentido.

Realizar la extracción de forma semiautomática o automática resulta una tarea más

compleja.

La clasificación de tales objetos de conocimiento de forma manual con base en el

dominio de su contenido y utilizando las clases definidas en una taxonomía, requiere

de tantos expertos como dominios de conocimientos en los que se desee clasificar, el

salario de los expertos y además tiempo para realizar la clasificación de cada objeto de

conocimiento.

Cuando el poblado ontológico se realiza de manera manual, esta tarea conlleva tiempo

y presenta una desventaja para instanciar múltiples elementos rápidamente.

Hoy en día existen herramientas que realizan las tareas antes mencionadas de manera

semiautomática o automática, pero de manera separada.

Realizar la extracción, clasificación y el poblado ontológico a partir de objetos de

conocimiento en PDF de forma manual, resulta una tarea que consume mucho tiempo

cuando se requiere procesar múltiples objetos, en un menor tiempo.

En el presente trabajo de investigación se analizaron las técnicas existentes para

realizar la extracción secuencial del texto y la identificación de características del

texto a partir de un artículo científico en PDF.

También se analizaron algunos algoritmos de clasificación de textos, identificados a

partir del estado del arte, con los cuales se implementaron diversas variaciones del

clasificador, dichas variaciones del clasificador fueron probadas con un corpus

formado manualmente y la taxonomía de la ACM, a partir de la librería de la ACM. De

las ocho variaciones del clasificador, a través de los resultados obtenidos en las

pruebas se pudo concluir cual variación arrojaba las mejores métricas.

P á g i n a | vi

vi

Además se identificó la lógica para realizar el poblado de una ontología que modela a

los artículos científicos, las clases en las que pueden estar clasificados y los autores de

los artículos.

A partir del análisis previo se generó un mecanismo el cual implementa de forma

unificada la extracción automática de texto, clasificación automática y el poblado

ontológico semiautomático a partir de textos no estructurados en PDF.

Al mecanismo que se realizó, se le diseñó una interfaz web que permite seleccionar un

artículo científico en PDF y de forma automática se extrae el texto del artículo, se

identifican algunas secciones del articulo como por ejemplo, el título, los autores, las

palabras clave y el resumen; se realiza la clasificación automática del articulo con base

en la taxonomía de la ACM y finalmente se realiza el poblado ontológico

semiautomático con los elementos del articulo obtenidos en la extracción y la clase

obtenida en el clasificador.

El presente trabajo puede tomarse como base para realizar la clasificación de objetos

de conocimiento de otros dominios.

P á g i n a | vii

vii

Abstract

The amount of knowledge digitally generated nowadays is substantially based on the

quantity of knowledge objects available: research papers, specifically.

Most of the research papers are distributed in a PDF. The wide range of papers style

complicates the task of manual sequential extraction from a text. Furthermore what is

more important, if it is not followed the appropriate procedure of selecting the text to

extract may not follow a sequence or may have no meaning at all. Extracting a text

automatically or semi automatically becomes a more complex task.

Classifying knowledge objects manually, based on the content domain and using

defined taxonomies require as many experts as domains of knowledge to classify

them, also their wages and time to perform the classification of every single

knowledge object too.

When the ontology population is manually done, this task requires too much time and

it presents a disadvantage when trying to instantiate several elements rapidly, at the

same time.

These days, there are tools that are able to perform the text extraction, classification

and ontology population in an automatic or semi-automatic way.

Performing the extraction, classification and ontology population manually using

knowledge objects in PDF is a complex task when it is required processing several

objects in a minor time.

Several existing techniques were analyzed in this research in order to extract

sequential text and to identify text characteristics using a research paper in PDF.

Some text classifying algorithms were also analyzed. These algorithms were identified

based on the state of the art and by using these algorithms we were able to implement

several classifier variations that were tested with a research paper corpus manually

selected from the ACM digital library and the ACM taxonomy. From the eight classifier

variations we selected the one with the best results.

The logic to build up the population of an ontology that models the research paper, the

classes were the papers belong and the paper authors was identified.

A mechanism was developed from the previous analysis that implements the

automatic extraction, the automatic classification and semi-automatic ontology

population from non-structured text in PDF.

P á g i n a | viii

viii

Consequently, a Web interface was built up for the previous mechanism that allows

the user to pick a research paper in PDF. In the first stage it extracts the paper text

automatically, identifying some paper sections such as title, authors, keywords and

the abstract, then with the extracted information the paper classification is performed

using the ACM taxonomy and finally this paper is instantiated in the ontology.

This research can be used to perform classification of knowledge objects in several

knowledge domains.

P á g i n a | ix

ix

1 Índice 1. Introducción ................................................................................................................................ 2

1.1. Antecedentes ...................................................................................................................... 4

1.2. Planteamiento del problema .............................................................................................. 5

1.3. Objetivos ............................................................................................................................. 6

1.3.1. Objetivos específicos ................................................................................................... 6

1.4. Justificación ......................................................................................................................... 6

1.5. Beneficios ............................................................................................................................ 7

1.6. Estructura del documento................................................................................................... 8

2. Fundamento teórico .................................................................................................................. 10

2.1. Ontología ........................................................................................................................... 10

2.2. Taxonomía ......................................................................................................................... 10

2.3. Taxonomía de la ACM ....................................................................................................... 10

2.4. NLTK .................................................................................................................................. 11

2.5. Aprendizaje automático .................................................................................................... 12

2.6. Clasificación ....................................................................................................................... 12

2.7. Clasificación automática de textos .................................................................................... 13

2.8. Representación de los documentos .................................................................................. 14

2.9. Pre-procesamiento del texto ............................................................................................ 15

2.9.1. Normalización de términos ....................................................................................... 16

2.9.2. Eliminación de stopwords ......................................................................................... 17

2.9.3. Identificación de familias léxicas ............................................................................... 17

2.9.4. Segmentación ............................................................................................................ 18

2.9.5. Vectorización ............................................................................................................. 18

2.10. Métricas de evaluación ................................................................................................. 19

2.11. Algoritmos de clasificación ............................................................................................ 20

2.11.1. Naive Bayes ............................................................................................................... 21

2.11.2. Máquinas de vectores de soporte ............................................................................. 23

2.11.3. Arboles de decisión ................................................................................................... 25

2.11.4. k-nearest neighbors .................................................................................................. 26

3. Estado del arte .......................................................................................................................... 29

P á g i n a | x

x

3.1. Layout-aware text extraction from full-text PDF of scientific articles (Ramakrishnan,

Patnia, Hovy, & Burns, 2012) ........................................................................................................ 29

3.2. GROBID: Combining Automatic Bibliographic Data Recognition and Term Extraction for

Scholarship Publications (Lopez, 2009) ......................................................................................... 30

3.3. Evaluation of header metadata extraction approaches and tools for scientific PDF

documents (Lipinski, Yao, Breitinger, Beel, & Gipp, 2013) ........................................................... 31

3.4. Comparison of Text Categorization Algorithms (Yong-feng & Yan-ping, 2004) ................ 32

3.5. A Regularized Linear Classifier for Effective Text Classification (Nandanwar & Narasimha

Murty, 2012) ................................................................................................................................. 33

3.6. A hybrid text classification approach with low dependency on parameter by integrating

K-nearest neighbor and support vector machine (Heng Wana, Hong Leeb, & Rajkumarb, 2012) 34

3.7. Multi-label Hierarchical Text Classification using the ACM Taxonomy (Santos &

Rodrigues, 2009) ........................................................................................................................... 35

3.8. Support Vector Machines classification with a very large-scale taxonomy (Tie-Yan, Yang,

Hao, Hua-Jun, Zheng, & Wei-Ying, 2005) ...................................................................................... 36

3.9. Automated Arabic Text Categorization Using SVM and NB (Alsaleem, 2011) .................. 36

3.10. Tabla comparativa ......................................................................................................... 38

4. Metodología de solución para la extracción automática de información, clasificación

automática y poblado ontológico semiautomático de textos no estructurados en PDF ................. 41

4.1. Describiendo la metodología ............................................................................................ 42

4.1.1. Etapa 1. Extracción .................................................................................................... 42

4.1.2. Etapa 2. Clasificación ................................................................................................. 43

4.1.3. Etapa 3. Poblado ontológico ..................................................................................... 46

5. Implementación de la metodología de solución ....................................................................... 49

5.1. Formación del corpus ........................................................................................................ 51

5.1.1. Extracción .................................................................................................................. 54

5.1.2. División del corpus para obtener el conjunto de entrenamiento y el conjunto de

pruebas 55

5.2. Pre-procesamiento del conjunto de entrenamiento y representación vectorial ............. 56

5.3. Entrenamiento .................................................................................................................. 56

5.4. Pre-procesamiento del texto a clasificar y representación vectorial ................................ 58

5.5. Clasificador y texto clasificado .......................................................................................... 58

5.5.1. Variaciones del clasificador ....................................................................................... 58

P á g i n a | xi

xi

5.6. Poblado ontológico ........................................................................................................... 59

5.7. Planeación de las pruebas ................................................................................................. 60

6. Pruebas y resultados ................................................................................................................. 62

6.1. Resultados de las variaciones del clasificador .................................................................. 62

6.1.1. Bayes + Texto completo + Bigramas ......................................................................... 62

6.1.2. SVM + Texto completo + Bigramas ........................................................................... 62

6.1.3. Bayes + Resumen + Bigramas .................................................................................... 63

6.1.4. SVM + Resumen + Bigramas ...................................................................................... 64

6.1.5. Bayes + Texto completo + Unigramas ....................................................................... 64

6.1.6. SVM + Texto completo + Unigramas ......................................................................... 65

6.1.7. Bayes + Resumen + Unigramas ................................................................................. 65

6.1.8. SVM + Resumen + Unigramas ................................................................................... 66

6.2. Análisis de los resultados de las variaciones del clasificador ............................................ 67

7. Conclusiones.............................................................................................................................. 70

7.1. Hipótesis ............................................................................................................................ 70

7.2. Comprobación de la hipótesis ........................................................................................... 71

7.3. Conclusiones finales .......................................................................................................... 72

7.4. Aportaciones ..................................................................................................................... 73

7.4.1. Interfaz web para la implementación de la metodología ......................................... 73

7.5. Trabajos futuros ................................................................................................................ 74

8. Anexos ....................................................................................................................................... 76

8.1. Anexo 1. Resultados del clasificador SVM+Resumen+Bigramas ....................................... 76

9. Bibliografía .............................................................................................................................. 109

P á g i n a | xii

xii

2 Índice de Figuras Figura 1. Representación básica de la taxonomía de la ACM. Los cuadros azules representan las

clases finales a las que puede ser clasificado un objeto de conocimiento ....................................... 11

Figura 2. Los vectores de soporte están sobre las líneas punteadas. A través de un hiperplano h

identificado por SVM se puede separar los elementos positivos de los negativos a través de un

margen máximo ................................................................................................................................ 24

Figura 3. Árbol de decisión sencillo (Quinlan, 1986) ......................................................................... 25

Figura 4. Metodología de solución propuesta .................................................................................. 41

Figura 5. Esquema para la construcción y pruebas de un clasificador.............................................. 45

Figura 7. Vista parcial de la tabla taxonomia_acm, la cual modela la taxonomía de la ACM ........... 52

Figura 8. Captura de pantalla de una clase final de la librería online de la ACM (Combinatorial

algorithms - ACM DL) ........................................................................................................................ 53

Figura 9. Vista parcial de la tabla tesis_papers en la que se almacenaron los datos de los artículos

recuperados en la formación del corpus .......................................................................................... 54

Figura 10. Captura de pantalla de la página principal de la herramienta construida con interfaz web

........................................................................................................................................................... 73

Figura 11. Captura de pantalla de la página del resultado del procesamiento de la herramienta

construida con interfaz web .............................................................................................................. 74

P á g i n a | xiii

xiii

3 Índice de Tablas Tabla 1. Stopwords en inglés, incluidas en NLTK .............................................................................. 15

Tabla 2. Vocales en minúsculas del alfabeto inglés con acento derecho escrito y su codificación en

ISO8859-1 (ISO/IEC 8859-1:1998) ..................................................................................................... 16

Tabla 3. Resultado de la vectorización de un texto .......................................................................... 19

Tabla 4. Comportamiento de un sistema de clasificación automática de textos, según los aciertos y

errores ............................................................................................................................................... 20

Tabla 5. Comparativa de los trabajos relacionados .......................................................................... 39

Tabla 6. Reglas de selección por clase de las publicaciones para formar los conjuntos de

entrenamiento y pruebas .................................................................................................................. 55

Tabla 7. Representación de las listas de palabras iniciales y finales, asociadas a cada clase ........... 57

Tabla 8. Combinación de los algoritmos de clasificación y las características de los artículos

científicos .......................................................................................................................................... 59

Tabla 9. Combinación de los algoritmos de clasificación con las características de los artículos

científicos y los enfoques de selección de n-gramas ........................................................................ 59

Tabla 10. Resultados de las pruebas con la variación del clasificador: Bayes + Texto completo +

Bigramas ............................................................................................................................................ 62

Tabla 11. Resultados de las pruebas con la variación del clasificador: SVM + Texto completo +

Bigramas ............................................................................................................................................ 63

Tabla 12. Resultados de las pruebas con la variación del clasificador: Bayes + Resumen + Bigramas

........................................................................................................................................................... 63

Tabla 13. Resultados de las pruebas con la variación del clasificador: SVM + Resumen + Bigramas 64

Tabla 14. Resultados de las pruebas con la variación del clasificador: Bayes + Texto completo +

Unigramas ......................................................................................................................................... 65

Tabla 15. Resultados de las pruebas con la variación del clasificador: SVM + Texto completo +

Unigramas ......................................................................................................................................... 65

Tabla 16. Resultados de las pruebas con la variación del clasificador: Bayes + Resumen +

Unigramas ......................................................................................................................................... 66

Tabla 17. Resultados de las pruebas con la variación del clasificador: SVM + Resumen + Unigramas

........................................................................................................................................................... 66

Tabla 18. Promedios de los resultados de las pruebas de las ocho variaciones del clasificador ...... 67

Tabla 19. Resultados de la clasificación con la variación del ultimo nivel ........................................ 72

Tabla 20. Comparativa de los resultados promedios de la variación del clasificador que arrojó las

mejores puntuaciones y de los obtenidos en la comprobación de la hipótesis ............................... 72

Tabla 21. Clases de los objetos de conocimiento obtenidas a través del clasificador

SVM+Resumen+Bigramas y clases a las que pertenecen los objetos de conocimiento en la librería

digital de la ACM ............................................................................................................................. 107

CAPITULO I Introducción

C a p í t u l o I . I n t r o d u c c i ó n

2

1. Introducción Por naturaleza, los seres humanos han utilizado diferentes formas de expresión,

incluida la escritura, de la cual se han servido para expresar sus pensamientos, deseos,

conocimientos, etc. Con los avances tecnológicos el acervo de objetos de conocimiento

en formato texto ha pasado a ser de manera digital y la cantidad de información

disponible aumenta cada día.

Durante la última década, la generación y distribución de los documentos ha pasado a

ser en formato digital, de ahí que la mayoría de las publicaciones científicas estén en

texto PDF (Ramakrishnan, Patnia, Hovy, & Burns, 2012) dado a la aceptación global

que este formato ha tenido, gracias a que sin depender tanto del sistema operativo, se

puedan visualizar correctamente los documentos. Sin embargo la falta de una

estructura estandarizada dificulta la extracción de información de los artículos

científicos.

En la mayoría de las organizaciones, la producción de información comienza a

generarse sin tener una organización uniforme de los documentos desde el principio y

cuando la colección de conocimiento ya es significativa se identifica la dificultad del

manejo y la recuperación de la información relevante, para lo cual se requiere de una

organización de los documentos.

La organización de los documentos ayuda a aprovechar la información contenida

dentro de los objetos de conocimiento y eso se puede dar a través de una clasificación

de acuerdo al dominio del contenido de los objetos de conocimiento, esto para ayudar

a la recuperación de información relevante cuando se requiera.

Con los avances tecnológicos, la producción, distribución y el acceso digital a la

información se ha incrementado con los esfuerzos de estandarizar el idioma en el que

están escritos los documentos. La mayoría de los artículos científicos se encuentran

escritos en idioma inglés (Bordons & Gómez, 2004).

La minería de textos ha creado diferentes líneas de investigación para el tratamiento

automático de textos con la finalidad de mejorar la extracción, recuperación

(Henzinger, 2004) y clasificación automática de textos (Sebastiani, Classification of

text, automatic, 2006).

La clasificación de textos es una tarea que ayuda a la organización de información a

través de clases descriptivas, por ejemplo: en el sentido de opinión, atribución de

autoría de un texto (Bruce, 1972), o con base en el dominio de conocimiento de los

textos (Sebastiani, Machine learning in automated text categorization, 2002).


3

Con el paso de los años, la clasificación de textos ha pasado de ser manual a enfoques

semiautomáticos o automáticos, mejorando la precisión de la clasificación, reduciendo

tiempos de aprendizaje y clasificación, además de disminuir los costos del proceso de

clasificar textos.

En este documento hablaremos sobre la problemática y solución de la extracción de

información a partir de documentos de texto con contenido no estructurado, para ser

clasificados con base en el dominio de conocimiento de su contenido utilizando una

taxonomía.

En la línea de Sistemas Distribuidos del departamento de Ciencias Computacionales,

dentro del Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET), se

desarrolló un conjunto de ontologías, las que permiten modelar los recursos y

servicios de una organización, adicionalmente se han desarrollado investigaciones

relacionadas con sistemas de recomendación (SR), estos dos trabajos permiten

proporcionar a los usuarios recomendaciones con base en el su perfil y la información

de las recomendaciones es extraída del conjunto de ontologías desarrollada en el

laboratorio de Sistemas Distribuidos (LSD).

El sistema de recomendación implementado en el LSD tiene la capacidad de

recomendar ítems heterogéneos, por ejemplo: personas, lugares, eventos y objetos de

conocimiento. De estos últimos no se cuenta con un mecanismo que realice la

extracción automática de información de un documento no estructurado, por ejemplo

archivos PDF, como es el caso de los artículos científicos y que además puedan ser

clasificados con base en el dominio de conocimiento de su contenido, lo cual servirá al

sistema de recomendación desarrollado en el LSD para realizar las recomendaciones

pertinentes al usuario.

El objetivo de esta investigación fue analizar las técnicas existentes para la extracción

de información a partir de textos en PDF y la clasificación automática de textos, para

desarrollar un mecanismo que permita extraer de forma automática información de

un artículo científico, clasificarlo automáticamente con base en el dominio de

conocimiento de su contenido y además realizar el poblado ontológico de forma

semiautomática con la información extraída del objeto de conocimiento y la clase

asignada al mismo.


4

1.1. Antecedentes

En el grupo de Sistemas de Recomendación Sensibles al Contexto (por sus siglas en

inglés, CARS) de CENIDET, se ha realizado una serie de trabajos de investigación en el

marco del proyecto T-Guía, el cual consiste en el desarrollo de un sistema de

recomendación semántico sensible al contexto (SRSSC) diseñado para realizar

recomendaciones de personas, objetos de conocimiento, lugares, eventos, actividades,

recursos tecnológicos y servicios a los miembros o visitantes de una organización, con

especial énfasis en Instituciones de Educación Superior (IES).

Un sistema sensible al contexto es aquel que toma como uno de sus atributos de

entrada el entorno en el que se ejecuta.

T-Guía es un sistema de recomendación sensible al contexto, funciona en dispositivos

móviles inteligentes de los que aprovecha algunos de sus componentes y sensores. T-

Guía funciona a partir de una ubicación, orientación y perfil de usuario. Esta

caracterización permite extraer información instanciada en el conjunto de ontologías

denominadas Ontología de Memoria Organizacional (González Franco, 2012). Los

distintos tipos de ítems son recomendados al usuario con la finalidad de brindarle

información que pudiera serle de interés o utilidad.

Hasta el momento la Red de ontologías multidimensionales que se ha desarrollado en

el grupo CARS, denominada Ontología de Memoria Organizacional, tiene instanciados

objetos de conocimiento, sin embargo, estos no se encuentran clasificados, lo cual

podría considerarse una desventaja, pues un sistema de recomendación para poder

considerar con más precisión estos ítems, tendrían que estar previamente clasificados

para así poder seleccionarlos en recomendaciones con base en las temáticas de

interés de un usuario dado y a las temáticas del contenido de un objeto de

conocimiento.

El proyecto T-Guía extrae la información de la Ontología de Memoria Organizacional,

en donde se encuentra la ontología que modela objetos de conocimiento. El poblado

de los objetos de conocimiento se realiza de forma manual, esta tarea consume

bastante tiempo y este podría extenderse en situaciones en las que se cuenta con

grandes cantidades de objetos de conocimiento por instanciar.

En (Munguía Aguilar, 2012) se abordó el problema de la extracción de información de

un sitio web a través de un conjunto de reglas y especificaciones para realizar un

poblado ontológico de forma semiautomática.

En este trabajo encontramos un primer acercamiento para la extracción de

información, las soluciones planteadas en el mismo, podrían ser adaptadas


5

parcialmente a la extracción y procesamiento de los objetos de conocimiento, además

brinda información para realizar un poblado ontológico de forma semiautomática,

tarea que se tiene contemplada en el presente trabajo de investigación.

1.2. Planteamiento del problema

Actualmente, en el grupo de Sistemas de Recomendación Sensibles al Contexto (por

sus siglas en inglés, CARS), del Departamento de Ciencias Computacionales del

CENIDET, se cuenta con una Red de ontologías multidimensional cuyo fin es modelar

la información referente a un escenario organizacional incluyendo dimensiones

contextuales, conocimiento correspondiente a una memoria organizacional, a una

memoria individual y a las características de los usuarios del sistema.

Dentro de esta red de ontologías, existen algunas que se encargan de modelar el

capital intelectual de la organización, incluyendo objetos de conocimiento.

El poblado de este fragmento de la red se realiza de manera manual, tarea que

conlleva tiempo y presenta una desventaja para instanciar múltiples elementos

rápidamente.

Adicionalmente, se requiere que las instancias de objetos de conocimiento contenidas

en la red se encuentren clasificadas de acuerdo a su dominio conocimiento.

Hoy en día, existen herramientas capaces de instanciar una ontología a partir de texto.

Sin embargo, su capacidad de clasificar se encuentra limitada a la explícita mención

del dominio de conocimiento dentro del contenido del texto. A pesar de las palabras

clave que algunos objetos de conocimiento poseen, aún se requiere diferenciar entre

los distintos significados de las mismas. Por ejemplo, la palabra clave "ontología"

puede aplicar tanto para "Web Semántica" como para "Sociología", dependiendo del

contexto.

Debido a esto, el problema que el presente trabajo de investigación trata es sobre la

reducción de tiempo en la realización de manera unificada de las tareas de extracción

automática de la información, la clasificación automática con base en el dominio de

conocimiento y el poblado semiautomático de la ontología de objetos de conocimiento

a partir de un objeto de conocimiento de texto en PDF.

Una vez que se resuelva esta carencia, será posible realizar cálculos e inferencias

sobre la información poblada y clasificada, así T-GUIA podrá considerar los objetos de

conocimiento para poder brindarlos en recomendaciones con base en las temáticas


6

de interés de un usuario dado y a las temáticas del contenido de un objeto de

conocimiento.

1.3. Objetivos

Desarrollar un mecanismo que de manera unificada procese documentos de texto en

PDF, permita clasificarlos de forma automática de acuerdo al dominio de

conocimiento al que pertenece utilizando una taxonomía y realizar el poblado

semiautomático de la ontología que modela los objetos de conocimiento, la cual que

forma parte de la Ontología de Memoria Organizacional.

1.3.1. Objetivos específicos

Dado que se conoce el conjunto de ontologías multidimensionales desarrollada en

CARS (González Franco, 2012), se va a considerar la taxonomía de la ACM 2012, como

el conjunto de clases para la clasificación de los objetos de conocimiento, una vez que

se incorpore la taxonomía dentro del conjunto de ontologías denominada Ontología de

Memoria Organizacional 1.0.

Formar un corpus de objetos de conocimiento, con elementos previamente

clasificados en la taxonomía de la ACM 2012, que sirva como corpus para el

entrenamiento y pruebas de esta investigación.

Realizar la extracción automática de título, autores, keywords, resumen y texto

completo a partir de los objetos de conocimiento.

Someter el conjunto de pruebas al clasificador.

Realizar la instanciación ontológica de forma automática con la información extraída

de los objetos de conocimiento y la clase determinada por el clasificador.

1.4. Justificación

Dentro de la Red de ontologías multidimensionales (González Franco, 2012) que se ha

desarrollado en el grupo CARS, existen instanciados objetos de conocimiento, sin

embargo no se encuentran clasificados con base en el dominio de su contenido, lo cual

imposibilita que puedan ser brindados en las recomendaciones que T-GUIA realiza.

Una vez completado el proceso de extracción automática, clasificación automática y

poblado ontológico semiautomático, las instancias de la ontología podrán ser

utilizadas para ampliar las recomendaciones que realiza T-GUÍA, pudiendo brindar en

recomendaciones los objetos de conocimiento con base en el dominio de su contenido.


7

Como se mencionó en el planteamiento del problema, si se requirieran clasificar en

una taxonomía, múltiples objetos de conocimiento, necesitaríamos de expertos para

realizar una clasificación adecuada, sin embargo esta tarea se llevaría mucho tiempo y

se requeriría de tantos expertos como dominios de conocimiento en los que se desee

clasificar y los resultados de la clasificación manual podrían no ser los más óptimos,

pues dependeríamos de la subjetividad de los expertos, mientras que en el método

automático de clasificación que utilizaremos dependeremos de un conjunto

previamente clasificado para cada clase que servirá como entrenamiento.

1.5. Beneficios

Se cuenta con un mecanismo que de manera unificada permite realizar en un menor

tiempo la extracción automática de la información de los objetos de conocimiento de

texto en PDF, la clasificación automática de los mismos con base en las clases

definidas en la taxonomía, logrando además de la clasificación automática, el poblado

semiautomático de la ontología que modela objetos de conocimiento y que forma

parte de la red de ontologías multidimensionales denominada Ontología de Memoria

Organizacional.

Con el mecanismo propuesto, la clasificación de objetos de conocimiento se realiza de

manera automática, es decir, la tarea de clasificación de múltiples objetos de

conocimiento, se realiza en un menor tiempo y nuevos objetos de conocimiento

posteriores a los existentes, serán clasificados sin mayor contratiempo gracias a la

herramienta desarrollada.

Con la herramienta que se desarrolló, la clasificación de objetos de conocimiento se

realiza de manera automática, es decir, la tarea de clasificación de múltiples objetos de

conocimiento, se realiza en un menor tiempo y nuevos objetos de conocimiento

posteriores a los existentes, serán clasificados sin mayor contratiempo gracias a la

herramienta desarrollada.

Con la clasificación se tendrá una organización de los objetos de conocimiento con

base en una taxonomía, generando así un modelo que puede ser adaptado a diversos

dominios de conocimiento sin importar la cantidad de niveles en los que se requiera

clasificar.

Una vez clasificados e instanciados en la ontología de objetos de conocimiento, las

instancias podrán utilizarse para ampliar o mejorar las recomendaciones de objetos

de conocimiento que realiza la herramienta T-GUIA, así como el ahorro de tiempo,


8

dinero y esfuerzo, siendo beneficiada la institución que implemente la herramienta

desarrollada.

1.6. Estructura del documento

Este documento se encuentra organizado en siete capítulos, los cuales describen el

trabajo de investigación en sus diversas etapas como se indica a continuación:

En el capítulo II: Fundamento Teórico, se abordan los temas relevantes a la presente

investigación.

En el capítulo III: Estado del Arte, se presenta un panorama de la información

obtenida a través de la investigación sobre los enfoques para la extracción de

información a partir de textos en PDF, así de la clasificación de textos.

En el capítulo IV: Metodología de solución propuesta para la extracción automática de

información, clasificación automática y poblado ontológico semiautomático de textos

no estructurados en PDF.

En el capítulo V: Implementación de la Metodología para la Extracción automática de

información, clasificación automática y poblado ontológico semiautomático de textos

no estructurados en PDF, tomando como base las fases presentadas en el capítulo

anterior.

En el capítulo VI: Pruebas y Resultados, se presentan las pruebas realizadas y los

resultados obtenidos, con la finalidad de brindar resultados confiables y seleccionar la

mejor técnica de clasificación para ser implementada en la herramienta objetivo de

este trabajo de investigación.

Por último, en el capítulo VII, se presentan las conclusiones a las que se llegaron con

las pruebas realizadas, se identifican las aportaciones realizadas y los trabajos futuros

de la presente investigación.

CAPITULO II Fundamento teórico

C a p í t u l o I I . F u n d a m e n t o t e ó r i c o

10

2. Fundamento teórico Para la elaboración de la Clasificación automática de objetos de conocimiento con

contenido no estructurado para el poblado semiautomático de ontologías

multidimensionales, se han tomado en cuenta los conceptos básicos que ayuden a un

mejor entendimiento del presente trabajo de investigación

2.1. Ontología

En (Hepp, De Leenheer, De Moor, & Sure, 2007) se describe como los filósofos griegos

Sócrates y Aristóteles fueron los primeros en desarrollar los fundamentos de la

ontología. Sócrates introdujo la noción de las ideas abstractas, una jerarquía entre

ellos y las relaciones de instancia de clase. Aristóteles añadió las asociaciones lógicas.

Dando como resultado un modelo bien estructurado, que es capaz de describir el

mundo real. Sin embargo, no es trivial para incluir todas las relaciones amplias y

complejas de nuestro entorno. En la historia moderna, el termino ontología de

acuerdo con (Guber, 1995), se define como “Una especificación de una

conceptualización” donde una conceptualización es una visión abstracta y simplificada

del mundo que queremos representar con algún propósito. Una conceptualización se

refiere a un modelo abstracto de algún fenómeno en el mundo, identificando el

concepto relevante de este fenómeno.

2.2. Taxonomía

En (Unni & K., 2012) definen taxonomía como el conjunto de conceptos ordenados de

forma jerárquica, en donde los términos pertenecientes a cada nivel heredan atributos

a otros conceptos de jerarquías inferiores y en donde los conceptos de un mismo nivel

comparten ciertos atributos que son heredados de una jerarquía superior.

2.3. Taxonomía de la ACM

La taxonomía de la ACM 2012 es un conjunto de clases predefinidas que fue utilizada

en el esquema de clasificación de la ACM en la versión del año 2012 (Association for

Computing Machinery (ACM)). Las clases definidas están relacionadas con el área de

ciencias computacionales y existe una organización jerárquica de hasta seis niveles.


11

Figura 1. Representación básica de la taxonomía de la ACM. Los cuadros azules representan las clases finales a las que puede ser clasificado un objeto de conocimiento

El primer nivel está integrado por 14 clases codificadas con una letra mayúscula de la

A a la N, están subdivididas en el segundo nivel por clases identificadas con la letra

correspondiente al primer nivel y un número entero incrementable según la cantidad

de clases en este nivel, por ejemplo A.1, A.2, …, D.6, D.7, ..., N.5, N.6, las cuales, a su vez

están divididas en clases en un tercer nivel jerárquico. Hay clases que a partir del

tercer nivel y hasta el sexto nivel ya son clases finales, es decir, ya no tienen clases

hipónimas, por el contrario las clases que no son clases finales las podemos encontrar

hasta el quinto nivel. Las clases finales también son llamadas descriptores de temas.

La taxonomía de la ACM 2012, fue implementada a partir del año 2012 en el nuevo

esquema de clasificación, a través de esta taxonomía son indexadas de forma

ordenada las publicaciones de la ACM dentro de la librería digital.

La taxonomía de la ACM 2012 está disponible para su descarga en formato XML, Word

y HTML. Estos últimos dos formatos son en forma de lista, mientras que el formato

XML respeta y describe explícitamente las relaciones de jerarquía de las clases.

2.4. NLTK

El Natural Language Toolkit o mejor conocido como NLTK, es un conjunto de

programas de código abierto, cuenta con una variedad de algoritmos implementados

en Python, los cuales ayudan a realizar múltiples tareas del lenguaje natural (Loper &

Bird, 2002).


12

También cuenta con una variedad de conjuntos de datos de prueba y un libro (Bird,

Klein, & Loper, 2009) publicado bajo licencia Creative Commons (CC) en donde a

detalle se muestran en forma de manual, ejemplos claros de tareas a resolver en el

área del lenguaje natural con la implementación de estas librerías.

2.5. Aprendizaje automático

Una persona adquiere habilidades y conocimientos gracias a la experiencia o

enseñanza, entonces podemos decir que ha aprendido. Sin embargo hasta el momento

no existe una máquina que aprenda de la misma manera que el ser humano, sin

embargo, se han creado diversos algoritmos para algunas tareas de aprendizaje.

El aprendizaje automático se refiere a aquellos programas de computadora que una

vez construidos puedan mejorar automáticamente gracias a la experiencia, es decir,

que puedan aprender.

De manera formal, podemos definir que el aprendizaje automático de un programa se

da cuando a partir de la experiencia o entrenamiento (E), con respecto a una tarea o a

un conjunto de tareas (T) y a través de una métrica de desempeño (M), los resultados

de las M después de la ejecución de las T mejoran gracias al E. (Mitchell, 1997).

Generalmente son múltiples las tareas que deben resolverse para lograr el objetivo

del aprendizaje automático, es decir, que mejore a través de una experiencia dada.

2.6. Clasificación

La clasificación es el proceso de colocar de forma ordenada un objeto específico o

concepto, en un conjunto de clases (Gorunescu, 2011).

La clasificación se apoya en las características respectivas del concepto u objeto

especifíco que este tenga en común con las características definidas por un experto o

alguna clase del conjunto (Jain & Aggarwal, 2009).

Como el nombre lo sugiere, el tipo más sencillo del problema de clasificación se refiere

a la identificación de un objeto o fenómeno desconocido como miembro de una clase

conocida (Clancey, 1984).

El proceso de clasificación, es la identificación de la clase de un objeto. Esta

identificación se realiza por medio de un proceso de coincidencia de las propiedades

del objeto con las propiedades de alguna clase.


13

Si tenemos que un objeto está representado por * + y las clases están

representadas por * * + * +

* + * ++, vemos que tanto O como cada elemento de C

están formados por valores ( ) que llamaremos características. La tarea de

clasificación consiste en someter las características de O y de cada elemento de C a la

función llamada clasificador, la cual evalúa las coincidencias encontradas entre las

propiedades de O y las propiedades de cada elemento de C, con la finalidad de

encontrar el elemento de C con la cual O tuvo las mejores coincidencias.

Un ejemplo de clasificación, podría ser la identificación de una planta o animal,

utilizando una guía de características, tales como coloración, estructura, y tamaño.

2.7. Clasificación automática de textos

La clasificación automática de textos es el proceso de asignación de clases o etiquetas

a datos de textos no clasificados. Los datos de texto no clasificados pueden variar en

su longitud, pueden ser frases cortas o documentos con una longitud mayor.

La clasificación automática de textos tiene sus orígenes en la recuperación de

información y en la última década ha recibido mayor atención dado el incremento que

ha tenido la información disponible en formato electrónico. Debido a esto el ser

humano ha tenido la necesidad de contar con herramientas que permitan a un usuario

encontrar la información relevante que requiera en un tiempo adecuado. Con la

clasificación automática de textos, la búsqueda y recuperación de información

relevante puede ser posible en un menor tiempo al separar documentos de acuerdo a

un tema o una clasificación especifica.

La tarea de clasificación de textos puede ser definida como sigue: dado un conjunto de

documentos * + y un conjunto limitado de clases

* + se asigna una clase del conjunto C a cada elemento del conjunto

D (Jansen & Spink, 2009).

Para que dicha asignación sea posible, es necesario realizar un entrenamiento para la

tarea de clasificación, la cual permitirá al programa de computadora aprender y

determinar la clase de cada elemento del conjunto D.


14

2.8. Representación de los documentos

Un documento está formado por una secuencia de términos, entonces podemos decir

que un documento es un conjunto de términos que unidos de forma secuencial tienen

un significado en concreto dentro de un contexto (Pirzadeh, Hamou-Lhadj, & Shah,

2011).

La secuencia de términos de un documento se puede descomponer en n-gramas. Los

n-gramas son una subsecuencia de n términos de una secuencia dada (Shannon,

1948). De ahí que tenemos 1-gramas los cuales son llamados también unigramas, 2-

gramas los cuales son llamados también bígamas, 3-gramas llamados también

trigramas y así sucesivamente.

Con el siguiente ejemplo podemos tener más clara cómo es la descomposición de una

secuencia de términos en n-gramas. Dado el enunciado:

“programación orientada a objetos”

lo dividimos a nivel de palabra a través de un espacio simple “ “, entonces tenemos los

siguientes conjuntos, en donde cada elemento está separado por comas “,”:

unigramas={programación, orientada, a, objetos}

bigramas={programación orientada, orientada a, a objetos}

Dentro de los documentos hay términos, también llamados stopwords, que no tienen

un significado semántico relevante y sólo ayudan a unir palabras, por ejemplo, las

conjunciones. Estos términos tienen una frecuencia elevada dentro de los documentos

y de forma separada cada uno de estos términos no tienen un significado semántico

relevante.

Las stopwords o palabras vacías incluyen no solo a las conjunciones, sino también,

pronombres personales, preposiciones, algunos verbos, etc. En el idioma inglés se han

identificado (Bui, Redd, & Zeng-Treitler, 2012) algunas stopwords, en la Tabla 1

mostramos las stopwords incluidas dentro del NLTK y que son eliminadas del texto a

pre-procesar:


15

Stopwords 'i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', 'her', 'hers', 'herself', 'it', 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', 'will', 'just', 'don', 'should', 'now'

Tabla 1. Stopwords en inglés, incluidas en NLTK

Para llevar a cabo la clasificación automática de texto, es necesario representar a cada

documento que forma parte del conjunto de entrenamiento (CE) y a cada documento

que forma parte del conjunto de elementos no clasificados (CENC) de una forma a la

cual se le pueda aplicar el algoritmo de clasificación. La representación de los

documentos más utilizada en los procesos de clasificación automática de textos es el

modelo vectorial.

El modelo vectorial para la representación de textos o documentos, consiste en

representar cada documento como un conjunto de términos, donde cada palabra del

documento, es un elemento del conjunto de términos que representa a cada

documento (Ass & Eikvil, 1999).

A cada conjunto de términos de un documento se le llama vector, por lo que tenemos

que el vector de un documento es ( ), donde es un documento

específico del conjunto CE o CENC y cada es cada uno de los elementos de los n-

gramas del enunciado.

En este trabajo de investigación se realizó la selección de unigramas y bigramas para

ser sometidos a pruebas de forma separada.

2.9. Pre-procesamiento del texto

Dentro de los trabajos que se revisaron, por ejemplo en (Santos & Rodrigues, 2009)

(Figuerola, Alonso Berrocal, Zazo Rodríguez, & Mateos, 2008) (Zahedi & Ghanbari

Sorkhi, 2013), donde los investigadores realizaron clasificación de textos o

recuperación de textos, el pre-procesamiento de los textos era una etapa previa a la

tarea literal de clasificación o recuperación.


16

Las técnicas utilizadas para el pre-procesamiento de los textos varían en las

investigaciones, sin embargo se identificaron algunas de las técnicas de pre-

procesamiento utilizadas y que ayudan a convertir un texto en bruto, en un texto más

característico que sirva más para ser aplicados en los algoritmos de clasificación

automática de texto.

2.9.1. Normalización de términos

La normalización de términos consiste en estandarizar los caracteres de los términos

con la finalidad de convertir un texto enriquecido a un texto plano, y eso se consigue a

través de:

2.9.1.1. Texto a minúsculas

Todas las letras en mayúsculas se convierten en minúsculas, pues una comparación

estricta de dos palabras, por ejemplo Computadora y computadora podría generarnos

un conflicto de igualdad, mientras que para las operaciones de los algoritmos de

clasificación deberíamos tener los mismos términos.

2.9.1.2. Eliminación de acentos

El tener caracteres especiales no incluidos en el alfabeto inglés podría provocar

confusión para el sistema en el tratamiento de los mismos, ya que debido a la

variación de codificación de los textos un carácter acentuado podría convertirse en un

conjunto de caracteres especiales. En la siguiente tabla se presentan las vocales en

minúsculas del alfabeto inglés con acento escrito y su codificación en formato

ISO8859-1 (ISO/IEC 8859-1:1998).

Vocal Vocal con

acento

Vocal con acento

en iso8859-1

a á á

e é é

I í í

o ó ó

u ú ú Tabla 2. Vocales en minúsculas del alfabeto inglés con acento derecho escrito y su codificación en ISO8859-1 (ISO/IEC

8859-1:1998)

2.9.1.3. Eliminación de símbolos

Los símbolos y signos de puntuación dentro de un documento son irrelevantes para la

clasificación de textos, pues no brindan un significado relevante dentro de un

documento. Por lo cual, cada símbolo y signo de puntuación presente en un

documento a pre-procesar, es eliminado y reemplazado por espacios simples “ “.


17

2.9.1.4. Eliminación de saltos de línea y múltiples espacios

De igual manera que los símbolos son reemplazados por espacios en blanco “ “, los

salto de línea presentes en un documento son eliminados y reemplazados por

espacios y blanco “ “.

Y debido a la naturalidad del texto original, más el reemplazo realizado de los

símbolos y saltos de línea por espacios en blanco, puede que hayamos acumulado

múltiples espacios en blanco entre término y término, por lo cual, la secuencia de

varios espacios en blanco son reemplazados por sólo un espacio en blanco, de tal

manera que los términos estén separados por un espacio en blanco “ “.

2.9.2. Eliminación de stopwords

Las stopwords o también conocidas como palabras vacías son términos cuya

frecuencia en el texto de un documento es muy alta y que por sí solos no tienen un

significado relevante, por lo que la eliminación de estas ayuda a aligerar la longitud de

términos de un documento, disminuyendo el peso digital de un archivo y el ahorro de

tiempo para el procesamiento de las mismas dentro de la tarea de clasificación.

Dentro de las stopwords se encuentran preposiciones, conjunciones, adverbios,

artículos, pronombres y algunos verbos (Kongovi, Guzman, & Dasigi, 2002).

El número de stopwords únicas dentro de un documento puede ser baja, sin embargo

su frecuencia es muy alta. Ejemplos de stopwords identificadas en el idioma inglés

son: THE, FOR, IT, IS, AND (Lo, He, & Ounis, 2005).

2.9.3. Identificación de familias léxicas

La identificación de familias léxicas o stemming consiste en la reducción de un

término o un conjunto de términos a su raíz, lo cual permite que palabras que

literalmente son diferentes pero con una raíz en común puedan ser consideradas

como un solo término.

A través del stemming se eliminan algunos prefijos y sufijos comunes, los cuales

modifican en parte el significado de un término.

Por ejemplo las palabras computadora, computador, computadoras y computadores

hacen referencia a un mismo concepto y tienen la misma raíz, computad.

Entre los algoritmos conocidos para realizar la identificación de familias léxicas se

encuentran (Lovins, 1968), (Porter, 1980) y (Paice, 1990).

En este trabajo se utilizó la implementación del algoritmo de (Porter, 1980) incluida

en NLTK.


18

2.9.4. Segmentación

Conocida como tokenización, la segmentación se refiere a la división de un texto en

unidades más pequeñas conocidas como tokens (Carreras, Chao, Padró, & Padró,

2004). Generalmente la tokenización toma como carácter de separación los espacios

en blanco que hay entre un término y otro, aunque también pueden tomarse algunos

otros caracteres no incluidos en el alfabeto inglés como indicadores para realizar la

división de una cadena de texto.

Los algoritmos de clasificación calculan la probabilidad de un término, por lo que el

texto completo de un documento no nos serviría sino está dividido en unidades más

pequeñas.

2.9.5. Vectorización

La vectorización es el modelo de representación de los documentos generalmente

utilizada en tareas de clasificación automática de textos. Consiste en convertir un

texto en una lista de términos (tokens). Generalmente cada elemento o término del

vector está acompañado con algún otro valor, por ejemplo la frecuencia del término

dentro de .

A continuación mostramos la vectorización de un texto dividido en unigramas. Si

tenemos el siguiente texto:

una computadora computador tambien denominada ordenador maquina

electronica que recibe procesa datos para convertirlos informacion util una

computadora una coleccion circuitos integrados otros componentes

relacionados que puede ejecutar con exactitud rapidez acuerdo indicado

por un usuario automaticamente por otro programa una gran variedad de

secuencias rutinas de instrucciones que son ordenadas organizadas

Y eliminamos los términos repetidos pero contamos la frecuencia de cada uno y los

mantenemos, obtendríamos el siguiente vector que se muestra en la Tabla 3, en donde

cada elemento es un término y tiene la frecuencia de aparición del mismo:


19

{"una"=>4, "computadora"=>2, "computador"=>1,

"tambien"=>1, "denominada"=>1, "ordenador"=>1,

"maquina"=>1, "electronica"=>1, "que"=>3, "recibe"=>1,

"procesa"=>1, "datos"=>1, "para"=>1, "convertirlos"=>1,

"informacion"=>1, "util"=>1, "coleccion"=>1,

"circuitos"=>1, "integrados"=>1, "otros"=>1,

"componentes"=>1, "relacionados"=>1, "puede"=>1,

"ejecutar"=>1, "con"=>1, "exactitud"=>1, "rapidez"=>1,

"acuerdo"=>1, "indicado"=>1, "por"=>2, "un"=>1,

"usuario"=>1, "automaticamente"=>1, "otro"=>1,

"programa"=>1, "gran"=>1, "variedad"=>1, "de"=>2,

"secuencias"=>1, "rutinas"=>1, "instrucciones"=>1,

"son"=>1, "ordenadas"=>1, "organizadas"=>1}

Tabla 3. Resultado de la vectorización de un texto

2.10. Métricas de evaluación

Para evaluar la clasificación automática de textos, utilizaremos las métricas de

precisión y recuerdo (precision and recall), las cuales son las medidas más comunes

utilizadas para la medición del desempeño en tareas de recuperación de información.

Para poder aplicar estas métricas es necesario contar con un corpus de objetos

previamente clasificados, del cual podamos contar con un porcentaje de este corpus

para el entrenamiento del sistema y otro porcentaje para las pruebas del mismo. Los

resultados de la clasificación automática que arrojen los elementos del conjunto de

pruebas del corpus, serán a los que se les aplicarán las métricas de evaluación y así

tendremos la evaluación del desempeño de nuestro sistema de clasificación

automática de textos.

La precisión es la probabilidad de que un documento clasificado de forma automática

en la clase , pertenezca realmente a esa clase.

El recuerdo es la probabilidad de que un documento que pertenece a la clase , sea

clasificado en esa clase (Hernández, Ramírez, & Ferri, 2004) (Lewis D. , 1991).

Si representamos el problema de la predicción de las clases a través de la clasificación

automática de textos, podemos observar en la Tabla 4 el comportamiento de un

sistema de clasificación automática de textos, según los aciertos y errores que arrojen

las predicciones:


20

Predicción positiva

Predicción negativa

Total de predicciones

Clase positiva a b a + b Clase negativa c d c + d a + c b + d a + b + c + d = n

Tabla 4. Comportamiento de un sistema de clasificación automática de textos, según los aciertos y errores

En cada celda de la Tabla 4 se encuentra representado el número de predicciones

positivas y negativas. Donde son las predicciones correctas del sistema y

son las predicciones erróneas. Por lo que tenemos que la suma de

equivale al total de pruebas sometidas al sistema de clasificación automática de textos.

Con la tabla anterior, podemos definir las fórmulas para la obtención de las métricas

de precisión y recuerdo, las cuales quedan como sigue:

La precisión muestra la probabilidad de que el sistema de clasificación automática de

texto arroje una predicción correcta de la clase a un documento que se desea

clasificar.

El recuerdo expresa el porcentaje de los elementos de una clase que son clasificados

correctamente en ella.

Hay otra métrica denominada F1-Score, la cual combina las métricas de precisión y

recuerdo. F1-Score muestra a la precisión y el recuerdo, como una sola métrica, la cual

es definida como una medida armónica entre ambas, el valor de F1-Score oscila entre

0 y 1, donde 1 es el valor más idóneo.

F1-Score se obtiene a través de la fórmula:

(

)

2.11. Algoritmos de clasificación

La clasificación de textos ha sido ampliamente investigada (Li, 2007) con el objetivo

de encontrar los mejores métodos que permitan realizar esta tarea de forma

automática con la finalidad de reducir sustancialmente el tiempo consumido en la


21

clasificación de textos, así como mejorar la calidad de la clasificación de documentos

ya sea de uno o múltiples dominios.

Desde hace varios años se han propuesto varios métodos que sirven para el

procesamiento de textos y su clasificación, sin embargo cada técnica ha arrojado

resultados diferentes (Chang, 2005). Algunas técnicas han sido más investigadas,

mejoradas o combinadas con la finalidad de realizar un mejor trabajo de clasificación.

En esta sección del documento se presentan cuatro algoritmos de clasificación, los

cuales han sido aplicados en múltiples trabajos para la clasificación de textos

identificados en el estado del arte.

2.11.1. Naive Bayes

El algoritmo de Naive Bayes o más conocido como Bayes, fue descrito originalmente

en (Duda & Hart, 1973) y es uno de los métodos favoritos utilizados en tareas de

clasificación y recuperación de información, debido a los buenos resultados que arroja

su funcionamiento (Lewis D. , 1998).

En el caso de la clasificación de textos, el método bayesiano utiliza la frecuencia de las

palabras del objeto que se desea clasificar, así como las mismas características

pertenecientes a cada una de las clases con las cuales se realizará la comparación y

estimación de la probabilidad que un objeto perteneciente a un conjunto de

documentos pertenezca a cada una de las clases pertenecientes al conjunto de

clases .

Cada elemento del conjunto está representado por un vector ( )

formado por un conjunto de características previamente seleccionadas, n-gramas, en

el caso de un documento, de las cuales se conoce la frecuencia de aparición de las

mismas en el elemento .

Por su parte, cada uno los elementos del conjunto de clases ( ), de igual

manera están representados por un vector de características representativas de cada

clase, las cuales servirán para poder realizar el cálculo de la probabilidad de

elementos del conjunto a clasificar.

El clasificador de Bayes está basado en el teorema de probabilidad conocido como la

Regla de Bayes, el Teorema de Bayes o la Fórmula de Bayes:

( | ) ( ) ( | )

( )


22

dónde

( ) ∑ ( | ) ( )

Se da por hecho que en todos los posibles eventos de clasificación se les asigna a los

objetos exactamente una clase ( ) del conjunto de las mismas. es una clase

aleatoria en donde sus valores son el vector de características de ésta, mientras que

es un documento que se desea clasificar y sus valores son el vector de términos del

documento.

Dado que y son valores tomados de forma aleatoria a partir de y , en la

formula podemos omitir estos valores y reescribir la Regla de Bayes como sigue:

( | ) ( ) ( | )

( )

Ahora tenemos que ( | ) es el problema de clasificación que debemos de resolver y

la asignación de la clase al objeto a clasificar se realizará de acuerdo al resultado

mayor que obtengamos de ( | ).

Debido a que no se conoce el valor de ( | ) y la realidad es que es difícil estimarlo

directamente, la Regla de Bayes sugiere estimar ( ) y ( ), luego combinar los

resultados para poder estimar ( | ), que no es más que el producto de las

probabilidades de cada término que aparece en el vector de :

( | ) ∏ ( | )

| |

De las dos fórmulas previas se tiene que la probabilidad de que el documento

elegido de forma aleatoria pertenezca a la clase es:

( | ) ( )∏ ( | )

| |

con ( ) calculado como:

( )


23

dónde es el número de documentos en la clase y es el total de documentos

pertenecientes a las clases del conjunto . Mientras que ( | ) se suele calcular

como

( | ) ( )

| |

dónde ( ) es el número de veces en las que el término aparece en los

documentos de la clase .

Calculado lo anterior, puede ser asignado a la clase donde ( | ) es la máxima.

2.11.2. Máquinas de vectores de soporte

Las máquinas de vectores de soporte, máquinas de soporte vectorial o también

conocidas como SVM por sus siglas en inglés (Support Vector Machines), han tenido

un buen desempeño en una gran variedad de problemas de clasificación, como por

ejemplo: la identificación de partículas (Ranzato, Taylor, House, Flagan, LeCun, &

Perona, 2007), identificación de rostros (Guo, Li, & Chan, 2000) y clasificación de

textos (Joachims, 1998) (Tong & Koller, 2002) (Liu, Lv, Liu, & Shi, 2010).

Los orígenes de esta técnica estadística fueron presentados por (Vapnik, 1995). En el

caso de clasificación de textos, los elementos del conjunto (documentos) son

representados por medio de vectores y de forma separada son mapeados en un

espacio de alta dimensionalidad junto con los elementos del conjunto (clases) con

la finalidad de compararlos y separar los objetos positivos y negativos con la ayuda

de un margen máximo entre las dos clases de objetos, al plano de decisión que sirve de

separación de le llama hiperplano.

En la Figura 2 se puede observar puntos de datos que son linealmente separables a

través de un hiperplano. Las líneas punteadas paralelas a la línea solida muestran que

tanto el hiperplano puede moverse sin que conlleve a una mala clasificación, entre

mayor sea el margen, será menor el riesgo de una mala clasificación. El margen es la

distancia entre las líneas paralelas y los puntos más cercanos al hiperplano, a los que

se les conoce como vectores de soporte.


24

Figura 2. Los vectores de soporte están sobre las líneas punteadas. A través de un hiperplano h identificado por SVM se puede separar los elementos positivos de los negativos a través de un margen máximo

SVM puede clasificar un vector en una clase de dos posibles, y a través de:

( ) ∑ ( )

y se tiene que:

{

donde * + es la clase que corresponde a cada y donde * , +; ( ) es la

representación de en un espacio diferente al original a través de un kernel, los más

comunes son los polinómicos de grado como el definido por la función:

( ) ( )

SVM requiere de entrenamiento y éste consiste en determinar el vector que

maximice la distancia entre los objetos de las clases diferentes dentro del conjunto de

entrenamiento y en donde puede ser escrita como una combinación lineal de

valores , y ( ).

SVM surgió con el enfoque de clasificación binaria, sin embargo puede ser

generalizado para colecciones de más de dos clases de documentos. En (Weston &

Watkins, 1999) se presenta como un problema multiclase puede ser dividido en varios

problemas binarios de la forma uno contra uno o uno contra todos. En ambos casos un

objeto se asigna a la clase con el valor más alto.


25

La forma uno contra uno se refiere a que si se tienen clases, se tendrán que construir

( ) clasificadores usando los documentos de cada combinación de las dos

clases distintas. En uno contra todos se construyen clasificadores, uno para cada

clase, usando los valores de una clase y comparándolo con la mezcla de todas las

demás clases, lo cual genera una función que da un peso mayor a una de las dos clases

y el objeto a clasificar es relacionado a la clase que tuvo el valor más alto.

Debido a la alta dimensionalidad en conjuntos multiclase, los clasificadores basados

en SVM son generalmente implementados como clasificadores binarios en cascada, es

decir, se compara un objeto con todos los elementos del conjunto pero de forma

separada, así cada clasificador será capaz de reconocer entre una clase y el resto

(Burges, 1998).

2.11.3. Arboles de decisión

El método arboles de decisión ha sido uno de los más populares en el área de

inteligencia artificial para resolver tareas de clasificación, el cual fue presentado en

(Quinlan, 1986).

El método de aprendizaje supervisado de árboles de decisión funciona través de la

creación de reglas del tipo si entonces.

La Figura 3 muestra un árbol de decisión sencillo, el cual tiene reglas indicadas por las

etiquetas dentro de los rectángulos, las etiquetas sin recuadros son los posibles

valores y las etiquetas dentro de cuadros punteados son las hojas o decisiones

(categorías). Representa la posibilidad de que dado un pronóstico del clima se pueda

decidir si es posible (P) o no es posible (N) realizar actividades al aire libre.

Figura 3. Árbol de decisión sencillo (Quinlan, 1986)


26

Para cada nodo o rama del árbol se realiza un entrenamiento que consiste en la

creación de reglas, las cuales tienen como valor la dirección del siguiente nodo al cual

deberá dirigirse el objeto evaluado * , - , -+, las cuales

una vez evaluadas darán paso a una siguiente rama o a ninguna.

En los arboles de decisión se tiene como entrada un objeto * + el cual

está representado por un conjunto de características, en el caso de un documento,

palabras acompañadas de otro valor, por ejemplo, su frecuencia de aparición en el

documento . En el primer nodo del árbol, se evalúa alguna característica

especificada a través de las reglas correspondientes a este nodo y se da paso a la rama

correspondiente al valor de la característica evaluada del objeto , este proceso se

itera dependiendo de la cantidad de nodos existentes en el árbol de decisión hasta

llegar en el mejor de los casos a las hojas, las cuales en un problema de clasificación

serían las clases a donde tendría que anotarse el objeto evaluado.

2.11.4. k-nearest neighbors

El método k-nearest neighbors (k-NN) o también conocido como vecinos más cercanos,

es un método de los del tipo de aprendizaje basado en ejemplos el cual evalúa nuevos

elementos y los compara con elementos almacenados o ya aprendidos (Cover & Hart,

1967).

Se basa en la hipótesis de que un nuevo elemento puede tomar la clase de algún

elemento almacenado del cual tenga una similitud alta.

Este tipo de algoritmos funciona muy bien para agrupamiento de elementos debido a

que se calcula la similitud de un elemento con otro elemento y no con las

características de una clase en particular, aunque entre las mejoras que tiene este

método, se encuentra la comparación de las características de un elemento con las de

las clases.

Si partimos de que tenemos un conjunto de elementos pertenecientes al conjunto

* + y que cada elemento del conjunto está relacionado con algún

elemento del conjunto * +, nuevos elementos del conjunto

pueden ser relacionados con algún elemento del conjunto a través de una función

que calcule la similitud entre el nuevo elemento y los elementos existentes del

conjunto , ( ).

Utilizando el método vectorial y posteriormente alguna medida para calcular la

similitud entre vectores, por ejemplo coseno, podemos identificar con cuales de los


27

elementos vecinos , el elemento tiene una mayor similitud y el elemento

relacionado a los elementos va sumando puntuación, por lo que al terminar las

comparaciones entre vectores de con sus vecinos , podemos conocer el

elemento con el cual sus vecinos tienen mayor relación y así el nuevo elemento

podrá tomar esa relación como suya.

La regla de decisión de k-NN se define como:

( ) ∑ ( ) ( )

Donde ( ) * + es la clasificación para la instancia con respecto a la

categoría (1=si y 0=no), mientras que ( ) es el grado de similitud entre la

nueva instancia y la instancia de entrenamiento .

CAPITULO III Estado del arte

C a p í t u l o I I I . E s t a d o d e l a r t e

29

3. Estado del arte En esta sección se presentan los trabajos relacionados que se han realizado con la

temática de extracción de texto a partir de documentos de texto en PDF y de

clasificación automática de textos. Con estos trabajos se tiene un panorama general de

las técnicas utilizadas en la actualidad para la extracción de información a partir de

texto en PDF y de clasificación automática de textos.

3.1. Layout-aware text extraction from full-text PDF of scientific

articles (Ramakrishnan, Patnia, Hovy, & Burns, 2012)

Resumen

El Formato de Documento Portable, PDF, por sus siglas en inglés (Portable Document

Format), es el formato de documentos digitales más común utilizado para la

publicación de artículos científicos.

Las plantillas de los artículos científicos, para la presentación de la información dentro

de los archivos PDF son muy variables, aunque principalmente se utilizan

presentaciones con formatos en una columna y dos columnas.

Cuando uno extrae de forma manual información de un PDF, es común que si no se

tiene cuidado se pierda cierta secuencia entre un texto y otro, por lo que hacer esto de

forma automática o semiautomática resulta una tarea trivial.

Algunas de las secciones de un artículo científico son repetitivas y proporcionan poca

información no menos relevante, como los encabezados y pies de página, pero si no se

identifican adecuadamente podrían causar ruido o texto sin sentido en el texto una

vez extraído.

Entre otras de los sistemas que existen para la extracción de documentos se encuentra

PDF2Text, la cual sólo extrae el texto a partir de un PDF sin hacer mucho énfasis en

identificar la secuencia de los textos, lo cual provoca extracciones de texto no

secuenciales y sin sentido.

El sistema LA-PDFText desarrollado en este trabajo provee mayor precisión en la

extracción secuencial de texto de un PDF, según los resultados presentados, además

que es capaz de identificar secciones comunes de un artículo científico como: el título,

los autores, el resumen, resultados, métodos y referencias.

LA-PDFText es una herramienta open-source y su versión estable puede ser obtenida

en http://code.google.com/p/lapdftext/.


30

Similitud

Debido a que parte del trabajo para poder realizar la clasificación de los objetos de

conocimiento que se encuentran en formato PDF, es extraer el texto de éste, es

necesario que la extracción secuencial del mismo se dé con la mayor precisión posible,

por esta razón esta tarea se realizaría de forma automática.

Se había probado la librería PDF2Text que también ayuda para la extracción de textos

a partir de documentos textuales en PDF, sin embargo los resultados son muy básicos

y sólo se limitan a la extracción del texto sin tomar en cuenta las secciones o

secuencias que tiene el documento, especialmente cuando el texto está presentado en

más de una columna.

En las pruebas realizadas, LA-PDFText arrojó mejores resultados en la extracción de

textos a diferencia de PDF2Text.

3.2. GROBID: Combining Automatic Bibliographic Data Recognition and

Term Extraction for Scholarship Publications (Lopez, 2009)

Resumen

En este trabajo el autor presenta una descripción de la herramienta GROBID, la cual

ayuda en la identificación automática de descripciones complementarias de un

artículo técnico o científico.

La herramienta GROBID está desarrollada en Java y utiliza técnicas de aprendizaje

automático y de extracción de multi-términos.

El objetivo de GROBID es mejorar la extracción de metadatos (título, autores,

keywords, resumen, fecha de publicación) de artículos técnicos y científicos, enfocado

a la extracción automática de metadatos en librerías digitales en donde los

documentos se encuentran disponibles en texto en PDF.

En Github hay una comunidad de desarrolladores, para que los interesados ayuden a

mejorar la identificación de secciones de las publicaciones técnicas y científicas.

Similitud

Los documentos a procesar en nuestro trabajo de investigación se encuentran en texto

en PDF. Uno de los enfoques probados para la identificación de los metadatos de un

artículo científico, era convertir un PDF a XML, en donde además de extraer el texto

del documento, obteníamos etiquetas que describían el formato del mismo (tipo de


31

letra, tamaño, inicio y fin de un párrafo), sin embargo la variedad de plantillas en los

que se publican los artículos científicos dificultaba la identificación correcta de los

metadatos.

Con la implementación de GROBID pudimos realizar la identificación de ciertas

secciones de un artículo científico, a través de una interfaz de línea de comandos y

generando resultados en XML. Además de acuerdo a (Lipinski, Yao, Breitinger, Beel, &

Gipp, 2013), esta herramienta tiene los mejores resultados en cuando a la

identificación automática de secciones de un objeto de conocimiento se refiere.

3.3. Evaluation of header metadata extraction approaches and tools for

scientific PDF documents (Lipinski, Yao, Breitinger, Beel, & Gipp,

2013)

Resumen

En este trabajo presentan los resultados de la comparación de diversas herramientas

para la extracción de metadatos de artículos científicos con la finalidad de evaluar el

desempeño de dichas herramientas.

Los autores pretenden que este trabajo sirva de guía a los desarrolladores que buscan

realizar la extracción de metadatos de forma automática, especialmente enfocados a

librerías digitales de documentos de texto en PDF.

En las pruebas de extracción de Titulo, autores, Resumen y año de publicación, los

resultados evidenciaron que GROBID tiene el mejor desempeño en todos los campos.

Similitud

Como dice el resumen, este trabajo ayudó como guía para ayudar a seleccionar una

herramienta que nos ayude a la extracción de los metadatos descriptivos de una

publicación científica.

Al tener una comparativa de 7 herramientas enfocadas a la extracción de metadatos a

partir de documentos de texto en PDF, tenemos fundamentos para seleccionar a

GROBID como la herramienta que nos permita realizar dicha extracción de las

metadatos a los documentos de texto en PDF a los que serán sometidos a nuestra

herramienta objetivo.


32

3.4. Comparison of Text Categorization Algorithms (Yong-feng & Yan-

ping, 2004)

Resumen

En este trabajo se presenta un resumen de los algoritmos de clasificación automática

de textos, más utilizados en la actualidad: Naive Bayes (NB), Vecinos más cercanos

(KNN), Máquinas de soporte vectorial (SVM) y Redes neuronales (NN).

A través de una descripción de los mismos, un análisis de ventajas y desventajas y una

comparación se puede conocer en resumen la forma de trabajo de cada algoritmo. Los

autores realizaron pruebas implementándolos, con las cuales evaluaron a los

algoritmos y pudieron conocer su desempeño en el campo practico.

De acuerdo a los resultados presentados, el desempeño mostrado por SVM fue el

mejor, cercano a los resultados de KNN.

En general el campo de acción semántica de estos algoritmos está muy limitado por su

naturaleza con la que fueron concebidos, pero pueden ser aplicados para resolver

problemas de clasificación en dominios cerrados.

De acuerdo a los autores, la implementación de un algoritmo hibrido podría presentar

un mejor desempeño, una tendencia inevitable que se ha presentado en otros

trabajos.

En el desempeño de los algoritmos no solo influye la implementación de este, sino los

parámetros de entrada, como serían los textos, provenientes del conjunto de

documentos a clasificar, la extracción de los textos, el tratamiento de los términos y

otros pre-procesamientos que se aplican a estos.

Similitud

De entre los algoritmos analizados, los algoritmos de NB, SVM y KNN sobresalen al

igual que este trabajo presentado, siendo de entre los más utilizados en la actualidad

para tareas de clasificación automática de textos.

En nuestro trabajo de investigación, se realzó la implementación de un enfoque

hibrido lineal, el cual ayudó a realizar la clasificación multinivel con base en la

taxonomía de la ACM.


33

3.5. A Regularized Linear Classifier for Effective Text Classification

(Nandanwar & Narasimha Murty, 2012)

Resumen

Los resultados individuales arrojados por los algoritmos de clasificación Maquinas de

Soporte Vectorial (SVM) y Naive Bayes (NB) han demostrado buenos desempeños,

debido a eso su popularidad que han sido utilizados en diversas aplicaciones.

En este trabajo presentan una nueva manera de mezclar ambos algoritmos de tal

forma que complementen y mejoren el desempeño de la clasificación.

De los resultados presentados se observa que el modelo hibrido propuesto, en

promedio tiene una precisión de 91.79% frente a los 88.77% arrojados por NB.

Mientras que el promedio de la precisión obtenida con SVM es de 91.78% frente al

93.36% obtenido con el método propuesto.

Las mejoras obtenidas se dan desde el pre-procesamiento de los textos, pasando por

la selección de los términos característicos y el cálculo de los valores utilizados como

pesos de cada término. De forma separada se aplican NB y SVM y al final los valores

resultantes forman parte del cálculo del método hibrido propuesto que mejora la

precisión de la clasificación resultante.

Similitud

La sencillez y buen desempeño de NB lo ha hecho muy popular para diversos trabajos

de clasificación de textos, o como para tomar sus resultados como punto de referencia

para compararlos con resultados de otros algoritmos.

Así mismo en las reglas de decisión de cada uno de los algoritmos, nos percatamos de

que SVM es un algoritmo más robusto en comparación con NB. La implementación de

ambos de forma separada da buenos resultados, no muy lejanos al enfoque hibrido

presentado en este trabajo, no desestimado.

En nuestro trabajo realizamos la implementación hibrida lineal del algoritmo de

Arboles de decisión + Bayes y de forma separada Arboles de decisión + SVM, los cuales

fueron sometidos a pruebas para determinar cuál de las implementaciones hibridas

propuestas arrojaba mejores resultados.

Estamos conscientes de que el pre procesamiento de los textos para poder ser objetos

de entrada a un algoritmo de clasificación es algo básico y que comienza a definir los

resultados de las implementaciones hibridas propuestas.


34

3.6. A hybrid text classification approach with low dependency on

parameter by integrating K-nearest neighbor and support vector

machine (Heng Wana, Hong Leeb, & Rajkumarb, 2012)

Resumen

En este trabajo los autores presentan un nuevo enfoque de clasificación de textos

llamado Nearest Neighbor-Support Vector Machine (SVM-NN), que resulta de la

combinación de los algoritmos Maquinas de Soporte Vectorial (SVM) y de Vecinos más

cercanos (KNN).

De SVM se toma el enfoque de entrenamiento que se aplica a un clasificador,

ayudando así a reducir los ejemplos de entrenamiento de clasificación de cada clase.

Por otro lado, de KNN utilizan el enfoque de decisión para realizar la clasificación

debido a su bajo costo de implementación y a su alto grado de efectividad.

El problema de KNN radica en la determinación del valor k, de tal manera que este

afecta directamente a la precisión de la clasificación, sin embargo, si este incrementa,

el desempeño de la clasificación podría verse afectado por el hecho de la cantidad de

vecinos utilizados.

La decisión de asignación de clases por parte de KNN, se da tras haber realizado el

cálculo de la distancia entre el elemento evaluado y el conjunto de vectores de las

diferentes clases proveniente de la implementación de SVM.

Similitud

La reducción de clases a través de SVM permite a un sistema de clasificación,

disminuir el espacio de decisión, permitiendo que clases más probables a participar

en una clasificación sean las que se tomen en cuenta para evaluarse a través de KNN,

con lo cual se ahorran recursos, pues en cualquiera de los enfoques de KNN, uno

contra uno o uno contra todos, el tamaño del corpus influye en el tiempo de

desempeño y costo del clasificador.

Si tomamos en cuenta de que la taxonomía de la ACM consta de más de 1000 clases,

con la implementación del enfoque de reducción de clases nos permite disminuir el

tiempo de clasificación de los documentos al someter a la decisión de la clase para un

documento, solo aquellas clases que sean más probables, lo que se traduce en el

ahorro de recursos, a comparación de que si implementáramos uno de los enfoques de

KNN en donde participarían todas las clases, tanto las poco probables como las de

mayor probabilidad en el pronóstico de la clase de un documento.


35

3.7. Multi-label Hierarchical Text Classification using the ACM

Taxonomy (Santos & Rodrigues, 2009)

Resumen

Generalmente las clasificaciones de texto que se realizan en muchos trabajos,

corresponden a la asignación de una clase a un documento dado un conjunto

determinado de clases, esta es una clasificación pequeña o ligera.

En este trabajo se realiza una clasificación multiclase, que según los autores definen

como más compleja en comparación a las clasificaciones pequeñas de texto, en donde

se asigna una sola clase a un documento.

La complejidad de esta tarea se incrementa al involucrar un conjunto de clases

ordenadas en una estructura jerárquica, utilizando los dos primeros niveles de la

taxonomía de la ACM1998 y un corpus formado a partir de la librería de la ACM y

utilizando las fichas bibliográficas de cada artículo científico.

Además se describe brevemente el pre-procesamiento aplicado al texto previo a que

sean aplicados diferentes algoritmos de clasificación, en este caso, los algoritmos de

Binary Relevance (BR), Label Powerset (LP) y Multi-Label k-Nearest Neighbor

(MLkNN).

Finalmente presentan los resultados de la evaluación del desempeño de los diferentes

clasificadores construidos, pero solamente en forma de gráfica.

Similitud

En nuestro trabajo, hemos utilizado la taxonomía de la ACM2012 como el conjunto de

clases ordenadas de forma jerárquica, abarcando no solo dos, sino hasta los seis

niveles de clasificación en los que se extiende la misma.

Al tener el conjunto de clases de la ACM2012 como dominio de conocimiento, de igual

forma hemos formado un corpus de forma manual a partir de la librería de la ACM,

pero a diferencia de este trabajo, en el nuestro realizamos la extracción de la

información a partir de los archivos de texto en PDF de los artículos científicos y no de

la ficha bibliográfica de los mismos que se encuentra disponible a través de la librería

online de la ACM.

De este trabajo tomamos en cuenta algunas etapas del pre-procesamiento para

implementarlas en el nuestro.


36

Finalmente, nosotros mostramos de forma explícita los resultados a los que llegamos

y los presentamos en tablas, en donde es más fácil conocer los valores de precisión y

recuerdo que se obtuvieron como desempeño de los algoritmos de clasificación

utilizados.

3.8. Support Vector Machines classification with a very large-scale

taxonomy (Tie-Yan, Yang, Hao, Hua-Jun, Zheng, & Wei-Ying, 2005)

Resumen

En este trabajo se presentan los resultados obtenidos de realizar una clasificación

jerárquica utilizando una taxonomía muy larga que se extiende hasta en 16 niveles.

La clasificación se apoya utilizando la taxonomía de Yahoo Directory como el conjunto

ordenado de clases, la cual está formada por cientos de miles de clases en las que

puede ser clasificada una página web.

Con una implementación del algoritmo de máquinas de soporte vectorial (SVM), este

trabajo aborda la clasificación de los documentos y obtienen resultados de efectividad

cuyos valores van en decremento por cada nivel. Para el primer nivel los resultados en

la gráfica se muestran por encima del 0.7, los cuales se reducen hasta valores por

debajo del 0.3 para el nivel 16 de la taxonomía.

Similitud

En nuestro trabajo de igual forma implementamos una taxonomía la cual es

considerablemente menor que la de este trabajo, sin embargo, los resultados

obtenidos con la implementación del algoritmo SVM arrojan valores de F1-Score

superiores al 0.9.

No obstante, el enfoque utilizado para realizar la clasificación en cada nivel, fue una

guía para la implementación del clasificador jerárquico de nuestro trabajo.

3.9. Automated Arabic Text Categorization Using SVM and NB

(Alsaleem, 2011)

Resumen

En este trabajo los autores realizan el experimento de clasificar texto a un nivel y con

un conjunto de siete categorías, aplicado a conjuntos de noticias en idioma árabe.


37

Los autores implementaron por separado los algoritmos de Maquinas de Soporte

Vectorial (SVM) y de Naive Bayes (NB).

La evaluación del desempeño de cada clasificador se realiza a través de las métricas de

precisión, recuerdo y F1-Score.

Los resultados arrojaron valores para F1-Score de hasta 0.96 para una clase,

utilizando SVM. Mientras que los valores de la misma métrica utilizando NB fueron de

hasta 0.94.

Similitud

En nuestro trabajo de igual forma decidimos implementar de forma separada los

algoritmos de SVM y NB, para que con base en los resultados arrojados por cada uno,

se pudiera decidir cuál de los dos arrojaba los mejores valores utilizando las mismas

métricas, esto con la finalidad de poder ser implementados finalmente en la

herramienta objetivo de nuestra investigación.

A diferencia de este trabajo, nosotros realizamos una clasificación jerárquica y el

idioma en el que realizamos nuestras evaluaciones es el idioma inglés.


38

3.10. Tabla comparativa

A continuación en la Tabla 5 se muestran en resumen las similitudes entre los

artículos mencionados dentro del Capítulo III y este trabajo de Tesis, como parte del

estado del arte.

Do

cum

ento

Ext

racc

ión

sec

uen

cial

de

text

o a

par

tir

de

text

o d

e ar

tícu

los

cien

tífi

cos

en

PD

F

Ext

racc

ión

de

met

adat

os

a p

arti

r d

e te

xto

de

artí

culo

s ci

entí

fico

s en

P

DF

Cla

sifi

caci

ón

jerá

rqu

ica

de

text

o

Cla

sifi

caci

ón

de

text

o

uti

liza

nd

o p

or

lo m

eno

s 2

al

gori

tmo

s d

e cl

asif

icac

ión

d

e fo

rma

sep

arad

a

Po

bla

do

on

toló

gico

Layout-aware text extraction from full-text PDF of scientific articles

GROBID: Combining Automatic Bibliographic Data Recognition and Term Extraction for Scholarship Publications

Evaluation of header metadata extraction approaches and tools for scientific PDF documents

Comparison of Text Categorization Algorithms

A Regularized Linear Classifier for Effective Text Classification

A hybrid text classification approach with low dependency on parameter by integrating K-nearest neighbor and support vector machine

Multi-label Hierarchical Text Classification using the ACM Taxonomy

Support Vector Machines classification with a very large-scale taxonomy

Automated Arabic Text Categorization Using SVM and NB


39

Clasificación automática de objetos de conocimiento con contenido no estructurado para el poblado semiautomático de ontologías multidimensionales

Tabla 5. Comparativa de los trabajos relacionados

CAPITULO IV Metodología de solución

para la extracción

automática de

información, clasificación

automática y poblado

ontológico semiautomático

de textos no estructurados

en PDF

C a p í t u l o I V . M e t o d o l o g í a d e s o l u c i ó n

41

4. Metodología de solución para la extracción automática de

información, clasificación automática y poblado ontológico

semiautomático de textos no estructurados en PDF La metodología de solución propuesta abarca la extracción automática de

información, la clasificación automática y el poblado ontológico semiautomático a

partir de textos no estructurados en PDF.

Como nos percatamos en la Tabla 5 referente a la comparativa de los trabajos

relacionados, en la actualidad hay herramientas que realizan alguna de las tareas

antes mencionadas, pero de manera separada.

La metodología de solución propuesta y que describimos a continuación, la podemos

englobar en tres etapas principales:

Figura 4. Metodología de solución propuesta

En la etapa de extracción nos enfocamos a la recuperación del texto secuencial y de los

metadatos de un artículo científico de manera automática.

En la etapa de clasificación abordamos desde el pre-procesamiento del texto obtenido

en la fase de extracción, el entrenamiento del clasificador y la clasificación automática

del texto, pasando por la evaluación del clasificador.

En la etapa del poblado ontológico realizamos la instanciación de los objetos de

conocimiento con sus respectivos metadatos recuperados en la fase de extracción y de

la clase obtenida para cada objeto de conocimiento, dentro de las ontologías que

modelan los objetos de conocimiento y que forman parte de la Ontología de Memoria

Organizacional (González Franco, 2012).

A continuación se describen a detalle las etapas de la metodología de solución

propuesta.

Extracción Clasificación Poblado

ontológico


42

4.1. Describiendo la metodología

4.1.1. Etapa 1. Extracción

En esta fase de la metodología tenemos como entrada el objeto de conocimiento de

texto en PDF, es decir, un artículo científico sin restricciones de seguridad con formato

y con las secciones más representativas conocidas, como son el título, autores,

resumen y palabras clave. En algunos casos las dos últimas secciones no se

encuentran presentes en los objetos de conocimiento. Cabe mencionar que la

estructura y el orden de los mismos no siempre es la misma y varía la posición de los

mismos, de ahí que se les denomine objetos de conocimiento con contenido no

estructurado.

4.1.1.1. Extracción secuencial del texto

Extraer el texto secuencial de un documento PDF forma manual, puede generar una

extracción de texto sin secuencia y sin sentido. La dificultad de extraer texto de un

PDF, se incrementa cuando está distribuido a varias columnas y si no se tiene cuidado

en la selección manual del texto que se desea extraer, se puede llegar a extraer texto

lineal no secuencial, es decir, texto que está en la misma línea pero en diferentes

columnas.

Realizar la extracción del texto de un documento PDF, de forma automática resulta

una tarea trivial. Este proceso es llevado a cabo con la implementación de la librería

LA-PDFText (Ramakrishnan, Patnia, Hovy, & Burns, 2012). Con esta librería podemos

extraer el texto de un documento de texto en PDF sin importar si la distribución se

encuentra a una columna, dos columnas, etc., e incluso sin importar si hay objetos,

como tablas o imágenes, incrustados en el texto.

Una vez procesado el documento de texto en PDF por la librería LA-PDFText, el

resultado arrojado es un documento de texto plano, el cual es sometido al pre-

procesamiento.

4.1.1.2. Extracción de las secciones del texto

Los objetos de conocimiento tienen algunas secciones representativas que lo definen,

por ejemplo el título, autores, palabras clave y resumen.

La identificación manual de estas secciones no es mayor problema, sin embargo la

identificación automática de estas secciones presenta varias dificultades,

especialmente a la ausencia de una estructura definida y adoptada para todas las

publicaciones.

La identificación de estas secciones puede abordarse desde distintos enfoques, aquí

mencionados dos. El primero es a través de expresiones regulares, donde las reglas


43

coincidan con el texto. El otro enfoque es convirtiendo el texto con formato de un

documento PDF a una representación XML, donde obtenemos el texto etiquetado con

descriptores sobre la posición del texto en una página del documento, el tipo de fuente

y el tamaño, estas descripciones a su vez deben ser procesadas para que a partir de la

posición del texto dentro de las páginas del documento, los tamaños de fuente y

algunas expresiones regulares se puedan identificar los metadatos que describen a un

documento de texto en PDF.

De acuerdo al estado del arte revisado, en (Lipinski, Yao, Breitinger, Beel, & Gipp,

2013) se presenta un comparativo de diversas herramientas existentes para la

identificación de metadatos de artículos científicos en PDF. La librería GROBID (Lopez,

2009) resultó ser la mejor evaluada para la identificación de título, autores, palabras

clave, resumen, etc., a partir de un artículo científico en PDF.

Una vez procesado el documento de texto en PDF por la librería GROBID, el resultado

arrojado es un documento XML, el cual contiene dentro de etiquetas las secciones

identificadas del documento. A partir de este archivo podemos tener los metadatos,

entre ellos, el resumen de la publicación, el cual es sometido al pre-procesamiento.

4.1.2. Etapa 2. Clasificación

Para poder llevar a cabo la tarea de clasificación automática de texto es necesario

realizar un entrenamiento del clasificador que sirva para realizar las predicciones de

las clases de nuevos objetos a clasificar. Las entradas para el clasificador son el

conjunto de clases en las que se desea clasificar, el conjunto de entrenamiento y el

texto que se desea clasificar.

Es necesario que el texto de entrada para el entrenamiento del clasificador y el texto

que se desea clasificar sean sometidos a un pre-procesamiento que nos devuelva a

partir de un texto plano, la vectorización del mismo con el enfoque de n-gramas

deseado.

El pre-procesamiento al que hacemos referencia se encuentra descrito en el punto 2.9

de este trabajo de tesis. El texto a pre-procesar pasa por:

- Normalización de términos. Se convierte el texto a minúsculas y se reemplazan

las vocales con acento por vocales sin ninguna anotación extra.

- Eliminación de stopwords. Se eliminan las palabras vacías incluidas en el

NLTK.

- Identificación de familias léxicas. A través del algoritmo de Porter

implementado en NLTK, se reducen conjuntos de palabras comunes a su raíz.

- Segmentación. El texto es segmentado en n-gramas


44

- Vectorización. Los n-gramas resultado de la segmentación, son divididos a

través de comas “,”.

En la Figura 5 se muestra el esquema de clasificación y pruebas de un clasificador.


45

Figura 5. Esquema para la construcción y pruebas de un clasificador


46

4.1.2.1. Entrenamiento

El entrenamiento del clasificador se realiza con el resultado del pre-procesamiento de

los textos de los objetos de conocimiento que forman parte del conjunto de

entrenamiento.

Por ejemplo si se tienen las clases: A, B y C, el entrenamiento de A se realiza con el pre-

procesamiento de los documentos clasificados en A, el entrenamiento de B se realiza

con el pre-procesamiento de los documentos clasificados en B y el entrenamiento de C

se realiza con el pre-procesamiento de los documentos clasificados en C.

De esta manera se tienen vectores para cada clase A, B y C, los cuales son uno de los

parámetros de entrada del clasificador, y con los que el algoritmo de clasificación

implementado podrá realizar las predicciones de clases de los objetos a clasificar.

4.1.2.2. Clasificador

El clasificador es la implementación de uno o varios algoritmos de clasificación con la

finalidad de poder predecir la clase de pertenencia a objetos de conocimiento no

clasificados.

Una vez que se tiene pre-procesado el texto del conjunto de entrenamiento y el texto

que se desea clasificar, son sometidos al algoritmo de clasificación implementado, el

cual dará como resultado la clase de pertenencia del texto que se sometió a

clasificación.

4.1.2.3. Pruebas y evaluación del clasificador

Las pruebas a las que es sometido un clasificador, consisten en someter un conjunto

de documentos pre-clasificado y relacionados con el conjunto de entrenamiento, a una

clasificación a través del clasificador.

Los resultados de las clases obtenidas son comparadas con las clases que los

documentos tenían en el conjunto pre-clasificado y sometidas a las métricas de

precisión, recuerdo y F1-Score para medir el desempeño del clasificador.

4.1.3. Etapa 3. Poblado ontológico

El poblado ontológico se refiera a la instanciación de los objetos de conocimiento,

dentro de la ontología que los modela y que forma parte de la Ontología de Memoria

Organizacional.

La instanciación se los objetos de conocimiento se realiza con los metadatos obtenidos

en la Etapa de Extracción, presentada en este trabajo de Tesis.


47

Las instancias servirán para ampliar o mejorar las recomendaciones de objetos de

conocimiento que realiza la herramienta T-GUIA.

CAPITULO V Implementación de la

metodología de solución

C a p í t u l o V . I m p l e m e n t a c i ó n d e l a m e t o d o l o g í a

49

5. Implementación de la metodología de solución En este capítulo se muestra y explica la implementación de la metodología de solución

propuesta para llevar a cabo la extracción, clasificación y poblado ontológico de

documentos con contenido no estructurado de texto en PDF.

En la podemos observar gráficamente la implementación de la metodología de

solución propuesta para realizar la extracción, clasificación y poblado ontológico de

documentos con contenido no estructurado de texto en PDF.


50

Figura 6. Esquema de la implementación de la metodología de solución propuesta


51

5.1. Formación del corpus

Se creó un corpus de objetos de conocimiento de forma manual a partir de la librería

de la ACM.

La ACM es una organización a nivel mundial que reúne a los profesionales,

estudiantes, investigadores y personas interesadas en la ciencia de la computación.

Esta organización cuenta con miembros a nivel mundial y es reconocida como la

asociación número uno para los profesionales en computación.

Dentro de los recursos ofertados por la ACM, podemos encontrar: publicaciones,

artículos científicos, cursos y libros online, así como conferencias, noticias acerca de la

computación, bolsa de empleo, blogs de discusión, revistas científicas, entre otros.

La librería de la ACM utiliza un esquema de clasificación basado en una taxonomía, la

cual está formada por 2402 clases divididas en hasta 6 niveles jerárquicos.

El primer nivel de la taxonomía de la ACM, está identificado por una letra del alfabeto,

que va de la A a la N, acompañado de una etiqueta que representa el nombre de la

clase.

La taxonomía de la ACM2012 está disponible para su descarga, de entre los formatos

disponibles resalta el XML, en donde vienen las clases y relaciones jerárquicas de la

taxonomía. El manejo de la misma a través del XML resulta complejo, por lo que se

procedió a convertir el XML a un recurso disponible en una tabla de MySQL

denominada taxonomia_acm y como recurso OWL.


52

Figura 7. Vista parcial de la tabla taxonomia_acm, la cual modela la taxonomía de la ACM

La ACM brinda acceso al público a su librería para consultar la ficha bibliográfica de

algunas publicaciones y para la obtención del objeto de conocimiento completo en

formato PDF hay que ser miembro de la ACM.

A través de la librería online de la ACM, se puede navegar entre las diversas clases que

conforman la taxonomía y las clases finales despliegan un listado de hasta las últimas

10 publicaciones (ver Figura 8) que están anotadas en esta clase. Por cada publicación

se tiene acceso a la ficha bibliográfica de la misma, en donde podemos conocer: título,

autores, palabras clave, resumen, foro de publicación, año de publicación y si el

usuario que consulta la librería online es socio de la ACM, podemos acceder al PDF del

objeto de conocimiento.


53

Figura 8. Captura de pantalla de una clase final de la librería online de la ACM (Combinatorial algorithms - ACM DL)

Para la conformación del corpus, se realizó una navegación en la librería de la ACM,

por las más de 1000 clases de la taxonomía de la ACM, se recopiló el título, autores,

palabras clave, resumen, foro de publicación, año de publicación, estos datos fueron

almacenados en una tabla de MySQL llamada tesis_papers (Figura 9), en donde cada

publicación es identificada por un número entero auto-incrementable, el cual se tomó

como referencia para nombrar al archivo PDF de la publicación, en los casos en los

que el PDF estaba disponible.


54

Figura 9. Vista parcial de la tabla tesis_papers en la que se almacenaron los datos de los artículos recuperados en la formación del corpus

La cantidad total de publicaciones que integran el corpus formado es de 5713

articulos.

5.1.1. Extracción

A partir de las publicaciones que integran el corpus formado manualmente, se

procedió a extraer el texto secuencial completo y los metadatos de cada publicación,

tal y como se describe en el punto 4.1.1 de este trabajo de Tesis.

El archivo que contiene el texto secuencial es almacenado para su posterior uso en la

fase de entrenamiento.

Mientras que el archivo XML que contiene los metadatos extraídos del documento

PDF, son almacenados en una tabla en MySQL denominada papers_up, muy similar a la

tabla tesis_papers. La diferencia es que la información de tesis_papers fue extraída de

forma manual y la información almacenada en papers_up es la que fue extraída de

forma automática.


55

5.1.2. División del corpus para obtener el conjunto de entrenamiento y el

conjunto de pruebas

Para poder evaluar el desempeño del clasificador, el corpus conformado manualmente

a través de los recursos obtenidos de la ACM, fue dividido en un porcentaje de 70%

para el conjunto de entrenamiento y 30% para el conjunto de pruebas.

Como hay clases que tienen menos de 10 publicaciones, se procedió a crear una regla

de selección para los conjuntos de entrenamiento y prueba por cada clase y quedó

como se muestra en la Tabla 6.

Cantidad de artículos / Clase

Cantidad de

artículos para

el conjunto de

entrenamiento

Cantidad de

artículos para

el conjunto de

pruebas

2 1 1

3 2 1

4 3 1

5 3 2

6 4 2

7 4 3

8 5 3

9 6 3

10 7 3

Tabla 6. Reglas de selección por clase de las publicaciones para formar los conjuntos de entrenamiento y pruebas


56

5.2. Pre-procesamiento del conjunto de entrenamiento y

representación vectorial

El texto secuencial completo y el resumen extraído con los demás metadatos de cada

publicación, es sometido al pre-procesamiento descrito en el punto 2.9 del presente

trabajo de Tesis, hasta obtener la representación vectorial de cada objeto de

conocimiento.

5.3. Entrenamiento

Como la clasificación que se realiza en este trabajo de Tesis es jerárquica, con la

utilización de una taxonomía como el conjunto ordenado de clases, el entrenamiento

fue realizado por nivel para cada clase.

El entrenamiento se realiza con el texto del resumen que fue extraído de los PDF.

Si partimos de que la taxonomía de la ACM tiene hasta seis niveles, el entrenamiento

para cada una de las clases del primer nivel, se realiza con las publicaciones que

pertenecen a cada clase o a una de las clases hipónimas de la misma, tomadas del

conjunto de entrenamiento. De igual forma, para realizar el entrenamiento de cada

una de las clases del segundo nivel, se realiza con las publicaciones que pertenecen a

cada clase o a una de las clases hipónimas de la misma tomadas del conjunto de

entrenamiento. De la misma manera se realiza el entrenamiento para los niveles

siguientes hasta llegar a las clases finales, en donde el entrenamiento de cada clase

final se realiza solamente con las publicaciones que pertenecen a esta clase y que son

tomadas del conjunto de entrenamiento.

Cada vez que se realiza el entrenamiento en un nivel, la representación vectorial de

cada clase es tratada como un conjunto y sometida a la operación de diferencia de

conjuntos, de tal manera de que cada clase tenga una lista de palabras asociada con

palabras que solo aparezcan en la lista de palabras de esta clase y no de las demás

clases del mismo nivel.

Por ejemplo, si tenemos las clases Rojo, Verde y Azul, inicialmente la representación

vectorial de cada una, que es tratada como conjunto, tiene una lista de palabras

asociada, la cual es sometida a la operación de diferencia contra las listas de palabras

de las demás clases que se encuentran al mismo nivel del entrenamiento.

Por ejemplo, para la clase Rojo, la operación de diferencia quedaría como sigue:

Mientras que para la clase Verde, la operación de diferencia quedaría como sigue:


57

Y de la misma manera para la clase Azul, la operación se diferencia quedaría como

sigue:

En la Tabla 7 se tiene una representación de las listas de palabras iniciales de las

clases Rojo, Verde y Azul, las cuales son sometidas a las operaciones de diferencia

correspondientes y finalmente tenemos una lista de palabras única asociadas a cada

clase.

Rojo Verde Azul

Lista de palabras inicial, asociadas a las clases

rojo, verde,

lápices

plumas, azul,

verde

rojo, lápices,

plumas, azul

Operación de diferencia

Rojo=Rojo-

Verde-Azul

Verde=Verde-

Rojo-Azul

Azul=Verde-

Rojo

Lista de palabras final, asociadas a las clases

rojo verde azul

Tabla 7. Representación de las listas de palabras iniciales y finales, asociadas a cada clase

La lista de palabras final de la operación de diferencia para cada clase, es la

representación vectorial del entrenamiento para cada una.

La lista de palabras final asociada a cada clase en un mismo nivel del entrenamiento,

es uno de los atributos de entrada al clasificador.


58

5.4. Pre-procesamiento del texto a clasificar y representación vectorial

En este caso el texto a clasificar está representado por todos los objetos de

conocimiento que forman parte del conjunto de pruebas.

El texto secuencial completo y el resumen extraído con los demás metadatos de cada

publicación a clasificar, es sometido al pre-procesamiento descrito en el punto 2.9 del

presente trabajo de Tesis, hasta obtener la representación vectorial de cada objeto de

conocimiento que se desea clasificar.

Una vez que tenemos la representación vectorial del objeto de conocimiento que

deseamos clasificar, es pasado al clasificador como otro atributo de entrada.

5.5. Clasificador y texto clasificado

La función del clasificador automático es predecir la clase de un objeto no clasificado,

con base en un entrenamiento.

Tanto para el algoritmo de Bayes como para el de SVM, los atributos de entrada son: el

conjunto de texto de entrenamiento y el texto que se desea clasificar.

En el presente trabajo se Tesis se implementó un clasificador hibrido lineal tomando

como base el algoritmo de Arboles de decisión + (Bayes o SVM). Además se implementó

el pre-procesamiento con unigramas y con bigramas.

El algoritmo de Arboles de decisión solo es utilizado para evaluar si la clase que arroja

Bayes o SVM, en el nivel que se está evaluando en la rama del árbol es una clase final.

Si se trata de una clase final de la taxonomía, el objeto a clasificar es anotado en esta

clase. Si no se trata de una clase final, el texto del documento a clasificar es sometido

de nueva cuenta al clasificador con Bayes o SVM pero ahora con el entrenamiento

hipónimo de las clases cuya clase hiperónima es la que se obtuvo en el último nivel

que se había evaluado, el resultado de Bayes o SVM en este nivel es nuevamente

evaluado por la rama correspondiente al árbol de decisión, así hasta encontrar la clase

final a la que debe ser anotado el texto que se desea clasificar.

Una vez que se ha identificado una clase final del texto a clasificar, la clasificación

automática del objeto de conocimiento ha concluido.

5.5.1. Variaciones del clasificador

Los elementos que tenemos para realizar la construcción del clasificador son:

- Algoritmos de clasificación


59

o Bayes

o SVM

- Características del artículo científico

o Resumen

o Texto completo

- Enfoque se selección de n-gramas (keywords) a partir de las características del

artículo científico

o Unigramas

o Bigramas

Si realizamos una combinación simple de los algoritmos y las características, tenemos

como resultado cuatro combinaciones:

Bayes SVM

Resumen x x

Texto completo x x

Tabla 8. Combinación de los algoritmos de clasificación y las características de los artículos científicos

Y si esas cuatro combinaciones las combinamos a su vez con los dos enfoques de

selección de los n-gramas, tenemos como resultado, ocho combinaciones

Bayes +

Resumen

Bayes + Texto

completo

SVM +

Resumen

SVM + Texto

completo

Bigramas x x x x

Unigramas x x x x

Tabla 9. Combinación de los algoritmos de clasificación con las características de los artículos científicos y los enfoques de selección de n-gramas

5.6. Poblado ontológico

El poblado ontológico se realiza a través de un módulo desarrollado en Python, el cual

crea un archivo OWL siguiendo la lógica del lenguaje para el mapeo entre bases de

datos y ontologías, R2O (Barrasa, Corcho, & Gómez-Pérez, 2004). El OWL modela los

objetos de conocimiento, los autores, las clases de la taxonomía de la ACM, la relación


60

de autoría entre los objetos de conocimiento y la relación de clasificación entre los

objetos de conocimiento y las clases de la taxonomía de la ACM.

El poblado referente a los objetos de conocimiento se realiza con los metadatos

obtenidos en la fase de extracción, los cuales son las propiedades que identifican a

cada objeto de conocimiento, realizando la instancia correspondiente del objeto de

conocimiento con sus respectivas relaciones.

5.7. Planeación de las pruebas

El corpus formado manualmente tuvo un total de 5713 objetos de conocimiento. Tras

una revisión se identificaron artículos científicos duplicados, es decir, que estaban

clasificados en dos o más clases. Los artículos científicos duplicados fueron eliminados

y solo se dejó un ejemplar de cada objeto de conocimiento, teniendo finalmente un

total de 4573 objetos de conocimiento en el corpus.

Los 4573 objetos de conocimiento del corpus sin duplicados, fueron divididos en un

70% para el conjunto de entrenamiento y el 30% para el conjunto de pruebas del

clasificador, teniendo un total de 3137 y 1339 artículos científicos para cada conjunto,

respectivamente.

Como se mostró en el punto 5.5.1 de este trabajo de Tesis, hay ocho variaciones del

clasificador. Por cada variación del clasificador fue sometido el conjunto de pruebas a

las pruebas del clasificador.

En total, por las ocho variaciones del clasificador se realizaron 10712 pruebas.

CAPITULO VI Pruebas y resultados

C a p í t u l o V I . P r u e b a s y r e s u l t a d o s

62

6. Pruebas y resultados En este capítulo se presentan los resultados y el análisis de los mismos, obtenidos de

la aplicación de la metodología de solución propuesta para la extracción, clasificación

y poblado ontológico de documentos con contenido no estructurado de texto en PDF,

obtenidos de la aplicación de la implementación de la metodología propuesta al

corpus formado manualmente y sin objetos de conocimiento duplicados.

6.1. Resultados de las variaciones del clasificador

6.1.1. Bayes + Texto completo + Bigramas

En esta variación del clasificador, se utilizó la implementación hibrida lineal de los

algoritmos de clasificación Arboles de decisión + Bayes, utilizando el texto completo de

los objetos de conocimiento a clasificar y la selección de bigramas a partir del texto

completo, como representación vectorial del texto de cada uno de los objetos de

conocimiento del conjunto de pruebas.

Los resultados obtenidos por cada nivel con esta variación del clasificador fueron los

que se muestran en la Tabla 10.

Bayes Precisión Recuerdo F1-Score

N1 0,4 0,37 0,36

N2 0,18 0,19 0,16

N3 0,02 0,04 0,02

N4 0,02 0,04 0,02

N5 0 0 0

N6 0 0 0

Tabla 10. Resultados de las pruebas con la variación del clasificador: Bayes + Texto completo + Bigramas

6.1.2. SVM + Texto completo + Bigramas


algoritmos de clasificación Arboles de decisión + SVM, utilizando el texto completo de

los objetos de conocimiento a clasificar y la selección de bigramas a partir del texto




63



SVM Precisión Recuerdo F1-Score

N1 0,42 0,35 0,36

N2 0,28 0,21 0,21

N3 0,17 0,16 0,14

N4 0,11 0,14 0,11

N5 0,17 0,24 0,19

N6 0,25 0,35 0,27

Tabla 11. Resultados de las pruebas con la variación del clasificador: SVM + Texto completo + Bigramas

6.1.3. Bayes + Resumen + Bigramas


algoritmos de clasificación Arboles de decisión + Bayes, utilizando el texto del resumen

de los objetos de conocimiento a clasificar y la selección de bigramas a partir del texto

del resumen, como representación vectorial del texto de cada uno de los objetos de





N1 0,88 0,69 0,73

N2 0,62 0,52 0,52

N3 0,23 0,24 0,21

N4 0,06 0,16 0,08

N5 0,13 0,26 0,16

N6 0 0 0

Tabla 12. Resultados de las pruebas con la variación del clasificador: Bayes + Resumen + Bigramas


64

6.1.4. SVM + Resumen + Bigramas


algoritmos de clasificación Arboles de decisión + SVM, utilizando el texto del resumen

de los objetos de conocimiento a clasificar y la selección de bigramas a partir del texto

del resumen, como representación vectorial del texto de cada uno de los objetos de





N1 0,93 0,64 0,74

N2 0,76 0,54 0,61

N3 0,66 0,48 0,53

N4 0,54 0,47 0,47

N5 0,52 0,56 0,52

N6 0,32 0,38 0,33

Tabla 13. Resultados de las pruebas con la variación del clasificador: SVM + Resumen + Bigramas

6.1.5. Bayes + Texto completo + Unigramas


algoritmos de clasificación Arboles de decisión + Bayes, utilizando el texto completo de

los objetos de conocimiento a clasificar y la selección de unigramas a partir del texto






N1 0,42 0,35 0,36

N2 0,25 0,21 0,2


65

N3 0,07 0,09 0,07

N4 0,02 0,05 0,02

N5 0,01 0,05 0,02

N6 0 0 0

Tabla 14. Resultados de las pruebas con la variación del clasificador: Bayes + Texto completo + Unigramas

6.1.6. SVM + Texto completo + Unigramas


algoritmos de clasificación Arboles de decisión + SVM, utilizando el texto completo de

los objetos de conocimiento a clasificar y la selección de unigramas a partir del texto






N1 0,42 0,35 0,36

N2 0,28 0,21 0,21

N3 0,17 0,16 0,14

N4 0,11 0,14 0,11

N5 0,17 0,24 0,19

N6 0,25 0,35 0,27

Tabla 15. Resultados de las pruebas con la variación del clasificador: SVM + Texto completo + Unigramas

6.1.7. Bayes + Resumen + Unigramas


algoritmos de clasificación Arboles de decisión + Bayes, utilizando el texto del resumen

de los objetos de conocimiento a clasificar y la selección de unigramas a partir del

texto del resumen, como representación vectorial del texto de cada uno de los objetos

de conocimiento del conjunto de pruebas.


66




N1 0,88 0,68 0,73

N2 0,61 0,51 0,52

N3 0,23 0,24 0,21

N4 0,06 0,16 0,08

N5 0,12 0,24 0,14

N6 0 0 0

Tabla 16. Resultados de las pruebas con la variación del clasificador: Bayes + Resumen + Unigramas

6.1.8. SVM + Resumen + Unigramas


algoritmos de clasificación Arboles de decisión + SVM, utilizando el texto del resumen

de los objetos de conocimiento a clasificar y la selección de unigramas a partir del

texto del resumen, como representación vectorial del texto de cada uno de los objetos

de conocimiento del conjunto de pruebas.




N1 0,75 0,32 0,41

N2 0,63 0,25 0,31

N3 0,49 0,2 0,24

N4 0,33 0,2 0,22

N5 0,47 0,46 0,43

N6 0,64 0,45 0,5

Tabla 17. Resultados de las pruebas con la variación del clasificador: SVM + Resumen + Unigramas


67

6.2. Análisis de los resultados de las variaciones del clasificador

Los resultados obtenidos en cada variación del clasificador, son diferentes

dependiendo de la característica del objeto de conocimiento y de la selección de los n-

gramas utilizada. En la Tabla 18 podemos ver en resumen, los promedios que arrojo

cada una de las variaciones del clasificador sometida a las pruebas.

Precisión Recuerdo F1-Score

Bayes + Texto completo +

Bigramas 0,12 0,13 0,11

SVM + Texto completo +

Bigramas 0,24 0,25 0,22

Bayes + Texto completo +

Unigramas 0,15 0,15 0,13

SVM + Texto completo +

Unigramas 0,23 0,24 0,21

Bayes + Resumen +

Bigramas 0,38 0,37 0,34

SVM + Resumen +

Bigramas 0,62 0,51 0,53

Bayes + Resumen +

Unigramas 0,38 0,37 0,34

SVM + Resumen +

Unigramas 0,55 0,31 0,35

Tabla 18. Promedios de los resultados de las pruebas de las ocho variaciones del clasificador

Los resultados de las métricas utilizando el texto completo + bigramas, el algoritmo

que arrojo los mejores resultados fue el de SVM.

Los resultados de las métricas utilizando el texto completo + unigramas, el algoritmo

que arrojo los mejores resultados fue el de SVM.


68

Los resultados de las métricas utilizando el resumen + bigramas, el algoritmo que

arrojo los mejores resultados fue el de SVM.

Los resultados de las métricas utilizando el resumen + unigramas, el algoritmo que

arrojo los mejores resultados fue el de SVM.

De acuerdo a los resultados, las variaciones del clasificador que utilizaron el algoritmo

de SVM, fueron las que arrojaron los mejores valores en las métricas de evaluación del

clasificador.

Y de acuerdo a los resultados, la variación del clasificador que arrojo las mejores

métricas de evaluación del clasificador, fue la de SVM + Resumen + Bigramas.

CAPITULO VII Conclusiones

C a p í t u l o V I I I . A n e x o s

70

7. Conclusiones De acuerdo a los resultados de las pruebas de las ocho variaciones del clasificador,

podemos concluir que la mejor variación del clasificador fue la de SVM + Resumen +

Bigramas.

Si bien los valores de las métricas en la evaluación de cada variación del clasificador

son por debajo del 0.8, estos pueden generarse debido a:

- La clasificación que realiza la ACM es de forma manual, de ahí que se

identificaron artículos científicos duplicados, es decir, clasificados en más de

una clase.

- Puede que la clasificación manual de la ACM sea correcta para algunos

artículos científicos que no fueron clasificados correctamente y una de las

causas es que el contenido del texto del artículo científico, tiene una gran

frecuencia de keywords que son relevantes para otras clases. Por ejemplo:

o si tenemos dos categorías (colores y figuras)

o un artículo con el título “los colores de las figuras”, el cual está

clasificado manualmente en la clase “colores”

o la palabra figuras tiene una mayor frecuencia en el texto del artículo

o es sometido al clasificador, la clase resultante sería “figuras” y no

colores, debido a la alta frecuencia de la palabra figuras.

- Los artículos duplicados.

Con los resultados de las clases pronosticadas por el clasificador y las clases esperadas

para los elementos del conjunto de pruebas, llegamos a la siguiente hipótesis.

7.1. Hipótesis

Se observó que múltiples clases pronosticadas por el clasificador en comparación con

las clases esperadas de los elementos del conjunto de pruebas, tenían una ligera

variación en el último nivel.

Es decir, los primeros niveles eran los mismos en las clases pronosticadas y las clases

esperadas, pero el último nivel era diferente.

Por ejemplo:

- Tenemos un artículo pre-clasificado en: A.1.1

- El resultado del clasificador una vez sometido el mismo artículo arrojo la clase:

A.1.6

- Identificamos que el primer nivel es el mismo (A), el segundo nivel es el mismo

(A.1) pero el último nivel es diferente.


71

Esta diferencia pudo haber sido generada por una ligera variación en la coincidencia

de las keywords del artículo a clasificar y las clases que participan en la clasificación

en el nivel indicado, con una palabra que tenga el artículo y que sea más relevante

para una clase del mismo nivel y no sea relevante para la clase correcta, el resultado

en el último nivel será una clase errónea.

7.2. Comprobación de la hipótesis

Para comprobar la hipótesis tomamos los resultados arrojados por la mejor variación

del clasificador (SVM+Abstract+Bayes) y comparamos nivel por nivel la clase arrojada

por el clasificador con la clase de la pre-clasificación a la esta anotado el artículo.

En los casos donde los la clase pronosticada y la clase pre-clasificada en los primeros

niveles eran las mismas pero el último nivel era diferente, realizamos el reemplazo del

último nivel incorrecto con el último nivel correcto.

Por ejemplo, si tenemos un objeto de conocimiento preclasificado en: A.1.1 y el

pronóstico del clasificador fue A.1.6, observamos que los primeros dos niveles son los

mismos, pero el ultimo nivel cambia, realizamos el cambio de la clase del ultimo nivel

en la clase pronosticada por la clase del ultimo nivel de la clase pre-clasificada, a

través de la verificación como sigue:

Verificar que el Nivel 1 sea el mismo en la clase pronosticada y la clase pre-

clasificada

Verificar que el Nivel 2 sea el mismo en la clase pronosticada y la clase pre-

clasificada

Verificar que el Nivel 3 sea diferente en la clase pronosticada y la clase pre-

clasificada

o Si la última clase es diferente, entonces procedemos a realizar el cambio

en la clase pronosticada por la clase pre-clasificada

Las clases resultantes con los cambios propuestos en la hipótesis, arrojaron los

resultados que se presentan en la Tabla 19 una vez que fueron evaluados con las

métricas:


N1 0,93 0,64 0,74

N2 0,76 0,54 0,61

N3 0,76 0,56 0,61


72

N4 0,83 0,71 0,74

N5 0,86 0,88 0,86

N6 0,9 0,93 0,91

Tabla 19. Resultados de la clasificación con la variación del ultimo nivel

Comparando los promedios de los resultados arrojados por la versión del clasificador

que arrojó los mejores valores en la evaluación de las variaciones de los clasificadores,

con los promedios obtenidos en la comprobación de la hipótesis, podemos observar

en la Tabla 20 que hubo una notable mejoría en los resultados, una vez comprobada la

hipótesis.


Resultado 0,62 0,51 0,53

Hipótesis 0,84 0,71 0,75

Tabla 20. Comparativa de los resultados promedios de la variación del clasificador que arrojó las mejores puntuaciones y de los obtenidos en la comprobación de la hipótesis

7.3. Conclusiones finales

El desempeño del algoritmo de SVM arrojó los mejores resultados, al igual que en

algunos de los trabajos del estado del arte.

Además de que el enfoque de selección de las keywords a través de los bigramas

ayudo al clasificador a tener mejores resultados, los bigramas ayudan a contextualizar

al clasificador. Pues una secuencia de 2 términos en un contexto específico siempre va

a ser la misma.

Las clases finales de la taxonomía de la ACM 2012 al mismo nivel, son muy cercanas

respecto a los temas que tratan, por lo que a un nivel tan específico, una leve variación

en las keywords del objeto de conocimiento a clasificar podría suponer una

clasificación de último nivel incorrecta.

La lista de palabras asociadas a cada clase, fue solo de palabras positivas, la

implementación de palabras negativas podría ayudar a mejorar el desempeño del

clasificador.


73

7.4. Aportaciones

Se cuenta con una metodología y la implementación de la misma que permite realizar

la extracción automática, clasificación automática y poblado ontológico

semiautomático de documentos con contenido no estructurado de texto en PDF.

Se cuenta con un modelo de clasificación jerárquico que puede ser adaptado a otros

dominios de conocimiento.

7.4.1. Interfaz web para la implementación de la metodología

Se diseñó una interfaz web para la implementación de la variación del clasificador que

arrojó los mejores resultados, con la finalidad de brindar al usuario una interfaz

gráfica de la implementación de la metodología de solución propuesta.

En la página principal (Figura 10) de la interfaz web se tiene un formulario en donde

se puede seleccionar un artículo científico en idioma inglés de texto en PDF y sin

restricciones de seguridad.

.

Figura 10. Captura de pantalla de la página principal de la herramienta construida con interfaz web

Una vez seleccionado el documento PDF y al presionar el botón “Procesar”, comenzará

el proceso automático de extracción, clasificación y poblado ontológico a partir del

objeto de conocimiento seleccionado.


74

Figura 11. Captura de pantalla de la página del resultado del procesamiento de la herramienta construida con interfaz web

Una vez terminado el proceso automático, se puede observar en una segunda página

(Figura 11) el resultado de la extracción de los metadatos del objeto de conocimiento,

así como la clase pronosticada por el clasificador.

7.5. Trabajos futuros

Mejorar la generación de las listas de palabras asociadas a las clases, en base al corpus

de entrenamiento del clasificador.

Utilizar palabras negativas en la lista de palabras asociadas a las clases que se utilizan

para el entrenamiento del clasificador.

Realizar la clasificación de objetos de conocimiento de texto de otros dominios de

conocimiento.

Realizar la clasificación automática de objetos de conocimiento de texto de múltiples

dominios de conocimiento

CAPITULO VIII Anexos


76

8. Anexos

8.1. Anexo 1. Resultados del clasificador SVM+Resumen+Bigramas

En la Tabla 21 se muestran los resultados obtenidos utilizando el corpus de pruebas y

a variación del clasificador SVM + Resumen + Bigramas, que fue el que arrojó los

mejores valores en las métricas de evaluación.

La primera columna es el identificador del objeto de conocimiento, la segunda

muestra la clase obtenida por el clasificador y la última columna muestra la clase a la

que el objeto de conocimiento pertenece en la librería digital de la ACM, también

conocida como esperada.

ID del objeto de conocimiento

Clase pronosticada Clase esperada

2 A.1.2 A.1.1 5 D.2.4.1 A.1.1 9 A.1.6 A.1.1 13 I.1.2.2 A.1.2 17 A.1.1 A.1.3 18 A.1.1 A.1.3 21 D.2.2.1 A.1.3 26 L.11.4.7 A.1.4 29 A.1.5 A.1.4 32 A.1.5 A.1.5 35 A.1.2 A.1.6 39 D.7.7 A.1.6 41 A.1.1 A.1.6 46 D.8.12 A.2.1 50 A.2.3 A.2.1 51 A.2.8 A.2.1 54 A.2.3 A.2.3 57 D.3.1.1 A.2.3 63 A.2.8 A.2.3 66 A.2.5 A.2.4 69 A.2.11 A.2.4 73 A.2.8 A.2.5 74 A.2.3 A.2.5 75 A.2.1 A.2.5 84 A.2.9 A.2.8 85 A.2.5 A.2.8 91 A.2.3 A.2.8 95 A.2.5 A.2.9 96 D.3.1.1 A.2.9


77

100 D.3.1.1 A.2.9 101 A.2.11 A.2.10 104 A.2.11 A.2.10 108 A.2.11 A.2.10 111 A.2.10 A.2.11 113 A.2.11 A.2.11 114 A.2.3 A.2.11 121 D.7.6 B.2.2 125 B.2.5 B.2.2 126 B.2.10 B.2.2 130 B.2.3 B.2.3 136 B.2.10 B.2.3 137 B.2.3 B.2.3 142 D.2.2.1 B.2.4 146 B.2.11.1 B.2.4 155 D.2.3 B.2.5 157 D.6.3.4.4.1 B.2.5 159 B.2.4 B.2.5 163 B.2.11.1 B.2.7 164 D.2.3 B.2.7 166 B.2.2 B.2.7 170 B.2.10 B.2.10 175 D.2.4.1 B.2.10 177 B.2.10 B.2.10 180 B.2.11.1 B.2.11.1 184 B.2.11.1 B.2.11.1 188 B.2.11.1 B.2.11.1 189 B.2.11.2 B.2.11.2 190 D.7.7 B.2.11.2 197 B.2.11.2 B.2.11.2 203 D.2.3 B.2.13 204 D.2.2.1 B.2.13 374 B.4.12.2 B.4.12.2 207 D.8.7 B.2.13 216 B.3.2.1 B.3.2.1 221 D.2.2.1 B.3.2.1 223 B.3.2.1 B.3.2.1 225 B.3.2.3 B.3.2.2 228 B.2.11.2 B.3.2.2 231 B.3.2.3 B.3.2.3 235 B.3.2.3 B.3.2.3 237 B.3.2.3 B.3.2.3 248 B.3.3.1 B.3.3.1


78

251 B.3.3.2 B.3.3.1 254 B.3.3.1 B.3.3.1 256 B.3.3.2 B.3.3.2 257 B.3.3.4 B.3.3.2 261 B.2.11.2 B.3.3.2 278 B.3.3.4 B.3.3.4 280 D.2.2.1 B.3.3.4 282 D.2.3 B.3.4.2 283 B.3.4.2 B.3.4.2 290 B.3.4.2 B.3.4.2 291 B.3.5.3 B.3.5.1 293 B.3.5.1 B.3.5.1 296 B.3.5.4 B.3.5.1 305 B.3.5.4 B.3.5.3 308 B.3.5.1 B.3.5.3 309 B.3.5.1 B.3.5.3 315 B.3.5.3 B.3.5.4 316 B.3.5.4 B.3.5.4 317 D.2.4.1 B.3.5.4 322 B.3.5.4 B.3.5.5 324 B.3.5.3 B.3.5.5 327 D.8.7 B.3.5.5 332 B.3.5.1 B.3.5.6 334 B.3.5.6 B.3.5.6 338 B.3.5.6 B.3.5.6 341 B.4.3.1 B.4.3.1 346 B.4.3.1 B.4.3.1 350 B.4.3.1 B.4.3.1 352 B.4.3.2 B.4.3.2 353 D.7.6 B.4.3.2 354 D.8.5 B.4.3.2 363 B.4.3.3 B.4.3.3 365 B.4.3.3 B.4.3.3 370 D.2.2.1 B.4.3.3 373 B.4.12.2 B.4.12.2 378 B.4.12.2 B.4.12.2 382 B.4.13 B.4.13 385 D.8.7 B.4.13 388 B.4.3.3 B.4.13 392 B.6.1.2 B.6.1.1 397 B.6.1.1 B.6.1.1 399 B.6.1.2 B.6.1.1 402 D.2.5 B.6.1.2


79

403 D.2.3 B.6.1.2 410 B.6.1.2 B.6.1.2 412 B.6.2 B.6.2 417 D.7.6 B.6.2 419 B.6.1.2 B.6.2 427 B.6.3.2 B.6.3.2 428 B.6.3.2 B.6.3.2 433 B.6.1.1 B.6.4 438 B.6.2 B.6.4 440 B.6.4 B.6.4 441 B.6.5.4 B.6.5.3 447 B.6.5.4 B.6.5.3 450 D.3.1.1 B.6.5.3 451 B.6.5.4 B.6.5.4 454 D.2.2.1 B.6.5.4 458 B.6.5.4 B.6.5.4 471 B.7.1.8 B.7.1.1 472 D.6.2.2 B.7.1.1 484 D.7.7 B.7.1.5 486 B.7.1.5 B.7.1.5 487 B.7.1.8 B.7.1.5 496 B.7.1.1 B.7.1.8 499 D.2.2.1 B.7.1.8 500 B.7.1.8 B.7.1.8 505 B.8.4.1 B.8.4.1 507 B.8.4.2 B.8.4.1 513 D.2.1 B.8.4.2 516 B.8.4.2 B.8.4.2 517 B.8.6 B.8.6 523 B.8.4.2 B.8.6 526 B.8.8 B.8.6 529 B.8.6 B.8.8 530 B.8.8 B.8.8 532 B.8.8 B.8.8 539 B.9.1.4 B.9.1.1 540 B.9.1.1 B.9.1.1 544 B.9.1.1 B.9.1.1 547 B.9.1.1 B.9.1.4 552 B.9.1.4 B.9.1.4 554 D.2.5 B.9.1.4 558 B.9.2.2 B.9.2.2 560 B.9.2.2 B.9.2.2 564 D.8.7 B.9.2.2


80

580 D.2.1 B.9.3.5 584 D.7.7 B.9.3.5 585 D.6.2.2 B.9.3.5 587 B.10.1.2 B.10.1.2 589 B.10.1.2 B.10.1.2 591 B.10.1.2 B.10.1.2 598 B.10.3.3 B.10.3.3 603 B.10.3.3 B.10.3.3 604 B.10.3.3 B.10.3.3 610 B.10.10.4 B.10.10.4 613 B.10.10.4 B.10.10.4 614 D.2.4.1 B.10.10.4 619 C.1.1.4 C.1.1.1 624 D.7.7 C.1.1.1 625 D.7.7 C.1.1.1 640 C.1.1.3 C.1.1.3 642 D.6.2.2 C.1.1.3 645 C.1.1.4 C.1.1.3 647 C.1.1.4 C.1.1.4 652 C.1.1.1 C.1.1.4 655 C.1.1.1 C.1.1.4 657 D.8.12 C.1.1.5 671 C.1.2.4 C.1.2.2 672 C.1.2.7 C.1.2.2 674 D.8.7 C.1.2.2 678 C.1.2.4 C.1.2.3 684 D.2.4.1 C.1.2.3 686 C.1.2.7 C.1.2.3 692 C.1.2.4 C.1.2.4 695 C.1.2.7 C.1.2.4 696 C.1.2.4 C.1.2.4 701 C.1.2.3 C.1.2.6 702 C.1.2.7 C.1.2.6 706 C.1.2.7 C.1.2.6 712 C.1.2.4 C.1.2.7 714 C.1.2.7 C.1.2.7 715 C.1.2.7 C.1.2.7 729 D.2.4.1 C.1.3.2 731 C.1.3.2 C.1.3.2 737 C.1.3.2 C.1.3.2 749 C.1.4.1 C.1.4.1 751 C.1.4.1 C.1.4.1 754 C.1.4.1 C.1.4.1


81

759 D.7.7 C.1.4.2 761 C.1.4.11 C.1.4.2 763 C.1.4.10 C.1.4.2 770 D.8.11 C.1.4.3 776 C.1.4.11 C.1.4.3 783 D.7.6 C.1.4.4 784 C.1.4.11 C.1.4.4 786 C.1.4.11 C.1.4.4 789 D.7.7 C.1.4.5 790 C.1.4.5 C.1.4.5 792 C.1.4.1 C.1.4.5 810 E.3.4.5.5 C.1.4.10 816 D.6.3.4.4.1 C.1.4.11 818 D.7.7 C.1.4.11 819 C.1.4.11 C.1.4.11 826 C.2.2.3 C.2.2.1 829 D.2.2.1 C.2.2.1 830 C.2.2.3 C.2.2.1 831 C.2.2.3 C.2.2.3 834 C.2.2.3 C.2.2.3 838 D.6.3.4.4.2 C.2.2.3 842 C.2.2.3 C.2.2.4 843 C.2.2.3 C.2.2.4 844 C.2.2.1 C.2.2.4 865 C.2.5.3 C.2.5.1 877 C.2.5.3 C.2.5.3 879 C.2.5.3 C.2.5.3 884 C.2.5.1 C.2.5.3 903 D.7.6 C.4.2 905 D.2.3 C.4.2 926 D.2.1 D.2.1 933 D.2.1 D.2.1 934 D.2.4.1 D.2.1 938 D.2.2.1 D.2.2.1 939 D.2.2.1 D.2.2.1 940 D.2.2.1 D.2.2.1 945 D.2.1 D.2.3 953 D.2.3 D.2.3 954 D.2.1 D.2.3 955 D.2.4.1 D.2.4.1 958 D.2.4.1 D.2.4.1 963 D.3.1.1 D.2.4.1 965 D.2.4.1 D.2.5


82

968 D.2.1 D.2.5 973 D.2.5 D.2.5 978 D.3.1.1 D.3.1.1 981 D.3.1.1 D.3.1.1 984 D.3.1.1 D.3.1.1 991 D.6.2.2 D.6.2.2 1009 D.6.3.4.4.1 D.6.3.4.4. 1013 D.6.3.4.4.1 D.6.3.4.4. 1015 D.6.3.4.4.1 D.6.3.4.4. 1018 D.6.3.4.4.1 D.6.3.4.4. 1022 D.6.3.4.4.1 D.6.3.4.4. 1036 D.7.6 D.7.5 1039 D.7.5 D.7.5 1043 D.7.5 D.7.5 1046 D.7.5 D.7.6 1051 D.7.6 D.7.6 1054 D.7.7 D.7.6 1055 D.7.6 D.7.7 1060 D.7.7 D.7.7 1063 D.7.7 D.7.7 1067 D.8.7 D.8.5 1069 D.8.11 D.8.5 1073 D.8.11 D.8.5 1075 D.8.7 D.8.7 1077 D.8.7 D.8.7 1083 D.8.11 D.8.7 1089 D.3.1.1 D.8.11 1093 D.8.7 D.8.11 1094 D.8.11 D.8.11 1095 D.8.12 D.8.12 1099 D.8.12 D.8.12 1104 D.8.11 D.8.12 1107 D.6.3.4.4.1 E.1.1.1 1108 D.2.4.1 E.1.1.1 1109 D.2.2.1 E.1.1.1 1117 D.8.7 E.1.1.2.1 1123 E.3.4.3.1 E.1.1.2.1 1124 D.2.1 E.1.1.2.1 1125 E.1.1.3.2.2 E.1.1.3.1 1127 E.1.1.3.2.3 E.1.1.3.1 1128 E.1.1.3.2.3 E.1.1.3.1 1136 E.1.1.3.2.4 E.1.1.3.2.1 1138 D.7.6 E.1.1.3.2.1


83

1148 E.1.1.3.2.2 E.1.1.3.2.2 1149 D.2.1 E.1.1.3.2.2 1151 E.1.1.3.2.1 E.1.1.3.2.2 1161 D.2.2.1 E.1.1.3.2.3 1162 D.8.11 E.1.1.3.2.3 1163 E.1.1.3.2.4 E.1.1.3.2.3 1165 E.1.1.3.2.1 E.1.1.3.2.4 1169 E.1.1.3.2.4 E.1.1.3.2.4 1173 E.1.1.3.2.4 E.1.1.3.2.4 1176 E.1.1.3.2.5 E.1.1.3.2.5 1181 E.1.1.3.2.3 E.1.1.3.2.5 1182 D.3.1.1 E.1.1.3.2.5 1188 D.2.5 E.1.1.3.2.6 1190 D.8.7 E.1.1.3.2.6 1194 E.1.1.3.2.5 E.1.1.3.2.6 1196 E.1.1.3.3.7 E.1.1.3.3.1 1199 E.1.1.3.3.4 E.1.1.3.3.1 1202 E.1.1.3.3.3 E.1.1.3.3.1 1205 D.2.5 E.1.1.3.3.2 1207 D.2.3 E.1.1.3.3.2 1209 D.6.3.4.4.1 E.1.1.3.3.2 1217 D.7.7 E.1.1.3.3.3 1220 E.1.1.3.3.3 E.1.1.3.3.3 1227 D.6.3.4.4.1 E.1.1.3.3.4 1230 D.7.7 E.1.1.3.3.4 1234 D.2.2.1 E.1.1.3.3.4 1239 D.7.7 E.1.1.3.3.5 1240 E.1.1.3.3.5 E.1.1.3.3.5 1244 E.1.1.3.3.9 E.1.1.3.3.5 1247 D.8.5 E.1.1.3.3.6 1248 E.1.1.3.3.6 E.1.1.3.3.6 1249 E.1.1.3.3.6 E.1.1.3.3.6 1259 D.2.2.1 E.1.1.3.3.7 1260 D.2.2.1 E.1.1.3.3.7 1264 E.1.1.3.3.3 E.1.1.3.3.7 1266 E.1.1.3.3.4 E.1.1.3.3.9 1271 E.1.1.3.3.5 E.1.1.3.3.9 1276 D.7.5 E.1.1.3.4.1 1279 D.8.5 E.1.1.3.4.1 1280 A.2.9 E.1.1.3.4.1 1289 D.8.11 E.1.1.3.4.2 1294 D.2.5 E.1.1.3.4.2 1297 D.2.3 E.1.1.3.4.3


84

1300 E.1.1.3.4.3 E.1.1.3.4.3 1302 D.7.6 E.1.1.3.4.3 1305 E.1.1.4.1 E.1.1.4.1 1308 D.7.6 E.1.1.4.1 1314 E.3.3.4.1 E.1.1.4.1 1348 D.2.4.1 E.1.2.2.8 1349 E.1.2.2.8 E.1.2.2.8 1353 E.1.2.2.8 E.1.2.2.8 1357 D.2.5 E.1.2.3.1 1359 E.1.2.3.1 E.1.2.3.1 1362 D.2.5 E.1.2.3.1 1365 D.2.4.1 E.1.2.3.2 1369 E.1.2.3.1 E.1.2.3.2 1370 D.7.7 E.1.2.3.2 1375 D.7.7 E.1.2.5.2 1399 D.2.4.1 E.1.2.5.4 1401 D.8.11 E.1.2.5.4 1403 E.1.2.5.4 E.1.2.5.4 1417 D.7.6 E.1.2.7 1418 D.7.6 E.1.2.7 1422 D.7.5 E.1.2.7 1426 E.1.3.1.6 E.1.3.1.6 1430 D.2.4.1 E.1.3.1.6 1431 D.2.1 E.1.3.1.6 1436 D.6.2.2 E.1.3.2.1 1458 D.3.1.1 E.1.4.1 1463 H.1.1.1 E.1.4.1 1464 E.1.4.1 E.1.4.1 1468 D.2.1 E.1.4.2 1469 E.1.4.4.1 E.1.4.2 1474 D.2.2.1 E.1.4.2 1480 D.2.4.1 E.1.4.3 1481 E.1.4.3 E.1.4.3 1486 E.1.4.4.1 E.1.4.4.1 1488 E.1.4.4.1 E.1.4.4.1 1491 E.1.4.4.1 E.1.4.4.1 1499 E.2.3.5 E.2.1.1.1 1500 E.2.1.1.8 E.2.1.1.1 1502 D.2.2.1 E.2.1.1.1 1505 E.2.1.1.1 E.2.1.1.2 1506 E.2.1.1.4 E.2.1.1.2 1508 E.2.1.1.1 E.2.1.1.2 1518 D.3.1.1 E.2.1.1.3


85

1522 D.7.6 E.2.1.1.4 1525 D.2.2.1 E.2.1.1.4 1527 D.6.3.4.4.1 E.2.1.1.4 1535 E.2.1.1.1 E.2.1.1.5 1536 E.2.1.1.2 E.2.1.1.5 1539 E.2.1.1.8 E.2.1.1.5 1544 D.6.3.4.4.1 E.2.1.1.6 1549 D.2.3 E.2.1.1.6 1557 E.2.1.1.5 E.2.1.1.7 1559 D.2.2.1 E.2.1.1.7 1560 E.2.1.1.4 E.2.1.1.7 1565 D.6.3.4.4.1 E.2.1.1.8 1568 E.2.1.1.1 E.2.1.1.8 1569 D.7.6 E.2.1.1.8 1575 D.7.7 E.2.1.1.9 1576 E.2.1.1.9 E.2.1.1.9 1578 E.2.1.1.4 E.2.1.1.9 1581 E.2.1.1.11 E.2.1.1.10 1585 E.2.1.1.1 E.2.1.1.10 1591 D.7.5 E.2.1.1.11 1594 E.2.1.1.4 E.2.1.1.11 1597 D.7.6 E.2.1.1.11 1601 D.2.1 E.2.1.1.12 1607 E.2.1.1.4 E.2.1.1.12 1610 D.2.1 E.2.1.1.12 1611 E.2.1.2.9 E.2.1.2.1 1616 D.2.2.1 E.2.1.2.1 1617 D.2.2.1 E.2.1.2.1 1621 E.2.1.2.14 E.2.1.2.2 1626 E.2.1.2.8 E.2.1.2.2 1628 D.8.12 E.2.1.2.2 1632 E.2.1.2.11 E.2.1.2.3 1633 E.2.1.2.3 E.2.1.2.3 1638 D.7.7 E.2.1.2.3 1648 E.2.1.2.8 E.2.1.2.4 1649 D.2.4.1 E.2.1.2.5 1656 D.8.5 E.2.1.2.5 1658 E.2.1.2.10 E.2.1.2.5 1660 D.3.1.1 E.2.1.2.6 1662 E.2.1.2.11 E.2.1.2.6 1666 E.2.1.2.5 E.2.1.2.6 1670 D.2.3 E.2.1.2.7 1675 E.2.1.2.7 E.2.1.2.7


86

1678 D.7.5 E.2.1.2.7 1679 E.2.1.2.13 E.2.1.2.8 1684 D.2.4.1 E.2.1.2.8 1685 D.2.1 E.2.1.2.8 1692 E.2.1.2.12 E.2.1.2.9 1693 D.7.7 E.2.1.2.9 1698 E.2.1.2.3 E.2.1.2.9 1700 E.2.1.2.5 E.2.1.2.10 1702 E.2.1.2.9 E.2.1.2.10 1704 D.2.2.1 E.2.1.2.10 1725 D.2.2.1 E.2.1.2.11 1726 D.2.4.1 E.2.1.2.11 1728 E.2.1.2.11 E.2.1.2.11 1738 E.2.1.2.11 E.2.1.2.12 1742 D.3.1.1 E.2.1.2.13 1743 D.7.6 E.2.1.2.13 1745 E.2.1.2.14 E.2.1.2.14 1752 D.8.7 E.2.1.2.14 1753 E.2.1.2.1 E.2.1.2.14 1755 D.2.3 E.2.2.1 1756 E.2.2.1 E.2.2.1 1762 D.3.1.1 E.2.2.1 1766 E.2.2.2 E.2.2.2 1769 E.2.2.1 E.2.2.2 1774 E.2.2.1 E.2.2.2 1776 E.3.4.5.5 E.2.3.1 1781 E.3.1.4.1 E.2.3.1 1784 D.2.1 E.2.3.1 1785 E.2.3.2 E.2.3.2 1786 D.2.4.1 E.2.3.2 1791 D.6.3.4.4.1 E.2.3.2 1796 E.2.3.5 E.2.3.3 1798 E.2.3.5 E.2.3.3 1801 E.2.3.7 E.2.3.3 1808 E.2.3.5 E.2.3.5 1813 D.2.4.1 E.2.3.5 1814 E.2.3.5 E.2.3.5 1816 D.7.5 E.2.3.6 1818 E.2.3.10 E.2.3.6 1823 E.2.3.10 E.2.3.6 1829 E.2.3.2 E.2.3.7 1832 E.2.3.7 E.2.3.7 1834 E.2.3.2 E.2.3.7


87

1836 D.2.4.1 E.2.3.8 1841 D.7.6 E.2.3.8 1843 E.2.3.10 E.2.3.8 1846 E.2.3.1 E.2.3.9 1849 D.2.4.1 E.2.3.9 1851 E.2.3.3 E.2.3.9 1857 D.8.11 E.2.3.10 1860 D.2.4.1 E.2.3.10 1862 D.6.3.4.4.1 E.2.3.10 1876 D.7.5 E.2.4.3 1878 E.2.4.3 E.2.4.3 1880 E.2.4.12 E.2.4.3 1891 D.7.5 E.2.4.4 1893 E.2.4.12 E.2.4.4 1894 E.2.4.12 E.2.4.4 1899 D.2.1 E.2.4.7 1901 D.3.1.1 E.2.4.7 1902 D.2.3 E.2.4.7 1906 E.2.4.8 E.2.4.8 1910 L.3.7 E.2.4.8 1912 E.2.4.4 E.2.4.8 1928 E.2.4.4 E.2.4.12 1931 D.2.4.1 E.2.4.12 1933 D.6.2.2 E.2.4.12 1940 E.2.4.13 E.2.4.13 1941 D.2.4.1 E.2.4.13 1944 E.2.4.4 E.2.4.13 1945 D.7.7 E.2.5.1 1947 E.2.5.7 E.2.5.1 1948 E.2.5.1 E.2.5.1 1956 E.2.5.7 E.2.5.7 1958 E.3.1.4.1 E.2.5.7 1962 H.1.7.1 E.2.5.7 1965 D.3.1.1 E.2.6.1 1972 E.2.6.1 E.2.6.1 1974 D.2.4.1 E.2.6.1 1976 D.2.4.1 E.2.6.3 1981 E.2.6.1 E.2.6.3 1984 D.7.7 E.2.6.3 1987 D.8.7 E.2.6.4 1993 E.2.6.4 E.2.6.4 1994 E.2.6.1 E.2.6.4 2002 E.2.2.2 E.2.7


88

2003 J.1.2.2 E.2.7 2004 D.2.2.1 E.2.7 2005 J.1.2.6 E.2.8 2006 E.2.2.1 E.2.8 2012 E.2.1.2.11 E.2.8 2016 E.3.1.1 E.3.1.1 2018 D.7.5 E.3.1.1 2024 E.3.1.4.1 E.3.1.1 2028 E.2.1.2.9 E.3.1.4.1 2029 E.3.1.4.1 E.3.1.4.1 2032 E.3.1.4.1 E.3.1.4.1 2035 D.7.7 E.3.2.1.1 2037 D.7.7 E.3.2.1.1 2043 E.3.2.1.1 E.3.2.1.1 2048 D.7.6 E.3.3.1 2053 D.7.5 E.3.3.1 2066 D.7.5 E.3.3.3 2067 D.6.3.4.4.1 E.3.3.3 2068 E.3.3.4.1 E.3.3.3 2080 E.3.3.4.1 E.3.3.4.1 2082 E.3.3.4.1 E.3.3.4.1 2087 E.3.3.5 E.3.3.5 2090 D.7.6 E.3.3.5 2091 E.3.3.5 E.3.3.5 2107 E.3.4.6 E.3.4.2 2108 E.3.4.5.1 E.3.4.2 2113 D.8.5 E.3.4.2 2115 E.3.4.3.1 E.3.4.3.1 2117 E.3.4.3.1 E.3.4.3.1 2123 E.3.4.3.1 E.3.4.3.1 2128 D.7.7 E.3.4.5.1 2130 E.3.4.5.1 E.3.4.5.1 2134 D.3.1.1 E.3.4.5.1 2135 D.2.2.1 E.3.4.5.5 2138 E.3.4.5.5 E.3.4.5.5 2141 D.7.7 E.3.4.5.5 2145 D.3.1.1 E.3.4.6 2149 D.2.4.1 E.3.4.6 2155 E.3.4.5.1 E.3.4.7 2156 E.3.4.5.1 E.3.4.7 2167 E.3.5.5 E.3.5.1 2169 E.3.5.1 E.3.5.1 2174 E.3.5.1 E.3.5.1


89

2175 D.2.3 E.3.5.2 2177 E.3.5.5 E.3.5.2 2179 D.3.1.1 E.3.5.2 2187 D.2.1 E.3.5.3 2190 D.2.4.1 E.3.5.3 2191 E.3.5.1 E.3.5.3 2205 E.3.5.5 E.3.5.5 2206 E.3.5.5 E.3.5.5 2211 D.2.3 E.3.5.5 2219 D.3.1.1 E.3.5.6 2220 D.2.3 E.3.5.6 2222 E.3.6.2 E.3.6.2 2224 D.6.2.2 E.3.6.2 2225 D.3.1.1 E.3.6.2 2232 F.1.1.1 F.1.1.1 2233 F.1.1.1 F.1.1.1 2234 F.1.1.1 F.1.1.1 2242 F.1.1.2 F.1.1.2 2245 D.7.7 F.1.1.2 2255 K.8 F.1.1.3 2256 D.2.5 F.1.1.3 2257 D.7.7 F.1.1.3 2264 F.1.6.1 F.1.2 2266 F.1.6.1 F.1.2 2273 F.1.1.2 F.1.4 2276 D.2.4.1 F.1.4 2277 F.1.6.1 F.1.4 2283 F.1.6.1 F.1.6.1 2285 F.1.6.1 F.1.6.1 2290 F.1.6.1 F.1.6.1 2292 F.1.6.1 F.1.8 2295 D.7.6 F.1.8 2300 F.1.8 F.1.8 2303 D.2.5 F.2.1.1 2307 F.2.1.1 F.2.1.1 2308 D.2.2.1 F.2.1.1 2311 D.2.2.1 F.2.1.2 2315 D.6.3.4.4.1 F.2.1.2 2316 F.2.1.2 F.2.1.2 2323 D.8.11 F.2.3 2325 D.2.2.1 F.2.3 2326 F.2.1.1 F.2.3 2334 F.3.8 F.3.1


90

2336 F.3.10 F.3.1 2339 F.3.8 F.3.1 2343 F.3.5 F.3.2 2345 F.3.1 F.3.2 2346 F.3.2 F.3.2 2352 F.3.3 F.3.3 2356 D.2.4.1 F.3.3 2358 F.3.2 F.3.3 2362 D.7.6 F.3.5 2365 F.3.1 F.3.5 2366 F.3.2 F.3.5 2376 F.3.8 F.3.8 2378 F.3.2 F.3.8 2380 F.3.3 F.3.8 2393 F.3.10 F.3.10 2396 E.3.3.5 F.3.10 2403 D.7.5 F.4.1 2406 F.4.5 F.4.2 2413 F.4.12 F.4.2 2419 D.2.5 F.4.3 2421 F.4.1 F.4.3 2423 D.2.4.1 F.4.3 2429 D.8.12 F.4.4 2433 D.2.1 F.4.4 2436 F.4.1 F.4.5 2439 F.4.12 F.4.5 2440 E.3.4.5.5 F.4.5 2460 D.2.2.1 F.4.9 2461 D.2.4.1 F.4.9 2462 F.4.5 F.4.9 2467 F.4.4 F.4.12 2469 D.6.2.2 F.4.12 2474 F.4.13 F.4.12 2475 D.2.5 F.4.13 2478 F.4.5 F.4.13 2481 D.7.6 F.4.13 2495 F.4.5 F.4.15 2497 F.4.9 F.4.15 2503 D.3.1.1 F.4.15 2505 D.2.1 F.5.1.1 2507 F.5.1.1 F.5.1.1 2508 F.5.1.1 F.5.1.1 2517 F.5.2.1 F.5.2.1


91

2518 D.2.4.1 F.5.2.1 2524 F.5.2.1 F.5.2.1 2529 D.3.1.1 F.5.2.3 2530 F.5.2.1 F.5.2.3 2533 F.5.2.3 F.5.2.3 2540 G.5.2.2.1 G.5.2.2.1 2541 G.5.2.2.1 G.5.2.2.1 2542 G.5.2.2.3 G.5.2.2.1 2545 D.2.2.1 G.5.2.2.3 2551 G.3.2 G.5.2.2.3 2552 G.5.2.2.3 G.5.2.2.3 2558 G.5.2.2.1 G.5.2.2.5 2564 G.5.2.2.1 G.5.2.2.5 2565 G.5.2.2.3 G.5.2.2.6 2570 G.1.2.14 G.5.2.2.6 2572 J.5.2.1 G.5.2.2.6 2575 G.5.2.3.2 G.5.2.3.2 2577 G.5.2.3.2 G.5.2.3.2 2578 G.5.2.3.2 G.5.2.3.2 2586 D.3.1.1 F.5.4.1 2590 F.5.4.1 F.5.4.1 2593 F.5.4.3 F.5.4.1 2595 D.3.1.1 F.5.4.2 2596 D.2.4.1 F.5.4.2 2608 D.2.4.1 F.5.4.3 2609 D.2.4.1 F.5.4.3 2612 F.5.4.3 F.5.4.3 2624 D.7.5 F.5.10.1 2625 D.2.5 F.5.10.1 2632 F.5.10.5 F.5.10.1 2634 D.7.6 F.5.10.4 2635 F.5.10.1 F.5.10.4 2638 F.5.10.1 F.5.10.4 2645 F.5.10.5 F.5.10.5 2648 D.3.1.1 F.6.2 2649 F.6.2 F.6.2 2655 F.6.2 F.6.2 2658 F.6.2 F.6.6 2660 D.2.1 F.6.6 2666 D.2.1 F.6.6 2679 F.6.2 F.6.7 2684 F.6.2 F.6.7 2685 D.6.3.4.4.1 F.6.7


92

2690 F.7.1.7 F.7.1.7 2691 D.7.6 F.7.1.7 2695 D.8.12 F.7.1.7 2702 D.2.2.1 F.7.1.8 2719 F.7.1.16 F.7.1.16 2723 F.7.1.16 F.7.1.16 2727 D.6.3.4.4.1 F.7.3.4 2731 F.7.3.4 F.7.3.4 2734 E.2.3.9 F.7.3.4 2743 F.7.3.4 F.7.3.7 2745 F.7.3.7 F.7.3.7 2746 D.6.3.4.4.1 F.7.3.7 2748 F.7.3.8 F.7.3.8 2750 F.7.3.4 F.7.3.8 2752 D.7.6 F.7.3.8 2757 F.7.3.8 F.7.3.11 2758 F.7.3.11 F.7.3.11 2762 F.7.3.11 F.7.3.11 2767 D.6.3.4.4.1 F.8.1.1 2769 F.8.1.4 F.8.1.1 2776 D.7.6 F.8.1.1 2777 D.2.4.1 F.8.1.2 2778 F.8.1.5 F.8.1.2 2779 F.8.1.3 F.8.1.2 2791 D.6.3.4.4.2 F.8.1.3 2792 F.8.1.4 F.8.1.3 2796 F.8.1.3 F.8.1.3 2800 F.8.1.3 F.8.1.4 2805 D.2.5 F.8.1.4 2806 D.2.3 F.8.1.4 2811 F.8.1.2 F.8.1.5 2815 D.2.4.1 F.8.1.5 2816 F.8.1.3 F.8.1.5 2824 F.8.2.1 F.8.2.1 2828 F.8.2.1 F.8.2.2 2832 D.8.12 F.8.2.2 2836 F.8.2.1 F.8.2.2 2838 F.8.2.1 F.8.2.3 2841 F.8.2.1 F.8.2.3 2846 F.8.2.1 F.8.2.3 2848 D.2.4.1 F.8.3.1 2853 F.8.3.1 F.8.3.1 2855 F.8.3.5 F.8.3.1


93

2862 D.2.4.1 F.8.3.2 2863 F.8.3.2 F.8.3.2 2864 D.7.6 F.8.3.2 2869 D.2.2.1 F.8.3.3 2870 F.8.3.1 F.8.3.3 2878 D.2.4.1 F.8.3.4 2886 D.2.2.1 F.8.3.5 2893 D.2.1 F.8.3.5 2895 F.8.3.5 F.8.3.5 2908 D.2.4.1 F.8.3.7 2909 F.2.1.1 F.8.3.7 2910 D.7.6 F.8.3.7 2932 G.1.1.2 G.1.1.2 2933 G.1.1.4 G.1.1.2 2934 C.1.2.3 G.1.1.2 2940 G.1.1.3 G.1.1.3 2943 G.1.1.7 G.1.1.3 2945 D.2.4.1 G.1.1.3 2948 G.1.1.2 G.1.1.4 2960 G.1.1.4 G.1.1.7 2962 G.5.1.6 G.1.1.7 2963 G.1.1.3 G.1.1.7 2967 G.1.2.5 G.1.2.1 2973 D.2.4.1 G.1.2.1 2975 G.1.2.5 G.1.2.1 2976 D.2.4.1 G.1.2.2 2977 G.1.2.2 G.1.2.2 2980 G.1.2.2 G.1.2.2 2986 G.1.2.2 G.1.2.5 2988 D.6.2.2 G.1.2.5 2995 G.1.2.5 G.1.2.5 2999 D.2.2.1 G.1.2.6 3001 D.3.1.1 G.1.2.6 3005 G.1.2.2 G.1.2.6 3018 G.1.2.2 G.1.2.13 3020 L.3.4 G.1.2.13 3022 G.1.2.6 G.1.2.13 3026 G.1.2.14 G.1.2.14 3031 H.1.3.9.2 G.1.2.14 3032 G.1.2.6 G.1.2.14 3038 G.2.1.2 G.2.1.2 3045 G.2.4 G.2.1.2 3057 G.3.2 G.2.1.8.2


94

3059 G.2.1.8.2 G.2.1.8.2 3064 G.2.3.6 G.2.1.8.2 3068 G.2.3.5.3 G.2.3.5.3 3071 D.2.3 G.2.3.5.3 3073 G.2.3.5.3 G.2.3.5.4 3076 G.2.3.9 G.2.3.6 3078 G.2.3.5.3 G.2.3.6 3079 G.2.3.5.4 G.2.3.6 3086 D.7.7 G.2.3.7 3093 G.2.3.5.4 G.2.3.9 3094 D.2.1 G.2.3.9 3096 G.2.3.5.3 G.2.3.9 3104 G.2.5.1 G.2.4 3111 G.3.2 G.2.5.1 3112 D.2.2.1 G.2.5.1 3115 G.2.5.2 G.2.5.1 3118 G.2.5.10 G.2.5.2 3121 G.2.5.3.1 G.2.5.3.1 3125 G.2.5.2 G.2.5.4 3126 G.2.5.6 G.2.5.4 3129 D.7.7 G.2.5.4 3133 D.7.7 G.2.5.5 3142 D.2.2.1 G.2.5.8 3145 D.8.12 G.2.5.8 3146 G.2.5.2 G.2.5.8 3148 D.2.2.1 G.2.5.9 3153 D.2.4.1 G.2.5.9 3157 D.8.12 G.2.5.9 3160 A.2.5 G.2.5.10 3165 G.2.5.9 G.2.5.10 3166 D.2.3 G.2.5.10 3180 D.2.5 G.2.7 3181 G.2.5.4 G.2.7 3186 G.2.8 G.2.7 3192 D.2.2.1 G.2.8 3194 G.2.4 G.2.8 3196 G.2.4 G.2.8 3201 G.2.4 G.2.9 3204 D.8.11 G.2.9 3206 D.8.11 G.2.9 3209 D.8.5 G.3.2 3214 D.6.2.2 G.3.2 3216 D.6.3.4.4.1 G.3.2


95

3221 G.4.1 G.4.1 3224 G.4.1 G.4.1 3228 G.5.1.1 G.5.1.1 3233 D.8.5 G.5.1.1 3238 G.5.1.6 G.5.1.2 3241 G.5.1.1 G.5.1.2 3244 G.5.8 G.5.1.2 3248 D.6.3.4.4.1 G.5.1.3 3249 G.5.1.3 G.5.1.3 3251 D.2.4.1 G.5.1.3 3258 G.5.1.7 G.5.1.5 3259 G.5.1.3 G.5.1.5 3261 G.5.1.6 G.5.1.5 3270 E.1.1.3.2.1 G.5.1.6 3274 G.5.1.6 G.5.1.6 3276 D.2.2.1 G.5.1.6 3278 G.5.1.8 G.5.1.7 3280 G.5.8 G.5.1.7 3287 G.5.8 G.5.1.7 3288 D.7.6 G.5.1.8 3293 G.5.1.7 G.5.1.8 3297 G.5.1.9 G.5.1.8 3299 D.8.7 G.5.1.9 3305 G.5.1.6 G.5.1.9 3308 G.5.1.5 G.5.1.10 3311 G.5.1.10 G.5.1.10 3313 G.5.1.9 G.5.1.10 3372 G.5.3.3 G.5.3.1 3374 G.5.3.2 G.5.3.1 3376 H.1.1.4 G.5.3.1 3379 G.5.3.1 G.5.3.2 3380 G.5.3.2 G.5.3.2 3382 G.5.3.1 G.5.3.2 3390 G.5.3.3 G.5.3.3 3403 D.2.2.1 G.5.5.1 3407 D.8.11 G.5.5.1 3409 D.2.2.1 G.5.5.1 3415 G.5.1.6 G.5.6 3418 H.1.1.1 G.5.6 3425 G.5.8 G.5.7 3429 D.2.4.1 G.5.7 3438 D.8.11 G.5.8 3439 G.5.1.10 G.5.8


96

3441 D.8.11 G.5.8 3446 G.6.2.3 G.6.2.3 3449 D.8.7 G.6.2.3 3452 G.6.2.3 G.6.2.3 3455 H.1.1.1 H.1.1.1 3457 H.1.1.1 H.1.1.1 3459 H.1.1.4 H.1.1.1 3465 D.2.1 H.1.1.4 3468 H.1.1.1 H.1.1.4 3469 H.1.1.1 H.1.1.4 3487 D.2.1 H.1.2.2.2 3497 D.3.1.1 H.1.3.3.1 3500 H.1.3.9.2 H.1.3.3.1 3502 H.1.3.9.2 H.1.3.3.1 3503 D.8.7 H.1.3.3.3 3505 H.1.3.9.2 H.1.3.3.3 3509 H.1.3.9.2 H.1.3.3.3 3514 H.1.3.9.2 H.1.3.6 3520 H.1.3.9.2 H.1.3.6 3521 D.8.5 H.1.3.6 3558 C.1.2.2 H.1.5.1 3562 E.2.4.4 H.1.5.1 3563 H.1.5.1 H.1.5.4 3568 H.1.5.4 H.1.5.4 3571 D.7.6 H.1.5.4 3580 H.1.6.8 H.1.6.2 3583 D.7.6 H.1.6.8 3588 H.1.6.2 H.1.6.8 3589 H.1.6.2 H.1.6.8 3598 H.1.7.1 H.1.7.1 3600 E.3.4.3.1 H.1.7.1 3601 H.1.7.1 H.1.7.1 3613 H.1.7.3 H.1.7.3 3614 H.1.7.3 H.1.7.3 3620 H.1.7.3 H.1.7.3 3634 D.2.1 H.2.2.1.2 3639 H.2.2.1.2 H.2.2.1.2 3640 H.2.2.1.2 H.2.2.1.2 3651 H.2.2.1.2 H.2.2.1.3 3654 H.2.2.1.4 H.2.2.1.4 3656 H.2.2.1.4 H.2.2.1.4 3660 H.2.2.1.4 H.2.2.1.4 3685 H.2.4.3 H.2.4.3


97

3691 H.2.4.3 H.2.4.3 3692 H.2.4.3 H.2.4.3 3694 H.2.5.1 H.2.5.1 3699 H.2.5.1 H.2.5.1 3701 H.2.5.1 H.2.5.1 3703 L.2.1.3 L.2.1.3 3706 L.2.1.4 L.2.1.3 3708 L.2.1.3 L.2.1.3 3713 L.2.1.4 L.2.1.4 3719 L.2.1.4 L.2.1.4 3721 D.2.4.1 L.2.1.4 3724 J.3.3.7 J.3.3.7 3727 J.3.3.7 J.3.3.7 3729 J.3.3.8 J.3.3.7 3735 J.3.3.7 J.3.3.8 3737 J.3.3.8 J.3.3.8 3742 D.3.1.1 J.3.3.8 3760 H.3.4.3 H.3.4.2 3761 H.3.4.2 H.3.4.2 3763 D.2.2.1 H.3.4.3 3766 H.3.4.3 H.3.4.3 3771 H.3.4.3 H.3.4.3 3774 H.3.7.1 H.3.6 3779 D.3.1.1 H.3.6 3783 L.3.4 H.3.7.1 3784 H.3.7.1 H.3.7.1 3788 H.3.7.1 H.3.7.1 3804 D.2.1 H.3.8.4 3808 H.3.8.4 H.3.8.4 3811 D.2.4.1 H.3.8.4 3816 H.3.4.2 H.3.9 3821 D.6.2.2 H.3.9 3822 H.3.7.1 H.3.9 3825 H.4.1.5 H.4.1.5 3826 H.4.1.5 H.4.1.5 3828 H.4.1.5 H.4.1.5 3834 D.2.4.1 H.4.4.1.1 3837 H.4.4.1.1 H.4.4.1.1 3841 H.4.4.1.1 H.4.4.1.1 3849 H.4.4.1.1 H.4.4.1.5 3850 H.4.4.1.1 H.4.4.1.5 3852 D.8.11 H.4.4.1.5 3853 L.1 L.1.1.4.1


98

3856 L.1 L.1.1.4.1 3863 D.7.6 L.1.2.4.2 3868 D.2.1 L.1.2.4.2 3871 D.2.4.1 L.1.2.4.2 3873 L.1 L.1.3.4.3 3879 L.1 L.1.3.4.3 3881 D.7.6 L.1.3.4.3 3885 L.1 L.1.4.4.4 3891 L.1 L.1.4.4.4 3912 H.4.5.2 H.4.5.2 3916 H.4.5.2 H.4.5.2 3919 H.4.5.2 H.4.5.2 3924 H.5.1.8 H.5.1.3 3927 H.5.1.7 H.5.1.3 3931 H.5.1.3 H.5.1.3 3934 J.5.2.3 H.5.1.5 3937 H.5.1.5 H.5.1.5 3940 D.2.2.1 H.5.1.5 3944 H.5.1.3 H.5.1.7 3948 H.5.1.8 H.5.1.7 3949 H.5.1.7 H.5.1.7 3954 H.5.1.8 H.5.1.8 3955 H.5.1.8 H.5.1.8 3957 D.2.4.1 H.5.1.8 3972 H.5.5.1 H.5.5.1 3975 H.5.5.1 H.5.5.1 3981 D.7.7 H.5.5.1 3983 H.5.5.1 H.5.5.2 3987 H.5.5.2 H.5.5.2 3990 H.5.5.2 H.5.5.2 3995 H.5.5.4 H.5.5.3 4000 L.1 H.5.5.3 4006 D.7.7 H.5.5.4 4008 D.2.1 H.5.5.4 4022 D.2.4.1 H.5.6.2 4028 H.5.6.2 H.5.6.2 4030 D.2.3 H.5.6.2 4038 H.5.7.1 H.5.7.1 4040 H.5.7.1 H.5.7.1 4041 H.5.7.1 H.5.7.1 4051 H.5.7.1 H.5.7.3 4061 H.5.7.1 H.5.7.4 4062 D.7.5 H.5.8.2.3


99

4063 H.5.8.2.3 H.5.8.2.3 4070 H.5.8.2.3 H.5.8.2.3 4073 H.5.8.2.3 H.5.8.2.4 4076 H.5.8.2.3 H.5.8.2.4 4079 H.5.8.2.4 H.5.8.2.4 4086 I.1.2.2 I.1.2.2 4087 I.1.2.2 I.1.2.2 4090 I.1.2.2 I.1.2.2 4092 I.1.2.2 I.1.4 4095 I.1.2.2 I.1.4 4098 I.1.2.2 I.1.4 4117 I.3.2 I.3.2 4118 I.3.2 I.3.2 4123 D.8.11 I.3.2 4129 I.6.4 I.6.4 4130 I.6.4 I.6.4 4136 I.6.4 I.6.4 4152 I.9.4 I.9.4 4154 I.9.4 I.9.4 4156 I.9.4 I.9.4 4167 J.1.2.4 J.1.2.1 4174 D.2.1 J.1.2.1 4176 J.1.2.4 J.1.2.1 4179 D.8.11 J.1.2.2 4181 D.2.4.1 J.1.2.2 4182 J.1.2.2 J.1.2.2 4191 D.6.3.4.4.1 J.1.2.4 4194 J.1.2.2 J.1.2.4 4196 J.1.2.2 J.1.2.4 4212 J.1.2.7 J.1.2.6 4213 D.2.5 J.1.2.6 4216 J.1.2.6 J.1.2.6 4223 J.1.2.2 J.1.2.7 4225 D.7.7 J.1.2.7 4226 J.1.2.7 J.1.2.7 4227 J.1.3.1 J.1.3.1 4230 J.1.3.1 J.1.3.1 4231 F.1.1.2 J.1.3.1 4278 J.1.2.1 J.1.4 4282 D.2.3 J.1.4 4285 J.1.2.1 J.1.4 4290 J.1.5.1 J.1.5.1 4300 J.1.6.1 J.1.6.1


100

4301 J.1.6.1 J.1.6.1 4304 D.6.2.2 J.1.6.1 4307 J.1.2.1 J.1.7 4310 J.1.2.2 J.1.7 4315 J.1.7 J.1.7 4317 J.2.1.7 J.2.1.2 4319 J.2.1.2 J.2.1.2 4321 J.2.1.2 J.2.1.2 4328 J.2.1.7 J.2.1.7 4331 D.7.6 J.2.1.7 4333 J.2.1.7 J.2.1.7 4347 J.3.1.7 J.3.1.7 4354 J.3.1.7 J.3.1.7 4355 J.3.1.7 J.3.1.7 4379 J.5.2.1 J.5.2.1 4380 J.5.2.2 J.5.2.1 4393 J.5.2.2 J.5.2.2 4396 E.2.1.2.6 J.5.2.2 4401 J.5.2.3 J.5.2.3 4405 J.5.2.2 J.5.2.3 4421 D.2.4.1 K.1.1.2 4423 D.7.6 K.1.1.2 4424 D.2.4.1 K.1.1.2 4427 K.8 K.1.1.3 4430 D.8.5 K.1.1.3 4436 G.2.4 K.1.1.3 4444 D.2.4.1 K.1.1.10 4445 K.8 K.1.1.10 4452 K.8 K.1.1.11 4453 K.8 K.1.1.11 4456 D.6.3.4.4.1 K.1.1.11 4457 D.7.6 K.1.2.1 4463 D.7.5 K.1.2.1 4464 D.2.2.1 K.1.2.1 4468 B.3.5.1 K.1.3.4 4472 D.7.5 K.1.3.4 4474 K.8 K.1.3.4 4499 K.8 K.3.1.2 4503 D.7.7 K.3.1.2 4507 D.2.2.1 K.3.1.3 4508 D.2.4.1 K.3.1.3 4511 D.7.5 K.3.1.3 4518 K.8 K.3.1.4


101

4520 K.8 K.3.1.4 4522 D.6.2.2 K.3.1.4 4531 K.8 K.3.1.5 4532 K.8 K.3.1.5 4536 D.2.4.1 K.3.1.5 4551 K.8 K.3.1.8 4553 K.8 K.3.1.8 4556 K.8 K.3.1.8 4560 K.8 K.3.2.2 4561 D.7.6 K.3.2.2 4563 K.8 K.3.2.2 4571 K.8 K.3.2.3 4572 D.7.6 K.3.2.3 4575 D.2.2.1 K.3.2.3 4578 D.2.3 K.3.2.4 4581 D.7.6 K.3.2.4 4599 K.8 K.3.2.7 4602 D.2.4.1 K.3.2.7 4603 D.7.7 K.3.2.7 4608 D.7.7 K.3.2.8 4611 L.7.6 K.3.2.8 4614 K.8 K.3.2.8 4620 D.7.7 K.3.2.9 4624 K.8 K.3.2.9 4625 K.8 K.3.2.9 4633 D.2.3 K.3.2.10 4639 D.2.4.1 K.3.4.1 4640 K.8 K.3.4.1 4642 K.8 K.3.4.1 4652 D.7.7 K.3.4.2 4653 D.8.7 K.3.4.2 4655 D.2.2.1 K.3.4.2 4670 K.8 K.3.5.2 4671 D.7.7 K.3.5.2 4672 D.2.3 K.3.5.2 4678 K.8 K.3.5.3 4685 D.2.2.1 K.3.5.3 4686 K.8 K.3.5.3 4688 K.8 K.3.6.1 4690 D.2.3 K.3.6.1 4694 D.2.3 K.3.6.1 4699 K.8 K.3.7.1 4703 D.8.12 K.3.7.1


102

4704 D.2.4.1 K.3.7.1 4709 D.8.11 K.3.7.2 4710 D.2.4.1 K.3.7.2 4713 D.2.1 K.3.7.2 4718 K.8 K.3.7.4 4723 K.8 K.3.7.4 4724 K.8 K.3.7.4 4727 K.8 K.3.8.1.2 4731 K.8 K.3.8.1.2 4732 D.2.4.1 K.3.8.1.2 4740 K.8 K.3.8.1.4 4741 K.8 K.3.8.1.4 4746 K.8 K.3.8.1.4 4747 K.8 K.3.8.1.7 4750 K.8 K.3.8.1.7 4759 D.2.2.1 K.3.8.2.1 4762 D.2.3 K.3.8.2.1 4763 D.2.4.1 K.3.8.2.1 4768 K.8 K.3.8.2.2 4771 K.8 K.3.8.2.2 4772 L.11.3.4 K.3.8.2.2 4777 K.8 K.3.8.2.5 4778 K.8 K.3.8.2.5 4784 K.8 K.3.8.2.5 4788 K.8 K.3.8.2.6 4793 K.8 K.3.8.2.6 4794 K.8 K.3.8.2.6 4804 D.2.2.1 K.3.8.3.1 4806 K.8 K.3.8.3.1 4807 D.3.1.1 K.3.8.3.2 4808 K.8 K.3.8.3.2 4810 K.8 K.3.8.3.2 4820 K.8 K.3.8.3.3 4821 K.8 K.3.8.3.3 4826 D.7.6 K.3.8.3.3 4831 K.8 K.3.8.3.4 4833 D.2.2.1 K.3.8.3.4 4835 K.8 K.3.8.3.4 4838 K.8 K.3.8.4.1 4839 D.3.1.1 K.3.8.4.1 4843 K.8 K.3.8.4.1 4847 K.8 K.3.8.4.2 4849 K.8 K.3.8.4.2


103

4855 K.8 K.3.8.4.2 4871 D.8.11 K.3.8.4.4 4872 K.8 K.3.8.4.4 4875 K.8 K.3.8.4.4 4883 K.8 K.3.8.4.6 4884 K.8 K.3.8.4.6 4888 K.8 K.3.8.4.8 4893 D.7.5 K.3.8.4.8 4896 D.8.5 K.3.8.4.8 4897 D.7.6 K.3.8.4.9 4899 K.8 K.3.8.4.9 4903 D.7.5 K.3.8.4.9 4907 K.8 K.4.1.1.3 4912 D.2.4.1 K.4.1.1.3 4914 K.8 K.4.1.1.3 4943 K.8 K.4.3.1 4957 K.8 K.4.3.4.1 4958 K.8 K.4.3.4.1 4962 K.8 K.4.3.4.1 4972 K.8 K.4.3.7.4 4973 K.8 K.4.3.7.4 4975 D.6.2.2 K.4.3.7.4 4980 K.8 K.4.3.8 4983 D.7.6 K.4.3.8 4984 D.7.6 K.4.3.8 4989 D.7.7 K.4.3.9 4990 D.2.4.1 K.4.3.9 4996 D.7.6 K.4.3.9 5009 K.8 K.4.3.12 5013 D.2.5 K.4.3.12 5017 K.8 K.4.4.4 5022 D.7.6 K.4.4.4 5025 K.8 K.4.4.4 5027 K.8 K.5.1.1 5028 K.8 K.5.1.1 5034 D.2.3 K.5.1.1 5038 D.2.5 K.5.1.2 5039 D.7.6 K.5.1.2 5042 D.2.2.1 K.5.1.2 5051 D.7.7 K.5.2.1 5054 K.8 K.5.2.1 5056 K.8 K.5.2.1 5060 K.8 K.5.3.5


104

5062 K.8 K.5.3.5 5066 K.8 K.5.3.5 5068 K.8 K.5.3.7 5069 K.8 K.5.3.7 5074 D.2.4.1 K.5.3.7 5090 K.8 K.5.3.13 5112 K.8 K.5.3.17 5116 D.2.4.1 K.5.3.17 5117 D.7.7 K.5.3.17 5124 D.2.3 K.5.4.1 5127 D.2.5 K.5.4.1 5129 K.8 K.5.4.1 5132 D.7.6 K.5.4.2 5139 K.8 K.5.4.2 5140 K.8 K.5.4.2 5143 D.2.4.1 K.5.5 5145 K.8 K.5.5 5150 K.8 K.5.5 5189 D.6.3.4.4.1 K.6.2.1 5190 D.8.5 K.6.2.1 5193 K.8 K.6.2.2 5196 K.8 K.6.2.2 5199 K.8 K.6.2.2 5201 D.8.11 K.6.2.4 5204 K.8 K.6.2.4 5205 K.8 K.6.2.4 5215 D.2.4.1 K.6.2.5 5218 D.7.5 K.6.2.5 5219 K.8 K.6.2.5 5222 D.7.7 K.6.3.2 5224 K.8 K.6.3.2 5229 K.8 K.6.3.2 5231 K.8 K.6.3.3 5234 K.8 K.6.3.3 5237 K.8 K.6.3.3 5246 K.8 K.6.4.1 5247 D.8.11 K.6.4.1 5251 K.8 K.6.4.1 5273 K.8 K.6.4.4 5276 K.8 K.6.4.4 5280 K.8 K.6.4.4 5283 D.2.4.1 K.6.4.5 5286 K.8 K.6.4.5


105

5289 K.8 K.6.4.5 5305 K.8 K.6.5 5306 K.8 K.6.5 5311 K.8 K.6.5 5314 D.2.2.1 K.6.6.3 5315 K.8 K.6.6.3 5319 D.7.6 K.6.6.3 5322 D.7.7 K.6.6.4 5324 K.8 K.6.6.4 5331 K.8 K.6.6.4 5367 K.8 L.3.2 5369 D.7.5 L.3.2 5372 L.3.4 L.3.3 5373 L.3.6.1 L.3.3 5374 L.3.6.1 L.3.3 5385 L.3.4 L.3.4 5387 L.3.7 L.3.4 5391 L.3.4 L.3.4 5392 L.3.6.1 L.3.6.1 5394 L.3.6.1 L.3.6.1 5398 D.7.6 L.3.6.1 5402 L.3.2 L.3.7 5403 L.3.7 L.3.7 5411 D.8.5 L.3.7 5415 D.7.7 L.3.8 5416 L.3.6.1 L.3.8 5418 B.2.3 L.3.8 5422 L.4.3 L.4.3 5424 L.4.3 L.4.3 5425 L.4.3 L.4.3 5438 L.4.5 L.4.4 5440 D.7.7 L.4.4 5442 L.4.4 L.4.5 5447 L.4.3 L.4.5 5449 L.4.3 L.4.5 5464 L.5.2 L.5.2 5465 L.5.2 L.5.2 5467 D.7.7 L.5.2 5473 L.5.5 L.5.3 5479 L.5.5 L.5.3 5481 L.5.3 L.5.3 5485 L.5.3 L.5.4 5486 L.5.4 L.5.4


106

5489 D.6.3.4.4.2 L.5.4 5495 L.5.5 L.5.5 5496 L.5.5 L.5.5 5498 L.5.5 L.5.5 5506 E.2.4.12 L.7.1 5508 D.2.4.1 L.7.1 5509 L.7.4 L.7.1 5534 D.7.5 L.7.4 5538 L.7.4 L.7.4 5540 L.7.6 L.7.4 5543 D.2.2.1 L.7.6 5548 L.7.6 L.7.6 5550 D.8.7 L.7.6 5566 L.8.7.4 L.8.2 5567 D.2.4.1 L.8.2 5570 L.8.2 L.8.2 5572 L.8.7.1 L.8.4 5579 L.8.7.4 L.8.4 5581 L.8.7.1 L.8.7.1 5584 L.8.7.4 L.8.7.1 5585 L.5.2 L.8.7.1 5592 D.2.2.1 L.8.7.2 5599 L.7.4 L.8.7.2 5612 L.8.7.4 L.8.7.4 5614 L.8.7.4 L.8.7.4 5619 D.7.7 L.8.7.4 5622 L.9.2.2 L.9.1 5623 L.9.2.2 L.9.1 5630 D.2.1 L.9.1 5631 L.9.2.2 L.9.2.2 5636 L.9.2.2 L.9.2.2 5639 L.9.2.2 L.9.2.2 5641 L.9.2.2 L.9.3 5648 L.9.2.2 L.9.3 5651 L.9.2.2 L.9.7 5656 L.5.5 L.9.7 5674 L.10.2 L.10.2 5679 L.10.2 L.10.2 5686 L.10.2 L.10.4 5689 L.10.2 L.10.4 5696 L.10.2 L.10.6 5697 D.8.11 L.10.6 5714 L.10.2 L.10.8


107

5718 D.2.4.1 L.10.8 5719 L.10.2 L.10.8 5723 D.3.1.1 L.11.2.1 5727 L.11.2.2 L.11.2.1 5729 D.8.12 L.11.2.1 5734 D.2.1 L.11.2.2 5742 L.11.3.4 L.11.3.1 5743 L.11.3.4 L.11.3.1 5744 L.11.3.4 L.11.3.1 5746 L.11.3.4 L.11.3.2 5750 L.11.3.4 L.11.3.2 5754 D.7.7 L.11.3.2 5756 L.11.3.2 L.11.3.3 5760 L.11.3.2 L.11.3.3 5763 L.11.3.1 L.11.3.3 5771 L.11.3.1 L.11.3.4 5772 L.11.3.4 L.11.3.4 5777 L.11.4.6 L.11.4.3 5780 D.2.2.1 L.11.4.3 5781 L.11.4.7 L.11.4.3 5795 D.7.7 L.11.4.6 5800 L.11.4.3 L.11.4.6 5802 L.11.4.6 L.11.4.6 5806 D.2.4.1 L.11.4.7 5807 L.11.4.6 L.11.4.7 5812 D.8.7 L.11.4.7

Tabla 21. Clases de los objetos de conocimiento obtenidas a través del clasificador SVM+Resumen+Bigramas y clases a las que pertenecen los objetos de conocimiento en la librería digital de la ACM

CAPITULO IX Referencias

C a p í t u l o I X . R e f e r e n c i a s

109

9. Referencias Alsaleem, S. (2011). Automated Arabic Text Categorization Using SVM and NB. International Arab

Journal of e-Technology, Vol. 2, No. 2.

Ass, K., & Eikvil, L. (1999). Text categorization: A survey. Technical Report. Norwegian Computing

Center.

Association for Computing Machinery (ACM). (s.f.). The 2012 ACM Computing Classification

System. Recuperado el 18 de 10 de 2013, de http://www.acm.org/about/class/2012

Barrasa, J., Corcho, Ó., & Gómez-Pérez, A. (2004). R2O, an Extensible and Semantically Based

Database-to-ontology Mapping Language. Proceedings of the 2nd Workshop on Semantic

Web and Databases, 1069-1070.

Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python. O'Reilly Media, Inc.

Bordons, M., & Gómez, I. (2004). Towards a single language in science? A Spanish view. Serials

17(2), 189-195.

Bruce, D. (1972). Purposeful Writing. Addison-Wesley publishing company.

Bui, D., Redd, D., & Zeng-Treitler, Q. (2012). An Ensemble Approach for Expanding Queries.

Twenty-First Text REtrieval Conference.

Burges, C. (1998). A tutorial on Support Vector Machines for pattern recognition. Data Mining and

Knowledge Discovery, 121-167.

Carreras, X., Chao, I., Padró, L., & Padró, M. (2004). Freeling: An open-source suite of language

analyzers. Proceedings of the 4th International Conference on Language Resources and

Evaluation (LREC'04).

Chang, H.-C. (2005). Using Topic Keyword Clusters for Automatic Document Clustering. IEICE -

Transactions on Information and Systems.

Clancey, W. (1984). Classification problem solving. Technical Report. Classification problem solving

.

Combinatorial algorithms - ACM DL. (s.f.). Combinatorial algorithms - ACM Digital Library.

Recuperado el 21 de 05 de 2014, de ACM Digital Library:

http://dl.acm.org/ccs.cfm?id=10003628&lid=0.10002950.10003624.10003625.10003628

Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on

Information Theory V. 13 I. 1, 21-27.


110

Duda, R., & Hart, P. (1973). Pattern and classfication and scene analysis. John Wiley & Sons

Canada.

Figuerola, C., Alonso Berrocal, J., Zazo Rodríguez, Á., & Mateos, M. (2008). REINA at WebCLEF

2008. Cross-Language System Evaluation Campaign, CLEF 2008.

González Franco, N. (2012). Sistema de Recomendación Contextual Basado en Ontologías para

Ambientes Organizacionales y de Usuario en Entornos de Cómputo Móvil.

Gorunescu, F. (2011). Data Mining: Concepts, Models and Techniques. Springer.

Guber, T. (1995). Towards principles for the design of ontologies used for knowledge sharing.

Kluwer Academic Publishers.

Guo, G., Li, S., & Chan, K. (2000). Face Recognition by Support Vector Machines. Proceedings of the

Fourth IEEE International Conference on Automatic Face and Gesture Recognition 2000,

196-201.

Heng Wana, C., Hong Leeb, L., & Rajkumarb, R. (2012). A hybrid text classification approach with

low dependency on parameter by integrating K-nearest neighbor and support vector

machine. Expert Systems with Applications. V 39.

Henzinger, M. (2004). The past, present and future of web information retrieval. Proceedings of

the 23th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, 46.

Hepp, M., De Leenheer, P., De Moor, A., & Sure, Y. (2007). Ontology management: semantic web,

semantic web services, and business applications.

Hernández, J., Ramírez, J., & Ferri, C. (2004). Introducción a la minería de Datos. Prentice Hall,

Pearson Educación, S.A.

ISO/IEC 8859-1:1998. (s.f.). Recuperado el 11 de 03 de 2014, de ISO/IEC 8859-1:1998 - Information

technology -- 8-bit single-byte coded graphic character sets -- Part 1: Latin alphabet No. 1:

http://www.iso.org/iso/catalogue_detail?csnumber=28245

Jain, T., & Aggarwal, D. (2009). Basic Statistics for BBA. FK Publications.

Jansen, B., & Spink, A. (2009). Handbook of Research on Web Log Analysis. IGI Global Snippet.

Joachims, T. (1998). Text Categorization with Support Vector Machines: Learning with Many

Relevant Features. Lecture Notes In Computer Science, Proceedings 10th, 137-142.

Kongovi, M., Guzman, J., & Dasigi, V. (2002). Text Categorization: An Experiment Using Phrases.

Advances in Information Retrieval. 24th BCS-IRSG European Colloquium on IR Research

Glasgow, UK, March 25–27, 2002 Proceedings, 213-228.


111

Lewis, D. (1991). Evaluating text categorization. Proceedings of Speech and Natural Language

Workshop, 312-318.

Lewis, D. (1998). Naive (Bayes) at Forty: The Independence Assumption in Information Retrieval.

Proceedings of the 10th European Conference on Machine Learning, 4-15.

Li, Y. (2007). Text document clustering based on frequent word meaning sequences. Elsevier

Science Publishers B. V.

Lipinski, M., Yao, K., Breitinger, C., Beel, J., & Gipp, B. (2013). Evaluation of header metadata

extraction approaches and tools for scientific PDF documents. Proceedings of the 13th

ACM/IEEE-CS joint conference on Digital libraries.

Liu, Z., Lv, X., Liu, K., & Shi, S. (2010). Study on SVM Compared with the other Text Classification

Methods. Education Technology and Computer Science (ETCS), 2010 Second International

Workshop on V1, 219-222.

Lo, R.-W., He, B., & Ounis, I. (2005). Automatically Building a Stopword List for an Information

Retrieval System. Proceedings of the Fifth Dutch-Belgian Information Retrieval Workshop.

DIR’5, 17-24.

Loper, E., & Bird, S. (2002). Nltk: The natural language toolkit. Proceedings of the ACL Workshop on

Effective Tools and Methodologies for Teaching Natural Language Processing and

Computational Linguistics, 63-70.

Lopez, P. (2009). GROBID: Combining Automatic Bibliographic Data Recognition and Term

Extraction for Scholarship Publications. Proceedings of the 13th European Conference on

Digital Library (ECDL).

Lovins, J. (1968). Development of a Stemming Algorithm. Mechanical Translation and

Computational Linguistics, 22-31.

Mitchell, T. (1997). Machine Learning. McGraw Hill.

Munguía Aguilar, E. (2012). Poblado Semiautomático de Ontologías Organizacionales a Partir de

Análisis de Contenido Web.

Nandanwar, S., & Narasimha Murty, M. (2012). A Regularized Linear Classifier for Effective Text

Classification. Neural Information Processing: Lecture Notes in Computer Science.

Paice, C. D. (1990). Another stemmer. SIGIR Forum, 56-61.

Pirzadeh, H., Hamou-Lhadj, A., & Shah, M. (2011). Exploiting text mining techniques in the analysis

of execution traces. Software Maintenance (ICSM), 2011 27th IEEE International

Conference on, 223-232.


112

Porter, M. F. (1980). An algorithm for suffix stripping. Program: electronic library and information

systems, Vol. 14, 130-137.

Quinlan, J. (1986). Induction of decision trees. Machine Learning, 81-106.

Ramakrishnan, C., Patnia, A., Hovy, E., & Burns, G. (2012). Layout-Aware Text Extraction from Full-

text PDF of Scientific Articles. Source Code for Biology and Medicine 7.

Ranzato, M., Taylor, P., House, J., Flagan, R., LeCun, Y., & Perona, P. (2007). Automatic recognition

of biological particles in microscopic images. Pattern Recogn. Lett., 31-39.

Santos, A. P., & Rodrigues, F. (2009). Multi-label Hierarchical Text Classification using the ACM

Taxonomy. Progress in Artificial Intelligence. 14th Portuguese Conference on Artificial

Intelligence, EPIA 2009.

Sebastiani, F. (2002). Machine learning in automated text categorization. ACM Computing Surveys,

34 (1), 1-47.

Sebastiani, F. (2006). Classification of text, automatic. The Encyclopedia of Language and

Linguistics, vol. 2, second ed., 457–463.

Shannon, C. (1948). A mathematical theory of communication. Bell System Technical Journal, vol.

27, 379-423.

Tie-Yan, L., Yang, Y., Hao, W., Hua-Jun, Z., Zheng, C., & Wei-Ying, M. (2005). Support Vector

Machines Classification with A Very Large-scale Taxonomy. ACM SIGKDD Explorations

Newsletter - Natural language processing and text mining, 36-43.

Tong, S., & Koller, D. (2002). Support vector machine active learning with applications to text

classification. J. Mach. Learn. Res., 45-66.

Unni, M., & K., B. (2012). Ontology based Semantic Querying of the Web using Protégé.

International Journal of Computer Applications.

Vapnik, V. (1995). The nature of statistical learning theory. Springer-Verlag New York, Inc.

Weston, J., & Watkins, C. (1999). Support Vector Machines for Multi-Class Pattern Recognition.

Proceedings of the 6th European Symposium on Artificial Neural Networks, 219-224.

Yong-feng, S., & Yan-ping, Z. (2004). Comparison of Text Categorization Algorithms. Wuhan

University Journal of Natural Sciences.

Zahedi, M., & Ghanbari Sorkhi, A. (2013). Improving Text Classification Performance Using PCA and

Recall-Precision Criteria. Arabian Journal for Science and Engineering.