tesis doctoral laura plaza morales dirigida por dr . d. pablo gervás gómez-navarro

63
Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios: Biomedicina, Periodismo y Turismo Tesis doctoral Laura Plaza Morales Dirigida por Dr. D. Pablo Gervás Gómez-Navarro Dr. D. Alberto Díaz Esteban

Upload: liza

Post on 15-Feb-2016

87 views

Category:

Documents


0 download

DESCRIPTION

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios : Biomedicina , Periodismo y Turismo. Tesis doctoral Laura Plaza Morales Dirigida por Dr . D. Pablo Gervás Gómez-Navarro Dr. D. Alberto Díaz Esteban. Contents. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su

Aplicación en Distintos Dominios: Biomedicina, Periodismo y Turismo

Tesis doctoralLaura Plaza Morales

Dirigida por Dr. D. Pablo Gervás Gómez-Navarro

Dr. D. Alberto Díaz Esteban

Page 2: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

2Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Contents

1. Introduction2. Using Semantic Graphs in Automatic

Summarization3. Case Studies4. Evaluation5. Conclusions and Future Work

Page 3: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

3

Contenidos

1. Introducción• Definición del Problema• Motivación y Contribución

2. Uso de Grafos Semánticos para la Generación Automática de Resúmenes

3. Casos de Estudio4. Evaluación5. Conclusiones y Trabajo FuturoUso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Page 4: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

4Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Introducción – Definición del Problema

Resumen: Transformación de uno o varios documentos mediante reducción de su contenido

• Selección de lo importante Extracción

• Generalización de lo importante Abstracción

Predominio de los enfoques por extracción

Sobrecarga de información• Resúmenes mono-documento• Resúmenes multi-documento

Page 5: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Introducción – Definición del Problema

5Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

La Generación Automática de Resúmenes (GAR) es una tarea compleja• Detección de temas

• Desambiguación léxica y semántica

• Resolución de acrónimos

• Resolución de anáforas y referencias

• Simplificación y fusión de oraciones

• Eliminación de redundancia

Page 6: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

6Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Introducción – Definición del Problema

Técnicas de generación de resúmenes por extracción• Enfoques superficiales

‒ Posición de las oraciones

‒ Frecuencias de los términos

‒ Expresiones o frases indicativas

• Técnicas discursivas‒ Análisis de la estructura del discurso y de las relaciones entre

términos

• Técnicas basadas en grafos

Page 7: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Introducción – Motivación y Contribución

7Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Problema: Representación del documento mediante información que se extrae directamente del documento (palabras u oraciones)

1. Cerebrovascular disorders during pregnancy results from any of three major mechanisms: arterial infarction, hemorrhage, or venous thrombosis.

2. Brain vascular diseases during gestation results from any of three major mechanisms: arterial infarction, hemorrhage, or venous thrombosis.

El uso de conocimiento del dominio para representar semánticamente el documento mejora la calidad de los

resúmenes generados

Page 8: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

8Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Introducción – Motivación y Contribución

Problema: Sistemas genéricos frente a sistemas especializados

• Sistemas genéricos: Capaces de generar resúmenes de cualquier tipo de documento, a costa de reducir la calidad del resultado

• Sistemas especializados: Capaces de generar resúmenes de mayor calidad, aunque restringidos a un único dominio de aplicación

Método genérico para la GAR dependientes del dominio, aunque configurable para tratar con documentos de

diferentes dominios

Page 9: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

9Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Introducción – Motivación y Contribución

Problema: Ningún intento por resolver abreviaciones

Incorporación de mecanismos para expandir acrónimos y abreviaturas en función del dominio de aplicación

Problema: Ningún intento por resolver la ambigüedad

Estudio del efecto de la ambigüedad e incorporación de mecanismos de desambiguación apropiados para cada

dominio/fuente de conocimiento

Page 10: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

10Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Introducción – Motivación y Contribución

Método genérico para la GAR de textos de diferentes tipologías y campos de conocimiento• Representación del documento como un grafo de conceptos y relaciones

del dominio

• Técnicas de agrupamiento para detectar grupos de conceptos fuertemente relacionados, que determinan los distintos temas tratados en el documento

Generación de distintos tipos de resúmenes en función del contenido deseado

Estudio del efecto de la ambigüedad y la presencia de acrónimos

Evaluación del método en tres dominios

Page 11: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

11

Contenidos

1. Introducción2. Uso de Grafos Semánticos para la

Generación Automática de Resúmenes3. Casos de Estudio4. Evaluación5. Conclusiones y Trabajo Futuro

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Page 12: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

12Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Arquitectura

Page 13: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

13Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Etapa I: Pre-procesado

1. Eliminación de secciones irrelevantes

2. Eliminación de palabras vacías

3. Extracción del cuerpo, título y abstract

4. Segmentación en oraciones (GATE)

<CONFIG> <CATEGORY name "DOCUMENT_PREPROCESSING"> <PROPERTY name =“FORMAT”></PROPERTY> <PROPERTY name =“IGNORED_TAGS”></PROPERTY> <PROPERTY name = “STOP_LIST”></PROPERTY> </CATEGORY> <CATEGORY name ="TAG"> <PROPERTY name ="XML_TITLE“></PROPERTY> <PROPERTY name ="XML_ABSTRACT“></PROPERTY> <PROPERTY name ="XML_BODY"></PROPERTY> … </CATEGORY> …..</CONFIG>

Page 14: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Etapa II: Traducción de Oraciones a Conceptos

Objetivo: Traducir del léxico de cada oración a conceptos del dominio

Requisitos:• Base de conocimiento

• Mecanismo de traducción

• Algoritmo de desambiguación (WSD)

14Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Oración: término1 término2 … términon

WSD

concepto1 concepto2 … concepton

BC

<CONFIG> ….. <CATEGORY name =“KW_BASE"> <PROPERTY name =“NAME”></PROPERTY> <PROPERTY name =“WSD”></PROPERTY> </CATEGORY> <CATEGORY name =“CONCEPT_FILTER"> <PROPERTY name =“FILTER_1”></PROPERTY> </CATEGORY> …..</CONFIG>

Page 15: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Etapa III: Representación de la Oración

15Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Objetivo: Crear una jerarquía de conceptos que representa a cada oración

Requisitos:

• Relación de hiperonimia en la base de conocimiento

• Definir los niveles de la jerarquía a ignorar

hiperónimo1

hiperónimo1

hiperónimo1

concepto1

hiperónimo{2,3,n-1,n}

hiperónimo{2,3,n-1,n}

hiperónimo{3,n-1,n}

hiperónimo{n-1,n}

hiperónimon-1

concepton-1

hiperónimo3

concepto3

hiperónimon

concepton

hiperónimo2

hiperónimo2

concepto2

hiperónimo{1,2,3,n-1,n}

Page 16: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Etapa IV: Representación del Documento

16Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Objetivo: Crear un grafo de conceptos y relaciones semánticas que representa al documento1. Fusionar los grafos de las oraciones

2. Añadir nuevas relaciones entre conceptos

3. Asignar pesos a las aristas del grafo

Page 17: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

17Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

<CONFIG> ….. <CATEGORY name =“KW_BASE"> <PROPERTY name =“NAME”></PROPERTY> <PROPERTY name =“WSD”></PROPERTY> <PROPERTY name =“LEVEL_THRESHOLD”></PROPERTY> </CATEGORY> <CATEGORY name =“RELATIONS"> <PROPERTY name =“HYPERNYMY”>YES</PROPERTY> <PROPERTY name =“RELATION_1”></PROPERTY> <PROPERTY name =“RELATION_2”></PROPERTY>

… </CATEGORY> <CATEGORY name “HYPERNYMY"> <PROPERTY name =“WEIGTH”></PROPERTY> </CATEGORY> …..</CONFIG>

Etapa IV: Representación del Documento

Requisitos:

• Definir las relaciones semánticas a utilizar

• Definir la fórmula para el cálculo del peso de las aristas

Page 18: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

18Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Etapa IV: Representación del Documento

Coeficiente de Jaccard Coeficiente de Dice-Sorensen

hiperónimo1

hiperónimo1

hiperónimo1

concepto1

hiperónimo{2,n-1,n}

hiperónimo{2,n-1,n}

hiperónimo{n-1,n}

hiperónimo{n-1,n}

hiperónimon

concepton

hiperónimo2

concepto2

hiperónimo{1,2,n-1,n}

3/4

4/5

2/3

1/2

3/4

4/5

2/3

1/2

3/4

4/5

5/6 5/6

6/7

concepton-1

1

1

hiperónimo1

hiperónimo1

hiperónimo1

concepto1

hiperónimo{2,n-1,n}

hiperónimo{2,n-1,n}

hiperónimo{n-1,n}

hiperónimo{n-1,n}

hiperónimon

concepton

hiperónimo2

concepto2

hiperónimo{1,2,n-1,n}

6/7

8/9

4/5

2/3

6/7

4/5

4/5

2/3

6/7

8/9

10/11 10/11

12/13

concepton-1

1

1

Page 19: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

19Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Etapa V: Agrupamiento de Conceptos

Objetivo: Construir grupos o clusters de conceptos estrechamente relacionados entre sí, donde cada conjunto representa un tema distinto del documento

Hipótesis: El grafo del documento se comporta como una red de libre escala (Barabasi & Albert, 1999)

Agrupamiento basado en la conectividad (Yoo et al., 2007)1. Cálculo del prestigio o salience de cada vértice

2. Los n vértices de mayor salience se denominan concentradores o hubs

3. Iterativamente, los hub vertices se agrupan en Hub Vertex Sets

4. Los restantes vértices se asignan al HVS al que se encuentran más conectados para producir los clusters finales

Page 20: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Etapa VI: Asignación de Oraciones a Clusters

Objetivo: Calcular la similitud entre cada oración y cluster, ¿de qué trata cada oración?

En función del número de conceptos que coinciden entre el grafo de la oración y el cluster

20Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

jkk Ovv

jkji wOCsimilitud ),( ,

)(

)(

ikk,j

ikk,j

ikk,j

CHVS if vw

CHVS if vw

C0 if vw

Page 21: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Etapa VII: Selección de Oraciones

Objetivo: Seleccionar las N oraciones para el resumen final, en función del tipo de resumen que se desee generar Heurística 1: Todas las oraciones se seleccionan del cluster de

mayor tamaño (tema principal del documento) Heurística 2: Todos los clusters contribuyen con un número de

oraciones proporcional a su tamaño Heurística 3: Para cada oración, se calcula una única

puntuación, como la suma de sus similitudes respecto a cada uno de los clusters promediados por su tamaño, y se seleccionan las N oraciones con mayor puntuación global

21Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Page 22: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Etapa VII: Selección de Oraciones

Criterio Posicional (Pos): Asigna mayor puntuación a las oraciones cercanas al inicio y final del documento

Criterio de similitud con el título (Tit): Asigna mayor puntuación a las oraciones similares al título

22Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

)()()()( jjjij OTitOPosOHeurOPuntuación

Page 23: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

23Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

GAR Multi-documento

INTEGRADOR

Documento Integrado

Título Integrado

G.A.R.

O1

O3

O2

ELIMINACIÓNREDUNDANCIA

O1

O3

Page 24: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

24

Contenidos

1. Introducción2. Uso de Grafos Semánticos para la

Generación Automática de Resúmenes3. Casos de Estudio

• Resúmenes mono-documento de Artículos Biomédicos• Resúmenes mono-documento de Noticias Periodísticas• Resúmenes multi-documento de Páginas Web Turísticas

4. Evaluación5. Conclusiones y Trabajo Futuro

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Page 25: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

25Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Caso de Estudio: Biomedicina

Configuración de las etapas I, II, III y VI del método genérico para resumir artículos científicos de biomedicina del corpus de BioMed Central

Características: Multiplicidad contenido: texto, tablas, imágenes. Estructura IMRAD (Introduction, Method, Results And

Discussion) Terminología especializada

− Sinónimos y homónimos

− Elisiones, neologismos y abreviaciones

Page 26: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

26Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Caso de Estudio: Biomedicina

Etapa I: Pre-procesado:• Formato: xml

• Secciones irrelevantes: Autores, Instituciones, Publicación, Conflicto de intereses, Agradecimientos, Contribuciones, Referencias.

• Lista de palabras vacías: PubMed StopWords: http://www.ncbi.nlm.nih.gov/entrez/query/static/help/pmhelp.html#Stopwords

Page 27: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

27Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Caso de Estudio: Biomedicina

Etapa II: Traducción de oraciones a conceptos• Base de conocimiento:

− Unified Medical Language System (UMLS)

− MetaMap

• Algoritmos de desambiguación:− Journal Descriptor Indexing

− Personalized PageRank

Page 28: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

28

Unified Medical Language System Léxico Especializado

Metatesauro• Conceptos ↔ C0009443:Common Cold

• Relaciones ↔ C0009443:Common Cold related_to C0027442:Nasopharynx

Red Semántica• Tipos Semánticos ↔ T047:Disease or Syndrome

• Relaciones Semánticas ↔ Bacterium es_un Organism

Metatesauro ↔ Red SemánticaC0009443:Common Cold ↔ T047:Disease or Syndrome

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Page 29: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

29Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Unified Medical Language System

MetaMap• Traducción automática de texto a conceptos del Metatesauro

Phrase: Heart Attack TrialMeta Candidates (8): 827 C0008976:Trial (Clinical Trial) [Research Activity] 734 C0027051:Heart attack (Myocardial Infarction) [Disease or Syndrome] 660 C0018787:Heart [Body Part, Organ, or Organ Component] 660 C0277793:Attack, NOS (Onset of illness) [Finding] 660 C0699795:Attack (Attack device) [Medical Device] 660 C1261512:attack (Attack behavior) [Social Behavior] 660 C1281570:Heart (Entire heart) [Body Part, Organ, or Organ Component] 660 C1304680:Attack (Observation of attack) [Finding]Meta Mapping (901): 734 C0027051:Heart attack (Myocardial Infarction) [Disease or Syndrome] 827 C0008976:Trial (Clinical Trials) [Research Activity]

Page 30: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

30

Unified Medical Language System

Ambigüedad en el Metatesauro

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Phrase: TissuesMeta Mapping (1000): 1000 C0040300:Tissues (Body tissue)

Phrase: are

Phrase: often cold MetaMapping (888): 694 C0332183:Often (Frequent) 861 C0234192:Cold (Cold Sensation)MetaMapping (888): 694 C0332183:Often (Frequent) 861 C0009443:Cold (Common Cold)MetaMapping (888): 694 C0332183:Often (Frequent) 861 C0009264:Cold (Cold Temperature)

Page 31: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Desambiguación Journal Descritor Indexing

− Conceptos semánticamente consistentes con el resto de conceptos en su contexto.

Personalized PageRank− Un grafo que representa la jerarquía completa de

la base de conocimiento, para cada palabra ambigua

− Adaptación a UMLS• Metatesauro como base de conocimiento• Conjunto de candidatos: Meta Mappings

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 31

Page 32: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Caso de Estudio: Biomedicina Etapa III: Representación de la oración

The goal of the trial was to assess cardiovascular mortality and morbidity for stroke, coronary

heart disease and congestive heart failure, as an evidence-based guide for clinicians who treat

hypertension.

Activity

Clinical or Research Activity

Research Activity

Study

Clinical Study

Clinical Trials

Anatomic Structure

System or Substance

Organ System

Cardiovascular System

Disease

Disorder Or Finding

Disease or Disorder

Non-Neoplastic Disorder

Non-Neoplastic Disorder by Site

Non-Neoplastic Cardiovascular Disorder

Non-Neoplastic Vascular Disorder

Cerebrovascular Disorder

Cerebrovascular Accident

Disorder by Site

Respiratory and Thoracic Disorder

Thoracic Disorder

Heart Disorder

Coronary Heart Disease

Non-Neoplastic Heart Disorder

Congestive Heart Failure

Finding by Site or System

Cardiovascular System Finding

Blood Pressure Finding

Hypertensive Disease

Personnel

Professional Personnel

Clinicians

Eliminación de los dos niveles superiores

Page 33: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

33Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Caso de Estudio: Biomedicina

Etapa IV: Representación del documento• Relaciones Semánticas:

− Relación related to entre conceptos del Metatesauro

− Relación associated with entre tipos de la Red Semántica

1. The goal of the trial was to assess cardiovascular mortality and morbidity for stroke, coronary heart disease and congestive heart failure, as an evidence-based guide for clinicians who treat hypertension

2. While event rates for fatal cardiovascular disease were similar, there was a disturbing tendency for stroke to occur more often in the doxazosin group, than in the group taking chlorthalidone

Page 34: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Caso de Estudio: Biomedicina

Clinicians

Research Activity

Study

Clinical Study

Clinical Trials

Organ System

Cardiovascular System

Disease or Disorder

Non-Neoplastic Disorder

Non-Neoplastic Disorder by Site

Non-Neoplastic Cardiovascular Disorder

Non-Neoplastic Vascular Disorder

Cerebrovascular Disorder

Cerebrovascular Accident

Disorder by Site

Respiratory and Thoracic Disorder

Thoracic Disorder

Heart Disorder

Coronary Heart Disease

Non-Neoplastic Heart Disorder

Congestive Heart Failure

Finding by Site or System

Cardiovascular System Finding

Blood Pressure Finding

Hypertensive Disease

Disorder of Cardiovascular System

Cardiovascular Diseases

Cardiovascular Drug

Alpha-Adrenergic Blocking Agent

Doxazosin

Pharmaceutical Adjuvant

Diuretic

Thiazide Diuretics

Chlorthalidone

1/21/2

2/32/3

3/41

Page 35: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

35Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Caso de Estudio: Periodismo

Configuración de las etapas I, II, III y VI del método genérico para resumir noticias periodísticas del corpus de la conferencia DUC 2002

Características:• Estructura: Titular, Entrada y Cuerpo

• Organización: Pirámide invertida

• Amplitud temática y de vocabulario

• Concisión

Page 36: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Caso de Estudio: Periodismo

36Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Etapa I: Pre-procesado:• Formato: xml

• Secciones irrelevantes: Autores, Entrada, Fecha de publicación, Nombre de la publicación

• Lista de palabras vacías: WordNet Stop List: http://www.d.umn.edu/~tpederse/Group01/WordNet/wordnet-stoplist.html

Page 37: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

37Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Caso de Estudio: Periodismo

Etapa II: Traducción de oraciones a conceptos• Base de conocimiento:

− WordNet

− WordNet::SenseRelate

• Algoritmo de desambiguación:− Lesk

Page 38: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

38Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

WordNet

Conocimiento de ámbito general Concepto ≈ Synset (Synonym set){00007626} person#1, individual#1, someone#1, somebody#1, mortal#1,

soul#2

Definición ≈ Glossperson#1 - (a human being; "there was too much for one person to do")

person#2 - (a human body; "a weapon was hidden on his person")

Relaciones• Hiponimia/Hiperonimia

• Holonimia/Meronimia

•Términos coordinados•…

Page 39: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

39Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

WordNet

Ambigüedad en WordNet

39Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Tissues1. tissue (part of an organism …) 2. tissue, tissue paper (a soft thin …)

Are1. be (have the quality of being)…13. cost, be (be priced at)

often 1. frequently, often (many times...)2. much, a great deal, often (frequently...)

cold1. cold, common cold (a mild viral…)2. coldness, cold (the absence of heat…)3. cold, coldness (the sensation …)

Page 40: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

WordNet::SenseRelate

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 40

Traducción de texto a conceptos de WordNet y desambiguación de su significado− Lesk

> wsd.pl −−type WordNet::Similarity::lesk −−context sentencesFile −−format tagged −−stoplist config/SRStopWord.txt

The red#n#4 car#n#1 be#v#1 parked#a#1 near#a#2 the supermarket#n#1

Page 41: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

41Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Caso de Estudio: Periodismo

Etapa III: Representación de la oración• Eliminación de los tres niveles superiores de la jerarquía

Etapa IV: Representación del documento• Relaciones Semánticas:

− Relación de similitud semántica entre conceptos, calculada según la métrica jcn definida en WordNet::Similarity

− Sólo aquellas entre conceptos cuya similitud supera un determinado umbral de similitud

Page 42: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Caso de Estudio: Periodismo

Etapa IV: Representación del documento

Hurricane Gilbert swept toward the Dominican Republic Sunday, and the Civil Defense alerted its heavily populated south coast to

prepare for high winds, heavy rains and high seas

physical entity

physical object

abstract entity

abstraction

group

social group

organization

defense

measure

fundamentalquantity

time period

calendar day

entity

process

phenomenon

naturalphenomenon

physicalphenomenon

atmosphericphenomenon

windstorm

cyclone

hurricane

location

region

territory

territorialdivision

countryday of

the_week

rest day

sunday

geologicalformation

shore

coast

weather

wind precipitation

rain

thing

body ofwater

sea

DominicanRepublic

1/2

2/3

3/4

4/5

5/6

6/7

1

1

Page 43: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

43Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Caso de Estudio: Turismo

• Configuración del método para generar resúmenes multi-documento de páginas web turísticas (Aker y Gaizauskas, 2009)

Características:• Terminología amplia y poco especializada, vocabulario cotidiano

• No estructurados

• Amplitud temática− Tipo de monumento/lugar descrito, ubicación, información histórica y

artística, información sobre horarios de visita, precios, etc.

− Foros, publicidad, publicidad de la empresa que aloja la información, etc.

Page 44: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

44Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Caso de Estudio: Turismo

Misma configuración que para el caso de estudio periodístico

Resumen multi-documento ¡¡Redundancia!!• Eliminación del contenido repetido utilizando el sistema

de Implicación Textual de Ferrández et al. (2007)O1 implica O2 La información de O2 está contenida en O1

O2 se descarta del resumen

O1 implica O2 Y O2 implica O1 O1 y O2 son semánticamente equivalentes Se descarta la oración de menor puntuación

Page 45: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

45

Contenidos

1. Introducción2. Uso de Grafos Semánticos para la

Generación Automática de Resúmenes3. Casos de Estudio4. Evaluación

• Metodología de Evaluación• Parametrización• Efecto de la ambigüedad• Comparación con otros sistemas

5. Conclusiones y Trabajo Futuro

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Page 46: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Evaluación – Metodología

Métricas• Contenido informativo: ROUGE

− Comparación automática de resúmenes automáticos y modelos

• Legibilidad: Criterios DUC/TAC− Calidad gramatical− Redundancia− Claridad referencial− Foco− Estructura y coherencia

Colecciones• 150 artículos científicos (BioMed Central)• 567 noticias periodísticas (DUC 2002)• 308x10 páginas web turísticas (Aker & Gaizauskas, 2010)

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 46

Page 47: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Evaluación – Metodología

Ratio de compresión: 30%, 100 palabras (≈16%) y 200 palabras (≈2%), respectivamente

Significancia estadística: Test de los signos de Wilcoxon

Parametrización1. Porcentaje de hub vertices2. Combinación de relaciones semánticas3. Umbral de similitud4. Peso de las aristas (Jaccard vs. Dice-Sorensen)5. Combinación de criterios de selección de oraciones

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 47

Page 48: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

48

Evaluación – Parametrización

Biomedicina

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Porcentaje Hub Vertices

Conjunto Relaciones

Criterios Selección

Pesos Aristas

Heurística 1 2% - 5% H+R+A Heur. Jaccard

Heurística 2 10% H+R+A Heur.+Pos.+Tit. Jaccard

Heurística 3 5% H+R+A Heur. Jaccard

PeriodismoPorcentaje

Hub VerticesConjunto

RelacionesUmbral

SimilitudCriterios Selección

Pesos Aristas

Heurística 1 2% H+Sim.(jcn) 0.05 Heur.+Pos. Jaccard

Heurística 2 20% H+Sim.(jcn) 0.01 Heur.+Pos. Jaccard

Heurística 3 5% H+Sim.(jcn) 0.05 Heur.+Pos. Jaccard

Page 49: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Evaluación – Efecto de la Ambigüedad

Biomedicina

49Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

R-1 R-2 R-S4

Heurística 1

1er Candidato 0.7514 0.3304 0.3128

JDI* 0.7724 0.3453 0.3189

PPR* 0.7704 0.3379 0.3108

Heurística 2

1er Candidato 0.7305 0.3093 0.2856

JDI* 0.7772 0.3421 0.3205

PPR* 0.7751 0.3438 0.3210

Heurística 3

1er Candidato 0.7504 0.3283 0.3117

JDI* 0.7845 0.3538 0.3267

PPR* 0.7804 0.3530 0.3262

* Test de los signos Wilcoxon (p<=0.01)

Page 50: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Evaluación – Efecto de la Ambigüedad

PeriodismoR-1 R-2 R-S4

Heurística 1

Aleatorio 0.4214 0.1932 0.1691

Más frecuente* 0.4584 0.2057 0.1794

Lesk* 0.4641 0.2191 0.1919

Heurística 2

Aleatorio 0.4253 0.1972 0.1713

Más frecuente* 0.4594 0.2074 0.1810

Lesk* 0.4651 0.2193 0.1927

Heurística 3

Aleatorio 0.4322 0.2001 0.1780

Más frecuente* 0.4619 0.2104 0.1838

Lesk* 0.4648 0.2196 0.1928

50Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

* Test de los signos Wilcoxon (p<=0.05)

Page 51: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Evaluación – Comparación con otros sistemas

BiomedicinaR-1 R-2 R-S4

Heurística 3* 0.7845 0.3538 0.3267Heurística 2* 0.7772 0.3421 0.3205

Heurística 1* 0.7724 0.3453 0.3189

LexRank 0.7317 0.3248 0.3097

SUMMA 0.7123 0.3187 0.2989

AutoSummarize 0.5994 0.2446 0.2318

Lead 0.6483 0.2566 0.2646

Random 0.4998 0.1777 0.2315

51Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

* Test de los signos Wilcoxon (p<=0.01)

Page 52: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Evaluación – Comparación con otros sistemas

PeriodismoR-1 R-2 R-S4

Heurística 3* 0.4648 0.2196 0.1928Heurística 2* 0.4651 0.2193 0.1927

Heurística 1* 0.4641 0.2191 0.1919

LexRank 0.4558 0.2115 0.1846

Freq+TextEnt 0.4518 0.1942 -

LeLSA+AR 0.4228 0.2074 0.1661

DUC 28 0.4278 0.2177 0.1732

SUMMA 0.4217 0.1952 0.1516

AutoSummarize 0.4216 0.1887 0.1429

Lead 0.4113 0.2108 0.1660

Random 0.2996 0.1110 0.0900

52Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

* Test de los signos Wilcoxon (p<=0.05)

Page 53: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Evaluación – Comparación con otros sistemas

Turismo

R-2 R-S4

Heurística 3* 0.090 0.143Heurística 1* 0.089 0.139

MEAD* 0.089 0.138

COMPENDIUM 0.086 0.134

Language Models 0.071 0.119

Heurística 2 0.069 0.117

SUMMA 0.064 0.109

53Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Heurística 3Calidad gramatical 4.11

Redundancia 3.8

Claridad referencial 3.72

Foco 4.1

Estructura y coherencia 3.15

* Test de los signos Wilcoxon (p<=0.01)

Page 54: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

54Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

El método produce resúmenes de mayor calidad que el resto de sistemas analizados, para todos los casos de estudio

La heurística 3 se comporta mejor que las demás• En general, un buen resumen incluye cierta información

secundaria

Aunque todas las heurísticas se comportan de manera muy similar

Necesidad de mejorar la coherencia y la claridad referencial de los resúmenes

Evaluación – Discusión

Page 55: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

55Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Importantes divergencias entre los resúmenes individuales• Biomedicina

− Longitud

− Cobertura de la base de conocimiento

− Abreviaciones

• Periodismo − Longitud

• Turismo− Cobertura de la base de conocimiento

Evaluación – Discusión

Page 56: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

56Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Biomedicina: Frecuencia de acrónimos y abreviaturas• No estándares, definidos ad hoc en el cuerpo del documento

BioText (Schwartz y Hearst, 2003)• Ej. SSR (Simple Sequence Repeat)

Evaluación – Discusión

Con Acrónimos Expansión de AcrónimosR-2 R-S4 R-2 R-S4

Heurística 3 0.3538 0.3267 0.3560 0.3300Heurística 2 0.3421 0.3205 0.3440 0.3228Heurística 1 0.3453 0.3189 0.3476 0.3232

Page 57: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

57

Contenidos

1. Introducción2. Uso de Grafos Semánticos para la

Generación Automática de Resúmenes3. Casos de Estudio4. Evaluación5. Conclusiones y Trabajo Futuro

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Page 58: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

58Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

The use of domain knowledge improves the quality of the automatic summaries

The summarizer performs significantly better when WSD is used

Single-document and multi-document summarization

Typical problems of extractive summarization: coherence and referential clarity

58Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Conclusions & Future Work

Page 59: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

59Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Improving referential clarity through anaphoric resolution techniques

59Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Conclusions & Future Work

A new study finds that many women with early breast cancer do not need a painful procedure that has long been routine: removal of cancerous lymph nodes from the armpit.The discovery turns standard medical practice on its head. Surgeons have been removing lymph nodes for 100 years, believing it would prolong women’s lives by keeping the cancer from spreading or coming back.

The discovery turns standard medical practice on its head. Surgeons have been removing lymph nodes for 100 years, believing it would prolong women’s lives by keeping the cancer from spreading or coming back.

Page 60: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

60Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios 60Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Conclusions & Future Work

Acropolis (Gr akros, akron, edge, extremity + polis, city, pl acropoleis) literally means city on the edge (or extremity). The Acropolis was designated as a UNESCO World Heritage site in 1987, for its, illustrating the civilizations, myths, and religions that flourished in Greece over a period of more than 1,000 years. The Acropolis, the site of four of the greatest masterpieces of classical Greek art — the Parthenon, the Propylaea, the Erechtheum, and the Temple of Athena Nike—can be seen as symbolizing the idea of world heritage. The Acropolis, a hill c.260 ft (80 m) high, with a flat oval top c.500 ft (150 m) wide and 1,150 ft (350 m) long, was a ceremonial site beginning in the Neolithic Period and was walled before the 6th cent. B.C. by the Pelasgians.

Improving legibility through referring expression generation techniques

Page 61: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

61Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Conclusions & Future Work Improving the structure and coherence of the summaries

through sentence simplification and fusion techniques

1)Ana, who is 40, graduated in Mathematics in 19922)Later, she got a PhD in Computer Science3)Ana has worked since 1998 as a financial consultant

Ana, who graduated in Mathematics and got a PhD in Computer Science, works since 1998 as a financial consultant

Page 62: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

62Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Improving acronym resolution mechanisms

Exploring new knowledge sources (e.g. Wikipedia)

Query-based summarization Implementing a method for detecting and

removing redundancy New languages and domains

62Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Conclusions & Future Work

Page 63: Tesis doctoral Laura  Plaza Morales Dirigida por  Dr . D. Pablo  Gervás Gómez-Navarro

Muchas gracias

?