los diccionarios como fuente de conocimiento lexicografía luis villaseñor pineda laboratorio de...
TRANSCRIPT
![Page 1: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/1.jpg)
Los diccionarios como fuente de conocimiento
Lexicografía
Luis Villaseñor Pineda
Laboratorio de Tecnologías del LenguajeCoordinación de Ciencias Computacionales,
Instituto Nacional de Astrofísica, Óptica y Electrónica
![Page 2: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/2.jpg)
Laboratorio de Tecnologías del Lenguaje 2
Contenido
¿Qué es un diccionario? ¿Qué es una definición? Relaciones semánticas entre palabras Descubriendo semi-automáticamente
relaciones entre palabras
![Page 3: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/3.jpg)
Laboratorio de Tecnologías del Lenguaje 3
¿Qué es un diccionario?
Diccionario: libro en el que se recogen y explican de forma ordenada voces de una o más lenguas, de una ciencia o de una materia determinada.
Lexicón = diccionario
Lexicografía: parte de la lingüística que se ocupa de los principios teóricos en que se basa la composición de diccionarios.
![Page 4: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/4.jpg)
Laboratorio de Tecnologías del Lenguaje 4
¿Para qué la lexicografía?
Dos aspectos nos interesan computacionalmente
Reestructuración y explotación de diccionarios humanos para propósitos computacionales
Uso de técnicas computacionales para compilar nuevos diccionarios
![Page 5: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/5.jpg)
Laboratorio de Tecnologías del Lenguaje 5
Lexicografía
Definición: Atendiendo a su cometido práctico, la lexicografía se ha venido
definiendo como el arte o la técnica de componer léxicos o diccionarios.
A diferenciar de Lexicología su contraparte, en el plano teórico, encargada del estudio
científico del léxico.
![Page 6: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/6.jpg)
Laboratorio de Tecnologías del Lenguaje 6
Léxico
Léxico y vocabulario son intercambiables, sin embargo: Léxico – se reserva para aludir al conjunto de clases abiertas
portadoras de significado mientras vocabulario se aplica a las clases cerradas, puesto que no se puede hacer una descripción lingüística sin que se reduzcan las clases abiertas a cerradas. Clases abiertas: nombres, verbos, adjetivos, adverbios se definen por
intensión Clases cerradas: pronombres, artículos, conjunciones y preposiciones se
definen por extensión.
![Page 7: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/7.jpg)
Laboratorio de Tecnologías del Lenguaje 7
Léxico - Vocabulario
El léxico estaría en la Lengua – el vocabulario en el Habla
El vocabulario es la puesta en uso de un determinado número de unidades léxicas por un grupo o un individuo. El vocabulario de una persona, con sus rasgos específicos, sería
su idiolecto Y el de un grupo regional, profesional o social, su dialecto
![Page 8: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/8.jpg)
Laboratorio de Tecnologías del Lenguaje 8
Léxico - Vocabulario
El léxico, como clase abierta, está enriqueciéndose constantemente por medio de la creatividad que el uso imprime al lenguaje.
Este enriquecimiento produce tensiones que se manifiestan en vacilaciones, oscilaciones e inestabilidad, especialmente cuando aparece un nuevo término y desplaza a otro.
![Page 9: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/9.jpg)
Laboratorio de Tecnologías del Lenguaje 9
Construyendo un diccionario
Los lexicógrafos recopilan los usos de las palabras y crean las explicaciones de su uso. Raíces de la palabra Contexto Tipo de fuente
Dos enfoques: Un erudito o grupo de eruditos dictan el significado y por ende el
uso correcto de las palabras El estudio del uso de las palabras a través de corpus fijan su
significado
![Page 10: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/10.jpg)
Laboratorio de Tecnologías del Lenguaje 10
¿Qué es una definición?
Andrés Manuel López Obrador Ser humano Tabasqueño Padre de familia Ex-jefe de gobierno
Luchador de los derechos sociales Próximo presidente de México Desaforado injustamente
Proposición que expone con claridad y exactitud los caracteres genérico y diferenciales de algo material o inmaterial. Defecto. Carencia de alguna cualidad propia de algo
![Page 11: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/11.jpg)
Laboratorio de Tecnologías del Lenguaje 11
Un lexicón computacional ¿Qué deseamos incluir en un lexicón
computacional? Su definición Su(s) significado(s) El uso de una palabra (sus colocaciones o co-ocurrencias con
otras palabras) Sinónimos, Antónimos En general su relación semántica con otras palabras
Cómo usamos una palabra y cómo se relaciona con otras palabras (tesauro – tesoro)
![Page 12: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/12.jpg)
Laboratorio de Tecnologías del Lenguaje 12
Relaciones semánticas
Ontología. Parte de la metafísica que trata del ser en general y de sus propiedades trascendentales.
Por un abuso del vocablo: Descripción del objeto a partir de sus propiedades Propiedades o relaciones con otras palabras
![Page 13: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/13.jpg)
Laboratorio de Tecnologías del Lenguaje 13
Relaciones semánticas
SinonimiaLos sinónimos son palabras con distinto significante, pero un
significado común. (p. e. extraer y sacar) Polisemia
Es al contrario que la sinonimia. A un significante le corresponden varios significados.
/Gato/: animal felino, herramienta. Antonimia.
Consiste en una oposición de significados. (alto/bajo, comprar/vender.)
![Page 14: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/14.jpg)
Laboratorio de Tecnologías del Lenguaje 14
Relaciones semánticas
Hiperonimiaun hiperónimo es el término cuyo significado comprende a otro grupo
de términos. A éstos últimos se les llama hipónimos. Hiperónimo: Árbol. Hipónimos: Olivo, Roble, Castaño...
![Page 15: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/15.jpg)
Laboratorio de Tecnologías del Lenguaje 15
Relaciones semánticas
Meronimia Un merónimo es el nombre atribuido a un constituyente que forma
parte de, que es substancia de o que es miembro de algo. Meronimia es lo opuesto a la holonimia.
X es merónimo de Y si X forma parte de Y. X es merónimo de Y si X es una sustancia de Y. X es merónimo de Y si X es un miembro de Y.
'azul' es merónimo de 'color'. 'Doctor' es merónimo de 'oficio'. 'auto' es un holónimo de 'llanta'.
![Page 16: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/16.jpg)
Laboratorio de Tecnologías del Lenguaje
Ejemplos
![Page 17: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/17.jpg)
Laboratorio de Tecnologías del Lenguaje 17
WordNet
tomado de:
Climent S. (1999) Individuación e información Parte-Todo. Representación para el procesamiento computacional del lenguaje. Estudios de Lingüística Española (ELiEs).
http://elies.rediris.es/elies8/
![Page 18: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/18.jpg)
Laboratorio de Tecnologías del Lenguaje 18
WordNet Sistema de referencia combinando un diccionario, un tesauro
con el potencial de una base de datos ontológica. WordNet en desarrollo desde los años 80 bajo la dirección
del psicolingüista George Miller en la Universidad de Princeton.
La última versión hecha pública es WordNet 1.5, la cual consta de 126.000 entradas categorías abiertas: nombres (70%), adjetivos (15%), verbos (10%) y
adverbios (5%). categorías cerradas (preposiciones, conjunciones, etc.) no se representan
en WordNet
![Page 19: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/19.jpg)
Laboratorio de Tecnologías del Lenguaje 19
WordNet
En WordNet un concepto se define por el conjunto de formas léxicas que sirven para representarlo en el lenguaje.
Se utiliza una noción débil de sinonimia: la sinonimia en contexto dos unidades léxicas son sinónimas si la sustitución de una por la otra no
produce en ningún caso alteración del valor de verdad de la proposición en la que aparecen.
Esto no es cierto, generalmente, bajo la noción tradicional de sinonimia. La unidad básica en la que se estructura WordNet es el synset
o conjunto de sinónimos
![Page 20: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/20.jpg)
Laboratorio de Tecnologías del Lenguaje 20
WordNet
Las 126.000 entradas = 91.000 conceptos o synsets. el nombre board, traducible según su sentido por 'tabla', 'mesa'
(en su sentido de 'manjar') o 'consejo' aparece en los siguientes synsets:
(1) {board , plank} 'tabla', 'plancha' (2) {board} 'consejo' (3) {board, table} 'mesa', 'manjar'
lo cual debe interpretarse como que board-1 es sinónimo de plank; y board-3 sinónimo de table.
![Page 21: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/21.jpg)
Laboratorio de Tecnologías del Lenguaje 21
WordNet
El synset no es una unidad explícitamente explicativa de la entidad del concepto, tan sólo es indicativo de la existencia del mismo.
El significado en WordNet es diferencial: el significado de un concepto viene dado por contraposición al del resto de conceptos de la base de datos.
![Page 22: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/22.jpg)
Laboratorio de Tecnologías del Lenguaje 22
Ejemplo
El significado de cada sentido de board puede ser deducido en principio a la vista de sus hiperónimos directos, {lumber,timber}('maderaje'), {committee} ('comité') y {fare} ('alimentos'):
(1) {board , plank} (a stout length of sawn timber; made in a wide variety of sizes and used...) HIPERÓNIMO ® {lumber, timber}
(2) {board}(a committee having supervisory powers; "the board has seven members")
HIPERÓNIMO ® {committee} (3) {board, table} (food or meals in general; "she sets a fine table"; "room and board")
HIPERÓNIMO ® {fare}
![Page 23: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/23.jpg)
Laboratorio de Tecnologías del Lenguaje 23
Alcance de una ontología
Es prácticamente imposible construir una ontología “global” Dependiente del dominio Del idioma De su aplicación
![Page 24: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/24.jpg)
Laboratorio de Tecnologías del Lenguaje 24
En resumen
“Todo intento de establecer una descripción estructural de un vocabulario parece destinada al fracaso así que todo queda reducido a una lexicografía o la simple enumeración de fenómenos inestables mal definidos.” (Hjelmskev, 1959)
![Page 25: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/25.jpg)
Laboratorio de Tecnologías del Lenguaje 25
Su uso, no su estructura Sin embargo, si admitimos que una lengua es un sistema, es
necesario considerar el léxico como un conjunto donde sus elementos se relacionan, así como la existencia de subconjuntos ligados los unos a los otros por diferentes relaciones.
Dos enfoques: Lingüístico: la estructura es inherente a la lengua Psicológico: la estructuración del locutor
Así el estudio del léxico puede apoyarse sobre su uso y no sobre su estructura
![Page 26: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/26.jpg)
Laboratorio de Tecnologías del Lenguaje 26
La lexicometría
Serie de métodos que permiten la reorganización de la secuencia textual y los análisis estadísticos sobre el vocabulario.
![Page 27: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/27.jpg)
Laboratorio de Tecnologías del Lenguaje 27
Antes de contar hay que saber que contar
Una serie de caracteres delimitados por dos caracteres delimitadores es una ocurrencia.
Dos secuencias idénticas constituyen dos ocurrencias de una misma forma gráfica
Los signos de puntuación: El guión puede ser el signo de menos, la ruptura de una palabra en
sílabas o una palabra compuesta El punto puede ser un punto final, un punto decimal o un punto en una
abreviatura. El uso de mayúsculas Precaución con las palabras acentuadas
![Page 28: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/28.jpg)
Laboratorio de Tecnologías del Lenguaje 28
Conceptos básicos El conjunto de formas gráficas es el vocabulario (formas
léxicas)
El número total de ocurrencias en un texto es su tamaño
Estas nociones son la base para el cálculo de riqueza de vocabulario Tamaño del vocabulario entre el tamaño del documento
![Page 29: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/29.jpg)
Laboratorio de Tecnologías del Lenguaje 29
Riqueza del vocabulario Una forma gráfica con frecuencia de 1 es llamada “hapax”
En número total de hapax nos da una idea de la riqueza del vocabulario
Dividir el tamaño del vocabulario entre el tamaño del documento Problema: depende de la longitud del texto Razón D: D = Σr r(r-1)Vr /T(T-1) donde Vr es el número de formas distintas
apareciendo exactamente r veces en el texto
![Page 30: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/30.jpg)
Laboratorio de Tecnologías del Lenguaje 30
La ley de Zipf“La mayor parte de las palabras tienen una frecuencia muy baja, mientras
que tan sólo algunas son muy abundantes”
Si medimos las frecuencias de las palabras de una obra de un buen escritor cuyo vocabulario activo sea de, digamos, unas 100 000 palabras, las palabras que ocupan los primeros 10 lugares en la lista llenan alrededor de 25% del texto.
Si lo medimos en un texto en el que se usara una décima parte de aquel vocabulario (unas 10 000 palabras), como el de un periódico, el porcentaje apenas crece a 30%.
Esto se debe principalmente a que el escritor no podría evitar el uso de palabras como "de", "el", "y", "a", etc., las que generalmente ocupan los primeros rangos en cualquier texto.
![Page 31: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/31.jpg)
Laboratorio de Tecnologías del Lenguaje 31
La ley de Zipf
Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparición, F
El número de orden de cada palabra es su rango, R
R F Palabras / Descriptores
1 36 WATER
2 25 SURFACTANTS
3 22 NONIONIC-SURFACTANTS
4 21 SYSTEMS
5 19 AQUEOUS-SOLUTIONS
6 15 MICELLIZATION
VOCABULARIO ORDENADO POR FRECUENCIAS
kRF frecuencia (F) por el rango
(R) igual a constante (k)
![Page 32: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/32.jpg)
Laboratorio de Tecnologías del Lenguaje 32
La ley de Zipf
0
5
10
15
20
25
30
35
40
45
0 200 400 600
Rango, R
Fre
cuen
cia,
F
![Page 33: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/33.jpg)
Laboratorio de Tecnologías del Lenguaje 33
Ajuste de la ley de Zipf
1
10
100
1 10 100 1000
Rango, R
Fre
cuen
cia,
F
RmkF lnlnln
![Page 34: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/34.jpg)
Laboratorio de Tecnologías del Lenguaje 34
Punto de transición
Se trata de una región crítica en la que ocurre la transición de las palabras de alta frecuencia y las palabras de baja frecuencia. Las palabras frecuentes son palabras vacías (arriba del punto de
transición) Las palabras inusuales son expresiones personales dependientes
del autor Las palabras en esta región crítica son las palabras que
representan/capturan el tema del documento
![Page 35: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/35.jpg)
Laboratorio de Tecnologías del Lenguaje 35
Punto de transición
Cálculo del punto de transición [Urbizagastegui-Alvarado, 1999] :
Donde I1 es el número de palabras con frecuencia 1
![Page 36: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/36.jpg)
Laboratorio de Tecnologías del Lenguaje 36
Clasificando documentos por estilo
Proponer un método para la clasificación de textos considerando el estilo de redacción
Objetivos Específicos Determinar los atributos adecuados para la clasificación de
textos por estilo de redacción. Determinar cual es la mejor configuración si se usan varios
clasificadores. Aplicar el método propuesto en la clasificación de textos
orientados a niños en educación básica
![Page 37: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/37.jpg)
Laboratorio de Tecnologías del Lenguaje 37
Corpus utilizados Corpus Cuentos
Corpus Poemas
Corpus Poetas
Corpus Desastres
Poeta Instancias Vocabulario
Octavio Paz 1914 - 1998 75 13.031Rosario Castellanos 1925 - 1974 80 12,156Rubén Bonifaz Nuño 1923 - 70 12,890Jaime Sabines 1926 - 1999 80 12.885Efraín Huerta 1914 - 1982 48 12.423
Cuentos Instancias Vocabulario
Infantiles 87 39,365Adultos 45 121,812
Poemas Instancias Vocabulario
Infantiles 85 10,889Adultos 83 9,978
Desastres Instancias Vocabulario
Forestal 92 27,494Huracan 76 26,097Inundación 87 27,086Sequía 41 13,056Sismo 143 33,413
![Page 38: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/38.jpg)
Laboratorio de Tecnologías del Lenguaje 38
Experimentos
Temático usando Corpus Desastres (5 clases). Estilo usando Corpus Cuentos Adultos, Poetas y Desastres
(3 clases). Autoría usando Corpus Poetas (5 clases).
Caracterizando: Todas las palabras con excepción de palabras vacías (método tradicional) Con únicamente palabras vacías Todas las palabras incluyendo las palabras vacías Con medidas lexicométricas
![Page 39: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/39.jpg)
Laboratorio de Tecnologías del Lenguaje 39
Medidas lexicográficas usadas Promedio de palabras por oración
Número de palabras / Número de oraciones Desviación estándar del promedio Relación entre la cantidad de oraciones y palabras
Número de oraciones / Número de palabras Número de oraciones / Tamaño del vocabulario
Riqueza del vocabulario Número de palabras / tamaño del vocabulario
Hapax con respecto al vocabulario Número de Hapax / Tamaño del vocabulario
Palabras en mayúsculas (entidades nombradas) (Número de palabras con mayúscula inicial – Número de oraciones) / Número de
oraciones Tamaño promedio de las palabras
Total de caracteres / Número de palabras
![Page 40: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/40.jpg)
Laboratorio de Tecnologías del Lenguaje 40
Al clasificar por temas (5 clases)
Palabras (sin palabras vacías)Atributos 12,038
95.2164%
IG > 0 566 Atributos
sólo palabras vacíasAtributos 193
55.1253%
IG > 0 56 Atributos
todas las palabrasAtributos 12,231
95.4442%
IG > 0 618 Atributos
medidas lexicográficasAtributos 10
25.5320%
IG > 0 1 Atributos
![Page 41: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/41.jpg)
Laboratorio de Tecnologías del Lenguaje 41
Al clasificar por autoría (5 clases)
Palabras (sin palabras vacías)Atributos 9,909
70.5382%
IG > 0 158 Atributos
sólo palabras vacíasAtributos 224
56.3739%
IG > 0 50 Atributos
todas las palabrasAtributos 10,133
71.1048%
IG > 0 213 Atributos
medidas lexicográficasAtributos 10
25.0000%
IG > 0 8 Atributos
![Page 42: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/42.jpg)
Laboratorio de Tecnologías del Lenguaje 42
Al clasificar por estilo (3 clases)
Palabras (sin palabras vacías)Atributos 22,166
97.9661%
IG > 0 2,958 Atributos
sólo palabras vacíasAtributos 212
90.5085%
IG > 0 180 Atributos
todas las palabrasAtributos 22,242
98.8136%
IG > 0 3,036 Atributos
medidas lexicográficasAtributos 10
92.7800%
IG > 0 10 Atributos
![Page 43: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/43.jpg)
Laboratorio de Tecnologías del Lenguaje 43
Paréntesis sobre las medidas de evaluación
Precisión
Recall/Recuerdo (evocación, cobertura, recubrimiento, alcance)
F-mesure
alcanceprecisión
alcancepresiciónF
2
21
![Page 44: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/44.jpg)
Laboratorio de Tecnologías del Lenguaje 44
Otro vistazo a los resultados
![Page 45: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/45.jpg)
Laboratorio de Tecnologías del Lenguaje 45
Creando catálogos específicos
Problema: Responder preguntas de definición “sencillas”
¿Quién es Vicente Fox? ¿Qué es PRI?
Solución: Crear catálogos a partir de patrones léxicos superficiales 1er paso – descubrir los patrones léxicos superficiales específicos para una
relación semántica (definición) 2do paso – aplicar los patrones a una colección de documentos específica 3er paso – dada la pregunta buscar evidencia para responder con la mayor
precisión posible
![Page 46: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/46.jpg)
Laboratorio de Tecnologías del Lenguaje 46
Creando catálogos específicos
WEBDefinitionSearching
Definitioninstances
PatternMining
DefinitionPatters
CatalogConstruction
DefinitionCatalog
DescriptionFiltering
ConceptDescriptions
PatternMining
DocumentCollection
Seeddefinitions
Question Answer
Pat
tern
Dis
cove
ry
An
swer
Ext
rac
tio
n
WEBDefinitionSearching
DefinitioninstancesDefinitioninstances
PatternMining
DefinitionPatters
CatalogConstruction
DefinitionCatalog
DefinitionCatalog
DescriptionFiltering
ConceptDescriptions
PatternMining
DocumentCollection
Seeddefinitions
Question Answer
Pat
tern
Dis
cove
ry
An
swer
Ext
rac
tio
n
![Page 47: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/47.jpg)
Laboratorio de Tecnologías del Lenguaje 47
Descubriendo los patrones
Wolfgang Clement Ministro Alemán de Economía y Trabajo:Vicente Fox presidente de México
... Por otra parte, el ministro alemán de Economía y Trabajo,Wolfgang Clement, dijo tras la reunión -en la que se abordaronasuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el Ministro alemán de Economíay Trabajo, Wolfgang Clement. :… deportistas ganadores, el presidente de México, Vicente Fox,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el presidente de México,Vicente Fox.
, el <DESCRIPTION>, <CONCEPT>, dijoy el <DESCRIPTION>, <CONCEPT>.
Seed pairs
Definition instances
Normalized instances
Surface definition pattern
Pro
cess
of
pat
tern
dis
cove
ry
... Por otra parte, el <DESCRIPTION>, <CONCEPT>, dijo tras lareunión -en la que se abordaron asuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el <DESCRIPTION>, <CONCEPT>. :… deportistas ganadores, el <DESCRIPTION>, <CONCEPT>,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el <DESCRIPTION>,<CONCEPT>.
Wolfgang Clement Ministro Alemán de Economía y Trabajo:Vicente Fox presidente de México
... Por otra parte, el ministro alemán de Economía y Trabajo,Wolfgang Clement, dijo tras la reunión -en la que se abordaronasuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el Ministro alemán de Economíay Trabajo, Wolfgang Clement. :… deportistas ganadores, el presidente de México, Vicente Fox,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el presidente de México,Vicente Fox.
, el <DESCRIPTION>, <CONCEPT>, dijoy el <DESCRIPTION>, <CONCEPT>.
Seed pairs
Definition instances
Normalized instances
Surface definition pattern
Pro
cess
of
pat
tern
dis
cove
ry
... Por otra parte, el <DESCRIPTION>, <CONCEPT>, dijo tras lareunión -en la que se abordaron asuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el <DESCRIPTION>, <CONCEPT>. :… deportistas ganadores, el <DESCRIPTION>, <CONCEPT>,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el <DESCRIPTION>,<CONCEPT>.
![Page 48: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/48.jpg)
Laboratorio de Tecnologías del Lenguaje 48
Descubriendo los patrones
Wolfgang Clement Ministro Alemán de Economía y Trabajo:Vicente Fox presidente de México
... Por otra parte, el ministro alemán de Economía y Trabajo,Wolfgang Clement, dijo tras la reunión -en la que se abordaronasuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el Ministro alemán de Economíay Trabajo, Wolfgang Clement. :… deportistas ganadores, el presidente de México, Vicente Fox,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el presidente de México,Vicente Fox.
, el <DESCRIPTION>, <CONCEPT>, dijoy el <DESCRIPTION>, <CONCEPT>.
Seed pairs
Definition instances
Normalized instances
Surface definition pattern
Pro
cess
of
pat
tern
dis
cove
ry
... Por otra parte, el <DESCRIPTION>, <CONCEPT>, dijo tras lareunión -en la que se abordaron asuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el <DESCRIPTION>, <CONCEPT>. :… deportistas ganadores, el <DESCRIPTION>, <CONCEPT>,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el <DESCRIPTION>,<CONCEPT>.
Wolfgang Clement Ministro Alemán de Economía y Trabajo:Vicente Fox presidente de México
... Por otra parte, el ministro alemán de Economía y Trabajo,Wolfgang Clement, dijo tras la reunión -en la que se abordaronasuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el Ministro alemán de Economíay Trabajo, Wolfgang Clement. :… deportistas ganadores, el presidente de México, Vicente Fox,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el presidente de México,Vicente Fox.
, el <DESCRIPTION>, <CONCEPT>, dijoy el <DESCRIPTION>, <CONCEPT>.
Seed pairs
Definition instances
Normalized instances
Surface definition pattern
Pro
cess
of
pat
tern
dis
cove
ry
... Por otra parte, el <DESCRIPTION>, <CONCEPT>, dijo tras lareunión -en la que se abordaron asuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el <DESCRIPTION>, <CONCEPT>. :… deportistas ganadores, el <DESCRIPTION>, <CONCEPT>,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el <DESCRIPTION>,<CONCEPT>.
No es trivial determinar las semillas
![Page 49: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/49.jpg)
Laboratorio de Tecnologías del Lenguaje 49
¿Qué es una secuencia frecuente maximal?
Secuencia Frecuente Una Secuencia se considera frecuente si aparece por lo menos en n
documentos o frases donde n es el umbral de frecuencia dado.
Secuencia Maximal Secuencia de palabras que no esté contenida en ninguna secuencia más
larga.
![Page 50: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/50.jpg)
Laboratorio de Tecnologías del Lenguaje 50
Respondiendo a una pregunta
supuesto dopaje por consumo de efedrina de la estrella de la selecciónargentina
nada agradable" la actitud del capitán de la selección Argentinaefedrina de la estrella de la selección argentina la selección argentina de fútbolcapitán de la selección argentinafutbolista argentino presunto dopaje por consumo de efedrina de la estrella de la selección
argentinadirigente del club Bolívar Walter Zuleta anunció hoy la visita a La Paz del
capitánde la selección argentina de fútbol :la selección argentina de fútbol capitán de la selecciónequipo albicelestecapitán de la selección argentina de fútbolastro argentinoex capitán de la selección argentina de fútbol
argentinocapitán de la selección argentina de fútbol dopaje por consumo de efedrina de la estrella de la selección argentina
Question ¿quién es Diego Armando Maradona?
Concept Descriptions(25 occurrences)
Candidate answers (word sequences; σ = 3)
Ranked answers
0.136 capitán de la selección argentina de fútbol0.133 dopaje por consumo de efedrina de la estrella de la selección
argentina 0.018 Argentino
Pro
cess
of
answ
er e
xtra
ctio
n
supuesto dopaje por consumo de efedrina de la estrella de la selecciónargentina
nada agradable" la actitud del capitán de la selección Argentinaefedrina de la estrella de la selección argentina la selección argentina de fútbolcapitán de la selección argentinafutbolista argentino presunto dopaje por consumo de efedrina de la estrella de la selección
argentinadirigente del club Bolívar Walter Zuleta anunció hoy la visita a La Paz del
capitánde la selección argentina de fútbol :la selección argentina de fútbol capitán de la selecciónequipo albicelestecapitán de la selección argentina de fútbolastro argentinoex capitán de la selección argentina de fútbol
argentinocapitán de la selección argentina de fútbol dopaje por consumo de efedrina de la estrella de la selección argentina
Question ¿quién es Diego Armando Maradona?
Concept Descriptions(25 occurrences)
Candidate answers (word sequences; σ = 3)
Ranked answers
0.136 capitán de la selección argentina de fútbol0.133 dopaje por consumo de efedrina de la estrella de la selección
argentina 0.018 Argentino
Pro
cess
of
answ
er e
xtra
ctio
n
![Page 51: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/51.jpg)
Laboratorio de Tecnologías del Lenguaje 51
Sobre el descubrimiento de patrones
QuestionType
SeedDefinitions
CollectedSnippets
MaximalFrequentSequences
SurfaceDefinitionPatterns
Positions 10 6523 875 78
Acronym 10 10526 1504 122
Position related patterns Acronym related patterns
El <DESCRIPTION>, <CONCEPT>, hadel <DESCRIPTION>, <CONCEPT>.
El ex <DESCRIPTION>, <CONCEPT>,por el <DESCRIPTION>, <CONCEPT>.El <DESCRIPTION>, <CONCEPT>, se
del <DESCRIPTION> (<CONCEPT>).que la <DESCRIPTION> (<CONCEPT>)de la <DESCRIPTION> (<CONCEPT>) en del <DESCRIPTION> (<CONCEPT>) yen el <DESCRIPTION> (<CONCEPT>)
![Page 52: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,](https://reader036.vdocuments.net/reader036/viewer/2022062303/5528bde6497959977d8fd62b/html5/thumbnails/52.jpg)
Laboratorio de Tecnologías del Lenguaje 52
Resultados sobre el CLEF 05
Answer Selection
QuestionType
MoreFrequentSequence
HighestRanking
Score
Positions 64% 88%
Acronym 80% 80%
Total 72% 84%