l ingÜÍstica computacional unidad 2. lexicones y corpus ana maría tangarife patiño

22
LINGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

Upload: jose-ramon-romero-barbero

Post on 25-Jan-2016

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

LINGÜÍSTICA COMPUTACIONALUNIDAD 2. LEXICONES Y CORPUS

Ana María Tangarife Patiño

Page 2: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

HERRAMIENTAS PARA EL ANÁLISIS LEXICOGRÁFICO

Lexicones y corpus

Herramientas que deben implementarse en los programas de cómputo

Diccionarios basados en corpus, lexicografía basada en corpus

Page 3: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

IMPORTANCIA Y USO DE LEXICONES

“El lexicón se ha convertido en el centro de atención de aquéllos que se dedican al estudio de los problemas relacionados con el lenguaje, sean éstos del tipo que sean” (Martha Evens, 1988)

En diversas disciplinas es importante el uso de lexicones: Antropología, investigación etnográfica,

lingüística, análisis sintácticos, análisis semánticos, análisis del discurso en ciencias sociales (sociología, historia, trabajo social, psicología) y ciencias políticas, etc.

Page 4: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

EN EL ÁMBITO COMPUTACIONAL…

Los lexicones se consideran la base fundamental en la construcción de sistemas computaciones que posibilitan la interacción entre la máquina y el humano.

No se pueden construir sistemas de procesamiento de lenguaje natural que sean lo suficientemente robustos como para ocuparse de problemas del "mundo real", sin antes diseñar lexicones de gran magnitud que contengan información léxica detallada.

(Antonio Moreno Ortiz, 2000)

Page 5: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

LEXICONES. DEFINICIÓN

Diccionario que suministra información necesaria para el análisis sintáctico y semántico en un programa computacional.

Aporta información de tipo morfológico (estructura de las palabras), sintáctico (organización de las palabras), gramaticales (significados de las palabras y combinación de ellas en las frases), semántico y pragmático.

Son generados a partir de textos del lenguaje natural, por medio de un proceso de adquisición léxica que se realiza con corpus anotados.

Page 6: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

LEXICÓN PARA PLN Todas las aplicaciones que tienen como objeto el

tratamiento computacional del lenguaje natural consideran el lexicón como componente central, lo que ha provocado una demanda constante de información léxica detallada.

La finalidad fundamental del procesamiento de lenguaje natural es la automatización de los procesos lingüísticos, tales como la comprensión, producción o adquisición de una lengua, tareas que los usuarios de una lengua realizan fluida y naturalmente.

Las tareas de procesamiento de la lengua, tanto para los humanos como para las máquinas, implican un conocimiento profundo del vocabulario de una lengua.

Page 7: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

LEXICONES. ALGUNOS EJEMPLOS

Wordnet. Base de datos léxica del inglés que agrupa las palabras en conjuntos de sinónimos, proporcionando definiciones cortas y generales, y almacenando las relaciones semánticas entre estos conjuntos de sinónimos.

http://wordnetweb.princeton.edu/perl/webwn

EuroWordnet. Es una base de datos multilingüe para varios idiomas europeos. Cada idioma diseña su propia WordNet estructurándola con syntes (conjuntos de términos sinónimos) con relaciones semánticas básicas entre ellos. http://ixa2.si.ehu.es/cgi-bin/mcr/public/wei.consult.perl

FrameNet. Es un proyecto basado en modelos semánticos. Se refiere a que el significado de una sola palabra no puede ser comprendido si no se tienen las nociones de conocimiento relativo o conexo a ella.

https://framenet.icsi.berkeley.edu/fndrupal/home

Page 8: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

LOS CORPUS

“Colección de elementos lingüísticos seleccionados y ordenados de acuerdo con criterios lingüísticos explícitos, con la finalidad de ser usada como muestra de la lengua”

(Sinclair, 1996)

Page 9: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

CORPUS

Conjunto de evidencia lingüística que prueba el uso del lenguaje natural.

Colecciones organizadas de datos, que recogidas mediante un marco de ejemplos de uso de la lengua, permiten el análisis de información relativa a la lengua.

Debe contener una colección de textos producidos en situaciones reales de comunicación (bien sea oral o escrita) que cumplan con unos criterios explícitos de la lengua que aseguren que puedan usarse como muestra representativa.

Page 10: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

CORPUS AUTOMATIZADO

Corpus que se ha codificado de manera estándar y homogénea para diferentes tareas de recuperación de la información.

Sirve de base para la elaboración de distintos tipos de productos sobre la lengua, principalmente diccionarios de distinto tipo y gramáticas.

Están estructurados en una base de datos dotada de un sistema de interrogación que permita la recuperación de la información textual.

Page 11: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

CARACTERÍSTICAS DEL CORPUS

Representatividad: de un corpus respecto de la lengua que tiene como referente está en función de una elección equilibrada entre los diferentes tipos de textos que son susceptibles de formar parte del mismo.

Etiquetado (anotación): explicita, en forma de categorías lingüísticas y gramaticales, características del texto o de las palabras que forman parte de él.

Sistematicidad: mantener una consistencia en el vocabulario que se incluye.

Page 12: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

TIPOLOGÍA DE CORPUS (1)

1. Corpus orales: Para la lingüística de corpus: Constituye

habitualmente, en la transcripción ortográfica, de una grabación de la lengua hablada que constituye una representación simbólica del uso oral de la lengua.

Para la fonética y las tecnologías del habla: donde se conserva información fonética con el objetivo de desarrollar aplicaciones relacionadas con la síntesis, el reconocimiento del habla y el diálogo.

2. Corpus escritos:Información lingüística para procesamiento de grandes cantidades textuales que son utilizadas en distintos recursos y aplicaciones

Page 13: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

TIPOLOGÍA DE CORPUS (2)

Pueden ser también abiertos o cerrados dependiendo de la posibilidad de desarrollo que pueda tener

Equilibrados o no, dependiendo de la distribución de la proporción de los datos

Simples, etiquetados o analizados, según el proceso al que hayan sido sometidos los textos

Para producir una hipótesis válida sobre la lengua como un todo o sobre la variedad del objeto de estudio, se debe recurrir a los métodos de la estadística como mecanismo de validación.

Page 14: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

CORPUS ORALES. UTILIDAD (1)

1. Para la fonética y las tecnologías del habla

Estudios fonéticos: Descripción contrastiva, análisis de la producción, interferencia fonética, aprendizaje de segundas lenguas, patologías del habla, dialectología

Reconocimiento: Modelos acústicos, programación de reconocedores

Sistemas de diálogo: Generación de interfaz para interacciones persona-máquina-persona

Page 15: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

CORPUS ORALES. UTILIDAD (2)

2. Para el estudio de la lengua oral

Análisis del discurso: especialmente en estudios etnográficos del habla

Sociolingüística: estudio de registros especialmente en dialectología

Análisis gramatical: Recopilación organizada de muestras de lengua oral en donde se combinan la transcripción y el registro original. Utilidad en el aprendizaje de lenguas.

Page 16: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

CORPUS TEXTUALES. UTILIDADES

A partir de los corpus se pueden obtener conclusiones relacionadas con: Un escritor Una época Una variedad lingüística Cambios lingüísticos Adquisición de la lengua Un grupo social Un género Tema Etc.

Page 17: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

TIPOLOGÍA DE CORPUS (1)

Se pueden establecer según su diseño, características formales, métodos de constitución.

1. Origen: Aspectos del origen del texto que pueden afectar a la estructura o el contenido.

2. Estado: Cuestiones relativas al aspecto físico del texto y a su soporte en el momento en que es seleccionado para el corpus

Page 18: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

TIPOLOGÍA DE CORPUS (2)

Se pueden proponer también otras clasificaciones de acuerdo a los parámetros desde los cuales se quieran categorizar:

Tipo de documento Número de lenguas Criterios de recolección Cantidad y distribución Finalidad Tipo de procesamiento Tipo de anotación Etc.

Page 19: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

ANOTACIÓN DE CORPUS

Como una de las tareas del análisis lexicográfico, con relación a los corpus, está la anotación de ellos.

Es usada para mejorar la información de tipo lingüístico, y se usa para la desambiguación, construcción de bases de conocimiento, evaluación de sistemas de procesamiento del lenguaje, entre otras.

Page 20: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

CORPUS DE REFERENCIA PARA EL ESPAÑOL

Real Academia Española desde 1993 comienza los trabajos para constituir dos corpus.

CORDE (Corpus diacrónico del español) Integra textos desde los inicios del idioma hasta

1975. 299 millones de palabras CREA (Corpus de referencia del español

actual) Desde 1975 hasta la actualidad. Está conformado por 90% de textos escritos y

10% orales 154 millones de palabras

Algunos datos estadísticos

Page 21: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

CORPUS DEL ESPAÑOL

http://corpus.rae.es/creanet.html

http://corpus.rae.es/cordenet.html

Page 22: L INGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

REFERENCIAS

Moreno Ortiz, Antonio (2000). Diseño e implementación de un lexicón computacional para lexicografía y traducción automática. En: Estudios de lingüística del español, No. 9

Baquero V., Julia M. (2010). Lingüística computacional aplicada. Bogotá: Universidad Nacional de Colombia.

Rafel i Fontanals, Joaquim; Soler i Bou, Joan (2003). El procesamiento de corpus: la lingüística empírica. En: Martí Antonín, M.A. Tecnologías del lenguaje. España: UOC