busqueda de informaci on multilingue: estado del arte

25
usqueda de informaci´ on multiling¨ ue: estado del arte Fernando L´ opez-Ostenero, Julio Gonzalo, Felisa Verdejo Departamento LSI, ETSI.Inform´ atica, UNED C/Juan del Rosal, 16 28040 MADRID {flopez,julio,felisa}@lsi.uned.es Resumen Presentamos un estado del arte en el problema de la b´ usqueda de informaci´ on multiling¨ ue, con especial atenci´ on a los distintos recursos ling¨ ısticos utilizados y a los aspectos interactivos de la b´ usqueda de documentos en idiomas desconocidos por el usuario. Abstract This paper summarizes the state of the art in Multilingual Information Retrieval, paying special atten- tion to the linguistic resources used and to the interactive aspects of searching documents in unknown languages. 1 Introducci´ on Tradicionalmente, la Recuperaci´ on de Informa- ci´ on se ha entendido como el proceso, total- mente autom´ atico, en el que, dada una consul- ta (expresando las necesidades de informaci´ on del usuario) y una colecci´on de documentos, se devuelve una lista ordenada de documentos su- puestamente relevantes para la consulta. Un motor de b´ usqueda ideal recuperar´ ıa todos los documentos relevantes (lo que implica una co- bertura completa) y s´ olo aquellos documentos que son relevantes (precisi´ on perfecta). Este modelo tradicional lleva consigo muchas restric- ciones impl´ ıcitas; entre ellas, la suposici´on de que la consulta y el documento est´an escritos en el mismo idioma. La mayor´ ıa de los moto- res de b´ usqueda en Internet, de hecho, tienen la limitaci´ on de encontrar documentos s´ olo en el idioma en que se escribe la consulta. Algunos incorporan sistemas de traducci´ on autom´ atica para traducir los documentos encontrados, que olo resultan ´ utiles cuando ´ estos ya han sido lo- calizados, pero no facilitan un medio efectivo para salvar la barrera del idioma en el proceso de b´ usqueda. El t´ ermino Acceso Multiling¨ ue a la Informaci´ on hace referencia a un concepto m´as amplio, aun- que m´ as adaptado a la realidad de Internet, que el concepto cl´ asico de recuperaci´ on de informa- ci´ on: ayudar al usuario a buscar informaci´ on (no ya documentos) procedente de fuentes hete- rog´ eneas (textuales o de contenido multimedia) por encima de las barreras idiom´ aticas. Diver- sas l´ ıneas de investigaci´on abordan los distintos aspectos que se engloban en este concepto in- cluso dentro del mismo marco del Procesamien- to del Lenguaje Natural: Recuperaci´ on Multi- ling¨ ue de Informaci´ on, Recuperaci´ on de Infor- maci´ on Multimedia (ya sea sobre video, audio o im´ agenes digitales), Recuperaci´ on Interactiva Inteligencia Artificial, Revista Iberoamericana de Inteligencia Artificial, Vol. VIII, No 22 (2004), pp. 11-35. ISSN: 1137-3601. c AEPIA (http://www.aepia.org/revista)

Upload: others

Post on 29-Jul-2022

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Busqueda de informaci on multilingue: estado del arte

Busqueda de informacion multilingue: estado del

arte

Fernando Lopez-Ostenero, Julio Gonzalo, Felisa VerdejoDepartamento LSI, ETSI.Informatica, UNED

C/Juan del Rosal, 1628040 MADRID

{flopez,julio,felisa}@lsi.uned.es

Resumen

Presentamos un estado del arte en el problema de la busqueda de informacion multilingue, con especialatencion a los distintos recursos linguısticos utilizados y a los aspectos interactivos de la busqueda dedocumentos en idiomas desconocidos por el usuario.

Abstract

This paper summarizes the state of the art in Multilingual Information Retrieval, paying special atten-tion to the linguistic resources used and to the interactive aspects of searching documents in unknownlanguages.

1 Introduccion

Tradicionalmente, la Recuperacion de Informa-cion se ha entendido como el proceso, total-mente automatico, en el que, dada una consul-ta (expresando las necesidades de informaciondel usuario) y una coleccion de documentos, sedevuelve una lista ordenada de documentos su-puestamente relevantes para la consulta. Unmotor de busqueda ideal recuperarıa todos losdocumentos relevantes (lo que implica una co-bertura completa) y solo aquellos documentosque son relevantes (precision perfecta). Estemodelo tradicional lleva consigo muchas restric-ciones implıcitas; entre ellas, la suposicion deque la consulta y el documento estan escritosen el mismo idioma. La mayorıa de los moto-res de busqueda en Internet, de hecho, tienen lalimitacion de encontrar documentos solo en elidioma en que se escribe la consulta. Algunosincorporan sistemas de traduccion automatica

para traducir los documentos encontrados, quesolo resultan utiles cuando estos ya han sido lo-calizados, pero no facilitan un medio efectivopara salvar la barrera del idioma en el procesode busqueda.

El termino Acceso Multilingue a la Informacionhace referencia a un concepto mas amplio, aun-que mas adaptado a la realidad de Internet, queel concepto clasico de recuperacion de informa-cion: ayudar al usuario a buscar informacion(no ya documentos) procedente de fuentes hete-rogeneas (textuales o de contenido multimedia)por encima de las barreras idiomaticas. Diver-sas lıneas de investigacion abordan los distintosaspectos que se engloban en este concepto in-cluso dentro del mismo marco del Procesamien-to del Lenguaje Natural: Recuperacion Multi-lingue de Informacion, Recuperacion de Infor-macion Multimedia (ya sea sobre video, audioo imagenes digitales), Recuperacion Interactiva

Inteligencia Artificial, Revista Iberoamericana de Inteligencia Artificial, Vol. VIII, No 22 (2004), pp. 11-35.ISSN: 1137-3601. c© AEPIA (http://www.aepia.org/revista)

Page 2: Busqueda de informaci on multilingue: estado del arte

de Informacion, Sistemas de Pregunta y Res-puesta... etc.

En este artıculo, nos centramos el estudio dela recuperacion de informacion translingue, quetrata el problema de encontrar documentos queestan escritos en idiomas distintos al de la con-sulta. En general, solo se conoce bien el com-portamiento del ingles, y para conseguir unarecuperacion translingue eficiente es necesariodisponer de buenos sistemas de busqueda mo-nolingue en idiomas de otras caracterısticas,por tanto en primer lugar es necesario estu-diar las caracterısticas propias de cada idioma ala hora de efectuar la recuperacion monolinguede documentos. En segundo lugar, hablare-mos de busqueda bilingue cuando la consultaeste en un idioma origen y los documentos enun unico idioma destino. Finalmente, hablare-mos de busqueda multilingue cuando la consul-ta este en un idioma origen y los documentosdistribuidos en varias colecciones de idiomas di-ferentes. En este caso, el problema consiste endevolver un unico ranking de documentos rele-vantes escritos en todos los idiomas considera-dos.

Por ultimo, hablaremos de recuperacion trans-lingue interactiva cuando estudiemos que tipode asistencia puede proporcionar un sistema derecuperacion translingue para que un usuarioformule sus consultas, identifique informacionrelevante y sea capaz de refinar sus necesida-des de busqueda sobre informacion escrita enidiomas que desconoce.

Ya en 1969 Salton planteo por primera vez elproblema de encontrar documentos escritos enun idioma diferente al de la consulta y propusouna aproximacion consistente en la utilizacionde un tesauro bilingue (creado manualmente)entre aleman e ingles (Salton, 1970). Los re-sultados obtenidos fueron practicamente igua-les a los realizados con una busqueda mono-lingue, debido a que el tesauro utilizado habıasido construido manualmente (de tal forma queno existıa ambiguedad en los terminos de inde-xacion) y la correspondencia entre los terminosde indexacion entre ambos idiomas era perfecta.De esta forma el problema de la ambiguedad delas palabras

Pero no fue hasta 1996 cuando, con la creacionde las primeras campanas de evaluacion compa-rada sistematica de este tipo de sistemas, se ini-

cia como un area de investigacion propia.En eseano se organizo un workshop especıficamentededicado a la recuperacion translingue de infor-macion en el SIGIR 1. A partir de este eventose organizan con caracter regular las siguientesactividades internacionales:

• Desde 1997 se creo un “track” especial enel marco del TREC 2 para la evaluacion deeste tipo de sistemas.

Inicialmente la evaluacion se limito a unsistema bilingue (involucrando dos idiomasde entre ingles, frances o italiano) para,posteriormente ser extendida a una evalua-cion en un entorno totalmente multilingue.El resultado de los tracks de recuperacionde informacion translingue del TREC es laprimera gran coleccion para la evaluacionde sistemas de recuperacion translingue deinformacion.

• En 1998 se crea el workshop NTCIR 3, don-de se evaluan, entre otras cosas, sistemastranslingues entre el ingles y el chino, ja-pones o coreano, adoptando muchas de lasideas en las que el TREC fue pionero.

• En el ano 2000 el track de recuperaciontranslingue se separo del TREC creandoseel CLEF 4 (Peters, 2001) donde se realizael estudio de sistemas multilingues de recu-peracion de informacion que utilicen idio-mas europeos, mientras que en el TREC semantuvo un track de recuperacion de in-formacion translingue especıficamente de-dicado a idiomas asiaticos.

A lo largo de todas estas evaluaciones compara-das se han desarrollado y contrastado con exitouna serie de tecnicas y recursos que hacen dela recuperacion translingue de informacion untema de investigacion relativamente maduro.

En este artıculo analizamos las diversas tecnicasque han venido utilizandose para salvar la ba-

1Special Interest Group on Information Retrieval(grupo de interes especial en la recuperacion de infor-macion de la ACM) http://www.acm.org/sigir/

2Text REtrieval Conference (Conferencia sobre recu-peracion de textos) http://trec.nist.gov/

3NII-NACSIS Text Collection for IR systems (colec-cion textual para sistemas de recuperacion de informa-cion) http://research.nii.ac.jp/˜ntcadm/index-en.html

4Cross-Language Evaluation Forum (Foro para laEvaluacion de la Recuperacion de Informacion Trans-lingue) http://www.clef-campaign.org

Page 3: Busqueda de informaci on multilingue: estado del arte

rrera idiomatica en una busqueda translinguede informacion.

Comenzaremos viendo diversas tecnicas que sonutilizadas para mejorar la recuperacion de in-formacion monolingue (seccion 2) en idiomasque no presentan las caracterısticas del ingles.

En la seccion 3 veremos los enfoques que se hanutilizado para traducir las consultas introduci-das por el usuario a los diferentes idiomas enlos que estan escritos los documentos. Estosenfoques dependen, sobre todo, de los recur-sos que se utilicen (aisladamente o en combina-cion): diccionarios bilingues, corpora, progra-mas de traduccion automatica, tesauros... Acontinuacion, en la seccion 4, veremos los prin-cipales enfoques alternativos a la traduccion dela consulta: traduccion de los documentos, tra-duccion bidireccional e indexacion conceptual.

Finalmente, en la seccion 5 revisaremos las in-vestigaciones sobre los aspectos interactivos delas busquedas translingues.

2 Aspectos monolingues

A lo largo de la investigacion en recuperacion deinformacion se han aplicado con exito diversosmodelos (como el modelo de espacio vectorial,la Realimentacion mediante Pseudo-Relevanciao la Indexacion mediante semantica latente) abusquedas realizadas sobre consultas y docu-mentos escritos casi siempre en ingles.

Al enfrentarnos a idiomas que presentan carac-terısticas distintas al ingles (idiomas mas fle-xivos, idiomas aglutinativos o incluso idiomasque no marcan una separacion explıcita entrelas palabras) es necesario mejorar la busquedamonolingue sobre esos idiomas para poder rea-lizar una busqueda translingue efectiva.

Veamos diferentes tecnicas que son utilizadasen el momento de la indexacion de los docu-mentos para mejorar las busquedas:

2.1 Stemming

Una de las tecnicas que ha demostrado ser degran ayuda en la recuperacion de informacion

monolingue es el stemming. Consiste en laobtencion de la raız de las palabras, de formaque el proceso de indexacion se lleve a cabo so-bre ellas en lugar de sobre las palabras origi-nales. Asumiendo que dos palabras que tenganla misma raız representan el mismo concepto,esta tecnica permite a un sistema de recupe-racion de informacion relacionar terminos pre-sentes en la consulta y en los documentos quepueden aparecer bajo diferentes variantes mor-fologicas. Ademas, reduce apreciablemente elespacio de indexacion.

Existen diversos stemmers para ingles basadosen la eliminacion de sufijos derivacionales (Lo-vins, 1968; Dawson, 1974; Porter, 1980). Tam-bien existen stemmers para otros idiomas co-mo frances (Savoy, 1999), castellano (Figuerolaet al., 2002), arabe (Abu-Salem et al., 1999),holandes (Kraaij and Pohlmann, 1994), grie-go (Kalamboukis, 1995) e incluso latın (Schinkeet al., 1996). En general, estos algoritmos nollevan a cabo ningun analisis morfologico sofis-ticado, sino que se basan en un conjunto sen-cillo de reglas que truncan las palabras hastaobtener una raız comun.

Una alternativa es el aprendizaje de las reglasde truncamiento a partir de grandes corpora.Un ejemplo en este sentido es (Bacchin et al.,2002) donde se evalua SPLIT: un algoritmo destemming independiente del idioma basado enmetodos estadısticos. Analizando un conjun-to de palabras, que forman parte del idioma,SPLIT detecta los sufijos y prefijos que las for-man y selecciona como raız de cada palabra elprefijo mas probable. Para realizar la evalua-cion de este algoritmo, se aplico a un conjun-to de documentos en italiano y se comparo laprecision de los resultados de la busqueda uti-lizando SPLIT como stemmer y otro stemmerespecıficamente disenado para este idioma dis-ponible en la pagina web de Snowball (Porter,2001). Los resultados mostraron que la calidadde SPLIT era comparable a la del stemmer deitaliano.

2.2 Segmentacion de compuestos

En los idiomas idiomas aglutinativos, comoaleman y holandes, se unen palabras para for-mar otras mas largas. Por ejemplo la pa-labra holandesa “wereldbevolkingsconferentie”

Page 4: Busqueda de informaci on multilingue: estado del arte

esta compuesta por “wereld” (mundo), “bevol-king” (poblacion) y “conferentie” (conferencia),y se traduce como “Conferencia sobre la pobla-cion mundial”.

Diversos estudios muestran que la descompo-sicion de estas palabras en lemas individua-les produce una significativa mejora en lasbusquedas en este tipo de idiomas al considerarcada elemento de la palabra compuesta comoun termino (Kraaij and Pohlmann, 1998; Monzand de Rijke, 2002).

Una alternativa a la descomposicion emplean-do metodos linguısticos (que exigen disponer deherramientas adecuadas en precision, coberturay eficiencia) es el uso de metodos estadısticos.En (McNamee and Mayfield, 2001) se presen-ta una aproximacion a la recuperacion multi-lingue de informacion utilizando recursos inde-pendientes del idioma. Los documentos de ca-da uno de los idiomas son indexados utilizando6-gramas 5. Se realizan dos busquedas mono-lingues, una empleando los 6-gramas y otra conpalabras (sin ningun tipo de procesamiento adi-cional), cuyos resultados se combinan para ofre-cer una unica lista de documentos. Los resulta-dos obtenidos fueron los mejores sobre idiomasaglutinativos en el CLEF’2000, quedando inclu-so por delante de otros sistemas que utilizabanalgoritmos especıficos para descomponer las pa-labras.

Esta estrategia tambien ha sido probada conotros idiomas como el arabe (Mayfield et al.,2001), llegando a alcanzar una eficiencia supe-rior al 90% de la busqueda monolingue equiva-lente utilizando, en este caso, 4-gramas.

2.3 Segmentacion de palabras

En los idiomas asiaticos, como japones, coreanoy chino, los lımites de las palabras no se marcande manera explıcita en el texto escrito. Por elloes necesario identificar las palabras individualespara mejorar el proceso de busqueda.

A la hora de indexar los textos escritos en estosidiomas, existen dos aproximaciones principa-les:

5Los n-gramas son conjuntos de n caracteres queaparecen juntos en el texto.

• Indexacion basada en texto segmentado:que incluye la indexacion de palabras y/ode sintagmas.

• Indexacion de caracteres: basada en n-gramas. Fundamentalmente se utilizan bi-gramas, ya que en japones, chino y co-reano, la longitud media de las palabrases de, aproximadamente, dos caracteres alser, fundamentalmente, idiomas silabicos.

Algunos estudios han mostrado que lasbusquedas textuales en chino y coreano basadasen la indexacion mediante bigramas obtienenresultados comparables (y, en ocasiones, inclu-so mejores) a las basadas en indexacion median-te palabras (Lee and Ahn, 1996; Kwok, 1997;Chen et al., 1999).

En (Ozawa et al., 1999) se argumenta que losbigramas son insuficientes cuando se indexandocumentos conteniendo lenguaje tecnico, don-de la longitud de las palabras es superior a lamedia. Se comprueba que un metodo adapta-tivo de segmentacion que produce n-gramas devarias longitudes, supone una mejora substan-cial con respecto a la utilizacion de bigramas.

A pesar de los resultados anteriores no pare-ce existir un claro consenso acerca de cual delas dos aproximaciones (n-gramas o palabras)es mejor para la indexacion de textos en estetipo de idiomas. En muchas ocasiones la com-binacion de ambas presenta una clara mejorasobre ambas (Fukushima and Akamine, 1999).

3 Enfoques basados en latraduccion de la consulta

A la hora de realizar una busqueda translinguede informacion, nos enfrentamos a la siguien-te situacion: la consulta y los documentos noestan escritos en el mismo idioma. Es, por tan-to, necesario efectuar alguna forma de traduc-cion para poder realizar una busqueda en la quetanto consulta como documentos se encuentrenen el mismo idioma.

La traduccion de la consulta es la opcionmas frecuente. Por ejemplo los 9 participan-tes que realizaron experimentos en recupera-cion translingue en el TREC-10 emplearon esta

Page 5: Busqueda de informaci on multilingue: estado del arte

tecnica (Gey and Oard, 2001). Esto es debido,principalmente, a que la consulta es sensible-mente mas pequena que los documentos y, porello, el coste computacional de su traduccion esmucho menor (Hull and Grefenstette, 1996).

En (Grefenstette, 1998) se identifican los tresproblemas principales a los que se enfrenta unsistema de busqueda translingue de informacional traducir la consulta:

1. Saber como un termino escrito en un idio-ma puede ser expresado en otro idioma.

2. Decidir cuales de las posibles traduccionesde cada termino son las adecuadas en esecontexto.

3. Saber como pesar la importancia de lasdiferentes traducciones que se consideranadecuadas.

Los dos primeros retos son compartidos por lossistemas de traduccion automatica. Sin embar-go, un sistema de traduccion automatica debedar una unica traduccion para cada termino,mientras que un sistema de recuperacion trans-lingue de informacion puede dar varias y asig-narles distintos pesos.

En esta seccion veremos diferentes recursos ycomo se han utilizado a la hora de traducir lasconsultas. Estos recursos no son utilizados porseparado, cada uno puede aportar informacioncomplementaria al problema de la traduccion.

En el apartado 3.1 comenzaremos viendo losproblemas que plantea la utilizacion de versio-nes electronicas de diccionarios bilingues, asıcomo una perspectiva historica sobre su uso.En el 3.2 veremos como se ha utilizado la infor-macion proveniente de corpora (ya sea paraleloo comparable) para realizar el proceso de tra-duccion. En el apartado 3.3 discutiremos sobreel uso de programas de traduccion automaticay en el 3.4 contaremos el uso de tesauros multi-lingues. Finalmente en el apartado 3.5 se abor-dara el problema de la fusion que aparece en unentorno multilingue.

3.1 Diccionarios

La utilizacion de versiones electronicas de dic-cionarios bilingues como recurso de traduccion

palabra por palabra, ha sido ampliamente es-tudiada en la literatura. Sin embargo su usodirecto no resuelve por completo el problemade encontrar las traducciones de los terminos,debido a las siguientes razones:

• La cobertura del diccionario puede no sercompleta, por lo que algunos terminos noson traducidos. Esto sucede frecuentemen-te con los terminos tecnicos que no son deuso comun. La terminologıa especıfica deun determinado dominio del conocimientono suele estar contemplado en los dicciona-rios de uso comun.

• No contemplan todas las posibles varian-tes morfologicas de una palabra. Porejemplo un diccionario puede contener eltermino “asintotico” pero quiza no conten-ga “asintoticamente”. Este problema pue-de ser mitigado empleando la tecnica destemming comentada en la seccion ante-rior.

• En ocasiones es necesario traducir los nom-bres propios de personas (el nombre “Yelt-sin” se escribe “Eltsine” en frances) olocalizaciones (“Letonia” se escribe “Lat-via” en ingles) y estas traducciones pue-den no estar contempladas en el dicciona-rio. Este problema esta relacionado con el“reconocimiento de entidades”.

• Para cada contexto, solo algunas traduc-ciones son apropiadas. Por ejemplo la pala-bra inglesa “spring” tiene diversas traduc-ciones en castellano con significados muydistintos entre sı: “muelle”, “primavera”,“manantial”... La polisemia de las pala-bras dificulta la traduccion y no se cuentacon metodos automaticos que puedan re-solverla satisfactoriamente.

• La traduccion erronea de los terminos esparticularmente perjudicial en los concep-tos representados por expresiones multi-palabra. Por ejemplo la palabra castella-na “banco” se traduce frecuentemente por“bank” en ingles. Sin embargo la expre-sion “banco de peces” ha de traducirse por“school of fish”.

Por todas estas razones la utilizacion de undiccionario como unico recurso de traduc-cion reduce drasticamente la efectividad de las

Page 6: Busqueda de informaci on multilingue: estado del arte

busquedas translingues. Diversos trabajos co-mo (Hull and Grefenstette, 1996; Ballesterosand Croft, 1996) comprueban que substituyen-do cada termino por todas las traducciones ofre-cidas por el diccionario se reduce la efectividadentre un 40 y un 60% respecto de la mismabusqueda realizada en un contexto monolingue.

Con respecto a la polisemia (Davis, 1997) pro-pone utilizar la categorıa gramatical de las pala-bras de la consulta para elegir entre las posiblestraducciones de los terminos: por ejemplo la pa-labra inglesa “object” puede actuar como nom-bre y ser traducida al castellano como “obje-to”, “objetivo” o “complemento”, mientras quesi actua como verbo puede traducirse por “ob-jetar” u “oponerse”. Utilizando un diccionariobilingue con informacion sobre la categorıa gra-matical para traducir las consultas, Davis com-probo que esta estrategia incrementaba en un37% la precision con respecto a la estrategia desubstituir cada termino por todas las traduc-ciones ofrecidas por el diccionario.

En (Ballesteros and Croft, 1997) se intenta me-jorar la efectividad de las traducciones utili-zando diccionarios de traduccion de expresio-nes multipalabra 6. Cuando estas traduccionesde sintagmas eran correctas, las busquedas eranun 150% mas eficientes que aquellas realizadasutilizando consultas traducidas unicamente pa-labra por palabra. Por desgracia este tipo dediccionarios no es frecuente, y solo un pequenoporcentaje de consultas contenıa terminos deeste tipo.

(Pirkola, 1998) estudia los efectos de diferentesfactores:

• Formulacion de la consulta: comparoconsultas escritas en lenguaje natural conconsultas formadas unicamente por las pa-labras y sintagmas mas relevantes de laconsulta. La precision de las busquedas fuemayor con las consultas expresadas en len-guaje natural.

• Proceso de traduccion: utilizo dos dic-cionarios bilingues para realizar la traduc-cion: uno de proposito general y otro coninformacion especıfica sobre el dominio dela medicina y la salud. Probo varias for-mas de combinar estos diccionarios, com-

6Formadas por secuencias de nombres y parejasnombre-adjetivo.

probando que la que mejores resultados da-ba era la de utilizar las suma de todaslas traducciones proporcionadas por am-bos diccionarios (eliminando traduccionesduplicadas).

• Estructura de la consulta tras la tra-duccion: comparo la utilizacion de con-sultas sin ningun tipo de estructura (unasimple lista de todas las traducciones) conel uso de consultas estructuradas mediantelos operadores proporcionados por el mo-tor de busqueda Inquery (Callan et al.,1992). Las traducciones provenientes deun mismo termino se agruparon medianteun operador de sinonimia y los terminosmultipalabra se identificaron con un ope-rador de proximidad. La estructuracion dela consulta resulto ser el factor que incre-mento en mayor medida la precision de lasbusquedas, superando en algunos casos el50% de incremento.

(Sperer and Oard, 2000) se plantean la utili-zacion de un diccionario bilingue estructuradoen el que las traducciones de cada termino seencuentran agrupadas en conjuntos con un sig-nificado claramente similar. No existen mu-chos diccionarios bilingues que presenten estaestructura, por lo que los autores desarrollan,ademas, un metodo que permite dotar de estaestructura a cualquier diccionario bilingue em-pleando criterios linguısticos (similitud entre laspalabras segun WordNet (Miller, 1990)), mor-fologicos (agrupar las palabras que compartenla misma raız) y ortograficos (agrupar las pala-bras que se diferencien en un unico caracter).

Compararon la estructuracion de la consultapropuesta por (Pirkola, 1998) con otras alterna-tivas, empleando para ello diferentes operadoresdel lenguaje de consulta de Inquery y los con-juntos de traducciones agrupadas. Los resulta-dos mostraron que la traduccion de las consul-tas con la estructuracion propuesta por Pirkolaobtenıan una mayor precision que la traduccionutilizando los diccionarios estructurados.

En (Gollins and Sanderson, 2001) se proponeutilizar dos idiomas pivote para realizar la tra-duccion cuando no se dispone de un dicciona-rio directo. En primer lugar traducen consultasdel aleman al espanol y al holandes utilizandoEuroWordnet (Vossen, 1998). Posteriormenteestas consultas se vuelven a traducir al ingles

Page 7: Busqueda de informaci on multilingue: estado del arte

y se combinan las traducciones para producirlo que los autores denominan una triangulacionlexica. Los resultados demuestran que utilizarun idioma pivote para traducir entre dos idio-mas provoca una mayor perdida de eficienciaque la utilizacion de un diccionario directo, aligual que los resultados obtenidos en (Balleste-ros, 2000).

En (Boughanem et al., 2002) se realiza una se-leccion de las traducciones empleando las tra-ducciones inversas: solo aquellas traduccionesque pueden volver a traducirse al termino departida son seleccionadas. Los resultados mues-tran que esta simple estrategia puede ser masefectiva que otras mas complejas como la de-sambiguacion de traducciones empleando cor-pora paralelo.

3.2 Utilizacion de corpora

3.2.1 Corpora paralelo

El concepto de Corpora Paralelo hace referen-cia a varias colecciones de documentos escritasen diferentes idiomas en las que se puede rela-cionar cada documento de una coleccion con undocumento de otra coleccion que son traduccionel uno del otro. En ocasiones la informacion detraduccion es mas fina, refiriendose no a docu-mentos completos, sino a partes de documentos.

EBMT

Un ejemplo de utilizacion de corpora paraleloalineado a nivel de sintagmas es la llamada tra-duccion mediante ejemplo (Example-Based Ma-chine Translation). Se parte de un corpus quecontiene informacion acerca de la traduccion delos sintagmas y frases contenidos en el, comobase para traducir cualquier otro texto (Brown,1996; Brown, 1997; Carl and Hansen, 1999; Co-llins, 1999; Nirenburg et al., 1994)

La traduccion mediante ejemplo ha demostradoser una tecnica muy eficiente como metodo paratraducir las consultas (Yang et al., 1998), al-canzandose en la busqueda translingue una efi-ciencia similar a la de la busqueda monolingueequivalente. La principal desventaja que pre-senta esta tecnica es la necesidad de disponer decorpora paralelo alineado a nivel de sintagmas,lo que la restringe a dominios especıficos en los

que existan este tipo de recursos.

PRF

La tecnica denominada Pseudo-Relevance Feed-back 7 o PRF (Buckley et al., 1995) es utilizadaen la recuperacion monolingue de informacionpara expandir la consulta con terminos poten-cialmente utiles. Consiste en asumir que losdocumentos que ocupan los primeros puestosdel ranking devuelto por el sistema son relevan-tes para la consulta (sin ninguna intervencionpor parte del usuario). No siempre es efectiva,ya que entre estos documentos pueden apareceralgunos que no sean relevantes. Diversos estu-dios (Hersh et al., 1994; Srinivasan, 1996) hanencontrado evidencias a favor y en contra de suuso.

Si se dispone de corpora paralelo es posible ex-tender la tecnica de PRF a un entorno mul-tilingue, sin mas que utilizar la informacionacerca de la correspondencia de los documen-tos (o partes de documentos) que son el unotraduccion del otro. Podemos encontrar va-rios estudios acerca de la eficiencia de la PRFen un entorno multilingue (Carbonell et al.,1997; Braschler et al., 2000a) con resultados quemuestran una mınima perdida con respecto a labusqueda monolingue utilizando tambien estamisma tecnica.

GVSM

Uno de los modelos utilizados en la recupera-cion de informacion es el modelo de espacio vec-torial (VSM) (Salton and Buckley, 1983). En ellas consultas y los documentos son representa-dos mediante vectores y la similitud entre ellosse mide utilizando los angulos que forman estos.Una extension a este modelo, el modelo deespacio vectorial generalizado (GVSM) (Wonget al., 1985), puede ser adaptada a la recu-peracion translingue de informacion (Carbonellet al., 1997) utilizando corpora paralelo alinea-do a nivel de documentos. Los resultados mues-tran que la perdida de eficiencia de la busquedatranslingue es de, aproximadamente, un 9%.

LSI

Una extension del GVSM es la llamada LatentSemantic Indexing 8 (LSI) (Deerwester et al.,

7Realimentacion mediante pseudo-relevancia.8Indexacion mediante semantica latente.

Page 8: Busqueda de informaci on multilingue: estado del arte

1990). Mientras que en el VSM la base ortogo-nal del espacio vectorial esta formada por pala-bras y en el GVSM por documentos, en LSI seutiliza la combinacion lineal de las dimensionesoriginales que posea un mayor significado. Aligual que el GVSM, es posible extender LSI a unentorno multilingue (Dumais et al., 1996), sinmas que utilizar corpora paralelo para calcularla nueva base del espacio vectorial.

En (Carbonell et al., 1997) se realiza por pri-mera vez una comparacion entre GVSM y LSI,tanto en sus versiones monolingues como trans-lingues. Los resultados muestran que GVSM secomporta mejor que LSI en ambos escenarios,pero presenta una perdida de eficiencia superiora LSI al pasar de monolingue a translingue (un9% para GVSM frente a un 1% para LSI).

Todas estas tecnicas requieren la utilizacion decorpora paralelo (a diferente nivel de alinea-cion) para poder trabajar en un entorno multi-lingue. En muchas ocasiones no es posible dis-poner de corpora de estas caracterısticas, por loque su utilidad queda limitada por este hecho.

3.2.2 Construccion automatica de cor-pora paralelo

Una posible solucion a la falta de corpora pa-ralelo es utilizar los motores de busqueda en lared para encontrar paginas web que tengan ver-siones en dos idiomas diferentes. De esta ma-nera se podrıa construir corpora paralelo entrediversos idiomas.

En (Resnik, 1998) se implemento un proto-tipo llamado STRAND con el que se realizouna busqueda de documentos escritos en inglesy castellano. Tras eliminar los errores y laspaginas duplicadas se encontraron 90 parejasde webs candidatas a ser traduccion la una dela otra. Tras una evaluacion manual se vio queunicamente 24 podıan realmente considerarsecomo traducciones correctas.

De las 90 parejas candidatas, STRAND marco17 como traducciones correctas. Comparan-do estos resultados con la evaluacion manualse comprobo que 15 de las 17 traducciones se-leccionadas por STRAND eran realmente tra-ducciones correctas. Estos datos suponen unaprecision del 88′2% y una cobertura del 62′5%.

En (Chen and Nie, 2000) se implementa otrosistema llamado PTMiner con el que se cons-truye un corpora paralelo para ingles y frances(con, aproximadamente, un 95% de precision enlas alineaciones) y otro para ingles y chino (quealcanzo una precision del 80%).

Los experimentos utilizando el corpora para-lelo ası construido volvieron a mostrar que latraduccion de las consultas utilizando la infor-macion de corpora paralelo permite lograr unaprecision mucho mayor que la obtenida con lasconsultas traducidas mediante el uso de un dic-cionario bilingue.

En un estudio posterior (Nie et al., 2001) se em-pleo el mismo sistema PTMiner para obtenercorpora paralelo en los pares de idiomas ingles-italiano e ingles-aleman. Junto con los datospreviamente obtenidos para ingles y frances serealizaron unos experimentos en el marco delCLEF para comprobar la utilidad del corporaobtenido. Los resultados muestran que la uti-lizacion de corpora paralelo extraıdo de la webes un recurso que resulta muy util al ser utili-zado en la traduccion de las consultas para larecuperacion translingue de informacion.

Los corpora obtenidos por PTMiner se pusierona disposicion de los participantes en el CLEF, yfueron usados con exito por varios grupos comoinformacion complementaria en sus sistemas.

3.2.3 Corpus monolingue

Una alternativa al uso de corpora paralelo con-siste en utilizar la propia coleccion de documen-tos como corpus de referencia. Esto no resuelveel problema de encontrar las traducciones delos diferentes terminos (el corpus esta escritoen un unico idioma) pero puede ser utilizadocomo un apoyo para seleccionar y pesar las dife-rentes traducciones ofrecidas por un diccionariobilingue como en (Chen and Gey, 2001).

(Ballesteros and Croft, 1998) proponen lautilizacion de estadısticas de coocurrencia determinos sobre un corpus en el idioma de losdocumentos como metodo para desambiguar lasposibles traducciones de sintagmas.

La hipotesis de los autores plantea que las tra-ducciones correctas de los terminos de la con-sulta coocurriran frecuentemente en un corpus

Page 9: Busqueda de informaci on multilingue: estado del arte

del idioma de los documentos, mientras que lasincorrectas no lo haran.

Para comprobarlo compararon dos tecnicas pa-ra realizar la desambiguacion de sintagmas 9:

• Mediante corpora paralelo: se utiliza cor-pora paralelo (alineado a nivel de docu-mentos) para realizar la desambiguacion.Con la consulta original se recuperan 30documentos en el corpus del idioma de laconsulta. De los documentos equivalentesa los recuperados (en el corpus del idio-ma de los documentos) se extraen 5000terminos y se ordenan utilizando una medi-da basada en la frecuencia de aparicion enlos documentos de los que provienen. Des-pues, las traducciones de cada termino dela consulta son ordenadas segun su apari-cion en esta lista de 5000 terminos.

• Mediante coocurrencia estadıstica: paracada una de las posibles combinaciones detraducciones de parejas de terminos se ob-tiene una puntuacion basada en la frecuen-cia de aparicion de las traducciones en elcorpus del idioma de los documentos. Lacombinacion que obtiene la mayor puntua-cion se elige como mejor traduccion.

Para comparar ambas tecnicas se realizaronbusquedas translingues partiendo de consul-tas en castellano y recuperando documentosen ingles. Los resultados demostraron quela desambiguacion mediante coocurrencia es-tadıstica alcanzaba una efectividad similar (eincluso superior) a la desambiguacion mediantecorpora paralelo. En conjunto se logro un 90%de la efectividad de la busqueda monolingue.

Ası pues la desambiguacion mediante coocu-rrencia estadıstica demuestra ser una buena al-ternativa a la utilizacion de corpora paralelopara realizar la desambiguacion de las traduc-ciones de sintagmas, especialmente cuando laobtencion de corpora paralelo para el par deidiomas considerados resulte difıcil.

9formados por secuencias de nombres y parejasnombre-adjetivo.

3.2.4 Corpora comparable

Otra alternativa al uso de corpora paralelo es lautilizacion de Corpora Comparable. La obten-cion de corpora comparable es mas sencilla, yaque solo se requiere que los corpus en distintosidiomas tengan una tematica similar, pero noque haya documentos equivalentes entre idio-mas.

Uno de los primeros trabajos en aprovechar cor-pora comparable es (Peters and Picchi, 1997),donde se describe su utilizacion en un sistemamultilingue de recuperacion de informacion pa-ra expandir las consultas, no solo con las tra-ducciones de cada termino, sino tambien con unvocabulario que define un contexto probable enambos idiomas. Ası cuando el diccionario noofrecıa ninguna traduccion para un termino, labusqueda translingue es posible al haberse en-riquecido la consulta con el contexto de dichotermino aprendido del corpus.

Existen diversos trabajos que tratan sobre laalineacion de corpora comparable. Las diferen-tes aproximaciones utilizan analisis linguısticosofisticado (Braschler and Schauble, 1998),metodos estadısticos que consideran la frecuen-cia de las palabras en ambos corpus (Chen,1993; Kay and Roscheisen, 1993) y la longituddel texto analizado (Gale and Church, 1991) o,incluso, la alineacion de cognados 10 (Simardet al., 1992). Estas alineaciones pueden serutilizadas para generar recursos de traduccionque pueden ser aprovechados en la recuperaciontranslingue de informacion (Fung, 1995).

Los llamados “tesauros de similitud” (Qiu andFrei, 1993) son otra forma de aprovechar cor-pora comparable para recuperacion de informa-cion multilingue. Mientras que los tesauros sonconstruidos de forma manual por especialistasen el tema que cubren (ver seccion 3.4), los te-sauros de similitud extraen relaciones de pro-ximidad tematica de forma automatica a par-tir del vocabulario presente en la coleccion aindexar. La utilizacion de estos tesauros pararealizar expansiones de la consulta puede su-poner una mejora sustancial en la eficiencia delas busquedas monolingues (Qiu, 1995) y mul-tilingues (Braschler and Schauble, 2001). Esta

10Dos palabras en distinto idioma se denominan cog-nados si provienen de la misma palabra o estructu-ra. Normalmente los cognados tienen estructuras fo-nologicas similares.

Page 10: Busqueda de informaci on multilingue: estado del arte

tecnica, por tanto, combina el analisis del cor-pus que forman los documentos con la idea detesauro.

Con la llegada de los foros de evaluacion de sis-temas de recuperacion translingue de informa-cion se crean los primeros corpora comparableespecıficamente disenados para la evaluacion deeste tipo de sistemas (incluyendo informacionacerca de la relevancia de los documentos). Elcorpora comparable creado en el TREC con-tiene, mayoritariamente, noticias de periodicosen aleman, frances, ingles, e italiano (Braschleret al., 1999). El sucesor de este corpora ha sidoel creado en el CLEF, cuya tercera edicion con-tiene mas de un millon de documentos en 8 idio-mas: aleman, castellano, finlandes, frances, ho-landes, ingles, italiano y sueco (Peters, 2002a).

3.3 Programas de traduccion au-tomatica

Otro recurso ampliamente utilizado para la tra-duccion son los programas comerciales de tra-duccion automatica, siempre que exista uno dis-ponible para el par de idiomas considerados. Enla octava edicion del TREC, al menos la mitadde los grupos participantes emplearon el siste-ma de traduccion automatica Systran de algu-na forma en sus experimentos (Braschler et al.,2000b). Sin embargo otros metodos basados enla combinacion de corpus y diccionarios obtu-vieron mejores resultados.

Los experimentos acerca de la efectividad de es-tos programas a la hora de traducir la consultano aportan datos concluyentes. (Oard, 1998)sugiere que la efectividad puede depender de lalongitud de las consultas: para consultas cortas(entre 1 y 3 terminos) no parece haber dife-rencia entre esta aproximacion y la utilizacionde diccionarios para la traduccion. Para con-sultas largas (formadas por varias frases) sı seaprecia diferencia. (Nie, 1999) comprueba quecon consultas basadas en frases, la traduccionmediante Systran da mejores resultados en lasbusquedas que otros metodos de traduccion ba-sados en diccionarios o corpus.

Esto es debido a que los sistemas de traduc-cion automatica hacen uso de la estructurasintactica del texto. Si las consultas estan for-madas por frases, los sistemas de traduccion

consiguen una traduccion mejor que si la con-sulta esta formada por terminos independientessin estructura.

Aparte de este problema, el uso de sistemas detraduccion automatica depende de la existenciade un traductor entre los idiomas considerados.La creacion de estos traductores es costosa, ypor eso solo existen para los pares de idiomasmas demandados por el mercado.

(Jones and Lam-Adesina, 2002) utilizaron unsistema comercial para la traduccion de con-sultas en frances, aleman, italiano, castellano,chino y japones al ingles. Vieron que las di-ferencias entre la busqueda monolingue y lastranslingues dependıan bastante del idioma departida oscilando entre un 2′3% de perdida enel caso del frances y un 29′5% para el chino.

(Kraaij, 2002) realizo una comparacion sis-tematica de tres tipos de recursos para la tra-duccion de las consultas en una busqueda trans-lingue: diccionarios, corpora paralelo (obtenidode la web utilizando el sistema PTMiner) y tra-duccion automatica (utilizando Babelfish 11).Los resultados mostraron que los tres metodosalcanzaron, al menos, el 90% de la eficiencia deuna busqueda monolingue. Ademas encontra-ron, al igual que en (Jones and Lam-Adesina,2002), que la diferencia de eficiencia dependıabastante del par de idiomas considerados.

3.4 Tesauros

Un tesauro 12 esta formado por la coleccion determinos o palabras clave que se utilizan pararealizar la indexacion de los documentos (ya seaesta manual o automatica), ası como las rela-ciones semanticas que los unen.

La utilizacion de tesauros en el campo de larecuperacion de informacion se centra en el en-riquecimiento de la consulta con terminos rela-cionados que aparecen realmente en los docu-mentos, aunque hay otros muchos aspectos enlos que pueden ser utilizados (Soergel, 1997):

• Proporcionan un vocabulario controlado11http://babelfish.altavista.com12Del sustantivo latino Tesaurus-Tesauri: tesoro,

deposito de riqueza. Se toma la acepcion del primer dic-cionario analogico ingles: “Thesaurus of English Wordsand Phrases”.

Page 11: Busqueda de informaci on multilingue: estado del arte

para expresar las consultas, por lo que seelimina el problema del desconocimientopor parte del usuario de los terminos queaparecen realmente en los documentos.

• Permiten dar una mejor estructuracion alos resultados. Por ejemplo la construc-cion de un resumen tematico estructura-do del documento, describiendo los temasprincipales del mismo ası como los dife-rentes subtemas tratados, empleando paraello conjuntos de terminos semanticamenterelacionados (Loukachevitch and Dobrov,2000).

• Su estructuracion jerarquica hacen posiblesu utilizacion en un entorno de busquedainteractivo. Los usuarios pueden identifi-car los diferentes conceptos navegando porla jerarquıa y, de esta forma, precisar subusqueda.

• Un tesauro multilingue sobre un domi-nio determinado permite la traduccion determinos especıficos de ese dominio quequiza no puedan encontrarse en un diccio-nario bilingue. Un ejemplo de tesauro mul-tilingue sobre el dominio medico es el me-tatesauro de UMLS 13 (National Library ofMedicine, 1997).

Los tesauros construidos para la indexacion ma-nual de los documentos describen un idiomaartificial (basado en uno real) sobre un domi-nio especıfico, incluyendo informacion adicio-nal con anotaciones para los indexadores sobrelos terminos que lo componen. Estos tesaurosno resultan apropiados para ser utilizados enun entorno automatico de indexacion (Salton,1989), al carecer de la informacion necesariaque aporta el sentido comun de las personasque realizan la indexacion manual.

Los tesauros multilingues fueron el primer ti-po de recursos especıficamente disenados pa-ra la recuperacion de informacion translingue.Un ejemplo lo podemos encontrar en el tesau-ro EuroVoc de la Comunidad Europea, abar-ca 9 idiomas y se utiliza en la actualidad parala recuperacion de documentos europeos (EU-ROVOC, 1995). (Loukachevitch and Dobrov,2002) apuntan los requisitos que han de tenerseen cuenta a la hora de desarrollar estos tesauros

13Unified Medical Language System: sistema unifica-do de terminologıa medica.

para el procesado automatico de documentostextuales:

• Es necesario describir de forma precisa lasdiferentes variantes de un mismo conceptoen diferentes idiomas. Algunos conceptosse describen con una palabra en un idio-ma, mientras que en otros son necesariasvarias (por ejemplo la palabra rusa “dissi-dent” es equivalente a “political dissident”en ingles).

• Es preciso, ademas, describir de forma ma-nual extensos conjuntos de sinonimos paracada concepto analizado en cada uno de losidiomas considerados.

• Se requiere detallar la mayor cantidad po-sible de terminos multipalabra que definanun concepto determinado. De esta formase podran utilizar como base para realizaruna desambiguacion lexica.

En (Sheridan et al., 1997) se construye un te-sauro de similitud multilingue sobre dos colec-ciones en el dominio de la ley federal suiza,que contienen documentos escritos en frances,aleman e italiano. Los resultados muestran quelas busquedas translingues realizadas, emplean-do este tesauro de similitud para traducir laconsulta, presentan una mınima perdida de pre-cision frente a las equivalentes busquedas mo-nolingues. Basandose en este tesauro se creoEUROSPIDER 14, un motor de busqueda mul-tilingue sobre el dominio de la ley federal suiza,que es utilizado en la actualidad por los profe-sionales del sistema legal de ese paıs.

La utilizacion de tesauros en la recuperacionde informacion translingue queda supeditada adisponer de un tesauro multilingue que cubrael dominio de las colecciones documentales quevan a ser utilizadas. En el caso de los tesau-ros de similitud es necesario disponer de cor-pora paralelo (o comparable) para poder cons-truir uno multilingue. Por estas razones, lostesauros no son moneda comun en la recupe-racion translingue de informacion. Sin embar-go, en dominios en los que el uso de tesaurosesta generalizado, como en medicina, la situa-cion es bien distinta; por ejemplo, en el marcodel proyecto Muchmore, financiado por la Co-mision Europea y la National Science Founda-

14http://www.eurospider.com

Page 12: Busqueda de informaci on multilingue: estado del arte

tion americana, se ha estudiado con detalle lacombinacion de tesauros especıficos (UMLS) yrecursos genericos (EuroWordNet) en recupe-racion de informacion multilingue mediante in-dexacion conceptual. En (Volk et al., 2002),por ejemplo, se demuestra cuantitativamentela utilidad del tesauro UMLS en una tarea deCLIR en dominios medicos, especialmente encombinacion con otras fuentes de informacionsemantica.

3.5 El problema de la fusion

Trabajando en un entorno multilingue la tra-duccion de las consultas no se realiza a un unicoidioma, sino que deben ser traducidas a todoslos idiomas en los cuales esten escritos los docu-mentos, para ası poder realizar busquedas mo-nolingues en cada uno de esos idiomas.

Esto representa un problema a la hora de mos-trar al usuario los resultados de las busquedas,ya que no se tiene una unica lista de documen-tos ordenados por relevancia, sino que se dispo-ne de varias de ellas. El problema de mezclarestas listas en una unica se conoce con el nom-bre de fusion de listas de documentos y aun noha sido resuelto por completo.

Un metodo bastante simple de fusion consis-te en asumir que la relevancia es comparableentre las diferentes colecciones de documentos,por lo que se mezclan las diferentes listas dedocumentos utilizando su relevancia para orde-narlos (Kwok et al., 1995; Moffat and Zobel,1995). Este metodo se conoce con el nombre deraw scoring, sin embargo las diferencias entrelas colecciones o, incluso los pesos de las dife-rentes consultas invalidan la asuncion de quela relevancia sea comparable entre las distintascolecciones (Voorhees et al., 1995).

Una primera aproximacion para que esta medi-da sea comparable entre las colecciones es reali-zar una normalizacion de la relevancia dividien-do por la relevancia maxima obtenida en cadabusqueda. Una variante a este metodo consis-te en restar la relevancia mınima obtenida encada lista y dividir por la diferencia entre larelevancia maxima y la mınima (Powell et al.,2000). Sin embargo esto soluciona el proble-ma solo parcialmente, ya que la normalizacionse realiza de forma independiente en cada una

de las listas de documentos provenientes de lasdistintas colecciones.

Otra forma de realizar la fusion de las listasde documentos es utilizar un algoritmo del ti-po round-robin y tomar el primer elemento decada una de las N listas de documentos, orde-narlos segun su relevancia, y esos serıan los Nprimeros documentos de la lista fusionada. Acontinuacion se repetirıa el proceso con los se-gundos elementos para obtener los N siguientesdocumentos y ası hasta terminar. Esta solu-cion, sin embargo, adolece del mismo problema:para calcular la posicion de un determinado do-cumento solo se tiene en cuenta la coleccion ala que pertenece.

En (Martınez-Santiago et al., 2002) se proponeuna estrategia que tiene en cuenta el peso relati-vo de cada termino de la consulta para realizaruna reindexacion de los documentos formandouna nueva coleccion multilingue, sobre la quese realiza una nueva busqueda empleando losterminos originales de la consulta junto con sustraducciones.

Se realizo un experimento de recuperacion mul-tilingue de informacion involucrando 5 idiomas(aleman, castellano, frances, ingles e italiano),donde se comparo esta estrategia de fusion conotras ya estudiadas como el uso de un algoritmoround-robin o una fusion basada en la normali-zacion de la relevancia. Los resultados mostra-ron que la estrategia de reindexacion obtienemejores resultados que las otras dos estrategiascomparadas.

Otra aproximacion consiste en mezclar desdeun principio todos los documentos en una unicacoleccion. Esto puede hacerse de dos formasdistintas:

• sin tener en cuenta su caracter multi-lingue (Gey et al., 1999; McNamee andMayfield, 2002). De esta forma la consul-ta es traducida a todos los idiomas necesa-rios y, en lugar de realizar varias busquedasmonolingues, se mezclan todas estas tra-ducciones realizandose una unica busqueday, por tanto, obteniendose una unica lista.Esta estrategia tampoco parece resolver elproblema, ya que los resultados obtenidosson peores que combinando las listas obte-nidas por varias busquedas.

Page 13: Busqueda de informaci on multilingue: estado del arte

• anadiendo a cada termino de indexacionuna marca identificativa del idioma al quepertenece (Nie, 2002). Por ejemplo, la pa-labra “chair” significa “carne” en francesy “silla” en ingles. Si estas palabras semarcan como “chair f ” y “chair e” en elmomento de la indexacion, se puede iden-tificar de que idioma proviene cada unade ellas y no se recuperarıan documentoserroneos. Sin embargo los experimentosrealizados por (Nie and Jin, 2002) no obtu-vieron buenos resultados debido a proble-mas con los pesos asignados a cada terminoya que los metodos de traduccion no fun-cionaron por igual.

4 Otros enfoques

4.1 Traduccion de documentos

La traduccion de los documentos al idiomaen el cual va a realizarse la consulta presentauna serie de ventajas desde el punto de vistateorico (Dumais et al., 1996; Oard, 1998):

• Las traducciones seran mas precisas al con-tar con una mayor informacion acerca delcontexto en el que se utilizan las palabras.

• La degradacion de la informacion que seproduce debido a los errores en la traduc-cion afectara en menor medida al procesode busqueda si la traduccion se realiza so-bre los documentos.

• Cuando se esta en un entorno multilinguedesaparece el problema que supone realizarla fusion de distintas listas relevantes dedocumentos.

Sin embargo, en la practica, el tamano de lacoleccion de documentos normalmente va a re-querir un elevado coste computacional y, posi-blemente, una gran cantidad adicional de espa-cio de almacenamiento, por lo cual esta opcionresulta menos practica que la traduccion de lasconsultas.

En (Oard, 1998) se comprueba de manerapractica que un sistema comercial de traduc-cion automatica puede emplear aproximada-

mente unos diez meses en proporcionar la tra-duccion de 250, 000 documentos. Esto es, a to-das luces, inviable para un sistema real de re-cuperacion de informacion.

Una alternativa es producir una traduccion me-nos precisa que, aunque no sirva para ser leıda,si sea suficiente para aplicar sobre ella tecnicasde recuperacion de informacion. En este senti-do en (Oard et al., 2001) se realiza un experi-mento (en el marco del CLEF) en el cual los do-cumentos son “traducidos” termino a terminocon la siguiente estrategia llamada traduccioncompensada: si tiene mas de una traduccion setraduce por sus dos traducciones mas frecuen-tes segun el diccionario utilizado, si tiene unaunica traduccion esta se copia dos veces y sino tiene traducciones (por ejemplo los nombrespropios) se copia dos veces el termino originalen el documento traducido.

El resultado es un documento que contiene dosterminos por cada uno de los terminos del docu-mento original, de esta forma no se varıa la im-portancia que tiene cada termino original. Trastraducir todos los documentos con esta estrate-gia, las diferentes colecciones documentales tra-ducidas fueron indexadas por separado utilizan-do Inquery.

Se echan de menos, sin embargo, enfoques in-termedios entre la traduccion palabra por pala-bra (demasiado imprecisa) y la traduccion au-tomatica (demasiado costosa). En general, laposibilidad de traducir los documentos ha reci-bido mucha menos atencion de la que merece.Al fin y al cabo, una vez que el sistema de re-cuperacion encuentra documentos en el idiomadestino, es necesario informar al usuario sobresu contenido, y para ello se necesita algun tipode traduccion automatica, eficiente y precisa.

4.2 Traduccion bidireccional

La traduccion de los documentos al idioma de laconsulta y la traduccion de la consulta al idio-ma (o idiomas) de los documentos, representandos enfoques opuestos de combinar las tecnicasde recuperacion de informacion con las de tra-duccion automatica.

Segun (McCarley, 1999) estos dos enfoques notienen por que ser mutuamente exclusivos. Pa-

Page 14: Busqueda de informaci on multilingue: estado del arte

ra comprobarlo realizaron dos experimentos derecuperacion translingue entre frances e ingles(uno en cada sentido).

Se compararon los resultados obtenidos con latraduccion de las consultas, la traduccion de losdocumentos y un sistema hıbrido que combinolos resultados producidos por ambas aproxima-ciones de la siguiente forma: la relevancia de undocumento es la media de la relevancia obtenidacon la traduccion de la consulta y la relevanciaobtenida con la traduccion de los documentos(previa normalizacion de ambas).

Se observo que las busquedas que involucrabanuna traduccion en el sentido frances → inglesobtuvieron mejores resultados con independen-cia de las unidades de traduccion (documentoso consultas). Ası pues aunque la traduccion delos documentos presente ventajas teoricas, estasvan a depender de la calidad de la traduccionentre el par de idiomas considerados. Los re-sultados del sistema hıbrido fueron superioresa los de las dos aproximaciones individuales, noinfluyendo el sentido en el que se realizan lastraducciones.

4.3 Indexacion conceptual

Otra posibilidad consiste en realizar la traduc-cion tanto de las consultas como de los docu-mentos a un vocabulario de indexacion concep-tual independiente del idioma. Los documentosse traducen a una representacion independientedel idioma en la cual son indexados. Posterior-mente se realiza la traduccion las consultas ala misma representacion y se lleva a cabo labusqueda.

En (Gilarranz et al., 1997) se propone utili-zar los synsets 15 de EuroWordnet como uni-dades de indexacion en un entorno multilingue.WordNet (Miller, 1990) es una base de da-tos lexica en ingles que contiene informacionsemantica sobre relaciones entre las diferentespalabras que la componen. Partiendo de Word-Net se desarrollo EuroWordnet (Vossen, 1998)que contiene informacion sobre las relacionessemanticas entre palabras de diversos idiomaseuropeos, ası como relaciones multilingues en-

15Un synset representa un concepto y, para cada idio-ma, contiene una serie de palabras que hacen referenciaa dicho concepto.

tre los conceptos de los diferentes idiomas. Laindexacion en terminos del Indice Interlinguade EuroWordnet (ILI) presenta las siguientesventajas tecnicas:

• Al tener un unico espacio de ındices paratodos los idiomas, se evita el problema dela fusion de resultados de busqueda paracada idioma destino.

• Es mas escalable que los enfoques de tra-duccion cuando crece el numero de idio-mas.

• Utiliza la desambiguacion semantica au-tomatica para resolver de forma directa al-gunos de los problemas tradicionales de laspalabras como ındices de busqueda, comola identificacion de terminos sinonimos, ladiferenciacion de los distintos sentidos deuna palabra, etc.

• Permite sar las relaciones conceptuales deEuroWordNet para expandir las consultas(conceptos mas genericos, mas especıficos,partes de, etc.).

En (Diekema et al., 1999) se realizo un experi-mento de recuperacion translingue entre ingles(utilizando los synsets de WordNet) y frances(previa construccion de una base de datos lexicaequivalente a WordNet, pero en frances). Losdatos parecen indicar que las consultas reali-zadas con indexacion conceptual alcanzan, enmuchas ocasiones, la misma precision que lasbusquedas monolingues. Sin embargo debidoa errores en la implementacion del sistema losresultados globales parecen indicar justo lo con-trario.

En (Ruiz et al., 2000) se continua el experimen-to anterior, corrigiendose los errores detectados.Las busquedas translingues (entre los mismosidiomas frances e ingles) logran una precisiondel 75%, en ambas direcciones, de la precisionalcanzada por las busquedas monolingues co-rrespondientes.

El Proyecto ITEM 16 exploro la viabilidad deintegrar diferentes tecnicas de procesamientodel lenguaje natural en un motor de busqueda

16Proyecto ITEM: recuperacion de Informacion Tex-tual en un Entorno Multilingue (CICyT TIC96-1243-C03-01)

Page 15: Busqueda de informaci on multilingue: estado del arte

de informacion en un entorno multilingue. Em-pleando el ILI de EuroWordnet para indexartanto los documentos de los diferentes idio-mas como las consultas se puede realizar unabusqueda a nivel conceptual y de forma inde-pendiente del idioma.

La experiencia con este motor de busqueda in-dico que la indexacion conceptual tiene ciertasventajas respecto a las aproximaciones basadasen traduccion, ademas de las ya citadas: porejemplo, la expansion automatica de las con-sultas empleando las relaciones de EuroWord-net permite traducir conceptos sin una repre-sentacion directa en el otro idioma. Por ejem-plo “grand jury” en ingles no tiene un concep-to equivalente en castellano. Sin embargo unhiperonimo suyo es “jury” que tiene una tra-duccion directa como “jurado”. Ası se puedepaliar la perdida de informacion que implica elproceso de traduccion.

Sin embargo, se comprobaron tambien los pro-blemas del enfoque: por un lado, las tecnicasde desambiguacion automatica no han alcanza-do todavıa un grado suficiente de madurez paraun enfoque tan ambicioso (Senseval-2, 2001).Por otro lado, es difıcil encontrar el nivel derepresentacion conceptual adecuado para la ta-rea. Las expresiones multipalabra, que puedenrepresentar conceptos complejos, no son ade-cuadas para la recuperacion monolingue, en laque es mejor indexar todos los componentes(ver seccion 2.2). Sin embargo, este tipo de ex-presiones son mucho mejores que las palabrasindividuales a la hora de traducir. De esta for-ma, si una expresion multipalabra esta en Eu-roWordNet, puede ser traducida adecuadamen-te a otros idiomas, pero sus componentes noseran indexados. Y si no esta en EuroWordnet,los conceptos que la forman no seran represen-tativos en los idiomas destino. Este problemaderiva del hecho de considerar la indexacion yla traduccion como una unica tarea.

5 Interactividad en la Recu-peracion de InformacionMultilingue

Un sistema automatico de busqueda trans-lingue es solo un componente de un proceso

completo de busqueda y utilizacion de la in-formacion. Desde la perspectiva de los usuariosno sirve de nada que un sistema translingue derecuperacion de informacion recupere con ma-yor o menor precision documentos, por ejemplo,en chino, si el usuario no es capaz de reconoceraquellos que le interesan (Oard, 2001), ni refi-nar su busqueda global a partir de resultadosque no comprende.

En general, los estudios realizados sobre siste-mas translingues o multilingues de recuperacionde informacion no han considerado la interac-tividad con el usuario como pieza fundamentalde diseno, por este motivo la investigacion eneste campo esta aun en sus comienzos.

En esta seccion vamos a ver los diferentes tra-bajos que se han realizado en este campo. Lasprimeras investigaciones (apartados 5.1 al 5.5)emplearon metodologıas de trabajo diferentesentre sı, hasta la llegada del iCLEF (apartado5.6), donde se ha proporcionado una infraes-tructura y una metodologıa especıficas para larealizacion de experimentos interactivos de re-cuperacion translingue de informacion.

5.1 Los trabajos iniciales de Oardy Resnik

Oard y Resnik realizaron una de las primerasinvestigaciones sobre la usabilidad de un siste-ma translingue de busqueda de informacion decara al usuario (Resnik, 1997; Oard and Res-nik, 1999): realizar una traduccion palabra porpalabra al ingles de una serie de documentos enjapones y comprobar si una serie de usuariosera capaz de clasificar los documentos traduci-dos agrupandolos por temas similares.

Se comprobo que los usuarios eran capaces derealizar esta tarea de una manera mucho masefectiva que un clasificador automatico, perocon menor precision que otros usuarios que exa-minaron unas traducciones perfectas en inglesde los documentos originales.

Posteriormente en (Taylor and White, 1998) sepropone utilizar un sistema de traduccion au-tomatica para realizar la misma tarea, aunqueno se realiza ninguna evaluacion al respecto.

Oard y Resnik proponen separar los procesos

Page 16: Busqueda de informaci on multilingue: estado del arte

de busqueda y utilizacion de la informacion enun entorno multilingue. El sistema debe pro-porcionar inicialmente al usuario la capacidadde expresar su necesidad de informacion en supropio idioma y, con su ayuda, trasladar esta alidioma en el cual se encuentran los documentos:

• utilizando un diccionario que contenga ladefinicion de los terminos en el propio idio-ma del usuario.

• traducir cada termino de la consulta y mos-trar al usuario las traducciones inversas decada posible traduccion, para proporcio-narles informacion acerca de los contextosen los que dicha traduccion puede ser uti-lizada en su propio idioma.

Una vez que el usuario ha comunicado al sis-tema su necesidad de informacion y esta se en-cuentra expresada en el idioma de los documen-tos, el sistema puede realizar una busqueda au-tomatica. La informacion contenida en los do-cumentos ası recuperados habra de ser mostra-da al usuario en su propio idioma. La visuali-zacion de esta informacion debe cumplir, segunlos autores, dos tareas fundamentales:

• Facilitar los juicios de relevancia al usuario,de manera que no le resulte excesivamentecomplicado decidir si un determinado do-cumento le puede, o no, ser util.

• Proporcionar nuevo vocabulario en el idio-ma de los documentos para que el usuariopueda refinar su busqueda.

Con una metodologıa de evaluacion consisten-te en medir la precision y la cobertura sobrela seleccion manual realizada por los usuariosse propone medir la eficacia de estos sistemasen ayudar a sus usuarios a realizar busquedastranslingues de informacion.

5.2 MULINEX

El proyecto MULINEX (Erbach et al., 1997)se presenta como el primer sistema interacti-vo completo de busqueda translingue. En el sedesarrollo una interfaz de recuperacion trans-lingue de informacion inicialmente en Aleman,

Frances e Ingles, pero facilmente aplicable aotros idiomas.

Este sistema tenıa una interfaz de traduccionde la consulta y ofrecıa resumenes de los do-cumentos que podıan ser traducidos al idiomaelegido.

Una vez completada la interfaz, se llevaron acabo diversos estudios (Capstick et al., 1998b;Capstick et al., 1998a) para determinar la ma-nera mas eficiente de presentar los resultados.El sistema de busqueda translingue demostrofuncionar perfectamente. Sin embargo, debidoa que los usuarios que intervinieron en estasevaluaciones generalmente tenıan conocimientoacerca de los diferentes idiomas sobre los que serealizaban las busquedas, las caracterısticas detraduccion del sistema apenas fueron utilizadas.

5.3 Los trabajos de Ogden y Da-vis

Al igual que en los trabajos de Oard y Res-nik estos autores proponen la separacion entrelos procesos de busqueda y la posterior utiliza-cion de la informacion, concentrandose en dostareas fundamentales de cara al usuario: ayu-darle a expresar su consulta en otros idiomas ypresentarle documentos en el suyo propio.

En (Ogden et al., 2000) se describe un experi-mento realizado dentro del marco del TREC 8en el que con la ayuda de un interfaz un usuariomonolingue de habla inglesa es capaz de cons-truir consultas en Italiano, Frances y Aleman(idiomas que le resultaban totalmente descono-cidos).

A la vista de los resultados se comprobo que lasconsultas producidas por el usuario monolinguealcanzaban hasta un 85% de la precision obte-nida con las consultas traducidas manualmente(salvo en Aleman, donde se llegaba a un 70%).

Este experimento demostro que un usuario mo-nolingue es capaz de expresar su consulta enotro idioma con una precision bastante razo-nable asistido por una interfaz de ayuda a latraduccion.

En (Ogden et al., 1999a) se realiza un experi-mento en el que un usuario monolingue tradu-ce sus consulta del ingles al aleman utilizando

Page 17: Busqueda de informaci on multilingue: estado del arte

diccionarios on-line. Los documentos recupera-dos le son mostrados utilizando una interfaz dethumbnails (Ogden et al., 1999c). Por ultimolos diez primeros documentos son traducidos alingles utilizando BabelFish 17 y sobre esas tra-ducciones el usuario selecciono aquellos que leparecieron relevantes. La precision obtenida enesta seleccion manual fue del 86%.

Basandose en todos estos resultados, los auto-res desarrollaron un prototipo denominado Kei-zai (Ogden et al., 1999b) con el que un usuariode habla inglesa puede recuperar textos en Ja-pones y Coreano.

5.4 Seleccion Documental inte-ractiva entre Ingles y Japones

En (Suzuki et al., 2001) se presenta un estudiosobre la seleccion interactiva de documentos enun sistema translingue de recuperacion de in-formacion entre los idiomas Ingles y Japones.

Los autores realizaron dos experimentos inte-ractivos: en el primero comprobaron la habi-lidad de los usuarios para juzgar la relevanciasobre una traduccion palabra por palabra, com-probando que eran capaces de emitir juicios derelevancia sobre estas traducciones con bastan-te precision, en consonancia con los resultadosobtenidos por Oard y Resnik. En el segundoestudiaron un metodo de mostrar los documen-tos recuperados consistente en resumir traduc-ciones automaticas de los documentos (a un ta-mano del 30% del original). En esta ocasion laprecision alcanzada por los usuarios fue menorque en el primer experimento.

Lamentablemente las personas que participaronen ambos experimentos no fueron las mismas,por lo que no se puede concluir con certeza quelos resumenes de las traducciones sean menosefectivos que las traducciones palabra por pala-bra.

5.5 WebSite Term Browser

En (Penas, 2002) se presenta un sistema de na-vegacion con sintagmas multilingue. Se partede una serie de colecciones documentales que

17http://babelfish.altavista.com/

son previamente procesadas con tecnicas super-ficiales de tratamiento del lenguaje natural, ex-trayendo de ellas sintagmas nominales, con losque son indexados los documentos.

Cuando el usuario introduce la consulta, el sis-tema busca aquellos sintagmas que esten masrelacionados con los terminos de la consulta, encualquiera de los idiomas indexados (castellano,catalan, frances, ingles e italiano). Para ello seexpande cada termino mediante EuroWordNety diccionarios bilingues; la restriccion de coocu-rrencia dentro de cada sintagma filtra el posibleruido producido por la expansion. Despues, elsistema busca los documentos que contenganlos sintagmas encontrados, mostrandolos porseparado en cada idioma. A diferencia de lasexperiencias anteriores, en este caso se presu-pone que el usuario tiene cierto conocimientopasivo de los idiomas de busqueda, y puede re-conocer expresiones de busqueda utiles en otrosidiomas y usar los documentos encontrados.

La evaluacion del sistema se realizo disenandouna interfaz de busqueda que presentaba, a lavez, los sintagmas sugeridos por WTB y los re-sultados devueltos por Google para la consultadel usuario. Se indexo el dominio de una univer-sidad, y se permitio la utilizacion libre del sis-tema para profesores, alumnos y cualquier otrousuario de la web. El analisis de mas de milsesiones de busqueda reales revelo que los sin-tagmas sugeridos por WTB se utilizaban tan amenudo como los resultados devueltos por Goo-gle, lo que indica la utilidad de la informacionde sintagmas como complemento a las tradi-cionales listas de documentos. Por desgracia,la utilidad de los aspectos estrictamente trans-lingues del enfoque hubo de medirse por otrasvias indirectas (como la comparacion entre elproceso de extraccion de terminos con tesaurospreexistentes en dominios educativos), porquelos usuarios que accedieron al sistema se limi-taron casi exclusivamente a preguntar y leer in-formacion en castellano.

5.6 iCLEF: un foro de evalua-cion de sistemas interactivostranslingues

El CLEF (Cross-Language Evaluation Forum) seha ocupado de desarrollar y mantener una in-fraestructura para la evaluacion de sistemas de

Page 18: Busqueda de informaci on multilingue: estado del arte

recuperacion de informacion sobre idiomas eu-ropeos (Peters, 2002b). Para ello se han creadouna serie de datos reutilizables con el fin demedir las caracterısticas de estos sistemas derecuperacion de informacion.

Los datos proporcionados por el CLEF consistenen:

• Colecciones documentales en varios idio-mas europeos. Todas ellas formadas pornoticias publicadas en diversos medios decomunicacion en el ano 1994 o 1995.

• Una serie de consultas sobre diversos temasque estan tratados en las colecciones docu-mentales, expresadas en una amplia varie-dad de idiomas que no solo cubren aquellosen los que se encuentran escritos los docu-mentos.

• Juicios de relevancia nativos para todas lasconsultas en cada uno de los idiomas con-templados.

Aprovechando todos estos datos se organiza un“track” especialmente destinado a la evaluacionde diferentes aspectos interactivos en la recupe-racion de informacion translingue.

En dicho track cada sistema presentado se com-para con un sistema de contraste, mezclando lasconsultas, sistemas y usuarios con un disenode cuadrados latinos para minimizar los efec-tos que una determinada combinacion consulta-sistema pudiera tener sobre los resultados.

5.6.1 iCLEF’2001: Seleccion documen-tal

El proposito de los experimentos realizados enel marco de la primera edicion del iCLEF (Oardand Gonzalo, 2002) fue investigar en nuevas for-mas de presentacion de documentos escritos enun idioma que el usuario desconoce o no es ca-paz de leer con fluidez.

En esta primera edicion del iCLEF se presen-taron tres prototipos diferentes de presentacionde documentos, los cuales fueron comparadoscon una traduccion automatica proporcionadapor Systran Professional 3.0.

En (Wang and Oard, 2002) podemos ver la des-cripcion del sistema presentado por la Universi-dad de Maryland. En este prototipo se compa-raban las traducciones ofrecidas por el Systrancon un sistema de traduccion palabra por pa-labra donde se cada palabra original en francesera substituida por aquella de sus traduccionesque fuera mas frecuente en el Brown Corpus.

En (Bathie and Sanderson, 2002) se describeel experimento llevado a cabo por la Universi-dad de Sheffield. En dicho experimento se llevoa cabo una comparacion entre la seleccion do-cumental monolingue y translingue. Los eva-luadores seleccionaron documentos en frances(previamente traducidos por el Systran) en unode los sistemas, y en el otro seleccionaron docu-mentos en ingles sin mediar traduccion alguna.

En (Lopez-Ostenero et al., 2002b) se describe elexperimento llevado a cabo por la UNED. Endicho experimento se aprovechan los sintagmasnominales extraidos con el WebSite Term Brow-ser para realizar un resumen translingue de losdocumentos basandose en dichos sintagmas.

A la vista de los resultados obtenidos por estostres experimentos se pueden sacar las siguientesconclusiones:

• Todos los experimentos obtienen una me-dida de precision superior a la obtenidasiguiendo la estrategia de marcar todoslos documentos como relevantes. Esto de-muestra que los sistemas empleados ayu-dan al usuario a juzgar los documentos.

• La seleccion documental monolingue obtie-ne mejores resultados de precision y cober-tura que la seleccion documental utilizandolas traducciones del Systran.

• Para los documentos en frances se ve quelas traducciones proporcionadas por el Sys-tran ofrecen mas ayuda al usuario que lasrealizadas palabra por palabra.

• El sistema de traduccion mediante sintag-mas es un punto intermedio de compleji-dad entre la traduccion palabra por pala-bra y la traduccion ofrecida por Systran.Sin embargo obtiene resultados cualitativa-mente mejores segun las medidas oficialesdel iCLEF que estas dos aproximaciones.

Page 19: Busqueda de informaci on multilingue: estado del arte

5.6.2 iCLEF’2002: Busquedas interacti-vas

El objetivo del iCLEF’2002 (Gonzalo and Oard,2002) fue proporcionar un marco de referenciacomun para realizar experimentos comparan-do dos sistemas de recuperacion de informaciontranslingue que permitan a un usuario que des-conoce el idioma de los documentos realizar unaexpansion interactiva de la consulta, una selec-cion interactiva de documentos (al igual que elano anterior), o ambas opciones a la vez.

Cinco fueron, en esta ocasion, los sistemas quese presentaron, aunque solo tres de ellos per-mitıan realizar una busqueda translingue com-pleta:

En (Petrelli et al., 2002) se presenta el experi-mento llevado a cabo para el iCLEF’2002 porla Universidad de Sheffield. El prototipo par-ticipante se enmarca dentro del proyecto Cla-rity, que pretende el desarrollo de un sistemade recuperacion translingue de informacion en-tre idiomas para los que se disponen de escasosrecursos de traduccion. En este caso los docu-mentos estaban escritos en finlandes, mientrasque las consultas se realizaban en ingles.

El proposito fundamental de este experimentofue el comprobar si la traduccion de la consultapor parte del usuario debıa ser considerada unatarea del proceso de busqueda o si, por el con-trario, resulta mas beneficioso ocultar el proce-so de traduccion al usuario.

Debido a diversos errores, los resultados cuan-titativos no permiten establecer conclusiones,aunque sı es destacable el hecho de que losusuarios del sistema manifestaron no encon-trarse comodos seleccionando traducciones paraterminos individuales.

En (He et al., 2002) tenemos la descripcion delexperimento interactivo presentado por la Uni-versidad de Maryland en el que se buscarondocumentos en aleman utilizando consultas eningles. Los dos sistemas comparados fueron:

1. Traduccion automatica de la consulta: uti-lizando la estructura propuesta por (Pirko-la, 1998) para la traduccion de las consul-tas (ver seccion 3.1) a partir de todas lastraducciones posibles para cada termino.

2. Traduccion de la consulta con la asistenciadel usuario: la tarea de seleccionar las tra-ducciones adecuadas de cada palabra recaeen los usuarios.

Para que los usuarios tuvieran informacion conla que seleccionar las diferentes traducciones seles proporcionaron diversas pistas, como las tra-ducciones inversas de cada termino o frases (ex-traıdas de corpora paralelo) que mostraban elcontexto en el que cada termino original podıarecibir una traduccion determinada.

Los resultados muestran que la traduccion asis-tida por el usuario obtiene una mayor eficien-cia que la traduccion automatica estructurada.Una conclusion adicional a la que llegaron losautores es que, en general, las pistas ofrecidaspara seleccionar de entre las posibles traduc-ciones resultan ser de ayuda para los usuarios,aunque el grado de utilidad varıa segun la con-sulta, la coleccion y los recursos de traducciondisponibles.

De igual modo sugieren que utilizar los mismosrecursos de traduccion para la traduccion de lasconsultas y de los documentos, ofrecera una ma-yor ayuda al usuario de cara a la reformulacionde la consulta.

En (Lopez-Ostenero et al., 2002a) se amplıael sistema presentado en la anterior ediciondotandole de la posibilidad de especificar unaconsulta seleccionando sintagmas nominalesque estuvieran relacionados con la misma. Latraduccion mediante sintagmas de los documen-tos permitıa a los usuarios realizar, de manerasencilla, una expansion de la consulta sin masque anadir a la misma aquellos sintagmas de losdocumentos que el usuario considerase relevan-tes.

Este sistema se comparo con un interfaz deayuda a la traduccion de terminos individua-les contenidos en la consulta, mostrandole alusuario las traducciones inversas de cada posi-ble termino de traduccion.

El uso de sintagmas nominales para hacer latraduccion obtuvo mejores resultados no solo enla busqueda, sino tambien de cara a los usua-rios. Los usuarios interactuan con sintagmasen su propio idioma, dejando el proceso de tra-duccion al sistema. Al igual que en (Petrelliet al., 2002) los usuarios se manifestaron en

Page 20: Busqueda de informaci on multilingue: estado del arte

contra de tener que seleccionar interactivamen-te los terminos de traduccion.

La discriminacion de las traducciones utilizan-do un criterio de coocurrencia estadıstica de-muestra ser mas efectiva que la seleccion inte-ractiva de traducciones cuando el usuario noentiende el idioma en el que se encuentran es-critos los documentos.

Los resultados apoyan, ademas, la hipotesisplanteada en (He et al., 2002), ya que el usodel mismo recurso de traduccion (los sintagmasnominales) para la consulta y para los docu-mentos aporto una mayor ayuda al usuario enel proceso de refinamiento de la consulta.

6 Recapitulacion

La necesidad de realizar busquedas translingueses un hecho, y la demanda de este tipo debusquedas aumentara en los proximos anos conel crecimiento de la Web.

Los experimentos realizados han demostradoque la recuperacion translingue es perfectamen-te realizable y con un nivel de eficiencia cercanoa una busqueda monolingue. La tarea de obte-ner una lista de documentos en un mismo idio-ma ordenada segun la relevancia que tengan pa-ra una consulta escrita en un idioma diferente,ya ha sido basicamente resuelta (Oard, 2002),aunque la eficiencia de los sistemas depende dela pareja de idiomas que se considere.

Sin embargo aun quedan diversos problemas alos que se debe dirigir la investigacion. Algu-nos de ellos se mencionaron en el Workshop“CLIR: a research roadmap” en el ambito delSIGIR’2002:

• Dominio: la mayorıa de las tecnicas em-pleadas han sido probadas solo sobre no-ticias de periodicos (en las coleccionesTREC, CLEF y NTCIR) y no se sabe siseran efectivas fuera de el.

• Eficiencia: el coste computacional que su-pone una traduccion adecuada de las con-sultas puede resultar excesivo para un en-torno real de busqueda, aparte que la cali-dad de las traducciones aun no es optima.

• Unificacion: actualmente los sistemas derecuperacion translingue de informacionpresentan dos claras separaciones:

– Traduccion y busqueda: los proce-sos de traduccion y busqueda se reali-zan, normalmente, por separado. Deesta forma la incertidumbre de las tra-ducciones no influye en el proceso debusqueda.

– Diferentes idiomas: cuando se rea-liza una busqueda multilingue, el pro-blema de fusionar los resultados decada una de las busquedas mono-lingues en una unica lista ordenadaaun no ha sido resuelto.

En (Nie, 2002) se propone la creacion deun unico modelo de forma que integre es-tas diferencias y se pueda abordar la re-cuperacion multilingue de informacion deuna manera similar a la recuperacion mo-nolingue.

• Interaccion: los usuarios reales de los sis-temas de busqueda estan interesados en lainformacion contenida en los documentos,no en la lista ordenada que proporcionanlos sistemas.

Por ultimo, la capacidad de encontrar docu-mentos en varios idiomas a partir de una unicaconsulta debe todavıa combinarse con otrasaplicaciones y tecnicas, como la Extraccion deInformacion o la Busqueda de Respuestas, enel camino a un Acceso a la informacion multi-lingue sin limitaciones. Aunque se haya avan-zado mucho en algunos aspectos puntuales delproblema en los ultimos anos, lo cierto es queaun queda un largo camino hasta que el manejocombinado de fuentes en distintos idiomas seaalgo natural y rutinario para el usuario tipo deun sistema de informacion.

Agradecimientos

Este trabajo ha sido financiado parcialmentepor la Comision Interministerial de Ciencia yTecnologıa, proyecto Hermes (TIC2000-0335-C03-01).

Page 21: Busqueda de informaci on multilingue: estado del arte

Referencias

Abu-Salem, H., Al-Omari, M., and Evens, M.(1999). Stemming methodologies over indivi-dual queries words for an Arabian informationretrieval system. JASIS, 50:524–529.

Bacchin, M., Ferro, N., and Melucci, M. (2002).University of Padua at CLEF 2002: Experi-ments to evaluate a statistical stemming algo-rithm. In Proceedings of CLEF 2002.

Ballesteros, L. (2000). Cross Language Retrievalvia transitive translation. In Croft, W. B., edi-tor, Advances in Information Retrieval: Re-cent Research from the CIIR, pages 203–234.Kluwer Academic Publishers.

Ballesteros, L. and Croft, W. B. (1996). Dictio-nary Methods for Cross-Lingual InformationRetrieval. In Database and Expert SystemsApplications, pages 791–801.

Ballesteros, L. and Croft, W. B. (1997). PhrasalTranslation and Query Expansion Techniquesfor Cross-language Information Retrieval. InResearch and Development in Information Re-trieval, pages 84–91.

Ballesteros, L. and Croft, W. B. (1998). Resol-ving Ambiguity for Cross-Language Informa-tion Retrieval. In Proceedings of the SIGIR’98,pages 64–71.

Bathie, Z. and Sanderson, M. (2002). iCLEF atSheffield. In Peters, C., Braschler, M., Gon-zalo, J., and Kluck, M., editors, Evaluationof Cross-Language Information Retrieval Sys-tems, CLEF 2001, volume 2406 of LNCS, pa-ges 336–354. Springer.

Boughanem, M., Chrisment, C., and Nassr, N.(2002). Investigation on Disambiguationin CLIR Aligned Corpus and Bi-directionalTranslation-Based Strategies. In Peters, C.,Braschler, M., Gonzalo, J., and Kluck, M.,editors, Evaluation of Cross-Language Infor-mation Retrieval Systems, CLEF 2001, volu-me 2406 of LNCS, pages 158–168. Springer.

Braschler, M., Kan, M., Schuble, P., and Klavans,J. (2000a). The Eurospider Retrieval Systemand the TREC-8 Cross-Language Track. InProceedings of TREC8, pages 367–376. NIST,Gaithesburg, MD.

Braschler, M., Krause, J., Peters, C., and Schauble,P. (1999). Cross-Language Information Retrie-val (CLIR) Track Overview. In Proceedingsof TREC7, pages 25–32. NIST, Gaithesburg,MD.

Braschler, M., Peters, C., and Schauble, P. (2000b).Cross-Language Information Retrieval (CLIR)Track Overview. In Proceedings of TREC8,pages 25–34. NIST, Gaithesburg, MD.

Braschler, M. and Schauble, P. (1998). Multilin-gual Information Retrieval Based on Docu-ment Alignment Techniques. In Nikolau, C.and Stephanidis, C., editors, Research and Ad-vanced Technology for Digital Libraries, Se-cond European Conference ECDL’98, pages183–197.

Braschler, M. and Schauble, P. (2001). Experi-ments with the eurospider retrieval system forclef 2000. In Proc. CLEF 2000. Springer-Verlag.

Brown, R. D. (1996). The Pangloss-Lite MachineTranslation System. In Expanding MT Ho-rizons: Proceedings of the 2nd Conference ofthe Association for Machine Translation in theAmericas, pages 268–272.

Brown, R. D. (1997). Automated Dictionary Ex-traction for Knowledge-Free Example-BasedTranslation. In Proceedings of the 7th Inter-national Conference on Theoretical and Met-hodological Issues in Machine Translation.

Buckley, C., Salton, G., Allan, J., and Singhal, A.(1995). Automatic Query Expansion UsingSMART: TREC 3. In Proceedings of TREC3,pages 69–80. NIST, Gaithesburg, MD.

Callan, J., Croft, W., and Harding, S. (1992). TheInquery Retrieval System. In Proceedings ofthe Third International Conference on Data-base and Expert Systems Applications, pages78–83. Springer-Verlag.

Capstick, J., Diagne, A. K., Erbach, G., and Usz-koreit, H. (1998a). MULINEX: MultilingualWeb Search and Navigation. In Industrial Ap-plications of Natural Language Procesing.

Capstick, J., Erbach, G., and Uszkoreit, H.(1998b). Design and Evaluation of a Psycholo-gical Experiment on the Effectiveness of Docu-ment Summarisation for the Retrieval of Mul-tilingual WWW Documents. In Working No-tes of the AAAI Spring symposium IntelligentText Summarisation.

Carbonell, J. G., Yang, Y., Frederking, R. E.,Brown, R. D., Geng, Y., and Lee, D. (1997).Translingual Information Retrieval: A Com-parative Evaluation. In IJCAI (1), pages 708–715.

Carl, M. and Hansen, S. (1999). Linking Transla-tion Memories with Example-Based MachineTranslation.

Chen, A., Gey, F., Kishida, K., Jiang, H., andLiang, Q. (1999). Comparing multiple met-hods for Japanese and Japanese-English textretrieval. In Proceedings of the First NTCIRWorkshop, pages 49–58.

Chen, A. and Gey, F. C. (2001). TranslationTerm Weighting and Combining Translation

Page 22: Busqueda de informaci on multilingue: estado del arte

Resources in Cross-Language Retrieval. InProceedings of TREC10. NIST, Gaithesburg,MD.

Chen, J. and Nie, J.-Y. (2000). Parallel Web TextMining for Cross-Language IR. In Proceedingsof RIAO 2000 conference.

Chen, S. F. (1993). Aligning Sentences in Bilin-gual Corpora using Lexical Information. InMeeting of the Association for ComputationalLinguistics, pages 9–16.

Collins, B. (1999). Example-Based Machine Trans-lation: An Adaptation-Guided Retrieval Ap-proach. PhD thesis, Trinity College, Dublin.

Davis, M. (1997). New Experiments in Cross-Language Text Retrieval at NMSU’s Compu-ting Research Lab. In Proceedings of TREC5,pages 447–454. NIST, Gaithesburg, MD.

Dawson, J. (1974). Suffix removal and word confla-tion. ALLC bulletin, 2:33–46.

Deerwester, S. C., Dumais, S. T., Landauer, T. K.,Furnas, G. W., and Harshman, R. A. (1990).Indexing by Latent Semantic Analysis. Jour-nal of the American Society of InformationScience, 41(6):391–407.

Diekema, A., Oroumchian, F., Sheridan, P., andLiddy, E. D. (1999). TREC-7 Evaluation ofConceptual INterlingua DOcument Retrieval(CINDOR) in English and French. In Procee-dings of TREC7, pages 169–180. NIST, Gait-hesburg, MD.

Dumais, S., Landauer, T., and M.L.Littman(1996). Automatic Cross-Linguistic informa-tion retrieval using latent semantic indexing.In SIGIR’96 Workshop on Cross-LinguisticInformation Retrieval.

Erbach, G., Neumann, G., and Uszkoreit, H.(1997). MULINEX: Multilingual Intexing,Navigation and Editing Extensions for theWorld-Wide Web. In Hull, D. and Oard, D.,editors, AAAI Symposium on Cross-LanguageText and Speech Retrieval.

EUROVOC (1995). Thesaurus EUROVOC: Vol 1-3/ European Communities. Luxembourg: Of-fice for Official Publications of the EuropeanCommunities.

Figuerola, C. G., Gomez, R., Rodrıguez, A. F. Z.,and Berrocal, J. L. A. (2002). Spanish Mo-nolingual Track: The Impact of Stemming onRetrieval. In Peters, C., Braschler, M., Gon-zalo, J., and Kluck, M., editors, Evaluationof Cross-Language Information Retrieval Sys-tems, CLEF 2001, volume 2406 of LNCS, pa-ges 253–261. Springer.

Fukushima, T. and Akamine, S. (1999). Acharacter-based indexing and word-based ran-king method for Japanese text retrieval. In

Proceedings of the First NTCIR Workshop,pages 179–182.

Fung, P. (1995). Compiling Bilingual Lexicon En-tries from a Non-Parallel English-Chinese Cor-pus. In Proceedings of the 3rd Workshop onVery Large Corpora.

Gale, W. A. and Church, K. W. (1991). A Programfor Aligning Sentences in Bilingual Corpora.In Meeting of the Association for Computatio-nal Linguistics, pages 177–184.

Gey, F., Jiang, H., Chen, A., and Larson, R. (1999).Manual Queries and Machine Translation inCross-Language Retrieval and Interactive Re-trieval with Cheshire II at TREC-7. In Procee-dings of TREC7, pages 527–540. NIST, Gait-hesburg, MD.

Gey, F. C. and Oard, D. W. (2001). The TREC-2001 Cross-Language Information RetrievalTrack: Searching Arabic using Englis, Frenchor Arabic Queries. In Proceedings of TREC10.NIST, Gaithesburg, MD.

Gilarranz, J., Gonzalo, J., and Verdejo, F. (1997).Language-independent text retrieval with theEuroWordNet Multilingual Semantic Databa-se. In Proceedings of the Workshop on Multi-linguality in Software Industry: the AI contri-bution, in IJCAI’97 (International Joint Con-ference on Artificial Intellligence).

Gollins, T. and Sanderson, M. (2001). SheffieldUniversity CLEF 2000 Submission - BilingualTrack: German to English. In Peters, C.,editor, Cross-Language Information Retrievaland Evaluation, Workshop, CLEF 2000, volu-me 2069 of LNCS, pages 245–252. Springer.

Gonzalo, J. and Oard, D. W. (2002). The CLEF2002 Interactive Track. In Proceedings ofCLEF 2002.

Grefenstette, G. (1998). The problem of Cross-Language Information Retrieval, chapter inCross-Language Information Retrieval. Klu-wer Academic Publishers.

He, D., Wang, J., Oard, D., and Nossal, M.(2002). Comparing User-assisted and Auto-matic Query Translation. In Proceedings ofCLEF 2002.

Hersh, W., Buckley, C., Leone, T., and Hickman,D. (1994). Oshumed: an interactive retrievalevaluation and new large text collection forresearch. In Proceedings of SIGIR’94, pages192–201.

Hull, D. A. and Grefenstette, G. (1996). Quer-ying across languages: A dictionary-based ap-proach to multilingual information retrieval.In Proceedings of the 19th International Con-ference on Research and Development in In-formation Retrieval, pages 49–57.

Page 23: Busqueda de informaci on multilingue: estado del arte

Jones, G. F. and Lam-Adesina, A. M. (2002). Exe-ter at CLEF 2001: Experiments with MachineTranslations for Bilingual Retrieval. In Peters,C., Braschler, M., Gonzalo, J., and Kluck, M.,editors, Evaluation of Cross-Language Infor-mation Retrieval Systems, CLEF 2001, volu-me 2406 of LNCS, pages 59–77. Springer.

Kalamboukis, T. (1995). Suffix stripping with mo-dern Greek. Program, 29:313–321.

Kay, M. and Roscheisen, M. (1993). Text-translation alignment. Computational Lin-guistics, 19(1):121–142.

Kraaij, W. (2002). TNO at CLEF-2001: Com-paring Translation Resources. In Peters, C.,Braschler, M., Gonzalo, J., and Kluck, M.,editors, Evaluation of Cross-Language Infor-mation Retrieval Systems, CLEF 2001, volu-me 2406 of LNCS, pages 78–93. Springer.

Kraaij, W. and Pohlmann, R. (1994). Porter’sstemming algorithm for Dutch. In Noordman,L. and de Vroomen, W., editors, Informatie-wetenschap, Tilburg, STINFON.

Kraaij, W. and Pohlmann, R. (1998). Comparingthe effecto of syntactic vs. statistical phra-se index strategies for Dutch. In ProceedingsECDL’98, pages 605–617.

Kwok, K. (1997). Comparing representations inChinese information retrieval. In Proceedingsof SIGIR’97, pages 34–41.

Kwok, K. L., Grunfeld, L., and Lewis, D. D. (1995).TREC-3 Ad-Hoc, Routing Retrieval and Th-resholding Experiments using PIRCS. In Pro-ceedings of TREC3, pages 247–256. NIST,Gaithesburg, MD.

Lee, J. H. and Ahn, J. S. (1996). Using n-gramsfor corean text retrieval. In Proceedings of SI-GIR’96, pages 216–224.

Loukachevitch, N. V. and Dobrov, B. V. (2000).Thesaurus-Based Structural Thematic Sum-mary in Multilingual Information Systems.Machine Translation Review, 11:10–20.

Loukachevitch, N. V. and Dobrov, B. V. (2002).Cross-Language Information Retrieval Basedon Multilingual Thesauri Specially Created forAutomatic Text Processing. In Proceedingsof Workshop on Cross-Language InformationRetrieval: A Research RoadMap. SIGIR 2002.

Lovins, J. (1968). Development of a Stemming Al-gorithm. Mechanical Translation and Compu-tational Linguistics, 11:22–31.

Lopez-Ostenero, F., Gonzalo, J., Penas, A., andVerdejo, F. (2002a). Interactive Cross-Language Searching: phrases are better thanterms for query formulation and refinement.In Proceedings of CLEF 2002.

Lopez-Ostenero, F., Gonzalo, J., Penas, A., andVerdejo, F. (2002b). Noun phrase trans-lations for Cross-Language Document Selec-tion. In Peters, C., Braschler, M., Gonza-lo, J., and Kluck, M., editors, Evaluationof Cross-Language Information Retrieval Sys-tems, CLEF 2001, volume 2406 of LNCS, pa-ges 320–331. Springer.

Martınez-Santiago, F., Martın, M., and Urena, A.(2002). SINAI on CLEF 2002: Experimentswith merging strategies. In Proceedings ofCLEF 2002.

Mayfield, J., McNamee, P., Costello, C., Piatko, C.,and Banerjee, A. (2001). JHU/APL at TREC2001: Experiments in Filtering and in Arabic,Video, and Web Retrieval. In Proceedings ofTREC10. NIST, Gaithesburg, MD.

McCarley, J. S. (1999). Should we Translate theDocuments or the Queries in Cross-languageInformation Retrieval? In Proceedings ofthe 37th Annual Meeting of the Associationfor Computational Linguistics, pages 208–214.Association for Computational Linguistics.

McNamee, P. and Mayfield, J. (2001). A Language-Independent Approach to European Text Re-trieval. In Peters, C., editor, Cross-LanguageInformation Retrieval and Evaluation, Works-hop, CLEF 2000, volume 2069 of LNCS, pages129–139. Springer.

McNamee, P. and Mayfield, J. (2002). JHU/APLExperiments at CLEF: Translation Resour-ces and Score Normalization. In Peters, C.,Braschler, M., Gonzalo, J., and Kluck, M.,editors, Evaluation of Cross-Language Infor-mation Retrieval Systems, CLEF 2001, volu-me 2406 of LNCS, pages 193–208. Springer.

Miller, G. (1990). WordNet: An on-line lexical da-tabase. International Journal of Lexicography3(4).

Moffat, A. and Zobel, J. (1995). Information Re-trieval Systems for Large Document Collec-tions,. In Proceedings of TREC3, pages 85–93.NIST, Gaithesburg, MD.

Monz, C. and de Rijke, M. (2002). Shallow Morp-hological Analysis in Monolingual Informa-tion Retrieval for Dutch, German and Ita-lian. In Peters, C., Braschler, M., Gonza-lo, J., and Kluck, M., editors, Evaluationof Cross-Language Information Retrieval Sys-tems, CLEF 2001, volume 2406 of LNCS, pa-ges 262–277. Springer.

National Library of Medicine (1997). Unified Me-dical Language System (UMLS) KnowledgeSources, 6th experimental edition.

Nie, J.-Y. (1999). TREC-7 CLIR using a Proba-bilistic Translation Mode. In Proceedings of

Page 24: Busqueda de informaci on multilingue: estado del arte

TREC7, pages 547–554. NIST, Gaithesburg,MD.

Nie, J.-Y. (2002). Towards a Unified Approachto CLIR and Multilingual IR. In Proceedingsof Workshop on Cross-Language InformationRetrieval: A Research RoadMap. SIGIR 2002.

Nie, J.-Y. and Jin, F. (2002). Merging DifferentLanguages in a Single Document Collection.In Proceedings of CLEF 2002.

Nie, J.-Y., Simard, M., and Foster, G. (2001). Mul-tilingual Information Retrieval Based on Pa-rallel Texts from the Web. In Peters, C.,editor, Cross-Language Information Retrievaland Evaluation, Workshop, CLEF 2000, volu-me 2069 of LNCS, pages 188–201. Springer.

Nirenburg, S., Beale, S., and Domashnev, C.(1994). A Full-Text Experiment in Example-Based Machine Translation. In Proceedings ofthe International conference on New Methodsin Language Processing, pages 78–87.

Oard, D. W. (1998). A comparative study of queryand document translation for cross-languageinformation retrieval. In Proceedings of theThird Conference of the Association for Ma-chine Translation in the Americas.

Oard, D. W. (2001). Evaluating Interactive Cross-Language Information Retrieval: DocumentSelection. In Peters, C., editor, Cross-Language Information Retrieval and Evalua-tion, Workshop, CLEF 2000, volume 2069 ofLNCS, pages 57–71. Springer.

Oard, D. W. (2002). When You Come to a Forkin the Road, Take It: Multiple Futures forCLIR Research. In Proceedings of Workshopon Cross-Language Information Retrieval: AResearch RoadMap. SIGIR 2002.

Oard, D. W. and Gonzalo, J. (2002). The CLEF2001 interactive track. In Peters, C., Brasch-ler, M., Gonzalo, J., and Kluck, M., edi-tors, Evaluation of Cross-Language Informa-tion Retrieval Systems, CLEF 2001, volume2406 of LNCS, pages 308–319. Springer.

Oard, D. W., Levow, G.-A., and Cabezas, C. I.(2001). CLEF Experiments at Maryland:Statistical stemming and backoff translation.In Peters, C., editor, Cross-Language Infor-mation Retrieval and Evaluation, Workshop,CLEF 2000, volume 2069 of LNCS, pages 176–187. Springer.

Oard, D. W. and Resnik, P. (1999). Support for in-teractive document selection in cross-languageinformation retrieval. Information Processingand Management, 35(3):363–379.

Ogden, W., Cowie, J., Davis, M., Ludovic, E.,Molina-Salgado, H., and Shin, H. (1999a).Getting Information from Documents You

Cannot Read: An interactive Cross-LanguageText Retrieval and Summarization System. InJoint ACM DL/SIGIR Workshop on Multilin-gual Information Discovery and Access.

Ogden, W., Cowie, J., Davis, M., Ludovic, E., Ni-renburg, S., Molina-Salgado, H., and Sharples,N. (1999b). Keizai: An Interactive Cross-Language Text Retrieval System. In Procee-ding of the MT SUMMIT VII Workshop onMachine Translation for Cross Language In-formation Retrieval.

Ogden, W., Cowie, J., Ludovik, E., Molina-Salgado, H., Niremburg, S., Sharples, N., andSheremtyeva, S. (2000). CRL’s TREC-8 Sys-tems Cross-Lingual IR, and Q&A. In Procee-dings of TREC8, pages 513–522. NIST, Gait-hesburg, MD.

Ogden, W., Davis, M., and Rice, S. (1999c). Do-cument thumbnail visualizations for rapid re-levance judgements: When do they pay off?In Proceedings of TREC7. NIST, Gaithesburg,MD.

Ozawa, T., Yamamoto, M., Umemura, K., andChurch, K. (1999). Japanese word segmenta-tion using similarity measure for IR. In Pro-ceedings of the First NTCIR Workshop, pages89–96.

Penas, A. (2002). Website Term Browser: Un siste-ma interactivo y multilingue de busqueda tex-tual basado en tecnicas linguısticas . PhD the-sis, Departamento de Lenguajes y SistemasInformaticos, Universidad Nacional de Educa-cion a Distancia.

Peters, C. (2001). Introduction. In Peters, C.,editor, Cross-Language Information Retrievaland Evaluation, Workshop, CLEF 2000, volu-me 2069 of LNCS, pages 1–6. Springer.

Peters, C. (2002a). Introduction. In Proceedings ofCLEF 2002.

Peters, C. (2002b). Introduction. In Peters, C.,Braschler, M., Gonzalo, J., and Kluck, M.,editors, Evaluation of Cross-Language Infor-mation Retrieval Systems, CLEF 2001, volu-me 2406 of LNCS, pages 1–8. Springer.

Peters, C. and Picchi, E. (1997). Using linguistictools and resources in cross-language retrieval.

Petrelli, D., Beaulieu, M., Sanderson, M., Deme-triou, G., and Herring, P. (2002). Is QueryTranslation a Distinct Task from Search? InProceedings of CLEF 2002.

Pirkola, A. (1998). The Effects of Query Struc-ture and Dictionary Setups in Dictionary-Based Cross-Language Information Retrieval.In Proceedings of SIGIR’98, pages 55–63.

Porter, M. (1980). An Algorithm for Suffix Strip-ping. Program, 14:130–137.

Page 25: Busqueda de informaci on multilingue: estado del arte

Porter, M. (2001). Snowball: A lan-guage for stemming algorithms.http://snowball.sourceforge.net.

Powell, A., French, J., Callan, J., Connell, M., andC.L., V. (2000). The impact of database selec-tion on distributed searching. In Proceedingsof SIGIR’2000, pages 232–239.

Qiu, Y. (1995). Automatic query expansion basedon a similarity Thesaurus. PhD thesis, SwissFederal Institute of Technology.

Qiu, Y. and Frei, H.-P. (1993). Concept-basedquery expansion. In Proceedings of SIGIR’93,pages 160–169, Pittsburgh, US.

Resnik, P. (1997). Evaluating Multilingual Gistingof Web Pages. In AAAI Symposium on Cross-Language Text and Speech Retrieval. AmericanAssociation for Artificial Intelligence.

Resnik, P. (1998). Parallel Strands: A PreliminaryInvestigation into Mining the Web for Bilin-gual Text. In AMTA, pages 72–82.

Ruiz, M., Diekema, A., and Sheridan, P. (2000).CINDOR Conceptual INterlingua DOcumentRetrieval: TREC-8 Evaluation. In Procee-dings of TREC8, pages 597–606. NIST, Gait-hesburg, MD.

Salton, G. (1970). Automatic Processing of ForeignLanguage Documents. Journal of AmericanSociety for Information Sciences, 21:187–194.

Salton, G. (1989). Automatic Text Processing - TheAnalysis, Transformation and Retrieval of In-formation by Computer. Addison-Wesley.

Salton, G. and Buckley, C. (1983). Introduction toModern Information Retrieval. Mc-Graw Hill.

Savoy, J. (1999). A Stemming Procedure and Stop-word List for General French Corpora. Jour-nal of the American Society for InformationScience, 50:944–952.

Schinke, R., Robertson, A., Willet, P., and Green-grass, M. (1996). A stemming algorithm forLatin text databases. Journal of Documenta-tion, 52:172–187.

Senseval-2 (2001). Proceedings of Senseval-2, Se-cond International Workshop on EvaluatingWord Sense Disambiguation Systems. Asso-ciation for Computational Linguistics.

Sheridan, P., Braschler, M., and Schauble, P.(1997). Cross-language information retrievalin a multi-lingual legal domain. In Peters,C. and Thanos, C., editors, Proceedings ofECDL-97, 1st European Conference on Re-search and Advanced Technology for DigitalLibraries, pages 253–268, Pisa, IT.

Simard, M., G.F., F., and Isabelle, P. (1992). UsingCognates to Align Sentences in Bilingual Cor-pora. In Proceedings of the 4th International

Conference on Theoretical and MethodologicalIssues in Machine Translation, pages 67–81.

Soergel, D. (1997). Multilingual thesauri in cross-languate text and speech retrieval. In Hull, D.and Oard, D., editors, AAAI Symposium onCross-Language Text and Speech Retrieval.

Sperer, R. and Oard, D. W. (2000). StructuredTranslation for Cross-Language InformationRetrieval. In Proceedings of SIGIR’2000, pa-ges 120–127.

Srinivasan, P. (1996). Optimal document-indexingvocabullary for MEDLINE. Information Pro-cessing & Management, 32(5):503–514.

Suzuki, Inoue, N., and Hashimoto, K. (2001). AMethod for Supporting Document Selection inCross-Language Information Retrieval and itsEvaluation. Computers and the Humanities,35(4):421–438.

Taylor, K. and White, J. (1998). Predicting whatMT is good for: User judgments and task per-formance. In Farwell, D., Gerber, L., andHovy, E., editors, Third conference of the As-sociation for Machine Translation in the Ame-ricas, Lecture Notes in Artificial Intelligence,pages 364–373. Springer.

Volk, M., Ripplinger, B., Vintar, S., Buitelaar,P., raileanu, D., and Sacaleanu, B. (2002).Semantic annotation for concept-based cross-language medical information retrieval. Inter-national Journal of Medical Informatics, 67(1-3).

Voorhees, E., Gupta, N., and Johnson-Laird, B.(1995). The Collection Fusion Problem. InProceedings of TREC3, pages 95–104. NIST,Gaithesburg, MD.

Vossen, P. (1998). Introduction to EuroWordNet.Computers and the Humanities, Special Issueon EuroWordNet.

Wang, J. and Oard, D. W. (2002). iCLEF 2001 atMaryland: Comparing Term-for-Term Glossand MT. In Peters, C., Braschler, M., Gon-zalo, J., and Kluck, M., editors, Evaluationof Cross-Language Information Retrieval Sys-tems, CLEF 2001, volume 2406 of LNCS, pa-ges 336–354. Springer.

Wong, S., Ziarko, W., and Wong, P. (1985). Ge-neralizad vector space model in informationretrieval. In Proceedings of SIGIR’85, pages18–25.

Yang, Y., Carbonell, J. G., Brown, R. D., and Fre-derking, R. E. (1998). Translingual Informa-tion Retrieval: Learning from Bilingual Cor-pora. Artificial Intelligence, 103(1-2):323–345.