power set(1150237 1150102)

22
Buscador semántico Bing (Powerset) Integrantes: Adrián Arturo Carrascal García - 1150102 Mario Hernando Nieto Serrano - 1150237 Universidad Francisco de Paula Santander San José de Cúcuta 2013

Upload: mario-nieto

Post on 03-Jul-2015

81 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Power set(1150237 1150102)

Buscador semántico Bing (Powerset)

Integrantes:

Adrián Arturo Carrascal García - 1150102

Mario Hernando Nieto Serrano - 1150237

Universidad Francisco de Paula Santander

San José de Cúcuta

2013

Page 2: Power set(1150237 1150102)

Tabla de contenido

Introducción

Descripción a nivel de usuario

○ Index

○ Búsqueda en la web

○ Búsqueda de imágenes

○ Búsqueda de noticias

○ Más

■ El traductor de Bing

Descripción a nivel de ingeniería

○ Algoritmo de búsqueda

○ Tecnología de búsqueda

○ Arquitectura del buscador

○ Proceso de búsqueda

○ Caracterizar que es semántico. ¿Por qué es semántico?

Page 3: Power set(1150237 1150102)

Introducción

La web ha sido un gran avance tecnológico, y ha aportado una gran cantidad de beneficios a la

humanidad desde que se empezó a ver en su primera versión, la Web 1.0, el cual solo se publicaba

contenido, sin ningún tipo de posibilidad de interactuar con ello, donde el webmaster generaba

sitios estáticos y los usuarios consumen dichos sitios para obtener información. Al pasar el año

2000, una nueva tendencia en la web se vió venir, ésta era una Web interactiva y social, donde el

propio usuario puede consumir información y generar información, se le abren las puertas a los

sitios como foros, comunidades, y redes sociales, este concepto se toma como la Web 2.0.

Después de esto, y un poco más reciente se empieza la investigación de una Web más inteligente,

sin abandonar la Web social e interactiva, la 2.0, se avanza a grandes pasos sobre cómo generar

conocimiento y cómo dejarlo a disposición de la humanidad por medio de la Web, ya esto es

conocido como la Web 3.0, y le da espacio a la Web Semántica, jugando allí un papel muy

importante las Ontologías.

Las Ontologías han aparecido para conceptualizar y formalizar la el conocimiento, basándose en

el uso de conceptos, objetos y propiedades; donde los conceptos encierran una cantidad de

objetos con similares características, los objetos usualmente son una instanciación de un

concepto, y las propiedades son el conjunto de relaciones entre objetos. Todo este conjunto de

conocimiento y por medio de razonadores, se pueden dar herramientas potentes en la Web,

herramientas conocidas como Buscadores Semánticos, tal como su definición hace énfasis, y

como su nombre lo indica, su función es buscar, pero a diferencia de un buscador convencional y

ordinario, las búsquedas efectuadas a través de un Buscador Semántico, serán búsquedas

Inteligentes, y semánticamente bien estructuradas, proporcionando información precisa, ya que

sus búsquedas se basan en el conocimiento y no precisa sobre la información ya preestablecida,

información que encontraría una herramienta de búsqueda común.

En Internet se puede encontrar una gran cantidad de este tipo de buscadores, este documento

mostrará información detallada sobre uno de ellos, información a nivel científico, y a nivel de

usuario permitiendo conocer powerset que es una compañía de Microsoft que se dedicó a

desarrollar un buscador que pudiera dar respuestas de las consultas realizadas en lenguaje

natural en 2006 La compañía ha licenciado la tecnología de lenguaje natural de PARC , el antiguo

Xerox Palo Alto Research Center.

Page 4: Power set(1150237 1150102)

Después de un tiempo el proyecto terminó fusionándose con el buscador de Microsoft para

mejorarlo y permitir una competencia con su mayor rival Google que hasta ahora sigue siendo el

buscador más utilizado en el mundo.

Si bien Powerset terminó cambiando su razón social y convirtiéndose más en una evolución de

bing el proyecto continúa pero con la diferencia que ahora estará integrado como una

funcionalidad extra de bing.

Descripción a nivel de usuario

● Index

En la página de inicio o la página principal de Bing es muy limpia y clara, se basa en el sentido que

es un buscador y por tal razón consta de solo un campo de texto el cual sirve para introducir el

QUERY, o la sentencia o frase a ser buscada.

Page 5: Power set(1150237 1150102)

Bing también dispone de una barra de navegación donde permite hacer hacer búsquedas en la

web en general, hacer busquedas de imagenes, hacer búsquedas de noticias y una opción para

más.

● Búsqueda en la web

Las búsquedas a nivel de usuario son bastante sencillas no presentan autocompletado o

sugerencias que es bastante común en otros buscadores solo presenta una sugerencia según las

búsquedas realizadas anteriormente, una búsqueda cualquiera se vería de la siguiente manera.

una vez se realiza la búsqueda se le presentan los resultados que se encontraron, con un listado

al lado derecho que muestra las posibles búsquedas que pueden haberse sugerido

Page 6: Power set(1150237 1150102)

Entre las posibilidades que presenta el navegador para realizar búsquedas mejoradas se

encuentran:

La inclusión de comillas dobles en un texto mostrará sólo resultados que contengan las palabras

escritas en el orden especificado.

Page 7: Power set(1150237 1150102)

la propiedad contains busca páginas que tienen enlaces a un fichero con una extensión

concreta.

Page 8: Power set(1150237 1150102)

}

También permite utilizar operadores lógicos como serian AND, OR, NOT:

Todos estos términos: usa una operación AND. Pasa por alto la puntuación y las palabras vacías.

Cualquiera de estos términos: usa una operación –O bien –. Ignora la puntuación y las palabras

vacías.

Esta frase exacta: busca la frase exacta, incluyendo la puntuación y las palabras vacías.

Ninguno de estos términos: usa una operación NOT. Esta operación agrupa los términos entre

paréntesis, incluyendo la puntuación y las palabras vacías.

Aparte de todo esto también se permite agregar ciertos parámetros a búsquedas para obtener

búsquedas mejores.

Page 9: Power set(1150237 1150102)
Page 10: Power set(1150237 1150102)

● Búsqueda de imágenes

La búsqueda de imágenes si bien no permite pegar imágenes directamente en el caja de texto

del buscador, si permite realizar las búsquedas acerca de cualquier temática, en una búsqueda

cualquiera se puede obtener.

Page 11: Power set(1150237 1150102)

Además de esto también se pueden buscar imágenes con respecto a diferentes parámetros

como son tamaño, color, estilo, diseño, contactos.

Page 12: Power set(1150237 1150102)
Page 13: Power set(1150237 1150102)
Page 14: Power set(1150237 1150102)

● Búsqueda de noticias

La sección de las noticias muestra una interfaz igual a la de la página principal, pero con

diferencia en su funcionalidad, toma el QUERY y en base a ello hace una búsqueda

referentemente a noticias relacionadas.

La siguiente imagen muestra la búsqueda desde la sección especial de noticias relacionadas con

el QUERY.

Page 15: Power set(1150237 1150102)

● Más

En la vista de la opción más del menú principal de bing, es como la imagen anterior, permite

realizar las búsquedas normales tal como: en la web, de imágenes y noticias; con la opción

adicional de un traductor.

Page 16: Power set(1150237 1150102)

El traductor de Bing

El traductor de Bing soporta 43 idiomas en los que incluye Español e Inglés. Bing aparte

de los 43 idiomas, permite la opción identificar el idioma desde el cual se desea traducir.

Page 17: Power set(1150237 1150102)

Lista de idiomas:

El traductor de Bing también le permite a los desarrolladores utilizar la interfaz HTTP e

integrar la traducción utilizando los métodos GET y POST, siendo esto útil para sitios web

que deseen dar a conocer la información en otros idiomas (o una idea de la información)

a través de la traducción que realiza Bing.

Page 18: Power set(1150237 1150102)

Descripción a nivel de ingeniería

● Algoritmo de búsqueda

El algoritmo de Bing consiste en analizar la frecuencia de las palabras de un documento,

manejando en sus búsquedas un puntaje de cada palabra a buscar.

La búsqueda en Bing se inicia a partir de la consulta del usuario, esta consulta será tratada por

medio de un algoritmo que se segmenta en dos grandes partes:

La primera sección del algoritmo consiste en analizar cada documento por frecuencia de palabras,

donde el documento será llamado j en una base de datos D, el documento j procede a ser

analizado para cada palabra w(m, j); cada palabra w se pasa a través de código que reduce la

palabra a su raíz. Lo que básicamente se hace es extraer de la query la raíz de cada palabra e

igualmente lo hace para cada palabra de todos los documentos analizados en la búsqueda

eliminado ciertas palabras como artículos que no agregan valor a la búsqueda, esta eliminación

se realiza con el método word-stop removal, después Bing genera un término de frecuencia

llamado TF, donde TF(i, j) indica cuántas veces un término aparece en un documento j, finalmente

cada término i genera un hash value, el cual corresponde a una tabla de frecuencia de términos,

la tabla de frecuencia de términos detalla la frecuencia de todos los términos del documento.

La segunda sección del algoritmo consiste en calcular el puntaje de cobertura de un documento.

Los puntajes de cobertura tienen en cuenta cuan importante es cada palabra y la cantidad de

veces que se encuentra una palabra en cada documento, un puntaje de cobertura bajo significa

que la palabra no proporciona información relevante para la búsqueda mientras que un puntaje

de cobertura alto significa que la palabra proporciona información relevante para la búsqueda.

Page 19: Power set(1150237 1150102)

para finalizar el método de búsqueda, se realiza una comparación de cada una de las páginas

analizadas, realizando una comparación uno a uno de las páginas y estas serán indexadas,

dependiendo del puntaje de cobertura obtenida por cada documento no esta de mas decir para

mejorar los resultados obtenidos serán indexadas primero las páginas con mayor peso.

● Tecnología de búsqueda

El modelo bag-of-words es una representación simplificada usada en el procesamiento de

lenguaje natural y recuperación de la información; en este modelo, un texto es representado

como una colección desordenada de palabras, donde se ignora la gramática en incluso el orden

de la palabra.

Este modelo es muy usado en métodos de clasificación de documentos, donde se desea saber la

frecuencia de ocurrencia de cada palabra se usa como una característica para formar un

clasificador, Bing siempre busca clasificar las palabras w en base a un valor dado dependiendo de

la cantidad de apariciones de está palabra en un documento.

● Arquitectura del buscador

La arquitectura del buscador Bing es la arquitectura frecuentemente usada por los buscadores,

donde utiliza: Un robot, un indexador, un motor de búsqueda, y finalmente una interfaz que

permite la interacción con el usuario final.

● Los robots son programas que tienen las bases de datos de los buscadores con el

fin de navegar por la web y recuperar la información de los documentos.

● Los indexadores se encargan de representar los documentos encontrados por el

robot, de una u otra manera y almacenarlo en la base de datos del buscador,

también es un programa y normalmente va junto al robot.

● Los motores de búsqueda se encargan de analizar las consultas de los usuarios y

buscarlas en el índice de documentos relacionados.

● Finalmente, la interfaz es la capa que el usuario puede ver, y por medio de ella él

interactúa para realizar cada una de las búsquedas que desee hacer.

Page 20: Power set(1150237 1150102)

Arquitectura del Buscador. 1

Page 21: Power set(1150237 1150102)

● Proceso de búsquedas

El proceso de búsqueda será básicamente el mismo utilizado en todo los tipos de buscadores

comunes, inicia cuando el usuario accede al buscador, una vez el usuario digita las palabras o

palabra clave para su respectiva búsqueda, el buscador cuenta con una base de datos donde

mantienen las páginas sobre las cuales se realizará la búsqueda, esta base de datos se debe

mantener incrementando la cantidad de páginas en el sistema, estas páginas que se añaden cada

tanto a la base de datos deben pasar por una especie de filtro que asegura que se tengan

documentos con calidad y la menor cantidad posible.

El buscador cuenta con programas llamados “arañas” que se encargan de evaluar las páginas

registradas e incluyen automáticamente las páginas encontradas, esto genera una gran cantidad

de información que se tiene que evaluar y organizar antes de poder presentarla al usuario, una

vez se realiza el filtro y organización de la información que se obtuvo, se presentan los datos al

usuario.

Para finalizar se presenta mediante algún formato la información al usuario, dando prioridad a

los que han quedado con una calificación mayor en la consulta realizada, al final los datos

obtenidos se mostrarán al usuario como un conjunto de vínculos a páginas que contiene

información acerca de la consulta realizada.

● Caracterizar por qué es semántico. Qué lo hace semántico.

Si bien el procedimiento realizados por el buscador bing podría llegar a considerarse como un

buscador sintáctico, basándose en la definición dada por (Himanen,2007) se supone que un

buscador semántico es “capaz de diferenciar el significado de los términos de la búsqueda,

procesar el contenido, razonarlo, combinarlo y realizar deducciones lógicas atendiendo a las

demandas del usuario ”, se puede notar que el procedimiento que se describió anteriormente

realiza un análisis a nivel más detallado que una simple búsqueda sintáctica, pues el análisis de

la raíz de una palabra permite análisis mucho más allá de lo que se podría obtener con una simple

búsqueda de literales.

Page 22: Power set(1150237 1150102)

Además el hecho asignar un valor de relevancia a cada documento donde se encuentre al menos

una palabra de las que han sido solicitadas en la búsqueda, permite que la respuesta sea muy

aproximada a lo que el usuario desea conseguir, teniendo en cuenta esto se puede determinar

que se realiza un procesamiento del contenido, al realizar la comparación e indexación de los

documentos obtenidos teniendo en cuenta un nivel de precedencia que será connotado por los

documentos más relevantes obtenidos se puede considerar que se realiza un razonamiento, y

una combinación de los resultados obtenidos.

Por otra parte como al realizar cada análisis de los términos que componen una query, y realizar

lo mismo con los documentos que analiza para realizar las búsquedas, todo el procedimiento que

se realiza es enfocado a resolver la necesidad que presenta el usuario, después de todos los

argumentos considerados, y basados en la definición propuesta por el filósofo finlandés Himanen

se puede determinar que el motor de búsqueda implementado por bing anteriormente conocido

como powerset, que fue desarrollado por Microsoft se puede considerar a bing como un

buscador semántico, si bien no cumple con todas las características de estos, si lo hace con la

mayoría de estas, entonces perfectamente podría ser definido como un buscador pseudo

semántico, sin temor a equivocaciones.

REFERENCIAS

[1]. Marques Solís, Santiago, La Web Semántica, 1ª edición, 2007 197

[2].Método de búsqueda de Bing, Universidad Tecnológica de Pereira, Disponible en Web:<

http://repositorio.utp.edu.co/dspace/bitstream/11059/2671/1/0057565M843.>

[3].Búsqueda eficaz de información en la web, FACULTAD DE INFORMÁTICA Universidad Nacional de La

Plata, José Ángel Olivas Varela, Disponible en Web:<

http://sedici.unlp.edu.ar/bitstream/handle/10915/18401/OLIVAS.pdf?sequence=1>

[4].Guía sobre la web semántica, W3C, Disponible en Web:

<http://www.w3c.es/Divulgacion/GuiasBreves/WebSemantica>

[5].Api Developers, Microsoft, Disponible en Web:< http://www.bing.com/developers/>