el Álgebra lineal detrás de los buscadores de internet · el Álgebra lineal detrás de los...

Post on 28-Sep-2018

219 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

El Álgebra Lineal detrás de los buscadoresde internet

Carlos D’Andrea

26 / 09 / 2012

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Bloques temáticos de Álgebra (EI)

Sistemas lineales de ecuacionesMatrices & determinantesEspacios vectorialesSubespacios, transformaciones lineales, ...PolinomiosNúmeros complejosVectores y valores propios – Diagonalización

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Álgebra Lineal en la Informática

Agrupamiento y clasificación de datosProgramación gráficaRedes socialesSistemas de recomendaciónReconocimiento de formas (música, huellas, fotografías)Inteligencia artificial

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

¡Todo esto lo verán después!

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

El álgebra lineal detrás de

Google es una variación de la palabra “googol”, que es elnúmero 10100

Es un buscador de internetFue diseñado en 1998 por dos alumnos de doctorado eninformática en Stanford: Sergei Brin y Lawrence PageAtiende alrededor de 200.000.000 de consultas diarias, tienemás de 54.000 empleados en todo el mundo

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

¿Qué es un buscador de internet?

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Trabajo básico de un buscador de internet

1 “Censar” las páginas de internet de acceso público2 Indexar los datos censados de acuerdo a su importancia con

respecto a las palabras claves3 Ordenar estos datos de acuerdo a su importancia conrespecto a las palabras claves

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

El algoritmo “PageRank”

Califica páginas indexadas de acuerdo a su “importancia”dentro de la redMarca registrada de GoogleLleva su nombre debido a su inventor Larry Page

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

El modelo PageRank

El universo de páginas de internet públicas es un gran grafodirigido donde

cada página web es un nodohay una arista orientada entre páginas que citan a otraspáginas

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

La “importancia” de una página web

Es alta sila citan muchas páginasLa citan páginas “importantes”

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Postulado PageRank

La importancia xj de la página Pj es proporcional a la sumade las importancias de las páginas que enlazan con Pj

0 · x1 +1 · x2 +1 · x3 +1 · x4 +1 · x5 = λ x10 · x1 +0 · x2 +1 · x3 +1 · x4 +1 · x5 = λ x21 · x1 +0 · x2 +0 · x3 +0 · x4 +1 · x5 = λ x30 · x1 +0 · x2 +1 · x3 +0 · x4 +0 · x5 = λ x41 · x1 +0 · x2 +0 · x3 +1 · x4 +0 · x5 = λ x5

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Un poco de Álgebra lineal

Si MI es la matriz de adyacencia del grafo de internet, entonces

MTI · x = λ · x

MI =

0 0 1 0 11 0 0 0 01 1 0 1 01 1 0 0 11 1 1 0 0

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

¡Vectores y valores propios!

MTI · x = λ · x

λ es la constante de proporcionalidad ↔ un valor propio deMT

I

x = (x1, x2, . . . , xN) es el vector de “importancias” de laspáginas censadas ↔ un vector propio de MT

I (asociado a λ)

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

“Democratizando” el modelo

Cada página tiene voto igual a 1 ↔ Matrices estocásticas

MI ,E =

0 0 1

2 0 12

1 0 0 0 013

13 0 1

3 013

13 0 0 1

313

13

13 0 0

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Una sesión de Mathematica

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

¿Es verdad que...

siempre tiene valores propios reales MTI ,E?

siempre hay un vector propio con todas sus coordenadas nonegativas?hay única solución a este problema???

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Eso no es... verdad

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Teorema (Perron– Frobenius (1907–1912))

Supongamos que M tiene entradas no negativas y además esirreducible. Entonces

existe un valor propio simple λ > 0 tal que M · x = λ · x, conx > 0este valor propio es mayor o igual, en módulo, que todos losdemás valores propios de Mcualquier otro vector propio positivo de M es un múltiploescalar de x

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Matrices irreducibles

Una matriz cuadrada se dice irreducible si no existe ningunapermutación de sus filas y columnas que la transforme en(

M11 A12

0 M22

),

con M11 y M22 matrices cuadradas

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Matriz irreducible ↔ grafo “fuertemente” conexo

Si se trata de la matriz de incidencia de un grafo dirigido, serirreducible significa que dos nodos cualesquiera estan conectadospor un camino (dirigido)

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

¿Es el grafo de internet fuertemente conexo?

¡Ni siquiera es conexo!Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Solución “a la Google”

“Perturbamos” la matriz MI ,E y la hacemos irreducible:

McI ,E := c MI ,E + (1− c)U

c es un parámetro entre 0 y 1 (cgoogle ≈ 0, 85)

U =

1N

1N . . . 1

N...

......

...1N

1N . . . 1

N

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Corolario: todo grafo dirigido tiene su importancia

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

0, 85

0 1 0 0 0 00 0 1

212 0 0

0 0 0 0 0 00 0 0 0 1

212

0 0 0 0 0 10 0 1 0 0 0

+ 0, 15

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

16

=

0, 025 0, 875 0, 025 0, 025 0, 025 0, 0250, 025 0, 025 0, 45 0, 45 0, 025 0, 0250, 025 0, 025 0, 025 0, 025 0, 025 0, 0250, 025 0, 025 0, 025 0, 025 0, 45 0, 450, 025 0, 025 0, 025 0, 025 0, 025 0, 8750, 025 0, 025 0, 875 0, 025 0, 025 0, 025

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Del existencialismo al Cálculo

El grafo de internet tiene más de un billón de nodos.... ¿cómo secalcula el vector propio de importancias?

Métodos NuméricosCarlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Teorema 1 (Perron, 1907)

Si M tiene todos sus coeficientes positivos, entoncesexiste un valor propio simple λ > 0 tal que M · x = λ · x, conx > 0este valor propio es mayor, en módulo, que todos los demásvalores propios de Mcualquier otro vector propio positivo de M es un múltiploescalar de x

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Método de las potencias (usado por Google)

Si hay un único valor propio λ de módulo máximo entonces,consideremos la siguiente sucesión

x0= cualquier vector de RN

xn+1 = M·xn‖M·xn‖

Entonceslimn→∞xn = x

limn→∞‖M·xn‖‖xn‖ = λ

con probabilidad 1

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Google y PageRank

El objetivo de Brin y Page era que al menos una de las diezprimeras páginas que se muestren contenga información útilpara el que consultaEn mayo de 2011 Google consiguió superar los mil millones devisitantes por mesEn el último reporte anual (2011) los activos de la compañíaestaban valorados en U$D 37.905.000.000El algoritmo PageRank fue patentado por la Universidad deStanford, y Google tiene derechos exclusivos sobre esa patente.Desde febrero de 2011 Google utiliza “Google Panda”, lasegunda generación del PageRank

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

Otras aplicaciones del PageRank

Clasificación para las eliminatorias de la NBAModelos de evolución de ecosistemasAnálisis de redes de proteínasAlternativa al ISI impact factor

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

“The $25, 000, 000, 000 Eigenvector: The LinearAlgebra behind Google”, Kurt Bryan & Tanya Leise, SiamReview 48 (3), 569–581, 2006“Les Matemàtiques de Google: l’algorismePageRank”, Joan Gimbert, Butlletí de la Societat Catalana deMatemàtiques, Vol 26, 1, 2011, 29–55“El secreto de Google y el Álgebra Lineal”, P.Fernández, Bol. Soc. Esp. Mat. Apl. 30 (2004), 115–141

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

¿Qué hemos aprendido hoy?

Álgebra linealTeoría de grafosMatrices estocásticasCálculo numéricoAnálisis funcionalAlgoritmos de búsqueda

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

¿Qué es la ingeniería?

... es la actividadde trasformar elconocimiento enalgo práctico

Carlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

http://atlas.mat.ub.es/personals/dandreaCarlos D’Andrea

El Álgebra Lineal detrás de los buscadores de internet

top related