what is page rank ?

17

Upload: hoon-shin

Post on 08-Jul-2015

162 views

Category:

Documents


0 download

DESCRIPTION

It's a homework of Security Engineering.

TRANSCRIPT

Page 1: What is Page rank ?
Page 2: What is Page rank ?

일반적 scoring 방식

› 단어의 빈도수, 문서길이, 키워드 연관성 등등

기존 scoring 방식의 문제

› 임의의 조작 가능 Doorway page 등장

Doorway page 방지

› Link popularity 개념 탄생

Page 3: What is Page rank ?

Link popularity

› Inbound link 가 많은 페이지는 중요하다

› 참조가 많다고 중요하다고 할 수 있나?

› 만일 서버운영자들이 담합하여 중요하지 않은 사

이트를 많이 링크한다면? False positive

› 중요하지 않은 싸이트를 중요하게 만들 수 있다.

Link Popularity 개선 PageRank

Page 4: What is Page rank ?

페이지랭크를 이용한 검색은 커먼 케이스를

잘 처리하게 된다.

› 꽃을 검색하였을 때 단순히 꽃의 정보가 담긴 사

이트가 아닌 꽃 판매 사이트를 출력하는 경우

Page 5: What is Page rank ?

PR(A) is the PageRank of page A

PR(Ti) is the PageRank of pages Ti which link to

page A

C(Ti) is the number of outbound links on page Ti and

d is a damping factor which can be set between

0 and 1.

d(damping factor)는 임의의 검색자가 다른 페이지를 찾

을 확률, (1-d)는 해당 페이지에 머무를 확률이 된다.

Page 6: What is Page rank ?

내가 좋은 사람이 되려면?

› 나를 괜찮다고 얘기해주는 사람이 많고

PR(Ti)의 갯수

› 나를 괜찮다고 하는 사람이 좋은사람이면 더 좋고

PR(Ti)의 값이 높음

› 나를 괜찮다는 사람이 아무나 좋다고 하는 사람이

아니면 더 좋다.

C(Ti) 값이 작음

Page 7: What is Page rank ?

기본개념 품질 좋은 콘텐츠를 상단에 배치

랜덤서퍼가 특정 페이지를 방문할 확률이 그 페이

지의 PageRank

Recursive하게 Link된 PageRank값에 영향을 받는

다.

C(T)가 높을수록 PR(A)값은 떨어진다.

T의 outbound link가 많을수록 A는 T로부터 얻는 정보의

가치는 떨어진다.

Page 8: What is Page rank ?

The PageRank Display of the Google Toolbar

PageRank의 범위를 0 ~ 10으로 표시

Page 9: What is Page rank ?

The PageRank Display at the Google Directory

› PageRank를 원하는 Page가 ODP에 있다면

Directory PageRank와 Toolbar PageRank를 비

교하여 PageRank값을 각자 계산하는 것에 비해 더

정확한 PageRank 값을 추론할 수 있다.

Page 10: What is Page rank ?

X 추가시 PR(A)가 증가한다.

d(damping factor) 값이 커질수록 전체

A,B,C,D의 PR값이 증가한다.

A

B

C

D

X

Page 11: What is Page rank ?

처럼 링크를 추가해도 전체 페이지의

PageRank값에는 변화가 없다.

A

B

C

D

Page 12: What is Page rank ?

외부로 나가는 링크가 없는 페이지를 가리키는

이 페이지의 가중치 분산에 대한 측정이 어려움

실제, 많은 수의 Dangling링크가 존재함

다른 페이지의 순위에 직접적인 영향을 미치지 않음

A

B

C

Page 13: What is Page rank ?

페이지D 추가시PR(A)는 증가하나PR(B,C)는 감소한다.

전체적인페이지들의 PR은약간 증가한다.

A

B C D

A

B C

Page 14: What is Page rank ?

페이지 D를 추가함으로써 전체 페이지들의 PR는 약간 증가

기존 PR(A,B,C)는 전에 비해 감소한다

A

B C

D

A

B

C

Page 15: What is Page rank ?

PageRank가 0이라는 의미는 불이익을 가지지 않고 단

지 검색될 확률이 낮다는 의미

The Background of PR0

Inbound Link의 상당한 변화가 있지 않다면 패

널티를 받음

PR0가 검색엔진의 심각한 영향을 미침

특정 네트워크에 이질적인 영역의 링크가 있다

면 스팸으로 탐지

Page 16: What is Page rank ?

조건 : 1600만 페이지를 수집하여 제목만을 사용하는 검색

Page 17: What is Page rank ?

페이지랭크는 문서의 객관적 중요도라는 추상적 개념을

실제 모델링하고 구현한 알고리즘으로 일반적인 생각을

구체화하고 객관화시키는 과정에 많은 감명을 받음

랜덤서퍼모델과 마르코프체인을 비교한 논문이 있는바,

사람들의 행동양태를 모델링화하는 기법을 응용한다면

해커들의 공격방식이나 보안전문가들의 대응기법들도

모델링화하여 일반화 할 수 있지 않을까?

차후, 동 논문을 보면서 참조한 link analysis, 마르코프체

인, HITS, Perron-Probenius 법칙 등에 대해 연구해보고

싶음