what is page rank ?
DESCRIPTION
It's a homework of Security Engineering.TRANSCRIPT
일반적 scoring 방식
› 단어의 빈도수, 문서길이, 키워드 연관성 등등
기존 scoring 방식의 문제
› 임의의 조작 가능 Doorway page 등장
Doorway page 방지
› Link popularity 개념 탄생
Link popularity
› Inbound link 가 많은 페이지는 중요하다
› 참조가 많다고 중요하다고 할 수 있나?
› 만일 서버운영자들이 담합하여 중요하지 않은 사
이트를 많이 링크한다면? False positive
› 중요하지 않은 싸이트를 중요하게 만들 수 있다.
Link Popularity 개선 PageRank
페이지랭크를 이용한 검색은 커먼 케이스를
잘 처리하게 된다.
› 꽃을 검색하였을 때 단순히 꽃의 정보가 담긴 사
이트가 아닌 꽃 판매 사이트를 출력하는 경우
PR(A) is the PageRank of page A
PR(Ti) is the PageRank of pages Ti which link to
page A
C(Ti) is the number of outbound links on page Ti and
d is a damping factor which can be set between
0 and 1.
d(damping factor)는 임의의 검색자가 다른 페이지를 찾
을 확률, (1-d)는 해당 페이지에 머무를 확률이 된다.
내가 좋은 사람이 되려면?
› 나를 괜찮다고 얘기해주는 사람이 많고
PR(Ti)의 갯수
› 나를 괜찮다고 하는 사람이 좋은사람이면 더 좋고
PR(Ti)의 값이 높음
› 나를 괜찮다는 사람이 아무나 좋다고 하는 사람이
아니면 더 좋다.
C(Ti) 값이 작음
기본개념 품질 좋은 콘텐츠를 상단에 배치
랜덤서퍼가 특정 페이지를 방문할 확률이 그 페이
지의 PageRank
Recursive하게 Link된 PageRank값에 영향을 받는
다.
C(T)가 높을수록 PR(A)값은 떨어진다.
T의 outbound link가 많을수록 A는 T로부터 얻는 정보의
가치는 떨어진다.
The PageRank Display at the Google Directory
› PageRank를 원하는 Page가 ODP에 있다면
Directory PageRank와 Toolbar PageRank를 비
교하여 PageRank값을 각자 계산하는 것에 비해 더
정확한 PageRank 값을 추론할 수 있다.
X 추가시 PR(A)가 증가한다.
d(damping factor) 값이 커질수록 전체
A,B,C,D의 PR값이 증가한다.
A
B
C
D
X
외부로 나가는 링크가 없는 페이지를 가리키는
이 페이지의 가중치 분산에 대한 측정이 어려움
실제, 많은 수의 Dangling링크가 존재함
다른 페이지의 순위에 직접적인 영향을 미치지 않음
A
B
C
PageRank가 0이라는 의미는 불이익을 가지지 않고 단
지 검색될 확률이 낮다는 의미
The Background of PR0
Inbound Link의 상당한 변화가 있지 않다면 패
널티를 받음
PR0가 검색엔진의 심각한 영향을 미침
특정 네트워크에 이질적인 영역의 링크가 있다
면 스팸으로 탐지
조건 : 1600만 페이지를 수집하여 제목만을 사용하는 검색
페이지랭크는 문서의 객관적 중요도라는 추상적 개념을
실제 모델링하고 구현한 알고리즘으로 일반적인 생각을
구체화하고 객관화시키는 과정에 많은 감명을 받음
랜덤서퍼모델과 마르코프체인을 비교한 논문이 있는바,
사람들의 행동양태를 모델링화하는 기법을 응용한다면
해커들의 공격방식이나 보안전문가들의 대응기법들도
모델링화하여 일반화 할 수 있지 않을까?
차후, 동 논문을 보면서 참조한 link analysis, 마르코프체
인, HITS, Perron-Probenius 법칙 등에 대해 연구해보고
싶음