(a method for measuring similarity between trajectory graph sets) · 2013-06-17 ·...

6
궤적 그래프 집합 유사도 측정 기법 153 궤적 그래프 집합 유사도 측정 기법 (A Method for Measuring Similarity between Trajectory Graph Sets) 홍지혜 박기성 한용구 이영구 †† (Jihye Hong) (Kisung Park) (Yongkoo Han) (Young-Koo Lee) GPS 센서가 내장된 스마트폰의 대중화에 따라 궤적 데이터 데이타베이스 구축이 용이해졌다. 최근 개인의 생활패턴을 반영할 수 있는 그래프 기반 궤적 데이터 모델링 방법이 제안되었다. 그러나 이 연구는 궤적 데이터 모델링 방법을 주로 제안하여, 개인화 서비스와 같은 응용 분야에 사용할 수 있는 마 이닝 기법들은 제안하지 않았다. 본 논문에서는 궤적 그래프 집합으로 표현되는 사용자들 간의 유사도를 효과적으로 측정하는 기법을 제안한다. 제안하는 유사도 측정 기법은 사용자마다의 고유한 생활패턴 특징 을 잘 반영할 수 있는 대표 빈발 부분그래프들을 찾아 유사도를 비교한다. 유사도를 효과적으로 계산하기 위하여, 집합 간의 거리 측정 알고리즘인 Hausdorff 거리와 두 그래프간의 유사도 측정 알고리즘인 최대 공통 부분그래프를 이용한 그래프 집합 유사도 측정 알고리즘을 제안한다. 실험을 통하여 제안하는 유사도 측정 기법이 사용자 간의 유사도를 효과적으로 측정할 수 있음을 보인다. 키워드: 궤적 데이터, 그래프 마이닝, 집합 유사도 Abstract As a number of people use smart phones with embedded GPS sensors, it becomes easy to construct a trajectory data database. Recently, a graph based trajectory modeling study has been performed, which can reflect personal lifestyles. However, the study mainly has focused on a modeling method but not suggested mining techniques that can be used for applications such as personalized services. In this paper, we propose a method that measures a similarity between users represented by sets of trajectory graphs. The proposed method measures the similarity between users' feature frequent subgraphs, which imply each user's essential lifestyles, rather than trajectory graphs. In order to effectively calculate the similarity, we propose a graph set similarity algorithm using Hausdorff distance for calculating a set similarity and maximum common subgraph for calculating a graph similarity. In the experiment, we show our proposed method can measure similarities between users effectively. Keywords: trajectory data, graph mining, set similarity 1. 서 론 GPS 센서가 내장된 스마트폰의 대중화에 따라 궤적 데이터(trajectory data) DB 구축이 용이해졌다. 궤적 데이터는 시간에 따른 사용자의 단순한 위치 정보뿐만 아니라 사용자의 방문한 장소에 따른 생활패턴(lifestyle) 을 내포하고 있다. 이와 같은 궤적 데이터 DB로부터 이 동패턴을 마이닝[1]하여 물류관제, 교통관제, 주문배달과 같은 다양한 서비스들이 제공되고 있다. 최근 사용자의 생활패턴을 반영하는 방문 장소를 노 드로, 장소 간의 이동을 에지로 표현하는 궤적 그래프 모델링 방법[2]이 제안되었다. [2]는 일정 주기마다의 궤 적 데이터로 궤적 그래프들을 생성하고, 빈발 부분그래 프 마이닝 알고리즘[3]으로 빈발 생활패턴을 찾아 유용 이 논문은 2010년도 정부(교육과학기술부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(2010-0013689). †† 학생회원 종신회원 논문접수 심사완료 : : : : 경희대학교 컴퓨터공학과 [email protected] [email protected] [email protected] 경희대학교 컴퓨터공학과 교수 [email protected] (Corresponding author) 2012910201326Copyright2013 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작 물의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처 를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야 합니다. 정보과학회논문지: 데이타베이스 제40권 제3(2013.6)

Upload: others

Post on 06-Jul-2020

4 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: (A Method for Measuring Similarity between Trajectory Graph Sets) · 2013-06-17 · 부분그래프는 수퍼 그래프(super graph)가 존재하지 않 은 가장 큰 빈발 부분그래프이기

궤 그래 집합 유사도 측정 기법 153

궤 그래 집합 유사도 측정 기법(A Method for Measuring Similarity between

Trajectory Graph Sets)

홍 지 혜† 박 기 성

† 한 용 구

† 이 구

††

(Jihye Hong) (Kisung Park) (Yongkoo Han) (Young-Koo Lee)

요 약 GPS 센서가 내장된 스마트폰의 화에 따라 궤 데이터 데이타베이스 구축이 용이해졌다.

최근 개인의 생활패턴을 반 할 수 있는 그래 기반 궤 데이터 모델링 방법이 제안되었다. 그러나 이

연구는 궤 데이터 모델링 방법을 주로 제안하여, 개인화 서비스와 같은 응용 분야에 사용할 수 있는 마

이닝 기법들은 제안하지 않았다. 본 논문에서는 궤 그래 집합으로 표 되는 사용자들 간의 유사도를

효과 으로 측정하는 기법을 제안한다. 제안하는 유사도 측정 기법은 사용자마다의 고유한 생활패턴 특징

을 잘 반 할 수 있는 표 빈발 부분그래 들을 찾아 유사도를 비교한다. 유사도를 효과 으로 계산하기

하여, 집합 간의 거리 측정 알고리즘인 Hausdorff 거리와 두 그래 간의 유사도 측정 알고리즘인 최

공통 부분그래 를 이용한 그래 집합 유사도 측정 알고리즘을 제안한다. 실험을 통하여 제안하는 유사도

측정 기법이 사용자 간의 유사도를 효과 으로 측정할 수 있음을 보인다.

키워드: 궤 데이터, 그래 마이닝, 집합 유사도

Abstract As a number of people use smart phones with embedded GPS sensors, it becomes easy

to construct a trajectory data database. Recently, a graph based trajectory modeling study has been

performed, which can reflect personal lifestyles. However, the study mainly has focused on a modeling

method but not suggested mining techniques that can be used for applications such as personalized

services. In this paper, we propose a method that measures a similarity between users represented by

sets of trajectory graphs. The proposed method measures the similarity between users' feature

frequent subgraphs, which imply each user's essential lifestyles, rather than trajectory graphs. In order

to effectively calculate the similarity, we propose a graph set similarity algorithm using Hausdorff

distance for calculating a set similarity and maximum common subgraph for calculating a graph

similarity. In the experiment, we show our proposed method can measure similarities between users

effectively.

Keywords: trajectory data, graph mining, set similarity

1. 서 론

GPS 센서가 내장된 스마트폰의 화에 따라 궤

데이터(trajectory data) DB 구축이 용이해졌다. 궤

데이터는 시간에 따른 사용자의 단순한 치 정보뿐만

아니라 사용자의 방문한 장소에 따른 생활패턴(lifestyle)

을 내포하고 있다. 이와 같은 궤 데이터 DB로부터 이

동패턴을 마이닝[1]하여 물류 제, 교통 제, 주문배달과

같은 다양한 서비스들이 제공되고 있다.

최근 사용자의 생활패턴을 반 하는 방문 장소를 노

드로, 장소 간의 이동을 에지로 표 하는 궤 그래

모델링 방법[2]이 제안되었다. [2]는 일정 주기마다의 궤

데이터로 궤 그래 들을 생성하고, 빈발 부분그래

마이닝 알고리즘[3]으로 빈발 생활패턴을 찾아 유용

․이 논문은 2010년도 정부(교육과학기술부)의 재원으로 한국연구재단의

지원을 받아 수행된 연구임(2010-0013689).

††

학생회원

종신회원

논문 수

심사완료

:

:

:

:

경희 학교 컴퓨터공학과

[email protected]

[email protected]

[email protected]

경희 학교 컴퓨터공학과 교수

[email protected]

(Corresponding author임)

2012년 9월 10일

2013년 2월 6일

CopyrightⒸ2013 한국정보과학회ː개인 목 이나 교육 목 인 경우, 이 작

물의 체 는 일부에 한 복사본 혹은 디지털 사본의 제작을 허가합니다.

이 때, 사본은 상업 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처

를 반드시 명시해야 합니다. 이 외의 목 으로 복제, 배포, 출 , 송 등 모든

유형의 사용행 를 하는 경우에 하여는 사 에 허가를 얻고 비용을 지불해야

합니다.

정보과학회논문지: 데이타베이스 제40권 제3호(2013.6)

Page 2: (A Method for Measuring Similarity between Trajectory Graph Sets) · 2013-06-17 · 부분그래프는 수퍼 그래프(super graph)가 존재하지 않 은 가장 큰 빈발 부분그래프이기

154 정보과학회논문지 : 데이타베이스 제 40 권 제 3 호(2013.6)

성을 보 다. 그러나 이 연구는 모델링 방법을 주로 제

안하여, 주기 모델링을 통해 수집된 량의 데이터를

이용하여 사용자간의 성향을 비교, 분석하기 해 요구

되는 마이닝 기법들은 제안하지 않았다.

사용자들의 성향 비교 분석을 통해 마 이나 친구

추천과 같은 개인화 서비스를 제공하기 해서는 주기

별 궤 그래 의 집합으로 구성되는 사용자들 간의 유

사도를 측정하는 방법이 요구된다. 를 들어, 유사한

생활패턴을 갖는 친구를 추천하기 해서는 각 사용자

들 의 궤 그래 집합 간 유사도를 측정해야 한다.

기존에 수치 는 벡터 데이터 집합들 간의 유사도

측정 방법들[4,5]이 다양하게 제안되었다. 그래 데이터

에 해서는 두 그래 간의 유사도를 측정 방법들[6,7]

만 제안되었을 뿐, 그래 집합 간의 유사도 측정 연구

는 수행되지 않았다.

본 논문에서는 사용자들의 성향을 분석하기 해 궤

그래 집합으로 표 되는 사용자들 간의 유사도를

효과 으로 측정하는 기법을 제안한다. 제안하는 유사도

측정 기법은 사용자마다의 고유한 생활패턴 특징을 잘

반 할 수 있는 표 빈발 부분그래 들을 찾아 유사도

를 비교한다. 표 빈발 부분그래 집합 간의 유사도를

효과 으로 계산하기 하여, 아이템 집합 간의 거리 측

정 알고리즘인 Hausdorff 거리[5]와 두 그래 간의 유

사도 측정 알고리즘인 최 공통 부분그래 (maximum

common subgraph, 이하 MCS)[6]을 이용한 그래 집

합 유사도 측정 알고리즘을 제안한다. 실험을 통하여 제

안하는 유사도 측정 기법이 사용자 간의 유사도를 효과

으로 측정할 수 있음을 보인다.

2. 련 연구

그래 데이터에 하여 두 그래 간의 유사도 측정

기법들[6,7]은 제안되었지만, 그래 집합들 간의 유사도

측정 기법들은 제안되지 않았다. 두 그래 간의 거리를

측정하기 해 MCS[6]와 그래 수정 거리(graph edit

distance)[7]가 많이 활용된다. MCS는 두 그래 의 공

통된 부분그래 들 가운데 가장 큰 부분그래 를 이용

하여 유사도를 측정한다. MCS는 식 (1)과 같이 계산된

다. 여기서, 는 그래 과 의 거리이며,

는 두 그래 의 최 공통 부분그래 이다.

는 그래 의 크기이다.

max

(1)

그래 수정 거리 는 각 사용자의 그래

과 에 해 노드 일치

여부를 확인하기 한 1 1 응 함수 → (단,

∈∈)를 수행하기 해 발생하는 최소 비용

으로 그래 유사도를 측정한다.

순서를 고려하지 않은 , 선, 데이터 집합 간의 유사

도를 측정하기 해 다양한 연구들이 수행되었으며,

Hausdorff 거리[4] 수정된 Hausdorff 거리[5] 알고

리즘이 리 사용되고 있다. Hausdorff 거리는 두 개의

데이터의 집합 과 의 유

사도를 식 (2)와 같이 계산한다.

(2)

여기서, 는 식 (3)에 의해 결정된다. 식 (3)은

특정 원소 ∈에 해 모든 ∈와의 거리를 측정한

최솟값들 , 최댓값을 선정하여 두 집합 간의 거리를

결정한다.

∈∈ (3)

[5]는 Hausdorff 거리 기반의 24개의 유사도 측정 알

고리즘들을 제안하 고, 이미지 데이터를 통한 실험으로

식 (4)가 가장 우수한 성능을 가짐을 보 다. 식 (4)는

모든 원소 ∈에 해 모든 ∈와의 거리의 최솟값

들의 평균값을 측정하여 두 집합 간의 거리로 사용한다.

∈∈ (4)

본 논문에서는 그래 집합간의 유사도 측정을 하

여 수정된 Hausdorff 거리에 MCS 알고리즘을 용한

그래 집합 유사도 측정 알고리즘을 제안한다.

3. 궤 그래 집합의 유사도 측정

본 장에서는 사용자의 생활패턴을 반 할 수 있는 궤

그래 모델링 기법을 3.1 에서 설명하고, 궤 그

래 의 유사도 측정 기법을 3.2 에서 설명한다.

3.1 궤 그래 모델링

사용자의 생활패턴을 반 할 수 있는 그래 기반 궤

데이터 모델링 기법[2]이 제안되었다. 이 모델링 기

법은 사용자의 생활 패턴을 반 할 수 있는 장소로 노

드를 구성하고 장소간의 이동을 에지로 표 한다. 한

다양한 주기의 생활 패턴을 반 하기 해 하루의 궤

시 스를 주기별로 결합하여 궤 그래 를 생성한다.

그림 1은 생활 패턴을 반 하는 궤 그래 모델링

의 시이다. 일정 주기로 하루 궤 시 스를 결합하여

궤 그래 를 생성한다. 이 때 시 스를 최 한 반 하

기 해 체 궤 시 스들로부터 최 공통 부분시

스를 구하여 결합한다. 그림 1에서 library→cafe와 같

은 공통된 패턴은 결합되며, office는 최 공통 부분시

스에 해당되지 않기 때문에 시 스가 결합되지 않고,

기존의 시 스를 보존하기 해 그래 에서 여러 번 나

Page 3: (A Method for Measuring Similarity between Trajectory Graph Sets) · 2013-06-17 · 부분그래프는 수퍼 그래프(super graph)가 존재하지 않 은 가장 큰 빈발 부분그래프이기

궤 그래 집합 유사도 측정 기법 155

그림 1 그래 기반 궤 데이터 모델링

타난다. 이 모델링 기법에 따르면 각 사용자의 궤 데

이터는 주기마다의 궤 그래 의 집합으로 구성된다.

3.2 궤 그래 집합 유사도 측정 알고리즘

궤 그래 집합 간의 유사도 측정을 한 가장 단

순한 방법으로 모든 궤 그래 들의 평균 유사도를 계

산할 수 있다. 그러나 이와 같은 방법은 데이터가 축

된 기간에 비례하여 연산 비용이 증가하는 비효율성뿐

아니라, 요한 생활패턴과 응되는 부분그래 발

생 횟수 등을 반 할 수 없기 때문에 효과 이지 않다.

본 논문에서는 두 그래 집합의 효과 인 유사도 측

정을 하여, 사용자의 특징 인 생활패턴을 잘 반 할

수 있는 부분 궤 그래 들을 선정하여 비교한다. 특징

인 생활패턴을 반 할 수 있는 궤 그래 는 빈발

부분그래 와 같이 빈번하게 나타나면서 다른 사용자들

과 복되지 않는 희소성 있는 패턴일수록 합하다. 이

와 같은 개념들을 다음과 같이 정의한다.

정의 1. 체 빈발 궤 그래 집합(entire frequent

trajectory graph set, FS). 체 빈발 궤 그래

집합은 체 사용자에게서 빈번하게 나타나는 궤 그

래 집합이며 로 표기한다. 의

각 원소는 체 사용자 궤 그래 집합에서 빈발한

부분그래 들이다. ‘식당-화장실’과 같이 사용자의 개별

특성과는 독립 이기 때문에 다수의 사용자에게서 나

타는 패턴을 의미한다. 시 스를 일정한 주기에 따라 모

델링한 모든 사용자들의 궤 그래 들에 하여 빈발

부분그래 마이닝을 수행하여 얻는다.

정의 2. 특징 궤 그래 집합(feature trajectory

graph set, FTS). 특징 궤 그래 집합은 각 사용

자의 특성을 반 할 수 있는 궤 그래 집합이며,

로 표기한다. 의 각 원소

는 각 사용자의 궤 그래 집합에서 나타나는 최

빈발 부분그래 들 가운데 체 빈발 궤 그래 집합

의 원소들과 유사한 부분이 은 고유한 그래 들이다.

각 사용자의 특징 궤 그래 집합은 정의 2와 같이

체 사용자에게서 드물게 나타나는 개인의 고유한 생

활패턴을 내포한다. 따라서 두 사용자 간의 특징 궤

그래 집합의 유사도는 두 사용자의 성향의 유사도를

효과 으로 반 할 수 있다.

알고리즘 1은 특징 궤 그래 를 추출하는 의사코드

이다. 알고리즘은 입력으로 한 사용자의 궤 그래 집

합과 체 사용자에 한 빈발 부분그래 집합을 받는

다. 알고리즘은 사용자의 궤 그래 집합에 하여 최

빈발 부분그래 들을 마이닝한다(line 1). 최 빈발

부분그래 는 수퍼 그래 (super graph)가 존재하지 않

은 가장 큰 빈발 부분그래 이기 때문에 포함 계를

갖는 복 그래 들을 제거할 수 있다. 다음으로, 최

빈발 부분그래 집합 와 체 빈발 궤 그래

집합 의 요소들 간에 부분그래 동형성 검사(sub-

graph isomorphism test)를 수행하여, 로부터 동형

한 구조를 갖는 의 노드와 에지를 제거한다(line

2-7). 동형한 구조를 모두 제거한 그래 의 크기를

의 희소성 수로 하여, 높은 수를 갖는 순서 로

개의 표 그래 로 선출한다(8,9).

각 사용자의 특징 궤 그래 집합 간의 유사도를

효과 으로 측정하기 하여, Hausdorff 거리에 MCS를

용한 그래 집합 유사도 측정 알고리즘을 제안한다.

우선, 두 그래 간의 유사도를 측정하기 해 가 치

가 반 된 MCS를 설명한다. 궤 그래 의 노드와 에

지는 희소성에 따라 다른 요도를 갖는다. 를 들어,

‘식당-화장실’과 같은 일상 으로 다수의 사람들에게

서 발생할 수 있는 패턴에 비해 ‘도서 -커피 ’과 같은

알고리즘 1 특징 궤 그래 추출 알고리즘

Page 4: (A Method for Measuring Similarity between Trajectory Graph Sets) · 2013-06-17 · 부분그래프는 수퍼 그래프(super graph)가 존재하지 않 은 가장 큰 빈발 부분그래프이기

156 정보과학회논문지 : 데이타베이스 제 40 권 제 3 호(2013.6)

패턴은 친구 추천과 같은 애 리 이션에서 요도가

높다. 이와 같은 패턴의 희소성을 최 공통 부분그래

에 빈발 가 치로 반 한 척도는 식 (5)와 같다. 최

공통 부분그래 에 속하는 각각의 노드 와 에지 에

해, 지지도에 의해 결정되는 가 치를 곱한다.

max

(5)

여기서, 는 두 그래 간의 최 공통 부

분그래 이고, 는 노드와 에지의 빈발 가 치이다.

각 에지에 한 빈발 가 치는 식 (6)과 같이 계산된

다. 여기서, 에지 를 가지고 있는 그래 는 최 공

통 부분그래 (∈ )와 체 빈발 궤 그

래 집합(∈)에 포함되는 그래 이다. 은 이

조건들을 만족시키는 의 총 개수이고, 는 체

빈발 궤 그래 집합에서 의 지지도이며, 는 지지

도의 반 비율을 나타내며 의 범 를 갖는다. 애

리 이션의 특성에 따라 개개인의 차별성이 유사도에

미치는 향이 다르므로 를 조 하여 개성이 반 되는

정도를 조 할 수 있다. 각 노드의 빈발 가 치는 에지

의 빈발 가 치 식 (6)과 같이 계산된다. 노드 의 지지

도 평균값을 계산하고 1과의 차이를 계산한다. 지지도가

높을수록 사용자의 개별 인 특성에 독립 인 패턴에

포함될 가능성이 높기 때문에 가 치는 낮아진다.

(6)

그래 집합 간의 유사도는 최종 으로 식 (7)과 같

이 Hausdorff 거리에 를 용하여 계산된다. 여

기서, 는 각 그래 집합의 총 원소 개수이다.

∈ (7)

식 (8)은 두 그래 의 가장 유사한 특징 궤 그래

의 유사도를 두 그래 의 유사도로 계산하는 방법이다.

이 유사도 측정 방법은 두 사용자간의 다양한 패턴들

가운데 가장 유사한 패턴의 요도를 강조한다.

알고리즘 2 궤 그래 집합 유사도 측정 알고리즘

∈ (8)

알고리즘 2는 궤 그래 집합 유사도 측정 알고리

즘의 의사코드이다. 알고리즘은 입력으로 두 사용자의

특징 궤 그래 집합들을 받는다. 알고리즘은 두 사용

자의 특징 궤 그래 집합 내의 모든 그래 에

하여 유사도 를 계산한다(line 1-3). 을 식

(7)에 용하여 두 사용자간 유사도를 계산한다(line 4).

4. 실험 결과 분석

4.1 실험 환경 데이터 셋

실험을 한 데이터 셋은 GeoLife Dataset[8]을 사용

하 다. 이 데이터 셋은 약 170명의 사용자에 해 3년

동안 수집된 GPS 궤 데이터로 구성된다. GPS 궤

데이터를 특징 장소로 표 하기 해 google places

api를 사용하 다. 특징 장소는 university, bank,

restaurant 등의 38개를 사용하 다.

본 논문에서는 [2]의 궤 그래 모델링 방식을 사용

하 다. 각 사용자의 그래 는 1주일 단 로 모델링 하

으며, 노드 이블은 특징 장소, 에지 이블은 정

규화한 빈발도이다. 약 20명의 데이터를 사용하 으며

체 빈발 궤 그래 를 한 최소 지지도를 70%, 특

징 궤 그래 를 한 최소 지지도 30%로 설정하 다.

한 특징 궤 그래 집합의 원소의 개수인 는 5로

설정하 고, 지지도에 한 가 치 척도인 는 1로 설

정하 다.

제안하는 궤 그래 유사도 측정 기법의 유용성을

검증하기 하여 기존 기법인 MCS 척도와 제안하는

궤 그래 유사도 측정 기법의 성능을 비교하 다.

한, 궤 그래 집합간의 비교를 해 Hausdorff 거리

와 수정된 Hausdorff 거리를 사용하 다.

4.2 유사도 측정의 정확도 비교

제안하는 유사도 측정 기법의 우수성을 보이기 해

패턴에 따라 가 치를 주지 않은 식 (1)을 활용한 유사도

측정 척도 와, 제안하는 유사도 측정 척도인

식 (6)을 활용한 에 하여 실험하 다. 표 1은

이에 따른 4개의 유사도 측정 척도를 로

나타낸다.

표 2는 4명의 사용자에 해 표 1에서 정의한 4개의

측정 척도에 의해 유사도를 측정한 결과이다. 그림 2에

표 1 4개의 유사도 측정 척도

유사도 측정 척도집합 유사도

식 (3) 식 (4)

단일 그래

유사도

식 (1)

식 (6)

Page 5: (A Method for Measuring Similarity between Trajectory Graph Sets) · 2013-06-17 · 부분그래프는 수퍼 그래프(super graph)가 존재하지 않 은 가장 큰 빈발 부분그래프이기

궤 그래 집합 유사도 측정 기법 157

그림 2 4명의 사용자의 표 특징 궤 그래 와 최 공통 부분그래 와 동형한 체 빈발 부분그래 의

서의 사용자의 표 그래 는 특징 궤 그래 들

하나의 그래 를 나타낸다. 그림 2의 사용자별 표 그

래 에서와 같이 사용자 1과 사용자 2의 그래 는

→→과 같은 패턴을 공유하고 있

으며, 사용자 3과 사용자 4는 → ,

→와 같은 패턴을 공유하여 매우 유사한

특징 장소를 방문한다.

사용자 1과 사용자 2의 유사도는 , 에 의해

25%로 측정되었으나, , 에 의해 43%로 측정

되었다. 이는 두 사용자의 생활 패턴이 다양한 양상을

보이기 때문에 특정한 특징 궤 그래 의 일부는 유사

하며, 일부는 상이함을 의미한다. 두 사용자의 생활 패

턴이 일부분만 비슷한 경우 이와 같은 차이가 발생한다.

그러나 유사한 특징 궤 그래 가 상이한 특징 궤

그래 에 비해 많이 나타날 경우 이 척도는 합하지

않다. 최소 유사도를 갖는 특징 궤 그래 한 이 두

사용자간의 유사도를 표 할 경우, 다른 유사한 생활 패

턴들을 유사도에 반 하지 못한다. 그러므로 궤 그래

에 한 집합 비교를 해 평균을 이용한 식 (4)가 더

합하다.

사용자 3과 사용자 4의 경우 식 (1)을 활용한 경우 유

사도가 약 70%이나, 식 (6)을 활용한 경우 유사도가 약

25%로 낮게 측정된다. 이는 그림 2에서와 같이 두 사용

자의 최 공통 부분그래 의 부분이 체 빈발 부분

그래 와 동형하기 때문이다. 그림 2에서 음 으로 표

된 패턴은 70% 이상의 사용자에게서 나타나는 패턴을

의미한다. 식 (6)은 이러한 패턴들에 해 낮은 가 치

를 부여하여 각 사용자의 고유한 특징을 반 한다.

, 에서 사용자 2와 3, 사용자 2와 4 사이의

유사도가 사용자 3과 4 사이의 유사도 보다 높은 이유

는 사용자 3과 4가 다양한 생활 패턴을 갖기 때문에, 특

징 궤 그래 집합 내의 그래 들이 서로 상이하기

표 2 4명의 사용자에 한 척도별 유사도 측정 결과

사용자 1 2 3 4 사용자 1 2 3 4

1 - 25 0 0 1 - 43 0 0

2 25 - 42 44 2 43 - 48 47

3 0 42 - 72 3 0 48 - 74

4 0 44 72 - 4 0 47 74 -

사용자 1 2 3 4 사용자 1 2 3 4

1 - 25 0 0 1 - 43 0 0

2 25 - 42 44 2 43 - 48 47

3 0 42 - 23 3 0 48 - 25

4 0 44 23 - 4 0 47 25 -

때문이다. 으로 측정한 결과에서 사용자 3과 4가

사용자 2와 3에 비해 낮은 유사도를 갖는 결과는 사용

자의 고유한 패턴의 가 치가 높기 때문이다. 이는 를

조 하여 애 리 이션에 합하게 조정할 수 있다.

5. 결론 향후 연구

궤 데이터는 사용자의 생활패턴을 내포하고 있어

다양한 개인화 서비스에 활용될 수 있다. 본 논문에서는

궤 그래 집합으로 표 되는 사용자 간의 유사도를

측정하는 기법을 제안하 다. 제안하는 유사도 측정 기

법은 Hausdorff 거리에 최 공통 부부그래 알고리즘

을 용하여 설계 되었다. 한 각 사용자의 고유한 생

활 패턴을 유사도에 고려하기 하여 각 패턴의 발생

빈도를 가 치로 반 하 다. 실험을 통하여 제안하는

알고리즘의 성능을 평가하고 분석하 다.

참 고 문 헌

[ 1 ] B. George, J. M. Kang, S. Shekhar, "Spatio-

Temporal Sensor Graphs(STSG): A data model

Page 6: (A Method for Measuring Similarity between Trajectory Graph Sets) · 2013-06-17 · 부분그래프는 수퍼 그래프(super graph)가 존재하지 않 은 가장 큰 빈발 부분그래프이기

158 정보과학회논문지 : 데이타베이스 제 40 권 제 3 호(2013.6)

for the discovery of spatio-temporal patterns," Inter-

national Journal of Intelligent Data Analysis, 2009.

[ 2 ] Jihye Hong, Kisung Park, Jinseung Kim and

Young-Koo Lee, "A Method for Spatio-temporal

Graph Modeling for Personalized Social Service,"

Proc. of the KIISE Korea Computer Congress

2012, vol.39, no.1(C), pp.22-24, 2012. (in Korea)

[ 3 ] X. Yan and J. Han, "gSpan: Graph-based substruc-

ture pattern mining," ICDM, 2002.

[ 4 ] D. P. Huttenlocher, G. A. Klanderman, and W. J.

Rucklidge, "Comparing images using the Hausdor

distance," IEEE Trans. PAMI, vol.15, pp.850-863,

1993.

[ 5 ] M. Dubuisson and A. K. Jain, "A Modified Hausdorff

Distance for Object Matching," International Con-

ference on Pattern Recognition, 1994.

[ 6 ] H. Bunke and K. Shearer, "Graph Distance Metric

Based on the Maximal Common Subgraph," Pattern

Recognition Letters, vol.19, no.3-4, pp.255-259, 1998.

[ 7 ] X. Gao, B. Xiao, D. Tao and X. Li, "A survey of

graph edit distance," Pattern Analysis and Appli-

cations, 2010.

[ 8 ] Y. Zheng, X. Xie, W. Ma, "GeoLife: A Collabo-

rative Social Networking Service among User,

location and trajectory," IEEE Data Engineering

Bulletin, 2010.

홍 지 혜

2011년 경희 학교 컴퓨터공학과(학사)

2012년~ 재 경희 학교 컴퓨터공학과

석사과정. 심분야는 용량 데이터 리,

데이터 마이닝

박 기 성

2011년 경희 학교 컴퓨터공학과(학사)

2011년~ 재 경희 학교 컴퓨터공학과

석사과정. 심분야는 용량 데이터

리, 데이터 마이닝

한 용 구

2005년 경희 학교 컴퓨터공학과(학사)

2007년 경희 학교 컴퓨터공학과(석사)

2012년 경희 학교 컴퓨터공학과(박사)

2012년~ 재 경희 학교 컴퓨터공학과

박사후연구원. 심분야는 용량 데이터

리, 데이터 마이닝

이 구

1992년 한국과학기술원 과학기술 산

학과(학사). 1994년 한국과학기술원 과학

기술 산학과(석사). 2002년 한국과학

기술원 과학기술 산학과(박사). 2004

년 미국 UIUC 산학과 Post Doctoral

Research Fellow. 2006년~ 재 경희

학교 컴퓨터공학과 부교수. 심분야는 용량 데이터 리,

클라우드 컴퓨 , 데이터 마이닝