文字列カーネルを用いた旅行時間予測

| 2009/06/17 | JSAI 09

Tokyo Research Laboratory

© Copyright IBM Corporation 2009

文字列カーネルを用いた旅行時間予測IBM 東京基礎研究所井手剛、加藤整

| 2009/06 | JSAI 09 /18



問題設定 :任意の経路に沿った所要時間（旅行時間）を予測したい「過去の交通履歴データが与えられた時、任意の経路 x に対する旅行時間 y の確率分布を求めよ」

交通履歴データ D は ( 経路 , 旅行時間 ) の N 個の集まりとして与えられる

• D のすべての経路は同一の始点・終点を共有すると仮定

origin

destination

(x (i ), y (i ))

(x (j ), y (j ))

x

入力経路旅行時間

• 「リンク」隣接する交差点の間の道• 「経路」つながったリンクの系列

| 2009/06 | JSAI 09 /18



発表の内容問題設定問題の背景定式化数値計算実験結果

| 2009/06 | JSAI 09 /18



背景 (1/2): 既存の時系列解析的手法は、交通量の乏しいリンクには使いにくい定番的手法 : 特定のリンクに対する時系列モデリング

特定のリンクに着目し、自己回帰モデルを立てる時間の関数として交通量を予測

既存手法の限界 : 低流量リンクに有用でない 1 時間に数台、といったような道だと、精度のよい自己回帰モデルを作れないしかし一般に、ある経路にはそういうマイナーな道も含まれる（裏道など）

date

trave

l tim

e [s

] Traffic history on a particular link

| 2009/06 | JSAI 09 /18



背景 (2/2): トラジェクトリからの知識発見は盛り上がりつつある研究テーマハリケーンの通過経路の解析

トラジェクトリのクラスタリングや、仲間外れの検出店舗内お買い物経路の解析

顧客の購買行動を予測、分類旅行時間予測（← この発表）

各経路に対して旅行時間を予測する

“An exploratory look at supermarket shopping paths”, Jeffrey S. Larson, et al. , 2005.

“Trajectory Outlier Detection: A Partition-and-Detect Framework”, Jae-Gil Lee, Jiawei Han, Xiaolei Li, ICDE 2008.

| 2009/06 | JSAI 09 /18



要するに回帰の問題を解きたい。ただし、入力はベクトルでなくて、経路。入力 = 経路 (or トラジェクトリ )

出力 = 旅行時間

• トラジェクトリ同士の類似度だけで回帰式を書き下す• 類似度のために文字列カーネルを使う• 正規過程回帰により確率的予測を行う

解決策旅行

時間 [s]

経路

?

？謎？

| 2009/06 | JSAI 09 /18



定式化 (0/4): カーネル回帰ではサンプル同士の類似度行列だけで回帰式を書き下せる普通の回帰モデルは、入力としてデータのベクトルを必要とする

入力 = データ行列

カーネル回帰は類似度行列（カーネル行列）さえあればよい入力 = カーネル行列

• 類似度だけが必要で、明示的に入力ベクトルを与える必要はない

サンプル数

サンプル数

サンプル数

入力空間の次元

| 2009/06 | JSAI 09 /18



定式化 (1/4):経路同士の類似度を文字列カーネルで計算するそれぞれの経路は、シンボル列として記述できる

たとえば各リンクの ID 番号そのものを「シンボル」とみなせる• 例 : 3 番目のサンプルはこんな感じだったり

ストリングカーネルは、文字列同士の自然な類似度尺度 p-spectrum kernel [Leslie 02] というものを使う

p 個の連続したシンボルからなる部分系列の集合経路 x(i) における部分文字列 u の出現回数

リンク ID

| 2009/06 | JSAI 09 /18



定式化 (2/4):p- スペクトラムカーネルの直感的説明 – “分割して比べる”

= + + + + + +

= + + + ++ +

Step 1: 各経路を部分系列に分解 Step 2: 共起の回数を数える

例 : p = 2, Σ = { 東 , 西 , 南 , 北 } もし u = = ( 西 , 北 ) なら Nu(blue) = 2 および Nu(red) = 3.

+

| 2009/06 | JSAI 09 /18



仮定 1: 観測ノイズは正規分布

仮定 2: 「潜在変数」の分布も正規分布

• 「 x が近ければ、潜在変数の値も似ているはず」- つまり、「回帰曲線はある程度滑らかなはず」

定式化 (3/4): 回帰モデルとしては正規過程回帰を使う。このモデルの二つの仮定

潜在変数

観測値

: 経路 i と j の間のカーネル関数

| 2009/06 | JSAI 09 /18



予測分布もまた正規分布に（詳細略）

定式化 (4/4): 回帰モデルとしては正規過程回帰を使う。予測分布は解析的に求まる

正規過程回帰の予測分布平均 m(x)

分散 s2(x)

入力経路旅行時間

（上位パラメター）

| 2009/06 | JSAI 09 /18



は周辺化尤度を最大化することでデータから決められる対数周辺化尤度（対数エビデンス）の定義

この最大化問題はに対する固定点方程式に帰着できる勾配法を使わなくても済む

要するにを順番に解く

• ただし、各反復ステップで Cholesky 分解が必要- より効率のよい計算手法の開発は将来の課題

数値計算 (1/2):上位パラメター（ hyper-parameters ）もデータから決められる

| 2009/06 | JSAI 09 /18



数値計算 (2/2):計算手順の要約

| 2009/06 | JSAI 09 /18



実験 (1/4): 京都市街の地図の上で人工的に交通流を発生させる IBM Mega Traffic Simulator を使う

エージェントベースのシミュレーター複雑なドライバーの挙動をモデリング可能

データ生成の手順所与の始点・終点の間で N0 本の最短経路を求めるポアソン分布に従うように、始点から車を入れる各時刻において、法定速度と車両間隔の関数として車の速度を決める

• 交差点での待ち時間は入力パラメターとする終点に到着したら、各リンクで費やした旅行時間を足し上げて総旅行時間とする

| 2009/06 | JSAI 09 /18



実験 (2/4): 3 つのカーネル関数を比較した「 ID カーネル」

p- スペクトラムカーネル。ただしアルファベットは ID そのものの集合

• 部分系列の長さ p は入力パラメター「方向カーネル」

p- スペクトラムカーネル。ただしアルファベットはリンクの方向で、 { 東 , 西 , 南 , 北 } 。• 地図の緯度経度の情報から方向は求められる

「面積カーネル」 2 つの経路の間のはさむ面積

普通の意味での距離（ユークリッドなど）の対応物とみなせる

| 2009/06 | JSAI 09 /18



実験 (3/4): 予測値と実測値の間の相関係数を評価尺度に採用評価尺度 r : 予測値と実測値の間の相関係数

N = 100 経路で訓練し、残りでテスト全部で N0 = 132 経路を生成

変えてみるパラメター交差点での待ち時間部分系列の長さ

| 2009/06 | JSAI 09 /18



実験 (4/4): ID 文字列カーネルが最もよい予測精度を示した異なる部分系列長 p の比較（ ID と方向カーネル）

の時、 p = 2 が最もよい結果• 主たる寄与は各経路単独のもの• 交差点での挙動を考えに入れることで予測精度が増す

異なるカーネルを比較 ID が最もよい : r が高く、分散が小さい面積カーネルはダメ

• トラジェクトリの形状はむしろ積極的に無視すべき直感的に妥当な距離尺度がまるで役に立たないという面白い例

ID kernel

| 2009/06 | JSAI 09 /18



まとめ旅行時間予測の問題を、トラジェクトリマイニングの問題として（初めて）定式化した次の二つの手法を新たに導入した

交通シミュレーションのデータを用いた実験で、十分な予測能力が確かめられた

トラジェクトリ同士の類似度として文字列カーネルを用いること旅行時間予測のために正規過程回帰を用いること

| 2009/06 | JSAI 09



お疲れ様です !

| 2009/06 | JSAI 09



One-page summary of Gaussian process regression (GPR)

Predictive distribution can be derived analytically

See the paper for details

Assumption 1: Gaussian observation noise

Assumption 2: Gaussian prior

• “Curve should be smooth”

Latent variable

Observation

| 2009/06 | JSAI 09 /18



Intuitions behind p-spectrum kernel – “split-and-compare”

= + + + + + +

= + + + ++ +

Step 1: Split sequences into subsequences Step 2: Sum up number of co-occurrences

Example: p = 2 case, alphabet = link ID k2(red, blue) = 2*beta Note that turning patterns at intersections matter when p >2

文字列カーネルを用いた 旅行時間予測

Documents

文字列カーネルを用いた旅行時間予測