テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較

テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較

蔵川圭国立情報学研究所

馬場康維統計数理研究所

情報処理学会第 78 回全国大会 , 2016.03.10-12, 慶應義塾大学矢上キャンパス（横浜市港北区日吉）

背景

• データベースの一つとして書誌データベースを想定する。それに関連する代表的な問題の一つに、著者名曖昧性解消がある。

2

小林誠 , 渡部欣忍 , 松下隆 ", 大腿骨骨折を mipo で治療する場合の問題点 , 骨折 , (2009)

小林誠 , マーケティング概念のシステム論的再構成 : マーケティング・コミュニケーション・ミックスを例として , 社会環境研究 , (2003)

小林誠 ,Chiral Symmetry, 素粒子論研究 , (1970)

「小林誠」「小林誠」

著者名曖昧性解消手法の分類

3

[Ferreira, et.al., 2012]

データベースにおける名前曖昧性解消は 1950 年代から検討 * される問題であり、すでにいくつもの解法が提案されているがいまだ十分な解決をみていない

* NEWCOMBE, H. B., KENNEDY, J. M., AXFORD, S. J., & JAMES, A. P. (1959). Automatic linkage of vital records. Science (New York, N.Y.), 130, 954–959. doi:http://dx.doi.org/10.1126%252Fscience.130.3381.954

Ferreira, A. A., Gonçalves, M. A., & Laender, A. H. F. (2012). A brief survey of automatic methods for author name disambiguation. ACM SIGMOD Record, 41(2), 15. doi:10.1145/2350036.2350040

目的

• 本研究では、近年様々な情報分析や予測においてとりあげられるテンソル分解を用いて、著者名の曖昧性解消を試みる

• 他の手法との比較を行う

4

テンソルの数学的定義2 階のテンソル

双線形性をもつ 2 個のベクトル変数の関数を 2 階のテンソルという

内積は、 2 階のテンソルとなる

5See: 田代嘉宏 . (1981). テンソル解析 ( 基礎数学選書 23). 裳華房 .

テンソルの数学的定義p 階のテンソル

6

p 個の任意のベクトル　　　　　　　　　　に対して、実数値

を対応させる　　が存在して、それぞれのベクトル変数について線型性

が成り立つ時、関数　　を p 階のテンソルといい、 p をそのテンソルの階数という

を 2 階のテンソル　　の基底　　　に関する成分という

直交基底　　　　　　　　　　　　をとるとき、

テンソルの成分

とおくと、

を知れば、　　　　　　　がわかる

7

3 階のテンソルの成分も同様に定義できる

Tensor (a third-order tensor)

8

Element-wise representation

See: Kolda, T. G., & Bader, B. W. (2009). Tensor Decompositions and Applications. SIAM Review, 51(3), 455–500. doi:10.1137/07070111X

Mode-n fibers of a third-order tensor

9

Mode-1 (column) fibers Mode-2 (row) fibers Mode-3 (tube) fibers

Slices of a third-order tensor

10

Horizontal slices Lateral slices Frontal slices

Rank-one tensor

11

Rank-one tensor is written as the outer product of N vectors

Element-wise representation,

n-mode product

12

Element-wise representation

CP decomposition• CP(CANDECOMP: Canonical decomposition (by Carroll and Chang, 1970) / PARAFAC:

Parallel factors (by Harshman, 1970)) (by Kiers, 2000)• Hitchcock (1927) already proposed the idea of the polyadic form of a tensor as the sum of a

finite number of rank-one tensors.

13

[Kolda and Bader, 2009] の表記による

Tucker decomposition

• Proposed by Tucker (1966)

14

[Kolda and Bader, 2009] の表記による

のとき、 Tucker2 decomposition という

のとき、 Tucker1 decomposition といい

Core tensor

Factor matrices as the principal components in each mode

テンソル分解のためのツール• In Python

– scikit-tensor 0.1• CP, Tucker, INDSCAL, DEDICOM, RESCAL, tensor operations, etc.• 2013年にリリース• Maximilian Nickelによる• https://pypi.python.org/pypi/scikit-tensor

– pytensor• MatlabのTensor Toolboxをベース• Computational biology への応用研究のために作成• Yoo, J. O., Ramanathan, A., & Langmead, C. (2010). PyTensor: A Python based Tensor Library. Carnegie

Melon University, Computer Science Department. • https://code.google.com/p/pytensor/

• In Matlab– MATLAB Tensor Toolbox Version 2.6

• CP, Tucker, Tensor operations, etc.• 2005年の初期リリース以来改定を続けている• Tarama G. Koldaら , Sandia National Labs による• http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html

– Tensorlab• CP, Tucker, Block term decomposition (CP+Tucker), tensor operations, utilities, etc.• 2013年に初期リリース• Laurent Sorber, Marc Van Barel and Lieven De Lathauwer. Tensorlab v2.0, Available online, January 2014• http://www.tensorlab.net 15

テンソル分解を利用した著者クラスタ化の方法

• アプローチの考え方– CPやTuckerによるテンソル分解は、テンソル空間上に表現された特徴量の潜在特

徴量を抽出できる– 書誌の特徴量をテンソル空間上に表現し、抽出される潜在特徴量を著者の特徴量と

みなしてみる– 逆に、抽出される潜在特徴量が著者の特徴量となるように、書誌の特徴量を表現す

る– データを適用して著者の特徴量を抽出し、この特徴量に対しクラスタリングを行う

• アプローチ– 著者特徴ベクトルの導出

• 書誌とその著者名をキーとしたレコード（ここでは、著者フラグメントと呼ぶ）セットに対し、3階のテンソルのスライス上に、属性ごとに同一著者であれば成分量が大きくなる類似度行列をいくつか構成する

• テンソル分解を行い、著者フラグメントの潜在特徴ベクトルを抽出する– たとえば、CP, Tucker, INDSCAL, DEDICOM, RESCAL

– 著者クラスタリング• 著者フラグメントの潜在特徴ベクトルを用いて、著者クラスタ化する

– たとえば、k-means, Agglomerative clustering, DBSCAN, Affinity propagation, Spectral clustering

16

AFID のクラスタ化

CiNii 書誌を利用したデータセット

17

CID,AFID,JNAME,ENAME,YNAME,JAFF,EAFF,YEAR,CO-AUTH,TITLE,JRNL16,B-10002917029-1-CJP, 松本健一 ,:NA, マツモトケンイチ , 国立遺伝研・進化 ,:NA,1996,

" 松本健一 ,山本博士 ,白吉安昭 ,竹田直樹 ,相沢慎一 ,池村淑道 ,中辻憲夫 ",遺伝子ターゲティングによる細胞外マトリックス・テネイシン x の機能解析 , 日本分子生物学会年会プログラム・講演要

旨集20,B-10003797238-1-CJP, 松本健一 ,:NA, マツモトケンイチ , 日新製鋼 (株 )呉製鉄所圧延部 ,Wakamatsu Works Hitachi Metals Ltd.,1997,

" 松本健一 ,村重進 ,石川淳 ,森野泰司 ,早川一 , 空野博明 ",熱間薄板圧延仕上げ前段ミルロールにおける表面損傷の超音波法による評価技術の開発 ,材料とプロセス : 日本鉄鋼協会

講演論文集 = Current Advances In Materials And Processes : Report Of The Isij Meeting

20,B-10003797238-1-JIC, 松本健一 ,Matsumoto Ken'ichi, マツモトケンイチ , 日新製鋼呉製鉄所 ,Nisshin Steel Co. Ltd. Kure Work.,1997,

" 松本健一 ,村重進 ,石川淳 ,森野泰司 ,早川一 , 空野博明 ",熱間薄板圧延仕上げ前段ミルロールにおける表面損傷の超音波法による評価技術の開発 ,材料とプロセス : 日本鉄鋼協会

講演論文集 = Current Advances In Materials And Processes : Report Of The Isij Meeting 3. 比較

AFID:= 著者フラグメント IDJNAME:= 著者名YEAR:= 出版年CO-AUTH:=共著者名TITLE:= 論文題目JRNL:=雑誌名

CID:= 同一著者のクラスター ID

1. 著者特徴量抽出2. クラスタリグ

正解

判別解

CO-AUTHTITLE

JRNL

YEAR

テンソルスライス上の著者フラグメント類似度行列

18

AFID

AFID 類似度行列Similarity matrix

JNAME

類似度行列の要素• 著者フラグメント ID a, b を比較する• 属性ごとの類似性尺度 (similarity measure) の定義

– JNAME• 著者名の一致• 1: 一致のとき、 0: 不一致のとき

– YEAR• 出版年の一致• 1: 一致のとき、 0: 不一致のとき

– CO-AUTH• 共著者名 (JNAME を除く ) の一致数

– TITLE• 形態素 ( 名詞、未知語 ) の一致数

– JRNL• 形態素 ( 名詞、未知語 ) の一致数

19

CP による著者特徴ベクトルの抽出

20

Each rank-one-factor represents a community.

Latent features for author fragment

制約付き Tucker 2 である RESCAL* による著者特徴ベクトルの抽出

21

and are calculated by solving the following regularized minimization problem

Rank-R factorization for tensor

Tensor frontal slice-k

Latent features for author fragment

* Nickel, M., Tresp, V., & Kriegel, H.-P. (2011). A Three-Way Model for Collective Learning on Multi-Relational Data. 28th International Conference on Machine Learning, 809–816.

実験• 著者クラスター化の方法の選択

– テンソル分解を用いた方法• テンソル分解アルゴリズムの選択

– CP ALS (alternating least squares)– RESCAL ALS

• クラスタリングアルゴリズムの選択– k-means

– 潜在変数を持つ別のモデルを用いた方法• LDA による著者クラスタ化

• 著者クラスター化性能指標– Purity および Inverse-purity指標

• 書誌データセット– 著者クラスターのサイズが一般的な分布となるデータセット– 著者クラスターのサイズが偏って、 2 クラスターだけ大きいデータセット

• その他の実験条件– データセットに応じて、著者クラスター数は既知とする

22

テンソル分解には、 scikit-tensor, k-means にはscikit-learn, LDA にはMallet の実装を用いた

比較対象とする潜在変数を持つモデル

• LDA による著者クラスター化– 著者クラスターと著者フラグメントの関係を、 LDA のトピッ

クとドキュメントの関係に割り当てる• 著者クラスター＝ LDA トピック• 著者フラグメント＝ LDAドキュメント

– LDA のドキュメントは著者フラグメントの属性で構成する• JNAME の著者名• YEAR の出版年• CO-AUTH の共著者名• TITLE の形態素 ( 名詞および未知語 )• JRNL の形態素 ( 名詞および未知語 )

– 著者フラグメントごとに算出されるトピック分布のうち最頻のトピックを著者クラスターと判定する

23

著者クラスター化の性能判定• Purity および Inverse-Purity で測る

– アイテムが一つのクラスターに属す場合の、クラスタリング評価指標

– Web people search task I (2007) で使用された

24

Precision measure

Recall measure

2 つのデータセットの特徴

25

1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 106 1130

20

40

60

80

100

120

140

160

180

ラベル付きクラスター ID

要素数

小林誠データセット (Koba-ci dataset) :レコード数 = 1121, クラスター数 =119 119人の同姓同名が含まれている

松本健一データセット (Matu-ci dataset):レコード数 =1568, クラスター数 =48 48人の同姓同名が含まれている

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 460

100

200

300

400

500

600

700

800

900

ラベル付きクラスター ID

要素数

実験結果 (10-fold CV)

26

Koba-ci dataset

因子数と性能および実行時間の関係(CP ALS and k-means)

27

因子数と性能および実行時間の関係(RESCAL ALS and k-means)

Koba-ci dataset

28

結果に対する考察• テンソル分解方法の違いによる比較

– RESCAL ALS は、概して CP ALS より良い性能を示し、実行時間では 103の差があった

• テンソル分解および k-means を用いた方法と LDA を用いた方法との比較– テンソル分解の因子数をうまく選べば、 LDA を用いた方法

と同程度の性能を示した• 異なる分布を持つデータセットにおける比較

– 極端に大きいサイズのクラスターをもつデータセットでは、Purity が高くなり Inverse-purity が低くなる傾向があるが、適応手法の違いが性能に影響を与えることが見て取れる

29

結論と展望

• 潜在変数を持つモデルは、著者を潜在変数に結びつけることで著者同一性判定に有効である

• テンソルを用いた方法は多次元データをテンソル空間上に素直に表現することが可能である

• 著者同一性判定の性能向上のため、今後の展開として、多次元データのテンソル空間上への新たな表現方法の提案、新たな演算方法の提案が考えられる

30

テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較

Engineering