テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
TRANSCRIPT
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
蔵川圭国立情報学研究所
馬場康維統計数理研究所
情報処理学会第 78 回全国大会 , 2016.03.10-12, 慶應義塾大学 矢上キャンパス(横浜市港北区日吉)
背景
• データベースの一つとして書誌データベースを想定する。それに関連する代表的な問題の一つに、著者名曖昧性解消がある。
2
小林 誠 , 渡部 欣忍 , 松下 隆 ", 大腿骨骨折を mipo で治療する場合の問題点 , 骨折 , (2009)
小林 誠 , マーケティング概念のシステム論的再構成 : マーケティング・コミュニケーション・ミックスを例として , 社会環境研究 , (2003)
小林 誠 ,Chiral Symmetry, 素粒子論研究 , (1970)
「小林 誠」 「小林 誠」
著者名曖昧性解消手法の分類
3
[Ferreira, et.al., 2012]
データベースにおける名前曖昧性解消は 1950 年代から検討 * される問題であり、すでにいくつもの解法が提案されているがいまだ十分な解決をみていない
* NEWCOMBE, H. B., KENNEDY, J. M., AXFORD, S. J., & JAMES, A. P. (1959). Automatic linkage of vital records. Science (New York, N.Y.), 130, 954–959. doi:http://dx.doi.org/10.1126%252Fscience.130.3381.954
Ferreira, A. A., Gonçalves, M. A., & Laender, A. H. F. (2012). A brief survey of automatic methods for author name disambiguation. ACM SIGMOD Record, 41(2), 15. doi:10.1145/2350036.2350040
目的
• 本研究では、近年様々な情報分析や予測においてとりあげられるテンソル分解を用いて、著者名の曖昧性解消を試みる
• 他の手法との比較を行う
4
テンソルの数学的定義2 階のテンソル
双線形性をもつ 2 個のベクトル変数の関数 を 2 階のテンソルという
内積は、 2 階のテンソルとなる
5See: 田代嘉宏 . (1981). テンソル解析 ( 基礎数学選書 23). 裳華房 .
テンソルの数学的定義p 階のテンソル
6
p 個の任意のベクトル に対して、実数値
を対応させる が存在して、それぞれのベクトル変数について線型性
が成り立つ時、関数 を p 階のテンソルといい、 p をそのテンソルの階数という
を 2 階のテンソル の基底 に関する成分という
直交基底 をとるとき、
テンソルの成分
とおくと、
を知れば、 がわかる
7
3 階のテンソルの成分も同様に定義できる
Tensor (a third-order tensor)
8
Element-wise representation
See: Kolda, T. G., & Bader, B. W. (2009). Tensor Decompositions and Applications. SIAM Review, 51(3), 455–500. doi:10.1137/07070111X
Mode-n fibers of a third-order tensor
9
Mode-1 (column) fibers Mode-2 (row) fibers Mode-3 (tube) fibers
Slices of a third-order tensor
10
Horizontal slices Lateral slices Frontal slices
Rank-one tensor
11
Rank-one tensor is written as the outer product of N vectors
Element-wise representation,
n-mode product
12
Element-wise representation
CP decomposition• CP(CANDECOMP: Canonical decomposition (by Carroll and Chang, 1970) / PARAFAC:
Parallel factors (by Harshman, 1970)) (by Kiers, 2000)• Hitchcock (1927) already proposed the idea of the polyadic form of a tensor as the sum of a
finite number of rank-one tensors.
13
[Kolda and Bader, 2009] の表記による
Tucker decomposition
• Proposed by Tucker (1966)
14
[Kolda and Bader, 2009] の表記による
のとき、 Tucker2 decomposition という
のとき、 Tucker1 decomposition といい
Core tensor
Factor matrices as the principal components in each mode
テンソル分解のためのツール• In Python
– scikit-tensor 0.1• CP, Tucker, INDSCAL, DEDICOM, RESCAL, tensor operations, etc.• 2013年にリリース• Maximilian Nickelによる• https://pypi.python.org/pypi/scikit-tensor
– pytensor• MatlabのTensor Toolboxをベース• Computational biology への応用研究のために作成• Yoo, J. O., Ramanathan, A., & Langmead, C. (2010). PyTensor: A Python based Tensor Library. Carnegie
Melon University, Computer Science Department. • https://code.google.com/p/pytensor/
• In Matlab– MATLAB Tensor Toolbox Version 2.6
• CP, Tucker, Tensor operations, etc.• 2005年の初期リリース以来改定を続けている• Tarama G. Koldaら , Sandia National Labs による• http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html
– Tensorlab• CP, Tucker, Block term decomposition (CP+Tucker), tensor operations, utilities, etc.• 2013年に初期リリース• Laurent Sorber, Marc Van Barel and Lieven De Lathauwer. Tensorlab v2.0, Available online, January 2014• http://www.tensorlab.net 15
テンソル分解を利用した著者クラスタ化の方法
• アプローチの考え方– CPやTuckerによるテンソル分解は、テンソル空間上に表現された特徴量の潜在特
徴量を抽出できる– 書誌の特徴量をテンソル空間上に表現し、抽出される潜在特徴量を著者の特徴量と
みなしてみる– 逆に、抽出される潜在特徴量が著者の特徴量となるように、書誌の特徴量を表現す
る– データを適用して著者の特徴量を抽出し、この特徴量に対しクラスタリングを行う
• アプローチ– 著者特徴ベクトルの導出
• 書誌とその著者名をキーとしたレコード(ここでは、著者フラグメントと呼ぶ)セットに対し、3階のテンソルのスライス上に、属性ごとに同一著者であれば成分量が大きくなる類似度行列をいくつか構成する
• テンソル分解を行い、著者フラグメントの潜在特徴ベクトルを抽出する– たとえば、CP, Tucker, INDSCAL, DEDICOM, RESCAL
– 著者クラスタリング• 著者フラグメントの潜在特徴ベクトルを用いて、著者クラスタ化する
– たとえば、k-means, Agglomerative clustering, DBSCAN, Affinity propagation, Spectral clustering
16
AFID のクラスタ化
CiNii 書誌を利用したデータセット
17
CID,AFID,JNAME,ENAME,YNAME,JAFF,EAFF,YEAR,CO-AUTH,TITLE,JRNL16,B-10002917029-1-CJP, 松本健一 ,:NA, マツモト ケンイチ , 国立遺伝研・進化 ,:NA,1996,
" 松本 健一 ,山本 博士 ,白吉 安昭 ,竹田 直樹 ,相沢 慎一 ,池村 淑道 ,中辻 憲夫 ",遺伝子ターゲティングによる細胞外マトリックス・テネイシン x の機能解析 , 日本分子生物学会年会プログラム・講演要
旨集20,B-10003797238-1-CJP, 松本健一 ,:NA, マツモト ケンイチ , 日新製鋼 (株 )呉製鉄所 圧延部 ,Wakamatsu Works Hitachi Metals Ltd.,1997,
" 松本 健一 ,村重 進 ,石川 淳 ,森野 泰司 ,早川 一 , 空野 博明 ",熱間薄板圧延仕上げ前段ミルロールにおける表面損傷の超音波法による評価技術の開発 ,材料とプロセス : 日本鉄鋼協会
講演論文集 = Current Advances In Materials And Processes : Report Of The Isij Meeting
20,B-10003797238-1-JIC, 松本健一 ,Matsumoto Ken'ichi, マツモト ケンイチ , 日新製鋼 呉製鉄所 ,Nisshin Steel Co. Ltd. Kure Work.,1997,
" 松本 健一 ,村重 進 ,石川 淳 ,森野 泰司 ,早川 一 , 空野 博明 ",熱間薄板圧延仕上げ前段ミルロールにおける表面損傷の超音波法による評価技術の開発 ,材料とプロセス : 日本鉄鋼協会
講演論文集 = Current Advances In Materials And Processes : Report Of The Isij Meeting 3. 比較
AFID:= 著者フラグメント IDJNAME:= 著者名YEAR:= 出版年CO-AUTH:=共著者名TITLE:= 論文題目JRNL:=雑誌名
CID:= 同一著者のクラスター ID
1. 著者特徴量抽出2. クラスタリグ
正解
判別解
CO-AUTHTITLE
JRNL
YEAR
テンソルスライス上の著者フラグメント類似度行列
18
AFID
AFID 類似度行列Similarity matrix
JNAME
類似度行列の要素• 著者フラグメント ID a, b を比較する• 属性ごとの類似性尺度 (similarity measure) の定義
– JNAME• 著者名の一致• 1: 一致のとき、 0: 不一致のとき
– YEAR• 出版年の一致• 1: 一致のとき、 0: 不一致のとき
– CO-AUTH• 共著者名 (JNAME を除く ) の一致数
– TITLE• 形態素 ( 名詞、未知語 ) の一致数
– JRNL• 形態素 ( 名詞、未知語 ) の一致数
19
CP による著者特徴ベクトルの抽出
20
Each rank-one-factor represents a community.
Latent features for author fragment
制約付き Tucker 2 である RESCAL* による著者特徴ベクトルの抽出
21
and are calculated by solving the following regularized minimization problem
Rank-R factorization for tensor
Tensor frontal slice-k
Latent features for author fragment
* Nickel, M., Tresp, V., & Kriegel, H.-P. (2011). A Three-Way Model for Collective Learning on Multi-Relational Data. 28th International Conference on Machine Learning, 809–816.
実験• 著者クラスター化の方法の選択
– テンソル分解を用いた方法• テンソル分解アルゴリズムの選択
– CP ALS (alternating least squares)– RESCAL ALS
• クラスタリングアルゴリズムの選択– k-means
– 潜在変数を持つ別のモデルを用いた方法• LDA による著者クラスタ化
• 著者クラスター化性能指標– Purity および Inverse-purity指標
• 書誌データセット– 著者クラスターのサイズが一般的な分布となるデータセット– 著者クラスターのサイズが偏って、 2 クラスターだけ大きいデータセット
• その他の実験条件– データセットに応じて、著者クラスター数は既知とする
22
テンソル分解には、 scikit-tensor, k-means にはscikit-learn, LDA にはMallet の実装を用いた
比較対象とする潜在変数を持つモデル
• LDA による著者クラスター化– 著者クラスターと著者フラグメントの関係を、 LDA のトピッ
クとドキュメントの関係に割り当てる• 著者クラスター= LDA トピック• 著者フラグメント= LDAドキュメント
– LDA のドキュメントは著者フラグメントの属性で構成する• JNAME の著者名• YEAR の出版年• CO-AUTH の共著者名• TITLE の形態素 ( 名詞および未知語 )• JRNL の形態素 ( 名詞および未知語 )
– 著者フラグメントごとに算出されるトピック分布のうち最頻のトピックを著者クラスターと判定する
23
著者クラスター化の性能判定• Purity および Inverse-Purity で測る
– アイテムが一つのクラスターに属す場合の、クラスタリング評価指標
– Web people search task I (2007) で使用された
24
Precision measure
Recall measure
2 つのデータセットの特徴
25
1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 106 1130
20
40
60
80
100
120
140
160
180
ラベル付きクラスター ID
要素数
小林誠データセット (Koba-ci dataset) :レコード数 = 1121, クラスター数 =119 119人の同姓同名が含まれている
松本健一データセット (Matu-ci dataset):レコード数 =1568, クラスター数 =48 48人の同姓同名が含まれている
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 460
100
200
300
400
500
600
700
800
900
ラベル付きクラスター ID
要素数
実験結果 (10-fold CV)
26
Koba-ci dataset
因子数と性能および実行時間の関係(CP ALS and k-means)
27
因子数と性能および実行時間の関係(RESCAL ALS and k-means)
Koba-ci dataset
28
結果に対する考察• テンソル分解方法の違いによる比較
– RESCAL ALS は、概して CP ALS より良い性能を示し、実行時間では 103の差があった
• テンソル分解および k-means を用いた方法と LDA を用いた方法との比較– テンソル分解の因子数をうまく選べば、 LDA を用いた方法
と同程度の性能を示した• 異なる分布を持つデータセットにおける比較
– 極端に大きいサイズのクラスターをもつデータセットでは、Purity が高くなり Inverse-purity が低くなる傾向があるが、適応手法の違いが性能に影響を与えることが見て取れる
29
結論と展望
• 潜在変数を持つモデルは、著者を潜在変数に結びつけることで著者同一性判定に有効である
• テンソルを用いた方法は多次元データをテンソル空間上に素直に表現することが可能である
• 著者同一性判定の性能向上のため、今後の展開として、多次元データのテンソル空間上への新たな表現方法の提案、新たな演算方法の提案が考えられる
30