論文紹介 knowledge vault: a web-scale approach to probabilistic knowledge fusion
TRANSCRIPT
論文紹介:Knowledge Vault: A Web-‐Scale Approach to
Probabilis;c Knowledge Fusion
発表者:M1島岡聖世
15/07/21 知識獲得研究会論文紹介 1
背景
• GoogleがFreebaseのサポートを終了
• 人手による知識ベースの拡大は頭打ちに
• ウェブからのマイニングによる知識ベースの自動構築へ Knowledge Vault
15/07/21 知識獲得研究会論文紹介 2
Knowledge Vault
• WEBからの情報抽出はノイズが多い • そこで、異なる複数のソースから情報抽出を
行うことで統計的信頼性を高める – テキストパターン – DOM構造 – HTML表構造 – Freebase
Knowledge Vault
15/07/21 知識獲得研究会論文紹介 3
Knowledge Vault
貢献1:ノイズの多い情報抽出を既存の知識ベースと 組み合わせることにより信頼性を高めた
15/07/21 知識獲得研究会論文紹介 4
Knowledge Vault
およそ33%の事実はFreebaseに存在しないもの
貢献2:かつてない規模の知識ベースの構築
15/07/21 知識獲得研究会論文紹介 5
Knowledge Vault
貢献3:複数の異なる情報抽出を組み合わせることで それぞれを単独で動かすよりも性能が上がることを実証
15/07/21 知識獲得研究会論文紹介 6
概要
Knowledge Vaultの目的
15/07/21 知識獲得研究会論文紹介 7
概要
4種類のシステム
2種類のシステム
4+2=6種類のシステムを一つに統合 15/07/21 8
概要
Knowledge Vaultが用いる学習データ
・Knowledge Vaultが抽出した160億のトリプルを 8:2に分割してそれぞれ訓練、学習データとする
・Local Closed World AssumpBon: (s,p,o)のラベルは以下のようにして定める
もし (s,p,o)がFreebaseに存在するならTrue もし (s,p,o’), o’ ≠ o がFreebaseに存在するならFalse それ以外の場合は未知として、データを除外
15/07/21 知識獲得研究会論文紹介 9
Extractors • 4種類の情報抽出システム – Text Documents (TXT) – HTML Trees (DOM) – HTML Tables (TBL) – Human Annotated pages (ANO)
• 情報抽出器の出力 – トリプル (s,p,o) – スコア
• 各述語ごとに独立した抽出機を学習する – 4469個の2値分類器をMapReduceで学習
15/07/21 知識獲得研究会論文紹介 10
Text Documents (TXT)
• Distant Supervisionを用いて、2エンティティの現れる文から組成を取り出し、ラベルを付与
• Freebaseのトリプルをシードとしてブートストラッピングを行い、述語pを表すテキストを大量に集め、それを教師データとして学習する。
15/07/21 知識獲得研究会論文紹介 11
HTML Trees (DOM)
• Text Documentsと同じように学習する • ただし、素性としてテキストではなくHTMLのDOMの経路を利用する
15/07/21 知識獲得研究会論文紹介 12
HTML tables (TBL)
15/07/21 知識獲得研究会論文紹介 13
Human Annotated pages (ANO)
15/07/21 知識獲得研究会論文紹介 14
Graph-‐based priors
• Freebaseを情報抽出の事前知識として利用 • 2種類の事前知識のモデル – Path ranking algorithm (PRA) – Neural network model (MLP)
• モデルの出力 – トリプルがTrueであるスコア
15/07/21 知識獲得研究会論文紹介 15
Path ranking algorithm (PRA)
• Freebaseのグラフを予測したい述語以外の経路を通ってランダムウォークして、主語から目的語にたどり着けるかどうかにより経路を評価する – 大学に行ったかどうかを予測する経路:
15/07/21 知識獲得研究会論文紹介 16
Neural network model (MLP)
エンベディングの Nearest Neighbors: 15/07/21 知識獲得研究会論文紹介 17
Knowledge fusion
• 複数のモデルを組み合わせることで性能を上げる
• 入力:10次元ベクトル – 4つの情報抽出システムの抽出数と平均スコア – 2つの事前知識モデルのスコア
• 出力 – トリプルが真である確率
15/07/21 知識獲得研究会論文紹介 18
結果の評価
• 各情報抽出システムの性能を調べる
・DOMが抽出量の大部分を占めている ・4つを組み合わせたシステムの性能が良い
AUC:ランダムに選んだ正例がランダムに選んだ負例よりも高スコアである確率 15/07/21 知識獲得研究会論文紹介 19
結果の評価
• システムを組み合わせると性能は上がるか
上がる! 15/07/21 20
結果の評価
• 文書数を大きくすると性能は上がるか
上がる! 15/07/21 21
結果の評価
15/07/21 知識獲得研究会論文紹介 22
結果の評価
15/07/21 知識獲得研究会論文紹介 23
結果の評価
15/07/21 知識獲得研究会論文紹介 24