論文紹介 knowledge vault: a web-scale approach to probabilistic knowledge fusion

論文紹介：Knowledge Vault: A Web-‐Scale Approach to

Probabilis;c Knowledge Fusion

発表者：M1島岡聖世

15/07/21 知識獲得研究会論文紹介 1

背景

•  GoogleがFreebaseのサポートを終了

•  人手による知識ベースの拡大は頭打ちに

•  ウェブからのマイニングによる知識ベースの自動構築へ　　　　Knowledge Vault


Knowledge Vault

•  WEBからの情報抽出はノイズが多い •  そこで、異なる複数のソースから情報抽出を

行うことで統計的信頼性を高める – テキストパターン – DOM構造 – HTML表構造 – Freebase

Knowledge Vault


Knowledge Vault

貢献１：ノイズの多い情報抽出を既存の知識ベースと組み合わせることにより信頼性を高めた


Knowledge Vault

およそ３３％の事実はFreebaseに存在しないもの

貢献２：かつてない規模の知識ベースの構築


Knowledge Vault

貢献３：複数の異なる情報抽出を組み合わせることでそれぞれを単独で動かすよりも性能が上がることを実証


概要

Knowledge Vaultの目的


概要

４種類のシステム

２種類のシステム

４＋２＝６種類のシステムを一つに統合 15/07/21 8

概要

Knowledge Vaultが用いる学習データ

・Knowledge Vaultが抽出した１６０億のトリプルを８：２に分割してそれぞれ訓練、学習データとする

・Local Closed World AssumpBon: 　　(s,p,o)のラベルは以下のようにして定める

もし (s,p,o)がFreebaseに存在するならTrue もし (s,p,o’), o’ ≠ o がFreebaseに存在するならFalse それ以外の場合は未知として、データを除外


Extractors •  ４種類の情報抽出システム –  Text Documents (TXT) – HTML Trees (DOM) – HTML Tables (TBL) – Human Annotated pages (ANO)

•  情報抽出器の出力 – トリプル (s,p,o) – スコア

•  各述語ごとに独立した抽出機を学習する –  4469個の2値分類器をMapReduceで学習


Text Documents (TXT)

•  Distant Supervisionを用いて、２エンティティの現れる文から組成を取り出し、ラベルを付与

•  Freebaseのトリプルをシードとしてブートストラッピングを行い、述語pを表すテキストを大量に集め、それを教師データとして学習する。


HTML Trees (DOM)

•  Text Documentsと同じように学習する •  ただし、素性としてテキストではなくHTMLのDOMの経路を利用する


HTML tables (TBL)


Human Annotated pages (ANO)


Graph-‐based priors

•  Freebaseを情報抽出の事前知識として利用 •  2種類の事前知識のモデル – Path ranking algorithm (PRA) – Neural network model (MLP)

•  モデルの出力 – トリプルがTrueであるスコア


Path ranking algorithm (PRA)

•  Freebaseのグラフを予測したい述語以外の経路を通ってランダムウォークして、主語から目的語にたどり着けるかどうかにより経路を評価する – 大学に行ったかどうかを予測する経路：


Neural network model (MLP)

エンベディングの Nearest Neighbors: 15/07/21 知識獲得研究会論文紹介 17

Knowledge fusion

•  複数のモデルを組み合わせることで性能を上げる

•  入力：10次元ベクトル – ４つの情報抽出システムの抽出数と平均スコア – ２つの事前知識モデルのスコア

•  出力 – トリプルが真である確率


結果の評価

•  各情報抽出システムの性能を調べる

・DOMが抽出量の大部分を占めている・４つを組み合わせたシステムの性能が良い

AUC:ランダムに選んだ正例がランダムに選んだ負例よりも高スコアである確率 15/07/21 知識獲得研究会論文紹介 19

結果の評価

•  システムを組み合わせると性能は上がるか

上がる！ 15/07/21 20

結果の評価

•  文書数を大きくすると性能は上がるか

上がる！ 15/07/21 21

結果の評価


論文紹介 knowledge vault: a web-scale approach to probabilistic knowledge fusion

Technology