tenenbaum review-20140704-1600

62
論文紹介: How to Grow a Mind 高橋達二 東京電機大学理工学部 2014-Jul-04-Fri AGI 輪読会 高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 1 / 62

Upload: tatsuji-takahashi

Post on 04-Jul-2015

641 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tenenbaum review-20140704-1600

論文紹介: How to Grow a Mind

高橋達二

東京電機大学理工学部

2014-Jul-04-Fri AGI輪読会

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 1 / 62

Page 2: Tenenbaum review-20140704-1600

Outline

1 紹介論文2 Joshua B. Tenenbaum について3 要約と主要な三つの問題4 チャレンジ: どうやって一だけ聞いて十を知るか?5 問 1. 抽象的知識の役割6 問 2. 抽象的知識の形式7 問 3. 抽象的知識の起源8 オープンクエスチョンズ9 結論

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 2 / 62

Page 3: Tenenbaum review-20140704-1600

紹介論文

Topic

1 紹介論文2 Joshua B. Tenenbaum について3 要約と主要な三つの問題4 チャレンジ: どうやって一だけ聞いて十を知るか?5 問 1. 抽象的知識の役割6 問 2. 抽象的知識の形式7 問 3. 抽象的知識の起源8 オープンクエスチョンズ9 結論

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 3 / 62

Page 4: Tenenbaum review-20140704-1600

紹介論文

紹介論文

Joshua B. Tenenbaum, Charles Kemp, Thomas L. Griffiths, Noah D.Goodman, How to Grow a Mind: Statistics, Structure, and

Abstraction, Science, 331, 1279–1285. (2011)

NIPS 2010 での招待講演(動画)How to Grow a Mind: Statistics, Structure and Abstraction

@ 24th NIPS, Vancouver 2010レビューされている具体的な内容言語獲得 F. Xu, J. B. Tenenbaum, Psych. Rev. 114, 245 (2007).構造発見 C. Kemp, J. B. Tenenbaum, PNAS, 105, 10687 (2008).概念学習・理論形成 C. Kemp et al., Cognition 114, 165 (2010).

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 4 / 62

Page 5: Tenenbaum review-20140704-1600

Joshua B. Tenenbaum について

Topic

1 紹介論文2 Joshua B. Tenenbaum について3 要約と主要な三つの問題4 チャレンジ: どうやって一だけ聞いて十を知るか?5 問 1. 抽象的知識の役割6 問 2. 抽象的知識の形式7 問 3. 抽象的知識の起源8 オープンクエスチョンズ9 結論

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 5 / 62

Page 6: Tenenbaum review-20140704-1600

Joshua B. Tenenbaum について

Joshua B. Tenenbaum についてMIT の認知科学者ゴール:「人間の心の reverse-engineering」CBMM メンバー機械学習で ISOMAP を提唱認知心理学ではベイズ的方法論を全面的に導入中村 國則, 認知科学におけるベイズ的アプローチに関する文献の紹介, 認知科学, 16(4), 523-529. (Dec. 2009)Tenenbaum school を形成

Ruslan Salakhutdinov も Tenenbaum lab あたりでポスドク(共著論文二本あり)

最近の意見: 不変性だけでなく因果関係の表現の獲得が重要 (CBMM関係のWSでのトークの動画)

生成モデルの構築確率論理、確率プログラミング言語 (e.g., Church) の必要性

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 6 / 62

Page 7: Tenenbaum review-20140704-1600

要約と主要な三つの問題

Topic

1 紹介論文2 Joshua B. Tenenbaum について3 要約と主要な三つの問題4 チャレンジ: どうやって一だけ聞いて十を知るか?5 問 1. 抽象的知識の役割6 問 2. 抽象的知識の形式7 問 3. 抽象的知識の起源8 オープンクエスチョンズ9 結論

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 7 / 62

Page 8: Tenenbaum review-20140704-1600

要約と主要な三つの問題

要約

人間の心は得られるデータを超えて推論を行い世界を理解主要な帰納的推論と学習の例:

概念の学習言語の獲得因果関係の把握

人間の心はいかにしてそれを可能とするのかそして、人間の学習と認知発達を reverse-engineering し、より人間的な機械学習システムを作るにはどうすればよいかこれに関し、柔軟に構造化された表現の階層の上での確率推論は、次の三つの問題を扱うことができる

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 8 / 62

Page 9: Tenenbaum review-20140704-1600

要約と主要な三つの問題

三つの主要な問題

問 1. 抽象的な知識はスパースなデータからの学習と推論をどのように導くのか

問 2. 我々の知識は、異なる領域やタスクを越えて、いかなる形式をとるのか

問 3. 抽象的な知識それ自体はどのように獲得されるのか

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 9 / 62

Page 10: Tenenbaum review-20140704-1600

チャレンジ: どうやって一だけ聞いて十を知るか?

Topic

1 紹介論文2 Joshua B. Tenenbaum について3 要約と主要な三つの問題4 チャレンジ: どうやって一だけ聞いて十を知るか?5 問 1. 抽象的知識の役割6 問 2. 抽象的知識の形式7 問 3. 抽象的知識の起源8 オープンクエスチョンズ9 結論

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 10 / 62

Page 11: Tenenbaum review-20140704-1600

チャレンジ: どうやって一だけ聞いて十を知るか?

説明すべき問題

我々が手にする入力データはスパース、ノイジー、かつ曖昧であり、あらゆる意味であまりにも貧弱他方、我々は

上等な因果モデルを形成強い汎化を実行強力な抽象概念を構築

この入力と出力の間の大きなミスマッチをどう説明できるか?

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 11 / 62

Page 12: Tenenbaum review-20140704-1600

チャレンジ: どうやって一だけ聞いて十を知るか?

発達において

子どもは少数の例から適切に汎化

汎化を見て初めて、子どもが、単に音や文字でなく、言葉の意味を把握したと判断できる

完璧でなくとも、新しい状況でその言葉を適切に使える

感覚入力データ上の計算と考えれば、これは異例の離れ技

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 12 / 62

Page 13: Tenenbaum review-20140704-1600

チャレンジ: どうやって一だけ聞いて十を知るか?

スパースデータからの汎化

言語の多くの側面(統語論的構成や形態学的規則など)の学習でデータはかなりスパース子どもは片手に余る程度の事象のみ、少なすぎるサンプルから、因果リンクも日常的に推論認知発達における最も深い達成は大規模な知識のシステムの構築

直感的な物理・心理・生物学の理論社会構造や倫理判断のためのルールシステム

数年の単位でなされる大規模な知識システムの構築においても、やはり最終産物は観察されたデータをはるかに凌駕

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 13 / 62

Page 14: Tenenbaum review-20140704-1600

チャレンジ: どうやって一だけ聞いて十を知るか?

制約の必要性

適切な汎化には適切な制約が必要:

心理学・言語学: 制約 constraints機械学習・人工知能: 帰納的バイアス inductive bias

統計学: 事前分布 priors

これは基本的に Plato 以来の哲学者 (Aristotle, . . . , Hume,Whewell, Mill, . . . , Carnap, Quine, Goodman, . . . ) が示唆してきたもの最近になってはじめて、

帰納学習を計算論的な問題の一種として人間の心を、そのような問題を解くための天然の計算機として

捉えられるように

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 14 / 62

Page 15: Tenenbaum review-20140704-1600

チャレンジ: どうやって一だけ聞いて十を知るか?

この論文の内容と立場

心理学、言語学、機械学習、人工知能、統計学の交点で生まれた最近のモデルについてレビュー心の reverse engineering のための "Bayesian" または "確率論的" なアプローチそのキーアイディアは先の主要な三つの問題に答えるための提案

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 15 / 62

Page 16: Tenenbaum review-20140704-1600

チャレンジ: どうやって一だけ聞いて十を知るか?

扱う問題と、対比される他の2アプローチ

具体的な二つのタスクを扱い、概念の学習因果関係の学習

人間の認知発達の open challenges を簡単に議論し、ベイズ的アプローチの貢献をまとめて結論とする

その際、知識の起源の問題への従来の二つのアプローチ:生得説連合説(コネクショニズム)

との対比を行うこれらは先述の三つの問題に応えるための基礎の強弱において異なる

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 16 / 62

Page 17: Tenenbaum review-20140704-1600

チャレンジ: どうやって一だけ聞いて十を知るか?

旧来の二つの選択肢これまで認知理論家のアプローチは二つのみ:

1 強力な統計学習を、単純で非構造的な知識形式の上で働かせる:

典型例:意味的認知 semantic cognition のコネクショニストの説明にあったような、結合重みの行列の更新

2 豊かに構造化された記号的知識に単純な非統計的な形式の学習と仮説と観察データの論理的不整合性のチェックを付与

典型例:生得説者の言語獲得の説明(パラメータ調整)

これでは、どっちもどっちで:抽象知識が学習できない(生得的)であるとする人間の知識は抽象的でなく、構造化もされていないとする

だから、発達の研究者などは非形式的なアプローチで、「構築主義constructivism」や「理論の理論 theory of theory」の名の下に子どもの心の発達を記述

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 17 / 62

Page 18: Tenenbaum review-20140704-1600

チャレンジ: どうやって一だけ聞いて十を知るか?

ベイズアプローチ

ベイズアプローチでは典型的には豊かに構造化された表現力の高い知識表現(問 2)と強力な統計推論エンジン(問 1, 3)を結合させ、両者の総合だけが人間の知性を説明できると主張この融合的アプローチが計算論的にうまくいくと理解されたのは最近になってから

人々がいかにして、抽象的な構造化された知識を真に用いながら学習するのか、ということを説明できる潜在能力を持つことが、ベイズアプローチの流行、そして、その批判者からの懐疑論の標的となっていることの、理由

これによって、発達研究でもフォーマルなアプローチが有意義に可能に

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 18 / 62

Page 19: Tenenbaum review-20140704-1600

問 1. 抽象的知識の役割

Topic

1 紹介論文2 Joshua B. Tenenbaum について3 要約と主要な三つの問題4 チャレンジ: どうやって一だけ聞いて十を知るか?5 問 1. 抽象的知識の役割6 問 2. 抽象的知識の形式7 問 3. 抽象的知識の起源8 オープンクエスチョンズ9 結論

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 19 / 62

Page 20: Tenenbaum review-20140704-1600

問 1. 抽象的知識の役割

認知心理学におけるベイズ的方法論

高次認知(学習・推論・判断)の研究では次で大きな成功類似性の感覚代表性ランダム性隠れた原因への手がかりとしての同時発生・一致因果関係の強度の判断evidential support診断的・条件的推論日常的出来事の将来についての予測

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 20 / 62

Page 21: Tenenbaum review-20140704-1600

問 1. 抽象的知識の役割

ベイズ的方法論

ベイズ的原理に従って人間が学習・推論する ̸=心が何らかのベイズ的推論を実装

心が得意な帰納的計算についてのみ、効率的なメカニズムが生物学的に獲得されており、ベイズ的な言葉で理解可能

学習や推論以外に、迅速で信頼できる無意識な処理で有効知覚、言語、記憶、感覚運動系

他方、確率を数量として明示的・意識的に操作するタスクにおいてはベイズ的な規範から悪名高く逸脱する

確率論自体は最近の文化的考案で、トレーニングも必要

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 21 / 62

Page 22: Tenenbaum review-20140704-1600

問 1. 抽象的知識の役割

確率的生成モデル

ベイズ式は問 1に答える道具:問 1 抽象的知識の不完全データからの推論の導き方

抽象的な知識は確率的生成モデルとしてエンコード確率的生成モデル:一種のメンタルモデルで、学習者がその隠れた状態を推論できれば効果的な予測や行動をサポートするような観察されていない・潜在的な変数と、学習者が観察するものをもたらす因果的プロセスを記述因果プロセスや潜在変数の状態に関する学習者の不確実性を扱うため、生成モデルは次の二点で確率的:

1 目前の個別の状況だけでなく、学習が汎化すべきより広い状況クラスを記述

2 学習者が観察するものの原因となり、また汎化を可能とするような、本質的な世界の構造を倹約的な形式で把握

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 22 / 62

Page 23: Tenenbaum review-20140704-1600

問 1. 抽象的知識の役割

ベイズ推論

ベイズ推論は観察されたデータに応じた、生成モデルの潜在変数についての信念を更新するための合理的な枠組み背景知識は潜在変数の可能な値に関する仮説 H 、(観察データを説明できる世界の構造の候補)の制限された空間を通じてコード化より精細な知識は「事前確率」 P (h)(観察に先立つ(あるいは観察に独立な)特定の仮説 h についての信念の度合い)の形で提供ベイズ式は事前分布を、観察データ d で条件付けられた「事後分布」P (h|d) に更新:

P (h|d) = P (d|h)P (h)

Σh′∈HP (d|h′)P (h′)∼ P (d|h)P (h) (1)

事後確率は事前確率と尤度 P (d|h) の積に比例、データ d が仮説h の下で、 H の中の他の全ての仮説 h′ に、相対的にどれだけ期待されるか、の評価

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 23 / 62

Page 24: Tenenbaum review-20140704-1600

問 1. 抽象的知識の役割

スパースデータからの人間の概念学習

概念学習では、データ:例、仮説:概念の可能な外延データに整合的な無数のルールに対し、なぜ子どもは馬を三頭見れば、「馬」を全ての馬のみ (h1) に汎化し、クライズデール以外の全ての馬 (h2) とか全ての動物 (h3) などとは理解しないのか

尤度はより特定のパターンである h1 や h2 を好む: 三つのランダムな例が h3 から実際に引き出されたならば、三頭ともh1 や h2 に入るというのは信じがたい事前確率は h1 や h3 を好む: カテゴリーが首尾一貫しており特有である方が、言語の共通の語の指示対象としてよりもっともらしい両方の基準で好まれるのは h1 のみ

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 24 / 62

Page 25: Tenenbaum review-20140704-1600

問 1. 抽象的知識の役割

スパースデータからの人間の因果学習

データが複数の事象間の共起情報であるならば、仮説はそれら事象をリンクする可能な因果関係

尤度はその共起情報をよりよく説明する因果関係を、事前分布は、病気 (風邪) → 症状 (咳) を引き起こすのはその逆、症状 (咳) → 病気 (風邪) よりもありそうなことであるというように、どの種の事象がどの他の事象を引き起こしやすいかに関する我々の背景知識に合うリンクを、

それぞれ好む

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 25 / 62

Page 26: Tenenbaum review-20140704-1600

問 2. 抽象的知識の形式

Topic

1 紹介論文2 Joshua B. Tenenbaum について3 要約と主要な三つの問題4 チャレンジ: どうやって一だけ聞いて十を知るか?5 問 1. 抽象的知識の役割6 問 2. 抽象的知識の形式7 問 3. 抽象的知識の起源8 オープンクエスチョンズ9 結論

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 26 / 62

Page 27: Tenenbaum review-20140704-1600

問 2. 抽象的知識の形式

抽象的知識の形式:問2

問 2. 我々の知識は、異なる領域やタスクを越えて、いかなる形式をとるのか

概念学習や因果推論のような学習のような複雑な認知タスクでは、素朴に全ての論理的に可能な仮説を――それぞれの事前分布と尤度とともに――リストアップすることはできない

もっと洗練された形式の知識表現が、ベイズ的認知に必要な確率的生成モデルの基礎をなしているはず

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 27 / 62

Page 28: Tenenbaum review-20140704-1600

問 2. 抽象的知識の形式

知識表現の構造連想的・コネクショニストアプローチでは、学習の統計モデルは大きな数値ベクトル上で定義するので、学習とは:

連想記憶の強さ、ニューラルネットの重み、あるいは高次元非線形関数のパラメータの評価

ベイズ的認知モデルでは、知識表現のもっと構造化された記号的形式上に確率 (重み)を割り当てることに成功している。そういった形式は計算機科学や AIで用いられる:

グラフ文法述語論理関係スキーマ関数型プログラム

異なる形式の表現を、人々の、異なる領域やタスク、そして異なった抽象化のレベルに応じて使用

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 28 / 62

Page 29: Tenenbaum review-20140704-1600

問 2. 抽象的知識の形式

言葉と概念の学習における知識表現

子どもと大人の汎化を導く知識は、木構造表現の上での確率モデルとしてうまく表現可能 (図 1B)生物学的概念や自然種についての推論もまた、ツリー上で近くにある対象同士は性質を共有しやすい、と前提するベイズモデルでよく記述できるしかし木構造は普遍的な表現ではなく、

都市の地理的特性については二次元空間かグリッド値や能力については一次元順序因果的に伝染する種の特性(病気や色素、栄養素)については有向ネットワーク

がそれぞれ用いられる (図 2)

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 29 / 62

Page 30: Tenenbaum review-20140704-1600

問 2. 抽象的知識の形式

原因と結果の知識表現とその上の制約

有向グラフィカルモデルが有効ノード 変数

有向エッジ 確率的な因果リンク限られたデータからの因果ネットワークの学習には、より抽象的な知識の制約が必要医療の例では (図 3A) ノードは患者が風邪か、咳をするか、熱があるか、などエッジの在不在は風邪は咳や発熱の原因となるが、胸痛は起こさない、肺病は咳の原因だが発熱は起こさない、などより高次の知識によって変数を疾病と症状に分け、同じクラス内や、症状から疾病へ、よりは、疾病から症状へと因果関係(グラフのエッジ)が走りやすいといったことを使えば、(図 3A–C) 因果的依存関係を学習しやすい。

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 30 / 62

Page 31: Tenenbaum review-20140704-1600

問 2. 抽象的知識の形式

抽象的な高次知識

抽象的な高次知識の関係的データ構造はグラフスキーマノードのタイプに基づくグラフの雛型確率的グラフ文法

言語知識の表現に標準となっている文字列の確率的文法と同様

によって表現できる最も抽象的なレベルでは、因果性の概念自体が、外部エージェントの介入や操作をサポートする有向関係という意味で、行動と観察可能な事象を関係づける有向グラフの構造の上の制約を表現する論理法則によって定式化可能 (図 3D)

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 31 / 62

Page 32: Tenenbaum review-20140704-1600

問 2. 抽象的知識の形式

汎化の制約と科学における仮説

各々の知識の形式が、帰納推論に異なる制約を定義し、課すような異なった種類の事前分布をもたらす。汎化の成功のためにはそれらの制約を明確に持たなければならない。帰納の制約はしばしば計量的だが、もっとも簡単なのは、学習者が考慮できる仮説を単純に制限してしまう、質的制約を与える(多くの論理的に可能な仮説の事前確率を 0にしてしまう)ことである。

人々のある領域に関する心的表現は、生物種に対する木構造など、しばしば科学者の同じ領域の記述・表現と同じ構造を持つ世界のごく一部の在り方を近似するコンパクトな記述は、帰納学習の制約のもっとも便利な形式を提供する

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 32 / 62

Page 33: Tenenbaum review-20140704-1600

問 2. 抽象的知識の形式

具体的な制約

概念学習の領域に対象が n あれば、概念は 2n

概念の外延に関する 2n の仮説が論理的には可能概念が対象上の特定の二分木の枝に対応するなら、(図 1B) 仮説の空間は n− 1 通り(トーナメントでの試合の回数)に制限因果学習において変数が 16 あるとすれば、可能な仮説は、有向非循環グラフなので、約 1046

疾病と症状の二部グラフを考えれば 1023 、どの変数が疾病と症状のクラスに属するかが分かれば 1018

仮説空間が小さければ小さいほど、正確に汎化が可能となると期待できるが、それは学習すべき真の構造が学習者の仮説空間の中か確率的に近くにある場合のみ

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 33 / 62

Page 34: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

Topic

1 紹介論文2 Joshua B. Tenenbaum について3 要約と主要な三つの問題4 チャレンジ: どうやって一だけ聞いて十を知るか?5 問 1. 抽象的知識の役割6 問 2. 抽象的知識の形式7 問 3. 抽象的知識の起源8 オープンクエスチョンズ9 結論

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 34 / 62

Page 35: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

「いかにして学習者は学習を可能とするものを学習するのか」抽象的な知識を考える必要は

問 3 いかにして学習者は学習を可能とするものを学習するのか

という問題に繋がる子どもは、言語学習において仮説を表現するのに木構造が適切であるとどうやって知るのかある存在物や概念の領域をいかなるデータ構造で表現すべきか因果学習であれば、人々はどうやって抽象的な疾病と症状の変数のクラスを、因果リンクは疾病から症状へと向かうものだとして、学習の枠組みとなる理論を修正するのか

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 35 / 62

Page 36: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

認知発達

言葉を学習する子どもは、最初は対象を、ラベル付クラスターにフラットで相互排他的に分割その後になって初めて、カテゴリーは木構造の階層で組織化されるべきであるということを発見

これは科学史にも見られるリンネ 生物種の表現を伝統的なチェーン構造からツリー構造

に切り替え

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 36 / 62

Page 37: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

図 1A (Tenenbaum et al., Science, 2011)

ll./_figs/Fig1A.pdf

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 37 / 62

Page 38: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

図 1B (Tenenbaum et al., Science, 2011)

mathematics of Bayesian statistics: our sense ofsimilarity (18), representativeness (19), and ran-domness (20); coincidences as a cue to hiddencauses (21); judgments of causal strength (22) andevidential support (23); diagnostic and condi-tional reasoning (24, 25); and predictions aboutthe future of everyday events (26).

The claim that human minds learn and rea-son according to Bayesian principles is not aclaim that the mind can implement any Bayesianinference. Only those inductive computations thatthe mind is designed to perform well, wherebiology has had time and cause to engineer ef-fective and efficient mechanisms, are likely to

be understood in Bayesian terms. In additionto the general cognitive abilities just mentioned,Bayesian analyses have shed light on many spe-cific cognitive capacities and modules that resultfrom rapid, reliable, unconscious processing, in-cluding perception (27), language (28), memory(29, 30), and sensorimotor systems (31). In contrast,in tasks that require explicit conscious manipu-lations of probabilities as numerical quantities—arecent cultural invention that few people becomefluent with, and only then after sophisticatedtraining—judgments can be notoriously biasedaway from Bayesian norms (32).

At heart, Bayes’s rule is simply a tool foranswering question 1: How does abstract knowl-edge guide inference from incomplete data?Abstract knowledge is encoded in a probabilisticgenerative model, a kind of mental model thatdescribes the causal processes in the world giv-ing rise to the learner’s observations as well asunobserved or latent variables that support ef-fective prediction and action if the learner caninfer their hidden state. Generative models mustbe probabilistic to handle the learner’s uncertain-ty about the true states of latent variables andthe true causal processes at work. A generativemodel is abstract in two senses: It describes notonly the specific situation at hand, but also a broaderclass of situations over which learning shouldgeneralize, and it captures in parsimonious formthe essential world structure that causes learners’observations and makes generalization possible.

Bayesian inference gives a rational frameworkfor updating beliefs about latent variables in gen-erative models given observed data (33, 34).Background knowledge is encoded through aconstrained space of hypotheses H about pos-sible values for the latent variables, candidateworld structures that could explain the observeddata. Finer-grained knowledge comes in the “priorprobability” P(h), the learner’s degree of belief ina specific hypothesis h prior to (or independentof) the observations. Bayes’s rule updates priorsto “posterior probabilities” P(h|d) conditional onthe observed data d:

P(hjd) ¼ P(djh)P(h)∑h′∈HP(djh′)P(h′)

ºP(djh)P(h)

ð1Þ

The posterior probability is proportional to theproduct of the prior probability and the likelihoodP(d|h), measuring how expected the data are underhypothesis h, relative to all other hypotheses h′ inH.

To illustrate Bayes’s rule in action, supposewe observe John coughing (d), and we considerthree hypotheses as explanations: John has h1, acold; h2, lung disease; or h3, heartburn. Intuitivelyonly h1 seems compelling. Bayes’s rule explainswhy. The likelihood favors h1 and h2 over h3:only colds and lung disease cause coughing andthus elevate the probability of the data abovebaseline. The prior, in contrast, favors h1 and h3over h2: Colds and heartburn are much morecommon than lung disease. Bayes’s rule weighs

Fig. 1. Human children learning names for object concepts routinely make strong generalizations fromjust a few examples. The same processes of rapid generalization can be studied in adults learning namesfor novel objects created with computer graphics. (A) Given these alien objects and three examples(boxed in red) of “tufas” (a word in the alien language), which other objects are tufas? Almost everyoneselects just the objects boxed in gray (75). (B) Learning names for categories can be modeled asBayesian inference over a tree-structured domain representation (2). Objects are placed at the leaves ofthe tree, and hypotheses about categories that words could label correspond to different branches.Branches at different depths pick out hypotheses at different levels of generality (e.g., Clydesdales, drafthorses, horses, animals, or living things). Priors are defined on the basis of branch length, reflecting thedistinctiveness of categories. Likelihoods assume that examples are drawn randomly from the branchthat the word labels, favoring lower branches that cover the examples tightly; this captures the sense ofsuspicious coincidence when all examples of a word cluster in the same part of the tree. Combiningpriors and likelihoods yields posterior probabilities that favor generalizing across the lowest distinctivebranch that spans all the observed examples (boxed in gray).

11 MARCH 2011 VOL 331 SCIENCE www.sciencemag.org1280

REVIEW

on

May

23,

201

1w

ww

.sci

ence

mag

.org

Dow

nloa

ded

from

Figure : オブジェクトのツリー

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 38 / 62

Page 39: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

これまでの機械学習手法と認知発達理論データ構造の形成は心理学者にも科学哲学者にも謎従来の教師なし学習での構造発見での

階層的クラスタリング主成分分析 (PCA)多次元スケーリングクリーク検出 clique detection

などは、単一の固定されたデータ・表現構造を前提複数のデータ構造や新奇なデータからの新しい形式を学習不可能生得説では、質的に異なる形式は生得的

コネクショニストによれば、新しい構造は学べるが、ジェネリックな結合重みのシステムでは、人々が明示的に知っていると見える構造、ツリー、因果ネットワークなどを、せいぜい近似できるだけ

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 39 / 62

Page 40: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

近年の認知理論

構造的知識表現とベイズ統計学のツールを組み合わせ階層的ベイズモデル (HBMs: hierarchical Bayesian models) はデータを説明するのに、単一のレベルの仮説や事前分布ではなく、仮説空間の仮説空間・事前分布の事前分布、といった複数のレベルの仮説・事前分布を措定し仮説空間や事前分布の起源の問題を扱うHBM の各レベルはその下のレベルの変数の確率分布を生成全てのレベルにわたるベイズ推論は、特定の学習タスクに必要な仮説や事前分布をそれ自体より大きい・長い時間スケールで学ぶことを許し、同時にそれはより下のレベルの学習を制約機械学習や人工知能では、 HBM は第一に転移学習:「以前の関連したタスクでの経験からの帰納制約の獲得」に用いられてきたが、(Supplemental Online Material を参照) ここでは HBM が人間が抽象知識を正しい形で獲得する仕方の説明に利用

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 40 / 62

Page 41: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

構造の発見

Kemp and Tenenbaum は、グラフや文法に基づく表現の上で定義された HBM がいかにしてある領域の同一性を支配する構造の形式を発見できるかを示したツリー、クラスター、空間、リング、順序など、様々な形式の構造は全てグラフとして、そして各形式を基礎づける抽象的原則はその形式のグラフの成長の単純な文法ルールとして表現される階層ベイズ的枠組みに埋め込むと、このアプローチは多くの実世界で問題になる領域の構造の正しい形式(文法)を、適切な形式の最も良い構造(グラフ)と一緒に、発見できる (図 2)図 1A にあるような新奇なオブジェクトに対する階層的な構造 (図1B のような) が、たとえば二次元空間のような別の表現よりも人々がそこに見いだす類似性に良く合うことを推論できる

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 41 / 62

Page 42: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

図 2 A, B, C (Tenenbaum et al., Science, 2011)

Fig. 2A

if different domains of cognition are representedin qualitatively different ways, those forms mustbe innate (43, 44); connectionists have suggestedthese representationsmay be learned but in a genericsystem of associative weights that at best onlyapproximates trees, causal networks, and other formsof structure people appear to know explicitly (14).

Recently cognitive modelers have begun toanswer these challenges by combining the struc-tured knowledge representations described abovewith state-of-the-art tools from Bayesian statis-

tics. Hierarchical Bayesian models (HBMs) (45)address the origins of hypothesis spaces and priorsby positing not just a single level of hypothesesto explain the data but multiple levels: hypoth-esis spaces of hypothesis spaces, with priors onpriors. Each level of a HBM generates a proba-bility distribution on variables at the level below.Bayesian inference across all levels allows hypothe-ses and priors needed for a specific learning task tothemselves be learned at larger or longer time scales,at the same time as they constrain lower-level learn-

ing. In machine learning and artificial intelligence(AI), HBMs have primarily been used for transferlearning: the acquisition of inductive constraintsfrom experience in previous related tasks (46).Transfer learning is critical for humans as well(SOM text and figs. S1 and S2), but here wefocus on the role ofHBMs in explaining howpeopleacquire the right forms of abstract knowledge.

Kemp and Tenenbaum (36, 47) showed howHBMs defined over graph- and grammar-basedrepresentations can discover the form of structure

Fig. 2. Kemp and Tenenbaum (47)showed how the form of structure ina domain can be discovered by usinga HBM defined over graph gram-mars. At the bottom level of themodel is a data matrix D of objectsand their properties, or similaritiesbetween pairs of objects. Each squareof the matrix represents whether agiven feature (column) is observedfor a given object (row). One levelup is the structure S, a graph of rela-tions between objects that describeshow the features in D are distributed.Intuitively, objects nearby in the graphare expected to share similar featurevalues; technically, the graph Laplacianparameterizes the inverse covarianceof a gaussian distribution with onedimension per object, and each featureis drawn independently from that dis-tribution. The highest level of abstractprinciples specifies the form F ofstructure in the domain, in terms ofgrammatical rules for growing a graphS of a constrained form out of aninitial seed node. Red arrows repre-sent P(S|F) and P(D|S), the condi-tional probabilities that each levelspecifies for the level below. A searchalgorithm attempts to find both theform F and the structure S of that formthat jointly maximize the posteriorprobability P(S,F|D), a function of theproduct ofP(D|S) andP(S|F). (A) Givenas data the features of animals, thealgorithm finds a tree structure withintuitively sensible categories at mul-tiple scales. (B) The same algorithmdiscovers that the voting patterns ofU.S. Supreme Court judges are bestexplained by a linear “left-right” spec-trum. (C) Subjective similarities amongcolors are best explained by a circu-lar ring. (D) Given proximities betweencities on the globe, the algorithm dis-covers a cylindrical representationanalogous to latitude and longitude:the cross product of a ring and aring. (E) Given images of realisticallysynthesized faces varying in two di-mensions, race and masculinity, thealgorithm successfully recovers the un-derlying two-dimensional grid struc-ture: a cross product of two chains.

A

E

B

C

D

Abstractprinciples

tree: chain:

ring:

ring x chain

chain x chain

Features

Structure

Data

Ani

mal

s

Brennan

Marshal

BlackmunStevens Souter

Ginsburg

Breyer White

O'ConnorRehnquist

Scalia

ThomasKennedy

Los Angeles

Honolulu

Wellington

Sydney

Perth

Jakarta

Manila

Shanghai

Bangkok

Tokyo

Vladivostok

Irkutsk Moscow

BerlinLondonMadrid

Dakar

NewYork

AnchorageVancouver

ChicagoToronto

BombayTeheran

Cairo

Nairobi

Budapest

CapeTown

Mexico City LimaBogota

Santiago

BuenosAires

SaoPaulo

OstrichChicken

Finch

Robin

EaglePenguin

Salmon Trout Alligator

IguanaWhale

Dolphin

Ant

Cockroach

Butterfly

Bee

Seal

WolfDog

Cat

LionTiger

SquirrelMouse

CowHorse

RhinoElephant

DeerGiraffe

CamelGorilla

Chimp

Kinshasa

11 MARCH 2011 VOL 331 SCIENCE www.sciencemag.org1282

REVIEW

on

May

23,

201

1w

ww

.sci

ence

mag

.org

Dow

nloa

ded

from

Fig. 2B, 2C

if different domains of cognition are representedin qualitatively different ways, those forms mustbe innate (43, 44); connectionists have suggestedthese representationsmay be learned but in a genericsystem of associative weights that at best onlyapproximates trees, causal networks, and other formsof structure people appear to know explicitly (14).

Recently cognitive modelers have begun toanswer these challenges by combining the struc-tured knowledge representations described abovewith state-of-the-art tools from Bayesian statis-

tics. Hierarchical Bayesian models (HBMs) (45)address the origins of hypothesis spaces and priorsby positing not just a single level of hypothesesto explain the data but multiple levels: hypoth-esis spaces of hypothesis spaces, with priors onpriors. Each level of a HBM generates a proba-bility distribution on variables at the level below.Bayesian inference across all levels allows hypothe-ses and priors needed for a specific learning task tothemselves be learned at larger or longer time scales,at the same time as they constrain lower-level learn-

ing. In machine learning and artificial intelligence(AI), HBMs have primarily been used for transferlearning: the acquisition of inductive constraintsfrom experience in previous related tasks (46).Transfer learning is critical for humans as well(SOM text and figs. S1 and S2), but here wefocus on the role ofHBMs in explaining howpeopleacquire the right forms of abstract knowledge.

Kemp and Tenenbaum (36, 47) showed howHBMs defined over graph- and grammar-basedrepresentations can discover the form of structure

Fig. 2. Kemp and Tenenbaum (47)showed how the form of structure ina domain can be discovered by usinga HBM defined over graph gram-mars. At the bottom level of themodel is a data matrix D of objectsand their properties, or similaritiesbetween pairs of objects. Each squareof the matrix represents whether agiven feature (column) is observedfor a given object (row). One levelup is the structure S, a graph of rela-tions between objects that describeshow the features in D are distributed.Intuitively, objects nearby in the graphare expected to share similar featurevalues; technically, the graph Laplacianparameterizes the inverse covarianceof a gaussian distribution with onedimension per object, and each featureis drawn independently from that dis-tribution. The highest level of abstractprinciples specifies the form F ofstructure in the domain, in terms ofgrammatical rules for growing a graphS of a constrained form out of aninitial seed node. Red arrows repre-sent P(S|F) and P(D|S), the condi-tional probabilities that each levelspecifies for the level below. A searchalgorithm attempts to find both theform F and the structure S of that formthat jointly maximize the posteriorprobability P(S,F|D), a function of theproduct ofP(D|S) andP(S|F). (A) Givenas data the features of animals, thealgorithm finds a tree structure withintuitively sensible categories at mul-tiple scales. (B) The same algorithmdiscovers that the voting patterns ofU.S. Supreme Court judges are bestexplained by a linear “left-right” spec-trum. (C) Subjective similarities amongcolors are best explained by a circu-lar ring. (D) Given proximities betweencities on the globe, the algorithm dis-covers a cylindrical representationanalogous to latitude and longitude:the cross product of a ring and aring. (E) Given images of realisticallysynthesized faces varying in two di-mensions, race and masculinity, thealgorithm successfully recovers the un-derlying two-dimensional grid struc-ture: a cross product of two chains.

A

E

B

C

D

Abstractprinciples

tree: chain:

ring:

ring x chain

chain x chain

Features

Structure

Data

Ani

mal

s

Brennan

Marshal

BlackmunStevens Souter

Ginsburg

Breyer White

O'ConnorRehnquist

Scalia

ThomasKennedy

Los Angeles

Honolulu

Wellington

Sydney

Perth

Jakarta

Manila

Shanghai

Bangkok

Tokyo

Vladivostok

Irkutsk Moscow

BerlinLondonMadrid

Dakar

NewYork

AnchorageVancouver

ChicagoToronto

BombayTeheran

Cairo

Nairobi

Budapest

CapeTown

Mexico City LimaBogota

Santiago

BuenosAires

SaoPaulo

OstrichChicken

Finch

Robin

EaglePenguin

Salmon Trout Alligator

IguanaWhale

Dolphin

Ant

Cockroach

Butterfly

Bee

Seal

WolfDog

Cat

LionTiger

SquirrelMouse

CowHorse

RhinoElephant

DeerGiraffe

CamelGorilla

Chimp

Kinshasa

11 MARCH 2011 VOL 331 SCIENCE www.sciencemag.org1282

REVIEW

on

May

23,

201

1w

ww

.sci

ence

mag

.org

Dow

nloa

ded

from

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 42 / 62

Page 43: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

図 2 D, E (Tenenbaum et al., Science, 2011)

Fig. 2D

if different domains of cognition are representedin qualitatively different ways, those forms mustbe innate (43, 44); connectionists have suggestedthese representationsmay be learned but in a genericsystem of associative weights that at best onlyapproximates trees, causal networks, and other formsof structure people appear to know explicitly (14).

Recently cognitive modelers have begun toanswer these challenges by combining the struc-tured knowledge representations described abovewith state-of-the-art tools from Bayesian statis-

tics. Hierarchical Bayesian models (HBMs) (45)address the origins of hypothesis spaces and priorsby positing not just a single level of hypothesesto explain the data but multiple levels: hypoth-esis spaces of hypothesis spaces, with priors onpriors. Each level of a HBM generates a proba-bility distribution on variables at the level below.Bayesian inference across all levels allows hypothe-ses and priors needed for a specific learning task tothemselves be learned at larger or longer time scales,at the same time as they constrain lower-level learn-

ing. In machine learning and artificial intelligence(AI), HBMs have primarily been used for transferlearning: the acquisition of inductive constraintsfrom experience in previous related tasks (46).Transfer learning is critical for humans as well(SOM text and figs. S1 and S2), but here wefocus on the role ofHBMs in explaining howpeopleacquire the right forms of abstract knowledge.

Kemp and Tenenbaum (36, 47) showed howHBMs defined over graph- and grammar-basedrepresentations can discover the form of structure

Fig. 2. Kemp and Tenenbaum (47)showed how the form of structure ina domain can be discovered by usinga HBM defined over graph gram-mars. At the bottom level of themodel is a data matrix D of objectsand their properties, or similaritiesbetween pairs of objects. Each squareof the matrix represents whether agiven feature (column) is observedfor a given object (row). One levelup is the structure S, a graph of rela-tions between objects that describeshow the features in D are distributed.Intuitively, objects nearby in the graphare expected to share similar featurevalues; technically, the graph Laplacianparameterizes the inverse covarianceof a gaussian distribution with onedimension per object, and each featureis drawn independently from that dis-tribution. The highest level of abstractprinciples specifies the form F ofstructure in the domain, in terms ofgrammatical rules for growing a graphS of a constrained form out of aninitial seed node. Red arrows repre-sent P(S|F) and P(D|S), the condi-tional probabilities that each levelspecifies for the level below. A searchalgorithm attempts to find both theform F and the structure S of that formthat jointly maximize the posteriorprobability P(S,F|D), a function of theproduct ofP(D|S) andP(S|F). (A) Givenas data the features of animals, thealgorithm finds a tree structure withintuitively sensible categories at mul-tiple scales. (B) The same algorithmdiscovers that the voting patterns ofU.S. Supreme Court judges are bestexplained by a linear “left-right” spec-trum. (C) Subjective similarities amongcolors are best explained by a circu-lar ring. (D) Given proximities betweencities on the globe, the algorithm dis-covers a cylindrical representationanalogous to latitude and longitude:the cross product of a ring and aring. (E) Given images of realisticallysynthesized faces varying in two di-mensions, race and masculinity, thealgorithm successfully recovers the un-derlying two-dimensional grid struc-ture: a cross product of two chains.

A

E

B

C

D

Abstractprinciples

tree: chain:

ring:

ring x chain

chain x chain

Features

Structure

Data

Ani

mal

s

Brennan

Marshal

BlackmunStevens Souter

Ginsburg

Breyer White

O'ConnorRehnquist

Scalia

ThomasKennedy

Los Angeles

Honolulu

Wellington

Sydney

Perth

Jakarta

Manila

Shanghai

Bangkok

Tokyo

Vladivostok

Irkutsk Moscow

BerlinLondonMadrid

Dakar

NewYork

AnchorageVancouver

ChicagoToronto

BombayTeheran

Cairo

Nairobi

Budapest

CapeTown

Mexico City LimaBogota

Santiago

BuenosAires

SaoPaulo

OstrichChicken

Finch

Robin

EaglePenguin

Salmon Trout Alligator

IguanaWhale

Dolphin

Ant

Cockroach

Butterfly

Bee

Seal

WolfDog

Cat

LionTiger

SquirrelMouse

CowHorse

RhinoElephant

DeerGiraffe

CamelGorilla

Chimp

Kinshasa

11 MARCH 2011 VOL 331 SCIENCE www.sciencemag.org1282

REVIEW

on

May

23,

201

1w

ww

.sci

ence

mag

.org

Dow

nloa

ded

from

Fig. 2E

if different domains of cognition are representedin qualitatively different ways, those forms mustbe innate (43, 44); connectionists have suggestedthese representationsmay be learned but in a genericsystem of associative weights that at best onlyapproximates trees, causal networks, and other formsof structure people appear to know explicitly (14).

Recently cognitive modelers have begun toanswer these challenges by combining the struc-tured knowledge representations described abovewith state-of-the-art tools from Bayesian statis-

tics. Hierarchical Bayesian models (HBMs) (45)address the origins of hypothesis spaces and priorsby positing not just a single level of hypothesesto explain the data but multiple levels: hypoth-esis spaces of hypothesis spaces, with priors onpriors. Each level of a HBM generates a proba-bility distribution on variables at the level below.Bayesian inference across all levels allows hypothe-ses and priors needed for a specific learning task tothemselves be learned at larger or longer time scales,at the same time as they constrain lower-level learn-

ing. In machine learning and artificial intelligence(AI), HBMs have primarily been used for transferlearning: the acquisition of inductive constraintsfrom experience in previous related tasks (46).Transfer learning is critical for humans as well(SOM text and figs. S1 and S2), but here wefocus on the role ofHBMs in explaining howpeopleacquire the right forms of abstract knowledge.

Kemp and Tenenbaum (36, 47) showed howHBMs defined over graph- and grammar-basedrepresentations can discover the form of structure

Fig. 2. Kemp and Tenenbaum (47)showed how the form of structure ina domain can be discovered by usinga HBM defined over graph gram-mars. At the bottom level of themodel is a data matrix D of objectsand their properties, or similaritiesbetween pairs of objects. Each squareof the matrix represents whether agiven feature (column) is observedfor a given object (row). One levelup is the structure S, a graph of rela-tions between objects that describeshow the features in D are distributed.Intuitively, objects nearby in the graphare expected to share similar featurevalues; technically, the graph Laplacianparameterizes the inverse covarianceof a gaussian distribution with onedimension per object, and each featureis drawn independently from that dis-tribution. The highest level of abstractprinciples specifies the form F ofstructure in the domain, in terms ofgrammatical rules for growing a graphS of a constrained form out of aninitial seed node. Red arrows repre-sent P(S|F) and P(D|S), the condi-tional probabilities that each levelspecifies for the level below. A searchalgorithm attempts to find both theform F and the structure S of that formthat jointly maximize the posteriorprobability P(S,F|D), a function of theproduct ofP(D|S) andP(S|F). (A) Givenas data the features of animals, thealgorithm finds a tree structure withintuitively sensible categories at mul-tiple scales. (B) The same algorithmdiscovers that the voting patterns ofU.S. Supreme Court judges are bestexplained by a linear “left-right” spec-trum. (C) Subjective similarities amongcolors are best explained by a circu-lar ring. (D) Given proximities betweencities on the globe, the algorithm dis-covers a cylindrical representationanalogous to latitude and longitude:the cross product of a ring and aring. (E) Given images of realisticallysynthesized faces varying in two di-mensions, race and masculinity, thealgorithm successfully recovers the un-derlying two-dimensional grid struc-ture: a cross product of two chains.

A

E

B

C

D

Abstractprinciples

tree: chain:

ring:

ring x chain

chain x chain

Features

Structure

Data

Ani

mal

s

Brennan

Marshal

BlackmunStevens Souter

Ginsburg

Breyer White

O'ConnorRehnquist

Scalia

ThomasKennedy

Los Angeles

Honolulu

Wellington

Sydney

Perth

Jakarta

Manila

Shanghai

Bangkok

Tokyo

Vladivostok

Irkutsk Moscow

BerlinLondonMadrid

Dakar

NewYork

AnchorageVancouver

ChicagoToronto

BombayTeheran

Cairo

Nairobi

Budapest

CapeTown

Mexico City LimaBogota

Santiago

BuenosAires

SaoPaulo

OstrichChicken

Finch

Robin

EaglePenguin

Salmon Trout Alligator

IguanaWhale

Dolphin

Ant

Cockroach

Butterfly

Bee

Seal

WolfDog

Cat

LionTiger

SquirrelMouse

CowHorse

RhinoElephant

DeerGiraffe

CamelGorilla

Chimp

Kinshasa

11 MARCH 2011 VOL 331 SCIENCE www.sciencemag.org1282

REVIEW

on

May

23,

201

1w

ww

.sci

ence

mag

.org

Dow

nloa

ded

from

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 43 / 62

Page 44: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

枠組み理論の学習HBM はまた、疾病と症状といった、枠組みの理論のような抽象的な因果知識の学習にも用いることが出来る。Manshinghka et al. は疾病と症状の二つのクラスを表現するグラフスキーマと因果リンクが疾病変数から症状変数へと走ることの優先、が、特定の疾病と症状の間の因果リンクの学習を支持する同じデータから学習できることを示した (図 3B, 3C)学習されたスキーマは、また、より下のレベルの特定の因果関係(有向グラフ構造)の学習を大幅に加速する全体像――特定の疾病―症状リンクを特定する前に、疾病が症状の原因となることを発見する――をまず獲得し、そしてその枠組みを特定の知識のギャップを埋めるのに用いる、というのは(ボトムアップとトップダウンである種のループを作れる)人間に特徴的な学習の様式であるこれは子どもの発達や科学の発展に顕著に現れるが、これまでの合理的あるいは統計的な学習モデルには収まらなかった

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 44 / 62

Page 45: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

図 3 A (Tenenbaum et al., Science, 2011)

governing similarity in a domain. Structures ofdifferent forms—trees, clusters, spaces, rings,orders, and so on—can all be represented asgraphs, whereas the abstract principles under-lying each form are expressed as simple gram-matical rules for growing graphs of that form.Embedded in a hierarchical Bayesian frame-work, this approach can discover the correctforms of structure (the grammars) for manyreal-world domains, along with the best struc-

ture (the graph) of the appropriate form (Fig.2). In particular, it can infer that a hierarchicalorganization for the novel objects in Fig. 1A(such as Fig. 1B) better fits the similarities peo-ple see in these objects, compared to alternativerepresentations such as a two-dimensional space.

Hierarchical Bayesian models can also beused to learn abstract causal knowledge, suchas the framework theory of diseases and symp-toms (Fig. 3), and other simple forms of intui-

tive theories (38). Mansinghka et al. (48) showedhow a graph schema representing two classesof variables, diseases and symptoms, and a pref-erence for causal links running from disease tosymptom variables can be learned from thesame data that support learning causal links be-tween specific diseases and symptoms and belearned just as fast or faster (Fig. 3, B and C).The learned schema in turn dramatically accel-erates learning of specific causal relations (the

A

B

C D

True structure

n = 20 n = 80 n = 20 n = 80

Variables

Variables

Abstractprinciples

Structure

Data

Structure

Data

Pat

ient

s

Eve

nts

'diseases'

'symptoms'

1

11

6 7

67

16

162 3 4 51 2 3 7 8 9 10

11 12 1314 15 16

. . .. . .

4 5 6 0.4

6

7 8 9 10 11 12 13 14 15 16C1 C2

Fig. 3. HBMs defined over graph schemas can explain how intuitive theoriesare acquired and used to learn about specific causal relations from limiteddata (38). (A) A simple medical reasoning domain might be described byrelations among 16 variables: The first six encode presence or absence of“diseases” (top row), with causal links to the next 10 “symptoms” (bottomrow). This network can also be visualized as a matrix (top right, links shownin black). The causal learning task is to reconstruct this network based onobserving data D on the states of these 16 variables in a set of patients. (B)A two-level HBM formalizes bottom-up causal learning or learning with anuninformative prior on networks. The bottom level is the data matrix D. Thesecond level (structure) encodes hypothesized causal networks: a grayscalematrix visualizes the posterior probability that each pairwise causal linkexists, conditioned on observing n patients; compare this matrix with theblack-and-white ground truth matrix shown in (A). The true causal networkcan be recovered perfectly only from observing very many patients (n =1000; not shown). With n = 80, spurious links (gray squares) are inferred,and with n = 20 almost none of the true structure is detected. (C) A three-level nonparametric HBM (48) adds a level of abstract principles, represented bya graph schema. The schema encodes a prior on the level below (causal networkstructure) that constrains and thereby accelerates causal learning. Both schemaand network structure are learned from the same data observed in (B). The

schema discovers the disease-symptom framework theory by assigning var-iables 1 to 6 to class C1, variables 7 to 16 to class C2, and a prior favoringonly C1 → C2 links. These assignments, along with the effective number ofclasses (here, two), are inferred automatically via the Bayesian Occam's razor.Although this three-level model has many more degrees of freedom than themodel in (B), learning is faster and more accurate. With n = 80 patients, thecausal network is identified near perfectly. Even n = 20 patients are sufficientto learn the high-level C1→ C2 schema and thereby to limit uncertainty at thenetwork level to just the question of which diseases cause which symptoms.(D) A HBM for learning an abstract theory of causality (62). At the highestlevel are laws expressed in first-order logic representing the abstractproperties of causal relationships, the role of exogenous interventions indefining the direction of causality, and features that may mark an event as anexogenous intervention. These laws place constraints on possible directedgraphical models at the level below, which in turn are used to explain patternsof observed events over variables. Given observed events from several differentcausal systems, each encoded in a distinct data matrix, and a hypothesis spaceof possible laws at the highest level, the model converges quickly on a correcttheory of intervention-based causality and uses that theory to constraininferences about the specific causal networks underlying the different systems atthe level below.

www.sciencemag.org SCIENCE VOL 331 11 MARCH 2011 1283

REVIEW

on

May

23,

201

1w

ww

.sci

ence

mag

.org

Dow

nloa

ded

from

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 45 / 62

Page 46: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

図 3 B, C (Tenenbaum et al., Science, 2011)

Fig. 3B

governing similarity in a domain. Structures ofdifferent forms—trees, clusters, spaces, rings,orders, and so on—can all be represented asgraphs, whereas the abstract principles under-lying each form are expressed as simple gram-matical rules for growing graphs of that form.Embedded in a hierarchical Bayesian frame-work, this approach can discover the correctforms of structure (the grammars) for manyreal-world domains, along with the best struc-

ture (the graph) of the appropriate form (Fig.2). In particular, it can infer that a hierarchicalorganization for the novel objects in Fig. 1A(such as Fig. 1B) better fits the similarities peo-ple see in these objects, compared to alternativerepresentations such as a two-dimensional space.

Hierarchical Bayesian models can also beused to learn abstract causal knowledge, suchas the framework theory of diseases and symp-toms (Fig. 3), and other simple forms of intui-

tive theories (38). Mansinghka et al. (48) showedhow a graph schema representing two classesof variables, diseases and symptoms, and a pref-erence for causal links running from disease tosymptom variables can be learned from thesame data that support learning causal links be-tween specific diseases and symptoms and belearned just as fast or faster (Fig. 3, B and C).The learned schema in turn dramatically accel-erates learning of specific causal relations (the

A

B

C D

True structure

n = 20 n = 80 n = 20 n = 80

Variables

Variables

Abstractprinciples

Structure

Data

Structure

Data

Pat

ient

s

Eve

nts

'diseases'

'symptoms'

1

11

6 7

67

16

162 3 4 51 2 3 7 8 9 10

11 12 1314 15 16

. . .. . .

4 5 6 0.4

6

7 8 9 10 11 12 13 14 15 16C1 C2

Fig. 3. HBMs defined over graph schemas can explain how intuitive theoriesare acquired and used to learn about specific causal relations from limiteddata (38). (A) A simple medical reasoning domain might be described byrelations among 16 variables: The first six encode presence or absence of“diseases” (top row), with causal links to the next 10 “symptoms” (bottomrow). This network can also be visualized as a matrix (top right, links shownin black). The causal learning task is to reconstruct this network based onobserving data D on the states of these 16 variables in a set of patients. (B)A two-level HBM formalizes bottom-up causal learning or learning with anuninformative prior on networks. The bottom level is the data matrix D. Thesecond level (structure) encodes hypothesized causal networks: a grayscalematrix visualizes the posterior probability that each pairwise causal linkexists, conditioned on observing n patients; compare this matrix with theblack-and-white ground truth matrix shown in (A). The true causal networkcan be recovered perfectly only from observing very many patients (n =1000; not shown). With n = 80, spurious links (gray squares) are inferred,and with n = 20 almost none of the true structure is detected. (C) A three-level nonparametric HBM (48) adds a level of abstract principles, represented bya graph schema. The schema encodes a prior on the level below (causal networkstructure) that constrains and thereby accelerates causal learning. Both schemaand network structure are learned from the same data observed in (B). The

schema discovers the disease-symptom framework theory by assigning var-iables 1 to 6 to class C1, variables 7 to 16 to class C2, and a prior favoringonly C1 → C2 links. These assignments, along with the effective number ofclasses (here, two), are inferred automatically via the Bayesian Occam's razor.Although this three-level model has many more degrees of freedom than themodel in (B), learning is faster and more accurate. With n = 80 patients, thecausal network is identified near perfectly. Even n = 20 patients are sufficientto learn the high-level C1→ C2 schema and thereby to limit uncertainty at thenetwork level to just the question of which diseases cause which symptoms.(D) A HBM for learning an abstract theory of causality (62). At the highestlevel are laws expressed in first-order logic representing the abstractproperties of causal relationships, the role of exogenous interventions indefining the direction of causality, and features that may mark an event as anexogenous intervention. These laws place constraints on possible directedgraphical models at the level below, which in turn are used to explain patternsof observed events over variables. Given observed events from several differentcausal systems, each encoded in a distinct data matrix, and a hypothesis spaceof possible laws at the highest level, the model converges quickly on a correcttheory of intervention-based causality and uses that theory to constraininferences about the specific causal networks underlying the different systems atthe level below.

www.sciencemag.org SCIENCE VOL 331 11 MARCH 2011 1283

REVIEW

on

May

23,

201

1w

ww

.sci

ence

mag

.org

Dow

nloa

ded

from

Fig. 3C

governing similarity in a domain. Structures ofdifferent forms—trees, clusters, spaces, rings,orders, and so on—can all be represented asgraphs, whereas the abstract principles under-lying each form are expressed as simple gram-matical rules for growing graphs of that form.Embedded in a hierarchical Bayesian frame-work, this approach can discover the correctforms of structure (the grammars) for manyreal-world domains, along with the best struc-

ture (the graph) of the appropriate form (Fig.2). In particular, it can infer that a hierarchicalorganization for the novel objects in Fig. 1A(such as Fig. 1B) better fits the similarities peo-ple see in these objects, compared to alternativerepresentations such as a two-dimensional space.

Hierarchical Bayesian models can also beused to learn abstract causal knowledge, suchas the framework theory of diseases and symp-toms (Fig. 3), and other simple forms of intui-

tive theories (38). Mansinghka et al. (48) showedhow a graph schema representing two classesof variables, diseases and symptoms, and a pref-erence for causal links running from disease tosymptom variables can be learned from thesame data that support learning causal links be-tween specific diseases and symptoms and belearned just as fast or faster (Fig. 3, B and C).The learned schema in turn dramatically accel-erates learning of specific causal relations (the

A

B

C D

True structure

n = 20 n = 80 n = 20 n = 80

Variables

Variables

Abstractprinciples

Structure

Data

Structure

Data

Pat

ient

s

Eve

nts

'diseases'

'symptoms'

1

11

6 7

67

16

162 3 4 51 2 3 7 8 9 10

11 12 1314 15 16

. . .. . .

4 5 6 0.4

6

7 8 9 10 11 12 13 14 15 16C1 C2

Fig. 3. HBMs defined over graph schemas can explain how intuitive theoriesare acquired and used to learn about specific causal relations from limiteddata (38). (A) A simple medical reasoning domain might be described byrelations among 16 variables: The first six encode presence or absence of“diseases” (top row), with causal links to the next 10 “symptoms” (bottomrow). This network can also be visualized as a matrix (top right, links shownin black). The causal learning task is to reconstruct this network based onobserving data D on the states of these 16 variables in a set of patients. (B)A two-level HBM formalizes bottom-up causal learning or learning with anuninformative prior on networks. The bottom level is the data matrix D. Thesecond level (structure) encodes hypothesized causal networks: a grayscalematrix visualizes the posterior probability that each pairwise causal linkexists, conditioned on observing n patients; compare this matrix with theblack-and-white ground truth matrix shown in (A). The true causal networkcan be recovered perfectly only from observing very many patients (n =1000; not shown). With n = 80, spurious links (gray squares) are inferred,and with n = 20 almost none of the true structure is detected. (C) A three-level nonparametric HBM (48) adds a level of abstract principles, represented bya graph schema. The schema encodes a prior on the level below (causal networkstructure) that constrains and thereby accelerates causal learning. Both schemaand network structure are learned from the same data observed in (B). The

schema discovers the disease-symptom framework theory by assigning var-iables 1 to 6 to class C1, variables 7 to 16 to class C2, and a prior favoringonly C1 → C2 links. These assignments, along with the effective number ofclasses (here, two), are inferred automatically via the Bayesian Occam's razor.Although this three-level model has many more degrees of freedom than themodel in (B), learning is faster and more accurate. With n = 80 patients, thecausal network is identified near perfectly. Even n = 20 patients are sufficientto learn the high-level C1→ C2 schema and thereby to limit uncertainty at thenetwork level to just the question of which diseases cause which symptoms.(D) A HBM for learning an abstract theory of causality (62). At the highestlevel are laws expressed in first-order logic representing the abstractproperties of causal relationships, the role of exogenous interventions indefining the direction of causality, and features that may mark an event as anexogenous intervention. These laws place constraints on possible directedgraphical models at the level below, which in turn are used to explain patternsof observed events over variables. Given observed events from several differentcausal systems, each encoded in a distinct data matrix, and a hypothesis spaceof possible laws at the highest level, the model converges quickly on a correcttheory of intervention-based causality and uses that theory to constraininferences about the specific causal networks underlying the different systems atthe level below.

www.sciencemag.org SCIENCE VOL 331 11 MARCH 2011 1283

REVIEW

on

May

23,

201

1w

ww

.sci

ence

mag

.org

Dow

nloa

ded

from

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 46 / 62

Page 47: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

図 3 D (Tenenbaum et al., Science, 2011)

Fig. 3D

governing similarity in a domain. Structures ofdifferent forms—trees, clusters, spaces, rings,orders, and so on—can all be represented asgraphs, whereas the abstract principles under-lying each form are expressed as simple gram-matical rules for growing graphs of that form.Embedded in a hierarchical Bayesian frame-work, this approach can discover the correctforms of structure (the grammars) for manyreal-world domains, along with the best struc-

ture (the graph) of the appropriate form (Fig.2). In particular, it can infer that a hierarchicalorganization for the novel objects in Fig. 1A(such as Fig. 1B) better fits the similarities peo-ple see in these objects, compared to alternativerepresentations such as a two-dimensional space.

Hierarchical Bayesian models can also beused to learn abstract causal knowledge, suchas the framework theory of diseases and symp-toms (Fig. 3), and other simple forms of intui-

tive theories (38). Mansinghka et al. (48) showedhow a graph schema representing two classesof variables, diseases and symptoms, and a pref-erence for causal links running from disease tosymptom variables can be learned from thesame data that support learning causal links be-tween specific diseases and symptoms and belearned just as fast or faster (Fig. 3, B and C).The learned schema in turn dramatically accel-erates learning of specific causal relations (the

A

B

C D

True structure

n = 20 n = 80 n = 20 n = 80

Variables

Variables

Abstractprinciples

Structure

Data

Structure

Data

Pat

ient

s

Eve

nts

'diseases'

'symptoms'

1

11

6 7

67

16

162 3 4 51 2 3 7 8 9 10

11 12 1314 15 16

. . .. . .

4 5 6 0.4

6

7 8 9 10 11 12 13 14 15 16C1 C2

Fig. 3. HBMs defined over graph schemas can explain how intuitive theoriesare acquired and used to learn about specific causal relations from limiteddata (38). (A) A simple medical reasoning domain might be described byrelations among 16 variables: The first six encode presence or absence of“diseases” (top row), with causal links to the next 10 “symptoms” (bottomrow). This network can also be visualized as a matrix (top right, links shownin black). The causal learning task is to reconstruct this network based onobserving data D on the states of these 16 variables in a set of patients. (B)A two-level HBM formalizes bottom-up causal learning or learning with anuninformative prior on networks. The bottom level is the data matrix D. Thesecond level (structure) encodes hypothesized causal networks: a grayscalematrix visualizes the posterior probability that each pairwise causal linkexists, conditioned on observing n patients; compare this matrix with theblack-and-white ground truth matrix shown in (A). The true causal networkcan be recovered perfectly only from observing very many patients (n =1000; not shown). With n = 80, spurious links (gray squares) are inferred,and with n = 20 almost none of the true structure is detected. (C) A three-level nonparametric HBM (48) adds a level of abstract principles, represented bya graph schema. The schema encodes a prior on the level below (causal networkstructure) that constrains and thereby accelerates causal learning. Both schemaand network structure are learned from the same data observed in (B). The

schema discovers the disease-symptom framework theory by assigning var-iables 1 to 6 to class C1, variables 7 to 16 to class C2, and a prior favoringonly C1 → C2 links. These assignments, along with the effective number ofclasses (here, two), are inferred automatically via the Bayesian Occam's razor.Although this three-level model has many more degrees of freedom than themodel in (B), learning is faster and more accurate. With n = 80 patients, thecausal network is identified near perfectly. Even n = 20 patients are sufficientto learn the high-level C1→ C2 schema and thereby to limit uncertainty at thenetwork level to just the question of which diseases cause which symptoms.(D) A HBM for learning an abstract theory of causality (62). At the highestlevel are laws expressed in first-order logic representing the abstractproperties of causal relationships, the role of exogenous interventions indefining the direction of causality, and features that may mark an event as anexogenous intervention. These laws place constraints on possible directedgraphical models at the level below, which in turn are used to explain patternsof observed events over variables. Given observed events from several differentcausal systems, each encoded in a distinct data matrix, and a hypothesis spaceof possible laws at the highest level, the model converges quickly on a correcttheory of intervention-based causality and uses that theory to constraininferences about the specific causal networks underlying the different systems atthe level below.

www.sciencemag.org SCIENCE VOL 331 11 MARCH 2011 1283

REVIEW

on

May

23,

201

1w

ww

.sci

ence

mag

.org

Dow

nloa

ded

from

因果性の抽象的な理論

因果関係の抽象概念?エージェントが外部から介入したときに分かる因果関係の向き?事象が介入の下にあることを示す特徴?

これらの論理的な法則が下レベルのグラフィカルモデルを制約

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 47 / 62

Page 48: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

HBM

HBM は因果ネットワークの仮説空間に強く価値ある制約を課すが、極めて柔軟でもある:枠組み理論(任意の数の変数クラスとそれらのクラスの中の変数がどのように結合される傾向があるかによって定義)を発見できる。変数クラスの数さえ事前に未知で良い。これは「無限」あるいはノンパラメトリックな階層的モデリングによって可能となっているそのようなモデルは無際限な量の構造を措定するが、有限の自由度のみが与えられたデータセットに関与ベイズ推論に備わる自動的なオッカムの剃刀が、モデルの複雑性とデータの適合をトレードオフし、データが本当に要請するときのみ新しい構造(ここでは変数クラス)を導入させる。

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 48 / 62

Page 49: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

HBM と "the blessing of abstraction"

抽象知識の学習のケーススタディ構造的形式の発見因果枠組み理論転移学習を通じて獲得された他の帰納的制約

を通じ、HBM の抽象概念が、より下位のレベルの学習で必要なデータに比べて相対的に少量のデータから著しく早く学習されることが分かった。これは HBM のより上位レベルの各自由度がその下のレベルの多数の変数に影響を及ぼし、またそれらから証拠を共同出資 (pool)するからこれを HBM の「抽象化のたまもの」と呼ぶ

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 49 / 62

Page 50: Tenenbaum review-20140704-1600

問 3. 抽象的知識の起源

HBM の取り柄

これは知識の起源へのトップダウンの道筋を提供し、生得説において誕生から存在する知識と、経験論や連合説における、抽象概念が構築されるが近似的にすぎず、また多くの経験をお互いの上に重ね合わせ、それらの共通要素をだんだんと取り出すため、ボトムアップで遅い、というのとは異なる。HBM だけが、人間の抽象知識の目覚ましい特性の説明に適しているように見える:

1 経験から学ぶことができ、2 人生の非常に初期に関与し、より個別の学習タスクを制約する

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 50 / 62

Page 51: Tenenbaum review-20140704-1600

オープンクエスチョンズ

Topic

1 紹介論文2 Joshua B. Tenenbaum について3 要約と主要な三つの問題4 チャレンジ: どうやって一だけ聞いて十を知るか?5 問 1. 抽象的知識の役割6 問 2. 抽象的知識の形式7 問 3. 抽象的知識の起源8 オープンクエスチョンズ9 結論

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 51 / 62

Page 52: Tenenbaum review-20140704-1600

オープンクエスチョンズ

知識の起源

HBM は知識の起源についてのいくつかの問に答えることが出来るかもしれない。それでも残る問題: 知識のそもそもの始まりは?

発達心理学者は、全てが後天的に学習可能なのでなく、「エージェント」、「オブジェクト」、「原因」といった抽象的な概念の生得的なストックが経験を切り分ける基礎的な存在論を与えると言う

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 52 / 62

Page 53: Tenenbaum review-20140704-1600

オープンクエスチョンズ

生得的概念の獲得

確かに、心的表現のいくつかの側面は生得的だろうが、ベイズ派の理論家は最も抽象的な概念でさえ原理的には学習しうることを議論した。

たとえば、多くの特定の因果システムを横断して汎化するHBM は、有向グラフの構造上の論理的な制約として表現された抽象概念としての因果性を、経験から学習可能 (図 3D)「抽象概念のたまもの」として、これらの制約は各ネットワークの振る舞いの小さいサンプルからだけで生じ得、今度は新しいシステムでより効率的な因果学習を可能とする。

発達研究での今後の課題:このような分析が、エージェント、オブジェクトや原因の概念に拡張できるのか、子どもは実際にそのようにこれらの概念を獲得するのか

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 53 / 62

Page 54: Tenenbaum review-20140704-1600

オープンクエスチョンズ

直感理論の表現

認知発達にはもっと重要な問題がある:常識の核をなす領域の枠組み理論:

直感物理学、直感心理学、直感生物学最初のステップは

心の理論の発達の説明子どもの明示的な偽の信念や好みの個人差を理解

直感的生物学の本質論的理論の起源や直感物理学での磁力に関する初期の信念

最も手強いチャレンジは、直感理論の全ての内容の形式化にはチューリング完全な合成的な表現、確率的一階論理や確率的プログラミング言語を必要としているように見えるところにあるそのような柔軟な表現を用いて効果的に学習を制約するやり方はまだ全く明らかになっていない

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 54 / 62

Page 55: Tenenbaum review-20140704-1600

オープンクエスチョンズ

リバースエンジニアリングとマーの三レベル

心のリバースエンジニアリングには複数のレベルの分析への展開が必要Marr は次の三つのレベルを統合する分析を主張:

計算論的レベル computational level認知システムが解くべき問題と、自然環境での利用可能な入力からの解の計算のための原理

アルゴリズムレベル algorithmic levelその解を生み出すため実行される手続きと、アルゴリズムが操作する表現やデータ構造

実装レベル implementation level脳や機械の回路においてアルゴリズムやデータ構造がどのように実現されるか

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 55 / 62

Page 56: Tenenbaum review-20140704-1600

オープンクエスチョンズ

計算論的・アルゴリズムレベルの間

多くのベイズモデルは計算論的レベルのみに取り組み、

与えられた環境での近似的に最適な統計推論

を扱い、純粋に帰納的な観点から認知を特徴付け、計算がいかに実行されるかについては触れず本論文での学習や発達の HBM は計算論的・アルゴリズムレベルの間の見方を狙っている:

客観的で固定的な世界の統計学ではなく、世界の構造に関する学習者の主観的でダイナミックに成長する心的表現の上に定義され

た、確率モデルでの近似的に最適な推論としての認知

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 56 / 62

Page 57: Tenenbaum review-20140704-1600

オープンクエスチョンズ

ベイズモデルのアルゴリズムと実装ベイズモデルのアルゴリズムと実装については研究が進んでいる大規模なモデルでの厳密推論の複雑性は、動作するすべてのベイズ AIシステムがそうであるように、これらの二レベルがせいぜいベイズ計算を近似できるだけであることを含意

心はどのような近似アルゴリズムを用いているのかそれらのアルゴリズムは確率的 AIにおける近似の設計にどのように関連するのか神経回路ではそれがどのように実装されているのか

最近の研究はモンテカルロ法や確率的サンプリングに基づいた近似を、いかにしてベイズ推論が心や脳や機械で、全てのレベルに渡って実際に働くことが出来るかの理解のために挙げている豊かに構造化されたモデルでのモンテカルロ推論は可能だがとても遅いもっと効率的なサンプラーの構築は目下の大きな課題

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 57 / 62

Page 58: Tenenbaum review-20140704-1600

オープンクエスチョンズ

構造化された記号的知識の神経回路上への実装

残る最も大きな障害 いかにして構造化された記号的知識が神経回路で表現され得るか

コネクショニストのモデルは脳がそのような豊かな知識をエンコードしていることを否定して問題を回避

これは記号や構造が思考に本質的であるという認知科学と人工知能の強いコンセンサスに反する

構造的記号知識の神経回路上の実装は認知神経科学全般におけるもっとも重要な計算論的チャレンジであり、我々の近代的な心身問題

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 58 / 62

Page 59: Tenenbaum review-20140704-1600

結論

Topic

1 紹介論文2 Joshua B. Tenenbaum について3 要約と主要な三つの問題4 チャレンジ: どうやって一だけ聞いて十を知るか?5 問 1. 抽象的知識の役割6 問 2. 抽象的知識の形式7 問 3. 抽象的知識の起源8 オープンクエスチョンズ9 結論

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 59 / 62

Page 60: Tenenbaum review-20140704-1600

結論

まとめ豊かに構造化された階層的な生成モデルの上でのベイズ推論の言葉で、認知とその起源の理解へのアプローチを概説人間の精神の働きと発達の完全な理解にはほど遠いが、ベイジアンアプローチはいくつかの意味で寄与

1 認知を帰納的問題の解として構成し、自由パラメータやアドホックな前提を最小数のみ持つ理にかなった定量的な思考のモデルを構成するための統一的な数学的言語を約束

2 なぜ心が心として働くのかを、実世界の環境の構造に適応した合理的な推論の言葉で、心が世界について何を知っているのか、について、

抽象的なスキーマと、汎化がいかに制約されるかを通じて間接的にのみ浮き彫りになる直感的理論の言葉で、

それぞれ理解するためのより深いフレームワーク

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 60 / 62

Page 61: Tenenbaum review-20140704-1600

結論

二者択一を超えて

ベイズ的アプローチは、認知科学をずっと形成し制限づけてきた経験論 vs. 生得説(合理論)領域一般 vs. 領域固有論理 vs. 確率記号 vs. 統計といった古典的な二者択一 (either-or)

を超えて進展させるその代わりに、リバースエンジニアリングのもっと難しい問いを立て、より人間的な AI システムの構築に役立つかもしれない、十分に豊かな答えを出すことができる

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 61 / 62

Page 62: Tenenbaum review-20140704-1600

結論

より重要な問い

1 いかにして領域一般の学習と表現のメカニズムが、領域固有の知識のシステムを構築できるのか?

2 いかにして構造を持つ記号的な知識が統計学習を通じて獲得できるのか?

浮かび上がる答えは認知システムを発達させるための新しい方法を示唆強力な抽象概念は、それが制約づけるより具体的な知識の学習と同時またはそれに先だって、驚くほど迅速に学習される構造化された記号表現は、伝統的な、固定され、静的で、変更不能で、もろい、といった性質を持つ必要はないそれらは、確率論的な枠組みに埋め込まれることで、経験されるスパースでノイジーなデータに応えて、ダイナミックかつ頑健に成長していける

高橋達二 (TDU) 論文紹介: How to Grow a Mind 2014-Jul-04-Fri AGI 輪読会 62 / 62