17.04.21_論文紹介_decision bireducts and decision reducts - a comparison

73
Decision bireducts and decision reducts a comparison Sebastian Stawicki, Dominik Slezak, Andrzej Janusza, Sebastian Widz International Journal of Approximate Reasoning 84, 75-109, 2017 紹介者:Motoyuki Oki 2017.04.21 雑誌会

Upload: ntt-communications

Post on 22-Jan-2018

95 views

Category:

Data & Analytics


4 download

TRANSCRIPT

Page 1: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

Decision bireducts and decision reducts – a comparisonSebastian Stawicki, Dominik Slezak, Andrzej Janusza, Sebastian WidzInternational Journal of Approximate Reasoning 84, 75-109, 2017

紹介者:Motoyuki Oki

2017.04.21 雑誌会

Page 2: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 2

00. 概要

• この論⽂では、私たちはdecision bireductの概念を改訂する• この概念について私たちは新しい解釈を⽰し、いくつかの重要で実⽤的な事実を証明する• 私たちはいくつかのdecision bireductの計算のためによく知られたアルゴリズムを改良⽅

法を説明する• 私たちの研究の完全性を達成するために、私たちはdecision bireductsとapproximate

decision reducts間の関係を調査する• それら2つのアプローチの異なる定式化を⽐較し、それらの間の類似点を指摘する• 私たちはデータから最適なdecision bireductsとapproximate decision reductsを検索す

るのがNP困難に関わる新しい結果を報告する• 最後に、私たちは分類モデルとしての効率的な単純なアンサンブルを構築し、decision

bireductの有⽤性を説明する実験の新しい結果を⽰す

読んだ動機・Slezakが2010年ごろから研究しているbireduct研究の総まとめ論⽂のようなので興味・bireductに基づくルール抽出とその効果を確認

Page 3: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 3

00. ⽬次

• 01. Introduction• 02. Basics off decision reducts and decision

bireducts• 03. Heuristic search for decision bireducts• 04. Decision bireducts and approximate decision

reducts• 05. Conclusions

Page 4: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 4

01. Introduction

• ラフ集合理論の基礎的な概念の1つとして発展したDecision Reductsが知識発⾒や属性選択においてたくさんのアプリケーションがある

• Decision Reductsのさまざまな拡張の中に、ノイズがありサイズが⼤きいデータを扱うために、approximate decision reductsがある– ある閾値を満たす決定情報を保存し、それ以上削減

できない属性の部分集合である• 初期のdecision reductsより正確性が適度に低い属性の

部分集合であり、実世界の応⽤では、ロバストでかつ少ない属性を保持するため好まれている

Page 5: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 5

01. Introduction

• 過去の研究[9](Slezak+,2011)では、異なるapproximate decision reductsに基づいた分類器のアンサンブル分類器が、同じ対象を誤分類してしまうということが議論された– 理由として、上記の関数が全体的なデータのサマリ

によって属性の部分集合を評価するため、特定の対象で誤分類が起こってしまう

• この問題に取り組むために、BoostingやBaggingのような結合⽅法について考えられている

Page 6: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 6

01. Introduction

• Decision bireductsがdecision reductの新しい拡張として提案された– 属性の部分集合と対象の部分集合のペア– つまり,属性の部分集合により正しい分類を保証す

る対象でペアは構成されている• その概念は冗⻑でない属性の部分集合と対象の部分集合

によって定義される

Page 7: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 7

• はじめにstandard/approximate decision reductとの⽐較し、decision bireductを説明する

• データから最も興味深いbireductsを抽出するための問題に対するアルゴリズムの基礎を構築するためのいくつかの新しい解釈を説明する

• 新しいデータを分類するときにロバストなままである可能性の⾼い決定ルールの集合を作ることを考える

• この論⽂では古典的なラフ集合理論のみを考える– すべての属性はカテゴリカル– この研究を⼀般化することは容易に考えられる

• 提⽰する理論的な事柄のほとんどが1つのdecision bireductの特性に焦点をあてる

• Decision bireductのアンサンブルを構築するいくつかのアイデアを議論し、これまで公開していなかった実験結果を⽰す

01. Introduction

Page 8: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 8

2.1. Decision reducts

定義1:決定表U:対象の集合A:条件属性の集合d:決定属性Va:属性aの値集合a :関数 U → Va

定義2:対象の識別B:条件属性の集合Aの部分集合|U|:Uの基数

というようなa∈Bが存在する⇔ 対象ui, ujはBによって識別されるという

Page 9: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 9

2.1. Decision reducts

定義3:識別不能関係

上記のケースのとき、属性集合Bによりuiとujが識別不能であるという

:IND(B)による対象Uの分割IND(B)により決定される同値クラス

:IND(B)に含まれる対象uと識別不能な対象の集合同値類

(略記: )

(略記: )

Page 10: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 10

2.1. Decision Reducts

定義4:consistent

・属性集合Aが のようなすべての対象を識別する・属性集合Aによって識別不能な対象ui, ujは同じ決定属性値を持つ

is consistent ⇔

Decision Rules

定義5:Decision Reduct

Page 11: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 11

2.1. Decision Reducts

決定属性⇒ 2つのdecision reductsがある{O,T,W} and {O, H, W}

表1:データの例

Page 12: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 12

2.1. Decision Reducts

⇒ 2つのdecision reductsから決定ルールが⽣成される表2:抽出された決定ルール群

Page 13: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 13

2.1. Decision Reducts

定義6:Positive Region(正領域)

属性集合Bにより、唯⼀に決定クラスが分類され得るすべての対象で構成される。Bによる同値クラスを使って、以下のように書き換えることができる

結論と属性間の依存性の程度を表現するための関数として次のγが使われる。UのうちBによる分割で⽭盾のない対象がどの程度あるかを測る

Page 14: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 14

2.1. Decision Reducts

定義7:γ-decision reduct

⇔ を満たすこれ以上減少できない属性部分集合⇔ POS(B) = POS(A)をみたす

特別な決定属性値 ʻ#ʼ を識別不能な対象の決定属性値とする。 とB⊂Aで に修正された決定表を作る。

γ-decision reductを得る⽅法:元の決定表を修正した⽭盾のない決定表を作り、decision reductを求める

Page 15: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 15

2.1. Decision Reducts

表3:B={O,T,H}の場合の修正された決定表元の決定属性

例: 4と14 or 5と6は元の決定属性が異なるので、#となる

Page 16: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 16

2.1. Decision Reducts

表4:γ-decision reductsから⽣成されたルール群

γ-decision reductは修正された決定表のすべての属性で構成される

Page 17: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 17

2.2. Decision bireducts

定義8:Decision bireducts

decision bireduct ⇔

⇒ 2. Bの部分集合がないこと⇒ 3. Xの上位集合がないこと

d(ui)≠d(uj)であるすべてのペアui, ujをBが識別する

Page 18: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 18

2.2. Decision bireducts

Proposition 1:2つの単調性の性質

Proposition 2:decision reductとの関係

証明・Bがdecision reduct ⇒ BによりUのすべてのペアを識別できるので、(U,B)はdecision bireduct・(U,B)がdecision bireduct ⇒ であり、となる がないため、Bはdecision reduct

Page 19: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 19

2.2. Decision bireducts

Decision reductの⽤語を使って、decision bireductsは表現される

Proposition 3

decision bireductを探索するときに、Proposition 3はdecision reductを探索するために発達したアルゴリズムを適⽤するのに役⽴つ

Page 20: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 20

2.2. Decision bireducts

Proposition 4:decision bireductの性質

1. Bによる分割で、 X∩Eにあるすべての対象は同じ決定属性値を取る2. Bによる分割で、Eにあるすべての対象はXに含まれる3. Xは決定ルールの集合のサポートの和集合と等しい

Page 21: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 21

2.2. Decision bireducts

• 定理4はdecision bireductがどのように決定ルールを⽣成するかを⽰している

• ⾔いかければ、decision bireductが決定ルールの集合によって表現される

表5:decision bireductから⽣成された決定ルール集合

Page 22: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 22

2.3. γ-Decision bireducts

定義9:γ-Decision bireducts

Decision bireductの定義8を修正することでγ-Decision bireductが考えられる

(X, B) がγ-decision bireduct ⇔

Decision bireductとの違いは、γ-decision bireductに所属する対象はXだけでなく、Uの対象とも識別されることが必要である点

Page 23: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 23

2.3. γ-Decision bireducts

Proposition 5:2つの単調性の性質

Proposition 6:decision reductとの関係

γ-decision bireductの特徴- Uにアクセスする必要があるので、ストリームデータ上で、γ-

decision bireductを計算することはできない- 正領域との類似性:対象uがPOS(B)に所属するときに限り、その対

象uはXに加えられる

Page 24: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 24

2.3. γ-Decision bireducts

Proposition 7:γ-decision bireductの性質

Proposition 7から、・γ-decision bireductを探索する問題は、修正された決定表 でのdeicision reductの探索する問題に置き換えれる

・γ-decision bireductはγ-decision reductの場合と同様に、決定ルールとして解釈できる:

Page 25: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 25

2.3. γ-Decision bireducts

表6:表1のデータにおけるdecision bireducts と γ-decision bireducts(B = {O,H})

表7:B={O,H}のγ-decision bireductから⽣成されるルール集合

Decision-bireductは属性集合Bで、異なる対象の部分集合で構成される。Decision-bireductのほうがXは⼤きい

Page 26: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 26

3.1. Boolean representation

• Decision-bireductsを探索するためのたくさんの⽅法が考えられる

• まず、ブーリアン⽅式で決定表の識別可能性を表現する

• Decision-bireductsもこれの類推で表現される

Proposition 8:decision bireductのブーリアン⽅式命題変数

Page 27: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 27

3.1. Boolean representation

Proposition 8の証明P is an implicant of τ ⇔PがいつもTrueであるという事実はいつもτもTrueであると評価される。

を考え、最初にを証明する。(⇒) Pがτ_{bi}のimplicantじゃないなら、PがTrueのときにτ_{bi}がFalseがある。 がFalseになる節があるはず。fはdisjunctionなので、すべての要素がFalseであるのがあるはず。PがTrueでiとjはFalseであるので、それはiかjのどちらもPの⼀部ではない。PはU\Xの対象に対応する変数を含む。ui, uj ∈ Xとなる。Pはiとjが異なる結論部になる変数aを含まない。a∉Bとなる。これはuiとujがBで識別されないということ。それゆえ は保たれないので⽭盾。(順次やればできるはずなので省略…)

Page 28: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 28

3.1. Boolean representation

• Proposition 8はdecision reductの数よりもdecision bireductの数がかなり多いことを⽰す

• decision bireductsのすべての集合 は CNF(連⾔標準形)とDNF(選⾔標準形)で表現される

表8:表1のすべてのdecision bireductを表すCNFとDNF

Page 29: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 29

3.1. Boolean representation

• Proposition 8はdecision bireductを作るためには、属性と対象が等しく重要であることを⽰しており、それは以下の定理を引き起こす

Proposition 9

新しい決定表:新しい属性集合:

Page 30: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 30

3.1. Boolean representation

表9:Proposition 9 の決定表の例

これは、⼤きなデータでは明⽰的に実体化するのはできないので、より効率的なアルゴリズムの発展の始まりとして扱われる

Page 31: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 31

3.1. Boolean representation

• γ-decision bireductで、Proposition 9に類似した表現を考える

• まずProposition 8への類似したブーリアン表現を持つ– それはdecision bireductよりも制限がある– 2つの対象を識別する属性がないなら、それらの対象

がγ-decision bireductに含まれないProposition 10:γ-decision bireductのブーリアン⽅式命題変数

Page 32: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 32

3.1. Boolean representation

• γ-Decision bireduct も CNF(連⾔標準形)とDNF(選⾔標準形)で表現される

表10:表1のすべてのγ-decision bireductを表すCNFとDNF

• decision bireductよりもCNFは⻑く、DNFは短い(=γ-decision bireductが⼩さい)

• ⻑さの⽐較により、よりdecision bireductより制限があることを⽰している

Page 33: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 33

3.2. Ordering algorithms

• Decision bireductを探索するための⽅法を考える• 縮約探索のためにラフ集合で発達した古典的なアルゴリ

ズムの拡張で、decision-bireductを取り出す(Alg.1)

σ:置換(順列)

:対象uを追加してもBで識別できるなら

:aを削除したBで識別できるなら

:初期化

Page 34: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 34

3.2. Ordering algorithms

Proposition 11:Alg.1のアウトプットはdecision-bireductである。さらに、Alg.1のアウトプットが (X,B)になる置換σが存在する証明(1)置換σを与える。最初はX0={},B0=A。Loop処理で、属性が削除されるか対象が追加されるかが⾏われるが、常に条件が満たされるかをチェックするためは最後まで保たれる。最後のペア( )が満たしているかをチェックするために が冗⻑じゃなく も減らないことを⽰す。定義8の条件2と3を使って⽭盾によってこれを証明する(省略)

Page 35: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 35

証明(2)(X,B)となる置換σがあることを⽰すために、次を考える

(a)は最初のステップでX0=∅なので、属性が選ばれて となる。次の(b)で、|X|ステップのあと、 となる次の(c)では、残りのBを減らすことができないので、変化なし最後の(D)では、追加すると識別できなくなるので、追加されない。結果(X,B)となる置換を作ることができる□

3.2. Ordering algorithms

Page 36: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 36

• ある事前に指定した条件のdecision-bireductを⼿に⼊れるために置換σを制御するのは難しい– 例:|X|, |B|, |X|と|B|の⽐率

• 部分的に置換を⽣成する⽅法をモデル化が必要• 例えば、対象より属性を選択する可能性を制御するパラ

メータを考える• 置換σが始めにたくさんの属性を含んでいるなら、少な

い属性でかつカバーされない対象がたくさんあるdecision-bireductを⼿に⼊れやすい

• このような可能性はRatioを呼ばれ、後にこのパラメータの違いがBとXのサイズにどのように影響するかが説明される

3.2. Ordering algorithms

Page 37: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 37

• γ-decision bireductの場合もほぼ同じアルゴリズム(Alg.2)で探索できる

3.2. Ordering algorithms

Page 38: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 38

3.2. Ordering algorithms

Proposition 12:Alg.2のアウトプットはγ-decision-bireductである。さらに、Alg.2のアウトプットが (X,B)になる置換σが存在する

証明Proposition 11と同様である

Page 39: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 39

3.2. Ordering algorithms

表11:Alg.1の結果の例

表12:Alg.2の結果の例

Page 40: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 40

3.2. Ordering algorithms

図1:decision-bireductの計算過程の例 図2:γ-decision-bireductの計算過程の例

Page 41: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 41

• サンプリングアプローチとされるもう1つの⽅法を説明する(Alg.3)

• ⾼次元データでのbireductの計算を速くすることが狙い

3.3. Sampling algorithms

:対象u_{*}を含んでいる決定クラス

u_{*}を含む決定クラスとEの共通集合を追加する

3⾏⽬で⼿に⼊れられる縮⼩された決定表により、コンパクトなif-thenルールになる

Page 42: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 42

Proposition 13:Alg.3のアウトプットはdecision-bireductである。さらに、それぞれのdecision-bireductがAlg.3の結果として⼿に⼊れることができる

3.3. Sampling algorithms

証明(2)あるdecision bireduct(X,B)を考える。A*=Bとおく。U*はXの代表的な対象を取って構成するとする。(X,B)がdecision bireductなので、XはBによる識別不能クラスの少なくとも1つの対象を持つ必要がある。U*は正確にそれを持つ。アルゴリズムのステップで、reduct Bを⼿に⼊れる。そのBはXにとって単純化できないので、U*にとっても単純化できない。よって、Bは唯⼀のreductとなる

Page 43: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 43

• Alg.3の計算例を表13,14で説明する

3.3. Sampling algorithms

表13. の決定表の識別不能クラス

表14. U_{*}の集合

からdecision reduct {T,H}で以下のbireductが⼿に⼊れられる

Page 44: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 44

• 適切なサンプリングメカニズムと組み合わせることで、多様な対象や属性に基づくdecision bireductのアンサンブルを導きうる

• Alg.3の⽅法は特定の置換σを使って、Alg.1のフレームワークでモデル化もできる– はじめにいくつかの属性– 真ん中にすべての対象の並び– 最後に残りの属性

• この類推は、期待した属性や対象のサイズのbireductを探索するためのパラメータを定義するのに役⽴つ

3.3. Sampling algorithms

Page 45: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 45

• そのようなパラメータは の期待値に対応する• Alg.3の4⾏⽬で⼩さい属性集合が引かれたら、識別不能

クラスは⼩さくなり、結果⼩さいXのbireductが⼿に⼊る

• 逆に、⼤きい属性集合が引かれたら、対応する識別不能クラスは1つの対象で構成されやすくなり、bireductのBは古典的なdecision reductに対応しやすくなる

3.3. Sampling algorithms

Page 46: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 46

3.3. Sampling algorithms

• γ-decision bireductの場合もほぼ同じアルゴリズム(Alg.4)で探索できる

Proposition 14:Alg.4のアウトプットはγ-decision-bireductである。さらに、それぞれのγ-decision-bireductがAlg.4の結果として⼿に⼊れることができる

Page 47: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 47

3.3. Sampling algorithms

• Alg.4の計算例を表16,17で説明する表16. の決定表の識別不能クラス

表17. U_{*}の集合

からdecision reduct {T,H}で以下のbireductが⼿に⼊れられる

Page 48: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 48

• 表18:Alg.3とAlg.4のいくつかの計算結果

3.3. Sampling algorithms

Page 49: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 49

• このアプローチのメインの利点が前節のアルゴリズムAlg.1,2とくらべて計算効率性である

• このアプローチの最悪ケースでは– T:reductの計算アルゴリズムの複雑性– A_{*}が⼩さいなら、最悪ケースよりもかなり⼩さ

くなる(= )

3.3. Sampling algorithms

Page 50: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 50

4.1. Examples of approximate decision reduct formulations

• Approximate decision reduct を計算するための基準は閾値と属性の部分集合により抽出される情報の程度を評価する関数の値に基づく

• F-decision ε-reductに焦点をあてる– :情報の程度を評価する関数– ε:どの程度の情報が落ちるのを許すかの閾値

定義10:Relative F-decision ε-reduct

:Aのべき集合:単調⾮減少関数

はa relative F-decision ε-superreductである⇔はa relative F-decision ε-reductである⇔ and

この不等式を満たすBの部分集合がない

Page 51: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 51

はa F-decision ε-superreductである⇔

• 部分集合Bを直接評価する別の定義を定める

4.1. Examples of approximate decision reduct formulations

定義11:F-decision ε-reduct

はa F-decision ε-reductである⇔ andこの不等式を満たすBの部分集合がない

• Fのいくつかの例を考える• その1つがγ:

Page 52: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 52

4.1. Examples of approximate decision reduct formulations

定義12:Majority function

特定の識別不能クラスと各決定クラスとの共通集合の頻度の最⼤値の平均。Bの正確性をモデル化

定義13:Relative gain function

各決定クラスでの特定の識別不能クラスと各決定クラスとの共通集合の頻度の最⼤値の平均

Page 53: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 53

4.1. Examples of approximate decision reduct formulations

• ⽭盾のない決定表では、• F-decision ε-reductsのεの値は、分類器の正確性を制

御する閾値• εを⾼くすると、⼩さい属性集合BもF-decision ε-

reductsに含まれ、⽣成される決定ルールも短くなる• εを低くすると、より⼤きな属性集合BがF-decision ε-

reductsに含まれやすくなり、⽣成される決定ルールも複雑になりやすい

Page 54: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 54

• F-decision ε-reductsの探索に関わる計算複雑性を考える

• 多項式還元を使って、最⼩のreductを⾒つける問題がNP困難であることを証明する

4.1. Examples of approximate decision reduct formulations

Proposition 15最⼩のrelative γ-decision ε-reductを⾒つけるのはNP困難である証明グラフG(V,E)の⽀配集合問題に置き換えてNP困難問題であることを証明する・⽀配集合問題:頂点の部分集合Dのうち、Dに属さない全ての頂点に対して少なくとも1つのDに属する頂点が隣接するとき⽀配集合と⾔い、⼤きさ最⼩の⽀配集合を⾒つける問題のこと

Page 55: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 55

4.1. Examples of approximate decision reduct formulations

Proposition 16最⼩のγ-decision ε-reductを⾒つけるのはNP困難であるProposition 17最⼩のrelative M-decision ε-reductを⾒つけるのはNP困難であるProposition 18最⼩のM-decision ε-reductを⾒つけるのはNP困難であるProposition 19最⼩のrelative R-decision ε-reductを⾒つけるのはNP困難であるProposition 20最⼩のR-decision ε-reductを⾒つけるのはNP困難である

Page 56: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 56

• 最も良いdecision bireductとは?– 暗黙の仮定として、⽣成過程では対象と属性の数が最⼩化

されるように⽣成される– 属性の数の最⼩化とカバーされない対象の数最⼩なのが直

感的に良いと理解される• 不均衡なデータ(ある決定クラスが極端に少ないなど)では

対象の基数に基づく⽅法では不⼗分– マイノリティな決定クラスに所属する対象にもっと注意を

払うべき• 我々は属性と対象の数のバランスに関して、かなりたくさん

の最適な基準を考えることができる• 過去の研究では、decision bireductを評価するために、次の

関数を最⼩化した

4.2. Searching for optimal decision bireducts

Page 57: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 57

• 別の評価の観点は、decision bireductのアンサンブルを考えるとき、すべてのUをカバーできるようにdecision bireduct同⼠が助けあうように⽣成することが考えられる– このアプローチは次の節で説明する

• 我々はdecision bireductがたくさんのカバーされない対象を⽣成しないようないくつかの制約保証を定式化する

4.2. Searching for optimal decision bireducts

定義14:decision ε-bireduct⇔

定義15:γ-decision ε-bireduct⇔

Page 58: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 58

• 我々はdecision ε-bireductを探索する複雑性を調査する⽅法は、approximate decision reductsの共通の何かがあると考える

• γ-decision ε-bireductについての下記のNP困難問題

4.2. Searching for optimal decision bireducts

Proposition 21 1.

2. 属性数最⼩のγ-decision ε-bireductを⾒つけるのはNP困難である

Page 59: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 59

4.2. Searching for optimal decision bireducts

Proposition 23 最⼩の属性数のDecision ε-bireductを⾒つけるのはNP困難である

Proposition 22

⇔ (X,B)がdeicion ε-bireductであり、Bの基数より⼩さい属性のdecision ε-bireductがない

• 我々はdecision ε-bireductとM decision ε-bireductの関係を研究し、同様にNP困難問題であることを証明

Page 60: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 60

• 表1に基づく例を考える

4.2. Searching for optimal decision bireducts

Yesが9個、Noが5個

ε≧5/14だと、M-decision ε-reductは空集合となり、デフォルトルール(Yesというルール)のみが⽣成される

ε=4/14より⼩さいと、M-decision ε-reductは複数の集合となり、興味深い結果となる⇒表19へ

Page 61: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 61

4.2. Searching for optimal decision bireducts

decision ε-bireductのほうが数が多いアンサンブルを構築する際に、⼩さい属性の数のほうがシンプルで⼀般的なルールとなり得る

表19:M decision ε-reductとdecision ε-bireductの⽐較

Page 62: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 62

• データのそれぞれの対象が少なくとも2つによってカバーされるような3つのdecision bireductsでアンサンブルを構成するのを考えると、M-decision ε-reductで構成するのは不可能

• decision ε-bireductなら637通り作れる• ルールのシンプルさが未知データにも良い分類精度を提供するだろ

う• 3つのうち2つがいつも正しいなら、シンプルな投票により精度の妥

当性が保証される

4.2. Searching for optimal decision bireducts

表20:decision ε-bireductによるアンサンブルの構成例

Page 63: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 63

4.3. Searching for optimal ensemble of decision bireducts

• Decision bireductsの最も有望なアプリケーションの1つがアンサンブル分類器の構築である– できるだけ様々な属性を含むreductの分類器のアン

サンブルを考えたい• Decision bireductでは、データの異なる部分を使う分

類器のアンサンブルを構築でき、訓練データを均⼀にカバーする

• さらに、decision bireductのアンサンブルはより短いルールで構成され得る– 個々のルールは完璧なものではないが、お互いを⼗

分に助け合う

Page 64: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 64

4.3. Searching for optimal ensemble of decision bireducts

• UCI から、3つのデータ(|U|,|A|,|D|)を利⽤した– Zoo(267,22,2), lymphograpy(101,17,7),

spect(148,18,4)• 置換σを制御するパラメータratioを使う

– 値が⼤きいと、置換σの順列の中で始めのほうに多くの属性が現れる

– 中⽴値は|U|/|A|。属性と対象が順列の中で均⼀に⽣成される

– 実験では0から2|U|/|A|まで変化させる

Page 65: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 65

4.3. Searching for optimal ensemble of decision bireducts

• 図5の左:Decision reduct と decision bireductにある属性数の⽐較(各パラメータで1000回計算)– Ratio = 0 はdecision reducts– Ratioが⼤きいほど属性が置換σの始めに並ばれやす

く、Xが⼩さいときに、属性が減っていく傾向にある

Page 66: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 66

4.3. Searching for optimal ensemble of decision bireducts

• 図5の右:Decision reduct と decision bireductにある対象数の⽐較(各パラメータで1000回計算)– Ratio = 0 はdecision reducts– Ratioが⼤きいほど対象が置換σの後ろに並ばれやす

く、Xに加わる数が減る

Page 67: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 67

• 属性数と対象数の関係をさらに調査するために、2つの指標を調べた

• 1. Description Length

• 2. 2つのDecision bireductのOverlap Size:

– Overlap sizeが⼩さいなら、より対象集合Uをカバーしている可能性が⾼い

4.3. Searching for optimal ensemble of decision bireducts

Page 68: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 68

4.3. Searching for optimal ensemble of decision bireducts

• 図6の左:Decision reduct と decision bireductにあるDescription Lengthの⽐較– Ratio = 0 はdecision reducts– データによって傾向が違うが、decision reductより

は⼤きい

Page 69: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 69

4.3. Searching for optimal ensemble of decision bireducts

• 図6の右:Decision reduct と decision bireductにあるOverlap sizeの⽐較– Ratio = 0 はdecision reducts– Ratioが⼤きいほど、1つのXは⼩さくなりやすいので

、Overlapは⼩さくなる

Page 70: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 70

• Ratioと分類器のアグリゲーションの影響を調べた• 1サイクル(1000個のdecision bireductsを⽣成し、ルール

を⽣成。5-fold-cross validationを⾏い評価)を各Ratioごとに10回⾏った

• テストデータの対象の決定クラスを予測するために、2つのアグリゲーション法を使⽤– Majority Voting– Balanced Support Weighted Voting:Supportの⼤きさ

で重み付け• 決定クラスがかなり不均衡であるので、分類器を評価するた

めに2つの指標を使⽤– Mean Accuracy:正しく分類された⽐率– Balanced Accuracy:各決定クラスの中で正しく分類され

た⽐率の平均値

4.3. Searching for optimal ensemble of decision bireducts

Page 71: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 71

4.3. Searching for optimal ensemble of decision bireducts

• 表21– Random Forest / Bagging Logistic Regressionと

⽐較– 機械学習における⼈気のあるアプローチに匹敵する

スコア

Page 72: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 72

• 図7と8:Spectデータのスコアの結果

4.3. Searching for optimal ensemble of decision bireducts

• 図7と8:Zooデータのスコアの結果

Page 73: 17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison

2017.04.21 雑誌会 73

05. Conclusions

• Decision bireductの探索⽅法に関する⽅法を提案• 多様でロバストなルールを⽣成する⽅法を提案• ある種の条件満たしながらdecision bireductを探索する

ための⽅法を– Future Workとしては、最適な基準の理論的基礎や

計算の複雑性、実⽤的なヒューリスティックアルゴリズムなどが関係する

• 他の種類のbireductの研究を続ける– Information bireducts:教師なし学習

• 様々なアンサンブルの作り⽅を実験する• bireductの性質の調査する• 様々なタイプのデータにも適⽤する