計算型智慧論文報告 building optimal regression tree

24
Building optimal regression tree by ant colony system – genetic algorithm Application to modeling of melting points 計算型智慧 論文報告 100502205 資工三 B 楊翔雲

Upload: shiang-yun-yang

Post on 24-Dec-2014

192 views

Category:

Science


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: 計算型智慧論文報告 Building optimal regression tree

Building optimal regression tree by ant colony system – genetic algorithm Application to modeling of melting points

計算型智慧 論文報告100502205 資工三 B 楊翔雲

Page 2: 計算型智慧論文報告 Building optimal regression tree

Twenty Questions

▪ 在二十個問題內,能猜出心中想的目標角色。

▪ http://en.akinator.com/

2014/5/6Morris' blog 2

Page 3: 計算型智慧論文報告 Building optimal regression tree

決策樹

▪ 決策樹的分類

▪ Classification Tree:分類樹分類,輸出 “類型”

▪ Regression Tree:回歸樹關係程度,輸出 “數值”

▪ CART (Classification And Regression Tree) 即上述兩個的總稱

2014/5/6Morris' blog 3

Page 4: 計算型智慧論文報告 Building optimal regression tree

CART

▪ 大量數據可以快速算出結果

▪ 易於理解 和 解釋

▪ 可以用統計數據驗證模型

▪ 最優 CART 是 NP 問題。

▪ 能力有限,只能對有限數據屬性操作

▪ 機器學習 Machine Learning

2014/5/6Morris' blog 4

Page 5: 計算型智慧論文報告 Building optimal regression tree

論文實驗資料

▪ 4173 種化合物,分類屬性有 202 種描述方式。

▪ 在 4173 種化合物中,3000 種用來訓練,1173 種用來驗證。

▪ 與另外一組經由 277 種藥物進行熔點預測的 CART 相比。(另外一篇論文做的結果)

▪ 目標預測更加準確。

2014/5/6Morris' blog 5

Page 6: 計算型智慧論文報告 Building optimal regression tree

CART – ACS – GA 理論

▪ 將 ACS – GA 算法,套用在 CART 的建造上。

▪ 先說說 ACS – GA 算法運作

▪ 註:ACS – GA 蟻群遺傳混合算法

2014/5/6Morris' blog 6

Page 7: 計算型智慧論文報告 Building optimal regression tree

ACS – GA 算法 (蟻群遺傳混合算法) – (1)

▪ 基於 ACS 的缺點 – 收斂慢,加入 GA 算法來加快。

▪ 為什麼不單純使用 GA 算法就好?

▪ 對問題編碼的困難 (轉 DNA 的問題)

▪ 突變效果可能不好

2014/5/6Morris' blog 7

Page 8: 計算型智慧論文報告 Building optimal regression tree

ACS – GA 算法 (蟻群遺傳混合算法) – (2)

▪ 螞蟻基因也有好壞問題

▪ 如何反應基因好壞

▪ 對費洛蒙決策的方式

▪ 對費洛蒙的敏感度

▪ … 等

2014/5/6Morris' blog 8

Page 9: 計算型智慧論文報告 Building optimal regression tree

ACS – GA 算法 (蟻群遺傳混合算法) – (3)

▪ 運行方式

2014/5/6Morris' blog 9

Page 10: 計算型智慧論文報告 Building optimal regression tree

ACS – GA 算法 (蟻群遺傳混合算法) – (4)

▪ 換句話說,將螞蟻的能力也各自數據化

▪ 對於產生較好解的螞蟻,繁殖、交配、突變

▪ 接著談論如何運用在 CART!

2014/5/6Morris' blog 10

Page 11: 計算型智慧論文報告 Building optimal regression tree

ACS – GA – CART Algorithm (1)

2014/5/6Morris' blog 11

▪ 假解亂做前,如何隨機?

▪ CART 是一棵二分樹

▪ How we do ?

A

B

D E

C

F G

Page 12: 計算型智慧論文報告 Building optimal regression tree

ACS – GA – CART Algorithm (2)

2014/5/6Morris' blog 12

▪ How We Do?

▪ 基於深度優先的方式,直到某個葉節點的分類種數 < 30 或深度大於某個值,就退回。

▪ 每一層必須決定 “依據哪個屬性分類”Age ? Gender ? Last R ?

▪ 分類時,又要按照什麼 數值 進行分割。< 30 ? > 30 ? = 30 ?

Page 13: 計算型智慧論文報告 Building optimal regression tree

ACS – GA – CART Algorithm (3)

2014/5/6Morris' blog 13

▪ 假設 CART 有 m 個節點,n 個分類描述。

// 在此篇中,化合物有 202 種描述,即 n = 202。

▪ 為了表示螞蟻的判斷能力

▪ 到達某個節點 i 時,採用下一個分類方式 k 的費洛蒙 M[i][k]

▪ i < m, k < n

▪ 這樣可以決定分類方式。

▪ 對於某個節點 i,i 可以是目前累計完成的節點個數,或者是其他。

Page 14: 計算型智慧論文報告 Building optimal regression tree

ACS – GA – CART Algorithm (4)

2014/5/6Morris' blog 14

▪ 上一篇決定了分類方式,但沒決定分割點 ( cut point )的選擇方式。

▪ 假設用 10 種決策方式,來對應分類到節點內有的所有項目屬性,進行統計分類。▪ 決策方式 1:平均、眾數、權重、 ID3、C4.5 (熵理論和訊

息增益) … 等分割策略

▪ 決策方式 2 : 用 10 個常數對於屬性最大最小值f(min, max) = x0 * min + x1 * max + x2 * min * max

▪ 決策方式 3:最大最小值之間切 10 等分。▪ 那費洛蒙將會有 10 × n × m,即 M[10][n][m]。

Page 15: 計算型智慧論文報告 Building optimal regression tree

PLS model algorithm (偏最小二乘法)

2014/5/6Morris' blog 15

▪ Partial least squares method 不同於 “最小平方法”

▪ 多因變數 對 多自變數 的回歸建模方法

▪ 對於每一個葉節點的所有資料分別做偏最小二乘法,會得到分類的相聯性,也就是 相關係數 (correlation coefficient)

▪ 相關係數總和大小 與 適應力高低 成正比,用 驗證集 找到相關係數。’

Page 16: 計算型智慧論文報告 Building optimal regression tree

ACS – GA – CART Algorithm (5) 適應

2014/5/6Morris' blog 16

▪ 對於表現最好的螞蟻,增加其走過路徑上的費洛蒙。

▪ β 是表現最好螞蟻選擇的變數,也就是在節點 i 上選擇了哪一個分類屬性

▪ 對於費洛蒙的消散,仍與 ACS 相同。

Page 17: 計算型智慧論文報告 Building optimal regression tree

ACS – GA – CART Algorithm (6)

2014/5/6Morris' blog 17

▪對於下次迭代

▪ 偏向於好的切割屬性

▪ 對於切割屬性,可以得到好的分割點

▪排除單一分割策略的形式

Page 18: 計算型智慧論文報告 Building optimal regression tree

結果 與 討論

2014/5/6Morris' blog 18

▪一般用在 CART 建造的算法中,如左圖。

Page 19: 計算型智慧論文報告 Building optimal regression tree

結果 與 討論

2014/5/6Morris' blog 19

▪分別使用的分類屬性情況。

Page 20: 計算型智慧論文報告 Building optimal regression tree

結果 與 討論

2014/5/6Morris' blog 20

▪在查詢的項目都屬切割點數值,將無法得到好的分類

Page 21: 計算型智慧論文報告 Building optimal regression tree

結果 與 討論

2014/5/6Morris' blog 21

▪使用參數情形

Page 22: 計算型智慧論文報告 Building optimal regression tree

結果 與 討論

2014/5/6Morris' blog 22

▪與其他建造方式相比,相關係數越高越好。

Page 23: 計算型智慧論文報告 Building optimal regression tree

參考條目

▪ [1] Decision Tree:Analysishttp://isilic.iteye.com/blog/1841339

▪ [2] Decision Tree:ID3、C4.5http://isilic.iteye.com/blog/1844097

▪ [3] Decision Tree:CART、剪枝http://isilic.iteye.com/blog/1846726

▪ [4] 蚁群遗传混合算法毛宁 顾军华 谭庆http://www.joca.cn/CN/abstract/abstract

9941.shtml

▪ [5] PLS modeling algorithmhttp://wiki.mbalib.com/zh-

tw/%E5%81%8F%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95

2014/5/6Morris' blog 23

Page 24: 計算型智慧論文報告 Building optimal regression tree