計算型智慧論文報告 building optimal regression tree
DESCRIPTION
TRANSCRIPT
Building optimal regression tree by ant colony system – genetic algorithm Application to modeling of melting points
計算型智慧 論文報告100502205 資工三 B 楊翔雲
Twenty Questions
▪ 在二十個問題內,能猜出心中想的目標角色。
▪ http://en.akinator.com/
2014/5/6Morris' blog 2
決策樹
▪ 決策樹的分類
▪ Classification Tree:分類樹分類,輸出 “類型”
▪ Regression Tree:回歸樹關係程度,輸出 “數值”
▪ CART (Classification And Regression Tree) 即上述兩個的總稱
2014/5/6Morris' blog 3
CART
▪ 大量數據可以快速算出結果
▪ 易於理解 和 解釋
▪ 可以用統計數據驗證模型
▪ 最優 CART 是 NP 問題。
▪ 能力有限,只能對有限數據屬性操作
▪ 機器學習 Machine Learning
2014/5/6Morris' blog 4
論文實驗資料
▪ 4173 種化合物,分類屬性有 202 種描述方式。
▪ 在 4173 種化合物中,3000 種用來訓練,1173 種用來驗證。
▪ 與另外一組經由 277 種藥物進行熔點預測的 CART 相比。(另外一篇論文做的結果)
▪ 目標預測更加準確。
2014/5/6Morris' blog 5
CART – ACS – GA 理論
▪ 將 ACS – GA 算法,套用在 CART 的建造上。
▪ 先說說 ACS – GA 算法運作
▪ 註:ACS – GA 蟻群遺傳混合算法
2014/5/6Morris' blog 6
ACS – GA 算法 (蟻群遺傳混合算法) – (1)
▪ 基於 ACS 的缺點 – 收斂慢,加入 GA 算法來加快。
▪ 為什麼不單純使用 GA 算法就好?
▪ 對問題編碼的困難 (轉 DNA 的問題)
▪ 突變效果可能不好
2014/5/6Morris' blog 7
ACS – GA 算法 (蟻群遺傳混合算法) – (2)
▪ 螞蟻基因也有好壞問題
▪ 如何反應基因好壞
▪ 對費洛蒙決策的方式
▪ 對費洛蒙的敏感度
▪ … 等
2014/5/6Morris' blog 8
ACS – GA 算法 (蟻群遺傳混合算法) – (3)
▪ 運行方式
2014/5/6Morris' blog 9
ACS – GA 算法 (蟻群遺傳混合算法) – (4)
▪ 換句話說,將螞蟻的能力也各自數據化
▪ 對於產生較好解的螞蟻,繁殖、交配、突變
▪ 接著談論如何運用在 CART!
2014/5/6Morris' blog 10
ACS – GA – CART Algorithm (1)
2014/5/6Morris' blog 11
▪ 假解亂做前,如何隨機?
▪ CART 是一棵二分樹
▪ How we do ?
A
B
D E
C
F G
ACS – GA – CART Algorithm (2)
2014/5/6Morris' blog 12
▪ How We Do?
▪ 基於深度優先的方式,直到某個葉節點的分類種數 < 30 或深度大於某個值,就退回。
▪ 每一層必須決定 “依據哪個屬性分類”Age ? Gender ? Last R ?
▪ 分類時,又要按照什麼 數值 進行分割。< 30 ? > 30 ? = 30 ?
ACS – GA – CART Algorithm (3)
2014/5/6Morris' blog 13
▪ 假設 CART 有 m 個節點,n 個分類描述。
// 在此篇中,化合物有 202 種描述,即 n = 202。
▪ 為了表示螞蟻的判斷能力
▪ 到達某個節點 i 時,採用下一個分類方式 k 的費洛蒙 M[i][k]
▪ i < m, k < n
▪ 這樣可以決定分類方式。
▪ 對於某個節點 i,i 可以是目前累計完成的節點個數,或者是其他。
ACS – GA – CART Algorithm (4)
2014/5/6Morris' blog 14
▪ 上一篇決定了分類方式,但沒決定分割點 ( cut point )的選擇方式。
▪ 假設用 10 種決策方式,來對應分類到節點內有的所有項目屬性,進行統計分類。▪ 決策方式 1:平均、眾數、權重、 ID3、C4.5 (熵理論和訊
息增益) … 等分割策略
▪ 決策方式 2 : 用 10 個常數對於屬性最大最小值f(min, max) = x0 * min + x1 * max + x2 * min * max
▪ 決策方式 3:最大最小值之間切 10 等分。▪ 那費洛蒙將會有 10 × n × m,即 M[10][n][m]。
PLS model algorithm (偏最小二乘法)
2014/5/6Morris' blog 15
▪ Partial least squares method 不同於 “最小平方法”
▪ 多因變數 對 多自變數 的回歸建模方法
▪ 對於每一個葉節點的所有資料分別做偏最小二乘法,會得到分類的相聯性,也就是 相關係數 (correlation coefficient)
▪ 相關係數總和大小 與 適應力高低 成正比,用 驗證集 找到相關係數。’
ACS – GA – CART Algorithm (5) 適應
2014/5/6Morris' blog 16
▪ 對於表現最好的螞蟻,增加其走過路徑上的費洛蒙。
▪ β 是表現最好螞蟻選擇的變數,也就是在節點 i 上選擇了哪一個分類屬性
▪ 對於費洛蒙的消散,仍與 ACS 相同。
ACS – GA – CART Algorithm (6)
2014/5/6Morris' blog 17
▪對於下次迭代
▪ 偏向於好的切割屬性
▪ 對於切割屬性,可以得到好的分割點
▪排除單一分割策略的形式
結果 與 討論
2014/5/6Morris' blog 18
▪一般用在 CART 建造的算法中,如左圖。
結果 與 討論
2014/5/6Morris' blog 19
▪分別使用的分類屬性情況。
結果 與 討論
2014/5/6Morris' blog 20
▪在查詢的項目都屬切割點數值,將無法得到好的分類
結果 與 討論
2014/5/6Morris' blog 21
▪使用參數情形
結果 與 討論
2014/5/6Morris' blog 22
▪與其他建造方式相比,相關係數越高越好。
參考條目
▪ [1] Decision Tree:Analysishttp://isilic.iteye.com/blog/1841339
▪ [2] Decision Tree:ID3、C4.5http://isilic.iteye.com/blog/1844097
▪ [3] Decision Tree:CART、剪枝http://isilic.iteye.com/blog/1846726
▪ [4] 蚁群遗传混合算法毛宁 顾军华 谭庆http://www.joca.cn/CN/abstract/abstract
9941.shtml
▪ [5] PLS modeling algorithmhttp://wiki.mbalib.com/zh-
tw/%E5%81%8F%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95
2014/5/6Morris' blog 23