資料探勘期末報告 第 10 組

42
資資資資資資資資 資資資資資資資資 10 10 組組組組 組組組組 : : 組組組 組組組組 組組組組 組組組 、、、 組組組 組組組組 組組組組 組組組 、、、

Upload: galvin-shepherd

Post on 03-Jan-2016

62 views

Category:

Documents


6 download

DESCRIPTION

資料探勘期末報告 第 10 組. 組員姓名 : 黃順安、張駿凱、蘇麒文、陳汝建. 一 . 摘要:. 在以滿足市場需求為競爭關鍵的時代中,良好的銷售分析管理是企業提昇競爭力的重要關鍵。企業若能掌握住銷售關鍵必能帶來高額的獲利及減少損失。 本研究從 A 公司 2003 年銷售 6 萬 8 千多筆資料中運用資料探勘之相關技術:決策樹分析、貝氏機率分析、關聯規則分析、群集分析等四種技術。. 本次分析係以盈虧(最主要是分析盈餘)作為自變數輸出,因此新增一欄 「級距」 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 資料探勘期末報告 第  10  組

資料探勘期末報告資料探勘期末報告第 第 10 10 組組

組員姓名組員姓名 : : 黃順安、張駿凱、蘇麒文、陳汝建黃順安、張駿凱、蘇麒文、陳汝建

Page 2: 資料探勘期末報告 第  10  組

一一 .. 摘要:摘要:

在以滿足市場需求為競爭關鍵的時代中,在以滿足市場需求為競爭關鍵的時代中,良好的銷售分析管理是企業提昇競爭力的良好的銷售分析管理是企業提昇競爭力的重要關鍵。企業若能掌握住銷售關鍵必能重要關鍵。企業若能掌握住銷售關鍵必能帶來高額的獲利及減少損失。帶來高額的獲利及減少損失。

本研究從 本研究從 A A 公司 公司 2003 2003 年銷售 年銷售 6 6 萬 萬 8 8 千多筆資料中運用資料探勘之相關技術:千多筆資料中運用資料探勘之相關技術:決策樹分析、貝氏機率分析、關聯規則分決策樹分析、貝氏機率分析、關聯規則分析、群集分析等四種技術。析、群集分析等四種技術。

Page 3: 資料探勘期末報告 第  10  組

本次分析係以盈虧(最主要是分析盈餘)本次分析係以盈虧(最主要是分析盈餘)作為自變數輸出,因此新增一欄作為自變數輸出,因此新增一欄「級距」「級距」

設定盈虧 設定盈虧 <0 <0 時為 時為 00 ;盈虧大於等於零,;盈虧大於等於零,小於等於 小於等於 30000 30000 時為 時為 11 ;盈虧大於等於;盈虧大於等於3000130001 ,小於等於 ,小於等於 50000 50000 時為 時為 22 ;盈虧;盈虧大於等於 大於等於 5000150001 ,小於等於 ,小於等於 70000 70000 時為 時為 33 ;盈虧大於等於 ;盈虧大於等於 70001 70001 時為 時為 44 ,藉此,藉此條件來分析 條件來分析 A A 公司 公司 2003 2003 年的銷售情況年的銷售情況並發掘出有價值的知識,以供企業經營決並發掘出有價值的知識,以供企業經營決策的參考。策的參考。

Page 4: 資料探勘期末報告 第  10  組

使用之採礦技術:使用之採礦技術:

ㄧㄧ . . 決策樹決策樹二二 . . 單純貝氏分類器單純貝氏分類器三三 . . 關聯規則關聯規則四四 . . 集群分析集群分析

Page 5: 資料探勘期末報告 第  10  組

分析過程:分析過程:

資料篩選及取樣:資料篩選及取樣: 將取得之數據進行異常值與離群值篩選,將取得之數據進行異常值與離群值篩選,其中離群值部份則係將其中離群值部份則係將單價單價、、全部商品成全部商品成本本 與 與 盈虧盈虧 三欄位,利用 三欄位,利用 Z Z 分數判定法分數判定法 與 與 盒型圖判定法盒型圖判定法 進行篩選。如下圖所示。 進行篩選。如下圖所示。

Page 6: 資料探勘期末報告 第  10  組

取得之原始數據

單價 盈虧全部商品成本

Page 7: 資料探勘期末報告 第  10  組

Z 分數判定法

Page 8: 資料探勘期末報告 第  10  組

盒型圖判定法

Page 9: 資料探勘期末報告 第  10  組

經由篩選後之資料數為 經由篩選後之資料數為 58951 58951 筆,透過筆,透過Integration Service Integration Service 之百分比取樣,先之百分比取樣,先隨機取樣 隨機取樣 10% 10% ,再將 ,再將 10% 10% 的取樣資料的取樣資料依依 33 :: 7 7 比例再次取樣為訓練檔與測試比例再次取樣為訓練檔與測試檔,得出訓練檔 檔,得出訓練檔 4618 4618 組資料,測試檔 組資料,測試檔 1162 1162 組資料。組資料。

Page 10: 資料探勘期末報告 第  10  組

Integration Service SSIS 百分比取樣

Page 11: 資料探勘期末報告 第  10  組

將資料匯入將資料匯入 SQLSQL 中,形成訓練檔、測試檔中,形成訓練檔、測試檔兩資料表,並檢視其欄位資料形態是否正兩資料表,並檢視其欄位資料形態是否正確。確。

進行決策樹、貝氏機率、關聯規則與群集進行決策樹、貝氏機率、關聯規則與群集採礦結構分析,並藉由系統建議設定商品採礦結構分析,並藉由系統建議設定商品成本、折扣總額、尺寸、數量、單價折扣成本、折扣總額、尺寸、數量、單價折扣及顏色作為因變數,並將輸出資料欄 及顏色作為因變數,並將輸出資料欄 「級距」「級距」之內容類型設為 之內容類型設為 DiscreteDiscrete 。。

Page 12: 資料探勘期末報告 第  10  組

將級距改為連續不分段 Discrete

Page 13: 資料探勘期末報告 第  10  組

分析方法分析方法 ::

一一 . . 決策樹決策樹

Page 14: 資料探勘期末報告 第  10  組

設定模型檢視器預測值設為 1

Page 15: 資料探勘期末報告 第  10  組

決策樹之資料採礦增益圖

Page 16: 資料探勘期末報告 第  10  組

決策樹之採礦圖例百分比於母體 55.51 %預測機率為 99.87 %

Page 17: 資料探勘期末報告 第  10  組

決策樹之分類矩陣,實際 1 與預測 1 為最高

Page 18: 資料探勘期末報告 第  10  組

分析方法分析方法 ::

二二 . . 貝氏機率分析貝氏機率分析

Page 19: 資料探勘期末報告 第  10  組

貝氏機率分析級距與商品成本關聯性最強

Page 20: 資料探勘期末報告 第  10  組

貝氏機率分析級距與商品成本關聯性最強其次為折扣總額

Page 21: 資料探勘期末報告 第  10  組

設定模型檢視器預測值設為 1

Page 22: 資料探勘期末報告 第  10  組

貝氏機率之資料採礦增益圖

Page 23: 資料探勘期末報告 第  10  組

貝氏機率之採礦圖例百分比於母體 55.61 %預測機率為 99.38 %

Page 24: 資料探勘期末報告 第  10  組

貝氏機率之分類矩陣,實際 1 與預測 1 為最高

Page 25: 資料探勘期末報告 第  10  組

分析方法分析方法 ::

三三 . . 關聯規則分析關聯規則分析

Page 26: 資料探勘期末報告 第  10  組

採礦模型中之相依性網路 , 當級距 =1 時與單價折扣 <4 有強關聯性

Page 27: 資料探勘期末報告 第  10  組

當級距 =0 時與單價折扣 =4-7 有強關聯性

Page 28: 資料探勘期末報告 第  10  組

關聯規則之資料採礦增益圖

Page 29: 資料探勘期末報告 第  10  組

關聯規則之採礦圖例百分比於母體 53.55 %預測機率為 89.77 %

Page 30: 資料探勘期末報告 第  10  組

關聯規則之分類矩陣,實際 1 與預測 1 為最高

Page 31: 資料探勘期末報告 第  10  組

分析方法分析方法 ::

四四 . . 群集分析群集分析

Page 32: 資料探勘期末報告 第  10  組

採礦模型中之相依性網路

Page 33: 資料探勘期末報告 第  10  組

群集 9 與群集 10 有強關連性

Page 34: 資料探勘期末報告 第  10  組

群集 9 與群集 10 有強關連性其次為群集 1 與群集 8

Page 35: 資料探勘期末報告 第  10  組

群集之資料採礦增益圖於百分比於母體 53.61 %預測機率為 98.37 %

Page 36: 資料探勘期末報告 第  10  組

群集之分類矩陣,實際 1 與預測 1 為最高

Page 37: 資料探勘期末報告 第  10  組

結論:結論:

從本研究發現商品成本與單價總額、單價從本研究發現商品成本與單價總額、單價折扣有密切關係而且最有可能影響商品盈折扣有密切關係而且最有可能影響商品盈虧,機率為最高,在市場上,相同的商品,虧,機率為最高,在市場上,相同的商品,當當在制定單價並進行折扣行銷時在制定單價並進行折扣行銷時,應該,應該密密切注意所取得的商品成本與銷售的數量切注意所取得的商品成本與銷售的數量,,以確保以確保基本利潤的獲得基本利潤的獲得。由此得到之結果。由此得到之結果將有助於企業在於行銷策略銷售方面有更將有助於企業在於行銷策略銷售方面有更進一步幫助。掌握前者三者關係勢必可帶進一步幫助。掌握前者三者關係勢必可帶來更大的獲利並且也可降低虧損達到最大來更大的獲利並且也可降低虧損達到最大效果。效果。

Page 38: 資料探勘期末報告 第  10  組

同時,本組將四種採礦分析之預測機率與同時,本組將四種採礦分析之預測機率與分類矩陣整理成一覽表,並且嘗試在不經分類矩陣整理成一覽表,並且嘗試在不經由取樣的過程而完整的分析整分資料,所由取樣的過程而完整的分析整分資料,所得出之機率更高。得出之機率更高。

透過一覽表,我們也發現,就此次研究而透過一覽表,我們也發現,就此次研究而言,言,決策樹採礦分析所提供的數據最具準決策樹採礦分析所提供的數據最具準確性確性,也具有ㄧ定的參考價值。,也具有ㄧ定的參考價值。

Page 39: 資料探勘期末報告 第  10  組

數據提供者所提供的資料欄位如果有所缺數據提供者所提供的資料欄位如果有所缺失,將導致無法在探勘分析時獲知更進一失,將導致無法在探勘分析時獲知更進一步詳細的資料。步詳細的資料。

例如,資料欄位提供銷售分店的地區名稱例如,資料欄位提供銷售分店的地區名稱或消費者的性別或年齡層,可藉此得知當或消費者的性別或年齡層,可藉此得知當地消費者習性,藉以調整進貨庫存的分析地消費者習性,藉以調整進貨庫存的分析依據。依據。

因此,資料的完整取得以及數據的正規化因此,資料的完整取得以及數據的正規化是影響分析結果相當重要的ㄧ環。是影響分析結果相當重要的ㄧ環。

Page 40: 資料探勘期末報告 第  10  組

四種採礦分析之預測機率ㄧ覽表

Page 41: 資料探勘期末報告 第  10  組

http://219.87.146.50/cithttp://219.87.146.50/cit.htm.htm

Page 42: 資料探勘期末報告 第  10  組

The EndThe End