fixed deposit customers churn prediction using machine

17
*นักศึกษาหลักสูตรวิศวกรรมศาสตรมหาบัณฑิต สาขาวิชาวิศวกรรมข้อมูลขนาดใหญ่ **ที่ปรึกษาสารนิพนธ์หลัก การทานายแนวโน้มการยกเลิกใช้บริการของลูกค้าเงินฝากประจา โดยใช้แบบจาลองการเรียนรู ้ของเครื่อง Fixed-Deposit Customers Churn Prediction Using Machine Learning Models เฟาเซีย เกษตรกาลาม์* ธนภัทร ฆังคะจิตร** บทคัดย่อ ความเสี่ยงด้านสภาพคล่องถือเป็นความเสี่ยงที่สาคัญที่สุดประเภทหนึ ่งของธุรกิจภาค ธนาคาร เนื่องจากธนาคารใช้การระดมทุนจากเงินฝากระยะสั ้นมาเป็นเงินทุนในการให้สินเชื่อ ซึ ่งมี ระยะเวลาครบกาหนดยาวกว่าเงินฝาก ทาให้มีโอกาสเกิดภาวะขาดสภาพคล่องได้โดยเฉพาะอย่างยิ่ง เมื่อเกิดการถอนเงินในอัตราที่สูงกว่าสัดส่วนปกติ ธนาคารจาเป็นจะต้องมีเครื่องมือที่ช่วยให้ สามารถคาดการณ์ความเปลี่ยนแปลงของกระแสเงินสดได้ล่วงหน้าเพื่อช่วยให้สามารถบริหารความ เสี่ยงได้อย่างมีประสิทธิภาพ สารนิพนธ์ชิ้นนี ้มีวัตถุประสงค์เพื่อพัฒนาแบบจาลองที่สามารถทานายแนวโน้มการ ถอนปิดบัญชีเงินฝากประจาด้วยเทคนิคการเรียนรู้ของเครื่อง เพื่อให้ธนาคารสามารถนาไปใช้ใน การป้องกันก่อนเกิดภาวะขาดสภาพคล่อง ผลการศึกษาโดยใช้ข้อมูลเงินฝากประจา 3 เดือน จานวน 4,919 ตัวอย่าง พบว่าเทคนิค Random Forest ให้ความแม่นยาสูงสุดโดยมีค่า Recall โดยรวมอยู่ที79% ในขณะที่ค่า Recall ลดลงเป็น 64% ในการทานายบัญชีที่ปิดจานวน 191 ตัวอย่าง จากข้อมูลชุดทดสอบทั ้งสิ้นจานวน 4,878 ตัวอย่าง อย่างไรก็ตามเมื่อคิดเป็นจานวนเงินของบัญชีที่ถูกทานายว่าปิดจากบัญชีที่ปิดจริงอยู่ที่ 99.67% ซึ ่ง กล่าวได้ว่าแบบจาลองที่ได้สามารถนามาใช้เป็นเครื่องมือในการป้องกันวิกฤตด้านสภาพคล่องได้ คาสาคัญ: เงินฝากประจา การเรียนรู้ของเครื่อง ทานายแนวโน้มการยกเลิกใช้บริการ ABSTRACT Liquidity risk is one of the most important risks in the banking sector . Generally, financial loans offer a long period of liabilitiestime. Meanwhile, the source of loans funding is

Upload: others

Post on 20-Feb-2022

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Fixed Deposit Customers Churn Prediction Using Machine

*นกศกษาหลกสตรวศวกรรมศาสตรมหาบณฑต สาขาวชาวศวกรรมขอมลขนาดใหญ **ทปรกษาสารนพนธหลก

การท านายแนวโนมการยกเลกใชบรการของลกคาเงนฝากประจ า โดยใชแบบจ าลองการเรยนรของเครอง

Fixed-Deposit Customers Churn Prediction Using Machine Learning Models

เฟาเซย เกษตรกาลาม* ธนภทร ฆงคะจตร**

บทคดยอ

ความเสยงดานสภาพคลองถอเปนความเสยงทส าคญทสดประเภทหนงของธรกจภาคธนาคาร เนองจากธนาคารใชการระดมทนจากเงนฝากระยะสนมาเปนเงนทนในการใหสนเชอ ซงมระยะเวลาครบก าหนดยาวกวาเงนฝาก ท าใหมโอกาสเกดภาวะขาดสภาพคลองไดโดยเฉพาะอยางยงเมอเกดการถอนเงนในอตราทสงกวาสดสวนปกต ธนาคารจ าเปนจะตองมเครองมอทชวยใหสามารถคาดการณความเปลยนแปลงของกระแสเงนสดไดลวงหนาเพอชวยใหสามารถบรหารความเสยงไดอยางมประสทธภาพ

สารนพนธชนนมวตถประสงคเพอพฒนาแบบจ าลองทสามารถท านายแนวโนมการถอนปดบญชเงนฝากประจ าดวยเทคนคการเรยนรของเครอง เพอใหธนาคารสามารถน าไปใชในการปองกนกอนเกดภาวะขาดสภาพคลอง ผลการศกษาโดยใชขอมลเงนฝากประจ า 3 เดอน จ านวน 4,919 ตวอยาง พบวาเทคนค Random Forest ใหความแมนย าสงสดโดยมคา Recall โดยรวมอยท 79% ในขณะทคา Recall ลดลงเปน 64% ในการท านายบญชทปดจ านวน 191 ตวอยาง จากขอมลชดทดสอบทงสนจ านวน 4,878 ตวอยาง อยางไรกตามเมอคดเปนจ านวนเงนของบญชทถกท านายวาปดจากบญชทปดจรงอยท 99.67% ซงกลาวไดวาแบบจ าลองทไดสามารถน ามาใชเปนเครองมอในการปองกนวกฤตดานสภาพคลองได ค าส าคญ: เงนฝากประจ า การเรยนรของเครอง ท านายแนวโนมการยกเลกใชบรการ

ABSTRACT Liquidity risk is one of the most important risks in the banking sector. Generally,

financial loans offer a long period of liabilities’ time. Meanwhile, the source of loans funding is

Page 2: Fixed Deposit Customers Churn Prediction Using Machine

from short-term deposits. As a result, liquidity shortages possibly happen especially when withdrawals are proportionately higher than usual. Therefore, banks need tools to anticipate changes in cash flow in advance to manage their risks effectively.

The objective of this study is to mitigate the effectiveness of liquidity shortages by the use of predicting the churn of fixed-deposit accounts using various machine learning techniques. In this study, a Random Forest model offers the best recall of 79% on the validation data contained 4,919 three-month fixed deposit accounts. Meanwhile, an average recall reduces to 64% when applies the model to the tested data having 191 closed accounts from 4,878 accounts in total. Contrastingly, the total balance of predicted closed accounts is 99.67% of the actual closed accounts. It can imply that our model is a useful tool to prevent the further liquidity crisis. Keyword: Fixed-Deposit, Machine Learning, Churn Prediction

บทน า การด าเนนธรกจของธนาคาร มความเกยวของโดยตรงกบการบรหารความเสยง ดงนน

ความสามารถในการบรหารความเสยง จงเปนปจจยส าคญตอความส าเรจในการด าเนนธรกจ ทงนความเสยงดานสภาพคลอง ถอเปนความเสยงทส าคญทสดประเภทหนงของธรกจธนาคารไทย เนองจากโดยสวนใหญแลว ธนาคารใชวธการระดมทนจากเงนฝากระยะสน เชน เงนฝากประจ าทมระยะเวลาครบก าหนด 3 เดอน 6 เดอน หรอ 12 เดอน เปนตน ธนาคารใชเงนทนเหลานในการใหสนเชอซงจะมระยะเวลาครบก าหนดยาวกวาเงนฝาก การด าเนนธรกจลกษณะนท าใหธนาคารมความเสยงดานสภาพคลอง จากการทไมสามารถเปลยนแปลงสนทรพยใหเปนเงนสดไดทนกบระยะเวลาครบก าหนดของหนสน

นอกจากนปญหาการยกเลกการใชบรการของลกคาถอเปนปญหาพนฐานในธรกจธนาคารซงมการแขงขนสง ธนาคารเลงเหนถงความส าคญในการหาวธรกษาฐานลกคาเดม ซงเปนกลมลกคาทสามารถสรางผลก าไรใหกบองคกรไดในระยะยาว ประกอบกบจากการประเมนความเสยงของธนาคารในไตรมาสทสองของป 2563 พบแนวโนมการเกดสดสวนกระแสเงนสดจายมากวากระแสเงนสดรบในชวงหนงปขางหนา ดวยเหตผลดานการบรหารความเสยงและการสรางผลก าไรในทางธรกจตามกลาวมาขางตน ธนาคารจ าเปนจะตองมเครองมอทชวยใหสามารถคาดการณ

Page 3: Fixed Deposit Customers Churn Prediction Using Machine

ความเปลยนแปลงของกระแสเงนสดโดยเฉพาะในกรณทเกดจากการถอนเงนและยกเลกการใชบรการของลกคา

งานวจยนมวตถประสงคเพอพฒนาแบบจ าลองทสามารถท านายแนวโนมการถอนปดบญชเงนฝากประจ า เพอใหธนาคารสามารถน าไปใชในการปองกนกอนเกดเหตการณ อกทงเพอชวยใหธนาคารสามารถเตรยมการจดหาแหลงเงนในกรณทมเหตการณกระแสเงนสดไหลออกมากเกนอตราทยอมรบได ขอมลทใชแบงออกเปนกลมไดดงน ขอมลระดบลกคา ขอมลระดบบญช และขอมลระดบ transaction โดยมปจจยทส าคญคอ จ านวนเดอนตงแตเปดบญช จ านวนปทเปนลกคา ยอดรวมเงนฝากประจ า 3 เดอน และอายของลกคา

วตถประสงค เพอน าเสนอแบบจ าลองส าหรบพยากรณแนวโนมการยกเลกใชบรการของลกคาเงน

ฝากประเภทเงนฝากประจ า

ขอบเขตของการวจย 1. ขอบเขตของแผนงาน การศกษานเปนการศกษาเพอพฒนาแบบจ าลองทสามารถท านายแนวโนมการยกเลกใช

บรการของลกคาเงนฝากประเภทเงนฝากประจ าลวงหนา 1 เดอน ดวยเทคนคการเรยนรของเครอง โดยขอมลทใชในการสอนแบบจ าลองและทดสอบ ใชเฉพาะบญชทมสถานะเปดบญช ณ สนเดอนเทานน ไมรวมบญชทมการปดบญชระหวางเดอน

2. ขอบเขตของขอมล ขอมลทน ามาใชเปนขอมลบญช เงนฝากประจ าประเภท 3 เดอนทมการก าหนด

คณลกษณะการตออายเมอครบอายสญญาเปนแบบตออตโนมตทบญชเดมเทานน โดยเกบขอมลในป 2563 เพอวเคราะหอตราการปดบญช และใชขอมล ณ สนเดอน พฤศจกายน และ ธนวาคม 2563 ในการทดสอบแบบจ าลอง ทงนขอมลทใชท านายจะมปายก ากบ 2 คาเทานน คอ 1 หมายถง Churn และ 0 หมายถง Not Churn

Page 4: Fixed Deposit Customers Churn Prediction Using Machine

ประโยชนทคาดวาจะไดรบ 1. เปนเครองมอทชวยใหธนาคารสามารถรกษาลกคาทมแนวโนมจะเลกใชบรการเงน

ฝากประจ ากบธนาคาร 2. ชวยใหธนาคารสามารถบรหารความเสยงดานสภาพคลองไดอยางมประสทธภาพ

มากขน

แนวคด ทฤษฏ และงานวจยทเกยวของ การพฒนาแบบจ าลองส าหรบพยากรณแนวโนมการยกเลกใชบรการของลกคาเงนฝาก

ประจ าตองศกษาทฤษฎตอไปน 1. Random Forest Tony Yiu (2019) ไดอธบายหลกการของ Random Forest ไวดงน Random Forest สราง

แบบจ าลองจาก Decision Tree หลายๆแบบจ าลอง แตละแบบจ าลองยอยจะถกสอนจากขอมลชดเดยวกน แตใชขอมลยอยทแตกตางกน โดยขอมลยอยทถกใชในการสอนแบบจ าลองไดมาจากการสม ทงนค าตอบทไดจากการท านายของ Random Forest จะเกดจากการเฉลยหรอการโหวตเลอกผลลพธจาก Decision Tree แลวแตวาเปนการท านายความนาจะเปนหรอท านายประเภทขอมล

ภาพท 1 อธบายหลกการของ Random Forest

Training Dataset

Sample 1

Class A

Tree #1

Sample 2

Class B

Tree #2

Sample 3

Class A

Tree #3

Majority Voting / Averaging

Final Class A

Page 5: Fixed Deposit Customers Churn Prediction Using Machine

2. Imbalance Data ขอมลไมสมดลคอ ขอมลทมจ านวนในแตละกลมแตกตางกนมาก ซงจะมผลตอการ

จ าแนกคลาสสวนนอย เนองจากอลกอรทมมความเอนเอยงไปทางกลมขอมลสวนใหญ ท าใหท านายคลาสสวนนอยผดพลาด เทคนคทน ามาใชในการแกปญหาขอมลไมสมดลมดงน (Francesco Pochetti, 2019)

2.1 วธสมเกน (Over sampling) คอ การสมเลอกขอมลจากคลาสสวนนอย เพอใหคลาสสวนนอยมจ านวนใกลเคยงกบคลาสสวนมาก โดยการสมเกนน อาจเปนการสมจากขอมลเดมหรอสรางขอมลขนมาใหมจากตวอยางขอมลเดม

SMOTE เปนเทคนคการสมเกนอกรปแบบหนง โดยจะมการสมขอมลทไดจากการสรางขอมลจากขอมลสวนนอยขนมาใหม (Cornellius Yudha Wijaya, 2020)

2.2 วธสมลด (Under sampling) คอ การสมลดขอมลจากคลาสสวนมาก เพอใหคลาสสวนมากมจ านวนใกลเคยงกบคลาสสวนนอย

งานวจยทเกยวกบการพฒนาแบบจ าลองส าหรบพยากรณแนวโนมการยกเลกใชบรการของลกคาเงนฝากประจ า และทเกยวของการแกปญหาขอมลไมสมดล ทไดศกษามาสรปไดดงน

จรกฤต บญหมนไวย, เจษฎา ตณฑนช, เบญจวรรณ โรจนดษฐ (2563) ไดน าเสนองานวจยทศกษาความสมพนธของตวแปรทมผลตอการขอยกเลกใชบรการโดยใชการถดถอยโลจสตกส จากนนน าตวแปรทไดไปสรางแบบจ าลองดวยวธการตนไมตดสนใจ การถดถอยโลจสตกส และ ตวจ าแนกประเภทแบบเบยอยางงาย จากการศกษาพบวาปจจยทมผลตอการคงสถานะของลกคาไดแก คะแนนเครดต ทอยอาศย เพศ อาย ยอดเงนคงเหลอในบญช จ านวนผลตภณฑ และการเปนสมาชกของธนาคาร

Abbas Keramati, Hajar Ghaneei and Seyed Mohammad Mirmohammadi ( 2016) น าเสนองานวจยทศกษาปจจยทมผลในการยกเลกการใชบรการธนาคารอเลกทรอนกส โดยใชวธการ CRISP ในการด าเนนการวจย เลอกใชวธการ forward selection และ backward elimination ในขนการเลอกตวแปรโดยผลการวจยพบวา backward elimination ใหผลลพธทดกวา แบบจ าลองทใชคอตนไมตดสนใจ เนองจากผวจยตองการทราบคณลกษณะของผใชบรการทจะยกเลก เพอใหผบรหารของธนาคารสามารถก าหนดกลยทธในการปองกนการยกเลกการใชบรการ จงเลอกใชแบบจ าลองทสามารถอธบายปจจยทเปนทมผลไดงาย

Page 6: Fixed Deposit Customers Churn Prediction Using Machine

Nelson Rosa (2018) ไดน าเสนองานวจยโดยใชเทคนคโครงขายประสาทเทยมในการท านายลกคาทจะยกเลกบรการของธนาคารรายยอยในประเทศโปรตเกส โดยใชวธการ CRISP-DM ในการด าเนนการวจย ใชขอมล มกราคม-มถนายน 2017 เปนขอมลส าหรบสรางแบบจ าลอง เพอท านายลกคาทจะปดบรการในชวง กรกฎาคม - ธนวาคม 2017 ผลจากการสอนแบบจ าลองพบวาปจจยทมผลคอ อาย และ ผลตภณฑดานเงนฝาก ผวจยทดสอบโดยใช เทคนคโครงขายประสาทเทยม 4 โมเดล ทตางกนในชน Hidden layers คอ ม 1 ชน, 2 ชน, 3 ชน และ 4 ชน โดยโมเดลทมใหคาความถกตองมากทสดคอ โมเดลทม Hidden layers 3 ชน

Himanshu147 (2020) ไดน าเสนอแนวทางในการพฒนาแบบจ าลองเพอท านายลกคาทจะยกเลกใชบรการเงนฝากกระแสรายวน โดยใชการถดถอยโลจสตกสในการสรางแบบจ าลอง และใช SMOTE ในการแกปญหาขอมลไมสมดล ออกแบบการทดลองโดยการแบงขอมลออกเปน 3 ชดคอ ขอมลตงเดอนธนวาคม 2016 ถง พฤศจกายน 2017 ใชเปน Observation window ขอมลเดอนธนวาคม 2017 ใชเปน Static pool month ซงคอจดอางองขอมลซงใชส าหรบเลอกลกคาทมบญชกระแสรายวนในเดอนนนๆ เพอใชท านาย ขอมลในชวง มกราคม 2018 ถง มถนายน 2018 ใชเปน Performance Window ซงคอชวงเวลาใชทดสอบผลการท านาย จากการท านายพบวาปจจยทส าคญคอ ยอดเงนคงเหลอเฉลยใน 3 เดอน จ านวนการท ารายการ ยอดรวมคาธรรมเนยมของ 3 เดอนลาสด ประเภทของลกคา และ ผลตภณฑสนเชอทมหลกประกน

ระเบยบวธวจย

การศกษาครงน เปนการน าเสนอเทคนคท านายแนวโนมการยกเลกใชบรการส าหรบลกคาธนาคารโดยวธการเรยนรของเครอง ใชวธการ CRISP-DM ในกระบวนการท าวจย ซงประกอบดวย 6 กระบวนการดงภาพท 2

Page 7: Fixed Deposit Customers Churn Prediction Using Machine

ภาพท 2 กระบวนการ CRISP-DM

1. ความเขาใจทางธรกจ (Business Understanding( การใหบรการดานเงนฝากของธนาคารสามารถแบงประเภทเงนฝากออกเปน 2 ประเภท

ใหญๆไดแก เงนฝากเผอเรยก คอเงนฝากทผฝากสามารถถอนไดเมอตองการโดยไมมเงอนไข และ เงนฝากประจ า คอเงนฝากทมก าหนดเวลา เมอฝากครบก าหนดเวลาผฝากจะไดผลตอบแทนตามเงอนไขทตกลงกน

ในการใหสนเชอกบลกคา โดยสวนใหญแลวธนาคารจะน าเงนฝากประจ ามาบรหารจดการเนองจากมก าหนดเวลาครบก าหนดทแนนอน สามารถบรหารและควบคมความเสยงได ดวยลกษณะของระยะเวลาครบก าหนดเงนฝากทสนกวาสนเชอมาก ท าใหการตดตามปรมาณการไหลออกของเงนฝากซงสามารถเกดไดทงกรณทครบก าหนดสญญาและการถอนกอนครบก าหนด เปนภารกจส าคญเพอตดตามใหสดสวนของเงนฝากและสนเชอเปนไปตามเกณฑของธนาคารแหงประเทศไทย

2. ความเขาใจขอมลทใชในงาน (Data Understanding( 2.1 กระบวนการเกบขอมลเงนฝากประจ า ขอมลทใชประกอบดวย ขอมลระดบบญช

และขอมลระดบลกคา ของบญชเงนฝากทยงมสถานะเปดบญช ณ 30 พฤษจกายน 2563 ส าหรบเปนตวแปรในการสรางแบบจ าลอง และขอมลสถานะบญช ณ 31 ธนวาคม 2563 ส าหรบเปนขอมลปายก ากบ โดยตวแปรทน ามาใชสามารถแบงออกเปน 4 กลม ดงน

1) ขอมลระดบบญช ไดแก ยอดเงนคงเหลอ, ก าไรคางรบ, อตราก าไร, จ านวนเดอนทจะครบสญญา, จ านวนเดอนตงแตเปดบญช, ภมภาคของสาขาเจาของบญช

Page 8: Fixed Deposit Customers Churn Prediction Using Machine

2) ขอมลระดบลกคา ไดแก อาย, จ านวนปทเปนลกคา, กลมลกคาตามยอดเงนฝากรวม, ประเภทลกคา, เพศ, ชวงรายได, แหลงทมาของรายได, ระดบการศกษา, อาชพ,จ านวนบญชฝากประจ า 3 เดอน, จ านวนบญชฝากประจ า 6 เดอน, จ านวนบญชฝากประจ า 9 เดอน, จ านวนบญชฝากประจ า 12 เดอน, จ านวนบญชฝากประจ า 24 เดอน, จ านวนบญชฝากประจ าทกประเภท, จ านวนบญชเงนฝากออมทรพย, เงนฝากรวมของฝากประจ า 3 เดอน, เงนฝากรวมของฝากประจ า 6 เดอน, เงนฝากรวมของฝากประจ า 9 เดอน, เงนฝากรวมของฝากประจ า 12 เดอน, เงนฝากรวมของฝากประจ า 24 เดอน, เงนฝากรวมของฝากประจ า, เงนฝากรวมของออมทรพย

3) ขอมลระดบ Transaction ไดแก ยอดรวมรายการถอนเงนของเดอนกอนหนา และ ยอดก าไรจายของปกอนหนา

4) ขอมลปายก ากบ ไดแก 1 หมายถง Churn และ 0 หมายถง Not Churn 2.2 ท าความเขาใจภาพรวมจ านวนบญช โดยสดสวนของบญชทมปายก ากบเปน 0

และ 1 ขอมลมทงสน 4,919 ตวอยาง แบงออกเปนบญชทมปายก ากบเปน 1 (Churn) 166 ตวอยาง และบญชทมปายก ากบเปน 0 (Not Churn) 4,753 ตวอยาง คดเปนสดสวนบญชท Churn ตอบญชทงหมดอยท 3.4% ลกษณะขอมลมความไมสมดลคอนขางมาก

3. ตรวจสอบความถกตองของขอมลและเตรยมขอมลทใชในงาน (Data Preparation( 3.1 กระบวนการตรวจสอบความครบถวนของขอมล (Data Exploration) พบวามตว

แปรทมคาวางไดแก ยอดรวมการถอนเงนเดอนกอนหนาของลกคา, เพศ, รายได, การศกษา และ อาชพ

3.2 กระบวนการตรวจหาคาผดปกต (Outlier) โดยการสรางชารท boxplot พบวามตวแปร 4 คาทมขอมลผดไดแก จ านวนเดอนตงแตเปดบญช (DEP_M_LIFETIME), จ านวนบญชฝากประจ าทงหมด (TOTAL_TIME_CNT), จ านวนบญชฝากประจ า 3 เดอน (TRM3_CNT) และ อาย (AGE) ดงภาพท 3

Page 9: Fixed Deposit Customers Churn Prediction Using Machine

ภาพท 3 Boxplot ของตวแปรทมคาผดปกต

3.3 กระบวนการท าความสะอาดขอมล (Data Cleansing)

3.3.1 เตมคาตวแปรทมคาวาง โดยมรปแบบในการเตมขอมลทมคาวางออกเปน 3 วธดงน

- Gender: คาวางของตวแปร Gender เกนจากลกคาทไมใชบคคล ดงนนใชวธเตมคาวางดวยคา “C” เพอแยกออกจากขอมลเพศหญง “F” และ เพศชาย “M”

- ขอมลทม type เปน Object: เตมคาวางดวยคา Mode ของแตละตวแปร - ขอมลทม type ไมเปน Object: เตมคาวางดวยคาเฉลยของแตละตวแปร

3.3.2 ก าจดคาผดปกต ดวยวธการค านวณคาสถตดวยสตร Quartile ดงน Upper bound = Q3 + 1.5 * IQR และ Lower bound = Q1 - 1.5 * IQR

โดยขอมลผดปกตทจะถกก าจดออกคอ ขอมลทมคามากกวา Upper bound หรอ นอยกวา Lower bound

3.4 กระบวนการเลอกคณลกษณะ (Feature Selection) ใชการทดสอบขอมลทางสถต โดยแบงเปน 2 เทคนคไดแก

ตวแปรทมคาตอเนอง (Continuous Variable) ทดสอบโดยใช ANOVA ไดตวแปรทมคา P-Value < 0.05 ดงน ยอดเงนคงเหลอ,ก าไรคางรบ,จ านวนเดอนตงแตเปดบญช,จ านวนบญชฝาก

Page 10: Fixed Deposit Customers Churn Prediction Using Machine

ประจ า 3 เดอน และ 6 เดอน,จ านวนบญชฝากประจ าทงหมด,เงนฝากรวมของฝากประจ า 3 เดอน และ 6 เดอน,อาย และ จ านวนปทเปนลกคา

ตวแปรทมคาไมตอเนอง (Categorical Variable) ทดสอบโดยใช Chi-Square Test ไดตวแปรทมคา P-Value < 0.05 ดงน ลกคาตามยอดเงนฝากรวม, ประเภทลกคา,ชวงรายได,แหลงทมาของรายได,ระดบการศกษา,อาชพ และ ภมภาคของสาขาเจาของบญช

3.5 กระบวนการเปลยนแปลงขอมล (Data Transformation) 3.5.1 แปลงขอมลทถกเกบในลกษณะ Categorical โดยแบงออกเปน 3 รปแบบ

ดงน - ขอมลทสามารถบอกล าดบขนได (Ordinal Categorical Variables) ไดแต

ตวแปร ซงเกบคาการจดกลมของลกคาตามยอดเงนฝากรวม ท าการแปลงคาตามล าดบขนคอ Retail แทนดวย 0 , Medium แทนดวย 1 และ Corporate แทนดวย 2

- ขอมลเชงปรมาณทจดเกบแบบม 2 คา (Binary Nominal Categorical Variables) สามารถท าการเปลยนคาเปน 0 และ 1 ตวแปรลกษณะนไดแต ตว INVP ซงเกบคาเปน Personal และ Corporate ท าการเปลยนคาเปน 0 และ 1 ตามล าดบ

- ขอมลเ ชงปรมาณทไมมล าดบและม คามากกวา 2 คา (Nominal Categorical Variables) ใชวธการ One-Hot encoding ซงจะแปลงขอมลโดยน าคาทจดเกบในแตละตวแปรแตกออกเปนคอลลมยอย ๆ เกบคาในแตละคอลลมในรปแบบไบนาร 0/1 ตามคาของขอมล

3.5.2 ปรบชวงของขอมลใหเปนชวงเดยวกน ดวยเทคนค Standardization เนองการทขอมลแตละตวแปรมชวงของขอมลทแตกตางกน เชน ท าใหเกด feature bias ในขนตอนการสรางโมเดล

4. การพฒนา Model ( Modeling(

4.1 กระบวนการเตรยมขอมลส าหรบสอนแบบจ าลอง - แบงขอมลส าหรบสอนและทดสอบแบบจ าลองดวยสดสวน 80:20 - แกปญหาขอมลไมสมดลของชดขอมลสอน โดยใชเทคนคการจดกลมคลาส

สวนมากดวยวธ k-mean แลวท าการสมลดจากแตละคลสเตอรเพอเปนการสรางขอมลคลาสสวนมากใหมใหมขนาดใกลเคยงกบคลาสสวนนอยมากขน จากนนใชวธสงเคราะหขอมลเพม

Page 11: Fixed Deposit Customers Churn Prediction Using Machine

(Synthetic Minority Oversampling Technique: SMOTE) เพอปรบใหขอมลคลาสสวนนอยและคลาสสวนมากมขนาดใกลเคยงกน ผลทไดดงภาพท 4

ภาพท 4 กระบวนการแกปญหาขอมลไมสมดล

4.2 กระบวนการหาไฮเพอรพารามเตอรทเหมาะสมทสดส าหรบอลกอรทม Random Forest โดยการใชฟงกชน GridSearchCV ผลทได ดงภาพท 5

ภาพท 5 คาพารามเตอรทเหมาะของ Random Forest

5. กระบวนการวดประสทธภาพแบบจ าลอง (Model Evaluation( วดประสทธภาพของแบบจ าลอง Random Forestโดยใชชดขอมลสอน ผลทไดดงภาพท

6 โดยมตวแปรทเปนปจจยส าคญดงภาพท 7

Page 12: Fixed Deposit Customers Churn Prediction Using Machine

ภาพท 6 Confusion Matrix : Random Forest ภาพท 7 Feature Importance : Random Forest

6. การน ามาใชงาน

แปลงแบบจ าลอง Random Forest ใหอยในรปแบบ file .pkl เพอน าไปใชท านายขอมลจรง

6.1 เตรยมขอมลเพอน าเขาในรปแบบ Excel หรอ CVS File 6.2 เรยกใชโปรแกรมเพอท าการท านายดวย Model ทเลอก ตงภาพท 8

Page 13: Fixed Deposit Customers Churn Prediction Using Machine

6.3 น าผลการท านายซงระบความเปนไปไดในการยกเลกบรการของแตละบญชไปใชงาน

ภาพท 8 การเรยกใช Model

ผลการวจย 1. ผลการวดประสทธภาพความถกตองของแบบจ าลองดวยขอมลทดสอบ ขอมลทใชในการทดสอบแบบจ าลอง คอขอมลเงนฝากประจ า 3 เดอน ณ 30

พฤศจกายน 2020 มทงสน 882 ตวอยาง โดยมปายก ากบเปน 0 (Not Churn) จ านวน 849 ตวอยาง และมปายก ากบเปน 1 (Churn) จ านวน 33 ตวอยาง ผลการทดสอบดงตามตารางท 1 และ ตารางท 2 ตารางท 1 ผลการทดสอบประสทธภาพของแบบจ าลอง Random Forest แยกตามปายก ากบ

Churn Not Churn precision recall f1 precision recall f1

0.34 0.64 0.44 0.99 0.95 0.97

Page 14: Fixed Deposit Customers Churn Prediction Using Machine

ตารางท 2 ผลการทดสอบประสทธภาพของแบบจ าลอง Random Forest แบบคาเฉลย

2. ผลการวดประสทธภาพความถกตองของแบบจ าลองดวยขอมล Unseen ใชชดขอมลเงนฝากประจ า 3 เดอน ณ 31 ธนวาคม 2020 ในการทดสอบ ผลดงตารางท

3 และ 4

ตารางท 3 ผลการทดสอบประสทธภาพของแบบจ าลองดวยขอมล Unseen แยกตามปายก ากบ

ตารางท 4 ผลการทดสอบประสทธภาพของแบบจ าลองดวยขอมล Unseen แบบคาเฉลย

สรปและอภปรายผลการวจย การศกษาครงนมวตถประสงคเพอพฒนาแบบจ าลองส าหรบท านายแนวโนมการยกเลก

ใชบรการส าหรบลกคาธนาคาร โดยใชขอมลเงนฝากประจ า 3 เดอน มาท างานลวงหนา เพอคาดการณวาในอกหนงเดอนขางหนาจะมบญชใดบางทมแนวโนมจะปดบญช ผลทไดโดยสรป ดงรายละเอยดตอไปน

macro avg weighted avg precision recall f1 precision recall f1

0.66 0.79 0.71 0.96 0.94 0.95

Churn Not Churn precision recall f1 precision recall f1

0.06 0.68 0.12 0.98 0.60 0.74

macro avg weighted avg precision recall f1 precision recall f1

0.52 0.64 0.43 0.94 0.60 0.72

Page 15: Fixed Deposit Customers Churn Prediction Using Machine

1. สรปผลการศกษา 1.1 ในขนตอนการพฒนาแบบจ าลอง แบบจ าลองทไดมประสทธภาพในการท านาย

แนวโนมการยกเลกใชบรการของลกคา มคา Average Recall เทากบ 79% และมคา Recall ของปายก ากบ 1 เทากบ 64% ทงนเมอใชทดสอบกบชดขอมล Unseen ใหคา Average Recall ลดลง คอ คา Average Recall เทากบ 64% แตมคา Recall ของปายก ากบ 1 เพมขนเปน 68%

1.2 ผลจากการท านายขอมล Unseen เมอพจารณาในรปแบบของยอดเงนฝาก ผลดงตารางท 5

ตารางท 5 Confusion Matrix : จ านวนบญชและยอดเงนจากการท านายขอมล Unseen

Predicted Label Not Churn Churn

True

Labe

l

Not C

hurn 2,817 บญช

158,268,187.19 บาท 1,870 บญช 40,881,564,11.49 บาท

Churn

62 บญช 3,208,730 บาท

129 บญช 938,130,147.72 บาท

จากตารางท 5 แบบจ าลองสามารถท านาย บญชทมแนวโนมจะปดไดถกตอง 129 บญช

จาก 191 บญช เปนยอดเงนทสามารถน าไปสการปองการไหลออกจากระบบได 938,130,147.72 บาท ซงคดเปน 99.67% ของจ านวนเงนทปดบญชทงหมด

1.3 ปจจยทมความสมพนธตอแนวโนมในการยกเลกใชบรการ ในขนตอนการวดประสทธภาพของแบบจ าลองพบวาตวแปรส าคญ 3 อนดบแรกคอ จ านวนเดอนตงแตเปดบญช (DEP_M_LIFETIME), จ านวนปทเปนลกคา (CUSTOMER_AGE), ยอดเงนฝากรวมของเงนฝากประจ า 3 เดอน (TRM3_BAL) โดยตวแปรทง 3 มผลตอแนวโนมในการยกเลกใชบรการในทศทางดงภาพท 9

Page 16: Fixed Deposit Customers Churn Prediction Using Machine

ภาพท 9 ทศทางทมผลตอแนวโนมในการยกเลกใชบรการของ 3 ตวแปรหลก

จากภาพ จ านวนเดอนตงแตเปดบญชทมคานอยมความเปนไปไดสงทลกคาจะยกเลก

การใชบรการ โดยจะสงผลนอยลงอยางมากเมอเปดบญชนานขน อายของลกคามผลในทศทางผกผลนกบคาความเปนไปไดทลกคาจะยกเลกการใชบรการ ในขณะทยอดเงนฝากรวมของเงนฝากประจ า 3 เดอน จะสงผลตอคาความเปนไปไดทลกคาจะยกเลกการใชบรการในทศทางเดยวกนเมอยอดเงนฝากมจ านวนมากขน

ขอเสนอแนะ 1. แนวทางในการเพมประสทธภาพของแบบจ าลอง คอ เพมตวแปรในมตอน เชน

ขอมลอตราผลตอบแทนจากภายนอก ขอมลผลตภณฑดานสนเชอของลกคา ซงถอเปนปจจยทอาจจะมผลในการตดสนปดบญช

2. ในการสรางแบบจ าลองอาจท าโดยแยกกลมลกคา เนองลกคารายและรายยอยอาจมปจจยในการตดสนใจปดบญชทแตกตางกน

Page 17: Fixed Deposit Customers Churn Prediction Using Machine

บรรณานกรม จรกฤต บญหมนไวย, เจษฎา ตณฑนช, เบญจวรรณ โรจนดษฐ. (2563).

การวเคราะหแนวโนมการขอยกเลกใชบรการส าหรบลกคาธนาคารโดยวธการเรยนรของเครอง.การประชมวชาการระดบชาตเรอง คณภาพของการบรหารและนวตกรรม ครงท 5.

Abbas Keramati, Hajar Ghaneei and Seyed Mohammad Mirmohammadi.(2016). Developing a Prediction Model for Customer Churn from Electronic Banking Services using Data Mining.Financial Innovation, pp 2-10

Cornellius Yudha Wijaya. (2020). 5 SMOTE Techniques for Oversampling your Imbalance Data. Retrieved from https://towardsdatascience.com/5-smote-techniques-for-oversampling-your-imbalance-data-b8155bdbe2b5

Francesco Pochetti. (2019). Extreme Label Imbalance: When You Measure the Minority Class in Basis Points. Retrieved from http://francescopochetti.com/extreme-label-imbalance-when-you-measure-the-minority-class-in-basis-points/.

Himanshu147. (2020). The Complete Guide to Checking Account Churn Prediction in BFSI Domain. Retrieved from https://www.analyticsvidhya.com/blog/2020/10/the-complete-guide-to-checking-account-churn-prediction-in-bfsi-domain/.

Irfan Ullah, Basit Raza, Ahmad Kamran Malik, Muhammad Imran, Saif Ul islam, AND Sung Won Kim. (2019). A Churn Prediction Model Using Random Forest: Analysis of Machine Learning Techniques for Churn Prediction and Factor Identification in Telecom Sector. IEEE Access, pp 2169-3536.

Nelson Rosa. (2018). Gauging and Foreseeing Customer Churn in The Banking Industry. NOVA Information Management School, Universidade Nova de Lisboa.

Tony Yiu. (2019) . Understanding Random Forest How the Algorithm Works and Why it Is So Effective.

Retrieved from https: / / towardsdatascience. com/ understanding- random- forest-58381e0602d2.