phân nhóm thuật toán - engma.com.vn · thuật toán nơron nhân tạo (artificial neural...
TRANSCRIPT
Đào Thanh Phong
ECP Engineer Master
Founder of ENGMA Co.
Mail: [email protected]
AI - MACHINE LEARNING BASICPhân Nhóm Thuật Toán
Công Ty TNHH Thương Mại Dịch Vụ Kỹ Thuật EngmaAddress : 220/1 Nguyễn Trọng Tuyển, P8, Q.Phú Nhuận, TP.HCM.
Phone: (0084) 8399 77249 – Fax: (0084) 8399 44348
Cell phone: 0938136444
Email: [email protected]
Theo
Phương Thức Học
Theo chức năng
TRÍ TUỆ NHÂN TẠO - MÁY TỰ HỌC CƠ BẢN
Phân Nhóm Thuật Toán
✓ Thuật Toán Hồi Quy (Regression Algorithms)
✓ Thuật Toán Phân Loại (Classification Alg)
✓ Thuật Toán dựa trên Cá Thể (Instance-based Alg)
✓ Thuật Toán chuẩn Hoá (Regularization Alg)
✓ Thuật Toán Bayesian (Bayesian Alg).
✓ Thuật Toán Clustering
✓ Thuật Toán Nơron Nhân Tạo (Artificial Neural Network Alg)
✓ Thuật Toán Giảm Kích thước (Dimensionality Reduction Alg)
✓ Thuật Toán tổng hợp (ensemble Alg)
✓ Học Có Giám Sát (Supervised Learning)
✓ Học Không Giám Sát (unsupervised Learning)
✓ Học Bán Giám Sát (Semi-supervised learning)
✓ Học Củng Cố (Reinforcement Learning)
Dữ liệu đầu vào: dưới dạng (input, outcome)
đã xác định trước đó.1
Mục đích giải bài toán: từ dữ liệu đầu vào
(chữ viết tay khoản 10 K dữ liệu) xác định
chữ số viết tay của bất kỳ người nào?
3
Ý tưởng: giống như trẻ em, dạy học từ
Alphabet, sau đó trẻ bị phân biệt các chữ.4
NMIT:
Dữ liệu
chữ số
viết tay
1. Học Có Giám Sát (Supervised Learning Alg.)
2Supervised Learning cho phép:
Xác định outcome của bất ký 1 dữ liệu new input
nào.
3
Thuật toán: gọi các cặp dữ liệu đã biết là (data, label), dưới dạng toán học:
X: ma trận data (input)
Y: ma trận label (outcome)
X x Y : training data – dữ
liệu đào tạo
Bài toán: Với x bất kỳ (new input, data) , xác định giá trị y (outcome, label)
tương ứng.
Gọi f là hàm số xấp xỉ: y(i) = f(x(i)), mọi i=1,2,…N.
Mục đích : tìm f sao cho y=f(x) với SAI SỐ f(x(i))-y(i) là nhỏ nhất.
Facebook: tag name trên hình ảnh→xác định người & không phải người
1. Học Có Giám Sát (Supervised Learning Alg.)
NMIT: dữ
liệu chữ
số viết tay
Classification
Algorithms
(Thuật Toán Phân
Loại).
Regression
Algorithms
(Thuật Toán Hồi
Quy).
2. Học Có Giám Sát – Thuật Toán
Supervised Learning -Algorithms
Học Có Giám Sát (Supervised Learning)
Classification Algorithms (Thuật Toán Phân Loại).
Áp Dụng : Khi outcome là 1 số hữu hạn
loại khác nhau.
Ví dụ: Người & Không phải Người là 2
classifications;
Gmail: mail là spam hay không phải spam;
tín dụng: nợ xấu hay không phải.
Hệ thống tag hình ảnh – Facebook:
Người hay Không phải Người.
Regression Algorithms (Thuật Toán Hồi Quy).
Áp Dụng : Khi outcome (label) không thể
chia theo loại (nhóm) mà là 1 giá trị thực
cụ thể.
Ví dụ: dự đoán giá căn hộ (x m2; y phòng
ngủ, z km so với thành phố). Hoặc tính
tuổi (label) khi nhìn mặt (input, data).
Hệ thống tag hình ảnh – Facebook:
Người hay Không phải Người.
3. Học Không Giám Sát – Thuật Toán
Unsupervised Learning -Algorithms
Học Không Giám Sát (Unsupervised Learning)
Clustering
(Phân
nhóm).
Association
Algorithms
(Thuật Toán
Xã hội)
Clustering (Phân nhóm).
Áp Dụng : Khi input (data) có thể phân thành từng
nhóm khác nhau.
Ví dụ: Phân nhóm loại khách hàng dựa vào hành
vi mua hàng.
Ý tưởng: giống như đưa cho trẻ con những mẫu
hình tam giác- tròn-vuông, màu sắc khác nhau và
yêu cầu phân nhóm các mẫu. Nhiều khả năng trẻ
con sẽ phân theo màu sắc hoặc hình dạng <Việc
phân nhóm này là không có “giám sát” – không định nghĩa rỏ ràng các nhóm.
Phân loại nhóm khách hàng.
Association Algorithms
Áp Dụng : khám phá 1 Quy Luật dựa trên dử
liệu có trước.
Ví dụ: Khách nam khi mua quần áo thì thường
mua thêm đồng hồ, hay người xem phim spider
man thì sẽ xem superman.
Ý tưởng: thúc đẩy bán hàng, tiếp cận đúng đối tượng tiềm năng.
Associ
ation
Ruler
Là trung gian giữa Giám Sát & Không Giám Sát.
Ý tưởng: phần lớn các bài
toán ở dạng này vì chi phí
thu thập dữ liệu Y là cao, và chi phí X thấp hơn.
Là khi dữ liệu đầu vào X
có không đầy đủ các Outcome (label) Y.
4.Học Bán Giám Sát – Thuật Toán
Semi-supervised Learning -Algorithms
Học Bán
Giám Sát
(Semi-
supervised Learning)
Là các bài toán
giúp cho một hệ
thống tự động xác
định hành vi dựa
trên hoàn cảnh để
đạt được lợi ích
cao nhất
(maximizing the
performance)
Ví dụ: áp dụng
trong game, xác
định bước tiếp
theo để đạt điểm
cao nhất. Trò Chơi
Mario.
5. Học Củng Cố – Thuật Toán
Reinformcement Learning -Algorithms
AlphaGo: bao gồm 2 thuật toán: Supervised Learning & Reinformcement Learning
Học Củng Cố
(Reinformcement
Learning)
6. Từ Cần Nhớ
Theo
Phương Thức Học
Theo
chức năng
❑ Học Có Giám Sát (Supervised Learning)
❑ Học Không Giám Sát (unsupervised Learning)
❑ Học Bán Giám Sát (Semi-supervised learning)
❑ Học Củng Cố (Reinforcement Learning)
❑ Thuật Toán Hồi Quy (Regression Algorithms)
❑ Thuật Toán Phân Loại (Classification Alg)
❑ Thuật Toán dựa trên Cá Thể (Instance-based Alg)
❑ Thuật Toán chuẩn Hoá (Regularization Alg)
❑ Thuật Toán Bayesian (Bayesian Alg).
❑ Thuật Toán Clustering
❑ Thuật Toán Nơron Nhân Tạo (Artificial Neural Network Alg)
❑ Thuật Toán Giảm Kích thước (Dimensionality Reduction Alg)
❑ Thuật Toán tổng hợp (ensemble Alg)
A Tour of Machine Learning AlgorithmsĐiểm qua các thuật toán Machine Learning hiện đại
7. Tài Liệu Tham Khảo
ThanksEmail: [email protected]