chuong 4 - hoc co giam sat - adaboost.pdf

110
KHOA CÔNG NGHTHÔNG TIN – ĐẠI HC KHOA HC HUBÀI GING HC MÁY Lý Thuyết NhnDng Pattern Recognition Professor Horst Cerjak, 19.12.2005 Nguyn Đăng Bình Chương 4 – Hc có giám sát & Sphân lp Trang 1 TS. Nguyn Đăng Bình Khoa Công NghThông Tin, Đại Hc Khoa Hc Huế URL: http://it.husc.edu.vn/gv/ndbinh/ Email: [email protected]

Upload: tri-le

Post on 27-Oct-2015

119 views

Category:

Documents


8 download

TRANSCRIPT

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Lý Thuyết Nhận DạngPattern Recognition

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 1

Pattern Recognition TS. Nguyễn Đăng Bình

Khoa Công Nghệ Thông Tin, Đại Học Khoa Học HuếURL: http://it.husc.edu.vn/gv/ndbinh/Email: [email protected]

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Nội Dung Bài Giảng

Chương 4Học Có Giám Sát

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 2

Học Có Giám Sát(Supervised Learning)

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Nội dung trình bày• Vấn đề học có giám sát (học có mẫu)

� Bài toán� Giới thiệu phương pháp

• Phân lớp tuyến tính� Phân tách tuyến tính (Linear separability)� Thuật toán nhận thức (Perceptron)

• Bộ phân loại Véc tơ hỗ trợ (Support Vector Machine –SVM � Độ rộng của lề (Wide margin)

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 3

� Độ rộng của lề (Wide margin)� Hàm giá (Cost function)� Dạng nguyên thủy và đối ngẫu (Primal and dual forms)� Các biến trể (Slack variables)� Hàm tổn thất (Loss functions)

• Nhân (Kernels)• Logistic Regression• Boosting và Học trực tuyến (online learning)• Tối ưu hóa

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Vấn đề học có giám sát

• Bài toán: Quá trình nhận dạng được bắt đầu bởi quá trình học trên cơ sở đã biết sự phân lớp ban đầu hoặc thông tin về sự phân lớp tập các đối tượng của nó.

• Quá trình học nhằm xác định sự phân lớp đúng theo mọi đối tượng của không gian (khi số phần tử của tập để học không thay đổi)

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 4

để học không thay đổi)• Ví dụ:

� Bài toán phân lớp tuyến tính: biết dạng phương trình đường biên giới , trong đó w là véc tơ tham số và w0 là giá trị tham số Từ dạng phương trình phân lớp quá trình học nhằm xác định sự hội tụ của các tham số w, w0 với mọi x

� Bài toán nhận dạng theo phương pháp xác suất với phân bố Gauss theo 2 tham số Ak (ma trận hiệp biến) và µk (véc tơ trung bình ) đối với mỗi lớp để tính P(Ck | x)

0w w 0

Tx + =

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Giới thiệu phương pháp

1. Học có mẫu theo tham số

Bài toán: Biết dạng của phương trình phân lớp phụ thuộc vào tham số. Vấn đề học là đi tìm sự hội tụ của tham số với mọi x

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 5

2. Học có mẫu không theo tham số

Bài toán: Biết các mẫu đặc trưng cho các lớp. Vấn đề học là đi tìm dấu hiệu đặc trưng cho mỗi lớp

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Phân lớp nhị phân

• Cho tâp dữ liệu huấn luyện , với và , học bộ phân loạisao cho:

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 6

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Phân tách tuyến tính

Phân tách tuyến tính

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 7

Không phân tách tuyến tính

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Bộ phân loại tuyến tính

• Bộ phân loại tuyến tính có dạng

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 8

• Trong không gian 2 chiều phân biệt là một đường thẳng• w bình thường là một mặt phẳng (plane), và b (bias)• w được gọi là véc tơ trọng số (weight vector)

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Bộ phân loại tuyến tính

• Bộ phân loại tuyến tính có dạng

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 9

• Trong không gian 3 chiều phân biệt là một mặt phẳng• Đối với bộ phân loại K-NN nó là cần thiết để “thực hiện”

dữ liệu huấn luyện• Cho một phân loại tuyến tính, dữ liệu huấn luyện được

sử dụng để học w và sau đó dữ liệu huấn luyện loại bỏ đi• Chỉ w là cần thiết để phân loại dữ liệu mới

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Nhắc lại: Bộ phân loại nhận thức (Perceptron)• Cho dữ liệu phân tách tuyến tính xi được gán nhãn

thành 2 loại yi = {-1, +1}, tìm véc tơ trọng số w sao chohàm phân biệt

phân tách thành các loại với i = 1,…,N• Làm thế nào chúng ta có thể tìm thấy siêu phẳng

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 10

• Làm thế nào chúng ta có thể tìm thấy siêu phẳngphân tách này ?

• Thuật toán “Perceptron”� Bộ phân loại có dạng

ở đó� Khởi tạo w = 0� Chu trình vòng lặp khi các điểm dữ liệu {xi, yi}

� Nếu xi là phân lớp “nhầm” (misclassified)

� Cho tới khi tất cả dữ liệu là được phân lớp đúng

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Ví dụ trong không gian 2 chiều• Khởi tạo w = 0• Lặp với các điểm dữ liệu {xi, yi}

� Nếu xi là phân lớp “nhầm” (misclassified)

• Cho tới khi tất cả dữ liệu được phân lớp đúng

Trước khi cập nhật Sau khi cập nhật

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 11

• Sau khi hội tụ

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Ví dụ “perceptron”

• Nếu dữ liệu phân tách tuyến tính, thì thuật toán hội tụ

• Hội tụ có thể chậm

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 12

• Đường phân tách gần với dữ liệu huấn luyện

• Chúng tôi muốn có mộtbiên độ lớn hơn (largermargin) cho sự tổng quát

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Véc tơ trọng số w tốt nhất là gì?

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 13

• Giải pháp cho khoản cách biên độ lớn nhất: ổn định nhất trong nhiễu và các đầu vào

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Máy véc tơ hỗ trợ (SVM)

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 14

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

SVM: Phát thảo sơ lược

• Từ và định nghĩa cùngmột mặt phẳng, chúng ta có quyền tự do lựa chọn chuẩnhóa

• Chọn chuẩn hóa sao cho đối với véc tơhỗ trợ dương (positive) và cho véc tơ hỗ

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 15

hỗ trợ dương (positive) và cho véc tơ hỗtrợ âm (negative) tương ứng.

• Khoản cách lề được cho bởi

• Khoản cách lề (Margin) = khoản cách của các mẫugần nhất từ đường quyết định/siêu phẳng

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

SVM

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 16

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

SVM – Tối ưu• Học SVM có thể được xây dựng như một tối ưu hóa

• Hoặc tương đương

với

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 17

• Đây là một bài toán tối ưu hóa bình phương với ràng buộc tuyến tính và có tối thiểu duy nhất

với

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

SVM – Thuật toán hình học

• Tính bao lồi của các điểm dương (positive), và bao lồi của các điểm âm (negative)

• Đối với mỗi cặp điểm, một trên bao lồi dương và một trên bao lồi âm, tính khoản cách lề.

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 18

• Chọn khoản cách lề lớn nhất

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

SVM

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 19

• Chỉ cần xem xét những điểm trên tập bao lồi(những điểm bên trong không liên quan) để phân tách

• Siêu phẳng xác định bởi các véc tơ hỗ trợ

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Phát biểu định lý• Chúng ta có bài toán tối ưu

• Giải pháp tính w luôn luôn có thể được viết như sau:

với

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 20

• Chứng minh: (xem như bài tập)

• Do vậy, bài toán tối ưu hóa tương đương là

với

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Công thức nguyên thủy và đối ngẫu• N là số mẫu huấn luyện, và d là số chiều của véc tơ x• Bài toán nguyên thủy: cho

• Bài toán đối ngẫu: cho

với

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 21

• Độ phức tạp của giải pháp là O(d3) đối với bài toán nguyênthủy, và O(N3) đối với bài toán đối ngẫu

• Nếu N<<d thì sẽ hữu hiệu hơn để giải/tìm α hơn w• Dạng đối ngẫu bao gồm . Chúng ta sẽ trở lại với

điều này là tại sao đây là một ưu điểm khi chúng ta xemxét về Nhân (Kernels)

với

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

• Nguyên thủy dạng của bộ phân loại:

• Đối ngẫu dạng của bộ phân loại:

Công thức nguyên thủy và đối ngẫu

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 22

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Máy véc tơ hỗ trợ (SVM)

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 23

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Phân tách tuyến tính: w tốt nhất là gì?

• Các mẫu (điểm) có thể đượcphân tách tuyến tính nhưngkhoản cách lề rất hẹp

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 24

• Nhưng có thể có giải pháp chokhoản cách lề lớn là tốt hơn,mặc dù một số ràng buộc là bịvi phạm

• Nói chung cần có sự đánh đổi (cân bằng) giữa khoản cách lề và số lượng các lỗi trên dữ liệu huấn luyện

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Giới thiệu biến bù (slack) cho các mẫu bị phân lớp nhầm

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 25

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Giải pháp lề mềm (soft margin)• Bài toán tối ưu nguyên thủy trở thành

• Với ràng buộc• Mỗi ràng buộc có thể thỏa mãn nếu đủ lớn• C là một tham số điều hòa (regularization)

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 26

• C là một tham số điều hòa (regularization) � C nhỏ cho phép ràng buộc có thể bỏ qua -> lề lớn� C lớn mà ràng buộc cứng khó có thể bỏ qua - > lề hẹp� C = ∞ thực thi tất cả các ràng buộc: lề cứng

� Điều này vẫn con là một bài toán tối ưu bậc hai và có một tối thiểuduy nhất. Lưu ý, chỉ có một tham số C.

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Ví dụ: bài toán phát hiện người đi bộ

• Mục tiêu: phát hiện (khoanh vùng) vị trí đứng con người trong ảnh

• Phát hiện khuôn mặt sử dụng bộ phân loại với cửa sổ trượt

� Đưa bài toán phát hiện đối

Phương pháp: Bộ phát hiên dựatrên đặc tính HOG

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 27

� Đưa bài toán phát hiện đốitượng về bài toán phân lớpnhị phân

� Trả lời câu hỏi: trong ảnh cóchứa đối tượng hay không?Và nếu có thì nằm ở vị trínào? Chỉ ra vùng xác địnhtọa độ và kích thước của đốitượng đó trong ảnh.

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Huấn luyện dữ liệu và các đặc trưng• Dữ liệu mẫu dương (positive): 1208 mẫu dương

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 28

• Dữ liệu mẫu âm: 1218 mẫu âm (khởi tạo)

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Đặc tính (features): HOG( Histogram of oriented gradients)

ảnhCác

hướng chính

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 29

Phân chia ảnh thành lưới các vùngđơn vị kích thước 8 x 8 điểm ảnh

Mỗi vùng đơn vị được trích chọn vàbiểu diễn đặc tính bởi HOG

Hướng

Số chiều của véc tơ đặc tính = 16 x 8 (vùng) x 8 (hướng) = 1024

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 30

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Các mẫu trung bình

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 31

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Thuật toánHuấn luyện (Học):• Biểu diễn mỗi cửa sổ mẫu bằng một véc tơ đặc tính HOG

với

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 32

• Huấn luyện bộ phân loại bằng thuật toán SVM

Kiểm chứng (testing): sử dụng bộ phân loại đã huấn luyệnđể phát hiện đối tượng từ ảnh mới

• Dùng bộ phân loại trượt cửa sổ để phát hiện đối tượng

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 33

Dalal và Triggs, CVPR 2005

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Mô hình học

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 34

Slide từ Deva Ramanan

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Điều gì làm trọng số âm có nghĩa?

w x > 0(w+ – w- )x > 0

w+ x > w-x

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 35

>Mô hình người đi bộ Mô hình nền

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Hàm tổn thất (loss functions)

• Bài toán nguyên thủy: cho

• Ràng buộc có thể được viết gọn hơn như sau

• Điều này tương đương với

với

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 36

• Điều này tương đương với

• ở đó chỉ ra phần dương. Do vậy, bài toán tối ưu hóa tương đương với

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Hàm tổn thất (loss functions)

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 37

• SVM dùng “hinge” loss• Một sự xấp xỉ đến 0-1 loss

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Hinge loss vs. 0-1 loss

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 38

Hinge loss là cận trên của 0-1 loss !

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Nhân (Kernels)• Phân tách tuyến tính

• Các hàm cơ sở

• Nhân cho SVM� Kernel trick

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 39

� Kernel trick� Các yêu cầu� Các hàm cơ sở xuyên tâm (radial basis functions)

• Nhân cho các bộ phân loại khác

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Phương pháp Kernel: Một chút về lịch sử

• Minsky and Pappert (1969) chỉ ra hạn chế của perceptrons.

• Mạng nơ ron(từ giữa 1980s) vượt quacác hạn chế bằng cách gắn vào nhaunhiều đơn vị tuyến tính (multilayer

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 40

nhiều đơn vị tuyến tính (multilayerneural networks). Gặp hạn chế của tốcđộ và cực tiểu địa phương.

• Phương pháp Kernels (2000s) nối cáchàm tuyến tính nhưng trong không gianfeature với số chiều cao (highdimensional feature space.)

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Phương pháp Kernel: ý tưởng chính

• Biến đổi dữ liệu vào không gian nhiều chiều hơn có thể biến dữ liệu thành tách được tuyến tính.

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 41

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Xử lý dữ liệu không phân tách tuyến tính

• Giới thiệu các biến bù (slack)

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 42

• Phân loại tuyến tính không thíchhợp

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Giải pháp 1: sử dụng tọa độ cực

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 43

• Dữ liệu là phân tách tuyến tính trong tọa độ cực• Phi tuyến trong không gian gốc ban đầu

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Giải pháp 2: ánh xạ dữ liệu vào không gian nhiều chiều hơn

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 44

• Dữ liệu tuyến tính trong không gian 3 chiều (3D)• Điều này có nghĩa rằng bài toán có thể được giải quyết bằng một

bộ phân loại tuyến tính

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Phương pháp Kernel: Lược đồ biến đổi

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 45

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Phương pháp Kernel: nền toán học

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 46

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Bộ phân loại SVM trong một không gian đặc trưng biến đổi

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 47

Học bộ phân loại tuyến tính trong w đối với

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Bộ phân loại nguyên thủy trong không gian đặc trưng biến đổi

• Bộ phân loại, với :

• Học, cho

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 48

với ràng buộc

- Một ánh xạ đơn từ x vào Φ(x) trong đó dữ liệu được phân tách

- Giải tìm w trong không gian số chiều cao- Độ phức tạp tính toán của giải pháp bây giờ là O(D3)

chứ không phải là O(d3)

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Bộ phân loại đối ngẫu trong không gian đặc trưng biến đổi

• Bộ phân loại:

• Học:

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 49

với ràng buộc

- Lưu ý rằng Φ(x) chỉ xảy ra trong cặp

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Phép biến đổi đặc biệt

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 50

Viết k là nhân (kernel)

Thay thế tất cả các lần xuất hiện của bởiở dạng đối ngẫu

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Bộ phân loại đối ngẫu với nhân (kernels)• Bộ phân loại:

• Học:

với ràng buộc

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 51

với ràng buộc

Kernel Trick- Bộ phân loại có thể học và áp dụng một cách rõ ràng mà

không cần tính toán Φ(x) - Tất cả những gì cần thiết là - Độ phức tạp vẫn còn O(N3)

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Nhân hợp lệ (Valid Kernel)

• Cho một số hàm tùy ý , làm thế nào để chúng ta biết nó tương ứng với tích vô hướng trong một số không gian?

• Mercer kernels: nếu thỏa mãn:� Tính đối xứng

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 52

� Tính đối xứng

� Định nghĩa dương, với tất cả , ở đó K là ma trận Gram với các phần tử thì là nhân hợp lệ (valid kernel)

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Một số ví dụ về kernel

• Kernel tuyến tính

• Kernel đa thức đối với d bất kỳ� Chứa tất cả các điều kiện đa thức bậc d

• Kernel Gaussian

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 53

• Kernel Gaussian� Không gian đặc trưng có số chiều vô hạn

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Bộ phân loại SVM với nhân Gaussian

Trọng số (có thể bằng 0) Véc tơ hỗ trợ

Kích thước tập dữ liệu

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 54

• Hàm xuyên tâm cơ sở (RBF) SVM

Trọng số (có thể bằng 0) Véc tơ hỗ trợ

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

RBF Kernel SVM

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 55

• Dữ liệu không phân tách tuyến tính trong không gian đặc trưng ban đầu

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 56

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 57

• Giảm C, cho độ rộng lề (mềm) lớn hơn

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 58

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 59

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 60

• Giảm sigma, tiến tới bộ phân loại xóm giềng gần nhất

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 61

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Ứng dụng: nhận dạng chữ số viết tay

• Véc tơ đặc trưng: mỗi ảnh là 28x28 điểm ảnh. Sắp xếp lại như là một véc tơ x có 784 chiều

• Huấn luyện: học k=10

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 62

• Huấn luyện: học k=10nhị phân lớp: 1 chống lại phần còn lại.Các bộ phân loại SVM fk(x)

• Phân lớp: Chọn lớn mà ở đó có giá trị dương lớn nhất

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Ví dụ

• Viết tay

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 63

• Phân lớp

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Kết luận về Kernel Trick

• Bộ phân loại co thể học với không gian các đặc trưng số chiều cao, mà không cần phải ánh xạ các điểm vào không gian số chiều cao

• Dữ liệu có thể phân tách tuyến tính trong không gian số chiều cao, nhưng không phân tách trong không gian đặc trưng ban đầu

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 64

đặc trưng ban đầu• Kernels có thể sử dụng cho một SVM bởi vì dạng tích

vô hướng, nhưng cũng có thể được sử dụng ở những nơi khác mà nó không gắn liền với SVM

• Chúng ta sẽ thấy ví dụ khác về Kernels sau này trong lý thuyết hồi quy và học không có giám sát

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Logistic Regression

• Gaussian Naïve Bayes

• Logistic Regression

• Hàm Logistic và hàm Sigmoid

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 65

• Learning & Margin

• Logistic Regression Loss function

• Logistic Regression Learning

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Gaussian Naïve Bayes

Xem xét biến boolean liên tục Giả sử

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 66

giả sử

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Lỗi tối thiểu có thể là gì?• Trường hợp tốt nhất

� Giả sử điều kiện độc lập được thỏa mãn� Chúng ta biết P(Y), P(X|Y) hoàn hảo (ví dụ dữ liệu huấn luyện

vô hạn)

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 67

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Logistic Regression

• Logistic regression (LR) thật sự là một phương phápphân lớp

• Ý tưởng� Naïve Bayes cho phép tính toán P(Y|X) bởi học P(Y) và P(X|Y)� Tại sao không học P(Y|X) trực tiếp?

• LR giới thiệu một sự mở rộng của phi tuyến tính qua một

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 68

• LR giới thiệu một sự mở rộng của phi tuyến tính qua một bộ phân loại tuyến tính , bởi sử dụng hàm logistic (hoặc sigmoid)

• Bộ phân loại LR được định nghĩa như sau

ở đó

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

• Xem xét học f: X -> Y hoặc P(Y|X), ở đó� X là một véc tơ các đặc trưng giá trị thực, <X1 …. Xn> � Y là boolean� Giả sử rằng tất cả Xi là điều kiện độc lập cho Y� Mô hình P(Xi | Y = yk) là Gaussian N(µik,σi) (không phải σik)� Mô hình P(Y) là Bernoulli (π)

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 69

� Mô hình P(Y) là Bernoulli (π)

Điều đó hàm ý rằng dạng của P(Y|X)?

Tham số

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Dẫn xuất dạng của P(Y|X) cho Xi liên tục

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 70

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Hàm ý

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 71

Hàm ý

Hàm ý

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Hàm ý

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 72

Hàm ý

Hàm ý

Luậtphân lớptuyến tính

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Giải thích theo xác suất

• Nghĩa rằng σ(f (x)) là xác suất hậu nghiệm mà y = 1, tức là P(y = 1 | x) = σ(f (x))

• Do đó, nếu σ(f (x))> 0,5 thì lớp y = 1 được chọn

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 73

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Hàm logistic hoặc hàm sigmoid

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 74

• Khi z đi từ −∞ đến ∞, σ(z) đi từ 0 đến 1, hàm “squashing”.• Hình dạng của “sigmoid” (ví dụ hình dạng giống “S:)• σ(0) = 0.5, và nếu thì

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Trực giác: tai sao dùng sigmod?

• Ở đây, chọn nhị phân lớp để biểu diễn bởichứ không phải là

Tối thiểu bình phương là phù hợp

phù hợp với y

phù hợp với y

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 75

phù hợp với y

•Thích hợp của wx+b chi phốicác điểm ở xa hơn

• Gây ra phân lớp sai

• Thay vì LR sigmod hồi quivới lớp dữ liệu

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Tương tự trong 2 chiều

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 76

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Học (learning)

• Trong hồi qui logistic phù hợp với hàm sigmod số liệu {xi, yi} bằng cách giảm thiểu các lỗi phân loại

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 77

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Tính chất của lề (biên)

• Một hàm sigmod thiên về lề lớn hơn so với bộ phân loại hàm bước

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 78

• Mặc dù vậy, cần phải kiểm soát độ dốc (gradient). Làm thế nào?

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Ước tính khả năng (likelihood) lớn nhất

• Giả sử

• Viết lại gọn hơn

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 79

• Sau đó khả năng xảy ra (giả sử dữ liệu độc lập) là

• Và log likelihood âm là

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Hàm tổn thất hồi qui Logistic(Logistic Regression Loss function)

• Sử dụng ký kiệu sau đó cho

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 80

• Vì vậy trong cả hai trường hợp

• Giả sử độc lập, khả năng (likelihood) là

• Và log likelihood âm là

• Đó là định nghĩa hàm tổn thất (loss function)

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Học hồi qui Logistic (Logistic Regression Learning)

• Học được hình thành như là bài toán tối tưu

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 81

• Đối với các điểm phân lớp đúng là âm (negative),và là gần tới 0

• Đối với các điểm phân lớp sai là dương (positive),và có thể lớn

• Do đó việc tối ưu hóa các tham số gây bất lợi dẫn đến phân lớp sai (phân nhầm lớp).

• Các qui chuẩn (regularization) để ngăn chặn “over-fitting” và duy trì lề (biên)

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

So sánh hàm chi phí của SVM và LR

• SVM

• Logistic regression

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 82

• Lưu ý:� Cả hai xấp xỉ 0-1 loss� Hành vi tiệm cận tương tự� Sự khác biệt chính là độ trơn

của LR và khác 0 ngoài lề SVM� SVM cho giải pháp thưa (sparse)

đối với αi

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

AdaBoost• AdaBoost (Adaptive Boosting) là một thuật toán để xây

dựng bộ phân loại mạnh dựa trên sự kết hợp tuyến tính các bộ phân loại yếu hn(x). Nó cung cấp phương pháp lựa chọn bộ phân loại yếu và thiết lập các trọng số

Bộ phân loại mạnh Bộ phân loại yếu

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 83

Y. Freund and R. Schapire. A decision-theoretic generalization of on-line learning and an application toboosting. Journal of Computer and System Sciences, 1997.

Cập nhật trọng số từ mẫu huấn luyện (Boosting)

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

AdaBoost [Freund, Schapire 97]

Đầu vào

- Tập dữ liệu mẫu đã gán nhãn

- Phân bổ trọng số đối với các mẫu

Không gian đặc tính

Đầu ra

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 84

for n=1 to N // N là số lượng bộ phân loại yếu

- huấn luyện bộ phân loại yếu sử dụng mẫu và phân bố trọng số

- tính toán lỗi

- tính toán trọng số bộ phân loại

- cập nhật các trọng số mẫu

end

Thuật toán

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Tai sao nó hoạt động?• Thuật toán AdaBoot thực hiện tối ưu hóa tham lam của

hàm tổn thất (loss function)

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 85

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Từ Boosting ngoại tuyến (offline) đến trực tuyến (online)

[Oza, Russel 01]Đầu vào Đầu vào

- tập mẫu huấn luyện đã gán nhãn

- trọng số phân bô trên các mẫu

- MỘT mẫu huấn luyện được gán nhãn

- bộ phân loại mạnh được cập nhật

- khởi tạo trọng số quan trọng

Ngoại tuyến (Off-line) Trực tuyến (On-line)

Đầu ra Đầu ra

[Freund, Schapire 97]

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 86

For n=1 to N

- huấn luyện bộ phân loại yếu sử dụng các mẫu và phân bố trọng số

- tính toán lỗi

- tính toán độ tin cậy

- cập nhật trọng số

End

For n=1 to N

- cập nhật bộ phân loại yếu sử dụng các mẫu và trọng số quan trọng

- cập nhật ước tính lỗi

- cập nhật độ tin cậy

- cập nhật trọng số

End

Thuật toán Thuật toán

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

• Các đặc tính– Sóng con “Haar-like”– Biểu đồ định hướng– Nhị phân cục bộ (LBP)

• Tính toán nhanh sử dụng các

Boosting cho lựa chọn đặc trưng

• Mỗi đặc tính tương ứng với một bộ phân loại yếu

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 87

• Tính toán nhanh sử dụng cáccấu trúc dữ liệu hữu hiệu– Ảnh tích hợp -integral images– Các biểu đồ đặc tính tích hợp

F. Porikli. Integral histogram: A fast way to extract histograms in cnartesian

spaces. CVPR 2005.K. Tieu and P. Viola. Booting Image

Retrival, CVPR 2000

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Bộ phân loại

Kết hợp của các đặc tính đơn giảnsử dụng Boosting để lựa chọn đặc tính/đặc trưng

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 88

P. Viola and M. Jones. Rapid object detection using a boosted cascade of simple features. CVPR 2001.

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

• Giới thiệu Bộ chọn “Selector”� Lựa chọn một đặc trưng từ cơ sở

dữ liệu đặc trưng cục bộ

Boosting ngoại tuyến cho lựa chọn đặc trưng

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 89

Boosting được thực hiện trênbộ chọn (Selectors) chứkhông phải trên bộ phân loạiyếu (weak classifiers) trựctiếp.

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Boosting ngoại tuyến cho lựa chọn đặc trưngset of

training samples

inital weight

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 90

weight distribution

straightforward with all training

samples

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

h1,1

set of training samples

h1,2

inital weight

hSelector1

Boosting ngoại tuyến cho lựa chọn đặc trưng

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 91

h1,M

weight distribution

calculate weight

straightforward with all training

samples

.

.

.

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

h1,1

set of training samples

h1,2

update weight

distribution inital

weight

hSelector1

Boosting ngoại tuyến cho lựa chọn đặc trưng

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 92

h1,M

for training samples

weight distribution

calculate weight

straightforward with all training

samples

.

.

.

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

h1,1

set of training samples

h1,2

h2,1

h2,2

update weight

distribution

update weight

distribution inital

weight

hSelector1 hSelector2

.

.

Boosting ngoại tuyến cho lựa chọn đặc trưng

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 93

h1,M h2,M

h2,m

for training samples

for training samples

weight distribution

calculate weight

calculate weight

straightforward with all training

samples

.

.

.

.

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

h1,1

set of training samples

h1,2

h2,1

h2,2

hT,1

hT,2

hT,mupdate weight

distribution

update weight

distribution ..

inital weight

hSelector1 hSelector2hSelectorT

.

.

Boosting ngoại tuyến cho lựa chọn đặc trưng

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 94

h1,M h2,M

h2,m

hT,M

for training samples

for training samples

.weight

distribution

calculate weight

calculate weight

calculate weight

straightforward with all training

samples

.

.

.

....

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

h1,1

set of training samples

h1,2

h2,1

h2,2

hT,1

hT,2

hT,mupdate weight

distribution

update weight

distribution ..

inital weight

hSelector1 hSelector2hSelectorT

.

.

NOW GO ON-LINE …

Boosting ngoại tuyến cho lựa chọn đặc trưng

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 95

h1,M h2,M

h2,m

hT,M

for training samples

for training samples

.weight

distribution

calculate weight

calculate weight

calculate weight

final strong classifier hStrong

straightforward with all training

samples

.

.

.

....

NOW GO ON-LINE …

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Boosting trực tuyến cho lựa chọn đặc trưng

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 96

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 97

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Mô hình học Boosting trực tuyến với sự giám sát của con người

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 98

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 99

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Tối Ưu Hóa (Optimization)

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 100

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Chúng ta đã thấy nhiều hàm chi phí

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 101

• Đó là những giải pháp duy nhất ?• Liệu những giải pháp phụ thuộc vào điểm khởi đầu của một thuật toán

tối ưu hóa lặp đi lặp lại (chẳng hạn như “gradient descent”)• Nếu hàm giá trị (cost function) là hàm lồi (convex) thì điểm tối ưu cục

bộ là tối ưu toàn cục (cung cấp tối ưu hóa trên một tập lồi, mà nó là một trong trường hợp)

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Hàm lồi (Convex functions)

• D là miền Rn

• Một hàm lồi là một trong những thỏa mãn đối với bất kỳ x0 và x1 trong D

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 102

• Đường nối (x0, f(x0)) và(x1, f(x1)) nằm trên hàmđồ thị

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Ví dụ về hàm lồi (convex)

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 103

• Tổng không âm của một hàm lồi là lồi(A non-negative sum of convex functions is convex)

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 104

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Thuật toán giảm độ nghiêng (Gradient descent or steepest descent)

• Cách đơn giản nhất để hiểu gradient descent là từ vị trí hiện tại, ta đi theo chiều giảm của đạo hàm bậc nhất cho đến khi không thể giảm được nữa. Khi đó ta đã ở một điểm tối ưu cục bộ.

• Để tối thiểu hóa hàm chi phí C(w) dùng vòng lặp cập nhật

ở đó là tốc độ học

• Trong trường hợp chúng tôi, hàm tổn thất là tổng trên toàn dữ liệuhuấn luyến. Chẳng hạn đối với LR

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 105

huấn luyến. Chẳng hạn đối với LR

• Điều này có nghĩa rằng một cập nhật lặp đi lặp lại bao gồm đi qua cácdữ liệu huấn luyện với một bản cập nhật cho mỗi điểm

• Ưu điểm là cho một lượng lớn dữ liệu, điều này có thể được thựchiện từng điểm một.

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Gradient Descent

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 106

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Thuật toán giảm độ nghiêng cho LR

• Tối thiểu hóa sử dụng “gradient descent” cho luật cập nhật [xem như bài tập]

ở đó • Lưu ý:

� Điều này tương tự nhưng không giống hệt nhau với luật cập nhật

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 107

� Điều này tương tự nhưng không giống hệt nhau với luật cập nhật của “perceptron”

� Có một giải phapr duy nhất cho w� Trong thực tế phương pháp Newton hiệu quả hơn được sử dụng

để tối thiểu hóa LR� Có thể bài toán với w trở thành vô hạn cho dữ liệu phân tách

tuyến tính

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Giảm độ nghiêng cho SVM

• Đầu tiên, bài toán tối ưu hóa được viết lại như là trung bình

• Với λ = 2/(NC) lên đến tỉ lệ chung của bài toán và

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 108

• Với λ = 2/(NC) lên đến tỉ lệ chung của bài toán và

• Bởi vì “hinge loss” không khả vi, một tiểu dốc (sub-gradient) được tính

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Sub-gradient for hinge loss

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 109

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Thuật toán giảm tiểu độ nghiêng cho SVM

• Cập nhật lặp đi lặp lại là:

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 110

ở đó là tốc độ học• Sau đó, mỗi lần lặp t bao gồm chu trình qua dữ liệu

huấn luyện với các cập nhật:

• Trong thuật toán Pegasos tỉ lệ học được thiết lập ηt = 1/λt