chuong 4 - hoc co giam sat - adaboost.pdf

KHOA CÔNG NGHỆ THÔNG TIN – ĐẠI HỌC KHOA HỌC HUẾ BÀI GIẢNG HỌC MÁY

Lý Thuyết Nhận DạngPattern Recognition

Professor Horst Cerjak, 19.12.2005Nguyễn Đăng Bình Chương 4 – Học có giám sát & Sự phân lớp Trang 1

Pattern Recognition TS. Nguyễn Đăng Bình

Khoa Công Nghệ Thông Tin, Đại Học Khoa Học HuếURL: http://it.husc.edu.vn/gv/ndbinh/Email: [email protected]


Nội Dung Bài Giảng

Chương 4Học Có Giám Sát


Học Có Giám Sát(Supervised Learning)


Nội dung trình bày• Vấn đề học có giám sát (học có mẫu)

� Bài toán� Giới thiệu phương pháp

• Phân lớp tuyến tính� Phân tách tuyến tính (Linear separability)� Thuật toán nhận thức (Perceptron)

• Bộ phân loại Véc tơ hỗ trợ (Support Vector Machine –SVM � Độ rộng của lề (Wide margin)


� Độ rộng của lề (Wide margin)� Hàm giá (Cost function)� Dạng nguyên thủy và đối ngẫu (Primal and dual forms)� Các biến trể (Slack variables)� Hàm tổn thất (Loss functions)

• Nhân (Kernels)• Logistic Regression• Boosting và Học trực tuyến (online learning)• Tối ưu hóa


Vấn đề học có giám sát

• Bài toán: Quá trình nhận dạng được bắt đầu bởi quá trình học trên cơ sở đã biết sự phân lớp ban đầu hoặc thông tin về sự phân lớp tập các đối tượng của nó.

• Quá trình học nhằm xác định sự phân lớp đúng theo mọi đối tượng của không gian (khi số phần tử của tập để học không thay đổi)


để học không thay đổi)• Ví dụ:

� Bài toán phân lớp tuyến tính: biết dạng phương trình đường biên giới , trong đó w là véc tơ tham số và w0 là giá trị tham số Từ dạng phương trình phân lớp quá trình học nhằm xác định sự hội tụ của các tham số w, w0 với mọi x

� Bài toán nhận dạng theo phương pháp xác suất với phân bố Gauss theo 2 tham số Ak (ma trận hiệp biến) và µk (véc tơ trung bình ) đối với mỗi lớp để tính P(Ck | x)

0w w 0

Tx + =


Giới thiệu phương pháp

1. Học có mẫu theo tham số

Bài toán: Biết dạng của phương trình phân lớp phụ thuộc vào tham số. Vấn đề học là đi tìm sự hội tụ của tham số với mọi x


2. Học có mẫu không theo tham số

Bài toán: Biết các mẫu đặc trưng cho các lớp. Vấn đề học là đi tìm dấu hiệu đặc trưng cho mỗi lớp


Phân lớp nhị phân

• Cho tâp dữ liệu huấn luyện , với và , học bộ phân loạisao cho:



Phân tách tuyến tính

Phân tách tuyến tính


Không phân tách tuyến tính


Bộ phân loại tuyến tính

• Bộ phân loại tuyến tính có dạng


• Trong không gian 2 chiều phân biệt là một đường thẳng• w bình thường là một mặt phẳng (plane), và b (bias)• w được gọi là véc tơ trọng số (weight vector)


Bộ phân loại tuyến tính

• Bộ phân loại tuyến tính có dạng


• Trong không gian 3 chiều phân biệt là một mặt phẳng• Đối với bộ phân loại K-NN nó là cần thiết để “thực hiện”

dữ liệu huấn luyện• Cho một phân loại tuyến tính, dữ liệu huấn luyện được

sử dụng để học w và sau đó dữ liệu huấn luyện loại bỏ đi• Chỉ w là cần thiết để phân loại dữ liệu mới


Nhắc lại: Bộ phân loại nhận thức (Perceptron)• Cho dữ liệu phân tách tuyến tính xi được gán nhãn

thành 2 loại yi = {-1, +1}, tìm véc tơ trọng số w sao chohàm phân biệt

phân tách thành các loại với i = 1,…,N• Làm thế nào chúng ta có thể tìm thấy siêu phẳng


• Làm thế nào chúng ta có thể tìm thấy siêu phẳngphân tách này ?

• Thuật toán “Perceptron”� Bộ phân loại có dạng

ở đó� Khởi tạo w = 0� Chu trình vòng lặp khi các điểm dữ liệu {xi, yi}

� Nếu xi là phân lớp “nhầm” (misclassified)

� Cho tới khi tất cả dữ liệu là được phân lớp đúng


Ví dụ trong không gian 2 chiều• Khởi tạo w = 0• Lặp với các điểm dữ liệu {xi, yi}

� Nếu xi là phân lớp “nhầm” (misclassified)

• Cho tới khi tất cả dữ liệu được phân lớp đúng

Trước khi cập nhật Sau khi cập nhật


• Sau khi hội tụ


Ví dụ “perceptron”

• Nếu dữ liệu phân tách tuyến tính, thì thuật toán hội tụ

• Hội tụ có thể chậm


• Đường phân tách gần với dữ liệu huấn luyện

• Chúng tôi muốn có mộtbiên độ lớn hơn (largermargin) cho sự tổng quát


Véc tơ trọng số w tốt nhất là gì?


• Giải pháp cho khoản cách biên độ lớn nhất: ổn định nhất trong nhiễu và các đầu vào


Máy véc tơ hỗ trợ (SVM)



SVM: Phát thảo sơ lược

• Từ và định nghĩa cùngmột mặt phẳng, chúng ta có quyền tự do lựa chọn chuẩnhóa

• Chọn chuẩn hóa sao cho đối với véc tơhỗ trợ dương (positive) và cho véc tơ hỗ


hỗ trợ dương (positive) và cho véc tơ hỗtrợ âm (negative) tương ứng.

• Khoản cách lề được cho bởi

• Khoản cách lề (Margin) = khoản cách của các mẫugần nhất từ đường quyết định/siêu phẳng


SVM



SVM – Tối ưu• Học SVM có thể được xây dựng như một tối ưu hóa

• Hoặc tương đương

với


• Đây là một bài toán tối ưu hóa bình phương với ràng buộc tuyến tính và có tối thiểu duy nhất

với


SVM – Thuật toán hình học

• Tính bao lồi của các điểm dương (positive), và bao lồi của các điểm âm (negative)

• Đối với mỗi cặp điểm, một trên bao lồi dương và một trên bao lồi âm, tính khoản cách lề.


• Chọn khoản cách lề lớn nhất


SVM


• Chỉ cần xem xét những điểm trên tập bao lồi(những điểm bên trong không liên quan) để phân tách

• Siêu phẳng xác định bởi các véc tơ hỗ trợ


Phát biểu định lý• Chúng ta có bài toán tối ưu

• Giải pháp tính w luôn luôn có thể được viết như sau:

với


• Chứng minh: (xem như bài tập)

• Do vậy, bài toán tối ưu hóa tương đương là

với


Công thức nguyên thủy và đối ngẫu• N là số mẫu huấn luyện, và d là số chiều của véc tơ x• Bài toán nguyên thủy: cho

• Bài toán đối ngẫu: cho

với


• Độ phức tạp của giải pháp là O(d3) đối với bài toán nguyênthủy, và O(N3) đối với bài toán đối ngẫu

• Nếu N<<d thì sẽ hữu hiệu hơn để giải/tìm α hơn w• Dạng đối ngẫu bao gồm . Chúng ta sẽ trở lại với

điều này là tại sao đây là một ưu điểm khi chúng ta xemxét về Nhân (Kernels)

với


• Nguyên thủy dạng của bộ phân loại:

• Đối ngẫu dạng của bộ phân loại:

Công thức nguyên thủy và đối ngẫu



Máy véc tơ hỗ trợ (SVM)



Phân tách tuyến tính: w tốt nhất là gì?

• Các mẫu (điểm) có thể đượcphân tách tuyến tính nhưngkhoản cách lề rất hẹp


• Nhưng có thể có giải pháp chokhoản cách lề lớn là tốt hơn,mặc dù một số ràng buộc là bịvi phạm

• Nói chung cần có sự đánh đổi (cân bằng) giữa khoản cách lề và số lượng các lỗi trên dữ liệu huấn luyện


Giới thiệu biến bù (slack) cho các mẫu bị phân lớp nhầm



Giải pháp lề mềm (soft margin)• Bài toán tối ưu nguyên thủy trở thành

• Với ràng buộc• Mỗi ràng buộc có thể thỏa mãn nếu đủ lớn• C là một tham số điều hòa (regularization)


• C là một tham số điều hòa (regularization) � C nhỏ cho phép ràng buộc có thể bỏ qua -> lề lớn� C lớn mà ràng buộc cứng khó có thể bỏ qua - > lề hẹp� C = ∞ thực thi tất cả các ràng buộc: lề cứng

� Điều này vẫn con là một bài toán tối ưu bậc hai và có một tối thiểuduy nhất. Lưu ý, chỉ có một tham số C.


Ví dụ: bài toán phát hiện người đi bộ

• Mục tiêu: phát hiện (khoanh vùng) vị trí đứng con người trong ảnh

• Phát hiện khuôn mặt sử dụng bộ phân loại với cửa sổ trượt

� Đưa bài toán phát hiện đối

Phương pháp: Bộ phát hiên dựatrên đặc tính HOG


� Đưa bài toán phát hiện đốitượng về bài toán phân lớpnhị phân

� Trả lời câu hỏi: trong ảnh cóchứa đối tượng hay không?Và nếu có thì nằm ở vị trínào? Chỉ ra vùng xác địnhtọa độ và kích thước của đốitượng đó trong ảnh.


Huấn luyện dữ liệu và các đặc trưng• Dữ liệu mẫu dương (positive): 1208 mẫu dương


• Dữ liệu mẫu âm: 1218 mẫu âm (khởi tạo)


Đặc tính (features): HOG( Histogram of oriented gradients)

ảnhCác

hướng chính


Phân chia ảnh thành lưới các vùngđơn vị kích thước 8 x 8 điểm ảnh

Mỗi vùng đơn vị được trích chọn vàbiểu diễn đặc tính bởi HOG

Hướng

Số chiều của véc tơ đặc tính = 16 x 8 (vùng) x 8 (hướng) = 1024


Các mẫu trung bình



Thuật toánHuấn luyện (Học):• Biểu diễn mỗi cửa sổ mẫu bằng một véc tơ đặc tính HOG

với


• Huấn luyện bộ phân loại bằng thuật toán SVM

Kiểm chứng (testing): sử dụng bộ phân loại đã huấn luyệnđể phát hiện đối tượng từ ảnh mới

• Dùng bộ phân loại trượt cửa sổ để phát hiện đối tượng



Dalal và Triggs, CVPR 2005


Mô hình học


Slide từ Deva Ramanan


Điều gì làm trọng số âm có nghĩa?

w x > 0(w+ – w- )x > 0

w+ x > w-x


>Mô hình người đi bộ Mô hình nền


Hàm tổn thất (loss functions)

• Bài toán nguyên thủy: cho

• Ràng buộc có thể được viết gọn hơn như sau

• Điều này tương đương với

với


• Điều này tương đương với

• ở đó chỉ ra phần dương. Do vậy, bài toán tối ưu hóa tương đương với


Hàm tổn thất (loss functions)


• SVM dùng “hinge” loss• Một sự xấp xỉ đến 0-1 loss


Hinge loss vs. 0-1 loss


Hinge loss là cận trên của 0-1 loss !


Nhân (Kernels)• Phân tách tuyến tính

• Các hàm cơ sở

• Nhân cho SVM� Kernel trick


� Kernel trick� Các yêu cầu� Các hàm cơ sở xuyên tâm (radial basis functions)

• Nhân cho các bộ phân loại khác


Phương pháp Kernel: Một chút về lịch sử

• Minsky and Pappert (1969) chỉ ra hạn chế của perceptrons.

• Mạng nơ ron(từ giữa 1980s) vượt quacác hạn chế bằng cách gắn vào nhaunhiều đơn vị tuyến tính (multilayer


nhiều đơn vị tuyến tính (multilayerneural networks). Gặp hạn chế của tốcđộ và cực tiểu địa phương.

• Phương pháp Kernels (2000s) nối cáchàm tuyến tính nhưng trong không gianfeature với số chiều cao (highdimensional feature space.)


Phương pháp Kernel: ý tưởng chính

• Biến đổi dữ liệu vào không gian nhiều chiều hơn có thể biến dữ liệu thành tách được tuyến tính.



Xử lý dữ liệu không phân tách tuyến tính

• Giới thiệu các biến bù (slack)


• Phân loại tuyến tính không thíchhợp


Giải pháp 1: sử dụng tọa độ cực


• Dữ liệu là phân tách tuyến tính trong tọa độ cực• Phi tuyến trong không gian gốc ban đầu


Giải pháp 2: ánh xạ dữ liệu vào không gian nhiều chiều hơn


• Dữ liệu tuyến tính trong không gian 3 chiều (3D)• Điều này có nghĩa rằng bài toán có thể được giải quyết bằng một

bộ phân loại tuyến tính


Phương pháp Kernel: Lược đồ biến đổi



Phương pháp Kernel: nền toán học



Bộ phân loại SVM trong một không gian đặc trưng biến đổi


Học bộ phân loại tuyến tính trong w đối với


Bộ phân loại nguyên thủy trong không gian đặc trưng biến đổi

• Bộ phân loại, với :

• Học, cho


với ràng buộc

- Một ánh xạ đơn từ x vào Φ(x) trong đó dữ liệu được phân tách

- Giải tìm w trong không gian số chiều cao- Độ phức tạp tính toán của giải pháp bây giờ là O(D3)

chứ không phải là O(d3)


Bộ phân loại đối ngẫu trong không gian đặc trưng biến đổi

• Bộ phân loại:

• Học:


với ràng buộc

- Lưu ý rằng Φ(x) chỉ xảy ra trong cặp


Phép biến đổi đặc biệt


Viết k là nhân (kernel)

Thay thế tất cả các lần xuất hiện của bởiở dạng đối ngẫu


Bộ phân loại đối ngẫu với nhân (kernels)• Bộ phân loại:

• Học:

với ràng buộc


với ràng buộc

Kernel Trick- Bộ phân loại có thể học và áp dụng một cách rõ ràng mà

không cần tính toán Φ(x) - Tất cả những gì cần thiết là - Độ phức tạp vẫn còn O(N3)


Nhân hợp lệ (Valid Kernel)

• Cho một số hàm tùy ý , làm thế nào để chúng ta biết nó tương ứng với tích vô hướng trong một số không gian?

• Mercer kernels: nếu thỏa mãn:� Tính đối xứng


� Tính đối xứng

� Định nghĩa dương, với tất cả , ở đó K là ma trận Gram với các phần tử thì là nhân hợp lệ (valid kernel)


Một số ví dụ về kernel

• Kernel tuyến tính

• Kernel đa thức đối với d bất kỳ� Chứa tất cả các điều kiện đa thức bậc d

• Kernel Gaussian


• Kernel Gaussian� Không gian đặc trưng có số chiều vô hạn


Bộ phân loại SVM với nhân Gaussian

Trọng số (có thể bằng 0) Véc tơ hỗ trợ

Kích thước tập dữ liệu


• Hàm xuyên tâm cơ sở (RBF) SVM

Trọng số (có thể bằng 0) Véc tơ hỗ trợ


RBF Kernel SVM


• Dữ liệu không phân tách tuyến tính trong không gian đặc trưng ban đầu



• Giảm C, cho độ rộng lề (mềm) lớn hơn



• Giảm sigma, tiến tới bộ phân loại xóm giềng gần nhất


Ứng dụng: nhận dạng chữ số viết tay

• Véc tơ đặc trưng: mỗi ảnh là 28x28 điểm ảnh. Sắp xếp lại như là một véc tơ x có 784 chiều

• Huấn luyện: học k=10


• Huấn luyện: học k=10nhị phân lớp: 1 chống lại phần còn lại.Các bộ phân loại SVM fk(x)

• Phân lớp: Chọn lớn mà ở đó có giá trị dương lớn nhất


Ví dụ

• Viết tay


• Phân lớp


Kết luận về Kernel Trick

• Bộ phân loại co thể học với không gian các đặc trưng số chiều cao, mà không cần phải ánh xạ các điểm vào không gian số chiều cao

• Dữ liệu có thể phân tách tuyến tính trong không gian số chiều cao, nhưng không phân tách trong không gian đặc trưng ban đầu


đặc trưng ban đầu• Kernels có thể sử dụng cho một SVM bởi vì dạng tích

vô hướng, nhưng cũng có thể được sử dụng ở những nơi khác mà nó không gắn liền với SVM

• Chúng ta sẽ thấy ví dụ khác về Kernels sau này trong lý thuyết hồi quy và học không có giám sát


Logistic Regression

• Gaussian Naïve Bayes

• Logistic Regression

• Hàm Logistic và hàm Sigmoid


• Learning & Margin

• Logistic Regression Loss function

• Logistic Regression Learning


Gaussian Naïve Bayes

Xem xét biến boolean liên tục Giả sử


giả sử


Lỗi tối thiểu có thể là gì?• Trường hợp tốt nhất

� Giả sử điều kiện độc lập được thỏa mãn� Chúng ta biết P(Y), P(X|Y) hoàn hảo (ví dụ dữ liệu huấn luyện

vô hạn)



Logistic Regression

• Logistic regression (LR) thật sự là một phương phápphân lớp

• Ý tưởng� Naïve Bayes cho phép tính toán P(Y|X) bởi học P(Y) và P(X|Y)� Tại sao không học P(Y|X) trực tiếp?

• LR giới thiệu một sự mở rộng của phi tuyến tính qua một


• LR giới thiệu một sự mở rộng của phi tuyến tính qua một bộ phân loại tuyến tính , bởi sử dụng hàm logistic (hoặc sigmoid)

• Bộ phân loại LR được định nghĩa như sau

ở đó


• Xem xét học f: X -> Y hoặc P(Y|X), ở đó� X là một véc tơ các đặc trưng giá trị thực, <X1 …. Xn> � Y là boolean� Giả sử rằng tất cả Xi là điều kiện độc lập cho Y� Mô hình P(Xi | Y = yk) là Gaussian N(µik,σi) (không phải σik)� Mô hình P(Y) là Bernoulli (π)


� Mô hình P(Y) là Bernoulli (π)

Điều đó hàm ý rằng dạng của P(Y|X)?

Tham số


Dẫn xuất dạng của P(Y|X) cho Xi liên tục



Hàm ý


Hàm ý

Hàm ý


Hàm ý


Hàm ý

Hàm ý

Luậtphân lớptuyến tính


Giải thích theo xác suất

• Nghĩa rằng σ(f (x)) là xác suất hậu nghiệm mà y = 1, tức là P(y = 1 | x) = σ(f (x))

• Do đó, nếu σ(f (x))> 0,5 thì lớp y = 1 được chọn



Hàm logistic hoặc hàm sigmoid


• Khi z đi từ −∞ đến ∞, σ(z) đi từ 0 đến 1, hàm “squashing”.• Hình dạng của “sigmoid” (ví dụ hình dạng giống “S:)• σ(0) = 0.5, và nếu thì


Trực giác: tai sao dùng sigmod?

• Ở đây, chọn nhị phân lớp để biểu diễn bởichứ không phải là

Tối thiểu bình phương là phù hợp

phù hợp với y

phù hợp với y


phù hợp với y

•Thích hợp của wx+b chi phốicác điểm ở xa hơn

• Gây ra phân lớp sai

• Thay vì LR sigmod hồi quivới lớp dữ liệu


Tương tự trong 2 chiều



Học (learning)

• Trong hồi qui logistic phù hợp với hàm sigmod số liệu {xi, yi} bằng cách giảm thiểu các lỗi phân loại



Tính chất của lề (biên)

• Một hàm sigmod thiên về lề lớn hơn so với bộ phân loại hàm bước


• Mặc dù vậy, cần phải kiểm soát độ dốc (gradient). Làm thế nào?


Ước tính khả năng (likelihood) lớn nhất

• Giả sử

• Viết lại gọn hơn


• Sau đó khả năng xảy ra (giả sử dữ liệu độc lập) là

• Và log likelihood âm là


Hàm tổn thất hồi qui Logistic(Logistic Regression Loss function)

• Sử dụng ký kiệu sau đó cho


• Vì vậy trong cả hai trường hợp

• Giả sử độc lập, khả năng (likelihood) là

• Và log likelihood âm là

• Đó là định nghĩa hàm tổn thất (loss function)


Học hồi qui Logistic (Logistic Regression Learning)

• Học được hình thành như là bài toán tối tưu


• Đối với các điểm phân lớp đúng là âm (negative),và là gần tới 0

• Đối với các điểm phân lớp sai là dương (positive),và có thể lớn

• Do đó việc tối ưu hóa các tham số gây bất lợi dẫn đến phân lớp sai (phân nhầm lớp).

• Các qui chuẩn (regularization) để ngăn chặn “over-fitting” và duy trì lề (biên)


So sánh hàm chi phí của SVM và LR

• SVM

• Logistic regression


• Lưu ý:� Cả hai xấp xỉ 0-1 loss� Hành vi tiệm cận tương tự� Sự khác biệt chính là độ trơn

của LR và khác 0 ngoài lề SVM� SVM cho giải pháp thưa (sparse)

đối với αi


AdaBoost• AdaBoost (Adaptive Boosting) là một thuật toán để xây

dựng bộ phân loại mạnh dựa trên sự kết hợp tuyến tính các bộ phân loại yếu hn(x). Nó cung cấp phương pháp lựa chọn bộ phân loại yếu và thiết lập các trọng số

Bộ phân loại mạnh Bộ phân loại yếu


Y. Freund and R. Schapire. A decision-theoretic generalization of on-line learning and an application toboosting. Journal of Computer and System Sciences, 1997.

Cập nhật trọng số từ mẫu huấn luyện (Boosting)


AdaBoost [Freund, Schapire 97]

Đầu vào

- Tập dữ liệu mẫu đã gán nhãn

- Phân bổ trọng số đối với các mẫu

Không gian đặc tính

Đầu ra


for n=1 to N // N là số lượng bộ phân loại yếu

- huấn luyện bộ phân loại yếu sử dụng mẫu và phân bố trọng số

- tính toán lỗi

- tính toán trọng số bộ phân loại

- cập nhật các trọng số mẫu

end

Thuật toán


Tai sao nó hoạt động?• Thuật toán AdaBoot thực hiện tối ưu hóa tham lam của

hàm tổn thất (loss function)



Từ Boosting ngoại tuyến (offline) đến trực tuyến (online)

[Oza, Russel 01]Đầu vào Đầu vào

- tập mẫu huấn luyện đã gán nhãn

- trọng số phân bô trên các mẫu

- MỘT mẫu huấn luyện được gán nhãn

- bộ phân loại mạnh được cập nhật

- khởi tạo trọng số quan trọng

Ngoại tuyến (Off-line) Trực tuyến (On-line)

Đầu ra Đầu ra

[Freund, Schapire 97]


For n=1 to N

- huấn luyện bộ phân loại yếu sử dụng các mẫu và phân bố trọng số

- tính toán lỗi

- tính toán độ tin cậy

- cập nhật trọng số

End

For n=1 to N

- cập nhật bộ phân loại yếu sử dụng các mẫu và trọng số quan trọng

- cập nhật ước tính lỗi

- cập nhật độ tin cậy

- cập nhật trọng số

End

Thuật toán Thuật toán


• Các đặc tính– Sóng con “Haar-like”– Biểu đồ định hướng– Nhị phân cục bộ (LBP)

• Tính toán nhanh sử dụng các

Boosting cho lựa chọn đặc trưng

• Mỗi đặc tính tương ứng với một bộ phân loại yếu


• Tính toán nhanh sử dụng cáccấu trúc dữ liệu hữu hiệu– Ảnh tích hợp -integral images– Các biểu đồ đặc tính tích hợp

F. Porikli. Integral histogram: A fast way to extract histograms in cnartesian

spaces. CVPR 2005.K. Tieu and P. Viola. Booting Image

Retrival, CVPR 2000


Bộ phân loại

Kết hợp của các đặc tính đơn giảnsử dụng Boosting để lựa chọn đặc tính/đặc trưng


P. Viola and M. Jones. Rapid object detection using a boosted cascade of simple features. CVPR 2001.


• Giới thiệu Bộ chọn “Selector”� Lựa chọn một đặc trưng từ cơ sở

dữ liệu đặc trưng cục bộ

Boosting ngoại tuyến cho lựa chọn đặc trưng


Boosting được thực hiện trênbộ chọn (Selectors) chứkhông phải trên bộ phân loạiyếu (weak classifiers) trựctiếp.


Boosting ngoại tuyến cho lựa chọn đặc trưngset of

training samples

inital weight


weight distribution

straightforward with all training

samples


h1,1

set of training samples

h1,2

inital weight

hSelector1



h1,M

weight distribution

calculate weight


samples

.

.

.


h1,1


h1,2

update weight

distribution inital

weight

hSelector1



h1,M

for training samples

weight distribution

calculate weight


samples

.

.

.


h1,1


h1,2

h2,1

h2,2

update weight

distribution

update weight

distribution inital

weight

hSelector1 hSelector2

.

.



h1,M h2,M

h2,m



weight distribution

calculate weight

calculate weight


samples

.

.

.

.


h1,1


h1,2

h2,1

h2,2

hT,1

hT,2

hT,mupdate weight

distribution

update weight

distribution ..

inital weight

hSelector1 hSelector2hSelectorT

.

.



h1,M h2,M

h2,m

hT,M



.weight

distribution

calculate weight

calculate weight

calculate weight


samples

.

.

.

....


h1,1


h1,2

h2,1

h2,2

hT,1

hT,2

hT,mupdate weight

distribution

update weight

distribution ..

inital weight

hSelector1 hSelector2hSelectorT

.

.

NOW GO ON-LINE …



h1,M h2,M

h2,m

hT,M



.weight

distribution

calculate weight

calculate weight

calculate weight

final strong classifier hStrong


samples

.

.

.

....

NOW GO ON-LINE …


Boosting trực tuyến cho lựa chọn đặc trưng



Mô hình học Boosting trực tuyến với sự giám sát của con người



Tối Ưu Hóa (Optimization)



Chúng ta đã thấy nhiều hàm chi phí


• Đó là những giải pháp duy nhất ?• Liệu những giải pháp phụ thuộc vào điểm khởi đầu của một thuật toán

tối ưu hóa lặp đi lặp lại (chẳng hạn như “gradient descent”)• Nếu hàm giá trị (cost function) là hàm lồi (convex) thì điểm tối ưu cục

bộ là tối ưu toàn cục (cung cấp tối ưu hóa trên một tập lồi, mà nó là một trong trường hợp)


Hàm lồi (Convex functions)

• D là miền Rn

• Một hàm lồi là một trong những thỏa mãn đối với bất kỳ x0 và x1 trong D


• Đường nối (x0, f(x0)) và(x1, f(x1)) nằm trên hàmđồ thị


Ví dụ về hàm lồi (convex)


• Tổng không âm của một hàm lồi là lồi(A non-negative sum of convex functions is convex)


Thuật toán giảm độ nghiêng (Gradient descent or steepest descent)

• Cách đơn giản nhất để hiểu gradient descent là từ vị trí hiện tại, ta đi theo chiều giảm của đạo hàm bậc nhất cho đến khi không thể giảm được nữa. Khi đó ta đã ở một điểm tối ưu cục bộ.

• Để tối thiểu hóa hàm chi phí C(w) dùng vòng lặp cập nhật

ở đó là tốc độ học

• Trong trường hợp chúng tôi, hàm tổn thất là tổng trên toàn dữ liệuhuấn luyến. Chẳng hạn đối với LR


huấn luyến. Chẳng hạn đối với LR

• Điều này có nghĩa rằng một cập nhật lặp đi lặp lại bao gồm đi qua cácdữ liệu huấn luyện với một bản cập nhật cho mỗi điểm

• Ưu điểm là cho một lượng lớn dữ liệu, điều này có thể được thựchiện từng điểm một.


Gradient Descent



Thuật toán giảm độ nghiêng cho LR

• Tối thiểu hóa sử dụng “gradient descent” cho luật cập nhật [xem như bài tập]

ở đó • Lưu ý:

� Điều này tương tự nhưng không giống hệt nhau với luật cập nhật


� Điều này tương tự nhưng không giống hệt nhau với luật cập nhật của “perceptron”

� Có một giải phapr duy nhất cho w� Trong thực tế phương pháp Newton hiệu quả hơn được sử dụng

để tối thiểu hóa LR� Có thể bài toán với w trở thành vô hạn cho dữ liệu phân tách

tuyến tính


Giảm độ nghiêng cho SVM

• Đầu tiên, bài toán tối ưu hóa được viết lại như là trung bình

• Với λ = 2/(NC) lên đến tỉ lệ chung của bài toán và


• Với λ = 2/(NC) lên đến tỉ lệ chung của bài toán và

• Bởi vì “hinge loss” không khả vi, một tiểu dốc (sub-gradient) được tính


Sub-gradient for hinge loss



Thuật toán giảm tiểu độ nghiêng cho SVM

• Cập nhật lặp đi lặp lại là:


ở đó là tốc độ học• Sau đó, mỗi lần lặp t bao gồm chu trình qua dữ liệu

huấn luyện với các cập nhật:

• Trong thuật toán Pegasos tỉ lệ học được thiết lập ηt = 1/λt

chuong 4 - hoc co giam sat - adaboost.pdf

Documents