may hoc 012012

Chuyên đề máy học PGS.TS. Vũ Thanh Nguyên 1

Báo Cáo Viên: PGS.TS. Vũ Thanh Nguyên


Công nghệ Máy học là một trong những phương pháp chính trong khai phá dữ liệu. Nó được sử dụng trong tiến trình khám phá tri thức.

Một số lợi ích của máy học: Các thông tin ngày càng nhiều, hàng ngày ta phải xử lý rất nhiều

thông tin đến từ nhiều nguồn khác nhau. Máy học có thể giúp xứ lý và dự báo các thông tin đó bằng cách tạo ra các luất sản xuất từ dữ liệu thu thập.

Ở những nơi không có chuyên gia, máy học có thể giúp tạo ra được các quyết định từ các dữ liệu có được.

Các thuật toán máy học có thể giúp xử lý khi dữ liệu không đầy đử, không chính xác.


Một số lợi ích của máy học: Máy học giúp thiết kế hệ thống huấn luyện tự động (mạng nơrôn

nhân tạo) và giải mã mối liên hệ giữa các tri thức được lưu trữ trong mạng từ dữ liệu.

…


Rất khó để định nghĩa một cách chính xác về máy học.

“Học - learn” có ý nghĩa khác nhau trong từng lĩnh vực: tâm lý học, giáo dục, trí tuệ nhân tạo,…

Một định nghĩa rộng nhất: “máy học là một cụm từ dùng để chỉ khả năng một chương trình máy tính để tăng tính thực thi dựa trên những kinh nghiêm đã trải qua” hoặc “máy học là để chỉ khả năng một chương trình có thể phát sinh ra một cấu trúc dữ liệu mới khác với các cấu trúc dữ liệu cũ”


Lợi điểm của các phương pháp máy học là nó phát sinh ra các luật tường minh, có thể được sửa đổi, hoặc được huấn luyện trong một giới hạn nhất định.

Các phương pháp máy học hoạt động trên các dữ liệu có đặc tả thông tin.

Các thông tin được trình bày theo một cấu trúc gồm 4 mức được gọi là tri thức kim tự tháp (pyramid knowledge).


Mô hình kim tự tháp: Từ dữ liệu đến tri thức.


Máy học là sự tự động của quy trình học và việc học thì tương đương với việc xây dựng những luật dựa trên việc quan sát trạng thái trên cơ sở dữ liệu và những sự chuyển hoá của chúng.

Đây là lĩnh vực rộng lớn không chỉ bao gồm việc học từ mẫu, mà còn học tăng cường, học với “thầy”,...

Các thuật toán học lấy bộ dữ liệu và những thông tin quen thuộc của nó khi nhập và trả về một kết quả câu nói hay một câu ví dụ, một khái niệm để diễn tả những kết quả học.


Máy học kiểm tra những ví dụ trước đó và kiểm tra luôn cả những kết quả của chúng khi xuất và học làm cách nào để tái tạo lại những kết quả này và tạo nên những sự tổng quát hóa cho những trường hợp mới.

Nói chung, máy học sử dụng một tập hữu hạn dữ liệu được gọi là tập huấn luyện. Tập này chứa những mẫu dữ liệu mà nó được viết bằng mã theo một cách nào đó để máy có thể đọc và hiểu được.


Tuy nhiên, tập huấn luyện bao giờ cũng hữu hạn do đó không phải toàn bộ dữ liệu sẽ được học một cách chính xác.


Một tiến trình máy học gồm 2 giai đoạn: Giai đoạn học (learning): hệ thống phân tích dữ liệu và

nhận ra sự mối quan hệ (có thể là phi tuyến hoặc tuyến tính) giữa các đối tượng dữ liệu. Kết quả của việc học có thể là: nhóm các đối tượng vào trong các lớp, tạo ra các luật, tiên đoán lớp cho các đối tượng mới.

Giai đoạn thử nghiệm (testing): Mối quan hệ (các luật, lớp...) được tạo ra phải được kiểm nghiệm lại bằng một số hàm tính toán thực thi trên một phần của tập dữ liệu huấn luyện hoặc trên một tập dữ liệu lớn.


Các thuật toán máy học được chia làm 3 loại: học giám sát, học không giám sát và học nửa giám sát.

Học có giám sát (Supervised Learning). Đây là cách học từ những mẫu dữ liệu mà ở đó các kỹ

thuật máy học giúp hệ thống xây dựng cách xác định những lớp dữ liệu. Hệ thống phải tìm một sự mô tả cho từng lớp (đặc tính của mẫu dữ liệu).

Người ta có thể sử dụng các luật phân loại hình thành trong quá trình học và phân lớp để có thể sử dụng dự báo các lớp dữ liệu sau này.


Học có giám sát (Supervised Learning). Thuật toán học có giám sát gồm tập dữ liệu huấn luyện

M cặp:

S = {(xi, cj) i=1,…,M; j=1,…,C}

Các cặp huấn luyện này được gọi là mẫu, với

xi là vector n-chiều còn gọi là vector đặc trưng,

cj là lớp thứ j đã biết trước.

Thuật toán máy học giám sát tìm kiếm không gian của những giả thuyết có thể, gọi là H. Đối với một hay nhiều giả thuyết, mà ước lượng tốt nhất hàm không được biết chính xác f : x c.


Học có giám sát (Supervised Learning). Đối với công việc phân lớp có thể xem giả thuyết như

một tiêu chí phân lớp. Thuật toán máy học tìm ra những giả thuyết bằng cách

khám phá ra những đặc trưng chung của những ví dụ mẫu thể hiện cho mỗi lớp.

Kết quả nhận được thường ở dạng luật (Nếu ... thì). Khi áp dụng cho những mẫu dữ liệu mới, cần dựa trên

những giả thuyết đã có để dự báo những phân lớp tương ứng của chúng. Nếu như không gian giả thuyết lớn, thì cần một tập dữ liệu huấn luyện đủ lớn nhằm tìm kiếm một hàm xấp xỉ tốt nhất f.


Học có giám sát (Supervised Learning). Tùy thuộc vào mức độ của thuật toán học giám sát,

người ta có những mô hình học giám sát như sau: Học vẹt (rote): hệ thống luôn luôn được “dạy” những luật đúng,

rồi có học hội tụ. Học bằng phép loại suy (analogy): hệ thống được dạy phản hồi

đúng cho một công việc tương tự, nhưng không xác định. Vì thế hệ thống phải hiệu chỉnh phản hồi trước đó bằng cách tạo ra một luật mới có thể áp dụng cho trường hợp mới.

Học dựa trên trường hợp (case-based learning): trong trường hợp này hệ thống học lưu trữ tất cả các trường hợp, cùng với kết quả đầu ra của chúng. Khi bắt gặp một trường hợp mới, nó sẽ cố gắng hiệu chỉnh đến trường hợp mới này cách xử lý trước đó của nó đã được lưu trữ.


Học có giám sát (Supervised Learning). Học dựa trên sự giải thích (explanation-based learning), hệ

thống sẽ phân tích tập hợp những giải pháp nhằm chỉ ra tại sao mỗi phương pháp là thành công hay không thành công. Sau khi những giải thích này được tạo ra, chúng sẽ được dùng để giải quyết những vấn đề mới.


Học Không giám sát (Unsupervised Learning). Đây là việc học từ quan sát và khám phá. Hệ

thống khai thác dữ liệu được ứng dụng với những đối tượng nhưng không có lớp được định nghĩa trước, mà để nó phải tự hệ thống quan sát những mẫu và nhận ra mẫu. Hệ thống này dẫn đến một tập lớp, mỗi lớp có một tập mẫu được khám phá trong tập dữ liệu.

Học không giám sát còn gọi là học từ quan sát và khám phá.


Học Không giám sát (Unsupervised Learning). Trong trường hợp chỉ có ít, hay gần như không

có tri thức về dữ liệu đầu vào, khi đó một hệ thống học không giám sát sẽ khám phá ra những phân lớp của dữ liệu, bằng cách tìm ra những thuộc tính, đặc trưng chung của những mẫu hình thành nên tập dữ liệu.

Một thuật toán máy học giám sát luôn có thể biến đổi thành một thuật toán máy học không giám sát (Langley 1996).


Học Không giám sát (Unsupervised Learning). Đối với một bài toán mà những mẫu dữ liệu

được mô tả bởi n đặc trưng, người ta có thể chạy thuật toán học giám sát n-lần, mỗi lần với một đặc trưng khác nhau đóng vai trò thuộc tính lớp, mà chúng ta đang tiên đoán.

Kết quả sẽ là n tiêu chí phân lớp (n bộ phân lớp), với hy vọng là ít nhất một trong n bộ phân lớp đó là đúng.


Học nửa giám sát. Học nửa giám sát là các thuật toán học tích hợp

từ học giám sát và học không giám sát. Việc học nửa giám sát tận dụng những ưu điểm của việc học giám sát và học không giám sát và loại bỏ những khuyết điểm thường gặp trên hai kiểu học này.


Thuật Toán Naïve Bayes Đây là thuật toán được xem là đơn giản và đước sử dụng

rộng rãi. Thuật toán Naïve Bayes dựa trên định lý Bayes được

phát biểu như sau:

Trong đó: Y đại diện một giả thuyết, giả thuyết này được suy luận khi có được chứng cứ

mới X P(X) : xác xuất X xảy ra, P(Y) : xác xuất Y xảy ra P(X|Y) : xác xuất X xảy ra khi Y xảy ra (xác suất có điều kiện, khả năng của X

khi Y đúng)

P(Y|X) : xác suất hậu nghiệm của Y nếu biết X.


Thuật Toán Naïve Bayes được ứng dụng rất nhiều trong thực tế. Một trong những ứng dụng cụ thể là ứng dụng bài toán phân lớp.

Đây là thuật toán được xem là đơn giản nhất trong các phương pháp phân lớp. Bộ phân lớp Bayes có thể dự báo các xác suất là thành viên của lớp, chẳng hạn xác suất mẫu cho trước thuộc về một lớp xác định.


Với mỗi lớp dữ liệu trong bộ huấn luyện, ta tính xác suất phụ thuộc của văn bản cần phân loại:

Với c1 là lớp dữ liệu cần tính xác suất và x là văn bản dữ liệu cần phân loại

Công thức tính P(x|ci):

P(x|ci) = P(w1|ci)*P(w2|ci)*…*P(wn|ci)

Trong đó: P(wk|ci) là xác suất xuất hiện của từ wk trong lớp văn bản ci (k=1n; i=1,2,3…)


Mô hình Hệ thống mạng Nơrôn Lan truyền ngược – Backpropogation Neural Network (FNN).

Các mô hình sử dụng mạng neuron là một cách tiếp cận khá phổ biến cho vấn đề nêu trên. Điều đó xuất phát từ khả năng ghi nhớ và học của cấu trúc này.

Bên cạnh đó, tính ổn định của mạng neuron cũng là một yếu tố quan trọng giúp nó được chọn vì đây là điều kiện quan trọng đặt ra cho bài toán mô hình.


Thuật toán lan truyền ngược (BackPropagation Algorithm)

file: backproalgorithm.pdf

Phương pháp cài đặt cho thuật toán học Back-Propagation.

file: setup_backproalgorithm.pdf


Mô hình hệ thống mạng Nơrôn dạng hàm radial - RADIAL BASIS FUNCTION NEURAL NETWORKS (RBFNNs).

Hệ thống Mạng Nơrôn RBFNNs sẽ giải quyết vấn đề xấp xỉ một hàm liên tục n biến trên một miền compact. RBFNNs tiến hành lấy đặc trưng cục bộ của hàm, và như vậy sẽ dễ dàng khởi tạo và huấn luyện dữ liệu khi học.


Cấu trúc RBFNNs: Một mạng RBFNNs gồm có 3 lớp Lớp đầu vào (inputs) Lớp các hàm Gauss (số nút là do người sử dụng quy định) Lớp đầu ra (outputs) Các liên kết từ tầng inputs đến tầng các hàm gauss không có trọng

số Các liên kết ở tầng các hàm Gauss đến tầng ouputs có trọng số. Mỗi node ở tầng các hàm gauss có các thông số cần xác định là:

trọng tâm (xác định trọng tâm hàm gaus) , thông số sigma (xác định độ lệch chuẩn của hàm gauss). Xác định các thông số ở tầng này dùng để phân lớp.

Các trọng số trên đường liên kết từ tầng các hàm Gauss đến tầng ouput được xác định thông qua cách học bình

thường: phương pháp học lan truyền ngược (back propagation), phương pháp học tuyến tính (line search), phương pháp học theo vết cũ (backtracking).


Hoạt động của mô hình. Mỗi mẫu dữ liệu nhập sẽ qua k hàm gauss (giả sử ở tầng này có k

nút hàm gauss), hay có thể hiểu là có k lớp, xem mẫu thuộc vào lớp nào qua tính xác xuất phân bố chuẩn (là hàm gauss của các lớp). Các giá trị tính được này được tổ hợp tuyến tính (tính trung bình có trọng số).

Giải thuật học cho RBFNNs

File: Ước lượng mạng: EstNet_Rbfnn.pdf

File: Huấn Luyện mạng: TraiNet_Rbfnn.pdf


Mô Hình Hệ Thống Mạng Nơrôn mờ hồi quy - RECURRENT FUZZY NEURAL NETWORK (RFNNs).

Một cách tiếp cận của mô hình máy học cho nhiều bài toán ứng dụng khác nhau là mô hình mạng nơ ron mờ hồi quy (Recurrent Fuzzy Neural Network).

Mô hình mạng nơ ron này kết hợp từ lý thuyết tập mờ và mô hình mạng nơrôn tận dụng những ưu điểm như có khả năng xấp xỉ một hàm liên tục với độ chính xác cho trước (mạng nơrôn) và khai thác khả năng xử lý những tri thức như con người (lý thuyết tập mờ).

Mạng nơ ron mờ hồi quy tỏ ra đạt hiệu quả cao cho những ứng dụng như: dự báo chuỗi thời gian, nhận dạng và điều khiển những hệ phi tuyến…


Cấu trúc RFNNs. Cấu trúc mô hình RFNNs được thể hiện như hình dưới đây


Một RFNNs gồm 4 lớp như sau: Lớp 1: Là lớp nhập gồm N dữ liệu nhập (input). Lớp 2: Gọi là lớp các hàm thành viên. Các nút trong lớp này thực

hiện việc mờ hoá. Lớp này dùng để tính giá trị hàm thành viên theo hàm phân phối Gauss. Số nút trong lớp 2 là N x M, trong đó M là số luật mờ (số nút của lớp 3)

Lớp 3: Lớp các luật mờ. Các nút trong lớp này tạo thành cơ sở luật mờ (Fuzzy rule base) gồm M nút. Liên kết giữa lớp 2 và lớp 3 biểu diễn giả thiết của luật mờ. Liên kết giữa lớp 3 và lớp 4 biểu diễn kết luận của luật mờ.

Lớp 4: Lớp xuất gồm P nút.

Liên kết giữa lớp 3 và lớp 4 được gán trọng số.

Như vậy số nút của mô hình là: N + (N x M) + M + P


Hoạt động của mô hình File: Activiti_RFNN.pdf


Lập luận mờ Giả sử cho hệ RFNNs với nhiều đầu vào (Input) và một đầu ra

(Output). Gọi xi là biến ngôn ngữ thứ i và j là giá trị kích hoạt của luật j, wj là trọng số của kết nối thứ j.

Một luật suy diễn mờ được biểu diễn như sau

Rj : Nếu u1j là A1j, u2j là A2j, .. , unj là Anj Thì y=wj

Trong đó

i = 1, 2, .. , n. n là số đầu vào (Input)

uij = xi + ij * oij(2)(t-1)

Aij là các tập mờ

Wj là trọng số kết nối Đầu vào của mỗi hàm thành viên là đầu vào xi của mạng cộng với

số hạng oij(2)ij.


Lập luận mờ Sơ đồ kết nối dựa trên luật suy diễn mờ như hình sau


Lập luận mờ Hệ thống mờ với những thành phần nhớ (Feedback unit) có thể

được xem như là một hệ suy luận mờ động và giá trị suy luận được tính bởi

với M là số luật

Từ mô tả trên, ta thấy RFNNs là một hệ suy luận mờ có các phần tử nhớ. Sau khi huấn luyện xong, các thông số trong mạng cùng với các phần tử nhớ đã xác định tri thức.


Giải thuật học cho RFNNs File: learnin_RFNN.pdf


Mô Hình Hệ thống Fuzzy Artmap Neural Network.

Hệ thống fuzzy ARTMAP neural network là mạng neural học giám sát có khả năng nhận dạng nhanh và ổn định, có khả năng dự báo chính xác phù hợp cho phân lớp.

Cấu trúc của mạng là cấu trúc tiến hóa và là sự kết hợp của hai mạng fuzzy ART, ARTa và ARTb. Hai mạng này được liên kết với nhau bởi mạng neural MAP Field.


Sơ đồ khối của hệ thống fuzzy ARTMAP


Quá trình học của mạng ARTMAP là một quá trình hoạt động đồng thời của 2 mạng ARTa và ARTb.

Cho mẫu đầu vào a vào lớp Foa của mạng ARTa và mẫu đầu vào b

vào lớp Fob của mạng ARTb với b là mẫu dự đoán chính xác của a.

Lớp mã hóa Fo tạo ra vector A = (a, ac) trong ARTa và B = (b, bc) trong ARTb với ac, bc tương ứng là phần bù của a, b.

Lớp F1 với vector đầu vào x (xa = A cho ARTa và xb = B cho ARTb) tạo ra những ma trận trọng số thích nghi Wj liên kết giữa lớp F1 và lớp F2 (Wj

a cho ARTa và Wjb cho ARTb).

Vector y (ya = A cho ARTa và yb = B cho ARTb) biểu diễn sự kích hoạt của lớp F2.


Mạng fuzzy ARTMAP có các tham số giống với mạng fuzzy ART là tham số α > 0 được sử dụng trong quá trình so sánh giữa các neural trong F2, tham số huấn luyện β [0 1] biểu diễn tốc độ học, và tham số ∈vigilance ρ [0 1] được sử dụng trong quá trình tìm neural chiến thắng ∈trong F2, đồng thời mạng fuzzy ARTMAP có thêm giá trị nhỏ nhất của tham số vigilance của ARTa ρ ¬a, tham số vigilance ρ ab và tham số huấn luyện βab của lớp MAP.

Quá trình tính toán sẽ tìm ra một neural chiến thắng lớn nhất tại F2a

tương ứng với đầu vào A và xem là neural kích hoạt J. Trong khi đó F2b

sẽ kích hoạt một neural K từ mẫu vào B. Quá trình so sánh sẽ xảy ra tại MAP Field.Nếu neural kích hoạt K của B trùng với neural kích hoạt J của A thì việc dự đoán của ARTa là chính xác, đồng thời cập nhật Wj

ab. Ngược lại, một tín hiệu kích hoạt từ Map Field sẽ tác động lên ρa một lượng làm thay đổi ρa, sau đó quá trình sẽ lặp lại đối với ARTa để tìm neural kích hoạt khớp với ARTb.


Giải thuật fuzzy ARTMAP neural networkFile: training_FuzzyArtmap.pdf


Mô hình Hệ luật mờ - Standard Additive Model (SAM).

Việc sử dụng mô hình mạng neuron (và một số mô hình khác…) cho bài toán xấp xỉ hiện vẫn đang còn nhiều nhược điểm. Trước hết đó là khả năng học của mạng neuron.

Hơn nữa, việc xác định cấu trúc mạng neuron phù hợp cho từng bộ số liệu vẫn là một công việc hết sức khó khăn:

Với hệ thống các neuron trong các lớp và các cung liên kết, mạng neuron thật sự là một hộp đen đối với người dùng, đặc biệt là các chuyên gia.

Các chuyên gia tham gia vào việc huấn luyện mạng neuron cũng không thể hiểu và nắm bắt được toàn bộ các hiệu chỉnh xảy ra bên trong (trên các neuron và dây liên kết) của nó.


Chính vì các hạn chế nói trên xây dựng một cấu trúc khá đặc biệt để xây dựng các hệ thống xấp xỉ, đó là hệ luật mờ.

các mô hình xấp xỉ các hàm phi tuyến chỉ thực sự được đưa ra bởi Bart Kosko vào năm 1992.


Việc sử dụng hệ mờ để xây dựng các mô hình xấp xỉ xuất phát từ những tính năng đặc biệt của nó:

Có thể chứng minh tính ổn định của hệ mờ. Các đại lượng mang giá trị ngôn ngữ (mờ) của các chuyên gia

có thể dễ dàng biểu diễn thông qua các tập mờ. Nhờ đó giúp hệ mờ phản ánh đầy đủ tri thức của chuyên gia (thông qua các luật mờ). Cách biểu diễn này tạo sự gần gũi giữa hệ thống với chuyên gia. Chuyên gia có thể hiểu và tham gia vào việc xây dựng cũng như điều chỉnh hệ mờ thông qua việc chỉnh sửa các luật mờ có trong hệ.

Không như mạng neuron, hệ mờ thật sự là một hộp trắng mà thông số của nó có thể dễ dàng hiểu và điều chỉnh được bởi chuyên gia.


MÔ HÌNH HỆ LUẬT MỜ CỘNG CHUẨN. Hệ luật mờ là hệ thống m luật mờ dạng Rj: IF x = Aj

THEN y = Bj; , hoạt động theo cơ chế song song.

Có nhiều cách kết hợp vế trái và phải trong mỗi luật mờ và kết hợp kết quả của các luật mờ trong hệ luật mờ.

Tuy nhiên, vì các đặc tính thuận lợi trong tính toán (tính tích phân để xác định trọng tâm), người ta thường dùng đến hệ luật mờ hoạt động theo qui tắc kết hợp SUM-PRODUCT.

Do tính kết hợp SUM các luật mờ mà hệ luật mờ này có tên gọi là SAM (Standard Additive Model).


MÔ HÌNH HỆ LUẬT MỜ CỘNG CHUẨN. Trong hệ mờ SAM, ứng với mỗi giá trị vào x=x0, luật

thứ j : Rj được kích hoạt và cho kết quả là tập mờ Bj’xác định theo Bj và mức độ thỏa mãn vế trái aj(x0) dựa trên qui tắc PRODUCT.

Bj’ = aj(x0)Bj

m kết quả ra Bj’ của các luật trong hệ luật được SAM kết hợp theo qui tắc SUM để cho kết quả chung của toàn hệ thống là tập mờ B. Từ phụ lục A, ta có:


MÔ HÌNH HỆ LUẬT MỜ CỘNG CHUẨN. Giá trị B sẽ được khử mờ để nhận được một giá trị rõ

duy nhất. Gọi y là kết quả sau khi khử mờ tập mờ kết quả B của hệ SAM, ta có:

m

1jj0jj

m

1jjj0jj

00

V).x(a.w

c.V).x(a.w

))x(B(Centroid)x(Fy


ỨNG DỤNG SAM CHO XẤP XỈ HÀM PHI TUYẾN.

Hệ SAM hoạt động như một ánh xạ: F: Rn Rp. Chính nhờ đặc trưng này mà với bất kỳ hàm phi tuyến liên tục giới hạn f(x), f : U Rn Rp, với U là tập compact, ta luôn có thể xây dựng một hệ mờ SAM: F: Rn Rp cho phép xấp xỉ f bởi F.

Cũng như các mô hình xấp xỉ khác, mỗi mô hình xấp xỉ mờ hàm phi tuyến SAM luôn tương ứng với một giá trị sai số nhất định. Giá trị này được xác định trên mức độ chênh lệnh giữa giá trị cho bởi hàm f(x) và giá trị nhận được từ hệ F(x), xX. Gọi e là giá trị sai số của mô hình xấp xỉ SAM, ta có

Giả sử f là hàm số được xấp xỉ (có thể chưa biết). > 0 cho trước.



Định nghĩa:

-close = {F là hệ mờ xấp xỉ f : |f(x) – F(x)| x X}

Dưới góc độ khảo sát đồ thị, khả năng xấp xỉ của hệ mờ F đối với một hàm phi tuyến y = f(x) được thể hiện như sau:

• Mỗi luật mờ trong hệ mờ hoạt động theo cơ chế xấp xỉ cho phép tương ứng với mỗi tập mờ vào Aj (có cơ sở là không gian các giá trị vào X) là một tập mờ kết quả Bj (có cơ sở là không gian các giá trị ra Y). A j và Bj làm hình thành một khối (patch) mờ AjBj xác định trong không gian tích XY.

• Thông qua việc kết hợp các khối mờ hình thành từ các luật mờ R j hoặc lấy trung bình giữa các khối mờ này nếu chúng chồng lấp lẫn nhau nhờ vào cơ chế khử mờ bằng phương pháp trọng tâm, hệ mờ SAM F có thể bao phủ đồ thị biểu diễn của hàm f(x) mà nó xấp xỉ. f có thể chưa biết.



So sánh giữa 2 hình (1a) và (1b), nhận xét rằng số lượng khối mờ càng nhiều và nhỏ thì khả năng bao phủ của F trên đường biểu diễn của f càng sát thực; nghĩa là độ chính xác trong xấp xỉ của F đối với f càng cao. Điều đó có nghĩa là một hệ mờ càng có nhiều luật thì độ chính xác trong xấp xỉ các hàm phi tuyến của hệ mờ càng cao. Đây chính là vấn đề tranh chấp giữa một bên là độ chính xác trong xấp xỉ của hệ luật mờ và một bên là kích thước (số luật) của nó. Mặt khác, khi số chiều của không gian XY gia tăng sẽ làm dẫn đến sự bùng nổ số luật của hệ theo cấp số mũ.



Vấn đề đặt ra ở đây là làm sao xây dựng các khối mờ hay nói một cách cụ thể hơn là xây dựng các tập mờ và luật mờ cần thiết cho hệ mờ F để nó có thể xấp xỉ một hàm phi tuyến f(x).

Đây là một vấn đề khá phức tạp và quan trọng. Bởi vì số lượng các luật mờ và cấu trúc các thông số của nó ảnh hưởng nghiêm trọng đến hiệu quả xấp xỉ của hệ mờ xây dựng các cơ chế học đủ mạnh.


CƠ CHẾ HỌC TRONG SAM. Học là hoạt động quan trọng của SAM nhằm xây dựng cơ sở tri thức cần

thiết dưới dạng các luật mờ phục vụ cho việc mô phỏng hàm phi tuyến mà hệ đảm nhận.

Nhờ cơ chế học mà SAM có thể khắc phục hạn chế là phải chờ đợi tri thức chuyên gia.

Ngoài ra, việc học còn giúp cho SAM có khả năng tự điều chỉnh các thông số cấu trúc cũng như kiểm tra tính tối ưu trong cấu trúc luật để từ đó có thể nâng cao độ chính xác trong hoạt động xấp xỉ của nó.

Thông qua việc hiệu chỉnh các thông số: kích thước, trọng tâm các tập mờ, SAM tự động định vị lại vị trí và kích thước của các khối mờ, nhờ đó quá trình xấp xỉ của SAM được chính xác hơn.

Đối với SAM, một phương pháp học được đánh giá là tốt hay không ở chổ nó có điều chỉnh nhanh chóng hay không kích thước và vị trí của các khối mờ cũng như đảm bảo duy trì các khối mờ tại các điểm uốn của hàm f.


CƠ CHẾ HỌC TRONG SAM. Quá trình học của SAM (hay của hệ mờ nói chung) thông thường bao gồm

hai bước chính là học cấu trúc và học tham số phối hợp thêm cơ chế học tối ưu hệ luật.

Quá trình học của SAM ở đây bao gồm các giai đoạn sau: Tự phát sinh cấu trúc luật (structure learning): Đây là bước khởi đầu

của quá trình học. Bước này được thực hiện theo cơ chế tự học (unsupervised learning). Bằng cách thực hiện việc phân lớp mờ trên bộ dữ liệu học, hệ SAM sẽ tự phát hiện ra các luật mờ cần thiết cho việc xấp xỉ hàm phi tuyến đặc trưng cho bộ số liệu học đó.


CƠ CHẾ HỌC TRONG SAM. Quá trình học của SAM ở đây bao gồm các giai đoạn sau:

Điều chỉnh các thông số (parameters learning): Sau khi đã xây dựng được bộ luật mờ cần thiết, công việc học tiếp theo của SAM là điều chỉnh các thông số của hệ luật như: trọng số của từng luật, trọng tâm và kích thước của các tập mờ tham gia ở vế trái và vế phải của các luật. Quá trình này được tiến hành theo cơ chế học có giám sát (supervised learning). Thông qua việc kiểm tra sai số giữa giá trị kết quả do hệ sinh ra từ bộ dữ liệu học với kết quả mong muốn, hệ sẽ thực hiện điều chỉnh lại các thông số cho phù hợp. Việc điều chỉnh thông số được tiến hành theo thuật toán học điều chỉnh sai số nhỏ nhất.

Tối ưu hóa hệ luật (optimal learning): Giai đoạn học này cho phép SAM có thể phát hiện và loại bỏ các luật mờ không cần thiết cho hoạt động xấp xỉ của nó. Nhờ cơ chế này mà SAM có thể gọn nhẹ hơn nhằm tăng đáng kể tốc độ xử lý cũng như giảm nhiễu. Cơ chế học ở đây cũng gần giống như cơ chế học có giám sát.


CƠ CHẾ HỌC TRONG SAM. HỌC CẤU TRÚC.

Bài toán học cấu trúc có thể phát biểu như sau:

Cho trước bộ dữ liệu học vào {xj} và bộ kết quả mong muốn {yj}, j=1,ntd, với ntd: số bộ dữ liệu học

Cho trước dạng hàm phụ thuộc của các tập mờ. Hãy xây dựng một phân lớp mờ P({xj|yj}) trên các bộ số liệu học. Trên

cơ sở đó, xác định các tập mờ và hàm phụ thuộc tương ứng để từ đó phát sinh các luật mờ của hệ mờ SAM có khả năng xấp xỉ một cách tốt nhất hàm phi tuyến y=f(x) (chưa biết) đặc trưng của bộ dữ liệu học.


CƠ CHẾ HỌC TRONG SAM. Việc giải quyết bài toán này được tiến hành theo hai bước sau: Xác định các tập mờ bằng thuật toán phân lớp dữ liệu mờ (Data

Fuzzy Clustering) Phân lớp mờ dữ liệu là bước quan trọng trong quá trình xây dựng các

luật mờ của một hệ mờ tự học. Nhiệm vụ đặt ra đối với quá trình phân lớp mờ dữ liệu là từ một tập

hữu hạn các bộ số liệu học cho trước, tìm cách tách chúng ra thành từng nhóm với các đặc trưng riêng sao cho các bộ số liệu trong cùng một nhóm càng giống nhau và các bộ số liệu giữa các nhóm càng khác nhau càng tốt.

Đối với quá trình phân lớp dữ liệu mờ thì bên cạnh việc phân tách dữ liệu, phải tiến hành đồng thời việc xác định mức độ phụ thuộc của từng bộ số liệu đối với nhóm mà nó thuộc về, để từ đó có thể xác định hàm thành viên của tập mờ tương ứng với nhóm sẽ được tạo ra sau này.


CƠ CHẾ HỌC TRONG SAM. Bài toán phân lớp mờ dữ liệu được phát biểu như sau:

Gọi Rn là không gian các vector có n thành phần thực.

Đặt X = {x1, x2, ..., xntd}, xj Rn, là tập hữu hạn bộ số liệu học, trong đó ntd (number of training data) là số bộ dữ liệu học.

Gọi Vcn là không gian vector các ma trận cn, c Z+ cho trườc, 1<c<n.

Xác định một phân lớp mờ trên X biểu diễn bởi một bộ vector trọng tâm:

V = {v1, v2, ..., vc}, vi Rn. cho tương ứng với 1 ma trận

U = {uij} Vcn, với uij là giá trị thực trong đoạn [0,1] diễn tả mức độ phụ thuộc của bộ số liệu học xj ứng với vector trọng tâm vi, và thỏa hai điều kiện sau:

1. x X, uij [0,1],


CƠ CHẾ HỌC TRONG SAM. Bài toán phân lớp mờ dữ liệu được phát biểu như sau:

2. : Nhiệm vụ đặt ra của bài toán phân lớp mờ là phải làm giảm thiểu giá trị hàm mục tiêu J xác định trên U và V có dạng như sau:

And trong đó:

w(xi) là trọng số khởi đầu của xi.

d(xj, vk) là độ đo biểu diễn mức độ khác biệt giữa xj và vector trọng tâm của phân lớp thứ k: vk. Độ đo chọn phải thỏa hai tính chất sau:

d(xj, vk) > 0

d(xj, vk) = d(vk, xj)


CƠ CHẾ HỌC TRONG SAM. Hiện nay có rất nhiều thuật toán đề cập đến vấn đề này. Đa số các

thuật toán đều có mục tiêu chung là xác định V. Giá trị của U có thể được xác định một cách tuyệt đối hoặc tương đối thông qua một đại lượng khác nhằm mục đích hạn chế thao tác xử lý và tài nguyên sử dụng.

Thuật toán phân lớp mờ trung bình (Fuzzy C-Means-FCM).

File: FCM_Algorithm.pdf Một hướng giải quyết khác được hình thành từ ý tưởng của phương

pháp học cạnh tranh. Qua đó số lớp mờ được xác định một cách tự động từ bộ số liệu học.

Thuật toán FCM cải tiến với phân lớp mờ dẫn đầu.

File: FCM_First_Algorithm.pdf


CƠ CHẾ HỌC TRONG SAM. Một phương pháp phân lớp theo hướng tiếp cận tựa FCM là phương

pháp dùng vector lượng tử thích nghi. Giống như các vector V của thuật toán FCM, các vector lượng tử được dùng như một công cụ để dò tìm các phân lớp mờ. Điểm đặc biệt của phương pháp này là sử dụng phương pháp học cạnh tranh, nhờ đó giảm thiểu đáng kể thao tác xử lý cũng như không gian lưu trữ cần dùng cho thuật toán.

Thuật toán vector lượng tử thích nghi (Adaptive Vector Quantization - AVQ)

File: AVQ_algorithm.pdf Thuật toán vector lượng tử thích nghi với phân lớp dẫn đầu

(Adaptive Vector Quantization Leader - AVQL)

File: AVQL_algorithm


CƠ CHẾ HỌC TRONG SAM. Xây dựng các luật mờ.

Sau khi thực hiện quá trình phân lớp mờ, công việc tiếp theo là xây dựng các luật mờ từ các phân lớp đó.

Dựa trên các thông tin về các phân lớp mờ: các trọng tâm của các vector lượng tử qi, người ta tiến hành xây dựng các luật mờ.

Trọng tâm của các tập mờ có thể dễ dàng xác định thông qua tọa độ các vector lượng tử. Nhưng để xác định dạng hàm thành viên đòi hỏi phải xác định được độ rộng của các tập mờ.

Kosko với đề nghị sử dụng các luật mờ dạng ellipse (ellipsoid rules: luật tương ứng với khối mờ dạng ellipse thay vì hình chữ nhật như thường dùng) và thuật toán phân lớp mờ thông qua các vector lượng tử với cơ chế học cạnh tranh đã cung cấp một cơ chế giúp xác định chính xác độ rộng của các tập mờ thông qua tâm của các ellipse và độ nghiêng của chúng.



Tuy nhiên phương pháp này có nhiều trở ngại do mức độ phức tạp của nó khi cài đặt.

Việc xác định chính xác độ rộng của các tập mờ trong bước này không thực sự quan trọng lắm bởi vì sau đó ta còn có thể kịp thời hiệu chỉnh bằng giai đoạn học điều chỉnh thông số.

Một cách đơn giản, độ rộng của một tập mờ thứ i có thể xác định thông qua tập mờ lân cận của nó theo công thức sau:

Trong đó:

mi: trọng tâm của tập mờ thứ i

mclosest: trọng tâm của tập mờ gần tập mờ thứ i nhất.

r: hệ số chồng lấn giữa các tập mờ do người dùng quyết định.



Mỗi khối mờ cho phép hình thành một luật mờ trong hệ. Dạng hàm biểu diễn tập mờ phải được xác định trước Dùng hàm hình thang vì lý do dễ cài đặt của nó.

Đồ thị biểu diễn của hàm có dạng hình thang. Hàm hình thang tương ứng với tập mờ thứ j được định nghĩa bằng bộ 4 giá trị (lj, mlj, mrj, rj). Với lj, rj >0, mlj mrj. Giá trị hàm thành viên của tập mờ thứ j được xác định như sau:


CƠ CHẾ HỌC TRONG SAM. ĐIỀU CHỈNH THÔNG SỐ.

Khi các luật mờ đã được xác định, học điều chỉnh thông số giúp giảm sai số giữa kết quả của hệ và kết quả mong muốn.

Bài toán được phát biểu như sau: Cho trước bộ dữ liệu học vào {xj} và bộ kết quả mong muốn {yj}, j=1.ntd ; với ntd: số bộ dữ liệu học.

Cho hệ luật mờ SAM với các luật mờ và trọng số. Hãy điều chỉnh thông số của các tập mờ vế trái, vế phải và trọng

số các luật mờ sao cho sai số giữa kết quả cho bởi hệ luật mờ và kết quả mong muốn là ổn định và nhỏ nhất.


CƠ CHẾ HỌC TRONG SAM. ĐIỀU CHỈNH THÔNG SỐ.

Quá trình học điều chỉnh thông số được tiến hành dựa trên luật học sai số nhỏ nhất. Luật học sai số nhỏ nhất áp dụng cho tham số trong SAM có dạng:

Trong đó t là hệ số học biến đổi theo thời gian và có xu hướng giảm dần. Mục đích của giai đoạn học điều chỉnh thông số là tối thiểu bình phương sai số:

E(x) = 1/2 (f(x)-F(x))2

Sai số trong xấp xỉ của hệ luật mờ phụ thuộc vào các tham số tham gia vào hệ, bao gồm: các tập mờ vế trái Aji, các tập mờ vế phải Bj, các trọng số wj (tham khảo file: editparameter.pdf).

Thuật toán học thông số. file: para_algorithm.pdf


CƠ CHẾ HỌC TRONG SAM. TỐI ƯU HỆ LUẬT.

Về mặt lý thuyết, một hệ SAM càng có nhiều luật thì độ chính xác trong hoạt động xấp xỉ của nó càng lớn.

Tuy nhiên, nếu hệ có quá nhiều luật thì thời gian cho quá trình xử lý trong hệ luật sẽ là yếu tố đáng quan tâm. Một vấn đề đặt ra là làm sao có thể giải quyết hợp lý mối quan hệ giữa kích thước (số luật) của hệ SAM và độ chính xác trong xấp xỉ của nó.

Một hệ luật tối ưu sẽ chỉ giữ lại một số (hoặc tất cả) các luật ban đầu trong hệ SAM.

Mỗi luật được giữ lại cho tương ứng với giá trị 1, các luật bị loại cho tương ứng với giá trị 0. Giả sử SAM có m luật và vị trí của các luật không đổi trong suốt quá trình xem xét, ta có thể biểu diễn trạng thái của các luật trong hệ ở thời điểm bắt đầu và thời điểm sau khi xử lý để chọn các luật tối ưu.


CƠ CHẾ HỌC TRONG SAM. TỐI ƯU HỆ LUẬT.

Bài toán tối ưu hệ luật được phát biểu như sau:

Cho trước bộ dữ liệu học vào {xj} và bộ kết quả mong muốn {yj}, j=1,ntd, với ntd: số bộ dữ liệu học.

Cho hệ luật mờ SAM với các luật mờ và trọng số.

Hãy tìm số vị trí 1 ít nhất sao cho sai số giữa kết quả cho bởi hệ SAM và kết quả mong muốn là ổn định và nhỏ nhất.

Người ta thường kết hợp một số thuật toán khác (như thuật toán di truyền) để tối ưu hóa hệ luật.

Phương pháp này xem mỗi bộ kết hợp các luật là một nhiễm sắc thể, dùng bộ lọc Kalman với hai tiêu chuẩn tối ưu và đảm bảo chính xác để phát hiện các cá thể thích hợp. Từ đó chọn một cá thể tốt nhất làm kết quả của thuật toán.


Giải Thuật Di Truyền. Là một kỹ thuật nhằm tìm kiếm giải pháp thích hợp cho các bài

toán tối ưu tổ hợp (combinatorial optimization). Giải thuật di truyền vận dụng các nguyên lý của tiến hóa như

phép lai, phép đột biến, phép sinh sản và chọn lọc tự nhiên. Giải thuật di truyền thường được ứng dụng nhằm sử dụng ngôn

ngữ máy tính để mô phỏng quá trình tiến hoá của một tập hợp những đại diện trừu tượng (nhiêm sắc thể) của các giải pháp có thể (gọi là những cá thể) cho bài toán tối ưu hóa vấn đề.

Tập hợp này sẽ tiến triển theo hướng chọn lọc những giải pháp tốt hơn (chọn lọc tự nhiên).


Giải Thuật Di Truyền. Thông thường, những giải pháp được thể hiện dưới dạng những

chuỗi thông tin mã hóa khác nhau (phần lớn ở dạng nhị phân). Quá trình tiến hóa xảy ra từ một tập hợp những cá thể hoàn

toàn ngẫu nhiên ở tất cả các thế hệ. Trong từng thế hệ, tính thích nghi của tập hợp này được ước

lượng (nhằm ngăn chặn khả năng bùng nổ tổ hợp), nhiều cá thể được chọn lọc định hướng từ tập hợp hiện thời (dựa vào thể trạng), được sửa đổi (bằng đột biến hoặc tổ hợp lại) để hình thành một tập hợp mới.

Tập hợp này sẽ tiếp tục được chọn lọc lặp đi lặp lại trong các thế hệ kế tiếp của giải thuật.


TỐI ƯU HỆ LUẬT BẰNG THUẬT TOÁN DI TRUYỀN GA.

Phương pháp này xem mỗi bộ kết hợp các luật là một nhiễm sắc thể, dùng bộ lọc Kalman với hai tiêu chuẩn tối ưu và đảm bảo chính xác để phát hiện các cá thể thích hợp. Từ đó chọn một cá thể tốt nhất làm kết quả của thuật toán.

Quá trình thực hiện như sau: Biểu diễn các nhiễm sắc thể:

Mỗi nhiễm sắc thể là một chuỗi các giá trị nhị phân diễn tả trạng thái hoạt động của luật tương ứng

trong hệ SAM. Mỗi thế hệ sẽ chỉ sử dụng 10 nhiễm sắc thể. Thế hệ đầu tiên bao giờ cũng chứa đầy đử các luật (tất cả giá trị bằng 1).



Hàm thích nghi: Mối qua hệ giữa kích thước SAM và độ chính xác trong xấp xỉ của

SAM được giải quyết bằng hàm thích nghi sau:

m: Số luật (trạng thái 1) được sử dụng trong hệ SAM, n: Số bộ số liệu học



Thuật toán: b1. Khởi tạo 10 nhiễm sắc thể, có 1 nhiễm sắc thể biễu diễn đầy đủ các

luật. b2. Tạo các nhiễm sắc thể mới bằng các phương pháp: Lai nhị phân

(Tỷ lệ 0.5) và đột biến nhị phân (Tỷ lệ 0.01). b3. Dùng phương pháp bánh xe quay với hàm thích nghi (c1) để giữ

lại 10 nhiễm sắc thể tốt nhất (có hàm Fit(.) min ). b4. Nếu điều kiện lặp chưa kết thúc, quay lại b2. b5. Chọn nhiễm sắc thể tốt nhất trong 10 nhiễm sắc thể nhận được làm

kết quả trả về.

Chuỗi nhị phân tìm được sẽ được dùng làm cơ sở cho việc hủy bỏ các luật không cần thiết trong hệ SAM.


SƠ ĐỒ HỌC CỦA SAM


Support Vector Machines (SVMs) là một phương pháp phân loại máy học do Vladimir Vapnik và các cộng sự xây dựng nên từ những năm 70 của thế kỷ 20.

SVMs là một phương pháp phân loại xuất phát từ lý thuyết học thống kê, dựa trên nguyên tắc tối thiểu rủi ro cấu trúc (Structural Risk Minimisation).

SVMs sẽ cố gắng tìm cách phân loại dữ liệu sao cho có lỗi xảy ra trên tập kiểm tra là nhỏ nhất (Test Error Minimisation).


Ý tưởng của nó là ánh xạ (tuyến tính hoặc phi tuyến) dữ liệu vào không gian các vector đặc trưng (space of feature vectors) mà ở đó một siêu phẳng tối ưu được tìm ra để tách dữ liệu thuộc hai lớp khác nhau.

SVMs đã được ứng dụng rất nhiều trong việc nhận dạng mẫu như nhận dạng chữ viết tay, nhận dạng đối tượng, nhận dạng khuôn mặt trong ảnh, và phân loại văn bản…


Chúng ta hãy xem xét một bài toán phân loại văn bản bằng phương pháp Support Vector Machines như sau:

Bài toán: Kiểm tra xem một tài liệu bất kỳ d thuộc hay không thuộc một phân loại c cho trước? Nếu dc thì d được gán nhãn là 1, ngược lại thì d được gán nhãn là –1.

Giả sử, chúng ta lựa chọn được tập các đặc trưng là T={t1, t2, …, tn}, thì mỗi văn bản di sẽ được biểu diễn bằng một vector dữ liệu xi=(wi1, wi2, …, win), wijR là trọng số của từ tj trong văn bản di. Như vậy, tọa độ của mỗi vector dữ liệu xi tương ứng với tọa độ của một điểm trong không gian Rn. Quá trình phân loại văn bản sẽ thực hiện xử lý trên các vector dữ liệu xi chứ không phải là các văn bản di. Bởi vậy, trong phần này chúng tôi sẽ sử dụng đồng nhất các thuật ngữ văn bản, vector dữ liệu, điểm dữ liệu.



Dữ liệu huấn luyện của SVMs là tập các văn bản đã được gán nhãn trước Tr={(x1, y1), (x2, y2), …, (xl, yl)}, trong đó, xi là vector dữ liệu biểu diễn văn bản di (xiRn), yi{+1, -1}, cặp (xi, yi) được hiểu là vector xi (hay văn bản di) được gán nhãn là yi.

Nếu coi mỗi văn bản di được biểu diễn tương ứng với một điểm dữ liệu trong không gian Rn thì ý tưởng của SVMs là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất” trong không gian n-chiều để phân chia dữ liệu sao cho tất cả các điểm x+ được gán nhãn 1 thuộc về phía dương của siêu phẳng (f(x+)>0), các điểm x- được gán nhãn –1 thuộc về phía âm của siêu phẳng (f(x-)<0).



Với bài toán phân loại SVMs, một siêu phẳng phân chia dữ liệu được gọi là “tốt nhất”, nếu khoảng cách từ điểm dữ liệu gần nhất đến siêu phẳng là lớn nhất. Khi đó, việc xác định một tài liệu xTr có thuộc phân loại c hay không, tương ứng với việc xét dấu của f(x), nếu f(x)>0 thì xc, nếu f(x)0 thì xc.

Siêu phẳng phân chia tập mẫu huấn luyện



đường tô đậm là siêu phẳng tốt nhất và các điểm được bao bởi hình chữ nhật là những điểm gần siêu phẳng nhất, chúng được gọi là các vector hỗ trợ (support vector).

Các đường nét đứt mà các support vector nằm trên đó được gọi là lề (margin).

Tài liệu tham khảo: file: SVM_data.pdf


Trong SVMs thông thường thì các điểm dữ liệu đều có giá trị như nhau, mỗi một điểm sẽ thuộc hoàn toàn vào một trong hai lớp.

Tuy nhiên trong nhiều trường hợp có một vài điểm sẽ không thuộc chính xác vào một lớp nào đó, những điểm này được gọi là những điểm nhiễu, và mỗi điểm có thể sẽ không có ý nghĩa như nhau đối với mặt phẳng quyết định.

Để giải quyết vấn đề này Lin CF. và Wang SD (2002) đã giới thiệu Fuzzy support vector machines (FSVMs) bằng cách sử dụng một hàm thành viên để xác định giá trị đóng góp của mỗi điểm dữ liệu đầu vào của SVMs vào việc hình thành siêu phẳng.


Cho tập dữ liệu huấn luyện

Với xi là một mẫu huấn luyện, , yi là nhãn của xi ,

si là một hàm thành viên thỏa , là một hằng số đủ nhỏ > 0.

Bài toán được mô tả như sau:

C là một hằng số. Hàm thành viên si thể hiện mức độ ảnh hưởng của điểm xi đối với một lớp. Giá trị có thể làm giảm giá trị của biến , vì vậy điểm xi tương ứng với có thể được giảm mức độ ảnh hưởng hơn.


Giải quyết bài toán: file: FSVM_Optimal.pdf Chọn hàm thành viên

Việc chọn hàm thành viên si thích hợp là rất quan trọng trong FSVMs. Theo Chun hàm thành viên si dùng để giảm mức độ ảnh hưởng của những điểm dữ liệu nhiễu là một hàm xác định khoảng cách giữa điểm dữ liệu xi với trung tâm của nhóm tương ứng với i.

Gọi C+ là tập chứa các điểm xi với yi =1, C+ ={xi|xi S và yi =1}

Tương tự gọi C- ={xi|xi S và yi =-1}, X+ và X- là trung tâm của lớp C+, C-.

Bán kính của lớp C+ là: r+ = max||X+ - xi|| với xi C+

và bán kính của lớp C- là: r- = max||X- - xi|| với xi C-


Chọn hàm thành viên Hàm thành viên si được định nghĩa như sau:

là một hằng số để tránh trường hợp si = 0 Tuy nhiên FSVMs với hàm thành viên (4.32) vẫn chưa đạt kết quả tốt

do việc tính toán khoảng cách giữa các điểm dữ liệu với trung tâm của nhóm được tiến hành ở không gian đầu vào, không gian n chiều.

Trong khi đó trong trường hợp tập dữ liệu không thể phân chia tuyến tính, để hình thành siêu phẳng ta phải đưa dữ liệu về một không gian khác với số chiều m cao hơn gọi là không gian đặc trưng (feature

space).


Chọn hàm thành viên

Xiufeng Jiang, Zhang Yi và Jian Cheng Lv (2006) đã xây dựng một hàm thành viên khác dựa trên ý tưởng của hàm thành viên đã cho nhưng được tính toán trong không gian đặc trưng m chiều

Tham khảo file: member_FSVM.pdf


Thuật toán huấn luyện Fuzzy Support Vector Machines.

Quá trình huấn luyện FSVMs là quá trình giải bài toán tối ưu để tìm được nghiệm tối ưu. Quá trình huấn luyện này khá phức tạp và đòi hỏi nhiều chi phí cho việc tính toán.

Sử dụng thuật toán Kernel-Adatron có thể đơn giản hóa quá trình huấn luyện FSVMs.

Tham khảo file: training_FSVM.pdf


Thuật toán PageRank.

PageRank được phát triển tại Stanford University bởi Larry Page và sau là Sergey Brin về một cơ chế tìm kiếm mới.

Dự án bắt đầu vào 1995 và xuất hiện với tên gọi là Google vào năm 1998.

Trong một thời gian ngắn sau đó, PageRank đã thực sự khẳng định vị thế của công cụ tìm kiếm Google trên toàn bộ hệ thống Internet của thế giới.


Thuật toán PageRank.

PageRank đã dựa trên ý tưởng phân tích chỉ dẫn được phát triển từ 1950 bởi Eugene Garfield của đại học Pennsylvania.

Trong giải thuật của PageRank đã sử dụng cơ chế quyết định tính quan trọng toàn vẹn của một trang web.

PageRank của một trang web là một giá trị xấp xỉ độ xác xuất truy cập đến trang này từ một vài trang khác trên web site.


Mô hình PageRank.

Giải thuật PageRank quan niệm, mọi trang web trên một web site đều có một số liên kết từ nó đi ra (forward links hay outedges) và một số liên kết đến nó (back links hay inedges).


Mô hình PageRank. Việc đánh giá trang web của giải thuật PageRank dựa

trên giả thuyết, một trang web được liên kết đến nhiều thì quan trọng hơn là một trang web có ít liên kết.

Cách tính toán của PageRank: một trang web được xếp hạng cao nếu tổng xếp hạng từ những liên kết đến của nó cao.

Chỉ có thể thực hiện được trong một tập có giới hạn các tài liệu, vì thực tế, số lượng các trang web trên Internet là vô cùng lớn và không thể thống kê hay thu thập được toàn bộ các trang web liên kết với nhau để có thể xây dựng cho nó một tập các trang được gán trọng số đầy đủ.


Giải thuật PageRank. PageRank của một trang được tính như sau:

với B là những trang cha của A liên kết đến A, Parents(A) là tập tất cả những trang web liên kết đến A và N(B) là số liên kết ra đến những trang khác nhau được tìm thấy trên A.

Tại mỗi bước, người dùng quyết định truy cập vào một trang web với m đường liên kết đi ra đến những trang khác nhau. Tại mỗi thời điểm, người dùng hoặc với xác suất được quyết định để tự nhập vào một URL mới và ngẫu nhiên truy cập tới một trang trong tập hợp hoặc với xác suất 1- truy cập lên một trong những liên kết trên trang.


Mô hình PageRank. PageRank giả sử rằng người dùng không thiên vị trong

việc lựa chọn các đường liên kết vì vậy xác suất truy cập đến một liên kết bất kì là

Với cách giả định đó ta có cách tính toán trong công thức của PageRank là như sau:

Giải thuật PageRank thực hiện tính toán lập đi lập lại từ một trạng thái để tính PageRank cho tất cả các trang web trong site và tiếp tục thực hiện tính lại cho đến khi đạt đến điều kiện ổn định cho phép. Trong đó giá trị qua thực nghiệm được cho từ 0.05 đến 0.15.


Giải thuật PageRank cụ thể như sau:

Với N trang web {A1, A2,…, AN)

B1:Khởi tạo giá trị PageRank cho N trang web PR(A1)=1/N, PR(A2)=1/N,…PR(AN)=1/N

B2: Tính giá trịPageRank của tất cả các trang bằng công thức (2.2)

B3: Tính sai số của tất cả các trang =PR(A)i –PR(A)i-1 (i: là lần lặp thứ i)

Nếu của tất cả các trang đều nhỏ hơn ngưỡng thì dừng

Nếu tồn tại >ngưỡng quay lại bước 2


Mô hình PageRank. Để có được giá trị PageRank tốt, luôn phản ánh đúng tình trạng

trang web, Google tính toán lại giá trị PageRank tại mỗi thời điểm thăm dò trang web và xây dựng lại tập chỉ mục.

Do đó, Google sẽ tăng số lượng tài liệu cho tập hợp của nó và làm giảm đi việc xấp xỉ giá trị khởi tạo cho tất cả các tài liệu.

Việc sử dụng tác tử thăm dò trang web và làm chỉ mục trang web là công việc tốn thời gian và chi phí nên Google luôn tìm cách để tối ưu quá trình này như xây dựng các công cụ hỗ trợ cho Google trên trình duyệt như Google Toolbar, hoặc máy chủ lưu trữ tạm thời (Caching Server) hỗ trợ cho công cụ tìm kiếm.


Sau khi ra đời, thuật toán pageRank được cải tiến thành nhiều thuật toán khác nhau như thuật toán HITS – Hypertext Induced Topic Selection (Thuật toán lựa chọn chủ đề phù hợp cho siêu văn bản), Weighted PageRank (Thuật toán PageRank dựa trên tỉ trọng), Thuật toán Topic Sensitive PageRank (thuật toán PageRank dựa trên chủ đề) và thuật toán LpageRank.


HITS là 1 thuật toán cơ bản trên liên kết hoàn toàn. Nó được sử dụng để đánh giá các trang web mà nhận lĩnh từ web dựa trên nội dung nguyên bản tới 1 câu truy vấn đã cho.

Một khi các trang web được tập hợp lại, thuật toán HITS bỏ qua nội dung nguyên bản và tập trung tự bản thân chỉ trong cấu trúc web.

Thuật toán HITS thường trả lại nhiều trang web tổng quát hơn là tập trung vào 1 chủ đề bởi vì các trang web không chứa đựng nhiều nguồn từ chủ đề.

Sự lệch của chủ đề xuất hiện khi hub có nhiều chủ đề vì tất cả các liên kết ngoài của 1 trang của hub có tỉ trọng tương đương


PageRank được tạo ra bằng cách sử dụng toàn bộ đồ thị web, hơn là một tập con.

Một số nghiên cứu của một số tác giả (S. Chakrabarti, D. Pennock…) cho thấy các tính chất của đồ thị web nhạy cảm với chủ đề trang.

Các trang có xu hướng trỏ tới những trang khác mà cùng một chủ đề chung.

Phương pháp này tính độ lệch của độ đo PageRank khi sử dụng tập nhỏ các chủ đề đại diện, được lấy từ danh mục mở (open directory) trong sự liên kết với phân lớp đa thức Bayes dùng cho phân loại câu truy vấn và ngữ cảnh.


Có 2 khả năng có thể xảy ra: Người sử dụng nhập dữ liệu cần thiết cho 1 câu truy vấn đề tìm

kiếm thông tin cần thiết. Khi đó cần xác định chủ đề gần nhất có liên quan đến câu truy vấn và sử dụng vector của PageRank theo chủ đề tương ứng đề xếp hạng các tài liệu đáp ứng câu truy vấn. Điều này bảo đảm rằng độ đo “tầm quan trọng” phản ánh sự tham chiếu đối với cấu trúc liên kết của các trang mà có cùng sự liên quan đến câu truy vấn.

Hoặc giả định người sử dụng đang xem một tài liệu(duyệt web hay đọc email), và lựa chọn một thuật ngữ từ tài liệu mà ông muốn thêm thông tin. Khi đó bằng cách lựa chọn vector của PageRank theo chủ đề tương ứng dựa trên bối cảnh của câu truy vấn nó sẽ cung cấp kết quả tìm kiếm chính xác hơn.


Thuật toán có thể tóm tắt như sau: Trong suốt thời gian offline của Web craw, các chủ đề của vector của độ đo

PageRank sẽ được tạo ra, một độ lệch sử dụng các URL của các mục đầu tiên của danh mục mở tại thời điểm truy vấn, độ tương tự của truy vấn (truy vấn hoặc ngữ cảnh) được tính toán cho các chủ đề.

Khi đó thay vì sử dụng một vector đơn xếp hạng chung, kết hợp tuyến tính các vector của các chủ đề và tỉ trọng sử dụng độ đo tương tự của câu truy vấn tới các chủ đề.

Bằng cách sử dụng một tập của các vectơ xếp hạng, chúng ta có thể xác định chính xác hơn những trang này thực sự quan trọng hơn đối với một truy vấn hoặc ngữ cảnh cụ thể.

Bởi vì các liên kết dựa trên tính toán được thực hiện offline, trong suốt giai đoạn tiền xử lý, chi phí thời gian truy vấn không lớn hơn nhiều so với thuật toán PageRank thông thường.


Thuật toán có thể tóm tắt như sau: Minh họa hệ thống sử dụng thuật toán topic sensitive PageRank

Thuật toán Topic Sensitive PageRank cụ thể như sau: TSPR_Algorithm.pdf


Giải thuật LPageRank được tác giả Qing Cui và Alex Dekhtyar giới thiệu vào năm 2005 với hướng nghiên cứu sử dụng web log để giảm bớt chi phí thu thập liên kết và cải tiến việc đánh giá mức độ truy cập lên trang trong việc tính toán trọng số của trang web.

Nhìn một cách tổng quan, thì LPageRank là PageRank được tính toán dựa trên đồ thị xác suất của trang web được xây dựng từ các mẫu truy cập trong nhật ký sử dụng web của người dùng.

Đồ thị xác suất là đồ thị được xây dựng từ tập tất cả các liên kết cấu trúc của tập tất cả các trang web trong web site. Mỗi liên kết từ một trang này đến một trang khác tượng trưng cho một cung trong đồ thị. Tần số liên kết giữa các trang với nhau tương ứng với tần số truy cập giữa chúng của người dùng và cũng được xem là trọng số của cung trong đồ thị.

Do đó, đồ thị thể hiện khả năng truy cập từ một trang đến các trang khác thông qua trọng số của cung kết nối. Đồ thị xác suất được xây dựng dựa trên kết quả phân tích thông tin web log (Tập tin log ghi lại sự truy cập của người dùng trên một web site).


Giải thuật xây dựng đồ thị xác suất. Mỗi mẫu truy cập của web log mô tả một cung liên kết từ trang một trang

này đến một trang khác trong web site. Xét một phiên truy cập của người dùng, ta sẽ có được một chuỗi truy cập từ

một trang lần lượt đến một hay nhiều trang khác. Ta sẽ tiến hành mô hình hóa toàn bộ lịch sử truy cập người dùng thành đồ

thị xác suất như sau: Với mỗi cung của đồ thị (B,A) tương ứng với một mẫu truy cập từ B

liên kết đến A trong một phiên truy cập (session), ta tăng trọng số của cung (B,A) lên 1 nếu trong một phiên truy cập có liên kết từ B đến A. Sau khi duyệt tất cả các session ta sẽ có một đồ thị có trọng số thể hiện mối liên kết giữa các liên kết (link). Sau cùng, ta tiến hành chuẩn hóa trọng số các cung trong đồ thị với bằng cách chia trọng số của cung cho tổng trọng số các cung ra cho mỗi nút trong đồ thị.


Giải thuật xây dựng đồ thị xác suất. Ta sẽ tiến hành mô hình hóa toàn bộ lịch sử truy cập người dùng thành đồ

thị xác suất như sau: Trong quá trình này, ta xây dựng một ma trận vuông A có kích thước

mxm với m là số URL trong toàn bộ các session thu thập được. Mỗi giá trị trong ma trận vuông A[i,j] ứng với cung (i,j), giá trị của nó được tăng lên sau mỗi liên kết từ i đến j được duyệt qua. Cuối cùng, ta chuẩn hóa ma trận A để thu được ma trận đồ thị xác suất.


Giải thuật xây dựng đồ thị xác suất.Cho tập trang web N{A1,A2,..,Am} được biểu diễn với ma trận vuông A mxm.

Tập phiên truy cập S.

B1: duyệt tất cả các mẫu truy cập trong S

Gán A[i,j]=A[i,j]+1 nếu mẫu chứa liên kết từ trang Ai đến Aj.

B2: duyệt tất cả các trang trong tập N

Gán A[i,j]=A[i,j]/N(A) với N(A) là số cung ra đi từ Ai đến trang khác.


Giải thuật LPageRank được cải tiến từ giải thuật PageRank với web log.

Giả sử G=(W,E,P) là đồ thị xác suất cho tập các trang web của site là W. Sau đó tính LPageRank(LPR) của trang web như sau:

Lưu ý rằng LPR(A)=PR(A) đối với đồ thị G nếu P(B,A) = đối với tất cả các cung.


Giải thuật LpageRank.B1: Duyệt đồ thị xác suất ta lấy giá trị xác suất cung P(B,A).

B2:Khởi tạo giá trị PageRank cho N trang web PR(A1)=1/N, PR(A2)=1/N,…PR(AN)=1/N

B3: Tính giá trịPageRank của tất cả các trang bằng công thức sai:

B4: Tính sai

số của tất cả các trang =LPR(A)i –LPR(A)i-1 (i: là lần lặp thứ i).

Nếu của tất cả các trang đều nhỏ hơn ngưỡng thì dừng.

Nếu tồn tại >ngưỡng quay lại bước 3.


Đánh giá Giải thuật LPageRank . Với cách cải tiến này, giá trị LPageRank cho mỗi trang sẽ được tính

toán phụ thuộc vào việc người dùng truy cập lên trang web đó nhiều hay ít. Nói cách khác, giá trị này phụ thuộc vào mức độ quan tâm của người dùng đối với trang web.

Giải thuật LPageRank đã tối ưu hơn cách thực hiện máy móc của PageRank khi không quan tâm đến hành vi sử dụng web của người dùng của giải thuật PageRank. Đây là sự khác nhau cơ bản mà LPageRank đã sử dụng để tối ưu cho công cụ tìm kiếm.


CRFs là mô hình trạng thái tuyến tính vô hướng (máy trạng thái hữu hạn được huấn luyện có điều kiên) và tuân theo tính chất Markov thứ nhất.

CRFs đã được chứng minh rất thành công cho các bài toán gán nhãn cho chuỗi như tách từ, gán nhãn cụm từ, xác định thực thể, gán nhãn cụm danh từ... sử dụng phương pháp CRF kết hợp với một vài phương pháp xử lý khác (như xử lý ngôn ngữ tự nhiên) giúp nâng cao hiệu quả của trích xuất thông tin web.

Gọi o = (o1, o2, …, oT) là một chuỗi dữ liệu quan sát cần được gán nhãn. Gọi S là tập trạng thái, mỗi trạng thái liên kết với một nhãn . Đặt s = (s1, s2,…, sT) là một chuỗi trạng thái nào đó, CRFs xác định xác suất điều kiện của một chuỗi trạng thái khi biết chuỗi quan sát như sau:


Gọi là thừa số chuẩn hóa trên toàn bộ các chuỗi nhãn có thể. fk xác định một hàm đặc trưng và là trọng số liên kết với mỗi đặc trưng fk.

Mục đích của việc học máy với CRFs là ước lượng các trọng số này.

Ở đây, ta có hai loại đặc trưng fk : đặc trưng trạng thái (per-state) và đặc trưng chuyển (transition).

(2) (3) Ở đây là Kronecker- .

Mỗi đặc trưng trạng thái (2) kết hợp nhãn l của trạng thái hiện tại st và một vị từ ngữ cảnh - một hàm nhị phân xk(o,t) xác định các ngữ cảnh quan trọng của quan sát o tại vị trí t. Một đặc trưng chuyển (3) biểu diễn sự phụ thuộc chuỗi bằng cách kết hợp nhãn l’ của trạng thái trước st-1 và nhãn l của trạng thái hiện tại st.


Người ta thường huấn luyện CRFs bằng cách làm cực đại hóa hàm likelihood theo dữ liệu huấn luyện sử dụng các kĩ thuật tối ưu. Việc lập luận (dựa trên mô hình đã học) là tìm ra chuỗi nhãn tương ứng của một chuỗi quan sát đầu vào. Đối với CRFs, người ta thường sử dụng thuật toán qui hoạch động điển hình (Viterbi) để thực hiện lập luận với dữ liệu mới.

Cách giải quyết vấn đề. Giả sử cần rút trích thông tin từ trang web cho trước, khi đó cần xác

định mục tiêu

Xác định trang web có chứa tin tức hay không?

Xác định vùng thông tin chứa tin tức?

Xác định tin tức thuộc loại tin tức nào?


Có thể xem mục tiêu đặt ra được diễn giải như sau:Cho một trang web x và tập DOM (document object model), nút lá cây x1,…,xk trong x. Đặt = y1,…,yk là nhãn có thể gán cho x1,…,xk với y1,…,yk là các nội dung của các nút x1,…,xk . Lần lượt xét các nút đặc trưng chứa tin tức (xác định) để duyệt các nhãn của nó và chọn nhãn có nội dung là tin tức cần tìm.

Khi giải quyết các mục tiêu đề ra ta gặp các vấn đề cụ thếo Công việc xác định trang web chứa tin tức nghĩa là khi nhập 1 trang web

bất kỳ ta phải xác định trang web đó có nội dung chứa tin tức hay không?o Nếu như trang web có chứa tin tức, tìm kiếm các vùng dữ liệu mà nội dung

của nó có chứa tin tức.o Qua vùng tin tức ta cần xác định tin tức đó là tin tức thuộc thể loại nào.


Đề giải quyết các vấn đề này ta có thể gặp 1 số khó khăn như:

Việc xác định vùng nội dung chứa tin tức được xác định dựa trên nội dung tin tức, điều này liên quan đến vấn đề xử lý văn bản tiếng Việt (nếu rút trích văn bản bằng tiếng Việt). Đây là một vấn đề khó khăn khi rút trích.

Quá trình xử lý các trang web được thực hiện thông qua nhiều tầng lần, dễ xảy ra những sự cố.

Để giải quyết những khó khăn được nêu ở trên, phương pháp được áp dụng để xử lý là:

Xử lý tiếng việt chỉ xảy ra ở bước xác định từ loại điều này giúp vấn đề trở nên đơn giản hơn.

Xác định ngữ pháp của câu Sự giúp đỡ của bộ từ điển tiếng Việt .


Các bước trong quá trình phân tích đánh giá thời gian chạy của thuật toán: thông thường người ta chia thành các bước sau:

Bước 1: kích thước dữ liệu. Ta coù theå xem thôøi gian chaïy cuûa thuaät toaùn laø moät haøm theo kích thöôùc cuûa döõ lieäu nhaäp.

Neáu goïi n laø kích thöôùc cuûa döõ lieäu nhaäp thì thôøi gian thöïc hieän T cuûa thuaät toaùn ñöôïc bieåu dieãn nhö moät haøm theo n, kyù hieäu laø : T(n).

Thời gian thực hiện chương trình là một hàm không âm, tức là T(n) ≥ 0 n ≥ 0.∀


Các bước trong quá trình phân tích đánh giá thời gian chạy của thuật toán: thông thường người ta chia thành các bước sau:

Böôùc 2: nhaäân ra caùc thao taùc tröøu töôïng cuûa thuaät toaùn ñeå taùch bieät söï phaân tích (1) vaø söï caøi ñaët (2). Vaäy yeáu toá (1) ñöôïc xaùc ñònh bôûi tính chaát cuûa thuaät toaùn, yeáu toá (2) ñöôïc xaùc ñònh bôûi tính naêng cuûa maùy tính.

Böôùc 3: tìm ra caùc giaù trò trung bình vaø tröôøng hôïp xaáu nhaát cho moãi ñaïi löôïng cô baûn. Thôøi gian chaïy cuûa thuaät toaùn hieån nhieân coøn phuï thuoäc vaøo tính chaát cuûa döõ lieäu nhaäp nhö: daõy coù thöù töï thuaän, daõy coù thöù töï ngöôïc, caùc soá haïng cuûa daõy coù thöù töï ngaãu nhieân…


Ðơn vị đo thời gian thực hiện.

Ðơn vị của T(n) không phải là đơn vị đo thời gian bình thường như giờ, phút giây... mà thường được xác định bởi số các lệnh được thực hiện trong một máy tính lý tưởng.

Thời gian thực hiện trong trường hợp xấu nhất. Nói chung thì thời gian thực hiện chương trình không chỉ phụ thuộc

vào kích thước mà còn phụ thuộc vào tính chất của dữ liệu vào. Nghĩa là dữ liệu vào có cùng kích thước nhưng thời gian thực hiện chương trình có thể khác nhau.

Vì vậy thường ta coi T(n) là thời gian thực hiện chương trình trong trường hợp xấu nhất trên dữ liệu vào có kích thước n, tức là: T(n) là thời gian lớn nhất để thực hiện chương trình đối với mọi dữ liệu vào có cùng kích thước n.


Tỷ suất tăng (growth rate)Ta nói rằng hàm không âm T(n) có tỷ suất tăng f(n) nếu tồn tại các hằng số C và N0

sao cho T(n) ≤ Cf(n) với mọi n ≥ N0.

Khái niệm độ phức tạp của giải thuật.

Cho một hàm T(n), T(n) gọi là có độ phức tạp f(n) nếu tồn tại các hằng C, N0

sao cho T(n) ≤ Cf(n) với mọi n ≥ N0 (tức là T(n) có tỷ suất

tăng là f(n)) và kí hiệu T(n) là O(f(n)) (đọc là “ô của f(n)”) Nói cách khác độ phức tạp tính toán của giải thuật là một hàm chặn trên

của hàm thời gian. Vì hằng nhân tử C trong hàm chặn trên không có ý nghĩa nên ta có thể

bỏ qua vì vậy hàm thể hiện độ phức tạp có các dạng thường gặp sau: log2n, n, nlog2n, n2, n3, 2n, n!, nn.

Ba hàm cuối cùng ta gọi là dạng hàm mũ, các hàm khác gọi là hàm đa thức.


Một giải thuật mà thời gian thực hiện có độ phức tạp là một hàm đa thức thì chấp nhận được tức là có thể cài đặt để thực hiện, còn các giải thuật có độ phức tạp hàm mũ thì phải tìm cách cải tiến giải thuật.


Một Số Lớp Các Thuật Toán. Lớp (1) 1: Nếu tất cả các chỉ thị của chương trình đều được thực

hiện chỉ một vài lần và ta nói thời gian chạy của nó là hằng số. Lớp (2) logn: khi thời gian chạy của chương trình là logarit. Thời

gian chạy thuộc loại này xuất hiện trong các chương trình mà giải 1 bài toán lớn bằng cách chuyển nó thành 1 bài toán nhỏ hơn, bằng cách cắt bỏ kích thước một hằng số nào đó.

Lớp (3) n: khi thời gian chạy của chương trình là tuyến tính. Lóp (4) nlogn: xuất hiện trong các chương trình mà giải một bài

toán lớn bằng cách chuyển nó thành các bài toán nhỏ hơn, giải quyết các bài toán này 1 cách độc lập, sau đó tổ hợp lời giải.

Lớp (5) n2: Thời gian chạy của thuật toán là bậc 2, thường là xử lý các cặp phần tử dữ liệu (có thể 2 vòng lặp lồng nhau). Trường hợp này chỉ có ý nghĩa khi bài toán nhỏ.


Một Số Lớp Các Thuật Toán. Lớp (6) n3: Một thuật toán xử lý bộ ba phần tử dữ liệu (có thể 3

vòng lặp lồng nhau) có thời gian chạy bậc 3. Trường hợp này chỉ có ý nghĩa khi bài toán nhỏ.

Nhận xét:

O(1) O(lgn) O(n) O(nlgn) O(n⊂ ⊂ ⊂ ⊂ 2 ) O(n⊂ 3 ) ⊂O(2n )

Các thuật toán với thời gian chạy có cấp hàm mũ thì tốc độ rất chậm.

Các thuật toán với thời gian chạy có cấp hàm đa thức được chấp nhận


Ðộ phức tạp của chương trình có gọi chương trình con không đệ qui

Nếu chúng ta có một chương trình với các chương trình con không đệ quy, để tính thời gian thực hiện của chương trình, trước hết chúng ta tính thời gian thực hiện của các chương trình con không gọi các chương trình con khác.

Sau đó chúng ta tính thời gian thực hiện của các chương trình con chỉ gọi các chương trình con mà thời gian thực hiện của chúng đã được tính.

Chúng ta tiếp tục quá trình đánh giá thời gian thực hiện của mỗi chương trình con sau khi thời gian thực hiện của tất cả các chương trình con mà nó gọi đã được đánh giá.

Cuối cùng ta tính thời gian cho chương trình chính.


PHÂN TÍCH CÁC CHƯƠNG TRÌNH ÐỆ QUY.• Với các chương trình có gọi các chương trình con đệ quy, ta không

thể áp dụng cách tính như vừa trình bày ở trên bởi vì một chương trình đệ quy sẽ gọi chính bản thân nó.

• Với các chương trình đệ quy, trước hết ta cần thành lập các phương trình đệ quy, sau đó giải phương trình đệ quy, nghiệm của phương trình đệ quy sẽ là thời gian thực hiện của chương trình đệ quy.


Thành Lập Phương Trình Đệ Quy. Phương trình đệ quy là một phương trình biểu diễn mối liên hệ giữa T(n) và

T(k), trong đó T(n) là thời gian thực hiện chương trình với kích thước dữ liệu nhập là n, T(k) thời gian thực hiện chương trình với kích thước dữ liệu nhập là k, với k < n. Ðể thành lập được phương trình đệ quy, ta phải căn cứ vào chương trình đệ quy.

Thông thường một chương trình đệ quy để giải bài toán kích thước n, phải có ít nhất một trường hợp dừng ứng với một n cụ thể và lời gọi đệ quy để giải bài toán kích thước k (k<n).

Để thành lập phương trình đệ quy, ta gọi T(n) là thời gian để giải bài toán kích thước n, ta có T(k) là thời gian để giải bài toán kích thước k. Khi đệ quy dừng, ta phải xem xét khi đó chương trình làm gì và tốn hết bao nhiêu thời gian, chẳng hạn thời gian này là c(n). Khi đệ quy chưa dừng thì phải xét xem có bao nhiêu lời gọi đệ quy với kích thước k ta sẽ có bấy nhiêu T(k). Ngoài ra ta còn phải xem xét đến thời gian để phân chia bài toán và tổng hợp các lời giải, chẳng hạn thời gian này là d(n).


Dạng tổng quát của một phương trình đệ quy sẽ là:

Trong đó C(n) là thời gian thực hiện chương trình ứng với trường hợp đệ quy dừng. F(T(k)) là một đa thức của các T(k). d(n) là thời gian để phân chia bài toán và tổng hợp các kết quả.


Có bốn phương pháp giải phương trình đệ quy: Phương pháp truy hồi Phương pháp đoán nghiệm. Phương pháp phương trình đặc trưng Lời giải tổng quát của một lớp các phương trình đệ quy.


Phương pháp truy hồi: Dùng đệ quy để thay thế bất kỳ T(m) với m < n vào phía

phải của phương trình cho đến khi tất cả T(m) với m > 1 được thay thế bởi biểu thức của các T(1) hoặc T(0). Vì T(1) và T(0) luôn là hằng số nên chúng ta có công thức của T(n) chứa các số hạng chỉ liên quan đến n và các hằng số. Từ công thức đó ta suy ra T(n).


Phương pháp đoán nghiệm. Ta đoán một nghiệm f(n) và dùng chứng minh quy nạp

để chứng tỏ rằng T(n) ≤ f(n) với mọi n. Thông thường f(n) là một trong các hàm quen thuộc như

logn, n, nlogn, n2, n3, 2n, n!, nn. Ðôi khi chỉ đoán dạng của f(n) trong đó có một vài tham

số chưa xác định (chẳng hạn f(n) = an2 với a chưa xác định) và trong quá trình chứng minh quy nạp ta sẽ suy diễn ra giá trị thích hợp của các tham số.


Phương pháp phương trình đặc trưng. Phương trình truy hồi tuyến tính thuần nhất với các hệ số

không đổi.

Xét phương trình dạng

a0tn + a1tn-1+...+aktn-k = 0

Ở đó ti là các ẩn số, với i=0,...,n-k

Cách giải: áp dụng phương pháp dùng phương trình đặc trưng

Bằng cách đặc tn = n

Khi đó ta có phương trình đặc trưng là

a0k + a1k-1 +...+ ak-1 + ak = 0


Phương pháp phương trình đặc trưng. Phương trình truy hồi tuyến tính không thuần nhất với

các hệ số không đổi

Xét phương trình dạng

a0tn + a1tn-1+...+aktn-k = bnp(n)

Với b là hằng số, p là đa thức bậc d theo n

Biến đổi đa thức không thuần nhất về thuần nhất hoặc giải nó


Lời giải tổng quát của một lớp các phương trình đệ quy:

Khi thiết kế các giải thuật, người ta thường vận dụng phương pháp chia để trị. Ở đây có thể trình bày tóm tắt phương pháp như sau:

Ðể giải một bài toán kích thước n, ta chia bài toán đã cho thành a bài toán con, mỗi bài toán con có kích thước n/b. Giải các bài toán con này và tổng hợp kết quả lại để được kết quả của bài toán đã cho. Với các bài toán con chúng ta cũng sẽ áp dụng phương pháp đó để tiếp tục chia nhỏ ra nữa cho đến các bài toán con kích thước 1. Kĩ thuật này sẽ dẫn chúng ta đến một giải thuật đệ quy.

Giả thiết rằng mỗi bài toán con kích thước 1 lấy một đơn vị thời gian và thời gian để chia bài toán kích thước n thành các bài toán con kích thước n/b và tổng hợp kết quả từ các bài toán con để được lời giải của bài toán ban đầu là d(n).



Tất cả các giải thuật đệ quy như trên đều có thể thành lập một phương trinh đệ quy tổng quát, chung cho lớp các bài toán ấy.

Nếu gọi T(n) là thời gian để giải bài toán kích thước n thì T(n/b) là thời gian để giải bài toán con kích thước n/b.

Khi n = 1 theo giả thiết trên thì thời gian giải bài toán kích thước 1 là 1 đơn vị, tức là T(1) = 1. Khi n lớn hơn 1, ta phải giải đệ quy a bài toán con kích thước n/b, mỗi bài toán con tốn T(n/b) nên thời gian cho a lời giải đệ quy này là aT(n/b).

Ngoài ra ta còn phải tốn thời gian để phân chia bài toán và tổng hợp các kết quả, thời gian này theo giả thiết trên là d(n). Vậy ta có phương trình đệ quy:



Ta sử dụng phương pháp truy hồi để giải phương trình này. Khi n > 1 ta có

= … =

Giả sử n = bk, quá trình suy rộng trên sẽ kết thúc khi i = k. Khi đó ta được Thay vào trên ta có:

Giải phương trình trên bằng cách sử dụng hàm tiến triển, nghiệm thần nhuất và nghiệm riêng.


Ứng dụng của các thuật toán máy học trong phân tích dự báo.

TỔNG QUAN LÝ THUYẾT VÀ MÔ HÌNH CÁC PHƯƠNG PHÁP DỰ BÁO.

Các loại phương pháp dự báo:

Dự báo điểm và dự báo khoảng.

Phương pháp định tính và định lượng

Dự báo ngắn hạn (<3 tháng), dự báo trung hạn (6tháng- 2năm), dự báo dài hạn (>2 năm)


Phương pháp định tính. Phương pháp chuyên gia: phương pháp chuyên gia là phương

pháp dự báo mà kết quả là các "thông số" do các chuyên gia đưa ra. Phương pháp Delphi: tổ chức phối hợp các loại trưng cầu và xử lý

ý kiến chuyên gia.

Phương pháp định lượng. Phương pháp chuỗi thời gian: dựa trên phân tích chuỗi quan sát

của một biến duy nhất theo biến số độc lập là thời gian.

Mô hình nhân quả: giả định biến số dự báo có thể được giải thích bởi hình vi của những biến số kinh tế khác.


Ứng Dụng Các Mô Hình Dự Báo Của Máy Học. Chương Trình Ứng Dụng Hệ Thống Mạng RFNNs. Chương Trình Ứng Dụng Hệ Thống Mạng RBFNNs. Chương Trình Ứng Dụng Hệ Thống Mạng Nơrôn Lan Truyền

Ngược (FNN). Chương Trình Ứng Dụng Hệ luật mờ (SAM). Chương Trình Ứng Dụng Mạng Nơ rôn dạng Lan Truyền

Ngược và thuật toán di truyền vào phân tích dự báo.

Các chương trình ứng dụng mô hình mạng nơ rôn mờ hồi quy, sử dụng file dữ liệu huấn luyện, thử nghiệm và dự báo dạng văn bản (test).

Tham khảo file: Predict_Analysis.pdf


Ưng dụng thuật giải LpageRank và mạng nơrôn lan truyền ngược vào công cụ tìm kiếm.

Mô hình tìm kiếm thông tin bằng LPageRank và mạng Nơron


Mô hình tìm kiếm có thể gom lại gồm hai thành phần chính: một thành phần chạy trực tuyến trên web (online) dùng để tương tác với người dùng, nhận và xử lý câu truy vấn, một thành phần chạy không trực tuyến (offline) dùng để xử lý web log, xử lý tập từ khóa trên trang, xử lý gán trọng số cho trang web, xử lý gom nhóm session và huấn luyện mạng.

Để quá trình tìm kiếm của người dùng ít tốn thời gian và tài nguyên xử lý, toàn bộ quá trình tính toán và tiền xử lý được thi hành trước trên máy chủ, thành phần trực tuyến chỉ tính toán lại một phần kết quả do phụ thuộc vào câu truy vấn của người dùng đồng thời tổng hợp các kết quả mà thành phần không trực tuyến gởi đến để tối ưu kết quả tìm kiếm.


Ứng dụng mạng neural network fuzzy Artmap kết hợp cùng Ontology thu thập dữ liệu trong công cụ tìm kiếm.

Mô hình này gồm các thành phần chính là Web Spider, LogMiner, Ontology Building, SearchEngine.


Web Spider Thành phần Web Spider trong hệ thống thực hiện hai chức năng: (a)

khởi tạo đồ thị liên kết cho website và (b) thu thập các trang HTML cho mỗi trang và đánh chỉ mục cho các trang HTML đó.

Log Miner. Thành phần Log Miner trong hệ thống cũng thực hiện nhiệm vụ: (a)

Xóa tất cả những thông tin không thích hợp, (b) phân tích phiên truy cập, (c) hoàn thành xây dựng đồ thị xác suất cho website và (d) tính LPageRank.

Webpage Classifier. Thành phần Webpage Classifier thực hiện: (a) tính toán mỗi giá trị

đánh giá tiêu chuẩn trang web và (b) những giá trị này sẽ làm đầu vào và được phân lớp bởi mạng fuzzy ARTMAP.


Ontology Building. Việc xây dựng Ontology được thực hiện bởi thành phần Ontology

Building. Đây là một tiến trình xây dựng cơ sở tri thức cho công cụ tìm kiếm, bao gồm thêm vào những mẫu mới của khái niệm và quan hệ vào Ontology.

Search Engine. Thành phần Web Spider, Log Miner, Webpage Classifier của công

cụ tìm kiếm làm việc off-line, chuẩn bị dữ liệu cho on-line sử dụng. Search Engine là thành phần on-line của công cụ tìm kiếm, có trách nhiệm nhận truy vấn từ người dùng, phân tích ngữ pháp và chuyển sang biểu diễn như vector của những trang web, và tiến hành nhận những trang web có độ thích hợp cao so với truy vấn.


Ứng dụng xây dựng các thành phần của chương trình thu thập các thông tin liên quan đến lĩnh vực công nghệ thông tin trên Internet gồm ngôn ngữ tiếng Anh và tiếng Việt, sau đó tiếp tục phân loại các thông tin này vào các môn học cần thiết.

Mô hình thực hiện của hệ thống rút trích và phân lớp được mô tả như sau:


Module rút trích thông tin bằng phương pháp CRFs.


Module rút trích dữ liệu bằng phương pháp SVM.


Module rút trích thông tin bằng phương pháp CRFs-SVM.


Module phân lớp văn bản với SVM-FSVM.


Module phân lớp văn bản với Naïve Bayes.

may hoc 012012

Documents