nghiÊn cỨu ĐÁnh giÁ cÁc phƢƠng phÁp
TRANSCRIPT
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN ĐẮC HUY
NGHIÊN CỨU ĐÁNH GIÁ CÁC PHƢƠNG PHÁP
PHÂN LOẠI TÀU THUYỀN TỰ ĐỘNG SỬ DỤNG ẢNH
VIỄN THÁM
Ngành: Hệ Thống Thông Tin
Chuyên ngành: Hệ Thống Thông Tin
Mã Số: 8480104.01
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS. TS Nguyễn Thị Nhật Thanh
Hà nội – 09/2020
i
MỤC LỤC
LỜI CẢM ƠN ...................................................................................................... iii
LỜI CAM ĐOAN ................................................................................................. iv
DANH MỤC HÌNH VẼ ........................................................................................ v
DANH MỤC BẢNG BIỂU ................................................................................ vii
DANH MỤC TỪ VIẾT TẮT ............................................................................. viii
MỞ ĐẦU ............................................................................................................... 1
Chương 1: Giới thiệu chung .................................................................................. 5
1.1 Tình hình nghiên cứu trên thế giới và Việt Nam .................................. 5
1.2 Giới thiệu về công nghệ viễn thám ....................................................... 6
1.2.1 Khái niệm, đặc điểm cơ bản viễn thám ................................... 6
1.2.2 Dữ liệu ảnh viễn thám quang học ............................................ 8
1.3 Giới thiệu về một số loại tàu thuyền quan tâm ................................... 10
1.3.1 Tàu vận tải [12]...................................................................... 10
1.3.2 Tàu chở dầu [12] .................................................................... 11
1.3.3 Tàu chuyên chở công te nơ [12] ............................................ 11
1.3.4 Tàu sân bay [13] .................................................................... 12
1.3.5 Tàu ngầm [13] ....................................................................... 14
1.3.6 Khu trục hạm [13] ................................................................. 15
1.4 Bộ CSDL tàu thuyền mẫu ................................................................... 16
1.4.1 Nguồn dữ liệu ........................................................................ 16
1.4.2 Phương pháp thu thập bộ dữ liệu tàu thuyền mẫu ................. 17
1.4.3 Quy trình lấy mẫu dữ liệu ...................................................... 18
Chương 2: Nghiên cứu một số thuật toán nhận dạng tàu thuyền. ....................... 20
2.1 Nghiên cứu một số phương pháp, thuật toán trích chọn đặc trưng .... 20
2.1.1 Mô hình Bag of Features ....................................................... 20
2.1.2 Thuật toán Local Binary Patterns .......................................... 34
2.2 Nghiên cứu phương pháp, thuật toán phân lớp tàu thuyền. ................ 36
Chương 3: Ứng dụng phân lớp tàu thuyền ở cảng biển Việt Nam trên ảnh viễn
thám ..................................................................................................................... 41
ii
3.1 Phương pháp đề xuất........................................................................... 41
3.1.1 Bộ cơ sở dữ liệu đầu vào ....................................................... 42
3.1.2 Trích chọn đặc trưng .............................................................. 43
3.1.3 Chọn thuật toán huấn luyện và phân lớp dữ liệu ................... 44
3.2 Kết quả và thảo luận ........................................................................... 46
3.2.1 Bộ cơ sở dữ liệu ..................................................................... 46
3.2.2 Kết quả phân lớp .................................................................... 48
3.2.3 Nhận xét, đánh giá ................................................................. 58
KẾT LUẬN ......................................................................................................... 61
TÀI LIỆU THAM KHẢO ................................................................................... 62
iii
LỜI CẢM ƠN
Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến cô giáo,
PGS. TS. Nguyễn Thị Nhật Thanh – người đã hướng dẫn, khuyến khích, chỉ bảo
và tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành
công việc của mình.
Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ
thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp
cho tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho tôi
trong suốt quá trình học tập, nghiên cứu tại trường.
Đồng thời tôi xin chân thành cảm ơn chủ nhiệm và nhóm nghiên cứu thực
hiện đề tài cấp nhà nước thuộc chương trình khoa học và công nghệ cấp quốc
gia về công nghệ vũ trụ giai đoạn 2016-2020, mã số đề tài VT-UD.06/16-20 đã
hỗ trợ tôi trong quá trình nghiên cứu thực nghiệm.
Cuối cùng, tôi xin cảm ơn tất cả những người thân yêu trong gia đình tôi
cùng toàn thể bạn bè, đồng nghiệp, những người đã luôn giúp đỡ, động viên, cổ
vũ, khích lệ và giúp đỡ tôi trong suốt thời gian qua. Trong quá trình thực hiện đề
tài có thể còn có những mặt hạn chế, thiếu sót. Tôi rất mong nhận được ý kiến
đóng góp và sự chỉ dẫn của các thầy cô giáo và các bạn đồng nghiệp.
iv
LỜI CAM ĐOAN
Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Nghiên cứu
đánh giá các phương pháp phân loại tàu thuyền tự động sử dụng ảnh viễn
thám” là công trình nghiên cứu của riêng tôi, không sao chép lại của người
khác. Trong toàn bộ nội dung của luận văn, những điều đã được trình bày hoặc
là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả
các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy
định cho lời cam đoan này.
Hà Nội, ngày …. tháng … năm …..
v
DANH MỤC HÌNH VẼ
Hình 1. 1 Dải sóng điện từ .................................................................................... 7
Hình 1. 2 Độ phân giải không gian của ảnh viễn thám trên cùng khu vực ........... 8
Hình 1. 3 Tàu vận tải ........................................................................................... 10
Hình 1. 4 Tàu chở dầu ......................................................................................... 11
Hình 1. 5 Tàu công ten nơ ................................................................................... 12
Hình 1. 6 Tàu sân bay .......................................................................................... 13
Hình 1. 7 Tàu ngầm ............................................................................................. 14
Hình 1. 8 Tàu khu trục ........................................................................................ 15
Hình 1. 9 Dữ liệu ảnh viễn thám Planet (trái), dữ liệu ảnh viễn thám Google
Earth (phải) .......................................................................................................... 16
Hình 1. 10 Sơ đồ cây phân lớp tàu thuyền .......................................................... 17
Hình 1. 11 Quy trình lấy mẫu tàu dựa trên kiến thức chuyên gia ....................... 18
Hình 1. 12 Mở dữ liệu ảnh và chọn khu vực nghiên cứu có đối tượng quan tâm
cần gán nhãn ........................................................................................................ 19
Hình 1. 13 Gán nhãn đối tượng quan tâm dựa trên việc vẽ đường bao xung
quanh ................................................................................................................... 19
Hình 2. 1 Minh họa mô hình BoF (nguồn [9]). ................................................... 20
Hình 2. 2 Minh họa các đặc trưng thu thập được (nguồn [9]). ........................... 21
Hình 2. 3 Minh họa các đặc trưng được phân cụm (nguồn [9]).......................... 21
Hình 2. 4 Biểu đồ đặc trưng (nguồn [9]). ............................................................ 21
Hình 2. 5 Minh họa các mức làm mờ khác nhau của hàm Gaussian. ................. 23
Hình 2. 6 Mô hình kim tự tháp ảnh trong SIFT (nguồn [5]). .............................. 24
Hình 2. 7Minh họa cách lấy điểm để xét cực trị với vị trí x là điểm đang xét
(nguồn [5]). .......................................................................................................... 25
Hình 2.8 Minh họa biểu đồ định hướng. ............................................................. 27
Hình 2.9 Minh họa bước lọc và gắn hướng cho điểm đặc trưng (nguồn [5]). .... 28
Hình 2.10 Mô tả điểm đặc trưng (nguồn [5]). ..................................................... 29
Hình 2.11 Minh họa phương pháp xấp xỉ của bộ lọc hộp (nguồn [8]). .............. 30
Hình 2.12 Ví dụ về phản ứng con sóng. .............................................................. 32
Hình 2.13 Ví dụ về biểu đồ hướng trong SURF (nguồn [10]). ........................... 32
Hình 2.14 Minh họa các vùng đặc trưng (nguồn [8]). ........................................ 33
Hình 2.15 Ví dụ giá trị của các thuộc tính trong SURF trong mỗi trường hợp ảnh
(nguồn [8]). .......................................................................................................... 33
Hình 2.16 Minh họa các hoạt động của thuật toán LBP đầu tiên (nguồn [15]). . 34
Hình 2.17 Mô tả cách lấy mẫu tron LBP cải thiện (nguồn [15]). ....................... 35
Hình 2. 18 Minh họa kết quả thu được qua thuật toán LBP ............................... 36
Hình 2.19 Ví dụ dữ liệu trong SVM (nguồn [11]). ............................................. 37
vi
Hình 2.20 So sánh các mô hình. .......................................................................... 39
Hình 2.21 Ví dụ kết quả thuật toán SVM (hình bên trái là lề cứng và hình bên
phải là lề mềm). ................................................................................................... 39
Hình 2.22 Một số ví dụ về lõi của SVM. ............................................................ 40
Hình 3. 1 Sơ đồ quá trình phân lớp tàu thuyền ................................................... 41
Hình 3. 2 Dữ liệu ảnh viễn thám khu vực tập trung nhiều tàu thuyền ................ 42
Hình 3. 3 Đặc trưng trên ảnh bằng thuật toán SIFT và SURF. Từ trái sang lần
lượt là ảnh gốc, đặc trưng tìm được từ SIFT và đặc trưng tìm được từ SURF. .. 44
Hình 3. 4 Đặc trưng trên ảnh bằng thuật toán LBP. Từ trái sang lần lượt là ảnh
gốc và ảnh qua xử lý bằng thuật toán LBP trước khi tính histogram. ................ 44
Hình 3. 5 Hình ảnh đánh dấu vùng biển trên bản đồ .......................................... 46
Hình 3. 6 Một số tàu mã tau dau. ........................................................................ 47
Hình 3. 7 Một số tàu mã tau cong ten no. ........................................................... 47
Hình 3. 8 Một số tàu mã tau van tai. ................................................................... 47
Hình 3. 9 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp SIFT
............................................................................................................................. 49
Hình 3. 10 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp
SURF ................................................................................................................... 50
Hình 3. 11 Hình ảnh các lớp tàu thuyền được nhận dạng chính xác .................. 51
Hình 3. 12 Hình ảnh các lớp tàu thuyền nhận dạng chưa chính xác ................... 51
Hình 3. 13 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng thuật toán LBP . 53
Hình 3. 14 Hình ảnh các lớp tàu thuyền được nhận dạng chính xác .................. 53
Hình 3. 15 Hình ảnh các lớp tàu thuyền được nhận dạng chưa chính xác .......... 54
Hình 3. 16 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp SIFT
kết hợp LBP ......................................................................................................... 55
Hình 3. 17 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp BOF
- SURF kết hợp LBP. .......................................................................................... 56
Hình 3. 18 Hình ảnh các lớp tàu thuyền được nhận dạng chính xác .................. 56
Hình 3. 19 Hình ảnh các lớp tàu thuyền được nhận dạng không chính xác ....... 57
vii
DANH MỤC BẢNG BIỂU
Bảng 1. 1 Thông số kỹ thuật kênh phổ ảnh VNREDSAT-1 ................................. 9
Bảng 1. 2 Thông tin thuộc tính của ảnh Planet ................................................... 10
Bảng 3. 1 Bảng thống kê chi tiết cơ sở dữ liệu tàu thuyền ................................. 48
Bảng 3. 2 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán SIFT .................................................................................................... 51
Bảng 3. 3 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán SURF .................................................................................................. 51
Bảng 3. 4 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán LPB ..................................................................................................... 54
Bảng 3. 5 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán SIFT kết hợp LBP .............................................................................. 57
Bảng 3. 6 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán SURF kết hợp LBP ............................................................................. 57
Bảng 3. 7 Bảng tổng hợp kết quả kiểm chứng bằng máy học SVM ................... 58
viii
DANH MỤC TỪ VIẾT TẮT
AIS Automatic Identification Systems
ANQP An ninh quốc phòng
BoF Bag of Features
CSDL Cơ sở dữ liệu
DoG the difference-of-Gaussian function
convolved
FOV Field of view
ICST International Standard Classification
of Ships by Type
IFOV instantaneous field of view
LBP Local Binary Patterns
SIFT Scale-Invariant Feature Transform
SURF Speeded-Up Robust Features
SVM Support Vector Machine
VHF Very high frequency
VTS Vessel Traffic Services
1
MỞ ĐẦU
Tính cấp thiết
Vệ tinh viễn thám có lợi thế đặc biệt quan trọng so với viễn thám hàng
không do có khả năng chụp ảnh ở bất kỳ điểm nào trên bề mặt trái đất mà không
phải xin phép nước sở hữu, quản lý vùng địa lý đó. Đây là lợi thế mà bất kỳ
quốc gia nào cũng muốn khai thác phục vụ cho công tác ANQP, vì vậy các quốc
gia phát triển như Mỹ, Nga, TQ, Pháp... đã triển khai mạng lưới vệ tinh viễn
thám để do thám các mục tiêu quan tâm. Công nghệ vệ tinh, công nghệ viễn
thám là những lĩnh vực công nghệ cao mà các nước phát triển hạn chế xuất khẩu
và chuyển giao công nghệ. Do đó, để nắm bắt được những công nghệ này đòi
hỏi phải được đào tạo bài bản và có quá trình tiếp cận công nghệ trong thời gian
dài từ khâu thiết kế chế tạo, quản lý vận hành khai thác và ứng dụng. Hướng ứng
dụng là một trong những hướng đặc biệt được quan tâm nghiên cứu tại các nước,
nhất là những nước đi sau về công nghệ vũ trụ. Đây là giải pháp để các nước có
thể tiếp cận nhanh nhất và được thừa hưởng nhiều nhất, tận dụng tốt nhất những
thành tựu mới nhất của khoa học công nghệ thế giới cho nghiên cứu phát triển
khoa học, công nghệ.
Kỹ thuật xử lý ảnh viễn thám với nền tảng là xử lý ảnh số đã giải quyết
được một số vấn đề cơ bản trong khai thác, trích xuất thông tin từ ảnh viễn thám
bằng một số phần mềm khá thông dụng như ENVI, ERDAS,... song mức độ
chuyên sâu và tự động hóa chưa cao và chỉ sử dụng trong lĩnh vực dân sự. Các
phần mềm chuyên dụng trong lĩnh vực ANQP thường bị hạn chế điều kiện
thương mại hoặc có giá thành rất cao, ngoài khả năng tài chính của người sử
dụng và gần như không tiếp cận được yếu tố khoa học công nghệ. Việc chuyển
giao công nghệ chỉ giới hạn ở hướng dẫn sử dụng, khai thác phần mềm.
Đến nay, Việt Nam đã có hệ thống vệ tinh viễn thám (VNREDSat-1) hoàn
chỉnh từ trạm mặt đất đến vệ tinh và các cơ quan ứng dụng, song việc khai thác,
sử dụng hiệu quả các sảm phẩm của hệ thống này cho mục đích ANQP là một
bài toán khó, còn nhiều hạn chế từ độ phân giải ảnh VNREDSat-1 đến trình độ
xử lý, phân tích, giải đoán ảnh viễn thám, tích hợp các thông tin khai được từ
các nguồn ảnh của cán bộ trong ngành.
Với chiều dài bờ biển hơn 3000km và diện tích biển hơn một triệu ki-lô-
mét vuông, cùng hàng trăm hòn đảo lớn nhỏ, Việt Nam có nhiều tiềm năng phát
triển kinh tế biển như: cảng biển và công nghiệp tàu thủy, đánh bắt thủy hải sản,
khai thác dầu khí,... song cũng đặt ra hàng loạt thách thức về công tác thực thi
2
pháp luật, quản lý nhà nước, an ninh an toàn hàng hải, an ninh chủ quyền quốc
gia,... trên những vùng biển rộng lớn tại Biển Đông.
Quản lý, giám sát đối tượng tàu biển sẽ góp phần quan trọng trong việc
giải quyết các thách thức về công tác quản lý nhà nước, bảo đảm an ninh quốc
gia của Việt Nam trên Biển Đông. Một trong những vấn đề cấp thiết và khó
khăn nhất trong môi trường an ninh hàng hải ngày nay (với sự đa dạng, phức tạp
của các chủng loại tàu, thuyền cũng như các hoạt động của chúng) là làm thế
nào để có sự phân biệt rõ ràng giữa các loại tàu quân sự và các loại tàu thương
mại thông thường hay phân loại gữa các loại tàu quân sự, dân sự với nhau, từ đó
phát hiện và xử lý kịp thời những hoạt động của chúng trong khu vực.
Ngày nay, sự phát triển vượt bậc của các vệ tinh quan sát trái đất, cung
cấp ảnh vệ tinh độ phân giải cao phục vụ cho nhiều lĩnh vực khác nhau. Một
trong số đó là sử dụng ảnh vệ tinh độ phân giải trung bình, cao để phát hiện và
phân loại tàu thuyền trên biển với nhiều mục đích khác nhau như giám sát hoạt
động đánh bắt cá, giám sát hàng hải, giám sát lịch trình trong khi các công nghệ
truyền thống quản lý tàu thuyền có thể kể đến như Automatic Identification
Systems (AIS) và Vessel Traffic Services (VTS)…chỉ thực hiện được khi ở gần
bờ và tương tác với tàu khác hoạt động gần đó.
Mặc dù có rất nhiều nghiên cứu về việc phát hiện tàu thuyền nhưng hầu
hết các nghiên cứu liên quan đến việc phát hiện tàu (hoặc sóng tàu) sử dụng
thông tin radar. Điều này là do điều kiện ánh sáng và thời tiết không ảnh hưởng
đến ảnh SAR khi nó cung cấp thông tin trên các khu vực rộng lớn. Tuy nhiên,
nguồn thông tin này cản trở việc xác định và phân loại tàu. Đặc biệt, nó trở
thành một nhược điểm quan trọng đối với một số ứng dụng cụ thể. Việc sử dụng
hình ảnh quang học để nhận dạng tàu nhận được ít sự quan tâm hơn, chủ yếu là
do những hạn chế thuộc về bản chất của nó, tức là cần điều kiện ánh sáng và
thời tiết thích hợp. Tuy nhiên, ở những nơi có những mặt hạn chế không xuất
hiện thường xuyên, ảnh quang học sẽ cung cấp nhiều thông tin hơn cho phép
phân loại tàu được cụ thể hơn [14].
Như vậy, bài toán nhận dạng tàu thuyền có ý nghĩa rất to lớn trong hoạt
động quản lý, giám sát đối tượng tàu biển phục vụ mục đích dân sự, an ninh
quốc phòng. Với nhu cầu cấp thiết đó và mong muốn đóng góp phần nhỏ kiến
thức bản thân cho sự phát triển của công nghệ viễn thám. Do đó, chúng tôi quyết
định chọn đề tài “Nghiên cứu đánh giá các phương pháp phân loại tàu thuyền tự
động sử dụng ảnh viễn thám” cho nghiên cứu của mình.
3
Mục tiêu nghiên cứu của đề tài
Thông qua tình hình chung và các vấn đề được đặt ra ở trên, mục tiêu
chính của bài luận văn này tập trung giải quyết các vấn đề sau:
Cung cấp thông tin nghiệp vụ về tàu thuyền trên biển và hải đảo
phục vụ công tác đảm bảo an ninh quốc gia.
Nghiên cứu và đánh giá thuật toán nhận dạng hay phân loại tự động
tàu thuyền sử dụng ảnh vệ tinh quang học phục vụ mục đích giám
sát hoạt động đánh bắt cá trên biển, giao thông biển, kiểm soát hàng
hải…
Mô tả bài toán
Để giải quyết các vấn đề được đặt ra trong mục tiêu luận văn, hướng tiếp
cận của chúng tôi là giải quyết bài toán nhận dạng tàu thuyền trên ảnh giống với
bài toán nhận dạng mặt người. Bằng cách sử dụng phương pháp học máy truyền
thống kết hợp với một số thuật toán trích chọn đặc trưng trên ảnh. Cụ thể như
sau, đầu tiên chúng tôi tiến hành thu thập, xây dựng bộ CSDL mẫu ảnh tàu
thuyền phục vụ mục đích xây dựng mô hình phân loại đối tượng tàu thuyền. Dữ
liệu được sử dụng là tập dữ liệu ảnh viễn thám về các mẫu tàu thuyền trên vùng
biển Việt Nam. Chúng tôi tiến hành lấy mẫu và đánh nhãn dữ liệu tàu thuyền
bằng công cụ miễn phí trên phần mềm ENVI 5.2.
Sau đó, chúng tôi tiên hành trích chọn đặc trưng trên bộ dữ liệu này bằng
cách sử dụng các thuật toán Bag of Feature (BoF), Local Binary Patterns (LBP),
BoF kết hợp LBP và đưa vào máy huấn luyện phân lớp. Căn cứ vào chất lượng,
số lượng nguồn dữ liều, yêu cầu, mục tiêu của luận văn, chúng tôi quyết định lựa
chọn thuật toán phân lớp máy hỗ trợ véc tơ SVM. Sau khi kết thúc quá trình
huấn luyện, hệ thống sẽ lưu lại giá trị các tham số này (các tham số quyết định
phân lớp - mô hình sau khi huấn luyện) để phục vụ cho quá trình nhận dạng sau
này. Quá trình huấn luyện dữ liệu nhanh hay chậm phụ thuộc vào số lượng mẫu
dữ liệu tham gia huấn luyện, thuật toán chọn để huấn luyện dữ liệu. Kết quả thu
được là việc phân loại từng mẫu tàu thuyền vào các lớp tương ứng. Qua đó,
chúng tôi tiến hành so sánh về độ chính xác của bài toán phân lớp sử dụng
phương pháp máy hỗ trợ véc tơ kết hợp với các thuật toán trích chọn đặc trưng
khác nhau.
Bố cục của luận văn
4
Chương 1 trình bày các khái niệm cơ bản phục vụ cho nghiên cứu của đề
tài, trình bày về nội dung xây dựng CSDL ảnh mẫu tàu thuyền từ ảnh vệ tinh độ
phân giải cao phục vụ xây dựng và kiểm tra mô hình phân lớp tàu thuyền. Nội
dung chính của Chương 2 trình bày về một số thuật toán nhận dạng tàu thuyền
trên ảnh viễn thám. Dựa trên bộ CSDL ảnh mẫu được xây dựng ở Chương 1, nội
dung chính của Chương 3 trình bày về kết quả, đánh giá ứng dụng phân lớp tàu
thuyền ở cảng biển Việt Nam sử dụng ảnh Planet. Cuối cùng nội kết luận và
kiến nghị cùng với các tài liệu tham khảo sẽ được trình bày.
5
Chƣơng 1: Giới thiệu chung
Trong nghiên cứu này, đối tượng nghiên cứu tập trung chủ yếu là tàu
thuyền. Do đó, chương 1 sẽ trình bày tổng quan về một số tàu thuyền trên thế
giới. Ngoài ra, giới thiệu một số khái niệm, đặc điểm về dữ liệu ảnh viễn thám
(vệ tinh) và cách tiến hành xây dựng bộ cơ sở dữ liệu tàu thuyền. CSDL giám
sát tàu thuyền là bộ cơ sở dữ liệu ảnh mẫu tàu thuyền được thu thập và gán nhãn
từ ảnh vệ tinh quang học Planet, bộ CSDL này được xây dựng với mục đích
huấn luyện các mô hình nhận dạng đối tượng tàu thuyền.
1.1 Tình hình nghiên cứu trên thế giới và Việt Nam
Qua tìm hiểu, khảo sát, có một số phương pháp sử dụng ảnh viễn thám
quang học để phân loại tàu thuyền trên thế giới ứng dụng thực tế trong việc nhận
dạng tàu thuyền phục vụ mục đích an ninh quốc gia đạt được một số kết quả
nhất định như sau.
Theo [14] nhóm tác giả đã sử dụng phần mềm Vyamsat cho phép xử lý
ảnh màu QuickBird để giám sát sự xuất hiện của tàu trên những vùng biển quan
tâm (interest regions). Vyamsat tích hợp việc quản lý, nhận dạng các vùng quan
tâm dựa trên công cụ ArcGis/ArcObject và các thuật toán phát hiện và nhận
dạng tàu dựa trên bộ nhận dạng Bayessian trích rút các đặc trưng từ ảnh đầu vào.
Trong bước phân biệt tàu thuyền, mỗi tàu được mô tả bởi một vetor đặc trưng
kích thước 7x3 (7 Hu moments được tính dựa trên 3 kênh ảnh đỏ, xanh lục, xanh
lam của ảnh). Việc phân loại được dựa trên bộ phân loại Bayessian.
Nhóm nghiên cứu khác là Katie Rainey và John Stastny cho rằng vấn đề
nhận dạng và phân loại tàu thuyền trên ảnh vệ tinh quang học là tương tự với
nhận dạng mặt người. Sự xuất hiện của tàu có thể rất khác nhau giữa các ảnh,
phụ thuộc vào nhiều yếu tố như điều kiện ánh sáng, góc của cảm biến, trạng thái
của biển. Ngoài ra cũng có sự khác nhau rất lớn giữa các tàu trong cùng một
loại. Việc thu thập và gán nhãn với tập dữ liệu huấn luyện đủ lớn cũng là một
thách thức không nhỏ. Để giải quyết vấn đề này, Katie Rainey và John Stastny
đề xuất giải thuật phân loại tàu là sự kết hợp của mô hình Bag-of-Words (BoW)
trong kết hợp phương pháp phân loại hỗ trợ máy véc tơ. Trong mô hình BoW tác
giả dùng cấu trúc đặc trưng vectơ sử dụng keypoint và bộ mô tả bất biến như
SIFT. Bộ mô tả của Scale-Invariant Feature Transform (SIFT) là bất biến đối
với những thay đổi về kích thước của ảnh và sự chiếu sáng, do đó các đặc trưng
tương tự từ các hình ảnh khác nhau của cùng một lớp nên sẽ được nhóm lại với
nhau. Nhóm nghiên cứu đã sử dụng bộ dữ liệu gồm bốn loại tàu dân sự như tàu
6
dầu, tàu vận tải, tàu công ten nơ và xà lan. Phương pháp này đã được áp dụng
thành công trong việc phân lớp tàu thuyền sử dựng ảnh viễn thám quang học độ
phân giải cao (dữ liệu thu từ hệ thống RAPIER) có độ chính xác trung bình đạt
xấp xỉ 80% [16].
Tại Việt Nam việc quản lý, phát hiện, theo dõi, giám sát tàu thuyền được
đầu tư phát triển theo một số chương trình và dự án cấp địa phương và nhà nước.
Tuy nhiên, số lượng các nghiên cứu và ứng dụng còn khác hạn chế. Tiêu biểu về
nghiên cứu nhận dạng, phân lớp tàu thuyền trên ảnh viễn thám là công trình sử
dụng mô hình trích xuất đặc trưng Spatial Pyramid Bag of Word và phương
pháp phân lớp SVM để phân loại tàu thuyền trên ảnh vệ tinh độ phân giải siêu
cao (Quick Bird) của nhóm nghiên cứu Lưu Việt Hưng, Đinh Văn Kiệt, Lương
Nguyễn Hoàng Hoa, Bùi Quang Hưng và Nguyễn Thị Nhật Thanh [18]. Kết quả
đạt được có độ chính xác cao (94%) đã đăng trên tạp chí Remote Sensing
Letters.
1.2 Giới thiệu về công nghệ viễn thám
1.2.1 Khái niệm, đặc điểm cơ bản viễn thám
Viễn thám (Remote sensing - tiếng Anh) được hiểu là một khoa học và
nghệ thuật để thu nhận thông tin về một đối tượng, một khu vực hoặc một hiện
tượng thông qua việc phân tích tài liệu thu nhận được bằng các phương tiện.
Những phương tiện này không có sự tiếp xúc trực tiếp với đối tượng, khu vực
hoặc với hiện tượng được nghiên cứu [2].
Thực hiện được những công việc đó chính là thực hiện viễn thám - hay
hiểu đơn giản: Viễn thám là thăm dò từ xa về một đối tượng hoặc một hiện
tượng mà không có sự tiếp xúc trực tiếp với đối tượng hoặc hiện tượng đó. Mặc
dù có rất nhiều định nghĩa khác nhau về viễn thám, nhưng mọi định nghĩa đều
có nét chung, nhấn mạnh "viễn thám là khoa học thu nhận từ xa các thông tin về
các đối tượng, hiện tượng trên trái đất".
Viễn thám điện từ là khoa học và công nghệ sử dụng sóng điện từ để
chuyển tải thông tin từ vật cần nghiên cứu tới thiết bị thu nhận thông tin cũng
như công nghệ xử lý để các thông tin thu nhận có ý nghĩa. Viễn thám điện từ
bao gồm viễn thám quang học và viễn thám radar.
Ảnh viễn thám (ảnh vệ tinh): là ảnh số thể hiện các vật thể trên bề mặt trái
đất được thu nhận bởi các bộ cảm biến đặt trên vệ tinh. Ảnh quang học dựa trên
cơ sở đo sóng phản xả từ bề mặt trái đất ở giải sóng nhìn thấy và một phần của
7
sóng hồng ngoại trong khoảng từ 300-1500 nm. Giải phổ từ 300-700 nm là vùng
dải phổ của màu xanh lam (Blue) - xanh lá cây (Green) - màu đỏ (Red), khu vực
700-1500 nm thuộc về dải phổ hồng ngoại của vùng hồng ngoại gần. Khu vực
hồng ngoại trung và hồng ngoại xa thường gọi là hồng ngoại nhiệt. Cảm biến
toàn sắc bao trùm giải bước sóng rộng từ 400-900 nm kết quả của nó cho ta một
tấm ảnh gần giống như ảnh đen trắng [1].
Hình 1. 1 Dải sóng điện từ
Năng lượng sóng phản xạ từ đối tượng bao gồm hai phần:
- Năng lượng phản xạ trực tiếp từ bề mặt đối tượng;
- Năng lượng tán xạ bởi cấu trúc bề mặt đối tượng.
Độ phân giải không gian.
Độ phân giải không gian của một ảnh vệ tinh, do đặc tính của đầu thu, phụ
thuộc vào hai thông số FOV (Field of view-trường/góc nhìn) và IFOV
(instantaneous field of view - trường/góc nhìn tức thì) được thiết kế sẵn. Thông
số FOV cho ta thấy được phạm vi không gian mà đầu thu có thể thu nhận được
sóng điện từ từ đối tượng. Rõ ràng là với góc nhìn càng lớn (FOV càng lớn) thì
ảnh thu được càng rộng, và với cùng một góc nhìn, vệ tinh nào có độ cao lớn
hơn sẽ có khoảng thu ảnh lớn hơn [1].
Ngược với FOV, IFOV của đầu thu đặc trưng cho phạm vi không gian mà
đầu thu có thể nhận được sóng điện từ trong một thời điểm. Tức là đầu thu sẽ
không thể “nhìn” được các đối tượng nhỏ hơn trong góc nhìn IFOV. Tổng hợp
giá trị bức xạ của các đối tượng trong một góc IFOV được thu nhận cùng một
lúc và mang một giá trị, được ghi nhận như một điểm ảnh. Trong ảnh số, một
8
điểm ảnh được gọi là một pixel và giá trị kích thước pixel đặc trưng cho khả
năng phân giải không gian của ảnh. Góc IFOV càng nhỏ thì khả năng phân biệt
các đối tượng trong không gian càng lớn, nghĩa là giá trị pixel càng nhỏ và phạm
vi “chụp” ảnh càng hẹp (hình 1.2).
Ý nghĩa quan trọng nhất của độ phân giải không gian là cho ta biết các đối
tượng nhỏ nhất mà có thể phân biệt được trên ảnh. Ví dụ, ảnh có độ phân giải
không gian là 30 x 30m sẽ cho phép phân biệt được các đối tượng có kích thước
lớn hơn 30 x 30m. Tuy hiện nay đã có những nghiên cứu về phương pháp phân
loại dưới pixel, nhưng để áp dụng rộng rãi cần được nghiên cứu thêm.
Hình 1. 2 Độ phân giải không gian của ảnh viễn thám trên cùng khu vực
Dữ liệu viễn thám cung cấp nhiều thông tin quan trọng trong nhiều ứng
dụng giám sát như gom ảnh, phát hiện biến đổi và phân loại lớp phủ. Kỹ thuật
viễn thám là một trong những kỹ thuật quan trọng được áp dụng để thu thập
thông tin liên quan đến tài nguyên môi trường của Trái Đất. Các dữ liệu ảnh vệ
tinh phổ biến dễ dàng tiếp cận và truy cập qua các ứng dụng bản đồ nổi tiếng
như Google Earth, Bing Maps, …
1.2.2 Dữ liệu ảnh viễn thám quang học
a) Ảnh vệ tinh QuickBird
Được cung cấp bởi Công ty Digital Globe, ảnh QuickBird hiện nay là một
trong những loại ảnh vệ tinh thương mại có độ phân giải cao nhất, được thu thập
miễn phí từ nền tảng Google Earth. Hệ thống thu ảnh QuickBird có thể thu được
đồng thời các tấm ảnh toàn sắc lập thể có độ phân giải từ 67cm đến 72cm và các
tấm ảnh đa phổ có độ phân giải từ 2,44m đến 2,88m. Với cùng một cảnh, Công
ty Digital Globe có thể cung cấp cho khách hàng 3 loại sản phẩm, ảnh
QuickBird được sử dụng các cấp độ xử lý khác nhau là Basic, Standard và
Orthorectified. Một ảnh QuickBird chuẩn có kích thước 16,5km x 16,5km. Với
ảnh viễn thám QuickBird, có thể làm được nhiều việc mà trước đây chỉ có thể
thực hiện với ảnh chụp từ máy bay. Các ứng dụng ảnh QuickBird tập trung chủ
10m 3m 0.4m
9
yếu vào nhiệm vụ quan sát theo dõi chi tiết các đảo hoặc các khu vực dải ven
biển, bến cảng, lập bản đồ vùng bờ,… Tuy nhiên, số lượng dữ liệu ảnh vệ tinh
QuickBird thu thập từ nền tảng Google Earth còn hạn chế, không đủ đáp ứng
yêu cầu để thực hiện bài toán của luận văn này.
b) Dữ liệu ảnh vệ tinh VNREDSat-1
VNREDSat-1 (Vietnam Natural Resources, Environment and Disaster-
monitoring Satellite-1) là vệ tinh quang học quan sát Trái Đất đầu tiên của Việt
Nam, do Công ty EADS Astrium (Pháp) thiết kế, chế tạo.
Vệ tinh VNREDSAT-1 mang 02 bộ cảm đa phổ và toàn sắc với độ phân
giải là 2.5m và 10m cho kênh đa phổ. Thông tin các kênh phổ của ảnh vệ tinh
VNREDSAT-1 như sau
Bảng 1. 1 Thông số kỹ thuật kênh phổ ảnh VNREDSAT-1
Kênh Bƣớc sóng
(micrometers)
Độ phân giải
(meters)
Blue 0.45 - 0.52 10
Green 0.53 - 0.60 10
Red 0.62 - 0.69 10
PAN 0.76 - 0.89 2.5
c) Dữ liệu ảnh vệ tinh Planet
Dữ liệu ảnh vệ tinh được cung cấp bởi Công ty Planet Labs Inc, ảnh
Planet hiện nay là một trong những loại ảnh vệ tinh thương mại có độ phân giải
trung bình, cao. Các sản phẩm ảnh Planet cung cấp tới người sử dụng là dữ liệu
ảnh viễn thám đã qua quy trình hiệu chỉnh về tọa độ, nắn chỉnh hình học, hiệu
chỉnh bức xạ cảm biến, bức xạ bề mặt, sản phẩm ở mức độ phù hợp với từng bài
toán ứng dụng khác nhau.
Một cảnh ảnh Planet chuẩn có kích thước 24km x 8km. Các ứng dụng ảnh
Planet tập trung chủ yếu vào nhiệm vụ quan sát theo dõi chi tiết các đảo hoặc
các khu vực dải ven biển, bến cảng, lập bản đồ vùng bờ…
10
Bảng 1. 2 Thông tin thuộc tính của ảnh Planet
Thuộc tính Mô tả
Định dạng ảnh GeoTiff, xml
Kích thước điểm ảnh 3m
Kích thước cảnh ảnh 24kmx8km
Hệ tọa độ WGS-84
Kênh phổ 3 kênh (Red, Green Blue
1.3 Giới thiệu về một số loại tàu thuyền quan tâm
1.3.1 Tàu vận tải [12]
Các tàu vận tải thường được đặc trưng bởi các hầm chứa hàng trong bụng
tàu, phía trên có thể được đậy bởi các tấm chắn lớn; mũi tàu có dạng cánh cung
buồng điều khiển thường được đặt ở phía đuôi tàu, trên boong tàu thường có các
cần cẩu hỗ trợ việc nâng, dỡ hàng. Các tàu vận tải hiện nay đều được được thiết
kế bằng thép, trung bình độ dài của một tàu vận tải hiện nay khoảng 80 m (độ
dài tính từ mũi tàu tới đuôi tàu).
Có thể căn cứ vào dạng cánh cung của mũi tàu, vị trí đặt buồng điều
khiển, các cần cẩu trên tàu và quan trọng nhất là các hầm chứa hàng hoặc các
tấm chắn hầm chứa hàng để nhận dạng tàu vận tải.
Hình 1. 3 Tàu vận tải
11
1.3.2 Tàu chở dầu [12]
Tàu chở dầu là loại tàu được thiết kế để chuyên vận chuyển chất lỏng
hoặc chất khí với số lượng lớn. Dựa vào chất được vận chuyển có thể phân tàu
chở dầu thành 3 loại chính là tàu chở dầu, tàu chở khí ga và tàu chở hóa chất.
Tàu chở dầu có thiết kế khá giống với các tàu vận tải thông thường tuy nhiên
phần boong tàu được thiết kế khép kín; giữa boong tàu là hệ thống đường ống
chạy dọc theo chiều dài thân tàu, có từ 2-3 cột được lắp nối tiếp trên boong tạo
thành đường thẳng từ buồng điều khiển ra phía mũi tàu (đây là phần khung
xương chịu lực của tàu). Trên boong tàu được trang bị nhiều cần cầu, buồng
điều khiển của tàu chở dầu nằm ở phía đuôi tàu, các tàu trở dầu lớn thường có
sân đáp trực thăng trên boong.
Đối với các tàu chở khí thì phần boong tàu được đặc trưng bởi các bồn
chứa khí dạng vòm, bán cầu. Các tàu chở khí lớn thường có 4-6 bồn chứa khí có
thể quan sát trên boong tàu. Tàu chở dầu lớn nhất thế giới hiện nay là tàu Knock
Nevis của Nauy với chiều dài 458m, trọng tải lên tới 564.763 tấn.
Có thể căn cứ vào hình dạng, phần boong tàu được thiết kế khép kín, vị trí
buồng điều khiển, phần khung chịu lực của tàu và đặc biệt là các bồn chứa khí
dạng vòm, bán cầu để nhận dạng tàu chở dầu, tàu chở khí.
Hình 1. 4 Tàu chở dầu
1.3.3 Tàu chuyên chở công te nơ [12]
Tàu công te nơ là một dạng tàu vận tải, được thiết kế chỉ để chuyên chở
các thùng công te nơ. Các tàu công te nơ được thiết kế để có thể di chuyển với
tốc độ cao trong điều kiện đầy tải (khoảng 26 hải lý/ giờ)
12
Tàu công te nơ chỉ có một boong tàu, mạn kép hoặc mạn đơn hình gợn
sóng. Mép boong dày, chắc, đà ngang boong có kích thước rộng làm tăng tính
ổn định của tàu. Tàu công te nơ không có cần cẩu trên tàu mà chỉ sử dụng các
cẩu giàn đặt trên bờ của các cảng, tàu công te nơ còn có các két nước giằng ở hai
bên mạn tàu tạo sự cân bằng khi xếp các công te nơ thành nhiều hàng, nhiều
tầng. Boong tàu tương đối phẳng, được phân thành từng nhiều hầm nhỏ có vách
ngăn để chứa công te nơ, buồng điều khiển của loại tàu này thường được thiết kế
ở phần giữa của tàu.
Tàu công te nơ lớn nhất thế giới hiện nay là tàu Emma Maersk của Đan
Mạch, tàu có kích thước 396.8x56.4x30 m, trọng tải tàu lên tới 170.794 tấn, tàu
có thể chở đồng thời 11.000 công te nơ.
Về cơ bản tàu công te nơ có cấu trúc giống với một tàu vận tải thông
thường tuy nhiên phần boong tàu chứa công te nơ sẽ được chia thành nhiều
khoang nhỏ, các khoang được ngăn cách nhau bởi vách ngăn. Một đặc điểm
khác để nhận dạng tàu công te nơ đó là vị trí buồng điều khiển, buồng điều
khiển của tàu công te nơ không nằm ở phía đuôi như tàu vận tải mà thường được
thiết kế ở khoảng giữa tàu. Khi đầy tải có thể dễ dàng phát hiện cách tàu công te
nơ qua các thùng công te nơ trên tàu.
Hình 1. 5 Tàu công ten nơ
1.3.4 Tàu sân bay [13]
Tàu sân bay hay còn gọi là hàng không mẫu hạm là một loại tàu chiến
được thiết kế để triển khai và thu hồi máy bay. Tàu sân bay hoạt động như một
căn cứ không quân trên biển, nó cho phép các lực lượng hải quân triển khai
không lực ở các vùng biển xa bờ mà không phục thuộc vào các căn cứ không
13
quân trên đất liền. Các lực lượng hải quân hiện đại đều coi tàu sân bay là trung
tâm của hạm đội (vài trò trước đó do thiết giáp hạm đảm nhận). Với kích thước
đồ sộ, tính cơ động không cao, vũ khí trang bị lại khá hạn chế nên tàu sân bay
rất dễ trở thành mục tiêu tấn công của các tàu chiến khác, do đó tàu sân bay
thường không hoạt động độc lập mà luôn có một đội tàu hộ tống, hậu cần đi
kèm. Trong lực lượng hải quân hiện đại của nhiều quốc gia hiện nay thì tàu sân
bay luôn được coi là tàu chủ lực.
Các tàu sân bay hiện đại đều có độ dài trên 300 m, sàn bay được thiết kế
phẳng (sàn bay được dùng làm nơi cất và hạ cánh cho các máy bay). Hiện nay
hướng các đường băng hạ cánh đều chéo một góc so với trục chính của tàu, việc
thiết kế các kiểu đường băng chéo này là cho phép máy bay nào không móc
được vào dây cáp hãm đà vẫn sẽ tiếp tục bay lên mà không gặp nguy cơ lao vào
các máy bay khác đang đỗ ở khu vực phía trước sàn bay, đường băng chéo cũng
cho phép hạ cánh một máy bay cùng lúc với việc phóng một máy bay khác ở
đường băng. Đài chỉ huy, tháp kiểm soát, hệ thống thoát khí của động cơ được
tập trung tại một khu vực khá nhỏ được gọi là đảo, rất hiếm tàu sân bay được
thiết kế hay chế tạo mà không có một đảo. Một dạng đường băng gần đây được
thiết kế trên các tàu sân bay là kiểu nhảy cầu (skijump) với một đầu dốc ở phía
trước đường băng, đường băng dạng này được phát triển để có thể phóng được
các máy bay cất và hạ cánh thẳng đứng hay các máy bay cất cánh từ các đường
băng ngắn và hạ cánh thẳng đứng, việc sử dụng bờ dốc sẽ giúp các máy bay
không cần sử dụng tới các máy phóng và cáp hãm đà nữa, các tàu sân bay kiểu
này sẽ giảm được trọng lượng, tính phức tạp và khoảng không cần thiết để bố trí
các thiết bị khác.
Các tàu sân bay đều có kích thước lớn nên việc nhận dạng chúng trên ảnh
vệ tinh là tương đối dễ dàng. Có thể căn cứ vào các đặc điểm như sàn tàu sân
bay rất phẳng, phần đường băng chéo so với trục chính của tàu, các máy bay
chiến đỗ trên sàn máy bay, khu vực tháp chỉ huy nhô cao so với sàn tàu.
Hình 1. 6 Tàu sân bay
14
1.3.5 Tàu ngầm [13]
Tàu ngầm hay còn gọi là Tiềm thủy đĩnh là một loại tàu đặc biệt được
thiết kế để chuyên hoạt động phía dưới mặt nước. Đa số các tàu ngầm đều được
sử dụng cho mục đích quân sự, chỉ một số ít phục vụ cho việc vận chuyển hàng
hải, nghiên cứu khoa học và cứu hộ tại các vùng nước sâu
Tất cả các tàu ngầm được xây dựng trên cùng một nguyên tắc, đó là hình
quả dưa chuột bằng thép (người Mỹ gọi là điếu xìgà), được phân chia thành các
khoang bởi các vách ngăn dọc theo boong tàu. Các vách ngăn có các cửa vách
ngăn để kết nối các khoang với nhau.
Phần mũi thường được bố trí một khoang chứa ngư lôi, thủy lôi, mìn và
tất nhiên là chúng ta sẽ không thể ra vào bằng cửa khoang này, trừ một vài
trường hợp đặc biệt. Ở giữa, thường là khoang trung tâm - nơi đặt hệ thống điều
khiển và là trung tâm chỉ huy của tàu ngầm. Phía sau, tùy vào ý tưởng thiết kế,
có thể có nhiều ngăn bố trí hệ thống động cơ, nguồn điện, khoang thoát hiểm...
của tàu ngầm. Tất cả các khoang của tàu ngầm đều có nhiệm vụ, số hiệu và tên
gọi riêng. Tàu ngầm có thể có 6, 7 hoặc thậm chí 8 khoang - tùy theo thiết kế. Ở
mỗi phần của con tàu (phía mũi, trung tâm và phía sau) đều có một khoang được
bố trí cửa thoát hiểm ở phía trên. Đây là nơi các thủy thủ tập trung lại để thoát ra
khỏi tàu ngầm trong trường hợp tàu ngầm gặp tai nạn.
Với hình dạng đặc biệt (giống như quả dưa chuột) không giống với các
loại tàu, thuyền khác nên việc nhận dạng tàu ngầm đang hoạt động trên mặt
nước là tương đối dễ dàng, ngoài ra còn có thể căn cứ vào các đặc điểm tháp
quan sát ở khoảng giữa thân tàu, phần đuôi tàu thấp hơn luôn chìm dưới mặt
nước, thân tàu mấp mé mặt nước để phát hiện tàu ngầm.
Hình 1. 7 Tàu ngầm
15
1.3.6 Khu trục hạm [13]
Khu trục hạm là một tàu chiến, chạy nhanh và rất cơ động, nó có khả năng
hoạt động lâu dài, bền bỉ trên đại dương. Tàu khu trục có nhiệm vụ chính là hộ
tống các tàu chiến lớn hơn trong một hạm đội, đoàn tàu vận tải hoặc một chiến
đoàn và bảo vệ chúng chống lại những đối thủ nhỏ tầm gần nhưng mạnh mẽ, đầu
tiên là những tàu phóng lôi và sau này là tàu ngầm và máy bay.
Các khu trục hạm mang hình dạng đặc trưng của một chiếc tàu chiến hiện
đại với mũi tàu sắc nhọn, bề ngang hẹp và phần đuôi cắt ngang; các khu trục
hạm đều có kích thước nhỏ hơn tuần dương hạm, độ dài của một khu trục hạm
dao động trong khoảng từ 140 - 170 m. Các khu trục hạm ngày nay đều được
trang bị tên lửa phòng không và tên lửa diệt hạm, các tên lửa này thường được
bố trí trải đều ở phần đầu, giữa và đuôi tàu. Buồng điều khiển, hệ thống radar và
ống xả nhiên liệu được bố trí ở phần giữa tàu, phần đuôi tàu thường là sàn đáp
trực thăng và nhà chứa máy bay. Ngoài ra trên khu trục hạm còn có các loại vũ
khí khác như pháo hạng trung, ngư lôi, dàn hỏa lực đánh lạc hướng và các loại
tàu nhỏ cơ động.
Có thể căn cứ vào hình dạng, kích thước, hệ thống tên lửa và các loại vũ
khí khác được trang bị trên tàu để nhận dạng khu trục hạm.
Hình 1. 8 Tàu khu trục
16
1.4 Bộ CSDL tàu thuyền mẫu
1.4.1 Nguồn dữ liệu
Cơ sở dữ liệu mẫu tàu thuyền được trích xuất chính từ nguồn dữ liệu
Planet với độ phân giải 3m cho các kênh phổ nhằm đảm bảo thống nhất cũng
như đồng bộ về chất lượng ảnh, khả năng bao phủ hết các loại tàu thuyền quan
tâm.
Để đáp ứng nhu cầu của bài toán phân lớp tàu thuyền, việc thành lập một
bộ cơ sở dữ liệu về tàu là điều quan trọng và cần thiết. Để đạt được độ chính xác
cao trong việc huấn luyện dữ liệu thì số lượng tàu, thuyền thu thập cần có số
lượng lớn, đa dạng về chủng loại (lên tới vài trăm hay hàng nghìn mẫu tàu). Tuy
nhiên độ chính xác trong việc lấy mẫu tàu còn phụ thuộc vào nhiều yếu tố như
độ phân giải ảnh, kiến thức của hệ chuyên gia về lĩnh vực tàu thuyền. Việc thực
hiện thu thập cơ sở dữ liệu trên ảnh Planet gây một số khó khăn cho bản thân
trong việc xác nhận tàu thuyền có kích thước nhỏ.
Nếu như Google Earth cung cấp ảnh chụp các khu vực cảng biển có chất
lượng (độ phân giải cao) thì ảnh Planet lại phát huy lợi thế cung cấp ảnh cập
nhật thường xuyên, liên tục tại các cảng biển.
Hình 1. 9 Dữ liệu ảnh viễn thám Planet (trái), dữ liệu ảnh viễn thám Google
Earth (phải)
Bên cạnh nguồn dữ liệu ảnh viễn thám, dữ liệu AIS cũng là nguồn dữ liệu
hỗ trợ quan trọng trong việc xác định cũng như định danh tàu thuyền. Hệ thống
định danh tự động AIS là một hệ thống theo dõi phương tiện hàng hải tự động,
giúp cho các phương tiện tránh va trạm khi lưu thông hàng hải và được cung cấp
bởi dịch vụ giao thông tàu/thuyền Vessel traffic services (VTS). Khi sử dụng vệ
tinh để phát hiện tín hiệu AIS, thuật ngữ Satellite-AIS (S-AIS) được sử dụng.
Thông tin AIS bổ sung cho radar hàng hải và là phương pháp chính để tránh va
chạm.
17
Thông tin được cung cấp bởi thiết bị AIS bao gồm: thông tin định danh, vị
trí, hướng, tốc độ… được hiển thị trên thiết bị quan sát hải đồ và thông tin điện
tử (Electronic Chart Display and Information System - ECDIS). AIS trợ giúp
các nhân viên điều hành quan sát tàu; cho phép các cơ quan hàng hải theo dõi và
giám sát các hoạt động của tàu. AIS tích hợp một thiết bị thu phát VHF tiêu
chuẩn với một hệ thống định vị (như thiết bị GPS), với các cảm biến điều hướng
điện tử khác, chẳng hạn như một la bàn không từ tính (la bàn hồi chuyển). Các
tàu có thiết bị thu phát AIS được theo dõi bởi các trạm cơ sở AIS, đặt dọc tuyến
bờ biển; khi nằm ngoài phạm vi của mạng lưới trạm AIS mặt đất, thông tin AIS
sẽ được truyền qua vệ tinh với các máy thu AIS đặc biệt có khả năng giảm
chồng lấn tín hiệu.
1.4.2 Phƣơng pháp thu thập bộ dữ liệu tàu thuyền mẫu
Dữ liệu được sử dụng để xây dựng bộ CSDL tàu thuyền được thu thập
dựa trên kiến thức chuyên gia. Đó là việc sử dụng các phần mềm viễn thám để
xác định vị trí tàu trong ảnh. Các tàu này được phân loại dựa trên kiến thức
chuyên gia giải đoán hình ảnh. Quy tắc phân loại tàu thuyền được mô tả dưới
đây
Hệ tiêu chuẩn phân lớp tàu thuyền ICST 94 là hệ phân lớp cơ bản và rất
chi tiết cho phần lớn các loại tàu thuyền và công trình biển, cả dân sự lẫn quân
sự trên thế giới [12]. Tuy nhiên, hệ ICST 94 chỉ tập trung chính cho chủng loại
tàu thuyền dân sự và còn rất hạn chế trong việc mô tả và phân loại tàu quân sự,
chấp pháp. Để bù đắp khuyết điểm trên, luận văn đã kết hợp chuẩn ICST cùng
kiến thức của chuyên gia, đồng thời tham khảo thêm thông tin từ sách, tạp chí
quân sự và nhiều nguồn khác đã tiến hành xây dựng sơ đồ cây phân lớp tàu
thuyền như sau.
Hình 1. 10 Sơ đồ cây phân lớp tàu thuyền
18
Sơ đồ trên cho thấy cây phân lớp tàu thuyền được tổ chức thành ba mức.
Mức một là mức chỉ ra các đối tượng trên biển là tàu hoặc là các mục tiêu khác
không phải tàu thuyền. Sau khi xác định mục tiêu là tàu, ở mức tiếp theo (mức
hai) dựa vào các đặc trưng của từng đối tượng như cấu trúc, hình dạng hình học,
vai trò chức năng, nhiệm vụ của tàu để chia thành hai loại tàu ở cấp độ ngang
hàng nhau (Tàu quân sự, tàu dân sự). Với mức ba, luận văn đã chỉ ra cụ thể từng
loại, lớp tàu trong các nhóm tàu mức hai bao gồm tàu ngầm, tàu sân bay, tàu khu
trục, tàu vận tải, tàu dầu, tàu công-te-nơ. Các loại tàu ở mức ba được mô tả chi
tiết ở chương một.
1.4.3 Quy trình lấy mẫu dữ liệu
Hình 1. 11 Quy trình lấy mẫu tàu dựa trên kiến thức chuyên gia
Chi tiết quy trình lấy mẫu tàu dựa trên kiến thức chuyên gia, đồng thời sử
dụng các phần mềm hỗ trợ bao gồm:
Bước 1: Chọn các khu vực cảng biển nơi tập trung lượng lớn tàu thuyền,
sau đó tiến hành mở ảnh.
Bước 2: Khởi động công cụ lấy mẫu tàu.
Bước 3: Tiến hành lấy mẫu tàu bằng cách vẽ các đường bao xung quanh
đường biên tàu.
Bước 4: Dựa vào kiến thức chuyên gia, gán nhãn cho tàu thuyền.
Bước 5: Lưu lại kết quả
Công cụ sử dụng
Các ứng dụng được sử dụng trong việc gán nhãn dữ liệu dựa trên hệ
chuyên gia có thể kể đến ENVI [6] và LabelMe [4] [3]. Đây là hai ứng dụng gán
nhãn dữ liệu được sử dụng phổ biến trong ngành viễn thám và khoa học máy
tính. Trong quá trình thực hiện luận văn, chúng tôi sử dụng ứng dụng ENVI
trong việc thu thập và gán nhãn cơ sở dữ liệu tàu, một trong những yếu tố chính
ENVI được lựa chọn là do ứng dụng này được thiết kế để xử lý dữ liệu viễn
thám do vậy các thao tác sử dụng sẽ thuận tiện hơn các phần mềm xử lý ảnh gãn
nhãn thông thường.
19
Việc sử dụng ENVI trong vấn đề gán nhãn dữ liệu viễn thám đã phổ biến
từ lâu. Thứ tự quy trình thực hiện đã được trình bày chi tiết ở trên. Hình ảnh
minh họa cho từng bước thực hiện được mô tả như sau.
Chọn các khu vực cảng biển nơi tập trung lượng lớn tàu thuyền, sau
đó tiến hành mở ảnh và Khởi động công cụ lấy mẫu tàu
a) Khu vực nghiên cứu b) Chọn các khu vực có đối tượng quan tâm
Hình 1. 12 Mở dữ liệu ảnh và chọn khu vực nghiên cứu có đối tượng quan tâm
cần gán nhãn
Tiến hành lấy mẫu tàu bằng cách vẽ các đường bao xung quanh
đường biên tàu và dựa vào kiến thức chuyên gia, gán nhãn cho tàu
thuyền (xem Hình 1.13)
a) Chọn tàu thuyền cần gán nhãn b) Vẽ đường bao xung quanh, gán nhãn cho tàu
Hình 1. 13 Gán nhãn đối tượng quan tâm dựa trên việc vẽ đường bao xung
quanh
20
Chƣơng 2: Nghiên cứu một số thuật toán nhận dạng
tàu thuyền.
2.1 Nghiên cứu một số phƣơng pháp, thuật toán trích chọn
đặc trƣng
2.1.1 Mô hình Bag of Features
Mô hình Bag of Feature (BoF) là một dạng mô hình hay được sử dụng
trong phân loại hình ảnh hoặc phân loại văn bản. Ý tưởng chính của mô hình
này sẽ là trích xuất ra các đặc trưng của đối tượng, tổng hợp các đặc trưng giống
nhau lại và biểu diễn lại đối tượng theo số lượng các đặc trưng giống nhau đó.
Hình 2.1 sau sẽ mô tả phương pháp làm việc của BoF:
Hình 2. 1 Minh họa mô hình BoF (nguồn [9]).
Bước đầu tiên của BoF là trích xuất đặc trưng từ ảnh. Bước này có thể áp
dụng các thuật toán SIFT, SURF để đưa ra các đặc trưng từ hình ảnh. Toàn bộ
hình ảnh cho huấn luyện sẽ được tính toán và tổng hợp tất các đặc trưng tìm
được. Có thể hiểu bước này là thu thập tất cả các đặc trưng xuất hiện trong tập
huấn luyện.
21
Hình 2. 2 Minh họa các đặc trưng thu thập được (nguồn [9]).
Trong bước tiếp theo, BoF thực hiện việc tổng hợp các đặc trưng tìm được
thành các cụm có đặc điểm giống nhau. Bước này thường sử dụng các thuật toán
phân cụm như K-means. Các đặc trưng giống nhau sẽ được đưa vào các cụm
riêng vào thuật toán phân cụm này sẽ được dùng để mô tả các hình ảnh.
Hình 2. 3 Minh họa các đặc trưng được phân cụm (nguồn [9]).
Tóm lại, với mỗi hình ảnh, BoF sẽ mô tả lại chúng bằng cách thống kê số
lượng các đặc trưng xuất hiện trong ảnh. Mỗi hình ảnh sẽ có các đặc trưng riêng.
Dựa vào thuật toán phân cụm tìm được trong bước trước, một biểu đồ đặc trưng
sẽ được xây dựng để mô tả cho hình ảnh như ví dụ dưới đây:
Hình 2. 4 Biểu đồ đặc trưng (nguồn [9]).
Các biểu đồ này được thu gọn thành các vector đặc trưng mới cho hình
ảnh. Các vector đặc trưng này có thể sử dụng trong các thuật toán học máy như
SVM để thực hiện việc phân loại hình ảnh. Để hiểu sâu hơn về các thuật toán
trích chọn đặc trưng trong mô hình BoF, sau đây luận văn sẽ trình bày chi tiết về
thuật toán SIFT, SURF
22
Thuật toán SIFT
SIFT là một thuật toán trích xuất đặc trưng được sử dụng phổ biến trong
thị giác máy. SIFT được giới thiệu vào năm 1999 và đã được đăng ký sở hữu
bản quyền bởi David G. Lowe - một nhà khoa học người Canada [5]. SIFT được
sử dụng để tìm kiếm và mô tả các đặc trưng có trên hình ảnh xám. Thuật toán
của SIFT được thiết kế bao gồm các bước sau:
Bước 1: Tìm các điểm ứng viên trên hình ảnh ở các tỷ lệ khác nhau.
Bước 2: Lọc các điểm tìm được ở bước 1 để tìm các điểm là đặc trưng
(keypoint) của ảnh.
Bước 3: Định hướng cho các điểm đặc trưng (keypoint) tìm được.
Bước 4: Tính toán giá trị mô tả cho các đặc trưng.
Các đặc trưng tìm được từ thuật toán SIFT có đặc điểm là rất ít phụ thuộc
vào cường độ sáng, nhiễu, góc che khuất (vật thể bị che mất một phần), góc
xoay ảnh và góc chụp ảnh. Tuy nhiên, tốc độ của SIFT lại khá nhanh và có thể
đáp ứng nhu cầu chạy thời gian thực. SIFT đã được ứng dụng trong nhiều lĩnh
vực như nhận dạng vật thể qua ảnh, định vị và điều hướng robot, xây dựng mô
hình 3D, kiểm duyệt video, nhận dạng chuyển động của động vật hoang dã…
a) Tìm các điểm ứng viên
SIFT sử dụng thuật toán lọc theo tầng để tìm kiếm các điểm ứng viên (có
thể là đặc trưng trên ảnh). Để tìm các điểm trên, một phương pháp được đưa ra
là sử dụng một hàm liên tục biểu diễn không gian như hàm không gian tỷ lệ
(được giới thiệu lần đầu bởi Joel-Peter Witkin vào năm 1983). Ngoài ra, các
nghiên cứu của Koenderink (1984) và Lindeberg (1994) đã khẳng định hàm
Gaussian chính là hạt nhân (“kernel”) thích hợp nhất cho hàm không gian tỷ lệ
(“scale-space”). Kế thừa các nghiên cứu trên, công thức của hàm không gian tỷ
lệ trong SIFT được định nghĩa là L(x, y, σ) - có giá trị như công thức sau:
),(*),,(),,( yxIyxGyxL (2.1)
Trong đó:
G(x, y, σ) là hàm biến tỷ lệ Gaussian.
I(x, y) là giá trị của điểm ảnh.
Dấu * là phép nhân tích chập.
23
x, y là tọa độ trên ảnh.
Công thức của hàm biến tỷ lệ Gaussian được định nghĩa như sau:
( )
(
) ⁄ (2.2)
Để xác định vị trí các điểm ổn định trong không gian tỉ lệ, tác giả Lower
đã đề xuất tìm các điểm cực trị trong không gian tỉ lệ bằng cách xét sự khác biệt
trong tích chập của hàm Gaussian (“the difference-of-Gaussian function
convolved” hay được viết tắt là DoG) với hình ảnh, kí hiệu là D(x, y, σ). Hàm
DoG có thể tính được sự khác biệt của hai không gian tỉ lệ gần nhau thu được
bằng các nhân giá trị σ được sử dụng trong các thức trên với một hằng số k
không đổi. Cụ thể công thức của hàm DoG được định nghĩa như sau:
( ) ( ( ) ( )) ( )
( ) ( ) (2.3)
Theo đó, hình ảnh sẽ được làm mịn (bằng cách làm mờ với hàm
Gaussian) và sau đó được tính toán sự khác biệt giữa các mức làm mờ bằng cách
trừ cho nhau. Ví dụ minh họa cho sự làm mờ hình ảnh ở các mức khác nhau
được mô tả trong Hình 2.5.
Hình 2. 5 Minh họa các mức làm mờ khác nhau của hàm Gaussian.
Qua ví dụ có thẩy thấy hình ảnh thu được qua hàm Gaussian thay đổi khi
giá trị σ thay đổi. Tuy nhiên một số điểm trên hình ảnh vẫn ổn định qua nhiều
giá trị khác nhau của σ – đây chính là các điểm ứng viên cần tìm. Ngoài ra, để
24
tăng tốc quá trình tính toán, giá trị (G(x, y, kσ) - G(x, y, σ)) được tính xấp xỉ dựa
trên “the scale-normalized Laplacian of Gaussian” (nghiên cứu bởi Lindeberg
vào năm 1994) và mô tả bằng công thức như sau:
( ) ( ) ( ) (2.4)
Tổng quan lại, hình ảnh sẽ được áp dụng tích chập với hàm Gaussion với
giá trị σ cơ bản (thường là 1.6) thay đổi bằng cách nhân với một hằng số k.
Ngoài ra, hình ảnh được xét trong các đoạn (“octave”). Mỗi đoạn này sẽ tương
ứng với tỉ lệ hình ảnh bị giảm đi 1 nửa (bằng cách tăng gấp đôi giá trị của σ so
với đoạn trước) và đầu ra của mỗi đoạn sẽ là đầu vào của đoạn tiếp theo. Hằng
số k thường được sử dụng là và số hàm Gaussian cho đoạn của hình ảnh sẽ là
5. Ví dụ, đoạn đầu tiên sẽ có các giá trị σ là σ, σ, 2σ, 2 σ và 4σ. Sau đó
các ảnh thu được ở các mức liền kề (có thể gọi là ảnh kề mờ) sẽ trừ đi cho nhau
và kết quả thu được là 4 ảnh ngưỡng như minh họa trong hình dưới. Mô hình
này được gọi là kim tự tháp ảnh.
Hình 2. 6 Mô hình kim tự tháp ảnh trong SIFT (nguồn [5]).
Trên các ảnh ngưỡng thu được trong mỗi đoạn, ta thực hiện xét giá trị mỗi
điểm ảnh với các điểm ảnh xung quanh nó để tìm được các điểm ứng viên. Quy
tắc so sánh như sau: giá trị của một điểm ảnh tại một ảnh ngưỡng sẽ được so
sánh với 8 điểm xung quanh tại ảnh ngưỡng đó và so với 9 giá trị tại 2 ảnh
ngưỡng liền kề trên và dưới – tổng cộng là 26 điểm (minh họa trong hình dưới).
25
Nếu điểm ảnh đó có giá trị lớn nhất hoặc nhỏ nhất so với các điểm cần xét thì sẽ
được coi là một điểm ứng viên.
Hình 2. 7Minh họa cách lấy điểm để xét cực trị với vị trí x là điểm đang xét
(nguồn [5]).
b) Chọn lọc các điểm ứng viên và định hướng cho các điểm đặc trưng
Các điểm ứng viên sẽ được lọc để tìm ra các điểm đặc trưng của hình ảnh.
Tiêu chí lọc sẽ là loại bỏ các điểm có độ tương phản thấp (dẫn đến dễ bị ảnh
hưởng bởi nhiễu) và các điểm được định vị dọc theo các cạnh.
Trong phiên bản đầu tiên (được đề xuất bởi Lower - 1999), thuật toán để
xác định các điểm đặc trưng chỉ đơn giản là dựa vào vị trí và tỉ lệ của các điểm
mẫu ở trung tâm hình ảnh. Sau đó, vào năm 2002, Lower và Brown đã cải tiến
phương pháp cũ và đưa ra một phương pháp xác định mới. Phương pháp mới áp
dụng một hàm 3D bậc hai cho các điểm mẫu cục bộ để xác định vị trí nội suy
của điểm cực đại (“The interpolated location of the maximum”). Theo đó, biểu
diễn Taylor của hàm không gian tỉ lệ D(x, y, σ) được sử dụng để đưa gốc tọa độ
về vị trí điểm mẫu. Công thức được sử dụng như sau:
( )
(2.5)
Trong đó, D và các đạo hàm được ước tính tại điểm mẫu. X = ( ) là
phần bù từ điểm mẫu đang xét. Vị trí của điểm ứng viên, , được xác định bằng
cách cho đạo hàm theo X của công thức trên bằng 0. Theo đó, được tính bằng
công thức:
(2.6)
26
Sau đó, hàm giá trị của ứng viên, D( ), được sử dụng để loại bỏ các điểm
đặc trưng có độ tương phản thấp. D( ) có công thức như sau:
( )
(2.7)
Nếu giá trị của |D( )| nhở hơn 0.03, điểm ứng viên sẽ bị loại bỏ (với giả
định giá trị các điểm ảnh chỉ trong khoảng [0, 1]). Sau khi loại bỏ các điểm có
độ tương phản thấp, các điểm ứng viên dọc theo các cạnh sẽ được loại bỏ. Lí do
phải loại bỏ các điểm này vì hàm DoG có phản hồi cao cới các cạnh so với các
vị trí khác. Sift sử dụng một phương pháp tương tự thuật toán tìm góc Harris
(“Harris Corner Detector”). Trong đó, ma trận Hessian, H, được sửa dụng để
tính toán tại vị trí và tỉ lệ của các điểm ứng viên. H được định nghĩa như sau:
[
] (2.8)
Trong đó, là đạo hàm bậc hai của D theo x, là đạo hàm của đạo
hàm của D theo x theo y và tương tự với hai giá trị còn lại. Giá trị riêng của ma
trận H tỉ lệ thuận với độ cong chính của D. Độ cong chính của D đại diện cho
giá trị cạnh trên hình ảnh. Điều này có nghĩa là giá trị này càng lớn thì điểm ứng
viên đang xét càng gần cạnh. Thay vì tính toán cụ thể giá trị riêng của H, ta chỉ
cần quan tâm đến tỉ lệ độ lớn của nó. Gọi α là giá trị riêng lớn nhất, β là một giá
trị riêng nhỏ hơn. Ta có thể tính tổng của các giá trị riêng theo định thức:
( )
( ) ( ) (2.9)
Gọi r là tỉ lệ của α và β thì ta có α = rβ. Áp dụng hai công thức bên trên, ta
được:
( )
( ) ( )
( )
( )
(2.10)
Công thức trên không phụ thuộc vào một giá trị riêng cụ thể nào của ma
trận H mà chỉ phụ thuộc vào tỉ lệ giữa chúng. Để xác định một điểm ứng viên
đang xét không thuộc cạnh, ta tính các giá trị của ma trận H và tính r. Nếu r càng
bé chứng tỏ điểm càng xa cạnh. Theo như tác giả, giá trị r nên bằng 10.
Sau khi đã lọc bỏ các điểm ứng viên không phù hợp, các điểm còn lại sẽ
được coi là các điểm đặc trưng và được gắn hướng. Việc gắn hướng sẽ dựa trên
sự thay đổi giá trị điểm ảnh tại vị trí đang xét. Điều này làm mất bớt thông tin
của hình ảnh nhưng sẽ giúp các điểm đặc trưng này trở nên bất biến khi hình ảnh
27
bị xoay. Phương pháp là xét trên mỗi tỉ lệ của hình ảnh, một số điểm lân cận của
điểm đặc trưng sẽ được chọn (tùy thuộc vào tỉ lệ đang xét) để tính giá trị độ dốc
và hướng của chúng. Với mỗi hình ảnh, L(x, y), xét ở một tỉ lệ, cường độ độ
dốc, m(x, y), và hướng θ(x, y) được tính theo công thức sau:
( ) √( ( ) ( )) ( ( ) ( )) (2.11)
( ) (( ( ) ( )) ( ( ) ( ))
Biểu đồ định hướng cho điểm đặc trưng được xây dựng dựa trên hướng
của các điểm xung quanh nó. Biểu đồ này bao gồm 10 cột biểu diễn giá trị góc
từ 0 – 360 như Hình 2.8.
Hình 2.8 Minh họa biểu đồ định hướng.
Các giá trị góc của các điểm xung quanh được đưa vào biểu đồ sẽ được
nhân thêm với trọng số - bao gồm độ lớn độ dốc của điểm đó và được nhân với
một cửa sổ tròn trọng số Gaussian với giá trị σ sẽ bằng 1.5 lần giá trị σ của ảnh tỉ
lệ đang xét. Trong biểu đồ, cột có giá trị lớn nhất sẽ được xác định. Sau đó các
cột có độ lớn lớn hơn 80% của cột đang xét sẽ được xác định theo. Với mỗi cột
thỏa mãn điều kiện trên, một điểm đặc trưng sẽ được tạo ra với hướng tương ứng
với giá trị góc mà cột đó biểu diễn. Cơ chế hoạt động của thuật toán được mô tả
trong hình dưới đây. Trong bước này, một điểm đặc trưng đang xét, ta có thể xác
định được nhiều điểm đặc trưng với các hướng khác nhau. Điều này giúp các
điểm đặc trưng bất biến với sự thay đổi việc hình ảnh bị xoay. Hình 3.9 sẽ ví dụ
kết quả hoạt động của bước này. Trong đó a) Hình ảnh gốc có kích thước
233x189, b) 832 điểm ứng viên được gắn hướng, c) 729 điểm còn lại sau khi lọc
các điểm có độ tương phản thấp, d) 536 điểm còn lại sau khi lọc các điểm gần
cạnh.
28
Hình 2.9 Minh họa bước lọc và gắn hướng cho điểm đặc trưng (nguồn [5]).
c) Mô tả điểm đặc trưng
Trong các bước trên, ta đã tìm và tính toán các điểm đặc trưng cho hình
ảnh. Trong bước tiếp theo, chúng ta sé tính toán mô tả có các khu vực đặc trưng
bất biến tốt nhất có thể với sự thay đổi của hình ảnh. Một các đơn giản là lấy
mẫu cường độ các điểm xung quanh của các điểm đặc trưng đã tìm được. Tuy
nhiên phương pháp này có hạn chế là sự thay đổi của hình ảnh có thể gây sai
lệch. Một cách tiếp cận tốt hơn đã được Edelman, Intrator và Poggio (1997) đưa
ra và chứng minh. Họ dựa trên cách thị giác của con người hoạt động. Trong đó,
các tế bào thần kinh trên võng mạc con người sẽ chỉ phản ứng ánh sáng ở một vị
trí và hướng cụ thể. Sau đó các tín hiệu này sẽ được chuyển về các nơ-ron phía
sau để xử lý mà không cần phải xác định vị trí cụ thể của ánh sáng đó. Qua đó,
chúng ta tiếp thu được hình ảnh bằng cách khớp lại các tín hiệu ở nhiều vị trí
khác nhau của vật thể. Áp dụng cách tổng hợp này, thuật toán SIFT sẽ mô tả đặc
trưng của hình ảnh thông qua thuật toán được mô tả trong Hình 2.10:
29
Hình 2.10 Mô tả điểm đặc trưng (nguồn [5]).
Một bộ mô tả điểm chính được tạo bằng cách tính toán độ lớn và hướng
của độ dốc tại 16x16 điểm mẫu hình ảnh trong một khu vực xung quanh vị trí
điểm chính. Trong 16x16 điểm được chia thành 4 khu vực con 8x8 điểm. Mỗi
khu vực đó được nhân với trọng số Gaussian (như đề cập trong phần trước) mô
tả bằng hình tròn. Mỗi khu vực con 8x8 được biểu diễn lại bằng 1 ma trận 2x2
như trong hình phía dưới bên phải. Trong đó, mỗi ô sẽ biểu diễn một khu vực
con 4x4 trong khu vực con 8x8. Độ lớn các mũi trên trong ô đó tương ứng với
tổng giá trị của các hướng tương tự trong ma trận con 4x4 mà nó biểu diễn.
Thông thường, số lượng mũi tên được biểu diễn trong mỗi ô sẽ là 8. Tổng cộng
lại, ta sẽ có 1 vector 4x2x2x8=128 chiều biểu diễn cho mỗi đặc trưng.
30
Thuật toán SURF
Trong chương trước, chúng tôi đã giới thiệu về thuật toán SIFT để phát
hiện và mô tả các điểm đặc trưng của hình ảnh. Tuy nhiên, nhược điểm dễ thấy
nhất của SIFT là tương đối chậm và cần được cải thiện. Năm 2006, ba người nhà
khoa học Herbert Bay, Tinne Tuytelaars, Luc Van Gool đã giới thiệu một
phương pháp mới SURF – “Speeded Up Robust Feature” [8]. Đây là một thuật
toán được cải thiện từ SIFT để cho thời gian thực thi chỉ bằng khoảng một phần
ba so với SIFT. Điểm khác biệt nhất của SURF so với SIFT bao gồm việc tìm
kiếm điểm ứng viên, định hướng và mô tả điểm đặc trưng. SURF được ứng dụng
trong các linh vực tương tự SIFT.
a) Tìm các điểm ứng viên
Đầu tiên, thuật toán SURF sử dụng một khái niệm mới gọi là máy dò
nhanh Hessian (Fast-Hessian Detector). Thuật toán sẽ đựa trên ma trận Hessian
để tìm kiếm các điểm đặc trưng. Trong SIFT, các phép tính toán sự khác biệt
được dùng để tìm các điểm đặc trưng và ma trận Hessian được dùng để biểu
diễn các điểm đặc trưng và lọc các điểm có độ tương phản thấp. Thay vì vậy,
trong SURF, ma trận Hessian được sử dụng cho cả hai nhiệm vụ trên. Với một
điểm ảnh X = (x, y) trong ảnh I, ma trận Hessian của ( ) tại tỉ lệ σ được
định nghĩa là:
( ) [ ( ) ( )
( ) ( )] (2.12)
Trong đó, Trong đó, là đạo hàm bậc hai của L theo x, là đạo hàm
của đạo hàm của L theo x theo y và tương tự với hai giá trị còn lại. L là công
thức của hàm không gian tỷ lệ Gaussian như đã giới thiệu trong SIFT. Hàm
Gaussian được tối ưu để phân tích không gian tỉ lệ. Tuy nhiên, trong thực tế, các
giá trị thu được từ hàm Gaussian không phải luôn có ý nghĩa và cần lọc bỏ bớt.
Vì vậy, thay vì dùng các bộ lọc Gaussian, SURF sử dụng một bộ lọc mới có tên
gọi là bộ lọc hộp (“Box Filter”).
Hình 2.11 Minh họa phương pháp xấp xỉ của bộ lọc hộp (nguồn [8]).
31
Hai hình bên trái thể hiện hình ảnh được tính từ hàm Gaussian, và 2 hình
bên trái là kết quả thu được từ bộ lọc hộp 9x9. Các ô màu xám sẽ có giá trị 0
Hình 2.11 là kết quả khi áp dụng bộ lọc hộp để xấp xỉ đạo hàm bậc 2 của
Gaussian với σ = 1.2 biểu diễn cho tỉ lệ không gian cao nhất trong SURF (trong
SIFT là 1.6). Sau khi xấp xỉ, các giá trị kết quả được giữ đơn giản để thuận lợi
hơn trong quá trình tính toán. Để cân bằng định thức của ma trận Hessian, trong
số cần được thêm vào trong quá trình tính. Cụ thể công thức sẽ như sau:
| ( )| | ( )|
| ( )| | ( )| (2.13)
( ) ( )
Trong đó, | | là chuẩn Frobenius của A và D chính là hàm DoG tương
tự trong SIFT. Các ảnh được xét theo mô hình kim tự tháp tương tự như trong
SIFT. Tuy nhiên, trong SIFT, các tỉ lệ thấp hơn của hình ảnh phải được tính toán
từ ảnh tỉ lệ trước đó của ảnh. Thay vì vậy, thuật toán SURF có thể áp dụng bộ
lọc có kích thước bất kì và tính toán chính xác trên ảnh gốc. Do đó, không gian
tỉ lệ được phân tích nhờ việc tăng kích thước bộ lọc thay vì giảm tỉ lệ hình ảnh
bằng cách tăng giá trị σ qua mỗi đoạn như trong SIFT. Trong ví dụ bên trên, bộ
lọc 9x9 được áp dụng cho lớp tỉ lệ ban đầu mà trong SURF gọi là thang đo s =
1.2 (tương ướng với hàm Gaussian sử dụng σ = 1.2). Để phân tích các ảnh có tỉ
lệ thấp hơn, các bộ lọc có thể sử dụng sẽ là 9×9, 15×15, 21×21, 27×27… Thực
tế, các bộ lọc cũng liên tiếp cũng nên chia tỉ lệ tương ứng.Việc tỷ lệ các bộ lọc
được giữ nguyên nên giá trị của chuẩn Frobenius trong công thức bên trên cũng
không thay đổi. Ví dụ bộ lọc 9x9 tương ứng với thang đo s= 1.2, bộ lọc 27x27 sẽ
tương ứng với thang đo s = 3*1.2=3.6. Để tìm kiếm các điểm ứng viên, phương
pháp xét cực trị với 3x3x3 các điểm xung quanh như trong SIFT được áp dụng.
b) Định hướng
SURF sử dụng phản ứng con sóng (Haar-wavelet) theo chiều x và y cho
các điểm trong một hình tròn bán kính bằng 6*s quanh điểm đặc trưng. Các giá
trị này cũng được nhân trọng số với hàm Gaussian σ = 2.5s). Phản ứng con sóng
được tính theo minh dọa Hình 2.12 dưới đây:
32
Hình 2.12 Ví dụ về phản ứng con sóng.
Khác với SIFT, SURF không biểu diễn các điểm xung quanh thành biểu
đồ sử dụng hình tròn (tương ứng với các điểm lấy mẫu) để biểu diễn. Giá trị mỗi
hướng sẽ là tổng các giá trị thu được được từ phản ứng con sóng. Hướng ưu thế
sẽ là hướng có tổng các giá trị trên biểu đồ trong một góc ±15 lớn nhất (ví dụ
trong hình dưới đây):
Hình 2.13 Ví dụ về biểu đồ hướng trong SURF (nguồn [10]).
c) Mô tả điểm đặc trưng
Để mô tả đặc trưng, bước đầu tiên bao gồm xây dựng một vùng hình
vuông xoay quanh điểm ứng viên và được định hướng dọc theo hướng được
chọn trong phần trước. Kích thước cụ thể được sử dụng là 20s. Hình dưới minh
họa các vùng đặc trưng cần xét.
33
Hình 2.14 Minh họa các vùng đặc trưng (nguồn [8]).
Từ một khu vưc 20sx20s ban đầu sẽ được chia làm 4x4 các vùng nhỏ.
Trong mỗi vùng nhỏ này, phản ứng sóng ngang và dọc sẽ được tính và gọi là dx
và dy. Hướng ngang và dọc sẽ được xác định dựa theo hướng của điểm đặc
trưng đang xét. Để tăng độ bất biến đối với biến dạng hình học và lỗi cục bộ, các
đáp ứng dx và dy được đặt trọng số với một hàm Gaussian (σ = 3,3s) tính từ vị
trí điểm đặc trưng đang xét. Sau đó, các phản ứng sóng này được tổng hợp qua
từng tiểu vùng và tập hợp lại thành vec tơ đặc trưng biểu diễn cho điểm đặc
trưng. Để biểu diễn sự thay đổi của cường độ, giá trị tuyệt đối của dx và dy cũng
được sử dụng. Do đó, mỗi tiểu vùng có vectơ mô tả bốn chiều v cho cấu trúc
cường độ cơ bản v = (dx, dy, | dx |, | dy |). Điều này dẫn đến một vectơ mô tả
cho tất cả các 4 × 4 vùng con có độ dài 64. Ngoài phiên bản cho vector đặc
trưng dài 64, SURF có một phiên bản cho vector đặc trưng dài 128. Trong đó
các giá trị dx và dy vẫn được sử dụng như cũ nhưng các giá trị này được tính
chia ra theo điều kiện. Trong đó, dx và |dx| được chia ra theo điều kiện dy < 0
hoặc dy >= 0 và dy và |dy| được chia ra theo điều kiện dx < 0 hoặc dx >= 0.
Hình 2.15 Ví dụ giá trị của các thuộc tính trong SURF trong mỗi trường hợp ảnh
(nguồn [8]).
34
2.1.2 Thuật toán Local Binary Patterns
LBP là thuật toán trích xuất đặc trưng kết cấu trên ảnh xám được đề xuất
bởi Ojala và các cộng sự. LBP được sử dụng rộng rãi trong xử lý hình ảnh - đặc
biệt là trong nhận dạng khuôn mặt [17]. Ban đầu, LBP được tính toán bằng cách
tại mỗi điểm của hình ảnh, ta xét 8 điểm xung quanh điểm đang xét. Lấy giá trị
của điểm đang xét là ngưỡng giá trị. Các điểm xung quanh có giá trị nhỏ hơn
ngưỡng sẽ được đánh dấu là 1 và nếu nhỏ hơn ngưỡng sẽ được đánh dấu là 0.
Sau đó, các giá trị sau khi tính ngưỡng (0 hoặc 1) sẽ được nhân với ma trận
trọng số và được sử dụng để tính giá trị LBP của điểm trung tâm đang xét.
Phương pháp hoạt động của LBP được mô tả trong hình 2.16.
Hình 2.16 Minh họa các hoạt động của thuật toán LBP đầu tiên (nguồn [15]).
Tuy nhiên, phương pháp này sẽ khiến các đặc trưng của LBP không quá
ổn định và biểu diễn được các đặc trưng quá lớn. Vì vậy Ojala đưa ra một
phương pháp để cải tiến thuật toán này. Theo đó, trong một hình ảnh xám, các
điểm lân cận không được lấy mẫu theo 8 điểm xung quanh mà sẽ là một tập hợp
các điểm thuộc đường tròn với điểm đang xét là tâm. Gọi (P, R) là một vùng lân
cận gồm P điểm trên một đường tròn có bán kính R. T là đặc điểm kết cấu của
vùng lân cận, T được kí hiệu là:
( ) (2.14)
Trong đó, và ( ) là giá trị trên ảnh xám của điểm trung
tâm và các điểm trên đường tròn bán kính R. Các lấy điểm mẫu được ví dụ trong
hình sau:
35
Hình 2.17 Mô tả cách lấy mẫu tron LBP cải thiện (nguồn [15]).
Khi tăng bán kính lấy mẫu, mối tương quan giữa các điểm ảnh giảm dần.
Hầu hết thông tin về kết cấu thì cần lấy trong các bán kính nhỏ (thường là một
hoặc 2). Để tính toán thông tin, giá trị của các điểm ảnh lấy mẫu sẽ trừ đi giá trị
của điểm ảnh trung tâm, khi đó:
( ) (2.15)
Do giá trị gốc của điểm ảnh gốc chỉ thể hiện cường độ sáng tại điểm đó và
không liên quan nhiều đến kết cấu, ta có thể viết công thức trên thành:
( ) (2.16)
Công thức trên vẫn sẽ bị ảnh hưởng khi giá trị của các điểm ảnh trong
công thức tăng hoặc cùng giảm. Vì vậy, để làm cho định nghĩa kết cấu không bị
thay đổi, ta chuẩn hóa các giá trị của công thức trên như sau:
( ( ) ( )) (2.17)
( ) {
Sau đó, giá trị biểu diễn kết cấu cục bộ xung quanh điểm đang xét sẽ được
tính toán như sau:
∑ ( )
(2.18)
Đến đây, công thức vẫn tương tự như phần đầu. Nhưng có một vấn đề là
nếu số điểm lân cận được xét quá lớn, giá trị đặc trưng cho kết cấu sẽ tăng quá
cao. Điều này gây cản trở cho việc khai thác và phân loại kết cấu. Để giải quyết
vấn đề này, Ojala đã giới thiệu mẫu đồng phục – “Uniform patterns”. Theo đó,
xét một dãy nhị phân (chỉ có 0 và 1), nếu dãy có ít hơn hoặc bằng hai thay đổi
thì được gọi là mẫu đồng phục. Ví dụ: 00000000 (không thay đổi), 00111000
(hai thay đổi) là mẫu đồng phục và 01001100 (4 thay đổi), 01010101 (7 thay
36
đổi) không phải mẫu đồng phục. Để kiểm tra một mẫu kết cấu có phải là mẫu
đồng phục hay không, công thức sau được áp dụng:
( ) | ( ) ( )| ∑ | ( ) (
)| (2.19)
Khi U nhỏ hơn hoặc bằng 2, mẫu kết cấu được gọi là mẫu đồng phục. Các
mẫu còn lại sẽ được gọi là mẫu lai và có chung giá trị. Do đó, giá trị của biểu
diễn mẫu sẽ được giảm đi đáng kể. Ví dụ: với 8 điểm lân cận, giá trị biểu diễn
mẫu được giảm xuống từ 256 xuống 58. Sau đây là công thức tính mẫu đồng
phục:
{
∑ ( ) ( )
(2.20)
Ngoài ra, để đạt được bất biến khi ảnh bị xoay, một hàm bất biến xoay
của LBP được định nghĩa như sau:
( (
) ) (2.21)
Trong đó, ROR là hàm quay. Hàm này sẽ thay đổi chuỗi nhị phân thu
được từ các điểm mẫu lần lượt. Sau khi tính toán hết giá trị LBP cho mỗi chuỗi,
giá trị nhỏ nhất sẽ được chọn để biểu diễn mẫu kết cấu đó. Hình dưới mô tả một
hình ảnh qua xử lý bằng LBP
Hình 2. 18 Minh họa kết quả thu được qua thuật toán LBP
2.2 Nghiên cứu phƣơng pháp, thuật toán phân lớp tàu
thuyền.
Thuật toán SVM là một thuật toán học máy huấn theo có giám sát. Thuật
toán SVM ban đầu được tìm ra bởi Vladimir N. Vapnik và dạng chuẩn hiện nay
sử dụng lề mềm được tìm ra bởi Vapnik và Corinna Cortes năm 1995. Khác với
K-means, dữ liệu trước khi đưa vào SVM phải được gắn nhãn. Nhiệm vụ của
SVM sẽ là phân chia tập dữ liệu dựa theo các nhãn đó. SVM có thể được sử
dụng trong bài toán phân loại hoặc đệ quy [11].
37
Bài toán của SVM đặt ra như sau, cho một tập dữ liệu được biểu diễn
trong một không gian nhiều chiều. Giả sử tập dữ liệu là khả tách tuyến tính. Hãy
tìm ra siêu phẳng có thể chia tập dữ liệu ra làm hai phần (phân loại nhị phân) và
thỏa mãn điều kiện khoảng cách từ điểm gần nhất của mỗi tập đến siêu phẳng đó
là lớn nhất. Gọi tập dữ liệu huấn luyện là ( ), ( ), …, ( ) với x là
dữ liệu và y là nhãn của dữ liệu tương ứng. Giả sử y chỉ nhận giá trị 1 hoặc -1
(bài toán phân loại nhị phân) và dữ liệu có thể biểu diễn trên một không gian hai
chiều. Ta có thể hình dung dữ liệu huấn luyện như sau:
Hình 2.19 Ví dụ dữ liệu trong SVM (nguồn [11]).
Trong hình, các điểm màu xanh và đỏ biểu diễn 2 class 1 và -1. Đường
thẳng x + b = + + b = 0 là đường thẳng ta cần tìm để phân tách
hai tập dữ liệu. Với 1 điểm dữ liệu ( , ) bất kỳ, ta có khoảng cách từ điểm đó
đến đường thẳng phân tách là:
( )
‖ ‖ (2.22)
Khi này, lề – “margin” được định định nghĩa là khoảng cách của điểm gần
nhất đến đường thẳng. Ta có công thức tính lề như sau:
(
)
‖ ‖ (2.23)
Nhiệm vụ của bài toán SVM là tìm w và b để giá trị của lề là lớn nhất, ta
có mô tả toán học của SVM như sau:
38
( ) { (
)
‖ ‖ } {
‖ ‖ (
)}
(2.24)
Ta có thể giả sử:
( ) (2.25)
Trong đó dấu bằng xảy ra tại các điểm gần đường thẳng nhất. Bài toán tối
ưu của SVM có thể được mô tả như sau:
( )
‖ ‖
( ) (2.26)
Mục tiêu của bài toán là dạng chuẩn 2 của w nên là một hàm lồi. Các hàm
bất đẳng thức ràng buộc là hàm tuyến tính của w và b nên cũng là một hàm lồi.
Đây là một bài toán lồi. Đây là một dạng bài toán được gọi là Quadratic
Programming. Bài toán này theo lý thuyết sẽ có nghiệm duy nhất và có thể giải
được bằng một số thư viện hỗ trợ giải bài toán Quadratic Programming. Tuy
nhiên việc giải theo cách này trở nên khó khăn và phức tạp nếu số lượng và số
chiều dữ liệu tăng lên. Thay vào đó, bài toán này hay được giải theo phương
pháp giải bài toán đối ngẫu của nó. Sau khi giải được bài toán, ta có thể xác định
nhãn cho các điểm dữ liệu mới bằng công thức sau:
( ) ( ) (2.27)
Trong đó hàm sgn là hàm xác định dấu, nhận giá trị 1 nếu đối số là không
âm và -1 nếu ngược lại.
Hiểu một cách đơn giản, thuật toán SVM có mục đích tìm một mô hình có
thể phân chia tập dữ liệu ra các miền sao cho dữ liệu trong các miền đó cùng
một nhãn nhiều nhất có thể. Tuy nhiên nếu chỉ có điều kiện trên thì có thể có rất
nhiều mô hình thỏa mãn và trong số đó có rất nhiều mô hình không phải là tốt
nhất. SVM thêm một điều kiện là “khoảng cách” từ điểm gần nhất đến mô hình
là lớn nhất có thể. Khoảng cách này chính là lề. Lề càng lớn thì mô hình sẽ càng
phân tách dữ liệu và dự đoán các dữ liệu chưa xuất hiện tốt hơn. Hay nói một
cách khác, lề chính là thể hiện của việc mô hình có thể dự đoán các loại dữ liệu
một cách “công bằng” và chịu nhiễu tốt hay không.
39
Hình 2.20 So sánh các mô hình.
Ta có thể thấy, đường mô hình trong hình bên phải (lề lớn) tốt hơn rất
nhiều so với đường mô hình trong hình bên trái (lề nhỏ). Trong hình biên trái,
đường mô hình bị lệch rất nhiều về bên xanh kiến cho các điểm màu xanh không
xuất hiện trong huấn luyện dễ bị nhận nhầm sang màu đỏ hơn. Với hình bên
phải, đường mô hình nằm chính giữa hai tập dữ liệu. Đây là lề lớn nhất có thể
đạt được và cũng là đường mô hình tốt nhất để phân chia hai tập dữ liệu. Trong
huấn luyện, SVM định nghĩa một siêu tham số gọi là C. Tham số này đại diện
cho việc huấn luyện ưu tiên mô hình sẽ phân loại chính xác các điểm dữ liệu hay
ưu tiên tìm được mô hình có lề lớn nhất có thể hơn. Ban đầu, thuật toán SVM
được xác định bằng lề cứng, tức là bắt buộc toàn bộ dữ liệu phải được chia chính
xác. Tuy nhiên trong thực tế, rất ít khi tồn tại một bộ dữ liệu có thể thõa mãn
điều kiện này. Từ đó khái niệm SVM lề mềm được đưa ra. Theo đó, thuật toán
SVM sẽ cho phép chấp nhận một số điểm không được chia chính xác tuyệt đối.
Điều này giúp thuật toán có thể áp dụng với các bài toán trong thực tế. Và khi
này, tham số C sẽ rất có ý nghĩa trong việc điều kiển việc huấn luyện ưu tiên
điều kiện phân loại đúng các điểm dữ liệu hay ưu tiên khả năng chịu nhiễu và dự
đoán các dữ liệu chưa xuất hiện.
Hình 2.21 Ví dụ kết quả thuật toán SVM (hình bên trái là lề cứng và hình bên
phải là lề mềm).
Trong các ví dụ trên, mô hình được nhắc đến đều là một đường thẳng.
Tuy nhiên trong thực tế, mặt phẳng phân tách dữ liệu không đơn giản là đường
40
thẳng mà có thể là các phương trình phức tạp hơn (ví dụ đường cong, hình
tròn…). Đây là một siêu tham số cần lựa chọn khi huấn luyện mô hình và được
gọi là lõi (“kernel”). Mỗi loại lõi có thể cho kết quả tốt nhất với từng trường hợp
dữ liệu cụ thể.
Hình 2.22 Một số ví dụ về lõi của SVM.
Thuật toán SVM không chỉ thực hiện được nhiệm vụ phân loại nhị phân
(hai loại nhãn). Trong thực tế, SVM được sử dụng để xử lý bài toán có rất nhiều
nhãn. Có hai chiến lược giúp SVM làm được điều này. Chiến lược đầu tiên là
một đấu một. SVM sẽ xây dựng nhiều mô hình để phân loại cho từng cặp nhãn
cần xem xét. Sau đó, để dự đoán nhãn cho một dữ liệu mới. Các mô hình này sẽ
cùng bỏ phiếu và chọn ra nhãn thích hợp nhất. Chiến lược tiếp theo là một đấu
tất cả phần còn lại. Tương tự như chiến lược trước, SVM cũng xây dựng nhiều
mô hình nhưng theo thứ tự. Đầu tiên, một mô hình sẽ phân loại một loại nhãn
với tất cả các nhãn còn lại. Tiếp tục, nhãn đã được phân loại sẽ được đưa ra
ngoài và một mô hình sẽ phân loại một nhãn tiếp theo với số nhãn còn lại. Lặp
lại việc huấn luyện như vậy đến nhãn cuối cùng và tất cả các nhãn sẽ được phân
loại. Điểm chung của cả hai chiến lược trên là sẽ đưa bài toán phân loại nhiều
nhãn về các bài toán phân loại nhị phân nhỏ hơn và dùng SVM để xử lý.
41
Chƣơng 3: Ứng dụng phân lớp tàu thuyền ở cảng
biển Việt Nam trên ảnh viễn thám
3.1 Phƣơng pháp đề xuất
Hiện nay, có rất nhiều phương pháp để giải quyết bài toán phân lớp hình
ảnh như: K người láng giềng gần nhất, cây quyết định, máy hỗ trợ vector
(SVM)…Tuy nhiên, dựa trên kết quả thực nghiệm …đã cho thấy sử dụng
phương pháp SVM vào bài toán phân lớp hình ảnh cho kết quả rất khả quan.
Phần tiếp theo luận văn sẽ áp dụng mô hình SVM cho bài toán phân lớp tàu
thuyền trên ảnh vệ tinh. Các bước trong quá trình phân lớp tàu thuyền được thực
hiện như sau:
Hình 3. 1 Sơ đồ quá trình phân lớp tàu thuyền
Theo đó, từ một bộ dữ liệu ảnh ban đầu, ta sẽ thu được 5 bộ dữ liệu mới
(tương ứng với các cách trích xuất đặc trưng khác nhau). Kí hiệu của các bộ dữ
liệu sẽ được đánh dấu như sau:
- Dataset 1: Đặc trưng thu được bằng mô hình BOF và thuật toán SIFT.
- Dataset 2: Đặc trưng thu được bằng mô hình BOF và thuật toán SIFT kết
hợp với đặc trưng thu được từ thuật toán LBP.
- Dataset 3: Đặc trưng thu được từ thuật toán LBP.
42
- Dataset 4: Đặc trưng thu được bằng mô hình BOF và thuật toán SUFT
kết hợp với đặc trưng thu được từ thuật toán LBP.
- Dataset 5: Dữ liệu thu được bằng mô hình BOF và thuật toán SUFT.
3.1.1 Bộ cơ sở dữ liệu đầu vào
Trước khi dữ liệu được đưa vào huấn luyện các dữ liệu ảnh viễn thám về
tàu thuyền được tiến hành xử lý sơ bộ theo một quy trình cụ thể nhằm tăng
cường chất lượng, độ chính xác cho dữ liệu đầu vào. Các bước tiến hành cụ thể
như sau.
a) Thu thập dữ liệu đầu vào
Chuẩn bị dữ liệu cho quá trình huấn luyện: lựa chọn tập hợp các ảnh chụp
tàu thuyền thích hợp; một ảnh đạt yêu cầu là ảnh có chứa tàu xác định và không
bị ảnh hưởng bởi mây trắng hoặc một màu nền đồng nhất làm nổi bật tàu.
Hình 3. 2 Dữ liệu ảnh viễn thám khu vực tập trung nhiều tàu thuyền
b) Tiền xử lý dữ liệu
Vì ảnh đầu vào (dữ liệu nhận dạng/ phân lớp) có thể là ảnh chứa tàu
thuyền hợp lệ, có thể là ảnh không phải là tàu thuyền, ảnh có chứa nhiễu (ánh
sáng, màu nền không thích hợp…) nên dữ liệu này có thể được tiến hành tiền xử
lý trước khi nhận dạng.
Lọc ảnh là thao tác với các đối tượng không gian ảnh. Phép lọc ảnh là tác
động lên ảnh số gốc ở dạng ma trận raster bằng một thuật toán nhằm thay đổi giá
trị số của các đơn vị ảnh theo chiều hướng có lợi trong quá trình giải đoán ảnh.
43
Thông thường giá trị số của một pixel ảnh được nhân với một hàm số xác định
chứa đựng các biến vào là các giá trị số của các pixel ảnh xung quanh nó theo
một cửa sổ động nào đó có thể là 3x3, 5x5, 7x7.
Trong thực tế có một số toán tử lọc được xác định trước với mục đích tạo
ra một số hiệu ứng như tăng cường đường biên, làm sắc nét, làm mịn
ảnh....Trong một số phần mềm các toán tử này được chia thành hai nhóm. Nhóm
thứ nhất được lập trình theo các bộ lọc tổng quát sử dụng giá trị trung vị hoặc
trung bình cộng với lựa chọn lọc tần số thấp hay cao. Nhóm thứ hai là làm việc
với các toán tử lọc đặc biệt như Sobel, Laplacian, smoothing....
c) Tạo tập mẫu
Sau quá trình tiền xử lý dữ liệu, chúng tôi tiến hành gán nhãn dữ liệu tàu
thuyền theo quy trình được trình bày trong mục 1.3. Từ ảnh ban đầu, ảnh tàu
thuyền được cắt thành từng ảnh nhỏ chứa trong các thư mục được gán nhãn
tương ứng.
3.1.2 Trích chọn đặc trƣng
Để thực hiện quá trình phân lớp, bước trích chọn đặc trưng ảnh có vai trò
rất quan trọng. Đặc trưng ảnh ở đây chính là đặc trưng nội dung ảnh, là phân
tích nội dung thực sự của các bức ảnh. Nội dung ảnh được thể hiện bằng màu
sắc, hình dạng, kết cấu (texture), các đặc trưng cục bộ (local features)… hay bất
cứ thông tin nào có từ chính nội dung ảnh. Trong bài luận văn này sử dụng
phương pháp trích chọn đặc trưng Bag of Feature (BOF), LPB và phương pháp
trích chọn đặc trưng kết hợp BOF&LPB đã được trình bày trong nội dung 2.1.
Đối với trích chọn đặc trưng theo mô hình BoF: bao gồm ba bước bao
gồm trích xuất đặc trưng thô, xây dựng từ điển và trích xuất đặc trưng được mô
tả như sau:
- Trích xuất đặc trưng thô: Chúng tôi sử dụng bộ phát hiện Gaussian
(DoG) để phát hiện cố định một số điểm N từ mỗi hình ảnh. Các điểm
được phát hiện sau đó được mô tả bằng cách sử dụng bộ mô tả SIFT,
SURF [19] [7].
- Xây dựng từ điển: tất cả các bộ mô tả SIFT, SURF của các điểm được
trích xuất từ tập huấn luyện được phân cụm thành mã từ mã hóa sử dụng
phương pháp K láng giềng gần nhất để hình thành từ điển từ vựng trực
quan có kích thước M. Đối với thử nghiệm của chúng tôi, kích thước từ
44
vựng M và số điểm quan tâm N được đặt theo kinh nghiệm là M = 250, và
N = 250.
- Trích xuất đặc trƣng: hình ảnh được biểu thị bằng biểu đồ tần suất xuất
hiện của các từ vựng trực quan được xây dựng trong bước 2. Các véc tơ
đặc trưng thu được từ quá trình phân cụm và tính toán được chuẩn hóa lại
để các cột có cùng khoảng giá trị từ -1 đến 1.
Hình 3. 3 Đặc trưng trên ảnh bằng thuật toán SIFT và SURF. Từ trái sang lần
lượt là ảnh gốc, đặc trưng tìm được từ SIFT và đặc trưng tìm được từ SURF.
Đối với thuật toán trích chọn đặc trưng LPB: Thuật toán được sử dụng để
trích xuất đặc trưng, các mô hình sử dụng và các huấn luyện đã được trình bày
trong mục 2.1.2. Phiên bản thuật tuán LBP được chúng tôi sử dụng trong luận
văn này được cài đặt trong thư viện skimage phiên bản 0.16.2.
Hình 3. 4 Đặc trưng trên ảnh bằng thuật toán LBP. Từ trái sang lần lượt là ảnh
gốc và ảnh qua xử lý bằng thuật toán LBP trước khi tính histogram.
3.1.3 Chọn thuật toán huấn luyện và phân lớp dữ liệu
Sau khi hoàn thành giai đoạn trích chọn đặc trưng ảnh, tiếp theo là chọn
thuật toán huấn luyện và phân lớp dữ liệu ảnh. Trong phần cài đặt thực nghiệm,
chúng tôi lựa chọn thuật toán huấn luyện nhận dạng dữ liệu SVM kết hợp với
từng phương pháp trích chọn đặc trưng nêu trên.
a) Nhận dạng tàu với mô hình BoF
45
Như đã trình bày trong phần lý thuyết, BoF là một mô hình thích hợp cho
việc phân loại hình ảnh. Ngoài ra, hai đặc trưng SIFT và SURF được chọn để
làm bước trích xuất đặc trưng từ ảnh. Hai đặc trưng này rất phù hợp với đặc
trưng bộ ảnh dữ liệu của luận văn. Lý do là vì ảnh tàu thường có góc xoay đa
dạng, tỉ lệ tàu khác nhau và đặc trưng thu được từ SIFT và SURF lại không bị
ảnh hưởng bởi hai giá trị này. Các đặc trưng được tính toán từ SIFT và SURF sẽ
được phân cụm bằng thuật toán K-means. Sau đó dựa vào kết quả phân cụm,
mỗi hình ảnh sẽ được biểu diễn bằng một véc tơ đặc trưng
Các véc tơ đặc trưng thu được từ quá trình phân cụm và tính toán được
chuẩn hóa lại để các cột có cùng khoảng giá trị. Sau đó các đặc trưng sẽ được
đưa vào huấn luyện trong thuật toán SVM. Quá trình huấn luyện thuật toán
SVM sửa dụng phương pháp Gridsearchcv được hỗ trợ bởi thư việc Scikit-learn
để tìm được tham số thích hợp nhất cho SVM. Đây là phương pháp thực hiện
xác thực chéo trên tập huấn luyện để tìm tham số thích hợp nhất cho mô hình
(trong tập tham số được đưa vào). Sau đó các tham số này được chọn và mô
hình được huấn luyện lại trên tập dữ liệu huấn luyện.
Hai mô hình được sử dụng trong phương pháp này là K-means và SVM.
Các tham số cần quan tâm và giá trị tốt nhất cho các tham số như sau (các giá trị
này thu được bằng phương pháp Grid Search CV):
- K-means:
+ n_clusters = 250. Số lượng cụm để biểu diễn các đặc trưng thu được từ
thuật toán SIFT và SURF.
- SVM:
+ C = . Trọng số của lỗi phân loại trong huấn luyện.
+ gamma = . Mức độ ảnh hưởng của mỗi mẫu lên việc điều chỉnh mô
hình.
+ kernel = . Loại lõi (hay nhân) của mô hình.
b) Nhận dạng tàu với LBP và thuật toán SVM
Khác với SIFT và SURF, LBP trích xuất ra đặc trưng từ ảnh xám. Đặc
trưng của LBP được biểu diễn trên toàn bộ ảnh chứ không phải từng vị trí như
SIFT và SURF. Chính vì vậy LBP không thích hợp để sử dụng trong mô hình
BoF. Cách sử dụng đặc trưng của LBP là từ ảnh kết quả thu được từ LBP, chúng
tôi sẽ tính histogram trực tiếp trên ảnh. Điều này tương tự như việc hình ảnh
được biểu diễn bằng biểu đồ các đặc trưng trong mô hình BoF.
46
Véc tơ đặc trưng thu được từ việc tính histogram trên ảnh cũng sẽ được
chuẩn hóa để các cột có cùng khoảng giá trị từ -1 đến 1. Sau đó, các dữ liệu này
cũng được đưa vào thuật toán SVM để huấn luyện. Quá trình huấn luyện cũng
được áp dụng các phương pháp tương tự như trong cách trước.
c) Nhận dạng tàu với đặc trưng kết hợp (của BoF và LBP) và thuật toán
SVM
Đây là phương pháp sử dụng kết hợp cả mô hình BoF và LBP. Phương
pháp này thực hiện theo các bước sau:
Bước 1: Tính toán các đặc trưng từ ảnh như trong mô hình BoF và thu
được véc tơ đặc trưng từ mô hình K-means.
Bước 2: Tính toán các đặc trưng từ ảnh bằng thuật toán LBP và thu được
véc tơ đặc trưng.
Bước 3: Ghép hai véc tơ đặc trưng thu được từ bước 1 và bước 2.
Bước 4: Sử dụng các véc tơ đặc trưng thu được từ bước 3 để huấn luyện
mô hình SVM. Các bước huấn luyện tương tự đã trình bày trong hai phương
pháp trên.
Điều kiện đặc trưng của hai phương pháp có thể kết hợp là chúng có cùng
đặc điểm (đều là các số nguyên). Việc kết hợp này nhằm hi vọng có thể thu
được đặc trưng vừa biểu diễn được ảnh tàu trong các điều kiện xoay và kích
thước khác nhau đồng thời biểu diễn được đặc trưng tương phản của hình ảnh.
3.2 Kết quả và thảo luận
3.2.1 Bộ cơ sở dữ liệu
Luận văn sử dụng 102 cảnh ảnh Planet khác nhau thuộc 02 khu vực là
cảng biển Vũng Tàu và Hải Phòng.
Hình 3. 5 Hình ảnh đánh dấu vùng biển trên bản đồ
47
Sau đó, các ảnh tàu thuyền được đánh nhãn bằng phần mềm ENVI. Chúng
tôi đánh dấu các lớp tàu bằng các mã như sau: Tau dau, Tau cong ten no, Tau
van tai. Từ các ảnh ban đầu, ảnh tàu thuyền được cắt ra và chia vào các thư mục
con mang tên tàu tương ứng.
Hình 3. 6 Một số tàu mã tau dau.
Hình 3. 7 Một số tàu mã tau cong ten no.
Hình 3. 8 Một số tàu mã tau van tai.
Sau khi xử lý, tổng cộng số lượng bộ dữ liệu gồm 1519 mẫu tàu thuộc 03
lớp tàu khác nhau được tập hợp dùng để xây dựng máy học và kiểm chứng hiệu
quả. Trong đó có 543 mẫu tàu dầu, 470 cho mẫu tàu công ten nơ và 506 mẫu tàu
vận tải. Các mẫu tàu được thu thập từ nguồn dữ liệu ảnh viễn thám Planet có độ
phân giải không gian 3m. Bảng 2 trình bày chi tiết số liệu thống kê số mẫu tàu
thuộc mỗi lớp tàu. Tiếp theo, chúng tôi tiến hành thực hiện việc chia dữ liệu theo
tỉ lệ 7:3 thành hai tập dữ liệu. Theo đó, tập dữ liệu thứ nhất có 1095 hình ảnh tàu
thuyền thuộc 3 lớp tàu dầu, tàu vận tải, tàu công ten nơ được sử dụng làm dữ
liệu xây dựng, huấn luyện mô hình nhận dạng hay còn gọi là tập huấn luyện.
Tập còn lại có 454 mẫu tàu được sử dụng để đánh giá độ chính xác của mô hình
huấn luyện hay còn gọi là tập kiểm chứng độc lập. Chúng tôi sử dụng phương
pháp xác thực chéo để tìm được tham số tốt nhất cho mô hình SVM nên không
dùng bộ dữ liệu xác thực.
48
Bảng 3. 1 Bảng thống kê chi tiết cơ sở dữ liệu tàu thuyền
Tên loại tàu Nhãn Số lƣợng
ảnh ban
đầu
Số lƣợng
trong tập
huấn
luyện
(ảnh)
Số lƣợng
trong tập
kiểm tra
(ảnh)
Tàu Dầu Tau dau 543 410 163
Tàu Container Tau cong-ten-no 470 330 140
Tàu Vận tải Tau van tai 506 355 151
3.2.2 Kết quả phân lớp
a) Nhận dạng tàu với Mô hình BoF
Như đã trình bày trong phần a – mục 3.1.3, thuật toán BoF được sử dụng
dựa trên hai thuật toán trích chọn đặc trưng SIFT và SURF. Từ một hình ảnh,
chúng tôi thu được một tập các đặc trưng thu được bằng thuật toán SIFT hoặc
SURF. Các đặc trưng này được biểu diễn bằng các vector có độ dài 128 (như đã
trình bày trong lý thuyết của thuật toán SIFT và SURF). Các vector đặc trưng
của mỗi hình ảnh được được phân cụm trong thuật toán Kmean với số cụm là
250. Để biểu diễn đặc trưng của hình ảnh, một vector có độ dài 250 được tạo ra
với giá trị mỗi ô tương ứng với số đặc trưng (trích từ thuật toán SIFT và SURF)
của ảnh thuộc cụm tương ứng (trong thuật toán Kmean). Vector mới này chính
là đặc trưng của mỗi hình ảnh để đưa vào huấn luyện trong thuật toán SVM.
Để hình dung trực quan hơn và kiểm tra tính khả tách của dữ liệu, chúng
tôi đã dùng thuật toán TSNE của thư viện Scikit-learn để mô tả các vector đặc
trưng của hình ảnh. Thuật toán TSNE là một thuật toán cho phép tìm kiếm biểu
diễn của dữ liệu theo một không gian mới với số chiều ít hơn. Để có thể thể hiện
dữ liệu là các vector đặc trưng có độ dài 250, chúng tôi chọn số chiều là 3
(tương ứng với tọa độ không gian ba chiều) và biểu diễn chúng trên đồ thị như
hình sau.
49
Hình 3. 9 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp SIFT
50
Hình 3. 10 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp
SURF
Từ 2 biểu đồ trên, ta có thể thấy được mối tương quan giữa các chiều của
dữ liệu và phân bố của dữ liệu theo một chiều nhất định. Từ biểu đồ, ta có thể
thấy phân bố dữ liệu theo chiều thu được từ mô hình BoF khi sử dụng thuật toán
SIFT có biến động cao hơn so với khi dùng thuật toán SURF. Nhưng đồng thời
dữ liệu của SIFT lại có xu hướng co cụm lại hơn so với dữ liệu khi dùng SURF.
Với đặc điểm thứ nhất thì ta có thể dự đoán mô hình SVM huấn luyện với SIFT
có thể sẽ cho kết quả phân tách tốt hơn. Với đặc điểm thứ hai thì có thể do thuật
toán SIFT đưa ra nhiều đặc trưng gần giống nhau hơn so với thuật toán SURF.
Sau khi huấn luyện mô hình SVM và đã tìm ra tham số tốt nhất (đã được
trình bày trong mục a – 3.1.3), kết quả tốt nhất của các mô hình phân lớp thu
được bằng phương pháp này trên tập dữ liệu được trình bày trong các hình ảnh
và bảng dưới đây:
51
Hình 3. 11 Hình ảnh các lớp tàu thuyền được nhận dạng chính xác
Hình 3. 12 Hình ảnh các lớp tàu thuyền nhận dạng chưa chính xác
Bảng 3. 2 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán SIFT
Nhãn
Precision Recall F1-score
Huấn
luyện Kiểm tra
Huấn
luyện Kiểm tra
Huấn
luyện Kiểm tra
Tau dau 0.900 0.92 0.779 0.779 0.835 0.844
Tau cong
ten no 0.938 0.876 0.818 0.907 0.874 0.891
Tàu van
tai 0.729 0.776 0.921 0.88 0.814 0.825
Tổng 0.855 0.858 0.839 0.855 0.841 0.853
Bảng 3. 3 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán SURF
Nhãn
Precision Recall F1-score
Huấn
luyện Kiểm tra
Huấn
luyện Kiểm tra
Huấn
luyện Kiểm tra
Tàu dầu 0.870 0.849 0.870 0.656 0.767 0.740
Tàu công
ten nơ 0.942 0.808 0.942 0.855 0.842 0.831
Tàu vận
tải 0.610 0.671 0.610 0.820 0.728 0.738
Tổng 0.807 0.776 0.807 0.777 0.779 0.770
52
Mặc dù đã sử dụng phương pháp xác thực chéo để tìm bộ tham số tốt nhất
và tránh hiện tượng overfitting, chúng tôi vẫn thực hiện kiểm tra lại mô hình với
cả dữ liệu huấn luyện và dữ liệu kiểm tra. Phân tích kết quả thu được, chúng tôi
thấy mô hình không bị hiện tượng overfitting. Có một sự trái ngược khi mô hình
huấn luyện bằng dữ liệu từ mô hình BoF sử dụng thuật toán SIFT lại có kết quả
kiểm tra trên tập kiểm tra cao hơn và ngược lại với mô hình huấn luyện bằng dữ
liệu thu được từ mô hình BoF sử dụng thuật toán SURF. Tuy nhiên, sự chênh
lệch giữa kết quả kiểm tra trên tập huấn luyện và tập kiểm tra không chênh lệch
quá đáng kể (~ 0.003 – 0.031). Điều này có thể thể hiện thuật toán SVM đã học
dữ liệu từ mô hình BoF sử dụng thuật toán SIFT một cách phổ quát hơn (có thể
xử lý những dữ liệu chưa nhìn thấy tốt hơn) so với dữ liệu từ mô hình BoF sử
dụng thuật toán SURF.
So sánh trên bảng kết quả, chúng tôi dễ dàng có thể thấy mô hình BoF
hoạt động với thuật toán SIFT cho kết quả tốt hơn đáng kể so với khi dùng thuật
toán SURF. Mặc dù ưu điểm của thuật toán SURF là chạy nhanh hơn nhưng các
đặc trưng đưa ra từ thuật toán này có lẽ không tốt hơn so với thuật toán SIFT
(với tập dữ liệu được sử dụng trong luận văn này). Điều này có thể giải thích do
các bước xác định và lọc điểm đặc trưng (đặc biệt là các điểm có độ tương phản
thấp) của thuật toán SURF được rút gọn hơn so với thuật toán SIFT (đã được
trình bày trong phần lý thuyết). Tuy nhiên, bộ dữ liệu ảnh chúng tôi xây dựng lại
có độ phân giải khá thấp. Điều này có thể là nguyên nhân khiến đặc trưng thu
được từ thuật toán SIFT cho kết quả tốt hơn.
b) Nhận dạng tàu với đặc trưng LBP và thuật toán SVM
Phương pháp sử dụng cũng như các tham số tốt nhất đã được trình bày
trong phần b – mục 3.1.3. Phiên bản thuật tuán LBP được chúng tôi sử dụng
trong luận văn này được cài đặt trong thư viện skimage phiên bản 0.16.2. Sau
khi thu được ảnh đặc trưng bằng thuật toán LBP, chúng tôi thực hiện tính biểu
đồ giá trị điểm ảnh của ảnh đặc trưng và thu được một vector có độ dài là 18
biểu diễn đặc trưng cho mỗi ảnh. Thực hiện tương tự phần trước, chúng tôi sử
dụng thuật toán TSNE của thư viện Scikit-learn để mô tả các vector đặc trưng
của hình ảnh. Số chiều được chọn cũng là ba và thu được biểu đồ quan hệ như
hình 3.13.
53
Hình 3. 13 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng thuật toán LBP
Dựa theo biểu đồ, dữ liệu được phân bố khá rộng và có biển động lớn.
Điều này có thể dự đoán kết quả thu được sẽ tốt và có thể tốt hơn so với mô hình
BoF khi sử dụng SIFT.
Sau khi huấn luyện và thu được kết quả các tham các tham số tốt nhất cho
phương pháp (đã được trình bày trong mục b – 3.1.3), kết quả tốt nhất của mô
hình phân lớp thu được bằng phương pháp này trên tập dữ liệu được trình bày
trong các hình ảnh và bảng dưới đây.
Hình 3. 14 Hình ảnh các lớp tàu thuyền được nhận dạng chính xác
54
Hình 3. 15 Hình ảnh các lớp tàu thuyền được nhận dạng chưa chính xác
Bảng 3. 4 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán LPB
Nhãn
Precision Recall F1-score
Huấn
luyện Kiểm tra
Huấn
luyện Kiểm tra
Huấn
luyện Kiểm tra
Tàu dầu 0.642 0.711 0.78 0.816 0.708 0.760
Tàu công
ten nơ 0.704 0.752 0.679 0.864 0.691 0.804
Tàu vận
tải 0.689 0.774 0.544 0.543 0.608 0.638
Tổng 0.679 0.745 0.671 0.741 0.669 0.734
Tương tự với phương pháp sử dụng mô hình BoF, chúng tôi cũng thực
hiện kiểm tra mô hình huấn luyện được với cả dữ liệu huấn luyện và dữ liệu
kiểm tra. Kết quả cho thấy kết quả trên tập kiểm tra cao hơn so với kết quả trên
tập huấn luyện (~0.065 – 0.07). Mức chênh lệch này không quá đáng kể và vẫn
là biểu hiện bình thường. Đây là dấu hiệu cho thấy mô hình huấn luyện bằng dữ
liệu LBP có khả năng phổ quát khá tốt.
Trái với dự đoán khi phân tích biểu đồ dữ liệu, kết quả thu được từ
phương pháp này kém hơn khá nhiều so với phương pháp dùng mô hình BoF.
Sau khi phân tích, chúng tôi nhận thấy nguyên nhân biểu đồ dữ liệu của LBP có
vẻ phân tách tốt hơn nhưng thực tế lại tệ có thể là do sự khác biệt về số chiều
của vector đặc trưng gốc. Như đã trình bày từ phần trước, mô hình BoF cho
vector có chiều dài là 250 để biểu diễn đặc trưng của ảnh. Trong khi đó, phương
pháp này chỉ sử dụng vector có chiều dài 18 để biểu diễn ảnh. Khi cùng sử dụng
thuật toán TSNE để thu gọn chiều, với số chiều dài hơn rất nhiều lần, có thể hiểu
độ mất mát thông tin của hai phương pháp là khác biệt. Đây có lẽ là nguyên
nhân khiến cho biểu đồ đặc trưng của phương pháp này tốt hơn so với phương
pháp dùng mô hình BoF.
55
b) Nhận dạng tàu với đặc trưng kết hợp (của BoF và LBP) và thuật toán
SVM
Nội dung phương pháp và các tham số tốt nhất cho phương pháp đã được
trình bày trong phần c – mục 3.1.3. Sau khi kết hợp các đặc trưng của mô hình
BoF và đặc trưng LBP, chúng tôi sẽ thu được một vector dài 268 biểu diễn cho
mỗi hình ảnh. Tương tự các phương pháp trước, để phân tích dữ liệu, chúng tôi
sử dụng thuậ toán TSNE để thu gọn và biểu diễn dữ liệu trên biểu đồ. Số chiều
sử dụng cũng là ba (tương tự các phương pháp trước). Để tiện theo dõi, chúng
tôi gọi phương pháp dùng mô hình BoF sử dụng SIFT kết hợp với LBP là BoF –
SIFT + LBP và mô hình BoF sử dụng SURT kết hợp với LBP là BoF – SURT +
LBP. Biểu đồ mối quan hệ giữa các chiều và phân bố dữ liệu trên các chiều
được thể hiện trong hình dưới đây..
Hình 3. 16 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp SIFT
kết hợp LBP
56
Hình 3. 17 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp BOF
- SURF kết hợp LBP.
Dựa vào hai biểu đồ, ta có thể thấy phương pháp BoF – SIFT + LBP có
độ biến động dữ liệu kém hơn hẳn so với phương pháp BoF – SURT + LBP.
Đồng thời, do kế thừa lại dữ liệu, sự phân bố dữ liệu của phương pháp BoF –
SIFT + LBP cũng hẹp (các điểm dữ liệu co cụm lại) hơn so với phương pháp
BoF – SURT + LBP. Từ các dấu hiệu này có thể đưa ra dự đoán kết quả của
phương pháp BoF – SIFT + LBP sẽ kém hơn so với phương pháp BoF – SURT
+ LBP.
Sau khi huấn luyện và thu được các tham số tốt nhất (đã được trình bày
trong mục c – 3.1.3), kết quả tốt nhất của các mô hình phần lớp tốt nhất thu được
bằng phương pháp được trình bày trong các hình ảnh và bảng dưới đây.
Hình 3. 18 Hình ảnh các lớp tàu thuyền được nhận dạng chính xác
57
Hình 3. 19 Hình ảnh các lớp tàu thuyền được nhận dạng không chính xác
Kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng thuật toán
trích chọn đặc trưng SIFT kết hợp với LBP được trình bày theo bảng 3.5
Bảng 3. 5 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán SIFT kết hợp LBP
Nhãn
Precision Recall F1-score
Huấn
luyện Kiểm tra
Huấn
luyện Kiểm tra
Huấn
luyện Kiểm tra
Tàu dầu 0.900 0.889 0.853 0.834 0.876 0.861
Tàu công
ten nơ 0.956 0.853 0.858 0.914 0.904 0.883
Tàu vận
tải 0.801 0.840 0.924 0.840 0.858 0.840
Tổng 0.886 0.861 0.878 0.863 0.879 0.861
Kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng thuật toán
trích chọn đặc trưng SURF kết hợp với LBP được trình bày theo bảng 3.6.
Bảng 3. 6 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán SURF kết hợp LBP
Nhãn
Precision Recall F1-score
Huấn
luyện Kiểm tra
Huấn
luyện Kiểm tra
Huấn
luyện Kiểm tra
Tàu dầu 0.865 0.872 0.782 0.708 0.821 0.781
Tàu công
ten nơ 0.953 0.822 0.771 0.870 0.853 0.845
Tàu vận
tải 0.667 0.699 0.889 0.820 0.762 0.755
Tổng 0.829 0.798 0.814 0.799 0.812 0.794
58
Tương tự với các phương pháp trước, chúng tôi thực hiện kiểm tra mô
hình huấn luyện được trên cả tập dữ liệu huấn luyện và kiểm tra. Kết quả so
sánh cho ra cùng một xu hướng. Mô hình huấn luyện bằng dữ liệu từ hai phương
pháp BoF – SIFT + LBP và phương pháp BoF – SURT + LBP đều có kết quả
kiểm tra trên tập huấn luyện cao hơn so với kết quả kiểm tra trên tập kiểm tra.
Tuy nhiên, mức chênh lệch cũng không quá lớn (~0.015 – 0.031). Điều này loại
trừ khả năng các mô hình bị hiện tượng overfitting. Sự chênh lệch này chỉ thể
hiện một điều là mức phổ quát của các mô hình huấn luyện bằng dữ liệu từ hai
phương pháp có vẻ thấp hơn một chút so với các mô hình đã huấn luyện từ các
phương pháp trước.
Trái với dự đoán từ việc phân tích biểu đồ dữ liệu, phương pháp BoF –
SIFT + LBP lại cho kết quả tốt hơn so với phương pháp BoF – SURT + LBP.
Điều này đi ngược sự biểu hiện của biến động của dữ liệu theo các chiều dữ liệu.
Tuy nhiên, dựa vào các phần trước, chúng tôi cho rằng việc trường giá trị dữ liệu
của phương pháp BoF – SURT + LBP lớn hơn (dữ liệu phân tán hơn) so với
phương pháp BoF – SIFT + LBP là nguyên nhân dẫn đến sự khác biệt này
không. Bởi vì khi phân tích phương pháp chỉ sử dụng BoF, dữ liệu thu được khi
dùng thuật toán SIFT có độ phân tán thấp hơn và khi huấn luyện cho mô hình tốt
hơn. Từ sự tương đồng này, chúng tôi khẳng định sự phân tán dữ liệu lớn hơn rất
nhiều chính là nguyên nhân khiến cho phương pháp BoF – SURT + LBP cho kết
quả tệ hơn bất chấp biến động dữ liệu trong các chiều là cao và rõ ràng hơn.
So sánh với các phương pháp chỉ sử dụng thuần mô hình BoF và thuật
toán LBP, kết quả của phương pháp này cũng có sự cải thiện đáng kể. Điều này
đã chứng minh cho sự hiệu quả của việc kết hợp các đặc trưng lại để phân lớp
ảnh tàu.
3.2.3 Nhận xét, đánh giá
Chúng tôi đã tổng hợp kết quả kiểm chứng từ năm phương pháp phân lớp
tàu thuyền đã được trình bày trong mục 3.3.2 theo bảng 3.7 dưới đây và rút ra
một số nhận xét, đánh giá như sau:
Bảng 3. 7 Bảng tổng hợp kết quả kiểm chứng bằng máy học SVM
Nhãn
Thuật toán
trích đặc
trưng
Precision Recall F1-score
Tàu dầu SIFT 0.92 0.779 0.844
59
SURF 0.849 0.656 0.740
LBP 0.711 0.816 0.760
SIFT&LPB 0.889 0.834 0.861
SURF&LPB 0.872 0.708 0.781
Tàu công ten nơ
SIFT 0.876 0.907 0.891
SURF 0.808 0.855 0.831
LBP 0.752 0.864 0.804
SIFT&LPB 0.853 0.914 0.883
SURF&LPB 0.822 0.870 0.845
Tàu vận tải
SIFT 0.776 0.880 0.825
SURF 0.671 0.820 0.738
LBP 0.774 0.543 0.638
SIFT&LPB 0.840 0.840 0.840
SURF&LPB 0.699 0.820 0.755
Total
SIFT 0.858 0.855 0.853
SURF 0.776 0.777 0.770
LBP 0.745 0.741 0.734
SIFT&LPB 0.861 0.863 0.861
SURF&LPB 0.798 0.799 0.794
Việc đánh giá dựa vào các chỉ số độ chính xác (Precision), độ bao phủ
(Recall) và độ đo F1. Các chỉ số kiểm chứng nói trên được biểu diễn trong bảng
3.7, kết quả là sự so sánh độ chính xác của các mô hình phân lớp tàu thuyền sử
dụng các thuật toán trích chọn đặc trưng khác nhau.
60
Từ bảng trên cho thấy, kết quả khả quan nhất là mô hình phân lớp sử dụng
phương pháp học máy giám sát SVM kết hợp thuật toán trích chọn đặc trưng
SIFT&LPB cho các chỉ số đánh giá cao, mức độ chênh lệch giữa các chỉ số
không lớn, cụ thể chỉ số độ chính xác Precision, độ hồi tưởng, độ đo F1 cùng
cho kết quả là 86%. Có hai nguyên nhân dẫn đến kết quả như vậy. thứ nhất, có
thể do khi kết hợp các đặc trưng của mô hình BoF và đặc trưng LBP, ta sẽ thu
được một vector có độ dài lớn nhất (dài 268) biểu diễn cho mỗi hình ảnh. Thứ
hai thuật toán SIFT đưa ra nhiều đặc trưng gần giống nhau hơn so với thuật toán
SURF, LBP hay các đặc trưng có độ phân tán thấp hơn.
Trong khi mô hình phân lớp SVM kết hợp với thuật toán trích chọn đặc
trưng LBP đạt kết quả thấp nhất với độ đo chính xác, độ đo hồi tưởng cùng độ
đo F1 là 74%. Nguyên nhân chính dẫn đến kết quả như vậy là do mô hình BoF
cho vector có chiều dài là 250 để biểu diễn đặc trưng của ảnh. Trong khi đó,
phương pháp này chỉ sử dụng vector có chiều dài 18 để biểu diễn ảnh.
Mô hình phân lớp sử dụng thuật toán trích chọn đặc trưng SIFT cho kết
quả phân lớp Tàu cong – ten - no tốt nhất với độ đo F1 là 89,1%.
Toàn bộ năm mô hình phân lớp (năm phương pháp trích trọn đặc trưng)
cho kết quả phân lớp Tàu cong – te – nơ là ổn định nhất (độ đo F1 lớn hơn 80%)
so với hai lớp tàu còn lại, các chỉ số đo độ chính xác không có độ chênh lệch
lớn.
61
KẾT LUẬN
Luận văn cơ bản đạt được mục đích, yêu cầu đề ra. Các phương pháp đề
xuất được nghiên cứu, thực nghiệm một cách khoa học, cẩn thận. Luận văn khái
quát được một số vấn đề về bài toán phân lớp bao gồm phương pháp trích chọn
đặc trưng, phân lớp dữ liệu ảnh viễn thám và các thuật toán học máy áp dụng
vào bài toán phân lớp trên ảnh viễn thám quang học, trong đó đề cập ưu, nhược
điểm của một số phương pháp trích chọn đặc trưng, chú trọng nghiên cứu
phương pháp học bán giám sát được sử dụng rất phổ biến hiện nay.
Về phân lớp dữ liệu, luận văn đã đưa ra bài toán tổng quan, cho cái gì và
cần cái gì, đồng thời trình bày về phương pháp phân lớp dữ liệu tổng quát từ đó
có thể giúp người đọc hiểu về bài toán phân lớp. Trình bày cơ bản về bài toán
phân lớp hình ảnh vệ tinh, cách biểu diễn một hình ảnh trong bài toán phân lớp
như thế nào, thông qua các phương pháp trích chọn đặc trưng để phân lớp dữ
liệu ảnh viễn thám quang học hiện nay.
Luận văn đã giải quyết được một phần yêu cầu bài toán thực tiễn đặt ra.
Chúng tôi thu thập được bộ cơ sở dữ liệu cung cấp thông tin nghiệp vụ về tàu
thuyền trên biển, bước đầu phân loại tự động ba lớp tàu dân sự trên ảnh viễn
thám quang học phục vụ mục đích giám sát hoạt động giao thông biển, kiểm
soát hàng hải…
Trong thời gian tới, chúng tôi có một số định hướng nghiên cứu tiếp theo
như nghiên cứu phân lớp tàu thuyền sử dụng phương pháp học sâu trên ảnh viễn
thám quang học, ứng dụng bài toán phân lớp tàu thuyền với các nguồn dữ liệu
viễn thám khác nhau, mở rộng đối tượng nghiên cứu đối với các mục tiêu trên
biển (tàu quân sự, giàn khoan).
62
TÀI LIỆU THAM KHẢO
Tiếng việt
[1] Bài Giảng Ứng Dụng Viễn Thám Trong Quản Lý Đất Đai (2018), Lê Hùng
Chiến, Trần Thị Thơm.
[2] Giáo trình Viễn thám (2018)- PGS.TS. Nguyễn Khắc Thời.
Tiếng Anh
[3] A. Torralba, B. C. Russell, and J. Yuen, “LabelMe: Online image
annotation and applications,” in Proceedings of the IEEE, 2010, doi:
10.1109/JPROC.2010.2050290.
[4] B. C. Russell, A. Torralba, K. P. Murphy, and W. T. Freeman, “LabelMe: A
database and web-based tool for image annotation,” Int. J. Comput. Vis.,
2008, doi: 10.1007/s11263-007-0090-8.
[5] David G. Lowe. “Distinctive Image Features from Scale-Invariant
Keypoints”, 5/1/2004.
[6] ENVI Tutorials, “ENVI Tutorials,” ENVI Tutorials, 2000..
[7] G. Lowe, “SIFT - The Scale Invariant Feature Transform,” Int. J., 2004.
[8] Herbert Bay, Tinne Tuytelaars, and Luc Van Gool. “SURF: Speeded Up
Robust Features”, 7/5/2006.
[9] http://www.cs.unc.edu/~lazebnik/spring09/lec18_bag_of_features.pdf.
[10] https://docs.opencv.org/master/df/dd2/tutorial_py_surf_intro.html.
[11] https://machinelearningcoban.com/2017/04/09/smv/.
[12] International Standard Classification of Ships by Type, Revised 1994.
[13] Jane Fighting Ships 2020-2021 Year Book.
[14] J.Antelo, G.Ambrosio, J. Gonz´ alez, C. Galindo, “Ship Detection and
Recognition in High-Resolution Satellite Images”, IEEE International
Geoscience and Remote Sensing Symposium, IGARSS’09, Cape Town,
South Africa, 2009.
63
[15] Ke-Chen Song, Yun-Hui YAN, Wen-Hui CHEN and Xu Zhang. “Research
and Perspective on Local Binary Pattern”, 6/2013.
[16] Katie Rainey, John Stastny, “Vessel classification in overhead satellite
imagery using learned dictionaries”, Proceedings of SPIE - The
International Society for Optical Engineering (Proceedings of SPIE, Oct.
2012.
[17] Timo Ojala, Matti Pietikainen and David Harwood. “A Comparative Study
Of Texture Measures With Classification Based On Feature Distributions”,
15/5/1995.
[18] Van Kiet Dinh, Nguyen Hoang Hoa Luong, Quang Hung Bui, Thanh Nhat
Thi Nguyen. Viet Hung Luu, “Improving the Bag-of-Words model with
Spatial Pyramid matching using data augmentation for fine-grained
arbitrary-oriented ship classification”, Remote Sensing Letter, 2019.
[19] Y. Ke and R. Sukthankar, “PCA-SIFT: A more distinctive representation
for local image descriptors,” in Proceedings of the IEEE Computer Society
Conference on Computer Vision and Pattern Recognition, 2004, doi:
10.1109/cvpr.2004.1315206.