nghiÊn cỨu ĐÁnh giÁ cÁc phƢƠng phÁp

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN ĐẮC HUY

NGHIÊN CỨU ĐÁNH GIÁ CÁC PHƢƠNG PHÁP

PHÂN LOẠI TÀU THUYỀN TỰ ĐỘNG SỬ DỤNG ẢNH

VIỄN THÁM

Ngành: Hệ Thống Thông Tin

Chuyên ngành: Hệ Thống Thông Tin

Mã Số: 8480104.01

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS. TS Nguyễn Thị Nhật Thanh

Hà nội – 09/2020

i

MỤC LỤC

LỜI CẢM ƠN ...................................................................................................... iii

LỜI CAM ĐOAN ................................................................................................. iv

DANH MỤC HÌNH VẼ ........................................................................................ v

DANH MỤC BẢNG BIỂU ................................................................................ vii

DANH MỤC TỪ VIẾT TẮT ............................................................................. viii

MỞ ĐẦU ............................................................................................................... 1

Chương 1: Giới thiệu chung .................................................................................. 5

1.1 Tình hình nghiên cứu trên thế giới và Việt Nam .................................. 5

1.2 Giới thiệu về công nghệ viễn thám ....................................................... 6

1.2.1 Khái niệm, đặc điểm cơ bản viễn thám ................................... 6

1.2.2 Dữ liệu ảnh viễn thám quang học ............................................ 8

1.3 Giới thiệu về một số loại tàu thuyền quan tâm ................................... 10

1.3.1 Tàu vận tải [12]...................................................................... 10

1.3.2 Tàu chở dầu [12] .................................................................... 11

1.3.3 Tàu chuyên chở công te nơ [12] ............................................ 11

1.3.4 Tàu sân bay [13] .................................................................... 12

1.3.5 Tàu ngầm [13] ....................................................................... 14

1.3.6 Khu trục hạm [13] ................................................................. 15

1.4 Bộ CSDL tàu thuyền mẫu ................................................................... 16

1.4.1 Nguồn dữ liệu ........................................................................ 16

1.4.2 Phương pháp thu thập bộ dữ liệu tàu thuyền mẫu ................. 17

1.4.3 Quy trình lấy mẫu dữ liệu ...................................................... 18

Chương 2: Nghiên cứu một số thuật toán nhận dạng tàu thuyền. ....................... 20

2.1 Nghiên cứu một số phương pháp, thuật toán trích chọn đặc trưng .... 20

2.1.1 Mô hình Bag of Features ....................................................... 20

2.1.2 Thuật toán Local Binary Patterns .......................................... 34

2.2 Nghiên cứu phương pháp, thuật toán phân lớp tàu thuyền. ................ 36

Chương 3: Ứng dụng phân lớp tàu thuyền ở cảng biển Việt Nam trên ảnh viễn

thám ..................................................................................................................... 41

ii

3.1 Phương pháp đề xuất........................................................................... 41

3.1.1 Bộ cơ sở dữ liệu đầu vào ....................................................... 42

3.1.2 Trích chọn đặc trưng .............................................................. 43

3.1.3 Chọn thuật toán huấn luyện và phân lớp dữ liệu ................... 44

3.2 Kết quả và thảo luận ........................................................................... 46

3.2.1 Bộ cơ sở dữ liệu ..................................................................... 46

3.2.2 Kết quả phân lớp .................................................................... 48

3.2.3 Nhận xét, đánh giá ................................................................. 58

KẾT LUẬN ......................................................................................................... 61

TÀI LIỆU THAM KHẢO ................................................................................... 62

iii

LỜI CẢM ƠN

Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến cô giáo,

PGS. TS. Nguyễn Thị Nhật Thanh – người đã hướng dẫn, khuyến khích, chỉ bảo

và tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành

công việc của mình.

Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ

thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp

cho tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho tôi

trong suốt quá trình học tập, nghiên cứu tại trường.

Đồng thời tôi xin chân thành cảm ơn chủ nhiệm và nhóm nghiên cứu thực

hiện đề tài cấp nhà nước thuộc chương trình khoa học và công nghệ cấp quốc

gia về công nghệ vũ trụ giai đoạn 2016-2020, mã số đề tài VT-UD.06/16-20 đã

hỗ trợ tôi trong quá trình nghiên cứu thực nghiệm.

Cuối cùng, tôi xin cảm ơn tất cả những người thân yêu trong gia đình tôi

cùng toàn thể bạn bè, đồng nghiệp, những người đã luôn giúp đỡ, động viên, cổ

vũ, khích lệ và giúp đỡ tôi trong suốt thời gian qua. Trong quá trình thực hiện đề

tài có thể còn có những mặt hạn chế, thiếu sót. Tôi rất mong nhận được ý kiến

đóng góp và sự chỉ dẫn của các thầy cô giáo và các bạn đồng nghiệp.

iv

LỜI CAM ĐOAN

Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Nghiên cứu

đánh giá các phương pháp phân loại tàu thuyền tự động sử dụng ảnh viễn

thám” là công trình nghiên cứu của riêng tôi, không sao chép lại của người

khác. Trong toàn bộ nội dung của luận văn, những điều đã được trình bày hoặc

là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả

các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp.

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy

định cho lời cam đoan này.

Hà Nội, ngày …. tháng … năm …..

v

DANH MỤC HÌNH VẼ

Hình 1. 1 Dải sóng điện từ .................................................................................... 7

Hình 1. 2 Độ phân giải không gian của ảnh viễn thám trên cùng khu vực ........... 8

Hình 1. 3 Tàu vận tải ........................................................................................... 10

Hình 1. 4 Tàu chở dầu ......................................................................................... 11

Hình 1. 5 Tàu công ten nơ ................................................................................... 12

Hình 1. 6 Tàu sân bay .......................................................................................... 13

Hình 1. 7 Tàu ngầm ............................................................................................. 14

Hình 1. 8 Tàu khu trục ........................................................................................ 15

Hình 1. 9 Dữ liệu ảnh viễn thám Planet (trái), dữ liệu ảnh viễn thám Google

Earth (phải) .......................................................................................................... 16

Hình 1. 10 Sơ đồ cây phân lớp tàu thuyền .......................................................... 17

Hình 1. 11 Quy trình lấy mẫu tàu dựa trên kiến thức chuyên gia ....................... 18

Hình 1. 12 Mở dữ liệu ảnh và chọn khu vực nghiên cứu có đối tượng quan tâm

cần gán nhãn ........................................................................................................ 19

Hình 1. 13 Gán nhãn đối tượng quan tâm dựa trên việc vẽ đường bao xung

quanh ................................................................................................................... 19

Hình 2. 1 Minh họa mô hình BoF (nguồn [9]). ................................................... 20

Hình 2. 2 Minh họa các đặc trưng thu thập được (nguồn [9]). ........................... 21

Hình 2. 3 Minh họa các đặc trưng được phân cụm (nguồn [9]).......................... 21

Hình 2. 4 Biểu đồ đặc trưng (nguồn [9]). ............................................................ 21

Hình 2. 5 Minh họa các mức làm mờ khác nhau của hàm Gaussian. ................. 23

Hình 2. 6 Mô hình kim tự tháp ảnh trong SIFT (nguồn [5]). .............................. 24

Hình 2. 7Minh họa cách lấy điểm để xét cực trị với vị trí x là điểm đang xét

(nguồn [5]). .......................................................................................................... 25

Hình 2.8 Minh họa biểu đồ định hướng. ............................................................. 27

Hình 2.9 Minh họa bước lọc và gắn hướng cho điểm đặc trưng (nguồn [5]). .... 28

Hình 2.10 Mô tả điểm đặc trưng (nguồn [5]). ..................................................... 29

Hình 2.11 Minh họa phương pháp xấp xỉ của bộ lọc hộp (nguồn [8]). .............. 30

Hình 2.12 Ví dụ về phản ứng con sóng. .............................................................. 32

Hình 2.13 Ví dụ về biểu đồ hướng trong SURF (nguồn [10]). ........................... 32

Hình 2.14 Minh họa các vùng đặc trưng (nguồn [8]). ........................................ 33

Hình 2.15 Ví dụ giá trị của các thuộc tính trong SURF trong mỗi trường hợp ảnh

(nguồn [8]). .......................................................................................................... 33

Hình 2.16 Minh họa các hoạt động của thuật toán LBP đầu tiên (nguồn [15]). . 34

Hình 2.17 Mô tả cách lấy mẫu tron LBP cải thiện (nguồn [15]). ....................... 35

Hình 2. 18 Minh họa kết quả thu được qua thuật toán LBP ............................... 36

Hình 2.19 Ví dụ dữ liệu trong SVM (nguồn [11]). ............................................. 37

vi

Hình 2.20 So sánh các mô hình. .......................................................................... 39

Hình 2.21 Ví dụ kết quả thuật toán SVM (hình bên trái là lề cứng và hình bên

phải là lề mềm). ................................................................................................... 39

Hình 2.22 Một số ví dụ về lõi của SVM. ............................................................ 40

Hình 3. 1 Sơ đồ quá trình phân lớp tàu thuyền ................................................... 41

Hình 3. 2 Dữ liệu ảnh viễn thám khu vực tập trung nhiều tàu thuyền ................ 42

Hình 3. 3 Đặc trưng trên ảnh bằng thuật toán SIFT và SURF. Từ trái sang lần

lượt là ảnh gốc, đặc trưng tìm được từ SIFT và đặc trưng tìm được từ SURF. .. 44

Hình 3. 4 Đặc trưng trên ảnh bằng thuật toán LBP. Từ trái sang lần lượt là ảnh

gốc và ảnh qua xử lý bằng thuật toán LBP trước khi tính histogram. ................ 44

Hình 3. 5 Hình ảnh đánh dấu vùng biển trên bản đồ .......................................... 46

Hình 3. 6 Một số tàu mã tau dau. ........................................................................ 47

Hình 3. 7 Một số tàu mã tau cong ten no. ........................................................... 47

Hình 3. 8 Một số tàu mã tau van tai. ................................................................... 47

Hình 3. 9 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp SIFT

............................................................................................................................. 49

Hình 3. 10 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp

SURF ................................................................................................................... 50

Hình 3. 11 Hình ảnh các lớp tàu thuyền được nhận dạng chính xác .................. 51

Hình 3. 12 Hình ảnh các lớp tàu thuyền nhận dạng chưa chính xác ................... 51

Hình 3. 13 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng thuật toán LBP . 53


Hình 3. 15 Hình ảnh các lớp tàu thuyền được nhận dạng chưa chính xác .......... 54


kết hợp LBP ......................................................................................................... 55

Hình 3. 17 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp BOF

- SURF kết hợp LBP. .......................................................................................... 56


Hình 3. 19 Hình ảnh các lớp tàu thuyền được nhận dạng không chính xác ....... 57

vii

DANH MỤC BẢNG BIỂU

Bảng 1. 1 Thông số kỹ thuật kênh phổ ảnh VNREDSAT-1 ................................. 9

Bảng 1. 2 Thông tin thuộc tính của ảnh Planet ................................................... 10

Bảng 3. 1 Bảng thống kê chi tiết cơ sở dữ liệu tàu thuyền ................................. 48

Bảng 3. 2 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng

thuật toán SIFT .................................................................................................... 51


thuật toán SURF .................................................................................................. 51


thuật toán LPB ..................................................................................................... 54


thuật toán SIFT kết hợp LBP .............................................................................. 57


thuật toán SURF kết hợp LBP ............................................................................. 57

Bảng 3. 7 Bảng tổng hợp kết quả kiểm chứng bằng máy học SVM ................... 58

viii

DANH MỤC TỪ VIẾT TẮT

AIS Automatic Identification Systems

ANQP An ninh quốc phòng

BoF Bag of Features

CSDL Cơ sở dữ liệu

DoG the difference-of-Gaussian function

convolved

FOV Field of view

ICST International Standard Classification

of Ships by Type

IFOV instantaneous field of view

LBP Local Binary Patterns

SIFT Scale-Invariant Feature Transform

SURF Speeded-Up Robust Features

SVM Support Vector Machine

VHF Very high frequency

VTS Vessel Traffic Services

1

MỞ ĐẦU

Tính cấp thiết

Vệ tinh viễn thám có lợi thế đặc biệt quan trọng so với viễn thám hàng

không do có khả năng chụp ảnh ở bất kỳ điểm nào trên bề mặt trái đất mà không

phải xin phép nước sở hữu, quản lý vùng địa lý đó. Đây là lợi thế mà bất kỳ

quốc gia nào cũng muốn khai thác phục vụ cho công tác ANQP, vì vậy các quốc

gia phát triển như Mỹ, Nga, TQ, Pháp... đã triển khai mạng lưới vệ tinh viễn

thám để do thám các mục tiêu quan tâm. Công nghệ vệ tinh, công nghệ viễn

thám là những lĩnh vực công nghệ cao mà các nước phát triển hạn chế xuất khẩu

và chuyển giao công nghệ. Do đó, để nắm bắt được những công nghệ này đòi

hỏi phải được đào tạo bài bản và có quá trình tiếp cận công nghệ trong thời gian

dài từ khâu thiết kế chế tạo, quản lý vận hành khai thác và ứng dụng. Hướng ứng

dụng là một trong những hướng đặc biệt được quan tâm nghiên cứu tại các nước,

nhất là những nước đi sau về công nghệ vũ trụ. Đây là giải pháp để các nước có

thể tiếp cận nhanh nhất và được thừa hưởng nhiều nhất, tận dụng tốt nhất những

thành tựu mới nhất của khoa học công nghệ thế giới cho nghiên cứu phát triển

khoa học, công nghệ.

Kỹ thuật xử lý ảnh viễn thám với nền tảng là xử lý ảnh số đã giải quyết

được một số vấn đề cơ bản trong khai thác, trích xuất thông tin từ ảnh viễn thám

bằng một số phần mềm khá thông dụng như ENVI, ERDAS,... song mức độ

chuyên sâu và tự động hóa chưa cao và chỉ sử dụng trong lĩnh vực dân sự. Các

phần mềm chuyên dụng trong lĩnh vực ANQP thường bị hạn chế điều kiện

thương mại hoặc có giá thành rất cao, ngoài khả năng tài chính của người sử

dụng và gần như không tiếp cận được yếu tố khoa học công nghệ. Việc chuyển

giao công nghệ chỉ giới hạn ở hướng dẫn sử dụng, khai thác phần mềm.

Đến nay, Việt Nam đã có hệ thống vệ tinh viễn thám (VNREDSat-1) hoàn

chỉnh từ trạm mặt đất đến vệ tinh và các cơ quan ứng dụng, song việc khai thác,

sử dụng hiệu quả các sảm phẩm của hệ thống này cho mục đích ANQP là một

bài toán khó, còn nhiều hạn chế từ độ phân giải ảnh VNREDSat-1 đến trình độ

xử lý, phân tích, giải đoán ảnh viễn thám, tích hợp các thông tin khai được từ

các nguồn ảnh của cán bộ trong ngành.

Với chiều dài bờ biển hơn 3000km và diện tích biển hơn một triệu ki-lô-

mét vuông, cùng hàng trăm hòn đảo lớn nhỏ, Việt Nam có nhiều tiềm năng phát

triển kinh tế biển như: cảng biển và công nghiệp tàu thủy, đánh bắt thủy hải sản,

khai thác dầu khí,... song cũng đặt ra hàng loạt thách thức về công tác thực thi

2

pháp luật, quản lý nhà nước, an ninh an toàn hàng hải, an ninh chủ quyền quốc

gia,... trên những vùng biển rộng lớn tại Biển Đông.

Quản lý, giám sát đối tượng tàu biển sẽ góp phần quan trọng trong việc

giải quyết các thách thức về công tác quản lý nhà nước, bảo đảm an ninh quốc

gia của Việt Nam trên Biển Đông. Một trong những vấn đề cấp thiết và khó

khăn nhất trong môi trường an ninh hàng hải ngày nay (với sự đa dạng, phức tạp

của các chủng loại tàu, thuyền cũng như các hoạt động của chúng) là làm thế

nào để có sự phân biệt rõ ràng giữa các loại tàu quân sự và các loại tàu thương

mại thông thường hay phân loại gữa các loại tàu quân sự, dân sự với nhau, từ đó

phát hiện và xử lý kịp thời những hoạt động của chúng trong khu vực.

Ngày nay, sự phát triển vượt bậc của các vệ tinh quan sát trái đất, cung

cấp ảnh vệ tinh độ phân giải cao phục vụ cho nhiều lĩnh vực khác nhau. Một

trong số đó là sử dụng ảnh vệ tinh độ phân giải trung bình, cao để phát hiện và

phân loại tàu thuyền trên biển với nhiều mục đích khác nhau như giám sát hoạt

động đánh bắt cá, giám sát hàng hải, giám sát lịch trình trong khi các công nghệ

truyền thống quản lý tàu thuyền có thể kể đến như Automatic Identification

Systems (AIS) và Vessel Traffic Services (VTS)…chỉ thực hiện được khi ở gần

bờ và tương tác với tàu khác hoạt động gần đó.

Mặc dù có rất nhiều nghiên cứu về việc phát hiện tàu thuyền nhưng hầu

hết các nghiên cứu liên quan đến việc phát hiện tàu (hoặc sóng tàu) sử dụng

thông tin radar. Điều này là do điều kiện ánh sáng và thời tiết không ảnh hưởng

đến ảnh SAR khi nó cung cấp thông tin trên các khu vực rộng lớn. Tuy nhiên,

nguồn thông tin này cản trở việc xác định và phân loại tàu. Đặc biệt, nó trở

thành một nhược điểm quan trọng đối với một số ứng dụng cụ thể. Việc sử dụng

hình ảnh quang học để nhận dạng tàu nhận được ít sự quan tâm hơn, chủ yếu là

do những hạn chế thuộc về bản chất của nó, tức là cần điều kiện ánh sáng và

thời tiết thích hợp. Tuy nhiên, ở những nơi có những mặt hạn chế không xuất

hiện thường xuyên, ảnh quang học sẽ cung cấp nhiều thông tin hơn cho phép

phân loại tàu được cụ thể hơn [14].

Như vậy, bài toán nhận dạng tàu thuyền có ý nghĩa rất to lớn trong hoạt

động quản lý, giám sát đối tượng tàu biển phục vụ mục đích dân sự, an ninh

quốc phòng. Với nhu cầu cấp thiết đó và mong muốn đóng góp phần nhỏ kiến

thức bản thân cho sự phát triển của công nghệ viễn thám. Do đó, chúng tôi quyết

định chọn đề tài “Nghiên cứu đánh giá các phương pháp phân loại tàu thuyền tự

động sử dụng ảnh viễn thám” cho nghiên cứu của mình.

3

Mục tiêu nghiên cứu của đề tài

Thông qua tình hình chung và các vấn đề được đặt ra ở trên, mục tiêu

chính của bài luận văn này tập trung giải quyết các vấn đề sau:

Cung cấp thông tin nghiệp vụ về tàu thuyền trên biển và hải đảo

phục vụ công tác đảm bảo an ninh quốc gia.

Nghiên cứu và đánh giá thuật toán nhận dạng hay phân loại tự động

tàu thuyền sử dụng ảnh vệ tinh quang học phục vụ mục đích giám

sát hoạt động đánh bắt cá trên biển, giao thông biển, kiểm soát hàng

hải…

Mô tả bài toán

Để giải quyết các vấn đề được đặt ra trong mục tiêu luận văn, hướng tiếp

cận của chúng tôi là giải quyết bài toán nhận dạng tàu thuyền trên ảnh giống với

bài toán nhận dạng mặt người. Bằng cách sử dụng phương pháp học máy truyền

thống kết hợp với một số thuật toán trích chọn đặc trưng trên ảnh. Cụ thể như

sau, đầu tiên chúng tôi tiến hành thu thập, xây dựng bộ CSDL mẫu ảnh tàu

thuyền phục vụ mục đích xây dựng mô hình phân loại đối tượng tàu thuyền. Dữ

liệu được sử dụng là tập dữ liệu ảnh viễn thám về các mẫu tàu thuyền trên vùng

biển Việt Nam. Chúng tôi tiến hành lấy mẫu và đánh nhãn dữ liệu tàu thuyền

bằng công cụ miễn phí trên phần mềm ENVI 5.2.

Sau đó, chúng tôi tiên hành trích chọn đặc trưng trên bộ dữ liệu này bằng

cách sử dụng các thuật toán Bag of Feature (BoF), Local Binary Patterns (LBP),

BoF kết hợp LBP và đưa vào máy huấn luyện phân lớp. Căn cứ vào chất lượng,

số lượng nguồn dữ liều, yêu cầu, mục tiêu của luận văn, chúng tôi quyết định lựa

chọn thuật toán phân lớp máy hỗ trợ véc tơ SVM. Sau khi kết thúc quá trình

huấn luyện, hệ thống sẽ lưu lại giá trị các tham số này (các tham số quyết định

phân lớp - mô hình sau khi huấn luyện) để phục vụ cho quá trình nhận dạng sau

này. Quá trình huấn luyện dữ liệu nhanh hay chậm phụ thuộc vào số lượng mẫu

dữ liệu tham gia huấn luyện, thuật toán chọn để huấn luyện dữ liệu. Kết quả thu

được là việc phân loại từng mẫu tàu thuyền vào các lớp tương ứng. Qua đó,

chúng tôi tiến hành so sánh về độ chính xác của bài toán phân lớp sử dụng

phương pháp máy hỗ trợ véc tơ kết hợp với các thuật toán trích chọn đặc trưng

khác nhau.

Bố cục của luận văn

4

Chương 1 trình bày các khái niệm cơ bản phục vụ cho nghiên cứu của đề

tài, trình bày về nội dung xây dựng CSDL ảnh mẫu tàu thuyền từ ảnh vệ tinh độ

phân giải cao phục vụ xây dựng và kiểm tra mô hình phân lớp tàu thuyền. Nội

dung chính của Chương 2 trình bày về một số thuật toán nhận dạng tàu thuyền

trên ảnh viễn thám. Dựa trên bộ CSDL ảnh mẫu được xây dựng ở Chương 1, nội

dung chính của Chương 3 trình bày về kết quả, đánh giá ứng dụng phân lớp tàu

thuyền ở cảng biển Việt Nam sử dụng ảnh Planet. Cuối cùng nội kết luận và

kiến nghị cùng với các tài liệu tham khảo sẽ được trình bày.

5

Chƣơng 1: Giới thiệu chung

Trong nghiên cứu này, đối tượng nghiên cứu tập trung chủ yếu là tàu

thuyền. Do đó, chương 1 sẽ trình bày tổng quan về một số tàu thuyền trên thế

giới. Ngoài ra, giới thiệu một số khái niệm, đặc điểm về dữ liệu ảnh viễn thám

(vệ tinh) và cách tiến hành xây dựng bộ cơ sở dữ liệu tàu thuyền. CSDL giám

sát tàu thuyền là bộ cơ sở dữ liệu ảnh mẫu tàu thuyền được thu thập và gán nhãn

từ ảnh vệ tinh quang học Planet, bộ CSDL này được xây dựng với mục đích

huấn luyện các mô hình nhận dạng đối tượng tàu thuyền.

1.1 Tình hình nghiên cứu trên thế giới và Việt Nam

Qua tìm hiểu, khảo sát, có một số phương pháp sử dụng ảnh viễn thám

quang học để phân loại tàu thuyền trên thế giới ứng dụng thực tế trong việc nhận

dạng tàu thuyền phục vụ mục đích an ninh quốc gia đạt được một số kết quả

nhất định như sau.

Theo [14] nhóm tác giả đã sử dụng phần mềm Vyamsat cho phép xử lý

ảnh màu QuickBird để giám sát sự xuất hiện của tàu trên những vùng biển quan

tâm (interest regions). Vyamsat tích hợp việc quản lý, nhận dạng các vùng quan

tâm dựa trên công cụ ArcGis/ArcObject và các thuật toán phát hiện và nhận

dạng tàu dựa trên bộ nhận dạng Bayessian trích rút các đặc trưng từ ảnh đầu vào.

Trong bước phân biệt tàu thuyền, mỗi tàu được mô tả bởi một vetor đặc trưng

kích thước 7x3 (7 Hu moments được tính dựa trên 3 kênh ảnh đỏ, xanh lục, xanh

lam của ảnh). Việc phân loại được dựa trên bộ phân loại Bayessian.

Nhóm nghiên cứu khác là Katie Rainey và John Stastny cho rằng vấn đề

nhận dạng và phân loại tàu thuyền trên ảnh vệ tinh quang học là tương tự với

nhận dạng mặt người. Sự xuất hiện của tàu có thể rất khác nhau giữa các ảnh,

phụ thuộc vào nhiều yếu tố như điều kiện ánh sáng, góc của cảm biến, trạng thái

của biển. Ngoài ra cũng có sự khác nhau rất lớn giữa các tàu trong cùng một

loại. Việc thu thập và gán nhãn với tập dữ liệu huấn luyện đủ lớn cũng là một

thách thức không nhỏ. Để giải quyết vấn đề này, Katie Rainey và John Stastny

đề xuất giải thuật phân loại tàu là sự kết hợp của mô hình Bag-of-Words (BoW)

trong kết hợp phương pháp phân loại hỗ trợ máy véc tơ. Trong mô hình BoW tác

giả dùng cấu trúc đặc trưng vectơ sử dụng keypoint và bộ mô tả bất biến như

SIFT. Bộ mô tả của Scale-Invariant Feature Transform (SIFT) là bất biến đối

với những thay đổi về kích thước của ảnh và sự chiếu sáng, do đó các đặc trưng

tương tự từ các hình ảnh khác nhau của cùng một lớp nên sẽ được nhóm lại với

nhau. Nhóm nghiên cứu đã sử dụng bộ dữ liệu gồm bốn loại tàu dân sự như tàu

6

dầu, tàu vận tải, tàu công ten nơ và xà lan. Phương pháp này đã được áp dụng

thành công trong việc phân lớp tàu thuyền sử dựng ảnh viễn thám quang học độ

phân giải cao (dữ liệu thu từ hệ thống RAPIER) có độ chính xác trung bình đạt

xấp xỉ 80% [16].

Tại Việt Nam việc quản lý, phát hiện, theo dõi, giám sát tàu thuyền được

đầu tư phát triển theo một số chương trình và dự án cấp địa phương và nhà nước.

Tuy nhiên, số lượng các nghiên cứu và ứng dụng còn khác hạn chế. Tiêu biểu về

nghiên cứu nhận dạng, phân lớp tàu thuyền trên ảnh viễn thám là công trình sử

dụng mô hình trích xuất đặc trưng Spatial Pyramid Bag of Word và phương

pháp phân lớp SVM để phân loại tàu thuyền trên ảnh vệ tinh độ phân giải siêu

cao (Quick Bird) của nhóm nghiên cứu Lưu Việt Hưng, Đinh Văn Kiệt, Lương

Nguyễn Hoàng Hoa, Bùi Quang Hưng và Nguyễn Thị Nhật Thanh [18]. Kết quả

đạt được có độ chính xác cao (94%) đã đăng trên tạp chí Remote Sensing

Letters.

1.2 Giới thiệu về công nghệ viễn thám

1.2.1 Khái niệm, đặc điểm cơ bản viễn thám

Viễn thám (Remote sensing - tiếng Anh) được hiểu là một khoa học và

nghệ thuật để thu nhận thông tin về một đối tượng, một khu vực hoặc một hiện

tượng thông qua việc phân tích tài liệu thu nhận được bằng các phương tiện.

Những phương tiện này không có sự tiếp xúc trực tiếp với đối tượng, khu vực

hoặc với hiện tượng được nghiên cứu [2].

Thực hiện được những công việc đó chính là thực hiện viễn thám - hay

hiểu đơn giản: Viễn thám là thăm dò từ xa về một đối tượng hoặc một hiện

tượng mà không có sự tiếp xúc trực tiếp với đối tượng hoặc hiện tượng đó. Mặc

dù có rất nhiều định nghĩa khác nhau về viễn thám, nhưng mọi định nghĩa đều

có nét chung, nhấn mạnh "viễn thám là khoa học thu nhận từ xa các thông tin về

các đối tượng, hiện tượng trên trái đất".

Viễn thám điện từ là khoa học và công nghệ sử dụng sóng điện từ để

chuyển tải thông tin từ vật cần nghiên cứu tới thiết bị thu nhận thông tin cũng

như công nghệ xử lý để các thông tin thu nhận có ý nghĩa. Viễn thám điện từ

bao gồm viễn thám quang học và viễn thám radar.

Ảnh viễn thám (ảnh vệ tinh): là ảnh số thể hiện các vật thể trên bề mặt trái

đất được thu nhận bởi các bộ cảm biến đặt trên vệ tinh. Ảnh quang học dựa trên

cơ sở đo sóng phản xả từ bề mặt trái đất ở giải sóng nhìn thấy và một phần của

7

sóng hồng ngoại trong khoảng từ 300-1500 nm. Giải phổ từ 300-700 nm là vùng

dải phổ của màu xanh lam (Blue) - xanh lá cây (Green) - màu đỏ (Red), khu vực

700-1500 nm thuộc về dải phổ hồng ngoại của vùng hồng ngoại gần. Khu vực

hồng ngoại trung và hồng ngoại xa thường gọi là hồng ngoại nhiệt. Cảm biến

toàn sắc bao trùm giải bước sóng rộng từ 400-900 nm kết quả của nó cho ta một

tấm ảnh gần giống như ảnh đen trắng [1].

Hình 1. 1 Dải sóng điện từ

Năng lượng sóng phản xạ từ đối tượng bao gồm hai phần:

- Năng lượng phản xạ trực tiếp từ bề mặt đối tượng;

- Năng lượng tán xạ bởi cấu trúc bề mặt đối tượng.

Độ phân giải không gian.

Độ phân giải không gian của một ảnh vệ tinh, do đặc tính của đầu thu, phụ

thuộc vào hai thông số FOV (Field of view-trường/góc nhìn) và IFOV

(instantaneous field of view - trường/góc nhìn tức thì) được thiết kế sẵn. Thông

số FOV cho ta thấy được phạm vi không gian mà đầu thu có thể thu nhận được

sóng điện từ từ đối tượng. Rõ ràng là với góc nhìn càng lớn (FOV càng lớn) thì

ảnh thu được càng rộng, và với cùng một góc nhìn, vệ tinh nào có độ cao lớn

hơn sẽ có khoảng thu ảnh lớn hơn [1].

Ngược với FOV, IFOV của đầu thu đặc trưng cho phạm vi không gian mà

đầu thu có thể nhận được sóng điện từ trong một thời điểm. Tức là đầu thu sẽ

không thể “nhìn” được các đối tượng nhỏ hơn trong góc nhìn IFOV. Tổng hợp

giá trị bức xạ của các đối tượng trong một góc IFOV được thu nhận cùng một

lúc và mang một giá trị, được ghi nhận như một điểm ảnh. Trong ảnh số, một

8

điểm ảnh được gọi là một pixel và giá trị kích thước pixel đặc trưng cho khả

năng phân giải không gian của ảnh. Góc IFOV càng nhỏ thì khả năng phân biệt

các đối tượng trong không gian càng lớn, nghĩa là giá trị pixel càng nhỏ và phạm

vi “chụp” ảnh càng hẹp (hình 1.2).

Ý nghĩa quan trọng nhất của độ phân giải không gian là cho ta biết các đối

tượng nhỏ nhất mà có thể phân biệt được trên ảnh. Ví dụ, ảnh có độ phân giải

không gian là 30 x 30m sẽ cho phép phân biệt được các đối tượng có kích thước

lớn hơn 30 x 30m. Tuy hiện nay đã có những nghiên cứu về phương pháp phân

loại dưới pixel, nhưng để áp dụng rộng rãi cần được nghiên cứu thêm.

Hình 1. 2 Độ phân giải không gian của ảnh viễn thám trên cùng khu vực

Dữ liệu viễn thám cung cấp nhiều thông tin quan trọng trong nhiều ứng

dụng giám sát như gom ảnh, phát hiện biến đổi và phân loại lớp phủ. Kỹ thuật

viễn thám là một trong những kỹ thuật quan trọng được áp dụng để thu thập

thông tin liên quan đến tài nguyên môi trường của Trái Đất. Các dữ liệu ảnh vệ

tinh phổ biến dễ dàng tiếp cận và truy cập qua các ứng dụng bản đồ nổi tiếng

như Google Earth, Bing Maps, …

1.2.2 Dữ liệu ảnh viễn thám quang học

a) Ảnh vệ tinh QuickBird

Được cung cấp bởi Công ty Digital Globe, ảnh QuickBird hiện nay là một

trong những loại ảnh vệ tinh thương mại có độ phân giải cao nhất, được thu thập

miễn phí từ nền tảng Google Earth. Hệ thống thu ảnh QuickBird có thể thu được

đồng thời các tấm ảnh toàn sắc lập thể có độ phân giải từ 67cm đến 72cm và các

tấm ảnh đa phổ có độ phân giải từ 2,44m đến 2,88m. Với cùng một cảnh, Công

ty Digital Globe có thể cung cấp cho khách hàng 3 loại sản phẩm, ảnh

QuickBird được sử dụng các cấp độ xử lý khác nhau là Basic, Standard và

Orthorectified. Một ảnh QuickBird chuẩn có kích thước 16,5km x 16,5km. Với

ảnh viễn thám QuickBird, có thể làm được nhiều việc mà trước đây chỉ có thể

thực hiện với ảnh chụp từ máy bay. Các ứng dụng ảnh QuickBird tập trung chủ

10m 3m 0.4m

9

yếu vào nhiệm vụ quan sát theo dõi chi tiết các đảo hoặc các khu vực dải ven

biển, bến cảng, lập bản đồ vùng bờ,… Tuy nhiên, số lượng dữ liệu ảnh vệ tinh

QuickBird thu thập từ nền tảng Google Earth còn hạn chế, không đủ đáp ứng

yêu cầu để thực hiện bài toán của luận văn này.

b) Dữ liệu ảnh vệ tinh VNREDSat-1

VNREDSat-1 (Vietnam Natural Resources, Environment and Disaster-

monitoring Satellite-1) là vệ tinh quang học quan sát Trái Đất đầu tiên của Việt

Nam, do Công ty EADS Astrium (Pháp) thiết kế, chế tạo.

Vệ tinh VNREDSAT-1 mang 02 bộ cảm đa phổ và toàn sắc với độ phân

giải là 2.5m và 10m cho kênh đa phổ. Thông tin các kênh phổ của ảnh vệ tinh

VNREDSAT-1 như sau

Bảng 1. 1 Thông số kỹ thuật kênh phổ ảnh VNREDSAT-1

Kênh Bƣớc sóng

(micrometers)

Độ phân giải

(meters)

Blue 0.45 - 0.52 10

Green 0.53 - 0.60 10

Red 0.62 - 0.69 10

PAN 0.76 - 0.89 2.5

c) Dữ liệu ảnh vệ tinh Planet

Dữ liệu ảnh vệ tinh được cung cấp bởi Công ty Planet Labs Inc, ảnh

Planet hiện nay là một trong những loại ảnh vệ tinh thương mại có độ phân giải

trung bình, cao. Các sản phẩm ảnh Planet cung cấp tới người sử dụng là dữ liệu

ảnh viễn thám đã qua quy trình hiệu chỉnh về tọa độ, nắn chỉnh hình học, hiệu

chỉnh bức xạ cảm biến, bức xạ bề mặt, sản phẩm ở mức độ phù hợp với từng bài

toán ứng dụng khác nhau.

Một cảnh ảnh Planet chuẩn có kích thước 24km x 8km. Các ứng dụng ảnh

Planet tập trung chủ yếu vào nhiệm vụ quan sát theo dõi chi tiết các đảo hoặc

các khu vực dải ven biển, bến cảng, lập bản đồ vùng bờ…

10

Bảng 1. 2 Thông tin thuộc tính của ảnh Planet

Thuộc tính Mô tả

Định dạng ảnh GeoTiff, xml

Kích thước điểm ảnh 3m

Kích thước cảnh ảnh 24kmx8km

Hệ tọa độ WGS-84

Kênh phổ 3 kênh (Red, Green Blue

1.3 Giới thiệu về một số loại tàu thuyền quan tâm

1.3.1 Tàu vận tải [12]

Các tàu vận tải thường được đặc trưng bởi các hầm chứa hàng trong bụng

tàu, phía trên có thể được đậy bởi các tấm chắn lớn; mũi tàu có dạng cánh cung

buồng điều khiển thường được đặt ở phía đuôi tàu, trên boong tàu thường có các

cần cẩu hỗ trợ việc nâng, dỡ hàng. Các tàu vận tải hiện nay đều được được thiết

kế bằng thép, trung bình độ dài của một tàu vận tải hiện nay khoảng 80 m (độ

dài tính từ mũi tàu tới đuôi tàu).

Có thể căn cứ vào dạng cánh cung của mũi tàu, vị trí đặt buồng điều

khiển, các cần cẩu trên tàu và quan trọng nhất là các hầm chứa hàng hoặc các

tấm chắn hầm chứa hàng để nhận dạng tàu vận tải.

Hình 1. 3 Tàu vận tải

11

1.3.2 Tàu chở dầu [12]

Tàu chở dầu là loại tàu được thiết kế để chuyên vận chuyển chất lỏng

hoặc chất khí với số lượng lớn. Dựa vào chất được vận chuyển có thể phân tàu

chở dầu thành 3 loại chính là tàu chở dầu, tàu chở khí ga và tàu chở hóa chất.

Tàu chở dầu có thiết kế khá giống với các tàu vận tải thông thường tuy nhiên

phần boong tàu được thiết kế khép kín; giữa boong tàu là hệ thống đường ống

chạy dọc theo chiều dài thân tàu, có từ 2-3 cột được lắp nối tiếp trên boong tạo

thành đường thẳng từ buồng điều khiển ra phía mũi tàu (đây là phần khung

xương chịu lực của tàu). Trên boong tàu được trang bị nhiều cần cầu, buồng

điều khiển của tàu chở dầu nằm ở phía đuôi tàu, các tàu trở dầu lớn thường có

sân đáp trực thăng trên boong.

Đối với các tàu chở khí thì phần boong tàu được đặc trưng bởi các bồn

chứa khí dạng vòm, bán cầu. Các tàu chở khí lớn thường có 4-6 bồn chứa khí có

thể quan sát trên boong tàu. Tàu chở dầu lớn nhất thế giới hiện nay là tàu Knock

Nevis của Nauy với chiều dài 458m, trọng tải lên tới 564.763 tấn.

Có thể căn cứ vào hình dạng, phần boong tàu được thiết kế khép kín, vị trí

buồng điều khiển, phần khung chịu lực của tàu và đặc biệt là các bồn chứa khí

dạng vòm, bán cầu để nhận dạng tàu chở dầu, tàu chở khí.

Hình 1. 4 Tàu chở dầu

1.3.3 Tàu chuyên chở công te nơ [12]

Tàu công te nơ là một dạng tàu vận tải, được thiết kế chỉ để chuyên chở

các thùng công te nơ. Các tàu công te nơ được thiết kế để có thể di chuyển với

tốc độ cao trong điều kiện đầy tải (khoảng 26 hải lý/ giờ)

12

Tàu công te nơ chỉ có một boong tàu, mạn kép hoặc mạn đơn hình gợn

sóng. Mép boong dày, chắc, đà ngang boong có kích thước rộng làm tăng tính

ổn định của tàu. Tàu công te nơ không có cần cẩu trên tàu mà chỉ sử dụng các

cẩu giàn đặt trên bờ của các cảng, tàu công te nơ còn có các két nước giằng ở hai

bên mạn tàu tạo sự cân bằng khi xếp các công te nơ thành nhiều hàng, nhiều

tầng. Boong tàu tương đối phẳng, được phân thành từng nhiều hầm nhỏ có vách

ngăn để chứa công te nơ, buồng điều khiển của loại tàu này thường được thiết kế

ở phần giữa của tàu.

Tàu công te nơ lớn nhất thế giới hiện nay là tàu Emma Maersk của Đan

Mạch, tàu có kích thước 396.8x56.4x30 m, trọng tải tàu lên tới 170.794 tấn, tàu

có thể chở đồng thời 11.000 công te nơ.

Về cơ bản tàu công te nơ có cấu trúc giống với một tàu vận tải thông

thường tuy nhiên phần boong tàu chứa công te nơ sẽ được chia thành nhiều

khoang nhỏ, các khoang được ngăn cách nhau bởi vách ngăn. Một đặc điểm

khác để nhận dạng tàu công te nơ đó là vị trí buồng điều khiển, buồng điều

khiển của tàu công te nơ không nằm ở phía đuôi như tàu vận tải mà thường được

thiết kế ở khoảng giữa tàu. Khi đầy tải có thể dễ dàng phát hiện cách tàu công te

nơ qua các thùng công te nơ trên tàu.

Hình 1. 5 Tàu công ten nơ

1.3.4 Tàu sân bay [13]

Tàu sân bay hay còn gọi là hàng không mẫu hạm là một loại tàu chiến

được thiết kế để triển khai và thu hồi máy bay. Tàu sân bay hoạt động như một

căn cứ không quân trên biển, nó cho phép các lực lượng hải quân triển khai

không lực ở các vùng biển xa bờ mà không phục thuộc vào các căn cứ không

13

quân trên đất liền. Các lực lượng hải quân hiện đại đều coi tàu sân bay là trung

tâm của hạm đội (vài trò trước đó do thiết giáp hạm đảm nhận). Với kích thước

đồ sộ, tính cơ động không cao, vũ khí trang bị lại khá hạn chế nên tàu sân bay

rất dễ trở thành mục tiêu tấn công của các tàu chiến khác, do đó tàu sân bay

thường không hoạt động độc lập mà luôn có một đội tàu hộ tống, hậu cần đi

kèm. Trong lực lượng hải quân hiện đại của nhiều quốc gia hiện nay thì tàu sân

bay luôn được coi là tàu chủ lực.

Các tàu sân bay hiện đại đều có độ dài trên 300 m, sàn bay được thiết kế

phẳng (sàn bay được dùng làm nơi cất và hạ cánh cho các máy bay). Hiện nay

hướng các đường băng hạ cánh đều chéo một góc so với trục chính của tàu, việc

thiết kế các kiểu đường băng chéo này là cho phép máy bay nào không móc

được vào dây cáp hãm đà vẫn sẽ tiếp tục bay lên mà không gặp nguy cơ lao vào

các máy bay khác đang đỗ ở khu vực phía trước sàn bay, đường băng chéo cũng

cho phép hạ cánh một máy bay cùng lúc với việc phóng một máy bay khác ở

đường băng. Đài chỉ huy, tháp kiểm soát, hệ thống thoát khí của động cơ được

tập trung tại một khu vực khá nhỏ được gọi là đảo, rất hiếm tàu sân bay được

thiết kế hay chế tạo mà không có một đảo. Một dạng đường băng gần đây được

thiết kế trên các tàu sân bay là kiểu nhảy cầu (skijump) với một đầu dốc ở phía

trước đường băng, đường băng dạng này được phát triển để có thể phóng được

các máy bay cất và hạ cánh thẳng đứng hay các máy bay cất cánh từ các đường

băng ngắn và hạ cánh thẳng đứng, việc sử dụng bờ dốc sẽ giúp các máy bay

không cần sử dụng tới các máy phóng và cáp hãm đà nữa, các tàu sân bay kiểu

này sẽ giảm được trọng lượng, tính phức tạp và khoảng không cần thiết để bố trí

các thiết bị khác.

Các tàu sân bay đều có kích thước lớn nên việc nhận dạng chúng trên ảnh

vệ tinh là tương đối dễ dàng. Có thể căn cứ vào các đặc điểm như sàn tàu sân

bay rất phẳng, phần đường băng chéo so với trục chính của tàu, các máy bay

chiến đỗ trên sàn máy bay, khu vực tháp chỉ huy nhô cao so với sàn tàu.

Hình 1. 6 Tàu sân bay

14

1.3.5 Tàu ngầm [13]

Tàu ngầm hay còn gọi là Tiềm thủy đĩnh là một loại tàu đặc biệt được

thiết kế để chuyên hoạt động phía dưới mặt nước. Đa số các tàu ngầm đều được

sử dụng cho mục đích quân sự, chỉ một số ít phục vụ cho việc vận chuyển hàng

hải, nghiên cứu khoa học và cứu hộ tại các vùng nước sâu

Tất cả các tàu ngầm được xây dựng trên cùng một nguyên tắc, đó là hình

quả dưa chuột bằng thép (người Mỹ gọi là điếu xìgà), được phân chia thành các

khoang bởi các vách ngăn dọc theo boong tàu. Các vách ngăn có các cửa vách

ngăn để kết nối các khoang với nhau.

Phần mũi thường được bố trí một khoang chứa ngư lôi, thủy lôi, mìn và

tất nhiên là chúng ta sẽ không thể ra vào bằng cửa khoang này, trừ một vài

trường hợp đặc biệt. Ở giữa, thường là khoang trung tâm - nơi đặt hệ thống điều

khiển và là trung tâm chỉ huy của tàu ngầm. Phía sau, tùy vào ý tưởng thiết kế,

có thể có nhiều ngăn bố trí hệ thống động cơ, nguồn điện, khoang thoát hiểm...

của tàu ngầm. Tất cả các khoang của tàu ngầm đều có nhiệm vụ, số hiệu và tên

gọi riêng. Tàu ngầm có thể có 6, 7 hoặc thậm chí 8 khoang - tùy theo thiết kế. Ở

mỗi phần của con tàu (phía mũi, trung tâm và phía sau) đều có một khoang được

bố trí cửa thoát hiểm ở phía trên. Đây là nơi các thủy thủ tập trung lại để thoát ra

khỏi tàu ngầm trong trường hợp tàu ngầm gặp tai nạn.

Với hình dạng đặc biệt (giống như quả dưa chuột) không giống với các

loại tàu, thuyền khác nên việc nhận dạng tàu ngầm đang hoạt động trên mặt

nước là tương đối dễ dàng, ngoài ra còn có thể căn cứ vào các đặc điểm tháp

quan sát ở khoảng giữa thân tàu, phần đuôi tàu thấp hơn luôn chìm dưới mặt

nước, thân tàu mấp mé mặt nước để phát hiện tàu ngầm.

Hình 1. 7 Tàu ngầm

15

1.3.6 Khu trục hạm [13]

Khu trục hạm là một tàu chiến, chạy nhanh và rất cơ động, nó có khả năng

hoạt động lâu dài, bền bỉ trên đại dương. Tàu khu trục có nhiệm vụ chính là hộ

tống các tàu chiến lớn hơn trong một hạm đội, đoàn tàu vận tải hoặc một chiến

đoàn và bảo vệ chúng chống lại những đối thủ nhỏ tầm gần nhưng mạnh mẽ, đầu

tiên là những tàu phóng lôi và sau này là tàu ngầm và máy bay.

Các khu trục hạm mang hình dạng đặc trưng của một chiếc tàu chiến hiện

đại với mũi tàu sắc nhọn, bề ngang hẹp và phần đuôi cắt ngang; các khu trục

hạm đều có kích thước nhỏ hơn tuần dương hạm, độ dài của một khu trục hạm

dao động trong khoảng từ 140 - 170 m. Các khu trục hạm ngày nay đều được

trang bị tên lửa phòng không và tên lửa diệt hạm, các tên lửa này thường được

bố trí trải đều ở phần đầu, giữa và đuôi tàu. Buồng điều khiển, hệ thống radar và

ống xả nhiên liệu được bố trí ở phần giữa tàu, phần đuôi tàu thường là sàn đáp

trực thăng và nhà chứa máy bay. Ngoài ra trên khu trục hạm còn có các loại vũ

khí khác như pháo hạng trung, ngư lôi, dàn hỏa lực đánh lạc hướng và các loại

tàu nhỏ cơ động.

Có thể căn cứ vào hình dạng, kích thước, hệ thống tên lửa và các loại vũ

khí khác được trang bị trên tàu để nhận dạng khu trục hạm.

Hình 1. 8 Tàu khu trục

http://vi.wikipedia.org/wiki/T%C3%A0u_chi%E1%BA%BFn

http://vi.wikipedia.org/wiki/H%E1%BA%A1m_%C4%91%E1%BB%99i

http://vi.wikipedia.org/w/index.php?title=%C4%90o%C3%A0n_t%C3%A0u_v%E1%BA%ADn_t%E1%BA%A3i&action=edit&redlink=1

http://vi.wikipedia.org/w/index.php?title=Chi%E1%BA%BFn_%C4%91o%C3%A0n&action=edit&redlink=1

http://vi.wikipedia.org/w/index.php?title=Chi%E1%BA%BFn_%C4%91o%C3%A0n&action=edit&redlink=1

http://vi.wikipedia.org/w/index.php?title=T%C3%A0u_ph%C3%B3ng_l%C3%B4i&action=edit&redlink=1

http://vi.wikipedia.org/wiki/T%C3%A0u_ng%E1%BA%A7m

http://vi.wikipedia.org/wiki/M%C3%A1y_bay

16

1.4 Bộ CSDL tàu thuyền mẫu

1.4.1 Nguồn dữ liệu

Cơ sở dữ liệu mẫu tàu thuyền được trích xuất chính từ nguồn dữ liệu

Planet với độ phân giải 3m cho các kênh phổ nhằm đảm bảo thống nhất cũng

như đồng bộ về chất lượng ảnh, khả năng bao phủ hết các loại tàu thuyền quan

tâm.

Để đáp ứng nhu cầu của bài toán phân lớp tàu thuyền, việc thành lập một

bộ cơ sở dữ liệu về tàu là điều quan trọng và cần thiết. Để đạt được độ chính xác

cao trong việc huấn luyện dữ liệu thì số lượng tàu, thuyền thu thập cần có số

lượng lớn, đa dạng về chủng loại (lên tới vài trăm hay hàng nghìn mẫu tàu). Tuy

nhiên độ chính xác trong việc lấy mẫu tàu còn phụ thuộc vào nhiều yếu tố như

độ phân giải ảnh, kiến thức của hệ chuyên gia về lĩnh vực tàu thuyền. Việc thực

hiện thu thập cơ sở dữ liệu trên ảnh Planet gây một số khó khăn cho bản thân

trong việc xác nhận tàu thuyền có kích thước nhỏ.

Nếu như Google Earth cung cấp ảnh chụp các khu vực cảng biển có chất

lượng (độ phân giải cao) thì ảnh Planet lại phát huy lợi thế cung cấp ảnh cập

nhật thường xuyên, liên tục tại các cảng biển.

Hình 1. 9 Dữ liệu ảnh viễn thám Planet (trái), dữ liệu ảnh viễn thám Google

Earth (phải)

Bên cạnh nguồn dữ liệu ảnh viễn thám, dữ liệu AIS cũng là nguồn dữ liệu

hỗ trợ quan trọng trong việc xác định cũng như định danh tàu thuyền. Hệ thống

định danh tự động AIS là một hệ thống theo dõi phương tiện hàng hải tự động,

giúp cho các phương tiện tránh va trạm khi lưu thông hàng hải và được cung cấp

bởi dịch vụ giao thông tàu/thuyền Vessel traffic services (VTS). Khi sử dụng vệ

tinh để phát hiện tín hiệu AIS, thuật ngữ Satellite-AIS (S-AIS) được sử dụng.

Thông tin AIS bổ sung cho radar hàng hải và là phương pháp chính để tránh va

chạm.

17

Thông tin được cung cấp bởi thiết bị AIS bao gồm: thông tin định danh, vị

trí, hướng, tốc độ… được hiển thị trên thiết bị quan sát hải đồ và thông tin điện

tử (Electronic Chart Display and Information System - ECDIS). AIS trợ giúp

các nhân viên điều hành quan sát tàu; cho phép các cơ quan hàng hải theo dõi và

giám sát các hoạt động của tàu. AIS tích hợp một thiết bị thu phát VHF tiêu

chuẩn với một hệ thống định vị (như thiết bị GPS), với các cảm biến điều hướng

điện tử khác, chẳng hạn như một la bàn không từ tính (la bàn hồi chuyển). Các

tàu có thiết bị thu phát AIS được theo dõi bởi các trạm cơ sở AIS, đặt dọc tuyến

bờ biển; khi nằm ngoài phạm vi của mạng lưới trạm AIS mặt đất, thông tin AIS

sẽ được truyền qua vệ tinh với các máy thu AIS đặc biệt có khả năng giảm

chồng lấn tín hiệu.

1.4.2 Phƣơng pháp thu thập bộ dữ liệu tàu thuyền mẫu

Dữ liệu được sử dụng để xây dựng bộ CSDL tàu thuyền được thu thập

dựa trên kiến thức chuyên gia. Đó là việc sử dụng các phần mềm viễn thám để

xác định vị trí tàu trong ảnh. Các tàu này được phân loại dựa trên kiến thức

chuyên gia giải đoán hình ảnh. Quy tắc phân loại tàu thuyền được mô tả dưới

đây

Hệ tiêu chuẩn phân lớp tàu thuyền ICST 94 là hệ phân lớp cơ bản và rất

chi tiết cho phần lớn các loại tàu thuyền và công trình biển, cả dân sự lẫn quân

sự trên thế giới [12]. Tuy nhiên, hệ ICST 94 chỉ tập trung chính cho chủng loại

tàu thuyền dân sự và còn rất hạn chế trong việc mô tả và phân loại tàu quân sự,

chấp pháp. Để bù đắp khuyết điểm trên, luận văn đã kết hợp chuẩn ICST cùng

kiến thức của chuyên gia, đồng thời tham khảo thêm thông tin từ sách, tạp chí

quân sự và nhiều nguồn khác đã tiến hành xây dựng sơ đồ cây phân lớp tàu

thuyền như sau.

Hình 1. 10 Sơ đồ cây phân lớp tàu thuyền

18

Sơ đồ trên cho thấy cây phân lớp tàu thuyền được tổ chức thành ba mức.

Mức một là mức chỉ ra các đối tượng trên biển là tàu hoặc là các mục tiêu khác

không phải tàu thuyền. Sau khi xác định mục tiêu là tàu, ở mức tiếp theo (mức

hai) dựa vào các đặc trưng của từng đối tượng như cấu trúc, hình dạng hình học,

vai trò chức năng, nhiệm vụ của tàu để chia thành hai loại tàu ở cấp độ ngang

hàng nhau (Tàu quân sự, tàu dân sự). Với mức ba, luận văn đã chỉ ra cụ thể từng

loại, lớp tàu trong các nhóm tàu mức hai bao gồm tàu ngầm, tàu sân bay, tàu khu

trục, tàu vận tải, tàu dầu, tàu công-te-nơ. Các loại tàu ở mức ba được mô tả chi

tiết ở chương một.

1.4.3 Quy trình lấy mẫu dữ liệu

Hình 1. 11 Quy trình lấy mẫu tàu dựa trên kiến thức chuyên gia

Chi tiết quy trình lấy mẫu tàu dựa trên kiến thức chuyên gia, đồng thời sử

dụng các phần mềm hỗ trợ bao gồm:

Bước 1: Chọn các khu vực cảng biển nơi tập trung lượng lớn tàu thuyền,

sau đó tiến hành mở ảnh.

Bước 2: Khởi động công cụ lấy mẫu tàu.

Bước 3: Tiến hành lấy mẫu tàu bằng cách vẽ các đường bao xung quanh

đường biên tàu.

Bước 4: Dựa vào kiến thức chuyên gia, gán nhãn cho tàu thuyền.

Bước 5: Lưu lại kết quả

Công cụ sử dụng

Các ứng dụng được sử dụng trong việc gán nhãn dữ liệu dựa trên hệ

chuyên gia có thể kể đến ENVI [6] và LabelMe [4] [3]. Đây là hai ứng dụng gán

nhãn dữ liệu được sử dụng phổ biến trong ngành viễn thám và khoa học máy

tính. Trong quá trình thực hiện luận văn, chúng tôi sử dụng ứng dụng ENVI

trong việc thu thập và gán nhãn cơ sở dữ liệu tàu, một trong những yếu tố chính

ENVI được lựa chọn là do ứng dụng này được thiết kế để xử lý dữ liệu viễn

thám do vậy các thao tác sử dụng sẽ thuận tiện hơn các phần mềm xử lý ảnh gãn

nhãn thông thường.

19

Việc sử dụng ENVI trong vấn đề gán nhãn dữ liệu viễn thám đã phổ biến

từ lâu. Thứ tự quy trình thực hiện đã được trình bày chi tiết ở trên. Hình ảnh

minh họa cho từng bước thực hiện được mô tả như sau.

Chọn các khu vực cảng biển nơi tập trung lượng lớn tàu thuyền, sau

đó tiến hành mở ảnh và Khởi động công cụ lấy mẫu tàu

a) Khu vực nghiên cứu b) Chọn các khu vực có đối tượng quan tâm

Hình 1. 12 Mở dữ liệu ảnh và chọn khu vực nghiên cứu có đối tượng quan tâm

cần gán nhãn

Tiến hành lấy mẫu tàu bằng cách vẽ các đường bao xung quanh

đường biên tàu và dựa vào kiến thức chuyên gia, gán nhãn cho tàu

thuyền (xem Hình 1.13)

a) Chọn tàu thuyền cần gán nhãn b) Vẽ đường bao xung quanh, gán nhãn cho tàu

Hình 1. 13 Gán nhãn đối tượng quan tâm dựa trên việc vẽ đường bao xung

quanh

20

Chƣơng 2: Nghiên cứu một số thuật toán nhận dạng

tàu thuyền.

2.1 Nghiên cứu một số phƣơng pháp, thuật toán trích chọn

đặc trƣng

2.1.1 Mô hình Bag of Features

Mô hình Bag of Feature (BoF) là một dạng mô hình hay được sử dụng

trong phân loại hình ảnh hoặc phân loại văn bản. Ý tưởng chính của mô hình

này sẽ là trích xuất ra các đặc trưng của đối tượng, tổng hợp các đặc trưng giống

nhau lại và biểu diễn lại đối tượng theo số lượng các đặc trưng giống nhau đó.

Hình 2.1 sau sẽ mô tả phương pháp làm việc của BoF:

Hình 2. 1 Minh họa mô hình BoF (nguồn [9]).

Bước đầu tiên của BoF là trích xuất đặc trưng từ ảnh. Bước này có thể áp

dụng các thuật toán SIFT, SURF để đưa ra các đặc trưng từ hình ảnh. Toàn bộ

hình ảnh cho huấn luyện sẽ được tính toán và tổng hợp tất các đặc trưng tìm

được. Có thể hiểu bước này là thu thập tất cả các đặc trưng xuất hiện trong tập

huấn luyện.

21

Hình 2. 2 Minh họa các đặc trưng thu thập được (nguồn [9]).

Trong bước tiếp theo, BoF thực hiện việc tổng hợp các đặc trưng tìm được

thành các cụm có đặc điểm giống nhau. Bước này thường sử dụng các thuật toán

phân cụm như K-means. Các đặc trưng giống nhau sẽ được đưa vào các cụm

riêng vào thuật toán phân cụm này sẽ được dùng để mô tả các hình ảnh.

Hình 2. 3 Minh họa các đặc trưng được phân cụm (nguồn [9]).

Tóm lại, với mỗi hình ảnh, BoF sẽ mô tả lại chúng bằng cách thống kê số

lượng các đặc trưng xuất hiện trong ảnh. Mỗi hình ảnh sẽ có các đặc trưng riêng.

Dựa vào thuật toán phân cụm tìm được trong bước trước, một biểu đồ đặc trưng

sẽ được xây dựng để mô tả cho hình ảnh như ví dụ dưới đây:

Hình 2. 4 Biểu đồ đặc trưng (nguồn [9]).

Các biểu đồ này được thu gọn thành các vector đặc trưng mới cho hình

ảnh. Các vector đặc trưng này có thể sử dụng trong các thuật toán học máy như

SVM để thực hiện việc phân loại hình ảnh. Để hiểu sâu hơn về các thuật toán

trích chọn đặc trưng trong mô hình BoF, sau đây luận văn sẽ trình bày chi tiết về

thuật toán SIFT, SURF

22

Thuật toán SIFT

SIFT là một thuật toán trích xuất đặc trưng được sử dụng phổ biến trong

thị giác máy. SIFT được giới thiệu vào năm 1999 và đã được đăng ký sở hữu

bản quyền bởi David G. Lowe - một nhà khoa học người Canada [5]. SIFT được

sử dụng để tìm kiếm và mô tả các đặc trưng có trên hình ảnh xám. Thuật toán

của SIFT được thiết kế bao gồm các bước sau:

Bước 1: Tìm các điểm ứng viên trên hình ảnh ở các tỷ lệ khác nhau.

Bước 2: Lọc các điểm tìm được ở bước 1 để tìm các điểm là đặc trưng

(keypoint) của ảnh.

Bước 3: Định hướng cho các điểm đặc trưng (keypoint) tìm được.

Bước 4: Tính toán giá trị mô tả cho các đặc trưng.

Các đặc trưng tìm được từ thuật toán SIFT có đặc điểm là rất ít phụ thuộc

vào cường độ sáng, nhiễu, góc che khuất (vật thể bị che mất một phần), góc

xoay ảnh và góc chụp ảnh. Tuy nhiên, tốc độ của SIFT lại khá nhanh và có thể

đáp ứng nhu cầu chạy thời gian thực. SIFT đã được ứng dụng trong nhiều lĩnh

vực như nhận dạng vật thể qua ảnh, định vị và điều hướng robot, xây dựng mô

hình 3D, kiểm duyệt video, nhận dạng chuyển động của động vật hoang dã…

a) Tìm các điểm ứng viên

SIFT sử dụng thuật toán lọc theo tầng để tìm kiếm các điểm ứng viên (có

thể là đặc trưng trên ảnh). Để tìm các điểm trên, một phương pháp được đưa ra

là sử dụng một hàm liên tục biểu diễn không gian như hàm không gian tỷ lệ

(được giới thiệu lần đầu bởi Joel-Peter Witkin vào năm 1983). Ngoài ra, các

nghiên cứu của Koenderink (1984) và Lindeberg (1994) đã khẳng định hàm

Gaussian chính là hạt nhân (“kernel”) thích hợp nhất cho hàm không gian tỷ lệ

(“scale-space”). Kế thừa các nghiên cứu trên, công thức của hàm không gian tỷ

lệ trong SIFT được định nghĩa là L(x, y, σ) - có giá trị như công thức sau:

),(*),,(),,( yxIyxGyxL (2.1)

Trong đó:

G(x, y, σ) là hàm biến tỷ lệ Gaussian.

I(x, y) là giá trị của điểm ảnh.

Dấu * là phép nhân tích chập.

23

x, y là tọa độ trên ảnh.

Công thức của hàm biến tỷ lệ Gaussian được định nghĩa như sau:

( )

(

) ⁄ (2.2)

Để xác định vị trí các điểm ổn định trong không gian tỉ lệ, tác giả Lower

đã đề xuất tìm các điểm cực trị trong không gian tỉ lệ bằng cách xét sự khác biệt

trong tích chập của hàm Gaussian (“the difference-of-Gaussian function

convolved” hay được viết tắt là DoG) với hình ảnh, kí hiệu là D(x, y, σ). Hàm

DoG có thể tính được sự khác biệt của hai không gian tỉ lệ gần nhau thu được

bằng các nhân giá trị σ được sử dụng trong các thức trên với một hằng số k

không đổi. Cụ thể công thức của hàm DoG được định nghĩa như sau:

( ) ( ( ) ( )) ( )

( ) ( ) (2.3)

Theo đó, hình ảnh sẽ được làm mịn (bằng cách làm mờ với hàm

Gaussian) và sau đó được tính toán sự khác biệt giữa các mức làm mờ bằng cách

trừ cho nhau. Ví dụ minh họa cho sự làm mờ hình ảnh ở các mức khác nhau

được mô tả trong Hình 2.5.

Hình 2. 5 Minh họa các mức làm mờ khác nhau của hàm Gaussian.

Qua ví dụ có thẩy thấy hình ảnh thu được qua hàm Gaussian thay đổi khi

giá trị σ thay đổi. Tuy nhiên một số điểm trên hình ảnh vẫn ổn định qua nhiều

giá trị khác nhau của σ – đây chính là các điểm ứng viên cần tìm. Ngoài ra, để

24

tăng tốc quá trình tính toán, giá trị (G(x, y, kσ) - G(x, y, σ)) được tính xấp xỉ dựa

trên “the scale-normalized Laplacian of Gaussian” (nghiên cứu bởi Lindeberg

vào năm 1994) và mô tả bằng công thức như sau:

( ) ( ) ( ) (2.4)

Tổng quan lại, hình ảnh sẽ được áp dụng tích chập với hàm Gaussion với

giá trị σ cơ bản (thường là 1.6) thay đổi bằng cách nhân với một hằng số k.

Ngoài ra, hình ảnh được xét trong các đoạn (“octave”). Mỗi đoạn này sẽ tương

ứng với tỉ lệ hình ảnh bị giảm đi 1 nửa (bằng cách tăng gấp đôi giá trị của σ so

với đoạn trước) và đầu ra của mỗi đoạn sẽ là đầu vào của đoạn tiếp theo. Hằng

số k thường được sử dụng là và số hàm Gaussian cho đoạn của hình ảnh sẽ là

5. Ví dụ, đoạn đầu tiên sẽ có các giá trị σ là σ, σ, 2σ, 2 σ và 4σ. Sau đó

các ảnh thu được ở các mức liền kề (có thể gọi là ảnh kề mờ) sẽ trừ đi cho nhau

và kết quả thu được là 4 ảnh ngưỡng như minh họa trong hình dưới. Mô hình

này được gọi là kim tự tháp ảnh.

Hình 2. 6 Mô hình kim tự tháp ảnh trong SIFT (nguồn [5]).

Trên các ảnh ngưỡng thu được trong mỗi đoạn, ta thực hiện xét giá trị mỗi

điểm ảnh với các điểm ảnh xung quanh nó để tìm được các điểm ứng viên. Quy

tắc so sánh như sau: giá trị của một điểm ảnh tại một ảnh ngưỡng sẽ được so

sánh với 8 điểm xung quanh tại ảnh ngưỡng đó và so với 9 giá trị tại 2 ảnh

ngưỡng liền kề trên và dưới – tổng cộng là 26 điểm (minh họa trong hình dưới).

25

Nếu điểm ảnh đó có giá trị lớn nhất hoặc nhỏ nhất so với các điểm cần xét thì sẽ

được coi là một điểm ứng viên.

Hình 2. 7Minh họa cách lấy điểm để xét cực trị với vị trí x là điểm đang xét

(nguồn [5]).

b) Chọn lọc các điểm ứng viên và định hướng cho các điểm đặc trưng

Các điểm ứng viên sẽ được lọc để tìm ra các điểm đặc trưng của hình ảnh.

Tiêu chí lọc sẽ là loại bỏ các điểm có độ tương phản thấp (dẫn đến dễ bị ảnh

hưởng bởi nhiễu) và các điểm được định vị dọc theo các cạnh.

Trong phiên bản đầu tiên (được đề xuất bởi Lower - 1999), thuật toán để

xác định các điểm đặc trưng chỉ đơn giản là dựa vào vị trí và tỉ lệ của các điểm

mẫu ở trung tâm hình ảnh. Sau đó, vào năm 2002, Lower và Brown đã cải tiến

phương pháp cũ và đưa ra một phương pháp xác định mới. Phương pháp mới áp

dụng một hàm 3D bậc hai cho các điểm mẫu cục bộ để xác định vị trí nội suy

của điểm cực đại (“The interpolated location of the maximum”). Theo đó, biểu

diễn Taylor của hàm không gian tỉ lệ D(x, y, σ) được sử dụng để đưa gốc tọa độ

về vị trí điểm mẫu. Công thức được sử dụng như sau:

( )

(2.5)

Trong đó, D và các đạo hàm được ước tính tại điểm mẫu. X = ( ) là

phần bù từ điểm mẫu đang xét. Vị trí của điểm ứng viên, , được xác định bằng

cách cho đạo hàm theo X của công thức trên bằng 0. Theo đó, được tính bằng

công thức:

(2.6)

26

Sau đó, hàm giá trị của ứng viên, D( ), được sử dụng để loại bỏ các điểm

đặc trưng có độ tương phản thấp. D( ) có công thức như sau:

( )

(2.7)

Nếu giá trị của |D( )| nhở hơn 0.03, điểm ứng viên sẽ bị loại bỏ (với giả

định giá trị các điểm ảnh chỉ trong khoảng [0, 1]). Sau khi loại bỏ các điểm có

độ tương phản thấp, các điểm ứng viên dọc theo các cạnh sẽ được loại bỏ. Lí do

phải loại bỏ các điểm này vì hàm DoG có phản hồi cao cới các cạnh so với các

vị trí khác. Sift sử dụng một phương pháp tương tự thuật toán tìm góc Harris

(“Harris Corner Detector”). Trong đó, ma trận Hessian, H, được sửa dụng để

tính toán tại vị trí và tỉ lệ của các điểm ứng viên. H được định nghĩa như sau:

[

] (2.8)

Trong đó, là đạo hàm bậc hai của D theo x, là đạo hàm của đạo

hàm của D theo x theo y và tương tự với hai giá trị còn lại. Giá trị riêng của ma

trận H tỉ lệ thuận với độ cong chính của D. Độ cong chính của D đại diện cho

giá trị cạnh trên hình ảnh. Điều này có nghĩa là giá trị này càng lớn thì điểm ứng

viên đang xét càng gần cạnh. Thay vì tính toán cụ thể giá trị riêng của H, ta chỉ

cần quan tâm đến tỉ lệ độ lớn của nó. Gọi α là giá trị riêng lớn nhất, β là một giá

trị riêng nhỏ hơn. Ta có thể tính tổng của các giá trị riêng theo định thức:

( )

( ) ( ) (2.9)

Gọi r là tỉ lệ của α và β thì ta có α = rβ. Áp dụng hai công thức bên trên, ta

được:

( )

( ) ( )

( )

( )

(2.10)

Công thức trên không phụ thuộc vào một giá trị riêng cụ thể nào của ma

trận H mà chỉ phụ thuộc vào tỉ lệ giữa chúng. Để xác định một điểm ứng viên

đang xét không thuộc cạnh, ta tính các giá trị của ma trận H và tính r. Nếu r càng

bé chứng tỏ điểm càng xa cạnh. Theo như tác giả, giá trị r nên bằng 10.

Sau khi đã lọc bỏ các điểm ứng viên không phù hợp, các điểm còn lại sẽ

được coi là các điểm đặc trưng và được gắn hướng. Việc gắn hướng sẽ dựa trên

sự thay đổi giá trị điểm ảnh tại vị trí đang xét. Điều này làm mất bớt thông tin

của hình ảnh nhưng sẽ giúp các điểm đặc trưng này trở nên bất biến khi hình ảnh

27

bị xoay. Phương pháp là xét trên mỗi tỉ lệ của hình ảnh, một số điểm lân cận của

điểm đặc trưng sẽ được chọn (tùy thuộc vào tỉ lệ đang xét) để tính giá trị độ dốc

và hướng của chúng. Với mỗi hình ảnh, L(x, y), xét ở một tỉ lệ, cường độ độ

dốc, m(x, y), và hướng θ(x, y) được tính theo công thức sau:

( ) √( ( ) ( )) ( ( ) ( )) (2.11)

( ) (( ( ) ( )) ( ( ) ( ))

Biểu đồ định hướng cho điểm đặc trưng được xây dựng dựa trên hướng

của các điểm xung quanh nó. Biểu đồ này bao gồm 10 cột biểu diễn giá trị góc

từ 0 – 360 như Hình 2.8.

Hình 2.8 Minh họa biểu đồ định hướng.

Các giá trị góc của các điểm xung quanh được đưa vào biểu đồ sẽ được

nhân thêm với trọng số - bao gồm độ lớn độ dốc của điểm đó và được nhân với

một cửa sổ tròn trọng số Gaussian với giá trị σ sẽ bằng 1.5 lần giá trị σ của ảnh tỉ

lệ đang xét. Trong biểu đồ, cột có giá trị lớn nhất sẽ được xác định. Sau đó các

cột có độ lớn lớn hơn 80% của cột đang xét sẽ được xác định theo. Với mỗi cột

thỏa mãn điều kiện trên, một điểm đặc trưng sẽ được tạo ra với hướng tương ứng

với giá trị góc mà cột đó biểu diễn. Cơ chế hoạt động của thuật toán được mô tả

trong hình dưới đây. Trong bước này, một điểm đặc trưng đang xét, ta có thể xác

định được nhiều điểm đặc trưng với các hướng khác nhau. Điều này giúp các

điểm đặc trưng bất biến với sự thay đổi việc hình ảnh bị xoay. Hình 3.9 sẽ ví dụ

kết quả hoạt động của bước này. Trong đó a) Hình ảnh gốc có kích thước

233x189, b) 832 điểm ứng viên được gắn hướng, c) 729 điểm còn lại sau khi lọc

các điểm có độ tương phản thấp, d) 536 điểm còn lại sau khi lọc các điểm gần

cạnh.

28

Hình 2.9 Minh họa bước lọc và gắn hướng cho điểm đặc trưng (nguồn [5]).

c) Mô tả điểm đặc trưng

Trong các bước trên, ta đã tìm và tính toán các điểm đặc trưng cho hình

ảnh. Trong bước tiếp theo, chúng ta sé tính toán mô tả có các khu vực đặc trưng

bất biến tốt nhất có thể với sự thay đổi của hình ảnh. Một các đơn giản là lấy

mẫu cường độ các điểm xung quanh của các điểm đặc trưng đã tìm được. Tuy

nhiên phương pháp này có hạn chế là sự thay đổi của hình ảnh có thể gây sai

lệch. Một cách tiếp cận tốt hơn đã được Edelman, Intrator và Poggio (1997) đưa

ra và chứng minh. Họ dựa trên cách thị giác của con người hoạt động. Trong đó,

các tế bào thần kinh trên võng mạc con người sẽ chỉ phản ứng ánh sáng ở một vị

trí và hướng cụ thể. Sau đó các tín hiệu này sẽ được chuyển về các nơ-ron phía

sau để xử lý mà không cần phải xác định vị trí cụ thể của ánh sáng đó. Qua đó,

chúng ta tiếp thu được hình ảnh bằng cách khớp lại các tín hiệu ở nhiều vị trí

khác nhau của vật thể. Áp dụng cách tổng hợp này, thuật toán SIFT sẽ mô tả đặc

trưng của hình ảnh thông qua thuật toán được mô tả trong Hình 2.10:

29

Hình 2.10 Mô tả điểm đặc trưng (nguồn [5]).

Một bộ mô tả điểm chính được tạo bằng cách tính toán độ lớn và hướng

của độ dốc tại 16x16 điểm mẫu hình ảnh trong một khu vực xung quanh vị trí

điểm chính. Trong 16x16 điểm được chia thành 4 khu vực con 8x8 điểm. Mỗi

khu vực đó được nhân với trọng số Gaussian (như đề cập trong phần trước) mô

tả bằng hình tròn. Mỗi khu vực con 8x8 được biểu diễn lại bằng 1 ma trận 2x2

như trong hình phía dưới bên phải. Trong đó, mỗi ô sẽ biểu diễn một khu vực

con 4x4 trong khu vực con 8x8. Độ lớn các mũi trên trong ô đó tương ứng với

tổng giá trị của các hướng tương tự trong ma trận con 4x4 mà nó biểu diễn.

Thông thường, số lượng mũi tên được biểu diễn trong mỗi ô sẽ là 8. Tổng cộng

lại, ta sẽ có 1 vector 4x2x2x8=128 chiều biểu diễn cho mỗi đặc trưng.

30

Thuật toán SURF

Trong chương trước, chúng tôi đã giới thiệu về thuật toán SIFT để phát

hiện và mô tả các điểm đặc trưng của hình ảnh. Tuy nhiên, nhược điểm dễ thấy

nhất của SIFT là tương đối chậm và cần được cải thiện. Năm 2006, ba người nhà

khoa học Herbert Bay, Tinne Tuytelaars, Luc Van Gool đã giới thiệu một

phương pháp mới SURF – “Speeded Up Robust Feature” [8]. Đây là một thuật

toán được cải thiện từ SIFT để cho thời gian thực thi chỉ bằng khoảng một phần

ba so với SIFT. Điểm khác biệt nhất của SURF so với SIFT bao gồm việc tìm

kiếm điểm ứng viên, định hướng và mô tả điểm đặc trưng. SURF được ứng dụng

trong các linh vực tương tự SIFT.

a) Tìm các điểm ứng viên

Đầu tiên, thuật toán SURF sử dụng một khái niệm mới gọi là máy dò

nhanh Hessian (Fast-Hessian Detector). Thuật toán sẽ đựa trên ma trận Hessian

để tìm kiếm các điểm đặc trưng. Trong SIFT, các phép tính toán sự khác biệt

được dùng để tìm các điểm đặc trưng và ma trận Hessian được dùng để biểu

diễn các điểm đặc trưng và lọc các điểm có độ tương phản thấp. Thay vì vậy,

trong SURF, ma trận Hessian được sử dụng cho cả hai nhiệm vụ trên. Với một

điểm ảnh X = (x, y) trong ảnh I, ma trận Hessian của ( ) tại tỉ lệ σ được

định nghĩa là:

( ) [ ( ) ( )

( ) ( )] (2.12)

Trong đó, Trong đó, là đạo hàm bậc hai của L theo x, là đạo hàm

của đạo hàm của L theo x theo y và tương tự với hai giá trị còn lại. L là công

thức của hàm không gian tỷ lệ Gaussian như đã giới thiệu trong SIFT. Hàm

Gaussian được tối ưu để phân tích không gian tỉ lệ. Tuy nhiên, trong thực tế, các

giá trị thu được từ hàm Gaussian không phải luôn có ý nghĩa và cần lọc bỏ bớt.

Vì vậy, thay vì dùng các bộ lọc Gaussian, SURF sử dụng một bộ lọc mới có tên

gọi là bộ lọc hộp (“Box Filter”).

Hình 2.11 Minh họa phương pháp xấp xỉ của bộ lọc hộp (nguồn [8]).

31

Hai hình bên trái thể hiện hình ảnh được tính từ hàm Gaussian, và 2 hình

bên trái là kết quả thu được từ bộ lọc hộp 9x9. Các ô màu xám sẽ có giá trị 0

Hình 2.11 là kết quả khi áp dụng bộ lọc hộp để xấp xỉ đạo hàm bậc 2 của

Gaussian với σ = 1.2 biểu diễn cho tỉ lệ không gian cao nhất trong SURF (trong

SIFT là 1.6). Sau khi xấp xỉ, các giá trị kết quả được giữ đơn giản để thuận lợi

hơn trong quá trình tính toán. Để cân bằng định thức của ma trận Hessian, trong

số cần được thêm vào trong quá trình tính. Cụ thể công thức sẽ như sau:

| ( )| | ( )|

| ( )| | ( )| (2.13)

( ) ( )

Trong đó, | | là chuẩn Frobenius của A và D chính là hàm DoG tương

tự trong SIFT. Các ảnh được xét theo mô hình kim tự tháp tương tự như trong

SIFT. Tuy nhiên, trong SIFT, các tỉ lệ thấp hơn của hình ảnh phải được tính toán

từ ảnh tỉ lệ trước đó của ảnh. Thay vì vậy, thuật toán SURF có thể áp dụng bộ

lọc có kích thước bất kì và tính toán chính xác trên ảnh gốc. Do đó, không gian

tỉ lệ được phân tích nhờ việc tăng kích thước bộ lọc thay vì giảm tỉ lệ hình ảnh

bằng cách tăng giá trị σ qua mỗi đoạn như trong SIFT. Trong ví dụ bên trên, bộ

lọc 9x9 được áp dụng cho lớp tỉ lệ ban đầu mà trong SURF gọi là thang đo s =

1.2 (tương ướng với hàm Gaussian sử dụng σ = 1.2). Để phân tích các ảnh có tỉ

lệ thấp hơn, các bộ lọc có thể sử dụng sẽ là 9×9, 15×15, 21×21, 27×27… Thực

tế, các bộ lọc cũng liên tiếp cũng nên chia tỉ lệ tương ứng.Việc tỷ lệ các bộ lọc

được giữ nguyên nên giá trị của chuẩn Frobenius trong công thức bên trên cũng

không thay đổi. Ví dụ bộ lọc 9x9 tương ứng với thang đo s= 1.2, bộ lọc 27x27 sẽ

tương ứng với thang đo s = 3*1.2=3.6. Để tìm kiếm các điểm ứng viên, phương

pháp xét cực trị với 3x3x3 các điểm xung quanh như trong SIFT được áp dụng.

b) Định hướng

SURF sử dụng phản ứng con sóng (Haar-wavelet) theo chiều x và y cho

các điểm trong một hình tròn bán kính bằng 6*s quanh điểm đặc trưng. Các giá

trị này cũng được nhân trọng số với hàm Gaussian σ = 2.5s). Phản ứng con sóng

được tính theo minh dọa Hình 2.12 dưới đây:

32

Hình 2.12 Ví dụ về phản ứng con sóng.

Khác với SIFT, SURF không biểu diễn các điểm xung quanh thành biểu

đồ sử dụng hình tròn (tương ứng với các điểm lấy mẫu) để biểu diễn. Giá trị mỗi

hướng sẽ là tổng các giá trị thu được được từ phản ứng con sóng. Hướng ưu thế

sẽ là hướng có tổng các giá trị trên biểu đồ trong một góc ±15 lớn nhất (ví dụ

trong hình dưới đây):

Hình 2.13 Ví dụ về biểu đồ hướng trong SURF (nguồn [10]).

c) Mô tả điểm đặc trưng

Để mô tả đặc trưng, bước đầu tiên bao gồm xây dựng một vùng hình

vuông xoay quanh điểm ứng viên và được định hướng dọc theo hướng được

chọn trong phần trước. Kích thước cụ thể được sử dụng là 20s. Hình dưới minh

họa các vùng đặc trưng cần xét.

33

Hình 2.14 Minh họa các vùng đặc trưng (nguồn [8]).

Từ một khu vưc 20sx20s ban đầu sẽ được chia làm 4x4 các vùng nhỏ.

Trong mỗi vùng nhỏ này, phản ứng sóng ngang và dọc sẽ được tính và gọi là dx

và dy. Hướng ngang và dọc sẽ được xác định dựa theo hướng của điểm đặc

trưng đang xét. Để tăng độ bất biến đối với biến dạng hình học và lỗi cục bộ, các

đáp ứng dx và dy được đặt trọng số với một hàm Gaussian (σ = 3,3s) tính từ vị

trí điểm đặc trưng đang xét. Sau đó, các phản ứng sóng này được tổng hợp qua

từng tiểu vùng và tập hợp lại thành vec tơ đặc trưng biểu diễn cho điểm đặc

trưng. Để biểu diễn sự thay đổi của cường độ, giá trị tuyệt đối của dx và dy cũng

được sử dụng. Do đó, mỗi tiểu vùng có vectơ mô tả bốn chiều v cho cấu trúc

cường độ cơ bản v = (dx, dy, | dx |, | dy |). Điều này dẫn đến một vectơ mô tả

cho tất cả các 4 × 4 vùng con có độ dài 64. Ngoài phiên bản cho vector đặc

trưng dài 64, SURF có một phiên bản cho vector đặc trưng dài 128. Trong đó

các giá trị dx và dy vẫn được sử dụng như cũ nhưng các giá trị này được tính

chia ra theo điều kiện. Trong đó, dx và |dx| được chia ra theo điều kiện dy < 0

hoặc dy >= 0 và dy và |dy| được chia ra theo điều kiện dx < 0 hoặc dx >= 0.

Hình 2.15 Ví dụ giá trị của các thuộc tính trong SURF trong mỗi trường hợp ảnh

(nguồn [8]).

34

2.1.2 Thuật toán Local Binary Patterns

LBP là thuật toán trích xuất đặc trưng kết cấu trên ảnh xám được đề xuất

bởi Ojala và các cộng sự. LBP được sử dụng rộng rãi trong xử lý hình ảnh - đặc

biệt là trong nhận dạng khuôn mặt [17]. Ban đầu, LBP được tính toán bằng cách

tại mỗi điểm của hình ảnh, ta xét 8 điểm xung quanh điểm đang xét. Lấy giá trị

của điểm đang xét là ngưỡng giá trị. Các điểm xung quanh có giá trị nhỏ hơn

ngưỡng sẽ được đánh dấu là 1 và nếu nhỏ hơn ngưỡng sẽ được đánh dấu là 0.

Sau đó, các giá trị sau khi tính ngưỡng (0 hoặc 1) sẽ được nhân với ma trận

trọng số và được sử dụng để tính giá trị LBP của điểm trung tâm đang xét.

Phương pháp hoạt động của LBP được mô tả trong hình 2.16.

Hình 2.16 Minh họa các hoạt động của thuật toán LBP đầu tiên (nguồn [15]).

Tuy nhiên, phương pháp này sẽ khiến các đặc trưng của LBP không quá

ổn định và biểu diễn được các đặc trưng quá lớn. Vì vậy Ojala đưa ra một

phương pháp để cải tiến thuật toán này. Theo đó, trong một hình ảnh xám, các

điểm lân cận không được lấy mẫu theo 8 điểm xung quanh mà sẽ là một tập hợp

các điểm thuộc đường tròn với điểm đang xét là tâm. Gọi (P, R) là một vùng lân

cận gồm P điểm trên một đường tròn có bán kính R. T là đặc điểm kết cấu của

vùng lân cận, T được kí hiệu là:

( ) (2.14)

Trong đó, và ( ) là giá trị trên ảnh xám của điểm trung

tâm và các điểm trên đường tròn bán kính R. Các lấy điểm mẫu được ví dụ trong

hình sau:

35

Hình 2.17 Mô tả cách lấy mẫu tron LBP cải thiện (nguồn [15]).

Khi tăng bán kính lấy mẫu, mối tương quan giữa các điểm ảnh giảm dần.

Hầu hết thông tin về kết cấu thì cần lấy trong các bán kính nhỏ (thường là một

hoặc 2). Để tính toán thông tin, giá trị của các điểm ảnh lấy mẫu sẽ trừ đi giá trị

của điểm ảnh trung tâm, khi đó:

( ) (2.15)

Do giá trị gốc của điểm ảnh gốc chỉ thể hiện cường độ sáng tại điểm đó và

không liên quan nhiều đến kết cấu, ta có thể viết công thức trên thành:

( ) (2.16)

Công thức trên vẫn sẽ bị ảnh hưởng khi giá trị của các điểm ảnh trong

công thức tăng hoặc cùng giảm. Vì vậy, để làm cho định nghĩa kết cấu không bị

thay đổi, ta chuẩn hóa các giá trị của công thức trên như sau:

( ( ) ( )) (2.17)

( ) {

Sau đó, giá trị biểu diễn kết cấu cục bộ xung quanh điểm đang xét sẽ được

tính toán như sau:

∑ ( )

(2.18)

Đến đây, công thức vẫn tương tự như phần đầu. Nhưng có một vấn đề là

nếu số điểm lân cận được xét quá lớn, giá trị đặc trưng cho kết cấu sẽ tăng quá

cao. Điều này gây cản trở cho việc khai thác và phân loại kết cấu. Để giải quyết

vấn đề này, Ojala đã giới thiệu mẫu đồng phục – “Uniform patterns”. Theo đó,

xét một dãy nhị phân (chỉ có 0 và 1), nếu dãy có ít hơn hoặc bằng hai thay đổi

thì được gọi là mẫu đồng phục. Ví dụ: 00000000 (không thay đổi), 00111000

(hai thay đổi) là mẫu đồng phục và 01001100 (4 thay đổi), 01010101 (7 thay

36

đổi) không phải mẫu đồng phục. Để kiểm tra một mẫu kết cấu có phải là mẫu

đồng phục hay không, công thức sau được áp dụng:

( ) | ( ) ( )| ∑ | ( ) (

)| (2.19)

Khi U nhỏ hơn hoặc bằng 2, mẫu kết cấu được gọi là mẫu đồng phục. Các

mẫu còn lại sẽ được gọi là mẫu lai và có chung giá trị. Do đó, giá trị của biểu

diễn mẫu sẽ được giảm đi đáng kể. Ví dụ: với 8 điểm lân cận, giá trị biểu diễn

mẫu được giảm xuống từ 256 xuống 58. Sau đây là công thức tính mẫu đồng

phục:

{

∑ ( ) ( )

(2.20)

Ngoài ra, để đạt được bất biến khi ảnh bị xoay, một hàm bất biến xoay

của LBP được định nghĩa như sau:

( (

) ) (2.21)

Trong đó, ROR là hàm quay. Hàm này sẽ thay đổi chuỗi nhị phân thu

được từ các điểm mẫu lần lượt. Sau khi tính toán hết giá trị LBP cho mỗi chuỗi,

giá trị nhỏ nhất sẽ được chọn để biểu diễn mẫu kết cấu đó. Hình dưới mô tả một

hình ảnh qua xử lý bằng LBP

Hình 2. 18 Minh họa kết quả thu được qua thuật toán LBP

2.2 Nghiên cứu phƣơng pháp, thuật toán phân lớp tàu

thuyền.

Thuật toán SVM là một thuật toán học máy huấn theo có giám sát. Thuật

toán SVM ban đầu được tìm ra bởi Vladimir N. Vapnik và dạng chuẩn hiện nay

sử dụng lề mềm được tìm ra bởi Vapnik và Corinna Cortes năm 1995. Khác với

K-means, dữ liệu trước khi đưa vào SVM phải được gắn nhãn. Nhiệm vụ của

SVM sẽ là phân chia tập dữ liệu dựa theo các nhãn đó. SVM có thể được sử

dụng trong bài toán phân loại hoặc đệ quy [11].

37

Bài toán của SVM đặt ra như sau, cho một tập dữ liệu được biểu diễn

trong một không gian nhiều chiều. Giả sử tập dữ liệu là khả tách tuyến tính. Hãy

tìm ra siêu phẳng có thể chia tập dữ liệu ra làm hai phần (phân loại nhị phân) và

thỏa mãn điều kiện khoảng cách từ điểm gần nhất của mỗi tập đến siêu phẳng đó

là lớn nhất. Gọi tập dữ liệu huấn luyện là ( ), ( ), …, ( ) với x là

dữ liệu và y là nhãn của dữ liệu tương ứng. Giả sử y chỉ nhận giá trị 1 hoặc -1

(bài toán phân loại nhị phân) và dữ liệu có thể biểu diễn trên một không gian hai

chiều. Ta có thể hình dung dữ liệu huấn luyện như sau:

Hình 2.19 Ví dụ dữ liệu trong SVM (nguồn [11]).

Trong hình, các điểm màu xanh và đỏ biểu diễn 2 class 1 và -1. Đường

thẳng x + b = + + b = 0 là đường thẳng ta cần tìm để phân tách

hai tập dữ liệu. Với 1 điểm dữ liệu ( , ) bất kỳ, ta có khoảng cách từ điểm đó

đến đường thẳng phân tách là:

( )

‖ ‖ (2.22)

Khi này, lề – “margin” được định định nghĩa là khoảng cách của điểm gần

nhất đến đường thẳng. Ta có công thức tính lề như sau:

(

)

‖ ‖ (2.23)

Nhiệm vụ của bài toán SVM là tìm w và b để giá trị của lề là lớn nhất, ta

có mô tả toán học của SVM như sau:

38

( ) { (

)

‖ ‖ } {

‖ ‖ (

)}

(2.24)

Ta có thể giả sử:

( ) (2.25)

Trong đó dấu bằng xảy ra tại các điểm gần đường thẳng nhất. Bài toán tối

ưu của SVM có thể được mô tả như sau:

( )

‖ ‖

( ) (2.26)

Mục tiêu của bài toán là dạng chuẩn 2 của w nên là một hàm lồi. Các hàm

bất đẳng thức ràng buộc là hàm tuyến tính của w và b nên cũng là một hàm lồi.

Đây là một bài toán lồi. Đây là một dạng bài toán được gọi là Quadratic

Programming. Bài toán này theo lý thuyết sẽ có nghiệm duy nhất và có thể giải

được bằng một số thư viện hỗ trợ giải bài toán Quadratic Programming. Tuy

nhiên việc giải theo cách này trở nên khó khăn và phức tạp nếu số lượng và số

chiều dữ liệu tăng lên. Thay vào đó, bài toán này hay được giải theo phương

pháp giải bài toán đối ngẫu của nó. Sau khi giải được bài toán, ta có thể xác định

nhãn cho các điểm dữ liệu mới bằng công thức sau:

( ) ( ) (2.27)

Trong đó hàm sgn là hàm xác định dấu, nhận giá trị 1 nếu đối số là không

âm và -1 nếu ngược lại.

Hiểu một cách đơn giản, thuật toán SVM có mục đích tìm một mô hình có

thể phân chia tập dữ liệu ra các miền sao cho dữ liệu trong các miền đó cùng

một nhãn nhiều nhất có thể. Tuy nhiên nếu chỉ có điều kiện trên thì có thể có rất

nhiều mô hình thỏa mãn và trong số đó có rất nhiều mô hình không phải là tốt

nhất. SVM thêm một điều kiện là “khoảng cách” từ điểm gần nhất đến mô hình

là lớn nhất có thể. Khoảng cách này chính là lề. Lề càng lớn thì mô hình sẽ càng

phân tách dữ liệu và dự đoán các dữ liệu chưa xuất hiện tốt hơn. Hay nói một

cách khác, lề chính là thể hiện của việc mô hình có thể dự đoán các loại dữ liệu

một cách “công bằng” và chịu nhiễu tốt hay không.

39

Hình 2.20 So sánh các mô hình.

Ta có thể thấy, đường mô hình trong hình bên phải (lề lớn) tốt hơn rất

nhiều so với đường mô hình trong hình bên trái (lề nhỏ). Trong hình biên trái,

đường mô hình bị lệch rất nhiều về bên xanh kiến cho các điểm màu xanh không

xuất hiện trong huấn luyện dễ bị nhận nhầm sang màu đỏ hơn. Với hình bên

phải, đường mô hình nằm chính giữa hai tập dữ liệu. Đây là lề lớn nhất có thể

đạt được và cũng là đường mô hình tốt nhất để phân chia hai tập dữ liệu. Trong

huấn luyện, SVM định nghĩa một siêu tham số gọi là C. Tham số này đại diện

cho việc huấn luyện ưu tiên mô hình sẽ phân loại chính xác các điểm dữ liệu hay

ưu tiên tìm được mô hình có lề lớn nhất có thể hơn. Ban đầu, thuật toán SVM

được xác định bằng lề cứng, tức là bắt buộc toàn bộ dữ liệu phải được chia chính

xác. Tuy nhiên trong thực tế, rất ít khi tồn tại một bộ dữ liệu có thể thõa mãn

điều kiện này. Từ đó khái niệm SVM lề mềm được đưa ra. Theo đó, thuật toán

SVM sẽ cho phép chấp nhận một số điểm không được chia chính xác tuyệt đối.

Điều này giúp thuật toán có thể áp dụng với các bài toán trong thực tế. Và khi

này, tham số C sẽ rất có ý nghĩa trong việc điều kiển việc huấn luyện ưu tiên

điều kiện phân loại đúng các điểm dữ liệu hay ưu tiên khả năng chịu nhiễu và dự

đoán các dữ liệu chưa xuất hiện.

Hình 2.21 Ví dụ kết quả thuật toán SVM (hình bên trái là lề cứng và hình bên

phải là lề mềm).

Trong các ví dụ trên, mô hình được nhắc đến đều là một đường thẳng.

Tuy nhiên trong thực tế, mặt phẳng phân tách dữ liệu không đơn giản là đường

40

thẳng mà có thể là các phương trình phức tạp hơn (ví dụ đường cong, hình

tròn…). Đây là một siêu tham số cần lựa chọn khi huấn luyện mô hình và được

gọi là lõi (“kernel”). Mỗi loại lõi có thể cho kết quả tốt nhất với từng trường hợp

dữ liệu cụ thể.

Hình 2.22 Một số ví dụ về lõi của SVM.

Thuật toán SVM không chỉ thực hiện được nhiệm vụ phân loại nhị phân

(hai loại nhãn). Trong thực tế, SVM được sử dụng để xử lý bài toán có rất nhiều

nhãn. Có hai chiến lược giúp SVM làm được điều này. Chiến lược đầu tiên là

một đấu một. SVM sẽ xây dựng nhiều mô hình để phân loại cho từng cặp nhãn

cần xem xét. Sau đó, để dự đoán nhãn cho một dữ liệu mới. Các mô hình này sẽ

cùng bỏ phiếu và chọn ra nhãn thích hợp nhất. Chiến lược tiếp theo là một đấu

tất cả phần còn lại. Tương tự như chiến lược trước, SVM cũng xây dựng nhiều

mô hình nhưng theo thứ tự. Đầu tiên, một mô hình sẽ phân loại một loại nhãn

với tất cả các nhãn còn lại. Tiếp tục, nhãn đã được phân loại sẽ được đưa ra

ngoài và một mô hình sẽ phân loại một nhãn tiếp theo với số nhãn còn lại. Lặp

lại việc huấn luyện như vậy đến nhãn cuối cùng và tất cả các nhãn sẽ được phân

loại. Điểm chung của cả hai chiến lược trên là sẽ đưa bài toán phân loại nhiều

nhãn về các bài toán phân loại nhị phân nhỏ hơn và dùng SVM để xử lý.

41

Chƣơng 3: Ứng dụng phân lớp tàu thuyền ở cảng

biển Việt Nam trên ảnh viễn thám

3.1 Phƣơng pháp đề xuất

Hiện nay, có rất nhiều phương pháp để giải quyết bài toán phân lớp hình

ảnh như: K người láng giềng gần nhất, cây quyết định, máy hỗ trợ vector

(SVM)…Tuy nhiên, dựa trên kết quả thực nghiệm …đã cho thấy sử dụng

phương pháp SVM vào bài toán phân lớp hình ảnh cho kết quả rất khả quan.

Phần tiếp theo luận văn sẽ áp dụng mô hình SVM cho bài toán phân lớp tàu

thuyền trên ảnh vệ tinh. Các bước trong quá trình phân lớp tàu thuyền được thực

hiện như sau:

Hình 3. 1 Sơ đồ quá trình phân lớp tàu thuyền

Theo đó, từ một bộ dữ liệu ảnh ban đầu, ta sẽ thu được 5 bộ dữ liệu mới

(tương ứng với các cách trích xuất đặc trưng khác nhau). Kí hiệu của các bộ dữ

liệu sẽ được đánh dấu như sau:

- Dataset 1: Đặc trưng thu được bằng mô hình BOF và thuật toán SIFT.

- Dataset 2: Đặc trưng thu được bằng mô hình BOF và thuật toán SIFT kết

hợp với đặc trưng thu được từ thuật toán LBP.

- Dataset 3: Đặc trưng thu được từ thuật toán LBP.

42

- Dataset 4: Đặc trưng thu được bằng mô hình BOF và thuật toán SUFT

kết hợp với đặc trưng thu được từ thuật toán LBP.

- Dataset 5: Dữ liệu thu được bằng mô hình BOF và thuật toán SUFT.

3.1.1 Bộ cơ sở dữ liệu đầu vào

Trước khi dữ liệu được đưa vào huấn luyện các dữ liệu ảnh viễn thám về

tàu thuyền được tiến hành xử lý sơ bộ theo một quy trình cụ thể nhằm tăng

cường chất lượng, độ chính xác cho dữ liệu đầu vào. Các bước tiến hành cụ thể

như sau.

a) Thu thập dữ liệu đầu vào

Chuẩn bị dữ liệu cho quá trình huấn luyện: lựa chọn tập hợp các ảnh chụp

tàu thuyền thích hợp; một ảnh đạt yêu cầu là ảnh có chứa tàu xác định và không

bị ảnh hưởng bởi mây trắng hoặc một màu nền đồng nhất làm nổi bật tàu.

Hình 3. 2 Dữ liệu ảnh viễn thám khu vực tập trung nhiều tàu thuyền

b) Tiền xử lý dữ liệu

Vì ảnh đầu vào (dữ liệu nhận dạng/ phân lớp) có thể là ảnh chứa tàu

thuyền hợp lệ, có thể là ảnh không phải là tàu thuyền, ảnh có chứa nhiễu (ánh

sáng, màu nền không thích hợp…) nên dữ liệu này có thể được tiến hành tiền xử

lý trước khi nhận dạng.

Lọc ảnh là thao tác với các đối tượng không gian ảnh. Phép lọc ảnh là tác

động lên ảnh số gốc ở dạng ma trận raster bằng một thuật toán nhằm thay đổi giá

trị số của các đơn vị ảnh theo chiều hướng có lợi trong quá trình giải đoán ảnh.

43

Thông thường giá trị số của một pixel ảnh được nhân với một hàm số xác định

chứa đựng các biến vào là các giá trị số của các pixel ảnh xung quanh nó theo

một cửa sổ động nào đó có thể là 3x3, 5x5, 7x7.

Trong thực tế có một số toán tử lọc được xác định trước với mục đích tạo

ra một số hiệu ứng như tăng cường đường biên, làm sắc nét, làm mịn

ảnh....Trong một số phần mềm các toán tử này được chia thành hai nhóm. Nhóm

thứ nhất được lập trình theo các bộ lọc tổng quát sử dụng giá trị trung vị hoặc

trung bình cộng với lựa chọn lọc tần số thấp hay cao. Nhóm thứ hai là làm việc

với các toán tử lọc đặc biệt như Sobel, Laplacian, smoothing....

c) Tạo tập mẫu

Sau quá trình tiền xử lý dữ liệu, chúng tôi tiến hành gán nhãn dữ liệu tàu

thuyền theo quy trình được trình bày trong mục 1.3. Từ ảnh ban đầu, ảnh tàu

thuyền được cắt thành từng ảnh nhỏ chứa trong các thư mục được gán nhãn

tương ứng.

3.1.2 Trích chọn đặc trƣng

Để thực hiện quá trình phân lớp, bước trích chọn đặc trưng ảnh có vai trò

rất quan trọng. Đặc trưng ảnh ở đây chính là đặc trưng nội dung ảnh, là phân

tích nội dung thực sự của các bức ảnh. Nội dung ảnh được thể hiện bằng màu

sắc, hình dạng, kết cấu (texture), các đặc trưng cục bộ (local features)… hay bất

cứ thông tin nào có từ chính nội dung ảnh. Trong bài luận văn này sử dụng

phương pháp trích chọn đặc trưng Bag of Feature (BOF), LPB và phương pháp

trích chọn đặc trưng kết hợp BOF&LPB đã được trình bày trong nội dung 2.1.

Đối với trích chọn đặc trưng theo mô hình BoF: bao gồm ba bước bao

gồm trích xuất đặc trưng thô, xây dựng từ điển và trích xuất đặc trưng được mô

tả như sau:

- Trích xuất đặc trưng thô: Chúng tôi sử dụng bộ phát hiện Gaussian

(DoG) để phát hiện cố định một số điểm N từ mỗi hình ảnh. Các điểm

được phát hiện sau đó được mô tả bằng cách sử dụng bộ mô tả SIFT,

SURF [19] [7].

- Xây dựng từ điển: tất cả các bộ mô tả SIFT, SURF của các điểm được

trích xuất từ tập huấn luyện được phân cụm thành mã từ mã hóa sử dụng

phương pháp K láng giềng gần nhất để hình thành từ điển từ vựng trực

quan có kích thước M. Đối với thử nghiệm của chúng tôi, kích thước từ

44

vựng M và số điểm quan tâm N được đặt theo kinh nghiệm là M = 250, và

N = 250.

- Trích xuất đặc trƣng: hình ảnh được biểu thị bằng biểu đồ tần suất xuất

hiện của các từ vựng trực quan được xây dựng trong bước 2. Các véc tơ

đặc trưng thu được từ quá trình phân cụm và tính toán được chuẩn hóa lại

để các cột có cùng khoảng giá trị từ -1 đến 1.

Hình 3. 3 Đặc trưng trên ảnh bằng thuật toán SIFT và SURF. Từ trái sang lần

lượt là ảnh gốc, đặc trưng tìm được từ SIFT và đặc trưng tìm được từ SURF.

Đối với thuật toán trích chọn đặc trưng LPB: Thuật toán được sử dụng để

trích xuất đặc trưng, các mô hình sử dụng và các huấn luyện đã được trình bày

trong mục 2.1.2. Phiên bản thuật tuán LBP được chúng tôi sử dụng trong luận

văn này được cài đặt trong thư viện skimage phiên bản 0.16.2.

Hình 3. 4 Đặc trưng trên ảnh bằng thuật toán LBP. Từ trái sang lần lượt là ảnh

gốc và ảnh qua xử lý bằng thuật toán LBP trước khi tính histogram.

3.1.3 Chọn thuật toán huấn luyện và phân lớp dữ liệu

Sau khi hoàn thành giai đoạn trích chọn đặc trưng ảnh, tiếp theo là chọn

thuật toán huấn luyện và phân lớp dữ liệu ảnh. Trong phần cài đặt thực nghiệm,

chúng tôi lựa chọn thuật toán huấn luyện nhận dạng dữ liệu SVM kết hợp với

từng phương pháp trích chọn đặc trưng nêu trên.

a) Nhận dạng tàu với mô hình BoF

45

Như đã trình bày trong phần lý thuyết, BoF là một mô hình thích hợp cho

việc phân loại hình ảnh. Ngoài ra, hai đặc trưng SIFT và SURF được chọn để

làm bước trích xuất đặc trưng từ ảnh. Hai đặc trưng này rất phù hợp với đặc

trưng bộ ảnh dữ liệu của luận văn. Lý do là vì ảnh tàu thường có góc xoay đa

dạng, tỉ lệ tàu khác nhau và đặc trưng thu được từ SIFT và SURF lại không bị

ảnh hưởng bởi hai giá trị này. Các đặc trưng được tính toán từ SIFT và SURF sẽ

được phân cụm bằng thuật toán K-means. Sau đó dựa vào kết quả phân cụm,

mỗi hình ảnh sẽ được biểu diễn bằng một véc tơ đặc trưng

Các véc tơ đặc trưng thu được từ quá trình phân cụm và tính toán được

chuẩn hóa lại để các cột có cùng khoảng giá trị. Sau đó các đặc trưng sẽ được

đưa vào huấn luyện trong thuật toán SVM. Quá trình huấn luyện thuật toán

SVM sửa dụng phương pháp Gridsearchcv được hỗ trợ bởi thư việc Scikit-learn

để tìm được tham số thích hợp nhất cho SVM. Đây là phương pháp thực hiện

xác thực chéo trên tập huấn luyện để tìm tham số thích hợp nhất cho mô hình

(trong tập tham số được đưa vào). Sau đó các tham số này được chọn và mô

hình được huấn luyện lại trên tập dữ liệu huấn luyện.

Hai mô hình được sử dụng trong phương pháp này là K-means và SVM.

Các tham số cần quan tâm và giá trị tốt nhất cho các tham số như sau (các giá trị

này thu được bằng phương pháp Grid Search CV):

- K-means:

+ n_clusters = 250. Số lượng cụm để biểu diễn các đặc trưng thu được từ

thuật toán SIFT và SURF.

- SVM:

+ C = . Trọng số của lỗi phân loại trong huấn luyện.

+ gamma = . Mức độ ảnh hưởng của mỗi mẫu lên việc điều chỉnh mô

hình.

+ kernel = . Loại lõi (hay nhân) của mô hình.

b) Nhận dạng tàu với LBP và thuật toán SVM

Khác với SIFT và SURF, LBP trích xuất ra đặc trưng từ ảnh xám. Đặc

trưng của LBP được biểu diễn trên toàn bộ ảnh chứ không phải từng vị trí như

SIFT và SURF. Chính vì vậy LBP không thích hợp để sử dụng trong mô hình

BoF. Cách sử dụng đặc trưng của LBP là từ ảnh kết quả thu được từ LBP, chúng

tôi sẽ tính histogram trực tiếp trên ảnh. Điều này tương tự như việc hình ảnh

được biểu diễn bằng biểu đồ các đặc trưng trong mô hình BoF.

46

Véc tơ đặc trưng thu được từ việc tính histogram trên ảnh cũng sẽ được

chuẩn hóa để các cột có cùng khoảng giá trị từ -1 đến 1. Sau đó, các dữ liệu này

cũng được đưa vào thuật toán SVM để huấn luyện. Quá trình huấn luyện cũng

được áp dụng các phương pháp tương tự như trong cách trước.

c) Nhận dạng tàu với đặc trưng kết hợp (của BoF và LBP) và thuật toán

SVM

Đây là phương pháp sử dụng kết hợp cả mô hình BoF và LBP. Phương

pháp này thực hiện theo các bước sau:

Bước 1: Tính toán các đặc trưng từ ảnh như trong mô hình BoF và thu

được véc tơ đặc trưng từ mô hình K-means.

Bước 2: Tính toán các đặc trưng từ ảnh bằng thuật toán LBP và thu được

véc tơ đặc trưng.

Bước 3: Ghép hai véc tơ đặc trưng thu được từ bước 1 và bước 2.

Bước 4: Sử dụng các véc tơ đặc trưng thu được từ bước 3 để huấn luyện

mô hình SVM. Các bước huấn luyện tương tự đã trình bày trong hai phương

pháp trên.

Điều kiện đặc trưng của hai phương pháp có thể kết hợp là chúng có cùng

đặc điểm (đều là các số nguyên). Việc kết hợp này nhằm hi vọng có thể thu

được đặc trưng vừa biểu diễn được ảnh tàu trong các điều kiện xoay và kích

thước khác nhau đồng thời biểu diễn được đặc trưng tương phản của hình ảnh.

3.2 Kết quả và thảo luận

3.2.1 Bộ cơ sở dữ liệu

Luận văn sử dụng 102 cảnh ảnh Planet khác nhau thuộc 02 khu vực là

cảng biển Vũng Tàu và Hải Phòng.

Hình 3. 5 Hình ảnh đánh dấu vùng biển trên bản đồ

47

Sau đó, các ảnh tàu thuyền được đánh nhãn bằng phần mềm ENVI. Chúng

tôi đánh dấu các lớp tàu bằng các mã như sau: Tau dau, Tau cong ten no, Tau

van tai. Từ các ảnh ban đầu, ảnh tàu thuyền được cắt ra và chia vào các thư mục

con mang tên tàu tương ứng.

Hình 3. 6 Một số tàu mã tau dau.

Hình 3. 7 Một số tàu mã tau cong ten no.

Hình 3. 8 Một số tàu mã tau van tai.

Sau khi xử lý, tổng cộng số lượng bộ dữ liệu gồm 1519 mẫu tàu thuộc 03

lớp tàu khác nhau được tập hợp dùng để xây dựng máy học và kiểm chứng hiệu

quả. Trong đó có 543 mẫu tàu dầu, 470 cho mẫu tàu công ten nơ và 506 mẫu tàu

vận tải. Các mẫu tàu được thu thập từ nguồn dữ liệu ảnh viễn thám Planet có độ

phân giải không gian 3m. Bảng 2 trình bày chi tiết số liệu thống kê số mẫu tàu

thuộc mỗi lớp tàu. Tiếp theo, chúng tôi tiến hành thực hiện việc chia dữ liệu theo

tỉ lệ 7:3 thành hai tập dữ liệu. Theo đó, tập dữ liệu thứ nhất có 1095 hình ảnh tàu

thuyền thuộc 3 lớp tàu dầu, tàu vận tải, tàu công ten nơ được sử dụng làm dữ

liệu xây dựng, huấn luyện mô hình nhận dạng hay còn gọi là tập huấn luyện.

Tập còn lại có 454 mẫu tàu được sử dụng để đánh giá độ chính xác của mô hình

huấn luyện hay còn gọi là tập kiểm chứng độc lập. Chúng tôi sử dụng phương

pháp xác thực chéo để tìm được tham số tốt nhất cho mô hình SVM nên không

dùng bộ dữ liệu xác thực.

48

Bảng 3. 1 Bảng thống kê chi tiết cơ sở dữ liệu tàu thuyền

Tên loại tàu Nhãn Số lƣợng

ảnh ban

đầu

Số lƣợng

trong tập

huấn

luyện

(ảnh)

Số lƣợng

trong tập

kiểm tra

(ảnh)

Tàu Dầu Tau dau 543 410 163

Tàu Container Tau cong-ten-no 470 330 140

Tàu Vận tải Tau van tai 506 355 151

3.2.2 Kết quả phân lớp

a) Nhận dạng tàu với Mô hình BoF

Như đã trình bày trong phần a – mục 3.1.3, thuật toán BoF được sử dụng

dựa trên hai thuật toán trích chọn đặc trưng SIFT và SURF. Từ một hình ảnh,

chúng tôi thu được một tập các đặc trưng thu được bằng thuật toán SIFT hoặc

SURF. Các đặc trưng này được biểu diễn bằng các vector có độ dài 128 (như đã

trình bày trong lý thuyết của thuật toán SIFT và SURF). Các vector đặc trưng

của mỗi hình ảnh được được phân cụm trong thuật toán Kmean với số cụm là

250. Để biểu diễn đặc trưng của hình ảnh, một vector có độ dài 250 được tạo ra

với giá trị mỗi ô tương ứng với số đặc trưng (trích từ thuật toán SIFT và SURF)

của ảnh thuộc cụm tương ứng (trong thuật toán Kmean). Vector mới này chính

là đặc trưng của mỗi hình ảnh để đưa vào huấn luyện trong thuật toán SVM.

Để hình dung trực quan hơn và kiểm tra tính khả tách của dữ liệu, chúng

tôi đã dùng thuật toán TSNE của thư viện Scikit-learn để mô tả các vector đặc

trưng của hình ảnh. Thuật toán TSNE là một thuật toán cho phép tìm kiếm biểu

diễn của dữ liệu theo một không gian mới với số chiều ít hơn. Để có thể thể hiện

dữ liệu là các vector đặc trưng có độ dài 250, chúng tôi chọn số chiều là 3

(tương ứng với tọa độ không gian ba chiều) và biểu diễn chúng trên đồ thị như

hình sau.

49


50

Hình 3. 10 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp

SURF

Từ 2 biểu đồ trên, ta có thể thấy được mối tương quan giữa các chiều của

dữ liệu và phân bố của dữ liệu theo một chiều nhất định. Từ biểu đồ, ta có thể

thấy phân bố dữ liệu theo chiều thu được từ mô hình BoF khi sử dụng thuật toán

SIFT có biến động cao hơn so với khi dùng thuật toán SURF. Nhưng đồng thời

dữ liệu của SIFT lại có xu hướng co cụm lại hơn so với dữ liệu khi dùng SURF.

Với đặc điểm thứ nhất thì ta có thể dự đoán mô hình SVM huấn luyện với SIFT

có thể sẽ cho kết quả phân tách tốt hơn. Với đặc điểm thứ hai thì có thể do thuật

toán SIFT đưa ra nhiều đặc trưng gần giống nhau hơn so với thuật toán SURF.

Sau khi huấn luyện mô hình SVM và đã tìm ra tham số tốt nhất (đã được

trình bày trong mục a – 3.1.3), kết quả tốt nhất của các mô hình phân lớp thu

được bằng phương pháp này trên tập dữ liệu được trình bày trong các hình ảnh

và bảng dưới đây:

51

Hình 3. 11 Hình ảnh các lớp tàu thuyền được nhận dạng chính xác

Hình 3. 12 Hình ảnh các lớp tàu thuyền nhận dạng chưa chính xác


thuật toán SIFT

Nhãn

Precision Recall F1-score

Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

Tau dau 0.900 0.92 0.779 0.779 0.835 0.844

Tau cong

ten no 0.938 0.876 0.818 0.907 0.874 0.891

Tàu van

tai 0.729 0.776 0.921 0.88 0.814 0.825

Tổng 0.855 0.858 0.839 0.855 0.841 0.853


thuật toán SURF

Nhãn


Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

Tàu dầu 0.870 0.849 0.870 0.656 0.767 0.740

Tàu công

ten nơ 0.942 0.808 0.942 0.855 0.842 0.831

Tàu vận

tải 0.610 0.671 0.610 0.820 0.728 0.738

Tổng 0.807 0.776 0.807 0.777 0.779 0.770

52

Mặc dù đã sử dụng phương pháp xác thực chéo để tìm bộ tham số tốt nhất

và tránh hiện tượng overfitting, chúng tôi vẫn thực hiện kiểm tra lại mô hình với

cả dữ liệu huấn luyện và dữ liệu kiểm tra. Phân tích kết quả thu được, chúng tôi

thấy mô hình không bị hiện tượng overfitting. Có một sự trái ngược khi mô hình

huấn luyện bằng dữ liệu từ mô hình BoF sử dụng thuật toán SIFT lại có kết quả

kiểm tra trên tập kiểm tra cao hơn và ngược lại với mô hình huấn luyện bằng dữ

liệu thu được từ mô hình BoF sử dụng thuật toán SURF. Tuy nhiên, sự chênh

lệch giữa kết quả kiểm tra trên tập huấn luyện và tập kiểm tra không chênh lệch

quá đáng kể (~ 0.003 – 0.031). Điều này có thể thể hiện thuật toán SVM đã học

dữ liệu từ mô hình BoF sử dụng thuật toán SIFT một cách phổ quát hơn (có thể

xử lý những dữ liệu chưa nhìn thấy tốt hơn) so với dữ liệu từ mô hình BoF sử

dụng thuật toán SURF.

So sánh trên bảng kết quả, chúng tôi dễ dàng có thể thấy mô hình BoF

hoạt động với thuật toán SIFT cho kết quả tốt hơn đáng kể so với khi dùng thuật

toán SURF. Mặc dù ưu điểm của thuật toán SURF là chạy nhanh hơn nhưng các

đặc trưng đưa ra từ thuật toán này có lẽ không tốt hơn so với thuật toán SIFT

(với tập dữ liệu được sử dụng trong luận văn này). Điều này có thể giải thích do

các bước xác định và lọc điểm đặc trưng (đặc biệt là các điểm có độ tương phản

thấp) của thuật toán SURF được rút gọn hơn so với thuật toán SIFT (đã được

trình bày trong phần lý thuyết). Tuy nhiên, bộ dữ liệu ảnh chúng tôi xây dựng lại

có độ phân giải khá thấp. Điều này có thể là nguyên nhân khiến đặc trưng thu

được từ thuật toán SIFT cho kết quả tốt hơn.

b) Nhận dạng tàu với đặc trưng LBP và thuật toán SVM

Phương pháp sử dụng cũng như các tham số tốt nhất đã được trình bày

trong phần b – mục 3.1.3. Phiên bản thuật tuán LBP được chúng tôi sử dụng

trong luận văn này được cài đặt trong thư viện skimage phiên bản 0.16.2. Sau

khi thu được ảnh đặc trưng bằng thuật toán LBP, chúng tôi thực hiện tính biểu

đồ giá trị điểm ảnh của ảnh đặc trưng và thu được một vector có độ dài là 18

biểu diễn đặc trưng cho mỗi ảnh. Thực hiện tương tự phần trước, chúng tôi sử

dụng thuật toán TSNE của thư viện Scikit-learn để mô tả các vector đặc trưng

của hình ảnh. Số chiều được chọn cũng là ba và thu được biểu đồ quan hệ như

hình 3.13.

53

Hình 3. 13 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng thuật toán LBP

Dựa theo biểu đồ, dữ liệu được phân bố khá rộng và có biển động lớn.

Điều này có thể dự đoán kết quả thu được sẽ tốt và có thể tốt hơn so với mô hình

BoF khi sử dụng SIFT.

Sau khi huấn luyện và thu được kết quả các tham các tham số tốt nhất cho

phương pháp (đã được trình bày trong mục b – 3.1.3), kết quả tốt nhất của mô

hình phân lớp thu được bằng phương pháp này trên tập dữ liệu được trình bày

trong các hình ảnh và bảng dưới đây.


54

Hình 3. 15 Hình ảnh các lớp tàu thuyền được nhận dạng chưa chính xác


thuật toán LPB

Nhãn


Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

Tàu dầu 0.642 0.711 0.78 0.816 0.708 0.760

Tàu công

ten nơ 0.704 0.752 0.679 0.864 0.691 0.804

Tàu vận

tải 0.689 0.774 0.544 0.543 0.608 0.638

Tổng 0.679 0.745 0.671 0.741 0.669 0.734

Tương tự với phương pháp sử dụng mô hình BoF, chúng tôi cũng thực

hiện kiểm tra mô hình huấn luyện được với cả dữ liệu huấn luyện và dữ liệu

kiểm tra. Kết quả cho thấy kết quả trên tập kiểm tra cao hơn so với kết quả trên

tập huấn luyện (~0.065 – 0.07). Mức chênh lệch này không quá đáng kể và vẫn

là biểu hiện bình thường. Đây là dấu hiệu cho thấy mô hình huấn luyện bằng dữ

liệu LBP có khả năng phổ quát khá tốt.

Trái với dự đoán khi phân tích biểu đồ dữ liệu, kết quả thu được từ

phương pháp này kém hơn khá nhiều so với phương pháp dùng mô hình BoF.

Sau khi phân tích, chúng tôi nhận thấy nguyên nhân biểu đồ dữ liệu của LBP có

vẻ phân tách tốt hơn nhưng thực tế lại tệ có thể là do sự khác biệt về số chiều

của vector đặc trưng gốc. Như đã trình bày từ phần trước, mô hình BoF cho

vector có chiều dài là 250 để biểu diễn đặc trưng của ảnh. Trong khi đó, phương

pháp này chỉ sử dụng vector có chiều dài 18 để biểu diễn ảnh. Khi cùng sử dụng

thuật toán TSNE để thu gọn chiều, với số chiều dài hơn rất nhiều lần, có thể hiểu

độ mất mát thông tin của hai phương pháp là khác biệt. Đây có lẽ là nguyên

nhân khiến cho biểu đồ đặc trưng của phương pháp này tốt hơn so với phương

pháp dùng mô hình BoF.

55

b) Nhận dạng tàu với đặc trưng kết hợp (của BoF và LBP) và thuật toán

SVM

Nội dung phương pháp và các tham số tốt nhất cho phương pháp đã được

trình bày trong phần c – mục 3.1.3. Sau khi kết hợp các đặc trưng của mô hình

BoF và đặc trưng LBP, chúng tôi sẽ thu được một vector dài 268 biểu diễn cho

mỗi hình ảnh. Tương tự các phương pháp trước, để phân tích dữ liệu, chúng tôi

sử dụng thuậ toán TSNE để thu gọn và biểu diễn dữ liệu trên biểu đồ. Số chiều

sử dụng cũng là ba (tương tự các phương pháp trước). Để tiện theo dõi, chúng

tôi gọi phương pháp dùng mô hình BoF sử dụng SIFT kết hợp với LBP là BoF –

SIFT + LBP và mô hình BoF sử dụng SURT kết hợp với LBP là BoF – SURT +

LBP. Biểu đồ mối quan hệ giữa các chiều và phân bố dữ liệu trên các chiều

được thể hiện trong hình dưới đây..


kết hợp LBP

56

Hình 3. 17 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp BOF

- SURF kết hợp LBP.

Dựa vào hai biểu đồ, ta có thể thấy phương pháp BoF – SIFT + LBP có

độ biến động dữ liệu kém hơn hẳn so với phương pháp BoF – SURT + LBP.

Đồng thời, do kế thừa lại dữ liệu, sự phân bố dữ liệu của phương pháp BoF –

SIFT + LBP cũng hẹp (các điểm dữ liệu co cụm lại) hơn so với phương pháp

BoF – SURT + LBP. Từ các dấu hiệu này có thể đưa ra dự đoán kết quả của

phương pháp BoF – SIFT + LBP sẽ kém hơn so với phương pháp BoF – SURT

+ LBP.

Sau khi huấn luyện và thu được các tham số tốt nhất (đã được trình bày

trong mục c – 3.1.3), kết quả tốt nhất của các mô hình phần lớp tốt nhất thu được

bằng phương pháp được trình bày trong các hình ảnh và bảng dưới đây.


57

Hình 3. 19 Hình ảnh các lớp tàu thuyền được nhận dạng không chính xác

Kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng thuật toán

trích chọn đặc trưng SIFT kết hợp với LBP được trình bày theo bảng 3.5


thuật toán SIFT kết hợp LBP

Nhãn


Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

Tàu dầu 0.900 0.889 0.853 0.834 0.876 0.861

Tàu công

ten nơ 0.956 0.853 0.858 0.914 0.904 0.883

Tàu vận

tải 0.801 0.840 0.924 0.840 0.858 0.840

Tổng 0.886 0.861 0.878 0.863 0.879 0.861

Kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng thuật toán

trích chọn đặc trưng SURF kết hợp với LBP được trình bày theo bảng 3.6.


thuật toán SURF kết hợp LBP

Nhãn


Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

Huấn

luyện Kiểm tra

Tàu dầu 0.865 0.872 0.782 0.708 0.821 0.781

Tàu công

ten nơ 0.953 0.822 0.771 0.870 0.853 0.845

Tàu vận

tải 0.667 0.699 0.889 0.820 0.762 0.755

Tổng 0.829 0.798 0.814 0.799 0.812 0.794

58

Tương tự với các phương pháp trước, chúng tôi thực hiện kiểm tra mô

hình huấn luyện được trên cả tập dữ liệu huấn luyện và kiểm tra. Kết quả so

sánh cho ra cùng một xu hướng. Mô hình huấn luyện bằng dữ liệu từ hai phương

pháp BoF – SIFT + LBP và phương pháp BoF – SURT + LBP đều có kết quả

kiểm tra trên tập huấn luyện cao hơn so với kết quả kiểm tra trên tập kiểm tra.

Tuy nhiên, mức chênh lệch cũng không quá lớn (~0.015 – 0.031). Điều này loại

trừ khả năng các mô hình bị hiện tượng overfitting. Sự chênh lệch này chỉ thể

hiện một điều là mức phổ quát của các mô hình huấn luyện bằng dữ liệu từ hai

phương pháp có vẻ thấp hơn một chút so với các mô hình đã huấn luyện từ các

phương pháp trước.

Trái với dự đoán từ việc phân tích biểu đồ dữ liệu, phương pháp BoF –

SIFT + LBP lại cho kết quả tốt hơn so với phương pháp BoF – SURT + LBP.

Điều này đi ngược sự biểu hiện của biến động của dữ liệu theo các chiều dữ liệu.

Tuy nhiên, dựa vào các phần trước, chúng tôi cho rằng việc trường giá trị dữ liệu

của phương pháp BoF – SURT + LBP lớn hơn (dữ liệu phân tán hơn) so với

phương pháp BoF – SIFT + LBP là nguyên nhân dẫn đến sự khác biệt này

không. Bởi vì khi phân tích phương pháp chỉ sử dụng BoF, dữ liệu thu được khi

dùng thuật toán SIFT có độ phân tán thấp hơn và khi huấn luyện cho mô hình tốt

hơn. Từ sự tương đồng này, chúng tôi khẳng định sự phân tán dữ liệu lớn hơn rất

nhiều chính là nguyên nhân khiến cho phương pháp BoF – SURT + LBP cho kết

quả tệ hơn bất chấp biến động dữ liệu trong các chiều là cao và rõ ràng hơn.

So sánh với các phương pháp chỉ sử dụng thuần mô hình BoF và thuật

toán LBP, kết quả của phương pháp này cũng có sự cải thiện đáng kể. Điều này

đã chứng minh cho sự hiệu quả của việc kết hợp các đặc trưng lại để phân lớp

ảnh tàu.

3.2.3 Nhận xét, đánh giá

Chúng tôi đã tổng hợp kết quả kiểm chứng từ năm phương pháp phân lớp

tàu thuyền đã được trình bày trong mục 3.3.2 theo bảng 3.7 dưới đây và rút ra

một số nhận xét, đánh giá như sau:

Bảng 3. 7 Bảng tổng hợp kết quả kiểm chứng bằng máy học SVM

Nhãn

Thuật toán

trích đặc

trưng


Tàu dầu SIFT 0.92 0.779 0.844

59

SURF 0.849 0.656 0.740

LBP 0.711 0.816 0.760

SIFT&LPB 0.889 0.834 0.861

SURF&LPB 0.872 0.708 0.781

Tàu công ten nơ

SIFT 0.876 0.907 0.891

SURF 0.808 0.855 0.831

LBP 0.752 0.864 0.804

SIFT&LPB 0.853 0.914 0.883

SURF&LPB 0.822 0.870 0.845

Tàu vận tải

SIFT 0.776 0.880 0.825

SURF 0.671 0.820 0.738

LBP 0.774 0.543 0.638

SIFT&LPB 0.840 0.840 0.840

SURF&LPB 0.699 0.820 0.755

Total

SIFT 0.858 0.855 0.853

SURF 0.776 0.777 0.770

LBP 0.745 0.741 0.734

SIFT&LPB 0.861 0.863 0.861

SURF&LPB 0.798 0.799 0.794

Việc đánh giá dựa vào các chỉ số độ chính xác (Precision), độ bao phủ

(Recall) và độ đo F1. Các chỉ số kiểm chứng nói trên được biểu diễn trong bảng

3.7, kết quả là sự so sánh độ chính xác của các mô hình phân lớp tàu thuyền sử

dụng các thuật toán trích chọn đặc trưng khác nhau.

60

Từ bảng trên cho thấy, kết quả khả quan nhất là mô hình phân lớp sử dụng

phương pháp học máy giám sát SVM kết hợp thuật toán trích chọn đặc trưng

SIFT&LPB cho các chỉ số đánh giá cao, mức độ chênh lệch giữa các chỉ số

không lớn, cụ thể chỉ số độ chính xác Precision, độ hồi tưởng, độ đo F1 cùng

cho kết quả là 86%. Có hai nguyên nhân dẫn đến kết quả như vậy. thứ nhất, có

thể do khi kết hợp các đặc trưng của mô hình BoF và đặc trưng LBP, ta sẽ thu

được một vector có độ dài lớn nhất (dài 268) biểu diễn cho mỗi hình ảnh. Thứ

hai thuật toán SIFT đưa ra nhiều đặc trưng gần giống nhau hơn so với thuật toán

SURF, LBP hay các đặc trưng có độ phân tán thấp hơn.

Trong khi mô hình phân lớp SVM kết hợp với thuật toán trích chọn đặc

trưng LBP đạt kết quả thấp nhất với độ đo chính xác, độ đo hồi tưởng cùng độ

đo F1 là 74%. Nguyên nhân chính dẫn đến kết quả như vậy là do mô hình BoF

cho vector có chiều dài là 250 để biểu diễn đặc trưng của ảnh. Trong khi đó,

phương pháp này chỉ sử dụng vector có chiều dài 18 để biểu diễn ảnh.

Mô hình phân lớp sử dụng thuật toán trích chọn đặc trưng SIFT cho kết

quả phân lớp Tàu cong – ten - no tốt nhất với độ đo F1 là 89,1%.

Toàn bộ năm mô hình phân lớp (năm phương pháp trích trọn đặc trưng)

cho kết quả phân lớp Tàu cong – te – nơ là ổn định nhất (độ đo F1 lớn hơn 80%)

so với hai lớp tàu còn lại, các chỉ số đo độ chính xác không có độ chênh lệch

lớn.

61

KẾT LUẬN

Luận văn cơ bản đạt được mục đích, yêu cầu đề ra. Các phương pháp đề

xuất được nghiên cứu, thực nghiệm một cách khoa học, cẩn thận. Luận văn khái

quát được một số vấn đề về bài toán phân lớp bao gồm phương pháp trích chọn

đặc trưng, phân lớp dữ liệu ảnh viễn thám và các thuật toán học máy áp dụng

vào bài toán phân lớp trên ảnh viễn thám quang học, trong đó đề cập ưu, nhược

điểm của một số phương pháp trích chọn đặc trưng, chú trọng nghiên cứu

phương pháp học bán giám sát được sử dụng rất phổ biến hiện nay.

Về phân lớp dữ liệu, luận văn đã đưa ra bài toán tổng quan, cho cái gì và

cần cái gì, đồng thời trình bày về phương pháp phân lớp dữ liệu tổng quát từ đó

có thể giúp người đọc hiểu về bài toán phân lớp. Trình bày cơ bản về bài toán

phân lớp hình ảnh vệ tinh, cách biểu diễn một hình ảnh trong bài toán phân lớp

như thế nào, thông qua các phương pháp trích chọn đặc trưng để phân lớp dữ

liệu ảnh viễn thám quang học hiện nay.

Luận văn đã giải quyết được một phần yêu cầu bài toán thực tiễn đặt ra.

Chúng tôi thu thập được bộ cơ sở dữ liệu cung cấp thông tin nghiệp vụ về tàu

thuyền trên biển, bước đầu phân loại tự động ba lớp tàu dân sự trên ảnh viễn

thám quang học phục vụ mục đích giám sát hoạt động giao thông biển, kiểm

soát hàng hải…

Trong thời gian tới, chúng tôi có một số định hướng nghiên cứu tiếp theo

như nghiên cứu phân lớp tàu thuyền sử dụng phương pháp học sâu trên ảnh viễn

thám quang học, ứng dụng bài toán phân lớp tàu thuyền với các nguồn dữ liệu

viễn thám khác nhau, mở rộng đối tượng nghiên cứu đối với các mục tiêu trên

biển (tàu quân sự, giàn khoan).

62

TÀI LIỆU THAM KHẢO

Tiếng việt

[1] Bài Giảng Ứng Dụng Viễn Thám Trong Quản Lý Đất Đai (2018), Lê Hùng

Chiến, Trần Thị Thơm.

[2] Giáo trình Viễn thám (2018)- PGS.TS. Nguyễn Khắc Thời.

Tiếng Anh

[3] A. Torralba, B. C. Russell, and J. Yuen, “LabelMe: Online image

annotation and applications,” in Proceedings of the IEEE, 2010, doi:

10.1109/JPROC.2010.2050290.

[4] B. C. Russell, A. Torralba, K. P. Murphy, and W. T. Freeman, “LabelMe: A

database and web-based tool for image annotation,” Int. J. Comput. Vis.,

2008, doi: 10.1007/s11263-007-0090-8.

[5] David G. Lowe. “Distinctive Image Features from Scale-Invariant

Keypoints”, 5/1/2004.

[6] ENVI Tutorials, “ENVI Tutorials,” ENVI Tutorials, 2000..

[7] G. Lowe, “SIFT - The Scale Invariant Feature Transform,” Int. J., 2004.

[8] Herbert Bay, Tinne Tuytelaars, and Luc Van Gool. “SURF: Speeded Up

Robust Features”, 7/5/2006.

[9] http://www.cs.unc.edu/~lazebnik/spring09/lec18_bag_of_features.pdf.

[10] https://docs.opencv.org/master/df/dd2/tutorial_py_surf_intro.html.

[11] https://machinelearningcoban.com/2017/04/09/smv/.

[12] International Standard Classification of Ships by Type, Revised 1994.

[13] Jane Fighting Ships 2020-2021 Year Book.

[14] J.Antelo, G.Ambrosio, J. Gonz´ alez, C. Galindo, “Ship Detection and

Recognition in High-Resolution Satellite Images”, IEEE International

Geoscience and Remote Sensing Symposium, IGARSS’09, Cape Town,

South Africa, 2009.

63

[15] Ke-Chen Song, Yun-Hui YAN, Wen-Hui CHEN and Xu Zhang. “Research

and Perspective on Local Binary Pattern”, 6/2013.

[16] Katie Rainey, John Stastny, “Vessel classification in overhead satellite

imagery using learned dictionaries”, Proceedings of SPIE - The

International Society for Optical Engineering (Proceedings of SPIE, Oct.

2012.

[17] Timo Ojala, Matti Pietikainen and David Harwood. “A Comparative Study

Of Texture Measures With Classification Based On Feature Distributions”,

15/5/1995.

[18] Van Kiet Dinh, Nguyen Hoang Hoa Luong, Quang Hung Bui, Thanh Nhat

Thi Nguyen. Viet Hung Luu, “Improving the Bag-of-Words model with

Spatial Pyramid matching using data augmentation for fine-grained

arbitrary-oriented ship classification”, Remote Sensing Letter, 2019.

[19] Y. Ke and R. Sukthankar, “PCA-SIFT: A more distinctive representation

for local image descriptors,” in Proceedings of the IEEE Computer Society

Conference on Computer Vision and Pattern Recognition, 2004, doi:

10.1109/cvpr.2004.1315206.

nghiÊn cỨu ĐÁnh giÁ cÁc phƢƠng phÁp

Documents