ĐẠi hỌc quỐc gia hÀ nỘi trƯỜng ĐẠi hỌc cÔng...

- 1 -

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Bùi Ngọc Lan

NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI

Ngành: Công nghệ thông tin

Hà Nội - 2006

- 2 -

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Bùi Ngọc Lan

NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI

Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Tiến sĩ Trần Quang Anh Cán bộ đồng hướng dẫn: Tiến sĩ Hà Quang Thụy

Hà Nội - 2006

- 3 -

LLỜỜII CCẢẢMM ƠƠNN

Đầu tiên, em muốn gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Tiến sĩ Trần Quang Anh (Trường Đại học Thanh Hoa Trung Quốc) và Tiến sĩ Hà Quang Thụy (Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội) đã tận tình chỉ bảo và hướng dẫn em trong suốt quá trình thực hiện khoá luận này.

Em xin chân thành cám ơn các thầy lãnh đạo Viện CNTT - ĐHQGHN, anh Nguyễn Việt Cường (Trường Đại học Công nghệ - ĐHQGHN) và anh Phan Bá Hùng (Viện Công nghệ Thông tin - ĐHQGHN) đã giúp đỡ, tạo điều kiện thuận lợi để em tiến hành có kết quả các thử nghiệm trên mail-server thực.

Em xin bày tỏ lời cảm ơn sâu sắc tới các thầy, cô trong trường Đại học Công nghệ đã dạy dỗ và tận tình chỉ bảo cho em trong suốt quá trình học tập tại trường.

Em cũng muốn gửi lời cảm ơn tới các thầy cô, anh chị và các bạn trong nhóm xê-mi-na “Khai phá dữ liệu và khám phá tri thức” thuộc bộ môn Các hệ thống thông tin, Trường Đại học Công nghệ đã ủng hộ và khuyến khích em trong quá trình nghiên cứu và thực hiện khoá luận này.

Và lời cuối cùng, em xin gửi lời cảm ơn chân thành và biết ơn vô hạn tới bố, mẹ, anh chị những người đã có công sinh thành, nuối nấng, dạy dỗ và luôn động viên, khuyến khích em trong cuộc sống, trong học tập và làm việc.

Sinh viên Bùi Ngọc Lan

- 4 -

Tóm tắt

Vấn đề thư rác từ lâu đã gây không ít phiền nhiễu cho người sử dụng thư điện tử

và là vấn đề đau đầu của những người quản lý mạng. Có rất nhiều giải pháp chống thư

rác đã được đưa ra và áp dụng trong thực tế. Tuy nhiên, các phương pháp này đều tỏ ra

chưa thực sự hiệu quả và mang những nhược điểm cố hữu của nó. Trong luận văn này,

trên cơ sở nghiên cứu cấu trúc và các tính chất đặc trương của mạng thư điện tử (Email

Networks) từ đó đề xuất một phương pháp lọc thư rác mới dựa trên mạng thư điện tử.

Khác với phương pháp lọc thư rác dựa trên mạng thư điện tử trước đây [1], phương

pháp đưa ra đã khai thác được tính chất có hướng của đồ thị mạng thư điện tử và xem

xét đồ thị mạng thư điện tử là đồ thị có trọng số để xây dựng một công thức tính độ

phân cụm (clustering coefficient) mới. Để kiểm chứng phương pháp đưa ra, khóa luận

thực hiện thí nghiệm trên log files của máy chủ e-mail thực của Đại học Quốc gia Hà

Nội. Kết quả thực nghiệm cho thấy được tính đúng đắn của phương pháp và phương

pháp này có thể khắc phục được nhiều nhược điểm cố hữu của các giải pháp trước đây.

- 5 -

Mục lục

LLỜỜII CCẢẢMM ƠƠNN ............................................................................................3

MỞ ĐẦU.....................................................................................................8

CHƯƠNG 1: TỔNG QUAN VỀ THƯ RÁC .........................................10

1.1 Khái niệm thư rác ............................................................................10 1.1.1 Thư rác là gì ?..............................................................................................10 1.1.2 Các đặc điểm của thư rác. ...........................................................................11 1.1.3 Phân loại thư rác .........................................................................................12 1.1.4 Những thiệt hại do thư rác gây ra................................................................13

1.2 Các giải pháp cho vấn đề lọc thư rác ...............................................16 1.2.1 Ban hành các bộ luật chống thư rác ............................................................16 1.2.2 Các phương pháp lọc thư rác trước đây......................................................16

CHƯƠNG 2: KIẾN THỨC CƠ SỞ .......................................................26

2.1 Mạng phức hợp (Complex Networks) ..............................................26 2.1.1 Độ dài đường dẫn trung bình.......................................................................30 2.1.2 Độ phân cụm ................................................................................................31 2.1.3 Độ phân bố bậc ............................................................................................31

2.2 Các mô hình của mạng phức hợp ....................................................33 2.2.1 Mạng cặp thông thường (Regular coupled networks) .................................33 2.2.2 Đồ thị ngẫu nhiên (Random Graphs)...........................................................34 2.2.3 Các mô hình Small-world ............................................................................36 2.2.4 Các mô hình Scale-free ................................................................................39

2.3 Mạng xã hội (Social Networks).......................................................41 2.4 Mạng thư điện tử (Email Networks)................................................43

2.4.1 Mạng thư điện tử scale-free. .........................................................................43 2.4.2 Tính chất Small-world của mạng thư điện tử. .............................................44 2.4.3 Mạng thư điện tử là mạng có hướng............................................................46 2.4.4 Sự lan rộng của virus trong mạng thư điện tử .............................................48 2.4.5 Mạng thư điện tử khi bị spam tấn công .......................................................49

- 6 -

CHƯƠNG 3: ỨNG DỤNG MẠNG THƯ ĐIỆN TỬ TRONG LỌC THƯ RÁC.................................................................................................50

3.2 Đề xuất phương pháp.......................................................................51 3.3 Đặc điểm của phương pháp .............................................................53

CHƯƠNG 4: THỰC NGHIỆM TRÊN LOG FILES............................55

4.1 Đặc điểm dữ liệu..............................................................................55 4.2 Kết quả thực nghiệm và phân tích ...................................................57 4.3 Nhận xét ..........................................................................................60

KếT LUậN...................................................................................................61

- 7 -

Bảng từ viết tắt

Từ hoặc cụm từ Viết tắt

Unsolicited Commercial Email UCE

Internet Service Provider ISP

Short Message Service SMS

Email Service Provider ESP

Realtime Black hole List RBL

Multiple Address Processing System MAPS

eXtensible Markup Language XML

Domain Name Server DNS

Sender Policy Framework SPF

- 8 -

MỞ ĐẦU Ngày nay cùng với sự toàn cầu hóa việc kết nối thông tin, thư điện tử (Email)

đã trở thành một phần quan trọng trong đời sống và trong cả các hoạt động kinh doanh thương mại. Thư điện tử cho phép tiết kiệm thời gian và khắc phục mọi vấn đề về khoảng cách địa lí, về chi phí trong trao đổi thông tin liên lạc. Chính những thuận tiện trong trao đổi thư điện tử lại tạo ra một số sơ hở để cho các loại thư không mong muốn (thư rác: spam mail) hoạt động gây phiền toái cho người dùng. Trong một vài năm gần đây, những thư điện tử không mong muốn như vậy phát triển và gây ra không ít thiệt hại cho người dùng nói riêng và cho nền kinh tế - xã hội nói chung. Theo nhiều bản thống kê [10,15], thư rác đã chiếm tới ¾ tổng số thư điện tử lưu thông trên toàn thế giới. Có không ít người dùng đã hạn chế sử dụng thư điện tử như một phương tiện liên lạc, và điều đó đã gây ra sự trở ngại đáng kể cho liên lạc giữa các người dùng cũng như hạn chế việc phát sinh lợi nhuận chính đáng của nền kinh tế nhờ phương tiện liên lạc này.

Hiện nay, thư rác đang là một trong những vấn đề nhức nhối của xã hội. Nhiều phương pháp, công cụ lọc thư rác đã được đề xuất, tuy nhiên nhìn chung các công cụ lọc thư rác hiện nay vẫn tỏ ra chưa thực sự hiệu quả. Chính vì lý do đó, nhiều hướng tiếp cận lọc thư rác mới đã được đề xuất [39], kể cả các hướng tiếp cận kết hợp các phương pháp khác nhau, trong đó hướng tiếp cận theo mạng xã hội là một trong các hướng nổi bật nhất. Ý thức được điều này, hướng nghiên cứu về các phương pháp lọc thư rác, tập trung theo hướng tiếp cận mạng thư điện tử đề tài của khóa luận với tên gọi "Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác".

Khóa luận được tổ chức thành 4 chương như sau:

Chương 1 giới thiệu tổng quan về thư rác và một số hướng tiếp cận điển hình trước đây trong việc lọc thư rác.

Chương 2 trình bày về một số tính chất quan trọng của mạng phức hợp, mạng xã hội, mạng thư điện tử. Đây là cơ sở kiến thức để phát triển nội dung của khóa luận trong các chương sau.

Chương 3 trình bày một phương pháp mới ứng dụng các tính chất của mạng thư điện tử vào vấn đề lọc thư rác thông qua việc tính hạng phân cụm của các địa chỉ thư. Các nội dung đề xuất được trình bày chi tiết trong chương này.

- 9 -

Chương 4 trình bày về thực nghiệm tiến hành với logs file của máy chủ email tại Đại học Quốc gia Hà Nội. Kết quả thực nghiệm cho thấy địa chỉ thư với độ phân cụm thấp có khả năng cao là địa chỉ thư rác .

Phần kết luận tổng kết các kết quả chủ yếu của khóa luận và phương hướng nghiên cứu tiếp theo để phát triển, cải tiến phương pháp mạng thư điện tử được đề xuất.

Cho dù đã cố gắng song không thể tránh khỏi những sai sót, em rất mong được sự góp ý của thầy cô và các bạn.

- 10 -

Chương 1

TTỔỔNNGG QQUUAANN VVỀỀ TTHHƯƯ RRÁÁCC

Từ lâu, thư điện tử (Email) đã trở thành một ứng dụng không thể thiếu khi Internet và công nghệ mạng phát triển. Đây là điều mà thực tế đã chứng minh qua những đóng góp của ứng dụng này trong nhiều lĩnh vực như kinh doanh, thương mại, viễn thông và các dịch vụ cá nhân. Tuy nhiên trong những năm gần đây, một hình thức mới của thư điện tử đã xuất hiện với số lượng lớn gây phiền hà cho người nhận và những thiệt hại không nhỏ cho nền kinh tế gọi là thư rác. Chương này sẽ khái quát các vấn đề về khái niệm thư rác, ảnh hưởng của thư rác trong cuộc sống của chúng ta và các phương pháp ngăn chặn thư rác.

1.1 Khái niệm thư rác

1.1.1 Thư rác là gì ?

Thư rác (spam) là một loại thư được gửi với số lượng lớn, theo chủ ý của người gửi, hoàn toàn không có sự liên hệ gì với người nhận.

Đứng trên quan điểm của người gửi, đó là một hình thức giửi thư theo số lượng lớn (nên gọi là bulk email) cho một danh sách địa chỉ chọn lọc ra từ các diễn đàn (Usenet discussion group), các danh sách thư (mailing list)… Hiện nay cũng có nhiều công ty mà công việc kinh doanh chính là nhận gửi thư rác cho khách hàng của họ.

Về phía người nhận, đa phần các bức thư này không có giá trị và thật sự không được mong muốn, chúng bị coi như một thứ rác rưởi, tạp nham (xuất phát từ cụm junk email). Phần lớn các thư này có nội dung quảng cáo thương mại cho một loại sản phẩm hay dịch vụ nào đó, những bức thư này được gọi là UCE (Unsolicited Commercial Email).

Thư rác hiện nay thường có nội dung: quảng cáo thương mại và dịch vụ, quấy nhiễu, phát tán virus và những nội dung không lành mạnh (khiêu dâm, chống phá chính trị…).

- 11 -

Việc gửi thư rác làm cho người nhận phải mất thời gian và phải trả tiền cho nhà cung cấp dịch vụ Internet ISP (Internet Service Provider) để đọc những bức thư không liên quan. Đôi khi những bức thư có chứa virus có thể phá hủy cả hệ thống dữ liệu trong máy tính. Ngoài ra, tài nguyên (đường truyền, máy chủ) của ISP cũng bị chiếm dụng nhiều khi gửi thư rác.

1.1.2 Các đặc điểm của thư rác.

Các loại thư rác hiện nay có một số đặc điểm sau:

Thư rác được gửi đi một cách tự động: Mục đích của những kẻ gửi thư rác (spammer) là có thể phát tán lượng thư rác tới người dùng càng nhiều càng tốt. Do vậy, chúng thường viết ra những phần mềm tự động gửi một lượng lớn thư rác trong một khoảng thời gian ngắn.

Thư rác được gửi đến những địa chỉ ngẫu nhiên trên một diện rộng. Địa chỉ email của người bị nhận thư rác rất ngẫu nhiên và dường như giữa họ không có mối quan hệ với nhau. Có nhiều phương pháp và thủ thuật khác nhau mà những kẻ gửi thư rác áp dụng trong việc dò tìm địa chỉ email của người dùng như:

Dùng chương trình tự động dò tìm địa chỉ email trên mạng Internet, các trang chủ, Newsgroup, Chat room....

Mua địa chỉ email từ những công ty đã xây dựng danh sách khách hàng của họ nhưng vì lý do nào đó phải bán đi hoặc đối tác của công ty được phép truy cập danh sách khách hàng của công ty này để gửi thông tin về dịch vụ hay sản phẩm.

Email chuỗi (Chain letter) từ bạn bè và người thân, yêu cầu gửi thư cho càng nhiều người càng tốt vì lý do thương người, ủng hộ một chương trình nào đó, hoặc mời chào người dùng nếu gửi cho nhiều người sẽ được nhận nhiều tiền hơn.

Dùng chương trình đoán tên tự động: Những kẻ gửi thư rác dùng chương trình này gửi email liên tục vào một nơi để đoán địa chỉ email qua những phương pháp như E-pending, Dictionary hay Alphabet.

Bên cạnh đó, những kẻ gửi thư rác còn có thể có được địa chỉ email của người dùng do:

- 12 -

Các nhà cung cấp dịch vụ ISP không có chính sách và công nghệ bảo mật, dẫn đến các tin tặc (hacker) ăn cắp địa chỉ của khách hàng để buôn bán và quấy nhiễu. Hoặc có thể do chính nhà cung cấp ISP buôn bán địa chỉ email của khách hàng để kiếm lợi nhuận. Nhân viên của các ISP đã tiết lộ thông tin về khách hàng cho các đối thủ cạnh tranh của chính ISP đó, hoặc cho những công ty muốn quảng cáo cho những khách hàng riêng biệt.

Chính người dùng cung cấp địa chỉ email của mình qua những lần đăng kí thành viên trên Internet hoặc trên giấy tờ các dịch vụ mà chẳng bao giờ dùng, những cuộc xổ số mà chẳng bao giờ biết quả, hoặc những bản tin điện tử (newsletter) vô nghĩa.

Nội dung của thư rác thường là những nội dung bất hợp pháp, gây phiền hà cho người dùng. Phần lớn nội dung của thư rác là những thông tin mời chào về thương mại, quảng cáo sản phẩm. Bên cạnh đó, phải kể đến những thư rác có nội dung xấu (như khiêu dâm, chống phá chính trị...) gây tâm lý lo ngại cho người làm công nghệ thông tin. Lượng thư rác phát tán virus cũng không nhỏ. Trong những thư này thường được gắn kèm những con virus nguy hiểm có thể làm tê liệt hoàn toàn máy tính của người dùng, ăn cắp những thông tin cá nhân hoặc làm hỏng dữ liệu lưu trên máy. Hiện nay, những thư rác với nội dung hứa hẹn mang đến một khoản tiền lớn cho người đọc thư rác đã tăng nhanh. Những người dùng kém hiểu biết, cả tin thường bị lừa bởi hình thức này.

Địa chỉ của người gửi thư rác thường là những địa chỉ trá hình. Để tránh sự nghi ngờ của người nhận, một số kẻ gửi thư rác thường giả dạng địa chỉ của một người dùng bình thường trong một máy chủ email nào đó một cách bất hợp pháp hoặc dùng một địa chỉ ảo nào đó để gửi thư rác.

1.1.3 Phân loại thư rác

Việc phân loại thư rác rất quan trọng không chỉ trong lĩnh vực tạo những bộ lọc thư rác phù hợp cho hiệu quả cao mà còn giúp cho việc ban hành các bộ luật chống thư rác thích hợp.

Có rất nhiều cách phân loại thư rác. Dưới đây là một số loại điển hình nhất.

1> Dựa trên kiểu phát tán thư rác

- 13 -

Tính tới thời điểm hiện tại, thư rác có thể bị gửi thông qua những hình thức thư điện tử, nhóm thảo luận (newsgroups), điện thoại di động (Short Message Service - SMS) và các dịch vụ gửi tin nhắn trên mạng (như Yahoo Messenger, Windows Messenger...).

2> Dựa vào quan hệ với người gửi thư rác

Các mối quan hệ với người gửi thư rác bao gồm người lạ mặt, bạn bè, người quen và các dịch vụ quyên góp giúp đỡ…

3> Dựa vào nội dung của thư rác.

Các kiểu nội dung phổ biến như thư về thương mại, thư về chính trị, thư về công nghệ, chuỗi thư (chain email) và các loại khác (như thư phát tán virus...).

4> Dựa trên động lực của người gửi

Thông thường, thư rác được gửi đi cho những mục đích quảng bá thông tin. Ngoài ra, còn có một số loại thư rác được gửi tới một người nhận xác định nào đó nhằm mục đích phá vỡ và gây cản trở công việc của người nhận hay mạng của nhà cung cấp dịch vụ thư điện tử ESP (Email Service Provider) được gọi là “bom thư”. Thư rác còn được cố ý gửi đi nhằm thông báo tin sai lệch, làm xáo trộn công việc và cuộc sống của người nhận.

1.1.4 Những thiệt hại do thư rác gây ra

Các khảo sát cho thấy thư rác hiện chiếm hơn một nửa số email qua lại hàng ngày trên Internet và chính thư rác là nguồn lây lan virus nhanh nhất. Thiệt hại do chúng gây ra rất lớn.

Năm 2003, báo cáo của Hội thảo Thương mại và Phát triển của Liên Hiệp Quốc cho thấy thiệt hại do thư rác gây ra khoảng 20,5 tỷ USD. Các hãng diệt virus cũng đưa ra ước tính thiệt hại của các cuộc tấn công do virus năm 2001 là 13 tỷ USD, năm 2002 khoảng từ 20 - 30 tỷ USD. Chi phí để khắc phục sự cố do virus gây ra trong các doanh nghiệp được điều tra ngẫu nhiên ở Mỹ năm 2002 là 81.000 USD, đến năm 2003 đã tăng lên 100.000 USD. Trên 3/4 số doanh nghiệp cho rằng sự cố virus đã gây tổn hại nhất định đến năng suất làm việc và 2/3 cho biết ảnh hưởng chủ yếu của mỗi vụ tấn công là làm cho máy tính không thể truy cập được. Những ảnh hưởng khác của virus là làm hỏng file và không thể truy xuất dữ liệu.

- 14 -

Theo thống kê toàn cầu của hãng nghiên cứu Ferris Research (San Francisco), thư rác gây thiệt hại 50 tỷ USD trong năm 2005. Chỉ tính riêng ở Mỹ, thiệt hại do thư rác gây ra đối với các doanh nghiệp ước tính khoảng 17 tỷ USD/năm.

Không chỉ gây thiệt hại về tiền bạc, thư rác còn làm giảm hiệu quả làm việc, gây stress, tiêu tốn thời gian của nhân viên... Những điều này cũng đồng nghĩa với việc, năng suất lao động giảm, ảnh hưởng tới tình hình kinh doanh và doanh thu của công ty.

Báo cáo mới công bố của Tổ chức hợp tác phát triển kinh tế OECD cho thấy thư rác đang là vấn nạn toàn cầu, nhưng ảnh hưởng tới người sử dụng Internet ở thế giới thứ ba (các nước đang pháp triển) nhiều hơn tại các quốc gia phát triển. Theo phân tích của OECD một phần nguyên nhân của việc người sử dụng máy tính ở các nước đang phát triển hay bị virus và thư rác tấn công là do họ thường mua hệ điều hành và phần mềm chống virus không có bản quyền (do điều kiện kinh tế không cho phép) nên không thể được cập nhật một cách đầy đủ, không đối phó với những kỹ thuật liên tục thay đổi của những tên tin tặc (hacker) và những tên gửi thư rác (spammer). Bênh cạnh đó phải kể đến nguyên nhân thiếu kiến thức, công nghệ và tài chính để đối phó với sự gia tăng thư rác trên hệ thống liên lạc trong nước, gây thất thoát đáng kể nguồn lực công nghệ vốn đã yếu và thiếu tại những nơi này. Các ISP nội địa thì thiếu những chính sách ngăn chặn và xử lý thư rác, trong khi đó, những kênh tiếp vận (relay) và proxy “mở toang” cùng với vô số máy tính bị nhiễm virus hoặc Trojan trong mạng đã trở thành những nguồn phát tán thư rác lớn. Hậu quả là người sử dụng phải hứng chịu tình trạng bất ổn định dịch vụ, gây cản trở quá trình thu hẹp khoảng cách số toàn cầu.

Từ những con số thống kê trên ta có thể thấy, việc thông qua các chế tài pháp lý quốc tế, đầu tư mạnh vào hệ thống lọc thư rác, thiết lập những trung tâm phản ứng nhanh liên kết các ISP toàn cầu, đồng thời tăng cường các chiến dịch tuyên truyền cộng đồng về sự nguy hại và cách đối phó với thư rác là công việc rất quan trọng và cần thiết.

Ngày nay, spam không phải đơn giản chỉ nằm trong thư điện tử mà còn có cả trong blog1, còn gọi là spam blogs hay splogs, trên các tin nhắn trực tuyến. Những xu thế này chính là những hình thức mới của spam có thể phát triển nở rộ trong năm 2006.

1 Blog, gọi tắt của weblog (tiếng Anh, "nhật ký web"), là một dạng đàm luận thời sự trực tuyến, bùng nổ từ cuối thập niên 1990. Các bloger(người viết blog), có thể là cá nhân hoặc nhóm, đưa thông tin lên mạng với mọi chủ đề, thông thường có liên quan tới kinh nghiệm hoặc ý kiến cá nhân, chủ yếu cung cấp thông tin đề cập tới những chủ đề chọn lọc, không giống như các báo truyền thống. Một trang blog có thể chứa các siêu liên kết, hình ảnh và liên kết (tới các trang chứa phim và âm nhạc).

- 15 -

Ngoài ra, luật phòng chống spam và các bộ lọc spam ngày càng chặt chẽ sẽ khiến cho những kẻ gửi thư rác phải thay đổi đối tượng tấn công.

Để có thể loại bỏ được thư rác, ta không thể dùng một phương pháp riêng lẻ nào để loại bỏ tận gốc mà cần áp dụng các phương pháp kết hợp với nhau. Một trong những cách hữu hiệu nhất để chặn spam là giáo dục người dùng cuối. Khi người sử dụng đã có kiến thức thì họ sẽ ít bị rơi vào bẫy do những kẻ phát tán thư rác cố tình giăng ra để khai thác địa chỉ email và duy trì mục đích của chúng.

Một số lời khuyên cho người dùng thư điện tử:

Yêu cầu và đòi hỏi những nhà chức trách có những luật lệ nghiêm cấm thư rác và có những hình phạt thích đáng cho những kẻ cố tình.

Mỗi người dùng nên dùng nhiều địa chỉ email. Đây là phương pháp khá hiệu quả. Người dùng nên dùng các địa chỉ email khác nhau cho các mục đích khác nhau. Chẳng hạn, tạo một địa chỉ email cho công việc, một cho cá nhân, và một để đăng ký các dịch vụ, thông tin trên internet. Bằng cách này, người dùng có thể suy luận ra được địa chỉ nào bị lộ sau khi đăng ký các dịch vụ và tránh được chúng sau này.

Hạn chế đăng ký các dịch vụ vô ích. Người dùng nên tìm hiểu và đọc kỹ thông tin về dịch vụ trước khi cung cấp địa chỉ email của mình, cần chắc chắn là dịch vụ này cho phép lựa chọn “không nhận email quảng cáo từ các đối tác của nhà cung cấp dịch vụ”.

Kích hoạt các dịch vụ chống thư rác của ISP. Các ISP thường tích hợp các công cụ lọc thư rác cũng như chương trình quét virus. Người dùng nên kích hoạt các dịch vụ này khi dùng Internet. Phương pháp này cũng giúp giảm bớt được phần nào số lượng thư rác phải nhận mỗi ngày.

Cài đặt một số chương trình xử lý thư trong máy tính cá nhân để xóa thư rác ngay khi chuyển về máy.

Bảo vệ mật khẩu của mình bằng cách chọn mật khẩu lạ, khó đoán hoặc không thể đoán được, trong đó chữ cái xen lẫn con số, chữ hoa xen lẫn chữ thường.

Thường xuyên ghi dự phòng những dữ liệu quan trọng. Đồng thời, cảnh giác với những thư từ người quen biết nhưng không được báo trước, bởi có thể chúng được gửi đi mà người kia không biết.

- 16 -

Spam vẫn từng phút gây thiệt hại cho nền kinh tế Internet. Người ta nhận định rằng sẽ không bao giờ có đích đến cho công cuộc chống spam. Tùy vào ý thức của cư dân Internet và sức mạnh công nghệ, chỉ có thể hạn chế phần nào nó mà thôi.

1.2 Các giải pháp cho vấn đề lọc thư rác

1.2.1 Ban hành các bộ luật chống thư rác

Thư rác đang gia tăng với tốc độ khủng khiếp và đòi hỏi cần có những biện pháp cứng rắn phối hợp từ phía chính phủ. Chính vì vậy, việc ban hành các bộ luật chống thư rác là rất cần thiết và xác đáng.

Hiện nay, có rất ít quốc gia trên thế giới có luật bảo vệ người dùng dưới sự tấn công của thư rác. Về mặt luật pháp đối với thư rác, Mỹ là nước đi đầu với bộ luật quy định về “Email không do yêu cầu” (Unsolicited Electronic Mail Act), theo sau đó là Khối Cộng đồng chung Châu Âu với bộ luật mẫu về Thương mại Điện tử và Quảng cáo trên Internet. Hai bộ luật này đều dựa trên những luật căn bản như Quyền riêng tư, Bảo vệ Thông tin cá nhân và Quy định Thư tín/Giấy tờ Điện tử. Cả hai đều có những điểm chung là bắt buộc người gửi email không được mời phải nêu rõ mục đích và nội dung trong phần tiêu đề (Subject) để người nhận có thể xác định thông tin ngay và đồng thời phải có thông tin cho phép người nhận được quyền rút tên khỏi danh sách email nếu muốn. Thêm vào đó, những công ty hoặc người gửi thư rác phải hiểu và nắm vững chính sách quản lý thư rác/quảng cáo của mỗi ISP mà họ gặp phải.

Ở Việt Nam, chúng ta chỉ mới công nhận tính chất pháp lý của thư điện tử trong bộ Luật Hình sự, nhưng chưa có luật quy định và nghiêm cấm các hình thức gửi thư rác. Theo dự kiến, Pháp lệnh Thương mại điện tử và các dịch vụ liên quan đang được xây dựng, dự kiến sẽ trình Quốc hội phê chuẩn trong thời gian tới, trong đó sẽ có một số điều khoản quy định về thư rác được đưa ra xem xét.

1.2.2 Các phương pháp lọc thư rác trước đây

Vấn đề thư rác là vấn đề gây nhức nhối trong xã hội trong những năm gần đây. Nhiều nhà khoa học và nhiều công trình nghiên cứu về phương pháp lọc thư rác đã được đầu tư và tiến hành từ khá lâu.

Để đánh giá hiệu quả của một công cụ lọc thư rác người ta thường dựa trên hai độ đo sau:

o False Positive – Tỷ lệ thư thường bị lọc nhầm thành thư rác.

- 17 -

o False Negative – Tỷ lệ thư rác bị lọc nhầm thành thư thường.

Trong hai lỗi trên thì lỗi False Positive là loại lỗi cần tránh nhất, người dùng thường không chấp nhận lỗi này. Các công cụ lọc thư rác thường được tính toán sao cho độ đo False Positives và False Negatives là nhỏ nhất. Tuy nhiên, lỗi False Positives có phần được yêu tiên hơn. Một bộ lọc lý tưởng là sản phẩn có False Positives bằng 0 và False Negatives bằng 0. Điều này dường như là không thể.

Tất cả những công cụ lọc có giá trị ngày nay thường sử dụng một trong số những phương pháp hoặc kết hợp của các phương pháp sau:

�. Phương pháp lọc theo từ khóa

Phương pháp lọc thư rác theo từ khóa là một phương pháp truyền thống trong việc lọc thư rác. Người ta dựa vào những từ hay cụm từ có trong đầu đề của thư (subject) và nội dung của thư để lọc.

Khi một thư mới được gửi tới hòm thư của bạn, bạn phải tạo một bộ lọc mới đơn giản bằng cách chọn một số từ hoặc cụm từ trong nội dung thư. Các từ hay cụm từ này sẽ xác định đó là thư rác hay không. Vì mục đích của tất cả spam cơ bản là giống nhau (bán hoặc quảng cáo một sản phẩm hay một dịch vụ) và nội dung của hầu hết spam đều mang các đặc điểm chung. Những cụm từ, câu chữ như “Silk ties” (Cà vạt lụa) hoặc “Eliminate debt” (Xoá nợ) xuất hiện thường xuyên trên spam và được coi những cụm từ thường xuyên xuất hiện nhất trong các bức thư không mong muốn. Các đặc điểm nội dung khác để nhận diện spam như yêu cầu hành động như “Fin out how, click here” hoặc thông báo huỷ như “If you want to be removed from our mailing lists…”.

Một vài năm gần đây, những kẻ gửi thư rác đã bắt đầu nhận ra rằng thư rác của chúng đã bị chặn bởi bộ lọc theo từ khóa này. Do vậy những kẻ gửi thư rác này đã thay đổi cách viết nội dung của thư rác nhằm làm cho thư rác của chúng có thể “xuyên qua” các bộ lọc. Điều này có thể giải thích tại sao bạn nhận nhiều thư với những từ như "Vi@gra", "Mort.gage", "L|0|a|n|$" hay những tranh ảnh được nhúng vào trong thư.

Phương pháp này có một số ưu điểm và nhược điểm sau:

Ưu điểm:

Tính thích nghi: Người dùng có thể dễ dàng biến đổi bộ lọc của mình để nó có thể lọc các kiểu thư rác mà người đó đang phải nhận và điều quan

- 18 -

trọng là nó không cản trở (thích nghi) các từ và các cụm từ được sử dụng hàng ngày trong kinh doanh thương mại với bạn bè hay những người thân quen.

Nhược điểm:

Yêu cầu nhiều tiến trình xử lý bằng tay để điều chỉnh và duy trì bộ lọc được hiệu quả. Để có thể đánh lừa các bộ lọc, những kẻ gửi thư rác luôn luôn thay đổi hình thức nội dung của thư rác, do đó những bộ lọc mở rộng phải được tạo ra để chống lại điều đó.

�. Phương pháp lọc Bayesian

Lọc bằng thống kê Bayesian là đánh giá xem những từ ngữ trong một email sắp được chuyển đến có thường xuyên xuất hiện trên thư rác (spam) hay thư hợp pháp (ham) không. Một cách hiệu quả giúp lọc chính xác là người dùng thông báo cho chương trình lọc bất kỳ thư rác nào mà đã may mắn “thoát” đợt “truy quét” đầu tiên. Lần lọc sau, chắc chắn nó sẽ không thể trốn thoát qua bộ lọc.

Bộ lọc Bayesian phải được học từ những email được xác định trước là thư tốt hay thư không tốt. Trong suốt quá trình cho bộ lọc học, nội dung của các thư này được tách các từ tố (token) và lưu vào trong một cơ sở dữ liệu. Dựa vào công thức Bayes, mỗi từ tố được tính cho một giá trị phụ thuộc vào một số tiêu chuẩn sau:

- Mức độ thường xuyên xuất hiện của từ tố đó trong thư rác

- Mức độ thường xuyên xuất hiện của từ tố đó trong thư bình thường

- Số lượng thư rác mà bộ lọc đã được học

- Số lượng thư bình thường bộ lọc đã được học.

Khi phân tích một thư rác đến, nội dung của thư này cũng được tách ra thành các từ tố, tra giá trị ứng với từ tố này có trong cơ sở dữ liệu từ đó tính được xác suất tổng hợp xem thư đó có phải là thư rác không. Giá trị này thường gọi là “spamicity”

Ưu điểm:

Yêu cầu sự duy trì ít hơn các bộ lọc khác.

Bộ lọc có thể tự động thích nghi với các hướng thay đổi của thư rác. Bởi vì, bộ lọc Bayesian luôn tiếp tục học từ những thư mới đến, chúng sẽ tự thích nghi dần dần với các hướng thay đổi.

- 19 -

Tự động điều chỉnh phù hợp với hòm thư của những người dùng riêng biệt. Thí dụ, nếu người dùng là nhân viên cho vay lãi thì những thư lặp đi lặp lại yêu cầu cho vay sẽ không bị xác định như là thư rác

Nhược đỉểm:

Bộ lọc chỉ lọc tốt đối với những kiểu thư mà chúng đã được học. Để có thể đạt tới khả năng là một bộ lọc tốt, nó cần có thời gian học khá lâu và một lượng dữ liệu thư đủ phong phú. Các thư rác mới phải thường xuyên được cập nhật.

�. Phương pháp lọc SpamAssassin

Phương pháp lọc SpamAssassin bao gồm một tập các chương trình lọc và các luật để xác định và đánh dấu thư rác.

Để xác định một thư mới đến có phải là thư rác hay không, nó dùng đầu đề (header) và nội dung của thư rồi dựa trên tập các luật được xác định trước và những kí hiệu dấu câu đặc biệt (tell-tale), xem thư có vi phạm các luật này không sau đó tính điểm đối với từng thư. Từ kết quả thu được, xác định được một thư là thư rác hay thư thường.

Ưu điểm:

Tỉ lệ lọc thư rác của phương pháp SpamAssassin rất cao

Nhược điểm:

Phương pháp SpamAssassin tiêu tốn khá nhiều tài nguyên (khối điều khiển trung tâm CPU, bộ nhớ, thời gian xử lý) của máy chủ, đặc biệt khi phải xử lý những email có dung lượng lớn. Cấu hình để SpamAssassin hoạt động tốt, đồng thời giảm nhẹ sự tiêu tốn tài nguyên cho máy chủ là một vấn đề quan trọng.

�. Phương pháp dùng danh sách trắng/đen

Đây là phương pháp cơ sở của các bộ lọc thư rác. Tuy nhiên, ngày nay người ta ít khi sử dụng nó một cách đơn lập mà được dùng kết hợp với các phương pháp lọc khác như là một phần của hệ thống bộ lọc tích hợp.

Bộ lọc danh sách trắng (Whitelist filter) sẽ không chấp nhận những email từ bất cứ địa chỉ nào nếu không có trong danh sách được chắc chắn là những địa chỉ email (hoặc địa chỉ IP) tốt.

- 20 -

Bộ lọc danh sách đen (Blacklist filter), ngược lại sẽ cho phép những thư đến từ bất cứ địa chỉ email (hoặc địa chỉ IP) nào trừ những địa chỉ được liệt kê trong danh sách được biết đến như là địa chỉ email (hoặc địa chỉ IP) xấu. Danh sách đen có thể được lưu trữ và được quản lý trên những hệ thống địa phương hoặc ánh xạ thông qua mạng Internet.

Ưu điểm:

Danh sách trắng bảo đảm ngăn những email từ những nguồn không mong muốn.

Với bộ lọc thư rác sử dụng danh sách đen được cập nhật thường xuyên sẽ cho giá trị False Positives bằng 0.

Nhược điểm:

Bộ lọc sử dụng danh sách trắng là cách loại trừ thư rác mạnh mà không có tính mềm mỏng. Bất cứ thư nào tới mà không có địa chỉ trong danh sách này thì đều bị loại thành thư rác, do đó giá trị False Positives thường cao.

Các danh sách này không được tạo tự động mà sẽ do người quản trị thường xuyên cập nhật. Cả Blacklist và Whitelist đều rất khó duy trì và phương pháp này đặc biệt trở lên không hiệu quả đối với những tấn công của những kẻ tấn công cố đưa địa chỉ vào Whitelist và chối bỏ địa chỉ khỏi Blacklist.

Ngày nay, một hình thức ngăn chặn spam mới kế thừa và pháp trển của phương pháp Blacklist được biết đến đó là Realtime Blackhole List (RBL) của Multiple Address Processing System (MAPS). Nó có thể nhận biết các máy chủ có nhiều thư rác do đó nhà cung cấp dịch vụ có thể chặn những máy chủ này và lọc spam trước khi chúng đến hộp thư khách hàng của họ. Hàng ngàn nhà cung cấp dịch vụ dùng cơ sở dữ liệu của RBL đồng thời kết hợp nhiều ứng dụng bảo mật thư điện tử trong máy chủ.

�. Phương pháp lọc thư rác dùng chuỗi hỏi đáp (Challenge/Response filters)

Đặc trưng của phương pháp này là khả năng tự động gửi thư hồi đáp cho người gửi để yêu cầu một số hành động kiểm tra chắc chắn về việc gửi thư của họ. Chương trình kiểm tra này được đặt tên là “Turing Test” do nhà toán học người anh tên là Alan Turing nghĩ ra.

- 21 -

Trong một vài năm gần đây xuất hiện của một vài dịch vụ Internet tự động xử lý hàm Challenge/Response này cho người dùng. Chương trình yêu cầu người gửi thư phải vào website của họ và trả lời một số câu hỏi đơn giản để xác minh về email mà người này đã gửi.Việc này chỉ được yêu cầu trong lần gửi thư đầu tiên. Đáp ứng hàm Challenge/Response này rất đơn giản và không có gì khó khăn khi một người dùng muốn gửi thư cho một người khác nhưng nó không mấy dễ dàng cho những kẻ gửi thư rác muốn phát tán một lượng lớn thư rác đi.

Ưu điểm:

Đối với một số người dùng có lượng thư trao đổi thấp, hệ thống đơn lẻ này có thể chấp nhận được như một phương pháp hoàn hảo để loại trừ hoàn toàn thư rác từ hòm thư của họ.

Nhược điểm:

Người dùng thường cảm thấy không thuận tiện.

Những kẻ gửi thư rác có thể viết những chương trình trả lời tự động những chuỗi hỏi đáp trên.

�. Phương pháp lọc dựa vào vị trí của các bộ lọc (Filter Placement)

Có 3 mô hình chính cho bộ lọc được sắp đặt:

a. Bộ lọc tích hợp với máy trạm email của người dùng:

Nhiều bộ lọc thư rác được tích hợp với các máy trạm email chẳng hạn như Outlook hoặc outlool Exprees.

Ưu điểm:

Tối thiểu sự ảnh hưởng đối với những thói quen đọc thư thông thường của người dùng. Thư rác thường bị di chuyển tới một thư mục “Junk Mail”. Người dùng có thể xem lại hoặc xóa spam lưu trong thư mục này đi một cách dễ dàng.

Nhược điểm:

Người dùng chỉ có thể sử dụng với máy trạm của email hiện tại của mình.

Không mềm dẻo: thường đưa cho người dùng giới hạn để chọn những cảnh báo. Thí dụ, khi người dùng đang chạy Microsoft Outlook với một bộ lọc thư rác tích hợp, bất cứ khi nào một thư rác tới, người dùng vẫn bị cảnh bảo một thư mới tới. Người dùng phải vào chương trình Outlook để

- 22 -

xác nhận xem thư mới đến đó là thư rác và không phải là một email quan trọng. Người dùng không thể điều chỉnh để tạo một cảnh báo khác có thể nghe thấy giữa những email tốt và xấu hoặc chỉ cảnh báo những email tốt khi những email được gửi tới hòm thư trước khi chúng hoạt đông chống lại bởi bộ lọc và di chuyển tới một thư mục riêng biệt.

b. Các bộ lọc hoạt động như là một “proxy” giữa máy chủ email và máy trạm email của người dùng

Bộ lọc này chạy bên trong máy của người dùng, định kì thăm dò máy chủ email, lấy ra những email của người dùng và nó được lọc trên máy chủ email trước khi những email này được gửi tới máy trạm email bình thường của người dùng và được lọc một lần nữa.

Ưu điểm:

Dễ thay đổi: Các thư trước khi được gửi tới người dùng nó có thể đánh dấu, di chuyển hoặc xóa bởi máy chủ email trước khi chúng được nhìn thấy bởi máy trạm email của người dùng.

Bảo mật: chúng tương ứng như một tầng khác ở giữa Internet và máy trạm email của người dùng. Chúng sẽ không chạy bất cứ một ứng dụng nào hay chạy một tập lệnh nào đó được tìm thấy trong thư.

Nhược điểm:

Sử dụng hiệu quả phương pháp này đòi hỏi tắt chế độ tự động kiểm tra trên máy trạn email của người dùng vì thế proxy phải thay đổi để làm việc trên máy chủ đầu tiên.

Thông tin tài khoản email cần được cài đặt trong bộ lọc cũng như trong máy trạm email của người dùng.

c. Bộ lọc dựa trên máy chủ

Những bộ lọc này thường chỉ được sử dụng trong một nhóm hoặc môi trường làm việc kinh doanh hơn là ở trong gia đình. Tất cả email đến đều thông qua máy chủ trung tâm. Tại máy chủ trung tâm này, email được lọc bởi bộ lọc dựa trên máy chủ và những người dùng riêng biệt nhận thư của họ trên màn hình nền của máy họ lấy từ máy chủ trung tâm.

Ưu điểm:

- 23 -

Việc quản lý trung tâm của tất cả các luật lọc thư bảo đảm tính an toàn trong mạng.

Những người dùng riêng biệt không phải chịu trách nhiệm cũng như không phải lo lắng đến sự quản lý thư rác, giải phóng họ để họ có thể yên tâm trong công việc với trao đổi thư điện tử.

Nhược điểm:

Thường yêu cầu nhiều tới sự duy trì và cầm có một người quản trị mạng có khả năng và kinh nghiệm để quản lý bộ lọc thư rác này.

Thường đắt hơn.

�. Phương pháp lọc dựa trên xác nhận danh tính của người gửi

Giả mạo thư điện tử - là việc giả mạo địa chỉ thư điện tử của một công ty hoặc của một người khác để khiến người sử dụng tin tưởng và mở thư - đang là một trong những thử thách lớn nhất mà cộng đồng sử dụng Internet và các kỹ thuật viên chống thư rác hiện đang phải đối mặt. Nếu không có sự thẩm định quyền, xác nhận và khả năng truy tìm danh tính của người gửi, các hãng cung cấp dịch vụ thư điện tử không bao giờ có thể biết chắc một bức thư là hợp pháp hay bị giả mạo. Do đó việc xác nhận danh tính của người gửi là rất cần thiết. Để xác nhận danh tính của người gửi người ta đưa ra một số giải pháp sau:

a. Phương pháp DomainKeys

Phương pháp DomainKeys có thể giúp phân định rõ thư rác và thư thường bằng cách cung cấp cho các hãng cung cấp dịch vụ thư điện tử một cơ chế xác nhận cả tên miền của mỗi người gửi thư điện tử và sự liêm chính của mỗi bức thư được gửi đi (ví dụ như các thư này không bị thay thế trong khi được truyền qua mạng). Và, sau khi đã xác nhận được tên miền, người ta có thể so sánh tên miền này với tên miền mà người gửi sử dụng trong ô “Người gửi” của bức thư để phát hiện các trường hợp giả mạo. Nếu đây là trường hợp giả mạo, thư đó sẽ bị coi là thư rác hoặc gian lận, và có thể bị loại bỏ mà không ảnh hưởng tới người sử dụng. Nếu đây không phải là thư giả mạo, có nghĩa là tên miền được biết đến và tên miền gửi thư đó có thể được được đưa vào danh sách những tên miền đáng tin cậy và được đưa vào các hệ thống quy định chống thư rác được sử dụng chung giữa các hãng cung cấp dịch vụ và thậm chí đưa ra cho cả người sử dụng.

b. Phương pháp Call-ID

- 24 -

Caller ID là một tiêu chuẩn đặt ra trong quá trình gửi thư. Tiêu chuẩn này đòi hỏi người gửi thư điện tử phải cung cấp địa chỉ IP của máy chủ gửi thư theo dạng XML vào bản ghi DNS trên máy chủ tên miền của họ. Máy chủ nhận thư điện tử và máy khách nhận bức thư đó sẽ kiểm tra địa chỉ gửi thư trong tiêu đề bức thư với địa chỉ đã được công bố để xác nhận máy chủ gửi thư. Các bức thư không khớp với địa chỉ nguồn sẽ bị loại bỏ. DNS là hệ thống diễn dịch các địa chỉ IP số sang các tên miền Internet có thể đọc được.

c. Phương pháp SPF (Sender Policy Framework) - dựa trên cơ cấu chính sách người gửi

Chuẩn SPF cũng yêu cầu người gửi thư điện tử phải sửa đổi DNS để cho biết máy chủ nào có thể gửi thư từ một tên miền Internet nhất định. Tuy nhiên, SPF chỉ kiểm tra sự giả mạo khi bức thư trong quá trình chuyển thư hay còn gọi là ở mức “ngoài phong bì”, xác minh địa chỉ “phản hồi” của một bức thư, thường được máy chủ nhận thư gửi trở lại trước khi tiếp nhận phần nội dung thư, sau đó sẽ thông báo tới máy chủ nhận thư để loại bỏ bức thư.

Trong đặc tả kỹ thuật kết hợp hai tiêu chuẩn, các công ty gửi thư điện tử sẽ công bố địa chỉ máy chủ thư điện tử của họ trong bản ghi DNS dưới định dạng Ngôn ngữ đánh dấu mở rộng (XML). Các công ty sẽ có thể kiểm tra sự giả mạo ở mức phong bì (cũng giống như trong đề xuất SPF) và trong phần nội dung thư (theo đề xuất của Microsoft).

Kỹ thuật này sẽ cho phép các công ty sử dụng cách thức của SPF để loại bỏ thư rác trước khi chúng được gửi đi, nếu sự giả mạo bị phát hiện ngay ở mức phong bì. Với những bức thư đòi hỏi sự kiểm tra kỹ hơn trong nội dung thư, thì phương pháp Caller ID sẽ được sử dụng. Đề xuất này cũng sẽ hỗ trợ các tên miền đã có sẵn những bản ghi SPF là văn bản, không theo định dạng XML.

�. Phương pháp lọc thư rác mới dựa trên mạng Xã hội

Các nghiên cứu gần đây đã bắt đầu khai thác thông tin từ mạng xã hội cho việc xác định thư rác bằng cách xây dựng một đồ thị (các đỉnh là địa chỉ email, cung được thêm vào giữa 2 node A và B nếu giữa A và B có sự trao đổi thư qua lại). P.O. Boykin và V. Roychowdhury đã sử dụng một số tính chất đặc trưng của mạng xã hội để xây dựng một công cụ lọc thư rác [6].

Đầu tiên, người ta phân đồ thị thành các thành phần con rồi tính độ phân cụm cho từng thành phần này. Mỗi thành phần con là một đồ thị mạng xã hội của một node,

- 25 -

bao gồm tất cả các node hàng xóm (các node xung quanh có cung liên kết với node này) và những cung liên kết giữa các node hàng xóm này với nhau. Nếu thành phần nào có độ phân cụm thấp thì node tương ứng với thành phần đó là một địa chỉ gửi thư rác. Trong thành phần mạng xã hội của những node gửi thư rác, những node hàng xóm của nó thường là những node rất ngẫu nhiên, không có mối quan hệ (không có sự trao đổi email qua lại với nhau) nên độ phân cụm của mạng xã hội của những node này rất thấp. Ngược lại, mạng xã hội ứng với những người dùng bình thường các node hàng xóm của nó có mối liên kết cao với nhau nên có độ phân cụm cao hơn.

Dựa vào độ phân cụm, người ta tạo được danh sách đen (Blacklist) gồm địa chỉ email tương ứng với những node có độ phân cụm rất thấp, danh sách trắng (Whitelist) ứng với node có độ phân cụm cao, số node còn lại sẽ được đưa vào danh sách cần xem xét (Greylist). Phương pháp này có thể phân loại được 53% tổng số email một cách chính xác là ham hay spam. Nhược điểm của phương pháp là những spammer có thể xây dựng mạng xã hội của chính họ nên khó có thể phát hiện ra.

Cho đến nay, một bộ lọc thư rác được xem là hoàn hảo vẫn chưa được tạo ra, và việc tạo ra một bộ lọc thư rác hoàn hảo cho mọi thời đại dường như là thể không thể. Bởi, cuộc chiến không ngừng giữa những tên gửi thư rác và những bộ lọc làm cho siêu bộ lọc thư rác của hôm nay có thể trở thành cái lỗi thời của ngày mai. Bộ lọc thư rác mạnh nhất sẽ là bộ lọc sử dụng kết hợp nhiều bộ lọc khác, hoặc tất cả các thuộc tính đã liệu kê ở trên đây.

- 26 -

Chương 2

KKIIẾẾNN TTHHỨỨCC CCƠƠ SSỞỞ

Bản chất của việc lọc thư rác dựa trên phương pháp mạng xã hội là việc áp dụng các tính chất của đồ thị của mạng, cấu trúc của mạng để tính được độ phân cụm của các thành phần của của các node mạng, từ đó có thể đánh giá được thành phần ứng với node nào là th0ư rác. Chương này trình bày một cách cơ sở và về nguồn gốc cấu trúc của các mạng liên quan, là cơ sở khoa học của phương pháp lọc thư rác sẽ được đưa ra ở phần sau.

2.1 Mạng phức hợp (Complex Networks) Trong một vài năm gần đây người ta đã bắt đầu nhận thấy được tầm quan

trọng của mạng phức hợp (Complex Networks) trong nhiều lĩnh vực trong khoa học cũng như trong đời sống của xã hội hiện đại. Việc nghiên cứu về mạng phức hợp cũng được khuyến khích và đã có rất nhiều nhà khoa học, nhà nghiên cứu trên thế giới quan tâm và tìm hiểu về mạng phức hợp. Theo biểu đồ thống kê (Hình 2.1) cho thấy số lượng bài báo nghiên cứu về mạng phức hợp đã gia tăng một cách đột biến trong những năm gần đây [16].

Hình 2.1 : Biểu đồ số lượng bài báo nghiên cứu về mạng phức hợp

- 27 -

Mạng phức hợp là một tập các hệ thống được tạo bởi các yếu tố đồng nhất hoặc không đồng nhất kết nối với nhau thông qua sự tương tác khác nhau giữa các yếu tố này và được trải ra trên diện rộng. Chúng có mặt ở khắp nơi trong tự nhiên và trong xã hội. Trong thực tế, có rất nhiều hệ thống trong tự nhiên có thể miêu tả thông qua các mô hình của mạng phức hợp. Đó là những hệ thống có cấu trúc gồm các node (hay các đỉnh) gắn với nhau thành một mạng bởi các liên kết (hoặc các cung). Thí dụ như: mạng Internet là mạng của các router hoặc các domain (Hình 2.2); mạng World Wide Web (WWW) là mạng của những trang web (Hình 2.3); bộ não chính là mạng của các nơron thần kinh (Hình 2.4); một tổ chức là mạng của những thành viên trong tổ chức; nền kinh tế toàn cầu là mạng của kinh tế của các nước thành phần, nền kinh tế mỗi nước lại là một mạng các thị trường, mỗi thị trường lại là một mạng tương tác giữa những sản phẩm hàng hóa và người tiêu thụ; Web thức ăn (Food Web) (Hình 2.5) và những đường trao đổi chất cũng có thể biểu diễn bởi một mạng (Hình 2.6); mạng của các chất hóa học (liên kết với nhau bởi các phản ứng hóa học); mạng ngôn ngữ (thí dụ như mạng đồng âm khác nghĩa, mạng đồng nghĩa); các mạng lưới điện cao thế (Electrical Power Grid); các chủ đề của một buổi nói chuyện và thậm chí việc vạch kế hoạch cho xử lý một vẫn đề toán học nào đó cũng có thể mô hình bằng một mạng....

Hình 2.2 Mạng Internet

Hình 2.3 Mạng World Wide Work

Hình 2.4 Mạng Nơron

Hình 2.5 Mạng Food web

- 28 -

Nếu quan sát bằng trực quan ta có thể thấy chúng được thường xuất hiện một cách hỗn loạn, mang tính chất phức tạp cố hữu (cấu trúc rắc rối, tính đa dạng trong liên kết).

Hình 2.6 Mạng trao đổi chất

Mạng phức hợp được ứng dụng rất nhiều trong tự nhiên cũng như trong khoa học và công nghệ. Chính vì vậy, việc tìm hiểu về mạng này và tìm ra cấu trúc phù hợp để trên cơ sở đó xây dựng được một hệ thống mạnh, hiệu quả nhưng đơn giản là rất cần thiết. Liên qua đến vấn đề này, nhiều câu hỏi đã được đặt ra như: tại sao bệnh tật lại có thể lan truyền thông qua cấu trúc của mạng xã hội hay thế nào là một kiến trúc phù hợp và thuận tiện cho một tổ chức chuyên biệt... Những vấn đề đặt ra này chính là những vấn đề bức thiết trong cuộc sống đòi hỏi câu trả lời và các giải pháp thích hợp. Hơn một thế kỉ qua, mô hình các hệ thống vật lý cũng như là các hệ thống phi vật lý và các quy trình được tiến hành với giả định rằng các kiểu tương tác giữa các thành phần riêng lẻ của hệ thống và các quy trình đó có thể nhúng được vào một cấu trúc thông thường và phổ biến như lưới Ơ-clít (Euclidean lattice).

Vào cuối những năm 1950, hai nhà toán học Erdös and Rényi (ER) đã tạo ra một bước ngoặt mang ý nghĩa đột phá về lý thuyết đồ thị trong thuật toán cổ điển. Hai ông đã mô phỏng được một mô hình mạng với cấu trúc hình học phức tạp bằng đồ thị ngẫu nhiên (Random Graph) [12]. Công trình nghiên cứu này không chỉ có ý nghĩa đặt nền móng cho lý thuyết về mạng ngẫu nhiên (Random Networks) mà nó còn mở ra cho nhiều phát minh và nghiên cứu sau này. Trong 40 năm tiếp theo và thậm chí cho tới tận ngày nay, mô hình ER của hai ông vẫn còn mang ý nghĩa sâu sắc và được ứng dụng trong nhiều lĩnh vực của khoa học và đời sống. Mặc dù, bằng quan sát thực tế ta có thể thấy rõ nhiều mạng phức hợp trong cuộc sống thực (real-life complex networks)

- 29 -

không hoàn toàn đã là mạng thông thường (Regular Networks) cũng không hoàn toàn là một mạng ngẫu nhiên nhưng mô hình đồ thị ngẫu nhiên ER vẫn là một hướng tiếp cận khá nhạy cảm và thể hiện sự nhìn xa trông rộng của tác giả mà cho đến tận nửa thập kỉ gần đây vẫn tạo được ảnh hưởng sâu sắc đến những nghiên cứu về mạng phức hợp của các nhà khoa học.

Trong một vài năm gần đây, hầu hết dữ liệu đã được đưa vào xử lý bằng máy tính và đạt được tốc độ tính toán cao. Hơn nữa, các siêu máy tính còn có khả năng xử lý lượng dữ liệu khổng lồ được biểu diễn bởi nhiều cấu trúc hình học phức tạp của mạng thực. Do đó, việc đáp ứng sự truy cập của cộng đồng đến lượng dữ liệu lớn đó đã thôi thúc những sự quan tâm đặc biệt vào việc cố gắng tìm ra những đặc điểm chung của các loại mạng phức hợp khác nhau. Với sự cố gắng đó, người ta đã khám phá ra hai thuộc tính có ý nghĩa quan trọng của hầu hết các mạng phức hợp đó là hiệu ứng thế giới nhỏ (small-world effect) và đặc trưng co dãn tự do (scale-free feature).

Năm 1998, nhằm mô tả sự chuyển tiếp từ đồ thị mạng thường sang đồ thị mạng ngẫu nhiên, hai nhà khoa học Watts và Strogatz (WS) đã đưa ra khái niệm về mạng small-world [36]. Trong cuộc sống đời thường chúng ta cũng có thể bắt gặp hiện tượng small-world này rất nhiều, chẳng hạn ngay sau khi gặp một người lạ mặt rồi cả hai cùng bất ngờ nhận ra rằng giữa họ có mối quan hệ rất gần gũi và cả hai cùng thốt lên “Thế giới này thật nhỏ bé!”. Một hiện tượng khác cũng khá thú vị của biểu hiện small-worlds được nhà tâm lý học xã hội Milgran đề cập tới vào cuối những năm 1960 gọi là nguyên tắc “sáu mức ngăn cách” (six degree of separation)[21]. Mặc dù, nguyên tắc này đã để lại rất nhiều tranh luận sau này, nhưng người ta thấy rằng kiểu biểu hiện của small-world xuất hiện trong hầu hết các mạng thực. Một đặc điểm phổ biến và đặc trưng cho đồ thị ngẫu nhiên ER và mô hình small-world WS là sự phân bố các kết nối giữa các node trong mạng đạt giá trị cực đại tại giá trị trung bình và giảm theo hàm mũ. Những mạng như vậy còn được gọi là mạng hàm mũ (Exponential networks) hay mạng đồng nhất (Homogeneous networks) bởi vì các node trong mạng có số liên kết đến như nhau.

Một khám phá gần đây cũng ý nghĩa quan trọng lĩnh vực mạng phức hợp đó là nhiều mạng phức hợp co dãn trên diện rộng (large-scale) là mạng co dãn tự do (scale-free). Kiểu mạng này có phân bố các liên kết trong mạng tuân theo hàm lũy thừa và không phục thuộc vào độ lớn của mạng [4,5]. Không giống với các mạng hàm mũ, mạng scale-free không đồng nhất trong tự nhiên: hầu hết các node trong mạng có một vài liên kết và cá biệt có một số node có rất nhiều liên kết trỏ tới.

- 30 -

Sự phát hiện hai đặc tính small-world và scale-free của mạng phức hợp chính là “chìa khóa” cho sự phát triển của lý thuyết về mạng phức hợp sau này.

Để đánh giá một mạng phức hợp nào đó người ta thường dùng ba độ đo: độ dài đường dẫn trung bình (Average Path Length), độ phân cụm (Clustering Coefficient), độ phân bố bậc (Degree Distribution).

2.1.1 Độ dài đường dẫn trung bình

Trong một mạng, gọi ijd là khoảng cách giữa hai node được gắn nhãn lần lượt

là i và j. Khi đó, ijd được định nghĩa là số các cung dọc theo đường dẫn ngắn nhất nối

giữa node i và j. Từ đó, đường kính D của một mạng được định nghĩa là khoảng cách lớn nhất trong số tất cả các khoảng cách của bất kì hai node nào trong mạng.

Độ dài đường dẫn trung bình L của mạng là trung bình khoảng cách của tất cả các cặp node trong toàn mạng. Trong trường hợp này, độ dài đường dẫn trung bình L của một mạng xác định độ lớn hiệu quả của mạng và khoảng cách giữa các cặp node trong mạng đó. Trong mạng của những người bạn (Friendship networks) (Hình 2.7), L là trung bình của số người bạn tồn tại trong chuỗi liên kết ngắn nhất giữa hai người bất kì trong mạng. Bằng thực nghiệm người ta đã chứng minh được rằng độ dài đường dẫn trung bình của hầu hết các mạng phức hợp thực khá nhỏ, thậm chí ngay cả trong trường hợp số cung liên kết của nó ít hơn so với mạng cặp đôi đầy đủ với cùng số node như nhau. Hiện tượng này đã nảy sinh hiệu ứng small-world và do đó cái tên mạng small-world (Small-world Networks) được ra đời.

Hình 2.7 Đồ thị mạng những người bạn

- 31 -

2.1.2 Độ phân cụm

Trong mạng những người bạn (Hình 2.7), khả năng "bạn của bạn của bạn cũng là bạn trực tiếp của bạn" hay nói cách khác, xác suất "hai người bạn của một người trở thành bạn của nhau" là rất cao. Đặc tính này nói lên độ phân cụm của một mạng. Một cách chính xác hơn, độ phân cụm C của một mạng là trung bình của các phân số ứng với từng node i có tử là số liên kết của node i với các node xung quanh và mẫu là số liên kết của các cặp node hàng xóm (neighbors) của node i với nhau. Giả sử, node i trong mạng có ki cung và chúng liên kết với ki node khác. Các node khác này chính là những node hàng xóm của node i. Như vậy, rõ ràng số luợng cung nhiều nhất có thể tồn tại giữa các node hàng xóm của i là 2/)1( +ii kk và điều này chỉ xảy ra khi

mọi node trong tập các node hàng xóm này đều có cung liên kết với các node khác trong tập node hàng xóm trên của i. Khi đó, độ phân cụm của node i được định nghĩa là tỉ lệ giữa số cung Ei tồn tại thực sự giữa ki node hàng xóm của i và tổng số cung có thể 2/)1( +ii kk , công thức độ phân cụm ứng với từng node i

)1(*2−

=ii

ii kk

EC (2.1)

Độ phân cụm C của toàn mạng là trung bình độ phân cụm Ei của các node i. Từ công thức độ phân cụm trung bình của C ở trên ta có thể thấy 10 ≤≤ C , C=1 nếu và chỉ nếu mạng đó là mạng cặp đôi đầy đủ hay nói cách khác tất cả các node trong mạng đều có cung nối với mọi node còn lại trong mạng, Ci = 0 trong trường hợp Ei = 0 hay giữa các node hàng xóm của i không có liên hệ với nhau.

Đối với mạng ngẫu nhiên hoàn toàn gồm N node thì khi đó độ phân cụm NC /1~ , độ phân cụm này khá nhỏ so với độ phân cụm của hầu hết các mạng thực.

Bằng thực nghiệm người ta đã chứng minh được rằng độ phân cụm của các mạng thực large-scale có độ phân cụm lớn hơn nhiều so với )/1( NO . Do vậy, hầu hết mạng phức

hợp thực không phải là mạng ngẫu nhiên hoàn toàn. Vì vậy, chúng không nên bị coi như là mạng ngẫu nhiên hoàn toàn (Completely random networks) hay mạng lưới cặp đôi đầy đủ (Fully coupled lattices).

2.1.3 Độ phân bố bậc

Thuộc tính quan trọng nhất của một node đơn lẻ là bậc của nó. Bậc ki của một node i thông thường được định nghĩa là tổng số liên kết của nó. Do vậy, nếu một node có bậc càng lớn thì node ấy lại càng quan trọng trong mạng, có ý nghĩa quyết định cho

- 32 -

tính chất của mạng. Trung bình các bậc ki của tất cả các node i gọi là bậc trung bình của mạng và được kí hiệu là <k>.

Sự phân bố bậc của các node trong mạng được mô tả bởi hàm phân phối P(k), hàm này cho biết xác suất của một node được chọn ngẫu nhiên có chính xác k cung liên kết (có bậc là k). Một mạng lưới thông thường (Regular lattice) có bậc trung bình đơn giản bởi vì tất cả các node đều có số các cung liên kết bằng nhau và do đó, khi vẽ đồ thị độ phân bố nó là một đường thẳng dốc (theo phân bố delta). Trong giới hạn của mạng ngẫu nhiên hoàn toàn, bậc của các node trong mạng tuân theo phân phối Poisson và đồ thị của phân phối Poisson này tuân theo hàm mũ, và giá trị cực đại đạt tại giá trị trung bình <k>.

Trong một vài năm gần đây, nhiều kết quả dựa trên kinh nghiệm đã chứng minh rằng hầu hết các mạng thực large-scale có độ phân phối không tuân theo hàm phân phối Poisson. Một cách cá biệt, đối với một số mạng độ phân bố có thể thể hiện hiệu quả hơn bởi hàm lũy thừa (power-law) P(k)~k-γ.

Đặc tính small-world và scale-free là phổ biến đối với nhiều mạng phức hợp thực. Bảng 1 liệt kê một số mạng với các đại lượng đo về chúng.

Mạng Cỡ Độ phân

cụm Trung bình đường dẫn

Độ phân bố

Internet, domain level [34]

32711 0.24 3.56 2.1

Internet, router level [34]

228298 0.03 9.51 2.1

WWW [3] 153127 0.11 3.1 γin= 2.1 γout=2.45

Email [11] 56969 0.03 4.95 1.81

Software [33] 1376 0.06 6.39 2.5

Electronic circuits [7]

329 0.34 3.17 2.5

Language [8] 460902 0.437 2.67 2.7

Movie actors [36,4]

225226 0.79 3.65 2.3

- 33 -

Math, co-authorship [26]

70975 0.59 9.50 2.5

Food web [23,37] 154 0.15 3.40 1.13

Metabolic system [18]

778 - 3.2 γin= γout=

2.2 Bảng 1 Kiểu small-world và thuộc tính scale-free của một vài mạng thực. Mỗi mạng có số node là N, độ phân cụm C, độ dài đường dẫn trung bình L và số mũ γ của phân phối mũ. Mạng WWW và mạng trao đổi chất được thể hiện bằng đồ thị có hướng.

2.2 Các mô hình của mạng phức hợp Để hiểu được cấu trúc của một mạng phức hợp đầu tiên ta cần phải hiểu được

một số tính chất cơ sở của một mạng chẳng hạn như độ dài đường dẫn trung bình L, độ phân cụm C và độ phân phối P(k). Bước tiếp theo, phát triển mô hình thuật toán với cấu trúc hình học của các thuộc tính tĩnh tương tự. Từ đó, có được cơ sở để sự phân tích các thuật toán là có thể. Phần dưới đây trình bày một số mô hình đặc trưng của mạng phức hợp.

2.2.1 Mạng cặp thông thường (Regular coupled networks)

Bằng quan sát thực tế ta có thể thấy, mạng cặp đôi đầu đủ (mạng mà các node đều có liên kết với tất cả các node khác trong mạng) có độ dài trung bình nhỏ nhất và có độ phân cụm lớn nhất. Mạng cặp đôi đầy đủ này cũng mang tính chất small-world và large-clustering của nhiều mạng thực nhưng ta có thể dễ nhận thấy giới hạn của nó: một mạng cặp toàn bộ có N node thì sẽ có N(N-1)/2 cung, trong khi hầu hết hầu hết các cung liên kết của các mạng thực large-scale xuất hiện một cách rải rác, đó là các mạng thực không đầy đủ các liên kết.

Sau khi nghiên cứu về mạng này, người ta thấy rằng mô hình mạng thông thường là mạng của các cặp đôi của những node xung quanh gần nhất gọi là một lưới (lattice). Lattice là đồ thị thông thường trong đó mọi node được nối lại với nhau bởi một vài các node xung quanh nó. Thuật ngữ “lattice” ở đây có thể đề cập tới một lưới hình vuông hai chiều (Hình 2.8) nhưng có thể có rất nhiều dạng hình học khác nhau. Một lưới lattice tối thiểu là một cấu trúc đơn giản một chiều giống như một hàng người đứng bắt tay nhau. Một lưới lattice của những node xung quanh gần nhất với đường biên xung quanh của N node được xếp thành vòng tròn, mỗi node i được xếp liền kề với các node hàng xóm của nó i=1, 2,..., k/2 vói k là số nguyên chẵn. Nếu với k

- 34 -

đủ lớn, mạng có độ phân cụm cao, khi đó độ phân cụm của mạng cặp đôi những hàng xóm gần nhất xấp xỉ C=3/4.

Hình 2.8 Mô hình lưới Lattice

Mạng cặp đôi những hàng xóm gần nhất không phải là mạng small-world, chiều dài trung bình của nó khá lớn và tiến tới vô cùng N → ∞. Điều này lý giải vì sao khó dùng mô hình mạng này để hoàn tất bất kì tiến trình động nào (chẳng hạn, quá trình đồng bộ hóa). Tuy nhiên, đối với mạng thông thường thì các node của nó cũng tồn tại rải rác và bị phân cụm nhưng nó lại có độ dài đường dẫn trung bình khá nhỏ. Một ví dụ đơn giản về mạng phân cặp hình sao trong đó có một node trung tâm và và N-1 node khác được nối trực tiếp với node trung tâm này nhưng giữa N-1 node này không có liên kết với nhau. Đối với loại mô hình mạng kiểu này, độ dài đường dẫn trung bình tiến tới 2 và độ phân cụm tiến tới 1 khi N → ∞. Mô hình mạng hình sao cũng mang tính chất rải rác, phân cụm, small-world và một số thuộc tính khác của nhiều mạng thực. Chính vì vậy, theo hướng này thì mô hình mạng hình sao tốt hơn là các lưới lattice thông thường và nhiều mạng thực nổi tiếng khác. Nhưng rõ ràng hầu hết các mạng thực không có dạng hình sao chuẩn.

2.2.2 Đồ thị ngẫu nhiên (Random Graphs)

Đối lập với hình ảnh cuối cùng của một mạng thông thường ở trên là một mạng với đồ thị ngẫu nhiên hoàn toàn. Mạng đồ thị ngẫu nhiên này được Erdös và Rényi (ER) nghiên cứu và phát minh ra cách đây 40 năm [12].

- 35 -

Giả thiết rằng bạn có một số N rất lớn (N >> 1) các nút đặt rải rác trên sàn nhà. Bạn buộc hai nút bất kì với xác suất p thành các cặp nút bằng một sợi dây. Khi đó, tổng số cung là pN(N-1)/2 (Hình 2.9). Mục tiêu chính của lý thuyết đồ thị ngẫu nhiên là để các định tại liên kết nào xác suất p của một thuộc tính cụ thể của đồ thị sẽ xuất hiện gần như là nhiều nhất.

Một điều khá đặc biệt đó là các tính chất chính và quan trọng của các đồ thị ngẫu nhiên có thể xuất hiện khá đột ngột. Ví dụ, nếu bạn nâng một nút lên liệu sẽ có bao nhiêu nút bị nâng theo? ER chỉ ra rằng nếu xác suất p lớn hơn một ngưỡng pc nào đó pc~(lnN)/N thì hầu hết mọi node trong đồ thị ngẫu nhiên là được kết nối, điều này có nghĩa là bạn sẽ nhặt tất cả các nút bằng cách nâng một nút lên.

Hình 2.9 Sự phát triển của một đồ thị ngẫu nhiên: khởi tạo 10 node trong(a), nối các cặp node với xác suất p=0.1 trong (b), p= 0.15 trong (c) và p= 0.25 trong (d).

Bậc trung bình của một đồ thị ngẫu nhiên là pNNpk ≅−>=< )1( . Gọi Lrand là độ dài

đường dẫn trung bình của mạng ngẫu nhiên. Bằng quan sát ta có thể thấy sẽ có randLk >< các node trong mạng ngẫu nhiên có khoảng cách Lrand hoặc rất gần với nó.

Do vậy, randLkN ><~ , điều này có nghĩa là >< kNLrand /ln~ . Sự gia tăng của hàm

- 36 -

loga trong độ dài đường dẫn trung bình với độ lớn của mạng là một ảnh hưởng phổ biến của small-world. Bởi vì lnN tăng chậm so với N, nó cho phép chiều dài trung bình phải khá nhỏ thậm chí ngay cả trong một mạng khá lớn. Mặt khác, trong mạng ngẫu nhiên hoàn toàn (ví dụ mạng của những người bạn thân) xác suất mà hai người bất kì của bạn là bạn của nhau không lớn hơn xác suất hai người được trọn ngẫu nhiên trong mạng của bạn là bạn của nhau. Vì thế, độ phân cụm của mô hình ER là

1/ <<>=<= NkpC . Điều này có nghĩa là mạng ngẫu nhiên trên diện rộng nói chung

là không bị phân cụm. Trong thực tế, với N lớn thuật toán ER sinh ra một mạng đồng nhất có các liên kết tuân theo phân phối Poisson (Hình 2.10).

Hình 2.10 Phân bố Poisson

Hình 2.11 Phân bố hàm lũy thừa

2.2.3 Các mô hình Small-world

Như đã đề cập ở trên, những mạng lưới (lattice) thông thường bị phân cụm nhưng nhìn chung nó không thừa kế đặc tính small-world. Mặt khác, đồ thị ngẫu nhiên có tính chất small-world nhưng lại không bị phân cụm. Chính vì thế, cả mô hình lưới thông thường và mô hình ngẫu nhiên ER đều không thỏa mãn trong việc xây dựng lại một số thuộc tính quan trọng của của nhiều mạng thực. Xét một cách tổng quát, hầu hết những mạng thế giới thực cũng không hoàn toàn thông thường, cũng không hoàn toàn ngẫu nhiên. Sự thật là mọi người thường biết những hàng xóm của họ nhưng cái “vòng tròn” của những người quen của họ có thể bị hạn chế đối với những người sống bên cạnh phía bên phải giống như mô hình lưới lattice được đề cập ở trên. Bên cạnh đó, những tình huống giống như những liên kết giữa các trang web trong mạng World Wide Web cũng không được tạo bởi mô hình ngẫu nhiên hay tiến trình ER như mong đợi.

- 37 -

Nhằm mục đích miêu tả sự chuyển đổi từ lưới lattice thông thường sang một đồ thị ngẫu nhiên, Watts và Strogatz [36] đã đưa ra mô hình mạng được gọi là mạng small-world. Mô hình WS được sinh ra giống như Hình 2.12.

Hình 2.12 Trong mạng những người bạn thân thông thường (a), mọi người là bạn chỉ với 4 người hàng xóm gần nhất. Trong mạng small-world (b), trung bình một người biết 4 người khác nhưng những người này có thể không phải là những người gần nhất. Trong mạng ngẫu nhiên (c), trung bình mỗi người vẫn biết 4 người khác nhưng 4 người này ở vị trí rải rác

Thuật toán của mô hình WS Small-world.

Khởi đầu theo thứ tự: Bắt đầu với mạng phân cặp nearest-neighbor bao gồm N node được sắp vào một vòng tròn, các node i sắp kề sát các node hàng xóm của nó, i=1,2,3,...,K/2 với K là số nguyên chẵn

Ngẫu nhiên hóa các liên kết: Nối các cặp đỉnh một cách ngẫu nhiên bằng một cung với xác suất p, thay đổi giá trị của p trong khoảng từ p=0 đến p=1 để có kết quả giám sát tỉ mỉ.

Việc nối các đỉnh ở trong nội dung trên có nghĩa là làm thay đổi một đầu cuối của liên kết tới một node được chọn một cách ngẫu nhiên từ cả mạng với ràng buộc bất kì hai node khác nhau không thể có hơn một liên kết giữa chúng và không có node nào liên kết với chính nó. Tiến trình này tạo ra pNK/2 các cung có sắp xếp dài, các cung này liên kết tất cả các node với nhau và nó cũng có thể là một phần của những node hàng xóm khác. Đối với hệ số phân cụm C(p) và độ dài đường dẫn trung bình L(p)

- 38 -

trong mô hình WS có thể được xem như một hàm cho việc nối các đỉnh với xác suất p. Một lưới lattice tròn thông thường (p=0) có độ phân cụm cao ( 4/3)0( ≅C ) nhưng nó

có độ dài đường dẫn trung bình dài ( 1)0( 2 >>≅ KNL ) (Hình 2.11). Người ta đã chứng

minh rằng, đối với một mạng có xác suất liên kết p nhỏ khi mà các thuộc tính cục bộ của mạng vẫ gần giống với những thuộc tính của mạng thông thường nguyên thủy, và khi độ phân cụm không lớn hơn nhiều so với giá trị khởi tạo của nó ( )0(~)( CpC ) thì

độ dài đường dẫn trung bình giảm nhanh chóng giống như trong các mạng ngẫu nhiên( )0()( LpL >> ) (Hình 2.13). Đây là một kết quả nghiên cứu thực nghiệm trong tự

nhiên. Một mặt có thể tạo một vài liên kết ngẫu nhiên để giảm đáng kể độ dài đường dẫn trung bình. Mặt khác, một vài kết nối đã được tạo ra thì không thể thay đổi thuộc tính phân cụm địa phương của mạng.

Hình 2.13 Độ dài đường dẫn trung bình và độ phân cụm của mô hình WS small-world

Mô hình small-world cũng có thể được xem như mạng đồng nhất trong đó tất cả các node có số cung xấp xỉ bằng nhau. Với sự tôn kính tác giả, mô hình WS small-world được tạo ra giống với mô hình đồ thị ngẫu nhiên ER. Những công trình nghiên cứu trên mạng small-world WS đã mở ra những nghiên cúu trên những mô hình mới của mạng phức hợp, bao gồm một số sự biến đổi của mô hình WS. Một sự biến đổi phổ biến đã được đề xuất bởi Newman và Watts [24] được biết đến như là mô hình NW small-world. Trong mô hình NW, không thể phá vỡ được liên kết giữa hai node hàng xóm gần nhất nhưng thay vì đó có thể thêm với xác suất p một liên kết p nối giữa các cặp node. Tương tự như trên, trong mô hình này không cho phép một node kết cặp với một node khác hơn một lần và không kết cặp với chính nó. Với p=0, mô

- 39 -

hình NW giảm so với mạng kết cặp nearest-neighbor và nếu p=1 nó trở thành mạng cặp đôi đầy đủ. Mô hình NW có phần dễ hơn trong phân tích so với mô hình WS nguyên thủy bởi vì nó điều khiển sự tạo thành của các cụm biệt lập, ngược lại điều này lại có thể xảy ra thực sự trong mô hình WS. Với p đủ nhỏ và N đủ lớn, mô hình NW về cơ bản là tương đương với mô hình WS. Ngày nay, hai mô hình này cùng nhau là mô hình nguyên thủy của mô hình small-world một cách phổ biến.

Mô hình Small-world đóng vai trò chủ chốt trong các mạng xã hội, nơi mà hầu hết mọi người đều là bạn bè với những người hàng xóm ngay bên cạnh, ví dụ những người hàng xóm trên cùng một con phố hoặc những người bạn đồng nghiệp trong cùng một văn phòng. Mặt khác, nhiều người có những người bạn cách xa về khoảng cách chẳng hạn những người bạn ở các nước khác nhau sẽ được biểu diễn bởi những cung rất dài được nối trong mô hình WS hoặc bởi kết nối thêm vào như trong mô hình NW.

2.2.4 Các mô hình Scale-free

Một đặc trưng phổ biến của đồ thị ngẫu nhiên ER và mô hình WS small-world đó là sự phân bố liên kết của mạng đồng nhất, đạt giá trị cực đại tại giá trị trung bình và giảm nhanh theo hàm mũ. Các mạng như vậy gọi là mạng hàm mũ (exponentially networks). Một khám phá có ý nghĩa gần đây trong lĩnh vực mạng phức hợp là một số các mạng large-scale bao gồm Internet, WWW và mạng trao đổi chất có tính chất scale-free và phân bố liên kết có dạng hàm lũy thừa (Hình 2.11).

Để giải thích nguồn gốc của độ phân bố hàm mũ, Barabási và Albert (BA) đã đưa ra một mô hình mạng khác [4,5]. Họ đã tranh cãi là nhiều mô hình mạng hiện nay không thể có đầy đủ cả hai thuộc tính quan trọng nhất của hầu hết các mạng thực.

Thứ nhất, các mạng thực là mở (có thể mở rộng) và chúng được tạo thành động bằng cách thêm tiếp các node mới vào mạng nhưng các node khác (các node đã tồn tại trong mạng) là tĩnh trong khi tất cả các cung có thể được thêm vào hay sắp xếp lại. Số các node là cố định trong suốt quá trình định hình tiến trình. Thí dụ, WWW vẫn tiếp tục tạo ra những trang web mới.

Thứ hai, cả đồ thị ngẫu nhiên và mô hình small-world đều có xác suất không thay đổi khi tạo ra những cung mới nhưng điều này lại không đúng trong thực tế. Bằng quan sát ta có thể thấy những trang web có rất nhiều liên kết (chẳng hạn trang chủ của Yahoo hoặc CNN) rất có khả năng nó sẽ có nhiều trong liên kết đến nữa. Điều này cái gọi là hiện tượng “rich-get-richer”.

- 40 -

Mô hình BA đưa ra giả thuyết là hai vấn đề chính của việc xây dựng một mạng mang cấu trúc scale-free đó là việc phát triển và ưu tiên gắn kèm. Giả thuyết này đã được chứng minh bằng thực tế bởi hầu hết các mạng tiếp tục phát triển bằng cách thêm các node mới và các node mới được ưu tiên gắn với các node đã tồn tại với một số lớn các kết nối (hiện tượng “rich-get-richer).

Tiến trình tạo ra một mô hình BA được tiến hành theo:

Thuật toán mô hình BA Scale-Free

1. Khởi tạo: Bắt đầu với một lượng nhỏ mo các node. Lặp lại qua trình tạo các node: một node mới được thêm vào và nó được liên kết với 0mm ≤ các node đã tồn tại

2. Sự gắn thêm ưu tiên: Xác suất ∏i

mà 1 node mới sẽ được kết nối với node i (một

trong số m node đang tồn tại) phụ thuộc vào cấp ki của node i, hay

∏ ∑=i j ji kk /

Sau t lần các bước, kết quả của thuật toán này trong một mạng với N= t+ mo node và mt cung (Hình 2.14). Phát triển theo 2 luật này, mạng phát triển thành trạng thái scale-invariant (rộng bất biến): Hình của độ phân bố không thay đổi trong khoảng thời gian cụ thể và không thay đổi theo sự gia tăng của sự co giãn mạng. Độ phân cụm tương ứng được thể hiện bởi hàm lũy thừa với số mũ 3, đó là xác suất tìm một node có k cung là có tỉ lệ với k-3.

Những kết quả bằng số đã xác định rằng, trong sự so sánh với một đồ thị ngẫu nhiên có cùng cỡ và cùng bậc trung bình, đường dẫn của mô hình scale-free có phần nhỏ hơn và độ phân cụm lại cao hơn. Điều này khẳng định sự tồn tại của một vài node mới bậc rất cao (ví dụ, với số lượng liên kết rất lớn) đóng vai trò “chìa khóa” trong việc mang các node khác nhau trong mạng đến gần nhau hơn. Mặc dù, cho tới ngày nay chưa có một công thức tính độ dài trung bình của đường dẫn cho mô hình scale-free. Mô hình BA là mô hình nhỏ nhất sử dụng kĩ thuật đáp ứng cho độ phân bố lũy thừa. Mô hình này có một số giới hạn rõ ràng khi so sánh với một số mạng thế giới thực. Sự theo dõi này có ảnh hưởng trong việc nghiên cứu và phát triển mạng, với mục đích khắc phục những giới hạn trong mô hình BA. Một sự tổng kết của mô hình này đã được Albert và Barabási [2] đưa ra.

- 41 -

Hình 2.14 Một mạng scale-free gồm 130 node được tạo ra theo mô hình BA scale-free. Năm node lớn nhất có màu đỏ, chúng kết nối với 60% các node khác có màu xanh

2.3 Mạng xã hội (Social Networks) Như đã trình bày ở phần trên, mạng xã hội chính là một ví dụ cụ thể của mạng

phức hợp. Nó là thành phần khá lớn và quan trọng trong mạng phức hợp. Một cách cụ thể, mạng xã hội là mạng của một nhóm người hoạt động (actors) và các mối quan hệ gắn kết họ với nhau. Những người hoạt động có thể là những cá nhân hoặc là tập thể (các đơn vị như các phòng ban, các tổ chức, các gia đình...). Những người này trao đổi tài nguyên với nhau và chính điều này đã gắn kết họ lại với nhau trong một mạng xã hội. Tài nguyên ở đây bao gồm dữ liệu, thông tin, sản phẩm và các dịch vụ, hỗ trợ xã hội hoặc hỗ trợ tài chính. Mỗi loại tài nguyên trao đổi được xem như một mỗi liên kết của mạng xã hội và những cá nhân duy trì mối liên hệ này được tương ứng với việc duy trì một nút (tie). Sức bền của nút này được sắp xếp từ yếu đến mạnh phụ thuộc vào số lượng và các kiểu của nguồn tài nguyên họ trao đổi, mức độ thường xuyên trao đổi và sự thân mật trong quá trình trao đổi giữa họ.

Các mối quan hệ trao đổi thường được tiến hành trong một số lượng dân số lựa chọn nhất định. Những nhà phân tích trong lĩnh vực mạng dựa vào các quan hệ giữa các thành viên của một cộng đồng, các hàng xóm, một nhóm hoặc một lớp để hiểu cách các mạng xác định dân số hay các nhóm nhỏ bên trong một mạng lớn. Cách

- 42 -

mà một người kết nối với một người khác thể hiện cấu trúc nền tảng của mạng, bao gồm những người thuộc và không thuộc vào một mạng và các kiểu trao đổi nào để xác định một mạng. Mạng này được duy trì bởi sự trao đổi của các tài nguyên đơn lẻ hay rất nhiều tài nguyên lớn tương ứng với các nút mạnh hay yếu. Ví dụ, các nhà phân tích có thể dò tìm sự trao đổi thông tin về công việc của những người quen biết nhưng không mấy thân thiện, mối quan hệ trong dòng tộc hoặc mối quan hệ giữa những người công nhân. Các mạng xã hội được lần dấu bởi những sự chuyển đổi này chỉ ra cách các nguồn tài nguyên di chuyển trong một mạng, cách mà các actors xác định vị trí để tác động tới nguồn tài nguyên trao đổi và các kiểu của tài nguyên trao đổi rất quan trọng trong những môi trường khác nhau.

Hình 2.15 Mô hình mạng xã hội

Vấn đề nghiên cứu cấu trúc của mạng xã hội đã gây được sự chú ý và quan tâm sâu sắc của các nhà nghiên cứu trong nhiều năm qua. Đầu tiên là thí nghiệm của Stanley Milgram (1967). Milgram đã bị cuốn hút vào việc khám phá ra độ dài đường dẫn giữa mọi người trong một mạng xã hội trên diện rộng. Mặc dù thí nghiệm của ông đã không toàn diện và đầy đủ song giả thuyết của ông đường kính của các mạng xã hội là nhỏ vẫn còn có giá trị. Trên thực tế, người ta đã tìm hiểu được nhiều mạng xã hội thỏa mãn giả thuyết đường kính nhỏ của Milgram, bao gồm các mạng cộng tác khoa học (Newman [26]) và đồ thị các cuộc gọi điện thoại...

- 43 -

Sự quan tâm nghiên cứu về mạng xã hội của các nhà khoa học được thể hiện thông qua những phát minh khoa học về mạng xã hội trong nhiều thập kỉ qua. nó được mô hình và phân tích bằng các công cụ lý thuyết đồ thị. Qua những nghiên cứu này, người ta đã chứng mình được mạng xã hội thực có xu hướng có cấu trúc của mạng bất ngẫu nhiên (non-random) ngoài ra nó còn mang hai tính chất nổi bật và quan trọng nhất của mạng phức hợp đó là thuộc tính small-world và thuộc tính độ phân phối theo hàm lũy thừa của mạng scale-free (Albert & Barabasi [2], Strogatz [32]).

2.4 Mạng thư điện tử (Email Networks) Mạng thư điện tử là một loại trong mạng xã hội. Nó là mạng của những người

trao đổi thư với nhau. Trong đó, mỗi node của mạng thư điện tử là một địa chỉ email của những người dùng khác nhau và nếu hai người dùng bất kì có sự trao đổi thư với nhau thì sẽ có một cung liên kết nối giữa hai node là địa chỉ tương ứng của hai người dùng này.

Mô hình mạng thư điện tử đầu tiên được biết đến là mô hình mạng thư điện tử của H. Ebel, L.-I. Mielsch và S. Bornholdt [11]. Họ đã chỉ ra được rằng mạng trao đổi thư điện tử là mạng có hướng và nó mang cả hai thuộc tính của mạng small-world và mạng scale-free.

2.4.1 Mạng thư điện tử scale-free.

Mạng thư điện tử dùng để nghiên cứu của H. Ebel, L.-I. Mielsch và S. Bornholdt được tạo ra từ log files của một máy chủ email tại trường đại học Keil, log files này ghi lại địa chỉ gửi và địa chỉ nhận của mọi thư điện tử từ hoặc tới một tài khoản của các sinh viên trong khoảng thời gian 112 ngày.

Hình 2.16 Sự phân bố bậc k của các node trong mạng thư

điện tử

Mạng bao gồm N=59812 node (bao gồm 5156 tài khoản của sinh viên) với giá trị bậc trung bình của các node là <k>=2.88 và gồm một vài cụm có ít hơn 150 node và một

- 44 -

thành phần lớn nhất có 56969 node (bậc trung bình <kmax>=2.96). Sự phân phối bậc của các node tuân theo hàm lũy thừa 81.1)( −∝ kkn với giới hạn số mũ (Hình 2.16).

Ví dụ của mạng thư điện tử ở trên giới hạn trong một máy chủ email riêng biệt. Vì thế, bậc của những người dùng của máy chủ email này được nhận biết một cách chính xác. Ở đây, những người dùng bên trong tương ứng với những địa chỉ email của các sinh viên. Các node bên ngoài chính là những node tương ứng với địa chỉ email khác có mối quan hệ với những node bên trong là địa chỉ email của các sinh viên này. H. Ebel, L.-I. Mielsch và S. Bornholdt đã chỉ giải quyết độ phân cụm đối với các các node bên trong (Hình 2.17) và nhận thấy rằng nó có thể được xấp xỉ bởi hàm lũy thừa 32.1

int )( −∝ kkn cũng như là giá trị bậc trung bình <k>=14.86. Bậc của các

node bên ngoài thông thường bị đánh giá thấp, số mũ này nhỏ hơn so với toàn mạng. Chính vì vậy, có nhiều node có bậc nhỏ trong sự phân bố của toàn mạng (Hình 2.16) từ đó trong sự phân cụm giới hạn với các node bên ngoài (Hình 2.17). Chú ý rằng ngưỡng của cả các độ phân phối là giống nhau. Vì thế, các địa chỉ gửi hầu hết là các node bên trong (ví dụ thư quảng cáo hay thư rác) không được xem là bậc tĩnh.

Hình 2.17 Sự phân bố bậc k của các node ứng với địa chỉ email của các sinh viên bên trong máy chủ email

2.4.2 Tính chất Small-world của mạng thư điện tử.

Bên cạnh tính chất scale-free, mạng thư điện tử còn mang tính chất của mạng “small-world” [36]. Ví dụ, đối với hai node hàng xóm của cùng một node nào đó thì xác suất mà hai node hàng xóm này có liên kết với nhau là rất cao và tồn tại đường dẫn trung bình rất nhỏ l của một đường dẫn ngắn nhất giữa hai node. Để đánh giá sự phân

- 45 -

cụm của mỗi mạng người ta dùng độ phân cụm C tương ứng với mỗi mạng này. Độ phân cụm C được định nghĩa như sau: Độ phân cụm vC của node v được đưa ra bằng

tỉ lệ tồn tại các liên kết vE giữa vk hàng xóm đầu tiên của nó và tổng số các cung có

thể )1(21 −vv kk . Bằng việc tính trung bình các vC của tất cả các node trong mạng cho ta

độ phân cụm của mạng.

vvv

vvv kk

ECC

)1(2

−=>=< (2.2)

Một định nghĩa đơn giản khác cho độ phân cụm:

triplesofnumbertriplesconnectedfullyofnumberC

__)____(3×

=∆ (2.3)

Trong đó, number_of_fully_connected_triples là tổng số các bộ ba node có liên kết cặp đầy đủ với nhau (có ba cung liên kết giữa ba node đó), còn number_of_triples là tổng số bộ ba node mà không đầy đủ các liên kết (chỉ có hai liên kết giữa ba node đó).

Nhìn vào công thức (2.2) và (2.3) ta có thể thấy hai công thức này là không tương đương. Công thức (2.2) có ý nghĩa định tính (vật lý) còn công thức (2.3) mang ý nghĩa định lượng. Khi tính toán độ phân cụm của một mạng người ta thường tìm hiểu xem nó có chịu ảnh hưởng bởi độ lớn của mạng không. Với dữ liệu tiến hành thực nghiệm ta không thể bao quát hết được các liên kết của các node bên ngoài với nhau hay nói cách khác mối liên kết giữa các node bên ngoài nói chung là không xác định được.

Áp dụng định nghĩa (2.2) và (2.3) đối với mạng ví dụ ở trên người ta tính được độ phân cụm của mạng 21044.3 −×=C và 31015.3 −

∆ ×=C . So sánh giá trị này với độ

phân cụm của mạng mạng ngẫu nhiên có xác suất nối giữa hai node là p không đổi khi đó độ phân cụm của mạng ngẫu nhiên là pCrand = . Cả hai giá trị C và ∆C đều lớn hơn

độ phân cụm trong một mạng ngẫu nhiên thực sự có cùng độ lớn (cùng số node) 51082.4 −×=randC . Giá trị của phân số tính độ phân cụm phân bố bởi phần của các node

bên trong thì nhỏ hơn phần của các node bên ngoài bởi vì mạng ví dụ không bao quát hết được những liên kết giữa các node bên ngoài mà những node bên ngoài thì lại chiếm đa phần các node hàng xóm của các node bên trong. Vì vậy, hầu hết các node bên ngoài có một lượng lớn các node bên trong là các node hàng xóm của nó và các node bên ngoài này kết nối với các node bên ngoài khác một cách thưa thớt. Theo định

- 46 -

nghĩa tính hệ số phân cụm (2.2) và (2.3) thì ∆C nhỏ hơn C thậm chí nó còn nhỏ hơn 2' 1087.1 −×=C là hệ số phân cụm của mạng có cỡ xác định với cùng sự phân bố cấp độ

nhưng được gán các liên kết một cách ngẫu nhiên [9].

Theo tính toán với mạng thư điện tử ví dụ này, giá trị đường dẫn trung bình ngắn nhất trong thành phần lớn nhất của mạng được xác định là bằng 03.095.4 ±=l với thuật toán Diskstra [31]. Nó lớn hơn độ dài đường dẫn trong một mạng có độ phân phối bậc của các node là như nhau 43.3' =l [9]. Nó vẫn nhỏ hơn độ dài đường dẫn của mạng ngẫu nhiên 10.10=randl (là mạng mà tất cả các cặp của các node được kết nối

với nhau bằng độ lớn xác suất không đổi theo cùng bậc trung bình [9,27]) Điều này có thể giải thích là vì trong mạng thư điện tử có một số node có số lượng các liên kết lớn (hubs) thể hiện tính của mạng scale-free.

2.4.3 Mạng thư điện tử là mạng có hướng

Mạng thư điện tử có thể được nghiên cứu như một đồ thị có hướng. Trong mỗi một thư điện tử ta có thể xác định được người gửi và người nhận. Do đó, đường liên kết của hai node có hướng trỏ từ người gửi đến người nhận. Tuy nhiên, ta cũng có thể coi mạng thư điện tử như là một đồ thị không có hướng được đề cập trong nội dung phân tích sự lan truyền của virus được trình bày ở dưới đây. Điều này cũng có vẻ hợp lý bởi bởi vì việc nhận thư và việc gửi thư được điều khiển bởi những tiến trình khác nhau.

Hình 2.18 Phân phối in-degree đối với mạng thư điện tử

- 47 -

Khi xem xét mạng thư điện tử là mạng có hướng, ta có thể xác định chính xác số liên kết node đó với các node bên trong và số liên kết của các node đó với các node bên ngoài. Do đó một lần nữa, việc tính toán độ phân phối bậc đối với của tất cả các node xung quanh và chỉ các node xung quanh ở bên trong lại được đặt ra. Độ phân phối bậc chỉ tính riêng đối với các node hàng xóm bên trong máy chủ email của một node (in-degree) rất giống với độ phân phối bậc tính cho tất cả các node và tính cho các node bên ngoài (Hình 2.18). Chúng đều có thể xấp xỉ bằng hàm lũy thừa

49.1)( −∝ iin . Theo giả thuyết về sự phát triển trong mô hình mạng của Huberman và

Adamic [1,17] có thể giải thích vì sao ta có thể chọn số mũ cho hàm phân phối mũ của in-degree nhận giá trị khoảng -1.5 như trên. Họ đề xuất rằng số các liên kết một node nhận tại một thời điểm là một phân số ngẫu nhiên của các liên kết nó vừa được nhận.

Đối với các out-degree thì sự phân bố phức tạp hơn. Trong toàn mạng, sự phân bố của các out-degree j tuân theo sự phân bố bậc của mạng scale-free

03.2)( −∝ jjn (Hình 2.19). Mặc dù sự phân phối tương ứng cho các node bên trong là

trải rộng nhưng không thể hiện tính chất scale-free như sự phân phối đối với các node bên ngoài. Nguyên nhân của hiện tượng này là do việc giới hạn cỡ của mạng ví dụ nhưng cũng có thể chỉ ra các lỗi có hệ thống gây ra do khả năng các sinh viên sử dụng nhưng account khác (bên ngoài) cho việc gửi email. Độ co dãn của số mũ out-degree của tất cả các mạng nằm trong khoảng khá rộng cho vấn đề truyền thông và các mạng xã hội ví dụ như mạng của các ngôi sao điện ảnh hoặc mạng điện thoại.

Hình 2.19 Phân phối out-degree đối với mạng thư điện tử

- 48 -

2.4.4 Sự lan rộng của virus trong mạng thư điện tử

Hiện tượng lan truyền virus thông qua mạng thư điện tử là một hiện tượng khá phổ biến trong xã hội ngày nay. Môt virus thư điện tử hay một con sâu thư điện tử là một chương trình được đính kèm với một thư điện tử. Khi người nhận mở thư điện tử có chứa sâu thì chương trình email của người nhận sẽ bị điều khiển để gửi lại một số các email nhiễm virus tới các địa chỉ email được tìm thấy trong sổ địa chỉ của người nhận (address book) hoặc trong những email được lưu trữ trong thư mục inbox trong hòm thư của người nhận.

Các virus thư điện tử theo cách này sẽ được nhân lên một cách nhanh chóng, do vậy mạng thư điện tử sẽ là vô hướng. Cách lan rộng của các virus theo hình thức này khác với chuỗi thư điện tử (chain email). Đối với chuỗi thư điện tử, trước khi chuyển tiếp chuỗi thư điện tử tới người khác người nhận sẽ bị hỏi có đồng ý chuyển không, nếu đồng ý thì mới chuyển tiếp chuổi thư điện tử tới địa chỉ khác, nếu không đồng ý thì chuỗi thư điện tử sẽ không được chuyển tiếp. Đối với thư virus, người dùng không hề biết việc thư virus này bị gửi tới tất cả những người có trong sổ địa chỉ của mình. Virus thư điện tử có thể là nguyên nhân dẫn đến nhiều sự phá hoại mạng máy tính một cách nghiêm trọng bằng việc pháp hủy dữ liệu trong các máy tính nhiễm virus hoặc gây quá tải trên máy chủ email và một số thiết bị khác. Trong tháng 5 năm 2000, sâu email “I love you” nhiễm tới 500.000 hệ thống riêng rộng và làm tẵc nghẽn 20% số máy ở Đức.

Trong các mạng scale-free, ngưỡng cho tỉ lệ lan truyền thư virus thấp hơn nhiều so với việc lan truyền thư virus trong các mạng được khám phá ra trước đây và thậm trí triệt tiêu. Điều này có nghĩa là các cấu trúc tự tổ chức của mạng thư điện tử làm cho việc lan rộng của các virus máy tính cũng như là của bất cứ thông tin nào khác trở nên dễ dàng. Thêm vào đó, trong mạng thư điện tử ta rất hay gặp trường hợp các node ngẫu nhiên trong mạng không hoạt động như mong đợi (failures). Ví dụ, một số người tham gia không trả lời thư điện tử hoặc máy của người nhận có cài chương trình ngăn virus.

Kết luận trên của mạng thư điện tử đã gợi ý ra những ứng dụng hữu dụng và có lợi nhưng đồng thời cũng chỉ ra cái nguy hiểm mang tính cố hữu của mạng thư điện tử. Sự bảo mật trong quá trình liên lạc bằng thư điện tử có thể phát triển theo hướng xác định ra địa chỉ trung tâm của các node có lượng liên kết cao và theo dõi chúng để tìm ra địa chỉ lan truyền virus một cách kĩ lưỡng hơn.

- 49 -

Như vây, mạng thư điện tử là một mạng mà các node được chỉ ra bằng các địa chỉ email và các liên kết bởi sự chuyển đổi giữa các thư điện tử được thừa kế cả hai thuộc tính scale-free và small-world. Mạng thư điện tử có thể được xem như là một mạng không có hướng hoặc có hướng.

2.4.5 Mạng thư điện tử khi bị spam tấn công

Mạng thư điện tử thông thường (không bị tấn công bởi các spam) mang các đặc trưng scale-free và small-world, nó không mang tính chất của mạng ngẫu nhiên như đã trình bày ở trên. Khi mạng bị tấn công bởi các spam thì cấu trúc của mạng sẽ thay đổi như thế nào?

Không giống như kiểu lan truyền của virus trong mạng thư điện tử là bị gửi một cách tự động cho tất cả những người có trong danh sách địa chỉ hoặc những người được lưu trong thư mục Inbox, spam do một tổ chức gửi với một số lượng lớn tới những đia chỉ người dùng rất ngẫu nhiên. Thông thường các tổ chức gửi thư rác này có một chương trình để tìm địa chỉ thư điện tử của người dùng rồi dùng những địa chỉ tìm ra đó để gửi thư rác do đó những người bị gửi thư rác này thường không có mối quan hệ thân thích gì với nhau.

Khi đó, trong mạng thư điện tử bị tấn công bởi spam địa chỉ gửi spam trở thành một node rất đặc biệt. Nó gửi đi một lượng thư lớn tới rất nhiều người ngẫu nhiên (những người không có mối quan hệ gì với nhau) và nó hầu như không nhận thư phản hồi từ người khác.

Như vậy, mạng thư điện tử bị tấn công bởi spam là một mạng thư điện tử nhưng có thêm một số node đặc biệt của những địa chỉ gửi thư rác. Như vậy, mạng thư điện tử bị tấn công bởi vẫn mang đặc trưng ban đầu của nó đó là hai đặc trưng của mạng scale-free và small-world. Ngoài ra, do bị ảnh hưởng của những node là địa chỉ gửi spam, mạng mang thêm tính chất của mạng ngẫu nhiên.

Tóm lại, trong mạng thư điện tử, các node thông thường có quan hệ thư qua lại với các node hàng xóm của nó trong mạng và giữa các node hàng xóm của node này cũng có quan hệ qua lại thư với nhau còn những node tương ứng với những địa chỉ gửi spam gửi thư rất nhiều mà không nhận thư của ai và giữa các node hàng xóm của node gửi spam này thường ngẫu nhiên và không có mối quan hệ với nhau. Đây chính một đặc điểm khác nhau giữa các node thông thường và các node gửi thư rác. Những đặc điểm khác biệt của các node gửi spam là cơ sở cho phương pháp lọc thư rác bằng bằng đồ thị thư điện tử mà sẽ được trình bày trong chương 3.

- 50 -

Chương 3

ỨỨNNGG DDỤỤNNGG MMẠẠNNGG TTHHƯƯ ĐĐIIỆỆNN TTỬỬ

TTRROONNGG LLỌỌCC TTHHƯƯ RRÁÁCC

Phương pháp lọc thư rác được sử dụng phổ biến trong hầu hết các máy chủ email hiện nay đó là phương pháp dựa trên việc thiết lập các quy tắc SpamAssassin và phương pháp thống kê Bayesian. Tuy vậy, các phương pháp này thường chiếm một lượng tài nguyên lớn của máy chủ khi thực hiện quá trình xác minh các thư điện tử gửi đến là thư rác và thư thường, đặc biệt là đối với những máy chủ có nhiều người dùng và lượng thư điện tử trao đổi là lớn. Chương này trình bày một phương pháp lọc thư rác khá hiệu quả và có thể giảm tải việc tính toán cho máy chủ email rất nhiều. Đó là phương pháp lọc thư rác dựa trên việc tính độ phân cụm của mạng thư điện tử. Đây là một hướng tiếp cận mới và đang được các nhà khoa học trên thế giới quan tâm phát triển.

3.1 Yêu cầu của bài toán đặt ra Cuộc chiến tranh giữa những kẻ gửi thư rác và các bộ lọc thư rác dường như

không thể chấm dứt. Những người phát triển phần mềm lọc thư rác thì cố gắng tìm hiểu một đặc điểm riêng nào đó của thư rác và dựa trên những đặc điểm này để lọc thư rác. Nhưng những kẻ phát tán thư rác (spammers) thích nghi rất nhanh với các biện pháp ngăn ngừa thư rác, chỉ một thời gian không lâu sau những kẻ gửi thư rác này lại tìm ra được cách khắc phục những đặc điểm đó. Như vậy, nó sẽ trở thành vòng tròn luẩn quẩn. Một bộ lọc tốt phải là một bộ lọc kết hợp được các phương pháp lọc để các phương pháp này có thể phát huy thế mạnh của mình và khắc phục những nhược điểm của các phương pháp khác.

Xu hướng của một công cụ lọc thư rác hiệu quả phải đảm bảo một số yêu cầu tối thiểu như:

Bộ lọc có thể lọc được nhiều loại thư rác với độ chính xác cao.

Tự động cập nhập thêm danh sách các spam mới mà không cần có sự can thiệp của con người.

- 51 -

Tự động thiết đặt các quy tắc lọc thư rác cho phù hợp đối với từng người dùng hoặc từng tổ chức.

3.2 Đề xuất phương pháp Với những yêu cầu đặt ra như trên, chương này trình bày phương pháp mới có

sử dụng các tính chất của mạng thư điện tử để xây dựng công cụ lọc thư rác. Đây là phương pháp sử dụng lý thuyết đồ thị tự động trong việc xác định mạng ứng mỗi người dùng. Một người dùng thư điện tử tương tự như đang sử dụng mạng thư điện tử của anh ta. Mạng này gồm một node tương ứng với anh ta và những node được nhận thư từ anh ta cũng như những node mà anh ta gửi thư đến. Mạng có hướng, với những thư điện anh ta nhận từ người khác thì sẽ có cung hướng từ những người đó tới anh ta, còn những thư điện tử mà anh ta gửi đi tương ững với những cung hướng từ anh ta đến người đó. Số lượng trao đổi thư giữa hai node bất kì trong mạng chính là trọng số của cung nối giữa hai người đó.

Ta ký hiệu đồ thị mạng thư điện tử là G = (E, V), trong đó E là tập các đỉnh (địa chỉ người dùng) và V là tập các cung nối các cặp đỉnh trong đồ thị. Một cách phổ biến [6,11,24,25,29], các tác giả thường dùng cách đánh chỉ số cho các đỉnh của đồ thị, vì vậy E là tập các số tự nhiên không vượt quá N, với N là số địa chỉ người dùng trong mạng điện tử.

Tính chất quan trọng trưng quan trọng cho mạng xã hội (nói chung) và mạng thư điện tử nói riêng là scale-free và small-world. Theo [11], độ đo scale-free được tính theo số cung gắn với các đỉnh trong đồ thị, mang ý nghĩa về phân bố cung đối với các đỉnh trong đồ thị. Thông thường, số cung gắn với các đỉnh khác nhau là khác nhau. Độ đo scale-free của mạng thường chịu ảnh hưởng nhiều bởi các đỉnh với số lượng lớn các cung liên kết đến. Theo [24], độ đo small-world thể hiện độ dài liên kết giữa các đỉnh trong đồ thị. Độ đo này được tính tương ứng với chiều dài trung bình của đường dẫn ngắn nhất giữa hai đỉnh bất kì.

P.O. Boykin và V. Roychowdhury [6] xuất phát theo hướng tiếp cận dựa theo header có trong Inblox của mỗi người dùng. Các tác giả mô hình hóa sự trao đổi thư điện tử của tập người dùng, một mạng thư điện tử, như một mạng social network. Dựa theo ý nghĩa của hai độ đo đặc trưng trên đây, công thức sau đây để tính độ phân cụm của đỉnh thứ i trong mạng thư điện tử được đề xuất:

)1(*2−

=ii

ii kk

EC (3.1)

- 52 -

Trong đó, Ci là độ phân cụm của đỉnh i, ki số đỉnh kết nối với đỉnh i, Ei là số lượng cung nối giữa các đỉnh láng giềng của i.

Tuy nhiên, để tính độ phân cụm cho các đỉnh trong mạng thư điện tử công thức này có một vài hạn chế. Thứ nhất, nó đã bỏ qua tất cả các đỉnh có k = 1. Thứ hai và là quan trọng hơn, kết quả tính toán không cho phép phân biệt được các đỉnh tuy có cùng giá trị E = 0 nhưng có giá trị k khác nhau (C = 0 khi E = 0).

Để khắc phục những nhược điểm trên, công thức để tính toán độ phân cụm C được thay đổi như sau:

1)1()1(*2+−

+=

ii

ii kk

EC (3.2)

Tuy nhiên, nhằm hướng tới mục tiêu tính toán độ tin cậy của người dùng, công thức trên vẫn chưa thực sự thuyết phục. Thông thường thì những người nhận được nhiều thư là những người có độ tin cậy cao. Nếu sử dụng công thức (3.2) để tính thì vẫn không phân biệt được trường hợp một người gửi thư cho nhiều người khác và trường hợp một người nhận thư từ nhiều người khác. Vì vậy, cần phải xem xét đồ thị thư điện tử trên phương diện có hướng và có trọng số do đó đề xuất công thức tính độ phân cụm mới như sau:

iii

ii R

SSE

C *2.01)1(

)1(*2+

+−+

= (3.3)

Trong đó, Ei là số cung nối giữa các node xung quanh node i, Si là số node mà có một cung từ node i đến các node này (số node mà được node i gửi thư đến), Ri là số node mà có cung từ các node này đến i (số node gửi thư cho node i).

Công thức đảm bảo nếu một người gửi thư cho nhiều node lân cận mà những node lân cận này có mối quan hệ với nhau thì độ phân cụm cao và nếu người này được nhận thư từ các node lân cận khác nữa thì độ phân cụm của người đó càng lớn. Đối với những spam thường không nhận thư nên Ri = 0.

Trong một khoảng thời gian dài, người dùng thường trao đổi qua lại nhiều thư với nhau. Số lượng thư trao đổi càng nhiều càng đánh giá mức độ thân quen của họ. Để có một cái nhìn khái quát, em đưa trọng số cung vào để tính toán độ phân cụm. Trọng số cung w của mỗi cung là số lượng thư được trao đổi giữa hai node người dùng.

Công thức mới cho các đại lượng Ei, Si, Ri

- 53 -

∑=

−+=Edge

jji wE

1)05.0*)1(1( (3.4)

∑=

−+=Send

jji wS

1

)05.0*)1(1( (3.5)

∑=

−+=cieve

jji wR

Re

1)05.0*)1(1( (3.6)

Trọng số cung chỉ có ý nghĩa khẳng định thêm mức độ quan hệ giữa hai node với nhau. Vì thế, chúng tôi chỉ dùng hệ số 0.05 để tạo ra sự chênh lệch không quá lớn.

Công thức độ phân cụm mà đưa ra ở trên thể hiện được cả hai thuộc tính scale-free và small-world.của mạng xã hội. Số hạng thứ nhất của công thức (3.3) thể hiện cho tích chất small-world còn số hạng thứ hai của công thức (3.3) thể hiện cho tính chất scale-free.

3.3 Đặc điểm của phương pháp Phương pháp này có một số ưu điểm sau:

Anti-spam phát triển theo hướng không phụ thuộc vào nội dung: Phương pháp mà chúng tôi đưa ra khắc phục được nhược điểm của hướng tiếp cận nội dung đó là không can thiệp vào nội dung thư của người dùng. Hơn thế nữa, bộ lọc có thể áp dụng cho bất cứ loại ngôn ngữ của nước nào hoặc với những thư có kiểu đặc biệt (như chèn hình ảnh, âm thanh, website…) mà không cần phải đưa ra những quy tắc riêng cho từng loại.

Tự động thiết lập các quy tắc: Phương pháp này khắc phục được nhược điểm của hướng tiếp cận header đó là khả năng tự động thiết lập các quy tắc để tìm ra spammer. Blacklist sẽ được tự động cập nhật thêm những spammer vào mà không cần sự can thiệp của người quản trị.

Anti-spam phát triển theo hướng bản địa hóa các quy tắc: một nhóm các quy tắc chỉ dành cho một nhóm server nhất định, được thiết lập chỉ dựa vào dữ liệu của server đó.

Giải quyết được vấn đề cold-start: Thời gian mà hệ thống phải học để lọc được thư rác giảm rất nhiều so với các hướng tiếp cận khác. Hệ thống không cần sự can thiệp của người dùng lúc đầu phân loại đâu là địa chỉ tin cậy, đâu là địa chỉ gửi thư rác. Trong khi đó, một số phương pháp lọc thư rác hiệu

- 54 -

quả (thí dụ Bayesian) phải cần một tập dữ liệu đủ lớn và cập nhật, người dùng phải phân biệt và cho máy học đâu là thư rác, đâu là thư bình thường.

Ngăn được sự tấn công của spammers: Những spammers muốn tấn công được hệ thống nó phải làm cho độ phân cụm của nó cao. Tuy nhiên, muốn có hệ số phân cụm cao ngoài việc phải tạo ra mạng có tính chất social network cho nó, nó còn phải được nhận thư từ những người ở bên trong hệ thống và điều này là không thể với một spammer.

Giảm sự truy cập tới máy chủ email: Đối với những máy chủ email lớn (thí dụ Yahoo mail, Gmail…) việc giảm tải sự truy cập đến máy chủ là rất cần thiết. Với hướng tiếp cận dựa trên nội dung phải xử lý nội dung của từng thư để xác định spam nhưng phương pháp của chúng tôi chỉ cần xử lý với log files của máy chủ. Như vậy sẽ giảm rất nhiều thời gian cũng như các tiến trình xử lý ở phía máy chủ.

- 55 -

Chương 4

TTHHỰỰCC NNGGHHIIỆỆMM TTRRÊÊNN LLOOGG FFIILLEESS

Để chứng minh sự đúng đắn của thuật toán đã đưa ra ở chương 3, chương này trình bày thực nghiệm tiến hành trên log files của máy chủ email của Đại học Quốc Gia Hà Nội trong thời gian một tuần và kết quả thu được từ thực nghiệm.

4.1 Đặc điểm dữ liệu Dữ liệu dùng để xây dựng đồ thị mạng thư điện tử được lấy từ log files của

một máy chủ email Đai học Quốc gia Hà Nội trong khoảng thời gian một tuần. Từ log files này cung cấp những thông tin về người gửi, người nhận và thời gian của các thư điện tử được gửi đi, nhận về thông qua máy chủ email này. Log files không ghi nội dung thư, vì vậy không xâm phạm đến tính riêng tư của người dùng.

Hình 4.1 Đồ thì thư điện tử của máy chủ email của Đại học Quốc Gia Hà Nội

(từ ngày 28/3 đến 03/04 năm 2006)

- 56 -

Sau khi phân tích dữ liệu thống kê được tổng số 19875 người dùng tương ứng với 19875 địa chỉ email khác nhau. Trong đó có 1150 người dùng bên trong máy chủ email và 18725 người dùng ở bên ngoài. Tổng số thư được trao đổi trong khoảng thời gian này là 88842 thư.

Từ dữ liệu thu được em xây dựng được đồ thị mạng thư điện tử với mỗi node là một địa chỉ email, một cung có hướng từ node tương ứng với địa chi gửi tới node tương ứng với địa chỉ nhận. Trọng số của cung là số lượng thư ứng với cung đó ở những thời điểm gửi khác nhau.

Hình 4.1 minh họa một đồ thị mạng thư điện tử của máy chủ email của Đại học Quốc gia Hà Nội trong khoảng thời gian một tuần từ ngày 28/03 đến ngày 03/04 năm 2006. Hình 4.2 minh họa đồ thị mạng thư điện tử của máy chủ trong một giờ (từ 18:00 đến 19:00 ngày 28/3). Các node màu xanh tương ứng với những người dùng bên trong máy chủ email, các node màu đỏ tương ứng với những người dùng bên ngoài. Chiều của mũi tên cho biết thư được gửi đi từ người gửi đến người nhận.

Hình 4.2 Đồ thì thư điện tử của máy chủ email của Đại học Quốc

Gia Hà Nội (từ 18:00 đến 19:00 ngày 28/3/2006)

- 57 -

4.2 Kết quả thực nghiệm và phân tích Với dữ liệu trên, sau khi tiến hành tính toán độ phân cụm của người dùng

bằng công thức(3) chúng tôi thu được kết quả kết quả rất khả quan.

Hình 4.3 Biểu đồ độ phân cụm của người dùng bên trong máy chủ email

Hình 4.4 Biểu đồ độ phân cụm của người dùng bên ngoài máy chủ email

- 58 -

Hình 4.3 biểu đồ độ phân cụm của người dùng bên trong máy chủ email. Biểu đồ hiển thị tổng số người dùng ứng với một độ phân cụm nào đó.

Hình 4.4 biểu đồ độ phân cụm của người dùng bên ngoài máy chủ email. Biểu đồ biểu thị tổng số người dùng ứng với một độ phân cụm nào đó.

Từ biểu đồ hình 4.3 và hình 4.4 cho thấy người dùng bên trong email server thường có độ phân cụm cao (tập trung từ 0 đến 180) trong khi đó người dùng bên ngoài thì độ phân cụm rất thấp (tập trung từ 0 đến 2.5). Hình 4.4 cho thấy một số lượng không nhỏ những người dùng có độ phân cụm rất thấp (từ 0 đến 0.5) đây rất có thể là những địa chỉ gửi thư rác (xem chi tiết trong bảng 2).

Giá trị độ phân cụm

Tổng số người dùng

Người dùng bên trong

Người dùng bên ngoài

1.0≤C 653 0 653

5.01.0 ≤< C 1329 15 1314

0.15.0 ≤< C 1734 28 1706

5.10.1 ≤< C 761 33 728

0.25.1 ≤< C 7560 39 7521

5.20.2 ≤< C 6606 309 6297

0.35.2 ≤< C 583 106 477

0.40.3 ≤< C 184 171 13

0.50.4 ≤< C 100 96 4

0.5>C 366 352 14 Bảng 2 Sự phân bố tổng số địa chỉ của người dùng, người dùng bên ngoài và người dùng bên trong máy chủ email theo khoảng giá trị độ phân cụm.

Hình 4.5 là đồ thị mạng thư điện tử của một người dùng ở bên ngoài có độ phân cụm thấp C=0.00055. Từ đồ thị ta có thể thấy rõ người này đã phát tán một lượng thư lớn đến rất nhiều địa chỉ khác mà không nhận được thư từ bất kì người dùng nào. Số liên kết giữa những người dùng bị người này gửi thư đến rất ít, chỉ có một liên kết từ người dùng 420 gửi đến người dùng 430 (đây có thể là sự trùng hợp một cách ngẫu nhiên). Do đó ta có thể khẳng định đây là người dùng có độ tin cậy thấp và là một địa chỉ gửi thư rác.

- 59 -

Hình 4.5 Đồ thị của người dùng bên ngoài máy chủ có độ phân cụm thấp

Hình 4.6 Đồ thị người dùng bên trong máy chủ có độ phân cụm cao.

Hình 4.6 là đồ thị mạng thư điện tử của người dùng bên trong máy chủ email có độ phân cụm cao C= 20.887. Nhìn đồ thị này ta có thể thấy người dùng này nhận được rất nhiều thư từ người dùng khác và địa chỉ này cũng gửi nhiều thư đi nhưng giữa những người nhận thư từ địa chỉ này có mỗi quan hệ chằng chịt với nhau. Do vậy, độ phân cụm của người dùng này cao hay nói cách khác đây chính là người dùng có độ tin cậy cao và không phải là địa chỉ gửi thư rác.

Hình 4.7 là đồ thị mạng thư điện tử của người dùng bên ngoài máy chủ email có độ phân cụm C= 1.7595. Từ đồ thị ta thấy người dùng này gửi thư cho một lượng người không quá lớn và có sự nhận lại thư từ những người gửi đi. Do đó, đây là một địa chỉ email bình thường và không phải là địa chỉ phát tán thư rác.

- 60 -

Hình 4.7 Đồ thị người dùng bên ngoài máy chủ

có độ phân cụm cao

4.3 Nhận xét Từ các hình vẽ và bảng thống kê 2 cho ta thấy, công thức tính độ phân cụm

trên rất hợp lý và hiệu quả trong đánh giá độ tin cậy của người dùng trong một máy chủ email.

Những người dùng quan trọng (nhận thư từ nhiều node khác và những người họ gửi thư có mối quan hệ với nhau) mạng thư điện tử của họ có độ phân cụm cao. Ngược lại, mạng của người dùng không quan trọng có độ phân cụm thấp. Đặc biệt, với những node tương ứng với spammers thì mạng thư điện tử có độ phân cụm rất thấp. Kết quả hậu kiểm trực tiếp đã khẳng định tính đúng đắn của đánh giá nhận xét trên đây.

Từ kết quả trên có thể xây dựng được một công cụ lọc thư rác hiệu quả bằng cách xác định hai ngưỡng của độ phân cụm C. Ngưỡng thứ nhất gọi là Cspam Nếu node nào có độ phân cụm nhỏ hơn Cspam thì địa chỉ ứng với node ấy chính là địa chỉ gửi thư rác. Ngưỡng thứ hai gọi là Cham. Nếu node nào có độ phân cụm lớn hơn Cham thì địa chỉ ứng với node đó là một địa chỉ tin cậy không phải là địa chỉ gửi thư rác.

Những địa chỉ tương ứng với các node có độ phân cụm nhỏ hơn Cspam sẽ bị đưa vào Blacklist. Ngược lại, những địa chỉ tương ứng với các node có độ phân cụm lớn hơn Cham được đưa vào Whitelist. Những địa chỉ tương ứng với những node còn lại ( Cspam < C < Cham) được đưa vào Greylist để theo dõi trong thời gian tiếp theo.

- 61 -

KKếếtt lluuậậnn

Lọc spam bằng phương pháp dùng mạng thư điện tử là một hướng mới và khắc phục được nhiều nhược điểm cố hữu của các phương pháp trước đây. Hướng tiếp cận này đặc biệt hiệu quả trong việc sử dụng làm bộ lọc cơ sở cho việc giải quyết một cách tổng quát cho vấn đề thư rác trong trường hợp đòi sự chính xác cao nhưng không giải quyết được bằng những bộ lọc dựa trên nội dung.

Trên thực tế, hiện tại địa chỉ email có thể được làm giả, có nghĩa là spam có thể giả danh địa chỉ email tin cậy, tuy vậy khi các phương pháp SPF, Domain-keys, CallID được áp dụng rộng rãi (đây là xu hướng phát triển của anti-spam), mọi địa chỉ email của người gửi sẽ là địa chỉ email thật. Vì vậy, để có một công cụ lọc thư rác này thực sự hiệu quả cần kết hợp thêm với các phương pháp khác.

Khóa luận đã hệ thống hóa một số vấn đề lý thuyết về thư rác, các hướng tiếp cận trong vấn đề lọc thư rác trước đây đồng thời trình bày một số khái niệm và đặc điểm của các mạng phức hợp, mạng xã hội và mạng thư điện tử. Một cách tính mới cho độ phân cụm của mạng thư điện được đề xuất, quá trình tiến hành thực nghiệm đối với cách tính mới này và đã thu được một số kết quả rất khả quan.

Với kết quả thu được, dự định trong thời gian tới sẽ tiến hành thử nghiệm tích hợp chương trình lọc thư rác này vào máy chủ email của Đại học Quốc Gia Hà Nội. Kết quả của khóa luận đóng góp vào đề tài nghiên cứu cơ bản và đề tài cấp nhà nước về lọc nội dung trên Internet.

- 62 -

Tài liệu tham khảo [1] LA Adamic and BA Huberman. “Power-law distribution of the World Wide

Web”. Science, 287:2115a, 2000 [2] R. Albert and A-L. Barabási, “Statistical mechanics of complex networks”,

Review of Modern Physics, vol. 74, pp. 47-91, January 2002. [3] R. Albert, H. Jeong and A.-L. Barabási, “Diameter of the World Wide Web,”

Nature, vol. 401, pp. 130-131, Sept. 1999. [4] A-L. Barabási and R. Albert, “Emergence of scaling in random networks”,

Science, vol. 286, pp. 509-512, Oct. 1999. [5] A-L. Barabási, R. Albert and H. Jeong, “Mean-field theory for scalefree random

networks”, Physica A, vol. 272, pp. 173-187, 1999. [6] P.O. Boykin and V. Roychowdhury (2005). Leveraging social networks to fight

spam. IEEE Computer, 38(4):61–68, 2005. [7] R. F. i Cancho, C. Janssen and R. V. Sole, “Topology of technology graphs:

small world patterns in electronic circuits”, Phys. Rev. E, vol. 64, 046119, Sept. 2001.

[8] R. F. i Cancho and R. V. Sole, “The small-world of human language”, Proc. R. Soc. London, Ser. B, vol. 268, no. 1482, pp. 2261 - 2265, 2001

[9] J. Davidsen, H. Ebel, and S. Bornholdt, “Emergence of a small world from local interaction: Modeling acquaintance networks”, Phys. Rev. Lett. 88, 128701 (2002)

[10] Deborah Fallows (2003). Spam: How it is hurting email and degrading life on the internet. Technical report, Pew Internet and American Life Project, Oct 2003.

[11] H. Ebel, L-I. Mielsch and S. Bornholdt (2002). Scale-free topology of email networks, Phys. Rev. E, 66, 035103 (R), Sept. 2002.

[12] P. Erdös and A. Rényi, “On the evolution of random graphs”, Publ. Math. Inst. Hung. Acad. Sci., vol. 5, pp. 17-60, 1959.

[13] M. Faloutsos, P. Faloutsos and C. Faloutsos, “On power-law relationships of the Internet topology”, Comput. Commun. Rev., vol. 29, pp. 251- 263, 1999.

[14] J. Golbeck and J. Hendler (2004). Reputation Network Analysis for Email Filtering. Proc. of the Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA, July 2004.

[15] A. Gray and M. Haahr. Personalised (2004). Collaborative Spam Filtering. Proc. of the Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA, July 2004.

- 63 -

[16] Guanrong Chen “Complex networks: Modelling, control and synchoroniation” , Science, vol. 208, no. 554, pp. 824-827, Oct. 2003.

[17] BA Huberman and LA Adamic, "Growth dynamics of the world-wide web," Nature 401, 131 (1999)

[18] H. Jeong, B. Tombor, R. Albert, Z. Oltvai, and A.-L. Barabási, “The large-scale organization of metabolic networks,” Nature, vol. 407, pp.651-653, Oct. 2000.

[19] Medina, I. Matta, J. Byers, “On the origin of power-laws in Internet topologies”, ACM SIGCOMM Comput. Commun. Rev., vol. 30, no. 2, 18-28, 2000.

[20] Mehran Sahami, Susan Dumais, David Heckerman and Eric Horvitz (1998). A Bayesian Approach to Filtering Junk Email. Proceedings of AAAI-98 Workshop on Learning for Text Categorization.

[21] S. Milgram, “The small-world problem”, Psychology Today, vol. 2, pp. 60-67, 1967

[22] R. Milo, S. Shen-Orr, S. Itzkovitz, N. Kashtan, D. Chklovskii and U.Alon, “Network motifs: Simple building blocks of complex networks”, Science, vol. 298, no. 5594, pp. 824-827, Oct. 2002.

[23] J. M. Montoya and R. V. Solé, “Small-world patterns in food webs”, J.Theor. Biol. vol. 214, 405-412, 2002.

[24] M. E. J. Newman and D. J. Watts, “Renormalization group analysis of the small-world network model”, Phys. Lett. A, vol. 263, pp. 341-346, 1999.

[25] M. E. J. Newman, S. Forrest, and J. Balthrop (2002), “Email networks and the spread of computer viruses”. Physical Review E 66, 2002.

[26] M. E. J. Newman, “Scientific collaboration networks: I. Network construction and fundamental results”, Phys. Rev. E, vol. 62, 016131, 2001.

[27] MEJ Newman, SH Strogatz and DJ Watts, “Random graphs with arbitrary degree distributions and their applications”, Phys. Rev. E 64, 026118 (2001)

[28] R. Pastor-Satorras and A. Vespignani, “Immunization of complex networks”, Phys. Rev. E65, 036104 (2002)

[29] Paul Alexandru Chirita, J¨org Diederich, Wolfgang Nejdl (2005). MailRank: Using Ranking for Spam Detection. CIKM ’05 Bremen, Germany

[30] M. Perone (2004). An overview of spam blocking techniques. Technical report, Barracuda Networks, 2004.

[31] Kenneth H. Rosen, “Handbook of Discrete and Combinatorial Mathematics”, CRC Prss, Boca Raton, 2000

- 64 -

[32] S. H. Strogatz, “Exploring complex networks”, Nature, vol. 410, pp. 268-276, March 2001

[33] S. Valverde, R. Ferrer-Cancho and R. V. Sole, “Scale-Free Networks from optimal design”, arXiv: cond-mat/0204344, April 2002.

[34] A. Vazquez, R. Pastor-Satorras and A. Vespignani, “Internet topology at the router and autonomous system level”, arXiv: cond-mat/0206084, June 2002.

[35] X. F. Wang, “Complex networks: topology, dynamics and synchronization”, Int. J. Bifurcation & Chaos, vol. 12, no. 5, pp. 885-916, May 2002.

[36] D. J. Watts and S. H. Strogatz, “Collective dynamics of ‘small world’ networks”, Nature, vol. 393, pp. 440-442, June 1998.

[37] R. J. Williams, N. D. Martinez, E. L Berlow, J. A. Dunne and A-L. Barabasi, “Two degrees of separation in complex food webs”, Proc. Natl.Acad. Sci, vol 99, no. 20, 12913-12916, Oct. 2002.

[38] G.L. Wittel and S.F. Wu (2004). On Attacking Statistical Spam Filters. Proc. of the Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA, July 2004.

[39] Spam Filtering Research http://spamlinks.net/filter-research.htm

ĐẠi hỌc quỐc gia hÀ nỘi trƯỜng ĐẠi hỌc cÔng...

Documents